Recommended Search Engine Optimization

Transcription

Recommended Search Engine Optimization
Beispielbild
Recommended Search Engine Optimization
by Ralf Kuschel
Student, Freie Universität Berlin
Directory
Informatik, Semesterarbeit, 28.01.2008
2
Architektur
Informatik, Semesterarbeit, 28.01.2008
3
Architektur
Document Index
− übernimmt die Datenverwaltung
− teilt Dokumenten eine eindeutige DocID zu
− geschieht durch bilden einer Checksumme welche aus Buchstaben und Zahlen besteht
− Bei erfolgreichem Durchlauf wird eine Lokale Kopie im Repository angelegt
− gespeichert werden Erstelldatum, Änderungshäufigkeit, Seitentitel und IP-Adresse und
Hostname des Hosters
Scheduler
− Verwaltungsorgan der Suchmaschine
− organisiert und verteilt Aufträge an die Webcrawler
− wechselt zwischen neu zu erfassenden Seiten und zu pflegenden Seiten
(alternierende Folge)
− weiß immer über den Zustand der Crawler bescheid
Informatik, Semesterarbeit, 28.01.2008
4
Architektur
Webcrawler
− liegen im allgemeinen als Cluster vor (komplettes Rechnersystem)
− arbeitet mit HTTP-Request und HTTP-Response
− sammelt Daten von den jeweiligen Webservern
− sind diese nicht mehr vorhanden, so löscht der Storeserver den Eintrag aus dem
Dokumentenindex
− gewichtet Seiten nach ihrer Aktualisierung, denn eine Webseite die häufig aktualisiert wird gilt als
informativer und wird somit höher gewichtet
− Webseiten sollten eine möglichst geringe Dokumententiefe haben, denn die Crawler erachten
tieferliegende Dokumente unwichtiger, als Dokumente auf der Root-Ebene
− Google betreibt ca. 10.000 Server, mit je 200 Crawlern
− diese sind einfache Linux-Rechner
− leitet gesammelte Informationen an den Storeserver weiter
Informatik, Semesterarbeit, 28.01.2008
5
Architektur
Informatik, Semesterarbeit, 28.01.2008
6
Pagerank-Verfahren
Informatik, Semesterarbeit, 28.01.2008
7
On-Page Optimierung
− Fehlerfreies HTML anwenden, das heißt keine Klammern vergessen,
Rechtschreibfehler und weitere Fehler die aus Unachtsamkeit passieren
− Darauf achten das eine richtige URL angegeben wird.
<a href=”http://mindblast.de//projekte/index.html“>
Diese Seite würde den Benutzer nicht auf die gewünschte Webseite
verlinken, sondern ihm einen 404-Fehlercode (Gewünschte Ressource
nicht mehr verfügbar) ausgeben.
- Da dies für den Benutzer schon unerreichbar ist, ist die auch für die
Crawler nicht erreichbar und wird somit nicht indexiert
Informatik, Semesterarbeit, 28.01.2008
8
Webstandards
− Immer den aktuell gültigen HTML-Code benutzen, da viele Programme die
Webseiten generieren noch alte HTML-Codes beinhalten
− Durch den Browser-Konkurrenzkampf kommt es zu proprietären HTML- Tags,
die von den Suchmaschinen jedoch nicht unterstützt werden
− Der allgemeine Standard dem HTML unterliegt ist der W3C-Standard
WICHTIG
Ein Dokument, welches einen fehlerfreien HTML-Code vorweist ist nicht nur ein
Beweis für die Sorgfalt und Professionalität des Webautors, sondern stellen für
die Suchmaschinen ein anwendbares Gütekriterium dar, denn eine gepflegte
fehlerfrei programmierte Webseite gilt gleichzeitig auch als informativ.
Informatik, Semesterarbeit, 28.01.2008
9
HTML-Standards
Möglichkeit zur Überprüfung seines HTML-Codes
Informatik, Semesterarbeit, 28.01.2008
10
Cascading Style Sheets
− Mögliche Alternative zu HTML
− Trennung von Inhalt und Design
− Vorteil: CSS werden von Suchmaschinen nicht interpretiert
− Dies erlaubt es Webautoren seine Inhalte so zu positionieren das sie für den
Benutzer sichtbar sind, jedoch für die Crawler nicht
− Dennoch begeht man hier eine Gradwanderung
− Denn das gezielte verwenden von CSS zählt als Täuschungsversuch läuft man
gleichzeitig Gefahr aus dem Index geworfen zu werden
− Sollte man dies trotzdem verwenden, sollte man immer informiert sein ab wann
Suchmaschinen auch CSS-Dokumente interpretieren können
Informatik, Semesterarbeit, 28.01.2008
11
HTML-Tags
Neben dem verwenden von fehlerfreien HTML-Code sollte auch darauf geachtet
werden, dass man die korrekten HTML-Tags verwendet.
Falsche Überschrift:
<div class=“ueberschrift_gross“>Über Baumwurzeln</div>
Richtige Überschrift:
<h1 class=“ueberschrift_gross“>Über Baumwurzeln>/h1>
Was für den Benutzer nicht sichtbar ist, ist für die Webcrawler sehr entscheidend
denn diese lesen nur den Quelltext aus und erkennen in der falsch Überschrift
zwar den Inhalt jedoch nicht, dass es eine Überschrift sein soll. Bei der richtigen
Verwendung des HTML-Tags erkennt der Crawler das Fragment als Überschrift
an und was besonders wichtig ist, als Überschrift der Ebene <h1> also der
obersten Ebene.
Informatik, Semesterarbeit, 28.01.2008
12
Seitenstruktur
− Sollte in logisch hierarchischer Struktur aufgebaut sein
− Wichtige Dokumente sollten direkt über die Navigation der Webseite erreichbar
sein und eine geringe Dokumententiefe aufweisen (Gliederung der Webseite
vorhanden).
− Dokumententiefe gering halten und keine Sackgassen einbauen, aus denen der
Benutzer nur mit der „Zurück“-Taste rauskommt, sondern immer einen Link im
besten Fall zur Indexseite geben.
− Dokumententiefe geringer als 4 halten, damit der Benutzer nicht die
Orientierung verliert
− Wahlweise kann man auch eine Pfadverfolgung angeben
Informatik, Semesterarbeit, 28.01.2008
13
Frames
− Suchmaschinen können Frames meist schwer
oder garnicht auslesen
−Eine Seite die aus Frames besteht ist ein
leeres Dokument für den Crawler da die
Informationen innerhalb der Rahmen liegen
− Das <body>-Tag welches den eigentlich
Inhalt der Webseite beschreibt ist wie man
sehen kann hier leer
− neue Webcrawler sind bereits in der Lage
Frame-Webseiten zu indexieren, allerdings
werden hier der nav und der main Bereich
getrennt indexiert
− weiteres Problem durch eingehende Links, da
man auf Frame-Webseiten nicht ohne weiteres
linken kann
Informatik, Semesterarbeit, 28.01.2008
14
Keyword-Recherche
-
unterliegen Gütekriterien
keine Abkürzungen verwenden
sollte das Thema der Seite so genau beschreiben wie möglich
keywords analysieren nach Häufigkeit und notfalls Synonym finden
Mitbewerberdichte ergründen
Informatik, Semesterarbeit, 28.01.2008
15
Keyword-Dichte
-
Maximale Häufigkeit eines Wortes welches im Dokument ein Keyword darstellt
-
Sollte maximal 3% - 8% des gesamten Wortanteils sein
-
Wird mit dem TF-Algorithmus errechnet
-
Verhinderung des Spams
Informatik, Semesterarbeit, 28.01.2008
16
Zusammenfassung
Optimierung
Effekt
HTML-Standards beachten
- Webseite kommt in den Index
- Crawler können die Webseite besser auslesen
Link-Popularity
- Erhöhung des Pageranks wenn man Kontakte zu
kompetenten Webseiten hegt
Keywords
- Keywords an den wichtigen Stellen plazieren
- Mit der Dichte nicht übertreiben
„sauberes HTML“
-Zeugt von der Qualität der Webseite
-Bescheinigt dem Programmierer eine hohe
Kompetenz
Hierarchische Seitenstruktur
-Bessere Benutzbarkeit
- Webseite gewinnt zusätzlich an Qualität
Domain
- Eine geeignete Domain die der Thematik der
Webseite angepasst ist, erhöht die Chance bei
gesuchtem Begriff weit oben zu stehen
-Die Bekanntmachung der Seite kann einen
größeren Effekt haben als die Optimierung selber
-Wenn eine Seite als besonders wertvoll empfunden
wird, so wird diese auch weiterempfohlen
Public Relation
Informatik, Semesterarbeit, 28.01.2008
17
Quellen
1.
Suchmaschinen-Optimierung – Das umfassende Handbuch von Sebastian Erlhofer
2.
http://www.wikipedia.de
3.
http://www.seo-solutions.de/artikel/geschichte-der-suchmaschine-google.html
4. http://www.lousigerblick.de/archives/141-Grundlagen-der-On-Page-SEO.html
5. http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/ChristophLehrke.pdf
6. http://www.rechtsprobleme.at/doks/Diss-Frames.html
Informatik, Semesterarbeit, 28.01.2008
18