PDF-Dokument 1,0 MB - Hessen-IT

Transcription

PDF-Dokument 1,0 MB - Hessen-IT
Hessisches Ministerium für Wirtschaft,
Verkehr und Landesentwicklung
hessen »
Hier ist die Zukunft
media
Band 32
www.hessen-it.de
Gefunden werden
im Internet
Gefunden werden
im Internet
hessen-media Band 32, 2. Auflage
Prof. Dr. Paul Alpar
Dipl.-Wirtschaftsmath. Markus Pfuhl
Dipl.-Vw. Sebastian Pickerodt
Hessisches Ministerium für Wirtschaft,
Verkehr und Landesentwicklung
HA Hessen Agentur GmbH
hessen-it
Abraham-Lincoln-Straße 38-42
65189 Wiesbaden
Philipps-Universität Marburg
Institut für Wirtschaftsinformatik
Universitätsstraße 24
35032 Marburg
Telefon
Telefax
E-Mail
Internet
Telefon
Telefax
E-Mail
Internet
0611 / 774-8481
0611 / 774-8620
[email protected]
www.hessen-it.de
06421 / 282-3894
06421 / 282-6554
[email protected]
http://alpar.wiwi.uni-marburg.de
Redaktionsteam:
Prof. Dr. Paul Alpar
Dipl.-Wirtschaftsmath. Markus Pfuhl
Dipl.-Vw. Sebastian Pickerodt
Wolfram Koch
Wolf-Martin Ahrend
Gabriele Medewisch
CIP-Kurztitelaufnahme der Deutschen Bibliothek
Alpar, Paul: Gefunden werden im Internet / Paul Alpar; Markus
Pfuhl; Sebastian Pickerodt.
Philipps-Universität Marburg, Institut für Wirtschaftsinformatik. –
Wiesbaden: Hessisches Ministerium für Wirtschaft, Verkehr und
Landesentwicklung, 2002 (hessen-media ; Bd. 32)
ISBN 3-933732-32-8
Alle Rechte vorbehalten.
Nachdruck, auch auszugsweise, verboten.
© Hessisches Ministerium für Wirtschaft,
Verkehr und Landesentwicklung
Geschäftsstelle hessen-media
c/o HA Hessen Agentur GmbH
Wiesbaden 2005
in Zusammenarbeit mit hessen-it
Layout /Satz: WerbeAtelier Theißen, Lohfelden
Druck: Druckhaus Marburg GmbH
Bibliografische Informationen der Deutschen
Bibliothek: Die Deutsche Bibliothek verzeichnet
diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten
sind im Internet über http://dnb.ddb.de abrufbar.
Das Internet gehört zwischenzeitlich zu den wichtigsten Medien unserer
Zeit mit täglich steigenden Wachstumsraten. Dabei dient es sowohl
der Informationsbeschaffung, der Unterhaltung, der Kommunikation als
auch branchenübergreifend wirtschaftlichen Aktivitäten wie E-Business
und M-Commerce. Aus diesem breiten Angebot heraus resultiert eine
hohe Akzeptanz des Internets in allen Bevölkerungsschichten und
Altersgruppen. So sind in Hessen über die Hälfte (56 %) aller Haushalte
bereits online, damit nimmt Hessen eine Spitzenposition innerhalb
Deutschlands ein.
Bei über 8 Millionen registrierten Domains in Deutschland wird die
Suche nach einer bestimmten Domain ohne die Kenntnis der genauen
Webadresse immer schwieriger. Gleichzeitig zeigt es sich, dass Anbieter
von anspruchsvollen Inhalten sich nur dann langfristig am Markt halten
werden, wenn sie sich über den Verkauf der Inhalte refinanzieren
können. Voraussetzung dafür ist jedoch, dass diese Inhalte vom Nutzer
auffindbar sind. Da die meisten griffigen Adressen unterdessen vergeben sind, sind die Anbieter häufig gezwungen, auf weniger intuitive
Adressen auszuweichen. Dieses Problem besteht auch nach der Einführung neuer Top-Level-Domains weiterhin. Jetzt gilt es, dem Nutzer
die Möglichkeiten zur Suche nach Inhalten zu zeigen und dem Anbieter
mögliche Strategien zu nennen, mit denen angebotene Inhalte optimal
auffindbar in das World Wide Web gestellt werden können.
Diese Veröffentlichung soll Ihnen bei dieser Aufgabe helfen und
beschreibt Möglichkeiten, Ihre Inhalte so zu positionieren, dass Sie
„gefunden werden im Internet“.
Dr. Alois Riehl
Hessischer Minister für Wirtschaft,
Verkehr und Landesentwicklung
Gefunden werden im Internet
1
Einleitung ........................................................................................... 1
2
Hilfsmittel zur Suche im Internet .................................................... 2
2.1 Suchmaschinen .................................................................................. 2
2.2 Metasuchmaschinen .......................................................................... 6
2.3 Kataloge .............................................................................................. 7
2.4 Preisvergleichsmaschinen und Online-Marktplätze ...................... 9
2.5 Konvergenz und Konsolidierung im Bereich der Suchdienste .. 11
3
Erfassung von Websites durch Suchmaschinen und Kataloge 12
3.1 Automatische Erfassung ................................................................. 12
3.2 Manuelle Erfassung ......................................................................... 15
4
Bewertung und Ranking der indizierten Seiten ....................... 16
4.1 On-the-page-Verfahren .................................................................. 16
4.2 Off-the-page-Verfahren .................................................................. 19
5
Handlungsempfehlungen für Betreiber von Websites ............ 24
5.1 Gestaltung der Website .................................................................. 24
5.2 Anmeldung bei Suchmaschinen und Katalogen ......................... 32
5.3 Einflussnahme auf Crawler ............................................................. 34
5.4 Weitere Verfahren zur Bekanntmachung von Websites ............. 37
5.5 Spamming von Suchmaschinen .................................................... 40
6
Zusätzliche Empfehlungen für Betreiber von Online-Shops .. 44
6.1 Zusammenarbeit mit Preisvergleichsmaschinen ......................... 44
6.2 Anbieten auf Online-Marktplätzen ................................................ 46
7
Website Promotion Tools und spezialisierte Dienstleister ..... 48
7.1 Promoter, Monitore und Optimierer ............................................. 48
7.2 Mögliche Funktionen von Website Promotion Tools .................. 49
7.3 Auswahl von Dienstleistern ............................................................ 51
8
Erfolgskontrolle .............................................................................. 53
9
Zusammenfassung und Ausblick ................................................. 55
10
Anhang ............................................................................................. 57
10.1 Aktuelle Hilfsmittel zur Suche im Internet ..................................... 57
10.2 Beziehungen zwischen Suchmaschinen ....................................... 58
10.3 Suchspezifikation in ausgewählten Suchmaschinen ................... 58
Index .................................................................................................. 60
Literatur ............................................................................................. 61
11
Die Aktionslinie hessen-it ............................................................. 62
12
hessen-media: Eine Initiative setzt Zeichen .............................. 64
Schriftenreihe hessen-media ......................................................... 66
2005
Gefunden werden im Internet (Band 32, 2. Auflage)
2004
Schriftenreihe hessen-media:
Neuerscheinungen
Softwareanbieter in Hessen 2004 (Band 50)
Recht im Internet (Band 33, 2. Auflage)
Online-Marketing für kleine
und mittlere Unternehmen (Band 51)
Telekommunikationsanbieter in Hessen 2004 (Band 49)
Wettbewerbsvorteile durch barrierefreie
Internetauftritte (Band 48)
Domainregistrierung International (Band 47)
Wireless-LAN: Stand und Entwicklungspotenzial,
Nutzungsansätze für KMU (Band 46)
Die komplette Schriftenreihe finden Sie im Anhang
oder im Internet unter
hessen »
Hier ist die Zukunft
media
www.hessen-media.de
(Bestellmöglichkeit und Download als PDF-Datei)
www.hessen-it.de
1
Einleitung
Millionen von kommerziellen und nicht-kommerziellen Anbietern bieten
Informationen im Internet an. Für sie alle stellt sich die Frage, wie man
Internetnutzer auf das eigene Angebot aufmerksam machen kann. Die
Betreiber von großen Websites geben viel Geld für klassische Werbung in
On- und Offline-Medien aus. Kleinere Betreiber können das selten tun.
Doch das ist auch nicht unbedingt notwendig. Umfragen zeigen, dass die
meisten Internetnutzer eine für sie neue Website nicht aufgrund von Werbung, sondern aufgrund eines Suchvorgangs ausfindig machen. Um im
Internet gefunden zu werden, scheint es am wichtigsten zu sein, in den
Antworten der Internetsuchhilfen weit oben platziert zu sein (Umfrage von
www.internetnews.com im Februar 2001). Laut Online-Reichweiten-Monitor
2003 II von Agirev ist die Nutzung von Suchwerkzeugen nach wie vor die
zweithäufigste Tätigkeit nach dem Lesen und Schreiben von E-Mails.
Zunächst werden im Folgenden die verfügbaren Hilfsmittel aus der Perspektive von Internetnutzern beschrieben, anschließend wird kurz auf ihre
Funktionsweise eingegangen, bevor die Möglichkeiten für WebsiteBetreiber erörtert werden, möglichst weit vorne in den Suchergebnissen
zu erscheinen. Einige Anmerkungen zur Erfolgskontrolle und ein zusammenfassender Ausblick bilden den Abschluss.
1
Hilfsmittel zur Suche im Internet
2
Hilfsmittel zur Suche im Internet
Die Hilfsmittel werden in die Kategorien Suchmaschinen, Metasuchmaschinen und Kataloge unterschieden. Darüber hinaus werden Preisvergleichsmaschinen und Online-Marktplätze betrachtet, die insbesondere
für Betreiber von Online-Shops von Bedeutung sind.
2.1 Suchmaschinen
Mit dem Begriff Suchmaschine oder Search Engine werden Internetangebote bezeichnet, die eine Suche nach vom Benutzer frei wählbaren Begriffen oder Phrasen im WWW ermöglichen. Grundlage jeder Suchmaschine
ist ein Datenbestand, der automatisch von den später beschriebenen Programmen (Crawlern) erfasst wird. Diese Programme besuchen automatisiert einzelne Internetseiten und erweitern so den Datenbestand um die
gefundenen Seiteninhalte. Daneben greifen Suchmaschinen zunehmend
auf weitere Datenbestände zu, z. B. auf redaktionell betreute OnlineDatenbestände wie die Seitenbeschreibungen aus den unten beschriebenen Katalogen oder Inhalte aus Online-Enzyklopädien.
Beim Aufruf der Website einer Suchmaschine erscheint ein Formular, in
das man seine Suchanfrage eintragen und an die Suchmaschine übermitteln kann. Als Ergebnis erhält man eine Liste von Links, die zu Webseiten
führen, die der Suchanfrage entsprechen. Die Ergebnisseiten von Suchmaschinen werden auch als Search Engine Result Page (SERP) bezeichnet.
Je nach Suchmaschine sind Syntax, d. h. die Regeln zur Formulierung
einer Suchanfrage, und Funktionsumfang unterschiedlich. Üblicherweise
besteht aber die Möglichkeit, nach Internetseiten zu suchen, die mehrere
Begriffe enthalten (so genannte „Und“-Verknüpfungen) oder die mindestens einen von mehreren Begriffen enthalten (so genannte „Oder“-Verknüpfungen). Zusätzlich können Begriffe ausgeschlossen werden, die
nicht auf den Seiten enthalten sein sollen. Eine weitere Möglichkeit ist die
Suche nach Zeichenketten, die in einem Wort enthalten sind, wie z. B. Blumen*. Das Ergebnis der Anfrage wären alle Seiten, die Wörter wie Blumenladen, Blumenstrauß etc. enthalten. Einige Suchmaschinen bieten
2
www.hessen-it.de
auch die Möglichkeit, nach speziellen Medientypen, wie z. B. Bildern,
Musik und Videosequenzen, oder nach Internetseiten, die in einer
bestimmten Sprache verfasst sind, zu suchen. Abbildung 1 verdeutlicht
die Funktionsweise einer Suchmaschine.
Anfrage
Benutzer
(Browser)
Ergebnisliste
Anfrage
Benutzerschnittstelle
(HTML-Formular)
Ergebnis
Suchmaschine
Anfrage
Ergebnis
Datenbank der
Suchmaschine
Internet
Ergebnis der Indizierung
Indizierung von
Internetangeboten
Crawler
Abbildung 1: Funktionsweise einer Suchmaschine
Die in Deutschland mit Abstand am häufigsten genutzte Suchmaschine ist
die von Google (www.google.de ). Googles Marktanteil in Deutschland lag
2004 zwischen 70 und 80 % [Stuber, 2004]. Die Suchsyntax von Google
weist einige Besonderheiten auf. So werden die Stichworte oder Phrasen,
die in das Suchfeld eingegeben werden, automatisch mit einer „Und“-Verknüpfung versehen, während eine „Oder“-Verknüpfung nicht möglich ist.
Zwischen Klein- und Großschreibung wird nicht unterschieden und es ist
keine Suche nach in einem Wort enthaltenen Zeichenketten möglich. Erst
über ein erweitertes Suchformular können „Oder“-Verknüpfungen und
weitere Einschränkungen bei der Suche (z. B. Suche nach einem bestimmten Dateiformat oder einer bestimmten Domain) vorgenommen werden.
Die trotz dieser Einschränkungen sehr hohe Popularität liegt wohl zum Teil
3
Hilfsmittel zur Suche im Internet
in der Qualität der Suchergebnisse begründet, die auf dem in Abschnitt
„Link-Analyse“, Seite 19 beschriebenen Indizierungsverfahren beruht, zum
Teil aber auch im mittlerweile sehr hohen Bekanntheitsgrad der Marke
Google. Neben der Stichwortsuche bietet Google zusätzlich Formulare
zur Suche nach Bildern und nach Texten im so genannten Usenet an,
einem System von Diskussionsgruppen, das als separater Internetdienst
neben dem WWW existiert. Außerdem besteht die Möglichkeit, nach
aktuellen Nachrichten zu suchen und es existiert ein nach Kategorien
gegliedertes Verzeichnis. Abbildung 2 zeigt eine SERP von Google auf die
Anfrage „Blumenladen“. Oberhalb und rechts von den regulären Suchergebnissen zeigt Google kostenpflichtige Anzeigen, die ebenfalls zu den
eingegebenen Suchworten passen (vgl. Abschnitt „Pay-for-Performance“,
Seite 22). Google bietet mittlerweile eine Fülle von Zusatzfunktionen, die
über die reine Suche hinausgehen. Gibt man z. B. zwei Städtenamen ein,
sucht Google nach Zugverbindungen zwischen diesen Städten, gibt man
etwas ein, das wie eine Formel aussieht, liefert Google das Ergebnis, auf
die Eingabe einer Telefonnummer hin zeigt Google günstige Vorwahlnummern an etc.
Abbildung 2: Suche nach einem Blumenladen bei Google
4
www.hessen-it.de
Auf den Plätzen zwei und drei der beliebtesten Suchmaschinen in
Deutschland folgten laut Nielsen Netratings im Februar 2004 die Suchfunktion des Microsoft-Onlinedienstes MSN (http://search.msn.de ) sowie
die Suchfunktion des T-Online-Portals. Tagesaktuelle, aber nicht unbedingt repräsentative Zahlen zeigen die Auswertungen von webhits
(www.webhits.de ), einem Anbieter von Webstatistiken. Danach liegt im
Januar 2005 die Yahoo-Suche auf Platz zwei und MSN auf Platz drei.
Ende 2004 hat Microsoft die MSN-Suchmaschine auf eine eigene technische Basis gestellt. Bislang hatte dieser Dienst die Suchergebnisse von
Inktomi und Overture bezogen. In der überarbeiteten Suchmaske, die in
Abbildung 3 zu sehen ist, hat der Benutzer die Möglichkeit, die Reihenfolge der angezeigten Suchergebnisse nach den Kriterien Aktualität,
Popularität und Genauigkeit der Übereinstimmung mit der Suchanfrage
zu beeinflussen. Neben Dokumenten aus dem WWW liefert die Suchmaschine auch passende Artikel aus der Encarta-Enzyklopädie von Microsoft.
Außerdem kann auch gezielt nach Nachrichten und Bildern gesucht
werden.
Abbildung 3: Suchmaske der neuen MSN-Suche
Einige Suchmaschinen bieten darüber hinaus weitere Funktionen, die den
Benutzer beim Auffinden der gewünschten Funktion unterstützen sollen.
So kann man bei Seekport (www.seekport.de) einen von acht Themenbereichen vorwählen, um die gelieferten Ergebnisse einzugrenzen.
5
Hilfsmittel zur Suche im Internet
2.2 Metasuchmaschinen
Einzelne Suchmaschinen können nur einen Teil des Internets abdecken.
Google hat nach Aussagen der Betreiber mehr als acht Milliarden Internetseiten weltweit erfasst. Im Juli 2004 waren aber mehr als 285 Millionen
Rechner an das Internet angeschlossen (www.isc.org ), auf denen jeweils
wieder mehrere hundert Seiten zum Abruf bereit stehen können. Man
geht davon aus, dass Google als Suchmaschine mit dem umfangreichsten
Index nur ca. 60 % der deutschsprachigen Domains findet [Pothe, 2004].
Deshalb kann es hilfreich sein, die Ergebnisse mehrerer Search Engines zu
verwenden, um eine möglichst breite Antwortmenge zu erhalten. In diesem Fall kann man entweder mehrere Anfragen an verschiedene Suchmaschinen stellen, oder aber auf die Dienste einer Metasuchmaschine
zurückgreifen. Eine Metasuchmaschine ist zunächst ähnlich aufgebaut wie
normale Suchmaschinen. Auch hier trägt man die Suchanfrage in ein
Webformular ein. Beim Abschicken des Formulars an den Server wird
aber nicht eine Suche im eigenen Datenbestand des Anbieters durchgeführt, sondern die Anfrage wird automatisch in die Fragesyntax einer Vielzahl von Suchmaschinen übersetzt und an diese übermittelt. Die zurückgelieferten Suchergebnisse werden von der Metasuchmaschine geordnet, aufbereitet und dem Benutzer in Form einer Linkliste zur Verfügung
gestellt. Da nicht alle Suchmaschinen über die gleichen Funktionalitäten
bei der Formulierung von Suchanfragen verfügen, unterliegen die Metasuchmaschinen Restriktionen in Bezug auf die Flexibilität einer Anfrage.
Standardanfragen, wie „Und“-Verknüpfungen, sowie die Suche nach Phrasen sind jedoch gemeinhin möglich.
6
www.hessen-it.de
In Deutschland bietet Metager (www.metager.de ), ein Dienst des Hochschulrechenzentrums Hannover, eine Metasuchmaschine an. Bei der
Benutzung kann ausgewählt werden, bei welchen Suchdiensten eine
Anfrage erfolgen soll. Die Möglichkeiten zur Anfrageformulierung sind,
wie zu erwarten, eingeschränkt, da alle angefragten Suchdienste in der
Lage sein müssen, die Anfrage zu interpretieren. Der Nutzer kann sowohl
„Und“- als auch „Oder“-Verknüpfungen machen, nach Stichworten im Seitentitel suchen oder auch Stichworte ausschließen. Die Anfrage wird dann
an die ausgewählten Suchdienste übermittelt und es wird eine Ergebnisliste erstellt, aus der ersichtlich ist, welche Suchmaschinen zum Ergebnis
beigetragen haben. Die ebenfalls deutschsprachige Metasuchmaschine
Anyfinder (www.anyfinder.de ) bereitet die Suchergebnisse zusätzlich auf,
indem automatisch Kategorien generiert werden, die eine Präzisierung
der Anfrage erlauben.
2.3 Kataloge
Im Gegensatz zu Suchmaschinen arbeiten Kataloge nicht mit automatisch
erzeugten Indizes, sondern sie verwalten Linklisten zu verschiedenen Themenbereichen. Die Linklisten sind hierarchisch in Kategorien gegliedert,
so dass man sich über ein Themengebiet informieren kann, ohne
bestimmte Stichwörter zur Suche zu verwenden. Der Nutzer eines Katalogs hat die Möglichkeit in einer Übersichtsliste einen bestimmten Themenbereich auszuwählen, z. B. „Wirtschaft“. Nach der Themenauswahl auf
oberster Ebene werden untergeordnete Themenbereiche, z. B. „Existenzgründung“ oder „Bauwirtschaft“, angezeigt. Auch hier kann wieder ein
Bereich ausgewählt werden, so dass man seine Anfrage sukzessive verfeinern kann. Ab der dritten Ebene werden meistens neben weiteren Untergliederungen auch Links zu Webseiten angezeigt, die der gewünschten
Kategorie zugeordnet sind. Abbildung 4 zeigt als ein Beispiel für einen
Katalogdienst die deutschsprachige Startseite des Open Directory Project
(www.dmoz.de ).
7
Hilfsmittel zur Suche im Internet
Abbildung 4: Die deutschsprachige Startseite des Open Directory Project
Die Besonderheit dieses Dienstes besteht darin, dass er auf die Arbeit
ehrenamtlicher Redakteure zurückgreift und das gesamte Verzeichnis zur
freien Verwendung zur Verfügung stellt. Auch eine Eintragung von Websites
gegen Geld findet nicht statt. Die Firma Netscape verwaltet das Projekt formell und stellt technische Infrastruktur zur Verfügung, nimmt aber laut Satzung (social contract) keinen Einfluss auf die inhaltlichen Entscheidungen
der Redakteure. Bedeutung erlangt der Dienst auch dadurch, dass er gleichzeitig als Verzeichnisdienst der Suchmaschine Google fungiert und seine
Inhalte auch bei der Schlagwortsuche in Google berücksichtigt werden.
8
www.hessen-it.de
2.4 Preisvergleichsmaschinen und Online-Marktplätze
Eine Reihe von Websites ist auf die Suche nach Produkten spezialisiert, die
in Online-Shops angeboten werden. Die Crawler normaler Suchmaschinen können solche Angebote oft nicht erfassen, da es sich bei den Angebotsseiten von Online-Shops normalerweise um so genannte dynamische
Seiten handelt, die erst im Augenblick des Aufrufs erzeugt werden (vgl.
Abschnitt „Probleme bei der Seitengestaltung“, Seite 28). Im Gegensatz zu
Online-Marktplätzen unterstützen solche Sites jedoch keine Transaktionen, sondern liefern lediglich Informationen über mögliche Anbieter
eines bestimmten Produktes sowie über deren Preise. Die meistbesuchten
Preisvergleichsdienste waren Anfang 2004 kelkoo, das T-Online Shopping-Portal, geizkragen.de sowie guenstiger.de [Nielsen Netratings,
Februar 2004]. Weitere Beispiele für solche Dienste sind froogle und
preissuchmaschine.de. froogle setzt, ähnlich wie die oben beschriebenen
allgemeinen Suchmaschinen, in erster Linie auf Stichwortsuche zum Auffinden eines gewünschten Produkts und bedient sich dabei der Technologie der Suchmaschine Google. Die Mehrzahl der übrigen Dienste bietet
dagegen tief verzweigte Produktkategorien für die Suche. Während
guenstiger.de für einen bestimmten Artikel jeweils nur den niedrigsten
Preis listet, der dem Dienst bekannt ist, liefern die meisten Dienste die
Preise mehrere Anbieter. Kapitel 10 enthält eine Tabelle weiterer Produktbzw. Preissuchmaschinen. Wie man eigene Angebote an die genannten
Dienste übermittelt, wird in Abschnitt 6.1 näher erläutert.
9
Hilfsmittel zur Suche im Internet
Online-Marktplätze präsentieren die Angebote verschiedener Händler auf
einer gemeinsamen Plattform. Darüber hinaus stellen sie die Infrastruktur
für einen Teil der Transaktionsabwicklung zur Verfügung, z. B. eine Warenkorbfunktion und Zahlungsfunktionen. Bekannte Marktplätze sind für viele
Surfer die erste Anlaufstation auf der Suche nach online zu erwerbenden
Produkten. Daher können sich Angebote auf solchen Marktplätzen auch
dazu eignen, Besucher zu einem eigenen Online-Shop zu führen. Dabei
sind allerdings die Regeln der Marktplatzbetreiber zu beachten, die in der
Regel keine offensichtliche Werbung in den gelisteten Angeboten und
keine direkte Verlinkung externer Seiten zulassen. Die größte Reichweite
unter den Online-Marktplätzen wiesen Anfang 2004 Amazon und ebay
auf [Nielsen Netratings, Februar 2004]. Das Einstellen von Angeboten bei
diesen und ähnlichen Diensten wird in Abschnitt 6.2 beschrieben. Eine
Tabelle mit weiteren Marktplätzen findet sich in Kapitel 10.
Abbildung 5: Die Preisvergleich-Plattform „Preissuchmaschine.de“
10
www.hessen-it.de
2.5 Konvergenz und Konsolidierung
im Bereich der Suchdienste
Die aktuelle Entwicklung deutet darauf hin, dass die Unterscheidung in
Suchmaschinen und Kataloge immer unschärfer wird. Viele Suchmaschinen, z. B. Google, bieten neben der klassischen Stichwortsuche inzwischen Katalogbereiche an. Auf der anderen Seite bietet der vormals wichtigste Katalog Yahoo inzwischen eine eigene Suchmaschine an
(http://de.search.yahoo.com ). Andere große Portale, z. B. AOL (www.aol.de )
verzichten auf die Entwicklung eigener Suchtechnologie und integrieren
stattdessen die Suchfunktion eines Spezialisten auf ihrer Site, in diesem
Fall von Google.
Daneben findet eine Konsolidierung unter den Betreibern der Suchmaschinen statt. Insbesondere hat Yahoo in jüngerer Zeit die Betreiber der
Suchmaschinen Inktomi und Overture aufgekauft und deren spezifische
Verfahrensweisen in seine eigene Suchfunktion integriert. Overture wiederum hat die bekannte Suchmaschine AltaVista übernommen, lässt sie
aber bislang (Januar 2005) als eigenständige Marke bestehen, wobei AltaVista auf seinen SERP die unten erläuterten bezahlten Suchergebnisse von
Overture einblendet. Mit großem Interesse werden die Anstrengungen
von Microsoft beobachtet, eine eigene leistungsfähige Suchtechnologie
für das frei zugängliche Portal seines Onlinedienstes MSN zu entwickeln,
das früher die Suchfunktion von Yahoo genutzt hat.
11
Erfassung von Websites durch Suchmaschinen und Kataloge
3
Erfassung von Websites durch Suchmaschinen
und Kataloge
3.1 Automatische Erfassung
Crawler sind Programme, die von Suchmaschinen benutzt werden, um
Webseiten zu finden und zu erfassen. Andere Bezeichnungen sind Spider,
Robot(er) oder SoftBot (von Software Robot). Wie der Name nahe legt,
„krabbeln“ diese Programme durch das Internet. Sie beginnen auf einer
Startseite, deren URL ihnen manuell, z. B. durch die Anmeldung einer
Webseite beim Suchmaschinenbetreiber, mitgeteilt wird. Oft werden auch
andere Quellen, wie z. B. Artikel in Newsgruppen oder Linklisten von Portalen, zur Auswahl einer Startseite benutzt. Manche Suchmaschinenbetreiber, z. B. Overture, bieten gegen Bezahlung die Garantie, dass der
Crawler eine bestimmte Website aufnimmt (so genannte Paid Inclusion).
Im Gegensatz zu den Pay-for-Performance-Angeboten (vgl. Absatz „Payfor-Performance“, Seite 22) ist damit jedoch keine Garantie für eine
bestimmte Platzierung in den SERP verbunden.
Der Roboter erfasst nun alle Hyperlinks einer Webseite und folgt diesen
zu neuen Seiten. Auch auf den neuen Seiten werden wieder alle Links
erfasst und der Vorgang wird solange fortgesetzt, bis keine neuen Seiten
mehr gefunden werden oder bis ein Abbruchkriterium, z. B. eine gewisse
Menge von erfassten Seiten, überschritten wird. Ein weiteres Abbruchkriterium ist die Anzahl der Ebenen, die ein Roboter abarbeitet, die so
genannte Spidering Depth. Alle Internetseiten einer Domain, die per Link
von der Startseite aus zu erreichen sind, werden der zweiten Ebene zugeordnet. Seiten, die von der zweiten Ebene aus per Link zu erreichen sind,
gehören zur dritten Ebene usw. Überschreitet die Ebenenzahl die Spidering Depth des Roboters, so wird die Indizierung des Internetangebots
abgebrochen. Crawler führen keinen Programmcode auf fremden Rechnern aus. Stattdessen kann man sich unter einem Crawler vielmehr einen
automatischen Websurfer vorstellen, der seitenweise durch die Informationsangebote des Internets surft.
12
www.hessen-it.de
Neben der Erfassung der Links einer Webseite untersucht der Crawler
auch deren Inhalt. Diesen Vorgang nennt man Indizierung. Einige Roboter
indizieren nur den Titel eines Dokumentes und seine Meta-Tags (MetaTags sind zusätzliche Informationen, die am Anfang der Seite gespeichert,
von einem Browser aber nicht angezeigt werden, vgl. Abschnitt „MetaTags“, Seite 27). Andere überprüfen den gesamten Text. Bei dieser vollständigen Indizierung wird aus den Texten der vom Crawler besuchten
Webseiten eine Wortliste erzeugt, die dem Datenbestand der Suchmaschine angefügt wird. Sie ist somit die Grundlage jeder stichwortbasierten
Suche in einer Suchmaschine. Die Liste enthält allerdings nicht alle Wörter, die auf einer Seite enthalten sind. So genannte Stoppworte, das sind
z. B. Worte wie „und“, „ein“, „wie“, werden nicht erfasst, da sie für die spätere Suche keinen Erkenntnisgewinn liefern. Auch mehrfach genannte
Worte werden nur einmal in die Wortliste aufgenommen, wobei aber die
Häufigkeit ihrer Nennung vermerkt wird. Zusätzlich zur Erfassung von
Stichworten werden von vielen Crawlern auch die gesamten Texte einer
Webseite erfasst, um in der Suchmaschine die Möglichkeit zur Suche nach
Phrasen oder umfangreicheren Texten zu ermöglichen.
Um einen technischen Einblick in die Funktions- und Arbeitsweise eines
Roboters zu geben, soll diese anhand von Mercator, einem System des
früheren Compaq Systems Research Centers, erläutert werden. Weiterentwicklungen von Mercator bilden die Grundlage des Crawlers, der von
der Suchmaschine Altavista eingesetzt wird, die inzwischen von Overture
(vgl. Abschnitt „Pay-for-Performance“, Seite 22) übernommen wurde.
Abbildung 6 verdeutlicht die Funktionsweise des Crawlers. Mercator ist
aufgegliedert in mehrere gleichzeitig arbeitende, identische Teilprogramme, so genannte Threads. Alle Threads greifen auf eine gemeinsame
Liste von URLs zu (hier mit URL Frontier bezeichnet) die sie nacheinander
abarbeiten und die zugehörigen Dokumente analysieren. Der erste Schritt
ist die Extraktion einer URL aus der Liste (1). Je nachdem, ob es ein Link zu
einer WWW-Adresse oder zu einer FTP-Adresse ist, wird im Schritt (2) das
zum entsprechenden Protokoll gehörige Modul benutzt, um die Seite
herunterzuladen. Diese wird an das Rewind Input System (RIS, Schritt 3)
übergeben, dass die Dokumente für die nachfolgenden Schritte zur Abarbeitung bereithält.
13
Erfassung von Websites durch Suchmaschinen und Kataloge
Internet
Mercator
DNS
Resolver
2
HTTP
FTP
Protocol
Modules
4
3 RIS 5
Content
Seen?
Link
Extractor
Doc
FPs
6
URL
Filter
Tag
Counter
Log
GIF
Stats
Log
7
URL
Seen?
URL
Set
8
1
URL
Frontier
Queue
Files
Processing
Modules
Abbildung 6: Funktionsweise eines Crawlers am Beispiel von Mercator
Nun wird überprüft, ob das Dokument schon unter einer anderen URL
gefunden wurde (Content-Seen-Test, Schritt 4). Ist dies der Fall, wird das
Dokument nicht weiter bearbeitet und die URL wird aus der Liste gelöscht.
Ist das Dokument noch nicht bearbeitet worden, wird, abhängig vom
MIME-Type des Dokuments (der MIME-Type informiert den anfragenden
Computer, welche Applikation zur Darstellung bzw. Wiedergabe des
Dokuments ausgeführt werden muss), ein weiteres Modul geladen (5), das
die Analyse des Dokuments vornimmt, wie z. B. das Zählen und Auswerten
von Tags. Zusätzlich werden die auf der Seite enthaltenen Links extrahiert
und einem Filter übergeben (6). Der Filter dient dazu, dass bestimmte
Dokumente, z. B. dynamisch erzeugte Webseiten, nicht weiter bearbeitet
werden. Abschließend wird noch überprüft, ob die neuen URLs schon einmal besucht wurden (7) und wenn dies nicht der Fall ist, werden die
Adressen an die URL Frontier übergeben (8). Dann wiederholt sich der
Ablauf.
14
www.hessen-it.de
3.2 Manuelle Erfassung
Bei der manuellen Erfassung von Internetseiten wird jede Seite, die zur
Aufnahme in den Katalog angemeldet wurde, von einem Mitarbeiter des
Katalogbetreibers besucht und begutachtet. Dabei können die Inhalte der
Seite wesentlich genauer beurteilt werden als bei einer automatischen
Erfassung. Wenn der Erfasser entscheidet, dass die Seite in den Katalog
aufgenommen wird, erscheint sie dort mit einer kurzen Inhaltsbeschreibung, die je nach Katalog entweder vom Betreiber der Website oder vom
Erfasser erstellt wird. Da der personelle Aufwand zur Bewertung der Seiten verständlicherweise ein Engpass ist, kommt es selten zu einer zweiten
Bewertung einer abgelehnten Website. Daher ist darauf zu achten, dass
vor der Anmeldung bei einem manuell erstellten Katalog alle Vorarbeiten
geleistet wurden. Neben den erwähnten inhaltlichen Kriterien gehören
dazu auch eine ansprechende optische Darstellung und technisch einwandfrei gestaltete und browserunabhängige Seiten.
Da bei den großen Katalogen ähnlich hohe Anmeldezahlen wie bei automatisch indizierenden Suchmaschinen vorliegen, kann es zu langen Verzögerungen kommen, bis eine Seite besucht und bewertet wird. Yahoo
Deutschland empfiehlt Anmeldern sogar, die Anmeldung alle vier
Wochen zu wiederholen, falls sie noch nicht erfolgreich war, um eine Bearbeitung durch die Redakteure sicher zu stellen.
15
Bewertung und Ranking der indizierten Seiten
4
Bewertung und Ranking der indizierten Seiten
Eine Anfrage an eine Suchmaschine wird von dieser in der Regel mit einer
Liste von URLs beantwortet, die auf Seiten verweist, die der Anfrage entsprechen. Zu den meisten Anfragen finden sich aber mehrere passende
Internetseiten im Datenbestand einer Suchmaschine. Welche von diesen
die Beste zur Beantwortung der Anfrage des Suchenden ist, lässt sich nur
subjektiv beantworten. Die Suchmaschinen versuchen aber, mithilfe von
Relevanzangaben, die Eignung von Internetseiten zur Beantwortung einer
Anfrage zu verdeutlichen. Im einfachsten Fall kann diese durch eine Rangfolge (so genanntes Ranking), nach der die Ergebnismenge sortiert ist,
geschehen. Andere Verfahren stellen die Eignung graphisch, z. B. mit
unterschiedlich vielen Sternen oder mit Prozentangaben dar. Zur Messung
der Relevanz setzen die verschiedenen Suchmaschinen unterschiedliche
Berechnungsverfahren ein, die gar nicht oder nur grob veröffentlicht werden. Grundlage der meisten Berechnungen sind aber die in diesem
Abschnitt erläuterten Bewertungskriterien. Eine gute Position innerhalb
dieses Rankings ist Grundlage dafür, von potentiellen Besuchern gefunden und besucht zu werden. Laut einer Studie besuchen mehr als 80 %
der Nutzer von Suchmaschinen nur die ersten beiden SERP (vgl. www.inter-
networld.de/sixcms/detail.php?id= 16682 ). Da zehn bis fünfzehn Links auf
einer SERP angezeigt werden, ist es entscheidend, dass die eigene Seite
unter den Top-20 der Treffer aufgelistet wird.
4.1 On-the-page-Verfahren
Unter dokumentbezogene bzw. On-the-page-Verfahren fallen solche, die
ausschließlich den Inhalt des Dokuments selbst heranziehen, um seine
Relevanz bezüglich einer Suchanfrage zu ermitteln. Darunter finden sich
zum einen Verfahren, die aus dem Information Retrieval stammen, einem
Forschungsgebiet, das sich mit der Suche nach Inhalten in Texten beschäftigt, zum anderen werden die Konstrukte der HTML-Syntax genutzt, um
wichtige und unwichtige Inhalte auf einer Internetseite zu unterscheiden.
16
www.hessen-it.de
Titel einer Webseite
Eines der einfachsten Verfahren, um die Eignung einer Webseite zur
Beantwortung einer Suchanfrage zu überprüfen, ist die Berücksichtigung
ihres Seitentitels, d. h. des Textes, den der Besucher der Internetseite am
oberen Rand des Browserfensters sieht. Das Verfahren wird von allen
Suchmaschinen benutzt, wobei der Beitrag des Seitentitels zur Bestimmung der Relevanz von Anbieter zu Anbieter variiert. Der Titel einer Webseite wird im <TITLE>-Tag in der HTML-Definition festgelegt. Der innerhalb
des Tags verwendete Text wird bei der Indizierung durch einen Webcrawler gesondert erfasst und in den Datenbestand übertragen. Die Suchanfrage eines Nutzers der Suchmaschine, seien es einzelne Begriffe oder
ganze Phrasen, wird mit den gespeicherten Seitentiteln verglichen.
Bewertung des Seiteninhalts
Bei der Bewertung des Seiteninhalts, d. h. des Bereichs einer Internetseite,
der zwischen den <BODY>-Tags steht, kann unterschieden werden, ob der
gesamte auf der Internetseite enthaltene Text bewertet wird oder nur
bestimmte Teile Berücksichtigung finden. Werden nur einzelne Teile des
Seiteninhalts in das Ranking einbezogen, so sind das solche, die durch
spezielle Markierungen wie z. B. <H1></H1> hervorgehoben werden. Der
Vergleich mit einer Suchanfrage erfolgt dann analog zu der Vorgehensweise im Falle der Seitenüberschrift.
Soll der gesamte Seitentext bewertet werden, so sind die Verfahren komplizierter. Einerseits kann der gesamte Text der Internetseite in den Datenbestand der Suchmaschine übernommen werden, um in diesem nach
Phrasen oder ganzen Textabschnitten zu suchen. Andererseits wird aber
auch versucht, durch den Webcrawler bestimmte Stichworte zu bestimmen, welche die besuchte Seite gut charakterisieren. Deshalb werden
zunächst alle HTML-Elemente, Zeichensetzungs- und Sonderzeichen
sowie Stoppworte entfernt, um den restlichen Text untersuchen zu können. Ein entscheidendes Kriterium bei dieser Untersuchung ist der Ort
(location) und die Häufigkeit (frequency) von Stichworten. Dabei geht man
davon aus, dass Begriffe, die am Anfang einer Seite stehen wichtiger sind
als solche, die am Ende stehen. Zusätzlich werden Worte, die häufiger auf
17
Bewertung und Ranking der indizierten Seiten
einer Seite auftauchen als wichtiger erachtet als solche, die selten verwendet werden. Die auf einer Seite gefundenen Begriffe werden archiviert
und jedem Begriff wird ein Wert zugewiesen, der wiedergibt, wie oft und
an welcher Stelle er auf der Internetseite auftritt. Diese Bewertung wird
beim Vergleich mit einer Suchanfrage herangezogen, um die Seiten zu finden, auf denen die in der Anfrage genannten Begriffe häufig und an vorderer Position genannt werden. Eine andere Herangehensweise besteht
in der Messung der Verteilung einzelner Worte auf einer Internetseite.
Dabei wird das Auftreten von Worten, deren Anzahl an Nennungen eine
festgelegte Mindesthäufigkeit überschreitet, und deren möglichst gleichmäßige Verteilung über den gesamten Text betrachtet. Auch hieraus
resultiert für die gefundenen Worte ein Wert, der bei der Relevanzbestimmung berücksichtigt werden kann.
Meta-Tags
In HTML besteht die Möglichkeit, Meta-Daten, d. h. Informationen über die
auf der Seite enthaltenen Daten, in Form von Meta-Tags in den Code zu
integrieren. Als die meisten Crawler noch nicht in der Lage waren, den
Volltext einer Internetseite zu indizieren, dienten Meta-Daten dazu, die
zentralen Inhalte eines Internetangebots in Stichworten zusammenzufassen und eine kurze Seitenbeschreibung zu hinterlegen. Die Stichworte
wurden von den Crawlern ausgewertet und leisteten einen wichtigen Beitrag zur Festlegung des Rankings einer Internetseite. Die Seitenbeschreibung fand sich als Kurzbeschreibung in den SERP wieder. Aufgrund des in
großem Umfang betriebenen Missbrauchs der Meta-Tags, um Angeboten
mit falschen Stichwörtern und Beschreibungen gute Plätze im Ranking der
Suchmaschinen zu verschaffen, haben sie in den letzten Jahren erheblich
an Bedeutung verloren. Aktuelle Crawler verwenden Meta-Daten bestenfalls noch dazu, das Ergebnis der Volltext-Indizierung zu überprüfen und
das Ranking entsprechend zu modifizieren. Stichworte, die in den Metadaten und im Text vorhanden sind, werden evtl. als wichtiger erachtet, als
solche, die nur im Seitentext stehen. Einige Crawler gehen sogar so weit,
Meta-Daten zu ignorieren, wenn es sich um solche Stichworte handelt,
nach denen erfahrungsgemäß häufig gesucht wird, die aber scheinbar in
keinem inhaltlichen Zusammenhang mit dem übrigen Seiteninhalt stehen.
18
www.hessen-it.de
URL
Zuletzt sei ein Verfahren genannt, das eine Eigenart vieler Entwickler von
Internetseiten berücksichtigt. Häufig gibt der Dateiname, und damit die
vollständige URL einer Seite, Auskunft über den tatsächlichen Inhalt.
Dadurch kann z. B., wenn ein Teil des Dateinamens gleichzeitig ein häufig
auftretender Begriff im Seitentext ist, eine Berücksichtigung der URL bei der
Bewertung erfolgen. Für viele Content-Management-Systeme entstehen
aus dieser Vorgehensweise Probleme, wenn keine sinnvollen Begriffe, sondern alphanumerische Zeichenketten als Dateinamen verwendet werden.
4.2 Off-the-page-Verfahren
Andere Verfahren zur Bewertung von Internetseiten versuchen, ergänzende Methoden zur rein dokumentbezogenen, stichwortbasierten Relevanzbeurteilung anzubieten. Diese sind meist unabhängig von der untersuchten Seite, weswegen sie auch als externe Faktoren oder off-the-pagefactors bezeichnet werden.
Link-Analyse
Das Verfahren, welches in den letzten Jahren die meiste Beachtung erfahren
hat, ist die Link-Analyse oder Link-Popularität, bei der die Struktur des Internets analysiert wird. Entstanden aus einer wissenschaftlichen Arbeit an der
Stanford University wurde dieses Verfahren zuerst von der Suchmaschine
Google eingesetzt. Inzwischen verwenden weitere Anbieter diese Technik,
um ihre Ergebnislisten zu verbessern. Die grundlegende Überlegung dabei
ist, dass Internetseiten, auf die von anderen Seiten verwiesen wird, einen
größeren Beitrag zur Beantwortung einer Anfrage leisten können, als solche,
auf die keine oder wenige Seiten verweisen. Deshalb wird für jede indizierte
Seite der so genannte PageRank berechnet. Dieser Wert beeinflusst in Verbindung mit den Ergebnissen der klassischen Verfahren die Relevanz einer
Internetseite bzgl. einer Anfrage. Dabei werden zunächst passende Seiten
gesucht, die den beschriebenen inhaltlichen Kriterien (Stichworte, Überschriften, etc.) genügen. Bei der Bestimmung der Relevanz wird jedoch
zusätzlich der PageRank der gefundenen Seiten berücksichtigt, so dass Seiten mit einem hohen PageRank eine bessere Position in der SERP erhalten.
19
Bewertung und Ranking der indizierten Seiten
A
C
B
Abbildung 7: Aus- und eingehende Links
Die Abbildung 7 verdeutlicht, dass den meisten Internetseiten zwei Arten
von Links zugeordnet werden können, ausgehende und eingehende
Links. Aus der Sicht von Seite C ist der Link von Seite A ein eingehender
Link, während aus dem Blickwinkel von A der Link zu C ein ausgehender
Link ist. Bei der Erfassung einer Internetseite durch einen Webroboter
werden zunächst alle ausgehenden Links einer Seite gezählt. Im Anschluss
daran wird mittels der früher erfassten Internetseiten die Zahl der eingehenden Links bestimmt. Jeder eingehende Link von einer anderen Seite
steigert den resultierenden PageRank. Allerdings ist der Beitrag der eingehenden Links zur Berechnung des PageRank unterschiedlich stark. Er
hängt von internen Qualitätsmaßen ab, so dass die Wertung eines eingehenden Links von der Beurteilung der Ursprungsseite und zusätzlich
von der Zahl der auf dieser Seite enthaltenen Links abhängt. Den PageRank einer Seite kann man mit Hilfe der Google-Toolbar, eines kostenlosen Zusatzprogramms für den Internet Explorer, ermitteln.
20
www.hessen-it.de
Clickthrough-Techniken
Clickthrough-Techniken beobachten das Verhalten der Surfer bei der
Suche nach Internetseiten. Im einfachsten Fall erfassen sie die Häufigkeit
des Abrufs einer Seite aus einer SERP. Je häufiger eine Seite von den Nutzern angeklickt wird, desto nützlicher scheint sie zur Beantwortung einer
Anfrage zu sein. Daher wird die Relevanz der Seite in den SERP zukünftiger Anfragen erhöht. Komplexere Verfahren, wie DirectHit, dessen Entwicklerfirma inzwischen von der Suchmaschine Teoma übernommen
wurde, untersuchen zusätzlich die Verweildauer der Surfer auf den aus der
SERP ausgewählten Internetseiten. Dazu wird die Zeit gemessen, die vergeht, bis ein Besucher nach dem Anklicken eines Links in der SERP wieder
zur Suchmaschine zurückkehrt. Dadurch soll die Qualität des gefundenen
Internetangebots gemessen werden, da ein Surfer auf einer interessanten
Seite länger verweilt als auf einer uninteressanten. Die einfachen Clickthrough-Techniken werden von einigen Suchmaschinen (z. B. Altavista)
eingesetzt und beeinflussen die Relevanzangaben. Das DirectHit-Verfahren ist etwas weniger verbreitet. In Bezug auf Aussagekraft über die Qualität einer Seite sind die Clickthrough-Techniken der Link-Popularität unterlegen. Der Benutzer kann, bevor er eine Seite besucht hat, häufig nicht auf
deren Inhalt und Qualität schließen. Daher ist das Messen der Anklickhäufigkeit in der SERP mehr ein Maß für die Attraktivität der angezeigten
Seitenbeschreibung als für die Seite selbst. Weiterhin ist es schwierig, die
Verweildauer auf einer Seite exakt zu bestimmen, da diese von vielen
anderen Faktoren und nicht nur von der inhaltlichen Qualität beeinflusst
wird.
TermVector
Das TermVector-Verfahren, das z. B. von Altavista, Alltheweb, Google, Inktomi und den auf deren Ergebnissen basierenden Suchmaschinen eingesetzt wird, setzt die in einer SERP enthaltenen Internetseiten in Relation zu
den Internetsites, aus denen diese stammen. Die Suchbegriffe einer
Anfrage werden also zusätzlich noch einmal mit dem vollständigen Internetangebot eines Anbieters verglichen. Das bedeutet, dass Internetseiten,
die das gleiche Thema behandeln, wie die gesamte Website, eine höhere
Relevanzbeurteilung erhalten, als solche Seiten, die atomistisch in einem
21
Bewertung und Ranking der indizierten Seiten
größeren Informationsangebot enthalten sind. Der Grund für diese Vorgehensweise ist naheliegend, denn der Suchende findet auf einer Site,
die sich vorwiegend mit dem von ihm gesuchten Thema befasst, wahrscheinlich mehr relevante Informationen, als auf einer einzelnen, vom restlichen Angebot unabhängigen, Internetseite.
Lokalisierung
Die meisten Suchmaschinen bieten mittlerweile die Möglichkeit, die
Suche auf ein bestimmtes Land bzw. auf eine bestimmte Sprache einzuschränken. Die Einschränkung auf ein Land erfolgt z. B. anhand von elektronischen Firmenverzeichnissen oder bestimmten Informationen in den
Datensätzen, die das Domain Name System (DNS) für jede registrierte
Domain zur Verfügung stellt. Eine bloße Orientierung an der Top-LevelDomain (TLD), z. B. .de für Deutschland, genügt nicht, da auch die
Domains deutscher Websites aus den generischen TLD, z. B. .com oder
.org, stammen können.
Die Sprache kann unabhängig von der Domain einer Seite als Einschränkungskriterium verwendet werden. Dazu wird bereits bei der Indizierung
einer Seite deren Sprache automatisch erkannt und im Index vermerkt.
Pay-for-Performance
Eine weitere Möglichkeit zur Beeinflussung der Relevanz einer Internetseite wird mit Pay-for-Performance bezeichnet. Dazu wählt der Betreiber
eines Internetangebots bestimmte Schlüsselwörter bzw. Kombinationen
von Schlüsselwörtern aus. Bei jeder Anfrage, welche diese Schlüsselwörter enthält, wird dann seine Seite an prominenter Stelle der SERP eingeblendet, wobei die Ergebnisse mehr oder weniger deutlich von den
unbezahlten Suchergebnissen, den so genannten Organic Listings, unterschieden werden. Außerdem lässt sich die Erscheinungsweise der bezahlten Ergebnisse innerhalb der relativ restriktiven Vorgaben der Suchdienste exakt steuern. Bei Google AdWords stehen z. B. eine Titelzeile,
zwei Textzeilen und eine Zeile zur Darstellung einer URL zur Verfügung.
22
www.hessen-it.de
Die wichtigsten Anbieter von Pay-for-Performance-Diensten sind Google
und Overture. Overture-Ergebnisse erscheinen unter anderem auch bei
den Suchdiensten MSN und Yahoo, während Google auch AOL, AskJeeves und Teoma mit bezahlten Suchergebnissen beliefert. Bei beiden
Anbietern ist die Abrechnung des Verfahrens erfolgsabhängig und hängt
von der Anzahl der Besucher ab, die dem Link von der SERP zur Internetseite folgen (so genannte Clickthrough-Preise). Die Kosten pro Klick hängen von der Popularität der zugeordneten Schlüsselwörter ab. Overture
legt die Positionierung eines bezahlten Ergebnisses auf der SERP ausschließlich danach fest, wie viel der Auftraggeber bereit ist pro Klick zu
bezahlen. Das System bei Google ist etwas komplizierter, hier bietet der
Auftraggeber zwar ebenfalls den Betrag pro Klick, die Positionierung in
der SERP hängt aber außerdem auch davon ab, wie oft ein angezeigtes
Bezahlergebnis tatsächlich angeklickt wird. Ergebnisse, die zu selten
angeklickt werden, werden automatisch inaktiv geschaltet und künftig
nicht mehr angezeigt, sehr häufig angeklickte Ergebnisse werden in
einem Bereich oberhalb der Organic Listings angezeigt, während normalerweise die Anzeigen bei Google am rechten Rand der SERP erscheinen.
Beide Dienste erlauben es, zur Kontrolle der Kosten einen Maximalbetrag
pro geschalteter Kampagne vorzugeben, bei dessen Erreichen sie automatisch deaktiviert wird.
23
Handlungsempfehlungen für Betreiber von Websites
5
Handlungsempfehlungen für
Betreiber von Websites
Die Beschreibung der Rankingverfahren moderner Suchmaschinen verdeutlicht, dass der Handlungsspielraum zur Beeinflussung von Suchmaschinen in den letzten Jahren kleiner geworden ist. Trotzdem gibt es aber,
neben dem Versuch, durch gute Inhalte möglichst viele Links von anderen
Seiten zu bekommen, verschiedene Möglichkeiten, um die Bewertung der
eigenen Site zu verbessern. Die folgenden Aussagen bzgl. der Gestaltung
einer Website beziehen sich insbesondere auf die Startseite und deren
direkte Nachfolger, da diese Seiten den stärksten Einfluss auf die Bewertung des gesamten Angebots haben.
5.1 Gestaltung der Website
Schlüsselwörter
Bei der Gestaltung der Website sollte man sich zunächst den Inhalt des
Angebots verdeutlichen und über die Schlüsselwörter nachdenken, mit
denen potentielle Besucher in einer Suchmaschine nach diesem Inhalt
suchen werden. Dabei sollten mehrere Aspekte berücksichtigt werden:
Zunächst ist natürlich zu fragen, ob das eigene Angebot Inhalte zu einem
bestimmten Suchwort bietet, also für dieses Suchwort relevant ist. Umgekehrt ist jedoch auch zu fragen, ob ein Suchender, der die Seite über dieses Suchwort findet, für den Betreiber der Seite ein erwünschter Besucher
ist. Jemand, der nach „Autobilder“ sucht, wird vermutlich auf den Seiten
vieler Autohändler fündig, ist aber mit geringerer Wahrscheinlichkeit ein
Kunde als jemand, der nach „BMW Gebrauchtwagen“ sucht, jedenfalls für
einen BMW-Händler. Außerdem sollte man versuchen, herauszufinden,
wie häufig nach verschiedenen (Kombinationen von) Schlüsselwörtern
gesucht wird. Wichtige Hilfestellung leistet hierbei das Vorschlagtool von
Overture (http://inventory.de.overture.com/d/searchinventory/suggestion ), das
die Anzahl der Suchanfragen liefert, die in der jüngeren Vergangenheit zu
den eingegebenen Schlüsselwörtern durchgeführt wurden. Eine andere
kostenlose Möglichkeit, die Popularität von Schlüsselwörtern zu testen,
stellt die probeweise Zusammenstellung einer Anzeige in Googles
24
www.hessen-it.de
AdWords-Programm dar (http://adwords.google.de ). Aus den ermittelten
durchschnittlich zu erwartenden Klickpreisen und -häufigkeiten lassen sich
gewisse Rückschlüsse auf die Popularität der Suchbegriffe ziehen, die
Angaben sind jedoch schwer zu interpretieren, da der zugrunde liegende
Algorithmus nicht veröffentlicht wird. Daneben existiert eine Reihe kommerzieller Tools zur Auswahl von Schlüsselwörtern, darunter die KeywordDatenbank von certo-it (www.keyword-datenbank.de) sowie das Softwarepaket WordTracker (www.wordtracker.com). Diese haben jedoch den Nachteil,
ihre Ausgangsdaten aus den Suchanfragen bei kleineren Suchmaschinen
zu generieren, was nur bedingt Rückschlüsse auf die großen wie Google,
Yahoo und MSN erlaubt.
Die Popularität eines Suchbegriffs ist jedoch ein zweischneidiges Schwert.
Je populärer der Begriff, desto größer ist die Konkurrenz durch andere
Websites, die versuchen, zu diesem Schlüsselwort vordere Plätze im Ranking der Suchmaschinen zu erreichen. Jeder Konkurrent, der einen guten
Platz erreicht, bedeutet automatisch eine niedrigere Position des eigenen
Angebots. Außerdem steigen die Preise für Pay-for-Performance-Listungen mit der Popularität von Suchbegriffen. Daher sollte man bei der Auswahl der Schlüsselwörter, die man im eigenen Angebot hervorhebt, einen
guten Kompromiss zwischen Popularität und ausreichender Spezifität finden, um nicht gegen allzu viele Konkurrenten anzutreten.
Sind die Schlüsselwörter einmal bestimmt, sollten sie in verschiedenen
Variationen, also z. B. im Plural und im Singular, im Text der Seite erscheinen. Auch bei der Wahl des Domainnamens können Schlüsselwörter
berücksichtigt werden, die Bedeutung dieses Elements wurde aber
wegen der vielen bereits existierenden Keyword-Domains, die nicht
immer seriöse Inhalte bieten, von den Suchmaschinen in den letzten Jahren deutlich verringert. Ein Firmen- oder Markenname ist, falls vorhanden,
in jedem Fall die bessere Wahl für den Domainnamen.
25
Handlungsempfehlungen für Betreiber von Websites
Wie im Abschnitt „Bewertung des Seiteninhalts“ (Seite 17) erläutert, spielt
die Position der Schlüsselwörter auf einer Internetseite eine wichtige Rolle
für deren Gewichtung bei der Berechnung des Rankings. Für einen Webcrawler hat eine Internetseite allerdings ein anderes Aussehen als für
einen menschlichen Besucher. Der Internetsurfer, der eine Seite besucht,
sieht die von einem Browser interpretierte HTML-Seite. Der Crawler hingegen erhält nur den HTML-Code. Dies hat zur Folge, dass die Reihenfolge von Textinhalten verschoben sein kann, d. h. Texte, die im Browser zu
Anfang der Webseite stehen, können im HTML-Code weiter hinten
erscheinen. Durch die Verwendung einer Tabelle zur Positionierung von
Textelementen auf einer Internetseite kann es zu einer solchen „Verzerrung“ kommen, wie es das nachfolgende Beispiel zeigt:
<TABLE BORDER=0>
<TR>
<TD>
Hier kann ein sehr langer Text<BR>
mit der Beschreibung des Ladens etc. stehen
</TD>
<TD VALIGN=”TOP”>
Blumenversand
</TD>
</TR>
</TABLE>
Das Wort Blumenversand erscheint zwar im Browser auf der gleichen
Höhe wie der Beginn der langen Textpassage im linken Teil der Tabelle,
der Crawler allerdings findet es erst am unteren Ende der Seite und weist
ihm gegebenenfalls eine geringe Bedeutung zu.
Neben der Position der Schlüsselwörter berücksichtigen manche RankingAlgorithmen auch deren Dichte, d. h., welchen Anteil sie am Gesamttext
einer Seite haben. Einerseits wird ein Suchbegriff in einem relevanteren
Dokument wohl häufiger vorkommen, andererseits kann eine zu große
Dichte von Schlüsselwörtern auf Keyword Stuffing hindeuten (vgl.
Abschnitt „Keyword Stuffing“, Seite 41).
26
www.hessen-it.de
Ein weiteres Problem ist die Gestaltung wichtiger Textbereiche, die grafisch aufgewertet werden sollen, um ihre Wichtigkeit zu markieren. Durch
die Verwendung von Farben oder speziellen Schriften sind sie für den
Internetsurfer gut von unwichtigen Stellen zu unterscheiden. Ein Webcrawler ignoriert aber diese Art der Hervorhebung und bewertet diese
Passagen nicht anders als unwichtigere. Daher sollte bei der Gestaltung
der Seite mit den in HTML vorgesehenen Tags gearbeitet werden. Zur
Hervorhebung von Überschriften können die Tags <H1> bis <H6> verwendet werden. Bei der Hervorhebung einzelner Wörter durch kursive oder
fette Schreibweise sollten die Tags <em> und <strong> anstelle von <i>
oder <b> verwendet werden. Auch wenn diese Ratschläge befolgt werden,
kann ein ansprechendes Seitenlayout realisiert werden. Durch die Verwendung von Cascading Style Sheets hat man vielfältige Möglichkeiten,
die Darstellung von Texten geeignet zu beeinflussen. Wie bei der
Beschreibung der Indizierung erläutert, sollte auch der <TITLE> Tag verwendet werden, da er von vielen Suchmaschinen als ein besonders wichtiges Merkmal einer Seite bewertet wird.
Meta-Tags
Auch wenn die Bedeutung der Meta-Tags zurückgegangen ist, sollte man
sich trotzdem nicht die Chance entgehen lassen, diese mit den richtigen
Inhalten zu füllen und so das Ranking zu beeinflussen. Eine besondere
Rolle nimmt dabei der Description-Tag (<meta name=“description” content=“Beschreibung der Seite”>) ein, da sein Inhalt in manchen SERP zur
Beschreibung der gefundenen Seiten ausgegeben wird. Eine gute Seitenbeschreibung kann zu mehr Clickthroughs und somit auf die Dauer zu
einer Verbesserung des Rankings auf Basis der Clickthrough-Berechnungen führen. Der Description-Tag sollte mit einem oder zwei kurzen Sätzen
gefüllt werden, welche die Seiteninhalte möglichst prägnant beschreiben.
Dabei ist zu beachten, dass der Text nicht zu lang wird, da einige Suchmaschinen nur eine begrenzte Anzahl Zeichen darstellen.
27
Handlungsempfehlungen für Betreiber von Websites
Auch der Keyword-Tag (<meta name=“keywords” content=“Schlüsselwörter”>) hat nicht mehr die gleiche Bedeutung wie noch vor wenigen Jahren. Nichts desto trotz kann eine korrekte Benutzung des Tags mit Schlüsselwörtern die Bewertung einer Seite positiv beeinflussen. Dabei sollte
darauf geachtet werden, nur Schlüsselwörter zu verwenden, die in direktem Zusammenhang mit dem Seiteninhalt stehen. Die Begriffe (das können auch Phrasen sein) werden in eine durch Kommata (ohne Lehrzeichen) getrennte Liste innerhalb des Meta-Tags geschrieben.
Neben den Description- und Keyword-Tags gibt es noch eine Vielzahl weiterer Tags, wie z. B. author, publisher, copyright zur Beschreibung des
Autors, des Herausgebers oder des Copyrightbesitzers einer Internetseite
(eine Ausführliche Beschreibung findet sich unter http://selfhtml.tea-
mone.de/html/kopfdaten/meta.htm ). Der manuelle Aufwand zur Erstellung
von Meta-Tags kann reduziert werden, in dem man einen Tag-Generator
einsetzt. Solche kostenlosen Hilfsmittel finden sich bei vielen Anbietern im
Internet, z. B. unter www.metatag-generator.de , und sie erleichtern die korrekte Erstellung der Tags.
Probleme bei der Seitengestaltung
Bei der Erstellung der Internetseiten muss man neben der korrekten Seitengestaltung auf einige Restriktionen Rücksicht nehmen, denen die Webroboter unterworfen sind. Geschieht dies nicht, so kann es im schlimmsten Fall
dazu kommen, dass das Internetangebot nicht indiziert werden kann.
Ein Problem ist der Einsatz von Frames. Das <NOFRAMES>-Tag ist eigentlich
dazu gedacht, Browsern, die keine Frames darstellen können (z. B. auf PDAs
oder Mobiltelefonen), eine alternative Startseite anzubieten. Diese könnte
auch als Grundlage der Indizierung durch einen Webroboter gelten. Allerdings ist das <NOFRAMES>-Tag in der Vergangenheit extensiv zum Spamming
(vgl. Abschnitt 5.5) genutzt worden, so dass es inzwischen von den meisten
Suchmaschinen nur noch mit äußerst geringer Priorität behandelt wird. Da
die meisten Gestaltungsmöglichkeiten, die Frames bieten, inzwischen ähnlich oder sogar besser mit Hilfe anderer HTML-Konstrukte realisiert werden
können, ist von der Verwendung von Frames abzuraten, wenn es auf eine
gute Suchmaschinentauglichkeit des Angebots ankommt.
28
www.hessen-it.de
Ein weiteres Problem ist die Verwendung von dynamischen Inhalten.
Dabei werden die Internetseiten nicht in statischen HTML-Dateien gespeichert, sondern die Inhalte werden erst während des Aufrufs der Seite aus
einer Datenbank gelesen und an den Webbrowser übermittelt. Dadurch
erhöht sich die Zahl der Seiten, aus denen ein Internetangebot besteht,
was dazu führt, dass viele Suchmaschinen dynamische Seiten ignorieren.
Daher sollte wenigstens auf der Startseite auf den Einsatz von dynamischen Inhalten weitestgehend verzichtet werden (einzelne dynamische
Elemente in einer Seite, die nur am Rande mit der Beschreibung des
Angebots zu tun haben, schaden aber nicht, wie z. B. die dynamische Einblendung aktueller Nachrichten). Manche Content-Management-Systeme
(CMS) bieten darüber hinaus die Möglichkeit, selektiv Inhalte in statische
HTML-Seiten für die Indizierung durch Suchmaschinen zu exportieren.
Ein ähnlicher Effekt kann erzielt werden, wenn das CMS die Möglichkeit
bietet, die URLs dynamisch generierter Seiten wie die statischer erscheinen zu lassen. Hier sollte jedoch vorsichtig vorgegangen werden, um die
Crawler der Suchmaschinen nicht durch zu viele bzw. zu tief verästelte Seiten zu einem Abbruch der Indizierung zu veranlassen. Abschnitt 5.3 zeigt,
wie Crawler von dynamisch generierten Bereichen eines Angebots ferngehalten werden können.
Größere Schwierigkeiten hat man, wenn die Startseite erst nach einer
Registrierung mit einem Passwort zu erreichen ist. Dadurch sperrt man
nicht nur unerwünschte Besucher aus, sondern auch die Crawler. Es empfiehlt sich also, nicht direkt auf der Startseite nach einem Passwort zu fragen, sondern erst beim Wechsel auf untergeordnete Themen. Ähnliches
gilt für die Verwendung multimedialer Elemente wie Flash, Shockwave
oder Streaming Video. Noch immer finden sich viele Sites, deren Startseite
aus einem Eröffnungsvideo besteht. Dies stört nicht nur regelmäßige
Besucher, welche die Animation zum wiederholten Male sehen müssen,
sondern auch die Webcrawler, die nicht in der Lage sind, multimediale
Inhalte zu indizieren. Selbst, wenn ein „Begrüßung überspringen“-Link im
HTML-Code der Startseite existiert, dem Crawler folgen können, erscheinen durch die vorgeschaltete Seite alle weiteren Inhalte, also insbesondere die eigentliche Homepage des Angebots, eine Ebene tiefer und werden deshalb beim Ranking vieler Suchmaschinen geringer gewichtet. Bei
29
Handlungsempfehlungen für Betreiber von Websites
der Verwendung von Bildern ist darauf zu achten, dass der <ALT>-Tag ausgefüllt ist. Dieser beinhaltet eigentlich den Text, der im Browser angezeigt
wird, wenn das Bild nicht geladen werden kann (ALT kommt von Alternative). Die Crawler verwenden ihn aber für zwei Zwecke: Einerseits dient er
als Beschreibung des Bildinhalts und somit als Grundlage zur Indizierung
des Bildes, andererseits dient er zur Beschreibung des Links, dem beim
Klicken auf das Bild gefolgt wird.
Ein weiteres Problem ist die Verwendung von JavaScript oder anderen
Skriptsprachen. Mit diesen können sehr nützliche Effekte auf einer Site
erzeugt werden. Man sollte allerdings vermeiden, sie zur Navigation einzusetzen. Bei den so genannten JavaScript-Links wird ein Link nicht durch
das Tag <A HREF...> gekennzeichnet, sondern durch eine JavaScript-Funktion, die aber von vielen Crawlern nicht interpretiert werden kann.
Dadurch werden untergeordnete Seiten des Internetangebots nicht
gefunden, wodurch eine vollständige Indizierung verhindert wird.
Abschließend sei noch auf die Verwendung spezieller Dateitypen wie PDF
(Portable Document Format) oder PS (Postscript) eingegangen. Diese Formate haben sich durchgesetzt, um Dokumente im ursprünglichen Layout
im Internet zu publizieren. So bietet es sich an, z. B. Geschäftsberichte zum
Download in einem dieser Formate anzubieten. Einige Suchmaschinen
sind in der Lage, solche Dokumente zu indizieren. Möchte man sicherstellen, dass der Dokumentinhalt auch bei einer Indizierung durch andere
Suchmaschinen nicht übergangen wird, so empfiehlt es sich aber, eine
kurze Inhaltsangabe der Dokumente im HTML-Format zu verfassen und
aus dieser heraus mit einem Link auf das PDF- oder PS-Dokument zu verweisen.
Einen Eindruck, wie die Crawler der Suchmaschinen mit dem eigenen
Angebot zurecht kommen, kann man sich bei Seekport verschaffen. Seekports Crawler Seekbot (www.seekport.de/seekbot ) kann probehalber das
eigene Angebot besuchen und gibt anschließend eine Auswertung über
dessen Suchmaschinentauglichkeit aus.
30
www.hessen-it.de
Gateway-Seiten
Gateway-Seiten (oder Doorway-Seiten) galten eine lange Zeit als das
Hauptmittel zur Erlangung einer guten Position in den Suchmaschinenrankings. Unter einer Gateway-Seite versteht man eine Seite des eigenen
Internetangebots, die sich nur mit einem speziellen Schlüsselwort oder
einer Phrase befasst. Diese Seite wird als eigenständiges Internetangebot
bei den Suchmaschinen angemeldet und soll so den Eindruck erwecken,
dass sich das gesamte Angebot nur mit diesem Thema befasst. Man
erstellt also für jedes Themengebiet der Site eine eigene Startseite. Diese
Seiten hatten so gut wie keinen Inhalt – sie bestanden häufig aus den
Schlüsselwörtern und einem Link zur eigentlichen Startseite. Zur Erstellung der Seiten wurde Software eingesetzt, die zu einer Vielzahl von
Schlüsselwörtern solche Einstiegsseiten generierte und bei den Suchmaschinen anmeldete. Die Betreiber der Suchmaschinen erkannten diesen
Missbrauch und entwickelten Verfahren, solche informationsarmen Seiten
aus ihrem Datenbestand zu entfernen.
Die heutige Funktion von Gateway-Seiten ist eine andere. Webroboter
haben Schwierigkeiten, Internetangebote zu indizieren, die viele grafische
Elemente enthalten oder über ein komplexes Seitenlayout verfügen. Auf
ein gutes Webdesign zu verzichten, kann aber nicht die Antwort auf diese
Schwierigkeiten sein; viele Angebote animieren z. B. ihre Startseite mit
Flashsequenzen. Zur Lösung des Problems bieten sich nun Gateway-Seiten an: Man erstellt nun nicht mehr für jedes Schlüsselwort eine eigene
Seite, sondern für verschiedene Gruppen von Suchmaschinen. Je nach
den Fähigkeiten der Roboter werden Internetseiten erstellt, die das
Webangebot beschreiben und sozusagen als alternative Startseite dienen. Bei den Suchmaschinen wird dann zusätzlich zur eigentlichen Startseite diese speziell erstellte Gateway-Seite angemeldet, wodurch die
Webroboter die Site problemlos indizieren können.
31
Handlungsempfehlungen für Betreiber von Websites
5.2 Anmeldung bei Suchmaschinen und Katalogen
Nachdem das eigene Webangebot den Anforderungen der Webcrawler
angepasst wurde, kann die Anmeldung bei den verschiedenen Suchmaschinen und Katalogen vorgenommen werden. Wichtig ist, dass die
Anmeldung erst nach der Optimierung der Site erfolgt, da ansonsten der
erste Besuch eines Webcrawlers oder schlimmer noch, eines menschlichen Begutachters, ins Leere läuft und somit für längere Zeit die Chance
vertan ist, einen guten Platz im Ranking zu erlangen.
Am einfachsten ist die Anmeldung bei Suchmaschinen. Durch die automatische Indizierung mithilfe eines Webroboters müssen meist keine weiteren Informationen über das Internetangebot eingegeben werden, so
dass lediglich die Eintragung der Internetadresse und evtl. der E-MailAdresse eines Ansprechpartners in ein Formular vorgenommen werden
muss. Google erlaubt zudem die Eingabe inhaltlicher Stichwörter zur
anzumeldenden Website, die aber keinen Einfluss auf das Ranking in den
SERP haben sollen. MSN sichert die neue Version seiner Suchmaschine
gegen automatisierte Anmeldungen, indem der Benutzer eine Zeichenkombination eingeben muss, die wie in Abbildung 8 auf dem Bildschirm
angezeigt wird und für automatische Texterkennungsprogramme nicht zu
entziffern ist.
Abbildung 8: Missbrauchsschutz bei der MSN-Suchmaschine
32
www.hessen-it.de
Bei Yahoo und den mittlerweile zur Yahoo-Gruppe gehörenden Suchmaschinen wie Altavista setzt eine kostenlose Anmeldung ein (ebenfalls
kostenloses) Yahoo-Benutzerkonto voraus. Manche Suchmaschinen erlauben inzwischen keine kostenlose Anmeldung mehr, hier wird man auf die
Paid Inclusion-Angebote von Anbietern Overture verwiesen.
Von Drittanbietern, die gegen Geld Eintragungen bei einer großen Zahl
von Suchmaschinen versprechen, ist abzuraten. Zum einen ist es bei der
Dominanz der wenigen großen Suchdienste zweifelhaft, ob die Eintragung in kleinere Suchmaschinen einen nennenswerten Zusatznutzen bietet, zum anderen gibt es keine Möglichkeit, zu kontrollieren, ob der Anbieter seine Versprechen wirklich erfüllt, da die Suchmaschinen, außer bei
Paid Inclusion, keine Garantien geben, dass angemeldete Sites auch wirklich in den Index aufgenommen werden.
Nachdem die Anmeldung erfolgt ist, werden die Crawler der Suchmaschinenbetreiber die angemeldete Internetseite nach einiger Zeit besuchen und indizieren. Wie auf den Weg, den die Crawler auf einer Website
gehen, Einfluss genommen werden kann, wird in Abschnitt 5.3 erläutert.
Etwas komplizierter gestaltet sich die Anmeldung bei Katalogen. Die Vorgehensweise einer solchen Anmeldung ist bei den meisten Katalogen
ähnlich. Wegen dessen großer Bedeutung als Datenlieferant für wichtige
Suchmaschinen soll diese am Beispiel des ODP (www.dmoz.de ) erläutert
werden. Zunächst muss die Kategorie im Katalog gesucht werden, zu der
das eigene Internetangebot am besten passt (am Beispiel eines deutschen Online-Blumenladens würde dies bedeuten: World > Deutsch >
Online-Shops > Blumen). Wenn man die Kategorie mit dem Browser
geöffnet hat, findet sich am oberen Rand der Seite ein Link, mittels dessen
man eine URL zur Aufnahme in den Katalog vorschlagen kann. Die eigentliche Anmeldung erfolgt durch die Beantwortung einer Reihe von Fragen.
Zunächst soll die URL des Internetangebots eingetragen werden. Neben
URLs, die auf normale Websites verweisen, können hier auch Verweise auf
PDF-Dokumente oder auf Nachrichtenkanäle, eine Möglichkeit zur Verbreitung aktueller Informationen an Internetnutzer, angegeben werden.
Als nächstes ist der Titel einzugeben, unter dem das Angebot im Verzeichnis erscheinen soll. Dieser sollte relativ kurz sein, bei einer Firmen33
Handlungsempfehlungen für Betreiber von Websites
präsentation den Firmennamen enthalten und einen Bezug zum Inhalt der
Website haben. Nun hat man noch die Möglichkeit einen möglichst prägnanten (nicht mehr als 25 bis 30 Wörter zählenden) Kommentar einzugeben. Dieser soll keine Werbefloskeln enthalten, sondern den tatsächlichen
Inhalt des Internetangebots beschreiben, was auch von den Redakteuren
geprüft wird. Schließlich ist noch eine E-Mail-Adresse für Rückfragen anzugeben.
Bei anderen Katalogen, z. B. Web.de und Yahoo, ist die Angabe einiger
weiterer Informationen möglich, insbesondere können eine Postleitzahl
und ein Ort angegeben werden, unter dem das Angebot bei einer ortsbezogenen Suche erscheinen soll sowie teilweise weitere Kategorien, in
denen der Eintrag ebenfalls erscheinen soll.
Während Einträge beim ODP grundsätzlich kostenlos sind und stets im
gleichen Format erscheinen, können bei den kommerziellen Verzeichnissen unterschiedliche Formate für einen Eintrag gewählt werden, wobei
ein Minimaleintrag kostenlos ist, mit steigenden Umfang jedoch höhere
Preise fällig werden.
5.3 Einflussnahme auf Crawler
Als Betreiber einer Website hat man verschiedene Möglichkeiten, Crawler
beim Besuch der eigenen Seiten zu steuern. Dieses Vorgehen kann z. B.
dann sinnvoll sein, wenn ein Unternehmen eine Liste aller Mitarbeiter auf
der eigenen Homepage anbietet, aber verhindern möchte, dass die Mitarbeiter auch über eine Suchmaschine gefunden werden können. Dazu
muss die Indizierung der Mitarbeiterliste verhindert werden.
Eine Möglichkeit den Besuch von Webrobotern auf der gesamten Site zu
beeinflussen, ist die Datei robots.txt. In ihr wird festgehalten, welche
Unterverzeichnisse und Dateien des Internetangebots indiziert werden
dürfen und welche nicht. Robots.txt besteht aus einzelnen Blöcken der folgenden Struktur:
34
www.hessen-it.de
User-agent: Roboter_1
User-agent: Roboter_2
Disallow: /mitarbeiter/
Allow: /mitarbeiter/geschaeftsleitung/
Ein Block besteht aus den drei Befehlen User-agent, Disallow und / oder
Allow gefolgt von einem Doppelpunkt und einem Leerzeichen. Die
Anzahl der Zeilen pro Block ist nach oben unbegrenzt, er muss jedoch
mindestens eine User-agent-Zeile sowie eine Disallow- oder Allow-Zeile
enthalten. Jeder Block beginnt mit der Angabe User-agent. In ihr wird der
Name des Crawlers genannt, auf den sich der Steuerungsblock beziehen
soll. Man kann für jeden Block weitere Crawler-Namen eingeben, indem
in den nächsten Zeilen weitere Einträge der gleichen Form vorgenommen
werden. Die Steuerung einzelner Crawler setzt aber voraus, dass man
deren Bezeichnungen kennt, was leider häufig nicht der Fall ist. Zu diesem
Zweck kann man anstelle eines Namens auch ein * setzen, womit der
Block dann alle die Seite besuchenden Roboter betrifft:
User-agent: *
Disallow: /mitarbeiter/
Allow: /mitarbeiter/geschaeftsleitung/
Wird in einem Block ein * verwendet, darf in diesem keine weitere Useragent-Zeile mehr folgen.
Der Befehl Disallow gibt die Namen der Dateien und Unterverzeichnisse
an, die der unter User-agent genannte Crawler nicht indizieren soll. Im
Beispiel bedeutet dies, dass alle Dateien im Unterverzeichnis Mitarbeiter
nicht indiziert werden sollen. Mit dem Befehl Allow kann diese Einschränkung aber abgeschwächt werden. Sollen z. B. die Mitarbeiter der
Geschäftsleitung über eine Suchmaschine gefunden werden können und
sind deren Mitarbeiterseiten in einem eigenen Unterverzeichnis abgelegt,
so kann mit dem im Beispiel gezeigten Allow-Befehl die Indizierung des
Unterverzeichnisses /mitarbeiter/geschaeftsleitung/ erlaubt werden.
35
Handlungsempfehlungen für Betreiber von Websites
Die Datei robots.txt muss im Stammverzeichnis des Webservers liegen
(das Stammverzeichnis ist dasjenige, indem auch die Startdatei, meistens
index.html, des Internetangebots liegt). Dabei ist zu beachten, dass der
Dateiname in Kleinbuchstaben geschrieben wird und dass es sich um eine
reine Textdatei handelt, die außer den beschriebenen Inhalten keine Steuerzeichen aus Textverarbeitungsprogrammen enthalten darf.
Um die Indizierung einzelner Seiten individuell zu beeinflussen, stehen
verschiedene Meta-Tags zur Verfügung, die im Kopf des HTML-Codes eingefügt werden können. <meta name=”robots” content=”noindex”> bzw.
<meta name=”robots” content=”index”> verbietet bzw. erlaubt allen Crawlern die Internetseite zu indizieren. Der Tag entspricht also der Disallowbzw. Allow-Anweisung in der Datei robots.txt, bezieht sich allerdings nur
auf die aktuelle Seite. Weiterhin stehen die Tags <meta name=“robots“
content=“nofollow“> und <meta name=“robots“ content=“follow“> zur
Verfügung. Diese beeinflussen die Verarbeitungsweise von ausgehenden
Links der aktuellen Seite. Wird der Tag für nofollow gesetzt, dann wird den
Webrobotern verboten, den Links der Seite zu folgen. Dadurch werden
nachgeordnete Seiten, die über keinen anderen Weg zugänglich sind,
von der Indizierung ausgeschlossen, ohne dass in ihnen explizit eine noindex-Anweisung gesetzt werden muss, da die Webroboter diese Seiten
nicht finden können. Im Gegensatz dazu wird durch das Setzen des Tags
follow explizit erlaubt, den ausgehenden Links zu folgen und die nachfolgenden Seiten zu indizieren (enthalten diese dann weitere Anweisungen
müssen sie natürlich von den Crawlern beachtet werden). Zuletzt sei noch
der Tag <meta name=“revisit-after“ content=“10 days“> erwähnt. Dieser
Tag ist lediglich eine Bitte an die Webcrawler, nach einigen Tagen (hier im
Beispiel 10) die Seite erneut zu besuchen und zu indizieren.
Eine weitere Möglichkeit, den Weg eines Roboters im eigenen Internetangebot zu beeinflussen, ist der Aufbau einer so genannten Sitemap. Eine
Sitemap ist eine einzelne HTML-Seite, die eine grobe Übersicht über die
wichtigen Seiten des eigenen Internetangebots gibt. Dazu werden kurze
Beschreibungen der einzelnen Teilbereiche verfasst und auf deren Startseiten mit Links verwiesen. Ein offensichtlicher Nutzen davon ist, dass sich
Besucher auf der Site schnell zurechtfinden können. Ein nützlicher Nebeneffekt ist aber die Beeinflussung der Webroboter. Wird eine Sitemap so
36
www.hessen-it.de
angeordnet, dass sie von der Startseite direkt zu erreichen ist, dann kann
sie dazu beitragen, dass alle wichtigen Seiten vollständig indiziert werden.
Dies ist insbesondere dann hilfreich, wenn ein Webcrawler nur Seiten bis
zu einer bestimmten Tiefe indiziert (vgl. Abschnitt 3.1). Dazu sollte die Sitemap auf der zweiten Ebene des Internetangebots zu errei-chen sein, d. h.
sie ist mit einem Klick von der Startseite aus zu erreichen. Alle Bereiche,
auf die von dort verwiesen wird, erscheinen für Webroboter nun so, als
würden sie zur dritten Ebene gehören. Dadurch können auch Seiten in
weitverzweigten Netzstrukturen von allen Robotern indiziert werden.
5.4 Weitere Verfahren zur Bekanntmachung von Websites
Neben den allgemeinen Suchmaschinen und Katalogen gibt es noch zwei
weitere Möglichkeiten, das eigene Internetangebot über Verweise von
anderen Sites bekannt zu machen, die im Folgenden kurz beschrieben
werden sollen.
Portale für Spezialthemen
Als Portal bezeichnet man eine Internetseite, die versucht, für möglichst
viele Benutzer der Startpunkt für die Nutzung des Internets zu sein, um
dadurch hohe Benutzerzahlen und entsprechende Einnahmen aus
Online-Werbung zu generieren. Zu diesen gehören die Seiten von Yahoo
und Web.de, von Browserherstellern, wie Netscape und Microsoft (MSN),
oder Internet Service Providern, wie T-Online oder AOL, die alle eine ähnliche Mischung von Inhalten und Diensten bieten, die von aktuellen Nachrichten über Mail-Dienste bis zu den bereits erwähnten Katalogen und
Suchmaschinen reicht. Daneben existieren so genannte Nischenportale,
die versuchen, ein Einstiegspunkt für Nutzer zu sein, die an einem
bestimmten Spezialthema interessiert sind. Auf Finanzportalen finden sich
Informationen über Börsenkurse, Wirtschaftsnachrichten und Anlagetipps,
während man sich in einem Gartenportal über die neuesten Düngemittel
informieren kann. Es gibt sowohl Nischenportale, die aus kommerziellen
Motiven betrieben werden, als auch solche, die von Idealisten eingerichtet und gepflegt werden, häufig aber auch themenbezogene Reklame
einbinden, um damit die laufenden Kosten des Webangebots zu decken.
Die meisten Portale beinhalten einen Katalog von Internetseiten, die sich
37
Handlungsempfehlungen für Betreiber von Websites
mit dem Oberthema des Portals beschäftigen. Einige bieten sogar eine
eigene Suchmaschine an und bieten die Möglichkeit, Mitglied einer Interessengemeinschaft, einer so genannten Community, zu werden.
Es ist also ratsam, das eigene Angebot in die Verzeichnisse und Suchmaschinen der Portale aufnehmen zu lassen, die sich mit dem gleichen Themengebiet wie die eigene Website befassen. Da die Besucher von Portalen ein grundsätzliches Interesse an diesem Thema haben, ist die Wahrscheinlichkeit sehr hoch, dass sie im Portal verlinkte Internetangebote
besuchen und bei entsprechender Qualität auch wiederkommen. Die
Anmeldung bzw. Indizierung erfolgt häufig manuell und, je nach Größe
des Portals, nach weniger strengen Kriterien als z. B. beim ODP. Größere
Portale können aber auch eigene Webcrawler besitzen, die sie zur Erfassung interessanter Seiten einsetzen.
Ein sehr nützlicher Effekt der Anmeldung bei Portalen ist die Erhöhung
der Link-Popularität. Links von qualitativ hochwertigen Portalen werden
von den Suchmaschinenbetreibern höher bewertet, als solche von normalen Internetseiten. So kann man durch die Platzierung eines Links auf
das eigene Angebot in einem Portal sowohl direkt Besucher ansprechen,
als auch, über den Umweg einer besseren Suchmaschinenpositionierung,
neue Besucher gewinnen.
Webringe
Ein Webring ist ein loser Zusammenschluss von Internetsites unterschiedlicher Anbieter, die sich mit einem gemeinsamen Themengebiet befassen. Auf den Startseiten der Internetangebote sind Links angebracht, die
zu den Seiten von zwei weiteren Ringmitgliedern führen, die als Vorgänger und Nachfolger bezeichnet werden. Betrachtet man beispielsweise
vier Internetangebote, die mit A, B, C und D bezeichnet werden, dann
besitzt das Angebot A je einen Link zu den Sites B (Nachfolger) und D
(Vorgänger). Angebot B verlinkt zu dem Nachfolger C und dem Vorgänger A usw. Abbildung 9 verdeutlicht die Struktur eines Webrings.
38
www.hessen-it.de
Durch die Art und Weise der Verlinkung wird eine kreisförmige Struktur
erzeugt, in der die Bezeichnung Webring begründet ist. Ein Webring bietet damit die Möglichkeit, mehrere interessante Seiten zu einem Thema zu
besuchen, ohne eine Suchmaschine oder einen Katalog zu benutzen.
Durch die kreisförmige Struktur wird vermieden, dass man immer wieder
zu einer Übersichtsseite zurückspringen muss, um die Adresse des nächsten interessanten Angebots zu erfahren. Stattdessen folgt man einfach
dem Link zur Nachfolgerseite. Gelangt man wieder auf der Seite an, auf
der man die Suche begonnen hat, so hat man alle Seiten des Webrings
besucht.
Da es natürlich sehr mühsam wäre, die Vorgänger- und Nachfolgerlinks
der teilnehmenden Seiten manuell zu pflegen (z. B. bei Abmeldung eines
Teilnehmers oder Ausfall eines Servers) gibt es Anbieter, die die Verwaltung der Webringe automatisieren (z. B. www.webring.org, www.webring.de).
Die Betreiber der teilnehmenden Internetsites tragen dann keine statischen Links zu den Nachbarseiten ein, sondern verweisen auf ein CGISkript des Ringanbieters, das die korrekte Verlinkung vornimmt. Die Ringanbieter stellen auch gleichzeitig einen Katalog zur Verfügung, in dem die
teilnehmenden Webringe thematisch gegliedert aufgelistet sind.
A
Nachfolger
B
Vorgänger
Nachfolger
Vorgänger
Nachfolger
Vorgänger
Nachfolger
D
C
Vorgänger
Abbildung 9: Struktur eines Webrings
39
Handlungsempfehlungen für Betreiber von Websites
5.5 Spamming von Suchmaschinen
Die bisher genannten Empfehlungen dienten dazu, das Ranking der eigenen Seiten in den Ergebnislisten von Suchmaschinen zu verbessern.
Neben diesen kursieren im Internet aber immer wieder angebliche
Geheimtipps oder Tricks, die zu einem besseren Ranking führen sollen.
Der einzige Effekt, den diese Vorgehensweisen häufig haben, ist, dass die
eigene Seite in die Sperrliste einer Suchmaschine aufgenommen und von
der Indizierung ausgeschlossen wird. Man vereinigt diese „Techniken“
unter dem Oberbegriff des Spamming von Suchmaschinen. Alle SpamVersuche haben gemeinsam, dass sie die Unzulänglichkeiten früherer
Ranking-Algorithmen auszunutzen versuchen, um bei der Indizierung besser abzuschneiden. Mit der fortschreitenden Entwicklung der Algorithmen
fanden sich aber Möglichkeiten, um diese Versuche zu erkennen und die
entsprechenden Seiten auf Sperrlisten zu setzen. Nachfolgend sollen die
häufigsten Spam-Techniken vorgestellt werden, um absichtliche oder versehentliche Manipulationen zu vermeiden.
Unsichtbarer oder sehr kleiner Text
Eine beliebte Vorgehensweise, um zusätzliche Schlüsselwörter auf einer
Internetseite anzubringen, die von einem normalen Besucher nicht wahrgenommen werden, ist die Verwendung von unsichtbaren oder sehr klein
geschriebenen Texten. Unsichtbare Textstellen erzeugt man, indem der
Text in der gleichen oder in einer sehr ähnlichen Farbe wie der Hintergrund verfasst wird.
Verstecken von Keywords in Meta-Tags oder Kommentarzeilen
Immer wieder empfohlen wird das Unterbringen von Schlüsselwörtern in
Meta-Tags, Kommentarzeilen oder anderen im Browser nicht sichtbaren
HTML-Elementen, mit dem Ziel, sie einem Webcrawler mitzuteilen, aber
vor menschlichen Besuchern versteckt zu halten. Außerhalb des KeywordTag sollte dies aber vermieden werden, da einige Webcrawler dies als
Spam-Versuch werten.
40
www.hessen-it.de
Keyword Stuffing
Unsichtbare Textstellen werden häufig zusammen mit dem so genannten
keyword stuffing verwendet. Dabei werden die für die Site ausgewählten
Schlüsselwörter vielfach wiederholt, in der Hoffnung, dadurch für diese
Schlüsselwörter ein besseres Ranking zu erhalten. Durch Häufigkeitsmessungen von Wörtern und Berechnung der relativen Worthäufigkeiten
(Anzahl Nennungen eines Worts im Verhältnis zu der gesamten Anzahl
von Wörtern auf einer Seite) können Webcrawler diese Versuche aber
leicht erkennen.
Missbrauch von Schlüsselwörtern
Es gibt eine Vielzahl von Schlüsselwörtern, die sehr häufig bei Suchmaschinen nachgefragt werden. Ein nahe liegendes Verfahren, um viele
Besucher anzulocken, scheint die Verwendung solcher Schlüsselwörter im
Keyword-Tag der eigenen Seite oder bei der Kataloganmeldung zu sein,
auch wenn diese nichts mit dem tatsächlichen Seiteninhalt zu tun haben.
Selbst wenn diese Vorgehensweise bei der Indizierung der Site nicht auffällt, was bei den bekannten Suchmaschinen so gut wie ausgeschlossen
ist, werden auf jeden Fall die derart angelockten Besucher nicht sehr
lange auf der Site verweilen, da sie die gewünschten Informationen nicht
finden können.
Meta-Refresh oder Redirecting
Der Meta-Tag <meta http-equiv=“refresh“ content=“3; URL=http://...“>
veranlasst den Webbrowser des Besuchers, nach einer gewissen Zeit (im
Beispiel drei Sekunden) die unter URL genannte Seite zu öffnen. Dieses
Vorgehen ist z. B. im Falle einer Domain-Weiterleitung angebracht. Hat
sich der Name der eigenen Domain geändert, aber noch nicht alle Besucher sind darüber informiert worden, wie die neue Adresse lautet, so ist
eine automatische Weiterleitung auf die neue Adresse sehr hilfreich. Auch
beim Einsatz von so genannten Splash-Seiten oder Begrüßungsseiten ist
eine automatische Weiterleitung nützlich. Nicht zuletzt kann man auch
eine Art Dia-Show von verschiedenen Internetseiten mit dem MetaRefresh-Befehl erzeugen. Leider wird die Möglichkeit der Weiterleitung
häufig von Spammern benutzt, um Doorway-Seiten bei Suchmaschinen
41
Handlungsempfehlungen für Betreiber von Websites
anzumelden, menschliche Besucher aber auf die tatsächliche Startseite
umzulenken. Die meisten Webcrawler sind deshalb dazu übergegangen,
HTML-Seiten, die einen Meta-Refresh-Befehl enthalten, der für einen
menschlichen Besucher eine offensichtlich zu kurze Verweildauer beinhaltet, zu ignorieren. Bestenfalls wird die unter URL angegebene Seite trotzdem indiziert. Schlimmstenfalls wird allerdings das gesamte Angebot
ignoriert. Im Falle von Splash-Seiten oder Dia-Shows ist die Verwendung
also unkritisch, wenn die Verweilzeit entsprechend hoch eingestellt ist. Bei
der Domain-Umleitung empfiehlt sich ein serverseitiges Vorgehen. Dabei
wird die Umleitung nicht über einen Redirect-Befehl in einer HTML-Seite,
sondern über einen Befehl in der Internetserver-Software realisiert.
Anmelden gleicher oder ähnlicher Seiten
Eine weitere nicht zielführende Vorgehensweise ist das mehrfache Anmelden einer Internetseite. Dazu werden von der ursprünglichen Datei
Kopien angefertigt, die, minimal verändert und mit unterschiedlichen
Namen versehen, einzeln bei den Suchmaschinen angemeldet werden.
Damit soll die möglichst häufige Anzeige eines Internetangebots in den
SERP erreicht werden. Durch einfache Verfahren, z. B. durch die Bildung
von Prüfsummen, können aber solche Dubletten erkannt und die Betreiber der Seiten als Spammer identifiziert werden.
Austausch der Seiten nach erfolgter Indizierung
Hat man durch eine suchmaschinengerechte Seitengestaltung eine gute
Position in den SERP zu bestimmten Schlüsselwörtern erhalten, sollte man
nicht den Versuch unternehmen, diese Seite durch eine andere zu ersetzen, die eher benutzerorientiert gestaltet ist. Man könnte auch auf die
Idee kommen, unter der Adresse einer Seite mit einem guten Ranking ein
Angebot mit anderem Inhalt zu veröffentlichen. Da aber die verschiedenen Webcrawler indizierte Seiten in unregelmäßigen Abständen überprüfen, würde, nachdem die Änderungen registriert wurden, das Ranking
sofort verändert und die gute Position wäre verloren.
42
www.hessen-it.de
Wiederholtes Anmelden eines Internetangebots
Wie beschrieben wird ein Internetangebot einige Zeit nach der Anmeldung bei Suchmaschinen von Webcrawlern besucht und indiziert. Dieser
Zeitraum kann durch wiederholtes Anmelden nicht verkürzt werden. Es
sollte auch vermieden werden, nach jeder Änderung von Internetseiten
eine erneute Anmeldung bei den Suchmaschinen vorzunehmen. Zu häufiges Anmelden wird als Spam-Versuch gewertet, weshalb man sich an die
in den Anmelderichtlinien der Suchmaschinen genannten Zeiträume halten sollte. Als Richtgröße empfiehlt es sich, einen Zeitraum von ca. einem
Monat verstreichen zu lassen, bevor eine erneute Anmeldung vorgenommen wird.
Link-Farmen
Aufgrund eines falschen Verständnisses des Begriffs Linkpopularität
haben unseriöse Anbieter ein neues „Geschäftsfeld“ entdeckt. Sie bieten
ihren Kunden (meist gegen Bezahlung) an, Links auf unterschiedlichen
Seiten einzurichten, die auf das Internetangebot des Kunden verweisen.
Diese Link-Farmen sollen angeblich die Linkpopularität erhöhen. Wie
erläutert ist allerdings die Qualität der Ausgangsseite und nicht nur die
reine Anzahl von Links der entscheidende Faktor bei der Berechnung der
Linkpopularität. Link-Farmen können von einem Webcrawler leicht
erkannt werden, da sie außer den Links keinen oder nur sehr wenig
zusätzlichen Inhalt bieten. Daher leisten Links von diesen Seiten bestenfalls keinen Beitrag zur Linkpopularität, da die Qualität der Seiten mit Null
bewertet wird. Je nach Art und Weise der Berechnung kann aber auch
eine negative Bewertung der Qualität erfolgen, wodurch sich die Linkpopularität sogar verschlechtern kann.
43
Zusätzliche Empfehlungen für Betreiber von Online-Shops
6
Zusätzliche Empfehlungen für
Betreiber von Online-Shops
6.1 Zusammenarbeit mit Preisvergleichsmaschinen
Um in den Ergebnissen einer Preisvergleichsmaschine zu erscheinen,
müssen sich Online-Shops in der Regel dort anmelden und anschließend
die benötigten Informationen übertragen. froogle filtert Preis- und Produktinformationen auch ohne das Zutun des Shop-Betreibers aus dem
Bestand der von Google indizierten Webpages heraus. Auch dort bietet
es sich aber für Shop-Betreiber an, aktiv Informationen zu liefern, da auf
diese Weise deren Aktualität, z. B. bei Änderungen von Preisen oder im
Sortiment, sicher gestellt werden kann. Außerdem werden nur Ergebnisse
von angemeldeten Shops in die Sortierung nach dem Preis einbezogen,
die für die Ergebnislisten von froogle möglich ist.
Die Anmeldung zur Übertragung von Daten und die Listung von Produkten ist bei den Preisvergleichsdiensten in der Regel kostenlos. Kosten entstehen dem Shop-Betreiber erst, wenn tatsächlich Benutzer durch den
Dienst auf den Online-Shop geleitet werden. Diese Clickthrough-Preise
liegen z. B. bei preissuchmaschine.de zwischen 15 und 35 Eurocent pro
Klick, je nach Produktkategorie. Einzelne Dienste, z. B. guenstiger.de, sind
für den Händler vollständig kostenlos, garantieren aber, da nur der jeweils
niedrigste Preis für ein spezifisches Produkt angezeigt wird, keine Listung.
Eine Möglichkeit für Shop-Betreiber, in den Listings aufzutauchen und
dennoch nicht direkt vergleichbar zu sein, besteht darin, mehrere komplementäre Produkte zu bündeln, z. B. indem eine Spielkonsole inklusive
eines oder mehrerer Spiele angeboten wird.
44
www.hessen-it.de
Anzumeldende Shops müssen bei den meisten Diensten bestimmten
Richtlinien genügen, die auf deren Websites angegeben werden und
regelmäßig überprüft werden. Verlangt wird oft, dass der Shop mindestens ein kundenfreundliches Zahlungsverfahren wie Nachnahme, Kreditkarte oder Rechnung anbietet; Shops, die nur gegen Vorkasse liefern,
werden meist nicht aufgenommen. Weitere Bedingungen betreffen die
Versandkosten, bei guenstiger.de dürfen diese z. B. für Kleingeräte 14
Euro, für Paletten 80 Euro nicht überschreiten. Manche Dienste lassen nur
gewerbliche Händler zu.
Die Übermittlung der Daten erfolgt meist als formatierte Textdatei, die mindestens die Spalten Produktbezeichnung, Produktbeschreibung und Preis
enthalten muss. Je nach Dienst können weitere Felder erforderlich sein.
Die Abbildung zeigt als Beispiel die für froogle erforderlichen Felder:
Feldname
Erklärung
product_url
URL der Produktbeschreibung im Online-Shop
name
Produktbezeichnung
description
Produktbeschreibung
price
Preis des Produkts
image_url
URL des Produktfotos im Online-Shop
category
Produktkategorie im Online-Shop
offer_id
Eindeutige Produktkennung, z. B. interne Bestellnummer
Abbildung 10: Felder für die Datenübermittlung an froogle
Außerdem können bei einigen Diensten spezifische Informationen zu
einem bestimmten Produkttyp hinzugefügt werden, z. B. bei Büchern
neben dem Titel Autor, Verlag, Erscheinungsjahr und ISBN-Nummer. Üblicherweise werden die einzelnen Felder durch ein Trennzeichen, z. B. ein
Semikolon, getrennt und jede Zeile der Datei beschreibt ein Produkt. Dieses Format lässt sich z. B. aus üblichen Tabellenkalkulationsprogrammen
exportieren. Sollen dauerhaft Angebote an einen bestimmten Preisvergleichsdienst gelistet werden, empfiehlt sich ein direkter Export aus der
Datenbank des Online-Shop-Systems.
45
Zusätzliche Empfehlungen für Betreiber von Online-Shops
Bei der Übermittlung der Dateien an die Preisvergleichsmaschine werden
unterschiedliche Verfahren eingesetzt. Bei froogle ist z. B. jede Datei
zunächst im Händlerbereich der Website anzumelden und anschließend
per FTP (File Transfer Protocol) auf einen bestimmten Server zu übertragen. Für die Übermittlung an preissuchmaschine.de kann die jeweils aktuelle Datei auf dem Webserver des Onlineshops bereitgestellt werden, wo
sie von dem Dienst bis zu achtmal täglich abgerufen wird; eine Übermittlung der Informationen per FTP oder E-Mail ist hier aber auch möglich. Da
bei guenstiger.de alle Angebote vor der Listung von einer Redaktion
überprüft werden, muss hier kein maschinenlesbares Format geliefert
werden.
6.2 Anbieten auf Online-Marktplätzen
Der bekannte Internet-Händler Amazon ermöglicht es mit seinem Marketplace genannten Programm, Angebote für Produkte einzustellen, die dann
auf die gleiche Weise im Amazon-Shop erscheinen wie dessen eigene
Angebote. Einzelne Angebote können kostenlos eingestellt werden. Eine
Gebühr wird erst im Falle eines Verkaufs fällig. Soll eine größere Anzahl von
Produkten gelistet werden, kann ein Power-Anbieter-Abonnement erworben werden, das gegen eine monatliche Gebühr niedrigere Verkaufsprovisionen sowie Unterstützung beim automatischen Einstellen von Angeboten
beinhaltet. Amazon gestattet zwar generell keine Links zu externen Seiten,
Hinweise auf einen eigenen Online-Shop sind aber zulässig.
Das Internet-Auktionshaus ebay bietet inzwischen auch die Möglichkeit,
neben den Auktionen Produkte zu festen Preisen anzubieten, wobei ein
Angebot auch mehrere Exemplare umfassen kann. Für das Einstellen
eines Angebots erhebt ebay eine Gebühr, zusätzlich fällt eine Provision für
verkaufte Artikel an. Auktionen und Festpreisangebote lassen sich bei
ebay in ein umfangreiches System von Kategorien einordnen. Auf die Auswahl der richtigen Kategorie sollte viel Überlegung verwendet werden, da
die Angebote sonst von der anvisierten Zielgruppe möglicherweise nicht
gefunden werden. Innerhalb einer Kategorie werden Angebote generell
nach ihrem (bei ebay obligatorisch anzugebenden) Ablaufdatum sortiert,
es besteht allerdings die Möglichkeit, Angebote durch Zahlung einer
46
www.hessen-it.de
zusätzlichen Gebühr näher am Anfang der Liste zu einer bestimmten Kategorie oder gar auf der ebay Startseite zu platzieren. Die Kosten hierfür
sind jedoch relativ hoch, so dass diese Maßnahme nur begrenzt sinnvoll
sein dürfte, wenn nicht der Verkauf eines bestimmten Artikels, sondern die
Bekanntmachung einer eigenen Website im Vordergrund steht. Auf der so
genannten „Mich“-Seite eines Anbieters gestattet ebay explizit Links zu
einem eigenen Online-Shop.
47
Website Promotion Tools und spezialisierte Dienstleister
7
Website Promotion Tools und spezialisierte
Dienstleister
Da die Optimierung einer Website auf eine gute Suchmaschinenposition
hin ein zeitaufwendiges Vorhaben sein kann, wäre es sehr hilfreich, entsprechende Tools zur Verfügung zu haben, die diese Aufgabe erledigen.
Leider gibt es keine Software, die alle beschriebenen Teilbereiche
abdeckt. Allerdings bieten einige als Website Promotion Tools benannte
Systeme nützliche Funktionen, um den Betreiber eines Internetangebots
bei seiner Arbeit zu unterstützen.
Noch mehr Zeit kann durch die Beauftragung eines spezialisierten Dienstleisters für Suchmaschinenoptimierung bzw. -marketing gespart werden.
Ein seriöser Anbieter wird zudem bessere Ergebnisse liefern, als sie ein
Laie, auch mit Hilfe eines Softwaretools, erreichen kann. Dem stehen aber
auch erheblich höhere Kosten gegenüber und es ist keineswegs leicht,
die Seriosität eines Anbieters einzuschätzen.
7.1 Promoter, Monitore und Optimierer
Die Aufgaben, die von diesen Tools übernommen werden, kann man in
die drei Teilbereiche Promotion, Monitoring und Optimierung aufgliedern. Unter Promotion versteht man die Anmeldung bei den verschiedenen Suchdiensten, auf die hier nicht weiter eingegangen werden soll, da
in Abschnitt 5.2 schon auf die Probleme bei der Verwendung solcher Software hingewiesen wurde. Mit Monitoring wird die Überwachung eines
Internetangebots (Messung der Zugriffszeiten oder Protokollierung von
Serverausfällen) sowie die Überprüfung der Suchmaschinenrankings der
eigenen Seite für bestimmte Schlüsselwörter bezeichnet. Der Aufgabenbereich der Optimierung umfasst die in diesem Leitfaden beschriebenen
Schritte zur Erlangung eines besseren Rankings.
48
www.hessen-it.de
7.2 Mögliche Funktionen von Website Promotion Tools
Browser-Kompatibilität und Syntaxüberprüfung
Eine Grundfunktion, welche die meisten Tools besitzen, ist der Test der
Browser-Kompatibilität. Dazu wird überprüft, ob eine Darstellung der
Website in allen gängigen Browsern aber auch in älteren, immer noch
weit verbreiteten, Browserversionen möglich ist. Mag dieser Punkt für ein
Suchmaschinenranking nicht so wichtig sein, so ist doch eine korrekte
HTML-Syntax von großem Interesse. Zu diesem Zweck versuchen die
meisten Tools über einen HTML-Validator, die Korrektheit einer Site bzgl.
der HTML-Spezifikation zu überprüfen und gegebenenfalls Verbesserungsvorschläge zu machen. Einige kostenlose HTML-Editoren bieten
ebenso diese Funktion an, so dass die Anschaffung eines Website Promotion Tools allein zu diesem Zweck nicht notwendig ist.
Meta-Tag- und Schlüsselwortgeneratoren
Sehr hilfreich kann eine Unterstützung bei der Erzeugung von Meta-Tags
sowie der korrekten Erstellung und Positionierung von Schlüsselwörtern
sein. Die Bandbreite der am Markt erhältlichen Tools ist hier sehr groß. Im
einfachsten Fall handelt es sich um reine Meta-Tag-Generatoren, wie sie
auch kostenlos im Internet zur Verfügung stehen. Einige Systeme bieten
aber auch die automatische Erzeugung von Schlüsselwörtern aufgrund
bestehender Seiten an, aus denen der Betreiber der Site die für ihn geeigneten auswählt. Sehr nützlich ist auch die Darstellung der Site mit einem
speziellen Browser, der die Verteilung vorher festgelegter Schlüsselwörter
auf den einzelnen Seiten grafisch verdeutlicht. Ob die Anschaffung eines
kommerziellen Tools für diesen Zweck sinnvoll ist, muss genau geprüft
werden. Oftmals kann man mit kostenlosen Werkzeugen (siehe z. B.
www.siteup.com/meta.html) gleichwertige oder bessere Ergebnisse erzielen.
49
Website Promotion Tools und spezialisierte Dienstleister
Messung von Link-Popularität und Ranking-Analysen
Im Bereich des Monitoring fallen die Messung der Link-Popularität und
spezielle Ranking-Analysen an. Natürlich kann eine Software nicht die LinkPopularität einer Site bei einer Suchmaschine messen. Es ist aber möglich,
durch automatisch generierte Abfragen bei verschiedenen Suchmaschinen festzustellen, wie viele und welche Seiten auf das eigene Angebot per
Link verweisen. Komplexer sind die Möglichkeiten der Ranking-Analyse.
Dazu wird dem System eine Liste von Schlüsselwörtern sowie eine Liste
mehrerer URLs (z. B. der eigenen und der von Mitbewerbern) übergeben.
Es wird nun eine Statistik erstellt, an welchen Positionen man bei verschiedenen Suchmaschinen steht, wenn die Schlüsselwörter enthaltende Abfragen an diese gestellt werden. Die eigene Position und die der anderen
angegebenen Sites wird erfasst und in frei wählbaren Zeitabständen überprüft und aktualisiert. Dadurch erhält man eine gute Kontrolle über die
Auswirkungen einer Siteoptimierung. Allerdings sind Website Promotion
Tools mit dieser Funktionalität relativ teuer. Außerdem verbieten einige
Suchmaschinen inzwischen die Nutzung solcher Tools explizit und betrachten sie als eine Verletzung der Nutzungsbestimmungen.
Weitere Funktionen
Weitere Funktionen können die Messung der Ladezeit einer Site, das Überprüfen der auf der Site enthaltenen Links auf Aktualität und die automatische
Erstellung einer robots.txt Datei sein. Leider bieten einige der Tools auch
Verfahren an, die von einigen Webcrawlern als Spam-Versuch gewertet werden. So finden sich Funktionen, um Schlüsselwörter in „Alt“-Angaben von Bildern (vgl. Abschnitt „Probleme bei der Seitengestaltung“, Seite 28) oder
Meta-Tags zu verstecken oder solche um Doorway-Seiten, die nur aus Schlüsselwörtern bestehen, zu erzeugen und bei den Suchmaschinen anzumelden.
Ein weiteres Problem ist, dass viele Website Promotion Tools Fehler
machen (z. B. in der HTML-Syntax oder bei der Erstellung der robots.txt
Datei), was eine manuelle Kontrolle erforderlich macht. Abschließend ist
zu sagen, dass solche Tools sicherlich zur Arbeitsentlastung beitragen
können, ihre alleinige Verwendung zur Optimierung eines Internetangebots aber nicht zu empfehlen ist.
50
www.hessen-it.de
7.3 Auswahl von Dienstleistern
Die Auswahl eines Suchmaschinenoptimierers (SEO) sollte sehr sorgfältig
vorgenommen werden. Die SEO stehen insgesamt nicht im besten Ruf, da
sie für die in den Augen der Nutzer sinkende Qualität der Suchmaschinenergebnisse bzw. deren Überfrachtung mit unerwünschten Angeboten
verantwortlich gemacht wird. Als Betreiber einer Website sollte man auf
jeden Fall vermeiden, mit einem unseriösen Anbieter zusammen zu arbeiten, der sich aus dem in Abschnitt 5.5 aufgezeigten Repertoire der Spamming-Techniken bedient, da solche Praktiken letztlich immer auf den Auftraggeber bzw. seine Website zurückfallen.
Einen ersten Eindruck von einem Dienstleister kann man sich auf dessen
Website verschaffen. Diese sollte sorgfältig gestaltet sein, insbesondere
auch, was die sprachlichen Aspekte betrifft, schließlich hat Suchmaschinenoptimierung grundlegend mit Sprache zu tun. Anbieter, die mit
bestimmten Garantien („Top-Ten-Garantie“) werben, sind skeptisch zu
beurteilen. Garantien hinsichtlich der Platzierung innerhalb von SERPs
sind durch die ständige Überarbeitung der Algorithmen durch die Suchmaschinenbetreiber kaum dauerhaft zu halten, oft beziehen sich solche
Garantien daher auf eine einmalige gute Platzierung in einer einzigen
Suchmaschine, wobei dies nicht zwingend eine der wichtigen sein muss.
Festpreise sind nur für standardisierte Leistungspakete zu halten, Suchmaschinenoptimierung sollte aber genau auf die individuellen Anforderungen der zu optimierenden Website abgestimmt sein. Veröffentlicht ein
Anbieter eine Liste von Referenzkunden, sollte man darauf achten, dass es
sich dabei nicht nur um beliebige Keyword-Domains handelt, die einzeln
oder in Kombination beliebte Suchbegriffe enthalten, sondern dass auch
Firmenkunden darunter sind, deren existierende Website optimiert
wurde.
51
Website Promotion Tools und spezialisierte Dienstleister
Tritt man nach einer Vorauswahl mit einzelnen Dienstleistern in Kontakt,
sollte man nicht passiv deren Ausführungen über die Qualität der eigenen
Maßnahmen folgen, was bei der Vielzahl der in diesem Bereich gängigen
Fachausdrücke, von denen in diesem Leitfaden nur die wichtigsten
(Keyword, SERP etc.) erwähnt werden können, ohnehin eher Verwirrung
stiften dürfte. Besser ist es, vorher eine präzise Liste mit Fragen zu erarbeiten, die sich auf Arbeitsweise, Ziele, Referenzen, Preise und die verwendeten Methoden der Erfolgskontrolle beziehen sollten. Bei der
Zusammenstellung einer solchen Liste kann man gleichzeitig die eigenen
Anforderungen präziser fassen. Z. B. ist die Frage, ob man eine reine Optimierung der Website möchte, um in den Organic Listings der Suchmaschinen gut platziert zu sein, oder ob auch Suchmaschinenmarketing mit
Hilfe von Pay-for-performance-Angeboten betrieben werden soll.
52
www.hessen-it.de
8
Erfolgskontrolle
Die Optimierung einer Site ist kein einmaliges Vorhaben, sondern ein fortlaufender Prozess, bei dem regelmäßig ermittelt werden muss, welche
Besucher das eigene Angebot besuchen und wie diese die Site gefunden
haben.
Ein erster Schritt zur Erfolgskontrolle besteht darin, regelmäßig die Position des eigenen Angebots in den SERPs zu testen, indem eine Suche
nach den für die Optimierung ausgewählten Schlüsselwörtern durchgeführt wird. Software-Tools können hierbei helfen, wie oben bereits
beschrieben, ihr Einsatz wird aber nicht von allen Suchmaschinen gut
geheißen.
Die vom Internetserver angelegten Log-Dateien liefern die notwendigen
Informationen, um die zahlenmäßige Reaktion der Nutzer auf die in den
SERPs enthaltenen Links auf die eigene Site zu verfolgen (ResponseQuantität). Die Aufgaben der Log-File-Analyse müssen nicht manuell
vorgenommen werden. Stattdessen bieten die meisten Internetprovider
vorgefertigte Analysen an. Eine andere Möglichkeit ist, die Logfiles an
leistungsfähigere Analysetools zu übergeben und dadurch individuell
angepasste Auswertungen zu erhalten.
Über den so genannten Referrer-Eintrag kann man feststellen, von welcher Seite jeder einzelne Besucher gekommen ist, da in ihm die vollständige URL der vorher besuchten Seite erfasst wird. Das ermöglicht es zum
einen, festzustellen, welche Anteile der Besucher von den einzelnen Suchmaschinen kommen und welche Anteile z. B. durch Pay-For-PerformanceProgramme, herkömmliche Online-Werbeformen oder sonstige Links zum
eigenen Angebot finden. Zum anderen sind mittels des Referrer-Eintrages
auch die Suchbegriffe zu ermitteln, mit denen ein Besucher der Seite sie
in einer Suchmaschine gefunden hat. Diese werden üblicherweise in der
URL der SERP genannt und somit auch im Logfile des Webservers gespeichert. Das Verhältnis zwischen der Anzahl der Klicks, die in den SERPs auf
Grund eines Suchwortes auf die eigene Site durchgeführt wurden und der
Suchhäufigkeit dieses Schlüsselwortes wird auch als Klickrate bezeichnet.
Die Genauigkeit, mit der die Klickrate bestimmt werden kann, hängt
53
Erfolgskontrolle
davon ab, ob die Suchhäufigkeit genau bekannt ist, was in den meisten
Fällen nicht gegeben sein dürfte. Die Klickrate hängt zum einen von der
Positionierung in den SERPs ab, zum anderen aber auch von Titel und
Beschreibung, mit denen eine Seite in den SERPs erscheint.
Außerdem lässt sich anhand der Logfiles auch verfolgen, ob die Benutzer
innerhalb des Angebots das vom Anbieter gewünschte Verhalten zeigen
(Response-Qualität). Wirklich interessierte Besucher werden vermutlich
länger auf der Site verweilen und mehr interne Links anklicken. Wenn
umgekehrt viele Benutzer, die das Angebot aufgrund eines bestimmten
Schlüsselworts gefunden haben, keine weiteren Klicks auf der Site tätigen,
kann man davon ausgehen, dass diese Benutzer mit dem Schlüsselwort
andere Erwartungen verbinden, als die Site erfüllen kann.
Zusätzlich kann das Logfile nach Einträgen durchsucht werden, die von
Webcrawlern stammen. Dadurch lässt sich feststellen, wann welcher
Roboter die Site zuletzt indiziert hat und welchen Weg er dabei genommen hat. Stellt man dabei fest, dass der Crawler nur einen kleinen Teil des
Angebots indiziert hat, sollte man prüfen, ob Hindernisse wie für den
Crawler nicht interpretierbare Links zu weiteren Seiten, z. B. in JavaScript
gehaltene Navigationsmenüs, die Ursache des Abbruchs waren, oder ob
eine zu tiefe Verzweigung der Site vorliegt.
Erweiterte Möglichkeiten zur Auswertung bieten Online-Shops. Zum einen
kann hier eine echte Konversionsrate berechnet werden, also das Verhältnis der Nutzer, die tatsächlich etwas kaufen, zu denen, die über ein
bestimmtes Suchwort, ein Verzeichnis oder ein Portal auf das Angebot
gelangt sind. Sind Klick- und Konversionsraten und darüber hinaus der
durchschnittliche Umsatz pro Kaufvorgang bekannt, ist es möglich, näherungsweise den Umsatz bzw. den Gewinn zu ermitteln, der aus der Optimierung der Site oder auch aus Werbemaßnahmen mittels eines bestimmten Keywords resultiert. Damit lässt sich wiederum abschätzen, wie viel
Geld oder sonstige Ressourcen in die Aktion gesteckt werden sollten.
54
www.hessen-it.de
9
Zusammenfassung und Ausblick
Die ersten Suchmaschinen konnten relativ leicht überlistet werden, wenn
man das eigene Webangebot unabhängig von den tatsächlichen Seiteninhalten weit oben in den Ergebnissen der Suchmaschinen erscheinen
lassen wollte. Solche Versuche werden von den heute führenden Suchmaschinen als Spamming (siehe Abschnitt 5.5) erkannt und führen eventuell zur Aussperrung dieses Webangebots aus der Suchmaschine. Dennoch bleiben die Auswahl der richtigen Schlüsselwörter, ihre Positionierung, die Benutzung von Meta-Tags, die sinnvolle Verwendung von HTMLTags und ein dosierter Einsatz multimedialer Inhalte wichtig, um eine richtige Einordnung des Angebots durch die Suchmaschinen zu erreichen
und positiv auf das Ranking zu wirken. Da mittlerweile viele Betreiber von
Webangeboten ihre Angebote in dieser Weise optimieren, gewinnt die
Auswahl geeigneter, die Inhalte der eigenen Site aus der Perspektive des
Nutzers so präzise wie möglich beschreibender Schlüsselwörter an
Bedeutung. Eine neue Website für sehr häufig gesuchte Begriffe in die
vorderen Plätze der Suchmaschinenergebnisse zu bringen, dürfte ohne
erheblichen finanziellen Aufwand nahezu unmöglich sein. Anbietern wohl
definierter Produkte ist zu raten, anstelle hoher Positionen in allgemeinen
Suchmaschinen eher eine hohe Präsenz in den spezialisierten Preisvergleichsmaschinen anzustreben.
Man kann also durch die beschriebenen Maßnahmen eine Verbesserung
des Rankings erreichen bzw. eine Verschlechterung vermeiden, aber
durch die zunehmende Verbreitung moderner Indizierungsverfahren, wie
Link-Popularität und Clickthrough-Techniken, ist der Seiteninhalt das entscheidende Kriterium.
Die Optimierung der Seiten für Suchmaschinen kann durch Software
unterstützt werden, aber es gibt keine Software, die einem die Aufgabe
der Optimierung vollständig abnimmt. Häufig liefern diese noch nicht einmal fehlerfreie Ergebnisse, so dass Vorsicht geboten ist. Sorgfalt ist auch
bei der Auswahl eines eventuellen Dienstleisters notwendig, da lange
noch nicht alle Agenturen die Zeichen der Zeit erkannt haben und auf
Spamming-Techniken vollständig verzichten.
55
Zusammenfassung und Ausblick
Die inhaltliche Entwicklung der Suchhilfen geht in Richtung eines (besseren) Verständnisses der Seiteninhalte. Mit Hilfe von Verfahren wie TextMining sollen nicht nur Worte, sondern die Bedeutung der Seiten erfasst
werden. Auch die Suchergebnisse sollen dann nicht aufgrund vorgegebener Description-Meta-Tags, sondern mit Verfahren der Textzusammenfassung beschrieben werden. Schließlich sollen eines Tages die Suchmaschinen nicht Links auf Seiten, die eventuell Antworten auf Benutzerfragen
beinhalten, liefern, sondern die Antworten selbst, die sie aus diesen Seiten ermitteln [Radev et al., 2001]. Es ist außerdem zu erwarten, dass die
Suche in fremdsprachigen Seiten und in multimedialen Inhalten verbessert wird. Letzteres bedeutet, dass nach einer Soundsequenz oder einem
Bildteil gesucht werden kann.
Ein weiterer Trend liegt darin, dass Suchhilfen immer mehr auch solche
Inhalte erschließen, die nicht unmittelbar im Internet verfügbar sind. So
beginnt Google derzeit damit, Inhalte amerikanischer Universitätsbibliotheken zu scannen und in der Suchmaschine verfügbar zu machen. Eine
andere Ausprägung besteht in einer Integration der Suche von Inhalten
auf dem eigenen Computer mit der Suche im Internet. Google, MSN und
Yahoo bieten inzwischen entsprechende Programme kostenfrei zum
Download an, Microsoft möchte die Technik in künftige Betriebssystemversionen einbauen.
56
www.hessen-it.de
10
Anhang
10.1
Aktuelle Hilfsmittel zur Suche im Internet
Suchmaschinen
www.abacho.de
http://search.msn.de
www.alltheweb.com
www.plaff.de
www.excite.de/search/web
www.seekport.de
www.fireball.de
www.teoma.com
www.google.de
http://suche.web.de
www.lycos.de/suche
http://de.search.yahoo.com
Metasuchmaschinen
www.anyfinder.de
www.metager.de
www.clusty.com
www.metacrawler.de
www.ithaki.net
www.metaspinner.de
www.kartoo.com
www.nettz.de
www.mamma.com
www.bingoo.de (*)
Kataloge
www.allesklar.de
www.sharelook.de
www.dino-online.de
http://web.de
www.dmoz.de
http://de.dir.yahoo.com
Preisvergleichsmaschinen
www.evendi.de
www.idealo.de
www.geizhals.net
www.kelkoo.de
www.geizkragen.de
www.preisauskunft.de
www.getprice.de
www.preissuchmaschine.de
www.guenstiger.de
www.preistrend.de
Online-Marktplätze
www.amazon.de
www.ebay.de
www.atrada.de
www.ricardo.de
(*) Bingoo ist ein Programm, das auf dem eigenen PC die Ergebnisse verschiedener
Suchmaschinen sammelt.
57
Anhang
10.2
Beziehungen zwischen Suchmaschinen
Suchmaschine
Bezieht originäre
Bezieht bezahlte
Bezieht Katalog-
Suchergebnisse von
Suchergebnisse von
ergebnisse von
Abacho
–/–
Overture
–/–
Exite
Alltheweb, Overture
Overture
Open Directory
Fireball
–/–
Espotting
Allesklar.de
Google
–/–
–/–
Open Directory
Lycos
Alltheweb
Overture, Espotting
Allesklar.de
Seekport
–/–
Espotting
–/–
Teoma
–/–
Google
–/–
Web.de
Inktomi
Overture
–/–
Yahoo
Inktomi
Overture
–/–
Sofern eine Suchmaschine mehrere länderspezifische Versionen anbietet,
beziehen sich die Angaben in der Tabelle auf die deutsche Version. Die
Angaben spiegeln den Stand Ende 2004 wieder und beruhen auf einer
Zusammenstellung der Website www.suchfibel.de .
10.3
Suchspezifikation in ausgewählten Suchmaschinen
Google
MSN Search
Seekport
And
And
And
+ oder –
– Ja, + zur Suche
Ja
Nur –
And, Or, Not
in der erweiterten
And, Or, Not
And; Or in der
Standardverknüpfung
nach Stoppwörtern
Suche
Felder
in der erweiterten
erweiterten Suche
URL
Suche: Titel, URL, Text
in der erweiterten
Suche: Titel, Text, URL
Trunkation
Nein
Nein
Ja, mit *
Phrasen
Ja, Wörter in " "
Ja, Wörter in " "
Ja, Wörter in " "
Ähnliche Seiten Ja
Nein
Nein
Links
Ja
Ja
Ja
Sprachein-
Ja
Ja
Nein (nur deutsch)
Nein
Nein
Ja
schränkung
Kategorie
58
www.hessen-it.de
Erklärung:
• Standardverknüpfung
Welche logische Verknüpfung wird bei der Eingabe
von zwei Begriffen angewendet?
• + oder –
Ist die Verwendung von + oder – als Präfix zur
Steuerung der Suche erlaubt
• And, Or, Not
Ist die Verwendung der booleschen Operatoren zulässig?
• Felder
Ist es möglich z. B. nur im Dokumententitel zu suchen?
• Trunkation
Ist es möglich eine Trunkation,
z. B. Blumen*, vorzunehmen?
• Phrasen
Kann nach zusammenhängenden
Wortfolgen gesucht werden?
• Links
Kann nach Webseiten gesucht werden,
die Links auf eine bestimmte URL enthalten?
• Spracheinschränkung
Kann eine bevorzugte Sprache für
die gefundenen Dokumente gewählt werden?
• Kategorie
Kann eine thematische Kategorie für
die Suchergebnisse vorgegeben werden?
59
Anhang
Index
Anmeldung 30
Sitemap 36
Cascading Style Sheet 26
SoftBot 12
Clickthrough-Preise 23, 44
Spamming 40
Clickthrough-Technik 16, 21
Spider 12
Content-Management-System 19, 29
Spidering Depth 12
Crawler 12
Streaming Video 29
Clickthrough-Technik 21
Suchmaschine 2, 12
Doorway-Seite / Gateway-Seite 31
Tag 27
Flash 28
<A HREF> 30
Frames 28
<ALT> 30
Indizierung 12
<BODY> 17
JavaScript 30
<TITLE> 17
Katalog 7, 12
TermVector-Verfahren 21
Link-Analyse 19
URL 19
Link-Farm 43
Webring 38
Link-Popularität / Link-Analyse 19
Website Promotion Tool 48
Log-File-Analyse 53
Metasuchmaschine 6
Meta-Tag 13, 18, 27, 41, 49
off-the-page-factors 19
PageRank / Siehe Link-Analyse 19
Paid Inclusion 12, 33
Pay-for-Performance 22
Portable Document Format 30
Portal 37
Postscript 30
Ranking 14
Redirect 41
Robot (er) 12
robots.txt 34
Schlüsselwort 24, 28, 31, 49
SERP 2
Shockwave 29
60
www.hessen-it.de
Literatur
Alpar, P.:
Kommerzielle Nutzung des Internet, 2. Aufl., Springer, Berlin u. a.,1998.
Glöggler, M.:
Suchmaschinen im Internet, Springer, Berlin u. a., 2003.
Heydon, A.; Najork, M.:
Mercator: A Scalable, Extensible Web Crawler, Compaq Systems
Research Center, Palo Alto, 1999.
Kaiser, Thomas:
Effizientes Suchmaschinen-Marketing, BusinessVillage, Göttingen, 2004.
Kirchgesser, U.:
Suchen im Internet, Leibniz-Rechenzentrum München, 1997.
Lennartz, Sven:
Ich bin wichtig! Promotion-Maßnahmen für suchdienstgerechte
Webseiten, c’t, Nr. 23, 1999, S. 180ff.
Münz, S.: SelfHTML, http://selfhtml.teamone.de.
Page, L. et al.:
The PageRank Citation Ranking: Bringing Order to the Web, Technical
Report SIDL-WP-1999-0120, Stanford University, 1998.
Patzwaldt, K.: @-Web, www.at-web.de.
Pothe, A.: Nachgezählt – Wie groß ist das WWW?, c't 26, 2004, S. 164 –165.
Radev, D. et al:
Mining the Web for Answers to Natural Language Questions,
Proceedings of the 2001 ACM CIKM, Atlanta, 2001, S. 143ff.
Rappaport, A.:
Robots & Spiders & Crawlers: How Web and intranet search engines
follow links to build indexes, White Paper, Infoseek Software, 1999.
Stuber, L.: Suchmaschinen-Marketing, Orell Füssli, Zürich, 2004.
Sullivan, D.: Search Engine Watch, www.searchenginewatch.com.
Wagenknecht, A.:
Gefunden werden: Site-Promotion-Software im Test, Internet
Professionell, Nr. 9, 2000, S. 60ff.
61
Die Aktionslinie hessen-it
11
Die Aktionslinie hessen-it
hessen-it ist die Aktionslinie des Hessischen Ministeriums für Wirtschaft,
Verkehr und Landesentwicklung für den gesamten IT-Markt in Hessen.
hessen-it bietet Informationen und Services zum Online-Markt, zu E- und
M-Commerce, zu Software- und Telekommunikationsanbietern sowie über
Telearbeit. Angesprochen werden auf der einen Seite die über 6.500 hessischen Anbieter, die Produkte oder Dienstleistungen auf dem Informationstechnologie-Markt anbieten, auf der anderen Seite die kleinen und
mittleren Anwender-Unternehmen.
Anbieter-Datenbanken erleichtern die Suche nach geeigneten Dienstleistern bei der Durchführung von IT-Projekten. Gleichzeitig fungieren diese
Datenbanken für Anbieter als Informations- und Kommunikations-Plattform, auf der sich diese den Anwendern und potenziellen Kunden präsentieren können.
Newsticker, E-Mail- und Print-Newsletter berichten regelmäßig über den
IT-Markt in Hessen. Veröffentlichungen aus der umfangreichen hessenmedia Schriftenreihe ergänzen das Informationsangebot der Website, das
jedoch weit über das Print-Angebot hinaus geht. Die Broschüren können
bequem online bestellt oder heruntergeladen werden.
hessen-it hat verschiedene Netzwerke und Branchentreffs initiiert, in
denen sich teils nichtkommerzielle Initiativen, teils kommerzielle Anbieter
zusammengeschlossen haben. Regionale Multimedia- und E-CommerceZentren sowie IHKs, Handwerkskammern und andere regionale Akteure
arbeiten zusammen an dem Ziel, Hessens Weg in die Informationsgesellschaft voran zu bringen.
62
www.hessen-it.de
Einen Überblick über diese Netzwerke und Treffs sowie Terminankündigungen zu Veranstaltungen, an denen sich hessen-it beteiligt, findet
man im Online-Terminkalender auf der Website. Denn auch bei internationalen Messen wie der CeBIT oder bei regionalen Veranstaltungen in
ganz Hessen sind kompetente Ansprechpartner der Aktionslinie präsent.
Hinzu kommen Seminare und Workshops, die hessen-it zu verschiedenen
Themen ausrichtet.
Der monatliche IT-Dialog Hessen sorgt neben dem vielfältigen virtuellen
Informationsangebot für den realen Kommunikationsaustausch innerhalb
der hessischen IT-Branche und der Landesregierung und rundet somit
das Leistungsangebot ab. Besuchen Sie unsere Webseiten unter
www.hessen-it.de
63
hessen-media: Eine Initiative setzt Zeichen
12
hessen-media: Eine Initiative setzt Zeichen
Mit der Landesinitiative hessen-media leistet die Hessische Landesregierung einen aktiven Beitrag zur Gestaltung des digitalen Zeitalters. Mit
einem Bündel von Projekten, Initiativen und Aktionslinien ebnet sie den
Weg zur Informations- und Wissensgesellschaft in Hessen.
Zielsetzung von hessen-media ist die Entwicklung und Verbreitung neuer
Informations- und Kommunikationstechnologien und deren Anwendung
in Wirtschaft, Privathaushalten und im öffentlichen Sektor, an der Schnittstelle zu Bürgern und Wirtschaft. hessen-media fördert Pilot- und Modellprojekte aus allen Lebens- und Arbeitsbereichen. Dazu gehören:
• Bildung und Wissenschaft
• Gesundheit
• Umweltschutz
• Verkehr
• Wirtschaft
• Verwaltung
• Gesellschaft und Soziales
• Multimedia und IT
• Kultur
In der Landesinitiative hessen-media arbeiten Wirtschaft, Wissenschaft
und Politik gemeinsam am Ziel, Hessens Position in der Spitzengruppe
europäischer Medien- und IT-Standorte zu festigen und auszubauen.
Zusammengefasst stehen für die Landesinitiative hessen-media bei der
Projekttätigkeit und der Öffentlichkeitsarbeit vier Schwerpunkte im Vordergrund:
• Stärkung der Medien- und IT-Wirtschaft in Hessen
• Heranführung neuer Nutzergruppen an die Neuen Medien
• Verbesserung der Medienkompetenz und Qualifizierung im
Umgang mit den Neuen Medien
• Marketing für den Medien- und IT-Standort Hessen
64
www.hessen-it.de
Um diese Ziele zu erreichen, konzentriert sich hessen-media neben der
Initiierung von Pilot- und Modellprojekten auf die Planung und Durchführung von hessischen Firmen-Gemeinschaftsständen auf zahlreichen
Messen der Branche, auf die Vermittlung von Medienkompetenz, die
Beratung und Begleitung der hessischen Klein- und Mittelbetriebe, die
Bereitstellung von Marktübersichten (beispielsweise die Online-AnbieterDatenbank unter www.hessen-it.de) und eine breite Öffentlichkeitsarbeit,
die über die Anwendungsmöglichkeiten interaktiver Dienste und Neuer
Medien informiert.
Sind Sie neugierig auf hessen-media? Über unser Internetportal
www.hessen-media.de
erhalten Sie vielfältige Informationen zur Landesinitiative mit Kontaktadressen und Ansprechpartnern konkreter Projekte. Zusätzlich finden Sie
dort die neuesten Meldungen aus der hessischen Medien- und IT-Branche
und einen Terminkalender mit den wichtigsten Veranstaltungshinweisen.
Darüber hinaus können Sie hier den kostenlosen E-Mail-Newsletter der
Landesinitiative abonnieren, der für Sie alle 14 Tage kostenlos die neuesten Meldungen aus der hessischen Medienbranche/Medienpolitik in kompakter Form zusammenfasst.
Kontakt:
Geschäftsstelle hessen-media
c /o HA Hessen Agentur GmbH
Abraham-Lincoln-Straße 38-42
65189 Wiesbaden
Telefon
06 11/ 7 74-84 81
Telefax
06 11/ 7 74-86 20
E-Mail
[email protected]
Internet
www.hessen-media.de
hessen »
media
Hier ist die Zukunft
65
hessen-media: Eine Initiative setzt Zeichen
Schriftenreihe hessen-media
Bestellmöglichkeit und Download als PDF-Datei finden
Sie im Internet unter
www.hessen-media.de
hessen-media (wir über uns)
2001
Hessen-infoline-Netzwerk (Band 26)
Projektdokumentation (Band 1)
Bildung und Wissenschaft
2002
Telemedizin in Hessen – Beiträge aus dem Universitätsklinikum Gießen (Band 24)
2001
Entwicklung und Einsatz elektronischer Medien als Lehr- und Lernmittel
an hessischen Hochschulen (Band 27)
Kompetenzzentren und Onlinedienste im Schulwesen
– Beispiele für hessen-media Projekte (Band 25)
2000
Bildung ans Netz (Band 23)
Die virtuelle Universität (Band 15)
1998
Medienmanagement in Schulen (Band 8)
E-Government
2002
Auf dem Weg zu E-Government – Hessens Kommunen im Internet
(Band 37)
Wirtschaftsförderung und Standortmarketing im Internet (Band 36)
1999
Hessische Kommunen im Internet (Band 13)
Marktstudien IT-Standort Hessen
2004
Softwareanbieter in Hessen 2003 (Band 50)
Telekommunikationsanbieter in Hessen 2003 (Band 49)
2003
Online-Anbieter in Hessen (Band 2)
2002
Softwareanbieter in Hessen – Bestandsaufnahme 2002 (Band 39)
E-Shops in Hessen (Band 28)
2000
66
Der Telekommunikationsmarkt in Hessen (Band 21)
www.hessen-it.de
Leitfäden für IT-Anwendungen
2005
Gefunden werden im Internet (Band 32, 2. Auflage)
Recht im Internet (Band 33, 2. Auflage)
Online-Marketing für kleine und mittlere Unternehmen (Band 51)
2004
Wettbewerbsvorteile durch barrierefreie Internetauftritte (Band 48)
Domainregistrierung international (Band 47)
Wireless-LAN: Stand und Entwicklungspotenzial, Nutzungsansätze für KMU
(Band 46)
2003
E-Business-Konzepte für den Mittelstand (Band 45)
Leitfaden „In modernen Märkten überleben“ (Band 44)
2003
Projektleitfaden „Software-Ergonomie“ (Band 43)
„Digitale Signatur“, Leitfaden zum Einsatz digitaler Signaturen (Band 42)
Die Bedeutung der E-Logistik für den Mittelstand (Band 41)
Management von Kundenbeziehungen im Internet (Band 40)
Leitfaden „Webdesign – Internetpräsenzen besser planen und gestalten“ (Band 7)
2002
IT-Sicherheit für den Mittelstand (Band 38)
E-Paymentsysteme – Bezahlen im Internet (Band 35)
ASP: Mehr als nur Mietsoftware (Band 34)
E-Learning für KMU – Neue Medien in der betrieblichen
Aus- und Weiterbildung (Band 31)
Telehaus Wetter – ein TeleServiceZentrum (Band 30)
2001
Kasseler Praxis-Dialog Tele@rbeit – Analysen · Erfahrungen · Positionen (Band 29)
2000
Leitfaden „Webdesign international“ (Band 22)
E-Shop-Software (Band 20)
Hessische Handwerker entdecken das Internet (Band 19)
Leitfaden zur Anwendung eines Ratingsystems für IT-Unternehmen in Hessen
(Band 18)
Software-Dialog Hessen (3) (Band 17)
Leitfaden „E-Shop“ (Band 16)
Strategisches kennzahlengestütztes Controlling für kleine und mittlere
DV-Beratungs- und Softwareunternehmen (Band 14)
67
hessen-media: Eine Initiative setzt Zeichen
weiter: Leitfäden für IT-Anwendungen
1999
Entwicklung eines Konzeptes für die Errichtung eines Software-KompetenzNetzwerks für die chemisch-pharmazeutische Industrie (Band 12)
Analyse des softwaretechnischen Problemlösungsbedarfs der
Medienwirtschaft in Hessen (Band 11)
Software-Dialog Hessen (2) – Software-Trends (Band 10)
Leitfaden „Software-Qualitätsmanagementsystem für den Maschinenund Anlagenbau” (Band 9)
1998
Leitfaden für ein kennzahlengestütztes Finanz- und Projektcontrolling
für DV-Beratungs- und Software-Unternehmen (Band 6)
Leitfaden zum Aufbau eines Ratingsystems für Software-Unternehmen
in Hessen (Band 5)
Leitfaden zur Einführung eines Qualitätsmanagementsystems in
Software-Unternehmen (Band 4)
Software-Dialog Hessen (1) (Band 3)
68