PDF-Dokument 1,0 MB - Hessen-IT
Transcription
PDF-Dokument 1,0 MB - Hessen-IT
Hessisches Ministerium für Wirtschaft, Verkehr und Landesentwicklung hessen » Hier ist die Zukunft media Band 32 www.hessen-it.de Gefunden werden im Internet Gefunden werden im Internet hessen-media Band 32, 2. Auflage Prof. Dr. Paul Alpar Dipl.-Wirtschaftsmath. Markus Pfuhl Dipl.-Vw. Sebastian Pickerodt Hessisches Ministerium für Wirtschaft, Verkehr und Landesentwicklung HA Hessen Agentur GmbH hessen-it Abraham-Lincoln-Straße 38-42 65189 Wiesbaden Philipps-Universität Marburg Institut für Wirtschaftsinformatik Universitätsstraße 24 35032 Marburg Telefon Telefax E-Mail Internet Telefon Telefax E-Mail Internet 0611 / 774-8481 0611 / 774-8620 [email protected] www.hessen-it.de 06421 / 282-3894 06421 / 282-6554 [email protected] http://alpar.wiwi.uni-marburg.de Redaktionsteam: Prof. Dr. Paul Alpar Dipl.-Wirtschaftsmath. Markus Pfuhl Dipl.-Vw. Sebastian Pickerodt Wolfram Koch Wolf-Martin Ahrend Gabriele Medewisch CIP-Kurztitelaufnahme der Deutschen Bibliothek Alpar, Paul: Gefunden werden im Internet / Paul Alpar; Markus Pfuhl; Sebastian Pickerodt. Philipps-Universität Marburg, Institut für Wirtschaftsinformatik. – Wiesbaden: Hessisches Ministerium für Wirtschaft, Verkehr und Landesentwicklung, 2002 (hessen-media ; Bd. 32) ISBN 3-933732-32-8 Alle Rechte vorbehalten. Nachdruck, auch auszugsweise, verboten. © Hessisches Ministerium für Wirtschaft, Verkehr und Landesentwicklung Geschäftsstelle hessen-media c/o HA Hessen Agentur GmbH Wiesbaden 2005 in Zusammenarbeit mit hessen-it Layout /Satz: WerbeAtelier Theißen, Lohfelden Druck: Druckhaus Marburg GmbH Bibliografische Informationen der Deutschen Bibliothek: Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. Das Internet gehört zwischenzeitlich zu den wichtigsten Medien unserer Zeit mit täglich steigenden Wachstumsraten. Dabei dient es sowohl der Informationsbeschaffung, der Unterhaltung, der Kommunikation als auch branchenübergreifend wirtschaftlichen Aktivitäten wie E-Business und M-Commerce. Aus diesem breiten Angebot heraus resultiert eine hohe Akzeptanz des Internets in allen Bevölkerungsschichten und Altersgruppen. So sind in Hessen über die Hälfte (56 %) aller Haushalte bereits online, damit nimmt Hessen eine Spitzenposition innerhalb Deutschlands ein. Bei über 8 Millionen registrierten Domains in Deutschland wird die Suche nach einer bestimmten Domain ohne die Kenntnis der genauen Webadresse immer schwieriger. Gleichzeitig zeigt es sich, dass Anbieter von anspruchsvollen Inhalten sich nur dann langfristig am Markt halten werden, wenn sie sich über den Verkauf der Inhalte refinanzieren können. Voraussetzung dafür ist jedoch, dass diese Inhalte vom Nutzer auffindbar sind. Da die meisten griffigen Adressen unterdessen vergeben sind, sind die Anbieter häufig gezwungen, auf weniger intuitive Adressen auszuweichen. Dieses Problem besteht auch nach der Einführung neuer Top-Level-Domains weiterhin. Jetzt gilt es, dem Nutzer die Möglichkeiten zur Suche nach Inhalten zu zeigen und dem Anbieter mögliche Strategien zu nennen, mit denen angebotene Inhalte optimal auffindbar in das World Wide Web gestellt werden können. Diese Veröffentlichung soll Ihnen bei dieser Aufgabe helfen und beschreibt Möglichkeiten, Ihre Inhalte so zu positionieren, dass Sie „gefunden werden im Internet“. Dr. Alois Riehl Hessischer Minister für Wirtschaft, Verkehr und Landesentwicklung Gefunden werden im Internet 1 Einleitung ........................................................................................... 1 2 Hilfsmittel zur Suche im Internet .................................................... 2 2.1 Suchmaschinen .................................................................................. 2 2.2 Metasuchmaschinen .......................................................................... 6 2.3 Kataloge .............................................................................................. 7 2.4 Preisvergleichsmaschinen und Online-Marktplätze ...................... 9 2.5 Konvergenz und Konsolidierung im Bereich der Suchdienste .. 11 3 Erfassung von Websites durch Suchmaschinen und Kataloge 12 3.1 Automatische Erfassung ................................................................. 12 3.2 Manuelle Erfassung ......................................................................... 15 4 Bewertung und Ranking der indizierten Seiten ....................... 16 4.1 On-the-page-Verfahren .................................................................. 16 4.2 Off-the-page-Verfahren .................................................................. 19 5 Handlungsempfehlungen für Betreiber von Websites ............ 24 5.1 Gestaltung der Website .................................................................. 24 5.2 Anmeldung bei Suchmaschinen und Katalogen ......................... 32 5.3 Einflussnahme auf Crawler ............................................................. 34 5.4 Weitere Verfahren zur Bekanntmachung von Websites ............. 37 5.5 Spamming von Suchmaschinen .................................................... 40 6 Zusätzliche Empfehlungen für Betreiber von Online-Shops .. 44 6.1 Zusammenarbeit mit Preisvergleichsmaschinen ......................... 44 6.2 Anbieten auf Online-Marktplätzen ................................................ 46 7 Website Promotion Tools und spezialisierte Dienstleister ..... 48 7.1 Promoter, Monitore und Optimierer ............................................. 48 7.2 Mögliche Funktionen von Website Promotion Tools .................. 49 7.3 Auswahl von Dienstleistern ............................................................ 51 8 Erfolgskontrolle .............................................................................. 53 9 Zusammenfassung und Ausblick ................................................. 55 10 Anhang ............................................................................................. 57 10.1 Aktuelle Hilfsmittel zur Suche im Internet ..................................... 57 10.2 Beziehungen zwischen Suchmaschinen ....................................... 58 10.3 Suchspezifikation in ausgewählten Suchmaschinen ................... 58 Index .................................................................................................. 60 Literatur ............................................................................................. 61 11 Die Aktionslinie hessen-it ............................................................. 62 12 hessen-media: Eine Initiative setzt Zeichen .............................. 64 Schriftenreihe hessen-media ......................................................... 66 2005 Gefunden werden im Internet (Band 32, 2. Auflage) 2004 Schriftenreihe hessen-media: Neuerscheinungen Softwareanbieter in Hessen 2004 (Band 50) Recht im Internet (Band 33, 2. Auflage) Online-Marketing für kleine und mittlere Unternehmen (Band 51) Telekommunikationsanbieter in Hessen 2004 (Band 49) Wettbewerbsvorteile durch barrierefreie Internetauftritte (Band 48) Domainregistrierung International (Band 47) Wireless-LAN: Stand und Entwicklungspotenzial, Nutzungsansätze für KMU (Band 46) Die komplette Schriftenreihe finden Sie im Anhang oder im Internet unter hessen » Hier ist die Zukunft media www.hessen-media.de (Bestellmöglichkeit und Download als PDF-Datei) www.hessen-it.de 1 Einleitung Millionen von kommerziellen und nicht-kommerziellen Anbietern bieten Informationen im Internet an. Für sie alle stellt sich die Frage, wie man Internetnutzer auf das eigene Angebot aufmerksam machen kann. Die Betreiber von großen Websites geben viel Geld für klassische Werbung in On- und Offline-Medien aus. Kleinere Betreiber können das selten tun. Doch das ist auch nicht unbedingt notwendig. Umfragen zeigen, dass die meisten Internetnutzer eine für sie neue Website nicht aufgrund von Werbung, sondern aufgrund eines Suchvorgangs ausfindig machen. Um im Internet gefunden zu werden, scheint es am wichtigsten zu sein, in den Antworten der Internetsuchhilfen weit oben platziert zu sein (Umfrage von www.internetnews.com im Februar 2001). Laut Online-Reichweiten-Monitor 2003 II von Agirev ist die Nutzung von Suchwerkzeugen nach wie vor die zweithäufigste Tätigkeit nach dem Lesen und Schreiben von E-Mails. Zunächst werden im Folgenden die verfügbaren Hilfsmittel aus der Perspektive von Internetnutzern beschrieben, anschließend wird kurz auf ihre Funktionsweise eingegangen, bevor die Möglichkeiten für WebsiteBetreiber erörtert werden, möglichst weit vorne in den Suchergebnissen zu erscheinen. Einige Anmerkungen zur Erfolgskontrolle und ein zusammenfassender Ausblick bilden den Abschluss. 1 Hilfsmittel zur Suche im Internet 2 Hilfsmittel zur Suche im Internet Die Hilfsmittel werden in die Kategorien Suchmaschinen, Metasuchmaschinen und Kataloge unterschieden. Darüber hinaus werden Preisvergleichsmaschinen und Online-Marktplätze betrachtet, die insbesondere für Betreiber von Online-Shops von Bedeutung sind. 2.1 Suchmaschinen Mit dem Begriff Suchmaschine oder Search Engine werden Internetangebote bezeichnet, die eine Suche nach vom Benutzer frei wählbaren Begriffen oder Phrasen im WWW ermöglichen. Grundlage jeder Suchmaschine ist ein Datenbestand, der automatisch von den später beschriebenen Programmen (Crawlern) erfasst wird. Diese Programme besuchen automatisiert einzelne Internetseiten und erweitern so den Datenbestand um die gefundenen Seiteninhalte. Daneben greifen Suchmaschinen zunehmend auf weitere Datenbestände zu, z. B. auf redaktionell betreute OnlineDatenbestände wie die Seitenbeschreibungen aus den unten beschriebenen Katalogen oder Inhalte aus Online-Enzyklopädien. Beim Aufruf der Website einer Suchmaschine erscheint ein Formular, in das man seine Suchanfrage eintragen und an die Suchmaschine übermitteln kann. Als Ergebnis erhält man eine Liste von Links, die zu Webseiten führen, die der Suchanfrage entsprechen. Die Ergebnisseiten von Suchmaschinen werden auch als Search Engine Result Page (SERP) bezeichnet. Je nach Suchmaschine sind Syntax, d. h. die Regeln zur Formulierung einer Suchanfrage, und Funktionsumfang unterschiedlich. Üblicherweise besteht aber die Möglichkeit, nach Internetseiten zu suchen, die mehrere Begriffe enthalten (so genannte „Und“-Verknüpfungen) oder die mindestens einen von mehreren Begriffen enthalten (so genannte „Oder“-Verknüpfungen). Zusätzlich können Begriffe ausgeschlossen werden, die nicht auf den Seiten enthalten sein sollen. Eine weitere Möglichkeit ist die Suche nach Zeichenketten, die in einem Wort enthalten sind, wie z. B. Blumen*. Das Ergebnis der Anfrage wären alle Seiten, die Wörter wie Blumenladen, Blumenstrauß etc. enthalten. Einige Suchmaschinen bieten 2 www.hessen-it.de auch die Möglichkeit, nach speziellen Medientypen, wie z. B. Bildern, Musik und Videosequenzen, oder nach Internetseiten, die in einer bestimmten Sprache verfasst sind, zu suchen. Abbildung 1 verdeutlicht die Funktionsweise einer Suchmaschine. Anfrage Benutzer (Browser) Ergebnisliste Anfrage Benutzerschnittstelle (HTML-Formular) Ergebnis Suchmaschine Anfrage Ergebnis Datenbank der Suchmaschine Internet Ergebnis der Indizierung Indizierung von Internetangeboten Crawler Abbildung 1: Funktionsweise einer Suchmaschine Die in Deutschland mit Abstand am häufigsten genutzte Suchmaschine ist die von Google (www.google.de ). Googles Marktanteil in Deutschland lag 2004 zwischen 70 und 80 % [Stuber, 2004]. Die Suchsyntax von Google weist einige Besonderheiten auf. So werden die Stichworte oder Phrasen, die in das Suchfeld eingegeben werden, automatisch mit einer „Und“-Verknüpfung versehen, während eine „Oder“-Verknüpfung nicht möglich ist. Zwischen Klein- und Großschreibung wird nicht unterschieden und es ist keine Suche nach in einem Wort enthaltenen Zeichenketten möglich. Erst über ein erweitertes Suchformular können „Oder“-Verknüpfungen und weitere Einschränkungen bei der Suche (z. B. Suche nach einem bestimmten Dateiformat oder einer bestimmten Domain) vorgenommen werden. Die trotz dieser Einschränkungen sehr hohe Popularität liegt wohl zum Teil 3 Hilfsmittel zur Suche im Internet in der Qualität der Suchergebnisse begründet, die auf dem in Abschnitt „Link-Analyse“, Seite 19 beschriebenen Indizierungsverfahren beruht, zum Teil aber auch im mittlerweile sehr hohen Bekanntheitsgrad der Marke Google. Neben der Stichwortsuche bietet Google zusätzlich Formulare zur Suche nach Bildern und nach Texten im so genannten Usenet an, einem System von Diskussionsgruppen, das als separater Internetdienst neben dem WWW existiert. Außerdem besteht die Möglichkeit, nach aktuellen Nachrichten zu suchen und es existiert ein nach Kategorien gegliedertes Verzeichnis. Abbildung 2 zeigt eine SERP von Google auf die Anfrage „Blumenladen“. Oberhalb und rechts von den regulären Suchergebnissen zeigt Google kostenpflichtige Anzeigen, die ebenfalls zu den eingegebenen Suchworten passen (vgl. Abschnitt „Pay-for-Performance“, Seite 22). Google bietet mittlerweile eine Fülle von Zusatzfunktionen, die über die reine Suche hinausgehen. Gibt man z. B. zwei Städtenamen ein, sucht Google nach Zugverbindungen zwischen diesen Städten, gibt man etwas ein, das wie eine Formel aussieht, liefert Google das Ergebnis, auf die Eingabe einer Telefonnummer hin zeigt Google günstige Vorwahlnummern an etc. Abbildung 2: Suche nach einem Blumenladen bei Google 4 www.hessen-it.de Auf den Plätzen zwei und drei der beliebtesten Suchmaschinen in Deutschland folgten laut Nielsen Netratings im Februar 2004 die Suchfunktion des Microsoft-Onlinedienstes MSN (http://search.msn.de ) sowie die Suchfunktion des T-Online-Portals. Tagesaktuelle, aber nicht unbedingt repräsentative Zahlen zeigen die Auswertungen von webhits (www.webhits.de ), einem Anbieter von Webstatistiken. Danach liegt im Januar 2005 die Yahoo-Suche auf Platz zwei und MSN auf Platz drei. Ende 2004 hat Microsoft die MSN-Suchmaschine auf eine eigene technische Basis gestellt. Bislang hatte dieser Dienst die Suchergebnisse von Inktomi und Overture bezogen. In der überarbeiteten Suchmaske, die in Abbildung 3 zu sehen ist, hat der Benutzer die Möglichkeit, die Reihenfolge der angezeigten Suchergebnisse nach den Kriterien Aktualität, Popularität und Genauigkeit der Übereinstimmung mit der Suchanfrage zu beeinflussen. Neben Dokumenten aus dem WWW liefert die Suchmaschine auch passende Artikel aus der Encarta-Enzyklopädie von Microsoft. Außerdem kann auch gezielt nach Nachrichten und Bildern gesucht werden. Abbildung 3: Suchmaske der neuen MSN-Suche Einige Suchmaschinen bieten darüber hinaus weitere Funktionen, die den Benutzer beim Auffinden der gewünschten Funktion unterstützen sollen. So kann man bei Seekport (www.seekport.de) einen von acht Themenbereichen vorwählen, um die gelieferten Ergebnisse einzugrenzen. 5 Hilfsmittel zur Suche im Internet 2.2 Metasuchmaschinen Einzelne Suchmaschinen können nur einen Teil des Internets abdecken. Google hat nach Aussagen der Betreiber mehr als acht Milliarden Internetseiten weltweit erfasst. Im Juli 2004 waren aber mehr als 285 Millionen Rechner an das Internet angeschlossen (www.isc.org ), auf denen jeweils wieder mehrere hundert Seiten zum Abruf bereit stehen können. Man geht davon aus, dass Google als Suchmaschine mit dem umfangreichsten Index nur ca. 60 % der deutschsprachigen Domains findet [Pothe, 2004]. Deshalb kann es hilfreich sein, die Ergebnisse mehrerer Search Engines zu verwenden, um eine möglichst breite Antwortmenge zu erhalten. In diesem Fall kann man entweder mehrere Anfragen an verschiedene Suchmaschinen stellen, oder aber auf die Dienste einer Metasuchmaschine zurückgreifen. Eine Metasuchmaschine ist zunächst ähnlich aufgebaut wie normale Suchmaschinen. Auch hier trägt man die Suchanfrage in ein Webformular ein. Beim Abschicken des Formulars an den Server wird aber nicht eine Suche im eigenen Datenbestand des Anbieters durchgeführt, sondern die Anfrage wird automatisch in die Fragesyntax einer Vielzahl von Suchmaschinen übersetzt und an diese übermittelt. Die zurückgelieferten Suchergebnisse werden von der Metasuchmaschine geordnet, aufbereitet und dem Benutzer in Form einer Linkliste zur Verfügung gestellt. Da nicht alle Suchmaschinen über die gleichen Funktionalitäten bei der Formulierung von Suchanfragen verfügen, unterliegen die Metasuchmaschinen Restriktionen in Bezug auf die Flexibilität einer Anfrage. Standardanfragen, wie „Und“-Verknüpfungen, sowie die Suche nach Phrasen sind jedoch gemeinhin möglich. 6 www.hessen-it.de In Deutschland bietet Metager (www.metager.de ), ein Dienst des Hochschulrechenzentrums Hannover, eine Metasuchmaschine an. Bei der Benutzung kann ausgewählt werden, bei welchen Suchdiensten eine Anfrage erfolgen soll. Die Möglichkeiten zur Anfrageformulierung sind, wie zu erwarten, eingeschränkt, da alle angefragten Suchdienste in der Lage sein müssen, die Anfrage zu interpretieren. Der Nutzer kann sowohl „Und“- als auch „Oder“-Verknüpfungen machen, nach Stichworten im Seitentitel suchen oder auch Stichworte ausschließen. Die Anfrage wird dann an die ausgewählten Suchdienste übermittelt und es wird eine Ergebnisliste erstellt, aus der ersichtlich ist, welche Suchmaschinen zum Ergebnis beigetragen haben. Die ebenfalls deutschsprachige Metasuchmaschine Anyfinder (www.anyfinder.de ) bereitet die Suchergebnisse zusätzlich auf, indem automatisch Kategorien generiert werden, die eine Präzisierung der Anfrage erlauben. 2.3 Kataloge Im Gegensatz zu Suchmaschinen arbeiten Kataloge nicht mit automatisch erzeugten Indizes, sondern sie verwalten Linklisten zu verschiedenen Themenbereichen. Die Linklisten sind hierarchisch in Kategorien gegliedert, so dass man sich über ein Themengebiet informieren kann, ohne bestimmte Stichwörter zur Suche zu verwenden. Der Nutzer eines Katalogs hat die Möglichkeit in einer Übersichtsliste einen bestimmten Themenbereich auszuwählen, z. B. „Wirtschaft“. Nach der Themenauswahl auf oberster Ebene werden untergeordnete Themenbereiche, z. B. „Existenzgründung“ oder „Bauwirtschaft“, angezeigt. Auch hier kann wieder ein Bereich ausgewählt werden, so dass man seine Anfrage sukzessive verfeinern kann. Ab der dritten Ebene werden meistens neben weiteren Untergliederungen auch Links zu Webseiten angezeigt, die der gewünschten Kategorie zugeordnet sind. Abbildung 4 zeigt als ein Beispiel für einen Katalogdienst die deutschsprachige Startseite des Open Directory Project (www.dmoz.de ). 7 Hilfsmittel zur Suche im Internet Abbildung 4: Die deutschsprachige Startseite des Open Directory Project Die Besonderheit dieses Dienstes besteht darin, dass er auf die Arbeit ehrenamtlicher Redakteure zurückgreift und das gesamte Verzeichnis zur freien Verwendung zur Verfügung stellt. Auch eine Eintragung von Websites gegen Geld findet nicht statt. Die Firma Netscape verwaltet das Projekt formell und stellt technische Infrastruktur zur Verfügung, nimmt aber laut Satzung (social contract) keinen Einfluss auf die inhaltlichen Entscheidungen der Redakteure. Bedeutung erlangt der Dienst auch dadurch, dass er gleichzeitig als Verzeichnisdienst der Suchmaschine Google fungiert und seine Inhalte auch bei der Schlagwortsuche in Google berücksichtigt werden. 8 www.hessen-it.de 2.4 Preisvergleichsmaschinen und Online-Marktplätze Eine Reihe von Websites ist auf die Suche nach Produkten spezialisiert, die in Online-Shops angeboten werden. Die Crawler normaler Suchmaschinen können solche Angebote oft nicht erfassen, da es sich bei den Angebotsseiten von Online-Shops normalerweise um so genannte dynamische Seiten handelt, die erst im Augenblick des Aufrufs erzeugt werden (vgl. Abschnitt „Probleme bei der Seitengestaltung“, Seite 28). Im Gegensatz zu Online-Marktplätzen unterstützen solche Sites jedoch keine Transaktionen, sondern liefern lediglich Informationen über mögliche Anbieter eines bestimmten Produktes sowie über deren Preise. Die meistbesuchten Preisvergleichsdienste waren Anfang 2004 kelkoo, das T-Online Shopping-Portal, geizkragen.de sowie guenstiger.de [Nielsen Netratings, Februar 2004]. Weitere Beispiele für solche Dienste sind froogle und preissuchmaschine.de. froogle setzt, ähnlich wie die oben beschriebenen allgemeinen Suchmaschinen, in erster Linie auf Stichwortsuche zum Auffinden eines gewünschten Produkts und bedient sich dabei der Technologie der Suchmaschine Google. Die Mehrzahl der übrigen Dienste bietet dagegen tief verzweigte Produktkategorien für die Suche. Während guenstiger.de für einen bestimmten Artikel jeweils nur den niedrigsten Preis listet, der dem Dienst bekannt ist, liefern die meisten Dienste die Preise mehrere Anbieter. Kapitel 10 enthält eine Tabelle weiterer Produktbzw. Preissuchmaschinen. Wie man eigene Angebote an die genannten Dienste übermittelt, wird in Abschnitt 6.1 näher erläutert. 9 Hilfsmittel zur Suche im Internet Online-Marktplätze präsentieren die Angebote verschiedener Händler auf einer gemeinsamen Plattform. Darüber hinaus stellen sie die Infrastruktur für einen Teil der Transaktionsabwicklung zur Verfügung, z. B. eine Warenkorbfunktion und Zahlungsfunktionen. Bekannte Marktplätze sind für viele Surfer die erste Anlaufstation auf der Suche nach online zu erwerbenden Produkten. Daher können sich Angebote auf solchen Marktplätzen auch dazu eignen, Besucher zu einem eigenen Online-Shop zu führen. Dabei sind allerdings die Regeln der Marktplatzbetreiber zu beachten, die in der Regel keine offensichtliche Werbung in den gelisteten Angeboten und keine direkte Verlinkung externer Seiten zulassen. Die größte Reichweite unter den Online-Marktplätzen wiesen Anfang 2004 Amazon und ebay auf [Nielsen Netratings, Februar 2004]. Das Einstellen von Angeboten bei diesen und ähnlichen Diensten wird in Abschnitt 6.2 beschrieben. Eine Tabelle mit weiteren Marktplätzen findet sich in Kapitel 10. Abbildung 5: Die Preisvergleich-Plattform „Preissuchmaschine.de“ 10 www.hessen-it.de 2.5 Konvergenz und Konsolidierung im Bereich der Suchdienste Die aktuelle Entwicklung deutet darauf hin, dass die Unterscheidung in Suchmaschinen und Kataloge immer unschärfer wird. Viele Suchmaschinen, z. B. Google, bieten neben der klassischen Stichwortsuche inzwischen Katalogbereiche an. Auf der anderen Seite bietet der vormals wichtigste Katalog Yahoo inzwischen eine eigene Suchmaschine an (http://de.search.yahoo.com ). Andere große Portale, z. B. AOL (www.aol.de ) verzichten auf die Entwicklung eigener Suchtechnologie und integrieren stattdessen die Suchfunktion eines Spezialisten auf ihrer Site, in diesem Fall von Google. Daneben findet eine Konsolidierung unter den Betreibern der Suchmaschinen statt. Insbesondere hat Yahoo in jüngerer Zeit die Betreiber der Suchmaschinen Inktomi und Overture aufgekauft und deren spezifische Verfahrensweisen in seine eigene Suchfunktion integriert. Overture wiederum hat die bekannte Suchmaschine AltaVista übernommen, lässt sie aber bislang (Januar 2005) als eigenständige Marke bestehen, wobei AltaVista auf seinen SERP die unten erläuterten bezahlten Suchergebnisse von Overture einblendet. Mit großem Interesse werden die Anstrengungen von Microsoft beobachtet, eine eigene leistungsfähige Suchtechnologie für das frei zugängliche Portal seines Onlinedienstes MSN zu entwickeln, das früher die Suchfunktion von Yahoo genutzt hat. 11 Erfassung von Websites durch Suchmaschinen und Kataloge 3 Erfassung von Websites durch Suchmaschinen und Kataloge 3.1 Automatische Erfassung Crawler sind Programme, die von Suchmaschinen benutzt werden, um Webseiten zu finden und zu erfassen. Andere Bezeichnungen sind Spider, Robot(er) oder SoftBot (von Software Robot). Wie der Name nahe legt, „krabbeln“ diese Programme durch das Internet. Sie beginnen auf einer Startseite, deren URL ihnen manuell, z. B. durch die Anmeldung einer Webseite beim Suchmaschinenbetreiber, mitgeteilt wird. Oft werden auch andere Quellen, wie z. B. Artikel in Newsgruppen oder Linklisten von Portalen, zur Auswahl einer Startseite benutzt. Manche Suchmaschinenbetreiber, z. B. Overture, bieten gegen Bezahlung die Garantie, dass der Crawler eine bestimmte Website aufnimmt (so genannte Paid Inclusion). Im Gegensatz zu den Pay-for-Performance-Angeboten (vgl. Absatz „Payfor-Performance“, Seite 22) ist damit jedoch keine Garantie für eine bestimmte Platzierung in den SERP verbunden. Der Roboter erfasst nun alle Hyperlinks einer Webseite und folgt diesen zu neuen Seiten. Auch auf den neuen Seiten werden wieder alle Links erfasst und der Vorgang wird solange fortgesetzt, bis keine neuen Seiten mehr gefunden werden oder bis ein Abbruchkriterium, z. B. eine gewisse Menge von erfassten Seiten, überschritten wird. Ein weiteres Abbruchkriterium ist die Anzahl der Ebenen, die ein Roboter abarbeitet, die so genannte Spidering Depth. Alle Internetseiten einer Domain, die per Link von der Startseite aus zu erreichen sind, werden der zweiten Ebene zugeordnet. Seiten, die von der zweiten Ebene aus per Link zu erreichen sind, gehören zur dritten Ebene usw. Überschreitet die Ebenenzahl die Spidering Depth des Roboters, so wird die Indizierung des Internetangebots abgebrochen. Crawler führen keinen Programmcode auf fremden Rechnern aus. Stattdessen kann man sich unter einem Crawler vielmehr einen automatischen Websurfer vorstellen, der seitenweise durch die Informationsangebote des Internets surft. 12 www.hessen-it.de Neben der Erfassung der Links einer Webseite untersucht der Crawler auch deren Inhalt. Diesen Vorgang nennt man Indizierung. Einige Roboter indizieren nur den Titel eines Dokumentes und seine Meta-Tags (MetaTags sind zusätzliche Informationen, die am Anfang der Seite gespeichert, von einem Browser aber nicht angezeigt werden, vgl. Abschnitt „MetaTags“, Seite 27). Andere überprüfen den gesamten Text. Bei dieser vollständigen Indizierung wird aus den Texten der vom Crawler besuchten Webseiten eine Wortliste erzeugt, die dem Datenbestand der Suchmaschine angefügt wird. Sie ist somit die Grundlage jeder stichwortbasierten Suche in einer Suchmaschine. Die Liste enthält allerdings nicht alle Wörter, die auf einer Seite enthalten sind. So genannte Stoppworte, das sind z. B. Worte wie „und“, „ein“, „wie“, werden nicht erfasst, da sie für die spätere Suche keinen Erkenntnisgewinn liefern. Auch mehrfach genannte Worte werden nur einmal in die Wortliste aufgenommen, wobei aber die Häufigkeit ihrer Nennung vermerkt wird. Zusätzlich zur Erfassung von Stichworten werden von vielen Crawlern auch die gesamten Texte einer Webseite erfasst, um in der Suchmaschine die Möglichkeit zur Suche nach Phrasen oder umfangreicheren Texten zu ermöglichen. Um einen technischen Einblick in die Funktions- und Arbeitsweise eines Roboters zu geben, soll diese anhand von Mercator, einem System des früheren Compaq Systems Research Centers, erläutert werden. Weiterentwicklungen von Mercator bilden die Grundlage des Crawlers, der von der Suchmaschine Altavista eingesetzt wird, die inzwischen von Overture (vgl. Abschnitt „Pay-for-Performance“, Seite 22) übernommen wurde. Abbildung 6 verdeutlicht die Funktionsweise des Crawlers. Mercator ist aufgegliedert in mehrere gleichzeitig arbeitende, identische Teilprogramme, so genannte Threads. Alle Threads greifen auf eine gemeinsame Liste von URLs zu (hier mit URL Frontier bezeichnet) die sie nacheinander abarbeiten und die zugehörigen Dokumente analysieren. Der erste Schritt ist die Extraktion einer URL aus der Liste (1). Je nachdem, ob es ein Link zu einer WWW-Adresse oder zu einer FTP-Adresse ist, wird im Schritt (2) das zum entsprechenden Protokoll gehörige Modul benutzt, um die Seite herunterzuladen. Diese wird an das Rewind Input System (RIS, Schritt 3) übergeben, dass die Dokumente für die nachfolgenden Schritte zur Abarbeitung bereithält. 13 Erfassung von Websites durch Suchmaschinen und Kataloge Internet Mercator DNS Resolver 2 HTTP FTP Protocol Modules 4 3 RIS 5 Content Seen? Link Extractor Doc FPs 6 URL Filter Tag Counter Log GIF Stats Log 7 URL Seen? URL Set 8 1 URL Frontier Queue Files Processing Modules Abbildung 6: Funktionsweise eines Crawlers am Beispiel von Mercator Nun wird überprüft, ob das Dokument schon unter einer anderen URL gefunden wurde (Content-Seen-Test, Schritt 4). Ist dies der Fall, wird das Dokument nicht weiter bearbeitet und die URL wird aus der Liste gelöscht. Ist das Dokument noch nicht bearbeitet worden, wird, abhängig vom MIME-Type des Dokuments (der MIME-Type informiert den anfragenden Computer, welche Applikation zur Darstellung bzw. Wiedergabe des Dokuments ausgeführt werden muss), ein weiteres Modul geladen (5), das die Analyse des Dokuments vornimmt, wie z. B. das Zählen und Auswerten von Tags. Zusätzlich werden die auf der Seite enthaltenen Links extrahiert und einem Filter übergeben (6). Der Filter dient dazu, dass bestimmte Dokumente, z. B. dynamisch erzeugte Webseiten, nicht weiter bearbeitet werden. Abschließend wird noch überprüft, ob die neuen URLs schon einmal besucht wurden (7) und wenn dies nicht der Fall ist, werden die Adressen an die URL Frontier übergeben (8). Dann wiederholt sich der Ablauf. 14 www.hessen-it.de 3.2 Manuelle Erfassung Bei der manuellen Erfassung von Internetseiten wird jede Seite, die zur Aufnahme in den Katalog angemeldet wurde, von einem Mitarbeiter des Katalogbetreibers besucht und begutachtet. Dabei können die Inhalte der Seite wesentlich genauer beurteilt werden als bei einer automatischen Erfassung. Wenn der Erfasser entscheidet, dass die Seite in den Katalog aufgenommen wird, erscheint sie dort mit einer kurzen Inhaltsbeschreibung, die je nach Katalog entweder vom Betreiber der Website oder vom Erfasser erstellt wird. Da der personelle Aufwand zur Bewertung der Seiten verständlicherweise ein Engpass ist, kommt es selten zu einer zweiten Bewertung einer abgelehnten Website. Daher ist darauf zu achten, dass vor der Anmeldung bei einem manuell erstellten Katalog alle Vorarbeiten geleistet wurden. Neben den erwähnten inhaltlichen Kriterien gehören dazu auch eine ansprechende optische Darstellung und technisch einwandfrei gestaltete und browserunabhängige Seiten. Da bei den großen Katalogen ähnlich hohe Anmeldezahlen wie bei automatisch indizierenden Suchmaschinen vorliegen, kann es zu langen Verzögerungen kommen, bis eine Seite besucht und bewertet wird. Yahoo Deutschland empfiehlt Anmeldern sogar, die Anmeldung alle vier Wochen zu wiederholen, falls sie noch nicht erfolgreich war, um eine Bearbeitung durch die Redakteure sicher zu stellen. 15 Bewertung und Ranking der indizierten Seiten 4 Bewertung und Ranking der indizierten Seiten Eine Anfrage an eine Suchmaschine wird von dieser in der Regel mit einer Liste von URLs beantwortet, die auf Seiten verweist, die der Anfrage entsprechen. Zu den meisten Anfragen finden sich aber mehrere passende Internetseiten im Datenbestand einer Suchmaschine. Welche von diesen die Beste zur Beantwortung der Anfrage des Suchenden ist, lässt sich nur subjektiv beantworten. Die Suchmaschinen versuchen aber, mithilfe von Relevanzangaben, die Eignung von Internetseiten zur Beantwortung einer Anfrage zu verdeutlichen. Im einfachsten Fall kann diese durch eine Rangfolge (so genanntes Ranking), nach der die Ergebnismenge sortiert ist, geschehen. Andere Verfahren stellen die Eignung graphisch, z. B. mit unterschiedlich vielen Sternen oder mit Prozentangaben dar. Zur Messung der Relevanz setzen die verschiedenen Suchmaschinen unterschiedliche Berechnungsverfahren ein, die gar nicht oder nur grob veröffentlicht werden. Grundlage der meisten Berechnungen sind aber die in diesem Abschnitt erläuterten Bewertungskriterien. Eine gute Position innerhalb dieses Rankings ist Grundlage dafür, von potentiellen Besuchern gefunden und besucht zu werden. Laut einer Studie besuchen mehr als 80 % der Nutzer von Suchmaschinen nur die ersten beiden SERP (vgl. www.inter- networld.de/sixcms/detail.php?id= 16682 ). Da zehn bis fünfzehn Links auf einer SERP angezeigt werden, ist es entscheidend, dass die eigene Seite unter den Top-20 der Treffer aufgelistet wird. 4.1 On-the-page-Verfahren Unter dokumentbezogene bzw. On-the-page-Verfahren fallen solche, die ausschließlich den Inhalt des Dokuments selbst heranziehen, um seine Relevanz bezüglich einer Suchanfrage zu ermitteln. Darunter finden sich zum einen Verfahren, die aus dem Information Retrieval stammen, einem Forschungsgebiet, das sich mit der Suche nach Inhalten in Texten beschäftigt, zum anderen werden die Konstrukte der HTML-Syntax genutzt, um wichtige und unwichtige Inhalte auf einer Internetseite zu unterscheiden. 16 www.hessen-it.de Titel einer Webseite Eines der einfachsten Verfahren, um die Eignung einer Webseite zur Beantwortung einer Suchanfrage zu überprüfen, ist die Berücksichtigung ihres Seitentitels, d. h. des Textes, den der Besucher der Internetseite am oberen Rand des Browserfensters sieht. Das Verfahren wird von allen Suchmaschinen benutzt, wobei der Beitrag des Seitentitels zur Bestimmung der Relevanz von Anbieter zu Anbieter variiert. Der Titel einer Webseite wird im <TITLE>-Tag in der HTML-Definition festgelegt. Der innerhalb des Tags verwendete Text wird bei der Indizierung durch einen Webcrawler gesondert erfasst und in den Datenbestand übertragen. Die Suchanfrage eines Nutzers der Suchmaschine, seien es einzelne Begriffe oder ganze Phrasen, wird mit den gespeicherten Seitentiteln verglichen. Bewertung des Seiteninhalts Bei der Bewertung des Seiteninhalts, d. h. des Bereichs einer Internetseite, der zwischen den <BODY>-Tags steht, kann unterschieden werden, ob der gesamte auf der Internetseite enthaltene Text bewertet wird oder nur bestimmte Teile Berücksichtigung finden. Werden nur einzelne Teile des Seiteninhalts in das Ranking einbezogen, so sind das solche, die durch spezielle Markierungen wie z. B. <H1></H1> hervorgehoben werden. Der Vergleich mit einer Suchanfrage erfolgt dann analog zu der Vorgehensweise im Falle der Seitenüberschrift. Soll der gesamte Seitentext bewertet werden, so sind die Verfahren komplizierter. Einerseits kann der gesamte Text der Internetseite in den Datenbestand der Suchmaschine übernommen werden, um in diesem nach Phrasen oder ganzen Textabschnitten zu suchen. Andererseits wird aber auch versucht, durch den Webcrawler bestimmte Stichworte zu bestimmen, welche die besuchte Seite gut charakterisieren. Deshalb werden zunächst alle HTML-Elemente, Zeichensetzungs- und Sonderzeichen sowie Stoppworte entfernt, um den restlichen Text untersuchen zu können. Ein entscheidendes Kriterium bei dieser Untersuchung ist der Ort (location) und die Häufigkeit (frequency) von Stichworten. Dabei geht man davon aus, dass Begriffe, die am Anfang einer Seite stehen wichtiger sind als solche, die am Ende stehen. Zusätzlich werden Worte, die häufiger auf 17 Bewertung und Ranking der indizierten Seiten einer Seite auftauchen als wichtiger erachtet als solche, die selten verwendet werden. Die auf einer Seite gefundenen Begriffe werden archiviert und jedem Begriff wird ein Wert zugewiesen, der wiedergibt, wie oft und an welcher Stelle er auf der Internetseite auftritt. Diese Bewertung wird beim Vergleich mit einer Suchanfrage herangezogen, um die Seiten zu finden, auf denen die in der Anfrage genannten Begriffe häufig und an vorderer Position genannt werden. Eine andere Herangehensweise besteht in der Messung der Verteilung einzelner Worte auf einer Internetseite. Dabei wird das Auftreten von Worten, deren Anzahl an Nennungen eine festgelegte Mindesthäufigkeit überschreitet, und deren möglichst gleichmäßige Verteilung über den gesamten Text betrachtet. Auch hieraus resultiert für die gefundenen Worte ein Wert, der bei der Relevanzbestimmung berücksichtigt werden kann. Meta-Tags In HTML besteht die Möglichkeit, Meta-Daten, d. h. Informationen über die auf der Seite enthaltenen Daten, in Form von Meta-Tags in den Code zu integrieren. Als die meisten Crawler noch nicht in der Lage waren, den Volltext einer Internetseite zu indizieren, dienten Meta-Daten dazu, die zentralen Inhalte eines Internetangebots in Stichworten zusammenzufassen und eine kurze Seitenbeschreibung zu hinterlegen. Die Stichworte wurden von den Crawlern ausgewertet und leisteten einen wichtigen Beitrag zur Festlegung des Rankings einer Internetseite. Die Seitenbeschreibung fand sich als Kurzbeschreibung in den SERP wieder. Aufgrund des in großem Umfang betriebenen Missbrauchs der Meta-Tags, um Angeboten mit falschen Stichwörtern und Beschreibungen gute Plätze im Ranking der Suchmaschinen zu verschaffen, haben sie in den letzten Jahren erheblich an Bedeutung verloren. Aktuelle Crawler verwenden Meta-Daten bestenfalls noch dazu, das Ergebnis der Volltext-Indizierung zu überprüfen und das Ranking entsprechend zu modifizieren. Stichworte, die in den Metadaten und im Text vorhanden sind, werden evtl. als wichtiger erachtet, als solche, die nur im Seitentext stehen. Einige Crawler gehen sogar so weit, Meta-Daten zu ignorieren, wenn es sich um solche Stichworte handelt, nach denen erfahrungsgemäß häufig gesucht wird, die aber scheinbar in keinem inhaltlichen Zusammenhang mit dem übrigen Seiteninhalt stehen. 18 www.hessen-it.de URL Zuletzt sei ein Verfahren genannt, das eine Eigenart vieler Entwickler von Internetseiten berücksichtigt. Häufig gibt der Dateiname, und damit die vollständige URL einer Seite, Auskunft über den tatsächlichen Inhalt. Dadurch kann z. B., wenn ein Teil des Dateinamens gleichzeitig ein häufig auftretender Begriff im Seitentext ist, eine Berücksichtigung der URL bei der Bewertung erfolgen. Für viele Content-Management-Systeme entstehen aus dieser Vorgehensweise Probleme, wenn keine sinnvollen Begriffe, sondern alphanumerische Zeichenketten als Dateinamen verwendet werden. 4.2 Off-the-page-Verfahren Andere Verfahren zur Bewertung von Internetseiten versuchen, ergänzende Methoden zur rein dokumentbezogenen, stichwortbasierten Relevanzbeurteilung anzubieten. Diese sind meist unabhängig von der untersuchten Seite, weswegen sie auch als externe Faktoren oder off-the-pagefactors bezeichnet werden. Link-Analyse Das Verfahren, welches in den letzten Jahren die meiste Beachtung erfahren hat, ist die Link-Analyse oder Link-Popularität, bei der die Struktur des Internets analysiert wird. Entstanden aus einer wissenschaftlichen Arbeit an der Stanford University wurde dieses Verfahren zuerst von der Suchmaschine Google eingesetzt. Inzwischen verwenden weitere Anbieter diese Technik, um ihre Ergebnislisten zu verbessern. Die grundlegende Überlegung dabei ist, dass Internetseiten, auf die von anderen Seiten verwiesen wird, einen größeren Beitrag zur Beantwortung einer Anfrage leisten können, als solche, auf die keine oder wenige Seiten verweisen. Deshalb wird für jede indizierte Seite der so genannte PageRank berechnet. Dieser Wert beeinflusst in Verbindung mit den Ergebnissen der klassischen Verfahren die Relevanz einer Internetseite bzgl. einer Anfrage. Dabei werden zunächst passende Seiten gesucht, die den beschriebenen inhaltlichen Kriterien (Stichworte, Überschriften, etc.) genügen. Bei der Bestimmung der Relevanz wird jedoch zusätzlich der PageRank der gefundenen Seiten berücksichtigt, so dass Seiten mit einem hohen PageRank eine bessere Position in der SERP erhalten. 19 Bewertung und Ranking der indizierten Seiten A C B Abbildung 7: Aus- und eingehende Links Die Abbildung 7 verdeutlicht, dass den meisten Internetseiten zwei Arten von Links zugeordnet werden können, ausgehende und eingehende Links. Aus der Sicht von Seite C ist der Link von Seite A ein eingehender Link, während aus dem Blickwinkel von A der Link zu C ein ausgehender Link ist. Bei der Erfassung einer Internetseite durch einen Webroboter werden zunächst alle ausgehenden Links einer Seite gezählt. Im Anschluss daran wird mittels der früher erfassten Internetseiten die Zahl der eingehenden Links bestimmt. Jeder eingehende Link von einer anderen Seite steigert den resultierenden PageRank. Allerdings ist der Beitrag der eingehenden Links zur Berechnung des PageRank unterschiedlich stark. Er hängt von internen Qualitätsmaßen ab, so dass die Wertung eines eingehenden Links von der Beurteilung der Ursprungsseite und zusätzlich von der Zahl der auf dieser Seite enthaltenen Links abhängt. Den PageRank einer Seite kann man mit Hilfe der Google-Toolbar, eines kostenlosen Zusatzprogramms für den Internet Explorer, ermitteln. 20 www.hessen-it.de Clickthrough-Techniken Clickthrough-Techniken beobachten das Verhalten der Surfer bei der Suche nach Internetseiten. Im einfachsten Fall erfassen sie die Häufigkeit des Abrufs einer Seite aus einer SERP. Je häufiger eine Seite von den Nutzern angeklickt wird, desto nützlicher scheint sie zur Beantwortung einer Anfrage zu sein. Daher wird die Relevanz der Seite in den SERP zukünftiger Anfragen erhöht. Komplexere Verfahren, wie DirectHit, dessen Entwicklerfirma inzwischen von der Suchmaschine Teoma übernommen wurde, untersuchen zusätzlich die Verweildauer der Surfer auf den aus der SERP ausgewählten Internetseiten. Dazu wird die Zeit gemessen, die vergeht, bis ein Besucher nach dem Anklicken eines Links in der SERP wieder zur Suchmaschine zurückkehrt. Dadurch soll die Qualität des gefundenen Internetangebots gemessen werden, da ein Surfer auf einer interessanten Seite länger verweilt als auf einer uninteressanten. Die einfachen Clickthrough-Techniken werden von einigen Suchmaschinen (z. B. Altavista) eingesetzt und beeinflussen die Relevanzangaben. Das DirectHit-Verfahren ist etwas weniger verbreitet. In Bezug auf Aussagekraft über die Qualität einer Seite sind die Clickthrough-Techniken der Link-Popularität unterlegen. Der Benutzer kann, bevor er eine Seite besucht hat, häufig nicht auf deren Inhalt und Qualität schließen. Daher ist das Messen der Anklickhäufigkeit in der SERP mehr ein Maß für die Attraktivität der angezeigten Seitenbeschreibung als für die Seite selbst. Weiterhin ist es schwierig, die Verweildauer auf einer Seite exakt zu bestimmen, da diese von vielen anderen Faktoren und nicht nur von der inhaltlichen Qualität beeinflusst wird. TermVector Das TermVector-Verfahren, das z. B. von Altavista, Alltheweb, Google, Inktomi und den auf deren Ergebnissen basierenden Suchmaschinen eingesetzt wird, setzt die in einer SERP enthaltenen Internetseiten in Relation zu den Internetsites, aus denen diese stammen. Die Suchbegriffe einer Anfrage werden also zusätzlich noch einmal mit dem vollständigen Internetangebot eines Anbieters verglichen. Das bedeutet, dass Internetseiten, die das gleiche Thema behandeln, wie die gesamte Website, eine höhere Relevanzbeurteilung erhalten, als solche Seiten, die atomistisch in einem 21 Bewertung und Ranking der indizierten Seiten größeren Informationsangebot enthalten sind. Der Grund für diese Vorgehensweise ist naheliegend, denn der Suchende findet auf einer Site, die sich vorwiegend mit dem von ihm gesuchten Thema befasst, wahrscheinlich mehr relevante Informationen, als auf einer einzelnen, vom restlichen Angebot unabhängigen, Internetseite. Lokalisierung Die meisten Suchmaschinen bieten mittlerweile die Möglichkeit, die Suche auf ein bestimmtes Land bzw. auf eine bestimmte Sprache einzuschränken. Die Einschränkung auf ein Land erfolgt z. B. anhand von elektronischen Firmenverzeichnissen oder bestimmten Informationen in den Datensätzen, die das Domain Name System (DNS) für jede registrierte Domain zur Verfügung stellt. Eine bloße Orientierung an der Top-LevelDomain (TLD), z. B. .de für Deutschland, genügt nicht, da auch die Domains deutscher Websites aus den generischen TLD, z. B. .com oder .org, stammen können. Die Sprache kann unabhängig von der Domain einer Seite als Einschränkungskriterium verwendet werden. Dazu wird bereits bei der Indizierung einer Seite deren Sprache automatisch erkannt und im Index vermerkt. Pay-for-Performance Eine weitere Möglichkeit zur Beeinflussung der Relevanz einer Internetseite wird mit Pay-for-Performance bezeichnet. Dazu wählt der Betreiber eines Internetangebots bestimmte Schlüsselwörter bzw. Kombinationen von Schlüsselwörtern aus. Bei jeder Anfrage, welche diese Schlüsselwörter enthält, wird dann seine Seite an prominenter Stelle der SERP eingeblendet, wobei die Ergebnisse mehr oder weniger deutlich von den unbezahlten Suchergebnissen, den so genannten Organic Listings, unterschieden werden. Außerdem lässt sich die Erscheinungsweise der bezahlten Ergebnisse innerhalb der relativ restriktiven Vorgaben der Suchdienste exakt steuern. Bei Google AdWords stehen z. B. eine Titelzeile, zwei Textzeilen und eine Zeile zur Darstellung einer URL zur Verfügung. 22 www.hessen-it.de Die wichtigsten Anbieter von Pay-for-Performance-Diensten sind Google und Overture. Overture-Ergebnisse erscheinen unter anderem auch bei den Suchdiensten MSN und Yahoo, während Google auch AOL, AskJeeves und Teoma mit bezahlten Suchergebnissen beliefert. Bei beiden Anbietern ist die Abrechnung des Verfahrens erfolgsabhängig und hängt von der Anzahl der Besucher ab, die dem Link von der SERP zur Internetseite folgen (so genannte Clickthrough-Preise). Die Kosten pro Klick hängen von der Popularität der zugeordneten Schlüsselwörter ab. Overture legt die Positionierung eines bezahlten Ergebnisses auf der SERP ausschließlich danach fest, wie viel der Auftraggeber bereit ist pro Klick zu bezahlen. Das System bei Google ist etwas komplizierter, hier bietet der Auftraggeber zwar ebenfalls den Betrag pro Klick, die Positionierung in der SERP hängt aber außerdem auch davon ab, wie oft ein angezeigtes Bezahlergebnis tatsächlich angeklickt wird. Ergebnisse, die zu selten angeklickt werden, werden automatisch inaktiv geschaltet und künftig nicht mehr angezeigt, sehr häufig angeklickte Ergebnisse werden in einem Bereich oberhalb der Organic Listings angezeigt, während normalerweise die Anzeigen bei Google am rechten Rand der SERP erscheinen. Beide Dienste erlauben es, zur Kontrolle der Kosten einen Maximalbetrag pro geschalteter Kampagne vorzugeben, bei dessen Erreichen sie automatisch deaktiviert wird. 23 Handlungsempfehlungen für Betreiber von Websites 5 Handlungsempfehlungen für Betreiber von Websites Die Beschreibung der Rankingverfahren moderner Suchmaschinen verdeutlicht, dass der Handlungsspielraum zur Beeinflussung von Suchmaschinen in den letzten Jahren kleiner geworden ist. Trotzdem gibt es aber, neben dem Versuch, durch gute Inhalte möglichst viele Links von anderen Seiten zu bekommen, verschiedene Möglichkeiten, um die Bewertung der eigenen Site zu verbessern. Die folgenden Aussagen bzgl. der Gestaltung einer Website beziehen sich insbesondere auf die Startseite und deren direkte Nachfolger, da diese Seiten den stärksten Einfluss auf die Bewertung des gesamten Angebots haben. 5.1 Gestaltung der Website Schlüsselwörter Bei der Gestaltung der Website sollte man sich zunächst den Inhalt des Angebots verdeutlichen und über die Schlüsselwörter nachdenken, mit denen potentielle Besucher in einer Suchmaschine nach diesem Inhalt suchen werden. Dabei sollten mehrere Aspekte berücksichtigt werden: Zunächst ist natürlich zu fragen, ob das eigene Angebot Inhalte zu einem bestimmten Suchwort bietet, also für dieses Suchwort relevant ist. Umgekehrt ist jedoch auch zu fragen, ob ein Suchender, der die Seite über dieses Suchwort findet, für den Betreiber der Seite ein erwünschter Besucher ist. Jemand, der nach „Autobilder“ sucht, wird vermutlich auf den Seiten vieler Autohändler fündig, ist aber mit geringerer Wahrscheinlichkeit ein Kunde als jemand, der nach „BMW Gebrauchtwagen“ sucht, jedenfalls für einen BMW-Händler. Außerdem sollte man versuchen, herauszufinden, wie häufig nach verschiedenen (Kombinationen von) Schlüsselwörtern gesucht wird. Wichtige Hilfestellung leistet hierbei das Vorschlagtool von Overture (http://inventory.de.overture.com/d/searchinventory/suggestion ), das die Anzahl der Suchanfragen liefert, die in der jüngeren Vergangenheit zu den eingegebenen Schlüsselwörtern durchgeführt wurden. Eine andere kostenlose Möglichkeit, die Popularität von Schlüsselwörtern zu testen, stellt die probeweise Zusammenstellung einer Anzeige in Googles 24 www.hessen-it.de AdWords-Programm dar (http://adwords.google.de ). Aus den ermittelten durchschnittlich zu erwartenden Klickpreisen und -häufigkeiten lassen sich gewisse Rückschlüsse auf die Popularität der Suchbegriffe ziehen, die Angaben sind jedoch schwer zu interpretieren, da der zugrunde liegende Algorithmus nicht veröffentlicht wird. Daneben existiert eine Reihe kommerzieller Tools zur Auswahl von Schlüsselwörtern, darunter die KeywordDatenbank von certo-it (www.keyword-datenbank.de) sowie das Softwarepaket WordTracker (www.wordtracker.com). Diese haben jedoch den Nachteil, ihre Ausgangsdaten aus den Suchanfragen bei kleineren Suchmaschinen zu generieren, was nur bedingt Rückschlüsse auf die großen wie Google, Yahoo und MSN erlaubt. Die Popularität eines Suchbegriffs ist jedoch ein zweischneidiges Schwert. Je populärer der Begriff, desto größer ist die Konkurrenz durch andere Websites, die versuchen, zu diesem Schlüsselwort vordere Plätze im Ranking der Suchmaschinen zu erreichen. Jeder Konkurrent, der einen guten Platz erreicht, bedeutet automatisch eine niedrigere Position des eigenen Angebots. Außerdem steigen die Preise für Pay-for-Performance-Listungen mit der Popularität von Suchbegriffen. Daher sollte man bei der Auswahl der Schlüsselwörter, die man im eigenen Angebot hervorhebt, einen guten Kompromiss zwischen Popularität und ausreichender Spezifität finden, um nicht gegen allzu viele Konkurrenten anzutreten. Sind die Schlüsselwörter einmal bestimmt, sollten sie in verschiedenen Variationen, also z. B. im Plural und im Singular, im Text der Seite erscheinen. Auch bei der Wahl des Domainnamens können Schlüsselwörter berücksichtigt werden, die Bedeutung dieses Elements wurde aber wegen der vielen bereits existierenden Keyword-Domains, die nicht immer seriöse Inhalte bieten, von den Suchmaschinen in den letzten Jahren deutlich verringert. Ein Firmen- oder Markenname ist, falls vorhanden, in jedem Fall die bessere Wahl für den Domainnamen. 25 Handlungsempfehlungen für Betreiber von Websites Wie im Abschnitt „Bewertung des Seiteninhalts“ (Seite 17) erläutert, spielt die Position der Schlüsselwörter auf einer Internetseite eine wichtige Rolle für deren Gewichtung bei der Berechnung des Rankings. Für einen Webcrawler hat eine Internetseite allerdings ein anderes Aussehen als für einen menschlichen Besucher. Der Internetsurfer, der eine Seite besucht, sieht die von einem Browser interpretierte HTML-Seite. Der Crawler hingegen erhält nur den HTML-Code. Dies hat zur Folge, dass die Reihenfolge von Textinhalten verschoben sein kann, d. h. Texte, die im Browser zu Anfang der Webseite stehen, können im HTML-Code weiter hinten erscheinen. Durch die Verwendung einer Tabelle zur Positionierung von Textelementen auf einer Internetseite kann es zu einer solchen „Verzerrung“ kommen, wie es das nachfolgende Beispiel zeigt: <TABLE BORDER=0> <TR> <TD> Hier kann ein sehr langer Text<BR> mit der Beschreibung des Ladens etc. stehen </TD> <TD VALIGN=”TOP”> Blumenversand </TD> </TR> </TABLE> Das Wort Blumenversand erscheint zwar im Browser auf der gleichen Höhe wie der Beginn der langen Textpassage im linken Teil der Tabelle, der Crawler allerdings findet es erst am unteren Ende der Seite und weist ihm gegebenenfalls eine geringe Bedeutung zu. Neben der Position der Schlüsselwörter berücksichtigen manche RankingAlgorithmen auch deren Dichte, d. h., welchen Anteil sie am Gesamttext einer Seite haben. Einerseits wird ein Suchbegriff in einem relevanteren Dokument wohl häufiger vorkommen, andererseits kann eine zu große Dichte von Schlüsselwörtern auf Keyword Stuffing hindeuten (vgl. Abschnitt „Keyword Stuffing“, Seite 41). 26 www.hessen-it.de Ein weiteres Problem ist die Gestaltung wichtiger Textbereiche, die grafisch aufgewertet werden sollen, um ihre Wichtigkeit zu markieren. Durch die Verwendung von Farben oder speziellen Schriften sind sie für den Internetsurfer gut von unwichtigen Stellen zu unterscheiden. Ein Webcrawler ignoriert aber diese Art der Hervorhebung und bewertet diese Passagen nicht anders als unwichtigere. Daher sollte bei der Gestaltung der Seite mit den in HTML vorgesehenen Tags gearbeitet werden. Zur Hervorhebung von Überschriften können die Tags <H1> bis <H6> verwendet werden. Bei der Hervorhebung einzelner Wörter durch kursive oder fette Schreibweise sollten die Tags <em> und <strong> anstelle von <i> oder <b> verwendet werden. Auch wenn diese Ratschläge befolgt werden, kann ein ansprechendes Seitenlayout realisiert werden. Durch die Verwendung von Cascading Style Sheets hat man vielfältige Möglichkeiten, die Darstellung von Texten geeignet zu beeinflussen. Wie bei der Beschreibung der Indizierung erläutert, sollte auch der <TITLE> Tag verwendet werden, da er von vielen Suchmaschinen als ein besonders wichtiges Merkmal einer Seite bewertet wird. Meta-Tags Auch wenn die Bedeutung der Meta-Tags zurückgegangen ist, sollte man sich trotzdem nicht die Chance entgehen lassen, diese mit den richtigen Inhalten zu füllen und so das Ranking zu beeinflussen. Eine besondere Rolle nimmt dabei der Description-Tag (<meta name=“description” content=“Beschreibung der Seite”>) ein, da sein Inhalt in manchen SERP zur Beschreibung der gefundenen Seiten ausgegeben wird. Eine gute Seitenbeschreibung kann zu mehr Clickthroughs und somit auf die Dauer zu einer Verbesserung des Rankings auf Basis der Clickthrough-Berechnungen führen. Der Description-Tag sollte mit einem oder zwei kurzen Sätzen gefüllt werden, welche die Seiteninhalte möglichst prägnant beschreiben. Dabei ist zu beachten, dass der Text nicht zu lang wird, da einige Suchmaschinen nur eine begrenzte Anzahl Zeichen darstellen. 27 Handlungsempfehlungen für Betreiber von Websites Auch der Keyword-Tag (<meta name=“keywords” content=“Schlüsselwörter”>) hat nicht mehr die gleiche Bedeutung wie noch vor wenigen Jahren. Nichts desto trotz kann eine korrekte Benutzung des Tags mit Schlüsselwörtern die Bewertung einer Seite positiv beeinflussen. Dabei sollte darauf geachtet werden, nur Schlüsselwörter zu verwenden, die in direktem Zusammenhang mit dem Seiteninhalt stehen. Die Begriffe (das können auch Phrasen sein) werden in eine durch Kommata (ohne Lehrzeichen) getrennte Liste innerhalb des Meta-Tags geschrieben. Neben den Description- und Keyword-Tags gibt es noch eine Vielzahl weiterer Tags, wie z. B. author, publisher, copyright zur Beschreibung des Autors, des Herausgebers oder des Copyrightbesitzers einer Internetseite (eine Ausführliche Beschreibung findet sich unter http://selfhtml.tea- mone.de/html/kopfdaten/meta.htm ). Der manuelle Aufwand zur Erstellung von Meta-Tags kann reduziert werden, in dem man einen Tag-Generator einsetzt. Solche kostenlosen Hilfsmittel finden sich bei vielen Anbietern im Internet, z. B. unter www.metatag-generator.de , und sie erleichtern die korrekte Erstellung der Tags. Probleme bei der Seitengestaltung Bei der Erstellung der Internetseiten muss man neben der korrekten Seitengestaltung auf einige Restriktionen Rücksicht nehmen, denen die Webroboter unterworfen sind. Geschieht dies nicht, so kann es im schlimmsten Fall dazu kommen, dass das Internetangebot nicht indiziert werden kann. Ein Problem ist der Einsatz von Frames. Das <NOFRAMES>-Tag ist eigentlich dazu gedacht, Browsern, die keine Frames darstellen können (z. B. auf PDAs oder Mobiltelefonen), eine alternative Startseite anzubieten. Diese könnte auch als Grundlage der Indizierung durch einen Webroboter gelten. Allerdings ist das <NOFRAMES>-Tag in der Vergangenheit extensiv zum Spamming (vgl. Abschnitt 5.5) genutzt worden, so dass es inzwischen von den meisten Suchmaschinen nur noch mit äußerst geringer Priorität behandelt wird. Da die meisten Gestaltungsmöglichkeiten, die Frames bieten, inzwischen ähnlich oder sogar besser mit Hilfe anderer HTML-Konstrukte realisiert werden können, ist von der Verwendung von Frames abzuraten, wenn es auf eine gute Suchmaschinentauglichkeit des Angebots ankommt. 28 www.hessen-it.de Ein weiteres Problem ist die Verwendung von dynamischen Inhalten. Dabei werden die Internetseiten nicht in statischen HTML-Dateien gespeichert, sondern die Inhalte werden erst während des Aufrufs der Seite aus einer Datenbank gelesen und an den Webbrowser übermittelt. Dadurch erhöht sich die Zahl der Seiten, aus denen ein Internetangebot besteht, was dazu führt, dass viele Suchmaschinen dynamische Seiten ignorieren. Daher sollte wenigstens auf der Startseite auf den Einsatz von dynamischen Inhalten weitestgehend verzichtet werden (einzelne dynamische Elemente in einer Seite, die nur am Rande mit der Beschreibung des Angebots zu tun haben, schaden aber nicht, wie z. B. die dynamische Einblendung aktueller Nachrichten). Manche Content-Management-Systeme (CMS) bieten darüber hinaus die Möglichkeit, selektiv Inhalte in statische HTML-Seiten für die Indizierung durch Suchmaschinen zu exportieren. Ein ähnlicher Effekt kann erzielt werden, wenn das CMS die Möglichkeit bietet, die URLs dynamisch generierter Seiten wie die statischer erscheinen zu lassen. Hier sollte jedoch vorsichtig vorgegangen werden, um die Crawler der Suchmaschinen nicht durch zu viele bzw. zu tief verästelte Seiten zu einem Abbruch der Indizierung zu veranlassen. Abschnitt 5.3 zeigt, wie Crawler von dynamisch generierten Bereichen eines Angebots ferngehalten werden können. Größere Schwierigkeiten hat man, wenn die Startseite erst nach einer Registrierung mit einem Passwort zu erreichen ist. Dadurch sperrt man nicht nur unerwünschte Besucher aus, sondern auch die Crawler. Es empfiehlt sich also, nicht direkt auf der Startseite nach einem Passwort zu fragen, sondern erst beim Wechsel auf untergeordnete Themen. Ähnliches gilt für die Verwendung multimedialer Elemente wie Flash, Shockwave oder Streaming Video. Noch immer finden sich viele Sites, deren Startseite aus einem Eröffnungsvideo besteht. Dies stört nicht nur regelmäßige Besucher, welche die Animation zum wiederholten Male sehen müssen, sondern auch die Webcrawler, die nicht in der Lage sind, multimediale Inhalte zu indizieren. Selbst, wenn ein „Begrüßung überspringen“-Link im HTML-Code der Startseite existiert, dem Crawler folgen können, erscheinen durch die vorgeschaltete Seite alle weiteren Inhalte, also insbesondere die eigentliche Homepage des Angebots, eine Ebene tiefer und werden deshalb beim Ranking vieler Suchmaschinen geringer gewichtet. Bei 29 Handlungsempfehlungen für Betreiber von Websites der Verwendung von Bildern ist darauf zu achten, dass der <ALT>-Tag ausgefüllt ist. Dieser beinhaltet eigentlich den Text, der im Browser angezeigt wird, wenn das Bild nicht geladen werden kann (ALT kommt von Alternative). Die Crawler verwenden ihn aber für zwei Zwecke: Einerseits dient er als Beschreibung des Bildinhalts und somit als Grundlage zur Indizierung des Bildes, andererseits dient er zur Beschreibung des Links, dem beim Klicken auf das Bild gefolgt wird. Ein weiteres Problem ist die Verwendung von JavaScript oder anderen Skriptsprachen. Mit diesen können sehr nützliche Effekte auf einer Site erzeugt werden. Man sollte allerdings vermeiden, sie zur Navigation einzusetzen. Bei den so genannten JavaScript-Links wird ein Link nicht durch das Tag <A HREF...> gekennzeichnet, sondern durch eine JavaScript-Funktion, die aber von vielen Crawlern nicht interpretiert werden kann. Dadurch werden untergeordnete Seiten des Internetangebots nicht gefunden, wodurch eine vollständige Indizierung verhindert wird. Abschließend sei noch auf die Verwendung spezieller Dateitypen wie PDF (Portable Document Format) oder PS (Postscript) eingegangen. Diese Formate haben sich durchgesetzt, um Dokumente im ursprünglichen Layout im Internet zu publizieren. So bietet es sich an, z. B. Geschäftsberichte zum Download in einem dieser Formate anzubieten. Einige Suchmaschinen sind in der Lage, solche Dokumente zu indizieren. Möchte man sicherstellen, dass der Dokumentinhalt auch bei einer Indizierung durch andere Suchmaschinen nicht übergangen wird, so empfiehlt es sich aber, eine kurze Inhaltsangabe der Dokumente im HTML-Format zu verfassen und aus dieser heraus mit einem Link auf das PDF- oder PS-Dokument zu verweisen. Einen Eindruck, wie die Crawler der Suchmaschinen mit dem eigenen Angebot zurecht kommen, kann man sich bei Seekport verschaffen. Seekports Crawler Seekbot (www.seekport.de/seekbot ) kann probehalber das eigene Angebot besuchen und gibt anschließend eine Auswertung über dessen Suchmaschinentauglichkeit aus. 30 www.hessen-it.de Gateway-Seiten Gateway-Seiten (oder Doorway-Seiten) galten eine lange Zeit als das Hauptmittel zur Erlangung einer guten Position in den Suchmaschinenrankings. Unter einer Gateway-Seite versteht man eine Seite des eigenen Internetangebots, die sich nur mit einem speziellen Schlüsselwort oder einer Phrase befasst. Diese Seite wird als eigenständiges Internetangebot bei den Suchmaschinen angemeldet und soll so den Eindruck erwecken, dass sich das gesamte Angebot nur mit diesem Thema befasst. Man erstellt also für jedes Themengebiet der Site eine eigene Startseite. Diese Seiten hatten so gut wie keinen Inhalt – sie bestanden häufig aus den Schlüsselwörtern und einem Link zur eigentlichen Startseite. Zur Erstellung der Seiten wurde Software eingesetzt, die zu einer Vielzahl von Schlüsselwörtern solche Einstiegsseiten generierte und bei den Suchmaschinen anmeldete. Die Betreiber der Suchmaschinen erkannten diesen Missbrauch und entwickelten Verfahren, solche informationsarmen Seiten aus ihrem Datenbestand zu entfernen. Die heutige Funktion von Gateway-Seiten ist eine andere. Webroboter haben Schwierigkeiten, Internetangebote zu indizieren, die viele grafische Elemente enthalten oder über ein komplexes Seitenlayout verfügen. Auf ein gutes Webdesign zu verzichten, kann aber nicht die Antwort auf diese Schwierigkeiten sein; viele Angebote animieren z. B. ihre Startseite mit Flashsequenzen. Zur Lösung des Problems bieten sich nun Gateway-Seiten an: Man erstellt nun nicht mehr für jedes Schlüsselwort eine eigene Seite, sondern für verschiedene Gruppen von Suchmaschinen. Je nach den Fähigkeiten der Roboter werden Internetseiten erstellt, die das Webangebot beschreiben und sozusagen als alternative Startseite dienen. Bei den Suchmaschinen wird dann zusätzlich zur eigentlichen Startseite diese speziell erstellte Gateway-Seite angemeldet, wodurch die Webroboter die Site problemlos indizieren können. 31 Handlungsempfehlungen für Betreiber von Websites 5.2 Anmeldung bei Suchmaschinen und Katalogen Nachdem das eigene Webangebot den Anforderungen der Webcrawler angepasst wurde, kann die Anmeldung bei den verschiedenen Suchmaschinen und Katalogen vorgenommen werden. Wichtig ist, dass die Anmeldung erst nach der Optimierung der Site erfolgt, da ansonsten der erste Besuch eines Webcrawlers oder schlimmer noch, eines menschlichen Begutachters, ins Leere läuft und somit für längere Zeit die Chance vertan ist, einen guten Platz im Ranking zu erlangen. Am einfachsten ist die Anmeldung bei Suchmaschinen. Durch die automatische Indizierung mithilfe eines Webroboters müssen meist keine weiteren Informationen über das Internetangebot eingegeben werden, so dass lediglich die Eintragung der Internetadresse und evtl. der E-MailAdresse eines Ansprechpartners in ein Formular vorgenommen werden muss. Google erlaubt zudem die Eingabe inhaltlicher Stichwörter zur anzumeldenden Website, die aber keinen Einfluss auf das Ranking in den SERP haben sollen. MSN sichert die neue Version seiner Suchmaschine gegen automatisierte Anmeldungen, indem der Benutzer eine Zeichenkombination eingeben muss, die wie in Abbildung 8 auf dem Bildschirm angezeigt wird und für automatische Texterkennungsprogramme nicht zu entziffern ist. Abbildung 8: Missbrauchsschutz bei der MSN-Suchmaschine 32 www.hessen-it.de Bei Yahoo und den mittlerweile zur Yahoo-Gruppe gehörenden Suchmaschinen wie Altavista setzt eine kostenlose Anmeldung ein (ebenfalls kostenloses) Yahoo-Benutzerkonto voraus. Manche Suchmaschinen erlauben inzwischen keine kostenlose Anmeldung mehr, hier wird man auf die Paid Inclusion-Angebote von Anbietern Overture verwiesen. Von Drittanbietern, die gegen Geld Eintragungen bei einer großen Zahl von Suchmaschinen versprechen, ist abzuraten. Zum einen ist es bei der Dominanz der wenigen großen Suchdienste zweifelhaft, ob die Eintragung in kleinere Suchmaschinen einen nennenswerten Zusatznutzen bietet, zum anderen gibt es keine Möglichkeit, zu kontrollieren, ob der Anbieter seine Versprechen wirklich erfüllt, da die Suchmaschinen, außer bei Paid Inclusion, keine Garantien geben, dass angemeldete Sites auch wirklich in den Index aufgenommen werden. Nachdem die Anmeldung erfolgt ist, werden die Crawler der Suchmaschinenbetreiber die angemeldete Internetseite nach einiger Zeit besuchen und indizieren. Wie auf den Weg, den die Crawler auf einer Website gehen, Einfluss genommen werden kann, wird in Abschnitt 5.3 erläutert. Etwas komplizierter gestaltet sich die Anmeldung bei Katalogen. Die Vorgehensweise einer solchen Anmeldung ist bei den meisten Katalogen ähnlich. Wegen dessen großer Bedeutung als Datenlieferant für wichtige Suchmaschinen soll diese am Beispiel des ODP (www.dmoz.de ) erläutert werden. Zunächst muss die Kategorie im Katalog gesucht werden, zu der das eigene Internetangebot am besten passt (am Beispiel eines deutschen Online-Blumenladens würde dies bedeuten: World > Deutsch > Online-Shops > Blumen). Wenn man die Kategorie mit dem Browser geöffnet hat, findet sich am oberen Rand der Seite ein Link, mittels dessen man eine URL zur Aufnahme in den Katalog vorschlagen kann. Die eigentliche Anmeldung erfolgt durch die Beantwortung einer Reihe von Fragen. Zunächst soll die URL des Internetangebots eingetragen werden. Neben URLs, die auf normale Websites verweisen, können hier auch Verweise auf PDF-Dokumente oder auf Nachrichtenkanäle, eine Möglichkeit zur Verbreitung aktueller Informationen an Internetnutzer, angegeben werden. Als nächstes ist der Titel einzugeben, unter dem das Angebot im Verzeichnis erscheinen soll. Dieser sollte relativ kurz sein, bei einer Firmen33 Handlungsempfehlungen für Betreiber von Websites präsentation den Firmennamen enthalten und einen Bezug zum Inhalt der Website haben. Nun hat man noch die Möglichkeit einen möglichst prägnanten (nicht mehr als 25 bis 30 Wörter zählenden) Kommentar einzugeben. Dieser soll keine Werbefloskeln enthalten, sondern den tatsächlichen Inhalt des Internetangebots beschreiben, was auch von den Redakteuren geprüft wird. Schließlich ist noch eine E-Mail-Adresse für Rückfragen anzugeben. Bei anderen Katalogen, z. B. Web.de und Yahoo, ist die Angabe einiger weiterer Informationen möglich, insbesondere können eine Postleitzahl und ein Ort angegeben werden, unter dem das Angebot bei einer ortsbezogenen Suche erscheinen soll sowie teilweise weitere Kategorien, in denen der Eintrag ebenfalls erscheinen soll. Während Einträge beim ODP grundsätzlich kostenlos sind und stets im gleichen Format erscheinen, können bei den kommerziellen Verzeichnissen unterschiedliche Formate für einen Eintrag gewählt werden, wobei ein Minimaleintrag kostenlos ist, mit steigenden Umfang jedoch höhere Preise fällig werden. 5.3 Einflussnahme auf Crawler Als Betreiber einer Website hat man verschiedene Möglichkeiten, Crawler beim Besuch der eigenen Seiten zu steuern. Dieses Vorgehen kann z. B. dann sinnvoll sein, wenn ein Unternehmen eine Liste aller Mitarbeiter auf der eigenen Homepage anbietet, aber verhindern möchte, dass die Mitarbeiter auch über eine Suchmaschine gefunden werden können. Dazu muss die Indizierung der Mitarbeiterliste verhindert werden. Eine Möglichkeit den Besuch von Webrobotern auf der gesamten Site zu beeinflussen, ist die Datei robots.txt. In ihr wird festgehalten, welche Unterverzeichnisse und Dateien des Internetangebots indiziert werden dürfen und welche nicht. Robots.txt besteht aus einzelnen Blöcken der folgenden Struktur: 34 www.hessen-it.de User-agent: Roboter_1 User-agent: Roboter_2 Disallow: /mitarbeiter/ Allow: /mitarbeiter/geschaeftsleitung/ Ein Block besteht aus den drei Befehlen User-agent, Disallow und / oder Allow gefolgt von einem Doppelpunkt und einem Leerzeichen. Die Anzahl der Zeilen pro Block ist nach oben unbegrenzt, er muss jedoch mindestens eine User-agent-Zeile sowie eine Disallow- oder Allow-Zeile enthalten. Jeder Block beginnt mit der Angabe User-agent. In ihr wird der Name des Crawlers genannt, auf den sich der Steuerungsblock beziehen soll. Man kann für jeden Block weitere Crawler-Namen eingeben, indem in den nächsten Zeilen weitere Einträge der gleichen Form vorgenommen werden. Die Steuerung einzelner Crawler setzt aber voraus, dass man deren Bezeichnungen kennt, was leider häufig nicht der Fall ist. Zu diesem Zweck kann man anstelle eines Namens auch ein * setzen, womit der Block dann alle die Seite besuchenden Roboter betrifft: User-agent: * Disallow: /mitarbeiter/ Allow: /mitarbeiter/geschaeftsleitung/ Wird in einem Block ein * verwendet, darf in diesem keine weitere Useragent-Zeile mehr folgen. Der Befehl Disallow gibt die Namen der Dateien und Unterverzeichnisse an, die der unter User-agent genannte Crawler nicht indizieren soll. Im Beispiel bedeutet dies, dass alle Dateien im Unterverzeichnis Mitarbeiter nicht indiziert werden sollen. Mit dem Befehl Allow kann diese Einschränkung aber abgeschwächt werden. Sollen z. B. die Mitarbeiter der Geschäftsleitung über eine Suchmaschine gefunden werden können und sind deren Mitarbeiterseiten in einem eigenen Unterverzeichnis abgelegt, so kann mit dem im Beispiel gezeigten Allow-Befehl die Indizierung des Unterverzeichnisses /mitarbeiter/geschaeftsleitung/ erlaubt werden. 35 Handlungsempfehlungen für Betreiber von Websites Die Datei robots.txt muss im Stammverzeichnis des Webservers liegen (das Stammverzeichnis ist dasjenige, indem auch die Startdatei, meistens index.html, des Internetangebots liegt). Dabei ist zu beachten, dass der Dateiname in Kleinbuchstaben geschrieben wird und dass es sich um eine reine Textdatei handelt, die außer den beschriebenen Inhalten keine Steuerzeichen aus Textverarbeitungsprogrammen enthalten darf. Um die Indizierung einzelner Seiten individuell zu beeinflussen, stehen verschiedene Meta-Tags zur Verfügung, die im Kopf des HTML-Codes eingefügt werden können. <meta name=”robots” content=”noindex”> bzw. <meta name=”robots” content=”index”> verbietet bzw. erlaubt allen Crawlern die Internetseite zu indizieren. Der Tag entspricht also der Disallowbzw. Allow-Anweisung in der Datei robots.txt, bezieht sich allerdings nur auf die aktuelle Seite. Weiterhin stehen die Tags <meta name=“robots“ content=“nofollow“> und <meta name=“robots“ content=“follow“> zur Verfügung. Diese beeinflussen die Verarbeitungsweise von ausgehenden Links der aktuellen Seite. Wird der Tag für nofollow gesetzt, dann wird den Webrobotern verboten, den Links der Seite zu folgen. Dadurch werden nachgeordnete Seiten, die über keinen anderen Weg zugänglich sind, von der Indizierung ausgeschlossen, ohne dass in ihnen explizit eine noindex-Anweisung gesetzt werden muss, da die Webroboter diese Seiten nicht finden können. Im Gegensatz dazu wird durch das Setzen des Tags follow explizit erlaubt, den ausgehenden Links zu folgen und die nachfolgenden Seiten zu indizieren (enthalten diese dann weitere Anweisungen müssen sie natürlich von den Crawlern beachtet werden). Zuletzt sei noch der Tag <meta name=“revisit-after“ content=“10 days“> erwähnt. Dieser Tag ist lediglich eine Bitte an die Webcrawler, nach einigen Tagen (hier im Beispiel 10) die Seite erneut zu besuchen und zu indizieren. Eine weitere Möglichkeit, den Weg eines Roboters im eigenen Internetangebot zu beeinflussen, ist der Aufbau einer so genannten Sitemap. Eine Sitemap ist eine einzelne HTML-Seite, die eine grobe Übersicht über die wichtigen Seiten des eigenen Internetangebots gibt. Dazu werden kurze Beschreibungen der einzelnen Teilbereiche verfasst und auf deren Startseiten mit Links verwiesen. Ein offensichtlicher Nutzen davon ist, dass sich Besucher auf der Site schnell zurechtfinden können. Ein nützlicher Nebeneffekt ist aber die Beeinflussung der Webroboter. Wird eine Sitemap so 36 www.hessen-it.de angeordnet, dass sie von der Startseite direkt zu erreichen ist, dann kann sie dazu beitragen, dass alle wichtigen Seiten vollständig indiziert werden. Dies ist insbesondere dann hilfreich, wenn ein Webcrawler nur Seiten bis zu einer bestimmten Tiefe indiziert (vgl. Abschnitt 3.1). Dazu sollte die Sitemap auf der zweiten Ebene des Internetangebots zu errei-chen sein, d. h. sie ist mit einem Klick von der Startseite aus zu erreichen. Alle Bereiche, auf die von dort verwiesen wird, erscheinen für Webroboter nun so, als würden sie zur dritten Ebene gehören. Dadurch können auch Seiten in weitverzweigten Netzstrukturen von allen Robotern indiziert werden. 5.4 Weitere Verfahren zur Bekanntmachung von Websites Neben den allgemeinen Suchmaschinen und Katalogen gibt es noch zwei weitere Möglichkeiten, das eigene Internetangebot über Verweise von anderen Sites bekannt zu machen, die im Folgenden kurz beschrieben werden sollen. Portale für Spezialthemen Als Portal bezeichnet man eine Internetseite, die versucht, für möglichst viele Benutzer der Startpunkt für die Nutzung des Internets zu sein, um dadurch hohe Benutzerzahlen und entsprechende Einnahmen aus Online-Werbung zu generieren. Zu diesen gehören die Seiten von Yahoo und Web.de, von Browserherstellern, wie Netscape und Microsoft (MSN), oder Internet Service Providern, wie T-Online oder AOL, die alle eine ähnliche Mischung von Inhalten und Diensten bieten, die von aktuellen Nachrichten über Mail-Dienste bis zu den bereits erwähnten Katalogen und Suchmaschinen reicht. Daneben existieren so genannte Nischenportale, die versuchen, ein Einstiegspunkt für Nutzer zu sein, die an einem bestimmten Spezialthema interessiert sind. Auf Finanzportalen finden sich Informationen über Börsenkurse, Wirtschaftsnachrichten und Anlagetipps, während man sich in einem Gartenportal über die neuesten Düngemittel informieren kann. Es gibt sowohl Nischenportale, die aus kommerziellen Motiven betrieben werden, als auch solche, die von Idealisten eingerichtet und gepflegt werden, häufig aber auch themenbezogene Reklame einbinden, um damit die laufenden Kosten des Webangebots zu decken. Die meisten Portale beinhalten einen Katalog von Internetseiten, die sich 37 Handlungsempfehlungen für Betreiber von Websites mit dem Oberthema des Portals beschäftigen. Einige bieten sogar eine eigene Suchmaschine an und bieten die Möglichkeit, Mitglied einer Interessengemeinschaft, einer so genannten Community, zu werden. Es ist also ratsam, das eigene Angebot in die Verzeichnisse und Suchmaschinen der Portale aufnehmen zu lassen, die sich mit dem gleichen Themengebiet wie die eigene Website befassen. Da die Besucher von Portalen ein grundsätzliches Interesse an diesem Thema haben, ist die Wahrscheinlichkeit sehr hoch, dass sie im Portal verlinkte Internetangebote besuchen und bei entsprechender Qualität auch wiederkommen. Die Anmeldung bzw. Indizierung erfolgt häufig manuell und, je nach Größe des Portals, nach weniger strengen Kriterien als z. B. beim ODP. Größere Portale können aber auch eigene Webcrawler besitzen, die sie zur Erfassung interessanter Seiten einsetzen. Ein sehr nützlicher Effekt der Anmeldung bei Portalen ist die Erhöhung der Link-Popularität. Links von qualitativ hochwertigen Portalen werden von den Suchmaschinenbetreibern höher bewertet, als solche von normalen Internetseiten. So kann man durch die Platzierung eines Links auf das eigene Angebot in einem Portal sowohl direkt Besucher ansprechen, als auch, über den Umweg einer besseren Suchmaschinenpositionierung, neue Besucher gewinnen. Webringe Ein Webring ist ein loser Zusammenschluss von Internetsites unterschiedlicher Anbieter, die sich mit einem gemeinsamen Themengebiet befassen. Auf den Startseiten der Internetangebote sind Links angebracht, die zu den Seiten von zwei weiteren Ringmitgliedern führen, die als Vorgänger und Nachfolger bezeichnet werden. Betrachtet man beispielsweise vier Internetangebote, die mit A, B, C und D bezeichnet werden, dann besitzt das Angebot A je einen Link zu den Sites B (Nachfolger) und D (Vorgänger). Angebot B verlinkt zu dem Nachfolger C und dem Vorgänger A usw. Abbildung 9 verdeutlicht die Struktur eines Webrings. 38 www.hessen-it.de Durch die Art und Weise der Verlinkung wird eine kreisförmige Struktur erzeugt, in der die Bezeichnung Webring begründet ist. Ein Webring bietet damit die Möglichkeit, mehrere interessante Seiten zu einem Thema zu besuchen, ohne eine Suchmaschine oder einen Katalog zu benutzen. Durch die kreisförmige Struktur wird vermieden, dass man immer wieder zu einer Übersichtsseite zurückspringen muss, um die Adresse des nächsten interessanten Angebots zu erfahren. Stattdessen folgt man einfach dem Link zur Nachfolgerseite. Gelangt man wieder auf der Seite an, auf der man die Suche begonnen hat, so hat man alle Seiten des Webrings besucht. Da es natürlich sehr mühsam wäre, die Vorgänger- und Nachfolgerlinks der teilnehmenden Seiten manuell zu pflegen (z. B. bei Abmeldung eines Teilnehmers oder Ausfall eines Servers) gibt es Anbieter, die die Verwaltung der Webringe automatisieren (z. B. www.webring.org, www.webring.de). Die Betreiber der teilnehmenden Internetsites tragen dann keine statischen Links zu den Nachbarseiten ein, sondern verweisen auf ein CGISkript des Ringanbieters, das die korrekte Verlinkung vornimmt. Die Ringanbieter stellen auch gleichzeitig einen Katalog zur Verfügung, in dem die teilnehmenden Webringe thematisch gegliedert aufgelistet sind. A Nachfolger B Vorgänger Nachfolger Vorgänger Nachfolger Vorgänger Nachfolger D C Vorgänger Abbildung 9: Struktur eines Webrings 39 Handlungsempfehlungen für Betreiber von Websites 5.5 Spamming von Suchmaschinen Die bisher genannten Empfehlungen dienten dazu, das Ranking der eigenen Seiten in den Ergebnislisten von Suchmaschinen zu verbessern. Neben diesen kursieren im Internet aber immer wieder angebliche Geheimtipps oder Tricks, die zu einem besseren Ranking führen sollen. Der einzige Effekt, den diese Vorgehensweisen häufig haben, ist, dass die eigene Seite in die Sperrliste einer Suchmaschine aufgenommen und von der Indizierung ausgeschlossen wird. Man vereinigt diese „Techniken“ unter dem Oberbegriff des Spamming von Suchmaschinen. Alle SpamVersuche haben gemeinsam, dass sie die Unzulänglichkeiten früherer Ranking-Algorithmen auszunutzen versuchen, um bei der Indizierung besser abzuschneiden. Mit der fortschreitenden Entwicklung der Algorithmen fanden sich aber Möglichkeiten, um diese Versuche zu erkennen und die entsprechenden Seiten auf Sperrlisten zu setzen. Nachfolgend sollen die häufigsten Spam-Techniken vorgestellt werden, um absichtliche oder versehentliche Manipulationen zu vermeiden. Unsichtbarer oder sehr kleiner Text Eine beliebte Vorgehensweise, um zusätzliche Schlüsselwörter auf einer Internetseite anzubringen, die von einem normalen Besucher nicht wahrgenommen werden, ist die Verwendung von unsichtbaren oder sehr klein geschriebenen Texten. Unsichtbare Textstellen erzeugt man, indem der Text in der gleichen oder in einer sehr ähnlichen Farbe wie der Hintergrund verfasst wird. Verstecken von Keywords in Meta-Tags oder Kommentarzeilen Immer wieder empfohlen wird das Unterbringen von Schlüsselwörtern in Meta-Tags, Kommentarzeilen oder anderen im Browser nicht sichtbaren HTML-Elementen, mit dem Ziel, sie einem Webcrawler mitzuteilen, aber vor menschlichen Besuchern versteckt zu halten. Außerhalb des KeywordTag sollte dies aber vermieden werden, da einige Webcrawler dies als Spam-Versuch werten. 40 www.hessen-it.de Keyword Stuffing Unsichtbare Textstellen werden häufig zusammen mit dem so genannten keyword stuffing verwendet. Dabei werden die für die Site ausgewählten Schlüsselwörter vielfach wiederholt, in der Hoffnung, dadurch für diese Schlüsselwörter ein besseres Ranking zu erhalten. Durch Häufigkeitsmessungen von Wörtern und Berechnung der relativen Worthäufigkeiten (Anzahl Nennungen eines Worts im Verhältnis zu der gesamten Anzahl von Wörtern auf einer Seite) können Webcrawler diese Versuche aber leicht erkennen. Missbrauch von Schlüsselwörtern Es gibt eine Vielzahl von Schlüsselwörtern, die sehr häufig bei Suchmaschinen nachgefragt werden. Ein nahe liegendes Verfahren, um viele Besucher anzulocken, scheint die Verwendung solcher Schlüsselwörter im Keyword-Tag der eigenen Seite oder bei der Kataloganmeldung zu sein, auch wenn diese nichts mit dem tatsächlichen Seiteninhalt zu tun haben. Selbst wenn diese Vorgehensweise bei der Indizierung der Site nicht auffällt, was bei den bekannten Suchmaschinen so gut wie ausgeschlossen ist, werden auf jeden Fall die derart angelockten Besucher nicht sehr lange auf der Site verweilen, da sie die gewünschten Informationen nicht finden können. Meta-Refresh oder Redirecting Der Meta-Tag <meta http-equiv=“refresh“ content=“3; URL=http://...“> veranlasst den Webbrowser des Besuchers, nach einer gewissen Zeit (im Beispiel drei Sekunden) die unter URL genannte Seite zu öffnen. Dieses Vorgehen ist z. B. im Falle einer Domain-Weiterleitung angebracht. Hat sich der Name der eigenen Domain geändert, aber noch nicht alle Besucher sind darüber informiert worden, wie die neue Adresse lautet, so ist eine automatische Weiterleitung auf die neue Adresse sehr hilfreich. Auch beim Einsatz von so genannten Splash-Seiten oder Begrüßungsseiten ist eine automatische Weiterleitung nützlich. Nicht zuletzt kann man auch eine Art Dia-Show von verschiedenen Internetseiten mit dem MetaRefresh-Befehl erzeugen. Leider wird die Möglichkeit der Weiterleitung häufig von Spammern benutzt, um Doorway-Seiten bei Suchmaschinen 41 Handlungsempfehlungen für Betreiber von Websites anzumelden, menschliche Besucher aber auf die tatsächliche Startseite umzulenken. Die meisten Webcrawler sind deshalb dazu übergegangen, HTML-Seiten, die einen Meta-Refresh-Befehl enthalten, der für einen menschlichen Besucher eine offensichtlich zu kurze Verweildauer beinhaltet, zu ignorieren. Bestenfalls wird die unter URL angegebene Seite trotzdem indiziert. Schlimmstenfalls wird allerdings das gesamte Angebot ignoriert. Im Falle von Splash-Seiten oder Dia-Shows ist die Verwendung also unkritisch, wenn die Verweilzeit entsprechend hoch eingestellt ist. Bei der Domain-Umleitung empfiehlt sich ein serverseitiges Vorgehen. Dabei wird die Umleitung nicht über einen Redirect-Befehl in einer HTML-Seite, sondern über einen Befehl in der Internetserver-Software realisiert. Anmelden gleicher oder ähnlicher Seiten Eine weitere nicht zielführende Vorgehensweise ist das mehrfache Anmelden einer Internetseite. Dazu werden von der ursprünglichen Datei Kopien angefertigt, die, minimal verändert und mit unterschiedlichen Namen versehen, einzeln bei den Suchmaschinen angemeldet werden. Damit soll die möglichst häufige Anzeige eines Internetangebots in den SERP erreicht werden. Durch einfache Verfahren, z. B. durch die Bildung von Prüfsummen, können aber solche Dubletten erkannt und die Betreiber der Seiten als Spammer identifiziert werden. Austausch der Seiten nach erfolgter Indizierung Hat man durch eine suchmaschinengerechte Seitengestaltung eine gute Position in den SERP zu bestimmten Schlüsselwörtern erhalten, sollte man nicht den Versuch unternehmen, diese Seite durch eine andere zu ersetzen, die eher benutzerorientiert gestaltet ist. Man könnte auch auf die Idee kommen, unter der Adresse einer Seite mit einem guten Ranking ein Angebot mit anderem Inhalt zu veröffentlichen. Da aber die verschiedenen Webcrawler indizierte Seiten in unregelmäßigen Abständen überprüfen, würde, nachdem die Änderungen registriert wurden, das Ranking sofort verändert und die gute Position wäre verloren. 42 www.hessen-it.de Wiederholtes Anmelden eines Internetangebots Wie beschrieben wird ein Internetangebot einige Zeit nach der Anmeldung bei Suchmaschinen von Webcrawlern besucht und indiziert. Dieser Zeitraum kann durch wiederholtes Anmelden nicht verkürzt werden. Es sollte auch vermieden werden, nach jeder Änderung von Internetseiten eine erneute Anmeldung bei den Suchmaschinen vorzunehmen. Zu häufiges Anmelden wird als Spam-Versuch gewertet, weshalb man sich an die in den Anmelderichtlinien der Suchmaschinen genannten Zeiträume halten sollte. Als Richtgröße empfiehlt es sich, einen Zeitraum von ca. einem Monat verstreichen zu lassen, bevor eine erneute Anmeldung vorgenommen wird. Link-Farmen Aufgrund eines falschen Verständnisses des Begriffs Linkpopularität haben unseriöse Anbieter ein neues „Geschäftsfeld“ entdeckt. Sie bieten ihren Kunden (meist gegen Bezahlung) an, Links auf unterschiedlichen Seiten einzurichten, die auf das Internetangebot des Kunden verweisen. Diese Link-Farmen sollen angeblich die Linkpopularität erhöhen. Wie erläutert ist allerdings die Qualität der Ausgangsseite und nicht nur die reine Anzahl von Links der entscheidende Faktor bei der Berechnung der Linkpopularität. Link-Farmen können von einem Webcrawler leicht erkannt werden, da sie außer den Links keinen oder nur sehr wenig zusätzlichen Inhalt bieten. Daher leisten Links von diesen Seiten bestenfalls keinen Beitrag zur Linkpopularität, da die Qualität der Seiten mit Null bewertet wird. Je nach Art und Weise der Berechnung kann aber auch eine negative Bewertung der Qualität erfolgen, wodurch sich die Linkpopularität sogar verschlechtern kann. 43 Zusätzliche Empfehlungen für Betreiber von Online-Shops 6 Zusätzliche Empfehlungen für Betreiber von Online-Shops 6.1 Zusammenarbeit mit Preisvergleichsmaschinen Um in den Ergebnissen einer Preisvergleichsmaschine zu erscheinen, müssen sich Online-Shops in der Regel dort anmelden und anschließend die benötigten Informationen übertragen. froogle filtert Preis- und Produktinformationen auch ohne das Zutun des Shop-Betreibers aus dem Bestand der von Google indizierten Webpages heraus. Auch dort bietet es sich aber für Shop-Betreiber an, aktiv Informationen zu liefern, da auf diese Weise deren Aktualität, z. B. bei Änderungen von Preisen oder im Sortiment, sicher gestellt werden kann. Außerdem werden nur Ergebnisse von angemeldeten Shops in die Sortierung nach dem Preis einbezogen, die für die Ergebnislisten von froogle möglich ist. Die Anmeldung zur Übertragung von Daten und die Listung von Produkten ist bei den Preisvergleichsdiensten in der Regel kostenlos. Kosten entstehen dem Shop-Betreiber erst, wenn tatsächlich Benutzer durch den Dienst auf den Online-Shop geleitet werden. Diese Clickthrough-Preise liegen z. B. bei preissuchmaschine.de zwischen 15 und 35 Eurocent pro Klick, je nach Produktkategorie. Einzelne Dienste, z. B. guenstiger.de, sind für den Händler vollständig kostenlos, garantieren aber, da nur der jeweils niedrigste Preis für ein spezifisches Produkt angezeigt wird, keine Listung. Eine Möglichkeit für Shop-Betreiber, in den Listings aufzutauchen und dennoch nicht direkt vergleichbar zu sein, besteht darin, mehrere komplementäre Produkte zu bündeln, z. B. indem eine Spielkonsole inklusive eines oder mehrerer Spiele angeboten wird. 44 www.hessen-it.de Anzumeldende Shops müssen bei den meisten Diensten bestimmten Richtlinien genügen, die auf deren Websites angegeben werden und regelmäßig überprüft werden. Verlangt wird oft, dass der Shop mindestens ein kundenfreundliches Zahlungsverfahren wie Nachnahme, Kreditkarte oder Rechnung anbietet; Shops, die nur gegen Vorkasse liefern, werden meist nicht aufgenommen. Weitere Bedingungen betreffen die Versandkosten, bei guenstiger.de dürfen diese z. B. für Kleingeräte 14 Euro, für Paletten 80 Euro nicht überschreiten. Manche Dienste lassen nur gewerbliche Händler zu. Die Übermittlung der Daten erfolgt meist als formatierte Textdatei, die mindestens die Spalten Produktbezeichnung, Produktbeschreibung und Preis enthalten muss. Je nach Dienst können weitere Felder erforderlich sein. Die Abbildung zeigt als Beispiel die für froogle erforderlichen Felder: Feldname Erklärung product_url URL der Produktbeschreibung im Online-Shop name Produktbezeichnung description Produktbeschreibung price Preis des Produkts image_url URL des Produktfotos im Online-Shop category Produktkategorie im Online-Shop offer_id Eindeutige Produktkennung, z. B. interne Bestellnummer Abbildung 10: Felder für die Datenübermittlung an froogle Außerdem können bei einigen Diensten spezifische Informationen zu einem bestimmten Produkttyp hinzugefügt werden, z. B. bei Büchern neben dem Titel Autor, Verlag, Erscheinungsjahr und ISBN-Nummer. Üblicherweise werden die einzelnen Felder durch ein Trennzeichen, z. B. ein Semikolon, getrennt und jede Zeile der Datei beschreibt ein Produkt. Dieses Format lässt sich z. B. aus üblichen Tabellenkalkulationsprogrammen exportieren. Sollen dauerhaft Angebote an einen bestimmten Preisvergleichsdienst gelistet werden, empfiehlt sich ein direkter Export aus der Datenbank des Online-Shop-Systems. 45 Zusätzliche Empfehlungen für Betreiber von Online-Shops Bei der Übermittlung der Dateien an die Preisvergleichsmaschine werden unterschiedliche Verfahren eingesetzt. Bei froogle ist z. B. jede Datei zunächst im Händlerbereich der Website anzumelden und anschließend per FTP (File Transfer Protocol) auf einen bestimmten Server zu übertragen. Für die Übermittlung an preissuchmaschine.de kann die jeweils aktuelle Datei auf dem Webserver des Onlineshops bereitgestellt werden, wo sie von dem Dienst bis zu achtmal täglich abgerufen wird; eine Übermittlung der Informationen per FTP oder E-Mail ist hier aber auch möglich. Da bei guenstiger.de alle Angebote vor der Listung von einer Redaktion überprüft werden, muss hier kein maschinenlesbares Format geliefert werden. 6.2 Anbieten auf Online-Marktplätzen Der bekannte Internet-Händler Amazon ermöglicht es mit seinem Marketplace genannten Programm, Angebote für Produkte einzustellen, die dann auf die gleiche Weise im Amazon-Shop erscheinen wie dessen eigene Angebote. Einzelne Angebote können kostenlos eingestellt werden. Eine Gebühr wird erst im Falle eines Verkaufs fällig. Soll eine größere Anzahl von Produkten gelistet werden, kann ein Power-Anbieter-Abonnement erworben werden, das gegen eine monatliche Gebühr niedrigere Verkaufsprovisionen sowie Unterstützung beim automatischen Einstellen von Angeboten beinhaltet. Amazon gestattet zwar generell keine Links zu externen Seiten, Hinweise auf einen eigenen Online-Shop sind aber zulässig. Das Internet-Auktionshaus ebay bietet inzwischen auch die Möglichkeit, neben den Auktionen Produkte zu festen Preisen anzubieten, wobei ein Angebot auch mehrere Exemplare umfassen kann. Für das Einstellen eines Angebots erhebt ebay eine Gebühr, zusätzlich fällt eine Provision für verkaufte Artikel an. Auktionen und Festpreisangebote lassen sich bei ebay in ein umfangreiches System von Kategorien einordnen. Auf die Auswahl der richtigen Kategorie sollte viel Überlegung verwendet werden, da die Angebote sonst von der anvisierten Zielgruppe möglicherweise nicht gefunden werden. Innerhalb einer Kategorie werden Angebote generell nach ihrem (bei ebay obligatorisch anzugebenden) Ablaufdatum sortiert, es besteht allerdings die Möglichkeit, Angebote durch Zahlung einer 46 www.hessen-it.de zusätzlichen Gebühr näher am Anfang der Liste zu einer bestimmten Kategorie oder gar auf der ebay Startseite zu platzieren. Die Kosten hierfür sind jedoch relativ hoch, so dass diese Maßnahme nur begrenzt sinnvoll sein dürfte, wenn nicht der Verkauf eines bestimmten Artikels, sondern die Bekanntmachung einer eigenen Website im Vordergrund steht. Auf der so genannten „Mich“-Seite eines Anbieters gestattet ebay explizit Links zu einem eigenen Online-Shop. 47 Website Promotion Tools und spezialisierte Dienstleister 7 Website Promotion Tools und spezialisierte Dienstleister Da die Optimierung einer Website auf eine gute Suchmaschinenposition hin ein zeitaufwendiges Vorhaben sein kann, wäre es sehr hilfreich, entsprechende Tools zur Verfügung zu haben, die diese Aufgabe erledigen. Leider gibt es keine Software, die alle beschriebenen Teilbereiche abdeckt. Allerdings bieten einige als Website Promotion Tools benannte Systeme nützliche Funktionen, um den Betreiber eines Internetangebots bei seiner Arbeit zu unterstützen. Noch mehr Zeit kann durch die Beauftragung eines spezialisierten Dienstleisters für Suchmaschinenoptimierung bzw. -marketing gespart werden. Ein seriöser Anbieter wird zudem bessere Ergebnisse liefern, als sie ein Laie, auch mit Hilfe eines Softwaretools, erreichen kann. Dem stehen aber auch erheblich höhere Kosten gegenüber und es ist keineswegs leicht, die Seriosität eines Anbieters einzuschätzen. 7.1 Promoter, Monitore und Optimierer Die Aufgaben, die von diesen Tools übernommen werden, kann man in die drei Teilbereiche Promotion, Monitoring und Optimierung aufgliedern. Unter Promotion versteht man die Anmeldung bei den verschiedenen Suchdiensten, auf die hier nicht weiter eingegangen werden soll, da in Abschnitt 5.2 schon auf die Probleme bei der Verwendung solcher Software hingewiesen wurde. Mit Monitoring wird die Überwachung eines Internetangebots (Messung der Zugriffszeiten oder Protokollierung von Serverausfällen) sowie die Überprüfung der Suchmaschinenrankings der eigenen Seite für bestimmte Schlüsselwörter bezeichnet. Der Aufgabenbereich der Optimierung umfasst die in diesem Leitfaden beschriebenen Schritte zur Erlangung eines besseren Rankings. 48 www.hessen-it.de 7.2 Mögliche Funktionen von Website Promotion Tools Browser-Kompatibilität und Syntaxüberprüfung Eine Grundfunktion, welche die meisten Tools besitzen, ist der Test der Browser-Kompatibilität. Dazu wird überprüft, ob eine Darstellung der Website in allen gängigen Browsern aber auch in älteren, immer noch weit verbreiteten, Browserversionen möglich ist. Mag dieser Punkt für ein Suchmaschinenranking nicht so wichtig sein, so ist doch eine korrekte HTML-Syntax von großem Interesse. Zu diesem Zweck versuchen die meisten Tools über einen HTML-Validator, die Korrektheit einer Site bzgl. der HTML-Spezifikation zu überprüfen und gegebenenfalls Verbesserungsvorschläge zu machen. Einige kostenlose HTML-Editoren bieten ebenso diese Funktion an, so dass die Anschaffung eines Website Promotion Tools allein zu diesem Zweck nicht notwendig ist. Meta-Tag- und Schlüsselwortgeneratoren Sehr hilfreich kann eine Unterstützung bei der Erzeugung von Meta-Tags sowie der korrekten Erstellung und Positionierung von Schlüsselwörtern sein. Die Bandbreite der am Markt erhältlichen Tools ist hier sehr groß. Im einfachsten Fall handelt es sich um reine Meta-Tag-Generatoren, wie sie auch kostenlos im Internet zur Verfügung stehen. Einige Systeme bieten aber auch die automatische Erzeugung von Schlüsselwörtern aufgrund bestehender Seiten an, aus denen der Betreiber der Site die für ihn geeigneten auswählt. Sehr nützlich ist auch die Darstellung der Site mit einem speziellen Browser, der die Verteilung vorher festgelegter Schlüsselwörter auf den einzelnen Seiten grafisch verdeutlicht. Ob die Anschaffung eines kommerziellen Tools für diesen Zweck sinnvoll ist, muss genau geprüft werden. Oftmals kann man mit kostenlosen Werkzeugen (siehe z. B. www.siteup.com/meta.html) gleichwertige oder bessere Ergebnisse erzielen. 49 Website Promotion Tools und spezialisierte Dienstleister Messung von Link-Popularität und Ranking-Analysen Im Bereich des Monitoring fallen die Messung der Link-Popularität und spezielle Ranking-Analysen an. Natürlich kann eine Software nicht die LinkPopularität einer Site bei einer Suchmaschine messen. Es ist aber möglich, durch automatisch generierte Abfragen bei verschiedenen Suchmaschinen festzustellen, wie viele und welche Seiten auf das eigene Angebot per Link verweisen. Komplexer sind die Möglichkeiten der Ranking-Analyse. Dazu wird dem System eine Liste von Schlüsselwörtern sowie eine Liste mehrerer URLs (z. B. der eigenen und der von Mitbewerbern) übergeben. Es wird nun eine Statistik erstellt, an welchen Positionen man bei verschiedenen Suchmaschinen steht, wenn die Schlüsselwörter enthaltende Abfragen an diese gestellt werden. Die eigene Position und die der anderen angegebenen Sites wird erfasst und in frei wählbaren Zeitabständen überprüft und aktualisiert. Dadurch erhält man eine gute Kontrolle über die Auswirkungen einer Siteoptimierung. Allerdings sind Website Promotion Tools mit dieser Funktionalität relativ teuer. Außerdem verbieten einige Suchmaschinen inzwischen die Nutzung solcher Tools explizit und betrachten sie als eine Verletzung der Nutzungsbestimmungen. Weitere Funktionen Weitere Funktionen können die Messung der Ladezeit einer Site, das Überprüfen der auf der Site enthaltenen Links auf Aktualität und die automatische Erstellung einer robots.txt Datei sein. Leider bieten einige der Tools auch Verfahren an, die von einigen Webcrawlern als Spam-Versuch gewertet werden. So finden sich Funktionen, um Schlüsselwörter in „Alt“-Angaben von Bildern (vgl. Abschnitt „Probleme bei der Seitengestaltung“, Seite 28) oder Meta-Tags zu verstecken oder solche um Doorway-Seiten, die nur aus Schlüsselwörtern bestehen, zu erzeugen und bei den Suchmaschinen anzumelden. Ein weiteres Problem ist, dass viele Website Promotion Tools Fehler machen (z. B. in der HTML-Syntax oder bei der Erstellung der robots.txt Datei), was eine manuelle Kontrolle erforderlich macht. Abschließend ist zu sagen, dass solche Tools sicherlich zur Arbeitsentlastung beitragen können, ihre alleinige Verwendung zur Optimierung eines Internetangebots aber nicht zu empfehlen ist. 50 www.hessen-it.de 7.3 Auswahl von Dienstleistern Die Auswahl eines Suchmaschinenoptimierers (SEO) sollte sehr sorgfältig vorgenommen werden. Die SEO stehen insgesamt nicht im besten Ruf, da sie für die in den Augen der Nutzer sinkende Qualität der Suchmaschinenergebnisse bzw. deren Überfrachtung mit unerwünschten Angeboten verantwortlich gemacht wird. Als Betreiber einer Website sollte man auf jeden Fall vermeiden, mit einem unseriösen Anbieter zusammen zu arbeiten, der sich aus dem in Abschnitt 5.5 aufgezeigten Repertoire der Spamming-Techniken bedient, da solche Praktiken letztlich immer auf den Auftraggeber bzw. seine Website zurückfallen. Einen ersten Eindruck von einem Dienstleister kann man sich auf dessen Website verschaffen. Diese sollte sorgfältig gestaltet sein, insbesondere auch, was die sprachlichen Aspekte betrifft, schließlich hat Suchmaschinenoptimierung grundlegend mit Sprache zu tun. Anbieter, die mit bestimmten Garantien („Top-Ten-Garantie“) werben, sind skeptisch zu beurteilen. Garantien hinsichtlich der Platzierung innerhalb von SERPs sind durch die ständige Überarbeitung der Algorithmen durch die Suchmaschinenbetreiber kaum dauerhaft zu halten, oft beziehen sich solche Garantien daher auf eine einmalige gute Platzierung in einer einzigen Suchmaschine, wobei dies nicht zwingend eine der wichtigen sein muss. Festpreise sind nur für standardisierte Leistungspakete zu halten, Suchmaschinenoptimierung sollte aber genau auf die individuellen Anforderungen der zu optimierenden Website abgestimmt sein. Veröffentlicht ein Anbieter eine Liste von Referenzkunden, sollte man darauf achten, dass es sich dabei nicht nur um beliebige Keyword-Domains handelt, die einzeln oder in Kombination beliebte Suchbegriffe enthalten, sondern dass auch Firmenkunden darunter sind, deren existierende Website optimiert wurde. 51 Website Promotion Tools und spezialisierte Dienstleister Tritt man nach einer Vorauswahl mit einzelnen Dienstleistern in Kontakt, sollte man nicht passiv deren Ausführungen über die Qualität der eigenen Maßnahmen folgen, was bei der Vielzahl der in diesem Bereich gängigen Fachausdrücke, von denen in diesem Leitfaden nur die wichtigsten (Keyword, SERP etc.) erwähnt werden können, ohnehin eher Verwirrung stiften dürfte. Besser ist es, vorher eine präzise Liste mit Fragen zu erarbeiten, die sich auf Arbeitsweise, Ziele, Referenzen, Preise und die verwendeten Methoden der Erfolgskontrolle beziehen sollten. Bei der Zusammenstellung einer solchen Liste kann man gleichzeitig die eigenen Anforderungen präziser fassen. Z. B. ist die Frage, ob man eine reine Optimierung der Website möchte, um in den Organic Listings der Suchmaschinen gut platziert zu sein, oder ob auch Suchmaschinenmarketing mit Hilfe von Pay-for-performance-Angeboten betrieben werden soll. 52 www.hessen-it.de 8 Erfolgskontrolle Die Optimierung einer Site ist kein einmaliges Vorhaben, sondern ein fortlaufender Prozess, bei dem regelmäßig ermittelt werden muss, welche Besucher das eigene Angebot besuchen und wie diese die Site gefunden haben. Ein erster Schritt zur Erfolgskontrolle besteht darin, regelmäßig die Position des eigenen Angebots in den SERPs zu testen, indem eine Suche nach den für die Optimierung ausgewählten Schlüsselwörtern durchgeführt wird. Software-Tools können hierbei helfen, wie oben bereits beschrieben, ihr Einsatz wird aber nicht von allen Suchmaschinen gut geheißen. Die vom Internetserver angelegten Log-Dateien liefern die notwendigen Informationen, um die zahlenmäßige Reaktion der Nutzer auf die in den SERPs enthaltenen Links auf die eigene Site zu verfolgen (ResponseQuantität). Die Aufgaben der Log-File-Analyse müssen nicht manuell vorgenommen werden. Stattdessen bieten die meisten Internetprovider vorgefertigte Analysen an. Eine andere Möglichkeit ist, die Logfiles an leistungsfähigere Analysetools zu übergeben und dadurch individuell angepasste Auswertungen zu erhalten. Über den so genannten Referrer-Eintrag kann man feststellen, von welcher Seite jeder einzelne Besucher gekommen ist, da in ihm die vollständige URL der vorher besuchten Seite erfasst wird. Das ermöglicht es zum einen, festzustellen, welche Anteile der Besucher von den einzelnen Suchmaschinen kommen und welche Anteile z. B. durch Pay-For-PerformanceProgramme, herkömmliche Online-Werbeformen oder sonstige Links zum eigenen Angebot finden. Zum anderen sind mittels des Referrer-Eintrages auch die Suchbegriffe zu ermitteln, mit denen ein Besucher der Seite sie in einer Suchmaschine gefunden hat. Diese werden üblicherweise in der URL der SERP genannt und somit auch im Logfile des Webservers gespeichert. Das Verhältnis zwischen der Anzahl der Klicks, die in den SERPs auf Grund eines Suchwortes auf die eigene Site durchgeführt wurden und der Suchhäufigkeit dieses Schlüsselwortes wird auch als Klickrate bezeichnet. Die Genauigkeit, mit der die Klickrate bestimmt werden kann, hängt 53 Erfolgskontrolle davon ab, ob die Suchhäufigkeit genau bekannt ist, was in den meisten Fällen nicht gegeben sein dürfte. Die Klickrate hängt zum einen von der Positionierung in den SERPs ab, zum anderen aber auch von Titel und Beschreibung, mit denen eine Seite in den SERPs erscheint. Außerdem lässt sich anhand der Logfiles auch verfolgen, ob die Benutzer innerhalb des Angebots das vom Anbieter gewünschte Verhalten zeigen (Response-Qualität). Wirklich interessierte Besucher werden vermutlich länger auf der Site verweilen und mehr interne Links anklicken. Wenn umgekehrt viele Benutzer, die das Angebot aufgrund eines bestimmten Schlüsselworts gefunden haben, keine weiteren Klicks auf der Site tätigen, kann man davon ausgehen, dass diese Benutzer mit dem Schlüsselwort andere Erwartungen verbinden, als die Site erfüllen kann. Zusätzlich kann das Logfile nach Einträgen durchsucht werden, die von Webcrawlern stammen. Dadurch lässt sich feststellen, wann welcher Roboter die Site zuletzt indiziert hat und welchen Weg er dabei genommen hat. Stellt man dabei fest, dass der Crawler nur einen kleinen Teil des Angebots indiziert hat, sollte man prüfen, ob Hindernisse wie für den Crawler nicht interpretierbare Links zu weiteren Seiten, z. B. in JavaScript gehaltene Navigationsmenüs, die Ursache des Abbruchs waren, oder ob eine zu tiefe Verzweigung der Site vorliegt. Erweiterte Möglichkeiten zur Auswertung bieten Online-Shops. Zum einen kann hier eine echte Konversionsrate berechnet werden, also das Verhältnis der Nutzer, die tatsächlich etwas kaufen, zu denen, die über ein bestimmtes Suchwort, ein Verzeichnis oder ein Portal auf das Angebot gelangt sind. Sind Klick- und Konversionsraten und darüber hinaus der durchschnittliche Umsatz pro Kaufvorgang bekannt, ist es möglich, näherungsweise den Umsatz bzw. den Gewinn zu ermitteln, der aus der Optimierung der Site oder auch aus Werbemaßnahmen mittels eines bestimmten Keywords resultiert. Damit lässt sich wiederum abschätzen, wie viel Geld oder sonstige Ressourcen in die Aktion gesteckt werden sollten. 54 www.hessen-it.de 9 Zusammenfassung und Ausblick Die ersten Suchmaschinen konnten relativ leicht überlistet werden, wenn man das eigene Webangebot unabhängig von den tatsächlichen Seiteninhalten weit oben in den Ergebnissen der Suchmaschinen erscheinen lassen wollte. Solche Versuche werden von den heute führenden Suchmaschinen als Spamming (siehe Abschnitt 5.5) erkannt und führen eventuell zur Aussperrung dieses Webangebots aus der Suchmaschine. Dennoch bleiben die Auswahl der richtigen Schlüsselwörter, ihre Positionierung, die Benutzung von Meta-Tags, die sinnvolle Verwendung von HTMLTags und ein dosierter Einsatz multimedialer Inhalte wichtig, um eine richtige Einordnung des Angebots durch die Suchmaschinen zu erreichen und positiv auf das Ranking zu wirken. Da mittlerweile viele Betreiber von Webangeboten ihre Angebote in dieser Weise optimieren, gewinnt die Auswahl geeigneter, die Inhalte der eigenen Site aus der Perspektive des Nutzers so präzise wie möglich beschreibender Schlüsselwörter an Bedeutung. Eine neue Website für sehr häufig gesuchte Begriffe in die vorderen Plätze der Suchmaschinenergebnisse zu bringen, dürfte ohne erheblichen finanziellen Aufwand nahezu unmöglich sein. Anbietern wohl definierter Produkte ist zu raten, anstelle hoher Positionen in allgemeinen Suchmaschinen eher eine hohe Präsenz in den spezialisierten Preisvergleichsmaschinen anzustreben. Man kann also durch die beschriebenen Maßnahmen eine Verbesserung des Rankings erreichen bzw. eine Verschlechterung vermeiden, aber durch die zunehmende Verbreitung moderner Indizierungsverfahren, wie Link-Popularität und Clickthrough-Techniken, ist der Seiteninhalt das entscheidende Kriterium. Die Optimierung der Seiten für Suchmaschinen kann durch Software unterstützt werden, aber es gibt keine Software, die einem die Aufgabe der Optimierung vollständig abnimmt. Häufig liefern diese noch nicht einmal fehlerfreie Ergebnisse, so dass Vorsicht geboten ist. Sorgfalt ist auch bei der Auswahl eines eventuellen Dienstleisters notwendig, da lange noch nicht alle Agenturen die Zeichen der Zeit erkannt haben und auf Spamming-Techniken vollständig verzichten. 55 Zusammenfassung und Ausblick Die inhaltliche Entwicklung der Suchhilfen geht in Richtung eines (besseren) Verständnisses der Seiteninhalte. Mit Hilfe von Verfahren wie TextMining sollen nicht nur Worte, sondern die Bedeutung der Seiten erfasst werden. Auch die Suchergebnisse sollen dann nicht aufgrund vorgegebener Description-Meta-Tags, sondern mit Verfahren der Textzusammenfassung beschrieben werden. Schließlich sollen eines Tages die Suchmaschinen nicht Links auf Seiten, die eventuell Antworten auf Benutzerfragen beinhalten, liefern, sondern die Antworten selbst, die sie aus diesen Seiten ermitteln [Radev et al., 2001]. Es ist außerdem zu erwarten, dass die Suche in fremdsprachigen Seiten und in multimedialen Inhalten verbessert wird. Letzteres bedeutet, dass nach einer Soundsequenz oder einem Bildteil gesucht werden kann. Ein weiterer Trend liegt darin, dass Suchhilfen immer mehr auch solche Inhalte erschließen, die nicht unmittelbar im Internet verfügbar sind. So beginnt Google derzeit damit, Inhalte amerikanischer Universitätsbibliotheken zu scannen und in der Suchmaschine verfügbar zu machen. Eine andere Ausprägung besteht in einer Integration der Suche von Inhalten auf dem eigenen Computer mit der Suche im Internet. Google, MSN und Yahoo bieten inzwischen entsprechende Programme kostenfrei zum Download an, Microsoft möchte die Technik in künftige Betriebssystemversionen einbauen. 56 www.hessen-it.de 10 Anhang 10.1 Aktuelle Hilfsmittel zur Suche im Internet Suchmaschinen www.abacho.de http://search.msn.de www.alltheweb.com www.plaff.de www.excite.de/search/web www.seekport.de www.fireball.de www.teoma.com www.google.de http://suche.web.de www.lycos.de/suche http://de.search.yahoo.com Metasuchmaschinen www.anyfinder.de www.metager.de www.clusty.com www.metacrawler.de www.ithaki.net www.metaspinner.de www.kartoo.com www.nettz.de www.mamma.com www.bingoo.de (*) Kataloge www.allesklar.de www.sharelook.de www.dino-online.de http://web.de www.dmoz.de http://de.dir.yahoo.com Preisvergleichsmaschinen www.evendi.de www.idealo.de www.geizhals.net www.kelkoo.de www.geizkragen.de www.preisauskunft.de www.getprice.de www.preissuchmaschine.de www.guenstiger.de www.preistrend.de Online-Marktplätze www.amazon.de www.ebay.de www.atrada.de www.ricardo.de (*) Bingoo ist ein Programm, das auf dem eigenen PC die Ergebnisse verschiedener Suchmaschinen sammelt. 57 Anhang 10.2 Beziehungen zwischen Suchmaschinen Suchmaschine Bezieht originäre Bezieht bezahlte Bezieht Katalog- Suchergebnisse von Suchergebnisse von ergebnisse von Abacho –/– Overture –/– Exite Alltheweb, Overture Overture Open Directory Fireball –/– Espotting Allesklar.de Google –/– –/– Open Directory Lycos Alltheweb Overture, Espotting Allesklar.de Seekport –/– Espotting –/– Teoma –/– Google –/– Web.de Inktomi Overture –/– Yahoo Inktomi Overture –/– Sofern eine Suchmaschine mehrere länderspezifische Versionen anbietet, beziehen sich die Angaben in der Tabelle auf die deutsche Version. Die Angaben spiegeln den Stand Ende 2004 wieder und beruhen auf einer Zusammenstellung der Website www.suchfibel.de . 10.3 Suchspezifikation in ausgewählten Suchmaschinen Google MSN Search Seekport And And And + oder – – Ja, + zur Suche Ja Nur – And, Or, Not in der erweiterten And, Or, Not And; Or in der Standardverknüpfung nach Stoppwörtern Suche Felder in der erweiterten erweiterten Suche URL Suche: Titel, URL, Text in der erweiterten Suche: Titel, Text, URL Trunkation Nein Nein Ja, mit * Phrasen Ja, Wörter in " " Ja, Wörter in " " Ja, Wörter in " " Ähnliche Seiten Ja Nein Nein Links Ja Ja Ja Sprachein- Ja Ja Nein (nur deutsch) Nein Nein Ja schränkung Kategorie 58 www.hessen-it.de Erklärung: • Standardverknüpfung Welche logische Verknüpfung wird bei der Eingabe von zwei Begriffen angewendet? • + oder – Ist die Verwendung von + oder – als Präfix zur Steuerung der Suche erlaubt • And, Or, Not Ist die Verwendung der booleschen Operatoren zulässig? • Felder Ist es möglich z. B. nur im Dokumententitel zu suchen? • Trunkation Ist es möglich eine Trunkation, z. B. Blumen*, vorzunehmen? • Phrasen Kann nach zusammenhängenden Wortfolgen gesucht werden? • Links Kann nach Webseiten gesucht werden, die Links auf eine bestimmte URL enthalten? • Spracheinschränkung Kann eine bevorzugte Sprache für die gefundenen Dokumente gewählt werden? • Kategorie Kann eine thematische Kategorie für die Suchergebnisse vorgegeben werden? 59 Anhang Index Anmeldung 30 Sitemap 36 Cascading Style Sheet 26 SoftBot 12 Clickthrough-Preise 23, 44 Spamming 40 Clickthrough-Technik 16, 21 Spider 12 Content-Management-System 19, 29 Spidering Depth 12 Crawler 12 Streaming Video 29 Clickthrough-Technik 21 Suchmaschine 2, 12 Doorway-Seite / Gateway-Seite 31 Tag 27 Flash 28 <A HREF> 30 Frames 28 <ALT> 30 Indizierung 12 <BODY> 17 JavaScript 30 <TITLE> 17 Katalog 7, 12 TermVector-Verfahren 21 Link-Analyse 19 URL 19 Link-Farm 43 Webring 38 Link-Popularität / Link-Analyse 19 Website Promotion Tool 48 Log-File-Analyse 53 Metasuchmaschine 6 Meta-Tag 13, 18, 27, 41, 49 off-the-page-factors 19 PageRank / Siehe Link-Analyse 19 Paid Inclusion 12, 33 Pay-for-Performance 22 Portable Document Format 30 Portal 37 Postscript 30 Ranking 14 Redirect 41 Robot (er) 12 robots.txt 34 Schlüsselwort 24, 28, 31, 49 SERP 2 Shockwave 29 60 www.hessen-it.de Literatur Alpar, P.: Kommerzielle Nutzung des Internet, 2. Aufl., Springer, Berlin u. a.,1998. Glöggler, M.: Suchmaschinen im Internet, Springer, Berlin u. a., 2003. Heydon, A.; Najork, M.: Mercator: A Scalable, Extensible Web Crawler, Compaq Systems Research Center, Palo Alto, 1999. Kaiser, Thomas: Effizientes Suchmaschinen-Marketing, BusinessVillage, Göttingen, 2004. Kirchgesser, U.: Suchen im Internet, Leibniz-Rechenzentrum München, 1997. Lennartz, Sven: Ich bin wichtig! Promotion-Maßnahmen für suchdienstgerechte Webseiten, c’t, Nr. 23, 1999, S. 180ff. Münz, S.: SelfHTML, http://selfhtml.teamone.de. Page, L. et al.: The PageRank Citation Ranking: Bringing Order to the Web, Technical Report SIDL-WP-1999-0120, Stanford University, 1998. Patzwaldt, K.: @-Web, www.at-web.de. Pothe, A.: Nachgezählt – Wie groß ist das WWW?, c't 26, 2004, S. 164 –165. Radev, D. et al: Mining the Web for Answers to Natural Language Questions, Proceedings of the 2001 ACM CIKM, Atlanta, 2001, S. 143ff. Rappaport, A.: Robots & Spiders & Crawlers: How Web and intranet search engines follow links to build indexes, White Paper, Infoseek Software, 1999. Stuber, L.: Suchmaschinen-Marketing, Orell Füssli, Zürich, 2004. Sullivan, D.: Search Engine Watch, www.searchenginewatch.com. Wagenknecht, A.: Gefunden werden: Site-Promotion-Software im Test, Internet Professionell, Nr. 9, 2000, S. 60ff. 61 Die Aktionslinie hessen-it 11 Die Aktionslinie hessen-it hessen-it ist die Aktionslinie des Hessischen Ministeriums für Wirtschaft, Verkehr und Landesentwicklung für den gesamten IT-Markt in Hessen. hessen-it bietet Informationen und Services zum Online-Markt, zu E- und M-Commerce, zu Software- und Telekommunikationsanbietern sowie über Telearbeit. Angesprochen werden auf der einen Seite die über 6.500 hessischen Anbieter, die Produkte oder Dienstleistungen auf dem Informationstechnologie-Markt anbieten, auf der anderen Seite die kleinen und mittleren Anwender-Unternehmen. Anbieter-Datenbanken erleichtern die Suche nach geeigneten Dienstleistern bei der Durchführung von IT-Projekten. Gleichzeitig fungieren diese Datenbanken für Anbieter als Informations- und Kommunikations-Plattform, auf der sich diese den Anwendern und potenziellen Kunden präsentieren können. Newsticker, E-Mail- und Print-Newsletter berichten regelmäßig über den IT-Markt in Hessen. Veröffentlichungen aus der umfangreichen hessenmedia Schriftenreihe ergänzen das Informationsangebot der Website, das jedoch weit über das Print-Angebot hinaus geht. Die Broschüren können bequem online bestellt oder heruntergeladen werden. hessen-it hat verschiedene Netzwerke und Branchentreffs initiiert, in denen sich teils nichtkommerzielle Initiativen, teils kommerzielle Anbieter zusammengeschlossen haben. Regionale Multimedia- und E-CommerceZentren sowie IHKs, Handwerkskammern und andere regionale Akteure arbeiten zusammen an dem Ziel, Hessens Weg in die Informationsgesellschaft voran zu bringen. 62 www.hessen-it.de Einen Überblick über diese Netzwerke und Treffs sowie Terminankündigungen zu Veranstaltungen, an denen sich hessen-it beteiligt, findet man im Online-Terminkalender auf der Website. Denn auch bei internationalen Messen wie der CeBIT oder bei regionalen Veranstaltungen in ganz Hessen sind kompetente Ansprechpartner der Aktionslinie präsent. Hinzu kommen Seminare und Workshops, die hessen-it zu verschiedenen Themen ausrichtet. Der monatliche IT-Dialog Hessen sorgt neben dem vielfältigen virtuellen Informationsangebot für den realen Kommunikationsaustausch innerhalb der hessischen IT-Branche und der Landesregierung und rundet somit das Leistungsangebot ab. Besuchen Sie unsere Webseiten unter www.hessen-it.de 63 hessen-media: Eine Initiative setzt Zeichen 12 hessen-media: Eine Initiative setzt Zeichen Mit der Landesinitiative hessen-media leistet die Hessische Landesregierung einen aktiven Beitrag zur Gestaltung des digitalen Zeitalters. Mit einem Bündel von Projekten, Initiativen und Aktionslinien ebnet sie den Weg zur Informations- und Wissensgesellschaft in Hessen. Zielsetzung von hessen-media ist die Entwicklung und Verbreitung neuer Informations- und Kommunikationstechnologien und deren Anwendung in Wirtschaft, Privathaushalten und im öffentlichen Sektor, an der Schnittstelle zu Bürgern und Wirtschaft. hessen-media fördert Pilot- und Modellprojekte aus allen Lebens- und Arbeitsbereichen. Dazu gehören: • Bildung und Wissenschaft • Gesundheit • Umweltschutz • Verkehr • Wirtschaft • Verwaltung • Gesellschaft und Soziales • Multimedia und IT • Kultur In der Landesinitiative hessen-media arbeiten Wirtschaft, Wissenschaft und Politik gemeinsam am Ziel, Hessens Position in der Spitzengruppe europäischer Medien- und IT-Standorte zu festigen und auszubauen. Zusammengefasst stehen für die Landesinitiative hessen-media bei der Projekttätigkeit und der Öffentlichkeitsarbeit vier Schwerpunkte im Vordergrund: • Stärkung der Medien- und IT-Wirtschaft in Hessen • Heranführung neuer Nutzergruppen an die Neuen Medien • Verbesserung der Medienkompetenz und Qualifizierung im Umgang mit den Neuen Medien • Marketing für den Medien- und IT-Standort Hessen 64 www.hessen-it.de Um diese Ziele zu erreichen, konzentriert sich hessen-media neben der Initiierung von Pilot- und Modellprojekten auf die Planung und Durchführung von hessischen Firmen-Gemeinschaftsständen auf zahlreichen Messen der Branche, auf die Vermittlung von Medienkompetenz, die Beratung und Begleitung der hessischen Klein- und Mittelbetriebe, die Bereitstellung von Marktübersichten (beispielsweise die Online-AnbieterDatenbank unter www.hessen-it.de) und eine breite Öffentlichkeitsarbeit, die über die Anwendungsmöglichkeiten interaktiver Dienste und Neuer Medien informiert. Sind Sie neugierig auf hessen-media? Über unser Internetportal www.hessen-media.de erhalten Sie vielfältige Informationen zur Landesinitiative mit Kontaktadressen und Ansprechpartnern konkreter Projekte. Zusätzlich finden Sie dort die neuesten Meldungen aus der hessischen Medien- und IT-Branche und einen Terminkalender mit den wichtigsten Veranstaltungshinweisen. Darüber hinaus können Sie hier den kostenlosen E-Mail-Newsletter der Landesinitiative abonnieren, der für Sie alle 14 Tage kostenlos die neuesten Meldungen aus der hessischen Medienbranche/Medienpolitik in kompakter Form zusammenfasst. Kontakt: Geschäftsstelle hessen-media c /o HA Hessen Agentur GmbH Abraham-Lincoln-Straße 38-42 65189 Wiesbaden Telefon 06 11/ 7 74-84 81 Telefax 06 11/ 7 74-86 20 E-Mail [email protected] Internet www.hessen-media.de hessen » media Hier ist die Zukunft 65 hessen-media: Eine Initiative setzt Zeichen Schriftenreihe hessen-media Bestellmöglichkeit und Download als PDF-Datei finden Sie im Internet unter www.hessen-media.de hessen-media (wir über uns) 2001 Hessen-infoline-Netzwerk (Band 26) Projektdokumentation (Band 1) Bildung und Wissenschaft 2002 Telemedizin in Hessen – Beiträge aus dem Universitätsklinikum Gießen (Band 24) 2001 Entwicklung und Einsatz elektronischer Medien als Lehr- und Lernmittel an hessischen Hochschulen (Band 27) Kompetenzzentren und Onlinedienste im Schulwesen – Beispiele für hessen-media Projekte (Band 25) 2000 Bildung ans Netz (Band 23) Die virtuelle Universität (Band 15) 1998 Medienmanagement in Schulen (Band 8) E-Government 2002 Auf dem Weg zu E-Government – Hessens Kommunen im Internet (Band 37) Wirtschaftsförderung und Standortmarketing im Internet (Band 36) 1999 Hessische Kommunen im Internet (Band 13) Marktstudien IT-Standort Hessen 2004 Softwareanbieter in Hessen 2003 (Band 50) Telekommunikationsanbieter in Hessen 2003 (Band 49) 2003 Online-Anbieter in Hessen (Band 2) 2002 Softwareanbieter in Hessen – Bestandsaufnahme 2002 (Band 39) E-Shops in Hessen (Band 28) 2000 66 Der Telekommunikationsmarkt in Hessen (Band 21) www.hessen-it.de Leitfäden für IT-Anwendungen 2005 Gefunden werden im Internet (Band 32, 2. Auflage) Recht im Internet (Band 33, 2. Auflage) Online-Marketing für kleine und mittlere Unternehmen (Band 51) 2004 Wettbewerbsvorteile durch barrierefreie Internetauftritte (Band 48) Domainregistrierung international (Band 47) Wireless-LAN: Stand und Entwicklungspotenzial, Nutzungsansätze für KMU (Band 46) 2003 E-Business-Konzepte für den Mittelstand (Band 45) Leitfaden „In modernen Märkten überleben“ (Band 44) 2003 Projektleitfaden „Software-Ergonomie“ (Band 43) „Digitale Signatur“, Leitfaden zum Einsatz digitaler Signaturen (Band 42) Die Bedeutung der E-Logistik für den Mittelstand (Band 41) Management von Kundenbeziehungen im Internet (Band 40) Leitfaden „Webdesign – Internetpräsenzen besser planen und gestalten“ (Band 7) 2002 IT-Sicherheit für den Mittelstand (Band 38) E-Paymentsysteme – Bezahlen im Internet (Band 35) ASP: Mehr als nur Mietsoftware (Band 34) E-Learning für KMU – Neue Medien in der betrieblichen Aus- und Weiterbildung (Band 31) Telehaus Wetter – ein TeleServiceZentrum (Band 30) 2001 Kasseler Praxis-Dialog Tele@rbeit – Analysen · Erfahrungen · Positionen (Band 29) 2000 Leitfaden „Webdesign international“ (Band 22) E-Shop-Software (Band 20) Hessische Handwerker entdecken das Internet (Band 19) Leitfaden zur Anwendung eines Ratingsystems für IT-Unternehmen in Hessen (Band 18) Software-Dialog Hessen (3) (Band 17) Leitfaden „E-Shop“ (Band 16) Strategisches kennzahlengestütztes Controlling für kleine und mittlere DV-Beratungs- und Softwareunternehmen (Band 14) 67 hessen-media: Eine Initiative setzt Zeichen weiter: Leitfäden für IT-Anwendungen 1999 Entwicklung eines Konzeptes für die Errichtung eines Software-KompetenzNetzwerks für die chemisch-pharmazeutische Industrie (Band 12) Analyse des softwaretechnischen Problemlösungsbedarfs der Medienwirtschaft in Hessen (Band 11) Software-Dialog Hessen (2) – Software-Trends (Band 10) Leitfaden „Software-Qualitätsmanagementsystem für den Maschinenund Anlagenbau” (Band 9) 1998 Leitfaden für ein kennzahlengestütztes Finanz- und Projektcontrolling für DV-Beratungs- und Software-Unternehmen (Band 6) Leitfaden zum Aufbau eines Ratingsystems für Software-Unternehmen in Hessen (Band 5) Leitfaden zur Einführung eines Qualitätsmanagementsystems in Software-Unternehmen (Band 4) Software-Dialog Hessen (1) (Band 3) 68