Ranking Algorithm and Search Engine Optimization
Transcription
Ranking Algorithm and Search Engine Optimization
Übungsarbeit Information Search and Retrieval Technische Universität Graz Ranking Algorithm and Search Engine Optimization vorgelegt von Vesna Krnjic E-Mail: [email protected] Christoph Schertz E-Mail: [email protected] Christoph Winkler E-Mail: [email protected] Betreuer Dipl.-Ing. Dr.techn. Christian GÜTL Institute for Information Systems and Computer Media (IICM), Austria [email protected] and [email protected] 7. Dezember 2009 © Copyright (C) 2009 Krnjic, Schertz, Winkler Dieses Werk kann durch jedermann gemäß den Bestimmungen der Lizenz für Freie Inhalte genutzt werden. Die Lizenzbedingungen können unter http://www.politikon.org/e-lernplattform/lizenzmodelle/lizenz-fuer-freie-inhalte.html abgerufen oder bei der Geschäftsstelle des Kompetenznetzwerkes Universitätsverbund MultiMedia NRW, Universitätsstrafle 11, D-58097 Hagen, schriftlich angefordert werden. Kurzfassung Die Anzahl an Webpages, Blogs, Newsgroups und deren Inhalt wird immer größer und unüberschaubarer. Einem einzelnen Menschen ist es nicht möglich einen Überblick über das vorhandene Angebot zu bekommen. Suchmaschinen können dem Benutzer dabei helfen Informationen zu suchen, filtern und Irrelevantes zu verwerfen. Was bei HTML-Seiten mittlerweile gut funktioniert ist bei Blogs, Newsgroups, Web 2.0 Anwendungen und Flash-Animationen eine große Herausforderung oder zur Zeit unmöglich. Dieses Paper zeigt auf welche Probleme Suchmaschinen stoßen und bietet Denkansätze für mögliche Lösungen an. Im ersten Kapitel wird die Geschichte des Internets und der Suchmaschinen behandelt. Das zweite Kapitel beschreibt ausgewählte Suchmaschinenalgorithmen und im dritten Kapitel werden Möglichkeiten vorgestellt eine Homepage möglichst weit oben gereiht zu haben in der Liste der Treffer. Es werden legale Methoden sowie Methoden die den Nutzungsbedingungen der Suchmaschinenanbieter widersprechen vorgestellt. Neue Technologien werden in Kapitel 5 behandelt, dabei wird auf Probleme für Suchmaschinen hingewiesen und wie man mit kleinen Veränderungen diesen Problemen entgegenwirken kann. Abstract The amount of information is growing rapidly. Web pages, blogs, newsgroups offer a huge potential of information and communication. For a human being it is hardly possible to get an overview of all that information. Therefore search-engines have been introduced and continuously improved. Today’s search-engines can handle HTML-based web pages rather good but still have their problems with contend of web 2.0, flash or information which is changing very fast. This paper tries to give the reader an overview about state of the art techniques in a nutshell, points problems and gives some ideas how they can be solved in future. Chapter 1 is about the history of the internet and search-engines. A short overview about algorithms used by searchengines is given in chapter 2. There are several techniques to improve the ranking of a own homepage by attending some basic rules or some tricks which are not compliant with mostly common search-engine’s terms of use (Chapter 3). Chapter 4 describes problems caused by searching-engines regarding data protection and other law-subjects. New technologies like Java, Flash or Ajax cause difficulties which are described in chapter 5. Keywords: Archie, Veronica, Gopher, Arpanet, NCP, Aliweb, Altavista, Yahoo, Google, Bing, Web 2.0, Problem for search-engines, solution for search-engines, history of search-engines, history of internet, PageRank, HITS, Hilltop, SALSA, Suchmaschinenoptimierung, OffPageOptimierung, OnPage-Optimierung, robots.txt, Meta-Tags, Suchmaschinen-Spamming, TextHidding, Keyword-Stuffing, Cloaking, Linkfarm, Doorway-Page Inhaltsverzeichnis Inhaltsverzeichnis i Abbildungsverzeichnis iii 1 Einleitung 1 1.1 Historische Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Exkurs - Entstehung des Internets . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.3 Erste Suchmaschinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.4 Entwicklung in den vergangenen Jahren und Status Quo . . . . . . . . . . . . . . 2 2 Suchmaschinenalgorithmen 5 2.1 PageRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Hypertext-Induced Top Selection (HITS) . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Subgraph des WWW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Berechnung von Hubs und Authorities . . . . . . . . . . . . . . . . . . . . . . . . 8 2.5 Stochastic Approach for Link-Structure Analysis (SALSA) . . . . . . . . . . . . . 8 2.6 Hilltop-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 Suchmaschinenoptimierung 11 3.1 Off-PageOptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2 OnPage-Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3 Suchmaschinen-Spamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4 Rechtliche Aspekte 17 4.1 Rechtliche Grundlagen in der EU und Österreich . . . . . . . . . . . . . . . . . . 17 4.2 Datenschutz bei Suchmaschinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5 Probleme mit neuen Technologien 19 5.1 Web 2.0 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5.2 Java und Flash . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 6 Zusammenfassung und Ausblick 23 Literaturverzeichnis 26 i ii Abbildungsverzeichnis 2.1 Hubs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Authority . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.1 Aufmerksamkeit auf einer Google-Seite (Hübener, 2009, S. 41) . . . . . . . . . . . 11 5.1 Eiffelturm auf Yahoo-maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.2 Ablauf bei Ajax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 iii iv Kapitel 1 Einleitung 1.1 Historische Entwicklung Das Internet ist zweifellos eine der revolutionären Entwicklungen der Menschheit. Den Beginn kann man mit den 1960ern angeben mit der Grundidee von Leonard Kleinrock ein globales Computernetzwerk zu schaffen. Jeder sollte jederzeit sich mit jedem Gerät verbinden können. vgl. Gütl [2002] 1.2 Exkurs - Entstehung des Internets 1969 waren an das ARPANET bereits 4 Computersysteme angeschlossen. Features wie Paket Switching und die Möglichkeit unterbrochene Leitungen durch einen einfachen Routing - Algorithmus zu umgehen sorgten dafür dass sich relativ früh das US-Militär dafür interessierte. In kriegerischen Auseinandersetzungen ist es enorm wichtig trotz einem teilzerstörten Netzwerk noch kommunizieren zu können. Von nun an investierte das US-Militär kräftig in das ARPANET. Es ist jedoch noch zu erwähnen dass es auch andere Visionäre gab wie z.B. L.C. Licklieder. Seiner Vision nach könnten die Möglichkeiten der Menschen erheblich gesteigert werden durch den Einsatz vernetzter Computer. 1970 wurde das NCP (Network Control Protocol ) als erstes Protokoll beschlossen und 1971 damit begonnen erste Anwendungen zu implementieren. Von nun an ging es mit schnellen Schritten weiter, 1972 fand die (ICCC) International Computer Communication Conference statt und eine erste E-Mailfunktionalität war verfügbar. Es wurde die Idee entwickelt andere bestehende Netz wie z.B. Packet Satellite Network und das Packet Radio Network zu integrieren. Dieser Zeitpunkt kann als die Geburtsstunde des Internets gesehen werde. 1973 wurden wie Weichen für Transmission Control Protocol / Internet Protocol (TCP/IP) gestellt. Die IP Adresse wurde auf 32 Bit festgelegt, allerdings erst 10 Jahre später wurde das ARPANET auf IP umgestellt. Nur 2 Jahre später, 1985 war das Internet etabliert und eine große Gruppe von Entwicklern und Wissenschaftler nutzen es zur Kommunikation in Information. 1989 war der erste grafikfähige Browser verfügbar. Telnet, FTP und Email waren schon davor verfügbar. Ende der 1990er kam es zu einem Internethype. Private Anwender hatten nun ebenfalls die Möglichkeit mit geringen Mitteln ins Internet zu gehen. Mit der Zunahme der privaten Internetnutzer kamen neue Anwendungen hinzu wie Peer - to-Peer oder Livestreaming. vgl. Gütl [2002] 1.3 1.3.1 Erste Suchmaschinen Archie 1990, an der McGill Universität in Montreal hatten 3 Informatikstudenten die Idee einen Suchbot zu programmieren der FTP-Archive durchsucht, die darin enthaltenen Dateien Indiziert und das 1 2 1. Einleitung Sortierergebnis Benutzern zugänglich macht. Der Inhalt von Dateien konnte noch nicht durchsucht werden, aber wenn man den Dateinamen (oder Teile davon) wusste konnte Archie dem Benutzer ein nützliches Ergebnis in Form einer Datei mit zutreffenden oder ähnlichem Namen liefern vgl. Koch [2007] 1.3.2 Gopher und Veronica Gopher ist ein WWW-Vorläufer. Es gibt Server auf die mittels Gopher - Client zugegriffen wird. Entwickelt wurde Gopher zusammen mit dem dazugehörigen Suchdienst V.E.R.O.N.I.C.A. (Very Easy Rodent-Orientated Netwide Index to Computerized Archieves) an der Universität von Nevada in Reno 1991. Veronica hatte schon große Ähnlichkeit mit heutigen Suchmaschinen. Monatlich wurden alle Gopherseiten die beim Gopherhauptserver in Reno registriert waren neu indiziert. Es wurden bereits Suchoperationen wie AND,OR und NOT unterstützt. vgl. Koch [2007] 1.3.3 AliWeb 1993 wurde das Archie like Indexing of Web (AliWeb) veröffentlicht. Betreiber von WWWServern wurden veranlasst standardkonforme Dateien auf ihren Servern zu hinterlegen die ihren Service beschreiben sollten. Die Adresse dieser Datei wurde Aliweb mitgeteilt und auf Basis davon die Seite indiziert. vgl. Koch [2007] 1.3.4 Altavista “Altavista” bedeutet “die Sicht von oben”. Diese Suchmaschine gilt als die erste kommerzielle Suchmaschine. Suchmaschinen davor wurden von Universitäten oder anderen staatlichen Organisationen betrieben. Altavista ist das Ergebnis der Forschungsabteilung der Digital Equipment Corporation in Palo Alto/Kalifornien und ging 1995 online. Mit Babel Fish wurde der erste Onlineübersetzungsdienst für Text oder Webseiten vorgestellt. Heute greift Altavista auf die Datenbank von Yahoo zu und ist dadurch nicht mehr als eigene Suchmaschine zu werten. vgl. unbekannt [2001] 1.4 1.4.1 Entwicklung in den vergangenen Jahren und Status Quo Yahoo! David Filo und Jerry Yang, Ph. D. Studenten der Stanford University führten Listen von Homepages für den persönlichen Gebrauch. 1994 wurden diese Listen online gestellt und die Welt war um eine Suchmaschine reicher. Yahoo ist eine Abkürzung und steht für “Yet Another Hierarchical Officious Oracle” Den Gründern zufolge wurde das Wort “Yahoo” auf Grund seiner Beschreibung im Wörterbuch gewählt. 1995 wurde aus Yahoo eine Firma und diese zog ins Silicon Valley nach Kalifornien. Sequoia Capital investierte in die junge Firma im selben Jahr 2 Millionen USD dadurch konnte eine der heute erfolgreichsten Suchmaschinen so richtig durchstarten. Im Herbst 1994 konnte Yahoo die Millionste Anfrage feiern. Heute hat Yahoo mehr als eine Million Anfragen am Tag. vgl. History [2009] 1.4. Entwicklung in den vergangenen Jahren und Status Quo 1.4.2 3 Google Der Name der zur Zeit populärsten Suchmaschine soll vom Wort "googol"kommen. September 1998 ging die erste BETA-Version von Google online und hat sich von der Optik nur mehr gering verändert. Neu an Google war einerseits ein Ranking mittels Popular Linking und Citation Index andererseits ging man im Marketing auch neue Wege durch bezahlte Anzeigen und Beeinflussung des Rankings. Google ist einer der beliebtesten Arbeitgeber: Hochflexible Arbeitszeiten, kleine Arbeitsgruppen, Gratis Snacks und Getränke sowie kostenlose Kinderbetreuung locken viele Bewerber an. Zukünftige Google-Mitarbeiter müssen einen Bewerbungstest machen der eine Mischung aus Intelligenztest und psychologischem Test darstellt. Eine Flut an Extradienst die für Benutzer kostenlos sind wird von einer sehr großen Fan-Gemeinde dankbar angenommen. Google-Maps (Ein Landkartendienst mit Routenplanung), GMAIL (gratis Emailkonto), GoogleBooks ((teil)eingescannte Bücher mit Suchfunktion), Streetview (die Welt in 3D entdecken und durch Straßen gehen am Computer), Google-Earth (Satellitenbilder), GoogleDocs (Dokumente wie Texte und Tabellen online erstellen und speichern) sind einige Beispiele der Zusatzdienste die von Google ständig erweitert werden. Mit Chrome (einem Browser) und einem Handybetriebssystem (Android) erweitert Google ständig sein Geschäftsfeld und macht seit Jahren etablierten Firmen Konkurrenz. Ein auf Linux basierendes Betriebssystem dass hauptsächlich zum Surfen (und Google Onlineservices) gedacht ist wurde angekündigt unter dem Namen Chrome OS. vgl. Vise [2006] 1.4.3 Bing Bing ist heute die Jüngste der großen 3 Suchmaschinen (Google, Yahoo und Bing). Offiziell ist Bing noch in der Beta-Phase. Seit Juni 2009 ist die von Microsoft betriebene Suchmaschine verfügbar. Bing soll mit seinen neuen Techniken (Quick Tabs, Autosuggest, Best Match) den Benutzer mit seinen Anfragen besser verstehen und aus eingegebenen Flugnummern Linienpläne, sowie aus einer Datenflut an Treffern selbstständig die interessanteste heraussuchen. Eine Vorschaufunktion in der Trefferliste zeigt die daran verlinkte Homepage an. Es sollen 100 Millionen USD in die neue Suchmaschine geflossen sein, Unsummen im Vergleich zu anderen Suchmaschinen und zu deren Beginn. Allerdings ist zu berücksichtigen dass Suchmaschinen ein gewaltiges Potential bieten und einen großen Markt mit viel Geld darstellen. vgl. Kremp [2009] 4 1. Einleitung Kapitel 2 Suchmaschinenalgorithmen Dieses Kapitel beschäftigt sich mit ausgewählten Ranking-algorithmen die von Suchmaschinen eingesetzt werden, oder zumindest irgendwann in der Vergangenheit eingesetzt wurden. Da beispielsweise Google, die wohl bekannteste Suchmaschine aus ihren Suchalgorithmen ein Geheimnis macht, können wir nur spekulieren wie sie ihre Suchanfragen abfertigt. Zuerst wird der PageRank Algorithmus vorgestellt, der im Jahr 1998 die Basis für die Gründung von Google war. Weiters wird der Hypertext-Induced Top Selection (HITS) diskutiert. Basierend auf diesen zwei Algorithmen ist der SALSA entworfen worden. Und am Ende des Kapitels schreiben wir noch über den Hilltop-Algorithmus, der ebenfalls von Google patentiert wurde. 2.1 2.1.1 PageRank Grundidee von PageRank Der PageRank Algorithmus wurde 1998 vom Larry Page und Sergei Brin an der Stanford University entwickelt. Dieser Algorithmus basiert auf der Idee des InDegree Algorithmus. Eine Menge von Dokumenten wird als ein Graph repräsentiert. Anhand der Graphenstruktur werden die Dokumente bewertet und gewichtet. vgl. Page et al. [1999] Jedes Dokument besitzt ein Gewicht. Das Gewicht einer Seite wird anhand der Verlinkungen die zu dieser Seite führen berechnet. Je höher die Anzahl der Links die zu einer Seite führen, desto höher ist ihr Gewicht. Wenn die Links die auf diese Seite verweisen ebenso eine hohe Gewichtung haben, bekommt die Seite auf die sie verweisen auch eine höhere Gewichtung. “Generally, higly linked pages are more “important” than pages with few links.” Page et al. [1999] Der PageRank Algorithmus ist wie folgt definiert: vgl. Brin and Page [1998] Definition 1 P RA = n X 1−d P RT i +d N CT i i=1 Dabei ist: N die Anzahl der gesamten Seiten d ein Dämpfungsfaktor (damping factor) zwischen 0 und 1, oft wird d als 0.85 gesetzt P RA ist der PageRank einer Seite A P RT i der PageRank der Seite T i, von der ein Link auf die Seite A zeigt CT i die Gesamtanzahl der Links auf Seite Ti 5 (2.1) 6 2. Suchmaschinenalgorithmen Der PageRank Algorithmus bewertet Webseiten nicht in ihrer Gesamtheit, er bewertet nur die Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A wird dabei rekursiv aus dem PageRank der Seiten Cj von denen ein Link auf die Seite i zeigt. “Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages’ PageRanks will be one.” Page et al. [1999] 2.1.2 Random Surfer Modell Im der Veröffentlichung Page et al. [1999] wird das PageRank Verfahren anhand eines Random Surfers erklärt. Der Surfer verfolgt beliebige Links von einer zur nächsten Webseite ohne dabei auf den Inhalt der Seite zu achten. Aus dem PageRank der Seite kann abgelesen werden wie hoch die Wahrscheinlichkeit ist, das der Benutzer auf eine Webseite kommt. Die Wahrscheinlichkeit dass der Random Surfer nun einen bestimmten Link verfolgt hängt von der Anzahl der Links die ihm zu Verfügung stehen, ab. Deswegen beeinflusst der PageRank einer Seite die verlinkende Seite umso weniger umso mehr ausgehende Links die Seite besitzt. Je mehr Verlinkungen eine Seite hat, desto kleiner ist der Wert mit dem sie andere verlinkten Seiten PageRank beeinflusst. 2.1.3 Kritik an PageRank • Seitenbetreiber die bereit sind Geld auszugeben können sich “Backlinks” besorgen. • Die Webseiten werden nicht auf die inhaltliche Qualität gemessen 2.2 Hypertext-Induced Top Selection (HITS) 1998 stellte Kleinberg den Hypertext Induced Top Selection (HITS) Algorithmus vor. Die Webseiten werden anhand von zwei Qualitätswerten bewertet, “authority weight” und “hub weight”. Das “authority weight” beschreibt die Qualität einer Webseite die selber als Ressource dient, und das “hub weight” beschreibt die Qualität einer Seite die als ein Hub dient. Hubs sind Webseiten die auf andere Seiten verweisen. Beispielsweise können populäre Linksammlungen als Hubs angesehen werden. Oder wie Kleinberg es in seiner Arbeit vgl. Kleinberg [1999] formuliert hatte: “Our model is based on the relationship that exists between the authorities for a topic and those pages that link to many related authorities - we refer to pages of this latter type as hubs.” Seiten die selbst einen guten Inhalt haben, also die so genannten “Authorities” werden von den Hubs oft verlinkt. 2.3 Subgraph des WWW Sei V eine Menge von Seiten die durch Hyperlinks verbunden sind. Diese Menge wird durch einen gerichteten Graph G = (V, E) repräsentiert. Die Knoten des Graphen sind die Webseiten und die gerichtete Kane (p,q) ∈ E stellt den Link von p nach q dar. Die ausgehenden Kanten stellen die Verlinkungen zu anderen Webseiten da, und die eingehenden Kanten bezeichnen die Anzahl der Seiten die auf diese Seiten verweisen. 7 2.3. Subgraph des WWW Abbildung 2.1: Hubs. Abbildung 2.2: Authority. “The algorithm operates on focused subgraphs of the www that we construct from the output of a text-based www search engine; our technique for constructing such subgraphs is designed to produce small collections of pages likely to contain the most authoritative pages for a given topic.” vgl. Kleinberg [1999] Nun stellt sich die Frage wie kann ein Subgraph gefunden werden, der alle Seiten enthält die einer bestimmten Benutzeranfrage (String σ) entsprechen. Die Anzahl der Seiten mit relevantem Inhalt für eine bestimmte Suchanfrage kann oft Millionen Seiten umfassen. Idealerweise wird als Ergebnis eine Menge Sσ zurückgeliefert, die sehr klein ist, sehr viele relevante Seiten enthält und aus Seiten die als Authorities gekennzeichnet sind besteht. Mögliche Herangehensweise: • Bestimme Menge Qσ (alle Seiten, die String σ enthalten, die Initialmenge) • Bestimme Menge Sσ (wichtigste Seiten aus Qσ und “umliegende Seiten”) Bestimmung von Qσ : • finde alle Seiten, die String σ enthalten Es werden zu viele Seiten gefunden, dafür wird sehr große Rechenleistung benötigt. Bestimmung von Sσ : • finde aus Menge Qσ t Seiten mit höchstem Ranking (in der Praxis wird hier eine Suchmaschine herangezogen und üblicherweise die ersten 200 Treffer hrangezogen) Diese Menge wird als die Wurzelmenge bezeichnet Rσ Damit wird gewährleistet, dass die Ergebnismenge klein ist, und dass sie sehr viele relevante Seiten enthält. Jedoch wird der Punkt nicht erfühlt, der besagt, dass möglichst viele Seiten in 8 2. Suchmaschinenalgorithmen der Menge Sσ mit sehr hohem “authorities Ranking” vorkommen sollen. Deswegen wird die Menge Rσ zu Sσ erweitert mit Seiten die nach Rσ verlinken und Seiten die von Rσ aus verlinkt werden. Da es aber nun sehr viele Verweis-Seiten die in die Initialmenge Qσ verweisen geben kann wir die Anzahl der Links auf ein Maxima d begrenzt. vgl. Kleinberg [1999] 2.4 Berechnung von Hubs und Authorities Der Graph Gσ ist auf eine bestimmte Suchanfrage ausgelegt und enthält viele relevante Seiten weiters ist die Gewichtung der “Authority” groß. Die Anzahl der eingehenden Kanten wäre eine sehr einfache Variante zur Berechnung der Authorities. Dadurch würden aber jedoch auch Seiten gefunden werden, die einfach sehr populär sind, aber nicht zwingend starke Authorities haben. Deswegen hat Kleinberg die Gewichtung des Hubs in die Summe der Linkanzahl mit hineingenommen. Definition 2 Kleinbergs Algorihmus Die Authorities werden aus den Hub-Werten der Seiten die auf sie verlinken berechnet: I-Werte X x<p> = y <q> (2.2) q:(q,p)∈E Die Hubs werden aus den Authority Werten der Seiten, auf die sie verlinken berechnet: O-Werte X x<q> y <p> = (2.3) q:(q,p)∈E Es muss auch gelten: x < p >, y < p >?0 (2.4) Ablauf des Algorithmus: 1. alle Hubs und Authorities haben Wert 1 2. neue Hub und Authority berechnen 3. wiederhole Schritt 2. und 3. t mal Bei t = 20 konvergiert der Algorithmus gut! 2.5 Stochastic Approach for Link-Structure Analysis (SALSA) Der SALSA Algorithmus der von Lempel und Moran eingeführt wurde, basiert auf dem PageRank Algorithmus und dem HITS Algorithmus. SALS unterscheidet, so wie der HITS Algorithmus zwischen Hubs und Authorities, jedoch kommt hier ein zufälliger Weg durch einen Graph dazu, ähnlich wie bei dem PageRank Verfahren. Bei SALSA ist der Graph jedoch ein bipartiter Graph. Die eine Seite des Graphen enthält Hube-Seiten und die zweite Seite enthält nur AuthoritySeiten. Jedoch kann jede Seite auch in beiden Mengen vorkommen. In einem Schritt werden immer zwei Knoten durchlaufen, damit ist gewährleistet, dass man wieder auf der gleichen Seite des Graphen landet. vgl. R. Lempel [1998] 2.6. Hilltop-Algorithmus 2.6 9 Hilltop-Algorithmus Der Hilltop Algorithums wurde 1999 vom Krishna Bharat und George A. Mihaila erfunden. Seit 2003 besitzt Google das Patent für den Algorithmus. Krishna Bharat arbeitet nun auch bei Google. Der Hillpop Algorithmus sortiert genau so wie weiter oben vorgestellte Algorithmen eine Menge von Dokumenten nach der Relevanz einer Suchanfrage. Laut Krishna Bharat [1999] sehen sich die meisten Benutzer nur die ersten 10 bis 20 Suchergebnisse an. In ihrer Arbeit “Hilltop: A Search Engine based on Expert Documents” stellen sie einen Algorithmus vor der die beste Quelle für eine bestimmte Suchanfrage auf der ersten Stelle ausgibt. Das Verfahren besteht aus zwei Phasen. Zuerst werden Expertenseiten zu einem Keyword definiert. Diese Seiten sind Dokumente die auf andere hochwertige Dokumente zum Thema verweisen. Es gibt eine Vielzahl von solchen Verlinkungen jedoch mindestens fünf. Die Expertenseiten werden automatisch bestimmt und gefunden. Es wird Wert darauf gelegt, dass die Expertenseiten keine Linkbeziehungen untereinander haben. Weiters müssen die Seiten aus unterschiedlichen IP Adressen stammen, also unterschiedliche Domainnamen haben. Die zweite Phase, dient der Bestimmung der Autoritätsseiten. Um solche Autoritätsseiten zu bestimmen werden die Anzahl der verweisenden Expertenseiten und die Relevanz der verweisenden Expertenseiten herangezogen. Dies bedeutet dass die Autorität nach Hilltop bestimmt wird. Dieser Algorithmus reicht aber nicht aus um eine gute Sortierung vorzunehmen. Es wird gemutmaßt, dass Google Hilltop zusätzlich zu vielen anderen Algorithmen verwendet. vgl. Krishna Bharat [1999] 10 2. Suchmaschinenalgorithmen Kapitel 3 Suchmaschinenoptimierung Das folgende Kapitel behandelt welche Möglichkeiten es gibt seinen Internetauftritt so zu gestalten, dass bei Suchmaschinen ein hohes Ranking erreicht. Abbildung 1 zeigt die durchschnittliche Aufmerksamkeit auf einer Google-Seite. Dabei zeigt die unterschiedliche Helligkeit jeden Bereiche, welche von den Probanden fixiert wurden. Die Kreuze markieren die Punkte die angeklickt wurden und die horizontalen Linien wie weit die Probanden die Ergebnisliste heruntergescrollt haben. Diese Abbildung zeigt deutlich, dass Benutzer von Google meist nicht über die ersten drei Suchergebnisse hinaus kommen. Das legt den Schluss nahe, dass man seine Seite so suchmaschinenfreundliche wie möglich gestalten sollte, damit man zumindest unter die TOP-10 kommt. vgl. Hübener [2009] Bei der Optimierung wird unterschieden in OnPage- und OffPage-Optimierung. Dabei beschäf- Abbildung 3.1: Aufmerksamkeit auf einer Google-Seite Hübener [2009]. tigt sich die OffPage-Optimierung mit der Struktur der Website wie zum Beispiel der Hierarchie, Dateinamen und der Domain. Bei der OnPage-Optimierung werden Programmierung und Gestaltung des Internetauftritts behandelt. 11 12 3. Suchmaschinenoptimierung 3.1 Off-PageOptimierung Nicht nur Layout und Inhalt sondern auch die Struktur des Internetauftritts ist von grofler Bedeutung. Im Folgenden werden einige Punkte umrissen auf die bei der Planung eines Internetauftritts geachtet werden soll. 3.1.1 Hierarchieebenen beim Internetauftritt Eine hierarchisch aufgebaute Seitenstruktur hat unter anderem den Vorteil thematische Zusammenhänge zwischen den Inhalten und der Ordnerstruktur herzustellen. Die Nachteile sind jedoch, dass Benutzer sich lange URLs nur schwer merken und WebCrawler nicht unbedingt in bis in die tiefste Hierarchieebene vordringen. Für Suchmaschinen spielt die Verzeichnistiefe auch insofern eine wichtige Rolle, dass angenommen wird, je tiefer ein Dokument in der Verzeichnisstruktur desto geringer ist seine Bedeutung. Suchmaschinen bedienen sich hier zweierlei Methoden - zum einen die Breitensuche und zum anderen die Tiefensuche. Bei der Breitensuche werden zuerst alle Links einer Seite verfolgt und anschlieflend alle Links der nächsten Seite. Dadurch ergibt sich eine grofle Sammlung an Top-Level-Seiten allerdings werden Seiten in tieferen Hierarchien vernachlässigt. Die Tiefensuche verfolgt den ganzen Graphen einer Seite bis zur letzten Seite. Anschlieflend wird die Tiefensuche eine Ebene höher fortgesetzt. Dadurch wird zuerst ein Internetauftritt quasi komplett erfasst, bevor die Tiefensuche beim nächsten weitergeht. Aus Erfahrungen heraus wird demnach empfohlen maximal drei Verzeichnisebenen zu verwenden. Diese Ebenen sollten von Suchmaschinen welche die Breitensuche - z.B. Altavista - sowie von Suchmaschinen welche die Tiefensuche - z.B. Google - verwenden komplett erfasst werden. vgl. Koch [2009] 3.1.2 Verzeichnis und Dateinamen Ein weiterer wichtiger Aspekt ist die Gestaltung der Dateinamen und Verzeichnisse. Dateinamen und Verzeichnisse sind die ideale Plattform für die Platzierung von Schlüsselwörtern, nichtssagende Namen wie start.html, neues.html oder 2009.html sollten deshalb vermieden werden. Gute Beispiele sind notebooks-kaufen.html oder notebooks-leasing.html, diese Namen enthalten bereits schlüssige Informationen die darauf hinweisen um was es auf dieser Internetseite geht. Dabei sei noch eines zu beachten: Suchmaschinen ignorieren meist die Unterstriche “_”. Wörter die durch einen Unterstrich getrennt werden, werden für die Indizierung zusammengefügt. Will man das vermeiden empfiehlt es sich den Bindestrich “-” zu verwenden. vgl. Koch [2009] 3.1.3 Zugriffssteuerung mit robots.txt Mit der robots.txt können zentrale Indizierungsanweisungen definiert werden, welche von Suchmaschinenrobots beachtet werden. Durch die Definitionen in der robots.txt wird den Suchmaschinen mitgeteilt welche Verzeichnisse oder Dokumente ausgelesen werden dürfen und welche nicht. Dabei kann unterschieden werden welcher Robot einer Suchmaschine welche Aktionen setzen darf. Y. Bischopnick [2007] Der Aufbau der robots.txt ist simpel. Hier einige Beispiele vgl. Y. Bischopnick [2007] Beispiel 1 Alle Robots dürfen alle Dateien und Verzeichnisse indizieren: 1 2 User Agent : ∗ Disallow : Beispiel 2 Alle Robots dürfen nichts indizieren: 3.2. OnPage-Optimierung 1 2 3 13 User Agent : ∗ Disallow : / Disallow : Beispiel 3 Googlebot darf die keine gif. und jpeg-Dateien indizieren: 1 2 3 User Agent : googlebot Disallow : / ∗ . gif$ Disallow : / ∗ . jpeg$ Folgende Eckpunkte sind bei der Verwendung der robots.txt Datei zu beachten vgl. Koch [2009] • exakte Schreibweise robots.txt • Die Datei muss im Wurzelverzeichnis der Domain abgelegt sein • keine Fehler in der robots.txt-Datei selbst. Dies führt dazu, dass im Zweifelsfall keine Indizierung durchgeführt wird. 3.2 OnPage-Optimierung Im Gegensatz zur OffPage zielt die OnPage-Optimierung auf die einzelnen Seiten des Internetauftrittes ab. Dabei werden Themen wie die optimale Startseite, Navigation und Layout behandelt. 3.2.1 Seiteninhalt Zunächst muss einmal beachtet werden, dass nicht jedes Dateiformat von einer Suchmaschine gelesen und somit indiziert werden kann. Probleme gibt es zum Beispiel bei dynamisch generierten Seiten und Skriptdateien wie php, asp, jsp und cfm. Hier sind die Informationen nicht erfassbar da sie erst bei der Verwendung der Seiten generiert werden. Ein weiteres Problem stellen Flashanimationen oder Silverlight-Anwendungen dar. Diese Inhalte sind von einem Groflteil der Suchmaschinen nicht oder nur in sehr geringem Mafle erfassbar. Hierzu sei auf das Kapitel “Probleme mit neuen Technologien” verwiesen. vgl. Y. Bischopnick [2007] Der Inhalt der Startseite ist von besonderer Wichtigkeit. Reine Begrüflungen oder Aufzählungen von Leistungsangeboten bieten Suchmaschinen keine interessanten Keywords bzw. den Benutzern kaum wertvolle Information. Es sollte darauf geachtet werden, dass Menüpunkte nicht nur einzelne Keywords sind sondern auch kurze Infotexte beinhalten. Das liefert den Suchmaschinen und Benutzern mehr Information. vgl. Koch [2009] 3.2.2 Navigation Bei der Navigation ist darauf zu achten dass Suchmaschinen mit den Verlinkungen arbeiten können und diese Verfolgen können. Die schönste Flash-Navigation nützt nichts, wenn die Suchmaschine keine Möglichkeit hat eine Tiefensuche auf der Homepage vorzunehmen, da die Links nicht lesbar sind. Das Navigationsmenü sollte Text enthalten, diese liefert den Benutzern dieselbe Information und Suchmaschinen noch zusätzlich Keywords und verfolgbare Links. Java-Applets und Flashanimationen sind hingegen nicht lesbar. vgl. Koch [2009] 14 3. Suchmaschinenoptimierung 3.2.3 HTML & CSS In den Anfangsphasen des www bzw. der HTML-Programmierung waren z.B. Frames, IntroSeiten und Layout-Tabellen üblich. Heute sollte man auf solche Programmierungen verzichten. Frames bieten zwar die Möglichkeit die Navigationsleiste vom Inhalt abzukoppeln, das Problem ist jedoch, dass Suchmaschinen beim durchsuchen nur die Frameseite finden und nicht deren Unterseiten. Werden die Unterseiten doch indiziert so erhalten sie einen vergleichsweise wesentlich geringeren PageRank als framelose Unterseiten. Intro-Seiten haben das Problem, dass sie meist keine relevanten Informationen enthalten und nur auf die eigentliche Startseite verlinken. Deshalb sind Intro-Seiten für ein gutes Ranking eher kontraproduktiv. Ein Relikt aus vergangener Zeit sind Layouttabellen. War es früher üblich mittels Tabellen Text und Bilder zu positionieren, so stellen mehrfach ineinander verschachtelte Tabellen für Suchmaschinen eher Datenmüll dar. Koch [2009] Bei der Gestaltung der Seiten muss auf ein “perfektes” HTML Wert gelegt werden. Unter perfektem HTML ist zu verstehen, dass es keine offenen Tags gibt bzw. keine anderen Programmierfehler. Suchmaschinen sind meist nicht so tolerant beim durchsuchen der Seiten wie z.B. Webbrowser bei der Darstellung. Gut strukturierte Seiten erhalten meist ein höheres Ranking. Der Aufbau bzw. die Struktur einer Seite sollte sich möglichst an folgendem Schema orientieren vgl. Koch [2009] • Titel • Metadaten • Überschrift erster Ordnung • Text • Überschrift zweiter Ordnung • Text • etc. Die Layoutdefinition - Schriftfarbe, Gröfle, etc. - sollte mittels Cascading Style Sheets erfolgen. Das verhindert, dass der HTML-Code unnötig vermehrt wird und das Ranking dadurch verschlechtert wird. 3.2.4 Meta-Tags Unter Meta-Tags werden Zusatzinformationen im HTML-Dateikopf verstanden, welche für den Benutzer erst im Quellcode sichtbar werden. Unter Zusatzinformationen werden unter anderem verstanden: Autor, Datum, Verbieten oder Gestatten von Zugriffen von Suchprogrammen, Kurzbeschreibung, Schlüsselwörter für Suchprogramme, Zeichensatz, Sprache, etc. vgl. J. Böhringer [2008] Hier ein paar Beispielhafte Meta-Tags: Zugriff durch Suchprogramme verbieten: 1 <meta name=" r o b o t s " content= " noindex " /> Zugriff durch Suchprogramme gestatten: 1 <meta name=" r o b o t s " content=" i n d e x " /> Kurzbeschreibung für Suchprogramme: 3.3. Suchmaschinen-Spamming 1 15 <meta name=" d e s c r i p t i o n " content=" P o r t a l f \ " ur Webdesigner " /> Schlüsselwörter für Suchprogramme: 1 <meta name=" keywords " content= " G e s t a l t u n g , Webdesign , Layout , Design , M e d i e n g e s t a l t e r , Medien " /> Mit dem Tag <meta name="robots" content= "index, nofollow" /> wird der Suchmaschine mitgeteilt, dass eine Indizierung erwünscht ist jedoch die die integrierten Links nicht verfolgt werden sollen. Die Suchmaschinenrobots halten sich Groflteils an die Verbote, ob eine Seite in die den Index aufgenommen wird bestimmt jedoch der Suchmaschinenbetreiber. vgl. Y. Bischopnick [2007] 3.3 Suchmaschinen-Spamming Natürlich gibt es auch die Möglichkeit das Ranking von Internetseiten mittels im Graubereich oder im “illegale” Bereich angesiedelten Methoden zu verbessern. Zu beachten ist dabei allerdings, dass man eine Sperre auf dem Suchmaschinenindex riskiert. Sobald eine Seite als Spam eingestuft wird, wird sie manuell von einem Mitarbeiter des Suchmaschinenbetreibers überprüft und eventuell gesperrt. 3.3.1 Keyword-Stuffing Unter Keyword-Stuffing versteht man alle Techniken die versuchen eine möglichst grofle Anzahl von Keywords auf eine Webseite zu platzieren. Dabei gilt, je häufiger ein Schlüsselwort innerhalb eines Dokuments vorkommt, desto wichtiger ist es für den Inhalt des Dokumentes. Keywords werden meist in Meta-Tags platziert, wo sie für den User nicht sichtbar sind, für die Suchmaschine jedoch lesbar. Rechtlich ist hier anzumerken, dass es in der deutschen Rechtsprechung bereits Ahndungen bei Keyword-Stuffing gekommen ist. Mittels Schlüsselwörtern kann erreicht werden, dass ein und dieselbe Homepage bei unterschiedlichen Suchmaschinen die ersten Treffer darstellt. Dies wurde vom Bundesgerichtshof 2006 als Verstofl gewertet weil damit anderen Wettbewerbern der Zugang zu potentiellen Kunden versperrt wird. vgl. Eichhorn [2007] 3.3.2 Text-Hidding Das Text-Hidding ist einfach umzusetzen, allerdings auch einfach zu entlarven. Dabei wird Text auf der Internetseite versteckt, indem z.B. die Textfarbe und die Hintergrundfrage gleich sind. Für den Benutzer ergeben sich auf der Seite vielleicht ein paar “weiße” Lücken, die Suchmaschinen finden diesen Text jedoch. Die meisten Suchmaschinen-Bots kontrollieren deshalb den Farbenunterschied, ist dieser zu gering wird von Spam ausgegangen. vgl. Koch [2009] 3.3.3 Doorway-Page Eine Doorway-Page - Brückenseite - verfolgt den Zweck speziell für einen bestimmten Begriff ein hohes Ranking zu erreichen und den Benutzer auf eine andere Website weiterzuleiten. Eine Doorway-Page zeichnet sich durch folgende zwei Eigenschaften aus 1. Sie bildet eine eigene Website, die optimiert für einen bestimmten Begriff wurde und somit ein hohes Besucheraufkommen schafft. 2. Sie wird für die Weiterleitung auf die eigentliche Seite verwendet und ist meist keine Landingpage. 16 3. Suchmaschinenoptimierung Wichtig ist, dass Brückenseiten so gestaltet werden, dass sie die Kriterien für ein optimales Ranking erfüllen. Dabei wird auf den Inhalt nur insofern Rücksicht genommen, dass eine korrekte HTML-Struktur vorliegt. Brückenseiten haben unter bestimmten Umständen durchaus ihre Berechtigung, z.B. wenn auf grofle Bildergalerien verlinkt werden soll und eine Umgestaltung der Bildergalerie selbst zu aufwendig ist. vgl. Koch [2009] 3.3.4 Cloaking Ein ähnliches Ziel wie die Brückenseiten verfolgt das Cloaking. Dabei wird der tatsächliche Seiteninhalt verhüllt und dem Webcrawler eine andere Seite präsentiert als dem Benutzer. Um Benutzer und Crawler zu unterscheiden, wird auf die Kennung zurückgegriffen welche bei jedem HTTP-Request mitgesendet wird. Im nächsten Schritt wird über die CGI-Umgebungsvariable dem Crawler eine andere Seite präsentiert als dem Benutzer. Allerdings verwenden immer mehr Suchmaschinenanbieter gefälschte User-IDs und können somit von normalen Benutzern nicht mehr unterschieden werden. vgl. Koch [2009] 3.3.5 Linkfarm Linkfarmen sind eine Ansammlung von Internetseiten die auf bestimmte Keywords optimiert sind und massenhaft Links auf eine bestimmte Internetseite aufweisen. Sinn und Zweck ist die Erhöhung der Link Popularity Suchmaschinen vergleichen das Verhältnis Inhalt, eingehende und ausgehende Links und können dadurch Linkfarmen rasch erkennen und sperren. vgl. Y. Bischopnick [2007] Kapitel 4 Rechtliche Aspekte Im Rahmen von Diskussionen über Suchmaschinen wie Google, MSN (Bing), Yahoo, etc. werden in der jüngeren Vergangenheit immer öfter rechtliche Aspekte diskutiert. Besonders dem Thema Datenschutz wird dabei viel Zeit gewidmet. 4.1 Rechtliche Grundlagen in der EU und Österreich Innerhalb der Europäischen Union ist das Thema Datenschutz durch mehrere Richtlinien geregelt: • EG-Datenschutzrichtlinie (DS-RL) bzw. Richtlinie 95/46/EG zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr • EG-Datenschutzrichtline für elektronische Kommunikation (DSRL-eK) zu Schutz der Privatsphäre in der elektronischen Kommunikation Diese beiden Richtlinien finden in Österreich Umsetzung im Telekommunikationsgesetz, dem Datenschutzgesetz 2000 und dem Bundesgesetz gegen den unlauteren Wettbewerb. Überwacht werden die Richtlinien auf europäischer Basis von der Artikel-29-Datenschutzgruppe und österreichweit von der Datenschutzkommission. Anwendung finden die Richtlinien bzw. die gesetzlichen Vorgaben je nachdem wo der Suchmaschinenbetreiber eine Niederlassung hat. Existiert eine Niederlassung in einem Staat der europäischen Union so gilt das innerstaatliche Datenschutzrecht auf die Verarbeitung von personenbezogenen Daten. Ist der Suchmaschinenanbieter nicht innerhalb der Europäischen Union mit einem Standort vertreten, so werden die Richtlinien dann angewendet, wenn das Unternehmen innerhalb des Hoheitsgebietes des Mitgliedstaates, zum Zwecke der Verarbeitung personenbezogener Daten auf automatisierte oder nicht automatisierte Mittel zurückgreift (z.B. Cookies). vgl. Bulut [2009] 4.2 Datenschutz bei Suchmaschinen Lange Zeit wurden datenschutzrechtliche Fragen bei Suchmaschinen unterschätzt. Erst als die US-Regierung 2006 von Suchmaschinenbetreibern wie Google, Yahoo, MSN und AOL die übermittlung umfangreicher Informationen zu den Sachanfragen, zum Thema Kinderpornografie, verlangte rückte die Problematik des Datenschutzes in das öffentliche Interesse. Einzig Google verweigerte damals die Herausgabe der Informationen. Ein weiteres Beispiel Negativbeispiel für Datenschutz war eine Liste mit 20 Millionen Suchanfragen von ca. 650.000 AOL-Nutzern, welche AOL für Forschungszwecke im Internet verfügbar machte. Dabei wurden die Nutzerprofile durch 17 18 4. Rechtliche Aspekte Nutzer-IDs ersetzt. Durch ein wenig Recherche im Internet gelang es Suchanfragen Personen zuzuordnen. Nach Protesten entfernte AOL die Liste wieder von ihrer Homepage. Zwischenzeitlich wurde die Liste kopiert und auf anderen Internetseiten zum Download angeboten. vgl. F. Thiele [2008] Seitens der Suchmaschinenanbieter werden mehrere Gründe angeführt weshalb sie personenbezogene Daten speichern und verarbeiten. Dies sind z.B. Verbesserung des Dienstes, Systemsicherheit, Betrugsbekämpfung, Abrechnungsanforderung, Strafverfolgung und personalisierte Werbung etc. vgl. Arbeitsgruppe [2008] Diesen Gründen stehen zahlreiche Argumente gegenüber weshalb eine Speicherung personenbezogener Daten nicht oder nicht in vollem Umfang notwendig ist. Zum Thema Datenschutz bei Suchmaschinen gibt es bis dato kaum Rechtsprechungen, juristische Fachliteratur oder Prüfverfahren von Datenschutzaufsichtsbehörden. Diese Lücke versucht die Artikel-29-Datenschutzgruppe mit einer Stellungnahme für die Kommission zu schließ en. vgl. Weicher [2009] Überblickmäßig werden hier zwei Beispiele aus der Stellungnahme der Artikel-29- Datenschutzgruppe angeführt vgl. Arbeitsgruppe [2008] ad Systemsicherheit: Den Suchmaschinenbetreibern wird ein berechtigtes Interesse in der Verarbeitung von personenbezogenen Daten für Sicherheitszwecke zugestanden. Daten aus Serverprotokollen sind erforderlich um typische Verhaltensmuster von Benutzern zu erkennen und z.B. "Denial-of-ServiceAttacken abwehren zu können. Diese Speicherung sollte nur über einen angemessenen Zeitraum erfolgen und der Suchmaschinenbetreiber muss in der Lage sein den Zweck der Speicherung zu begründen. ad personalisierte Werbung: Hier besteht prinzipiell nur dann eine Rechtmäß igkeit zu Verarbeitung von personenbezogenen Daten, wenn eine Einwilligung vorliegt oder die Verarbeitung für die Erfüllung eines Vertrages erforderlich ist. Eine Rechtmäß igkeit für die Verarbeitung bei Benutzern die nicht ausdrücklich ihre Einwilligung gegeben haben ist schwer bis gar nicht nachzuweisen. Das aktuellste Negativbeispiel liefert Google, mit der Ankündigung künftig Suchanfragen auch von nicht angemeldeten Benutzern zu personalisieren. Zu diesem Zweck wird auf dem Rechner ein Cookie abgelegt in dem Informationen über Suchanfragen der letzten 180 Tage abgespeichert sind. Dabei wird ausgewertet welche Ergebnisse der Benutzer am häufigsten ausgewählt hat und vergibt an Seiten aus ähnlichen Bereichen künftig einen höheren Rang. Eine Deaktivierung ist möglich, jedoch kritisieren Datenschützer, dass die Personalisierung standardmäflig aktiviert ist. vgl. Heiseonline [2009] Wie dieser kurze Exkurs zum Thema Datenschutz bei Suchmaschinen zeigt gibt es in diesem Bereich noch einiges an Aufholbedarf. Besonders im internationalen Umfeld fehlen zwischenstaatliche Vereinbarungen, welche personalisierte Benutzerinformationen vor Missbrauch bzw. vor nicht gewollter Verwendung durch Suchmaschinenbetreiber schützen. Neben einem zwingenden Datenschutzrecht ist es auch dringend erforderlich die "Flucht ins Auslandßu erschweren bzw. mit Marktmechanismen gegenzusteuern. Ein Beispiel hierfür wäre ein Datenschutz-Gütesiegel oder Datenschutz-Audits. Aber vor allem ist eine Sensibilisierung der Benutzer in Bezug auf die Verwendung ihrer persönlichen Daten dringend notwendig. vgl. Weicher [2009] Kapitel 5 Probleme mit neuen Technologien 5.1 Web 2.0 Anwendungen Aktuelle Suchmaschinen (Yahoo, Bing, Google,..) haben mittlerweile sehr gute Algorithmen um Suchanfragen von Benutzern zu befriedigen. Probleme bereiten Suchmaschinen jedoch Inhalte die dynamisch erstellt werden, sich schnell ändern (Wetter, Uhrzeit, News) und alles wo Benutzer aufgerufen sind mitzumachen und eigene Inhalte leicht und schnell veröffentlichen können (Blogs, Videoportale, Socialnetworks). Die Probleme betreffen dabei nicht nur die Kurzlebigkeit der Information und der rasche Veränderung sondern auch das Crawling. Bei welchem Blog soll wie weit herunter Indiziert werden? Wie unterscheidet man uninteressanten, irrelevanten Datenmüll von wertvollen Beiträgen? Auch hierfür müssen Lösungen wie für Internetseiten gefunden werden um festzulegen wie weit Indiziert und gefiltert wird. vgl. Cristian Duda [2008] 5.1.1 Newsgroup/Blog Jeder Internetteilnehmer kann mit einfachsten Mitteln (Newsreader oder Mitgliedschaft bei einem Blogportal) seine Meinung zu einem Thema für jeden zugänglich machen. Es ist unmöglich diese Datenflut zu überschauen und ähnlich wie bei Internetseiten können hier auch Suchmaschinen helfen in einer Flut von Beiträgen relevante Informationen zu liefern. Es wäre beispielsweise möglich alle Einträge mit auffallend vielen Rechtschreibfehlern zu ignorieren. Den Text kann man noch weiter analysieren in dem man auf den Textfluss und den Satzaufbau achtet. Kurze Sätze, ein kleiner Wortschatz und Sätze mit immer gleichem Beginn sind ein sicheres Zeichen für einen Sprachanfänger. 5.1.2 Ajax Ajax ist keine eigene Technologie sondern eine Flut an neuen Technologien.(siehe Abbildung 6.2) Ajax ist der Schlüssel für Web 2.0. und beinhaltet: • Standard Darstellungsformen mit XHTML und CCS • Dynamische Darstellung und Interaktion durch Verwendung des "Document Object Models" • Datenaustausch und Veränderung mit Hilfe von XML und XSLT • Asynchrone Datenverarbeitung durch XMLHTTP-Request 19 20 5. Probleme mit neuen Technologien • und Javascript um alles miteinander zu verbinden vgl. Garrett [2005] Javascript hilft dem Benutzer über seinen Browser komplizierte Anfragen an den Server zu senden: dieser Link wird übertragen um auf Yahoo-Maps ein Satellitenbild vom Eiffelturm zu sehen: http://maps.yahoo.com/#mvt=s&lat=48.858189&lon=2.29449&zoom=18&q1=tour% 20eiffel Es ist für ein Suchmaschine nur schwer möglich alle relevanten Informationen aus einem solchen Dienst zu bekommen. Nach einer Satellitenabbildung eines bekannten Gebäudes wie z.B. dem Eiffelturm (Abbildung 6.1) zu suchen fällt Suchmaschinen nicht schwer. Sollte der Benutzer aber nach weiteren Objekten auf Satellitenbildern suchen (z.B. einem Blauwal) wird das Ergebnis enttäuschend ausfallen. Abbildung 5.1: Eiffelturm auf Yahoo-maps. Abbildung 5.2: Ablauf bei Ajax. 5.2. Java und Flash 5.2 21 Java und Flash Suchmaschinen haben zur Zeit Probleme mit Flashinhalten. Flash enthält Logik und kann Benutzereingaben verarbeiten, dafür sind heutige Suchmaschinen noch nicht ausreichend gerüstet. Aktuelle Suchmaschinen sind dafür geschaffen statische Inhalte zu verarbeiten. Flash ist genau genommen ein laufendes Programm und ist dadurch schwieriger zu analysieren als HTML Code. Flashinhalte können allerdings durch einen Spideralgorithmus durchforstet werden wenn man ein paar Designgrundlagen beachtet. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 <head> < !−−s n i p−−> <s c r i p t type=" t e x t / j a v a s c r i p t " src=" / j s c r i p t /SWFObject . j s "></ s c r i p t> </head> <body> < !−−s n i p−−> < !−−primary content , f o r non−F l a s h v i s i t o r s−−> <div id=" f l a s h " align=" c e n t e r "> <p><a href=" / g a l l e r y / i n d e x . php? c a t e g o r y=g a l l e r y /1 _Prints ">prints</a> | <a href=" / g a l l e r y / i n d e x . php? c a t e g o r y=g a l l e r y /2 _Posters ">posters</a> | <a href=" / g a l l e r y / i n d e x . php? c a t e g o r y=g a l l e r y /3_Books">books</a> | <a href=" / g a l l e r y / i n d e x . php? pageId=115& s t a r t =0">my account</a> < !−−s n i p , f o r b r e v i t y−−> </p> </ div> < !−− F l a s h p l a y e r d e t e c t i o n and F l a s h i n s e r t i o n −−> <s c r i p t type=" t e x t / j a v a s c r i p t "> var fo = new SWFObject ( "homepage_v1 . swf " , " f l a s h " , " 680 " , " 390 " , "5 " , "#3a403c " ) ; fo . write ( " f l a s h " ) ; </ s c r i p t> Es wird zusätzlich zum Flashinhalt ein kleiner HTML-Pfad eingeführt um Suchmaschinen, aber auch blinden Menschen, es zu ermöglichen Informationen über den Inhalt zu bekommen Vgl. Hochman [2007] 22 5. Probleme mit neuen Technologien Kapitel 6 Zusammenfassung und Ausblick In dieser Arbeit werden Suchmaschinenalgorithmen sowie Methoden zur Suchmaschinenoptimierung näher vorgestellt. Mit der Einleitung und einer Einführung die Geschichte des Internets wurde auf die Grundlagen für das heutige Internet eingegangen. Dabei wurde aufgezeigt aus welchen unterschiedlichen Technologien wie Gopher oder Archie das heutige WWW entstanden ist. Mit der Entwicklung des PageRank-Algorithmus und dem daraus resultierenden Aufstieg der Suchmaschine Google wurden in Bezug auf Durchsuchbarkeit und Zugänglichkeit der Informationen im Internet neue Maßstäbe gesetzt. In weiterer Folge passte Google seine Such- und Ranking-Algorithmen mehrfach an. So wurden zum Beispiel die Rechte am Hilltop-Algorithmus von Google übernommen und integriert. Im Kapitel 3 wurden Suchmaschinenoptimierungsverfahren vorgestellt. Diese behandeln die Problematik dass der Großteil der Suchmaschinenbenutzer über Seite zwei bei den Suchergebnissen nicht hinauskommt. In weiterer Folge muss es also das Ziel eines jeden Homepagebetreibers sein unter die Top-10 der Suchergebnisse zu kommen. Dabei gibt es mehrere Ansätze die verfolgt werden können. Besonders in der Planungsphase und Designphase sind Überlegungen zum Inhalt und dessen Gestaltung wichtig. Abschließend wurden noch Spamming-Methoden vorgestellt welche zum Teil zwar simpel umsetzbar sind aber meist eine Sperre nach sich ziehen. Beim Datenschutz wurden kurz die rechtlichen Rahmenbedingungen aufgezeigt. Eine ausführliche Diskussion würde den Rahmen dieser Arbeit sprengen. Was jedoch eindeutig hervorkommt, ist die Tatsache, dass die Problematik des Datenschutzes bei Suchmaschinen viel zu lange vernachlässigt wurde. Nur ein Schulterschluss der großen Wirtschaftsmächte und globale Richtlinien können hier eine Abhilfe bringen. Im letzten Kapitel wurden noch die Problematiken behandelt, welche neue Technologien wie Web 2.0 Anwendungen, Flash- und Java-Applikationen mit sich bringen. Dabei wurde diskutiert welche technischen Hürden hier vorhanden sind und wie diese umgangen werden können. Wenn man sich die Entwicklung in den vergangenen Jahren ansieht darf man auf die Zukunft gespannt sein. Neue Webapplikationen, viel mehr Informationen auch persönliche Informationen werden künftig über das Internet zur Verfügung gestellt werden. Hier liegen die Herausforderungen für die nächsten Jahre für Suchmaschinenbetreiber. Immer mehr an Information soll noch einfacher und strukturierter zugänglich sein, ohne dabei zensurierend einzugreifen oder Persönlichkeitsrechte zu verletzen. 23 24 6. Zusammenfassung und Ausblick Literaturverzeichnis Arbeitsgruppe, A. . (2008). Stellungnahme 1/2008 zu datenschutzfragen im zusammenhang mit suchmaschinen. (Zitiert auf Seite 18.) Brin, S. and Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. Comput. Netw. ISDN Syst., 30(1-7):107–117. (Zitiert auf Seite 5.) Bulut, D. (2009). Suchmaschinenmarketing und Datenschutz. GRIN Verlag, Norderstedt. (Zitiert auf Seite 17.) Cristian Duda, Gianni Frey, D. K. (2008). Ajaxsearch: Crawling, indexing and searching web 2.0 applications. (Zitiert auf Seite 19.) Eichhorn, B. (2007). Internetrecht: Ein Wegweiser für Nutzer und Web-verantwortliche. Berlin: Beuth Verlag GmbH, Berlin. (Zitiert auf Seite 15.) F. Thiele, H. S. (92/2008). Suchmaschinen, privatsphäre und andere illusionen. (Zitiert auf Seite 18.) Garrett, J. J. (2005). Ajax: A new approach to web applications. (Zitiert auf Seite 20.) Gütl, C. (2002). Ansätze zur modernen wissensauffindung im internet. pages 27–28. (Zitiert auf Seite 1.) Heiseonline (6/12/2009). Google personalisiert suchanfragen auch von nicht angemeldeten nutzern. (Zitiert auf Seite 18.) History, Y. (2009). (Zitiert auf Seite 2.) Hochman, J. (2007). Search engine optimization of flash content. (Zitiert auf Seite 21.) Hübener, M. (2009). Suchmaschinenoptimierung kompakt. Heidelberg: Springer-Verlag, Heidelberg. (Zitiert auf Seite 11.) J. Böhringer, P. Bühler, P. (2008). Kompendium der Mediengestaltung: Produktion und Technik für Digital- und Printmedien. Heidelberg: Springer-Verlag, Heidelberg. (Zitiert auf Seite 14.) Kleinberg, J. M. (1999). Authoritative sources in a hyperlinked environment. J. ACM, 46(5):604– 632. (Zitiert auf Seiten 6, 7 and 8.) Koch, D. (2007). Suchmaschinen - Optimierung. Addison-Wesley. (Zitiert auf Seite 2.) Koch, D. (2009). Suchmaschinen-Optimierung: Website-Marketing für Entwickler. München: Addison-Wesley Verlag, München. (Zitiert auf Seiten 12, 13, 14, 15 and 16.) Kremp, M. (2009). Microsoft macht bing. Spiegel. (Zitiert auf Seite 3.) 25 26 Literaturverzeichnis Krishna Bharat, G. A. M. (1999). Hilltop: A search engine based on expert documents. Technical report. (Zitiert auf Seite 9.) Page, L., Brin, S., Motwani, R., and Winograd, T. (1999). The pagerank citation ranking: Bringing order to the web. Technical Report 1999-66, Stanford InfoLab. Previous number = SIDL-WP-1999-0120. (Zitiert auf Seiten 5 and 6.) R. Lempel, S. M. (1998). The stochastic approach for link-structure analysis(salsa). Technical report. (Zitiert auf Seite 8.) unbekannt (2001). Internet-suchwerkzeuge im vergleich. Password 01/2001. (Zitiert auf Seite 2.) Vise, D. A. (2006). The Google Story. Pan Books. (Zitiert auf Seite 3.) Weicher, T. (2009). Datenschutz bei Suchmaschinen in: Lewandowski, D (Hrsg.). (2009). Handbuch Internet-Suchmaschinen. Heidelberg: Akademische Verlagsgesellschaft GmbH., Heidelberg. (Zitiert auf Seite 18.) Y. Bischopnick, M. C. (2007). Suchmaschinen-marketing: Konzepte, Umsetzung und Controlling. Heidelberg: Springer-Verlag, Heidelberg. (Zitiert auf Seiten 12, 13, 15 and 16.) Literaturverzeichnis 27 The Stochastic Approach for Link-Structure Analysis(SALSA) http://www9.org/w9cdrom/175/175.html Hilltop: A Search Engine based on Expert Documents http://ftp.cs.toronto.edu/pub/reports/csrg/405/hilltop.html The PageRank Citation Ranking: Bringing Order to the Web. http://ilpubs.stanford.edu:8090/422/ The anatomy of a large-scale hypertextual Web search engine http://dx.doi.org/10.1016/S0169-7552(98)00110-X Authoritative sources in a hyperlinked environment http://doi.acm.org/10.1145/324133.324140 Ansätze zur modernen Wissensauffindung im Internet http://www.iicm.tugraz.at/guetl/publications/2002/Guetl%202002%20-%20PhD.pdf Internet-Suchwerkzeuge im Vergleich http://www.phil-fak.uni-duesseldorf.de/infowiss/admin/public_dateien/files/1/1078738894password_ 1.pdf Yahoo History http://docs.yahoo.com/info/misc/history.html Microsoft macht Bing http://www.spiegel.de/netzwelt/web/0,1518,627466,00.html Ajax: A New Approach to Web Applications http://www.adaptivepath.com/ideas/essays/archives/000385.php AJAXSearch: Crawling, Indexing and Searching Web 2.0 Applications http://www.vldb.org/pvldb/1/1454195.pdf Search Engine Optimization of Flash Content http://www.actionscript.org/resources/articles/519/1/Search-Engine-Optimization-of-Flash-Content/ Page1.html Google personalisiert Suchanfragen auch von nicht angemeldeten Nutzern http://www.heise.de/newsticker/meldung/Google-personalisiert-Suchanfragen-auch-von-nicht-angemelde html 28 Literaturverzeichnis