Ranking Algorithm and Search Engine Optimization

Transcription

Ranking Algorithm and Search Engine Optimization
Übungsarbeit
Information Search and Retrieval
Technische Universität Graz
Ranking Algorithm and Search Engine Optimization
vorgelegt von
Vesna Krnjic
E-Mail: [email protected]
Christoph Schertz
E-Mail: [email protected]
Christoph Winkler
E-Mail: [email protected]
Betreuer
Dipl.-Ing. Dr.techn. Christian GÜTL
Institute for Information Systems and Computer Media (IICM), Austria
[email protected] and [email protected]
7. Dezember 2009
© Copyright (C) 2009 Krnjic, Schertz, Winkler
Dieses Werk kann durch jedermann gemäß den Bestimmungen der Lizenz für
Freie Inhalte genutzt werden.
Die Lizenzbedingungen können unter
http://www.politikon.org/e-lernplattform/lizenzmodelle/lizenz-fuer-freie-inhalte.html
abgerufen oder bei der Geschäftsstelle des Kompetenznetzwerkes
Universitätsverbund MultiMedia NRW, Universitätsstrafle 11, D-58097 Hagen,
schriftlich angefordert werden.
Kurzfassung
Die Anzahl an Webpages, Blogs, Newsgroups und deren Inhalt wird immer größer und unüberschaubarer. Einem einzelnen Menschen ist es nicht möglich einen Überblick über das vorhandene
Angebot zu bekommen. Suchmaschinen können dem Benutzer dabei helfen Informationen zu suchen, filtern und Irrelevantes zu verwerfen. Was bei HTML-Seiten mittlerweile gut funktioniert
ist bei Blogs, Newsgroups, Web 2.0 Anwendungen und Flash-Animationen eine große Herausforderung oder zur Zeit unmöglich. Dieses Paper zeigt auf welche Probleme Suchmaschinen stoßen
und bietet Denkansätze für mögliche Lösungen an.
Im ersten Kapitel wird die Geschichte des Internets und der Suchmaschinen behandelt. Das
zweite Kapitel beschreibt ausgewählte Suchmaschinenalgorithmen und im dritten Kapitel werden Möglichkeiten vorgestellt eine Homepage möglichst weit oben gereiht zu haben in der Liste
der Treffer. Es werden legale Methoden sowie Methoden die den Nutzungsbedingungen der Suchmaschinenanbieter widersprechen vorgestellt. Neue Technologien werden in Kapitel 5 behandelt,
dabei wird auf Probleme für Suchmaschinen hingewiesen und wie man mit kleinen Veränderungen
diesen Problemen entgegenwirken kann.
Abstract
The amount of information is growing rapidly. Web pages, blogs, newsgroups offer a huge potential of information and communication. For a human being it is hardly possible to get an
overview of all that information. Therefore search-engines have been introduced and continuously improved. Today’s search-engines can handle HTML-based web pages rather good but still
have their problems with contend of web 2.0, flash or information which is changing very fast.
This paper tries to give the reader an overview about state of the art techniques in a nutshell,
points problems and gives some ideas how they can be solved in future. Chapter 1 is about the
history of the internet and search-engines. A short overview about algorithms used by searchengines is given in chapter 2. There are several techniques to improve the ranking of a own
homepage by attending some basic rules or some tricks which are not compliant with mostly
common search-engine’s terms of use (Chapter 3).
Chapter 4 describes problems caused by searching-engines regarding data protection and other
law-subjects. New technologies like Java, Flash or Ajax cause difficulties which are described in
chapter 5.
Keywords: Archie, Veronica, Gopher, Arpanet, NCP, Aliweb, Altavista, Yahoo, Google,
Bing, Web 2.0, Problem for search-engines, solution for search-engines, history of search-engines,
history of internet, PageRank, HITS, Hilltop, SALSA, Suchmaschinenoptimierung, OffPageOptimierung, OnPage-Optimierung, robots.txt, Meta-Tags, Suchmaschinen-Spamming, TextHidding, Keyword-Stuffing, Cloaking, Linkfarm, Doorway-Page
Inhaltsverzeichnis
Inhaltsverzeichnis
i
Abbildungsverzeichnis
iii
1 Einleitung
1
1.1
Historische Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Exkurs - Entstehung des Internets . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.3
Erste Suchmaschinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.4
Entwicklung in den vergangenen Jahren und Status Quo . . . . . . . . . . . . . .
2
2 Suchmaschinenalgorithmen
5
2.1
PageRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2
Hypertext-Induced Top Selection (HITS) . . . . . . . . . . . . . . . . . . . . . . .
6
2.3
Subgraph des WWW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.4
Berechnung von Hubs und Authorities . . . . . . . . . . . . . . . . . . . . . . . .
8
2.5
Stochastic Approach for Link-Structure Analysis (SALSA) . . . . . . . . . . . . .
8
2.6
Hilltop-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3 Suchmaschinenoptimierung
11
3.1
Off-PageOptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.2
OnPage-Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.3
Suchmaschinen-Spamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
4 Rechtliche Aspekte
17
4.1
Rechtliche Grundlagen in der EU und Österreich . . . . . . . . . . . . . . . . . .
17
4.2
Datenschutz bei Suchmaschinen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
5 Probleme mit neuen Technologien
19
5.1
Web 2.0 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
5.2
Java und Flash . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
6 Zusammenfassung und Ausblick
23
Literaturverzeichnis
26
i
ii
Abbildungsverzeichnis
2.1
Hubs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2
Authority . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
3.1
Aufmerksamkeit auf einer Google-Seite (Hübener, 2009, S. 41) . . . . . . . . . . .
11
5.1
Eiffelturm auf Yahoo-maps
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
5.2
Ablauf bei Ajax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
iii
iv
Kapitel 1
Einleitung
1.1
Historische Entwicklung
Das Internet ist zweifellos eine der revolutionären Entwicklungen der Menschheit. Den Beginn
kann man mit den 1960ern angeben mit der Grundidee von Leonard Kleinrock ein globales
Computernetzwerk zu schaffen. Jeder sollte jederzeit sich mit jedem Gerät verbinden können.
vgl. Gütl [2002]
1.2
Exkurs - Entstehung des Internets
1969 waren an das ARPANET bereits 4 Computersysteme angeschlossen. Features wie Paket
Switching und die Möglichkeit unterbrochene Leitungen durch einen einfachen Routing - Algorithmus zu umgehen sorgten dafür dass sich relativ früh das US-Militär dafür interessierte.
In kriegerischen Auseinandersetzungen ist es enorm wichtig trotz einem teilzerstörten Netzwerk
noch kommunizieren zu können. Von nun an investierte das US-Militär kräftig in das ARPANET.
Es ist jedoch noch zu erwähnen dass es auch andere Visionäre gab wie z.B. L.C. Licklieder. Seiner
Vision nach könnten die Möglichkeiten der Menschen erheblich gesteigert werden durch den Einsatz vernetzter Computer. 1970 wurde das NCP (Network Control Protocol ) als erstes Protokoll
beschlossen und 1971 damit begonnen erste Anwendungen zu implementieren. Von nun an ging
es mit schnellen Schritten weiter, 1972 fand die (ICCC) International Computer Communication
Conference statt und eine erste E-Mailfunktionalität war verfügbar. Es wurde die Idee entwickelt
andere bestehende Netz wie z.B. Packet Satellite Network und das Packet Radio Network zu integrieren. Dieser Zeitpunkt kann als die Geburtsstunde des Internets gesehen werde. 1973 wurden
wie Weichen für Transmission Control Protocol / Internet Protocol (TCP/IP) gestellt. Die IP Adresse wurde auf 32 Bit festgelegt, allerdings erst 10 Jahre später wurde das ARPANET auf
IP umgestellt. Nur 2 Jahre später, 1985 war das Internet etabliert und eine große Gruppe von
Entwicklern und Wissenschaftler nutzen es zur Kommunikation in Information. 1989 war der
erste grafikfähige Browser verfügbar. Telnet, FTP und Email waren schon davor verfügbar. Ende
der 1990er kam es zu einem Internethype. Private Anwender hatten nun ebenfalls die Möglichkeit
mit geringen Mitteln ins Internet zu gehen. Mit der Zunahme der privaten Internetnutzer kamen
neue Anwendungen hinzu wie Peer - to-Peer oder Livestreaming. vgl. Gütl [2002]
1.3
1.3.1
Erste Suchmaschinen
Archie
1990, an der McGill Universität in Montreal hatten 3 Informatikstudenten die Idee einen Suchbot
zu programmieren der FTP-Archive durchsucht, die darin enthaltenen Dateien Indiziert und das
1
2
1. Einleitung
Sortierergebnis Benutzern zugänglich macht. Der Inhalt von Dateien konnte noch nicht durchsucht werden, aber wenn man den Dateinamen (oder Teile davon) wusste konnte Archie dem
Benutzer ein nützliches Ergebnis in Form einer Datei mit zutreffenden oder ähnlichem Namen
liefern vgl. Koch [2007]
1.3.2
Gopher und Veronica
Gopher ist ein WWW-Vorläufer. Es gibt Server auf die mittels Gopher - Client zugegriffen
wird. Entwickelt wurde Gopher zusammen mit dem dazugehörigen Suchdienst V.E.R.O.N.I.C.A.
(Very Easy Rodent-Orientated Netwide Index to Computerized Archieves) an der Universität
von Nevada in Reno 1991. Veronica hatte schon große Ähnlichkeit mit heutigen Suchmaschinen.
Monatlich wurden alle Gopherseiten die beim Gopherhauptserver in Reno registriert waren neu
indiziert. Es wurden bereits Suchoperationen wie AND,OR und NOT unterstützt. vgl. Koch
[2007]
1.3.3
AliWeb
1993 wurde das Archie like Indexing of Web (AliWeb) veröffentlicht. Betreiber von WWWServern wurden veranlasst standardkonforme Dateien auf ihren Servern zu hinterlegen die ihren
Service beschreiben sollten. Die Adresse dieser Datei wurde Aliweb mitgeteilt und auf Basis
davon die Seite indiziert. vgl. Koch [2007]
1.3.4
Altavista
“Altavista” bedeutet “die Sicht von oben”. Diese Suchmaschine gilt als die erste kommerzielle
Suchmaschine. Suchmaschinen davor wurden von Universitäten oder anderen staatlichen Organisationen betrieben. Altavista ist das Ergebnis der Forschungsabteilung der Digital Equipment
Corporation in Palo Alto/Kalifornien und ging 1995 online. Mit Babel Fish wurde der erste
Onlineübersetzungsdienst für Text oder Webseiten vorgestellt. Heute greift Altavista auf die
Datenbank von Yahoo zu und ist dadurch nicht mehr als eigene Suchmaschine zu werten. vgl.
unbekannt [2001]
1.4
1.4.1
Entwicklung in den vergangenen Jahren und Status Quo
Yahoo!
David Filo und Jerry Yang, Ph. D. Studenten der Stanford University führten Listen von Homepages für den persönlichen Gebrauch. 1994 wurden diese Listen online gestellt und die Welt war
um eine Suchmaschine reicher. Yahoo ist eine Abkürzung und steht für “Yet Another Hierarchical
Officious Oracle” Den Gründern zufolge wurde das Wort “Yahoo” auf Grund seiner Beschreibung
im Wörterbuch gewählt. 1995 wurde aus Yahoo eine Firma und diese zog ins Silicon Valley nach
Kalifornien. Sequoia Capital investierte in die junge Firma im selben Jahr 2 Millionen USD dadurch konnte eine der heute erfolgreichsten Suchmaschinen so richtig durchstarten. Im Herbst
1994 konnte Yahoo die Millionste Anfrage feiern. Heute hat Yahoo mehr als eine Million Anfragen
am Tag. vgl. History [2009]
1.4. Entwicklung in den vergangenen Jahren und Status Quo
1.4.2
3
Google
Der Name der zur Zeit populärsten Suchmaschine soll vom Wort "googol"kommen. September
1998 ging die erste BETA-Version von Google online und hat sich von der Optik nur mehr gering
verändert. Neu an Google war einerseits ein Ranking mittels Popular Linking und Citation Index
andererseits ging man im Marketing auch neue Wege durch bezahlte Anzeigen und Beeinflussung des Rankings. Google ist einer der beliebtesten Arbeitgeber: Hochflexible Arbeitszeiten,
kleine Arbeitsgruppen, Gratis Snacks und Getränke sowie kostenlose Kinderbetreuung locken
viele Bewerber an. Zukünftige Google-Mitarbeiter müssen einen Bewerbungstest machen der eine Mischung aus Intelligenztest und psychologischem Test darstellt. Eine Flut an Extradienst
die für Benutzer kostenlos sind wird von einer sehr großen Fan-Gemeinde dankbar angenommen.
Google-Maps (Ein Landkartendienst mit Routenplanung), GMAIL (gratis Emailkonto), GoogleBooks ((teil)eingescannte Bücher mit Suchfunktion), Streetview (die Welt in 3D entdecken und
durch Straßen gehen am Computer), Google-Earth (Satellitenbilder), GoogleDocs (Dokumente
wie Texte und Tabellen online erstellen und speichern) sind einige Beispiele der Zusatzdienste die
von Google ständig erweitert werden. Mit Chrome (einem Browser) und einem Handybetriebssystem (Android) erweitert Google ständig sein Geschäftsfeld und macht seit Jahren etablierten
Firmen Konkurrenz. Ein auf Linux basierendes Betriebssystem dass hauptsächlich zum Surfen
(und Google Onlineservices) gedacht ist wurde angekündigt unter dem Namen Chrome OS. vgl.
Vise [2006]
1.4.3
Bing
Bing ist heute die Jüngste der großen 3 Suchmaschinen (Google, Yahoo und Bing). Offiziell ist
Bing noch in der Beta-Phase. Seit Juni 2009 ist die von Microsoft betriebene Suchmaschine
verfügbar. Bing soll mit seinen neuen Techniken (Quick Tabs, Autosuggest, Best Match) den Benutzer mit seinen Anfragen besser verstehen und aus eingegebenen Flugnummern Linienpläne,
sowie aus einer Datenflut an Treffern selbstständig die interessanteste heraussuchen. Eine Vorschaufunktion in der Trefferliste zeigt die daran verlinkte Homepage an. Es sollen 100 Millionen
USD in die neue Suchmaschine geflossen sein, Unsummen im Vergleich zu anderen Suchmaschinen und zu deren Beginn. Allerdings ist zu berücksichtigen dass Suchmaschinen ein gewaltiges
Potential bieten und einen großen Markt mit viel Geld darstellen. vgl. Kremp [2009]
4
1. Einleitung
Kapitel 2
Suchmaschinenalgorithmen
Dieses Kapitel beschäftigt sich mit ausgewählten Ranking-algorithmen die von Suchmaschinen
eingesetzt werden, oder zumindest irgendwann in der Vergangenheit eingesetzt wurden. Da beispielsweise Google, die wohl bekannteste Suchmaschine aus ihren Suchalgorithmen ein Geheimnis
macht, können wir nur spekulieren wie sie ihre Suchanfragen abfertigt. Zuerst wird der PageRank Algorithmus vorgestellt, der im Jahr 1998 die Basis für die Gründung von Google war.
Weiters wird der Hypertext-Induced Top Selection (HITS) diskutiert. Basierend auf diesen zwei
Algorithmen ist der SALSA entworfen worden. Und am Ende des Kapitels schreiben wir noch
über den Hilltop-Algorithmus, der ebenfalls von Google patentiert wurde.
2.1
2.1.1
PageRank
Grundidee von PageRank
Der PageRank Algorithmus wurde 1998 vom Larry Page und Sergei Brin an der Stanford University entwickelt. Dieser Algorithmus basiert auf der Idee des InDegree Algorithmus. Eine Menge
von Dokumenten wird als ein Graph repräsentiert. Anhand der Graphenstruktur werden die Dokumente bewertet und gewichtet. vgl. Page et al. [1999]
Jedes Dokument besitzt ein Gewicht. Das Gewicht einer Seite wird anhand der Verlinkungen die
zu dieser Seite führen berechnet. Je höher die Anzahl der Links die zu einer Seite führen, desto
höher ist ihr Gewicht. Wenn die Links die auf diese Seite verweisen ebenso eine hohe Gewichtung
haben, bekommt die Seite auf die sie verweisen auch eine höhere Gewichtung.
“Generally, higly linked pages are more “important” than pages with few links.”
Page et al. [1999]
Der PageRank Algorithmus ist wie folgt definiert: vgl. Brin and Page [1998]
Definition 1
P RA =
n
X
1−d
P RT i
+d
N
CT i
i=1
Dabei ist:
N die Anzahl der gesamten Seiten
d ein Dämpfungsfaktor (damping factor) zwischen 0 und 1, oft wird d als 0.85 gesetzt
P RA ist der PageRank einer Seite A
P RT i der PageRank der Seite T i, von der ein Link auf die Seite A zeigt
CT i die Gesamtanzahl der Links auf Seite Ti
5
(2.1)
6
2. Suchmaschinenalgorithmen
Der PageRank Algorithmus bewertet Webseiten nicht in ihrer Gesamtheit, er bewertet nur die
Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A wird dabei rekursiv aus
dem PageRank der Seiten Cj von denen ein Link auf die Seite i zeigt.
“Note that the PageRanks form a probability distribution over web pages, so the sum
of all web pages’ PageRanks will be one.”
Page et al. [1999]
2.1.2
Random Surfer Modell
Im der Veröffentlichung Page et al. [1999] wird das PageRank Verfahren anhand eines Random
Surfers erklärt. Der Surfer verfolgt beliebige Links von einer zur nächsten Webseite ohne dabei
auf den Inhalt der Seite zu achten. Aus dem PageRank der Seite kann abgelesen werden wie hoch
die Wahrscheinlichkeit ist, das der Benutzer auf eine Webseite kommt.
Die Wahrscheinlichkeit dass der Random Surfer nun einen bestimmten Link verfolgt hängt von
der Anzahl der Links die ihm zu Verfügung stehen, ab. Deswegen beeinflusst der PageRank einer
Seite die verlinkende Seite umso weniger umso mehr ausgehende Links die Seite besitzt.
Je mehr Verlinkungen eine Seite hat, desto kleiner ist der Wert mit dem sie andere verlinkten
Seiten PageRank beeinflusst.
2.1.3
Kritik an PageRank
• Seitenbetreiber die bereit sind Geld auszugeben können sich “Backlinks” besorgen.
• Die Webseiten werden nicht auf die inhaltliche Qualität gemessen
2.2
Hypertext-Induced Top Selection (HITS)
1998 stellte Kleinberg den Hypertext Induced Top Selection (HITS) Algorithmus vor. Die Webseiten werden anhand von zwei Qualitätswerten bewertet, “authority weight” und “hub weight”.
Das “authority weight” beschreibt die Qualität einer Webseite die selber als Ressource dient, und
das “hub weight” beschreibt die Qualität einer Seite die als ein Hub dient. Hubs sind Webseiten die auf andere Seiten verweisen. Beispielsweise können populäre Linksammlungen als Hubs
angesehen werden. Oder wie Kleinberg es in seiner Arbeit vgl. Kleinberg [1999] formuliert hatte:
“Our model is based on the relationship that exists between the authorities for a topic
and those pages that link to many related authorities - we refer to pages of this latter
type as hubs.”
Seiten die selbst einen guten Inhalt haben, also die so genannten “Authorities” werden von den
Hubs oft verlinkt.
2.3
Subgraph des WWW
Sei V eine Menge von Seiten die durch Hyperlinks verbunden sind. Diese Menge wird durch einen
gerichteten Graph G = (V, E) repräsentiert. Die Knoten des Graphen sind die Webseiten und
die gerichtete Kane (p,q) ∈ E stellt den Link von p nach q dar. Die ausgehenden Kanten stellen
die Verlinkungen zu anderen Webseiten da, und die eingehenden Kanten bezeichnen die Anzahl
der Seiten die auf diese Seiten verweisen.
7
2.3. Subgraph des WWW
Abbildung 2.1: Hubs.
Abbildung 2.2: Authority.
“The algorithm operates on focused subgraphs of the www that we construct from
the output of a text-based www search engine; our technique for constructing such
subgraphs is designed to produce small collections of pages likely to contain the most
authoritative pages for a given topic.”
vgl. Kleinberg [1999]
Nun stellt sich die Frage wie kann ein Subgraph gefunden werden, der alle Seiten enthält die
einer bestimmten Benutzeranfrage (String σ) entsprechen. Die Anzahl der Seiten mit relevantem
Inhalt für eine bestimmte Suchanfrage kann oft Millionen Seiten umfassen. Idealerweise wird als
Ergebnis eine Menge Sσ zurückgeliefert, die sehr klein ist, sehr viele relevante Seiten enthält und
aus Seiten die als Authorities gekennzeichnet sind besteht.
Mögliche Herangehensweise:
• Bestimme Menge Qσ (alle Seiten, die String σ enthalten, die Initialmenge)
• Bestimme Menge Sσ (wichtigste Seiten aus Qσ und “umliegende Seiten”)
Bestimmung von Qσ :
• finde alle Seiten, die String σ enthalten
Es werden zu viele Seiten gefunden, dafür wird sehr große Rechenleistung benötigt.
Bestimmung von Sσ :
• finde aus Menge Qσ t Seiten mit höchstem Ranking
(in der Praxis wird hier eine Suchmaschine herangezogen und üblicherweise die ersten 200
Treffer hrangezogen)
Diese Menge wird als die Wurzelmenge bezeichnet Rσ
Damit wird gewährleistet, dass die Ergebnismenge klein ist, und dass sie sehr viele relevante
Seiten enthält. Jedoch wird der Punkt nicht erfühlt, der besagt, dass möglichst viele Seiten in
8
2. Suchmaschinenalgorithmen
der Menge Sσ mit sehr hohem “authorities Ranking” vorkommen sollen.
Deswegen wird die Menge Rσ zu Sσ erweitert mit Seiten die nach Rσ verlinken und Seiten die
von Rσ aus verlinkt werden.
Da es aber nun sehr viele Verweis-Seiten die in die Initialmenge Qσ verweisen geben kann wir
die Anzahl der Links auf ein Maxima d begrenzt. vgl. Kleinberg [1999]
2.4
Berechnung von Hubs und Authorities
Der Graph Gσ ist auf eine bestimmte Suchanfrage ausgelegt und enthält viele relevante Seiten
weiters ist die Gewichtung der “Authority” groß. Die Anzahl der eingehenden Kanten wäre eine sehr einfache Variante zur Berechnung der Authorities. Dadurch würden aber jedoch auch
Seiten gefunden werden, die einfach sehr populär sind, aber nicht zwingend starke Authorities
haben. Deswegen hat Kleinberg die Gewichtung des Hubs in die Summe der Linkanzahl mit
hineingenommen.
Definition 2 Kleinbergs Algorihmus
Die Authorities werden aus den Hub-Werten der Seiten die auf sie verlinken berechnet:
I-Werte
X
x<p> =
y <q>
(2.2)
q:(q,p)∈E
Die Hubs werden aus den Authority Werten der Seiten, auf die sie verlinken berechnet:
O-Werte
X
x<q>
y <p> =
(2.3)
q:(q,p)∈E
Es muss auch gelten:
x < p >, y < p >?0
(2.4)
Ablauf des Algorithmus:
1. alle Hubs und Authorities haben Wert 1
2. neue Hub und Authority berechnen
3. wiederhole Schritt 2. und 3. t mal
Bei t = 20 konvergiert der Algorithmus gut!
2.5
Stochastic Approach for Link-Structure Analysis (SALSA)
Der SALSA Algorithmus der von Lempel und Moran eingeführt wurde, basiert auf dem PageRank
Algorithmus und dem HITS Algorithmus. SALS unterscheidet, so wie der HITS Algorithmus
zwischen Hubs und Authorities, jedoch kommt hier ein zufälliger Weg durch einen Graph dazu,
ähnlich wie bei dem PageRank Verfahren. Bei SALSA ist der Graph jedoch ein bipartiter Graph.
Die eine Seite des Graphen enthält Hube-Seiten und die zweite Seite enthält nur AuthoritySeiten. Jedoch kann jede Seite auch in beiden Mengen vorkommen. In einem Schritt werden
immer zwei Knoten durchlaufen, damit ist gewährleistet, dass man wieder auf der gleichen Seite
des Graphen landet. vgl. R. Lempel [1998]
2.6. Hilltop-Algorithmus
2.6
9
Hilltop-Algorithmus
Der Hilltop Algorithums wurde 1999 vom Krishna Bharat und George A. Mihaila erfunden.
Seit 2003 besitzt Google das Patent für den Algorithmus. Krishna Bharat arbeitet nun auch bei
Google.
Der Hillpop Algorithmus sortiert genau so wie weiter oben vorgestellte Algorithmen eine Menge
von Dokumenten nach der Relevanz einer Suchanfrage. Laut Krishna Bharat [1999] sehen sich die
meisten Benutzer nur die ersten 10 bis 20 Suchergebnisse an. In ihrer Arbeit “Hilltop: A Search
Engine based on Expert Documents” stellen sie einen Algorithmus vor der die beste Quelle für
eine bestimmte Suchanfrage auf der ersten Stelle ausgibt.
Das Verfahren besteht aus zwei Phasen. Zuerst werden Expertenseiten zu einem Keyword definiert. Diese Seiten sind Dokumente die auf andere hochwertige Dokumente zum Thema verweisen. Es gibt eine Vielzahl von solchen Verlinkungen jedoch mindestens fünf. Die Expertenseiten
werden automatisch bestimmt und gefunden. Es wird Wert darauf gelegt, dass die Expertenseiten keine Linkbeziehungen untereinander haben. Weiters müssen die Seiten aus unterschiedlichen
IP Adressen stammen, also unterschiedliche Domainnamen haben. Die zweite Phase, dient der
Bestimmung der Autoritätsseiten. Um solche Autoritätsseiten zu bestimmen werden die Anzahl
der verweisenden Expertenseiten und die Relevanz der verweisenden Expertenseiten herangezogen. Dies bedeutet dass die Autorität nach Hilltop bestimmt wird. Dieser Algorithmus reicht
aber nicht aus um eine gute Sortierung vorzunehmen. Es wird gemutmaßt, dass Google Hilltop
zusätzlich zu vielen anderen Algorithmen verwendet. vgl. Krishna Bharat [1999]
10
2. Suchmaschinenalgorithmen
Kapitel 3
Suchmaschinenoptimierung
Das folgende Kapitel behandelt welche Möglichkeiten es gibt seinen Internetauftritt so zu gestalten, dass bei Suchmaschinen ein hohes Ranking erreicht. Abbildung 1 zeigt die durchschnittliche
Aufmerksamkeit auf einer Google-Seite. Dabei zeigt die unterschiedliche Helligkeit jeden Bereiche, welche von den Probanden fixiert wurden. Die Kreuze markieren die Punkte die angeklickt
wurden und die horizontalen Linien wie weit die Probanden die Ergebnisliste heruntergescrollt
haben. Diese Abbildung zeigt deutlich, dass Benutzer von Google meist nicht über die ersten
drei Suchergebnisse hinaus kommen. Das legt den Schluss nahe, dass man seine Seite so suchmaschinenfreundliche wie möglich gestalten sollte, damit man zumindest unter die TOP-10 kommt.
vgl. Hübener [2009]
Bei der Optimierung wird unterschieden in OnPage- und OffPage-Optimierung. Dabei beschäf-
Abbildung 3.1: Aufmerksamkeit auf einer Google-Seite Hübener [2009].
tigt sich die OffPage-Optimierung mit der Struktur der Website wie zum Beispiel der Hierarchie,
Dateinamen und der Domain. Bei der OnPage-Optimierung werden Programmierung und Gestaltung des Internetauftritts behandelt.
11
12
3. Suchmaschinenoptimierung
3.1
Off-PageOptimierung
Nicht nur Layout und Inhalt sondern auch die Struktur des Internetauftritts ist von grofler Bedeutung. Im Folgenden werden einige Punkte umrissen auf die bei der Planung eines Internetauftritts
geachtet werden soll.
3.1.1
Hierarchieebenen beim Internetauftritt
Eine hierarchisch aufgebaute Seitenstruktur hat unter anderem den Vorteil thematische Zusammenhänge zwischen den Inhalten und der Ordnerstruktur herzustellen. Die Nachteile sind jedoch,
dass Benutzer sich lange URLs nur schwer merken und WebCrawler nicht unbedingt in bis in die
tiefste Hierarchieebene vordringen. Für Suchmaschinen spielt die Verzeichnistiefe auch insofern
eine wichtige Rolle, dass angenommen wird, je tiefer ein Dokument in der Verzeichnisstruktur
desto geringer ist seine Bedeutung. Suchmaschinen bedienen sich hier zweierlei Methoden - zum
einen die Breitensuche und zum anderen die Tiefensuche. Bei der Breitensuche werden zuerst alle
Links einer Seite verfolgt und anschlieflend alle Links der nächsten Seite. Dadurch ergibt sich eine
grofle Sammlung an Top-Level-Seiten allerdings werden Seiten in tieferen Hierarchien vernachlässigt. Die Tiefensuche verfolgt den ganzen Graphen einer Seite bis zur letzten Seite. Anschlieflend
wird die Tiefensuche eine Ebene höher fortgesetzt. Dadurch wird zuerst ein Internetauftritt quasi
komplett erfasst, bevor die Tiefensuche beim nächsten weitergeht. Aus Erfahrungen heraus wird
demnach empfohlen maximal drei Verzeichnisebenen zu verwenden. Diese Ebenen sollten von
Suchmaschinen welche die Breitensuche - z.B. Altavista - sowie von Suchmaschinen welche die
Tiefensuche - z.B. Google - verwenden komplett erfasst werden. vgl. Koch [2009]
3.1.2
Verzeichnis und Dateinamen
Ein weiterer wichtiger Aspekt ist die Gestaltung der Dateinamen und Verzeichnisse. Dateinamen
und Verzeichnisse sind die ideale Plattform für die Platzierung von Schlüsselwörtern, nichtssagende Namen wie start.html, neues.html oder 2009.html sollten deshalb vermieden werden.
Gute Beispiele sind notebooks-kaufen.html oder notebooks-leasing.html, diese Namen enthalten
bereits schlüssige Informationen die darauf hinweisen um was es auf dieser Internetseite geht.
Dabei sei noch eines zu beachten: Suchmaschinen ignorieren meist die Unterstriche “_”. Wörter
die durch einen Unterstrich getrennt werden, werden für die Indizierung zusammengefügt. Will
man das vermeiden empfiehlt es sich den Bindestrich “-” zu verwenden. vgl. Koch [2009]
3.1.3
Zugriffssteuerung mit robots.txt
Mit der robots.txt können zentrale Indizierungsanweisungen definiert werden, welche von Suchmaschinenrobots beachtet werden. Durch die Definitionen in der robots.txt wird den Suchmaschinen mitgeteilt welche Verzeichnisse oder Dokumente ausgelesen werden dürfen und welche
nicht. Dabei kann unterschieden werden welcher Robot einer Suchmaschine welche Aktionen setzen darf. Y. Bischopnick [2007] Der Aufbau der robots.txt ist simpel. Hier einige Beispiele vgl.
Y. Bischopnick [2007]
Beispiel 1 Alle Robots dürfen alle Dateien und Verzeichnisse indizieren:
1
2
User Agent : ∗
Disallow :
Beispiel 2 Alle Robots dürfen nichts indizieren:
3.2. OnPage-Optimierung
1
2
3
13
User Agent : ∗
Disallow : /
Disallow :
Beispiel 3 Googlebot darf die keine gif. und jpeg-Dateien indizieren:
1
2
3
User Agent : googlebot
Disallow : / ∗ . gif$
Disallow : / ∗ . jpeg$
Folgende Eckpunkte sind bei der Verwendung der robots.txt Datei zu beachten vgl. Koch
[2009]
• exakte Schreibweise robots.txt
• Die Datei muss im Wurzelverzeichnis der Domain abgelegt sein
• keine Fehler in der robots.txt-Datei selbst. Dies führt dazu, dass im Zweifelsfall keine
Indizierung durchgeführt wird.
3.2
OnPage-Optimierung
Im Gegensatz zur OffPage zielt die OnPage-Optimierung auf die einzelnen Seiten des Internetauftrittes ab. Dabei werden Themen wie die optimale Startseite, Navigation und Layout behandelt.
3.2.1
Seiteninhalt
Zunächst muss einmal beachtet werden, dass nicht jedes Dateiformat von einer Suchmaschine gelesen und somit indiziert werden kann. Probleme gibt es zum Beispiel bei dynamisch generierten
Seiten und Skriptdateien wie php, asp, jsp und cfm. Hier sind die Informationen nicht erfassbar da sie erst bei der Verwendung der Seiten generiert werden. Ein weiteres Problem stellen
Flashanimationen oder Silverlight-Anwendungen dar. Diese Inhalte sind von einem Groflteil der
Suchmaschinen nicht oder nur in sehr geringem Mafle erfassbar. Hierzu sei auf das Kapitel “Probleme mit neuen Technologien” verwiesen. vgl. Y. Bischopnick [2007] Der Inhalt der Startseite
ist von besonderer Wichtigkeit. Reine Begrüflungen oder Aufzählungen von Leistungsangeboten
bieten Suchmaschinen keine interessanten Keywords bzw. den Benutzern kaum wertvolle Information. Es sollte darauf geachtet werden, dass Menüpunkte nicht nur einzelne Keywords sind
sondern auch kurze Infotexte beinhalten. Das liefert den Suchmaschinen und Benutzern mehr
Information. vgl. Koch [2009]
3.2.2
Navigation
Bei der Navigation ist darauf zu achten dass Suchmaschinen mit den Verlinkungen arbeiten
können und diese Verfolgen können. Die schönste Flash-Navigation nützt nichts, wenn die Suchmaschine keine Möglichkeit hat eine Tiefensuche auf der Homepage vorzunehmen, da die Links
nicht lesbar sind. Das Navigationsmenü sollte Text enthalten, diese liefert den Benutzern dieselbe
Information und Suchmaschinen noch zusätzlich Keywords und verfolgbare Links. Java-Applets
und Flashanimationen sind hingegen nicht lesbar. vgl. Koch [2009]
14
3. Suchmaschinenoptimierung
3.2.3
HTML & CSS
In den Anfangsphasen des www bzw. der HTML-Programmierung waren z.B. Frames, IntroSeiten und Layout-Tabellen üblich. Heute sollte man auf solche Programmierungen verzichten.
Frames bieten zwar die Möglichkeit die Navigationsleiste vom Inhalt abzukoppeln, das Problem
ist jedoch, dass Suchmaschinen beim durchsuchen nur die Frameseite finden und nicht deren
Unterseiten. Werden die Unterseiten doch indiziert so erhalten sie einen vergleichsweise wesentlich
geringeren PageRank als framelose Unterseiten. Intro-Seiten haben das Problem, dass sie meist
keine relevanten Informationen enthalten und nur auf die eigentliche Startseite verlinken. Deshalb
sind Intro-Seiten für ein gutes Ranking eher kontraproduktiv. Ein Relikt aus vergangener Zeit
sind Layouttabellen. War es früher üblich mittels Tabellen Text und Bilder zu positionieren,
so stellen mehrfach ineinander verschachtelte Tabellen für Suchmaschinen eher Datenmüll dar.
Koch [2009] Bei der Gestaltung der Seiten muss auf ein “perfektes” HTML Wert gelegt werden.
Unter perfektem HTML ist zu verstehen, dass es keine offenen Tags gibt bzw. keine anderen
Programmierfehler. Suchmaschinen sind meist nicht so tolerant beim durchsuchen der Seiten
wie z.B. Webbrowser bei der Darstellung. Gut strukturierte Seiten erhalten meist ein höheres
Ranking. Der Aufbau bzw. die Struktur einer Seite sollte sich möglichst an folgendem Schema
orientieren vgl. Koch [2009]
• Titel
• Metadaten
• Überschrift erster Ordnung
• Text
• Überschrift zweiter Ordnung
• Text
• etc.
Die Layoutdefinition - Schriftfarbe, Gröfle, etc. - sollte mittels Cascading Style Sheets erfolgen. Das verhindert, dass der HTML-Code unnötig vermehrt wird und das Ranking dadurch
verschlechtert wird.
3.2.4
Meta-Tags
Unter Meta-Tags werden Zusatzinformationen im HTML-Dateikopf verstanden, welche für den
Benutzer erst im Quellcode sichtbar werden. Unter Zusatzinformationen werden unter anderem
verstanden: Autor, Datum, Verbieten oder Gestatten von Zugriffen von Suchprogrammen, Kurzbeschreibung, Schlüsselwörter für Suchprogramme, Zeichensatz, Sprache, etc. vgl. J. Böhringer
[2008] Hier ein paar Beispielhafte Meta-Tags:
Zugriff durch Suchprogramme verbieten:
1
<meta name=" r o b o t s " content= " noindex " />
Zugriff durch Suchprogramme gestatten:
1
<meta name=" r o b o t s " content=" i n d e x " />
Kurzbeschreibung für Suchprogramme:
3.3. Suchmaschinen-Spamming
1
15
<meta name=" d e s c r i p t i o n " content=" P o r t a l f \ " ur Webdesigner " />
Schlüsselwörter für Suchprogramme:
1
<meta name=" keywords " content= " G e s t a l t u n g , Webdesign , Layout , Design ,
M e d i e n g e s t a l t e r , Medien " />
Mit dem Tag <meta name="robots" content= "index, nofollow" /> wird der Suchmaschine mitgeteilt, dass eine Indizierung erwünscht ist jedoch die die integrierten Links nicht verfolgt werden
sollen. Die Suchmaschinenrobots halten sich Groflteils an die Verbote, ob eine Seite in die den Index aufgenommen wird bestimmt jedoch der Suchmaschinenbetreiber. vgl. Y. Bischopnick [2007]
3.3
Suchmaschinen-Spamming
Natürlich gibt es auch die Möglichkeit das Ranking von Internetseiten mittels im Graubereich
oder im “illegale” Bereich angesiedelten Methoden zu verbessern. Zu beachten ist dabei allerdings, dass man eine Sperre auf dem Suchmaschinenindex riskiert. Sobald eine Seite als Spam
eingestuft wird, wird sie manuell von einem Mitarbeiter des Suchmaschinenbetreibers überprüft
und eventuell gesperrt.
3.3.1
Keyword-Stuffing
Unter Keyword-Stuffing versteht man alle Techniken die versuchen eine möglichst grofle Anzahl
von Keywords auf eine Webseite zu platzieren. Dabei gilt, je häufiger ein Schlüsselwort innerhalb
eines Dokuments vorkommt, desto wichtiger ist es für den Inhalt des Dokumentes. Keywords
werden meist in Meta-Tags platziert, wo sie für den User nicht sichtbar sind, für die Suchmaschine
jedoch lesbar. Rechtlich ist hier anzumerken, dass es in der deutschen Rechtsprechung bereits
Ahndungen bei Keyword-Stuffing gekommen ist. Mittels Schlüsselwörtern kann erreicht werden,
dass ein und dieselbe Homepage bei unterschiedlichen Suchmaschinen die ersten Treffer darstellt.
Dies wurde vom Bundesgerichtshof 2006 als Verstofl gewertet weil damit anderen Wettbewerbern
der Zugang zu potentiellen Kunden versperrt wird. vgl. Eichhorn [2007]
3.3.2
Text-Hidding
Das Text-Hidding ist einfach umzusetzen, allerdings auch einfach zu entlarven. Dabei wird Text
auf der Internetseite versteckt, indem z.B. die Textfarbe und die Hintergrundfrage gleich sind.
Für den Benutzer ergeben sich auf der Seite vielleicht ein paar “weiße” Lücken, die Suchmaschinen finden diesen Text jedoch. Die meisten Suchmaschinen-Bots kontrollieren deshalb den
Farbenunterschied, ist dieser zu gering wird von Spam ausgegangen. vgl. Koch [2009]
3.3.3
Doorway-Page
Eine Doorway-Page - Brückenseite - verfolgt den Zweck speziell für einen bestimmten Begriff
ein hohes Ranking zu erreichen und den Benutzer auf eine andere Website weiterzuleiten. Eine
Doorway-Page zeichnet sich durch folgende zwei Eigenschaften aus
1. Sie bildet eine eigene Website, die optimiert für einen bestimmten Begriff wurde und somit
ein hohes Besucheraufkommen schafft.
2. Sie wird für die Weiterleitung auf die eigentliche Seite verwendet und ist meist keine Landingpage.
16
3. Suchmaschinenoptimierung
Wichtig ist, dass Brückenseiten so gestaltet werden, dass sie die Kriterien für ein optimales Ranking erfüllen. Dabei wird auf den Inhalt nur insofern Rücksicht genommen, dass eine korrekte
HTML-Struktur vorliegt. Brückenseiten haben unter bestimmten Umständen durchaus ihre Berechtigung, z.B. wenn auf grofle Bildergalerien verlinkt werden soll und eine Umgestaltung der
Bildergalerie selbst zu aufwendig ist. vgl. Koch [2009]
3.3.4
Cloaking
Ein ähnliches Ziel wie die Brückenseiten verfolgt das Cloaking. Dabei wird der tatsächliche
Seiteninhalt verhüllt und dem Webcrawler eine andere Seite präsentiert als dem Benutzer. Um
Benutzer und Crawler zu unterscheiden, wird auf die Kennung zurückgegriffen welche bei jedem
HTTP-Request mitgesendet wird. Im nächsten Schritt wird über die CGI-Umgebungsvariable
dem Crawler eine andere Seite präsentiert als dem Benutzer. Allerdings verwenden immer mehr
Suchmaschinenanbieter gefälschte User-IDs und können somit von normalen Benutzern nicht
mehr unterschieden werden. vgl. Koch [2009]
3.3.5
Linkfarm
Linkfarmen sind eine Ansammlung von Internetseiten die auf bestimmte Keywords optimiert
sind und massenhaft Links auf eine bestimmte Internetseite aufweisen. Sinn und Zweck ist die
Erhöhung der Link Popularity Suchmaschinen vergleichen das Verhältnis Inhalt, eingehende und
ausgehende Links und können dadurch Linkfarmen rasch erkennen und sperren. vgl. Y. Bischopnick [2007]
Kapitel 4
Rechtliche Aspekte
Im Rahmen von Diskussionen über Suchmaschinen wie Google, MSN (Bing), Yahoo, etc. werden
in der jüngeren Vergangenheit immer öfter rechtliche Aspekte diskutiert. Besonders dem Thema
Datenschutz wird dabei viel Zeit gewidmet.
4.1
Rechtliche Grundlagen in der EU und Österreich
Innerhalb der Europäischen Union ist das Thema Datenschutz durch mehrere Richtlinien geregelt:
• EG-Datenschutzrichtlinie (DS-RL) bzw. Richtlinie 95/46/EG zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Datenverkehr
• EG-Datenschutzrichtline für elektronische Kommunikation (DSRL-eK) zu Schutz der Privatsphäre in der elektronischen Kommunikation
Diese beiden Richtlinien finden in Österreich Umsetzung im Telekommunikationsgesetz, dem
Datenschutzgesetz 2000 und dem Bundesgesetz gegen den unlauteren Wettbewerb. Überwacht
werden die Richtlinien auf europäischer Basis von der Artikel-29-Datenschutzgruppe und österreichweit von der Datenschutzkommission. Anwendung finden die Richtlinien bzw. die gesetzlichen Vorgaben je nachdem wo der Suchmaschinenbetreiber eine Niederlassung hat. Existiert eine
Niederlassung in einem Staat der europäischen Union so gilt das innerstaatliche Datenschutzrecht auf die Verarbeitung von personenbezogenen Daten. Ist der Suchmaschinenanbieter nicht
innerhalb der Europäischen Union mit einem Standort vertreten, so werden die Richtlinien dann
angewendet, wenn das Unternehmen innerhalb des Hoheitsgebietes des Mitgliedstaates, zum
Zwecke der Verarbeitung personenbezogener Daten auf automatisierte oder nicht automatisierte
Mittel zurückgreift (z.B. Cookies). vgl. Bulut [2009]
4.2
Datenschutz bei Suchmaschinen
Lange Zeit wurden datenschutzrechtliche Fragen bei Suchmaschinen unterschätzt. Erst als die
US-Regierung 2006 von Suchmaschinenbetreibern wie Google, Yahoo, MSN und AOL die übermittlung umfangreicher Informationen zu den Sachanfragen, zum Thema Kinderpornografie, verlangte rückte die Problematik des Datenschutzes in das öffentliche Interesse. Einzig Google verweigerte damals die Herausgabe der Informationen. Ein weiteres Beispiel Negativbeispiel für
Datenschutz war eine Liste mit 20 Millionen Suchanfragen von ca. 650.000 AOL-Nutzern, welche
AOL für Forschungszwecke im Internet verfügbar machte. Dabei wurden die Nutzerprofile durch
17
18
4. Rechtliche Aspekte
Nutzer-IDs ersetzt. Durch ein wenig Recherche im Internet gelang es Suchanfragen Personen zuzuordnen. Nach Protesten entfernte AOL die Liste wieder von ihrer Homepage. Zwischenzeitlich
wurde die Liste kopiert und auf anderen Internetseiten zum Download angeboten. vgl. F. Thiele
[2008]
Seitens der Suchmaschinenanbieter werden mehrere Gründe angeführt weshalb sie personenbezogene Daten speichern und verarbeiten. Dies sind z.B. Verbesserung des Dienstes, Systemsicherheit, Betrugsbekämpfung, Abrechnungsanforderung, Strafverfolgung und personalisierte Werbung etc. vgl. Arbeitsgruppe [2008]
Diesen Gründen stehen zahlreiche Argumente gegenüber weshalb eine Speicherung personenbezogener Daten nicht oder nicht in vollem Umfang notwendig ist. Zum Thema Datenschutz bei Suchmaschinen gibt es bis dato kaum Rechtsprechungen, juristische Fachliteratur oder Prüfverfahren
von Datenschutzaufsichtsbehörden. Diese Lücke versucht die Artikel-29-Datenschutzgruppe mit
einer Stellungnahme für die Kommission zu schließ en. vgl. Weicher [2009]
Überblickmäßig werden hier zwei Beispiele aus der Stellungnahme der Artikel-29- Datenschutzgruppe angeführt vgl. Arbeitsgruppe [2008]
ad Systemsicherheit:
Den Suchmaschinenbetreibern wird ein berechtigtes Interesse in der Verarbeitung von
personenbezogenen Daten für Sicherheitszwecke zugestanden. Daten aus Serverprotokollen sind erforderlich um typische Verhaltensmuster von Benutzern zu erkennen
und z.B. "Denial-of-ServiceAttacken abwehren zu können. Diese Speicherung sollte nur über einen angemessenen Zeitraum erfolgen und der Suchmaschinenbetreiber
muss in der Lage sein den Zweck der Speicherung zu begründen.
ad personalisierte Werbung:
Hier besteht prinzipiell nur dann eine Rechtmäß igkeit zu Verarbeitung von personenbezogenen Daten, wenn eine Einwilligung vorliegt oder die Verarbeitung für die
Erfüllung eines Vertrages erforderlich ist. Eine Rechtmäß igkeit für die Verarbeitung
bei Benutzern die nicht ausdrücklich ihre Einwilligung gegeben haben ist schwer bis
gar nicht nachzuweisen.
Das aktuellste Negativbeispiel liefert Google, mit der Ankündigung künftig Suchanfragen auch
von nicht angemeldeten Benutzern zu personalisieren. Zu diesem Zweck wird auf dem Rechner
ein Cookie abgelegt in dem Informationen über Suchanfragen der letzten 180 Tage abgespeichert
sind. Dabei wird ausgewertet welche Ergebnisse der Benutzer am häufigsten ausgewählt hat
und vergibt an Seiten aus ähnlichen Bereichen künftig einen höheren Rang. Eine Deaktivierung
ist möglich, jedoch kritisieren Datenschützer, dass die Personalisierung standardmäflig aktiviert
ist. vgl. Heiseonline [2009] Wie dieser kurze Exkurs zum Thema Datenschutz bei Suchmaschinen zeigt gibt es in diesem Bereich noch einiges an Aufholbedarf. Besonders im internationalen
Umfeld fehlen zwischenstaatliche Vereinbarungen, welche personalisierte Benutzerinformationen
vor Missbrauch bzw. vor nicht gewollter Verwendung durch Suchmaschinenbetreiber schützen.
Neben einem zwingenden Datenschutzrecht ist es auch dringend erforderlich die "Flucht ins Auslandßu erschweren bzw. mit Marktmechanismen gegenzusteuern. Ein Beispiel hierfür wäre ein
Datenschutz-Gütesiegel oder Datenschutz-Audits. Aber vor allem ist eine Sensibilisierung der Benutzer in Bezug auf die Verwendung ihrer persönlichen Daten dringend notwendig. vgl. Weicher
[2009]
Kapitel 5
Probleme mit neuen Technologien
5.1
Web 2.0 Anwendungen
Aktuelle Suchmaschinen (Yahoo, Bing, Google,..) haben mittlerweile sehr gute Algorithmen um
Suchanfragen von Benutzern zu befriedigen. Probleme bereiten Suchmaschinen jedoch Inhalte
die dynamisch erstellt werden, sich schnell ändern (Wetter, Uhrzeit, News) und alles wo Benutzer
aufgerufen sind mitzumachen und eigene Inhalte leicht und schnell veröffentlichen können (Blogs,
Videoportale, Socialnetworks). Die Probleme betreffen dabei nicht nur die Kurzlebigkeit der
Information und der rasche Veränderung sondern auch das Crawling. Bei welchem Blog soll wie
weit herunter Indiziert werden? Wie unterscheidet man uninteressanten, irrelevanten Datenmüll
von wertvollen Beiträgen? Auch hierfür müssen Lösungen wie für Internetseiten gefunden werden
um festzulegen wie weit Indiziert und gefiltert wird. vgl. Cristian Duda [2008]
5.1.1
Newsgroup/Blog
Jeder Internetteilnehmer kann mit einfachsten Mitteln (Newsreader oder Mitgliedschaft bei einem Blogportal) seine Meinung zu einem Thema für jeden zugänglich machen. Es ist unmöglich
diese Datenflut zu überschauen und ähnlich wie bei Internetseiten können hier auch Suchmaschinen helfen in einer Flut von Beiträgen relevante Informationen zu liefern.
Es wäre beispielsweise möglich alle Einträge mit auffallend vielen Rechtschreibfehlern zu ignorieren. Den Text kann man noch weiter analysieren in dem man auf den Textfluss und den
Satzaufbau achtet. Kurze Sätze, ein kleiner Wortschatz und Sätze mit immer gleichem Beginn
sind ein sicheres Zeichen für einen Sprachanfänger.
5.1.2
Ajax
Ajax ist keine eigene Technologie sondern eine Flut an neuen Technologien.(siehe Abbildung 6.2)
Ajax ist der Schlüssel für Web 2.0. und beinhaltet:
• Standard Darstellungsformen mit XHTML und CCS
• Dynamische Darstellung und Interaktion durch Verwendung des "Document Object Models"
• Datenaustausch und Veränderung mit Hilfe von XML und XSLT
• Asynchrone Datenverarbeitung durch XMLHTTP-Request
19
20
5. Probleme mit neuen Technologien
• und Javascript um alles miteinander zu verbinden
vgl. Garrett [2005] Javascript hilft dem Benutzer über seinen Browser komplizierte Anfragen an
den Server zu senden: dieser Link wird übertragen um auf Yahoo-Maps ein Satellitenbild vom Eiffelturm zu sehen: http://maps.yahoo.com/#mvt=s&lat=48.858189&lon=2.29449&zoom=18&q1=tour%
20eiffel
Es ist für ein Suchmaschine nur schwer möglich alle relevanten Informationen aus einem solchen
Dienst zu bekommen. Nach einer Satellitenabbildung eines bekannten Gebäudes wie z.B. dem
Eiffelturm (Abbildung 6.1) zu suchen fällt Suchmaschinen nicht schwer. Sollte der Benutzer aber
nach weiteren Objekten auf Satellitenbildern suchen (z.B. einem Blauwal) wird das Ergebnis
enttäuschend ausfallen.
Abbildung 5.1: Eiffelturm auf Yahoo-maps.
Abbildung 5.2: Ablauf bei Ajax.
5.2. Java und Flash
5.2
21
Java und Flash
Suchmaschinen haben zur Zeit Probleme mit Flashinhalten. Flash enthält Logik und kann Benutzereingaben verarbeiten, dafür sind heutige Suchmaschinen noch nicht ausreichend gerüstet.
Aktuelle Suchmaschinen sind dafür geschaffen statische Inhalte zu verarbeiten. Flash ist genau
genommen ein laufendes Programm und ist dadurch schwieriger zu analysieren als HTML Code.
Flashinhalte können allerdings durch einen Spideralgorithmus durchforstet werden wenn man ein
paar Designgrundlagen beachtet.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
<head>
< !−−s n i p−−>
<s c r i p t type=" t e x t / j a v a s c r i p t " src=" / j s c r i p t /SWFObject . j s "></ s c r i p t>
</head>
<body>
< !−−s n i p−−>
< !−−primary content , f o r non−F l a s h v i s i t o r s−−>
<div id=" f l a s h " align=" c e n t e r ">
<p><a href=" / g a l l e r y / i n d e x . php? c a t e g o r y=g a l l e r y /1 _Prints ">prints</a> |
<a href=" / g a l l e r y / i n d e x . php? c a t e g o r y=g a l l e r y /2 _Posters ">posters</a>
|
<a href=" / g a l l e r y / i n d e x . php? c a t e g o r y=g a l l e r y /3_Books">books</a> |
<a href=" / g a l l e r y / i n d e x . php? pageId=115& s t a r t =0">my account</a>
< !−−s n i p , f o r b r e v i t y−−>
</p>
</ div>
< !−− F l a s h p l a y e r d e t e c t i o n and F l a s h i n s e r t i o n −−>
<s c r i p t type=" t e x t / j a v a s c r i p t ">
var fo = new SWFObject ( "homepage_v1 . swf " , " f l a s h " , " 680 " , " 390 " , "5 "
, "#3a403c " ) ;
fo . write ( " f l a s h " ) ;
</ s c r i p t>
Es wird zusätzlich zum Flashinhalt ein kleiner HTML-Pfad eingeführt um Suchmaschinen,
aber auch blinden Menschen, es zu ermöglichen Informationen über den Inhalt zu bekommen
Vgl. Hochman [2007]
22
5. Probleme mit neuen Technologien
Kapitel 6
Zusammenfassung und Ausblick
In dieser Arbeit werden Suchmaschinenalgorithmen sowie Methoden zur Suchmaschinenoptimierung näher vorgestellt. Mit der Einleitung und einer Einführung die Geschichte des Internets
wurde auf die Grundlagen für das heutige Internet eingegangen. Dabei wurde aufgezeigt aus
welchen unterschiedlichen Technologien wie Gopher oder Archie das heutige WWW entstanden
ist.
Mit der Entwicklung des PageRank-Algorithmus und dem daraus resultierenden Aufstieg der
Suchmaschine Google wurden in Bezug auf Durchsuchbarkeit und Zugänglichkeit der Informationen im Internet neue Maßstäbe gesetzt. In weiterer Folge passte Google seine Such- und
Ranking-Algorithmen mehrfach an. So wurden zum Beispiel die Rechte am Hilltop-Algorithmus
von Google übernommen und integriert.
Im Kapitel 3 wurden Suchmaschinenoptimierungsverfahren vorgestellt. Diese behandeln die Problematik dass der Großteil der Suchmaschinenbenutzer über Seite zwei bei den Suchergebnissen
nicht hinauskommt. In weiterer Folge muss es also das Ziel eines jeden Homepagebetreibers sein
unter die Top-10 der Suchergebnisse zu kommen. Dabei gibt es mehrere Ansätze die verfolgt
werden können. Besonders in der Planungsphase und Designphase sind Überlegungen zum Inhalt und dessen Gestaltung wichtig. Abschließend wurden noch Spamming-Methoden vorgestellt
welche zum Teil zwar simpel umsetzbar sind aber meist eine Sperre nach sich ziehen.
Beim Datenschutz wurden kurz die rechtlichen Rahmenbedingungen aufgezeigt. Eine ausführliche Diskussion würde den Rahmen dieser Arbeit sprengen. Was jedoch eindeutig hervorkommt,
ist die Tatsache, dass die Problematik des Datenschutzes bei Suchmaschinen viel zu lange vernachlässigt wurde. Nur ein Schulterschluss der großen Wirtschaftsmächte und globale Richtlinien
können hier eine Abhilfe bringen. Im letzten Kapitel wurden noch die Problematiken behandelt,
welche neue Technologien wie Web 2.0 Anwendungen, Flash- und Java-Applikationen mit sich
bringen. Dabei wurde diskutiert welche technischen Hürden hier vorhanden sind und wie diese
umgangen werden können.
Wenn man sich die Entwicklung in den vergangenen Jahren ansieht darf man auf die Zukunft
gespannt sein. Neue Webapplikationen, viel mehr Informationen auch persönliche Informationen
werden künftig über das Internet zur Verfügung gestellt werden. Hier liegen die Herausforderungen für die nächsten Jahre für Suchmaschinenbetreiber. Immer mehr an Information soll noch
einfacher und strukturierter zugänglich sein, ohne dabei zensurierend einzugreifen oder Persönlichkeitsrechte zu verletzen.
23
24
6. Zusammenfassung und Ausblick
Literaturverzeichnis
Arbeitsgruppe, A. . (2008). Stellungnahme 1/2008 zu datenschutzfragen im zusammenhang mit
suchmaschinen. (Zitiert auf Seite 18.)
Brin, S. and Page, L. (1998). The anatomy of a large-scale hypertextual web search engine.
Comput. Netw. ISDN Syst., 30(1-7):107–117. (Zitiert auf Seite 5.)
Bulut, D. (2009). Suchmaschinenmarketing und Datenschutz. GRIN Verlag, Norderstedt. (Zitiert
auf Seite 17.)
Cristian Duda, Gianni Frey, D. K. (2008). Ajaxsearch: Crawling, indexing and searching web 2.0
applications. (Zitiert auf Seite 19.)
Eichhorn, B. (2007). Internetrecht: Ein Wegweiser für Nutzer und Web-verantwortliche. Berlin:
Beuth Verlag GmbH, Berlin. (Zitiert auf Seite 15.)
F. Thiele, H. S. (92/2008). Suchmaschinen, privatsphäre und andere illusionen. (Zitiert auf
Seite 18.)
Garrett, J. J. (2005). Ajax: A new approach to web applications. (Zitiert auf Seite 20.)
Gütl, C. (2002). Ansätze zur modernen wissensauffindung im internet. pages 27–28. (Zitiert auf
Seite 1.)
Heiseonline (6/12/2009). Google personalisiert suchanfragen auch von nicht angemeldeten nutzern. (Zitiert auf Seite 18.)
History, Y. (2009). (Zitiert auf Seite 2.)
Hochman, J. (2007). Search engine optimization of flash content. (Zitiert auf Seite 21.)
Hübener, M. (2009). Suchmaschinenoptimierung kompakt. Heidelberg: Springer-Verlag, Heidelberg. (Zitiert auf Seite 11.)
J. Böhringer, P. Bühler, P. (2008). Kompendium der Mediengestaltung: Produktion und Technik
für Digital- und Printmedien. Heidelberg: Springer-Verlag, Heidelberg. (Zitiert auf Seite 14.)
Kleinberg, J. M. (1999). Authoritative sources in a hyperlinked environment. J. ACM, 46(5):604–
632. (Zitiert auf Seiten 6, 7 and 8.)
Koch, D. (2007). Suchmaschinen - Optimierung. Addison-Wesley. (Zitiert auf Seite 2.)
Koch, D. (2009). Suchmaschinen-Optimierung: Website-Marketing für Entwickler. München:
Addison-Wesley Verlag, München. (Zitiert auf Seiten 12, 13, 14, 15 and 16.)
Kremp, M. (2009). Microsoft macht bing. Spiegel. (Zitiert auf Seite 3.)
25
26
Literaturverzeichnis
Krishna Bharat, G. A. M. (1999). Hilltop: A search engine based on expert documents. Technical
report. (Zitiert auf Seite 9.)
Page, L., Brin, S., Motwani, R., and Winograd, T. (1999). The pagerank citation ranking:
Bringing order to the web. Technical Report 1999-66, Stanford InfoLab. Previous number
= SIDL-WP-1999-0120. (Zitiert auf Seiten 5 and 6.)
R. Lempel, S. M. (1998). The stochastic approach for link-structure analysis(salsa). Technical
report. (Zitiert auf Seite 8.)
unbekannt (2001). Internet-suchwerkzeuge im vergleich. Password 01/2001. (Zitiert auf Seite 2.)
Vise, D. A. (2006). The Google Story. Pan Books. (Zitiert auf Seite 3.)
Weicher, T. (2009). Datenschutz bei Suchmaschinen in: Lewandowski, D (Hrsg.). (2009). Handbuch Internet-Suchmaschinen. Heidelberg: Akademische Verlagsgesellschaft GmbH., Heidelberg. (Zitiert auf Seite 18.)
Y. Bischopnick, M. C. (2007). Suchmaschinen-marketing: Konzepte, Umsetzung und Controlling.
Heidelberg: Springer-Verlag, Heidelberg. (Zitiert auf Seiten 12, 13, 15 and 16.)
Literaturverzeichnis
27
The Stochastic Approach for Link-Structure Analysis(SALSA)
http://www9.org/w9cdrom/175/175.html
Hilltop: A Search Engine based on Expert Documents
http://ftp.cs.toronto.edu/pub/reports/csrg/405/hilltop.html
The PageRank Citation Ranking: Bringing Order to the Web.
http://ilpubs.stanford.edu:8090/422/
The anatomy of a large-scale hypertextual Web search engine
http://dx.doi.org/10.1016/S0169-7552(98)00110-X
Authoritative sources in a hyperlinked environment
http://doi.acm.org/10.1145/324133.324140
Ansätze zur modernen Wissensauffindung im Internet
http://www.iicm.tugraz.at/guetl/publications/2002/Guetl%202002%20-%20PhD.pdf
Internet-Suchwerkzeuge im Vergleich
http://www.phil-fak.uni-duesseldorf.de/infowiss/admin/public_dateien/files/1/1078738894password_
1.pdf
Yahoo History
http://docs.yahoo.com/info/misc/history.html
Microsoft macht Bing
http://www.spiegel.de/netzwelt/web/0,1518,627466,00.html
Ajax: A New Approach to Web Applications
http://www.adaptivepath.com/ideas/essays/archives/000385.php
AJAXSearch: Crawling, Indexing and Searching Web 2.0 Applications
http://www.vldb.org/pvldb/1/1454195.pdf
Search Engine Optimization of Flash Content
http://www.actionscript.org/resources/articles/519/1/Search-Engine-Optimization-of-Flash-Content/
Page1.html
Google personalisiert Suchanfragen auch von nicht angemeldeten Nutzern
http://www.heise.de/newsticker/meldung/Google-personalisiert-Suchanfragen-auch-von-nicht-angemelde
html
28
Literaturverzeichnis