Suche im Internet - SPRINT

Transcription

Suche im Internet - SPRINT
Das Schweizer Portal für
die Recherche im Internet
Suche im Internet
Entstanden im Rahmen des Projektkurses PK SPRINT,
im Herbstsemester 2008
an der HTW Chur
Stand: Januar 2009
Dieses Dokument untersteht der «Namensnennung-Keine kommerzielle
Nutzung-Weitergabe unter gleichen Bedingungen 2.5 Schweiz»-Lizenz.
Was das bedeutet, können Sie hier nachlesen: http://creativecommons.org/licenses/by-ncsa/2.5/ch/
Zitiervorschlag:
Schweizer Portal für Recherche im Internet (SPRINT): Suche im Internet. Chur: Hochschule für
Technik und Wirtschaft, 2009. Im Netz: http://sprint.informationswissenschaft.ch
SPRINT – Suche im Internet
Inhaltsverzeichnis
1
Einleitung ........................................................................................................................................... 4
2
Informationsdienste ............................................................................................................................ 5
2.1
2.2
2.3
2.4
2.5
3
Informationsanbieter ........................................................................................................................ 12
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
4
Suchmodus ................................................................................................................................. 58
Gross-Schreibung........................................................................................................................ 58
Boole'sche Operatoren................................................................................................................ 59
Phrasensuche .............................................................................................................................. 61
Trunkierung ................................................................................................................................ 61
Abstandsoperatoren ................................................................................................................... 62
Gewichtung ................................................................................................................................ 63
Suchraumeingrenzung ................................................................................................................ 64
Suchanfrageunterstützung.......................................................................................................... 67
Trefferanzeige ........................................................................................................................ 68
Ranking .................................................................................................................................. 73
Treffermengeneingrenzung .................................................................................................... 74
Trefferweiterverarbeitung ....................................................................................................... 74
Vorgehen bei der Suche.................................................................................................................... 78
6.1
6.2
6.3
6.4
7
Suchmethoden ........................................................................................................................... 15
Lokale Internetserver................................................................................................................... 15
Gateways zu Datenbanken ......................................................................................................... 16
Katalog & Verzeichnis ................................................................................................................. 17
Social Bookmarkdienste oder Tagging Communities ................................................................... 19
Portale ........................................................................................................................................ 19
Meta-Suchdienste ....................................................................................................................... 20
Suchmaschinen........................................................................................................................... 23
Spezialsuchmaschinen................................................................................................................. 43
Suchmaschinen-Evaluation ..................................................................................................... 47
Intelligente Agenten ............................................................................................................... 51
Entwicklungstendenzen.......................................................................................................... 55
Operatoren & Methoden .................................................................................................................. 58
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13
6
Privatpersonen ............................................................................................................................ 12
Kommerzielle Organisationen / Firmen........................................................................................ 12
Nicht-kommerzielle Organisationen ............................................................................................ 13
Universitäten, Institute ................................................................................................................ 13
Medienanbieter und Anbieter kommerzieller Datenbanken......................................................... 13
Bibliotheken................................................................................................................................ 13
Elektronische Kommunikations- und Diskussionsforen ................................................................ 14
Social Bookmark / Tagging Communities .................................................................................... 14
Suchverfahren .................................................................................................................................. 15
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
5
WWW-World Wide Web............................................................................................................... 5
FTP - File Transfer Protocol ............................................................................................................ 6
E-Mail / Mailinglisten..................................................................................................................... 7
NewsGroups / FAQ ....................................................................................................................... 9
Weblogs ..................................................................................................................................... 10
Informationsbedarf bestimmen ................................................................................................... 78
Suchanfrage formulieren............................................................................................................. 78
Ergebnisse bewerten................................................................................................................... 82
Aufbauelemente Recherche ........................................................................................................ 83
Quellenverzeichnis ............................................................................................................................ 84
Seite 2 von 85
SPRINT – Suche im Internet
Abbildungsverzeichnis
Abbildung 1: Lokale Suche ..................................................................................................................... 16
Abbildung 2: Nebiskatalog ..................................................................................................................... 17
Abbildung 3: Aufbau von Webkatalogen (Quelle: Griesbaum et al., 2008) ......................................... 18
Abbildung 4: : Aufbau von Social Bookmarkdienste (Quelle: Griesbaum et al., 2008) ....................... 19
Abbildung 5: Metasuchmaschinen.......................................................................................................... 21
Abbildung 6: Websuchmaschine (Quelle: Griesbaum et al., 2008, S. 15) ............................................ 23
Abbildung 7: Robots.txt (Quelle: Griesbaum et al., 2008, S. 18) ........................................................ 25
Abbildung 8: Ranking-Faktoren bei Suchmaschinen (Quelle: Griesbaum et al., 2008, S. 21) ............. 29
Abbildung 9: Pagerank – Google, Modell von 1998 (Griesbaum et al., 2008,S. 24) ............................. 34
Abbildung 10: Anmeldungsprozess einer Website................................................................................. 37
Abbildung 11: Positionsersteigerung ..................................................................................................... 40
Abbildung 12: Google Blog Search ......................................................................................................... 44
Abbildung 13: Suchoptionen in Scirus.com (Quelle: Griesbaum et al., 2008, S. 35)........................... 45
Abbildung 14: Top 29 Mikroprecision (Lewandowski, 2008a, S. 927) ................................................... 49
Abbildung 15: Funktionsweise Intelligente Agenten............................................................................. 52
Abbildung 16: SmartWeb (Quelle: BMW Group Trainingsakademie, 2007) .......................................... 57
Abbildung 17: Einfache Suche (Simple Search) ..................................................................................... 58
Abbildung 18: Erweiterte Suche (Advanced Search) ............................................................................. 58
Abbildung 19: Boole‘sche Operatoren und Klammern der einfachen Suche ........................................ 60
Abbildung 20: Erweiterte Suche ersetzt Boole’sche Operatoren ......................................................... 60
Abbildung 21: Zeitschriftentitel-Suche mit allen Wörtern (auf Bild klicken für Suche)..................... 61
Abbildung 22: Zeitschriftentitel-Suche mit der genauen Wortgruppe (auf Bild klicken für Suche)... 61
Abbildung 23: NEAR-Suche bei Exalead (auf Bild klicken für Suche) ................................................... 63
Abbildung 24: Suchraumeingrenzung in der erweiterten Suche........................................................... 64
Abbildung 25: Angebot an Suchraumeingrenzung nach Diensten bei Google-Schweiz ........................ 64
Abbildung 26: Angebot an Suchraumeingrenzung nach Diensten bei Goolge.com............................... 64
Abbildung 27: Erweiterter Suchmodus der (Schweizer) Google-Newssuche ........................................ 65
Abbildung 28: Erweiterte Bildsuche ...................................................................................................... 66
Abbildung 29: Google-Gesichtersuche (auf Bild klicken für Suche ...................................................... 66
Abbildung 30: Erweiterte Google-Patentsuche ..................................................................................... 66
Abbildung 31: Mindmap-artige Übersicht bei Mnemomap.................................................................... 67
Abbildung 32: Visualisierung statt Boole’sche Operatoren bei SortFix ............................................... 68
Abbildung 33: Cache-Ansicht (auf Bild klicken) .................................................................................... 68
Abbildung 34: Thumbnail-Ansicht bei Bildersuche (auf Bild klicken für Suche).................................. 69
Abbildung 35: Trefferansicht bei Google Patents „List“ (auf Bild klicken für Suche) ........................ 69
Abbildung 36: Trefferansicht bei Google Patents „Thumbnails“(Gleiche Suche)................................ 69
Abbildung 37: Clustering von Grokker................................................................................................... 70
Abbildung 38: Ergebnisvisualisierung als Landkarte............................................................................. 71
Abbildung 39: „Trefferansicht“ bei Google Maps ................................................................................. 71
Abbildung 40: Visualisierung zeitlicher Aspekte................................................................................... 72
Abbildung 41: Ansicht mit Relevanzeinstufung bei SearchCloud ......................................................... 73
Abbildung 42: Vergleich: Standard-Ansicht bei SearchCloud (Google-like)......................................... 73
Abbildung 43: Sortierung bei Google News Schweiz ............................................................................. 74
Abbildung 44: Einstellen der Treffermengenanzeige bei Google......................................................... 74
Abbildung 45: Möglichkeit zur Trefferweiterverarbeitung bei Searchcloud ....................................... 75
Abbildung 46: Suche nach Ähnlichen Seiten -> Auf das Bild klicken, um zu sehen, was passiert....... 75
Abbildung 47: Trefferanzeige bei Exalead ............................................................................................ 76
Abbildung 48: Facetten bei Exalead...................................................................................................... 76
Abbildung 49: RSS-Funktion für Suchanfrage (auf Bild klicken für Suche) .......................................... 76
Abbildung 50: RSS-Anzeige für Suchanfrage (auf Bild klicken) ............................................................ 77
Abbildung 51: Die gesuchten Inform. werden in mehrere Themenblöcke zerlegt und anhand der
Boole'schen Operatoren wird die Schnittmenge eruiert. ..................................................................... 79
Abbildung 52: Die Suche geht direkt auf den Kern des Problems. ....................................................... 79
Abbildung 53: Bei dieser Strategie geht man von einem relevanten Dokument aus........................... 80
Abbildung 54: Es wird zuerst eine allgemeine Suche durchgeführt und dann grenzt man die
Treffermenge immer neu ein. ............................................................................................................... 80
Seite 3 von 85
SPRINT – Suche im Internet
1 Einleitung
Mit Hilfe dieser Rubrik soll eine Einführung in die Thematik „Suche im Internet“ erfolgen. Das Ziel
dabei ist, das notwendige Wissen zu vermitteln, um im Internet gewünschte Informationen schnell
und zielsicher finden zu können.
Dazu werden am Anfang zunächst im Internet verfügbare Informationsdienste (WWW, FTP, E-Mail,
NewsGroups und Weblogs) und deren Funktionsweise beschrieben.
Das Kapitel Informationsanbieter klassifiziert verschiedene Typen von Informationsanbietern im
Internet, wie Privatpersonen, Kommerzielle und Nicht-Kommerzielle Anbieter, Universitäten und
Institute, verschiedene Medienanbieter und Bibliotheken sowie Diskussionsforen, Social Bookmark
und Tagging Communities.
Anschliessend erfolgt eine Vorstellung verschiedener Suchverfahren wie z.B. die Suche in Katalogen
oder mittels Suchmaschinen. Neben den „gewöhnlichen“ Suchmaschinen werden zudem
Metasuchmaschinen und Spezialsuchmaschinen vorgestellt. Zudem werden Ansätze zur
Suchmaschinenevaluation und Entwicklungstendenzen von Websuchdiensten dargestellt.
In den darauffolgenden Kapiteln werden Suchoperatoren, die bei der Suche im Internet genutzt
werden und Suchmethoden - wie z.B. die Suchraumeingrenzung beschrieben – vorgestellt. In diesem
Zusammenhang werden auch Visualisierungsansätze näher betrachtet.
Zum Schluss wird noch näher auf die Vorgehensweise bei der Suche eingegangen.
Dieses Kapitel behandelt das Thema, wie bei einer Suche vorgegangen werden soll. Dazu werden
notwendige Vorüberlegungen und die Auswahl geeigneter Suchbegriffe und Suchverfahren
dargestellt.
Die „Suche im Internet“ ist modular aufgebaut, so dass Sie je nach Bedarf auch nur einzelne Kapitel
aufrufen können. Zudem sind zahlreiche Fachbegriffe mit einem Hyperlink versehen, über den Sie
eine kurze Begriffsdefinition aufrufen können.
Seite 4 von 85
SPRINT – Suche im Internet
2 Informationsdienste
Durch die Integration der Bestände verschiedener anderer Internet-Dienste in das WWW, wie z.B.
FTP (File Transfer Protocol) oder NewsGroups, kann beim Herunterladen von Informationen nicht
einmal von einem einheitlichen Seitenformat im Sinne von HTML (Hypertext Markup Language)
ausgegangen werden. Von einer Konsistenz hinsichtlich der Widerauffindbarkeit, Aktualität oder gar
Qualität der Informationsbestände im WWW, kann also nicht die Rede sein. Inhalte einzelner WWWSeiten oder deren Adressen (als URL bezeichnet - Unified Ressource Locator) werden laufend
verändert oder gelöscht. HTTP und HTML bieten weder die Möglichkeit einer automatischen
Aktualisierung der auf die einzelnen Seiten verweisenden Hyperlinks, noch kann ein tatsächliches
Erstellungs- bzw. Änderungsdatum für die Inhalte der einzelnen Dokumente ermittelt werden.
Nützliche Dokumentattribute wie Titel, Autor, Erscheinungsjahr etc. sind im Internet zwar formal
vorhanden, werden jedoch kaum beschrieben. Wenn überhaupt, können sie nur über die Inhalte der
WWW-Dokumente selbst ausfindig gemacht werden.
Die folgenden Abschnitte zeigen einen Überblick über die Informationsdienste, die im Internet
verfügbar sind.
2.1 WWW-World Wide Web
Auf Grund seiner grafischen Benutzungsoberfläche und der damit verbundenen einfachen
Bedienbarkeit, ist das WWW der am häufigsten genutzte Dienst im Internet. Jeder, der eine
grafische Oberfläche bedienen kann, ist in der Lage, sich rund um die Uhr von Seite zu Seite zu
hangeln (zu „surfen“). Auf einfache Art und Weise ist es möglich, verschiedene Informationsserver
anzusteuern, Bibliothekskataloge zu durchsuchen oder selbst eine globale Informationsseite
anzubieten. Wie bereits erwähnt, sind Dokumente im WWW in Form von Hypertext strukturiert.
Dadurch ist es möglich, inhaltlich verwandte Themen miteinander zu verbinden und somit ein
„assoziatives Lesen“ zu ermöglichen. Ein Link kann sich dabei nicht nur auf Textdokumente
beziehen, sondern auch auf Bilder, Video- und Audiosequenzen, sowie auf andere Dienste im
Internet wie z.B. E-Mail, News oder FTP. Dabei spielt es keine Rolle, wo sich diese Inhalte befinden.
Oft kommt z. B. der Text aus Deutschland, die Grafik aus den USA und die angegebenen Links führen
nach England oder Japan.
Der für die Übertragung aller Inhalte des World Wide Web zuständige Standard ist das Hypertext
Transfer Protocol (HTTP). HTTP ermöglicht den Transport von Hypertext-Dokumenten und medialen
Daten vom WWW-Server zum WWW-Client, sowie die Übermittlung von Nutzereingaben vom Client
zum Server. Die Daten jeder Übertragung sind unterteilt in Header und Body.
Die Übertragung einer Webseite mittels HTTP erfolgt in vier Schritten:
1. Connection - Durch den Client wird ein Verbindungsaufbau initialisiert.
2. Request - Vom Client wird eine Anfrage an den Server gestellt (z.B. zum Abruf der Datei
einer bestimmten URL).
3. Response - Der Server antwortet auf eine Anfrage des Clients (mit Übermittlung der
angefragten Daten).
4. Close - Die Verbindung wird durch den Server nach erfolgter Datenübertragung abgebaut (in
Ausnahmefällen kann auch ein Client mittels Abbruch die Verbindung beenden.
Um den Zugriff auf bestimmte Dokumente des WWW zu beschleunigen, wird an verschiedenen
Stellen das Verfahren des Caching angewendet. Dabei werden bereits abgerufene Seiten so
zwischengespeichert, dass sie im Fall eines erneuten Abrufs nicht noch einmal von der
ursprünglichen URL geladen werden müssen. Bei diesem schnelleren Zugriff werden die Daten vom
Zwischenspeicherort herunter geladen. Caching kann auch durch die Speicherung von abgerufenen
Dokumenten im Hauptspeicher oder auf der Festplatte des lokalen Rechners erfolgen. Es kann auch
in Form von so genannten Proxy-Servern vom Informations-Provider bereitgestellt werden. Letztere
ermöglichen aufgrund höherer Speicherkapazitäten die Verwaltung der abgerufenen Seiten von
vielen Nutzern. Durch diese zentrale Speicherung erhöht sich das Potenzial, ein gewünschtes
Dokument im Cache-Speicher des Proxy-Servers vorzufinden. Der grosse Vorteil liegt darin, dass die
Inhalte schneller verfügbar sind.
Seite 5 von 85
SPRINT – Suche im Internet
Caching bietet den Nutzern noch einen weiteren Vorteil. Auf Dokumente, die unter ihrer
ursprünglichen URL nicht mehr zur Verfügung stehen oder die aktualisiert wurden, kann noch längere
Zeit zugegriffen werden. Auch einige Suchdienste wie z.B. Google und Speedfind bewahren die von
ihnen indexierten Dokumente in einem Cache auf. Dadurch wird eine Art Versionenkontrolle möglich.
Wichtig ist, dass keine Aktualisierung der Dokumente des Caches durch das Entnehmen stattfindet.
Diese Verfahrensweise ist bei Proxy-Servern jedoch üblich, so dass sich diese nicht zur Archivierung
von WWW-Dokumenten eignen. Zu beachten ist auch, dass dynamische Seiten bzw. Seiten mit
Interaktionskomponenten (z.B. Formularfelder für Nutzereingaben etc.) beim Caching nicht
berücksichtigt werden. Der Grund für diese Nichtbeachtung liegt darin, dass die Betrachtung solcher
zeitabhängigen Dokumente zu einem späteren Zeitpunkt bedeutungslos sein kann bzw. die korrekte
Verarbeitung der Nutzereingaben nicht mehr möglich ist.
Die charakteristischen Merkmale des Informationsangebots im Internet:
• die verteilte Datenhaltung
• die hohe Dynamik bezüglich neuer, geänderter oder gelöschter Inhalte
• die heterogenen Datenformate und medialen Formen der Inhalte (neben HTML sind das
inzwischen auch alle gängigen Textverarbeitungsformate wie z.B. .doc, .ppt oder .pdf)
• die uneinheitliche Struktur der Inhalte
• eine grosse Vielfalt von Inhalten in unterschiedlichen natürlichen Sprachen
• eine hohe Anzahl von Dokument-Dubletten, die unter anderem durch das Spiegeln
(Mirroring) von Inhalten zustande kommen
• die riesige, ständig zunehmende Menge an Dokumenten
Alle diese Eigenschaften erschweren die Suche und Lokalisierung von Informationen im World Wide
Web. Ein weiteres Problem der Datenverwaltung und Ressourcenlokalisierung im WWW besteht
darin, dass HTML im Wesentlichen nur die Formatierung und Darstellung der Inhalte ermöglicht. Eine
bedeutungsabhängige Kennzeichnung von Inhalten, sowie die Abbildung der semantischen
Zusammengehörigkeit von Texten, Textabschnitten und sonstigen Informationsobjekten wird durch
HTML nicht unterstützt. Dies hat zur Folge, dass alle Systeme der Informationslokalisierung zur
Erschliessung von Dokumenten lediglich die Daten an sich, nicht aber deren Sinn und Zusammenhang
zur Verfügung stellen. Dadurch ist eine Indexierung der Dokumente nur mit qualitativen Einbussen,
z. B. durch mangelnde thematische Zuordnungen, Begriffsmehrdeutigkeiten usw. möglich.
Abhilfe in diesem Bereich verspricht die Nutzung von XML (Extensible Markup Language), einer
Dokumenten-Metasprache, die besonders für eine semantische und computerlesbare Beschreibung
von Daten geeignet ist. Mit XML können zur Erhöhung der Flexibilität von Anwendungen eigene
Elemente mit einer bestimmten Bedeutung im Rahmen so genannter DTDs (Document Type
Definitions) definiert und für die Inhaltsdefinition verwendet werden. Die mit XML definierten
Elemente müssen allerdings für das Web entsprechend formatiert werden, hierfür gibt es weitere
Standards wie z.B. CSS (Cascading Style Sheets) oder XSL (Extensible Stylesheet Language).
Um sich im Datendschungel zurechtzufinden, stehen an verschiedenen Punkten im Netz kostenlose
Suchdienste zur Verfügung. Mit deren Hilfe kann man das Internet nach Stichworten durchsuchen. Es
gibt auch Kataloge, in denen bestimmte Interessensgebiete gezielt bearbeitet und angesteuert
werden. 1
2.2 FTP - File Transfer Protocol
Zur Übertragung großer Datenmengen wurde einst der Datei-Transfer-Dienst FTP (File Transfer
Protocol) entwickelt. Dieser Dienst existierte schon lange vor dem WWW. Zum Zugriff auf FTP-Server
sind eine Benutzerkennung und ein zugehöriges Passwort notwendig. Bei öffentlichen FTP-Servern
gibt es allgemein bekannte und gültige Benutzerkennungen wie z. B. „guest“ oder „anonymous“.
FTP basiert auf einer Client-Server-Architektur, deren signifikantestes Merkmal die Trennung von
Daten- und Kontrollfluss ist. Über die Kontrollverbindung werden zunächst die Parameter der
Datenübertragung wie Datentyp, Übertragungsmodus, durchzuführende Operationen usw. festgelegt.
Erst wenn dies erfolgt ist, beginnt der eigentliche Datentransfer über die Datenverbindung. Sowohl
Verbindungsaufbau als auch die Steuerkommandos werden über die Kontrollverbindung realisiert. Im
Gegensatz zu beispielsweise Telnet tritt hier der lokale Rechner (Client) als Empfänger eines vom
Server angebotenen Dienstes in Aktion. Da Client und Server unterschiedliche Betriebssysteme
nutzen und deshalb unter entsprechend unterschiedlichen Konventionen bezüglich Dateibenennung,
numerischer Darstellung, Kodierungsschema usw. arbeiten können, muss durch FTP sichergestellt
1
Die einzelnen Suchverfahren werden im Kapitel 4 „Suchverfahren im Internet“ weiter beschrieben.
Seite 6 von 85
SPRINT – Suche im Internet
werden, dass solche Heterogenitäten ausgeglichen werden können. FTP unterstützt die Übertragung
der Datentypen ASCII und BINARY (IMAGE).
Das FTP-Verfahren kommt im Web meist beim Download von Daten zum Tragen. Häufig bemerken
Benutzer gar nicht, dass zum Zeitpunkt der Übertragung von Dateien von HTTP auf FTP gewechselt
wird. Beim Zugang zu FTP-Verzeichnissen über einen Web-Browser wird die Benutzeranmeldung vom
Browser automatisch vorgenommen und das FTP-Dateiverzeichnis wird im „Look and Feel“ des WWW
angezeigt. Das Spektrum der verfügbaren Daten auf FTP-Servern ist sehr breit gefächert.
Nachfolgend sind einige Beispiele für mögliche Inhalte dargestellt:
• Public Domain, Freeware und Shareware für alle Rechnertypen
• Zusatzmodule, Treiber, Updates sowie Demoversionen kommerzieller Software
• Materialien zum Internet und Standards
• Forschungsberichte, Reports und Bücher
• Informationsmaterial, FAQ-Dateien und Listen
• Bildarchive, Video- und Sounddateien
Ein Beispiel für einen öffentlich zugänglichen FTP-Server mit anonymer Anmeldung ist
ftp.simtel.com - ein FTP-Server, der vorzugsweise Freeware- und Shareware-Programme für die
Windows-Betriebssysteme bereitstellt.
Wie beim WWW steht der Anwender auch bei der Nutzung des FTPs immer vor dem Problem, dass
zunächst ein FTP-Server mit den gewünschten Inhalten gefunden werden muss. Dieser sollte nicht
nur die gesuchten Daten beinhalten, sondern zudem auch eine schnelle Übertragung ermöglichen. Zu
diesem Zweck wurden relativ schnell nach Einführung von FTP weltweit so genannte ArchieServer aufgebaut, die genau diese Funktion erfüllen. Mittlerweile sind die meisten Archie-Server an
das WWW bzw. dessen Suchdienste angebunden. Ein Beispiel für ein Gateway, das einen
Formularbasierten Zugriff auf diverse Archie-Server bietet ist Archieplex. Aber auch die gängigen
Suchdienste im Internet durchstöbern FTP-Server und bieten eine Suche in deren Archiven an, z.B.
AlltheWeb.
2.3 E-Mail / Mailinglisten
Die E-Mail Adresse ist fester Bestandteil von Briefköpfen und Visitenkarten geworden. Wer eine EMail Adresse besitzt, ist nicht nur von jedem Computer der Welt aus erreichbar, sondern er selbst
kann auch von jedem Computer der Welt aus auf seinen Briefkasten zugreifen. Für die Nutzung von
E-Mail benötigt man ein lokales Mailprogramm, welches in der Fachwelt als Message User Agent
(MUA) bezeichnet wird, sowie mindestens einen Mailserver zum Transport der E-Mail vom Sender
zum Empfänger. Ein solcher Mailserver wird als Mail Transfer Agent (MTA) bezeichnet. Solche Server
sind in mehrere Komponenten unterteilbar, wobei eine Komponente der Weiterleitung der E-Mail
über das Internet dient und eine Komponente für die Zustellung der E-Mail an die entsprechende EMail Adresse des oder der Empfänger zuständig ist. Die letztere Komponente wird auch als Mail
Delivery Agent (MDA) bezeichnet. Welcher Mail Transfer Agent für bestimmte E-Mails zuständig ist,
wird aufgrund des Domain-Adressbestandteils der den Mails zugeordnet ist, geregelt.
Das Kommunikationsprotokoll für den Austausch von E-Mails über das Internet ist das Simple Mail
Transfer Protocol (SMTP). Ein MTA kann Mails damit sowohl empfangen als auch selbst weitersenden.
Der zurückgelegte Weg einer E-Mail kann anhand der im Header unter der Kennung received:
protokollierten Einträge der einzelnen Server nachvollzogen werden.
Ein weiteres Protokoll für den Nachrichtenaustausch durch E-Mail ist das Post Office Protocol (POP).
Es gestattet das Abrufen, der auf einem zentralen Mailserver in den jeweiligen Email-Accounts
eingeordneten Nachrichten durch den lokalen Message User Agent. Um dabei einem Missbrauch
vorzubeugen, ist für das Herunterladen von E-Mails auf den eigenen Rechner eine Authentifizierung
mittels Nutzerkennung und Passwort notwendig.
Interactive Mail Access Protocol (IMAP) dient dem gleichen Zweck, ermöglicht darüber hinaus aber
eine Bearbeitung und Verwaltung der Emails auf dem Server. So müssen diese z.B. nicht erst
heruntergeladen werden, wenn sie irrelevant sind und gelöscht werden sollen. Um über Email
kommunizieren zu können, muss natürlich die E-Mail Adresse des Kommunikationspartners bekannt
sein. Ist dies nicht der Fall, so ist das Herausfinden der richtigen Email-Adresse nicht gerade einfach.
Im Gegensatz zu den anderen Diensten ist ein automatisches Abrufen von Email-Adressen im Internet
nur eingeschränkt bzw. gar nicht möglich. Unbekannte Email-Adressen können im World Wide Web
nur dann gesucht werden, wenn sie vom Besitzer entweder bei einem Suchdienst für E-Mail Adressen
Seite 7 von 85
SPRINT – Suche im Internet
angemeldet wurden oder die E-Mail Adresse auf einer Homepage angegeben wird. Dort kann sie
durch eine Suchmaschine des World Wide Web erfasst werden.
Beispiele für spezielle Email- und Personensuchdienste sind:
• MESA MetaEmailSearchAgent - eine Email-Metasuchmaschine, die mehrere EmailSuchdienste gleichzeitig abfragt
• Yahoo! People Search - Suche nach Email- und postalischen Adressen möglich
• WhoWhere (Lycos) - Suche mittels Angabe von Name, Vorname, Telefonnummer, …
Neben der reinen Anwendung als Kommunikationsmittel bietet E-Mail noch weitere Möglichkeiten.
Ein Beispiel dafür ist die automatische Weiterleitung von E-Mails, der so genannte AutoresponseMechanismus, der z.B. bei Abwesenheit oder für die Definition von Mail-Aliasnamen genutzt werden
kann. Eine automatische Weiterleitung aller E-Mails an eine oder mehrere weitere Adressen lässt
sich meist in Zusammenhang mit dem Mailserver (POP-Server) des für die betreffende Adresse
zuständigen Mailsystems erreichen. Nützlich ist eine solche Einrichtung z.B. wenn man über mehrere
Email-Adressen verfügt, die Mailbox jedoch nur von einer Stelle aus verwalten möchte.
Eine automatisierte Beantwortung von E-Mails, die vor allem für längere Abwesenheit und ähnliche
Situationen gedacht ist, kann auf ähnliche Weise eingerichtet werden. Aliasnamen für E-Mail
ermöglichen nicht nur eine kürzere und im Gegensatz zum Namen des physischen Account als
Mailadresse besser merkbare Bezeichnung, sie gestatten auch die Einrichtung von MailverteilerListen. Unter einer Alias-Mailadresse kann eine Anzahl anderer, persönlich zuordenbarer
Mailadressen erreichbar gemacht werden. Aliasnamen werden meist vom Systemadministrator des
Mailservers mittels spezieller Dateien eingerichtet. Damit können einer „realen“ Adresse mehrere
Alias-Adressen und umgekehrt mehreren Alias-Adressen dieselbe „reale“ Emailadresse zugeordnet
werden. Im Übrigen sind auch die meisten von Internet-Providern usw. vergebenen Email-Adressen
nur Aliase für den eigentlichen, physischen Namen des Mail-Accounts, der oft nur aus Ziffern bzw.
Ziffern-Buchstabenkombinationen besteht (z.B. pop12345(at)htwchur.ch).
Ein weiterer Vorteil von E-Mail ist die Möglichkeit formatierte Textdateien, Grafiken, Fotos,
Videoclips und Sounddateien per „File-Attach“ versenden zu können. Dabei werden diese Dateien
einer E-Mail als Anhang hinzugefügt.
Die ursprüngliche Herausforderung bestand darin, dass E-Mails nur mit dem ISO-7-Bit Code (ASCII
Zeichen von 0 bis 127) verschlüsselt wurden und damit eine Übertragung von binären Inhalten, wie
Graphiken und Multimediadateien, zunächst nicht möglich war. Aus diesem Grund wurde eine
Abbildung der für Binärdaten notwendigen 8-bit Kodierung auf die 7-Bit Kodierung der E-Mails
erforderlich. Der dafür genutzte Standrad heisst MIME (Multipurpose Internet Mail Extensions) und
ermöglicht den Einbezug von Binärdaten in den Body der E-Mail, indem zusätzliche
Konfigurationsfelder eingefügt werden. Diese Binärdaten geben unter anderem Auskunft über den
Typ der nachfolgenden Daten. Dadurch wird der Body der eigentlichen Email in mehrere Teile
segmentiert. Es existieren sowohl eine Anzahl standardisierter MIME Content Types, wie text/plain
(ASCII-Text), text/html (HTML-Text), application/zip (mit dem ZIP-Packer komprimierte Dateien),
image/jpeg (JPEG-Graphik) und multipart/mixed (aus mehreren unabhängigen Datentypen
zusammengesetzter Bodypart), als auch Möglichkeiten, individuelle Datentypen, gekennzeichnet mit
einer mit „X-“ beginnenden Attributbezeichnung, zu definieren.
Zur Umwandlung von 8-Bit nach 7-Bit werden dann häufig die Verfahren Quoted-Printable und
Base64 genutzt, letzteres insbesondere bei der Verschlüsselung von Attachments. Bei QuotedPrintable werden Zeichen, die nicht 7-Bit kodierbar sind, durch einen aus einem Gleichheitszeichen
und ihrem hexadezimalen ASCII-Code gebildeten Wert ersetzt. So können auch diese Zeichen auf
dem 7-Bit-Übertragungsweg transportiert werden. Base64 verwendet 65 druckbare ASCII-Zeichen des
ISO 7-Bit-Codes, die auch über 7-Bit-Verbindungen sicher übermittelt werden können. Mit diesen 65
Zeichen werden dann alle Bytes des Originals nach einem festen Verschlüsselungsverfahren kodiert.
Der Einsatz von E-Mail als Kommunikationsmedium zum schnellen und komfortablen
Nachrichtenaustausch birgt jedoch Gefahren.
Unannehmlichkeiten gehen aus von:
• Spam (ungebetene Massenaussendung von inhaltsgleichen Nachrichten)
• und der Übertragung von Viren oder
• Worms (Programmcode, der den Nutzer schädigen kann).
Email-Spamming kommt meist durch das ungesetzliche Sammeln von E-Mail Adressen und deren
Nutzung für die massenhafte Versendung von Mails (z.B. zu Werbezwecken) durch unseriöse Firmen
oder Privatpersonen zustande. Die Möglichkeiten zur Abwehr von Spam sind nicht trivial. Die
Seite 8 von 85
SPRINT – Suche im Internet
Absenderadressen der Spam-Mails sind meist falsch oder werden dahingehend genutzt, etwaigen
Kontaktversuchen durch Erhöhen der Nutzungsintensität für die Adresse des beschwerdewilligen
Nutzers zu begegnen. Eine technische Möglichkeit der Abwehr kann im Sperren der Envelope-FromAdressen oder der Domainnamen der Absender-Adresse bestehen. Eine solche Sperrung kann auf
Ebene des MTA oder des MUA stattfinden, hat aber den Nachteil, dass unter Umständen auch
erwünschte E-Mails blockiert werden.
Ferner existieren Erweiterungen für MTA unter anderem als Proxy-Server, die weitergehende
Mechanismen zur Abwehr von Spam implementieren.
Im Gegensatz zu Spam-Mails, die überwiegend nur lästig sind, können Viren oder Worms und andere
Formen von Schadprogrammen auch eine ernsthafte Bedrohung für die Funktionsweise des lokalen
Rechners des Empfängers darstellen. Diese Programme werden in Form von Mail-Attachments mit
Programmcode übertragen und durch Öffnen dieses Attachments aktiviert. Sie nutzen die
Adressdateien, die vom lokalen MUA verwaltet werden, um sich wiederum über weitere Emails an
die dort vorgefundenen Adressen zu vervielfältigen. Deshalb sollte man allgemein im Umgang mit EMails mit Anhang vorsichtig sein, besonders dann, wenn diese von unbekannten Absendern stammen
oder einen unklaren Inhalt aufweisen. Vor dem Öffnen von Dateianhängen sollten diese immer mit
einem aktuellen Virenscanner überprüft werden. Emails mit unbekanntem Absender oder ohne
eindeutigen Betreff sollten ohne vorheriges Öffnen der Anhänge sofort gelöscht werden.
2.4 NewsGroups / FAQ
Bei NewsGroups handelt es sich um ein System von öffentlichen schwarzen Brettern, die nach
Themen bzw. Foren unterteilt sind. In ihrer Gesamtheit können sie fast jedes denkbare Thema
abdecken, wobei vor allem aktuelle Ereignisse von Bedeutung sind. Um die riesige Menge an Themen
und Foren übersichtlich zu strukturieren, sind diese in hierarchische Kategorien aufgeteilt. Der Inhalt
der Foren lässt sich vorwiegend aus dem jeweiligen Namen ableiten.
Nachfolgend sind einige Beispiele dargestellt:
ƒ alt (alternative - Mischung aus allen Themen, die nicht in eine der anderen Gruppen
einzuordnen sind)
ƒ biz (business - kommerzielle Themen)
ƒ comp (computer - Themen, z.B. Software und Hardware)
ƒ misc (miscellaneous - Verschiedene Themen, für die keine eigenständigen Foren existieren)
ƒ news (Themen rund um die NewsGroups selbst)
ƒ rec (recreational - Hobby und Freizeit)
ƒ sci (scientific - wissenschaftliche Themen)
ƒ soc (social - soziale und kulturelle Foren aus vielen Ländern der Welt)
Es gibt noch eine Vielzahl weiterer Kategorien - die Namen sind meist selbsterklärend. Für
deutschsprachige Benutzer sind jedoch vor allem die .ch-, .at- oder .de-Kategorien interessant bei
denen das Kürzel .de den oben angeführten Kategorien vorangestellt wird, z.B. de.sci.chemi.
Die Übertragung und Bereitstellung von News über das Internet erfolgt mittels des Network News
Transfer Protocols (NNTP), welches eine Anzahl von Befehlen für die interaktive Übertragung und
den Download von News-Artikeln definiert. NNTP ist ebenfalls ein Client-Server-orientiertes
Protokoll. Jeder News-Server verwaltet die Newsgroups, für die er Artikel erhält, und besitzt
Verbindungen zu anderen NNTP-Servern (sog. News-Feeds), die er für die Weiterleitung von lokal
erzeugten oder empfangenen Artikeln an die benachbarten Server nutzt.
Ein NNTP-Server kann News-Artikel sowohl von anderen Servern oder den als Newsreader
bezeichneten Clients der Nutzer empfangen, als auch an weitere Server weitersenden. Artikel, die
bereits versandt wurden, werden nicht weiter berücksichtigt. Dadurch soll eine rasche Verbreitung
der geposteten Artikel gewährleistet werden.
Eine weitere Funktion besteht in der Bereitstellung gewünschter News-Artikel für die News-Clients
der Nutzer. Die Artikel sind getrennt nach Header für Adressierung und Body mit dem eigentlichen
Artikel.
Die Umsetzung des NNTP ist derjenigen von SMTP des Email-Dienstes recht ähnlich. Unterschiede
liegen darin, dass keine personenbezogenen Mitteilungen wie bei Email übermittelt werden, sondern
Postings (Artikel) zwischen NNTP-Servern bzw. NNTP-Servern und NNTP-Clients für die Allgemeinheit
ausgetauscht werden.
News-Artikel (Postings) haben den gleichen Aufbau wie Emails. Es werden durch NNTP drei Arten der
Übertragung von News-Artikeln definiert:
Seite 9 von 85
SPRINT – Suche im Internet
ƒ
ƒ
ƒ
Die Erste betrifft das selbständige Senden von neuen Nachrichten zum Server, das so
genannte Pushing.
Die Zweite ist die Abfrage des Servers auf Nachrichten, das so genannte Pulling. Hierbei wird
vom Client eine Liste der Artikel einer bestimmten Newsgroup angefordert und diejenigen
Artikel selektiert, die bisher noch nicht übermittelt wurden.
Die dritte Art der Übertragung stellt sich als interaktives Lesen von News-Artikeln dar. Dabei
können gleichzeitig Artikel empfangen und gesendet werden.
Ein Problem von Netnews liegt in der Möglichkeit der leichten Beeinflussung von Entscheidungen,
beispielsweise durch unkorrekte oder nicht zutreffende Artikel. Durch die Kombination der
Manipulation der Absenderadresse, die auch bei SMTP gegeben ist, und der Artikelverfälschung,
bietet sich aufgrund der hohen Anzahl von Lesern die potenzielle Möglichkeit der Einflussnahme auf
Personengruppen, welche Interesse an einem spezifischen Thema haben. Eine Verbesserung der
Zuverlässigkeit der Angaben ergibt sich durch eine Erweiterung von NNTP, die eine Authentifizierung
des Nutzers für bestimmte Befehle vorsieht.
In vielen NewsGroups gibt es eine so genannte FAQ-Datei (Frequently Asked Questions). Diese
Dateien beinhalten eine Sammlung der häufigsten Fragen und den dazugehörigen Antworten, die in
der jeweiligen Gruppe gestellt wurden. Bevor ein Benutzer eine Frage an eine NewsGroup stellt,
sollte er diese FAQ-Datei lesen. So werden die regelmäßigen Leser einer Gruppe nicht immer wieder
mit den gleichen Fragen konfrontiert. Der Standort der FAQ-Dateien wird in regelmässigen
Abständen in der Gruppe veröffentlicht. FAQ-Dokumente sind im Internet aber auch zu vielen
anderen Themen verfügbar, unabhängig von entsprechenden NewsGroups.
Auch für NewsGroups exisitieren spezielle Suchdienste, mit denen man eine NewsGroup anhand ihres
Themengebiets oder den von den Nutzern ausgetauschten Inhalten lokalisieren kann wie z.B. Google
Groups.
NewsGroups wurden in den letzten Jahren zunehmend durch Web-basierte Diskussionsforen ergänzt
und ersetzt. Diese sind komfortabler in der Anwendung für die Nutzer und können themen-, artikelund konzeptspezifisch angelegt sein. Häufig wird der angemeldete Nutzer bei neuen Beiträgen mit
einer Email benachrichtigt. Ein Beispiel für einen Serverdienst, mit denen man selbst
Diskussionsforen ins Leben rufen kann, ist Siteboard.
2.5 Weblogs
Ein Weblog (auch Blog genannt) ist eine Wortkombination aus „Web“ und „Logbuch“. Für „Weblog“
existieren keine allgemein gültigen Definitionen. Technisch gesehen sind Weblogs Seiten, die
regelmässig aktualisiert werden und ihre Inhalte datiert und in umgekehrt chronologischer
Reihenfolge auflisten (die aktuellsten Einträge stehen zu Beginn der Seite). Allgemein formuliert
lässt sich sagen, dass in Weblogs einer oder mehrere Autoren (sogenannte „Blogger“) die Stationen
ihrer Surftouren durch das Internet schriftlich kommentiert festhalten. Typisch ist auch die
Weiterverlinkung auf die besuchten Seiten. Bezüglich Inhalten und Autorschaft bestehen jedoch
grosse Unterschiede. Das Spektrum reicht von Autoren, die in ihren Weblogs persönliches festhalten,
d.h. ein öffentliches Tagebuch führen, bis hin zu Fach-Weblogs, in denen die Autoren nur Artikel zu
einem bestimmten Thema verfassen. Es gibt auch Mischformen, bei denen sowohl Netzfunde, als
auch Kommentare und Tagebucheinträge aufgeführt werden.
Den Inhalten der Weblog-Beiträge sind keine Grenzen gesetzt, sie richten sich nach den Interessen
und Fähigkeiten der Blogger selbst. Meistens bestehen die Inhalte aus aktuellen Beiträgen, die oft
eher die persönliche Meinung des Bloggers als neutrale und sachliche Informationen weitergeben.
Die Beiträge enthalten meist einen weiterführenden Link und eine Kommentiermöglichkeit für die
Besucher der Seite. Viele Weblog-Einträge bestehen aus Einträgen anderer Weblogs oder beziehen
sich auf diese. Somit besteht eine starke Vernetzung der Weblogs untereinander. Die Gesamtheit
aller Weblogs wird „Blogosphäre“ genannt.
Auch betreffend der Technik von Weblogs gehen die Meinungen auseinander. Es stellt sich die Frage,
ob Weblogs mit fertig eingerichteter Software oder individueller Technik betrieben werden sollen. Es
gibt eine Vielzahl an Diensten, bei denen man sich Weblog-Accounts anlegen kann (z.B. Blogg oder
Wordpress).
Während es in den USA schon weit über 1 Million Weblogs geben soll, existiert in den
deutschsprachigen Ländern nur ein sehr kleiner Bruchteil davon. Doch die Weblog-Gemeinde wächst
stetig und erfreut sich immer grösser werdender Beliebtheit. Auf diesen Trend könnte es auch die
Seite 10 von 85
SPRINT – Suche im Internet
Suchmaschine Google abgesehen haben, als sie im Februar 2003 den Weblog-Pionier Pyra Labs
übernahm.
Beispiele für Weblogs sind:
ƒ
Dmoz Liste von Weblogs auf dmoz.org
ƒ
Blogger von Google
ƒ
Photoblogs
Seite 11 von 85
SPRINT – Suche im Internet
3 Informationsanbieter
In diesem Kapitel bzw. den angehängten Unterkapiteln folgt eine Klassifizierung der
Informationsanbieter im WWW, wobei weder Vollständigkeit erreicht werden kann, noch können die
aufgeführten Gruppen immer exakt voneinander abgegrenzt werden.
3.1 Privatpersonen
3.1.1 Homepages
Im WWW existiert eine Vielzahl von privaten Homepages unterschiedlichster Internetbenutzer aus
der ganzen Welt. Diese enthalten meist Angaben zur Person, Adresse, E-Mail und sonstige
Informationen. Zusätzlich werden auf Homepages auch mehr oder weniger umfangreiche Verweise
und Informationssammlungen zu eigenen Interessensgebieten angeboten.
Zahlreiche Internetplattformen bieten für Privatpersonen die Möglichkeit eigene Webseiten
aufzuschalten. Ein Beispiel ist hierfür ist DNS Swiss. Ihre Dienstleistungen für Privatpersonen ähneln
allen anderen Providern.
ƒ E-Mail Aliase
ƒ Webmail
ƒ Datenbanken: beliebige Anzahl MySQL Domain Aliase
ƒ Third Level Domains
ƒ PHP
ƒ Perl Server Side Includes
ƒ FTP Zugang Statistiken
ƒ Tägliches Backup
Privatpersonen können ebenso wie Unternehmen, ihre eigene Domain reservieren und ändern lassen,
um sie an ihre Webseite anzupassen. Ein Beispiel hierfür ist nic.ch.vu.
3.1.2 Blogs
Privatpersonen haben nebst der eigenen Homepage neu eine weitere und bequemere Möglichkeit
sich im Web präsent zu halten und auf diese Weise die eigene Meinung und Standpunkte zu aktuellen
Themen offen darzulegen.
Dies führt dazu, dass Themen von subjektiver Seite her betrachtet werden, und sich daraus eine
Diskussion ergeben kann. Somit entsteht im Web eine neue Informationsquelle, die sogenannte
Blogosphäre. Bauer (2008) meint aber, dass die Blogs „nur das Echo der klassischen Medien“
darstellen (Bauer, 2008). Tatsächlich drehen sich die Schweizer Blogs um die vorherrschenden
Themen wie Google, iPhone, Musik, Microsoft und Apple. Es wurden dazu 500 000 Blogeinträge von
2005 bis 2008 untersucht. Der Grund für dieses simple Echo liegt darin, dass es den Privatpersonen
an Quellen mangelt, damit sie überhaupt eigene Ideen entwickeln können. „Blogs mit spannenden
Inhalten gibt es wenige“. (Bauer, 2008)
Ein professioneller Blog betreibt der Zürcher Verlag Blogwerk, der fünf Themenblogs unterhält und
45 Autoren beschäftigt (Bauer, 2008).
Bsp: www.blogger.com
3.2 Kommerzielle Organisationen / Firmen
Firmen aller Grössen und Sparten präsentieren sich und ihre Produkte auf Webseiten. Ein Grossteil
der Unternehmen bietet den Nutzern dabei auch verschiedene Anwendungen auf seinen Webseiten
an. So können beispielsweise Bestellungen über das Internet abgewickelt oder mit Banken die
komplette Kontoführung online durchgeführt werden. Die Unternehmensnamen spiegeln sich in der
Regel im Domainnamen oder in einem sonstigen Teil der URL wider.
Bsp: „www.firma.com“
Seite 12 von 85
SPRINT – Suche im Internet
3.3 Nicht-kommerzielle Organisationen
Von Politischen Parteien und Regierungen, Umwelt- und Menschenrechtsorganisationen wie zum
Beispiel Greenpeace oder Amnesty International, kirchlichen Organisationen, Sportvereinen,
Interessens- und Sportverbänden bis hin zu kleinen Freizeitvereinen bieten viele Organisationen ihre
offiziellen Informationen im Internet an. Auch hier spiegelt sich der Organisationsname meistens im
Domainnamen wider. Das einst hierfür gedachte Postfix „.org“ konnte sich nicht durchgehend
durchsetzen.
Bsp: www.admin.ch, www.greenpeace.org
3.4 Universitäten, Institute
Auf den Webseiten von Universitäten und Fachhochschulen stehen umfangreiche Informationen zu
Studiengängen, Fakultäten, Forschungsprojekten und sonstigen für das Studium wichtige
Informationen bereit. Wissenschaftliche Publikationen, Berichte, Proceedings und Ergebnisse werden
immer häufiger über das Internet veröffentlicht.
In diesem Zusammenhang ist der Begriff „Open Access“ von Bedeutung. Die Verfechter von „Open
Access“ vertreten die Meinung, dass Literatur, die von Wissenschaftlerinnen und Wissenschaftlern
ohne die Erwartung hierfür bezahlt zu werden, veröffentlich wird, kostenfrei und öffentlich im
Internet zugänglich sein sollte. Damit soll Interessierten die Möglichkeit gegeben werden ohne
finanzielle, gesetzliche oder technische Barrieren die Volltexte lesen, herunterladen, kopieren,
verteilen, drucken, in ihnen suchen, auf sie verweisen und sie auch sonst auf jede denkbare legale
Weise nutzen zu können.
Hinsichtlich der Frage des Copyrights, sollte die einzige Einschränkung darin bestehen, den
jeweiligen Autorinnen und Autoren die Kontrolle über ihre Arbeit zu belassen und ihnen das Recht zu
sichern, dass ihre Arbeit angemessen anerkannt und zitiert wird. Für die Forderung nach Open
Access spricht, dass damit stark subventionierte Forschungsergebnisse von Universitäten und anderen
öffentlich unterstützten Forschungseinrichtungen frei zugänglich und nicht teuer verkauft werden,
wodurch die digitale Kluft („digital divide“) verringert werden kann.
Traditionell beinhalten zudem FTP-Server von Universitäten eine grosse Anzahl an Public-Domain
Software. Deutschsprachige Hochschulserver sind an einem der Kürzel „uni“, „fu“, „tu" oder „fh“ zu
erkennen. Die Hochschulen englischsprachiger Länder weisen meistens das Kürzel „.edu“ (Education)
in ihren Domain-Namen auf.
Bsp: www.fh-htwchur.ch, www.uni-konstanz.de, www.berkeley.edu
3.5 Medienanbieter und Anbieter kommerzieller Datenbanken
Traditionelle Vermittler von gedruckten und nicht gedruckten Informationen wie Zeitungen, Verlage,
Agenturen, Buchhandlungen, Radio- und Fernsehsender bieten ihre Produkte in professionellem
Design über das Internet an. Dabei ist häufig auch die Möglichkeit vorhanden, in Archiven zu stöbern,
was früher nur bestimmten Personen und unter erschwerten Bedingungen möglich war.
Datenbank- bzw. Host-Anbieter des klassischen Information Retrievals bieten die Recherche in
tausenden von elektronischen Datenbanken aus allen Bereichen, mit bibliographischen Angaben oder
Volltext, nun auch im Internet an. War hier vor dem WWW die Recherche wegen der technischen
Zugangsmöglichkeiten, vor allem aber wegen der recht komplexen und unterschiedlichen
Retrievalsprachen, eher den professionellen Informationsvermittlern überlassen, kann nun über
komfortable WWW-Formulare direkt in den Datenbanken recherchiert werden. Die Anmeldung und
die Kosten für die Recherche in kommerziellen Datenbanken entfallen dadurch jedoch nicht.
Bsp.: www.drs.ch, www.nzz.ch, www.genios.de
3.6 Bibliotheken
Auch Bibliotheken haben ihre Literaturkataloge schon lange vor dem Internet, in so genannten
Online Public Access Catalogs (OPAC), angeboten. Hier gab es jedoch, gleich wie bei den klasssischen
Datenbankanbietern, die Hürde unterschiedlicher Retrievalsprachen und Benutzeroberflächen zu
überwinden. Die einzelnen OPACs beinhalteten auch jeweils nur den Bestand einer einzelnen
Bibliothek. Die Präsenz der Bibliotheken im Internet brachte nicht nur komfortablere und einfachere
Oberflächen mit sich, sondern auch Verbunde mehrerer OPACs und die gleichzeitige, kombinierte
Seite 13 von 85
SPRINT – Suche im Internet
Suche in diesen. Das Angebot von Bibliotheken wird zunehmend auch durch Verzeichnisse von
elektronischen Zeitschriften ergänzt. 2
Bsp.: www.nebis.ch und Universitätsbibliothek Zürich
3.7 Elektronische Kommunikations- und Diskussionsforen
Elektronische Foren als Kommunikationsmittel im WWW erfreuen sich einer immer grösser
werdenden Zahl von Teilnehmern. Mit diesem Werkzeug kommen die Anbieter dem Bedürfnis der
Anwender nach, mit anderen Teilnehmern über bestimmte Themen oder Interessensgebiete zu
kommunizieren beziehungsweise zu diskutieren.
Im Gegensatz zu den bisher genannten Anbietern, bei denen das Ablegen von Daten auf einen WebServer erforderlich ist, können Forumsteilnehmer ihre Beiträge direkt über den Web-Browser in das
jeweilige Forum einbringen.
Neben dem Interesse an den Themen ist sicherlich auch die einfache Handhabung beim Verschicken
der Beiträge ein Grund für die wachsende Teilnehmerzahl. Hierfür muss man sich weder mit HTML
auseinandersetzen noch mit der Prozedur der Publikation von Web-Seiten über einen Server
beschäftigen.
Der Anwendungsbereich von virtuellen Foren erstreckt sich von Diskussionen über aktuelle Themen,
Politik, Bücher, Artikel elektronischer Zeitschriften, über virtuelle Konferenzen bis hin zu Tutorials
und sonstigen Lern- und Lehrformen. Durch Foren haben Anwender nicht nur die Möglichkeit Fragen
direkt an andere Teilnehmer zu stellen, sondern sie können auch alle bereits gesendeten Beiträge
nach brauchbaren Informationen durchsuchen.
3.8 Social Bookmark / Tagging Communities
Bookmarkdienste oder sogenannte Tagging Communities können auch zu den Informationsanbietern
gezählt werden. Sie sind nicht eigentliche Informationslieferanten sondern erreichen durch die
Beteiligung ihrer User eine Ansammlung von Informationsquellen zu bestimmten Themen. Durch die
inhaltliche und semantische Erschliessung werden Quellen aus Literatur und Web zu einem
Webkatalog zusammengefügt und Drittpersonen bzw. anderen Users zur Verfügung gestellt.
(Griesbaum et al., 2008, S. 10)
„Die Idee, Objekte durch Nutzer zu verschlagworten, wurde mit Diensten wie Flickr.com
(Bildercommunity) bzw. Del.icio.us (Social Bookmarks) populär und wird als ein zentraler
Entwicklungstrend des Webs 2.0 gesehen.“(Griesbaum et al., 2008, S. 10) 3
2
Weitere Informationen sowie Links finden Sie online.
Informationen zur Aufbereitung und Technologie von Social Bookmarkdiensten finden Sie im Kapitel 4.4 Katalog &
Verzeichnis.
3
Seite 14 von 85
SPRINT – Suche im Internet
4 Suchverfahren
Über das WWW sind die wichtigsten Internet-Dienste erreichbar. Auf Grund der starken
Konzentration der Suchdienstanbieter auf das WWW haben eigenständige Suchverfahren der nichtwebbasierten Internet-Dienste (z.B. Archie bei FTP) praktisch keine Bedeutung mehr.
In den folgenden Abschnitten werden nun die verschiedenen Suchverfahren der Suchdiensteanbieter
erläutert.
4.1 Suchmethoden
Die globale Lokalisierung von Informationen im World Wide Web wird durch zwei gegensätzlichen
Methoden bestimmt:
ƒ
dem Matching, als Vergleich von Begriffen, die das Informationsbedürfnis des Suchenden
umschreiben und mit Begriffen, die aus den indexierten Dokumenten gewonnen wurden.
ƒ
dem Browsing, welches durch zielgerichtete oder auch weniger zielgerichtete
Navigation von einem Hyperlink zum anderen gekennzeichnet ist, so dass sich ein
zurückgelegter Pfad von besuchten Seiten ergibt.
Beim Matching werden eingegebene Suchbegriffe mit Indexbegriffen aus den erfassten Dokumenten
des World Wide Web verglichen, um diejenigen Dokumente zu ermitteln, die einer Suchanfrage am
besten entsprechen. Vorteile dieser Vorgehensweise liegen in einem zielgerichteten Vorgehen,
welches den Suchenden "zwingt", sein Informationsproblem zu durchdenken. Folglich muss man
geeignete Begriffe zur Beschreibung des Informationsproblems suchen. Weitere Vorteile liegen in der
Möglichkeit einer automatisierten Form der Relevanzbeurteilung für die Ergebnismenge seitens der
Suchmaschine. Der Nachteil liegt darin, dass der Suchende sein Informationsproblem selbst
formulieren und konzipieren muss. Die erfolgreiche Lösung verlangt aber, dass das Vokabular des
betreffenden Problems bekannt sein muss um eine passende Anfrage eingegen zu können.
Das Browsing wurde erst durch das Vorhandensein von Hyperlinks ermöglicht, welche die
Verknüpfungen zwischen mehreren Dokumenten schaffen. Browsing bedeutet, den vorgegebenen
Link zu folgen, um Seiten zu finden, die sich als nutzbringend für ein Informationsproblem erweisen
oder einfach nur interessant sind.
Man kann ferner verschiedene Arten von Browsing unterscheiden:
ƒ
gerichtetes Browsing
Man sucht nach spezifischen Informationen.
ƒ
ungerichtetes Browsing
Hier steht kein besonderes Problem im Vordergrund, man lässt sich von interessanten
Dingen leiten.
ƒ
assoziatives Browsing
Bei dieser Art werden Hyperlinks solange nachgegangen, bis das Informationsproblem
gelöst ist oder sich die erreichten Dokumente als irrelevant erweisen bzw. man das
Interesse daran verliert.
Ein Vorteil des Browsing liegt darin, dass es möglich ist den Problembereich sukzessiv eingegrenzt
wird. Es ist nicht erforderlich, die gesuchten Informationen anhand terminologisch genauer Begriffe
bezeichnen zu müssen. Die mittels Hyperlinks vernetzten Wissensstrukturen sollen auch eher mit der
assoziativen Denkweise des Menschen harmonieren und dieser so entgegenkommen. Als nachteilig
betrachten könnte man die allgemein weniger zielorientierte und deshalb vielleicht aufwändigere
Vorgehensweise, die auch das Risiko der Ablenkung von der eigentlich beabsichtigten Problemlösung
einschliesst.
4.2 Lokale Internetserver
Die Stichwortsuche innerhalb eines Internetservers war für die Benutzer die erste Möglichkeit,
gezielt nach Informationen im WWW suchen zu können. Dabei handelt es sich um eine einfache
Stichwortsuche, die auf das Dokumentenverzeichnis des lokalen WWW-Servers zugreift. Diese
Möglichkeit der Suche wurde bereits von den WWW-Erfindern implementiert. Das Verfahren der
lokalen Suche wird in der folgenden Grafik dargestellt.
Seite 15 von 85
SPRINT – Suche im Internet
Abbildung 1: Lokale Suche
Der grosse Vorteil dieser Suche ist die hohe Abdeckung der Suchergebnisse. Der Nachteil ist die
Beschränkung auf lokale Server und Datenbanken.
Zunächst war diese Suchmöglichkeit auch ausreichend. Die immer grösser werdende Anzahl an
Dokumenten auf den Web-Servern führte dazu, dass mit dieser einfachen Stichwortsuche nur noch
unbefriedigende Ergebnisse erzielt werden konnten.
Eine Lösung dazu bietet Google Mithilfe einer benutzerdefinierten Suchmaschine. Bei diesem
Suchverfahren kann die Suche auf bestimmte lokale Server eingeschränkt werden. Der Nutzer kann
ein Suchfeld und die Suchergebnisse auf seiner Webseite hosten. Dabei kann er selbst bestimmen
welche Webseiten bei einer Suchanfrage durchsucht werden sollen. Diese Dienstleistung kann von
Unternehmen oder auch von Privaten Personen, z.B. auf der eigenen Blogseite genutzt werden.
4.3 Gateways zu Datenbanken
Wenn neben der Volltextsuche auch noch andere Suchmöglichkeiten erwünscht sind, braucht es
zusätzliche Softwarekomponenten in Verbindung mit Datenbanken, welche auf der Server-Seite die
Anfragenbearbeitung erledigen.
Zum Beispiel, Suche:
ƒ in der Dokumentenstruktur
ƒ in bestimmten Feldern (URL, HTML-Elemente usw.)
ƒ nach Relevanzgrad
ƒ mithilfe von Operatoren.
Im Web-Browser können Daten über diverse Eingabefelder beziehungsweise Formulare eingegeben
und diese Eingaben auf Server-Seite an Hintergrundprogramme über die CGI-Schnittstelle
weitergeleitet werden. Wird dieses Verfahren für die Suche nach WWW-Dokumenten verwendet, so
können fast uneingeschränkt Information Retrieval-Methoden implementiert und genutzt werden.
Eine grosse Anzahl von WWW-Servern bietet heute solche so genannten Gateways an, um dem Nutzer
eine professionelle Suche im lokalen Dokumentenbestand zu ermöglichen. Ein weiterer Vorteil der
Gateway-Lösung ist, dass die Suchmöglichkeiten nicht unbedingt auf WWW-Dokumente beschränkt
sein müssen.
Viele Datenbankanbieter und Produzenten des klassischen Informationsmarktes nutzen diese
Technik, um ihre Bestände über komfortable WWW-Schnittstellen anzubieten. Ein weiteres Beispiel
sind Literaturrecherchen in Bibliotheken. Über einen Gateway zu den vorhandenen OPAC-Katalogen
wird eine Suche unter Verwendung diverser literaturüblicher Suchfelder (Autor, Titel, Verlag,
Erscheinungsjahr usw.) ermöglicht. Diese Technik wird z.B. beim Nebiskatalog eingesetzt. Die
folgende Abbildung zeigt ein für die Nutzung von CGI typisches, formularbasiertes Suchinterface.
Seite 16 von 85
SPRINT – Suche im Internet
Abbildung 2: Nebiskatalog
Immer mehr Webserver werden auch durch professionelle Content Management Systeme (CMS)
verwaltet. Ein Content Management System ist eine Software, die die Verwaltung der Inhalte von
Webseiten ermöglicht, wobei eine Trennung zwischen Inhalt, Gestaltung und Funktion möglich ist.
CMS ermöglichen Benutzern die Erstellung und die Verwaltung von Webinhalten auch ohne
Programmierkenntnisse. Weitere Vorteile von CMS sind die Möglichkeit zur dezentralisierten Wartung
(d.h. der Zugriff auf das System ist über jeden Webbrowser möglich), die Erhaltung von DesignVorgaben (durch die Trennung von Inhalt und Layout), die Speicherung der Inhalte in einer zentralen
Datenbank (erleichtert die Wiederverwendung von Inhalten), sowie die automatische Generierung
der Navigations-Menüs (diese werden typischerweise aus den Datenbankinhalten erzeugt). CMS
bieten zudem eigene, interne Suchfunktionen an. So bietet bspw. das CMS Typo3, mit dem auch
dieser Webauftritt realisiert ist, die Möglichkeit einer Volltextsuche in den Webseiten und externen
Dateiformaten (wie z. Bsp. .txt, .doc oder .pdf) an. Die Suche kann dabei auch auf Teile einer
Website beschränkt werden und sogar die Suche in Datenbank-Tabellen ist möglich. Bei CMS wird
keine CGI-Schnittstelle mehr benötigt.
4.4 Katalog & Verzeichnis
Eine manuell aufgebaute Link-Sammlung kennzeichnete den Beginn der globalen Suche im WWW. Die
Entwickler des WWW bauten als Erste eine Link-Zusammenstellung auf, um das WWW zu verbreiten,
aber auch um diese Verbreitung mitzuverfolgen. Daraus entstand einer der umfangreichsten WWWKataloge, die Virtual Library die auch heute noch vorhanden und von mehreren Institutionen
weltweit unterstützt wird. Parallel dazu entstanden auch andere umfangreiche Kataloge und dienten
"lange" Zeit der Web-Welt als beste globale Suchmöglichkeit.
Das Suchverfahren in Katalogen basiert auf der Navigation in den hierarchisch aufgebauten
Suchgebieten. Dadurch, dass nicht zu viele Dokumente auf einer Ebene sein dürfen, da sonst
Benutzer schnell das Interesse durch ein informationelles Überangebot verlieren könnten, sind die
Organisatoren von Katalogen gezwungen, nach relevanten Startseiten zu den einzelnen Themen zu
suchen. Folgende Graphik illustriert den konzeptionellen Aufbau von Webkatalogen.
Seite 17 von 85
SPRINT – Suche im Internet
Abbildung 3: Aufbau von Webkatalogen (Quelle: Griesbaum et al., 2008)
So wurden vorerst nur bekannte und themenrelevante WWW-Dokumente aufgenommen. Dieser
zentrale Aufbau der Web-Kataloge beziehungsweise -Verzeichnisse musste jedoch bald, aufgrund des
starken Wachstums und der Unübersichtlichkeit immer neu erscheinender Web-Sites, in eine
dezentrale Form überführt werden: Web-Autoren beziehungsweise Administratoren hatten die
Möglichkeit, über WWW-Formulare ihre eigenen Angebote bei den Katalogdiensten als Link, meist
mit einer Kurzbeschreibung, einzutragen. Der positive Effekt war eine rege Beteiligung und schnell
zunehmende Anzahl von Einträgen in den vorgegebenen Rubriken. Nur so konnte die ohnehin
schwache Abdeckung des Webinformationsangebotes etwas ausgeweitet werden. Die Richtigkeit der
gemachten Angaben sowie die Aktualität der Kataloge konnte allerdings nicht mehr sichergestellt
werden, da diese nur von den Eintragenden selbst abhing.
Kataloge eignen sich vor allem, wenn man zu einem gewissen Thema beziehungsweise Sachgebiet
einen Einstieg finden will, ohne dabei ganz konkret nach einer bestimmten Information zu suchen.
Das Browsen des Benutzers in einem Katalog erlaubt auch den Serendipity-Effekt. Darunter versteht
man den Effekt, der sich durch Ablenkung während des Suchens auf Sachverhalte, die in keinem
offensichtlichen Zusammenhang zum eigentlichen Suchthema stehen, ergibt. Beim Einstieg in neue
Gebiete ist dieser Effekt durchaus wünschenswert, da er kreativitätssteigernd wirken kann und bei
der reinen Stichwortsuche eher ausbleibt.
Aber auch die Kataloge selbst erreichten schnell eine Grösse, bei der die navigatorische Suche
mühsam war und nicht mehr adäquat schien. So wurden diese mit einer Stichwortsuche und
Suchmethoden, wie Boolesche Operatoren, innerhalb der Katalogeinträge ausgestattet. Diese
Indexsuche ist aber für den Benutzer meist nicht sehr zufriedenstellend, da die Suche nicht auf den
Volltexten basiert. Sie ist auf den Linktexten der referenzierten Dokumente und deren
Beschreibungen aufgebaut.
Es gibt auch Kataloganwendungen, bei denen die Stichwortsuche eine grössere Rolle spielt als die
Navigation, wie z.B. bei Email-Adressverzeichnissen. Abgesehen davon, dass die globale Suche
hierbei nur über WWW-Kataloge bzw. Verzeichnisse möglich ist, da Email-Adressen im Gegensatz zu
Web-Seiten nicht automatisch abgefragt werden können. Der Anwender ist weniger daran
interessiert, in einem Email-Verzeichnis zu stöbern, sondern eher über die Stichwortsuche die
gewünschte Email-Adresse schnell ausfindig zu machen.
Zusammenfassend haben Webkataloge folgende Vor- bzw. Nachteile [Griesbaum et al., 2008):
Vorteile:
ƒ
Webkataloge eignen sich sehr gut für den Einstieg in bestimmte Themen und geben einen
ersten Überblick in das Thema.
ƒ
Die intellektuelle Arbeit, d.h. die redaktionelle Aufarbeitung, sichert eine minimale Qualität
der ausgewählten Webinhalte.
ƒ
Die Einteilung erfolgt durch thematische und hierarchische Prinzipien. Dadurch bieten
Webkataloge Kontextinformationen.
Seite 18 von 85
SPRINT – Suche im Internet
ƒ
Oftmals erfassen Webkataloge eine Vielzahl von hochwertigen (Fach-)Datenbanken, deren
Inhalte Suchmaschinen verschlossen bleiben.
Nachteile:
ƒ
Die Webkataloge sind organisch gewachsen, deshalb fehlt oft ein standardisiertes Regelwerk
für die Einordnung.
ƒ
Die intellektuelle Arbeit ist sehr aufwändig, vor allem um die Inhalte jeweils zu
aktualisieren.
ƒ
Webkataloge bieten eine geringe Abdeckung.
Das grösste Webkatalog ist das Open Directory Project mit über 4'600'000 Webseiten. Der älteste
Webkatalog ist Yahoo, der 1994 gegründet werde.
4.5 Social Bookmarkdienste oder Tagging Communities
Eine weitere Möglichkeit für den Aufbau eines Katalogs sind Social Bookmarkdieste oder Tagging
Communities. Ein Beispiel für einen solchen Katalog ist delicious (ehem. del.icio.us) oder Flickr.
Im Gegensatz zu den üblichen Inhalten der Kataloge, die mit Hilfe von redaktionellen Kräften
erschlossen werden, werden die Inhalte solcher Dienste durch die Nutzer gemeinsam indexiert. Dies
geschieht ohne strukturelle oder inhaltliche Vorgaben und Kontrolle. Das heisst, es existiert keine
Ordnungshierarchie. Die Webseiten werden mit so genannten Tags (freie Schlagworte) versehen. Das
gemeinsame Taggen wird auch als Folksonomie bezeichnet. Bookmarks können kommentiert und
verschlagwortet und anderen Benutzern zugänglich gemacht werden. Folgende Graphik zeigt die
Funktionsweise der Social Bookmarkdienste. (Griesbaum et al., 2008)
Abbildung 4: : Aufbau von Social Bookmarkdienste (Quelle: Griesbaum et al., 2008)
Diese Dienste werden als zentraler Entwicklungsstand des Web2.0 gesehen. Sie weisen vielfältiges
Potenzial zur Verbesserung des Informationsretrievals im Web auf. (Griesbaum et al., 2008)
4.6 Portale
Eine spezielle Ausprägung von Web-Katalogen bzw. Verzeichnissen bilden Portale, die als
Einstiegspunkte in das WWW gelten. Diese werden meistens von bekannten Providern oder
Suchdienstanbietern, wie z. B. AOL oder Yahoo! bereitgestellt und sind ebenfalls nach diversen
Rubriken geordnet. Hierbei geht es aber weniger darum ein größtmögliches Angebot bereitzustellen,
sondern eher das wirtschaftliche Interesse durch Verträge und Bildung von Mehrwertdiensten mit
diversen Anbietern wie z.B. Firmen, Banken, Kaufhäusern, Wetterdiensten usw. zu verfolgen. Die
Einträge erfolgen demnach ausschliesslich durch den Anbieter des Portals.
Ein Portal kann anhand folgender Kriterien von "einfachen" Katalogen unterschieden werden:
Seite 19 von 85
SPRINT – Suche im Internet
ƒ
Portale sollten betrachtet werden als Einstiegspunkt für den vereinfachten Zugang zu einer
grossen Menge an Informationen und Angeboten des durch sie repräsentierten Mediums, z.B.
Internet, Intranet.
ƒ
Portale verwenden solche Informationsquellen und Suchwerkzeuge, die den wirtschaftlichen
Interessen der Portal-Anbieter entsprechen. Dazu zählen unterschiedliche Dienste wie
Suchmaschinen, Kataloge oder Spezialsuchdienste für bestimmte Themen oder Datentypen.
Zusätzlich ist auch eigener, redaktionell aufgearbeiteter Inhalt ("Content") zu bestimmten
Themengebieten aus eigenen oder fremden Quellen charakteristisch für Portale.
ƒ
Ein wichtiges Merkmal von Portalen sind Möglichkeiten der Personalisierung zur Anpassung
der Seiten des Portals an persönliche Interessen und Präferenzen. Typisch wären auch
Ergänzungen von Tools zur Unterstützung von netzbasierten Aktivitäten und Kommunikation
z.B. Email-Account, Bookmarkmanagementtool, Adressbuch, Kalender, themenspezifische
Chatrooms usw.
Portale können ferner unterteilt werden in horizontale Portale, die inhaltlich allgemein gefasst sind,
und vertikale Portale, die auf bestimmte Themen oder Zielgruppen fokussieren.
Beispiele für die erste Gruppe sind: Excite, AOL und About; für die zweite Gruppe: ZDNet.
4.7 Meta-Suchdienste
Metasuchdienste (Multi-Search Engines) erlauben die gleichzeitige Suche bei mehreren
Suchdiensten, von einer WWW-Seite aus.
4.7.1 Echte Metasuchdienste
Wichtig bei Metasuchdiensten ist, dass die Suchdienste nur über ein einziges Suchformular
angesprochen werden und keinen eigenen Index aufweisen, „sondern [die Metasuchdienste] leiten
Anfragen an andere Suchdienste weiter und führen die Treffer in einer Trefferliste zusammen." [1]
"Echte" Metasuchdienste weisen folgende Charakteristiken auf:
ƒ
Mehrere Suchdienste, in der Regel meist Suchmaschinen und Kataloge, werden automatisch
über eine Schnittstelle (Suchformular) befragt.
ƒ
Die verschiedenen Suchdienste werden vorgegeben, können manchmal aber auch vom
Benutzer ausgewählt werden.
ƒ
Funktionalität und Operatoren der verschiedenen Suchdienste werden verwendet. Hierbei
wird eine Anpassung der Anfrage auf die einzelnen Suchdienste vorgenommen. Mindestens
die Boole'schen Operatoren AND und OR sollten zur Verfügung stehen.
ƒ
Die spezifischen Eigenschaften der unter der Meta-Maschine liegenden Suchdienste dürfen
für die Bedienung keine Rolle spielen, der Anwender muss nichts darüber wissen.
ƒ
Kurzbeschreibungen der ausgewiesenen Suchtreffer z. B. als Titel oder
Inhaltszusammenfassung werden übernommen und dargestellt.
ƒ
Eliminierung von Mehrfachtreffern aus den Ergebnissen der verschiedenen Suchdienste. Die
Ergebnisse werden zusammengeführt und einheitlich dargestellt.
ƒ
Zeitvorgaben und maximale Treffergrenzen können gesetzt werden. Die Zeit für die Suche ist
so einstellbar, dass der letzte nachgewiesene Treffer eines Suchdienstes noch erfasst werden
kann.
Die folgende Abbildung gibt die Funktionsweise von Metasuchdiensten wieder:
Seite 20 von 85
SPRINT – Suche im Internet
Abbildung 5: Metasuchmaschinen
Der Mehrwert einer Metasuchmaschine stellt die Zeitersparnis dar, da jeweils nur eine Eingabe zur
Suche erfolgen muss. Zudem können weitere Suchmaschinen als Alternative zu Google kennen
gelernt werden.
Das zentrale Problem der Metasuchdienste ist das Ranking der gemischten Treffermenge. Da die
Rankingwerte der einzelnen Suchdienste unterschiedlich und die Verfahren meist nicht offiziell
bekannt sind, wird die Treffermenge meist nach den Suchdiensten gruppiert.
Ein weiterer Nachteil der Metasuchdienste sind die teilweise eingeschränkten Möglichkeiten bei der
Formulierung der Suchanfrage. Da automatisch mehrere Suchmaschinen befragt werden, ist der
Nutzer bei der Formulierung der Suchanfrage auf Operatoren beschränkt, welche bei allen
verwendeten Diensten gemeinsam vorkommen (kleinster gemeinsamer Nenner). Da nicht alle
Suchdienste die Verwendung bestimmter Operatoren oder sonstiger Optionen für die Suchanfrage
unterstützen bzw. teilweise die Schreibweise der Operatoren differiert, kann es hier zu Problemen
kommen. Deshalb werden bei einigen lokal zu installierenden Metasuch-Programmen vor der
eigentlichen Weitergabe der Suchanfrage zunächst Aktualisierungen der suchdienst-spezifischen
Parameter durchgeführt. Dies geschieht vor dem Hintergrund einer möglichst "guten" Anpassung der
Suchanfrage an die Anforderungen des jeweiligen Suchdienstes (Bsp. Dogpile).
Auch die Eliminierung von Mehrfachtreffern beschränkt sich in der Regel nur auf den Vergleich der
Dokumentadressen (URL). Inhaltliche Analysen, mit denen gleiche Dokumente mit unterschiedlichen
URLs aufgespürt werden könnten, werden noch nicht eingesetzt.
Bei der Befragung der Suchdienste durch die Metasuchmaschine werden zwei grundlegende
Techniken unterschieden: Der sequentielle und der parallele (gleichzeitige) Zugriff.
ƒ
Sequentielle Suche in mehreren Suchdiensten
Suchdienste werden nacheinander von dem Metasuchdienst befragt. Die Trefferliste mit den
Treffern der verschiedenen Suchdienste wird erst nach Befragung des letzten Suchdienstes
ausgegeben.
ƒ
Parallele Suche in mehreren Suchdiensten
Suchdienste werden parallel / simultan von dem Metasuchdienst befragt. Die Ausgabe der
Trefferliste wird begonnen, sobald einer der befragten Suchdienste die Suchanfrage abgearbeitet
hat.
Metasuchdienste eignen sich vor allem für die Lösung von ganz speziellen Informationsproblemen,
bei denen einzelne Suchdienste nur wenige Treffer aufweisen. Metasuchdienste sind in der Regel auf
dem neuesten Stand und beinhalten Suchdienste oder spezielle Datenbanken, die sonst nicht
verbreitet bzw. bekannt sind.
Für die Recherchierenden gibt es entscheidende Neuerungen in der Technologie bezüglich
Ergebnisdarstellung, Suchdiensteauswahl, Suchanfrageformulierung, Ergebnissortierung
(Visualisierung) oder auch Social Search-Ansätze. (Griesbaum et al., 2008)
Seite 21 von 85
SPRINT – Suche im Internet
Zum Beispiel visualisiert Searchcrystal die Überlappung der abgefragten Suchdienste und deren
Ergebnisse mit Hilfe eines geografischen Displays. Der User kann die Ergebnisdarstellung und die
Grösse der Texte und Bilder interaktiv verändern.
Sortfix bietet dem Benutzer die Möglichkeit die Suchanfrage über vorgeschlagene Termen, durch
„Add to Search“– und „Remove“-Boxen zu verändern. (Griesbaum et al., 2008)
„Scour und Sproose sind beispielsweise Social Search-Metasuchmaschinen, die den registrierten
Nutzern die Möglichkeit geben, Suchergebnisse zu bewerten und zu kommentieren. (Griesbaum et
al., 2008)
Eine weitere Gattung von Metasuchdiensten sind die Personensuchmaschinen wie Pipl und Yasni. Sie
liefern dem Benutzer alle möglichen Informationen über eine Person im Internet und befragen unter
anderem auch Soziale Netzwerke. (Griesbaum et al., 2008)
4.7.2 Unechte Metasuchdienste
Fälschlicherweise werden auch WWW-Seiten mit einfachen Schnittstellen, das heisst mehrere
Suchmasken verschiedener Suchmaschinen, als Metasuchdienste bezeichnet. Diese, nicht "echten"
Metasuchdienste, bringen trotzdem gewisse Vorteile:
ƒ
Suchformulare mehrerer Suchmaschinen werden auf einer WWW-Seite angeboten.
ƒ
Das Laden der einzelnen Suchmaschinen wird erspart.
ƒ
Guter Überblick über verschiedene Suchmaschinen.
ƒ
Es existieren pseudo-sequentielle Metasuchdienste, die wohl nur eine Schnittstelle
(Suchformular) aufweisen, aber bei denen der Nutzer die abzufragenden Suchmaschinen manuell
nacheinander auswählen muss. Erst im Anschluss daran wird die Suche durch den Metasuchdienst
ausgeführt. Der Vorteil dieser Dienste besteht darin, die Suchanfrage für die Abfrage mit
mehreren Suchmaschinen nur einmal erfassen zu müssen.
Bsp: Multi-Search-Manager
Seite 22 von 85
SPRINT – Suche im Internet
4.8 Suchmaschinen
Nachfolgend wird die Funktionsweise der Suchmaschinen genauer erläutert. Die Anfragenbearbeitung
läuft zunächst als ein einfacher Zugriff auf eine Index-Datenbank ab. Der Nutzer gibt in ein WebFormular die Suchbegriffe ein, welche dann von der Retrievalsoftware mit der Datenbank
abgeglichen wird. Anschließend wird die Ergebnismenge nach Relevanz sortiert dem Benutzer
dargestellt. Viel interessanter ist natürlich der Aufbau der Suchmaschinendatenbank.
Rund um die Suchmaschinen:
•
•
•
•
•
Die Funktionsweise
Optimierung der Webseite
Spam auf Webseiten
Anzeige der Treffermenge
Kommerzialisierung der Webseiten
4.8.1 Die Funktionsweise
Ganz am Anfang, also beim Aufbau einer Suchmaschine, steht eine Start-URL-Liste, die zunächst vom
Betreiber aufgestellt wird und sich aus bekannten Web-Sites, mitunter auch aus Katalogrubriken
bzw. Hub-Pages anderer Anbieter zusammensetzen kann. Diese Liste wird dann vom Roboter Adresse
für Adresse abgearbeitet. Die so erreichten Seiten werden zunächst inhaltlich erschlossen und die
gefundenen Verweise an die URL-Liste angehängt. Dann werden die noch nicht verarbeiteten
Adressen der URL-Liste nach dem gleichen Schema weiterverarbeitet.
Roboterbasierte Suchmaschinen sind die dominierenden Typen von Suchdiensten im Web. Sie
verwenden also maschinelle Verfahren zur Dokumentenbeschaffung, der Inhaltserschliessung und der
Spezifizierung der Treffermengen auf Methoden des Information Retrieval. Die folgende Abbildung
zeigt die wesentlichen Komponenten einer Suchmaschine. (Griesbaum et al., 2008, S. 14) Bei der
Inhaltserschliessung, d.h. dem Aufbau einer resultierenden Indexdatenbank und der Suche in dieser
wird auf bewährte Techniken des Information Retrieval zurückgegriffen. Roboterbasierte
Suchverfahren, auch teilweise in Kombination mit Web-Katalogen, sind heute die dominierenden
Werkzeuge zur Suche im WWW.
Abbildung 6: Websuchmaschine (Quelle: Griesbaum et al., 2008, S. 15)
Die Aufgaben einer Suchmaschine lassen sich grob in vier Teilaufgaben zerlegen:
1.
2.
3.
4.
Dokumentenbeschaffung (Akquisition)
Indexierung
Aktualisierung
Anfragenbearbeitung
Im Folgenden werden diese vier Teilaufgaben genauer beschrieben:
Seite 23 von 85
SPRINT – Suche im Internet
Dokumentenbeschaffung (Akquisition)
Hinsichtlich der Dokumentenbeschaffung stellt sich als Erstes die Frage, wie Suchmaschinen an
Startpunkte beziehungsweise Startseiten für die weitere rekursive Erkundung gelangen. Dazu
benutzen Suchmaschinen in der Regel Kataloge oder auch andere Suchmaschinen.
Teilweise können von Benutzern Vorschläge in einer dafür eingerichteten WWW-Seite eingetragen
werden. Dabei können oft auch zusätzliche Informationen über die Seite (Autor, Kommentare, EmailAdresse usw.) angegeben werden. Doch in der Regel findet die Dokumentenbeschaffung über
Programme statt, da dieses rekursives Verfahren automatisierbar ist. Aus diesem Grund spricht man
auch von einem maschinellen beziehungsweise von roboterbasierten Verfahren. Die traversierenden
Programme selbst werden neben Roboter, auch als Spider, Crawler, Wanderer oder Worm
bezeichnet, wobei die Unterschiede nur geringfügig sind. Spider, Crawler, Wanderer und Worms
verfolgen Links über mehrere Seiten hinweg. Sie orientieren sich also primär an der Linktiefe (DepthFirst).
Roboter (robots) hingegen gehen allen abgehenden Verweisen einer Seite nach und laden die so
erreichten Zieldokumente herunter. Es wird erst dann ein weiterer Tiefenschritt in der HyperlinkVerfolgung vorgenommen, wenn bereits alle anderen Links erschlossen sind (Breadth-First). Über
diese Quellen werden Roboter auf Dokumente erstmalig "aufmerksam" gemacht.
Die Anwendungsmöglichkeiten für Roboter sind divers: von statistischen Analysen zu Web-Servern
und Dokumenten, über das Aufspüren von nicht mehr erreichbaren Verweisen (Dead-Links),
Unterstützung der Duplizierung von WWW-Seiten (Mirroring) mit zugehöriger Transformation der
absoluten / relativen Adresskonvertierung, die Sammlung von E-Mail-Adressen, die auf vielen WebSeiten zu finden sind, bis zu der eigentlich wichtigsten Anwendung von Robotern, der Auffindung
weltweiter WWW-Dokumente für eine Suchmaschine.
Diverse Suchmaschinen (Search Engine) sind laufend in Betrieb und deren Roboter arbeiten große
Teile des Webs regelmässig ab. Die zugehörigen Volltextindizes oder auch nur Teilindizes der
Dokumente werden in Datenbanken gespeichert. Diese Datenbanken bilden die Grundlage für die
Suchmaschinen bzw. Suchserver, die über Benutzerschnittstellen mit diversen Abfrageformularen die
Suche nach Dokumenten im Internet ermöglichen.
Ausgehend von der URL-Liste werden die Hyperlinks des Webs traversiert und die Inhalte der HTMLDokumente und weitere textbasierte Dateiformate extrahiert (Griesbaum et al., 2008, S. 15). Der
Rest wird über WWW-Hypertextstrukturen automatisch weiterverfolgt. Die so erreichten Seiten
werden verarbeitet, ihre URLs in einem Register gespeichert und in regelmäßigen Abständen wieder
besucht und aktualisiert.
Die Tiefe der rekursiven Verfolgung der Links ist von Suchmaschine zu Suchmaschine unterschiedlich.
In diese Suche werden neben den Inhalten des WWW auch weitere Internet-Dienste wie z.B. FTP
oder NewsGroups miteinbezogen. Es wird jedoch wenig erwähnt, dass Suchmaschinen in der Lage
sind, die Navigationsprofile von Usern zu erfassen. Gerade durch das automatische Verfahren ist die
Abdeckung solcher Informationen im Web sehr hoch und kann dementsprechend mehr erfasst
werden. „Die letzten veröffentlichten Angaben der Suchmaschinenbetreiber Yahoo und Google aus
dem Jahre 2005 geben eine Indexgröße von rund 20 Milliarden Dokumenten an.“ (Griesbaum et al.,
2008, S. 15)
Neben der Indexierung von Dokumenten, die als HTML-Dateien im World Wide Web vorliegen,
werden auch weitere Dokumentformate wie PDF (Portable Document Format), Postscript oder
Worddateien geladen und inhaltlich erschlossen. Selbst Grafiken, wie z. B. GIF-Dateien (Graphic
Interchange Format) oder JPEG-Dateien (Joint Picture Motions Expert Group), werden auf
vorhandenen Text untersucht.
Es gibt jedoch auch die Möglichkeit die Indexierung auszuschliessen, d.h. die WWW-Server vor
Roboterzugriffen zu schützen. „Seit 2005 kommunizieren die Suchdienstebetreiber Google, Yahoo
und Microsoft das Linkattribut ‚Nofollow’.“ (Griesbaum et al., 2008, S. 17) Derart gekennzeichnete
Links werden bei der Sortierung nicht berücksichtigt. Neben dieser Steuerungsmöglichkeit auf der
Ebene der Seiten gibt es jedoch noch eine Konvention, der „Robots exclusion standard“, der das
Verhalten von Suchmaschinen auf der Domainebene bestimmt.
Websitebetreiber können Suchmaschinenrobotern mitteilen, dass ihre Domain bzw. Teilbereiche
davon nicht indexiert werden sollen. Die entsprechenden Anweisungen werden in einer Textdatei
namens Robots.txt hinterlegt. (Griesbaum et al., 2008, S. 17) Es bildet jedoch kein echter
Zugriffsschutz, sondern es ist lediglich eine Art Abmachung unter den Betreibern der Suchdienste.
Seite 24 von 85
SPRINT – Suche im Internet
Folgende Abbildung zeigt ein Beispiel für die Website xyz.com, in der der Websitebetreiber für alle
Roboter („User-agent: *“) spezifiziert, dass die Unterverzeichnisse „Templates“ und „CGI“ nicht
indexiert werden sollen.“ (Griesbaum et al., 2008, S. 17)
Abbildung 7: Robots.txt (Quelle: Griesbaum et al., 2008, S. 18)
Fehlt der Meta Robots-Tag, dann wird eine Webseite von einer Suchmaschine in den Datenbestand
aufgenommen und alle Links werden durch den Roboter verfolgt.
2006 einigten sich Google, Yahoo und Microsoft weiterhin auf ein „Standard Sitemap Protokoll“.
Sitemaps gestatten es, in Form eines XML-Files, Metainformationen zum letzten
Aktualisierungszeitpunkt, zur Aktualisierungsfrequenz und zur Priorität der aufgelisteten URLs
einzutragen. Dies erleichtere es Suchmaschinen, Webseiten intelligenter zu indexieren.
Google bietet des Weiteren mit den „Webmaster-Tools“ Websitebetreibern die Option,
umfangreiche Crawling-Informationen zur Indexierung durch Google zu erhalten. Sitemaps und
„Webmaster-Tools“ können als eine Weiterentwicklung der Steuerungsmöglichkeiten durch MetaTags und des „Robot Exclusion Standards“ betrachtet werden.
Alle genannten Möglichkeiten tragen dazu bei, die Ressourcen der Suchmaschinen zur
Dokumentbeschaffung effizienter zu nutzen und Probleme, wie die Mehrfachindexierung gleicher
Inhalte oder niedrige Aktualitätsfrequenzen, zu minimieren. Zugleich wird mit Diensten wie den
Webmaster-Tools die roboterbasierte Dokumentbeschaffung auch für Websitebetreiber
transparenter. Damit ist zu erwarten, dass z.B. technische Problembereiche beim Crawling, die etwa
durch nicht verfolgbare Links, dynamische oder dynamisch erzeugte Seiten auftreten, (tendenziell
früher) entdeckt und behoben werden. (Griesbaum et al., 2008, S. 18)
Des Weiteren führte Yahoo 2007 mit dem „robots-nocontent“-Tag eine Möglichkeit ein, auch
Textinhalte im sichtbaren Bereich einer Webseite von der Indexierung auszuschließen. (Griesbaum et
al., 2008, S. 17) Aber auch Suchmaschinen stossen an ihre Grenzen. Zum einen ist die Menge der im
Internet verfügbaren Dokumente unterdessen derartig angewachsen, dass keine der Suchmaschinen
auch nur eine annähernd vollständige Abdeckung zu erreichen vermag (siehe dazu auch
Searchenginewatch mit der ermittelten Reichweite für einige bekannte Suchmaschinen des
Internets). Zum anderen ist ein erheblicher Teil an Dokumenten und Daten, die im World Wide Web
für die Nutzung durch unmittelbaren Zugriff des Menschen bereitstehen, für Suchmaschinen nicht zu
erreichen und können demnach auch nicht in ihren Index aufgenommen und suchbar gemacht
werden.
ƒ
WWW-Seiten mit Frames: Webseiten, die mit Frames aufgebaut sind, stellen für Suchmaschinen
ein Problem dar. Sie können die einzelnen Seiten zwar indexieren, doch können sie nicht mehr in
ihrer ursprünglichen Anordnung wiedergegeben werden.
ƒ
Link-Bilder über CGI: Dokumentreferenzen innerhalb von Bildbereichen, die über CGISchnittstelle abgearbeitet werden, können von Suchmaschinen nicht automatisch verfolgt
werden. Bei dieser Art von Verweisen innerhalb von Bildbereichen ist es die Aufgabe des
Browsers, die Mauskoordinaten bei Drücken der Maustaste an den Server bzw. das zugehörige
CGI-Skript zu senden. Dort wird erst die entsprechende Web-Seite ermittelt. In den neueren
HTML-Versionen wurde dieser Mechanismus durch ein HTML-Element ersetzt, bei dem
Bildbereiche und zugehörige Linkadressen direkt angegeben werden können.
Seite 25 von 85
SPRINT – Suche im Internet
ƒ
Neu erstellte / aktualisierte Dokumente: Hierbei ist die Verarbeitung abhängig von der
Aktualisierungsfrequentierung sowie der Zeit zwischen der manuellen Eintragung einer Seite bei
einer Suchmaschine und der tatsächlichen Analyse dieser und Speicherung in der IndexDatenbank, der so genannten "index-lag"-Zeit. Je nach Suchmaschine können hierbei bis zu vier
Wochen vergehen. "Brandaktuelle" Informationen werden daher von den Suchmaschinen nicht
nachgewiesen.
ƒ
Daten aus Datenbanken: Diese müssen erst aus der Datenbank in eine HTM extrahiert werden,
damit sie von den Suchmaschinen indexiert werden können.
ƒ
Nicht verlinkte Dokumente: Da WWW-Server in der Regel keine Übersicht über ihren
Gesamtbestand anbieten und der Zugriff auf interne Verzeichnisse meist nicht erlaubt wird,
können auch keine Dokumente nachgewiesen werden, auf die von aussen kein Link verweist und
die auch nicht bei den Suchmaschinen eingetragen wurden.
ƒ
Zugriffsgeschützte Dokumente: Dokumente, die durch Passwort, Registrierung oder eine
Firewall geschützt sind, können von Robotern auch nicht erreicht werden.
ƒ
Dynamische Dokumente: Dokumente, die abhängig von Formulareinträgen oder ähnlichem auf
dem Server dynamisch über CGI, Java oder JavaScript generiert werden, können nicht erreicht
werden, da Suchmaschinen keine Möglichkeit haben, sinnvolle Formulareinträge automatisch
vorzunehmen.
ƒ
Geschützte Seiten nach dem Roboter-Exclusion-Standard: Die meisten Suchmaschinen halten
sich an den Roboter-Exclusion-Standard. Server-Bereiche, die in der Datei "robots.txt"
spezifiziert sind, werden von Robotern nicht besucht.
ƒ
FTP-Daten: Suchmaschinen können natürlich nur auf frei zugängliche FTP-Server (Anonymous
FTP) automatisch zugreifen.
ƒ
E-Mail: E-Mail Server bieten in der Regel keinen Zugriff auf ihre E-Mail Adressen. Oft werden
aber E-Mail Adressen auf HTML-Seiten vermerkt. Diese werden von Suchmaschinen erkannt und
können somit gesucht werden. Es gibt aber auch spezielle Suchmaschinen, die eine Suche nach
Email-Adressen anbieten. (Beispiele siehe Kapitel Email-Suchdienste)
Man spricht in diesem Zusammenhang von einem "Invisible Web" oder „Deep Web“. Es gibt aber auch
Suchdienste des World Wide Web, die zumeist katalog-basiert, wenigstens einige dieser Quellen für
eine Suche oder Browsing verfügbar machen sollen. Beispiele dafür sind Beaucoup und Direct Search.
Vielfältige Bemühungen zur Indexierung des Deep Web sind klar erkennbar. So kann man feststellen,
dass die Zahl der erfassten Dokumente und der unterstützten Dokumentenformate zunimmt und
somit den Suchmaschinen gelingt, „die Inhalte des „Indexable Web“ durchsuchbar zu machen“
(Griesbaum et al., 2008, S. 18).
„Eine erhebliche Leistung, denn nach einer Schätzung aus dem Jahre 2004 werden pro Woche ca.
300 Millionen Webseiten erstellt. Eine aktuelle Studie deutet zudem darauf hin, dass die populären
Suchmaschinen Google, Yahoo und MSN einen Großteil von Webseiten innerhalb weniger Tage
reindexieren. Suchmaschinen erreichen also eine hohe Abdeckung und sind i.d.R. relativ aktuell.
Dennoch ist festzuhalten: Die Größe des (indexierbaren) Web ist nicht bekannt, ebenso ist
unbekannt, welcher Anteil durch Suchmaschinen abgedeckt wird. Für den Suchmaschinennutzer ist
es deshalb wichtig, sich zu vergegenwärtigen, dass Suchmaschinen zwar große Teilbestände des
indexierbaren Web nachweisen, aber Wissensbestände des sogenannten Deep Web, oft umfangreiche
Wissensbasen professioneller Anbieter, nur zu einem geringen Teil erfassen (können).“ (Griesbaum
et al., 2008, S. 18)
„Zur Größe dieses Deep Web gibt es unterschiedliche Schätzungen. So geht ein Whitepaper der Firma
Brightplanet aus dem Jahr 2001 davon aus, dass das Deep Web 400- bis 550-mal größer sei als das
indexierbare Web und mindestens 550 Milliarden Dokumente umfasse. Eine aktuellere Schätzung
kommt für den Wissenschaftsbereich auf eine Größe von zwischen 20 und 100 Milliarden
Dokumenten.“ (Griesbaum et al., 2008, S. 15)
Indexierung
Das Angebot von Suchmethoden und -operatoren ist stark von der Indizierung und der daraus
resultierenden Datenbank abhängig. Dabei sind sowohl Analysemethoden als auch der Umfang der
Indizierung der einzelnen WWW-Seiten von großer Bedeutung. Wie nun die vom Roboter laufend
zusammengetragenen HTML-Seiten tatsächlich indiziert werden, lassen die einzelnen
Suchmaschinenanbieter nur zum Teil erkennen. Die Indizierung gehört letztendlich zu den
Seite 26 von 85
SPRINT – Suche im Internet
Kernkompetenzen dieser Anbieter. Denn abhängig von dieser Kompetenz können in der
Recherchekomponente mehr oder weniger fortschrittliche Suchoperatoren angeboten werden. Man
kann aber davon ausgehen, dass hierbei die Methoden des klassischen Retrieval als Grundlage
dienen. Wenn Suchmaschinen den Volltext von Webseiten erschliessen, werden die exakte
Schreibweise erfasst und Groß- und Kleinschreibung sowie Umlaute meist normalisiert.
„Morphologische und syntaktische Verfahren der Textanalyse, wie z.B. Grund- und
Stammformreduktion, Kompositazerlegung oder die Erkennung von Mehrwortbegriffen, finden
derzeit meist keine Anwendung. Neben den Stichwörtern werden auch:
ƒ HTML-Strukturinformationen (HTML-Tags),
ƒ ausgehende Links,
ƒ dokumentinhärente Metainformationen (Meta-Tags),
ƒ weitere formale Elemente (z.B. Dateigröße, Änderungsdatum),
ƒ eingebettete Elemente (z.B. Dateinamen von Bildern, Java-Applets, Kommentare,
unbekannte Elemente, die nicht vom Browser angezeigt werden usw.)
ƒ und teilweise auch Formatelemente (z.B. Schriftgröße, Farbe) erfasst.“ (Griesbaum et al.,
2008, S. 19)
Auch im Umfang der Indizierung werden teilweise unterschiedliche Strategien verfolgt:
ƒ
Volltext: Bei den meisten Suchmaschinen werden inhaltsbedeutende Begriffe oder Elemente
aus der gesamten HTML-Seite (Mehrsprachige Stoppwortlisten) indiziert.
ƒ
Teilindex: Suchmaschinen mit einem Teilindex indizieren meistens URL, Titel (TITLEElement) und Überschriften (Hx-Elemente) oder auch die ersten paar Zeilen der WWW-Seite.
ƒ
Spezielle Inhaltsbeschreibende Bereiche: Das Meta-Tag ist ein spezielles HTML-Element,
über das der Autor eines Dokuments selbst Deskriptoren und Zusatzinformationen über die
WWW-Seite strukturiert hinterlegen kann. Suchmaschinen, die solche META-Elemente
unterstützen, extrahieren aus diesen die Metainformationen, so dass keine eigene Analyse
bzw. Indizierung der Seite gemacht wird. Dieses Verfahren wird gerne bei FrameDokumenten genutzt, da Suchmaschinen diese „in der Regel“ nicht korrekt nachweisen
können. Nur sehr wenige Suchmaschinen verarbeiten Frame-Dokumente ausserhalb der
Startseite, d.h. entweder erkennt und indiziert die Suchmaschine die Einzelframes oder es
wird nur die Definitionsseite des Framesets erkannt und indiziert. Die Suchmaschine kann
den Zusammenhang zwischen Frameset und Einzelframes nicht richtig erkennen, bzw. diese
nicht korrekt zusammensetzen. Das Problem bei den Framesets ist, dass ihnen kein
bestimmter Inhalt zugeordnet werden kann und keine Links eingebunden werden können.
Diese Informationen können in Metatags eingebunden und das Problem somit umgangen
werden.
Aktualisierung
Die bekanntesten Suchmaschinen bearbeiten bis zu mehreren Dutzend Millionen Anfragen pro Tag.
Die Verarbeitung und Aktualisierung einer stark wachsenden Anzahl von WWW-Dokumenten weltweit
sowie die grosse Menge von Suchanfragen stellt höchste Ansprüche an Hard- und Software des
Suchservers.
Durch das "if-Modified-Since"-Feld" im HTTP-Protokoll ist technisch gesehen beim Übertragen einer
WWW-Seite ein für die Aktualisierung wichtiger Mechanismus vorhanden. Über die Angabe dieses
Feldes kann beim Laden eines Dokuments über das Internet die Übertragung von der letzten
Änderung (Datum und Uhrzeit) abhängig gemacht werden. Das heisst, falls das Dokument seit dieser
Zeitangabe geändert wurde, wird das Dokument übertragen, sonst nicht. Leider wird dieser
Mechanismus nicht von allen WWW-Servern unterstützt und ist auch bei Programmen oder
Datenbanken, die dynamische Dokumente generieren, nur selten implementiert.
Ansonsten gibt es in der Aktualisierungsfrequentierung bei den verschiedenen Suchmaschinen große
Unterschiede in Art und Zeit. Meist wird mit einer zeitabhängigen Frequentierung gearbeitet. Die
Angaben für die zeitliche Aktualisierung einzelner WWW-Seiten bei den Suchmaschinen schwanken
zwischen einem Tag und sechs Wochen. Oft wird dies von der Zugriffshäufigkeit auf ein Dokument
abhängig gemacht.
Ein Problem, welches bei Suchmaschinen aufgrund der hohen Dokumentenanzahl im World Wide Web
und deren Streben nach einer möglichst umfassenden Abdeckung (Coverage) auftritt, wird durch
eine zum Teil nicht unerhebliche Menge von „Dead-Links“ deutlich. Diese ergeben sich dann, wenn
in der Index-Datenbank der Suchmaschine noch Einträge für Seiten des WWW in Form von Links
enthalten sind, die sich nicht mehr an der zum Zeitpunkt der Indexierung gültigen URL befinden.
Seite 27 von 85
SPRINT – Suche im Internet
Solche Dokumente, die nach mehrmaligen Zugriffsversuchen zu unterschiedlichen Zeiten durch die
Suchmaschine nicht zugreifbar werden, werden aus der Datenbank entfernt. Schwieriger gestaltet
sich der Fall, dass eine als Suchergebnis nachgewiesene Seite zwar an der zum Zeitpunkt der
Indexierung aktuellen URL noch vorhanden ist, zwischenzeitlich aber eine inhaltliche Aktualisierung
erfahren hat. Es kann sein, dass nun die Suchbegriffe nicht mehr vorhanden sind und damit
möglicherweise auch kein Bezug zur Suchanfrage mehr gegeben ist. Eine solche Variante kann mit
Sicherheit erst nach Herunterladen und erneutem Erfassen des Dokumenteninhalts aufgedeckt
werden.
Die Aktualisierung der Webseiten im Index der Suchmaschinen sollte eigentlich in regelmässigen,
kurzen Abständen erfolgen. Tatsächlich liegen oft mehrere Monate zwischen den Indizierungen. Das
spielt bei Webseiten, deren Inhalt sich wenig ändert, keine Rolle. Manche Server dagegen sind auf
Aktualität angewiesen. Man spricht dann von einer Spider-Frequenz (Häufigkeit eines Zugriffes durch
den Spider auf einer Website). Um das Verhalten von Spiderprogrammen zu optimieren nutzen
Suchmaschinen Informationen wie Besuchshäufigkeit bzw. Aktualisierungsfrequenz von Webseiten.
(Griesbaum et al., 2008, S. 15)
Durch häufige und umfangreiche Aktualisierung der Startseite eines Webauftritts kann man also eine
häufigere Indizierung erreichen. Wer grossen Wert auf eine schnelle Bearbeitung, mehrfache Angabe
der Seiten oder auf häufigere Indizierung legt, hat auch die Möglichkeit seine Webseite gegen
Bezahlung anzumelden. Im Zuge der Kommerzialisierung der Suche im Internet bieten mehr
Suchmaschinen solche Dienste an. 4
Anfragebearbeitung
Wie bereits angedeutet, ist das Angebot an Funktionalität bei der Anfragenbearbeitung abhängig von
der Inhaltserschließung der Dokumente. Je besser die Analyse und Indizierung der HTML-Seiten ist,
desto umfangreicher ist das Angebot an Suchmethoden und -operatoren. Die Benutzerschnittstelle ist
nach Funktionalität ausgerichtet und bei den meisten Suchmaschinen über verschiedene Stufen
bedienbar:
ƒ Verschiedene Suchmodi (Einfache / Erweiterte Suche)
ƒ Formularbasierte Suchmasken mit diversen Einstellmöglichkeiten
ƒ Voreinstellungen werden teilweise über Buttons, Menüs, Listen usw. ausgewählt.
ƒ Java-basierte Suchmasken (eher selten)
ƒ Ergebnislisten mit Ranking, Sortierung, Blätterfunktionen usw.
Die Treffermenge wird dem Benutzer sortiert nach einer internen Relevanzberechnung (Ranking) der
jeweiligen Suchmaschine präsentiert. Hinsichtlich der Frage, welche Methoden der
Relevanzbeurteilung eingesetzt werden, halten sich die Betreiber der Suchmaschinen bedeckt. 5 .
4.8.2 Optimierung der Webseite
Im Zuge der zunehmenden Konkurrenz im Internet ist die für Suchmaschinen optimierte Erstellung
von Webseiten immer wichtiger geworden. Inzwischen gibt es eine ganze Branche, die sich mit
„Search Engine Optimization (SEO)“ befasst. Um nicht nur professionell nach relevanten
Informationen im WWW suchen zu können, sondern damit auch die eigenen WWW-Dokumente von
anderen bei entsprechenden Suchbegriffen gefunden werden, werden nachfolgend einige Tipps für
die Erstellung von WWW-Seiten aufgeführt. Weitere Hinweise auf suchmaschinengerechte Gestaltung
findet man unter anderem bei Searchenginewatch und at-web.
Eine Volltextindexierung stellt die Grundlage zur Anwendung klassischer termbasierter Abgleichsund Sortierverfahren dar, die auf der Analyse von Wortvorkommen in Dokumenttext und
Metainformation aufsetzen. (Griesbaum et al., 2008, S. 20) Dabei muss darauf hingewiesen werden,
dass die vielfache Wiederholung von Begriffen im TITLE-/ META-Element oder sonstigen Bereichen
einer WWW-Seite, die vom Browser nicht angezeigt wird, auch "spamming" genannt, für die stärkere
Gewichtung der Begriffe bei der Suche heutzutage nichts mehr einbringt. Im Gegenteil, viele
bekannte Suchmaschinen sind inzwischen dazu übergegangen, solche Seiten nicht mehr in ihren
Datenbanken zu speichern.
4
Nähere Beschreibungen zu diesem Thema werden im Kapitel 4.8.4. „Anzeige und Sortierung der Suchmaschinentreffermenge
dargestellt“.
5
Die Aspekte der Trefferanzeige und der Relevanzbeurteilung finden Sie im Kapitel 4.8.4. Anzeige und Sortierung der
Suchmaschinentreffermenge.
Seite 28 von 85
SPRINT – Suche im Internet
„Google spricht derzeit von über 200 „Signalen“, die beim Ranking berücksichtigt werden. Diese
lassen sich im Wesentlichen drei zentralen Bereichen zuordnen:
• On-Page-Faktoren
• On-Site-Faktoren
• Linkfaktoren“ (Griesbaum et al., 2008, S. 21).
Folgende Abbildung stellt die Faktoren in einer grafischen Übersicht dar [1, S. 21].
Abbildung 8: Ranking-Faktoren bei Suchmaschinen (Quelle: Griesbaum et al., 2008, S. 21)
In den folgenden Abschnitten werden die ersten drei Punkte genauer erläutert.
On-Page-Faktoren
„On-Page-Faktoren stellen den Kern jeder inhaltsbasierten Bewertung von Suchmaschinen dar“
(Griesbaum et al., 2008, S. 22).
„Insbesondere von Bedeutung sind bezüglich der Terme:
ƒ Häufigkeit, Position (Dichte, Abstand)
ƒ Funktion (URL, HTML-Auszeichnungen: Titel, Überschriften, Linktexten…)
ƒ Format von Termen (Schriftgröße, Farbe)
Dabei gilt, je öfter Anfrageterme in einem Dokument vorkommen, je dichter sie zueinander bzw. je
weiter am Anfang des Dokuments stehen, umso relevanter wird ein Dokument bewertet. Ebenso
werden hervorgehobene Terme oder Terme in spezifischen Feldern höher gewichtet. Weitere eher
formale Faktoren, z. B. das Entstehungsdatum oder die Änderungsfrequenz, können beispielsweise
bei zeitbasierten Anfragekriterien berücksichtigt werden.“ (Griesbaum et al., 2008, S. 21ff)
Diese Faktoren sind für das Ranking jedoch unzureichend. Dafür gibt es zwei Gründe:
„Erstens das Suchverhalten der Nutzer: Internetnutzer stellen überwiegend kurze Suchanfragen, d.h.
Anfragen mit nur wenigen Termen, oftmals auch nur sogenannte Einwort-Anfragen. Suchmaschinen
weisen zu derartigen Suchanfragen i.d.R. Tausende bzw. Millionen potenziell relevanter Dokumente
nach, von denen die Nutzer dann meist nur wenige Treffer sichten.“ (Griesbaum et al., 2008, S. 22)
Zweitens können diese Faktoren von den Webseitenbetreiber sehr leicht manipuliert werden, z. B.
durch das Formatieren von Textpassagen mit der gleichen Hintergrundfarbe, so dass sie für Nutzer
unsichtbar sind oder „indem Metainformationen (Meta-Tags) gezielt mit inhaltlich „falschen“ aber
populären Termen angereichert werden.
Suchmaschinen verwenden zwar schon seit den 1990er Jahren inhaltsbezogene Filter, etwa bezüglich
einer maximal tolerierten Wortdichte bzw. der Zahl von Wortwiederholungen, um manipulierte
Seiten aus dem Ergebnis auszusortieren bzw. mit einem Rankingmalus zu versehen. Dennoch ist
festzuhalten, dass die Anwendung zusätzlicher Rankingfaktoren, welche auch Kriterien außerhalb der
Seite 29 von 85
SPRINT – Suche im Internet
Dokumentinhalte berücksichtigen, den Missbrauch bzw. die Manipulation der Suchmaschinen zu
Spamzwecken erschwert bzw. erheblich aufwändiger gestaltet.“ (Griesbaum et al., 2008, S. 22)
Grundsätzlich kann man davon ausgehen dass die Ranking-Algorithmen vieler Suchmaschinen
Auftreten und Häufigkeit von Schlüsselwörtern in Titel, URL, Text und Meta-Tag berücksichtigen. Es
ist daher sinnvoll, relevante Suchbegriffe in diesen Bereichen unterzubringen:
ƒ
Schlüsselbegriffe im TITLE-Element und Ueberschrift, falls möglich auch in Adresse: Begriffe,
die sich in diesen Bereichen befinden, werden bei der Suche stärker gewichtet. Zudem wird der
Titel von vielen Suchmaschinen in der Trefferliste angezeigt.
ƒ
Wichtiger Text im oberen Bereich: Bei Suchmaschinen, die nur einen Teilindex bilden, wird
meist der erste Teil einer Internetseite analysiert. Ausserdem zeigen einige Suchmaschinen die
ersten Zeichen des Seitentextes in der Trefferliste an.
ƒ
Bei schlechten Trefferquoten evtl. Schlüsselbegriffe ändern: Bekommen die eigenen Seiten
bei gezielten Suchbegriffen nur einen schlechten Ranking-Platz, sollte man die benutzten
Begriffe im Dokument überprüfen. Ein Blick in die besser positionierten WWW-Seiten hilft in
diesem Falle oft weiter.
ƒ
Ständige Überprüfung der eigenen Seiten, evtl. Eintragung wiederholen: Falls eine
Suchmaschine die Möglichkeit bietet, einzelne URLs abzufragen, sollte der Index des
entsprechenden Dokuments überprüft und die WWW-Seite evtl. geändert werden.
ƒ
Beschreibender Meta-Tag: Da eine qualitativ hochwertige inhaltliche Erfassung der Web-Seiten
aufgrund der automatischen Indexierung durch Suchdienste bislang nicht möglich ist, wurden
durch die HTML-Spezifikation so genannte Meta-Tags vorgesehen. Damit wird den HomepageAutoren die Möglichkeit gegeben, ihre Seiten selbst so zu beschreiben, dass eine bessere
Erfassung des Inhalts aufgrund spezifischer Meta-Tags möglich ist. Die Meta-Tags
beziehungsweise deren Attribute selbst, werden durch HTML (in der Version 4.0) nicht definiert,
sondern nur das Schema zum Aufbau dieser Angaben.
Sinnvolle Metatags für HTML sind in der nachfolgenden Tabelle dargestellt:
Tab. 1: Metatags
Metatag (in HTML Notation)
<meta name="keywords"
content="Stichworte" /> bzw.
<meta http-equiv="keywords"
content="Stichworte" />
Bedeutung / Verwendung
Stichworte, die den Inhalt des Dokuments möglichst
eindeutig und unterscheidbar charakterisieren
<meta name="keywords"
Stichworte, die den Inhalt des Dokuments möglichst
content="Stichworte" /> bzw. <meta httpeindeutig und unterscheidbar charakterisieren.
equiv="keywords" content="Stichworte" />
<meta name="keywords"
Stichworte, die den Inhalt des Dokuments möglichst
content="Stichworte" /> bzw. <meta httpeindeutig und unterscheidbar charakterisieren.
equiv="keywords" content="Stichworte" />
<meta name="description" content="eine
kurze Inhaltszusammenfassung" />
Eine kurze und prägnante Inhaltszusammenfassung, die
gut verständlich und lesbar ist, da der Inhalt dieses Tags
von einigen Suchdiensten beim Suchergebnis mit
angezeigt wird. Wichtig vor allem bei Verwendung von
Frames, Javascript und überwiegend nicht-indexierbaren
medialen Anteilen im Dokument.
<meta name="abstract"
content="Stichworte" />
dito.
<meta name="author" content="Name" />
Soll den Autor des Dokuments benennen. Nützlich ist die
Seite 30 von 85
SPRINT – Suche im Internet
Tab. 1: Metatags
Metatag (in HTML Notation)
Bedeutung / Verwendung
Ergänzung weiterer Angaben wie Organisation und Ort.
<meta name="copyright" content="Name"
/>
Kennzeichnung des Inhabers der Urheberrechte am
Dokument bzw. dessen Inhalt.
<meta name="date" content="jjjj-mmttThh:mm:ss+hh:mm" />
Angabe von Datum und Uhrzeit der Erstellung oder
Veröffentlichung des Dokuments. Dieses muss einer
speziellen Syntax folgen, wie nebenstehend angedeutet:
Das "T" (für Time) ist ein feststehendes Schlüsselwort zur
Trennung von Datum und Uhrzeit, die Stunden und
Minuten-Angabe nach dem "+" betrifft die
Zeitabweichung gegenüber der Greenwich-Zeit.
<meta name="generator"
content="Software-Werkzeug" />
Hier wird bei Erzeugung von HTML-Code durch
Generatoren der Name des Software-Werkzeuges
automatisch eingetragen. Prinzipiell wären aber auch
andersartige, manuell vorgenommene Eintragungen
gültig.
<meta name="publisher" content="Name"
/>
Eintrag der veröffentlichenden Person oder Organisation.
<meta http-equiv="Reply-to"
content="mailto:[email protected]" />
Angabe der Email-Adresse für Mitteilung von Problemen,
Fehlern usw.
Die auch als Robot-Exclusion-Tag bekannte Angabe kann
das Verhalten der Suchmaschinen im Umgang mit den
HTML Dokumenten bestimmen. Als Attributwert kommen
folgende Möglichkeiten in Betracht:
noindex - Dokument soll nicht indexiert werden
<meta name="robots"
content="Attributwert" />
index - Dokument soll indexiert werden
nofollow - Es sollen keine abgehenden Links vefolgt
werden. Die Indexierung des aktuellen Dokuments ist
allerdings erlaubt
follow - Das Dokument soll indexiert werden und
abgehenden Links kann per Crawling nachgegangen
werden
all - entspricht index und follow
<meta name="revisit-after"
content="Anzahl Tage" />
Dieses Metatag soll den Crawler einer Suchmaschine
veranlassen, in der angegebenen Anzahl Tagen diese
Seite erneut aufzusuchen.
<meta name="page-topic"
content="Stichworte" />
Hier können Angaben zum Themenbereich, auf den sich
das Dokument bezieht, gemacht werden.
<meta name="page-type"
content="Stichworte" />
Durch diesen Tag kann die Ressourcenart des Dokuments
bzw. dessen Darstellungsform angegeben werden, z.B.
Grafik, Linkliste, Eingabemaske.
Seite 31 von 85
SPRINT – Suche im Internet
Diese Angaben werden durch den Meta-Tag im Header der HTML-Datei realisiert. Weitere Meta-Tags
können zur Steuerung des Webservers dienen (z. B. zum Umleiten der Zugriffe auf eine andere URL),
während sich andere Metatags an den Browser wenden.
Eine weitere Möglichkeit besteht darin, Metaangaben nicht direkt in die HTML-Datei einzufügen,
sondern durch Verlinken mit einer externen Metadaten-Datei zu realisieren. Dafür kommt das linkTag zum Einsatz, das gleichfalls im Header der HTML-Datei festgelegt wird.
Wer die manuelle Eingabe solcher Metatags scheut, kann auch einen der zahlreichen MetatagGeneratoren im WWW benutzen, wie ihn auf Suchmaschinenoptimierung spezialisierte Websites oder
auch Suchdienste selbst anbieten. Mittels dieser Generatoren müssen dann lediglich noch die Werte
für die jeweiligen Tags angegeben werden. Daraufhin wird ein entsprechender HTML-Quellcode
erzeugt, der direkt in das HTML-Dokument kopiert werden kann. Einige dieser im WWW angebotenen
Werkzeuge sind zu finden bei: Searchcode.de, und sitesubmission.de.
Metatags bieten aufgrund ihrer zuverlässigen, Inhaltskennzeichnenden Wirkung die Möglichkeit, dort
vorgefundene Begriffe für das Ranking der Suchergebnisse höher zu gewichten als gleich lautende
Begriffe aus dem Body des Dokuments. Allerdings wurde diese Funktion häufig missbraucht (siehe
Kapitel Spam in der Suchmaschine), so dass die Bedeutung von Meta-Tags für das Ranking inzwischen
wieder abnimmt.
Da der jeweilige Verwendungszweck der durch HTML vorgesehenen Metatags in Ermangelung einer
allgemein gültigen Spezifikation nicht eindeutig geregelt ist, kann auch nicht von einer einheitlichen
semantischen Nutzung eines gleich bezeichneten Attributs unter mehreren Autoren beziehungsweise
Web Sites ausgegangen werden. Die Freiheitsgrade der möglichen Eigenschaften, die durch ein gleich
bezeichnetes Attribut für ein Dokument beschrieben werden können, sind für eine eindeutige
semantische Zuordnung des Attributnamens und dessen Werte nicht geeignet. Dadurch wird der
Nutzen dieser Metatags für eine übergreifende Inhaltsbeschreibung von Dokumenten
unterschiedlicher Autoren deutlich geschmälert. Aus diesem Grund besann man sich auf eine
Spezifikation für die bibliographische Kennzeichnung von Dokumenten namens Dublin Core. Das
Dublin Core Element Set (kurz: Dublin Core) ist ein Metadaten-System, welches von einer
Expertengruppe 1995 in Dublin, Ohio entworfen wurde und ständig weiterentwickelt wird. Es enthält
15 Kernelemente (Core Elements), mit denen sich literarische Inhalte beschreiben lassen.
Tab. 2: Dublin-Core
Dublin Core Element
Identificator
Bedeutung / Verwendung
Title
Name der Ressource
Creator
Für die Ressource verantwortlicher Autor als Person oder
Organisation
Subject
Thema und Stichwörter für die Ressource
Description
Inhaltszusammenfassung oder Abstract
Publisher
Verleger bzw. Herausgeber des Dokuments
Contributers
Weitere an der Entstehung der Ressource beteiligte Person(en)
oder Organisation(en)
Date
Datum für einen bestimmten Bearbeitungsstand, dieses muss einer
besonderen Notation folgen
Type
Ressourcenart des Dokuments
Format
Die Form der physischen oder digitalen Ausprägung der Ressource
(Format, Dateityp)
Seite 32 von 85
SPRINT – Suche im Internet
Tab. 2: Dublin-Core
Dublin Core Element
Identificator
Bedeutung / Verwendung
<meta name="publisher"
content="Name" />
Eintrag der veröffentlichenden Person oder Organisation.
Identifier
Eine eindeutige Identifikation für die Ressource (URL, ISBN etc.)
Source
Quelle, wenn das Werk davon abgeleitet ist
Language
Sprache des Dokuments, einer bestimmten Notation folgend
Relation
Referenz zu verwandten Ressourcen
Coverage
Von der Ressource erfasster geographischer oder zeitlicher Bereich
Rights
Rechtliche Aspekte bezogen auf die Ressource und deren Inhalt
Auch für Metatags nach der Dublin Core Spezifikationen gibt es im WWW Werkzeuge zur Erzeugung
von HTML-Quellcode, der direkt in die Datei eingefügt werden kann. Zu benennen wären der DCMeta-Maker des Bibliotheksservice-Zentrums Baden-Württemberg und das Dublin Core Metadata
Template des Nordic Metadata Projekts.
Leider werden Dublin Core Metadaten bislang kaum von einer Suchmaschine unterstützt. Für den
Test der eigenen Homepage auf ihre "suchmaschinenfreundliche" Gestaltung existieren verschiedene
Werkzeuge im WWW, die analysieren, ob der HTML-Code an sich so gestaltet wurde, dass er von
Suchdiensten leicht durch das Crawling erfasst und indexiert werden kann und bei welchen
Suchdiensten die betreffende Seite nach der Anmeldung (Submit) bereits im Index vorhanden und
damit auffindbar ist. Darüber hinaus wird auch eine Optimierung der Keywords für die Anmeldung
bei Suchdiensten und als Metatags der HTML-Datei geboten, z.B. durch Vergleich mit häufig
gesuchten Begriffen bestimmter Suchmaschinen.
Beispiele für solche Werkzeuge sind Webmasterplan und Makemetop.
On-Site-Faktoren
„Die Analyse globaler Faktoren der jeweiligen Domain, auf der sich die Dokumente befinden, stellt
einen weiteren wichtigen Faktor zu Bewertung von Suchergebnissen dar. Die Art der verwendeten
On-Site-Faktoren und ihre reale Bedeutung sind aber weitgehend unbekannt. D.h. rankingbezogene
Aussagen sind gerade in diesem Bereich hochgradig spekulativ. So gibt es z.B. seit mehreren Jahren
Diskussionen zu vermuteten Sandbox- oder „trust rank”-Effekten, die zur Folge haben sollen, dass
neuen Websites insbesondere für kompetitive Suchanfragen ein Rankingmalus zugeordnet werde.
Inhaltlich untermauern lässt sich diese Annahme u.a. dadurch, dass Google 2005 selbst Domain
Name-Registrar wurde und diesen Schritt damit begründete, dass Registrarinformationen dazu
genutzt werden sollen, um Suchergebnisse zu verbessern. Denkbar ist u.a., dass neben dem Alter der
Domain auch Faktoren wie die Art der Domain, ihre Linkpopularität, die thematische Ausrichtung der
Gesamtsite, die Gesamtzahl der indexierten Seiten usw. bereits jetzt oder künftig herangezogen
werden.“ (Griesbaum et al., 2008, S. 22)
Link-Faktoren
Obwohl Suchmaschinen ihre Ranking-Methoden häufig geheim halten, kann man davon ausgehen,
dass die Anzahl der Links, die auf eine Seite verweisen, einen entscheidenden Einfluss auf die
Positionierung in der Trefferliste hat.
Ein Link wird als Empfehlung betrachtet und je mehr solche Empfehlungen eine Seite hat, desto
höher steigt sie im Ranking. Allerdings ist Link nicht gleich Link. Ein Eintrag im Webkatalog von
Yahoo! ist beispielsweise mehr Wert als ein Link von einer privaten Homepage. Generell wirken sich
meist Links von Seiten, auf die selbst viele Links zeigen, günstiger auf das Ranking aus als Links von
Seiten, auf die nur wenige Links zeigen. Vorteilhaft ist auch ein Verweis von einer Seite mit gleichem
Seite 33 von 85
SPRINT – Suche im Internet
oder ähnlichem Thema. Diese Anbieter werden sozusagen als Experten für ihr Themengebiet
betrachtet. Eine Empfehlung von ihnen in Form eines Links wird deshalb höher bewertet.
Allerdings wird es im kommerziellen Bereich eher selten vorkommen, dass Anbieter auf ihre
Konkurrenten verweisen. Dabei zählen natürlich nur Links von externen Homepages auf die eigene
Webseite.
Die Linkpopularität einer Webseite lässt sich bei einigen Suchmaschinen über den Befehl "link:URL"
feststellen (z. B. AltaVista, AllTheWeb).
Daneben gibt es Tools zur Überprüfung der Linkpopularität, die gleichzeitig mehrere Suchmaschinen
überprüfen, z. B. LinkPopularity, MarketLeap. Suchdienste, die dafür bekannt sind, dass sie
Linkpopularität als Ranking-Kriterium verwenden, sind neben Google auch andere namhafte Anbieter
wie z.B. Yahoo! und MSN Search.
Der Einfluss, den man auf die Verlinkung der eigenen Webseite von anderen Seiten aus nehmen
kann, ist begrenzt. Man kann beispielsweise Webmaster von Homepages mit verwandter Thematik
anschreiben und sie bitten, einen Link auf die eigene Seite zu setzen. Wenn es möglich ist, sollte
man sich in bekannteren Webverzeichnissen aufnehmen lassen.
„Linktopologische Sortierverfahren beruhen auf der Analyse der Referenzstrukturen im Web. Die
Idee ist, aus diesen Strukturen Kriterien zur Bewertung von Webdokumenten abzuleiten. Grundlage
ist die These, dass Links nicht zufällig gesetzt werden, sondern ein Qualitätsurteil, d.h. eine
Empfehlung aussprechen. Erstmalige Umsetzung fand dieser Ansatz 1998 in der damals neu
entstandenen Suchmaschine Google. (…). Derartige linktopologische Verfahren setzen auf Ansätzen
der Zitationsanalyse wissenschaftlicher Arbeiten. Zitationsanalysen sind auf der Annahme gegründet,
dass sich die Bedeutung wissenschaftlicher Arbeiten durch die Zahl der zitierenden Arbeiten
abschätzen lässt.
Die Anwendung derartiger Verfahren im Web Information Retrieval lässt sich u.a. dadurch
begründen, dass die Grundidee plausibel und einfach klingt und Links auch technisch relativ einfach
extrahiert und analysiert werden können.
Das bekannteste linktopologische Verfahren, das von Google verwendete Pagerank-Verfahren,
ermittelt die Wichtigkeit einzelner Dokumente durch die Analyse der Verweisstrukturen aller
indexierten Webseiten. Dabei gilt: Je größer die Zahl eingehender Links auf eine Seite, umso höher
der Pagerank.
Pagerank ist ein themenunabhängiges Qualitätsmaß und weist in seiner ursprünglichen Form jedem
erfassten Objekt einen „Wichtigkeitsfaktor“ zu. Neben der Anzahl der Links fließt auch deren
Gewicht in die Berechnung mit ein. Dieses bestimmt sich durch den Pagerank der Webseite, von der
der jeweilige Link ausgeht, und wird gleichmäßig zwischen allen ausgehenden Links dieser Seite
aufgeteilt. Folgende Abbildung veranschaulicht diesen Zusammenhang und zeigt z. B. wie etwa eine
Internetseite mit einem (fiktiven) Pagerank von 100 den zwei von ihr ausgehenden Links jeweils ein
Pagerankgewicht von 50 vererbt.“ (Griesbaum et al., 2008, S. 23)
Abbildung 9: Pagerank – Google, Modell von 1998 (Griesbaum et al., 2008,S. 24)
Seite 34 von 85
SPRINT – Suche im Internet
„Neben dem Pagerank-Verfahren existieren weitere linktopologische Algorithmen (…). Das von
Kleinberg entwickelte „Hyperlink-Induced Topic Search“ (HITS)-Verfahren berücksichtigt im
Unterschied zu Pagerank auch den Kontext von Suchanfragen. Das HITS-Verfahren floss in die
Entwicklung der Suchmaschine Teoma mit ein. Linkfaktoren stellen derzeit ein zentrales Kriterium
dar, um Suchergebnisse zu bewerten. Dabei ist davon auszugehen, dass die vor rund 10 Jahren
dokumentierten Algorithmen mittlerweile vielfältig modifiziert und weiterentwickelt wurden, nicht
nur im wissenschaftlichen Bereich, sondern gerade auch im realen Einsatz bei Google und Co.
Einen weiteren Aspekt linktopologischer Verfahren stellt die Analyse des Verweistexts ausgehender
Verweise dar. Wird dieser (…) dem Inhalt der Objekte zugeschlagen, auf die verwiesen wird, so ist es
möglich, diese Objekte auch für Terme nachzuweisen, die gar nicht in ihnen vorkommen. Das
ermöglicht u.a. den Nachweis nicht indexierter Dokumente oder auch zunächst nichtindexierbarer
Dokumenttypen (z. B. Bilder), kann aber auch zu inhaltlich verfälschten Suchergebnissen führen.“
(Griesbaum et al., 2008, S. 24)
Linkfaktoren werden einerseits als zentraler Erfolgsfaktor bei der Sortierung von Suchergebnisse
betrachtet, doch sind qualitätssteigernde Effekte kritisch zu hinterfragen. Tests haben ergeben, dass
Systeme mit linktopologischen Verfahren keine bessere Leistung zeigen als andere. Es ist jedoch zu
erwähnen, dass die Tests in Umgebungen durchgeführt wurden, welche webspezifische Bedingungen
nicht erfüllen (bspw. keinen Bezug auf Spamseiten). Ein Vorteil von Linkfaktoren, ist, dass der
Aufwand für eine erfolgreiche Manipulation relativ hoch ist, und somit dieses Verfahren Spams
reduzieren kann.
Ein Kontrapunkt gilt jedoch, ob das Setzen eines Links überhaupt ein Qualitätsmerkmal darstellt.
Wenn man nämlich davon ausgeht, dass Websites, welche bereits eine hohe Zahl eingehender Links
aufweisen, eine überproportional höhere Wahrscheinlichkeit besitzen, neue Links zu erwerben. D.h.
linktopologische Verfahren benachteiligen unpopuläre Seiten in einem überproportionalen Ausmaß.
Dies betrifft insbesondere neue Seiten (Inhalte), die noch wenig Zeit hatten, „Linkpopularität“
aufzubauen. (Griesbaum et al., 2008, S. 25)
„Darüber hinaus beeinflusst das Wissen um die Verwendung von Linkfaktoren durch Suchmaschinen
bei Websitebetreibern die Motivation bezüglich des Setzens von Links. Dadurch, dass eine hohe Zahl
eingehender Links sich positiv auf die Sichtbarkeit des eigenen Webangebots auswirkt, bestehen
starke Anreize, Links aktiv „einzuwerben“. Das ist ein qualitativer Effekt, der die Linkstruktur des
Web insgesamt beeinflusst. Dass diese mittlerweile auch in hohem Maße direkt von
Marketinginteressen (mit)bestimmt wird, zeigt sich u.a. daran, dass Links mittlerweile auch ein
kommerzielles Gut geworden sind, das oft auch käuflich erworben werden kann. Folgende Abbildung
illustriert, dass diesbezüglich eine Vielzahl von Dienstleistern und Informationen existiert.“
(Griesbaum et al., 2008, S. 25)
Grafiken
Obwohl seit einiger Zeit Verfahren zur Bildsuche existieren, können fast alle Suchmaschinen nur Text
verarbeiten. Werden Grafiken in eine Homepage eingebaut, erkennt die Suchmaschine in der Regel
nur den Dateinamen und die Bildbeschreibung im Alt-Text des HTML-Tags. Der Alt-Text sollte folglich
eine aussagekräftige Beschreibung der Grafik enthalten. Ausserdem ist es eine Möglichkeit, relevante
Schlüsselwörter unterzubringen, ohne dass sie vom Browser angezeigt werden. Allerdings wird auch
hier häufige Wiederholung der Schlüsselwörter von den Suchdiensten als »spamming« betrachtet und
entsprechend durch nicht Beachtung bestraft.
Bei weitergehenden Verfahren der Bildersuche werden Grafiken, die Bestandteil von Webseiten sind,
auf textuellen Inhalt hin untersucht und einer optische Zeichenerkennung (OCR - Optical Character
Recognition) unterzogen. Diese Verfahrensweise entspricht der Erkennung von Textzeichen in mittels
Scanner erfassten Textdokumenten.
Frames
Wie bereits erwähnt haben Suchmaschinen mit der korrekten Verarbeitung von Frame-basierten
Webseiten häufig Schwierigkeiten. Die Frames werden zwar von den Suchmaschinen indexiert,
können jedoch nicht richtig wiedergegeben werden. Will man dennoch nicht auf Frames verzichten,
sollte man deshalb verschiedene Aspekte bei der Gestaltung berücksichtigen.
Eine Möglichkeit ist die Verwendung von Metatags auf der Masterseite des Framesets. Allerdings
unterstützen nicht alle Suchmaschinen Metatags. Suchmaschinen lesen aber den Noframe-Bereich.
Suchdienste, die keine Metatags beachten, z. B. Google, stellen sogar den Text im Noframes-Bereich
in der Ergebnisliste dar. Sätze wie "Ihr Browser unterstützt keine Frames" sind da wenig hilfreich.
Der Text sollte vielmehr möglichst aussagekräftig sein und relevante Schlüsselwörter und Links auf
Seite 35 von 85
SPRINT – Suche im Internet
die anderen Seiten der Homepage enthalten. Fehlen Links, haben Suchmaschinen keine Möglichkeit,
für die Indizierung auf die anderen Seiten des Webauftritts zuzugreifen. Selbst wenn Suchmaschinen
mit Frames umgehen können, gibt es möglicherweise Probleme. Jeder Frame wird von der
Suchmaschine als separate Seite betrachtet und dem Benutzer auch so angezeigt. Es sollten daher in
jedem Frame Links zum vollständigen Frameset vorhanden sein.
Cloaking
Der Begriff "Cloaking" stammt aus dem englischen und bedeutet eigentlich verhüllen. Im
Zusammenhang mit der Suche im Internet spricht man von Cloaking, wenn zwei oder mehr
verschiedene Versionen einer Homepage existieren. Das bedeutet, dass eine oder mehrere Seiten für
die Roboter der Suchmaschinen optimiert sind und dass gleichzeitig eine „normale Version“ für die
Benutzer vorliegt. Die Version für die Suchmaschinen dient dazu, eine bessere Platzierung im
Ranking zu erzielen und kann beispielsweise mit relevanten Suchbegriffen versehen sein. Auf
gestalterische Elemente wie Frames usw. wird verzichtet.
Wenn die Ranking-Algorithmen der Suchmaschinen bekannt sind, kann für jede Suchmaschine eine
eigene, optimierte Version erstellt werden. Dieses Verfahren funktioniert, weil sich Suchmaschinen
bei der Indexierung entgegenkommenderweise zu erkennen geben, um dem Homepage-Anbieter zu
ermöglichen, die Anfragen von Suchdiensten zurückzustellen und zuerst die Anfragen der regulären
Besucher zu bearbeiten.
Für den Anbieter einer Homepage hat Cloaking zwei Vorteile. Zum einen kann die Positionierung im
Ranking der Suchmaschinen verbessert werden, ohne dass in der Version für den Benutzer Abstriche
bei der Gestaltung gemacht werden müssen. Zum anderen wird verhindert, dass der Besucher über
den Seitenquelltext Zugriff auf Informationen über Metadaten und andere verwendete
Optimierungstechniken erhält. Das ist vor allem relevant, wenn miteinander konkurrierende
Unternehmen Internetauftritte erstellen.
Allerdings besteht auch hier die Gefahr des Missbrauchs. Die Suchbegriffe auf der für die
Suchmaschine bestimmten Seite müssen nichts mit dem eigentlichen Inhalt der Homepage, welche
der Benutzer zu sehen bekommt, zu tun haben. Besucher können also gewissermassen unter
Vorspiegelung falscher Tatsachen auf eine Seite „gelockt“ werden. Bei Suchmaschinen ist diese
Technik daher wenig beliebt und sie versuchen, dem entgegenzuwirken. Wenn sie auf einen Fall von
Cloaking aufmerksam werden, können die entsprechenden Seiten dauerhaft aus dem Index entfernt
werden. Deshalb spricht man auch von Spam.
4.8.3 Spam in der Suchmaschine
Im Zusammenhang mit Suchmaschinen werden Webseiten, die eine grosse Menge von Wörtern
beinhalten, die nicht in erster Linie für den Besucher bestimmt sind, als "Spam" bezeichnet. Diese
Wörter dienen lediglich dazu, die Position im Ranking der Suchmaschinen zu verbessern. Durch
„spamming“ wird versucht, die Ranking-Algorithmen der Suchmaschinen zu überlisten.
Verständlicherweise sind Suchdienste nicht daran interessiert, solche Seiten in ihren Index
aufzunehmen.
Allerdings ist nicht einheitlich festgelegt, was als Spam betrachtet wird. Vielmehr hat jede
Suchmaschine ihre eigenen Richtlinien. Auch die Vorgehensweise unterscheidet sich. Manche
Suchmaschinen werden erst auf Beschwerden von Benutzern hin aktiv und verlassen sich im Übrigen
auf die abschreckende Wirkung ihrer Spam-Richtlinien. Andere setzen Spam-Filter ein und
versuchen, solche Seiten bereits im Vorfeld zu entdecken und gar nicht erst in den Index
aufzunehmen.
Wird ein Anbieter erst einmal beim „spamming“ erwischt, führt das im Allgemeinen zur dauerhaften
Sperrung der Seite. Da es kein Recht auf Aufnahme in den Index einer Suchmaschine gibt, hat es
meist auch keinen Erfolg, dagegen vorzugehen. Vor allem kommerzielle Anbieter sollten alles
vermeiden, was als Spam ausgelegt werden könnte.
Obwohl die Richtlinien, wie schon erwähnt uneinheitlich sind, gibt es einige Praktiken, die von den
meisten Suchmaschinen als Spam betrachtet werden. Dazu gehören:
ƒ
Cloaking: Diese Technik führt, wenn es entdeckt wird, meist zur Sperrung der Seite. Zur
Enttarnung des Cloakings senden einige Suchmaschinen inzwischen mehrere Spider aus: eine
offizielle, die sich als Suchmaschine zu erkennen gibt und eine andere, die sich wie ein
normaler Benutzer anmeldet.
Seite 36 von 85
SPRINT – Suche im Internet
ƒ
Texte oder Wortpassagen werden für Besucher unsichtbar gemacht: Da kein Benutzer
glücklich wäre, wenn zeilenweise die gleichen Schlüsselwörter auftauchen, wird der Text auf
der Seite „versteckt“. Dazu kann beispielsweise der Text die gleiche Farbe wie der
Hintergrund haben. Dabei wird der Text vor einem unruhigen Hintergrund dargestellt und ist
daher für den Besucher nicht sichtbar. Oder der Text ist so klein, dass ihn das menschliche
Auge nicht wahrnehmen kann usw.
ƒ
Häufige Wiederholung desselben Schlüsselwortes: Dies kann vor allem in den Elementen
der Webseite vorkommen, die der Browser nicht anzeigt, z. B. Alt-Text einer Grafik und
Meta-Tags.
ƒ
Häufige Wiederholung desselben Schlüsselwortes im Seitentext: Je nach Suchmaschine
wird eine Wiederholungsrate des Schlüsselworts von 1 -7% akzeptiert. Nicht als Wiederholung
zählen dagegen verschiedene Variationen eines Schlüsselwortes z. B. Singular/Plural,
Substantiv/Adjektiv oder diverse zusammengesetzte Begriffe.
ƒ
Schlüsselwörter, die nichts mit dem Thema zu tun haben: Dabei werden meistens Wörter,
nach denen bekanntermassen häufig gesucht wird, in die Metatags aufgenommen. Bei rein
maschineller Indizierung ist diese Form des „spamming“ nur sehr schwer aufzudecken.
ƒ
Für die Suchmaschine optimierte Weiterleitungsseiten: Dies sind Seiten, mit denen der
Besucher nichts anfangen kann, die ihn aber sofort zur eigentlichen Homepage weiterleiten.
Solche Seiten werden, wenn sie entdeckt werden, aus dem Index gestrichen.
ƒ
Linkfarmen: Linkfarmen bestehen aus einem Netzwerk stark miteinander verlinkter Seiten.
Einziges Ziel der Links ist es, die Linkpopularität zu erhöhen.
ƒ
Mehrfachanmeldung einer Webseite unter verschiedenen URLs: Bei der redaktionellen
Begutachtung fällt es im Allgemeinen auf, wenn eine Seite mehrmals auftaucht. Die
Konsequenz daraus ist, die Streichung aller Seiten.
Abbildung 10: Anmeldungsprozess einer Website
4.8.4 Anzeige und Sortierung der Suchmaschinentreffermenge
Hat ein Benutzer eine Suchanfrage abgeschickt, so wird ihm relativ schnell das Ergebnis in Form
einer Trefferliste präsentiert. Wie bereits erwähnt, halten sich die Betreiber hinsichtlich der
Methoden ihrer Relevanzbeurteilung bedeckt. Nach den vorhandenen Informationen zu urteilen,
werden aber neben statistischen Methoden, wie der Häufigkeit der Suchbegriffe auch Verfahren
angewandt, welche Dokumente mit vielen Referenzverweisen stärker berücksichtigt. Auch durch die
Verschmelzung von roboterbasierten Verfahren und WWW-Katalogen ergeben sich Synergieeffekte
bezüglich der Relevanzberechnung: Dokumente, die auch im Katalog verzeichnet sind, bekommen
einen höheren Relevanzgrad.
Manche Suchmaschinen erlauben auch die Sortierung der Trefferliste nach Kriterien wie
Dokumentengrösse, Alter des Dokuments oder nach Servern. Die Sortierung nach Servern (z. B. bei
Excite und Lycos) bietet eine Erleichterung der Relevanzbeurteilung für den Benutzer. Denn
typischerweise befinden sich auf einem Server meist gleichartige Dokumente. So genügt es oft, nur
Seite 37 von 85
SPRINT – Suche im Internet
noch wenige Dokumente pro Server zu betrachten, um die Relevanz der zugehörigen Web-Site zu
beurteilen.
Fortgeschrittenere Verfahren der Relevanzbeurteilung und der Positionierung im Ranking werden
möglich durch die Nutzung von Informationen, die sich aus der Hyperlink-Struktur vernetzter
Dokumente gewinnen lassen. Neben der Anzahl eingehender Verweise (Backlinks) und abgehender
Verweise (Forward Links) kann auch die Qualität der Seite, von welcher der Link ausgeht, in die
Berechnung einer hyperlinkbasierten Relevanz einbezogen werden. So können Dokumente, die nur
wenige Verweise von einer qualitativ hochwertigen und mit entsprechend hohem Relevanzurteil
bedachten Seite aufweisen (z.B. aus einem manuell erstellten Katalog) auch für die Seite, auf die
verwiesen wurde, zu einem höheren Relevanzwert führen als eine grosse Anzahl von Verweisen, die
von Seiten mit geringerer Qualität ausgehen. Diese Verfahrensweise findet bspw. Anwendung bei
dem von Google entwickelten Verfahren PageRank, bei dem neben konventionellen, statistischen
Grössen des Information Retrieval für die Berechnung der Rankingposition eines Trefferdokuments
auch eine hyperlinkbasierte Relevanzkomponente durch die Suchmaschine genutzt wird. Darüber
hinaus wird dabei durch die Suchmaschine sogar auch der Text der Hyperlinks beziehungsweise der
Text im Umfeld von Hyperlinks nutzbar gemacht, um weitere Anhaltspunkte für die Relevanz der
Dokumente zu erhalten. Dieser Text wird auch für die Relevanzbeurteilung des Dokuments, welche
diese Links enthält, höher gewichtet als andere Terme.
Anzeige durch Visualisierung
Unter Visualisierung versteht man den Einsatz computergestützter interaktiver, visueller
Repräsentation von Daten, welche die Erkenntnis fördern soll. Visualisierungen dienen also dazu,
komplexe Sachverhalte und Datenstrukturen in einer Form darzustellen, die es dem Anwender
ermöglicht, Zusammenhänge zu erkennen und daraus ein Fazit abzuleiten.
Um dies zu ermöglichen, werden die Rohdaten zunächst durch verschiedene Techniken wie
Interpolation, Sampling oder Clustering aufbereitet (Data Preparation und Filtering). Anschließend
wird in Abhängigkeit zur Datenstruktur eine geeignete Visualisierungstechnik gewählt, wobei die
darzustellenden Attribute wie beispielsweise Position oder Farbe zugeordnet werden (Mapping).
Danach werden die Daten gerendert, so dass ein Bild entsteht. Dieser dreistufige Vorgang (Filtering,
Mapping, Rendering) wird als Visualisierungspipeline bezeichnet. Zusätzlich wird das
Interaktionsdesign festgelegt, wo also der Nutzer die Datenausgabe, respektive die Visualisierung,
manipulieren kann.
Während Visualisierungen noch vor wenigen Jahren nahezu ausschließlich in der Forschung
eingesetzt wurden, nimmt ihre Popularität heutzutage nicht zuletzt durch den vermehrten Einsatz
im Bereich des Business Intelligence zu. Visualisierungen haben sich zu einem Trend entwickelt, der
bereits in zwei bis fünf Jahren die Produktivitätsphase erreicht und sich auf dem Markt als
gewinnbringende Technologie durchsetzen wird. Auch in Web2.0-Anwendungen haben
Visualisierungen, begünstigt durch Technologien wie Flash, Flex und Ajax, Einzug gehalten und
werden dort immer häufiger eingesetzt.
Einsatz von Visualisierung im Web-Retrieval
Eine Vielzahl an Studien legt nahe, dass neben den bereits auf dem Markt etablierten WebSuchmaschinen, die in der Regel textbasierte Ergebnislisten ausgeben, künftig vermehrt Systeme
entwickelt werden, die mit neuen, innovativen Nutzerschnittstellen den Anwender in der Interaktion
mit den Suchsystemen unterstützen werden.
Grundlage für diese Prognose sind neben der kontinuierlich anwachsenden Datenmenge und komplexität im Internet die gestiegenen Nutzerbedürfnisse im Bereich des explorativen Information
Retrieval. Hierbei bildet nicht eine gezielte Fragestellung (Keyword Search) den Ausgangspunkt für
einen Suchprozess, sondern der Suchende besitzt ein allgemeines Interesse zu einem Thema, wofür
er den Kontext und weiterführende Informationen zu einer vage definierten Fragestellung ermitteln
möchte.
Insbesondere in diesem Kontext kommen Visualisierungen bei Web-Suchmaschinen deutlich zum
Tragen, da sie die Exploration durch Anwender unterstützen und sich zur Darstellung komplexer
Zusammenhänge sowie großer Datenmengen eignen. Während man noch vor wenigen Jahren lediglich
wenige Suchmaschinen mit alternativer Ergebnispräsentation fand, gibt es heutzutage bereits eine
Vielzahl an Systemen, die Visualisierungen und ausgefeilte Interaktionstechniken zur Anpassung von
Ergebnissen oder Suchanfragen auf Grundlage visueller Oberflächen einsetzen und sich auf diese
Weise auf dem Markt von den Mitbewerbern abzugrenzen versuchen. Es handelt sich dabei sowohl
Seite 38 von 85
SPRINT – Suche im Internet
um Anbieter frei zugänglicher Web-Suchmaschinen, als auch um Provider kostenpflichtiger
Fachinformationen.
Als Ergänzung zu gängigen textbasierten Listenausgaben der Ergebnisse, wie sie bei den bekannteren
Suchmaschinenanbietern wie Google, Yahoo oder MSN üblich sind, werden unterschiedliche
Visualisierungsmethoden zur Repräsentation der Ergebnisobjekte eingesetzt, die zu einer
Verbesserung der Suchqualität führen sollen. Ziel ist es, im Vergleich zu gängigen text- und
listenbasierten Darstellungen von Suchergebnissen anhand der Visualisierungen einen
informationellen Mehrwert zu schaffen, der den Nutzer dabei unterstützt, sein Informationsbedürfnis
zu decken. In der Regel werden beim Einsatz von Visualisierungskomponenten die
Retrievalergebnisse nicht in Listenform dargestellt, sondern Ergebnisräume geschaffen, die sich
beispielsweise durch Clustering auszeichnen oder Relationen zwischen den gefundenen Dokumenten
graphisch darstellen.
Grundsätzlich sind ganz grob zwei unterschiedliche Typen von Suchmaschinen mit Visualisierungen zu
unterscheiden:
ƒ
Zum einen Suchmaschinen, bei denen eine Visualisierungskomponente allgemein dazu dient,
dem Nutzer eine Hilfestellung im Retrievalprozess zu bieten – also beim Auffinden
relevanter Dokumente und Daten, beispielsweise durch eine in Cluster unterteilte
Ergebnisraumdarstellung, oder eine Unterstützung bei der Spezifizierung einer Suchanfrage.
ƒ
Die andere Art hingegen ist hinsichtlich ihrer Zielsetzung spezifischer und dient einem ganz
konkreten – zumeist etwas enger gefassten - Zweck, der durch eine
Visualisierungskomponente ermöglicht wird (beispielsweise die Darstellung geographischer
Bezugspunkte zu Treffermengen oder eine Visualisierung zeitlicher Aspekte).
Bei dieser zweiten Art ist der Typ der eingesetzten Visualisierung entscheidend („was wird
visualisiert?“ und „wie wird visualisiert?“).
Dies ist auf die Eigenschaft von Visualisierungen zurückzuführen, jeweils auf einen konkreten
und spezifischen Anwendungskontext optimiert zu sein: Üblicherweise sind diese sehr
domänen- und aufgabenspezifisch und unterscheiden sich somit massiv je nach Einsatzort
und –zweck.
Obwohl bisher eine Vielzahl an Ordnungssystemen und Klassifikationen für Visualisierungsmethoden
und auch Taxonomien für Information Retrieval-Verfahren entwickelt wurden, hat sich in Bezug auf
Retrievalsysteme mit Visualisierungskomponenten bis anhin noch keine allgemeingültige
Kategorisierung der Anwendungen durchgesetzt. Diesen Anspruch erhebt auch das dieser Text nicht,
dennoch werden zur groben Systematisierung und besseren Übersicht folgende Kategorien bei der
Vorstellung konkreter Visualisierungsansätze unterschieden 6 :
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
Ergebnisvorschau
Visualisierung bei Ergebnismengenvergleich
Clustering
Darstellung/Nachweis von Relationen
Visualisierung kollaborativer Komponenten
Unterstützung des Nutzers bei der Suchanfragenformulierung bzw. -optimierung
Visualisierung zeitlicher und geographischer Aspekte
Es ist noch zu erwähnen, dass in verschiedenen Evaluationen bisher der empirische Nachweis weder
erbracht noch widerlegt werden konnte, dass Suchmaschinen mit Visualisierungen tatsächlich zu
einer Steigerung der Nutzerzufriedenheit oder zu besseren bzw. effizienter ermittelten
Suchergebnissen führen. Es lässt sich jedoch eine steigende Anzahl von frei zugänglichen WebSuchmaschinen feststellen, bei denen Visualisierungen eingebunden sind. Zudem bestätigen auch
Analysen von Gartner Research die zunehmende Relevanz der Thematik von Retrievalsystemen mit
Visualisierungskomponenten.
4.8.5 Kommerzialisierung der Suche im Internet
Die Benutzung von Suchmaschinen ist bekanntlich kostenlos. Auch die Anmeldung der eigenen
Homepage bei den Suchdiensten war bis zum Ende der 1990er Jahre in der Regel frei.
Suchmaschinen finanzierten sich meist über Werbung auf ihren Webseiten, indem z. B. bei Aufruf
6
Diese Ansätze werden im Kapitel 5.10. „Trefferanzeige“ näher erläutert.
Seite 39 von 85
SPRINT – Suche im Internet
bestimmter Schlüsselwörter entsprechende Werbebanner eingeblendet wurden (Key Word
Sponsoring).
Im Laufe der Zeit hat sich allerdings gezeigt, dass vor allem erfahrene Internet-Surfer die
Bannerwerbung geistig „ausblenden“ und sich nur auf das Wesentliche, die Trefferliste,
konzentrieren. Zusätzlich führte der Einbruch der New Economy im Jahr 2000 zum Wegfall vieler
Werbekunden. Die Werbeeinnahmen reichten letztendlich nicht mehr aus, um kostendeckend zu
arbeiten. So mussten einige Suchmaschinen ihre Dienste einstellen (z. B. Infoseek).
Die überlebenden Suchdienste fanden neue Wege der Finanzierung. Im Allgemeinen bedeutet das,
dass die Web-Seiten-Anbieter zur Kasse gebeten werden. Inzwischen ist bekannt, dass Benutzer eher
einfache Suchstrategien verwenden und sich nur die ersten Ergebnisse der Treffermenge genauer
anschauen. Eine gute Positionierung innerhalb der Trefferliste ist daher für den Anbieter einer
Homepage wünschenswert. Die Suchdienste haben darin eine neue Einnahmequelle erkannt:
Webseiten-Anbieter bekommen bei Paid Placement, Paid Listing die Möglichkeit, sich eine bessere
Platzierung in der Trefferliste zu erkaufen. Eine andere Form ist das Keyword Advertising bzw.
Suchwort-Vermarktung, wo derjenige zu oberst auf der Ergebnisliste steht, der den höchsten Preis je
Klick zu zahlen bereit ist. (Buschmann, 2008, S. 90)
Eine andere Möglichkeit ist die Erhebung von Gebühren bei der Anmeldung (Paid Submission) oder
eine häufigere Indizierung der Homepage (Paid Inclusion). Dieses Vorgehen ist unproblematisch,
wenn für den Benutzer die bezahlten Einträge deutlich erkennbar sind. Fragwürdig ist es aber, wenn
der Benutzer nicht mehr zwischen objektiver Ergebnisliste und Werbung trennen kann. Eine
Linksammlung mit Artikeln zur Kommerzialisierung der Suche bietet Searchenginewatch.
Positionsersteigerung (Paid Placement, Paid Listing)
Abbildung 11: Positionsersteigerung
Dass sich die bekannteren Suchdienstbetreiber für die höhere Positionierung von Web-Seiten von
deren Anbietern bezahlen lassen, wird schon lange gemunkelt. Es gibt jedoch auch Anbieter, die das
offiziell machen: Der US-amerikanische Suchdienst "GoTo" (neu Overture) war der erste Anbieter,
der Suchbegriffe vermarktet hat. Dabei handelt es sich um eine Veräußerung von Suchbegriffen in
einer Art Versteigerung: Der Meistbietende wird bei der Suche nach dem gekauften Begriff im
Ranking der Treffermenge an die erste Position gesetzt. Die zweite Position erhält derjenige mit
dem zweitbesten Angebot usw.
Die Gebühr wird meistens erst dann fällig, wenn der Link in der Trefferliste tatsächlich angeklickt
wird ("Pay per Click"). Der Kaufbetrag wird dem suchenden Benutzer in der Trefferliste offen
angezeigt. Auch im deutschsprachigen Bereich gibt es vergleichbare Anbieter: Qualigo.
Dieses zunächst sehr befremdlich wirkende System weist inzwischen vor allem im B2B-Bereich
gewisse Erfolge auf: Unternehmen, die dafür bezahlen, um in Trefferlisten ganz weit oben zu
stehen, haben meist ein seriöses Interesse, ihre Produkte zu vermarkten beziehungsweise Kundenund Geschäftsbeziehungen aufzubauen. Dass dafür auch nur die tatsächlich branchenrelevanten
Begriffe gekauft werden, liegt schon auf Grund der damit verbundenen Kosten auf der Hand. Durch
die Offenlegung der Kaufbeträge der auf der Trefferliste referenzierten Anbieter kann der
Seite 40 von 85
SPRINT – Suche im Internet
Informationssuchende zumindest sehen, wie viel es dem jeweiligen Unternehmen wert ist, bei dem
gesuchten Begriff ganz vorne zu stehen. Der Nachteil dieses Verfahrens für den Homepage-Anbieter
liegt in den unter Umständen hohen, laufenden und nicht unmittelbar kontrollierbaren Kosten. Bei
"Pay per Click" wird beispielsweise der Kaufbetrag bei jedem Klick auf den Link in der Trefferliste
fällig. Egal, ob dadurch ein Geschäft zustande kommt oder nicht. Natürlich werden hierbei
Manipulationsversuche wie z.B. gezieltes häufiges Anklicken eines Treffers mittels spezieller
Methoden erkannt.
Paid Submission und Paid Inclusion
Normalerweise werden die Webseiten vor der Registrierung in einem Verzeichnis oder im Index einer
Suchmaschine redaktionell begutachtet. Das kann mehrere Wochen dauern. Ist eine Homepage
einmal aufgenommen, wird sie in regelmässigen Abständen neu indiziert und somit aktualisiert.
Natürlich ist klar, dass es für den Anbieter vorteilhaft ist, wenn seine Seite schnell aufgenommen
und häufig aktualisiert wird.
Mittlerweile ist es vor allem bei Webverzeichnissen und -katalogen üblich, eine Gebühr für die
Bearbeitung der Anmeldung zu erheben. Dieses System bezeichnet man als "Paid Submission". Je
nach Zahlungswilligkeit des Anbieters kann dadurch auch die Bearbeitungszeit der Anmeldung
verkürzt und eventuell die Frequenz der späteren Aktualisierung erhöht werden.
Im Gegensatz zur Positionsersteigerung wird dem Anbieter einer Webseite aber keine bestimmte
Position im Ranking zugesichert. Der Betreiber behält sich zudem vor, die Seite trotz Bezahlung
abzulehnen. Unter welcher Rubrik ein Katalogeintrag erfolgt, entscheidet ebenfalls die
Redaktion. Beim Webkatalog Yahoo wurde in der Vergangenheit die Gebühr bereits schon allein für
die Begutachtung einer Homepage fällig ("Pay for Consideraton").
Etwas anders ist die Situation bei den Suchmaschinen. Die Anmeldung ist in den meisten Fällen auch
heute noch kostenlos. Verschiedene Suchmaschinen bieten allerdings gegen Gebühr eine schnellere
Bearbeitung der Anmeldung, garantierte Registrierung im Index und manchmal auch häufigere
Aktualisierung an. Zudem werden meist mehr Seiten einer Homepage aufgenommen. Zwar wird dem
Webseiten-Anbieter auch hier keine bestimmte Position im Ranking der Suchmaschine zugesichert,
aber wenn mehr Seiten indiziert sind, erhöht sich die Wahrscheinlichkeit, dass eine Seite gefunden
wird. Ebenso kann sich dadurch die Position in der Trefferliste indirekt verbessern.
Dieses Verfahren ist in gewissem Sinn ein Spezialfall der Paid Submission und wird als "Paid Inclusion"
bezeichnet. Beispielsweise wurde dieses Prinzip in der Vergangenheit von AltaVista angeboten.
AltaVista hat dieses Angebot jedoch eingestellt, es werden nur noch bestehende Kunden bis zum
Ablauf ihrer Verträge bedient.
Beim Einsatz dieser Verfahren hat der Benutzer das Problem, dass er in der Regel nicht erkennt,
welche Webseiten auf normalem Weg angemeldet wurden und welche Homepages gegen Bezahlung
aufgenommen wurden. Bei entsprechend sorgfältiger redaktioneller Begutachtung kann zwar die
Einschlägigkeit der Ergebnisse sichergestellt werden, aber der Benutzer erhält keine objektive
Trefferliste mehr.
Suchmaschinenoptimierung (SEO)
Suchmaschinen sind für Unternehmen zunehmend Vermittler von Angebot und Nachfrage geworden.
„Sie unterstützen den Nutzer bei der Ermittlung von für ihn relevanten Informationen,
Dienstleistungen und Produkten.“ (Buschmann, 2008, S. 90) Somit ist es verständlich, dass Portale
und andere Homepageanbieter aktive Suchmaschinenoptimierung betreiben. Da die Konkurrenz
inzwischen sehr gross ist, garantieren technische Optimierungen nicht eine hohe Platzierung in den
Suchergebnissen einer Suchmaschine. (Buschmann, 2008, S. 90)
Diese Möglichkeit der Platzierung innerhalb der Suchergebnisse ist die Optimierung des eigenen
Angebotes einer Unternehmung hinsichtlich der Platzierung innerhalb des natürlichen Rankings einer
Suchmaschine.
Als Grundlage dient als Erstes eine Keywordanalyse, wodurch ermittelt wird, welche Begriffe und
Wort-Kombinationen ein User in die Suchmaschine eingibt. Weiter üben die Themen Design/Layout,
HTML-Coding/Content Management und die Redaktion einen weiteren Einfluss auf den Erfolg von
SEO-Massnahmen. Darüber hinaus sollte die „Usability“ (Bedienbarkeit aus Sicht des Nutzers) sowie
die Verständlichkeit von Webseiten für die Suchmaschinen miteinbezogen werden. (Buschmann,
2008, S. 96)
SEO nimmt zudem unmittelbar Einfluss auf die Gestaltung eines Portals, denn für die Suchmaschinen
sind Flash- und Java-Anwendungen unantastbar und hinderlich. Daher muss überprüft werden,
inwieweit diese Darstellung mit HTML oder DHTML (dynamic HTML) realisiert werden können.
Seite 41 von 85
SPRINT – Suche im Internet
Als weitere Optimierung sieht SEO vor, dass viel verwendete Suchbegriffe in der Hauptnavigation
erscheinen, da sie dort verstärkt relevant auftreten und von Suchmaschinen dementsprechend
aufgenommen werden. Dies bedingt unter anderem auch, dass möglichst allgemeingültige Begriffe
verwendet werden.
Letztlich geht es darum, die verwendete Sprache mit den Suchgewohnheiten der Nutzer zu
synchronisieren. (Buschmann, 2008, S. 97) Das Portal http://spiele.t-online.de/ ist einer der
Vorreiter von SEO bei T-Online. (Buschmann, 2008, S. 98)
Suchmaschinenmarketing (SEM)
Unter SEM (Suchmaschinenmarketing) versteht man die Platzierung von kommerziellen Ergebnissen
(Sponsored Links) in Suchergebnissen (bei Google: Adsense for Search) und Content Angeboten
(Adsense for Content) aus der Sicht des Werbetreibenden. Bei diesem Verfahren werden relevante
Keywords und Platzierungen innerhalb einer Suchergebnisseite gebucht. Dabei gilt, je höher die
Platzierung und damit die Visibilität, desto höher der Preis pro Klick („Pay per Click"). Die gute
Platzierung kann jedoch nur so lange gewährleistet werden, bis das Budget des Werbetreibenden
aufgebraucht ist. Somit ist diese Form von Werbung besonders gut kalkulierbar, was die
ausserordentliche Beliebtheit und den Erfolg im Markt erklärt. (Buschmann, 2008, S. 94)
Das Keyword Advertising nimmt laut OVK-Prognose im Jahr 2007 ca. 46% des gesamten OnlineWerbevolumens ein. Dieser Erfolg schliesst darauf, dass Keyword Advertising deutlich bessere
Chancen bei Transaktionen, Abverkauf und Downloads aufweisen als andere Verlinkungen, wie
Banner, Affiliate Marketing und Preisvergleiche. (Buschmann, 2008, S. 95) Banner werden, wie zu
Beginn dieses Kapitels erwähnt, von den Benutzern „geistig“ ausgeblendet.
Seite 42 von 85
SPRINT – Suche im Internet
4.9 Spezialsuchmaschinen
„Websuchmaschinen indexieren zwar z.T. viele Milliarden Dokumente, erfassen damit aber derzeit
nur einen Teil des Internet. Dabei sind die erfassten Ressourcen inhaltlich, strukturell und qualitativ
sehr heterogen, so dass trotz der hohen Abdeckung und der oben dargestellten aufwändigen
Sortiermechanismen eine hohe Unsicherheit bezüglich der Vollständigkeit und Qualität der
Ergebnisse besteht. Hinsichtlich der Repräsentation der indexierten Objekte ist festzuhalten, dass
diese meist nur einen geringen, je nach Dokumenttyp auch unterschiedlichen Strukturierungsgrad
aufweisen und dass, sofern vorhanden, Metadaten nicht a priori als verlässlich einzustufen sind.
Nicht zuletzt aus diesem Grund weisen Suchmaschinen nur rudimentäre Optionen zur
Suchraumbegrenzung auf: meist Dateiformat, Domain, Datum, Sprachraum, Region. D.h. es bestehen
erhebliche Defizite bzw. nur geringe Möglichkeiten zur Durchführung strukturierter
Anfrageformulierungen.
Speziell auf einen bestimmten Gegenstandsbereich fokussierte oder dokumenttypbezogene
Spezialsuchdienste sind in ihrer Domäne wesentlich mächtiger, da sie in der Lage sind, spezifische,
auf ihren jeweiligen Kontext bezogene Funktionalitäten bereitzustellen. Diese (…) versuchen damit,
die Schwächen von Universalsuchdiensten zu kompensieren bzw. eröffnen zusätzliche Suchoptionen.
Im Folgenden wird ein Überblick über wichtige Spezialsuchdienstetypen gegeben.
Es handelt sich um:
ƒ News & Blogsuchmaschinen
ƒ Wissenschaftssuchmaschinen
ƒ Online-Datenbanken
ƒ (Multi-)Mediasuchdienste
ƒ Einsatz von Visualisierungskonzepten
Damit wird die bisherige Darstellung „allgemein“ ausgerichteter Suchdienstetypen durch die
wichtigsten speziellen Suchdienstetypen ergänzt.“ (Griesbaum et al., 2008, S. 31)
4.9.1 News & Blogsuchmaschinen
„News und Blogsuchmaschinen zielen darauf, aktuelle Inhalte verfügbar zu machen. Während
Newssuchmaschinen klassische journalistische Nachrichten, i.d.R. erstellt von professionellen
Fachleuten bzw. Agenturen, fokussieren, versuchen Blogsuchdienste die Inhalte der Blogosphäre,
d.h. der Community aller Blogs zu erschließen, welche oftmals oder überwiegend von
Privatpersonen, Firmen oder Organisationen verfasst werden. Kern der News- oder
Nachrichtensuchmaschine stellt ein gesonderter Index dar. Dieser kann zum einen aus einem
Teilbestand des Webindex aufgebaut werden, indem spezielle Nachrichtenwebseiten, z.B.
Tageszeitungen, hochfrequent, etwa im Minutentakt, „gecrawlt“ werden. Ergänzend oder alternativ
ist es möglich, Nachrichtenbestände zu kaufen, d.h. z. B. bei Nachrichtenagenturen (Feeds) zu
erwerben und zu indexieren. Insbesondere im letzten Fall ist es für die Suchmaschine besonders
einfach, aus den bereits vorstrukturierten Feeds den Zeitpunkt der jeweiligen Nachricht zu
extrahieren, während dies bei selbstständig indexierten Webseiten aufwändiger ist und bspw. durch
speziell angepasste (halb)automatische Extraktionsheuristiken vorgenommen werden kann.
Auf dieser Grundlage ist es für Newssuchmaschinen möglich, zeitbasierte Sortier- und
Anfragekriterien bereitzustellen. Im Unterschied zu den bei Newssuchdiensten speziell ausgewählten
Nachrichtendiensten fokussieren Blogsuchdienste die Inhalte der Blogosphäre. D.h. sie zielen auf den
Teil des Web, dem eine besonders hohe Aktualität zugeschrieben wird und dessen Inhalte quasi von
jedermann generiert werden können. Aus der Perspektive einer Suchmaschine weisen Blogs im
Vergleich zu Standard-HTML-Seiten meist die Besonderheit auf, dass die Inhalte auch in Form
strukturierter XML-Formate (RSS-Feeds) bereitgestellt werden.
RSS-Formate sind strukturell ähnlich oder gleich den Feeds, die von Suchmaschinen bei
Nachrichtenanbietern erworben werden können. D.h. sie sind wesentlich einfacher und einheitlicher
aufgebaut als HTML-Seiten mit ihrer Vielzahl unterschiedlicher, oft komplex ineinander
geschachtelter Tags. Deshalb kann auch hier u.a. das Erstellungsdatum einzelner Blogbeiträge relativ
einfach extrahiert werden. Aus diesem Grund ist es Blogsuchmaschinen wie z.B: „Google Blog
Search“ oder „Ask.com Blog Search“ möglich, zusätzlich eine Sortierung nach Datum vorzunehmen
bzw. es dem Nutzer zu gestatten, Datumsbereiche mit einer hohen Genauigkeit zu durchsuchen. Die
folgende Abbildung zeigt diese Optionen auf der Trefferseite von „Google Blog Search“.
Seite 43 von 85
SPRINT – Suche im Internet
Abbildung 12: Google Blog Search
Festzuhalten bleibt: News- und Blogsuchmaschinen bieten also nicht nur den Zugriff auf einen
Teilbestand des Web, dem eine besonders hohe Aktualität zugeschrieben wird, sondern erlauben
zugleich strukturiertere Anfragen als universell ausgerichtete Websuchmaschinen.“ (Griesbaum et
al., 2008, S. 32)
4.9.2 Wissenschaftssuchmaschinen
„Wissenschaftssuchmaschinen zielen darauf, wissenschaftliche Texte systematisch zu erschließen.
Ähnlich Nachrichtensuchdiensten weisen Wissenschaftssuchmaschinen oftmals einen hybriden Index
auf. D.h. der Datenbestand dieser Dienste besteht zum einen aus einem Subset des Webindex, der z.
B. aufgrund von Dokument- und/oder Domaintyp sowie anderen Kriterien als wissenschaftlich
eingestuft wird, zum anderen werden z. T. auch Inhalte von Verlagspartnern in den Index
eingespeist.
Wissenschaftssuchmaschinen können als Mischform einer Volltextsuchmaschine (Webdokumente) und
Referenzdatenbank betrachtet werden, die Sekundärinformationen zu Veröffentlichungen, teilweise
auch die korrespondierende Volltexte, verfügbar macht. Damit ermöglichen
Wissenschaftssuchmaschinen zumindest teilweise auch den Zugriff auf nicht-indexierbare
Wissensbestände des Deep Web.
Der Volltextzugriff ist je nach erfasster Quelle z. T. kostenpflichtig bzw. nur nach einem Login
möglich. Auch wenn die jeweiligen Standardsuchmasken von Wissenschaftssuchmaschinen zunächst
häufig wenig Unterschiede zu denen von Universalsuchmaschinen zeigen, versuchen
wissenschaftliche Suchmaschinen strukturierte Anfrageoptionen bereitzustellen. (…) Hier [ist] vor
allem die Suche nach Autoren relevant. Des Weiteren werden z. B. in Google Scholar auch teilweise
Textzitate analysiert und ähnlich der Websuche eine Möglichkeit zur Zitationssuche angeboten.
Folgende Abbildung der „Advanced Search“ der Wissenschaftssuchmaschine Scirus zeigt das
Bemühen, ähnlich Fachdatenbanken über vielfältige Optionen zur Suchraumeingrenzung präzise
Suchanfragen zu ermöglichen." (Griesbaum et al., 2008, S. 33ff.)
Seite 44 von 85
SPRINT – Suche im Internet
Abbildung 13: Suchoptionen in Scirus.com (Quelle: Griesbaum et al., 2008, S. 35)
"Wissenschaftsuchmaschinen stellen einen interessanten Ansatz dar, die Suche nach
wissenschaftlichen Dokumenten in Form von Websuchmaschinen umzusetzen. Die Tauglichkeit für
die Zielgruppe ist derzeit aber deutlich eingeschränkt. Die Suchoptionen sind gerade im Vergleich zu
Fachdatenbanken bzw. den Rechercheoptionen bei Online-Hosts eher marginal. Insbesondere ist es
nur begrenzt möglich, Suchanfragen weiter zu verarbeiten bzw. mit Hilfe einer Suchhistorie
unterschiedliche Anfragen komplex miteinander zu verknüpfen.
Auch hinsichtlich der Abdeckung stellen Wissenschaftssuchmaschinen derzeit keine Alternative zu
bibliografischen Datenbanken dar. Wissenschaftssuchmaschinen eignen sich deshalb für eher
explorative Kontexte, bei denen die Vollständigkeit und Genauigkeit der Suche von untergeordneter
Bedeutung ist – beides ist typischerweise bei der Suche nach wissenschaftlicher Literatur nicht der
Fall. Ebenso wie Websuchmaschinen stellen sie auch eine Möglichkeit dar, um schnell und
kostengünstig an die Volltexte wissenschaftlicher Artikel zu gelangen. Als Alternative zu den
thematisch unspezifischen Wissenschaftssuchmaschinen wie Google Scholar bietet sich im
deutschsprachigen Raum das von den überregionalen Fachinformationseinrichtungen und
wissenschaftlichen Bibliotheken getragene Wissenschaftsportal Vascoda an. Dort können unter einer
einheitlichen Oberfläche wahlweise fachspezifisch oder interdisziplinär Inhalte gesucht werden.
Der Einsatz moderner Suchmaschinentechnologie sowohl bei Vascoda selbst als auch bei den
Partnern erlaubt eine strukturierte Suche über eine Vielzahl verschiedenster Datenbestände, wie
Fachdatenbanken, Bibliothekskataloge und Internetquellen. Kennt ein informationssuchender
Wissenschaftler das disziplinäre Ziel, so kann er aber auch direkt zu einem der in den letzten Jahren
entstandenen Fachportale oder zu einer der virtuellen Fachbibliotheken in Deutschland verzweigen.
Als meistgenutzte Portale gelten die virtuelle Fachbibliothek Medpilot zum Themengebiet Medizin
und das Fachportal Pädagogik, welches das fachwissenschaftliche Pendant zu dem weiter oben
genannten Deutschen Bildungsserver ist.“(Griesbaum et al., 2008, S. 33)
4.9.3 Online-Datenbanken
„Die Überschrift Online-Datenbanken steht für eine Vielzahl von Suchdiensten, die thematisch oder
dokumenttypbezogen abgegrenzte Wissensobjekte erschließen. Beispiele solcher Datenbanken
stellen etwa Literatur-, Fachinformations-, Reise-, Job-, Event-, Film- und Produktsuchdienste dar.
Seite 45 von 85
SPRINT – Suche im Internet
Innerhalb der jeweiligen Datenbank werden die einzelnen Objekte durch eine Vielzahl von Feldern
kategorisiert. Dabei werden z.T. semantisch eindeutige Kriterien (Postleitzahl, Preis, Gewicht,
Größe) mit Feldern kombiniert, in denen eine textuelle Beschreibung eingegeben werden kann.
Folgende Abbildung veranschaulicht eine solche Struktur anhand der von Google vorgegebenen
Kategorien für die Produktsuche. Je nach Struktur können Suchanfragen und -ergebnisse nach den
erfassten Kategorien selektiert werden. Die Ergebnissortierung lässt sich zum einen über die Einträge
und Werte in den formalen Kategorien vornehmen, zum anderen ist es möglich, in den vorhandenen
Textfeldern termbasierte Abgleichsverfahren zu nutzen. Schließlich können zusätzlich auch
dokumentexterne Informationen (populärste, meistverkaufte, bestbewertete Produkte) für die
Spezifikation der Ergebnisse herangezogen werden.
Online-Datenbanken bieten also für und in den jeweiligen Domänen spezifisch zugeschnittene
Suchfunktionen, die eine präzise Suche gestatten. Die Vollständigkeit des Ergebnisses ist dabei von
der Abdeckung des jeweiligen Anbieters abhängig. Oft erschließen derartige Datenbanken
Wissensbestände des Deep Web, die durch Websuchmaschinen nicht bereitgestellt werden, da deren
Suchroboter i.d.R. keinen Zugriff darauf haben und auch nur unzureichend in der Lage sind, die
jeweilige Objektstruktur zu erfassen und recherchierbar zu machen. Die Inhalte der jeweiligen
Datenbank werden oftmals von speziellen Anbietern maschinell und manuell zusammengestellt.
Häufig ist ein Eintrag in eine derartige Datenbank auch kostenpflichtig.
Mit Google Base und Diensten anderer Anbieter, z. B. Freebase, existieren Ansätze, die dahin zielen,
eine Vielzahl unterschiedlicher Produkte, Dienstleistungen, Publikationen usw. hochgradig
strukturiert in einem Websuchsystem zusammenzuführen. Dabei werden die Daten von Nutzern
bereitgestellt bzw. eingetragen. Sofern sich diese Ansätze in den nächsten Jahren etablieren, ist zu
erwarten, dass Websuchdienste deutlich strukturiertere und damit genauere Anfrageoptionen
ermöglichen, als es bislang der Fall ist.“ (Griesbaum et al., 2008, S. 36)
4.9.4
(Multi)Mediasuchdienste
„Standen bislang Textobjekte bzw. die textbasierte Repräsentation von Wissensobjekten im Fokus,
so ist festzuhalten, dass sich die Suche nach (bewegten) Bildern und gesprochenem Text bzw. Musik
zwar nach wie vor zum Großteil auf objektbeschreibende Texte bzw. erfasste Metadaten stützt,
zunehmend mehr aber darauf hinzielt, die Inhalte der Bilder, Filme, Lieder usw. selbst zu
berücksichtigen. Die simpelste Form eines Multimediasuchdienstes stellen (…) Tagging Communities
wie z.B. Flickr und YouTube dar. In diesen Diensten werden Bilder bzw. Videos primär über die von
Nutzern eingetragenen bzw. erzeugten Schlagwörter und Metadaten erschlossen.
Suchmaschinen sind in der Lage, neben den in Webdokumente eingetragenen Objekttiteln bzw.
alternativen Textbezeichnungen sowie Metainformationen (z.B. Dateityp und Dateigröße) auch
Kontextinformationen in Form von Termen, welche die jeweiligen Objekte umgeben oder in Form
von Links auf diese verweisen, auszuwerten. Darüber hinaus soll die Google-Bildsuche beispielsweise
eine Gesichtserkennungssoftware nutzen, die es gestattet, die Bildersuche auf Gesichter
einzuschränken. Die Entwicklung derartiger Technologien steht zwar noch am Anfang, schreitet aber
in einem schnellen Tempo voran.“ (Griesbaum et al., 2008, S. 38)
4.9.5 Einsatz von Visualisierungskonzepten
"Aktuell kann auf dem Suchdienstemarkt ein steigendes Angebot an Systemen beobachtet werden,
die mit spezifischen Visualisierungstechniken experimentieren oder diese schon standardmäßig
einsetzen. Die Idee der Informationsvisualisierung im Internet ist dabei keineswegs neu. Schon
unmittelbar nach dem großen Durchbruch des World Wide Web Mitte der 1990er Jahre wurden
diverse Ansätze erarbeitet, wie man über spezifische graphische Darstellungen bzw. Visualisierung
Informationsräume so gestalten kann, dass diese vom Benutzer intuitiver und schneller exploriert
werden können. Die zugehörigen Konzepte reichten von einfachen Graphen zur Darstellung der
Verlinkung innerhalb von Webseiten bis hin zu Virtuellen Welten, bei denen man versucht, Inhalte
auf dreidimensionale Räume abzubilden.
Der große Durchbruch blieb jedoch weitgehend aus, die Ideen scheiterten an zu komplexen
Technologien und Darstellungen, die zuerst von Anwendern erlernt werden mussten, letztendlich
aber dennoch die erhofften Mehrwerte vermissen ließen. Die weiterhin stetig zunehmende Menge an
Formen und Inhalten sowie neue technologische Möglichkeiten ließen die Entwicklungen allerdings
nicht ruhen, so dass mittlerweile sowohl bekannte als auch ganz neue Visualisierungskonzepte
angeboten werden, die im Gegensatz zu vielen früheren Konzepten nicht in spezifischen
Seite 46 von 85
SPRINT – Suche im Internet
Umgebungen angewandt werden müssen, sondern im Realbetrieb auf entsprechenden Webseiten
ausprobiert werden können. Dies führt zunächst einmal zu einer größeren Verbreitung, viel wichtiger
aber dazu, dass die Benutzerakzeptanz jetzt verstärkt in Weiterentwicklungen und Verbesserungen
einbezogen werden kann.
Die aktuellen Einsatzgebiete von Visualisierungen bei Suchmaschinen sind zwar vielfältig, am
häufigsten findet man diese jedoch bei der Ergebnisdarstellung. Sowohl die Trefferzahlen als auch
die Heterogenität der Treffer sind so hoch, dass ein breiteres intellektuelles Sichten und Auswerten
der Ergebnisse auf Nutzerseite bereits bei kleineren Ergebnismengen nicht mehr umsetzbar ist. Der
Suchdienst Kartoo bspw. versucht dieser Problematik zu entgegnen, indem eine spezifische
Darstellung der berechneten Relevanz und die Relationen zwischen den Trefferdokumenten in einer
Art topographischen Landkarte abgebildet werden. Andere Konzepte wie z.B. Grokker stützen sich
nicht nur auf die Visualisierung alleine, sondern versuchen den Informationsraum auf Basis von
semantisch-lexikalischen Algorithmen zuerst zu strukturieren (im Beispiel über Clustering) und
wenden anschließend darauf basierend Visualisierungsformen an, um dies den Benutzern geeignet zu
vermitteln.
Visualisierungen bei Suchdiensten findet man ferner auch bei der Suchanfragenformulierung bzw. zu
deren Verbesserung oder für spezifische Inhaltsformen wie z.B. zeitbezogene oder geographische
Bezugspunkte. Der Mehrwert bei der Visualisierung geographischer Bezugspunkte liegt auf der Hand:
Weist eine Suchanfrage entsprechende Bezüge wie Firmen-, Orts-, Straßennamen oder gar exakte
Adressen auf, lassen sich nicht nur entsprechende Positionen auf Landkarten zur besseren Übersicht
darstellen, sondern es können auch interessante Objekte in der Umgebung (z.B. Hotels, Restaurants,
Haltestationen) eingeblendet oder zusätzliche Dienste wie eine Routenberechnung angeboten
werden. Die Umsetzung dieser Art Geovisualisierung bei Suchdiensten wie z.B. Google Maps, setzt
entweder die Verwendung von direkten Geobezugspunkten in einer Suchanfrage (z.B. Orts/Straßennamen) voraus oder basiert auf dem einfachen Abgleich mit Branchendatenbanken (z.B. bei
der Suche nach „Pizzeria“), um entsprechende Bezugspunkte zu einer Suchanfrage zu generieren.
Viel interessantere Ansätze, bei denen mittels „intelligenter“ Verfahren geographische
Zusammenhänge bei Ergebnismengen eruiert und dargestellt werden könnten (wie z.B. bei einer
Anfrage nach „Sehenswürdigkeiten in Berlin“), gibt es bei den heutigen Suchdiensten allerdings noch
nicht. Es ist festzuhalten, dass Lösungen auf diesem Gebiet nach wie vor nicht ausgereift sind. Zu
hoch ist noch der Anspruch an entsprechende Konzepte, eine intuitive Bedienbarkeit oder zumindest
einen geringen Lernaufwand zu gewährleisten und gleichzeitig eindeutige Mehrwerte gegenüber den
heutigen textlastigen Darstellungsformen zu bieten." (Griesbaum et al., 2008, S. 38ff) 7
4.10 Suchmaschinen-Evaluation
Wie in den vorangegangen Abschnitten dargestellt, existieren im Internet eine Vielzahl von
Suchmaschinen mit den unterschiedlichsten Eigenschaften und Funktionen. Vermutlich hat jeder
Benutzer eigene Kriterien für die Auswahl eines geeigneten Suchdienstes, oder nutzt immer nur die
einzige ihm bekannte, z.B. Google.
Für diesen Nutzer ist eine Suchmaschinenevaluation nicht nützlich. In der Informationswissenschaft
wird aber immer wieder versucht, die Qualität einer Internetsuchmaschine fundiert einzuschätzen.
Immer wieder tauchen mögliche Konkurrenten zu Google auf. Da stellt sich die Frage, ob das neue
Produkt tatsächlich besser ist und sich ein Umstieg allenfalls lohnen würde. Zudem zeigt die
Suchmaschinenevaluation allfällige Verbesserungspotenziale auf.
Um eine Suchmaschine umfassend beurteilen zu können, reicht es nicht, die „Qualität“ der
Trefferliste zu betrachten. Lewandowski und Höchstötter schlagen vier Dimensionen zum Vergleich
vor:
ƒ die Index-Qualität,
ƒ die Qualität der Treffer,
ƒ die Qualität der Recherchemöglichkeiten und
ƒ die Usability.
Weil dieser Ansatz weg von einer rein mathematischen Erhebung geht und den Nutzer mehr in den
Mittelpunkt stellt, werden diese 4 Punkte in der Folge behandelt. (Lewandowski/Höchstötter, 2008)
7
Weitere Spezialsuchdienste sind im Kapitel Suchdienste zu finden.
Seite 47 von 85
SPRINT – Suche im Internet
4.10.1 Indexqualität
Die Relevanz der Ergebnisse hängt natürlich auch von der geschickten Formulierung der Suchanfrage
ab. Aber selbst bei gleicher Fragestellung treten Unterschiede zwischen den Suchmaschinen auf. Die
Gründe hierfür können vielfältig sein: einen grossen Einfluss hat sicher der unterschiedlich gute
Ranking-Algorithmus, doch auch der Aufbau und die Vollständigkeit (Abdeckung des Internets) und
Aktualität der Indexierung sind entscheidend. (mehr dazu im Kapitel Aktualisierung und Indexierung)
Treffermenge
Sicher ist der Umfang einer Trefferliste auf eine Anfrage noch kein Beweis für die Brauchbarkeit des
Ergebnisses. Immerhin steigt mit zunehmender Anzahl der Treffer auch die Wahrscheinlichkeit, dass
alle relevanten Webseiten enthalten sind. Die Grösse der Liste kann somit als erstes Indiz für ein
gutes Anfrageergebnis gewertet werden.
Es hat sich herausgestellt, dass die meisten Suchmaschinennutzer maximal die ersten drei Seiten der
Trefferliste ansehen. Gemäss einer Studie aus dem Jahr 2006 sehen sich 93% sogar nur die erste
Seite an und die Hälfte der Testpersonen klickte auf den ersten Treffer. (Nielsen/Loranger, 2006)
Deshalb ist es nicht nur wichtig, dass die Suchmaschine möglichst viele relevante Webseiten findet,
sondern, dass diese Treffer auch möglichst weit oben auf der Trefferliste stehen. Eine Webseite, die
genau auf eine Suchanfrage passt, von der Suchmaschine auch gefunden wurde, aber Platz 200'367
der Trefferliste belegt, wird wohl kaum je angesehen.
Im Internet bestehen mehrere Dienste, die für zwei Suchmaschinen die Anzahl Treffer
vergleichen: Langreiter (Yahoo vs. Google) und Thumbshots.
Etwas ausgefeiltere Anwendungen zeigen die Anzahl der Überschneidungen in den beiden
Trefferlisten an: SearchCrystal.
4.10.2 Retrieval: Qualität der Treffer
Wie schon erwähnt, ist nicht die Anzahl, sondern die Relevanz der Ergebnisse entscheidend. Zum
einen sollten alle Treffer relevant (Precision: hoch) sein, zum anderen sollten alle relevanten
Webseiten in der Trefferliste enthalten (Recall: hoch) sein.
Im Internet, wo der Dokumentenraum fast unbegrenzt ist, ist die Evaluation des Recalls, also der
Vollständigkeit nicht möglich. Deshalb fokussieren die meisten Studien im Bereich der
Websuchdienste auf die Precision.
Um die Retrievaleffektivität von verschiedenen Suchdiensten zu messen und zu vergleichen, gibt es
zwei Methoden:
Makroprecision
"Die Retrievaleffektivität der Suchmaschinen bei den einzelnen Suchanfragen (Makropresicion)
beschreibt, wie effektiv die Suchmaschinen Informationsbedürfnisse befriedigen“ [3]. Bei diesem
Mass wird verglichen, welche Suchmaschine im Vergleich zur anderen mehr relevante Treffer liefert.
Dementsprechend werden Rangplätze verteilt.
Die meisten Suchanfragen geben eine zu grosse Treffermenge aus und deshalb wird die Relevanz
bloss bis zu einem bestimmten Cut-Off-Wert gemessen. Eine sinnvolle Beschränkung können die
Treffer der ersten Seite oder der ersten drei Seiten sein. Das entspricht auch dem Nutzerverhalten.
(Nielsen/Loranger, 2006)
Die Betrachtung von Makroprecision ist rein quantitativer Art. Es lassen sich keine qualitativen
Aussagen darüber treffen, sondern es wird bloss die Anzahl relevanter Treffer verglichen. Griesbaum
et al. (2002) drücken das so aus: Es ist „ein erheblicher Unterschied, ob eine Suchmaschine eine
Suchanfrage, wenn auch eher schlecht, beantworten kann oder nicht.“
Das Messen der Qualität der einzelnen Treffer bzw. der einzelnen Suchanfragen ist ein Problem und
eine Lösung ist sehr schwierig zu finden, da alle Bewertungen eine gewisse Subjektivität besitzen.
Mikroprecision
Bei der Mikromethode wird die Positionierung der einzelnen relevanten (inkl. verweisenden) Treffer
untersucht. Damit wird eine Aussage über die Qualität des Rankings gewonnen.
Eine aktuelle Studie zur Qualität der Treffer wurde von Lewandowski 2007/2008 durchgeführt. Mit
40 studentischen Juroren wurden die Suchdienste Google, Yahoo!, MSN, Ask.com und Seekport
untersucht. Yahoo! Erreicht 48,5% relevante Treffer, Google 47,9%, der Unterschied sei nicht als
signifikant zu betrachten. Die Studie befasste sich insbesondere mit den Trefferbeschreibungen. Da
Seite 48 von 85
SPRINT – Suche im Internet
wurden von Google 60,2% der Beschreibungen als zu relevanten Resultaten führend bezeichnet
(Yahoo!: 52,8%). Bei der Frage, ob alle fünf Suchdienste fähig seien, die Suchanfragen mit zumindest
einem relevanten Treffer zu beantworten, schnitten nur Google und Yahoo! positiv ab („Ask.com did
not answer one query at all, and MSN and Seekport did not answer three queries from our set“
(Lewandowski, 2008a)).
Interessante Ergebnisse ergaben auch die Messung der Mikro- und Makroprecision. Bei ersterer sind
wiederum Google und Yahoo! führend mit Werten um 0.7 für die ersten drei Treffer.
Yahoo! schaffte es 16 Suchanfragen am besten zu beantworten, die Spitzenpositionen teilen sich
Google und Yahoo!. Lewandowski stellt fest: „ When looking at the complete result sets (20 results
per engine), we see that no single engine is able to answer all queries the best.“ (Lewandowski,
2008a)
Abbildung 14: Top 29 Mikroprecision (Lewandowski, 2008a, S. 927)
Nachdem diese Studie also gezeigt hatte, dass zwischen Google und Yahoo! kein so grosser
Unterschied bezüglich der Trefferqualität besteht, stellt sich die Frage, warum Google trotzdem so
grosse Marktanteile bei der Suche im Internet hat. Die Studie schreibt dazu, dass es unter anderem
daran liegen könnte, dass Google „by far the largest amount (and the largest ratio) of relevant result
descriptions“ liefert (Lewandowski, 2008a).
Lewandowski (2007) beschreibt noch einige weitere Massen zur Suchmaschinen-Evaluierung, die
allerdings noch im experimentellen Stadium stehen. Es sind dies:
ƒ Median Measure,
ƒ Average Distance Measure und Importance of completeness of search results
ƒ Importance of precision of the search to the user.
Als web-spezifische Masse werden folgende von Lewandowski beschrieben: Salience, CBC ratio,
Quality of result ratio, Ability to retrieve top ranked pages und Aktualitätsmasse.
Ranking
Das Ranking bestimmt die Sortierung der Treffer auf der Ergebnisliste. Durch die grosse
Dokumentenmenge im World Wide Web (WWW) kommt dieser Art der Vorselektion für den Nutzer
eine grosse Bedeutung zu. In der Regel versucht der Suchdienst, nach Relevanz in Bezug zur
Suchanfrage zu ranken. Diese Mechanismen sind sehr komplex und aus verschiedenen Gründen nicht
immer offengelegt. Ein gutes Beispiel ist der Rankingalgorithmus von Google: PageRank.
Doch auch die Nutzung, die Klickaktivität auf der Zielseite oder eine kollektive Trefferbewertung
sind Möglichkeiten, die Trefferliste für den Recherchierenden zu optimieren und Spam zu
eliminieren.
Auch das Ranking wird bei der Evaluation von Suchmaschinen bewertet. Die Methode der Top10
Seite 49 von 85
SPRINT – Suche im Internet
MeanAverage Precision konzentriert sich auf die Qualität des Rankings. Der entsprechende Wert wird
aus dem Anteil relevanter Treffer an der Gesamtmenge von Treffern für jede Trefferposition von 110 berechnet. Dabei wird der Durchschnitt sämtlicher Suchanfragen errechnet. (Griesbaum et al.,
2002)
Aktualität
Es ist unmittelbar einleuchtend, dass die Relevanz der Treffermenge auch mit der Aktualität des
Index einer Suchmaschine zusammenhängt. Nur wenn der aktuelle Inhalt einer Seite erfasst ist, kann
man entscheiden ob sie relevante Information enthält. Ausserdem dürfte auch der Anteil toter Links
geringer sein, je häufiger Webseiten von den Spidern der Suchmaschinen besucht werden.
Eine Studie von Lewandowski aus dem Jahr 2005 hat „über einen Zeitraum von sechs Wochen
(Februar/März 2005) 38 deutschsprachige Webseiten, die täglich aktualisiert werden, untersucht.
Neben großen Nachrichtenseiten wurden regionale Newsportale, wissenschaftsorientierte Seiten und
Special-Interest-Seiten ausgewählt“ (Lewandowski, 2006).
Das wichtigste Resultat war, dass Google die meisten Seiten tagesaktuell indexiert (83%). MSN
erreicht 48%, Yahoo! 42% der 1558 Datenpunkten. Eine weitere Untersuchung ergab, dass Google
eine durchschnittliche Frequenz der Aktualisierung von 3.1 Tagen hat. Bei MSN sind es 3,5 und bei
Yahoo! 9,8 Tage. (Lewandowski, 2006)
Eine weiterführende Studie des selben Autors untersuchte die Aktualität des Index von mehreren
Suchmaschinen (Google, Yahoo! und MSN Live Search) während der Jahre 2005-2007. Die Studie
wurde anhand von 70 Seiten gemacht, die z. T. regelmässig, z.T. unregelmässig verändert wurden.
Diese Studie fand heraus, dass Google im Jahr 2005 noch über 80% der täglich aktualisierten Seiten
auch täglich frisch anbietet. In den Folgejahren nimmt dieser Anteil massiv ab (knapp 25%). Und
auch die entsprechenden Anteile bei MSN sanken. Nur Yahoo! konnte sich knapp steigern und liegt
jetzt bei knapp 50%. (Lewandowski, 2008b)
Weiters stellte Lewandowski fest, dass Google offenbar in 68% der Fälle dem Nutzer eine zwei Tage
alte Version im Index anbietet (immerhin). Zu Recht stellt er fest: „When the engine needs two days
to bring the crawled page into the searchable index, there is no need to crawl the page every day—
just to get a two-day-old copy every day“ (Lewandowski, 2008b).
Gemäss Lewandowski ist Google im Gegensatz zu Microsoft nicht fähig, seinen Index innerhalb eines
Monats zu aktualisieren, da im Jahr 2007 noch Seiten gefunden wurden, die bis zu 175 Tage alt
waren. Bei Microsoft (MSN) sieht es so aus, als ob dies möglich sei. (Lewandowski, 2008b)
4.10.3 Recherchemöglichkeiten
Der durchschnittliche Nutzer verhält sich etwa so:“Internet users who type two words for on a
search engine query account for 31.9 percent of searches worldwide. Three-word phrases are used
for 27 percent of searches. A single word accounts for 15.2 percent of queries, and four words are
used for 14.8 percent of searches“ (Burns, 2007). Diese Art der Recherche führt natürlich dazu, dass
nicht das bestmögliche Resultat aus der Suchmaschine herausgeholt wird. Für speziellere oder
tiefere Recherchen müssen aber neben der Einbox-Suche noch weitere Recherchetools zur Verfügung
stehen. Beispielsweise die Möglichkeit einer erweiterten Suche, der Einsatz von Boole’schen
Operatoren (AND, OR, NOT), Phrasensuche, Trunkierung, Abstandsoperatoren, Gewichtung der
einzelnen Suchbegriffe oder sinnvolle Möglichkeiten zur Suchraumeingrenzung. 8
Wie vielfältig und effizient der Nutzer in seiner Suche unterstützt wird, und ob diese Suchmethoden
auch zuverlässig funktionieren, kann wichtige Hinweise auf die Qualität einer Suchmaschine geben.
4.10.4 Usability
Die Dimension der Usability von Suchdiensten wird gerne etwas vergessen.
Grundsätzlich haben Suchdienste die allgemeinen Usability-Anforderungen an Webseiten zu erfüllen.
Da ein Suchdienst aber eine aktive Interaktion mit dem Nutzer eingeht, müssen hier weitere Punkte
beachtet werden.
Suchmaschinennutzer sind meist nur gelegentliche Nutzer. Umso wichtiger ist es, dass ein Suchdienst
transparent über seinen Zweck und Umfang orientiert. (Schulz, 2007) Eine wichtige Usability-Norm
ist die DIN EN ISO 9241 – 10. Sie legt sieben Grundsätze der Dialoggestaltung fest:
8
Mehr Informationen dazu im Kapitel 5 Operatoren & Methoden.
Seite 50 von 85
SPRINT – Suche im Internet
Aufgabenangemessenheit, Selbstbeschreibungsfähigkeit, Erwartungskonformität, Fehlertoleranz,
Steuerbarkeit, Individualisierbarkeit und Lernförderlichkeit. (Wirth, 2005)
Für Suchmaschinen ist besonders der Punkt der Erwartungskonformität sehr wichtig. Schulz nennt
hierfür den Bedarf für einen „(erwartungskonformen) Button mit einem unmissverständlichen Label:
z.B. suchen, finden“ (Schulz, 2007).
Fauldrath/Kunisch formulieren sehr treffend: „dass auch für Suchmaschinen das bekannte KISSPrinzip (Keep it small and simple ) gilt. Der Nutzer will ein Problem lösen und nicht durch das
Interface ein zusätzliches erhalten“ (Fauldrath/Kunisch, 2005). Der durchschnittliche
Suchmaschinennutzer darf nicht gezwungen werden, irgendwelche Operatoren benützen zu müssen.
Dies kann ihm abgenommen werden, indem „Eingaben ohne Operatoren im Sinne einer
größtmöglichen Relevanz interpretiert werden (z.B. die Eingabe wird zunächst als Phrase
interpretiert, dann als AND-Verbindung, dann als OR-Verbindung)" (Schulz, 2007).
Die Suchmaschine soll nachsichtig sein und allfällige Tippfehler erkennen und korrigieren sowie bei
zu vielen oder keinen Treffern sinnvolle und annehmbare Hilfestellung bieten (Filter, Suchtipps,
Möglichkeit für erneute Suche, etc.) (Schulz, 2007).
Bei der Trefferliste ist es wichtig, dass diese schnell aufgebaut wird und angibt, wieviele Treffer
gefunden worden sind.
„Der Siegeszug von Google beruht auf der leichten Bedienbarkeit bei relativ guter Ergebnisqualität.
Google hat De-Facto-Standards gesetzt und die Erwartungen von Kunden nachhaltig geprägt. Kunden
erwarten, dass eine Suchmaschine sich wie Google darstellt und auch so verhält: ein einfaches
Eingabefeld - 1 Button "Suche" - ein relevanzsortierte Ergebnisliste auf einer neuen Seite“ (Schulz,
2007).
4.11 Intelligente Agenten
Als Software-Agent oder auch Agent bezeichnet man ein Computerprogramm, das zu gewissem
eigenständigem Verhalten fähig ist. Mit dem Fortschreiten der weltweiten Vernetzung und der damit
verbundenen steigenden Komplexität bedarf es neben den teilweise schon ausgereiften Suchdiensten
auch der Erforschung und Entwicklung neuer Methoden zur Unterstützung der Nutzer für ein
effizientes und Zielgerichtetes Arbeiten im Internet. In diesem Zusammenhang hört man oft den
Begriff "Intelligente Agenten" oder "Mobile Agenten“. Diese weiterführenden Konzepte aus dem
Bereich der Künstlichen Intelligenz versprechen eine Professionalisierung im Umgang mit dem
Internet. Die aufgrund dieser Konzepte entwickelten intelligenten Agenten sind Programme, die
Aufträge eines Benutzers oder eines anderen Programms mit einem gewissen Grad an
Eigenständigkeit und Unabhängigkeit ausführen und dabei Angaben über die Ziele und Wünsche des
Benutzers anwenden.
Die Forschung über Künstliche Intelligenz definiert einen Agenten als eine Software, die folgende
Eigenschaften besitzt:
•
Autonomie
Ein Agent ist in der Lage, eine Aktion zu starten, ohne unmittelbar vom Benutzer
angesprochen worden zu sein. So könnte er beispielsweise automatisch eine Suche im
Internet beginnen, wenn die Netzbelastung relativ niedrig ist. Dies kann auch geschehen,
wenn der Benutzer gerade nicht am Computer eingeloggt ist.
•
Lernfähigkeit
Das Programm lernt aufgrund vorher getätigter Entscheidungen bzw. Beobachtungen dazu
und verhält sich bei einer nächsten Entscheidung je nach Situation anders.
•
Zielorientierung
Der Benutzer kann auf einfache Art dem intelligenten Agenten komplexe Anfragen stellen.
Die Entscheidung, wie die Aufgabe in Teilaufgaben zerlegt wird, wo und wann die
erforderlichen Informationen zu finden sind, obliegt dann dem Agenten. Der Benutzer
braucht sich dann nur um das „Was“ und nicht um das „Wie“ seiner Anfrage zu kümmern.
•
Flexibilität
Die Aktionen eines Agenten zum Lösen einer Aufgabe sind zu keinem Zeitpunkt festgelegt.
Der Agent ändert sein Verhalten, wenn ihn äußere Umstände dazu zwingen oder wenn
Teillösungen einer Aufgabe neue Aspekte hervorbringen. Er reagiert mit einer geänderten
Vorgehensweise zum Erreichen eines Zieles. Zu den äusseren Umständen gehört z.B. eine
Veränderung der Softwareumgebung oder ein nicht erreichbarer Server im Internet.
Seite 51 von 85
SPRINT – Suche im Internet
•
Mitarbeit
Der Agent nimmt nicht nur blind Kommandos entgegen, sondern rechnet auch damit, dass
der menschliche Benutzer Fehler macht, wichtige Informationen auslässt oder dass
Mehrdeutigkeiten aufgedeckt werden müssen. Diese Unklarheiten müssen dann durch
geeignete Mittel, wie zum Beispiel durch Nachfrage beim Benutzer, Heranziehen einer
Wissensbasis oder ähnlichem, beseitigt werden.
•
Kommunikationsfähigkeit
Ein intelligenter Agent muss in der Lage sein, auf effektive Art und Weise Informationen
beschaffen zu können. Dazu dient die Kommunikation mit der Softwareumgebung, mit
anderen Agenten und nicht zuletzt mit dem Benutzer. Zur Inter-Agenten-Kommunikation
dienen so genannte Agent-Communication-Languages (ACL). Damit sind Agenten nicht nur
fähig Wissen und Informationen von anderen Agenten zu bekommen, sondern können auch
gemeinsam an der Lösung einer Aufgabe arbeiten. Zur Kommunikation mit dem Benutzer
dienen heute meist noch Dialogboxen. Der Einsatz natürlichsprachlicher Zugänge wird
erforscht.
•
Anpassungsfähigkeit
Agenten sollen sich an den Benutzer anpassen können. Das heisst, er muss seine
Gewohnheiten und seine Arbeitsweisen kennen. Manche Forscher gehen sogar soweit, dass
sie fordern, ein Agent solle einen Charakter und einen "Gemütszustand" haben, um von
seinem Benutzer als glaubwürdiger Partner akzeptiert zu werden.
Agenten werden Einsatzmöglichkeiten in den Bereichen E-Commerce, Informationsrecherche,
Simulation, Erledigen von Routineaufgaben und in autonomen Systemen eingeräumt. Bereits
etabliert sind eine Reihe sogenannter Softbots. Das sind semiautonome Agenten, die
charakterisierbar sind durch ein Formularbasiertes Interface. Weiter nützen diese Benutzerziele als
Input (z. B. ein als Suchanfrage formuliertes Informationsbedürfnis) und eine Abfolge von
vordefinierten Aktionen um das Ziel zu erreichen. Vorrangig stellen sich Softbots als lokal zu
installierende Suchdienste oder Metasuchwerkzeuge für das Internet dar und werden dann auch
Searchbots oder Webbots genannt. Nachfolgende Grafik gibt deren Funktionsweise schematisch
wieder.
Abbildung 15: Funktionsweise Intelligente Agenten
An dieser Stelle sollen Beispiele für Vertreter dieser Klasse vorgestellt werden:
Copernic Agent
Dabei handelt es sich um ein lokal installierbares Metasuchwerkzeug der Copernic Technologies Inc.,
welches Suchanfragen an mehrere Suchdienste des Internet weiterreicht. Es wird zwischen drei
Varianten der Software unterschieden. Die frei verfügbare Variante „Basic“ beinhaltet zehn
Suchkategorien. Insgesamt können bei dieser Variante etwa 90 Quellen durch die Kategorie der
Suche ausgewählt und parallel abgefragt werden. Die kommerziellen Varianten Copernic Personal
und Copernic Professional bieten z.Zt. 120 Kategorien und über 1000 Suchdienste zur Weitergabe der
Suchanfragen.
In den kommerziellen Versionen wird u.a. eine Rechtschreibprüfung der Suchbegriffe mittels eines
erweiterbaren Lexikons vorgenommen. Die Suchanfragen können unter Verwendung von AND, OR und
Phrasen formuliert werden. Sie werden automatisch gespeichert und können so erneut ausgeführt
werden, manuell initiiert oder im Rahmen des sog.
Tracking automatisiert mit einer zeitlichen Planbarkeit (nur einmal, einmal an verschiedenen Zeiten
Seite 52 von 85
SPRINT – Suche im Internet
des Tages, an bestimmten Tagen der Woche oder des Monats). Tracking wird allerdings nur in der
Variante Copernic Pro angeboten. Damit ist auch der automatische Download, die Validierung und
das Refinement (Suchfragenüberarbeitung durch Auswertung der ersten Resultate) der Suchtreffer
möglich, was bei der freien Variante Basic nur manuell, basierend auf allen oder einer Auswahl von
Suchtreffern erreicht werden kann. Suchergebnisse der unterschiedlichen Quellen werden fusioniert
und geordnet nach Relevanz (Score) angezeigt.
Darüber hinaus ist eine Sortierung nach Titel, URL oder Datum für Anzeige und Ergebnisexport
möglich. Duplikate werden selbsttätig eliminiert. Suchanfragen können nach der Durchführung
modifiziert werden. Die Suchergebnisse werden ebenso automatisch gespeichert, zusätzlich ist es
möglich, diese in den Formaten HTML, Text, XML, Comma Separated ASCII und dBASE zu exportieren.
Dargestellt werden die Resultate der Suche entweder mittels eines integrierten Browsers oder durch
den externen Standard-Browser. Weiterhin sind unterschiedliche Verknüpfungen mit dem Microsoft
Internet Explorer möglich (Ersetzen dessen Suchmenüs usw.). Die Aktualisierung der genutzten
Suchdienste findet automatisch über das Internet statt, ebenso wie das Software-Update.
SearchPadTM
SearchPad der Satyam Computer Services Ltd. ist ebenfalls ein lokal installierbares
Metasuchwerkzeug, das sich durch ausgeprägte Möglichkeiten der Verbesserung der Suchergebnisse
mittels der Bewertung von Resultaten eines ersten Suchlaufs durch den Suchenden auszeichnet
(Relevance Feedback).
Von Searchpad werden parallel 27 Suchdienste des WWW abgefragt. Die Suchanfrage kann unter
Verwendung der Boole'schen Operatoren AND, OR, AND NOT, NEAR, + und - formuliert werden.
Bestimmte URL's können als Suchergebnisse ausgeschlossen werden. Die Resultate werden nach
Relevanz geordnet ausgewiesen, mehrere Suchergebnisse von einer Website werden gruppiert.
Zusätzlich können die Ergebnisse nach Titel, Zusammenfassung und Quelle geordnet werden. Dead
Links und Duplikate werden selbständig bereinigt. Eine Vorfilterung der Resultate wird durch
Spezifizieren von Regeln zur Auswahl spezieller Begriffe oder Phrasen für die Felder Title,
Document, Beginning, End, Header, Summary, Embedded links und URL des Ergebnisdokuments
möglich. Hervorhebenswert ist der Feedback-Mechanismus, welcher zur automatischen Klassifikation
der Suchergebnisse entsprechend der intellektuellen Relevanzbeurteilung des Suchenden (in fünf
Stufen) führt. Dazu müssen auch Angaben über das Vorhandensein oder die Abwesenheit bestimmter
Suchbegriffe gemacht werden, die als nützlich bzw. zu unerheblichen Resultaten führend empfunden
wurden.
Auch die Wissensbasis, die Interessengebiete des Nutzers aufnimmt (als sog. Topics) kann als ein
Merkmal der Agententechnologie aufgefasst werden. Topics werden aus dem Feedback des Nutzers
gebildet unter der Annahme, dass jene die Interessenlage des Suchenden widerspiegeln. Topics
erfassen also das Wissen über die Nutzerinteressen. Sie werden als Filter auch für andere Anfragen
desselben Nutzers und auch nutzerübergreifend auf inhaltsähnliche Fragestellungen anderer
Suchender angewandt. Dadurch wird eine automatische Klassifikation der Suchergebnisse in
thematisch orientierte Kategorien realisierbar.
Ein signifikantes Unterscheidungsmerkmal zur Abgrenzung von agentenbasierten Anwendungen
gegenüber anderen Systemen ist das Wissensniveau, mit welchem Agentensysteme operieren,
gegenüber dem symbolischen, datenorientierten Niveau konventioneller Software. Wesentlich für
autonom agierende Agenten ist ihre Fähigkeit, sich Kenntnisse über ihr Aufgabengebiet, die
Interessen und Präferenzen ihrer Nutzer aneignen zu können. Dazu nutzen Agentensysteme
verschiedene Formen des Wissenserwerbs. Die einfachste besteht in einer Anzahl von
nutzerdefinierten Regeln zur Informationsverarbeitung, der Nutzer muss den Agenten in seiner
Ausprägung selbst erschaffen (s. Softbots). Ein fortgeschrittener Ansatz, der sich Techniken des
maschinellen Lernens zunutze macht, ist der Wissenserwerb durch Beobachten des Nutzers bei
seiner Interaktion mit Systemen mit dem Ziel, sich Wissen zum Nachahmen dieses Verhaltens
selbständig bei Vorliegen von minimalem Hintergrundwissen aneignen zu können. Der Agent soll
Muster und Regelmäßigkeiten im Nutzerverhalten erkennen können. Weitere Möglichkeiten des
Agenten, an das für die Erfüllung seiner Aufgaben notwendige Wissen zu gelangen, sind
ausdrückliche Anweisungen des Nutzers an den Agenten und Nutzer-Feedback bzw. Programmierung
durch vom Nutzer vorgegebene Beispiele.
Eine Variante namens Collaboration-Technology bezieht sich auf die Kooperation von gleichartigen
Agenten verschiedener Nutzer, um in kurzer Zeit zu Basiswissen für eine spätere nutzerspezifische
Anpassung zu gelangen und einander in unbekannten Situationen zu helfen. Ein solcher Austausch
beruht aber nicht immer auf Agent-Communication-Languages, sondern auch auf
agentenspezifischen Konversationsmitteln, so u.a. auch auf dem Austausch von Emails.
Seite 53 von 85
SPRINT – Suche im Internet
Beim heutigen Stand der Technik ist man gerade bei der Realisierung "intelligenter" Eigenschaften
von Agenten vom Ziel jedoch noch weit entfernt. Möglicherweise werden diese auch immer eine
Utopie bleiben. Der momentane Stand der Agententechnologie soll deshalb an Beispielen
existierender WWW-Agenten und Frameworks zur einfachen Erstellung solcher durch den Nutzer
gezeigt werden:
Narval
Das Agentensystem Narval (Network Assistant Reasoning with a Validating Agent Language) des
Unternehmens Logilab soll Begleiter beim täglichen Umgang in der Welt der Informationen sein.
Dazu kann es mit einer Vielzahl von Plattformen wie Email, World Wide Web, Telnet, Telefon usw.
kommunizieren. Es führt Aufträge des Nutzers (sog. Recipes) aus, welche die unterschiedlichsten
Aufgaben im Zusammenhang mit diesen Plattformen realisieren können. Exemplarisch werden
genannt: die tägliche Suche im WWW nach bestimmten Informationsbedürfnissen, Ausfiltern von
Junk während des Browsing im WWW, Zusammenstellen von Informationen unterschiedlicher Quellen
entsprechend der Interessen des Nutzers, automatisches Beantworten bestimmter Emails, Ausführen
regelmäßig wiederkehrender Aufgaben u.v.a.m. Dabei soll es auch vom Nutzer lernen, um solche
Aufgaben anstelle seiner zu übernehmen. Narval ist unter der Gnu Public License frei verfügbar. Es
stellt einen persönlichen Assistenten dar, der in der Welt des Internet durch Zugriff auf alle
auffindbaren Ressourcen, Dokumente und Programme, die vom Nutzer vorgegebenen Wünsche
zufriedenstellen soll. Neue Aktionen werden unter Verwendung von XML spezifiziert und mit Python
implementiert. Die Recipes als Abfolge einzelner Aktionen können durch ein grafisches Interface
erstellt und getestet werden. Die Philosophie von Narval ist es nicht, die existierenden
Softwaresysteme zu ersetzen, sondern deren Funktionalitäten so zu integrieren, dass die Nutzung
erleichtert wird durch Verbergen der zugrunde liegenden Komplexität.
WebMate: A Personal Agent for World-Wide Web Browsing and Searching
WebMate ist Teil des Intelligent Software Agents Projekts am Computer Science Department der
Carnegie Mellon University. Es stellt einen Persönlichen Agenten für das Browsing und Suchen im
World Wide Web dar. Wesentliche Merkmale können wie folgt beschrieben werden: Unterstützung
einer parallelen Suche mit mehreren Internet-Suchdiensten, Verfeinerung der verwendeten
Suchbegriffe durch Extraktion relevanter Begriffe aus ersten Suchergebnissen (Refinement).
Hinsichtlich des Browsing ist dieser Agent imstande, die Interessen des Nutzers zu erlernen,
daraufhin neue URLs vorzuschlagen, die durch Bookmarks vorgegebenen Seiten zu überwachen, zur
aktuell betrachteten Homepage weitere ähnliche Seiten aufzeigen, die von der aktuellen Homepage
abgehenden Links automatisch weiterzuverfolgen und die Zieldokumente herunterzuladen usw.
WebMate wird mittels eines lokalen Proxy-Servers realisiert, der zwischen dem WWW-Server und
dem Browser des Nutzers lokalisiert ist. Dadurch ergeben sich weitere Nutzungsmöglichkeiten, wie
z.B Aufzeichnen der Transaktionen zwischen Browser und WWW-Server, Filtern der Cookies, um die
Privatsphäre zu schützen, Blockieren animierter GIF-Dateien, um die Performance zu verbessern. Das
System richtet dynamisch alle erforderliche Arten von Ressourcen, wie Suchdienste, OnlineWörterbücher, Online-Übersetzungssysteme etc., selbsttätig ein. Es ist mittels Java erstellt und so
plattformunabhängig nutzbar.
InfoSpiders
An der University of Iowa wird an einem Multi-Agenten-System namens Infospiders gearbeitet.
Beschrieben wird es als adaptive Retrieval Agenten, die sich zur autonomen und skalierbaren Suche
nach Informationen an Techniken des sog. künstlichen Lebens anlehnen. Dabei wird das World Wide
Web als ökologische Umgebung mit einer Population von Agenten gesehen, die um relevante
Informationsquellen gegenseitig im Wettbewerb zueinander stehen, aus Erfahrung lernen und sich
reproduzieren, wenn sie erfolgreich sind oder absterben, wenn sie keinen Erfolg vorweisen können.
Eine prototypische Implementierung derartiger Agenten mit Namen MySpiders wird vorgestellt als
Bestandteile eines Java-Applets mit der Funktion des Durchforstens des World Wide Web im
Interesse des Nutzers. Damit sollen sie traditionelle Suchdienste des Web ergänzen, indem sie neue
oder bisher unbekannte Dokumente ausfindig machen, die von den Suchdiensten bislang
möglicherweise noch nicht indexiert wurden.
WebWatcher Project
WebWatcher ist ein "tour Guide" durch das World Wide Web. Basierend auf dem vom Nutzer
vorgegebenen Informationsbedürfnis, leitet ihn das System entlang der Web Sites gleich dem
manuellen Browsing. Links, die das System dabei als relevant empfindet, werden hervorgehoben.
WebWatcher ist fähig, aus Feedback zu lernen und das Erlernte für Hinweise der folgenden Touren
zu nutzen. Das System erlangt seine Fähigkeiten durch Analyse der Nutzeraktionen, Meinungen der
Nutzer zur Relevanz und der von ihnen wirklich betrachteten Seiten. Die Weiterführung von
WebWatcher als Personal WebWatcher lässt sich deshalb als Persönlicher Agent bezeichnen. Im
Seite 54 von 85
SPRINT – Suche im Internet
Gegensatz zu WebWatcher ist Personal WebWatcher konzipiert, einem speziellen Nutzer zu dienen
und dessen Interessen möglichst genau abzubilden. Es beobachtet den Nutzer bei seiner Tätigkeit,
bezieht den Nutzer selbst aber nicht in den Lernprozess ein, wie es bei WebWatcher der Fall ist.
Personal WebWatcher zeichnet die vom Nutzer abgerufenen URL's auf und analysiert diese in der
Lernphase, um daraus ein Modell der Nutzerinteressen zu erzeugen. Das Modell wird dann genutzt,
um den Nutzer zu unterstützen, indem ihm Hinweise auf potentiell interessante Links von bereits
geladenen HTML-Seiten gegeben werden.
Über die Agententechnologie hinaus gibt es noch andere Möglichkeiten, um im Internet oder mittels
Internet an Informationen zu gelangen. Eine Form der personenbezogenen
Informationsbereitstellung, bei der das World Wide Web als "Enabling Technology" fungiert, wird
durch die Identifikation entsprechender Experten für den relevanten Problembereich ermöglicht.
Dabei bedient man sich eines sog. Vertrauensnetzwerkes, bei dem zuverlässige Hilfe auf der
Vertrauensgrundlage einer Community, durch Konstellationen wie "der Freund eines Freundes" etc.
gegeben ist. Das nachfolgend beschriebene WWW-basierte System stellt den Versuch praktischer
Umsetzung solcher Ideen dar:
ReferralWeb
Referral Web ist ein von AT&T Research Laboratory in Zusammenarbeit mit dem Massachusetts
Institute of Technology und der Cornell University entwickeltes System zur Analyse persönlicher
Beziehungen durch Verfolgen von Links zwischen den Homepages verschiedener Personen. Damit
können soziale Netze im Internet erforscht werden z.B. um vertrauenswürdige Experten für die
Lösung bestimmter Probleme zu finden mit der höheren Sicherheit einer zuverlässigen Unterstützung
aufgrund eines gemeinsamen Freundes. Das Programm versucht die Verbindungen zwischen dem
Nutzer und jemandem, der z.B über eine Expertise in einem bestimmten Gebiet verfügt und so
hilfreich sein könnte, zu finden. Realisiert wird das, indem das System den Text von Web Sites nach
Namen durchsucht und mit einer Datenbank von Telefonbüchern vergleicht, um die Begriffe, die
wirklich Namen von Personen darstellen, zu identifizieren. Während das Programm so Namen
sammelt, prüft es auf Verbindungen zwischen diesen in Form der Verfolgung von Links zwischen
entsprechenden Web Sites. Ein Problem dieser Vorgehensweise liegt darin, dass nicht selten auch auf
Web Sites von Personen verwiesen wird, ohne dass diese Personen persönlich miteinander bekannt
sind (z.B. Verweise auf die Homepages von Persönlichkeiten). Deswegen soll ReferralWeb seine
Fähigkeiten besonders bei der Suche nach Spezialisten in bestimmten Bereichen finden und weniger
zur allgemeinen Suche nach Personen.
4.12 Entwicklungstendenzen
In diesem Abschnitt werden Ansätze bei der Erschliessung von Wissensbeständen und bei der Ausgabe
von Suchergebnissen dargestellt.
4.12.1 Erschliessung des Deep-Web
Die zentrale Aufgabe von Web-Suchdiensten besteht darin, die Inhalte des Internet zu erschließen.
Angesichts der enorm umfangreichen und stetig wachsenden Datenbestände des Internets eine
gigantische Herausforderung. Schätzungen zufolge gibt es ca. 30 Milliarden frei zugängliche
Internetseiten (Uni Bielefeld, o.A.). Dieser Teil des Internets ist das sichtbare Netz, das so genannte
"Visible Web". Google hat davon ca. 15-20 Milliarden Internetseiten indexiert. Theoretisch könnte
eine Suchmaschine alle Seiten aus diesem "Visible Web" indexieren, es gibt jedoch verschiedene
Barrieren für die Suchmaschinen.
Beispiele für Barrieren können sein (Uni Bielefeld, o.A.):
ƒ Auf die Internetseite führt kein Link.
ƒ Die Internetseite darf nicht indexiert werden.
ƒ Die Internetseite ist nicht frei zugänglich (Login-Daten notwendig).
Diese Seiten, welche für Suchmaschinen unsichtbar sind und die von Suchmaschinen nicht indexiert
werden können nennt man das "Invisible Web" oder Deep Web. Schätzungen über die Größe des
"Invisible Web" differieren sehr stark. Die Datenmenge im "Invisible Web" soll laut einer Studie der
Firma Brightplanet aus dem Jahr 2001 etwa 500-mal größer sein als die des "Visible Web".
Allerdings darf man die Datenmenge nicht mit der Zahl der Internetseiten gleichsetzen, da z.B. eine
hoch aufgelöste Satellitenaufnahme die gleiche Datenmenge wie 1.000 Internetseiten haben kann. In
einer Studie aus dem Jahre 2006 wurde die Zahl aus der Brightplanet-Studie als deutlich zu hoch
bezeichnet.
Seite 55 von 85
SPRINT – Suche im Internet
Spezielle Deep-Web-Verzeichnisse katalogisieren ähnlich Webverzeichnissen Deep-Web-Ressourcen:
Completeplanet verzeichnet beispielsweise rund 70’000 Deep Web Sites und Suchdienste.
Incywincy durchsucht Websites, die im Open Directory Project (DMOZ) erfasst sind und liefert als
Ergebnisse ODP-Kategorien und Einträge zurück. Zusätzlich werden die in ODP vorhandenen Seiten
mit Hilfe eines Roboters indexiert. Enthalten solche Sites eine Suchfunktion, dann wird die Anfrage
an diese Suchfunktion weitergeleitet.
Weiter gehend versuchen Suchdienste wie Turbo10 direkten Zugriff auf die Bestände des Deep Web
zu ermöglichen. Dazu bieten sie ihren Nutzern die Option, sich aus einer Vielzahl vorgegebener
Quellen (vornehmlich Deep-Web-Datenbanken) individuelle Kollektionen zusammen zu stellen und
diese anschliessend gezielt zu durchsuchen.
4.12.2 Erschliessung neuer Wissensbestände
Neben der Erschliessung von Inhalten des „Deep Web“ stellen die Versuche der populären
Suchdienste mit dem Wachstum des Surface Web Schritt zu halten und gezielt zusätzliche
Wissensbestände recherchierbar zu machen eine wichtige Rolle.
Google erschliesst seit Jahren kontinuierlich neue Datenbestände. Im Unterschied zu Ansätzen der
Deep Web-Gateways wird aber kein allgemeiner Ansatz gewählt der darauf zielt, ein möglichst
breites Spektrum von Deep-Web-Wissensbeständen durchsuchbar zu machen. Vielmehr werden
schrittweise neue spezialisierte, themenspezifische beziehungsweise dokumenttypspezifische
Suchdienste angeboten. Beispiele hierfür sind etwa Google Groups, Google News und Google Maps.
Google Book Search ist ein Projekt, mit dem Google das Ziel verfolgt, Inhalte populärer Bücher zu
erschliessen.
Ein Schwerpunkt der Bereitstellung neuer Datenbestände liegt insbesondere bei der Erschliessung
von Produktdatenbanken kommerzieller Anbieter. Diese Erschliessung lässt sich wiederum auf
direkte oder indirekte Weise gewinnbringend vermarkten. Ein Beispiel ist Google´s
Produktesuchmaschine Google Product Search. Treffer werden bei Produktanfragen als „Product
Search“-Ergebnisse eingeblendet.
Einen weiteren Kernpunkt der Erschliessung neuer Wissensbestände bilden Ansätze, die darauf
zielen, geografische Suchoptionen verfügbar zu machen. Ziel ist es, örtlich spezifiziertes Suchen zu
ermöglichen und damit Regionen-, Stadt-, Stadtteil- oder gar strassenbezogen genaue Suchanfragen
zu ermöglichen. Ein Beispiel wäre etwa die Suche nach einem Arzt in einer speziellen Stadt.
Solche Anfragen in der Art von „Zahnarzt Chur“ sind zwar bei vielen Suchdiensten möglich, aber
häufig nicht sehr sinnvoll, da bei typischen Web-Resultaten die notwendigen Ortsangaben nicht
strukturiert vorhanden sind und deshalb nicht erfasst werden können.
Spezielle geografische Suchdienste wie Citysearch wie auch viele Webkataloge erfassen zwar heute
schon strukturiert geografische Daten. Beispielsweise Stadtname oder Postleitzahl, respektive ZipCode zu den vorhandenen Einträgen. Insgesamt bieten sie aber nur Zugriff auf einen verschwindend
geringen Anteil der Wissensbestände des Netzes.
Die Entwicklung lokaler Suchdienste, beziehungsweise Suchoptionen ist für Suchdienste sehr
attraktiv, da diesem Bereich ein gewinnbringendes Werbepotenzial zugesprochen wird. Deshalb ist
es nicht erstaunlich, dass auch Google und Yahoo versuchen, derartige Suchoptionen zu integrieren
und auszubauen.
Google Maps ermöglicht geografische Anfragen, so dass der Nutzer explizit nach Ortschaften suchen
kann. Yahoo.com wiederum führte mit “SmartView” entscheidende Verbesserungen beim
Spezialsuchdienst Yahoo! Maps ein. Mit diesem Suchdienst wird die geografische Suche in Städten mit
Hilfe von Stadtplänen gestattet. Zusätzlich werden Links zu kulturellen Einrichtungen, Hotels und
sonstigen lokalen Adressen, angeboten. Zu den Einträgen werden direkte Links zum YahooRoutenplaner und der Web-Suche angeboten.
4.12.3 Personalisierung der Suche
Für eine qualitative Verbesserung der Suchergebnisse in typischen Suchkontexten ist es
entscheidend, inwieweit die Suchdienste in der Lage sind die Informationsbedürfnisse der Nutzer zu
verstehen.
Jim Lanzone von Ask.com formuliert diesen zentralen Punkt wie folgt: “Understanding the query
perfectly would do much more to impact the quality of results for the everyday user (whether novice
or expert) than perfecting the results themselves (though obviously we're trying to do both!).”
Jeff Weiner von Yahoo formuliert das zentrale Ziel so: „Ultimately we want to understand the
intention of the user, and I think we're going to get closer to that through personalization …”
Seite 56 von 85
SPRINT – Suche im Internet
Personalisierung meint die Berücksichtigung individueller Bedürfnisse bei der Ausgabe von
Suchergebnissen. Interaktions- und Profildaten von Nutzern werden dazu genutzt, individuelle
Informationsbedürfnisse besser nachvollziehen zu können. Ziel ist es, künftige Suchkontexte und intentionen der Nutzer zu antizipieren.
Nach gescheiterten Ansätzen waren personalisierte Suchfunktionen bei Web-Suchdiensten lange Zeit
kaum anzutreffen (Khopkar et al., 2003) Heute ist die Personalisierung in Suchdiensten etabliert und
vor allem durch die zwei grössten Anbieter Goolge und Yahoo! bekannt geworden. (Griesbaum, o.A.)
iGoogle ist der Nachfolger der personalisierten Startseite bei der Suchmaschine Google und wurde
am 30. April 2007 veröffentlicht. My Yahoo! ist die personalisierte Suche von Yahoo. Zur Nutzung
benötigt man eine Yahoo ID. Mit My Yahoo! können persönlich bevorzugte Resultate gespeichert,
nicht bevorzugte Resultate geblockt oder alles Gespeicherte wieder gefunden werden, sortiert nach
Titel, Schlüsselwort oder Datum.
Folgende Chancen und Risiken gilt es zu beachten: (Griesbaum, o.A.)
Chancen
ƒ Verbesserung des Suchdienstes durch eine auf den Nutzer bezogenen Anordnung der
Treffermenge
ƒ
Suchdienst kann nutzerspezifische Werbung platzieren lassen und die Wahrscheinlichkeit
steigt, dass der Nutzer die angezeigte, auf ihn bezogene Werbung anschaut.
ƒ
Durch Personalisierung bei Suchdiensten können in Verbindung mit weiteren Internetdiensten
umfassende Profile der Nutzer zusammengesetzt werden, z.B. Google mit Gmail und
Chrome.
Risiken
ƒ Einschränkung in der Trefferliste, da nur noch die nutzerspezifischen Treffer angezeigt
werden, die die obersten Plätze im Ranking belegen.
ƒ
Mangelnde Bewertungsfähigkeit der Treffer durch den Nutzer, da er oder sie denkt, dass ein
personalisierter Webdienst einem "gut kennt" und die angezeigten Treffer "wahr" sind.
SmartWeb
Smart Web soll eine wichtige Stufe bei der Realisierung des Internets
der nächsten Generation bilden, welches breitbandige
Multimediadienste mobil und individualisiert bereitstellen soll.
Durch konkrete Anfragen (über das mobile Internet) sollen konkrete
Antworten mittels SmartWeb möglich sein. Etwa: "Wer wurde 2002
Fussball-Weltmeister"? Die Antwort wäre dann "Brasilien". Die
Antworten könnten in Text, Bild oder Video auf eine mobile
Empfangsstation übermittelt werden. (SmartWeb-Projekt, o.A.) Es
bleibt offen, wie weit sich Smartweb durchsetzten wird; momentan
sind kaum grösseren Entwicklungen in diese Richtung ersichtlich.
Abbildung 16: SmartWeb (Quelle: BMW Group Trainingsakademie, 2007)
Seite 57 von 85
SPRINT – Suche im Internet
5 Operatoren & Methoden
Die Suchdienste des Internets bieten immer mehr Operatoren und Methoden zur Suche an. Die
verschiedenen Möglichkeiten sind meist bei den Hilfe-Funktionen der einzelnen Suchdienste
beschrieben. Nachfolgend werden Methoden und Operatoren erläutert, wie sie bei den meisten
Suchdiensten in der einen oder anderen Weise anwendbar sind.
5.1 Suchmodus
Einige Suchdienste bieten verschiedene Suchmodi an. Mit „einfacher Suche“ (Simple Search) wird
dabei eine triviale Stichwortsuche in einem Feld bezeichnet. Die Möglichkeit der Angabe zusätzlicher
Kriterien und Operatoren wird als „erweiterte Suche“ (Extended Search, Advanced Search)
bezeichnet.
Abbildung 17: Einfache Suche (Simple Search)
Abbildung 18: Erweiterte Suche (Advanced Search)
Einige Suchdienste helfen dem Nutzenden zusätzlich bei der Suche, indem sie eine Visualisierung für
die Anfrageformulierung anbieten (mehr Informationen dazu online).
Beispiele: Quintura, Sortfix und WebBrain
5.2 Gross-Schreibung
Bei den meisten Diensten wird Gross- oder Kleinschreibung (Case-Sensitivity) nicht beachtet. Das
heisst, die Sucheingaben sind nicht case sensitive und es kann darauf verzichtet werden, die
entsprechenden Grammatikregeln zu beachten.
Seite 58 von 85
SPRINT – Suche im Internet
5.3 Boole'sche Operatoren
Grundsätzlich gibt es drei Boole‘sche Operatoren: AND, OR, NOT (auch AND NOT). Bei manchen
Suchdiensten werden sie jedoch auch anders dargestellt, wie die nachfolgende Tabelle illustriert.
Tab. 1: Boole’sche Operatoren
Operator
Beschreibung
Grafische
Darstellung
fokussierte Suche:
AND
+
Mit AND verknüpfte Begriffe einer Suchanfrage liefern nur diejenigen
Dokumente, in denen alle verknüpften Begriffe vorkommen.
Bsp.: information AND dokumentation
breite Suche:
OR
Bei der OR-Verknüpfung werden alle Dokumente geliefert, die
mindestens einen der verknüpften Begriffe beinhalten.
Bsp.: information OR dokumentation
schliesst einen Suchbegriff aus:
NOT
-
Mit NOT können Begriffe ausgeschlossen werden, das heisst
Dokumente mit den NOT verknüpften Begriffen werden nicht
angezeigt.
Bsp.: information NOT dokumentation
Wenn in einem Suchfeld mehrere Worte ohne Operatoren dazwischen eingegeben werden, hängt das
Resultat davon ab, welche Option der Suchmaschinenbetreiber voreingestellt hat. Oft ist dies bei
Internetsuchmaschinen „AND“. Google beispielsweise schreibt auf seinen Hilfeseiten: „Google gibt
standardmässig nur Seiten zurück, die alle Suchbegriffe enthalten. Zwischen den Ausdrücken muss
kein „und“ eingegeben werden. Beachten Sie, dass sich die Reihenfolge, in der Sie die Begriffe
eingeben, auf die Suchergebnisse auswirkt.“ (Google, 2009c)
Die Anwendung boolescher Operatoren ist von Dienst zu Dienst unterschiedlich. Manche erlauben
diese sogar mit Klammerung, andere aber nicht einmal als Mischung der verschiedenen Operatoren.
Bei manchen Suchdiensten sind boolesche Operatoren nicht direkt in einem Eingabefeld erfassbar.
Sie müssen durch ein Pulldown-Menü oder eine Checkbox ausgewählt werden, entweder auf einzelne
Suchbegriffe oder auf die logische Verknüpfung aller Suchbegriffe bezogen.
Wichtig bei der Verwendung von Boole’schen Operatoren ist die Klammerung. „htw AND bachelor OR
master“ ergibt nicht (immer) das selbe wie „htw AND (bachelor OR master)“. Auch hier ist das
Resultat davon abhängig, wie die Voreinstellungen der Suchmaschine sind. Es kann eine Abarbeitung
der Suchbegriffe von links nach rechts erfolgen (im Beispiel: htw und bachelor kommen vor, oder es
wird ein Dokument mit dem Wort master gesucht), oder ein Operator kann stärker sein als ein
anderer und somit bevorzugt abgearbeitet werden (im Beispiel: angenommen, OR sei stärker als
AND: es wird ein Dokument gesucht, welches das Wort bachelor oder das Wort master enthält und
dann muss es auch noch htw enthalten). Um sicher zu gehen, dass die Suchmaschine das sucht, was
man möchte, klammert man Zusammengehöriges wie im untenstehenden Beispiel. Boolesche
Operatoren und Klammern bieten in der einfachen Suche schon viele Möglichkeiten.
Seite 59 von 85
SPRINT – Suche im Internet
Abbildung 19: Boole‘sche Operatoren und Klammern der einfachen Suche
Google-Operatoren 9 (Google, 2009e):
Google macht bei der Eingabe von zwei Suchbegriffen automatisch eine AND-Verknüpfung. Das
Suchen mit dem OR-Operator ist möglich (Bsp.: Maui OR Hawai).
Mit einem Minuszeichen vor einem Begriff wird jener Begriff ausgeschlossen (z.B. virus –computer).
Ein vorangestelltes Plus hingegen bewirkt, dass genau das eingegebene Wort gesucht wird, ohne dass
Google Pluralformen oder Variationen des Wortes sucht.
Eine Tilde veranlasst Google, für das betroffene Wort auch nach Synonymen zu suchen und diese der
Suchanfrage hinzuzufügen.
Mit dem Stern kann bei Google nicht trunkiert werden, sondern es bewirkt, dass die beiden Wörter
rechts und links des Sterns von einem oder mehreren Wörtern getrennt sind (red * blue).
Eine Besonderheit stellt der Google-Button „I’m feeling lucky“ oder auf deutsch „Auf gut Glück!“
dar. Dieser Button leitet den Recherchierenden direkt zum höchst gerankten Treffer und überspringt
somit die Trefferliste. Gemäss Google ist dieser Knopf vor allem für die Suche nach offiziellen
Webseiten wie beispielsweise Webseiten von Universitäten gedacht. (Google, 2009d)
Als Hilfe bieten Suchdienste oft die erweiterte Suche an. Somit muss beispielsweise bei Google nicht
mit OR gesucht werden, sondern es kann das Feld „mit irgendeinem der Wörter“ in der erweiterten
Suche verwendet werden.
Abbildung 20: Erweiterte Suche ersetzt Boole’sche Operatoren
9
Alle Google-Sonderfunktionen sind auf dieser Seite zu finden: Google-Funktionen.
Seite 60 von 85
SPRINT – Suche im Internet
5.4 Phrasensuche
Mit der Phrasensuche (auch ADJ-Operator) bezeichnet man die Suche nach der exakten Reihenfolge
der angegebenen Suchbegriffe. Um eine Phrasensuche einzuleiten, müssen die Suchbegriffe meist in
Hochkomma eingeschlossen sein. Es existieren dazu jedoch auch oft vordefinierte Suchfelder mit
Bezeichnungen wie „den genauen Ausdruck“ suchen.
Dabei werden sogenannte Stoppwörter (Wörter ohne inhaltskennzeichnende oder
inhaltsunterscheidende Bedeutung) von den meisten Suchdiensten ignoriert, auch wenn sie
Bestandteil der Phrasen-Formulierung sind. Bei einigen Suchdiensten ist es immerhin möglich, durch
einen Operator die als Stoppwort geführten Begriffe für die Berücksichtigung in der Suchanfrage zu
erzwingen. Ein solches Beispiel ist der „+“ Operator bei Google.
Hierzu ein praktisches Beispiel: Es wird nach der Zeitschrift für Psychologie gesucht. Einmal werden
einfach alle Worte eingegeben, einmal wird nach der Phrase gesucht. Vergleichen Sie die Ergebnisse
selbst, indem Sie auf die beiden Screenshots klicken.
Abbildung 21: Zeitschriftentitel-Suche mit allen Wörtern (auf Bild klicken für Suche)
Abbildung 22: Zeitschriftentitel-Suche mit der genauen Wortgruppe (auf Bild klicken für Suche)
Tipp: Besonders bei der Suche nach Personennamen lohnt sich die Phrasensuche.
5.5 Trunkierung
Mit Trunkierung (auch Platzhalter oder Wortstammsuche) bezeichnet man die Suche nach
verschieden Wortvariationen. Bei den Suchdiensten ist meist wahlweise eine echte Teilwortsuche
oder eine exakte Suche des Suchbegriffs einstellbar.
Bessere Suchdienste erlauben auch die Benutzung des sogenannten *-Operators. An mehreren
Positionen eines Suchwortes erhält er auch die Funktion des Platzhalters (engl. „Wildcard“).
Bsp. Trunkierung
ƒ
hand*
Sucht nach allen Worten, die mit „hand“ anfangen: Hand, Handschuh, Handlung...
ƒ
*hand
Sucht nach allen Worten, die mit „hand“ enden: Treuhand...
Seite 61 von 85
SPRINT – Suche im Internet
Bsp. Wortstammsuche
•
m*ller
Sucht nach allen Worten, die mit „m“ anfangen und mit „ller“ enden: Müller, Muller,
Möller...
Leider ist die Trunkierung, im Gegensatz zu kommerziellen Informationsdatenbanken, bei den
meisten Websuchdiensten nicht möglich.
Eine Ausnahme stellt Exalead dar. Exalead nennt die Trunkierung „Präfix Suche“: „Die Präfix-Suche
ermöglicht das Auffinden von Dokumenten durch die Eingabe des Wortanfangs.“ (Exalead, 2009)
Abb. 1: Trunkierung bei Exalead
5.6 Abstandsoperatoren
Abstandsoperatoren (proximity operators, dts. auch Proximity-Operatoren) werden von den
Suchdiensten heute leider kaum unterstützt. Anhand von Abstandsoperatoren können der Umkreis, in
dem die Begriffe liegen sollen, oder auch die exakte Reihenfolge der Begriffe vorgegeben werden.
In nachfolgender Tabelle sollen gängige Operatoren und deren Funktionen erwähnt werden. Je nach
Dienst kann die Benennung etwas verschieden sein.
Tab. 2: Abstandsoperatoren
Beschreibung
Die Begriffe, zwischen denen sich dieser Operator befindet, stehen unmittelbar
ADJ
nebeneinander. Teilweise ist auch ein bestimmter Abstand definierbar, z.B. Suche im
Umkreis von 5 Wörtern.
Die Begriffe, zwischen denen sich dieser Operator befindet, stehen entweder
NEAR
unmittelbar nebeneinander oder befinden sich meist im Umkreis von 10 bis 100
Worten. Teilweise sind diese Abstände auch definierbar.
Legt die Reihenfolge von Wörtern fest, sagt jedoch nichts darüber aus, wie nahe die
AFTER/BEFORE
gesuchten Begriffe beieinander liegen.
Operator
Exalead beispielsweise erlaubt mit dem Abstandsoperator NEAR eine Suche mit einer
voreingestellten Anzahl Worte zwischen den Suchbegriffen. Die unten stehende Suche ergibt Treffer
mit maximal 16 Worten zwischen den Suchbegriffen „Suchmaschine“ und „Visualisierung“.
Seite 62 von 85
SPRINT – Suche im Internet
Abbildung 23: NEAR-Suche bei Exalead (auf Bild klicken für Suche)
5.7 Gewichtung
Einige Dienste bieten auch Gewichtung der Suchbegriffe an. Stärker gewichtete Suchbegriffe werden
dann bei der Suche bevorzugt. Dabei variiert die Art der Angabe nach Häufigkeit des Auftretens eines
Begriffs in der Suchanfrage bis zur Angabe eines Gewichtungsgrades. Auch unterschiedliche Stellen
des Dokumentes an denen die Suchbegriffe vorkommen, können flexibel gewichtet werden.
Wie schon erwähnt, beachtet Google die Reihenfolge der Begriffe (Google, 2009c). Wichtige Begriffe
sollten deshalb zuerst eingegeben werden.
Bei SearchCloud ist eine Gewichtung einzelner Suchbegriffe möglich. Es kann für jeden Begriff die
Gewichtung eingegeben werden, bevor der Begriff in die Suchstrategie aufgenommen wird.
Abb. 1: Gewichtung einzelner Suchbegriffe
Seite 63 von 85
SPRINT – Suche im Internet
5.8 Suchraumeingrenzung
Von einigen Diensten werden verschiedene Eingrenzungen des Suchraums angeboten. Folgende
Kriterien können dabei spezifiziert werden (Siehe auch Erweiterte Suche von Google):
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
Sprache (z.B. „Seiten auf Deutsch“)
Land (Google: „Region“), Top Level Domain (z.B. Seiten aus der Schweiz)
Dokumentart (z.B. Bildersuche, Kartensuche, Newssuche, Suche in Groups, Blogs, Bücher)
Dateiformat (z.B. PDF, Microsoft Excel/Word/Powerpoint, RTF, Shockwave Flash,...)
Bei Bildern: nach Bildgrösse
Vorkommen der Suchbegriffe in bestimmten Feldern (z.B. in der URL, im Hauptteil, in Links
zu der entsprechenden Seite, im Titel, im Journaltitel, im Autorenfeld, ISSN,...)
Zeitraum (der letzten Aktualisierung)
Nutzungsrechte/Lizenz
Informationen für Erwachsene/jugendfreie Informationen (z.B. Filter „SafeSearch“ von
Google. Oft auch „Familienfilter“ o.ä. genannt.)
Quellen (z.B. bei der wiss. Suchmaschine Scirus oder Seekport)
Fachgebiete (z.B. bei der wiss. Suchmaschine Scirus) oder Rubriken
Klang der Suchbegriffe (phonetische Suche bei Exalead)
Abbildung 24: Suchraumeingrenzung in der erweiterten Suche
Abbildung 25: Angebot an Suchraumeingrenzung nach Diensten bei Google-Schweiz
Bei internationalen Suchdiensten können die Angebote und Funktionen je nach Land und/oder
Oberflächensprache verschieden sein. So bietet Google.com (zugänglich ohne automatische
Weiterleitung via www.google.com/ncr) stets mehr Dienste an. Diese Funktionen werden hier aber
nur am Rande behandelt.
Abbildung 26: Angebot an Suchraumeingrenzung nach Diensten bei Goolge.com
Seite 64 von 85
SPRINT – Suche im Internet
Tipp: Um nicht in Google die vielen einzelnen Sucharten einstellen zu müssen, kann auch folgende
Webseite genutzt werden: Soople
Meist sind diese Möglichkeiten zur Suchraumbegrenzung über die erweiterte Suchmaske sichtbar.
Google zum Beispiel bietet aber auch noch eine Art eigenen Code an, um zum Teil weitere
Suchmöglichkeiten auszuschöpfen, oder aber, um in der einfachen Suche Funktionen der erweiterten
Suche nutzen zu können. (Google, 2009a)
Tab. 3: Codes bei Google
Code
Beschreibung
Site
Suche in einer bestimmten Domäne
Link
Suche von Seiten, die auf die angegebene Webpage verweisen
Related ähnliche Seiten suchen
Define nach Definitionen suchen (macht bei Google zusätzlich eine Phrasensuche in diesem Modus)
nach entsprechenden Börsen- informationen suchen. Hierfür muss mit den Ticker-Symbolen
Stocks
gesucht werden, nicht mit den Firmennamen
allintitle Begrenzung der Suche auf Resultate, wo alle Suchbegriffe im Titel vorkommen
allinurl Begrenzung der Suche auf Resultate, welche alle Suchbegriffe in der URL aufweisen
Time
Zeitzonen
Weather Lokale Wettervorhersage
Die Suchmöglichkeiten, insbesondere im erweiterten Suchmodus, unterscheiden sich sinnvollerweise
je nach Inhalt, der gesucht wird.
News: (Goolge News)
Abbildung 27: Erweiterter Suchmodus der (Schweizer) Google-Newssuche
Bilder: (Google Bildsuche)
Für die Suche nach textuellen Informationen können andere Optionen eingesetzt werden als z.B. für
die Suche nach Bildern. Google behauptet von sich, „mit mehr als 880 Millionen indizierten und für
die Ansicht zur Verfügung stehenden Bildern […] die umfassendste [Bildsuche] im Web [zu sein].“
(Google, 2009b) Deshalb wird hier exemplarisch auf die Bildsuche von Google eingegangen. Andere
Bildsuchen können durchaus auch noch über andere Suchfunktionen verfügen.
In der „Erweiterten Bildsuche“ von Google sind folgende Möglichkeiten gegeben: Eingrenzung nach
Content (beliebiger Content, Nachrichten, Gesichter, Fotos), Grösse (klein, mittel, gross, extra gross
-> ), Dateiformat (jpg, gif, png, bmp), Farben (irgendwelche Farben, schwarz-weiss, Graustufen, alle
Farben)
Seite 65 von 85
SPRINT – Suche im Internet
Abbildung 28: Erweiterte Bildsuche
Offenbar funktioniert die Google-Gesichtersuche schon gut. Diese Funktion wird in der erweiterten
Bildsuche und auf der Ergebnisseite angeboten.
Abbildung 29: Google-Gesichtersuche (auf Bild klicken für Suche
Patentsuche: (Google Patent Search)
Google bietet unter anderem eine Patentsuche an. Gemäss Google können dort momentan über 7
Millionen Patente recherchiert werden (Google, 2009f). Entsprechend wurden natürlich die
Möglichkeiten der Suche und der Suchraum eingegrenzt:
Abbildung 30: Erweiterte Google-Patentsuche
Seite 66 von 85
SPRINT – Suche im Internet
5.9 Suchanfrageunterstützung
Um die Benutzer in ihrer Suchanfrage zu unterstützen hat Weitkämper Technology eine neue
Suchtechnologie in die Eingabemaske eingebracht. Dabei werden bereits während der
Suchbegriffseingabe sämtliche Ergebnisse geliefert. Wörter werden zudem direkt vervollständigt und
dazu noch eine sogenannte Facettennavigation angeboten. Diese Neuerung ist allerdings noch nicht
verbreitet, daher werden die Entwicklungen noch abgewartet.
Mit Hilfe von Visualisierungen kann der Nutzer bei der Formulierung seiner Suchanfrage zusätzlich
unterstützt werden. Dies kann auf verschiedene Arten geschehen.
Zum einen werden dem Anwender zur eingegebenen Suchanfrage weitere korrelierende und damit
potenziell zum Informationsbedürfnis passende Begriffe vorgeschlagen (Synonyme, Ober- oder
Unterbegriffe, Übersetzungen oder Definitionen zu einzelnen Begriffen etc.). Zum anderen
unterstützt die visuelle Oberfläche den Anwender bei der Anpassung seiner Suchanfrage anhand
dieser weiteren Begriffe unter Verwendung von Booleschen Verknüpfungen, ohne die Booleschen
Operatoren jedoch als „AND“, „OR“ oder „NOT“ in das Suchfeld eintippen zu müssen. So lassen sich
durch einfaches Drag- & Drop, Anklicken oder Mouse-Over Funktionalitäten einzelne
Begriffsvorschläge als Erweiterung oder Ausschluss in die Suchanfrage einbinden.
Bsp.: Ouzi ; Beispiel-Suche nach „Jaguar“ bei Ouzi
Quintura
Bei Quintura werden Begriffsvorschläge als Wortwolke dargestellt, die per Klick auf einen Begriff
eine Suchanfrageerweiterung mit einer OR-Verknüpfung ergibt bzw. beim Klick auf das neben einem
Begriff dargestellte „-“ einen Ausschluss des Begriffs mittels einer NOT-Verknüpfung in der
Suchanfrage zur Folge hat.
Abbildung 31: Mindmap-artige Übersicht bei Mnemomap
Mnemomap
Mnemomapgeht noch einen Schritt weiter, indem die vorgeschlagenen Begrifflichkeiten in
Synonyme, Tags, benachbarte Begriffe und Übersetzungen klassifiziert werden. Auch hier lässt sich
durch Anklicken die Suchanfrage ausweiten oder Übersetzungen anzeigen.
Der Nutzer wird mit dieser Art der Visualisierung auf spielerischem Weg zur Adaption seiner
Suchanfrage motiviert und bekommt Alternativ-Formulierungen oder weiterführende Begriffe
präsentiert, an die er vielleicht nicht gedacht hätte.
Solche Ansätze können somit als potenzielle Grundlage verstanden werden, sich nicht nach einer EinWort-Suche auf das erstbeste Ergebnis als befriedigendes Resultat zu beschränken, sondern die
Suchanfrage zu adaptieren und damit möglicherweise ein besseres Ergebnis zu erzielen.
Seite 67 von 85
SPRINT – Suche im Internet
Als zweiter wesentlicher Vorteil ist die Unterstützung des Einsatzes von Booleschen Operatoren zu
werten, bei dem jedoch keine Kenntnisse der Funktionsweise selbiger vorausgesetzt werden.
Beispielsweise lassen sich in der Suchmaschine SortFix auf einer visuellen Oberfläche vorgeschlagene
Schlüsselbegriffe zur durchgeführten Suchanfrage mittels Drag- & Drop in die Bereiche „Add to
Search“, „Remove“ oder „Dictionary“ ziehen, wodurch die Suchanfrage entsprechend adaptiert wird
und die ausgewählten weiteren Suchbegriffe durch eine AND- bzw. NOT- (bei Ansicht der ExpertenSuchmaske weiterhin eine OR-) Verknüpfung ergänzt werden.
Abbildung 32: Visualisierung statt Boole’sche Operatoren bei SortFix
5.10 Trefferanzeige
Die Treffer werden in Form einer Verweis-Liste angezeigt. Aufgrund der Menge der Dokumente im
Internet müssen die Verweise sinnvoll sortiert werden. Meist geschieht dies nach der berechneten
Relevanz der gefundenen Webdokumente (Ranking). Die Qualität des ersten Treffers auf der
Trefferliste hängt also neben der adäquaten Suchstrategie und der Qualität der Suchmaschine auch
stark von der Leistungsfähigkeit der Rankingalgorithmen der Suchmaschine ab.
Zu der Trefferanzeige gehört zudem die Angabe, wie viele Resultate gefunden wurden und wie lange
die Suche gedauert hat.
Bei jedem Internetsuchdienst werden auf der Resultatseite zumindest URL und Dokumenttitel jedes
Treffers angezeigt. Die meisten Dienste präsentieren zusätzlich Ausschnitte, Stichworte oder
Zusammenfassungen aus den Originaldokumenten, sowie zusätzliche Angaben wie Erstellungsdatum,
Dokumentengrösse und so weiter. Zum Teil ist die Ausführlichkeit der Ergebnismenge stufenweise
einstellbar. Das Ranking ist teilweise auch farbig oder graphisch aufbereitet. Die für die Suche
verwendeten Begriffe werden in den Angaben der Treffer manchmal durch Fettdruck oder Farbe
hervorgehoben.
Oft ist auf der Trefferanzeige noch ersichtlich, wie die Suchstrategie ausgesehen hat. Bei Google ist
das zuoberst der Fall. Danach folgt die „Statistikleiste“ (Google, 2009g), welche Angaben über die
derzeit angezeigten Treffer enthält (1-10), die gesamthaft gefundenen Treffer (ungefähr 42‘400‘000)
und die Dauer der Suche (0.38 Sekunden).
Google bietet zu den einzelnen Treffern den Link „Im Cache“ an. Diese Funktion kann sehr nützlich
sein, sollte eine Webseite einmal nicht zugänglich sein, denn man hat die Möglichkeit, ein Abbild der
gewünschten Seite zum Zeitpunkt der letzten Indexierung durch Google anzusehen. Je nach
Wichtigkeit der Seite, wie sie von Google eingeschätzt wird, kann dieses Abbild sehr aktuell sein.
Zusätzlich markiert Google die Suchbegriffe mittels gelber Hervorhebung.
Abbildung 33: Cache-Ansicht (auf Bild klicken)
Google finanziert sich, wie auch viele andere Internetsuchdienste, mit Werbung. Eine Möglichkeit
hierfür sind die farbig hinterlegten „Treffer“ zuoberst in der Trefferanzeige (zusätzlich
gekennzeichnet mit „Anzeigen“). Zudem werden dem Nutzer im Block rechts weitere kommerzielle
Angebote zu seiner Suchanfrage angeboten. 10
10
Hier finden sie die detaillierte Beschreibung der Google-Trefferseite.
Seite 68 von 85
SPRINT – Suche im Internet
Ausser der durch das Ranking vorgegebenen Reihenfolge können die Suchergebnisse bei einigen
Suchdiensten wahlweise noch nach Datum, URL oder ähnlich geordnet ausgegeben werden. Auch die
Gruppierung der nachgewiesenen Ergebnisse nach Servern oder die Option der Einschränkung der
ausgegebenen Treffer auf einen bestimmten Server ist vereinzelt möglich.
Bei Suchdiensten für Bilder werden die Suchergebnisse meistens durch Thumbnail-Darstellungen der
gefundenen Bilder ergänzt.
Abbildung 34: Thumbnail-Ansicht bei Bildersuche (auf Bild klicken für Suche)
Bei der Google Patent Search kann gewählt werden, wie die Resultatliste angezeigt werden soll.
Zudem kann bestimmt werden, wie die Treffer sortiert werden sollen (Ranking oder nach zeitlichen
Aspekten).
Abbildung 35: Trefferansicht bei Google Patents „List“ (auf Bild klicken für Suche)
Abbildung 36: Trefferansicht bei Google Patents „Thumbnails“(Gleiche Suche)
Seite 69 von 85
SPRINT – Suche im Internet
Trefferanzeige mittels Visualisierung
In letzter Zeit kann ein Trend zur Visualisierung 11 der Ergebnisse bemerkt werden. Konkrete
Möglichkeiten sind:
ƒ Ergebnisvorschau
ƒ Clustering
ƒ Darstellung/Nachweis von Relationen
ƒ Visualisierung geographischer Aspekte
ƒ Visualisierung zeitlicher Aspekte
ƒ Visualisierung kollaborativer Elemente
ƒ Visualsierung bei Ergebnismengenvergleich
Ergebnisvorschau
Die Visualisierung in Form einer Ergebnisvorschau wurde bereits gezeigt (z.B. die Ansicht Thumbnails
bei Google Patents).
Zusätzlich gibt es Browser-Add-Ons wie Cooliris, die von Anbietern wie Websnapr oder Alexa zur
Verfügung gestellte Vorschaubilder in rein textbasierte Suchmaschinen einbinden. Hierbei werden
die Thumbnails je nach Add-On direkt oder erst durch einen Mouse-Over-Effekt angezeigt.
Clustering
Ein viel verbreiterter Mechanismus ist das Clustering. Suchmaschinen mit Clustervisualisierung
unterteilen die ermittelte Ergebnismenge in unterschiedliche grobe Kategorien und erleichtern dem
Nutzer dadurch die Selektion der für ihn relevanten Trefferbereiche. Die Cluster werden anhand
verschiedener Ansätze berechnet und dargestellt.
Grokker (eng. To grok = begreifen, verstehen) ist hier sehr weit.
Abbildung 37: Clustering von Grokker
Weitere Dienste:
Die experimentelle, nicht kommerzielle Metasuchmaschine meX-Search, die von Karsten Knorr 2004
im Rahmen einer Diplomarbeit entwickelt wurde, teilt die Ergebnisse von Yahoo! in thematische
Cluster auf und visualisiert diese.
Die Web-Suchmaschine Ujiko verwendet im Vergleich zu Grokker bzw. meXSearch eine völlig andere
Clustervisualisierung. Über eine so genannte Circular Map werden ausschließlich Farbcodierungen zur
Unterscheidung der Cluster verwendet.
Die Clusterbildung spielt im Information Retrieval allgemein eine sehr wichtige Rolle, da hierbei
Dokumente, so ähnlich wie dies bei Web-Katalogen der Fall ist, nach gemeinsamen inhaltlichen
Kriterien gruppiert werden und dem Benutzer auf diese Weise die sonst bei Suchmaschinen
fehlenden Kontextinformationen zur Verfügung stellen.
Darstellung/Nachweis von Relationen
Die Metasuchmaschine Kartoo verwendet zu diesem Zweck eine Visualisierungsform, die an eine
Landkarte mit topographischer Darstellung angelehnt ist. Hierfür werden die Treffer einer
Suchanfrage nach Stichworten spezifiziert, unterteilt und als Höhenzüge dargestellt.
Bei der Visualisierung werden für unterschiedliche Dokumententypen jeweils unterschiedliche Icons
11
Die theoretischen Grundlagen zur Visualisierung finden sich im Kapitel 4.8.4 „Anzeige und Sortierung der
Suchmaschinentreffermenge“.
Seite 70 von 85
SPRINT – Suche im Internet
in Form von kleinen Thumbnails verwendet, wobei die Größe eines Icons die Relevanz des dahinter
liegenden Trefferdokuments repräsentiert. Im Zentrum der Relationendarstellung stehen
Themenstichworte, welche als Ausgangsbasis für die Beziehungen zwischen den Ergebnisdokumenten
dienen. Mit Hilfe von Mouse-Over-Effekten werden Verbindungslinien zwischen diesen
Themenstichworten und/oder den Dokument-Icons von miteinander in Beziehung stehenden Treffern
eingeblendet.
Abbildung 38: Ergebnisvisualisierung als Landkarte
Der Visualisierungsansatz von Tianamo (zugangsbeschränkte Beta-Version) geht aber noch einen
Schritt weiter als das Konzept von Kartoo. Tianamo verwendet zur Ergebnisvisualisierung ebenfalls
eine topographische Darstellung, wobei im Gegensatz zu Kartoo eine dreidimensionale
Kartendarstellung erfolgt.
Die Suchmaschine Webbrain, die auf dem Open Directory Project (ODP) aufbaut, verwendet für die
Visualisierung einen eher an Mindmaps orientierten Ansatz. Die Struktur der Visualisierung ist dabei
also nicht hierarchisch, sondern eher assoziativ angelegt. Hierdurch wird vor allem das Browsing in
den Ergebnismengen unterstützt.
Visualisierung geographischer Aspekte
Um richtige Karten in der Ergebnisliste geht es bei Google Maps. Mit diesem Dienst kann eine Adresse
gefunden, eine Route berechnet oder die Suche mit Kartenmaterial verknüpft werden (z.B.
Branchen, Webseiten, Wikipedia-Artikel zu Orten des Kartenausschnittes). Zudem bietet Google
Maps eine Verlinkung zu Fotos und YouTube-Filmen aus der gefundenen Region an.
Abbildung 39: „Trefferansicht“ bei Google Maps
Seite 71 von 85
SPRINT – Suche im Internet
Visualisierung zeitlicher Aspekte
Bei Google Labs findet sich ein interessanter Ansatz der Visualisierung mit Zeitachsen. Mit einem
Filter kann der Zeitraum bestimmt werden und oberhalb der Trefferliste befindet sich eine Zeitachse
mit Balkendiagrammen pro Zeitraum. Durch einen Klick auf eine Säulengruppierung kann die
Zeitachse feiner dargestellt werden und die Trefferliste passt sich entsprechend an.
Abbildung 40: Visualisierung zeitlicher Aspekte
Visualisierung kollaborativer Komponenten
Suchmaschinen, die kollaborative Aspekte beinhalten, wie beispielsweise die Möglichkeit,
Suchergebnisse durch Nutzer bewerten, taggen oder kommentieren zu lassen, unterstützen diese
Funktionalitäten häufig durch visuelle Komponenten. Dargestellt werden hierbei in der Regel
entweder die in der Suchmaschine am häufigsten eingegebenen Suchanfragen oder Schlagworte, die
durch andere Nutzer einem Suchergebnis, einzelnen Dokumenten oder auch Suchanfragen durch das
in gängigen Web 2.0 Anwendungen vorherrschende Prinzip des Tagging hinzugefügt wurden. Die
Visualisierung dieser Tags erfolgt analog durch so genannte Tag-Clouds, in denen häufiger genannte
Tags proportional größer dargestellt werden als weniger oft getaggte Schlagworte. Das Anklicken
einzelner Tags führt in der Regel zur Durchführung einer neuen Suche mit dem angewählten Tag als
Suchbegriff. Ein Beispiel für eine Suchmaschine mit Visualisierungen kollaborativer Komponenten ist
Eurekster.
Als Vorteil einer visuellen Komponente dieser Art lässt sich der damit einhergehende
„Vorschlagscharakter“ werten. Somit wird also der Mehrwert des kollaborativen Aspekts anhand der
visuellen Aufbereitung dem Nutzer auf intuitive Weise zugänglich gemacht.
Visualisierung bei Ergebnismengenvergleich
Bei dieser Visualisierungsart geht es darum, die Ergebnismengen von mehreren Suchmaschinen
miteinander zu vergleichen. Hierdurch lässt sich ermitteln, wie stark sich Treffermengen und auch
das Ranking bei den verschiedenen angebundenen Suchmaschinen unterscheiden und welche Treffer
bei einer Suchanfrage als Schnittmenge von mehreren Suchmaschinen ermittelt wurden.
Die Metasuchmaschine SearchCrystal bietet eine vergleichende Visualisierung für die Suchdienste
Yahoo!, Google, MSN, Ask und Exalead. Die Ergebnisdokumente werden kreisförmig ineinander
geschachtelt angeordnet, wobei die Relevanz von aussen nach innen zunimmt, das heisst Dokumente
im Zentrum wurden von mehreren Suchdiensten nachgewiesen. Optional kann die Anordnung der
Ergebnisse auch spiralförmig oder in Listenform erfolgen. In der Ergebnisdarstellung ist jedem
Dokument ein Icon zugeordnet, dessen Größe, Farbe und Form abhängig vom referenzierenden
Suchdienst ist, seiner dortigen Rankingposition, sowie der Anzahl der Suchdienste, bei denen der
Treffer nachgewiesen wurde.
Eine weitere Visualisierung von Ergebnismengen unterschiedlicher Suchmaschinen wurde von
Christian Langreiter entwickelt und wird bei der als Experiment betriebenen MetaanalyseSuchmaschine „Yahoo! vs. Google“ (Vergleich nur anhand des US-Rankings) angeboten. Dabei gehen
aus der Visualisierung Unterschiede in den Treffermengen und im Ranking der gefundenen
Seite 72 von 85
SPRINT – Suche im Internet
Dokumente bei beiden Suchdiensten hervor. Der grundsätzliche Mehrwert bei der Visualisierung von
Ergebnismengen liegt auf der Hand: Der Vergleich mehrerer Ergebnismengen unterschiedlicher
Suchmaschinen in der traditionellen Listenform ist für den Benutzer wesentlich mühsamer zu
erfassen als über eine Visualisierung, aus der auf einen Blick zu sehen ist, welcher Treffer von
welchem Suchdienst nachgewiesen wird. Bei den beiden dargestellten Beispielen ist sofort
ersichtlich, welche Rankingposition die jeweiligen einzelnen Treffer in ihrer Ergebnisliste belegen.
5.11 Ranking
Alle Suchdienste berechnen Relevanzgrade, nach denen die Ergebnismenge sortiert wird, da eine
Sortierung nach Alphabet oder Datum aufgrund der Ergebnisse und deren Menge nicht sinnvoll ist.
Die Berechnung basiert dabei meist auf statistischen Verfahren, d.h. Worthäufigkeit, Wortabstände
usw. Die Sortierung kann auch nach bestimmten Begriffen gesteuert werden.
Alternative Ranking-Verfahren beruhen unter anderem auf der Nutzung von Informationen zur
Häufigkeit von Links, die auf eine Webpage verweisen beziehungsweise von ihr abgehen. Ein solches
Verfahren genannt PageRank findet bei Google Verwendung. Eine weitere Rankingmöglichkeit
bezieht sich auf die Eruierung der Popularität einer Webpage. Aufgrund der Anzahl der bisherigen
Abrufe dieser als Suchtreffer nachgewiesenen Seite durch andere Nutzer, wird die Wichtigkeit der
Seite eingeschätzt.
Als eine der wenigen Suchmaschinen kann bei SearchCloud angezeigt werden, als wie relevant ein
Dokument der Trefferliste eingestuft wird.
Abbildung 41: Ansicht mit Relevanzeinstufung bei SearchCloud
Abbildung 42: Vergleich: Standard-Ansicht bei SearchCloud (Google-like)
Seite 73 von 85
SPRINT – Suche im Internet
Gewisse Suchdienste, z.B. die Google-Schweiz-Newssuche erlauben, dass die Trefferliste statt nach
Relevanz nach Datum sortiert wird. Standardmässig wird nach Relevanz sortiert.
Abbildung 43: Sortierung bei Google News Schweiz
Google Groups lässt ebenfalls die Wahl zwischen einer Sortierung der Treffer nach Relevanz oder
nach Datum zu.
Exkurs Web 2.0:
Seit dem Web 2.0-Zeitalter wird damit experimentiert, dass Nutzer die Treffer bewerten können. Ein
bekannter Suchdienst, der diese Social-Komponente zu integrieren versucht, ist Wikia Search. Hier
können die einzelnen Treffer schnell und anonym durch Anklicken von einem bis fünf Sternen
bewertet werden (star ratings). Wikia ist aber immer noch in seiner zweiten Alpha-Phase und
verändert sich derzeit sehr stark. Unter anderem können auch Kommentare, Hervorhebungen und
Anmerkungen gemacht werden.
Am 20. November 2008 hat Goolge zudem seinen neuen Dienst SearchWiki vorgestellt. SearchWiki
erlaubt es dem eingeloggten Google-User, seine Suche zu personalisieren indem man das Ranking
verändern, Treffer löschen, hinzufügen oder kommentieren kann. Diese Veränderungen werden dem
eingeloggten Nutzer jedes Mal gezeigt, wenn er die selbe Suche ausführt. Google weist aber darauf
hin, dass „The changes you make only affect your own searches. But SearchWiki also is a great way
to share your insights with other searchers. You can see how the community has collectively edited
the search results by clicking on the 'See all notes for this SearchWiki' link.“(Official Google Blog,
2009)
5.12 Treffermengeneingrenzung
Die meisten Dienste bieten eine Eingrenzung durch Angabe einer Trefferanzahl pro Ergebnisseite an.
Jede Suchmaschine hat ihren Standard, doch meist kann man in den Einstellungen die Anzahl der
Treffer pro Seite herauf- oder herabsetzen. Blätterfunktionen am Ende einer Ergebnisseite
ermöglichen das Navigieren zwischen den Trefferseiten.
Abbildung 44: Einstellen der Treffermengenanzeige bei Google
Diese Einstellungen sind jedoch nur technischer Natur. Am besten lassen sich die Treffer begrenzen,
rsp. lässt sich die Treffermenge reduzieren, indem eine adäquate Suchstrategie verfolgt wird. 12
Hilfreich bei der Websuche sind insbesondere die Möglichkeiten zur Suchraumeingrenzung.
5.13 Trefferweiterverarbeitung
Im Gegensatz zu den Hosts der Online-Datenbanken ist die direkte Weiterverarbeitung einer
Treffermenge auf Seite des Suchservers nicht möglich. Dies liegt daran, dass HTTP ein
„zustandsloses“ Protokoll ist. Dies meint, dass ein Server einen HTTP-Request in einem Ablauf
12
Vgl. dazu das Kapitel 6 „Vorgehen bei der Suche“.
Seite 74 von 85
SPRINT – Suche im Internet
abarbeitet und nach dem Verbindungsabbau keine Möglichkeit mehr bietet, auf diese Interaktion
zurückzugreifen.
Mittlerweile gibt es aber verschiedene Ansätze, dass
die gemachte Suche verändert und neu abgeschickt
werden kann. SearchCloud bietet beispielsweise einen
Link „revise“, der zurück zum Suchfeld führt, so dass
weitere Begriffe hinzugefügt werden können. Durch
Klicken auf die Wolke kann zudem die „Grösse“ und
damit die Gewichtung der gesuchten Begriffe
nachträglich verändert werden. Leider generiert
SearchCloud keine URLs für die einzelnen Suchen.
Entsprechend wirkungslos ist auch der Zurück-Button
des Browsers.
Abbildung 45: Möglichkeit zur Trefferweiterverarbeitung bei
Searchcloud
Bei Google
beispielsweise kann
eine Art
Weiterverarbeitung
bei den einzelnen
Treffern genutzt
werden. Der Link
„Ähnliche Seiten“
erlaubt die weitere
Suche nach ähnlichen
Dokumenten eines
Treffers, während
der Link „Im Cache“
die Anzeige aller
Zeilen/Abschnitte
eines
Originaldokuments
anzeigt, in denen der
Suchbegriff
vorkommt.
Abbildung 46: Suche nach Ähnlichen Seiten -> Auf das Bild klicken, um zu sehen, was passiert
Seite 75 von 85
SPRINT – Suche im Internet
Exalead bietet ein ausführliches Menü zur Verfeinerung der Suche an. Es können weitere
suchanfragenspezifische Begriffe gesucht werden, es kann nach Site-Art, Sprache, Kategorie und
Dateityp eine weitere Suche gestartet werden.
Abbildung 47: Trefferanzeige bei Exalead
Abbildung 48: Facetten bei Exalead
Eine Kombination mehrerer solcher „Facetten“ ist möglich.
Die Google-News-Suche bietet eine RSS-Funktion an, die es dem Recherchierenden erlaubt, die
Suchstrategie als RSS-Feed zu abonnieren. Somit kann eine Suche zu einem späteren Zeitpunkt
erneut durchgeführt werden, um auf dem aktuellen Stand zu bleiben.
Abbildung 49: RSS-Funktion für Suchanfrage (auf Bild klicken für Suche)
Seite 76 von 85
SPRINT – Suche im Internet
Abbildung 50: RSS-Anzeige für Suchanfrage (auf Bild klicken)
Manchmal hat es auch Bilder im RSS-Feed. Ein Klick (aufs Bild) lohnt sich also!
Seite 77 von 85
SPRINT – Suche im Internet
6 Vorgehen bei der Suche
Eine ernsthafte Suche im Internet sollte nicht auf Anhieb und ohne jegliche Vorbereitung
durchgeführt werden. Im Gegenteil, eine ernsthafte Suche sollte einer gewissen Strategie
unterliegen. Sicherlich muss diese nicht so detailliert geplant werden, wie bei klassischen OnlineRecherchen üblich. Für die Suche selbst entstehen im Internet auch keine unmittelbaren Kosten, die
auf der Verweildauer bei dem Suchdienst beruhen. Für eine erfolgreiche Suche sollte man aber auch
im Internet zumindest wissen, für welche Fragestellungen sich welche Suchverfahren eignen und wie
eine Suche sukzessive aufgebaut und verbessert werden kann. Jede erfolgreiche
Informationsrecherche erfordert daher auch im Internet eine gewisse Vorbereitung. Drei zentrale
Fragen sind Bestandteil einer Recherchestrategie (Bekavac/Tobler, o.A.):
ƒ
ƒ
ƒ
Bestimmung des Informationsbedarfs
Formulierung der Suchanfrage
Bewertung der Ergebnisse
Je mehr Aufmerksamkeit dieser Vorbereitung gewidmet wird, desto weniger Zeit wird bei der
eigentlichen Suche benötigt.
6.1 Informationsbedarf bestimmen
Durch den immensen und heterogenen Informationsbestand im Internet und vor allem durch den
einfachen Zugriff auf diesen, wird die Verlockung natürlich gross, fast ausschliesslich das Web zu
nutzen. Dabei werden traditionelle Informationsquellen in den Hintergrund gedrängt. Die
Informationsbestände und Anbieter im WWW betrachtend, kann aber nicht davon ausgegangen
werden, dass über das Web zugängliche Informationen immer vollständig, richtig, objektiv oder
professionell sind. Dies kann vor allem bei stark sensitiven Informationen, wie z. B. medizinischen,
juristischen oder finanziellen Informationen beziehungsweise Tipps, durchaus zu fatalen Folgen
führen. Werden relevante Informationen im WWW vermutet, so lohnt es sich vorab Gedanken zu
machen, wo diese zu finden sein könnten und welcher Art und welchen Umfangs diese sein sollten.
Anhand einiger Vorüberlegungen zum Informationsbedarf sollten diese Aspekte geklärt werden:
ƒ
Ist es überhaupt sinnvoll, im Internet zu suchen?
ƒ
Wo und bei welchen Internet-Diensten könnte die gesuchte Information veröffentlicht sein?
ƒ
Will man sich in ein neues Themengebiet einarbeiten (hohe Anzahl nachgewiesener WebSeiten) oder sucht man gezielt nach einer bestimmten Information (hohe Anzahl relevanter
Web-Seiten unter den nachgewiesenen Seiten)?
ƒ
Ist das Thema schwer oder leicht eingrenzbar?
ƒ
Möchte man nur Neues zu einem Thema erfahren oder laufend darüber unterrichtet werden?
6.2 Suchanfrage formulieren
Bei der Suche über Stichworte, also hauptsächlich bei Suchmaschinen und speziellen Datenbanken,
ist die geeignete Auswahl der Suchbegriffe entscheidend:
ƒ
Bestimmung der Suchsprache und der Sprache der Resultate.
ƒ
Je grösser/spezieller der Suchdienst, desto spezieller sollten die Suchbegriffe sein: In
Katalogen sollte man eher allgemeinere Suchbegriffe wählen, bei grossen Suchmaschinen
oder speziellen Katalogen, einschlägigen Web-Sites oder Gateways zu Online-Datenbanken
empfehlen sich eher spezielle Suchworte.
ƒ
Mit speziellen Suchbegriffen beginnen und dann zu allgemeinen übergehen: Da man vor
allem bei den roboterbasierten Suchdiensten eher von zu vielen Treffern ausgehen kann,
empfiehlt es sich, dort immer die Suche mit spezielleren Suchbegriffen zu beginnen.
ƒ
Sinnvolle Suchhilfen schon im Vorfeld überlegen: Die angebotenen Suchmethoden und operatoren der jeweiligen Suchdienste erkundschaften und einen sinnvollen Einsatz
überlegen.
Seite 78 von 85
SPRINT – Suche im Internet
ƒ
Synonyme überlegen: Oft hilft es, Synonyme oder Akronyme zu den gesuchten Begriffen zu
verwenden.
Weiter sollte man sich auch überlegen wie man bei der Suche vorgehen will. Man unterscheidet vier
wichtige Suchstrategien (Bekavac, 2007):
Abbildung 51: Die gesuchten Informationen werden in mehrere Themenblöcke zerlegt und anhand der
Boole'schen Operatoren wird die Schnittmenge eruiert.
Abbildung 52: Die Suche geht direkt auf den Kern des Problems. Bei Bedarf wird die Suche erweitert. Diese
Strategie eignet sich besonders für Fragestellungen mit spezifischen Suchbegriffen.
Seite 79 von 85
SPRINT – Suche im Internet
Abbildung 53: Bei dieser Strategie geht man von einem relevanten Dokument aus. Von diesem geht die Suche
weiter nach ähnlichen Dokumenten.
Abbildung 54: Es wird zuerst eine allgemeine Suche durchgeführt und dann grenzt man die Treffermenge
immer neu ein.
Seite 80 von 85
SPRINT – Suche im Internet
In folgender Tabelle werden zu verschiedenen Informationsbedürfnissen geeignete Suchverfahren
mit Beispielen vorgestellt:
Tab. 1: Suchanfrage formulieren
Suchverfahren
Beispiel
ƒ Surfen, Links von interessanten
Seiten aus weiterverfolgen.
ƒ Allgemeines Interesse und ƒ Spezielle Seiten mit interessanten
Neugier
Links zu aktuellen und populären http://www.wohin.heute.de
ƒ Überraschung und Zufall
Web-Seiten sind vor allem bei den http://www.kinglinks.de
stehen im Vordergrund
Suchdiensten zu finden.
Informationsbedürfnis
ƒ Ein erster Überblick über
ein bestimmtes Thema.
ƒ Man weiss nicht ganz
genau, wonach bzw. mit
welchen Begriffen man
suchen soll.
ƒ Verzeichnisse/Kataloge
ƒ FAQ-Listen/Posting-Archive und
spezielle Home-Pages zu dem
bestimmten Thema
ƒ Diskussionsforen
ƒ Weblogs
ƒ Sonstige Übersichten
ƒ Suchmaschinen
ƒ
ƒ
ƒ
ƒ Ein konkretes
ƒ
Informationsproblem liegt ƒ
vor.
ƒ Man kennt die Suchbegriffe
und es wird eine präzise
Antwort erwartet.
ƒ
Suchmaschinen
Metasuchmaschinen
Spezielle Kataloge
Weblogs
Spezielle Home-Pages zu einem
bestimmten Thema und, falls
möglich, eine lokale Suche in
diesen
Gateways zu speziellen
Datenbanken (Online-Markt)
http://dmoz.org
http://faqs.cs.uu.nl/
http://archiv.twoday.net
http://www.google.ch
http://search.yahoo.com
http://www.metacrawler.com
http://mesa.rrzn.uni-hannover.de
http://www.film-sprache.de
http://creativecommons.org/sitemap
ƒ Einschlägige Newsgroups lesen
ƒ Eintragen in Mailinglisten (über
WWW Listen finden und dann per
E-Mail anmelden) bzw. Teilnahme
an Diskussionsforen
ƒ Weblogs
ƒ Überwachung bestimmter Seiten
ƒ Man möchte laufend über
über Überwachungsdienste, d.h.
ein Thema informiert
http://www.sub.uni-hamburg.de
bei jeder Änderung der Seite
werden, z.B. Nachrichten
http://segert.net/weblog
bekommt man eine E-Mail. Einige
http://www.doaj.org/
über eine Firma,
WWW-Dienste ermöglichen
Aktienkurse, Wetter usw..
Anmeldungen über Formulare, um
laufend über ein Thema informiert
zu werden.
ƒ Elektronische Journale/E-Zines
ƒ Bookmarks sorgfältig organisieren
und pflegen
Damit die Durchführung der Recherche erfolgreich verläuft, sollten weiter folgende Vorgehensweisen
eine Hilfestellung leisten:
1. Mit Phrasensuche beginnen: Die von nahezu allen (roboterbasierten) Suchdiensten
angebotene Phrasensuche, bei der nach der exakten Reihenfolge der Begriffe in der
angegebenen Suchanfrage gesucht wird, eignet sich am besten, um einen ersten Eindruck
der zu erwartenden Treffermenge und -qualität zu bekommen.
Seite 81 von 85
SPRINT – Suche im Internet
2. Suchoptionen nutzen: Um während der Recherche die Suchanfrage weiter zu präzisieren,
sollte die Verwendung weiterer Suchoptionen in Betracht gezogen werden.
3. Suche auf bestimmte Felder (URL, Titel...) eingrenzen: Um die Treffermenge
einzugrenzen, eignet sich am meisten die Einschränkung der Suche auf bestimmte HTMLElemente (falls bei dem jeweiligen Suchdienst möglich).
6.3 Ergebnisse bewerten
Nach dem ersten Suchvorgang wird entschieden, ob die erhaltenen Resultate zufrieden stellend sind
und die Suche beendet werden kann, oder weitergeführt werden muss. Je nachdem kann sich der
Informationsbedarf während der Recherche verändern oder sogar konkreter formuliert werden.
Folglich kann der weitere Verlauf der Recherche dem Informationsbedarf angepasst werden.
Die Treffer der jeweiligen Suchdienste sollten zur Relevanzbeurteilung in möglichst aussagekräftiger
Form angezeigt und dadurch schon vor dem Laden der konkreten Trefferdokumente analysiert
werden:
ƒ
URL „lesen“ (Dienstart, Ländercode, Domainname, Verzeichnispfad): Die URL eines Treffers
beinhaltet oft erste aussagekräftige Informationen zu einem Treffer.
ƒ
Ausführliche Trefferangaben einstellen: Um eine wage Relevanzbeurteilung schon vor dem
Laden einer WWW-Seite machen zu können, sollten möglichst viele Informationen über einen
Treffer ausgegeben werden.
ƒ
Treffer parallel übertragen: Relevant aussehende Treffer sollten gleichzeitig, jeweils in
einem eigenen Fenster übertragen werden. So werden während der Begutachtung eines
Treffers andere Trefferseiten schon geladen.
ƒ
Relevante Treffer sofort merken und speichern: Als relevant eingestufte Treffer sollten
sofort als Bookmark markiert werden, am besten in einem eigens bezüglich der Suchanfrage
eingerichteten Bookmark-Folder. Bei stark temporären Web-Seiten, z. B. Zeitungsartikel
usw., sollten die HTML-Dokumente gleich auf die eigene Festplatte gespeichert werden, da
diese oft nur ein paar Tage im Internet gehalten werden.
Seite 82 von 85
SPRINT – Suche im Internet
6.4 Aufbauelemente Recherche
Zusammenfassend lässt sich der Ablauf einer Recherche in drei Blöcken einteilen: die Vorbereitung,
die Durchführung und die Nachbearbeitung. Dazu kommt am Ende der Recherche der Teil Reflexion
(Bekavac/Tobler, o.A.):
„1. Vorbereitungsphase:
ƒ
Informationsbedarfsanalyse: Dabei soll der Anwender zugehörige Einzelfragen selbst
ausformulieren und sich überlegen, was für Ergebnisse erwartet werden.
ƒ
Suchdienst(e) auswählen: Entscheidung treffen, mit welchem Suchdienst begonnen werden
soll und welche Alternativen möglich sind (allg. Suchmaschine, Spezialsuchdienst, WebKatalog o.a.).
ƒ
Vorgehensweise bestimmen: Hier soll entweder nur der nächste Rechercheschritt aufgeführt,
oder aber wenn möglich bereits mehrere Folgeüberlegungen angestellt werden, z.B. zuerst
über eine Suchmaschine gehen, dann auf ein Spezialsuchdienst u.s.w.
ƒ
Sprachen bestimmen: Sprache der Suchbegriffe und der Resultate.
ƒ
Suchthemenanalyse: Aufgeteilt in Suchbegriffe, die gefunden werden sollten (Einzelworte,
zusammengehörende Worte bzw. Phrasen), Ähnliche und verwandte Begriffe (z.B. Synonyme,
Akronyme) und Begriffe, die nicht vorkommen dürfen (inkl. Antonyme).
2. Durchführungsphase:
ƒ
Formulierung der Suchanfrage: Suchbegriffe in Kombination mit sinnvollen Suchoperatoren
(z.B. Boolesche Operatoren, Suchraumeingrenzung).
ƒ
Anfrage und (erste) Relevanzbewertung: Treffermengen überblicken und selektiv bewerten,
ggfs. Suchbegriffe und Suchdienst revidieren.
ƒ
Ergebnisse sichern und kategorisieren: Relevante Inhalte sichern und kategorisieren (z.B. mit
Bookmark-Foldern oder Favoriten).
3. Nachbearbeitungsphase:
ƒ
Standbeurteilung: Erkenntnisse in Hinblick auf die anfänglich gestellte Frage bewerten. Bei
Beendigung der Recherche findet die Gesamtbewertung statt, bei Weiterführung der
Recherche wird der nächste Vorgehensschritt geplant (Suche eingrenzen bzw. erweitern,
weitere Suchdienste etc.).
ƒ
Gesamtergebnisse kategorisieren und bewerten: Zwischenergebnisse werden wieder
aufgerufen und eine neue Ordnung nach Relevanz erstellt. Auf diese Weise kann das
Gesamtergebnis bewertet werden.
4. Reflektion:
ƒ
Das Gesamtergebnis wird analysiert sowie der ganze Rechercheablauf reflektiert, Vor- und
Nachteile des Vorgehens erkannt.“
Seite 83 von 85
SPRINT – Suche im Internet
7 Quellenverzeichnis
Aus Sprint 2004/2005
Bekavac, Bernard et al. Methoden und Verfahren von Suchdiensten im WWW/Internet. Universität
Konstanz Informationswissenschaft. 2002. Online unter http://www.inf-wiss.unikonstanz.de/suche/
Bekavac, Bernard / Griesbaum, Joachim (2004): Web-Suche im Umbruch? Entwicklungstendenzen
bei Web-Suchdiensten. In: Bekavac, Bernard / Herget, Josef / Rittberger, Marc (Hg.): Information
zwischen Kultur und Marktwirtschaft. Proceedings des 9. Internationalen Symposiums für
Informationswissenschaft (ISI 2004), Chur, 6.-8. Oktober 2004. Konstanz: UVK.
Bekavac, Bernard / Griesbaum, Joachim / Rittberger, Marc (2002): Deutsche Suchmaschinen im
Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de. In: Hammwöhner, Rainer / Wolff,
Christian / Womser-Hacker, Christa (Hg) Information und Mobilität, Optimierung und Vermeidung
von Mobilität durch Information. Proceedings des 8. Internationalen Symposiums für
Informationswissenschaft. Konstanz: UVK, S.201-223.
Khopkar, Y. / Spink, A. / Giles, C. L. / Shah, P. / Debnath, S (2003): Search engine
personalization: An exploratory study. First Monday, 8 Nr.7.
Lyman, P. / Hal, R. Varian. How much Information 2003? Online unter
http://www.sims.berkeley.edu/how-much-info-2003
Machill, Marcel / Welp, C. Wegweiser im Netz (2003): Qualität und Nutzung von Suchmaschinen.
Bertelsmann Stiftung.
Robertson, S. E (1981): The methodology of information retrieval experiments. In: Jones, K. Sparck
(ed.). Information Retrieval Experiment. London. Butterworth, S. 9-31.
Informationsanbieter
Bauer, David (2008): Bla-Bla-Blogger – die Rebellen versinken im Mittelmass. NZZ; 2. November
2008, S. 103-104.
Griesbaum, Joachim / Bekavac, Bernard / Rittberger, Marc (2008): Typologie der Suchdienste im
Internet. Universität Hildesheim; Hochschule für Technik und Wirtschaft Chur; Deutsches Institut
für Internationale Pädagogische Forschung.
Suchverfahren im Internet
Burns, Enid (2007): Most Searchers Have Two Words for Google. Online unter
http://searchenginewatch.com/3627479
Buschmann, Michael (2008): Die Bedeutung von Suche im Online-Geschäft. In: Wie arbeiten die
Suchmaschinen von morgen? – Informationstechnische, politische und ökonomische Perspektiven.
Acatech – Deutsche Akademie der Technikwissenschaften, 2008. S. 89-100.
Fauldrath, Jens / Kunisch, Arne (2005). Kooperative Evaluation der Usability von
Suchmaschineninterfaces. In: Information: Wissenschaft und Praxis, Jahrgang 56 (2005), Ausgabe 1
S. 21-28. Online unter http://www.fauldrath.net/Kooperative-Evaluation-der-Usability-vonSuchmaschineninterfaces/
Griessbaum: Going 2.0? Online unter weboptimierung-griesbaum.de/files/web20_demo.pdf
Griesbaum, J / Bekavac, B. / Rittberger, M. (2008): Typologie der Suchdienste im Internet. In: Dirk
Lewandowski (Hrsg.), Handbuch Internet-Suchmaschinen – Nutzerorientierung in Wissenschaft und
Praxis. Heidelberg: Akademische Verlagsgesellschaft.
Griesbaum, Joachim / Rittberger, Marc / Bekavac, Bernard (2002): Deutsche Suchmaschinen im
Vergleich. Alta.Vista.de, Fireball.de, Google.de und Lycos.de.
Khopkar, Y. / Spink, A. / Giles, C. L. / Shah, P. / Debnath, S (2003): Search engine
personalization: An exploratory study. First Monday, 8 Nr.7.
Lewandowski, Dirk (2006). Aktualität als erfolgskritischer Faktor bei Suchmaschinen. In:
Information. Wissenschaft & Praxis. 57(2006)3, 141-148. Online unter
http://www.durchdenken.de/lewandowski/doc/Aktualitaet_IWP.pdf
Seite 84 von 85
SPRINT – Suche im Internet
Lewandowski, Dirk (2008a). The retrieval effectivenes of web search engines: considering results
descriptions. In: Journal of Doumentation, Vol. 64, Nr. 6, 2008, S. 915-937
Lewandowski, Dirk (2008b): A three-year study on the freshness of Web search engine databases.
Zu erscheinen in: Journal of Information Science. [Preprint] Online unter
http://www.durchdenken.de/lewandowski/doc/JIS2008_preprint.pdf
Lewandowski, D. / Höchstötter, N. (2008). Web Searching. A Quality Measurement Perspecitve. In:
Spink, Amanda & Zimmer, Michael (eds.). Web Search. Multidisciplinary Perspectives. Springer
Series in Information Science and Knowledge Management 14. Berlin: Springer.
Machill, Marcel / Beiler, Markus / Zenker, Martin (2008). Suchmaschinenforschung: Überblick und
Systematisierung eines interdisziplinären Forschungsfeldes. In: Mattern, Friedemann (Hrsg.): Wie
arbeiten die Suchmaschinen von morgen? Informationstechnische, politische und ökonomische
Perspektiven. Stuttgart: arcatech, S. 23-58
Nielsen, Jakob / Loranger, Hoa (2006). Prioritizing Web Usability. Berkeley: New Riders.
Schulz, Ursula (2007). [Web Usability] Kriterien für Suchmaschinen. Online unter
http://www.bui.haw-hamburg.de/pers/ursula.schulz/webusability/suchma.html
SmartWeb-Projekt: Einleitung und Motivation. Online unter www.smartwebprojekt.de/main_pro_de.pl
Software-Agent (Version 09.12.2008). In: Wikipedia. Online unter de.wikipedia.org/wiki/SoftwareAgent
Uni Bielefeld: Invisible Web. Online unter www.ub.unibielefeld.de/biblio/search/help/invisibleweb.htm
Weinhold, T. / Bekavac, B. / Hierl, S. / Öttl, S. (2008): Visualisierung bei Internetsuchdiensten. In:
Dirk Lewandowski (Hrsg.), Handbuch Internet-Suchmaschinen – Nutzerorientierung in Wissenschaft
und Praxis. Heidelberg: Akademische Verlagsgesellschaft.
Wirth, Thomas (2005). Die DIN EN ISO 9241 – 10. Online unter
http://www.kommdesign.de/texte/din.htm
Operatoren & Methoden
Exalead (2009): Exalead Websuchfunktionen. Online unter
http://www.exalead.com/search/querySyntaxReference
Google (2009a): Advanced Operators. Online unter http://www.google.de/help/operators.html
Google (2009b): Bildsuche. Online unter http://images.google.ch/intl/de/help/faq_images.html
Google (2009c): Das Wichtigste über die Google-Suche. Online unter
http://www.google.de/support/bin/static.py?page=searchguides.html&ctx=basics
Google (2009d): Google-Funktionen; Auf gut Glück. Online unter
http://www.google.com/help/features.html#lucky
Google (2009e): Google Help - Cheat Sheet. Online unter
http://www.google.com/help/cheatsheet.html
Google (2009f): Patent Search. Online unter http://www.google.com/patents
Google (2009g): Suchergebnisseite. Online unter
http://www.google.de/support/bin/static.py?page=searchguides.html&ctx=results
Official Google Blog (2009). [Artikeltitel] SearchWiki: make search your own. Online unter:
http://googleblog.blogspot.com/2008/11/searchwiki-make-search-your-own.html
Vorgehen bei der Suche
Bekavac, Bernard (2007): Modul Information Retrieval. Suchverfahren und Suchstrategien. HTW
Chur.
Bekavac, Bernard / Tobler, Laura: Vermittlung von Recherchekompetenz im Internet mittels Case
Studies. HTW Chur.
Seite 85 von 85