Proceedings DGI Online

Transcription

Proceedings DGI Online
Mit der Popularisierung des Internet Mitte der 90er Jahre hat sich gezeigt, dass Suchdienste und Suchmaschinen hier eine Schlüsselfunktion besitzen. Dabei ist eine Unzahl von Suchdienstanbietern entstanden, die an
diesem Wachstumsmarkt partizipieren wollen. Verschiedene Firmen und Organisationen setzen unterschiedliche
Techniken ein, die in dem dynamischen Internetumfeld ständig weiterentwickelt werden. Neben Primärsuchdiensten wie
roboterbasierten Suchmaschinen und Internetkatalogen gewinnen client- und serverbasierte Metasuchmaschinen an
Bedeutung. Hinzu kommt eine zunehmende Zahl von fachlichen begrenzten Informationsdiensten in unterschiedlichster
Ausprägung. Informationsvermittler stehen daher vor der schwierigen Aufgabe, aus dieser Vielzahl von Angeboten die
besten Internetsuchdienste zu selektieren und optimal nutzen. Der Auswahl beginnt damit, das anstehende
Informationsbedürfnis zu definieren und in ein Rasterschema einzuordnen. Anschließend muss die hierzu passende
Klasse von Suchdiensten selektiert werden. Innerhalb jeder Klasse lassen sich dann verschiedenartige Qualitätsmerkmale festmachen, die die Qualität des Dienstes ausmachen. Hierzu zählen Umfang und Aktualität der Datenbasis,
Retrievalmöglichkeiten, Ranking, Link-checking, Parametrisierbarkeit u. a. Auf dieser Basis kann dann die Auswahl
getroffen werden. Im Beitrag werden die verschiedenen Klassen von Suchdiensten kurz vorgestellt und am Beispiel
von Universal- und Metasuchmaschinen wie Alta Vista, Infoseek, MetaGer usw. die Bewertung gezeigt.
Das Internet bietet im Wesentlichen zwei große Nutzungsgebiete: weltweite Kommunikation und Bereitstellung von Information.
Die erste Anwendung, die Kommunikation, besteht vor allem aus E-Mail und davon
abgeleitet, Mailservern und Newsgruppen sowie dem Online-Chat. Diese elektronische
Kommunikation über das Internet hat inzwischen einen Stand erreicht, in dem sie von
jedermann gut nutzbar ist.
Sehr viel schwieriger ist es um die zweite wichtige Anwendung, die Information,
bestellt: Eines der größten Probleme des Internet ist die Informationssuche. Es gibt
bisher keine Möglichkeit, das Internet wie eine einfache (relationale) Datenbank zu
benutzen. Es ist beispielsweise nicht möglich, typische Abfragen der folgenden Art einzugeben: Finde alle Rechner und ihre Dokumente, die das Thema »Malariaprohylaxe in
Südostasien« und »Resistenz gegen Resochin«, aber nicht »Vietnam« beinhalten. Eine
solche Abfrage übersteigt alle bisherigen Dimensionen bekannter Suchstrategien, denn
hier ist das Netz selbst die Datenbank, hier müssen u. U. Millionen von Rechnern abgesucht werden. Die Aufgabe wird dadurch erschwert, dass die Informationsdarstellung
142
DGI-Online-Tagung ’99 – Session 5: Recherche im Internet
im WWW nichthierarchisch aufgebaut ist, sondern durch die flexible Struktur von Hyperlinks ergibt ein unstrukturiertes Informations-Geflecht. Mit der rasant wachsenden
Anzahl der Nutzer (z. Zt. ca. 160 Mio.) steigt auch die Menge der im Internet angebotenen Informationen, so dass es dem Benutzer zunehmend schwerfällt, geeignete
Einstiegspunkte zu finden bzw. gezielt auf Informationen zuzugreifen.
Als wichtigstes Hilfsmittel für die Navigation im Internet haben sich mit dem Aufkommen des World Wide Web (WWW) Internetsuchdienste etabliert, die heute täglich
Millionen von Benutzeranfragen erledigen. Schon seit vielen Jahren gibt es Suchdienste
für Internetressourcen, wie z. B. Veronika für Gopher-Server oder Archie für auf FTPServern verfügbare Software, doch erst mit der starken Popularisierung des Internet
und des World Wide Web in den letzten Jahren haben Suchmaschinen einen ungeheuren
Aufschwung erlebt. Im Sprachgebrauch hat sich daher der Begriff »Suchmaschine«
durchgesetzt, auch wenn meist nur Suchdienste für WWW-Seiten gemeint sind. Es gibt
inzwischen Hunderte von WWW-basierten Suchdiensten, die sich wie folgt klassifizieren
lassen:
1. Universal-Suchmaschinen (Klassische Suchmaschinen, Primärsuchdienste) –
Bsp.: AltaVista, Lycos;
2. Serverbasierte Metasuchmaschinen – Bsp.: MetaCrawler, MetaGer;
3. Clientbasierte Metasuchmaschinen – Bsp.: WebFerret;
4. Verzeichnisdienste (Directory Services) – Bsp.: Yahoo, Web.de;
5. Fachlich begrenzte Suchdienste (Clearing Houses, werten nur Quellen eines
bestimmten Fachgebietes aus) –
Bsp.: Medical World Search (http://www.mwsearch.com/)
6. Spezial-Suchmaschinen (werten nur Quellen eines bestimmten Typus aus) –
Bsp.: Archie, KVK, DejaNews.
Die folgendende Darstellung konzentriert sich auf Universal- und Metasuchmaschinen, da diese derzeit die größte Bedeutung besitzen und deren Entwicklung die höchste
Dynamik aufweist.
Bei den Universal-Suchmaschinen handelt es sich um die Internetsuchmaschinen im engeren Sinne. Bekannteste Vertreter sind Systeme wie Lycos, AltaVista, Infoseek, Excite
oder Hotbot. Daneben gibt es eine stetig wachsende Zahl von Suchmaschinen, die sich
auf einen geographisch oder sprachlich definierten Ausschnitt des Web beschränken.
Die Universal-Suchmaschinen bestehen immer aus drei Hauptmodulen:
1. das Agentenprogramm (auch als Roboter, Searcher oder Gatherer bezeichnet), das
laufend die Informationen aus dem Internet zusammenträgt. Vornehmlich werten
Suchmaschinen WWW-Server aus, die HTML-Dokumente enthalten, zusätzlich werden aber auch FTP-, Gopher- und News-Server abgefragt. Die Qualität des Roboters ist entscheidend für die Vollständigkeit und die Aktualität der Suchmaschine.
Die Roboter von großen Suchmaschinen aktualisieren täglich mehrere Millionen
Seiten.
2. Datenbanksystem, welches die vom Agenten gelieferten Dokumente indexiert und
verwaltet. Das Datenbanksystem ist entscheidend für die Antwortzeiten und für die
Michael W. Mönnich: Kriterien zur Bewertung und Auswahl von Internetsuchmaschinen
143
Recherchemöglichkeiten. Die Anforderungen an Hard- und Software sind dabei
enorm: Beispielsweise ist das AltaVista System derzeit mit 16 DEC Alphaservern
ausgestattet, die jeder über 8 GigaByte RAM verfügen. Der Index umfasst 200
GigaByte Plattenspeicher.
3. Benutzerschnittstelle, welche die Suchanfragen entgegennimmt und die Dokumente
in geordneter Form zurückgibt. Üblicherweise bietet sie Hilfsmittel, um die Suchanfragen zu spezifizieren, wie Trunkierung, Boolsche Verknüpfungen, Phrasensuche,
geographische und zeitliche Eingrenzungen sowie Gewichtungsalgorithmen für die
Präsentation der Treffer.
Genaue Informationen über die Größe der Suchmaschinen sowie über technische Details
stammen fast immer von der Betreiberfirma und müssen stets kritisch hinterfragt
werden. Angaben zur Funktionsweise der Module werden häufig nicht preisgegeben.
Dies gilt insbesondere für Portale, die sich überwiegend durch Werbung finanzieren. Die
Analyse von Suchmaschinen gleicht also in vieler Hinsicht dem Versuch des Biologen,
aus Tierbeobachtungen im Freiland Rückschlüsse auf die einzelnen Species zu gewinnen.
Wichtige Parameter der Leistungsfähigkeit von Suchmaschinen sind:
• Größe der Datenbasis;
• Indexierung;
• Aktualität;
• Dublettenabgleich;
• Aufbau der Trefferlisten;
• Retrievalmöglichkeiten;
• Performance.
Maßgebend für die für die Bewertung einer Suchmaschine ist vor allem die Größe der
Datenbank, d. h. die Anzahl indexierter Seiten. Folgende Zahlen geben den Stand im
Herbst 1998 wieder:
Quelle: http://www.neci.nj.nec.com/homepages/lawrence/websize.html
In diesem Zusammenhang ist natürlich die Frage nach dem Gesamtvolumen der im
Web vorhandenen Seiten von Bedeutung. Hierzu liegen keine exakten Zahlen vor, die
Schätzungen legen die Untergrenze zwischen 200 Mio. und 320 Mio. Seiten. Diese Zahlen
beinhalten nur die statischen und frei zugänglichen HTML-Seiten des Web, sämtliche
kurzlebigen und dynamisch erzeugten Seiten wie z. B. Ergebnislisten von Datenbankanfragen sind nicht erfasst.
144
DGI-Online-Tagung ’99 – Session 5: Recherche im Internet
Von größter Wichtigkeit ist zudem die Art und Weise, wie die Datenbanken aufgebaut
werden. In der Regel wird der Aufbau des Index an bestimmten Stellen begonnen und
setzt sich dann über die dort verzeichneten Links fort zu anderen Seiten, die wiederum
Links enthalten usw. Seiten, die von anderen nicht referenziert werden, können nach diesem Verfahren nicht erfasst werden. Daher bieten fast alle Suchmaschinenbetreiber dem
Benutzer die Möglichkeit, URLs selbst einzugeben. Die Links auf gemeldeten Seiten werden aber häufig nur bis zu einer bestimmten Tiefe der Webserverhierarchie weiterverfolgt. Neben der Tatsache, ob eine Seite erfasst wird, ist die Frage, wie sie indexiert
wird, extrem wichtig. Allgemein gültige Regeln für Suchmaschinen sind nicht in Sicht,
und wie üblich sind Angaben der Betreiber schwer zugänglich. AltaVista gibt hierzu
vergleichsweiseausführlicheInformationenan(http://www.altavista.digital.com/av/content/
ques_webmaster.htm):
»Basically, we index all the HTML information on a page: All text, ALT text for images,
links (hrefs and images), anchors, title description and keyword META tags, applet and
ActiveX object names, the page's URL, its host name (www.foo.com) and its domain name
(com). The treatment of Usenet postings is similar but with different keywords. We do not
index HTML comments.«
Diesen oder einen ähnlichen Ansatz zur Indexierung benutzen heute die meisten Suchmaschinen. Unterschiede gibt es allerdings bei der Indexierung von Seiten mit Frames,
Redirects und Image Maps, die vielen Suchmaschinen Schwierigkeiten bereiten (ausführlich hierzu http://searchenginewatch.internet.com/webmasters/features.html).
Naturgemäß kommt der Frage der Aktualität von Suchmaschinen ein hohe Bedeutung
zu. Eine der ärgerlichsten Erfahrungen beim Umgang mit Suchmaschinen ist das Abarbeiten von Trefferlisten, die mehrheitlich zu Ergebnissen führen wie »This page does not
exist on this server« oder Seiten aufführen, die völlig veraltet sind. Die Aktualität wird
davon bestimmt, wie häufig Web-Server besucht und die vorhandenen Seiten reindexiert
werden. Verlässliche Angaben hierüber sind fast nicht vorhanden; SearchEngineWatch
veröffentlicht jedoch Angaben über die Besuchsfrequenz der wichtigsten Suchmaschinenroboter bei ausgewählten Seiten (http://searchenginewatch.internet.com/ reports/ekgs/).
Folgende Daten stammen ebenfalls von SearchEngineWatch und geben den Stand
31.3.1998 wieder (http://www.searchenginewatch.com/webmasters/features.html):
Michael W. Mönnich: Kriterien zur Bewertung und Auswahl von Internetsuchmaschinen
145
Wie man sieht, hinken die Agenten der großen Suchmaschinen in der Regel mehrere
Wochen hinterher, was angesichts der riesigen Anzahl von WWW-Servern nicht
verwundert.
Ein Lösung des Aktualitätsproblemes wäre die laufende Überprüfung der in der
Datenbank gespeicherten URLs (Linkchecking). Aufgrund des Umfanges der zu überprüfenden Datenbank und wegen methodischer Probleme führt dieses Verfahren –
soweit bekannt – keine der großen Suchmaschinen konsequent durch.
Die Überprüfung von Links in Trefferlisten ist zwar einfach zu realisieren, verzögert
allerdings den Aufbau der Trefferlisten, da jede Liste sequentiell durchgegangen werden
muss. Ein Beispiel hierfür ist MetaGer wo der Benutzer Links überprüfen lassen und die
Prüfunzeit selbst wählen kann.
Genauso störend wie veraltete und »tote« Links sind Dubletten in Trefferlisten. Die
meisten großen Suchmaschinen versuchen zwar, Dubletten anhand der URL
herauszufiltern, dennoch enthalten die Trefferlisten immer wieder dublette Einträge.
Leistungsfähige Mechanismen zur Dublettenkontrolle sind besonders wichtig bei
Metasuchmaschinen, die die Trefferlisten mehrerer Suchmaschinen zusammenfassen
müssen.
Weiterhin sehr wichtig für die Brauchbarkeit einer Suchmaschine ist der Aufbau und die
Sortierung der Trefferlisten. Üblicherweise werden hier andere Methoden als bei klassischen Datenbanken verwendet. Während letztere nur diejenigen Treffer anzeigen, die
den eingegebenen Suchbegriffen vollständig genügen, werden bei Suchmaschinen meist
auch solche Treffer angezeigt, welche die gewünschten Suchterme nur teilweise oder
verwandte Wortformen enthalten. Bei diesem Vorgehen gewinnt dann die Frage der
Sortierreihenfolge (der verwendete Rankingalgorithmus) entscheidende Bedeutung, vor
allem bei hohen Trefferzahlen. Die meisten Rankingalgorithmen arbeiten mit folgenden
Parametern:
• Vorkommen der Suchbegriffe in der URL;
• Position der Suchbegriffe in der HTML-Seite, insbesondere im <title>-Tag;
• Häufigkeit der Suchbegriffe in der Seite;
• Proximity der Suchbegriffe (Alta Vista);
• MetaTags Keyword und description (Alta Vista);
• Die Position der URL in einer Webserver-Hierarchie;
• Häufigkeit des Zugriffs in der Suchmaschinendatenbank auf die URL;
• Verteilung der URLs auf verschiedene Server;
• Anti-Spammingmechanismen / Clustering.
Clustering heißt, dass, wenn die Trefferliste mehrere Seiten des selben Webservers
enthält, nur eine davon angezeigt wird. Dadurch erhalten auch andere Server eine
Chance in der Trefferliste aufzutauchen. Realisiert bei: Infoseek, HotBot, Lycos und
GoTo.
146
DGI-Online-Tagung ’99 – Session 5: Recherche im Internet
Die meisten Suchmaschinenanbieter bieten sie als Einstiegsmaske mehrheitlich eine
einzige Eingabezeile, in die der Benutzer seine Suchworte einträgt. Weitere Steuerungsoptionen für Suchanfragen bieten die »Powersearch«, »Advanced Search« oder ähnlich
benannte zusätzliche Suchmasken. Zur Eingrenzung von Suchanfragen werden u. a.
folgende Möglichkeiten geboten:
• Zeitliche Eingrenzung;
• AND, OR, NOT oder NEAR Verknüpfungen;
• Phrasensuche;
• Einschränkung auf bestimmte Domänen, z. B. ».de«;
• Einschränkung der Suche auf bestimmte HTML-Tags, z. B. URL, TITLE.
Als quasi-Standard hat sich inzwischen die plus-minus-Syntax durchgesetzt. : »+« für
AND und »-« für NOT. Eine Phrasen- oder Stringsuche kann mit Anführungszeichen
erzwungen werden. Sie wird unterstützt von:
AltaVista, AOL NetFind, Excite, Google, HotBot, Infoseek/Go, GoTo, Lycos, MSN Search
(Inktomi), Netscape Search, Snap, WebCrawler, Yahoo (bei Alta Vista und Google findet
eine automatische Phrasenerkennung statt).
OR als Defaulteinstellung benutzen:
AltaVista, AOL NetFind › Excite › GoTo › Infoseek › LookSmart › Netscape Search › Snap ›
WebCrawler und Yahoo.
AND ist Default bei:
Google, HotBot, Lycos, MSN Search und Northern Light.
Allgemein wird bei den Suchmaschinen kritisiert, dass der recall zu hoch und die precision
zu niedrig sei, d. h. die gesuchte Information geht in einer Flut von irrelevanten Links
unter. Dies ist insofern gravierend, als Untersuchungen zeigen, dass die Mehrheit der
Suchmaschinenbenutzer nur die ersten zehn, maximal die ersten dreißig Treffer einer
Suchanfrage verfolgen.
Die meisten der derzeit aktuellen Ansätze laufen darauf hinaus, dass man die das
World Wide Web auszeichnenden vernetzten Strukturen stärker in die Gewichtung von
Treffern einbezieht. Einen solchen Ansatz bietet z. B. die Suchmaschine Google
(http://www.google.com). Der Index wird bei diesem Suchdienst so aufgebaut, dass die
Indexeinträge für eine bestimmte URL sich nicht aus dem Text dieser Seite ergeben,
sondern aus dem Linktext fremder Seiten, die auf diese Seite linken. Ein Beispiel mag
dies erläutern: Auf der Seite http://www.blabla.de/links.html befindet sich ein Link
<a ref=http://www.ub-xyz.de> die beste Bibliothek der Welt </a>«. Daraus erzeugt Hyperlink Search Engine den Indexeintrag »die beste Bibliothek der Welt« und ordnet ihn
http://www.ub-xyz.de zu. Dem Ansatz liegt die Idee zugrunde, dass intellektuell erstellte
Linktexte die Inhalte von Webseiten besser und präziser wiedergeben als der Volltext
der Seite selbst.
Michael W. Mönnich: Kriterien zur Bewertung und Auswahl von Internetsuchmaschinen
147
Einen ähnlichen Ansatz sowie weitere Verbesserungen im Vergleich zu bestehenden
Suchmaschinen versucht die experimentelle Suchmaschine Google1 umzusetzen
(http://www.google.com/). Man versucht quasi das Prinzip des akademischen Zitierens auf
das WWW abzubilden. Dabei gelten zwei Regeln:
• Je häufiger auf eine WWW-Seite gelinkt wird, desto relevanter ist sie;
• mit der Relevanz der zitierenden Seite steigt auch die Relevanz der zitierten Seiten.
Zusätzlich werden die indexierten Seiten nach formalen und inhaltlichen Kriterien
analysiert, um daraus Relevanzkriterien abzuleiten. Weitere Innovationen bei Google
sind:
• Alle Dokumente sind aus dem cache abrufbar;
• Es wird statt eines Abstracts der Text mit dem Treffer gezeigt;
• Proximity als Rankingfaktor.
Ein anderer Ansatz um die Präzision von Suchen zu steigern, ist die Begrenzung der
Suchen auf bestimmte Datei- bzw. Medientypen. Ein gutes Beispiel ist der Alta Vista
Photo Finder (http://image.altavista.com/).
Entscheidend wichtig für die Alltagstauglichkeit ist die Performance der Systeme. Generell lässt sich sagen, dass die meisten großen Suchmaschinen über eine ausreichende
Performance verfügen, Engpässe sind eher im Netzbereich zu suchen.
Obschon zahlreiche vergleichende Untersuchungen über Internetsuchmaschinen vorliegen, so genügen sie häufig nicht den Ansprüchen einer fundierten wissenschaftlichen
Untersuchung. Der Wert solcher Untersuchungen wird weiterhin durch deren Kurzlebigkeit stark eingeschränkt, bedingt durch das hohe Innovationstempo bei Internetsuchdiensten.
SearchEngineWatch bietet einen Überblick über die aktuellen Ergebnisse von
Suchmaschinentests in PC-Publikumszeitschriften (http://searchenginewatch.internet.com/
reports/reviewchart.html). Die Ergebnisse differieren zwar stark, jedoch zeigen regelmäßig HotBot, Alta Vista und Excite die besten Ergebnisse.
Im April 1998 veröffentlichten LAWRENCE und GILES in Science eine Untersuchung über
die Erschließungsleistung von Internetsuchmaschinen, in der die Problematik systematisch durchleuchtet wird. Dieser Studie zufolge erreichen die wichtigsten Suchmaschinen eine Erschließungstiefe des Web in folgenden Prozentzahlen:
1
Googol = 10100
148
DGI-Online-Tagung ’99 – Session 5: Recherche im Internet
Quelle: http://www.neci.nj.nec.com/homepages/lawrence/websize98.html
Kombiniert man die Resultate der sechs untersuchten Suchmaschinen, so erzielt man
eine 3,5mal bessere Abdeckung als bei Benutzung einer einzelnen, d. h. die Anzahl
relevanter Treffer steigt signifikant, wenn mehrere Suchmaschinen parallel oder nacheinander benutzt werden.
Quelle: http://www.notess.com/search/stats/sizeest.shtml
Dieses Ergebnis ist deshalb wichtig, da auch ein hoher Grad an Überschneidung zwischen den Datenbankinhalten der einzelnen Suchmaschinen denkbar wäre, bei der die
Nutzung von mehr Suchmaschinen lediglich zu mehr Dubletten führen würde. Für eine
annähernd erschöpfende Suche im Internet müssen also mehrerer Suchmaschinen abgefragt werden. Da dies umständlich und zeitraubend ist, empfiehlt sich die Benutzung
von Metasuchmaschinen, die genau dies leisten.
Michael W. Mönnich: Kriterien zur Bewertung und Auswahl von Internetsuchmaschinen
149
Im Vergleich zu Universal-Suchmaschinen sind bei Metasuchmaschinen andere Kriterien
wichtig. An erster Stelle steht die Anzahl und die Qualität der benutzten Zielsysteme. Die
Metasuchmaschinen unterscheiden sich weiterhin stark im Aufbau der Trefferlisten und
im Ranking. Gerade hierin liegen die größten Unterschiede zwischen den einzelnen
Metasuchmaschinen. Zuletzt spielen natürlich die Performance und die Transparenz der
Funktionsweise eine wichtige Rolle.
(http://www.metacrawler.com bzw. http://www.go2net.com)
Die Funktionsweise von serverbasierten Metasuchmaschinen sei am Beispiel des
MetaCrawlers erläutert. Das System wurde 1994 an der University of Washington von
Erik SELBERG, Oren ETZIONI and Greg LAUCKHART entwickelt, war einige Zeit als nichtkommerzieller Dienst im Web angeboten und wird seit 1997 von der Firma go2net
betrieben.
Im Unterschied zu klassischen Suchmaschinen besitzt der MetaCrawler weder eine
Datenbank noch einen Roboter, sondern besteht im wesentlichen nur aus einer
Benutzerschnittstelle. Diese schickt die eingegebenen Suchanfragen nicht an eine eigene
Datenbank, sondern reicht sie an mehrere »echte« Suchmaschinen weiter. Für den
Benutzer hat dies den Vorteil, dass er simultan in diesen Suchmaschinen recherchieren
kann. Im März 1999 waren dies Lycos, WebCrawler, Excite, Infoseek, Alta Vista,
Thunderstone, LookSmart, The Mining Co. und Yahoo.
MetaCrawler liefert eine einheitlich formatierte Trefferliste, die gewichtet und von
Dubletten bereinigt ist. Ein Nachteil des MetaCrawlers wie aller Metasuchmaschinen
sind die eingeschränkten Suchmöglichkeiten. Da unterschiedliche Zielsysteme abgefragt
werden, bietet die Metasuchmaschine nur den kleinsten gemeinsamen Nenner der
Retrievaloptionen. Im Falle des MetaCrawlers sind dies AND und OR sowie eine
Phrasensuche (letztere mit Einschränkungen). Zudem können die Treffer in der »Powersearch«-Maske wie folgt eingeschränkt werden:
• Results per page;
• Timeout;
• Results per source;
• Engines to use.
Neben MetaCrawler gibt es noch zahlreiche weitere Meta-Suchsysteme.
(http://meta.rrzn.uni-hannover.de)
MetaGer wird vom regionalen Rechenzentrum in Göttingen betreut. Abgefragt werden:
Dino, web.de, yahoo.de, Fireball, crawler.de, Hotlist, Netfind, Netguide, Altavista.de,
und Nathan, Infoseek, AllesKlar, Hotbot, Lycos. Zusätzlich kann auch der Metacrawler
abgefragt werden.
MetaGer bietet folgende Suchoptionen: AND, OR, Phrase im Titel oder in der
Kurzbeschreibung (»Abstract«). Mit »Stopwortsuche« kann die Ausgabe von Treffern
150
DGI-Online-Tagung ’99 – Session 5: Recherche im Internet
unterdrückt werden, in deren Titel, URL oder Kurzbeschreibung bestimme Worte
vorkommen (Bsp.: »auto hersteller!mercedes bmw«)
Der Benutzer kann manuell Zielsysteme ausschalten und eine Überprüfung der Links
aktivieren. Hervorzuheben ist die sehr gut funktionierende Dublettenkontrolle. Als
Option bietet MetaGer zusätzlich ein Trefferranking nach Änderungsdatum (die zuletzt
geänderten werden zuerst aufgelistet). Zudem gibt es eine sehr umfangreiche FAQ und
Dokumentation. Lat not least ist MetaGer frei von Werbung.
Einige eigene Angaben von MetaGer zu:
• Ranking
»Wenn Sie bei der Suche mehr als ein Wort eingegeben haben (Mehrwortsuche), dann
machen wir vor diesem Ranking noch eine zusätzliche Überprüfung: wir schauen, ob Ihre
Suchworte als String (Zeichenfolge) genau so im Titel, in dem URL oder in der Kurzbeschreibung vorkommen. Wenn das der Fall ist, dann geben wir diesen Treffer als
Volltreffer: aus.» (http://meta.rrzn.uni-hannover.de/rank.html)
• Quicktips
»Für die Implementierung des QuickTip-Algorithmus haben wir einige Millionen Benutzeranfragen auf MetaGer analysiert, um daraus verbesserte Suchstrategien abzuleiten. Die
QuickTip-Suche beruht daher auf einer vorwiegend lokalen Wissensbasis (aber auch der
Domain-Name-Service wird abgefragt) – für die QuickTip-Antwort von MetaGer müssen
keine externen Suchdienste mehr abgefragt werden (daher die Schnelligkeit). MetaGer ist
damit eigentlich gar keine reine Meta-Suchmaschine mehr, sondern eine Kombination aus
klassischem Suchdienst und Meta-Maschine (nennen wir sie schlicht, einfach und
bescheiden »Mega-Maschine« ;-).« (http://meta.rrzn.uni-hannover.de/quicktips.html)
• Zugriffszahlen
»20.000.000 Hits (http-Requests)
4.000.000 PageImpressions (Seitenabrufe)
2.000.000 Netto-Abfragen (Nutzungsvorgänge, Visits)«
(http://meta.rrzn.uni-hannover.de/werbung.html)
Neben den beiden beschriebenen gibt es noch zahlreiche weitere Metasuchmaschinen,
z. B. Inference Find (http://www. inference.com/infind/), ProFusion (http://profusion.ittc.
ukans.edu/), MAMMA (http://www.mamma.com), SavvySearch (http://guaraldi.cs.colostate.
edu:2000/form), Highway 61 (http://www.highway61.com), Metafind (http://www.
metafind.com) und Dogpile (http://www.dogpile.com).
Die meisten gleichen in Funktion und Leistungsumfang in etwa dem MetaCrawler.
Hervorzuheben ist bei Inference Find das Ranking der Trefferlisten, die in Clustern
entsprechend den Serverdomänen angeordnet, ein sehr übersichtliches Bild ergeben. Die
meisten Systeme weisen deutliche Defizite beim Aufbau und der Präsentation der
Trefferlisten oder bei der Performance auf. Von allen erwähnten serverbasierten
Metasuchmaschinen stellt MetaGer das System mit der besten Alltagstauglichkeit dar.
Dies liegt auch an der sehr guten Performance.
Michael W. Mönnich: Kriterien zur Bewertung und Auswahl von Internetsuchmaschinen
151
Erwähnenswert sind noch clientbasierte Metasuchmaschinen. Ein systembedingter Nachteil der gezeigten Metasuchmaschinen liegt darin, dass jede Anfrage über den Server der
Metasuchmaschine geleitet wird, obgleich dieser selbst nur wenig mehr leistet, als nur
die Anfragen an die einzelnen Zielsysteme weiterzureichen. Der Server wird dadurch
unnötigerweise zum Flaschenhals.
Es ist daher naheliegend, die Funktionalität des Serversystems, d. h. die Umsetzung
der Suchanfrage und Aufbereitung der Ergebnisse, auf das Clientsystem zu verlagern.
In der letzten Zeit wurden mehrere solcher clientbasierter Metasuchmaschinen entwickelt.
Ein großer Vorteil liegt in dem verbesserten Antwortzeitverhalten, ein anderer in der
Möglichkeit, das Clientsystem den persönlichen Bedürfnissen anzupassen. Es ist möglich, Suchanfragen und Ergebnislisten lokal abzulegen, und diese gespeicherten Suchanfragen automatisch in bestimmten Intervallen abzuschicken Die Ergebnisse werden
dann mit den früheren Suchresultaten abgeglichen; damit kann ein persönlicher SDIDienst aufgebaut werden.
Es gibt natürlich auch einige Nachteile:
• Das System steht nur für bestimmte Betriebssysteme zur Verfügung.
• Die Software muss zuerst lokal installiert werden.
• Das installierte System muss laufend aktualisiert werden, um mit den Entwicklungen der Zielsysteme Schritt zu halten.
Beispielhaft für solche clientbasierten Metasuchsysteme seien WebFerret
(htt p://w ww .ferr et soft.com /n et fer ret/w ebferret.htm ),
We bSe ek er
(ht tp:// ww w.
bluesquirrel.com/seeker) und Zurfride (http://www.zurfride.com) genannt. Alle diese
Systeme können unter Win95 und Windows NT benutzt werden.
Sammlungen von Suchmaschinen bieten zahlreiche Institutionen an. Zumeist handelt es
sich um unkommentierte Listen, die teilweise sehr umfangreich sind. Eine kommentierte
Auswahl bietet die Universitätsbibliothek Karlsruhe (http://www.ubka.uni-karlsruhe.de/
suchmaschinen). Aktuelle Informationen über Suchmaschinen findet man bei SearchEngineWatch (http://www.searchenginewatch.com). Er bietet umfassende Informationen
zum Thema Suchmaschinen, z. B. eine stets aktuelle Übersicht über die Ergebnisse von
Suchmaschinen-Vergleichstests in PC-Publikumszeitschriften.
Ein sehr gute deutsche Webseite zu Suchmaschinen ist die Suchfibel (http://www.
suchfibel.de), die auch als Buch erhältlich ist (KARZAUNINKAT, Stefan: Die Suchfibel. Leipzig
: Klett, 1998. – ISBN 3-12-238104-4).