THEMA : Meta-Suche und Meta

Transcription

THEMA : Meta-Suche und Meta
Mohammad Dawood
Datum: 15.6.98
THEMA : Meta-Suche und Meta-Search Engines
Inhaltsverzeichnis
1 Gängige Suchmaschinen (Search Instrumente)
2 Schwächen der gängigen Suchmaschinen (Search Engines)
3 Das Konzept der Meta-Suchmaschinen und ihre Systemarchitektur am
Beispiel des Meta Crawler
4 Typen von Meta-Suchmaschinen
5 Eigenschaften der Meta-Suchmaschinen
6 Vergleich der gängigen Meta-Suchmaschinen
7 Aufbau und Detaillierte Funktionsweise einer Meta-Suchmaschine am
Beispiel des SavvySearch
1
1 Gängige Suchmaschinen
Seit seiner Einführung ist das WWW enorm gewachsen, stündlich werden Tausende
von Webseiten in das WWW aufgenommen. Das finden eines Dokuments, eines
Bildes oder anderer Informationen in dem Web ist durch diesen enormen Zuwachs
zunehmend schwerer geworden. Deshalb sind spezielle Programme erstellt worden,
die dem Verbraucher (User) hier weiter helfen und die Suche nach bestimmten
Seiten oder anderen Daten in dem Web erleichtern sollen. Diese Programme werden
Search Engines oder Suchmaschinen genannt.
Sie setzen sich aus folgenden Teilen zusammen:
Erstens, aus einer Prozedur, um einen Index der Seiten oder anderen Daten des
Internet herzustellen. Zweitens, aus einer Datenbank, in der dieses Index gespeichert
wird und drittens, einer Prozedur, um diese Datenbank nach bestimmten Kriterien
zu durchsuchen und die Ergebnisse in Form einer Liste zusammen zustellen und
zwar in einem angemessenen Zeitraum und Ressourcen Aufwand.
Es gibt zwei Grundformen von Suchmaschinen die für die Suche im Internet
benutzt werden. Der erste Typ ordnet die Quellen manuell im Internet nach einem
Suchkriterium zu einer Datenbank so zusammen, daß sie möglichst schnell
aufgefunden werden können, z.B., nach alphabetischer Ordnung, geographischer
Ordnung oder nach Themen geordnet. Hierfür ist ein immenser menschlicher
Einsatz für die Sammlung, Ordnung und insbesondere die Katalogisierung der
Quellen notwendig. Dies ist zum Beispiel bei der Suchmaschine „Ask Jeeves“ der
Fall, bei der die Daten als Antworten auf bestimmte Fragen zusammengestellt sind.
Der zweite Typ von Suchmaschinen arbeitet selbständig und automatisch, zum
Beispiel „Lykos“. Diese Maschinen bestehen aus zwei Hauptkomponenten. Die eine
Komponente dient zum Sammeln der Daten aus dem Internet und die zweite dient
für die Suche derselben. Die erste Komponente arbeitet ständig im Internet,
sammelt, sortiert und ordnet die Quellen und speichert sie in eine Datenbank. Auf
gerade diese Eigenschaft deutet auch der Name der „Lykos“ hin, welcher aus dem
Wort „Lycosidae“ hervorgeht. „Lycosidae“ ist der Name einer Spinnengattung, die
ihre Opfer nicht durch ein Netz, sondern durchs Verfolgen fängt. Die zweite
Komponente ermöglicht dem „User“, anhand bestimmter Kriterien in der von der
ersten Komponente erstellten Datenbank zu Suchen. Der Erfolg einer solchen
Maschine hängt im Allgemeinen von der Größe, dem Inhalt und der Aktualität der
Datenbank, sowie der Geschwindigkeit und der Verfügbarkeit der Suchkomponente
ab. Im folgenden sind einige Beispiele einfacher Suchmaschinen aufgeführt:
Alta Vista: 50 Millionen Webseiten, 4 Millionen Artikel
Hot Bot: 110 Millionen Dokumente
2
InfoSeek: 30 Millionen Seiten.
Lycos: 51 Millionen URL´s, Index enthält Titel, Überschriften, Links, Inhalt (100
„schwerste“ Wörter), erste 20 Zeilen, Größe in Bytes und Anzahl der Wörter.
Update: Stündlich.
WebCrawler: Index: Titel, URL, kompletter Inhalt, Hotspots (i.e. Links zu anderen
Seiten) Update: Wöchentlich
Open Text Index: Database enthält 10 Milliarden !! Wörter. Suchergebnis liefert
eine Zusammenfassung der Seite aus den ersten 100 Wörter. Diese Datenbank wird
auch vom Yahoo benutzt.
2 Schwächen der gängigen Suchmaschinen:
Anfang 1998 gab es über 2000 Suchmaschinen im Internet, die sowohl allgemeine
als auch spezielle Bereiche umfaßten. Einige unter diesen Suchmaschinen sind zwar
effektiv aber keines von ihnen ist umfaßt alle Bereiche ausreichend. Es ist ein
Nachteil, wenn die Maschine kleine Datenbanken benutzt (Infoseek 30 Millionen,
Alta Vista 50 Millionen) oder die Datenbank nicht mehr aktuell ist (Die Datenbank
von Alta Vista wird alle 9-10 Tage aktualisiert dagegen die von Lykos Stündlich!)
oder das „Spider“ Programm zum aufsuchen der neuen Datenquellen zu langsam ist
(bei Excite können es bis zu 28 Tage werden bis das Programm eine Runde der
Arbeit erledigt hat, bei Magellan dagegen nur 4 Tage). Dies bedeutet, daß die von
irgendeinem dieser Programme gelieferten Ergebnisse keineswegs dem aktuellen
Stand der Dinge widerspiegeln. Es ist nicht gewährleistet, daß man durch die
Benutzung dieser Maschinen sämtliches im Internet vorhandenes Material zum
gesuchten Thema auch tatsächlich findet.
Die Suchergebnisse einer einzigen dieser einfachen Suchmaschinen betragen im
Durchschnitt nicht einmal die Hälfte aller vorhandenen Dokumente. Also ist die
Benutzung einer einzigen Suchmaschine nicht ausreichend. Außerdem sind viele
Ergebnisse solcher Suchaktionen für den User irrelevant und können bis zu 75 %
der gelieferten Treffer betragen. Im Allgemeinen wird die Relevanz einer Seite von
der Maschine nach folgenden Kriterien berechnet:
1. Nach der Anzahl der gefundenen Wörter im Dokument d.h., je mehr Begriffe in
einem Dokument gefunden werden, desto höher seine Relevanz
2. Nach der Position der Wörter im Dokument z.B., Die Wörter im Titel sind
relevanter, als die Wörter im Text
3. Nach dem Abstand der Suchbegriffe im Dokument, z.B., folgen die Begriffe
nach kurzen Abständen, so ist das Dokument als relevanter zu betrachten, als
wenn sie nach längere Abständen folgen
4. Nach der Häufigkeit von Suchbegriffen im Dokument, d.h., je häufiger der
Gebrauch eines Begriffes, desto relevanter das Dokument
3
5. Nach der Gesamthäufigkeit in der Datenbank, d.h., findet der Gebrauch eines
Begriffes in der Datenbank sehr häufig statt, z.B., „Internet“ so wird sein vorkommen unter mehreren Suchbegriffen niedriger bewertet als andere Begriffe
Diese und andere streng geheim gehaltenen Kriterien werden daraufhin
unterschiedlich gewichtet und so die Relevanz eines Dokumentes ermittelt. Die
Ergebnisse sind trotz dieser Bemühungen nicht begeisternd. Die folgende Tabelle
zeigt den Teil, der von Usern verfolgten Links als Indiz für die Relevanz eines
Dokumentes am Gesamtzahl der von einer Suchmaschine gelieferten Möglichkeiten
an Treffern. Sie umfaßt zwei Studien die über 3 bzw. 11 Wochen liefen :
Tabelle Teil der vom User verfolgten Links am Gesamtzahl der von der Suchmaschine
gelieferten Treffer
3 wochen
11 Wochen
Lycos
42,17 %
35,43 %
Webcrawler
25,74 %
30,76 %
Infoseek
15,70 %
18,55 %
Galaxy
15,60 %
17,10 %
Open text
14,70 %
---------
Yahoo
6,59 %
10,67 %
4
3 Das Konzept der Meta-Suchmaschinen und ihre Systemarchitektur am Beispiel des Meta Crawler
Um die obengenannten Nachteile der einzelnen Suchmaschinen zu vermeiden, ist
das Konzept der Meta-Suchmaschinen (Meta-Search Engines) entwickelt worden.
Im Unterschied zu den gängigen Suchmaschinen haben sie im Grunde keine eigenen
Datenbanken, sie benutzen vielmehr die Datenbanken von anderen Suchmaschinen,
um so umfassende Ergebnisse zu erhalten und die Nachteile einer kleinen oder nicht
aktuellen Datenbank zu minimieren. Im folgenden beschreiben ist die
Systemarchitektur einer Meta-Suchmaschine am Beispiel des Meta Crawlers
beschrieben.
Systemarchitektur: Die Meta-Search Maschine Meta Crawler ist folgendermaßen
aufgebaut (Dieses Konzept ist auch auf andere Meta-Suchmaschienen zutreffend):
Die Suchmaschine besteht aus vier Teilen, die Module genannt werden. Das erste
Modul ist der User Interface, der dem Verbraucher (User) eine Dialogmöglichkeit
bietet und sowohl für die Weiterleitung der von ihm gestellten Fragen (Query) an
das ‚Aggregation Engine‘, als auch für die Präsentation der zurück erhaltenen
Ergebnisse zuständig ist. Es ist also die Kommunikationsschnittstelle zwischen dem
User und der Suchmaschine.
Das zweite Modul ist das Aggregation Engine, das für die Auswahl der zur
Verfügung stehenden Maschinen durch einige ‚Control‘ Anweisungen und die
Zusammenführung der von ‚Harness‘ in Form von Tupeln gelieferten Ergebnisse
zuständig ist.. Es trifft somit die Entscheidung, welche Suchmaschinen von dem
Meta-Search Engine angesprochen werden, auch erfaßt und wertet es die von diesen
Maschinen gelieferten Ergebnisse aus.
Das dritte Modul ist das sogenannte Harness, das mit unterschiedlichen
Datenformaten befaßt. Das Harness hat die Aufgabe die Frage (Query) des Users in
die für die jeweils angesprochenen Maschinen spezifische Form zu bringen und die
von diesen Maschinen gelieferten Daten in Form von Tupeln einheitlich an das
Aggrgation Engine weiter zu leiten.
Zu letzt muß noch das Parallel Web Interface erwähnt werden, das nichts anderes
als das Input/Output Modul der Maschine ist. Es kommuniziert mit dem WWW,
durchsucht also die einzelnen Maschinen nach der Query. Die Ergebnisse werden
daraufhin unverarbeitet an das Harness weiter geleitet.
5
Diagram: Systemarchitektur des Meta-Crawler
User Interface
↑
Query
↓
Results
Aggrgation Engine
Control
↑
↓
Tuples
Harness
URLs
↑
↓
Pages
Parallel Web Interface
Diese Architektur ist im wesentlichen für alle Meta-Suchmaschinen relevant.
6
4 Typen von Meta-suchmaschinen:
Die Meta-Suchmaschinen basieren auf drei verschiedene Konzepte:
1) Straight forward list: Diese Maschinen funktionieren indem sie eine Liste von
Suchmaschinen mit entsprechenden Dialogboxen anbieten. Diese Angaben
werden direkt an die zuständigen Maschinen gesendet und die Ergebnisse so
dargestellt wie sie beim benutzen der Suchmaschinen selbst dargestellt worden
wären. Der Vorteil dieser Suchmaschinen ist das sie dem User die Zeit zum
Laden und Umschalten zwischen den verschiedenen Seiten erspart, aber auch
das sie Suchmaschinen vorschlagen können, die dem User nicht bekannt sind.
Diese Maschinen sind strenggenommen nicht Meta-Suchmaschinen, sondern
eine Zusammenstellung von Suchmaschinen mit ‚Cut and Paste‘ verfahren. Ein
Beispiel hierfür ist das ‚Search Satellite‘.
2) Consecutive Multi-Search Engines: Diese entschprechen eher dem Konzept
einer Multi-Suchmaschine als die obengenannten Straight forward listen. Sie
haben meistens nur ein Eingabefeld. Der User hat dann die Möglichkeit
Suchmaschinen auszuwählen, die er gerne befragen möchte. Die Frage (Query)
wird dann simultan an all diese Maschinen geschickt. Ist die Suche beendet,
werden die Ergebnisse den einzelnen Maschinen entsprechend sortiert in eine
Liste dargestellt. Der Nachteil dieser Maschinen ist, das alle Suchmaschinen mit
ihrer Arbeit fertig sein müssen, bevor die Liste zusammengestellt werden kann.
Die Suche wird demgemäß durch die Geschwindigkeit der langsamsten
Suchmaschinen diktiert.
3) Simultaneous Multi-Search Engines: Diese Suchmaschinen sind der zuvor
erwähnten Sorte sehr ähnlich, aber effektiver. Die Liste der Suchergebnisse ist
sofort verfügbar. Noch während der User die Liste durchgeht und prüft werden
eintreffende Einträge an die Liste angehängt. Dies erspart viel Zeit. Ein Beispiel
für diesen Suchmaschinentyp ist das ‚Superseek‘.
5 Eigenschaften der Meta-Suchmaschinen:
1. Anzahl der Suchmaschinen: Das wichtigste Merkmal der Meta-Suchmaschinen
ist die Anzahl, der von ihnen benutzten Suchmaschinen. Die kleinsten MetaSuchmaschinen benutzen nur ein halbes Dutzend, die größten dagegen ungefähr
1000! Maschinen. Dies ist aber für die Qualität der Suchergebnisse nicht
entscheidend, eine kleine Anzahl geeigneter Suchmaschinen ist besser als viele
ungeeignete. Aber dennoch ist die Anzahl der befragten Suchmaschinen wichtig,
denn viele Maschinen müssen nicht zwangsläufig bessere Ergebnisse liefern, aber
eine geringere Anzahl auch keinen Vorteil darstellt.
7
2. Durchsuchung des Internets: sicherlich ist das WWW der wichtigste Teil des
Internets, aber die Newsgroups und E-mail Adressen sind auch vom Interesse.
Meta-Suchmaschinen die auch diese in Betracht ziehen sind höher zu schätzen
als andere.
3. Sucheigenschaften: Die Möglichkeiten der Meta-Suchmaschinen sind in dieser
Hinsicht sind begrenzt, aber trotzt dem dürfen sie nicht außer Acht gelassen
werden, so sind z.B. Stichwortsuche, Begriffssuche und Wortsuche mit den
Optionen AND, OR, NEAR zwar Standard aber gerade einige MetaSuchmaschinen haben dies in ihrem Angebot der Optionen nicht berücksichtigt.
4. Zeit und Treffer: Da die Meta-Suchmaschinen andere Suchmaschinen benutzen,
sind sie auf deren Zeitverhalten angewiesen. Dies kann im schlimmsten Fall dazu
führen, das sie auf die Ergebnisse sehr lange warten müssen. Um dies zu
vermeiden bieten einige Meta-Suchmaschinen die Möglichkeit die Suche zeitlich
und/oder nach der Anzahl der Treffer zu begrenzen.
5. Fokussierung der Suche: Angeboten werden die Möglichkeiten, die Suche
geographisch(nach dem Land), nach Organisationstyp (com, org, etc.) oder nach
Themenbereiche zu Konzentrieren. Gute Fokussiermöglichkeiten bietet der
Internet Sleuth.
6. Überprüfung der Ergebnisse: Diese Eigenschaft ist sehr wichtig für die MetaSuchmaschinen, weil der größte Teil der gefundenen Seiten von allen befragten
Suchmaschinen zurückgeliefert wird. Gute Meta-Suchmaschinen führen eine
Filterung der Ergebnisse durch, wobei mehrfach vorhandene Seiten nur einmal in
der Display Liste aufgenommen werden. Leider trifft dies nur in seltenen Fällen
zu. In der Regel besteht der überwiegende Teil der Treffer bei der Suche aus
Wiederholungen.
6 Vergleich der gängigen Meta-Suchmaschinen:
MetaCrawler (1995) befragt gleichzeitig 9 Suchmaschinen. Er benutzt diese
Suchmaschinen und präsentiert deren Ergebnisse in einem einheitlichen Format. Die
Ergebnisse werden auf Relevanz überprüft und von Duplikaten gereinigt. Es kann
zwischen dem Normal- und dem Verification-Modus gewählt werden, im
Verification Modus werden die erhaltenen Ergebnisse auf ihre Relevanz für den
Anwender geprüft. Es bietet sich auch die Möglichkeit einer geographisch
begrenzten Suche, die sich z.B. auf ein Land oder einen Kontinent etc. beschränkt.
Es kann auch zwischen com, edu und anderen Typen gewählt werden.
GlOSS (Glossary-of-Servers Server) Benutzt einen Index der aus den Indexen der
einzelnen Suchmaschinen zusammengesetzt ist. Für jedes Wort und Suchmaschine
wird die Anzahl der Dokumente, die dieses Wort enthalten und in der Suchmaschine
8
eingetragen sind, im Index Verwaltet. Aus dieser Information werden die relevanten
Maschinen ermittelt und mit der Suche beauftragt.
SavvySearch (1995) arbeitet mit 26 Suchmaschinen (Aliweb, Alta Vista, CSTR,
Deja News, excite, EINET, Galaxy, Four11+Lookup!, FTPSearch95, Infoseek,
Inktomi, InReference, Internet Movie, Database, LinkStar, Lycos, Magellan,
NlightN, OKRA, Open Text, Pathfinder, Point Search, Shareware.com, SIFT, Tribal
Voice, Webcrawler, Who Where?, Yahoo, YellowPages). Hier werden die
Suchmaschinen in Gruppen unterteilt und gemäß ihrer Prioritäten geordnet. Nach
diesen Kriterien werden die Suchmaschinen befragt. Diese Suchmaschine ist unten
im Kapitel 7 näher beschrieben.
Husky Search bietet zusätzlich die Möglichkeit, die erhaltenen Ergebnisse nach
Ort, Organisation etc. zu sortieren.
Dogpile benutzt 13 Suchmaschinen, sowie zusätzlich 6 Maschinen für Usenet und 2
für FTP.
Highway61 benutzt die folgenden 6 Maschinen: Yahoo, Altavista, Lycos,
WebCrawler, Infoseek, Excite.
Tabelle: Einige Meta-Suchmaschinen
Internet Sleuth
Metasearch
Savvysearch
Superseek
Consecutive
List
Simultan
Simultan
Anzahl
der 2000!
Suchmaschinen
6 auf einmal
7
28
9
Suchgebiete
WWW/Usenet/
people
WWW
WWW/Usenet/
people
WWW/Usenet
Focus
Ja
Nein
Nein
Nein
Zeitlimit
Ja
Nein
Nein
Nein
Trefferlimit
Nein
Ja
Ja
Nein
Typ
9
7 Detaillierte Funktionsweise einer Meta-Suchmaschine am
Beispiel des SavvySearch:
Das Ziel einer Meta-Suchmaschine ist es, die vom Anwender (User) gesuchte
Information zu finden und zur Verfügung zu stellen. Ein für diesen Zweck übliches
Verfahren ist das „inverted index“ Verfahren. In diesem Verfahren werden die Wörter
zu den Dokumenten, die diese Wörter enthalten, in Beziehung gesetzt. Jedes Wort ist
in einem Index enthalten, sowie zusätzlich auch eine Anzahl von Zeigern (Pointers)
auf die Dokumente, in denen es vorkommt, gespeichert. Es können auch
Informationen, wie die Anzahl der Treffer, verwandte Begriffe oder Themen etc. mit
gespeichert werden, so das die weitere Suche schneller erfolgen kann.
SavvysSearch benutzt zwei Eigenschaften für diese Suche, „tf“ und „idf“. Tf ist die
Term-Frequency. Das ‚tf‘ bewirkt, das ein Dokument, in dem der gesuchte Begriff
(Term) häufiger vorkommt, als bedeutungsvoller für den Suchvorgang betrachtet wird.
Die „idf“ ist die Invers-Document-Frequency, werden nämlich mehrere Wörter
gleichzeitig gesucht z.B. „Mittelalterliche Geschichte“, so ist das Wort, das seltener
vorhanden ist, für die Suche relevanter als Worte die öfters vertreten sind, so ist in
diesem Beispiel das Wort „Mittelalterliche“ wichtiger als das Wort „Geschichte“, weil
es in dem Index weniger oft vorhanden ist. In dem Suchalgorithmus werden nun diese
beiden Frequenzen miteinander multipliziert und als Maß für die Relevanz der
Dokumente benutzt.
Die Zahl der zur Verfügung stehenden Suchmaschinen, ist sehr groß (über 2000). Eine
Suche an sie alle weiter zu leiten, wäre also nicht nur sehr kostspielig, sondern auch
eine Verschwendung von Resourcen im Internet, deshalb müssen Prioritäten gesetzt
werden. Wird der SavvySearch vom User beauftragt einen Begriff zu suchen, so
befragt er einige der ihm zur Verfügung stehenden Suchmaschinen und leitet die Suche
an diese weiter. Im folgenden werden wir diesen Vorgang näher erläutern.
Es gibt vier Ursachen, die die Suche erschweren:
1) die Daten sind nicht direkt zugänglich, weil das Web von anderen Suchmaschinen
indiziert wird und nicht von Meta-Suchmaschinen.
2) beide sowohl Allgemeine als auch spezifische Suchmaschinen müssen benutzt
werden.
3) die Stärken und Schwächen der einzelnen Suchmaschinen ändern sich ständig.
4) der Gebrauch der Resourcen im Internet muß im Verhältnis zu den erbrachten
Leistungen stehen.
Diesen vier Problemen wird bei SavvySearch durch folgende drei Ansätze
entgegengewirkt:
10
1) Ein Meta-Index wird hergestellt, der die Erfolge und Mißerfolge bei einer Suche
mitberücksichtigt.
2) Suchmaschinen werden sowohl nach dem Meta-Index als auch nach deren
Performance Search-Engine Ranking beurteilt.
3) Der Grad des Parallelismus wird von der zur Zeit der Suche im Web herrschenden
Situation bestimmt.
Im folgendem werden diese drei Ansätze genauer angesprochen:
1. Meta-Index: Mit Hilfe des Meta-Index versucht das SavvySearch die Effektivität
der Suchmaschinen bezüglich der Suchterme abzuschätzen. Es ist eine t-mal-n
Matrix, wobei t die Anzahl der Terme und n die der Suchmaschinen bezeichnet.
Ein Eintrag in dieser Matrix faßt die Geschichte des n-ten Engines in Bezug auf die
Suche nach dem Term t zusammen. Positive bzw. Negative Einträge deuten auf
eine Positive bzw. Negative Leistung hin. Die Performance der Suchmaschinen
ändert sich sobald neue Algorithmen und Suchstrategien angewandt werden.
Deshalb wird der Meta-Index beim SavvySearch Täglich auf den neuesten Stand
gebracht. Die Effektivität einer Suchmaschine wird durch zwei Ereignisse
bestimmt. Erstens ‚No Results‘ und zweitens ‚Visits‘. Ein No Result Ereignis tritt
in dem Fall auf, wenn eine Suche nach einem Term erfolglos geblieben ist, es wird
daher entsprechend Negativ bewertet. Ein Visit dagegen zeigt an, daß der User
einen von der Suchmaschine vorgeschlagenen Link verfolgt hat, dieses Ereignis
wird Positiv bewertet. Bei einer Suche nach mehreren Begriffen wird der
Gesamtwert geteilt (so z.B. 1/3 für jeden Term bei 3 Termen).
2. Search Engine Ranking: Die Beurteilung der Suchmaschinen soll Auskunft
darüber geben, welche der Maschinen am ehesten dafür geeignet ist, relevante
Resultate bei einer Suche zu liefern. Hierzu werden zwei Parameter benutzt, 1. ob
eine bestimmte Suchmaschine über einen längeren Zeitraum hinweg gute
Ergebnisse geliefert hat und 2. ob aus der jüngsten Vergangenheit gute Ergebnisse
vorliegen. Die Performance über einen längeren Zeitraum wird mit folgender
Formel berechnet:
11
Q q, s = ∑
t∈ q
M t , s. I t
Ts
Q ist der Relevanzwert für die Suchmaschine s mit Suchstring q; M ist der
entsprechende Wert für den Term t und die Suchmaschine s; I ist der inverse value
für Term t und wird ähnlich berechnet wie die term frequency, und invers
document frequency für terme in einem Dokument. T ist der absolute Wert für alle
Meta-Index werte einer Suchmaschine.
Der invers value wird seinerseits mit der folgenden Formel berechnet :
It = log
N
ft
Wobei N die Gesamtzahl aller benutzten Suchmaschinen und f die Zahl der
Einträge für t im Meta-index ist. Die recent performance, also die Leistung in der
jüngsten Vergangenheit wird anhand der letzten fünf Suchen bestimmt.
3. Parallelismus: Je höher die Belastung der Meta-Suchmaschine, desto kleiner ist
die Anzahl der Suchmaschinen, die gleichzeitig benutzt werden. Hierei werden u.a.
die Belastung des Savvysearch (d.h., die Suchanforderungen pro Zeiteinheit) sowie
die Belastung der lokalen CPU berücksichtigt. Außerdem wird der Discrimination
value beachtet. Dieser besagt, daß wenn viele Daten zu einem Term vorhanden
sind, so wird dieser Term vermutlich von vielen Suchmaschienen abgedeckt,
folglich werden nur wenige Suchmaschinen gebraucht, um ausreichend gute
Ergebnisse zu erhalten.
12
Links und Literaturhinweise:
1. Ulrich Babiak : Effektive Suche im Internet, Suchstrategien, Methoden, Quellen.
O’Reilly Köln 1997
2. Erik Selberg and Oren Etzioni : Multi-service Search and comparision using the
Meta Crawler. In Proceedings of the 4th International World wide Web Conference.
Dec. 1995
3. Experiences with selecting Search engines using Meta-search :
http://www.cs.colostate.edu/howe
4. Erik Selberg and Oren Etzioni : The Meta Crawler Search engine:
http://www.metacrawler.cs.washington.edu:8080/home.html 1995
5. Jian Liu . Understanding WWW Search Tools: http://indiana.edu/~librcsd/search/
6. Altavista: http://www.altavista.com
7. InternetSleuth: http://www.isleuth.com
8. Lycos: http://www.lycos.com
9. Meta Crawler: http://www.metacrawler.com
10. Open Text Web Index: http://www.opentext.com/omw/f-omw.html
11. SavvySearch: http://www.savvysearch.com
12. Yahoo: http://www.yahoo.com oder http://www.yahoo.de (Deutsch)
13