Internet-Suchmaschinen Kapitel 1: Einführung

Transcription

Internet-Suchmaschinen Kapitel 1: Einführung
Internet-Suchmaschinen
Kapitel 1:
Einführung
Norbert Fuhr
25. Oktober 2012
Inhaltsverzeichnis
1 Einführung
1.1 Internet-Suche . . . . . . . . . . . . .
1.1.1 Suchqualität . . . . . . . . . .
1.2 Informationskompetenz . . . . . . . .
1.3 Suchkompetenz . . . . . . . . . . . . .
1.4 Information Retrieval . . . . . . . . .
1.4.1 Was ist Information Retrieval?
1.5 Daten – Information – Wissen . . . . .
1.6 Rahmenarchitektur für IR-Systeme . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
2
3
4
7
7
8
9
Kapitel 1
Einführung
1.1
Internet-Suche
Internet-Suche ist eine Funktion, die heute von vielen Menschen täglich genutzt wird. Das Populärste
Beispiel ist die Web-Suche (wo Google und Bing heute in der westlichen Welt quasi unsere Sicht auf das
Web diktieren). Daneben gibt es aber auch eine Reihe anderer Web-basierter Anwendungen, wo die Suche
eine große Rolle spielt. Dies ist neben der Intranet-Suche (organisationsinterne Variante der Web-Suche)
zum Beispiel die Produktsuche in Internet-Shops, die Suche in Online-Publikationen (wie z.B. im InternetAngebot von Zeitungen oder anderen Medienunternehmen) die für die Wissenschaft bedeutsame Suche in
Digitale Bibliotheken oder auch die Suche in multimedialen Datenbeständen wie z.B. in Bild-, Video- oder
Musikdatenbanken.
Die verschiedenen Arten der Suche lassen sich u.a. durch folgende Facetten charakterisieren:
Sprache: Neben der monolingualen Suche kann man auch cross-linguale Anwendungen betrachten wie
etwa bei 1 Google Übersetzer, oder es sind sogar multilinguale Suchen möglich (noch im Forschungsstadium).
Struktur: Werden Dokumente meist als atomare Einheiten betrachtet, so geht man bei der Literatursuche üblicherweise von einer Feldstruktur aus, um zwischen Titel, Autoren und Kurzfassung zu
unterscheiden. Daneben berücksichtigt die Web-Suche teilweise die Graph-Struktur der Verlinkung,
und bei der Suche in XML-Dokumenten geht man üblicherweise von einer baumartigen Struktur aus.
Medien: IR-Methoden lassen sich nicht nur auf Text anwenden, sondern auch auf Fakten, auf Bilder
(2 Gazopa), Audiodaten wie Sprache oder Musik (3 Shazam), auf Videos oder 3D-Daten usw.
Objekte: Es gibt spezialisierte Suchmaschinen, die nach bestimmten Objekttypen suchen, wie z.B. die
zahlreichen Buch-Suchmaschinen, nach Personen (4 123people, 5 Yasni) oder Firmen (6 Firmenfinden).
Statische/dynamische Inhalte: Während die meisten Suchmaschinen von statischen Inhalten ausgehen
(die gleichwohl in regelmäßigen Intervallen aktualisiert werden können), gibt es auch Anwendungsbereiche, wo man von einem stetigen Strom neuer Dokumente ausgeht, wie z.B. bei Nachrichten
(7 news.google.de) oder Twitter-Meldungen (8 search.twitter.com).
1.1.1
Suchqualität
Ein wichtiges Kriterium bei der Auswahl eines Dienstes ist für die Benutzer die Suchqualität. Wir werden
dieses Thema später noch ausführlicher behandeln, daher sollen hier nur die Grundbegriffe eingeführt
werden.
1 http:///translate.google.de
2 http://www.gazopa.com
3 http://www.shazam.com
4 http://www.123people.de
5 http://www.yasni.de
6 http://www.firmenfinden.de
7 http://news.google.de
8 http://search.twitter.com
2
KAPITEL 1. EINFÜHRUNG
3
Grundsätzlich gehen wir hier davon aus, dass der Benutzer nach relevanten Dokumenten zu seiner
Anfrage sucht, und dass er sich einen bestimmten Teil der Ergebnisrangliste anschaut (z.B. die ersten zehn
Antworten), den wir hier ’Menge der gefundenen Dokumente’ nennen und mit GEF bezeichnen. Ferner
sei REL die Menge der relevanten Objekte in der Datenbank und ALL die Gesamtzahl der Dokumente in
der Datenbank.
Basierend auf diesen Mengen lassen sich dann die Maße Precision und Recall wie folgt definieren:
Precision:
p :=
|REL ∩ GEF |
|GEF |
Recall:
r :=
|REL ∩ GEF |
|REL|
Hierbei gibt die Precision den Anteil der relevanten an den gefundenen Dokumenten wieder. Recall
dagegen bezeichnet den Anteil der relevanten Dokumente, die tatsächlich gefunden wurden.
Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur
aktuellen Anfrage enthält. Ein System liefert 10 Dokumente, von denen 8 relevant sind. Dann erhält man
folgende Werte:
p
=
r
=
8
|REL ∩ GEF |
=
= 0.8
|GEF |
10
|REL ∩ GEF |
8
=
= 0.4
|REL|
20
Bei der Web-Suche selbst ist häufig nur die Precision von Interesse, deren Wert ein Benutzer auch unmittelbar abschätzen kann. Recall dagegen ist schwieriger abzuschätzen, da man die Menge aller relvanten
Antworten meist nicht kennt. Bei spezifischen Suchaufgaben spielt der Recall aber eine wichtige Rolle, etwa
bei der Suche nach dem günstigsten Angebot oder dem nächstgelegenen Anbieter für ein Produkt oder
eine Dienstleistung. Wir werden später einige Methoden kennenlernen, wie man den Recall abschätzen
kann.
1.2
Informationskompetenz
Um Informationsangebote sinnvoll nutzen zu können, ist eine entsprechende Informationskompetenz unabdingbar. Zwar ist der Zugriff auf das WWW heute zwar schon für Grundschulkinder eine Selbstverständlichkeit, aber es ist offensichtlich, dass sie aufgrund fehlender Kompetenzen nur einen sehr kleinen Teil des
Informationsangebotes sinnvoll nutzen können. Wie wir nachfolgend zeigen werden, verfügen aber selbst
Akademiker in der Regel über eine eingeschränkte Informationskompetenz (zumindest was außer-fachliche
Inhalte angeht).
Generell wird Information bzw. Wissen als Entscheidungsgrundlage benötigt. Wie aber schon in
[Bandura 97]bemerkt wird People’s actions are based more on what they believe than on what is
”
objectively true”’. In dem derzeit populären Buch des Wirtschaftsnobelpreisträgers David Kahneman
[Kahneman 11] wird dieses Phänomen als What you see is all there is (WYSIATI) bezeichnet, d.h.
”
”
wir neigen dazu, Entscheidungen allein aufgrund der vorhandenen Information zu fällen, ohne uns darüber
klar zu werden, dass diese unzureichend ist. Demgemäß bezeichnet Informationskompetenz die Fähigkeit,
sich eine ausreichende Entscheidungsgrundlage zu beschaffen. Dieser Prozess besteht aus folgenden sechs
Schritten
1. Aufgabendefinition: Das Informationsproblem wird zunächst definiert, und das zugehörige Informationsbedürfnis wird identifiziert.
2. Informations-Beschaffungs-Strategien: Es werden alle möglichen Informationsquellen bestimmt, von
denen dann die besten ausgewählt werden. Solche Quellen können insbesondere auch andere Personen
sein, mit denen man anschließend kommuniziert.
3. Lokalisierung und Zugriff. Die Quellen werden zuerst intellektuell und physisch lokalisiert, und dann
die Information innerhalb der Quelle gesucht und gefunden.
KAPITEL 1. EINFÜHRUNG
4
4. Benutze die Information: Hierzu schaut man sich das gefundene Dokument/Objekt an (lesen, hören,
betrachten, anfassen), und extrahiert dann die relevante Information.
5. Synthese: Die Information aus den verschiedenen gefundenen Quellen wird organisiert, und anschließend präsentiert.
6. Bewertung: Abschließend wird sowohl das Produkt beurteilt—dies betrifft den Aspekt der
Effektivität—als auch der Prozess im Hinblick auf seine Effizienz bewertet.
Die Bewältigung dieser Schritte setzt eine Reihe weiterer Fähigkeiten voraus:
1. Aufgabendefinition: Der Benutzer muss in der Lage sein, den Informationsbedarf zu erkennen.
2. Informations-Beschaffungs-Strategien: Der Benutzer muss sowohl passende Strategien kennen, als
auch die Quellen, die potenziell relevante Information beinhalten.
3. Lokalisierung und Zugriff: Der Benutzer muss die Information lokalisieren können (z.B. durch eine
Webseite navigieren) als auch zielgerichtet die relevante Information selektieren können
4. Benutze die Information: Hierzu muss man in der Lage sein, gefundene Information passend zu
organisieren.
5. Synthese: Gefundenen Information muss mit dem bisherigen Wissen kombiniert werden und dann
zur Präsentation aufbereitet werden.
6. Bewertung: Man muss in der Lage sein, Information kritische zu beurteilen.
Eng mit der Informationskompetenz verknüpft sind eine Reihe benachbarter Kompetenzen:
• Bibliothekskompetenz bezieht sich auf die Fähigkeit, eine Bibliothek (physisch oder digital) zu nutzen
• Computerkompetenz betrifft die generelle Nutzung eines Computers.
• Digitalkompetenz ist die Fähigkeit, über Computer dargestellte Informationen unterschiedlicher Formate verstehen und anwenden zu können.
• Internet-Kompetenz bezieht sich auf die Nutzung des Internet allgemein.
• Suchkompetenz ist die Fähigkeit, effektiv in Informationssystemen zu suchen (s.u.).
• Kommunikationskompetenz betrifft die Kommunikation mit anderen Personen auf allen möglichen
Kanälen
• Lesekompetenz ist die grundlegende Fähigkeit, Info.rmation aus Texten zu extrahieren.
• Medienkompetenz bezieht sich auf den Umgang mit allen möglichen Medien—vom einfachen Text
bis hin zur Navigation in virtuellen Welten.
• Schreibkompetenz ist schließlich die Fähigkeit, Gedanken niederzuschreiben.
1.3
Suchkompetenz
Um effektiv suchen zu können, muss der Benutzer idealerweise Kenntnis über den grundsätzlichen Aufbau einer Suchmaschine sowie folgende Aspekte ihrer Funktionalität verfügen: Suchbarkeit, linguistische
Funktionen, Anfragesprache und Ranking. Fernere sollte man ein Repertoire an geeigneten Suchtaktiken
und Strategien beherrschen, um die Suche erfolgreich vorantreiben zu können.
Abbildung 1.1: Aufbau einer Web-Suchmaschine
KAPITEL 1. EINFÜHRUNG
5
Aufbau einer Web-Suchmaschine Eine Web-Suchmaschine besteht grundsätzlich aus folgenden wesentlichen Komponenten (siehe Abbildung 1.1):
Crawler Diese Komponente sammelt die Dokumente aus dem Web auf. Hierzu startet der Crawler mit
einer Liste von Web-Servern, deren Dokumente zuerst abgefragt werden, und von wo aus dann Links
zu neuen Quellen verfolgt werden.
Parser/Indexer Jedes Dokument wird geparst, der reine Text extrahiert, in einzelne Wörter zerlegt, dann
linguistische Algorithmen und Gewichtungsmethoden angewandt ( indexiert“) und das Ergebnis der
”
Datenbank übergeben.
Datenbank Diese dient zur Speicherung der extrahierten und aufbereiteten Daten in geeigneten Datenstrukturen, um eine möglichst effiziente Suche zu erlauben.
Searcher Der Benutzer greift über seinen Browser auf das Such-Interface zu, das die Anfragen an die
Datenbank übergibt und die Antwortrangliste geeignet aufbereitet und an den Benutzer zurückgabt.
Suchbarkeit Hierbei geht es um die Frage, welche Dokumente potenziell überhaupt durch die Suchmaschine gefunden werden können. Nicht jedes Dokument, auf das man mit dem Browser zugreifen und sich
anzeigen lassen kann, ist auch suchbar.
• Grundvoraussetzung ist zunächst, dass die Suchmaschine überhaupt Zugriff auf das Dokument hat.
So sind zunächst einmal generell nur öffentlich zugängliche Dokumente suchbar. Eine Ausnahme
hiervon bilden einige Verlage und Bibliotheken, die den Suchmaschinen das Indexieren von Dokumenten erlauben, zu denen tatsächlich nur ein eingeschränkter Zugang (z.B. kostenpflichtig oder nur
ausschnittsweise Anzeige) möglich ist. Ferner muss die Suchmaschine selbst erst einmal durch das
Verfolgen von Links auf das Dokument stoßen; dies ist insbesondere bei vielen Datenbankinhalten
(z.B. Bibliothekskatalog) nicht der Fall. Schließlich kann der Betreiber einer Website in einer Datei
robots.txt den Suchmaschinen mitteilen, welche Dokumente trotz freiem Zugang nicht indexiert
werden sollen.
• Ein weiteres Hindernis ist die Aktualität einer Webseite: Da die Suchmaschine im pull-Modus auf
die Seiten zugreift, dauert es nach Änderungen eine Weile, bis die Suchmaschine die neuen Inhalte
indexiert. Diese Zeitspanne hängt von der Strategie ab, mit der die Suchmaschine die Änderungsintervalle festlegt—bei Nachrichtenseiten liegen diese im Stundenbereich, bei anderen Seiten kann dies
bis zu mehreren Wochen dauern.
• Die Suchmaschinen indexieren außer HTML nur einige wenige gängige Textformate (wie etwa txt,
pdf, doc, ppt) und ignorieren weniger verbreitete Formate. Insbesondere können nur Texte indexiert
werden—Faksimile-Dokumente bleiben ebenso außen vor wie etwa als Grafik dargestellter Text in
HTML-Seiten (wobei dort aber der Text üblicherweise im alt-Attribut wiederholt wird).
• Schließlich bildet die Sprache noch ein weiteres Hindernis bei der Suche—die Suchmaschine kann
i.d.R. die Anfrage nicht in andere Sprachen übersetzen.
Linguistische Funktionen Übliche Suchfunktionen, wie man sie in Texteditoren (oder auch im Browser
selbst—Strg-F) findet, basieren auf einem reinen Zeichenkettenvergleich. Für eine inhaltsorientierte Suche
ist dies aber völlig unzureichend, weshalb eine Reihe von linguistischen Funktionen zum Einsatz kommt,
um auch Varianten der eingegebenen Suchbegriffe zu finden.
Wortnormalisierung versucht, verschiedene Schreibweisen eines Wortes zusammenzuführen. Außer der
fehlenden Unterscheidung zwischen Groß- und Kleinschreibung betrifft dies neben Abkürzungen und
Rechtschreibvarianten insbesondere auch die Zusammen- vs. Getrenntschreibung oder BindestrichVarianten. Beispiele: meta tag – meta-tag – metatag – meta tag’s, colour – color, Prozess – Prozeß
Grundformreduktion Üblicherweise werden alle Wörter auf ihre linguistische Grundform (Lemma) reduziert, also den Nominativ Singular bei Nomen, den Infinitiv bei Verben sowie die ungesteigerte
Form (Positiv) bei Adjektiven und Adverbien. Beispiele: Häuser – Hauses – Hause – Haus, Duisburg
– Duisburgs, aber nicht Duisburger, da letzteres ein Adjektiv ist. Möchte man die Grundformreduktion unterdrücken, so kann man den Suchterm in Anführungsstriche setzen.
Phrasen Insbesondere die aus Nomen bestehenden Nominalphrasen spielen in eine wichtige Rolle (z.B.
Wahl des Bundestages). Hierzu bieten Suchmaschinen üblicherweise eine Art Abstandssuche an.
Beispiele: ”information retrieval”, ”retrieval * information”
KAPITEL 1. EINFÜHRUNG
6
Komposita sind zusammengesetzte Begriffe wie etwa Einfamilienhaus, Reihenendhaus, Doppelhaushälfte.
Diese werden nur in Einzelfällen als Teil der Wortnormalisierung in ihre Komponenten zerlegt..
Synonyme Durch den speziellen Operator ∼ ist es möglich, neben dem eingegebenen Suchterm auch
nach allen (im Wörterbuch der Suchmaschine hierzu verzeichneten) Synonymen zu suchen. Beispiel:
Handy Mobiltelefon Smartphone / ∼handy
Anfragesprache Die Kenntnis der Anfragesprache erlaubt es, auch komplexere Anfragen zu formulieren:
Boolesche Operatoren: Üblicherweise werden alle Suchbegriffe implizit mit einem logischen UND verknüpft, ODER erlaubt die Disjunktion, und die Negation wird durch ein dem Suchterm vorangestelltes
Minuszeichen ausgedrückt. Beispiel: handy -vertrag.
Zahlenbereiche können durch .. formuliert werden, wie etwa 100..200 EURO.
Facetten erlauben die Einschränkung der Antwortmenge anhand einer Reihe von Aspekten, wie etwa
Objekttyp (Bilder/Maps/Videos/News/Shopping/..), Standort, Sprache oder Zeitraum.
Feld-Prädikate beschränkten die Suche des betreffenden Wortes auf Felder wie die URL (inurl:), den
Ankertext auf das betreffende Dokument verweisender Seiten (inanchor:, den Titel des Dokumentes
(intitle: oder den eigentlichen Text .(intext:. So sucht etwa duisburg -intext:duisburg nach
allen Seiten zu Duisburg, bei denen Duisburg im Text selbst nicht vorkommt. Zusätzlich gibt es diese
Prädikate noch mit dem Präfix all; schreibt man dieses an den Beginn der Anfrage, müssen alle
folgenden Suchterme diese Bedingung erfüllen.
URL-Prädikate beziehen sich auf die URL und Verlinkung der gesuchten Dokumente: site: sucht nach
Seiten auf einer Website, link: nur nach Seiten, die auf die angegebene URL verweisen, filetype:
spezifiziert den Dateityp des gesuchten Dokumentes, und related: auf Seiten mit den gleichen einund ausgehenden Links. So sucht etwa link:uni-due.de -site:uni-due.de nach Seiten außerhalb
der UDE, die auf die Startseite der Uni verweisen.
Ranking Da üblicherweise sehr viele Seiten die Suchbedingungen erfüllen, erstellt das System eine Rangordnung (Ranking der Antworten). Für den Nutzer ist es wichtig zu wissen, welche davon ihm auf der
ersten Ergebnisseite gezeigt werden (nur etwa 10% aller Nutzer schauen sich weitere Ergebnisseiten an).
Die konkrete Rankingfunktion ist das Geschäftsgeheimnis der Suchmaschinenbetreiber und wird zudem
ständig weiterentwickelt. Generell spielen folgende Faktoren dabei eine Rolle:
• Die Suchbegriffe kommen häufig in der Seite vor.
• Die Suchbegriffe kommen in Ankertexten vor.
• Page rank ist die Popularität einer Seite anhand ihrer Verlinkung mit anderen (populären) Seiten
• Nutzer-Klicks auf Anworten werdne hetue standardmäßig alle protokolliert, damit das System lernt,
welche Seiten bevorzugt angeklickt werden. Hierbei geht nicht nur die Gesamtheit aller Klicks zur
selben Anfrage, sondern auch die Klicks des betreffenden Nutzers bei früheren Anfragen sowie ggfs.
die Klicks seiner Freunde aus Google+ in die Bewertung einer Seite ein.
Aufgrund der Fülle an Merkmalen kann kein einfaches Retrievalmodell (wie in den folgenden Kapiteln
beschrieben) allein eingesetzt werden, sondern es wird ein learning to rank -Ansatz [Fuhr 89, Liu 11] angewendet, der auf den Klick-Daten trainiert wird.
Da es für viele Unternehmen geschäftlich fast unabdingbar ist, auf der ersten Ergebnisseite zu landen,
gibt es das Gewerbe der Search engine optimization. Hier beschäftigt man sich mit der Optimierung von
Webseiten, so dass diese oben in der Trefferliste erscheinen. Allerdings gibt es auch das Phänomen des
Web spam, wo Seitenbetreiber auch kaum oder gar nicht zutreffende Anfragen auf ihre Seite lenken wollen.
Die Suchmaschinenbetreiber versuchen, solche Seiten automatisch zu erkennen, und haben daher Regeln
aufgestellt, was als Search engine optimization noch erlaubt und was bereits als Web spam angesehen wird.
Auch diese Regeln und damit die Grenze zwischen erlaubter und unerlaubter Optimierung verändern sich
ständig.
Suchtaktiken und Strategien Komplexere Informationsbedürfnisse erfordern i.d.R. eine ganze Reihe
von Anfragen, um sich schrittweise dem Ziel zu nähern. Erfahrene Sucher verfügen daher über ein Repertoire an Taktiken und Strategien, um den Suchprozess effektiv zu gestalten. Eine Strategie ist ein
Plan zur Durchführung einer komplexen Suche. Taktiken bezeichnen einzelne Aktionen, die die Suche
vorantreiben [Bates 79] unterscheidet dabei folgende Arten:
KAPITEL 1. EINFÜHRUNG
7
Monitoring-Taktiken überwachen den Fortgang des Prozesses, registrieren Abweichungen vom ursprünglichen Suchziel und versuchen, dieses weiterhin effizient anzusteuern.
Strukturelle Taktiken arbeiten auf der Menge der potenziellen Antworten, indem diese z.B. mit Hilfe
der o.g. Facetten eingeschränkt wird.
Suchformuli.erung Je nach Bedarf versucht man die Frage zu verbreitern oder einzuengen, indem man
etwa mehr oder weniger Terme in der Anfrage verwendet.
Term-Taktiken beziehen sich auf die Auswahl und die Variation der Suchterme
Ideen-Taktiken betrachten die noch offenen Suchmöglichkeiten sowie Variationen der bisherigen Anfragen
1.4
Information Retrieval
Betrachtet man die oben diskutierten Aspekte der Internet-Suche, so erkennt man deutliche Unterschiede
zur Suche in klassischer Datenbanksystemen, die strukturierte Daten verwalten:
• Die Formulierung einer zum aktuellen Informationsbedürfnis passenden Anfrage bereitet erhebliche
Probleme.
• Meistens durchläuft der Prozess der Anfrageformulierung mehrere Iterationen, bis passende Antworten gefunden werden.
• Anfragen liefern potentiell sehr viele Antworten, aber nur wenige davon sind für den Nutzer interessant.
• Das vorgenannte Problem entschärft sich durch die vom System bereitgestellte Rangordnung der
Antworten, wodurch potentiell relevante Antworten gehäuft am Anfang der Rangliste auftauchen
(z.B. betrachten bei Internet-Suchmaschinen mehr als 90% aller Nutzer nur die ersten 10 Antworten)
• Bei Textdokumenten, aber noch stärker bei Bildern zeigt sich, dass die systemintern verwendete
Repräsentation des Inhalts von Dokumenten teilweise inadäquat, auf jeden Fall aber mit Unsicherheit
behaftet, ist.
Das Wissenschaftsgebiet, das sich mit Informationssuchen dieser Art beschäftigt, bezeichnet man als
Information Retrieval. Erste Arbeiten hierzu gab es schon in den 1950ern durch Hans Peter Luhn bei IBM,
der sich u.a. mit Wortstatistiken beschäftigte. Populärster Pionier war Gerard Salton, der ab 1960 zunächst
in Harvard und dann an der Cornell University an der Entwicklung des Retrievalsystems SMART arbeitete.
Auf der Anwendungsseite entstanden ab 1962 erste Online-Informationssysteme, die hauptsächlich Nachweissysteme waren (es wurden nur die bibliografischen Angaben sowie eine Kurzfassung der Dokumente
gespeichert, den Volltext musste mansich auf anderem Wege beschaffen). Die Nutzung dieser Systeme
war wegen der Netzwerk- und Computerkosten relativ teuer und daher auf einen kleinen Anwenderkreis
beschränkt. Erst 1991 entstand mit 1991 WAIS (Wide area Information System) das erste frei verfügbare
Retrievalsystem im Internet, das zudem eine verteilte Suche ermöglichte. Nach der Einführung des WWW
1993 kam 1994 mit Webcrawler die erste Internet-Suchmaschine,.
1.4.1
Was ist Information Retrieval?
Zur Definition des Gebietes legen wir hier die Beschreibung der Aufgaben und Ziele der Fachgruppe
Information Retrieval“ innerhalb der Gesellschaft für Informatik“ zugrunde:
”
”
Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozess des
”
Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die
Fachgruppe Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunkt”
mäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen
entstehen. Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im
Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können; häufig müssen zudem mehrere Datenbasen zur Beantwortung einer einzelnen Anfrage
durchsucht werden. Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip
nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation
KAPITEL 1. EINFÜHRUNG
Daten
syntaktisch
definierte
Verfahren der
Daten−
verarbeitung
8
Information
semantisch
begründete
Verfahren der
(Wissen−)
Repräsentation
Wissen
pragmatisch
kontrollierte
Wissens−
erarbeitung zur
informationellen
Handlungs−
absicherung
Abbildung 1.2: Daten – Information – Wissen
von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); darüber hinaus werden auch solche Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind
(wie z.B. bei vielen technisch-wissenschaftlichen Datensammlungen). Aus dieser Problematik ergibt sich
die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem
weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung
seines Anwendungsproblems beurteilt werden sollte.“
Als kennzeichnend für das Gebiet werden somit vage Anfragen und unsicheres Wissen angesehen. Die
Art der Darstellung des Wissens ist dabei von untergeordneter Bedeutung.
Oftmals wird IR auch eingeschränkt auf die inhaltsorientierte Suche in (multimedialen) Dokumenten
betrachtet. (Tatsächlich behandeln wir in diesem Skriptum fast ausschließlich Modelle und Methoden aus
diesem Bereich.) Für diese Art der Suche kann man folgende Abstraktionsstufen unterscheiden:
Syntax: Hierbei wird ein Dokument als Folge von Symbolen aufgefasst. Methoden, die auf dieser Ebene operieren, sind z.B. die Zeichenkettensuche in Texten sowie die Bildretrievalverfahren, die nach
Merkmalen wie Farbe, Textur und Kontur suchen.
Semantik beschäftigt sich mit der Bedeutung eines Dokumentes. Methoden zur Repräsentation der Semantik eines Textes haben eine lange Tradition im Bereich der Wissensrepräsentation; semantisches
Bildretrieval müsste die Suche nach Bildern unterstützen, die z.B. bestimmte (Klassen von) Objekten
enthalten (Menschen, Häuser, Autos,. . . ).
Pragmatik orientiert sich an der Nutzung eines Dokumentes für einen bestimmten Zweck. Zum Beispiel
sucht ein Student Literatur zur einem vorgegebenen Seminarthema. Bildarchive werden häufig von
Journalisten in Anspruch genommen, um einen Artikel zu illustrieren; dabei ist meist das Thema
vorgegeben, aber nicht der semantische Bildinhalt.
Generell lässt sich festhalten, dass Nutzer meistens an einer Suche auf der pragmatischen Ebene interessiert
sind. Insbesondere bei nicht-textuellen Dokumenten können dies heutige IR-Systeme aber kaum leisten.
1.5
Daten – Information – Wissen
Datenbanksysteme enthalten Daten. IR-Systeme sollen die Suche nach Information9 unterstützen. Enthalten IR-Systeme also Information? Schließlich ist vor allem in KI (Künstliche Intelligenz)-Publikationen
häufig die Rede von Wissensbasen. Was ist denn nun der Unterschied zwischen Daten, Wissen und Information? In der deutschen Informationswissenschaft hat man sich vor einigen Jahren auf eine einheitliche
Terminologie geeinigt, die aber leider im Gegensatz zur sonst in der Informatik verwendeten steht. Daher
verwenden wir hier die allgemein übliche Begrifflichkeit, allerdings in Kombination mit den Erläuterungen
aus der Informationswissenschaft (siehe Abbildung 1.2). Danach sind Daten auf der syntaktischen Ebene
9 Da Information keine exakt quantifizierbare Größe ist, gibt es auch den Plural Informationen“ nicht. Es gibt nur mehr
”
oder weniger Information.
KAPITEL 1. EINFÜHRUNG
9
anzusiedeln. In diesem Sinne wäre also eine Datenbasis eine nackte Sammlung von Werten ohne jegliche
Semantik. Kommt Semantik hinzu, so sprechen wir von Information. Dementsprechend enthalten also
Datenbanksysteme nicht nur Daten, sondern auch Information, weil zusätzlich zu den Daten zumindest
ein Teil der Semantik des jeweiligen Anwendungsgebietes auch im System modelliert wird. Genauso enthält jedes IR-System Information (im Gegensatz etwa zu dem Fall, wo man Texte einfach in einer Datei
abspeichert und mit Hilfe eines Texteditors durchsucht).
Wissen schließlich ist auf der pragmatischen Ebene definiert. In Abwandlung von [Kuhlen 90] lässt sich
dies so formulieren: Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situa”
tion zur Lösung von Problemen benötigt wird“. Da dieses Wissen häufig nicht vorhanden ist, wird danach
in externen Quellen gesucht. Hierbei dient ein Informationssystem dazu, aus der gespeicherten Information
das benötigte Wissen zu extrahieren. Wir sprechen auch von Informationsflut, wenn uns große Mengen
an Information zugeleitet werden, aus denen wir nur mit Mühe das benötigte Wissen extrahieren können.
Daher sind wir auch bereit, für gezielt bereitgestelltes Wissen zu zahlen (z.B. Tageszeitung, werbefreies
Fernsehen). Somit kann man die Transformation von Information in Wissen als einen Mehrwert erzeugenden Prozess sehen [Kuhlen 91]. Schlagwortartig lässt sich die Beziehung zwischen Information und Wissen
ausdrücken durch die Formulierung Wissen ist Information in Aktion“.
”
Als anschauliches Beispiel kann man hierzu die online verfügbaren LINUX-Manuals betrachten. Diese
beinhalten Information über LINUX. Wenn nun ein Benutzer eines LINUX-Systems eine bestimmte Aktion
ausführen möchte (z.B. ein Dokument drucken), aber nicht weiß, durch welche Kommandos er dies erreicht,
so ist das in diesem Fall benötigte Wissen gerade die entsprechende Teilmenge der insgesamt in den
Manuals verfügbaren, umfangreichen Information. Da nur ein geringer Teil der gesamten Information
benötigt wird, besteht der Mehrwert des Wissens (so sie durch die hierzu verfügbaren Werkzeuge wie z.B.
das man-Kommando geliefert wird) gerade in ihrer gezielten Bereitstellung.
Daten
Information
Wissen
Entscheidung
Nützlichkeit
Abbildung 1.3: Wissen zur Entscheidungsunterstützung
Wie oben erwähnt, dient Wissen zur informationellen Handlungsabsicherung“. Im Kern geht es dabei
”
um die Rolle des Wissens zur Entscheidungsunterstützung. Dieser Zusammenhang wird durch Abbildung 1.3 verdeutlicht. Wissen dient also zur informationellen Handlungsabsicherung“, und meist stellt
”
sich erst später heraus, wie nützlich die auf dem Wissen basierende Entscheidung war.
1.6
Rahmenarchitektur für IR-Systeme
Wir beschreiben hier ein konzeptionelles Modell für IR-Systeme, das wir für die nachfolgenden Ausführungen in diesem Skriptum zugrundelegen wollen (siehe Abb. 1.4). Jedes Objekt einer Datenbasis wird
mittels geeigneter Erschließungsverfahren eine entsprechende interne Darstellung (die wir hier Repräsentation nennen wollen) transformiert, in der der Inhalt geeignet repräsentiert wird. Diese wird zu einer
Objekt-Beschreibung verdichtet, die für das eigentliche Retrieval benutzt wird.
Am Beispiel des Dokumenten-Retrieval wollen wir diesen Sachverhalt verdeutlichen:
Objekt/Dokumenttext:
Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent
retrieval performance. The best indexing technique for retrieving documents is not known.
Daraus erstellt ein IR-System z.B. durch Reduktion auf die linguistische Stammform und Eliminierung
von Stoppwörtern folgende Repräsentation:
(experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index,
techni, retriev, document, know)
Für das Retrieval wird eine Term-Multimenge als Beschreibung verwendet:
{(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1),
(perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)}
KAPITEL 1. EINFÜHRUNG
Informations−
bedürfnis
Frage−
Repräsentation
10
Frage−
Beschreibung
Vergleich
fiktives/
reales
Objekt
Objekt−
Repräsentation
Ergebnisse
Objekt−
Beschreibung
Abbildung 1.4: Konzeptionelles Modell für IR-Systeme
Analog würde eine Suche nach dem besten Indexierungsalgorithmus repräsentiert als
(best index algorithm)
und als Beschreibung könnte die Konjunktion der Frageterme zugrundegelegt werden:
best ∧ index ∧ algorithm.
Der Vergleich von Dokumentbeschreibungen mit der Beschreibung der aktuellen Anfrage liefert dann
die Retrievalergebnisse.
Anhand dieser Abbildung kann auch der Aspekt der Unsicherheit verdeutlicht werden. Die Ableitung
der Repräsentation aus dem eigentlichen Dokument ist eine wesentliche Quelle von Unsicherheit. Speziell
bei Texten oder multimedialen Dokumenten kann deren Inhalt nur unzureichend erschlossen werden
Auf der Seite der Fragen ergeben sich die gleichen Probleme der Unsicherheit, insbesondere bei der Abbildung des Informationswunsches auf die formale Anfrage. Zusätzlich spielt hier das für IR-Anwendungen
typische Moment der Vagheit eine wichtige Rolle. Daher sollte die Frageformulierung in der Lage sein,
diese Vagheit zu repräsentieren. Bei vielen Retrievalmodellen geschieht dies z.B. durch eine Gewichtung
der Frageterme.
Die Themen der nun folgenden Kapitel lassen sich ebenfalls anhand von Abbildung 1.4 illustrieren:
• Evaluierung beschäftigt sich mit der Qualität der Ergebnisse in Bezug auf das Informationsbedürfnis.
• Die Repräsentation von Textinhalten betrachtet die Erstellung der Repräsentationen von Fragen und
Dokumenten.
• Retrievalmodelle fokussieren auf den Vergleich von Frage- und Dokumentbeschreibung, wobei bestimmte Formen der Beschreibung zugrundegelegt werden, deren Herleitung aus der Repräsentation
ebenfalls im Retrievalmodell spezifiziert wird.
Literaturverzeichnis
Bandura, A. (1997). Self-efficacy: The exercise of control. W. H. Freedman and Company, New York.
Bates, M. J. (1979). Information Search tactics. Journal of the American Society for Information
Science 30(4), S. 205–214.
Fuhr, N. (1989). Optimum Polynomial Retrieval Functions Based on the Probability Ranking Principle.
ACM Transactions on Information Systems 7(3), S. 183–204.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Kuhlen, R. (1990). Zum Stand pragmatischer Forschung in der Informationswissenschaft. In: Pragmatische Aspekte beim Entwurf und Betrieb von Informationssystemen. Proceedings des 1. Internationalen
Symposiums für Informationswissenschaft, S. 13–18. Universitätsverlag Konstanz, Konstanz.
Kuhlen, R. (1991). Zur Theorie informationeller Mehrwerte. In: Wissensbasierte Informationssysteme
und Informationsmanagement, S. 26–39. Universitätsverlag Konstanz.
Liu, T.-Y. (2011). Learning to Rank for Information Retrieval. Springer.
11