Internet-Suchmaschinen Kapitel 1: Einführung
Transcription
Internet-Suchmaschinen Kapitel 1: Einführung
Internet-Suchmaschinen Kapitel 1: Einführung Norbert Fuhr 25. Oktober 2012 Inhaltsverzeichnis 1 Einführung 1.1 Internet-Suche . . . . . . . . . . . . . 1.1.1 Suchqualität . . . . . . . . . . 1.2 Informationskompetenz . . . . . . . . 1.3 Suchkompetenz . . . . . . . . . . . . . 1.4 Information Retrieval . . . . . . . . . 1.4.1 Was ist Information Retrieval? 1.5 Daten – Information – Wissen . . . . . 1.6 Rahmenarchitektur für IR-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 3 4 7 7 8 9 Kapitel 1 Einführung 1.1 Internet-Suche Internet-Suche ist eine Funktion, die heute von vielen Menschen täglich genutzt wird. Das Populärste Beispiel ist die Web-Suche (wo Google und Bing heute in der westlichen Welt quasi unsere Sicht auf das Web diktieren). Daneben gibt es aber auch eine Reihe anderer Web-basierter Anwendungen, wo die Suche eine große Rolle spielt. Dies ist neben der Intranet-Suche (organisationsinterne Variante der Web-Suche) zum Beispiel die Produktsuche in Internet-Shops, die Suche in Online-Publikationen (wie z.B. im InternetAngebot von Zeitungen oder anderen Medienunternehmen) die für die Wissenschaft bedeutsame Suche in Digitale Bibliotheken oder auch die Suche in multimedialen Datenbeständen wie z.B. in Bild-, Video- oder Musikdatenbanken. Die verschiedenen Arten der Suche lassen sich u.a. durch folgende Facetten charakterisieren: Sprache: Neben der monolingualen Suche kann man auch cross-linguale Anwendungen betrachten wie etwa bei 1 Google Übersetzer, oder es sind sogar multilinguale Suchen möglich (noch im Forschungsstadium). Struktur: Werden Dokumente meist als atomare Einheiten betrachtet, so geht man bei der Literatursuche üblicherweise von einer Feldstruktur aus, um zwischen Titel, Autoren und Kurzfassung zu unterscheiden. Daneben berücksichtigt die Web-Suche teilweise die Graph-Struktur der Verlinkung, und bei der Suche in XML-Dokumenten geht man üblicherweise von einer baumartigen Struktur aus. Medien: IR-Methoden lassen sich nicht nur auf Text anwenden, sondern auch auf Fakten, auf Bilder (2 Gazopa), Audiodaten wie Sprache oder Musik (3 Shazam), auf Videos oder 3D-Daten usw. Objekte: Es gibt spezialisierte Suchmaschinen, die nach bestimmten Objekttypen suchen, wie z.B. die zahlreichen Buch-Suchmaschinen, nach Personen (4 123people, 5 Yasni) oder Firmen (6 Firmenfinden). Statische/dynamische Inhalte: Während die meisten Suchmaschinen von statischen Inhalten ausgehen (die gleichwohl in regelmäßigen Intervallen aktualisiert werden können), gibt es auch Anwendungsbereiche, wo man von einem stetigen Strom neuer Dokumente ausgeht, wie z.B. bei Nachrichten (7 news.google.de) oder Twitter-Meldungen (8 search.twitter.com). 1.1.1 Suchqualität Ein wichtiges Kriterium bei der Auswahl eines Dienstes ist für die Benutzer die Suchqualität. Wir werden dieses Thema später noch ausführlicher behandeln, daher sollen hier nur die Grundbegriffe eingeführt werden. 1 http:///translate.google.de 2 http://www.gazopa.com 3 http://www.shazam.com 4 http://www.123people.de 5 http://www.yasni.de 6 http://www.firmenfinden.de 7 http://news.google.de 8 http://search.twitter.com 2 KAPITEL 1. EINFÜHRUNG 3 Grundsätzlich gehen wir hier davon aus, dass der Benutzer nach relevanten Dokumenten zu seiner Anfrage sucht, und dass er sich einen bestimmten Teil der Ergebnisrangliste anschaut (z.B. die ersten zehn Antworten), den wir hier ’Menge der gefundenen Dokumente’ nennen und mit GEF bezeichnen. Ferner sei REL die Menge der relevanten Objekte in der Datenbank und ALL die Gesamtzahl der Dokumente in der Datenbank. Basierend auf diesen Mengen lassen sich dann die Maße Precision und Recall wie folgt definieren: Precision: p := |REL ∩ GEF | |GEF | Recall: r := |REL ∩ GEF | |REL| Hierbei gibt die Precision den Anteil der relevanten an den gefundenen Dokumenten wieder. Recall dagegen bezeichnet den Anteil der relevanten Dokumente, die tatsächlich gefunden wurden. Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur aktuellen Anfrage enthält. Ein System liefert 10 Dokumente, von denen 8 relevant sind. Dann erhält man folgende Werte: p = r = 8 |REL ∩ GEF | = = 0.8 |GEF | 10 |REL ∩ GEF | 8 = = 0.4 |REL| 20 Bei der Web-Suche selbst ist häufig nur die Precision von Interesse, deren Wert ein Benutzer auch unmittelbar abschätzen kann. Recall dagegen ist schwieriger abzuschätzen, da man die Menge aller relvanten Antworten meist nicht kennt. Bei spezifischen Suchaufgaben spielt der Recall aber eine wichtige Rolle, etwa bei der Suche nach dem günstigsten Angebot oder dem nächstgelegenen Anbieter für ein Produkt oder eine Dienstleistung. Wir werden später einige Methoden kennenlernen, wie man den Recall abschätzen kann. 1.2 Informationskompetenz Um Informationsangebote sinnvoll nutzen zu können, ist eine entsprechende Informationskompetenz unabdingbar. Zwar ist der Zugriff auf das WWW heute zwar schon für Grundschulkinder eine Selbstverständlichkeit, aber es ist offensichtlich, dass sie aufgrund fehlender Kompetenzen nur einen sehr kleinen Teil des Informationsangebotes sinnvoll nutzen können. Wie wir nachfolgend zeigen werden, verfügen aber selbst Akademiker in der Regel über eine eingeschränkte Informationskompetenz (zumindest was außer-fachliche Inhalte angeht). Generell wird Information bzw. Wissen als Entscheidungsgrundlage benötigt. Wie aber schon in [Bandura 97]bemerkt wird People’s actions are based more on what they believe than on what is ” objectively true”’. In dem derzeit populären Buch des Wirtschaftsnobelpreisträgers David Kahneman [Kahneman 11] wird dieses Phänomen als What you see is all there is (WYSIATI) bezeichnet, d.h. ” ” wir neigen dazu, Entscheidungen allein aufgrund der vorhandenen Information zu fällen, ohne uns darüber klar zu werden, dass diese unzureichend ist. Demgemäß bezeichnet Informationskompetenz die Fähigkeit, sich eine ausreichende Entscheidungsgrundlage zu beschaffen. Dieser Prozess besteht aus folgenden sechs Schritten 1. Aufgabendefinition: Das Informationsproblem wird zunächst definiert, und das zugehörige Informationsbedürfnis wird identifiziert. 2. Informations-Beschaffungs-Strategien: Es werden alle möglichen Informationsquellen bestimmt, von denen dann die besten ausgewählt werden. Solche Quellen können insbesondere auch andere Personen sein, mit denen man anschließend kommuniziert. 3. Lokalisierung und Zugriff. Die Quellen werden zuerst intellektuell und physisch lokalisiert, und dann die Information innerhalb der Quelle gesucht und gefunden. KAPITEL 1. EINFÜHRUNG 4 4. Benutze die Information: Hierzu schaut man sich das gefundene Dokument/Objekt an (lesen, hören, betrachten, anfassen), und extrahiert dann die relevante Information. 5. Synthese: Die Information aus den verschiedenen gefundenen Quellen wird organisiert, und anschließend präsentiert. 6. Bewertung: Abschließend wird sowohl das Produkt beurteilt—dies betrifft den Aspekt der Effektivität—als auch der Prozess im Hinblick auf seine Effizienz bewertet. Die Bewältigung dieser Schritte setzt eine Reihe weiterer Fähigkeiten voraus: 1. Aufgabendefinition: Der Benutzer muss in der Lage sein, den Informationsbedarf zu erkennen. 2. Informations-Beschaffungs-Strategien: Der Benutzer muss sowohl passende Strategien kennen, als auch die Quellen, die potenziell relevante Information beinhalten. 3. Lokalisierung und Zugriff: Der Benutzer muss die Information lokalisieren können (z.B. durch eine Webseite navigieren) als auch zielgerichtet die relevante Information selektieren können 4. Benutze die Information: Hierzu muss man in der Lage sein, gefundene Information passend zu organisieren. 5. Synthese: Gefundenen Information muss mit dem bisherigen Wissen kombiniert werden und dann zur Präsentation aufbereitet werden. 6. Bewertung: Man muss in der Lage sein, Information kritische zu beurteilen. Eng mit der Informationskompetenz verknüpft sind eine Reihe benachbarter Kompetenzen: • Bibliothekskompetenz bezieht sich auf die Fähigkeit, eine Bibliothek (physisch oder digital) zu nutzen • Computerkompetenz betrifft die generelle Nutzung eines Computers. • Digitalkompetenz ist die Fähigkeit, über Computer dargestellte Informationen unterschiedlicher Formate verstehen und anwenden zu können. • Internet-Kompetenz bezieht sich auf die Nutzung des Internet allgemein. • Suchkompetenz ist die Fähigkeit, effektiv in Informationssystemen zu suchen (s.u.). • Kommunikationskompetenz betrifft die Kommunikation mit anderen Personen auf allen möglichen Kanälen • Lesekompetenz ist die grundlegende Fähigkeit, Info.rmation aus Texten zu extrahieren. • Medienkompetenz bezieht sich auf den Umgang mit allen möglichen Medien—vom einfachen Text bis hin zur Navigation in virtuellen Welten. • Schreibkompetenz ist schließlich die Fähigkeit, Gedanken niederzuschreiben. 1.3 Suchkompetenz Um effektiv suchen zu können, muss der Benutzer idealerweise Kenntnis über den grundsätzlichen Aufbau einer Suchmaschine sowie folgende Aspekte ihrer Funktionalität verfügen: Suchbarkeit, linguistische Funktionen, Anfragesprache und Ranking. Fernere sollte man ein Repertoire an geeigneten Suchtaktiken und Strategien beherrschen, um die Suche erfolgreich vorantreiben zu können. Abbildung 1.1: Aufbau einer Web-Suchmaschine KAPITEL 1. EINFÜHRUNG 5 Aufbau einer Web-Suchmaschine Eine Web-Suchmaschine besteht grundsätzlich aus folgenden wesentlichen Komponenten (siehe Abbildung 1.1): Crawler Diese Komponente sammelt die Dokumente aus dem Web auf. Hierzu startet der Crawler mit einer Liste von Web-Servern, deren Dokumente zuerst abgefragt werden, und von wo aus dann Links zu neuen Quellen verfolgt werden. Parser/Indexer Jedes Dokument wird geparst, der reine Text extrahiert, in einzelne Wörter zerlegt, dann linguistische Algorithmen und Gewichtungsmethoden angewandt ( indexiert“) und das Ergebnis der ” Datenbank übergeben. Datenbank Diese dient zur Speicherung der extrahierten und aufbereiteten Daten in geeigneten Datenstrukturen, um eine möglichst effiziente Suche zu erlauben. Searcher Der Benutzer greift über seinen Browser auf das Such-Interface zu, das die Anfragen an die Datenbank übergibt und die Antwortrangliste geeignet aufbereitet und an den Benutzer zurückgabt. Suchbarkeit Hierbei geht es um die Frage, welche Dokumente potenziell überhaupt durch die Suchmaschine gefunden werden können. Nicht jedes Dokument, auf das man mit dem Browser zugreifen und sich anzeigen lassen kann, ist auch suchbar. • Grundvoraussetzung ist zunächst, dass die Suchmaschine überhaupt Zugriff auf das Dokument hat. So sind zunächst einmal generell nur öffentlich zugängliche Dokumente suchbar. Eine Ausnahme hiervon bilden einige Verlage und Bibliotheken, die den Suchmaschinen das Indexieren von Dokumenten erlauben, zu denen tatsächlich nur ein eingeschränkter Zugang (z.B. kostenpflichtig oder nur ausschnittsweise Anzeige) möglich ist. Ferner muss die Suchmaschine selbst erst einmal durch das Verfolgen von Links auf das Dokument stoßen; dies ist insbesondere bei vielen Datenbankinhalten (z.B. Bibliothekskatalog) nicht der Fall. Schließlich kann der Betreiber einer Website in einer Datei robots.txt den Suchmaschinen mitteilen, welche Dokumente trotz freiem Zugang nicht indexiert werden sollen. • Ein weiteres Hindernis ist die Aktualität einer Webseite: Da die Suchmaschine im pull-Modus auf die Seiten zugreift, dauert es nach Änderungen eine Weile, bis die Suchmaschine die neuen Inhalte indexiert. Diese Zeitspanne hängt von der Strategie ab, mit der die Suchmaschine die Änderungsintervalle festlegt—bei Nachrichtenseiten liegen diese im Stundenbereich, bei anderen Seiten kann dies bis zu mehreren Wochen dauern. • Die Suchmaschinen indexieren außer HTML nur einige wenige gängige Textformate (wie etwa txt, pdf, doc, ppt) und ignorieren weniger verbreitete Formate. Insbesondere können nur Texte indexiert werden—Faksimile-Dokumente bleiben ebenso außen vor wie etwa als Grafik dargestellter Text in HTML-Seiten (wobei dort aber der Text üblicherweise im alt-Attribut wiederholt wird). • Schließlich bildet die Sprache noch ein weiteres Hindernis bei der Suche—die Suchmaschine kann i.d.R. die Anfrage nicht in andere Sprachen übersetzen. Linguistische Funktionen Übliche Suchfunktionen, wie man sie in Texteditoren (oder auch im Browser selbst—Strg-F) findet, basieren auf einem reinen Zeichenkettenvergleich. Für eine inhaltsorientierte Suche ist dies aber völlig unzureichend, weshalb eine Reihe von linguistischen Funktionen zum Einsatz kommt, um auch Varianten der eingegebenen Suchbegriffe zu finden. Wortnormalisierung versucht, verschiedene Schreibweisen eines Wortes zusammenzuführen. Außer der fehlenden Unterscheidung zwischen Groß- und Kleinschreibung betrifft dies neben Abkürzungen und Rechtschreibvarianten insbesondere auch die Zusammen- vs. Getrenntschreibung oder BindestrichVarianten. Beispiele: meta tag – meta-tag – metatag – meta tag’s, colour – color, Prozess – Prozeß Grundformreduktion Üblicherweise werden alle Wörter auf ihre linguistische Grundform (Lemma) reduziert, also den Nominativ Singular bei Nomen, den Infinitiv bei Verben sowie die ungesteigerte Form (Positiv) bei Adjektiven und Adverbien. Beispiele: Häuser – Hauses – Hause – Haus, Duisburg – Duisburgs, aber nicht Duisburger, da letzteres ein Adjektiv ist. Möchte man die Grundformreduktion unterdrücken, so kann man den Suchterm in Anführungsstriche setzen. Phrasen Insbesondere die aus Nomen bestehenden Nominalphrasen spielen in eine wichtige Rolle (z.B. Wahl des Bundestages). Hierzu bieten Suchmaschinen üblicherweise eine Art Abstandssuche an. Beispiele: ”information retrieval”, ”retrieval * information” KAPITEL 1. EINFÜHRUNG 6 Komposita sind zusammengesetzte Begriffe wie etwa Einfamilienhaus, Reihenendhaus, Doppelhaushälfte. Diese werden nur in Einzelfällen als Teil der Wortnormalisierung in ihre Komponenten zerlegt.. Synonyme Durch den speziellen Operator ∼ ist es möglich, neben dem eingegebenen Suchterm auch nach allen (im Wörterbuch der Suchmaschine hierzu verzeichneten) Synonymen zu suchen. Beispiel: Handy Mobiltelefon Smartphone / ∼handy Anfragesprache Die Kenntnis der Anfragesprache erlaubt es, auch komplexere Anfragen zu formulieren: Boolesche Operatoren: Üblicherweise werden alle Suchbegriffe implizit mit einem logischen UND verknüpft, ODER erlaubt die Disjunktion, und die Negation wird durch ein dem Suchterm vorangestelltes Minuszeichen ausgedrückt. Beispiel: handy -vertrag. Zahlenbereiche können durch .. formuliert werden, wie etwa 100..200 EURO. Facetten erlauben die Einschränkung der Antwortmenge anhand einer Reihe von Aspekten, wie etwa Objekttyp (Bilder/Maps/Videos/News/Shopping/..), Standort, Sprache oder Zeitraum. Feld-Prädikate beschränkten die Suche des betreffenden Wortes auf Felder wie die URL (inurl:), den Ankertext auf das betreffende Dokument verweisender Seiten (inanchor:, den Titel des Dokumentes (intitle: oder den eigentlichen Text .(intext:. So sucht etwa duisburg -intext:duisburg nach allen Seiten zu Duisburg, bei denen Duisburg im Text selbst nicht vorkommt. Zusätzlich gibt es diese Prädikate noch mit dem Präfix all; schreibt man dieses an den Beginn der Anfrage, müssen alle folgenden Suchterme diese Bedingung erfüllen. URL-Prädikate beziehen sich auf die URL und Verlinkung der gesuchten Dokumente: site: sucht nach Seiten auf einer Website, link: nur nach Seiten, die auf die angegebene URL verweisen, filetype: spezifiziert den Dateityp des gesuchten Dokumentes, und related: auf Seiten mit den gleichen einund ausgehenden Links. So sucht etwa link:uni-due.de -site:uni-due.de nach Seiten außerhalb der UDE, die auf die Startseite der Uni verweisen. Ranking Da üblicherweise sehr viele Seiten die Suchbedingungen erfüllen, erstellt das System eine Rangordnung (Ranking der Antworten). Für den Nutzer ist es wichtig zu wissen, welche davon ihm auf der ersten Ergebnisseite gezeigt werden (nur etwa 10% aller Nutzer schauen sich weitere Ergebnisseiten an). Die konkrete Rankingfunktion ist das Geschäftsgeheimnis der Suchmaschinenbetreiber und wird zudem ständig weiterentwickelt. Generell spielen folgende Faktoren dabei eine Rolle: • Die Suchbegriffe kommen häufig in der Seite vor. • Die Suchbegriffe kommen in Ankertexten vor. • Page rank ist die Popularität einer Seite anhand ihrer Verlinkung mit anderen (populären) Seiten • Nutzer-Klicks auf Anworten werdne hetue standardmäßig alle protokolliert, damit das System lernt, welche Seiten bevorzugt angeklickt werden. Hierbei geht nicht nur die Gesamtheit aller Klicks zur selben Anfrage, sondern auch die Klicks des betreffenden Nutzers bei früheren Anfragen sowie ggfs. die Klicks seiner Freunde aus Google+ in die Bewertung einer Seite ein. Aufgrund der Fülle an Merkmalen kann kein einfaches Retrievalmodell (wie in den folgenden Kapiteln beschrieben) allein eingesetzt werden, sondern es wird ein learning to rank -Ansatz [Fuhr 89, Liu 11] angewendet, der auf den Klick-Daten trainiert wird. Da es für viele Unternehmen geschäftlich fast unabdingbar ist, auf der ersten Ergebnisseite zu landen, gibt es das Gewerbe der Search engine optimization. Hier beschäftigt man sich mit der Optimierung von Webseiten, so dass diese oben in der Trefferliste erscheinen. Allerdings gibt es auch das Phänomen des Web spam, wo Seitenbetreiber auch kaum oder gar nicht zutreffende Anfragen auf ihre Seite lenken wollen. Die Suchmaschinenbetreiber versuchen, solche Seiten automatisch zu erkennen, und haben daher Regeln aufgestellt, was als Search engine optimization noch erlaubt und was bereits als Web spam angesehen wird. Auch diese Regeln und damit die Grenze zwischen erlaubter und unerlaubter Optimierung verändern sich ständig. Suchtaktiken und Strategien Komplexere Informationsbedürfnisse erfordern i.d.R. eine ganze Reihe von Anfragen, um sich schrittweise dem Ziel zu nähern. Erfahrene Sucher verfügen daher über ein Repertoire an Taktiken und Strategien, um den Suchprozess effektiv zu gestalten. Eine Strategie ist ein Plan zur Durchführung einer komplexen Suche. Taktiken bezeichnen einzelne Aktionen, die die Suche vorantreiben [Bates 79] unterscheidet dabei folgende Arten: KAPITEL 1. EINFÜHRUNG 7 Monitoring-Taktiken überwachen den Fortgang des Prozesses, registrieren Abweichungen vom ursprünglichen Suchziel und versuchen, dieses weiterhin effizient anzusteuern. Strukturelle Taktiken arbeiten auf der Menge der potenziellen Antworten, indem diese z.B. mit Hilfe der o.g. Facetten eingeschränkt wird. Suchformuli.erung Je nach Bedarf versucht man die Frage zu verbreitern oder einzuengen, indem man etwa mehr oder weniger Terme in der Anfrage verwendet. Term-Taktiken beziehen sich auf die Auswahl und die Variation der Suchterme Ideen-Taktiken betrachten die noch offenen Suchmöglichkeiten sowie Variationen der bisherigen Anfragen 1.4 Information Retrieval Betrachtet man die oben diskutierten Aspekte der Internet-Suche, so erkennt man deutliche Unterschiede zur Suche in klassischer Datenbanksystemen, die strukturierte Daten verwalten: • Die Formulierung einer zum aktuellen Informationsbedürfnis passenden Anfrage bereitet erhebliche Probleme. • Meistens durchläuft der Prozess der Anfrageformulierung mehrere Iterationen, bis passende Antworten gefunden werden. • Anfragen liefern potentiell sehr viele Antworten, aber nur wenige davon sind für den Nutzer interessant. • Das vorgenannte Problem entschärft sich durch die vom System bereitgestellte Rangordnung der Antworten, wodurch potentiell relevante Antworten gehäuft am Anfang der Rangliste auftauchen (z.B. betrachten bei Internet-Suchmaschinen mehr als 90% aller Nutzer nur die ersten 10 Antworten) • Bei Textdokumenten, aber noch stärker bei Bildern zeigt sich, dass die systemintern verwendete Repräsentation des Inhalts von Dokumenten teilweise inadäquat, auf jeden Fall aber mit Unsicherheit behaftet, ist. Das Wissenschaftsgebiet, das sich mit Informationssuchen dieser Art beschäftigt, bezeichnet man als Information Retrieval. Erste Arbeiten hierzu gab es schon in den 1950ern durch Hans Peter Luhn bei IBM, der sich u.a. mit Wortstatistiken beschäftigte. Populärster Pionier war Gerard Salton, der ab 1960 zunächst in Harvard und dann an der Cornell University an der Entwicklung des Retrievalsystems SMART arbeitete. Auf der Anwendungsseite entstanden ab 1962 erste Online-Informationssysteme, die hauptsächlich Nachweissysteme waren (es wurden nur die bibliografischen Angaben sowie eine Kurzfassung der Dokumente gespeichert, den Volltext musste mansich auf anderem Wege beschaffen). Die Nutzung dieser Systeme war wegen der Netzwerk- und Computerkosten relativ teuer und daher auf einen kleinen Anwenderkreis beschränkt. Erst 1991 entstand mit 1991 WAIS (Wide area Information System) das erste frei verfügbare Retrievalsystem im Internet, das zudem eine verteilte Suche ermöglichte. Nach der Einführung des WWW 1993 kam 1994 mit Webcrawler die erste Internet-Suchmaschine,. 1.4.1 Was ist Information Retrieval? Zur Definition des Gebietes legen wir hier die Beschreibung der Aufgaben und Ziele der Fachgruppe Information Retrieval“ innerhalb der Gesellschaft für Informatik“ zugrunde: ” ” Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozess des ” Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunkt” mäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können; häufig müssen zudem mehrere Datenbasen zur Beantwortung einer einzelnen Anfrage durchsucht werden. Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation KAPITEL 1. EINFÜHRUNG Daten syntaktisch definierte Verfahren der Daten− verarbeitung 8 Information semantisch begründete Verfahren der (Wissen−) Repräsentation Wissen pragmatisch kontrollierte Wissens− erarbeitung zur informationellen Handlungs− absicherung Abbildung 1.2: Daten – Information – Wissen von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); darüber hinaus werden auch solche Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind (wie z.B. bei vielen technisch-wissenschaftlichen Datensammlungen). Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte.“ Als kennzeichnend für das Gebiet werden somit vage Anfragen und unsicheres Wissen angesehen. Die Art der Darstellung des Wissens ist dabei von untergeordneter Bedeutung. Oftmals wird IR auch eingeschränkt auf die inhaltsorientierte Suche in (multimedialen) Dokumenten betrachtet. (Tatsächlich behandeln wir in diesem Skriptum fast ausschließlich Modelle und Methoden aus diesem Bereich.) Für diese Art der Suche kann man folgende Abstraktionsstufen unterscheiden: Syntax: Hierbei wird ein Dokument als Folge von Symbolen aufgefasst. Methoden, die auf dieser Ebene operieren, sind z.B. die Zeichenkettensuche in Texten sowie die Bildretrievalverfahren, die nach Merkmalen wie Farbe, Textur und Kontur suchen. Semantik beschäftigt sich mit der Bedeutung eines Dokumentes. Methoden zur Repräsentation der Semantik eines Textes haben eine lange Tradition im Bereich der Wissensrepräsentation; semantisches Bildretrieval müsste die Suche nach Bildern unterstützen, die z.B. bestimmte (Klassen von) Objekten enthalten (Menschen, Häuser, Autos,. . . ). Pragmatik orientiert sich an der Nutzung eines Dokumentes für einen bestimmten Zweck. Zum Beispiel sucht ein Student Literatur zur einem vorgegebenen Seminarthema. Bildarchive werden häufig von Journalisten in Anspruch genommen, um einen Artikel zu illustrieren; dabei ist meist das Thema vorgegeben, aber nicht der semantische Bildinhalt. Generell lässt sich festhalten, dass Nutzer meistens an einer Suche auf der pragmatischen Ebene interessiert sind. Insbesondere bei nicht-textuellen Dokumenten können dies heutige IR-Systeme aber kaum leisten. 1.5 Daten – Information – Wissen Datenbanksysteme enthalten Daten. IR-Systeme sollen die Suche nach Information9 unterstützen. Enthalten IR-Systeme also Information? Schließlich ist vor allem in KI (Künstliche Intelligenz)-Publikationen häufig die Rede von Wissensbasen. Was ist denn nun der Unterschied zwischen Daten, Wissen und Information? In der deutschen Informationswissenschaft hat man sich vor einigen Jahren auf eine einheitliche Terminologie geeinigt, die aber leider im Gegensatz zur sonst in der Informatik verwendeten steht. Daher verwenden wir hier die allgemein übliche Begrifflichkeit, allerdings in Kombination mit den Erläuterungen aus der Informationswissenschaft (siehe Abbildung 1.2). Danach sind Daten auf der syntaktischen Ebene 9 Da Information keine exakt quantifizierbare Größe ist, gibt es auch den Plural Informationen“ nicht. Es gibt nur mehr ” oder weniger Information. KAPITEL 1. EINFÜHRUNG 9 anzusiedeln. In diesem Sinne wäre also eine Datenbasis eine nackte Sammlung von Werten ohne jegliche Semantik. Kommt Semantik hinzu, so sprechen wir von Information. Dementsprechend enthalten also Datenbanksysteme nicht nur Daten, sondern auch Information, weil zusätzlich zu den Daten zumindest ein Teil der Semantik des jeweiligen Anwendungsgebietes auch im System modelliert wird. Genauso enthält jedes IR-System Information (im Gegensatz etwa zu dem Fall, wo man Texte einfach in einer Datei abspeichert und mit Hilfe eines Texteditors durchsucht). Wissen schließlich ist auf der pragmatischen Ebene definiert. In Abwandlung von [Kuhlen 90] lässt sich dies so formulieren: Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situa” tion zur Lösung von Problemen benötigt wird“. Da dieses Wissen häufig nicht vorhanden ist, wird danach in externen Quellen gesucht. Hierbei dient ein Informationssystem dazu, aus der gespeicherten Information das benötigte Wissen zu extrahieren. Wir sprechen auch von Informationsflut, wenn uns große Mengen an Information zugeleitet werden, aus denen wir nur mit Mühe das benötigte Wissen extrahieren können. Daher sind wir auch bereit, für gezielt bereitgestelltes Wissen zu zahlen (z.B. Tageszeitung, werbefreies Fernsehen). Somit kann man die Transformation von Information in Wissen als einen Mehrwert erzeugenden Prozess sehen [Kuhlen 91]. Schlagwortartig lässt sich die Beziehung zwischen Information und Wissen ausdrücken durch die Formulierung Wissen ist Information in Aktion“. ” Als anschauliches Beispiel kann man hierzu die online verfügbaren LINUX-Manuals betrachten. Diese beinhalten Information über LINUX. Wenn nun ein Benutzer eines LINUX-Systems eine bestimmte Aktion ausführen möchte (z.B. ein Dokument drucken), aber nicht weiß, durch welche Kommandos er dies erreicht, so ist das in diesem Fall benötigte Wissen gerade die entsprechende Teilmenge der insgesamt in den Manuals verfügbaren, umfangreichen Information. Da nur ein geringer Teil der gesamten Information benötigt wird, besteht der Mehrwert des Wissens (so sie durch die hierzu verfügbaren Werkzeuge wie z.B. das man-Kommando geliefert wird) gerade in ihrer gezielten Bereitstellung. Daten Information Wissen Entscheidung Nützlichkeit Abbildung 1.3: Wissen zur Entscheidungsunterstützung Wie oben erwähnt, dient Wissen zur informationellen Handlungsabsicherung“. Im Kern geht es dabei ” um die Rolle des Wissens zur Entscheidungsunterstützung. Dieser Zusammenhang wird durch Abbildung 1.3 verdeutlicht. Wissen dient also zur informationellen Handlungsabsicherung“, und meist stellt ” sich erst später heraus, wie nützlich die auf dem Wissen basierende Entscheidung war. 1.6 Rahmenarchitektur für IR-Systeme Wir beschreiben hier ein konzeptionelles Modell für IR-Systeme, das wir für die nachfolgenden Ausführungen in diesem Skriptum zugrundelegen wollen (siehe Abb. 1.4). Jedes Objekt einer Datenbasis wird mittels geeigneter Erschließungsverfahren eine entsprechende interne Darstellung (die wir hier Repräsentation nennen wollen) transformiert, in der der Inhalt geeignet repräsentiert wird. Diese wird zu einer Objekt-Beschreibung verdichtet, die für das eigentliche Retrieval benutzt wird. Am Beispiel des Dokumenten-Retrieval wollen wir diesen Sachverhalt verdeutlichen: Objekt/Dokumenttext: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Daraus erstellt ein IR-System z.B. durch Reduktion auf die linguistische Stammform und Eliminierung von Stoppwörtern folgende Repräsentation: (experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index, techni, retriev, document, know) Für das Retrieval wird eine Term-Multimenge als Beschreibung verwendet: {(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1), (perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)} KAPITEL 1. EINFÜHRUNG Informations− bedürfnis Frage− Repräsentation 10 Frage− Beschreibung Vergleich fiktives/ reales Objekt Objekt− Repräsentation Ergebnisse Objekt− Beschreibung Abbildung 1.4: Konzeptionelles Modell für IR-Systeme Analog würde eine Suche nach dem besten Indexierungsalgorithmus repräsentiert als (best index algorithm) und als Beschreibung könnte die Konjunktion der Frageterme zugrundegelegt werden: best ∧ index ∧ algorithm. Der Vergleich von Dokumentbeschreibungen mit der Beschreibung der aktuellen Anfrage liefert dann die Retrievalergebnisse. Anhand dieser Abbildung kann auch der Aspekt der Unsicherheit verdeutlicht werden. Die Ableitung der Repräsentation aus dem eigentlichen Dokument ist eine wesentliche Quelle von Unsicherheit. Speziell bei Texten oder multimedialen Dokumenten kann deren Inhalt nur unzureichend erschlossen werden Auf der Seite der Fragen ergeben sich die gleichen Probleme der Unsicherheit, insbesondere bei der Abbildung des Informationswunsches auf die formale Anfrage. Zusätzlich spielt hier das für IR-Anwendungen typische Moment der Vagheit eine wichtige Rolle. Daher sollte die Frageformulierung in der Lage sein, diese Vagheit zu repräsentieren. Bei vielen Retrievalmodellen geschieht dies z.B. durch eine Gewichtung der Frageterme. Die Themen der nun folgenden Kapitel lassen sich ebenfalls anhand von Abbildung 1.4 illustrieren: • Evaluierung beschäftigt sich mit der Qualität der Ergebnisse in Bezug auf das Informationsbedürfnis. • Die Repräsentation von Textinhalten betrachtet die Erstellung der Repräsentationen von Fragen und Dokumenten. • Retrievalmodelle fokussieren auf den Vergleich von Frage- und Dokumentbeschreibung, wobei bestimmte Formen der Beschreibung zugrundegelegt werden, deren Herleitung aus der Repräsentation ebenfalls im Retrievalmodell spezifiziert wird. Literaturverzeichnis Bandura, A. (1997). Self-efficacy: The exercise of control. W. H. Freedman and Company, New York. Bates, M. J. (1979). Information Search tactics. Journal of the American Society for Information Science 30(4), S. 205–214. Fuhr, N. (1989). Optimum Polynomial Retrieval Functions Based on the Probability Ranking Principle. ACM Transactions on Information Systems 7(3), S. 183–204. Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. Kuhlen, R. (1990). Zum Stand pragmatischer Forschung in der Informationswissenschaft. In: Pragmatische Aspekte beim Entwurf und Betrieb von Informationssystemen. Proceedings des 1. Internationalen Symposiums für Informationswissenschaft, S. 13–18. Universitätsverlag Konstanz, Konstanz. Kuhlen, R. (1991). Zur Theorie informationeller Mehrwerte. In: Wissensbasierte Informationssysteme und Informationsmanagement, S. 26–39. Universitätsverlag Konstanz. Liu, T.-Y. (2011). Learning to Rank for Information Retrieval. Springer. 11