Internet-Suchmaschinen Skriptum zur Vorlesung im SS
Transcription
Internet-Suchmaschinen Skriptum zur Vorlesung im SS
Internet-Suchmaschinen Skriptum zur Vorlesung im SS 2013 Norbert Fuhr 22. Juli 2013 Inhaltsverzeichnis 1 Einführung 1.1 Internet-Suche . . . . . . . . . . . . . 1.1.1 Suchqualität . . . . . . . . . . 1.2 Informationskompetenz . . . . . . . . 1.3 Suchkompetenz . . . . . . . . . . . . . 1.4 Information Retrieval . . . . . . . . . 1.4.1 Was ist Information Retrieval? 1.5 Daten – Information – Wissen . . . . . 1.6 Rahmenarchitektur für IR-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . 4 . 4 . 5 . 6 . 9 . 9 . 10 . 11 2 Wissensrepräsentation für Texte 2.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Freitextsuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Informatischer Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Computerlinguistischer Ansatz . . . . . . . . . . . . . . . . . . . . . . . 2.3 Semantische Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Allgemeine Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Klassifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Thesauri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.4 Ontologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.5 Tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.6 Dokumentationssprachen vs. Freitext . . . . . . . . . . . . . . . . . . . . 2.4 Beurteilung der Verfahren zur Repräsentation von Textinhalten . . . . . . . . . 2.5 Zusammenhang zwischen Modellen und Repräsentationen . . . . . . . . . . . . 2.5.1 Textrepräsentation für IR-Modelle . . . . . . . . . . . . . . . . . . . . . 2.5.2 Repräsentationen und Beschreibungen für einfache statistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 13 13 15 16 22 22 22 27 32 35 37 37 38 38 38 3 Nicht-probabilistische IR-Modelle 3.1 Notationen . . . . . . . . . . . . . . . . . . . . . . 3.2 Überblick über die Modelle . . . . . . . . . . . . . 3.3 Boolesches Retrieval . . . . . . . . . . . . . . . . . 3.3.1 Mächtigkeit der booleschen Anfragesprache 3.3.2 Nachteile des booleschen Retrieval . . . . . 3.4 Fuzzy-Retrieval . . . . . . . . . . . . . . . . . . . . 3.4.1 Beurteilung des Fuzzy-Retrieval . . . . . . . 3.5 Das Vektorraummodell . . . . . . . . . . . . . . . . 3.5.1 Coordination Level Match . . . . . . . . . . 3.5.2 Dokumentindexierung . . . . . . . . . . . . 3.5.3 Relevance Feedback . . . . . . . . . . . . . 3.5.4 Beurteilung des VRM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 40 40 41 41 42 43 43 44 44 45 48 . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . INHALTSVERZEICHNIS 4 Probabilistische IR-Modelle 4.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Das Binary-Independence-Retrieval-Modell . . . . . . . 4.2.1 Herleitung . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Parameterschätzung . . . . . . . . . . . . . . . . 4.2.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . 4.3 BM25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Statistische Sprachmodelle . . . . . . . . . . . . . . . . . 4.4.1 Sprachmodell von Zhai und Lafferty . . . . . . . 4.4.2 Ähnlichkeit von Wahrscheinlichkeitsverteilungen 4.5 Das Probabilistische Ranking-Prinzip . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 49 49 51 51 52 53 53 55 55 5 Evaluierung 5.1 Evaluierungskriterien . . . . . . . . . . . . . . . . . . . . . 5.2 Relevanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Distributionen . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Standpunkte und Bewertungsmaße . . . . . . . . . . . . . 5.4.1 Benutzerstandpunkte . . . . . . . . . . . . . . . . 5.4.2 Benutzer- vs. Systemstandpunkte . . . . . . . . . . 5.5 Maße für Ergebnismengen . . . . . . . . . . . . . . . . . . 5.5.1 Recall, Precision und Fallout . . . . . . . . . . . . 5.5.2 Distributionen, Transformationen und Präferenzen 5.5.3 Anwendung von Retrievalmaßen . . . . . . . . . . 5.5.4 Recall-Abschätzung . . . . . . . . . . . . . . . . . 5.5.5 Frageweise Vergleiche . . . . . . . . . . . . . . . . 5.5.6 Mittelwertbildung . . . . . . . . . . . . . . . . . . 5.6 Rangordnungen . . . . . . . . . . . . . . . . . . . . . . . . 5.6.1 Abbruchverhalten von Nutzern . . . . . . . . . . . 5.6.2 Cumulated Gain . . . . . . . . . . . . . . . . . . . 5.6.3 Evaluierung von Diversity-Ranking . . . . . . . . . 5.7 Evaluierung von interaktivem Retrieval . . . . . . . . . . 5.7.1 Batch- vs. interaktives Retrieval . . . . . . . . . . 5.7.2 Suchaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 58 58 59 59 60 60 60 60 61 62 62 63 65 66 69 69 71 71 71 72 6 Neuere Probabilistische Modelle 6.1 Learning to Rank . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Parameter-Lernen im IR . . . . . . . . . . . . . . . . 6.1.2 Learning-to-rank-Ansätze . . . . . . . . . . . . . . . 6.1.3 Regression mit minimalem quadratischem Fehler . . 6.1.4 Quadratmittelpolynome . . . . . . . . . . . . . . . . 6.1.5 IR-Modelle vs. Learning to Rank . . . . . . . . . . . 6.2 IPRP: Probabilistisches Ranking-Prinzip für Interaktives IR 6.2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . 6.2.2 Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.3 Das Modell . . . . . . . . . . . . . . . . . . . . . . . 6.2.4 Anwendungsmöglichkeiten . . . . . . . . . . . . . . . 6.2.5 Schätzung der IPRP-Parameter durch Eyetracking . 6.2.6 Zusammenfassung IPRP . . . . . . . . . . . . . . . . 6.3 Diversity Ranking . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Probabilistischer Ansatz . . . . . . . . . . . . . . . . 6.3.2 Quantentheoretisches probabilistisches Ranking . . . 6.3.3 Experimentelle Ergebnisse: qPRP vs. IPRP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 74 74 76 77 78 79 80 80 80 81 83 83 86 86 86 87 90 INHALTSVERZEICHNIS 7 Interaktives Retrieval 7.1 Ebenen-Architektur von IR-Systemen . . . . . . . . . . . . . . . . 7.2 Information Seeking . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Information Seeking Behaviour und Information Searching . 7.2.2 Ellis’ Behavioural Model of Information Seeking Strategies 7.3 Information Searching . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Einfache Modelle für den Suchprozess . . . . . . . . . . . . 7.3.2 Belkins Episodic Interaction Model . . . . . . . . . . . . . . 7.3.3 Ingwersens Cognitive Model . . . . . . . . . . . . . . . . . . 7.3.4 Marchioninis Suchaktivitäten . . . . . . . . . . . . . . . . . 7.3.5 Klassifikation von Web-Suchaktivitäten . . . . . . . . . . . 7.3.6 Klassifikation von Suchaktivitäten nach Belkin . . . . . . . 7.4 Strategische Unterstützung . . . . . . . . . . . . . . . . . . . . . . 7.4.1 Suchaktivitäten . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.2 Ebenen der Suchunterstützung . . . . . . . . . . . . . . . . 7.4.3 Proaktivität in IR-Systemen . . . . . . . . . . . . . . . . . . 7.5 Gestaltung von Anfrageschnittstellen . . . . . . . . . . . . . . . . . 7.5.1 Sitzungsunterstützung . . . . . . . . . . . . . . . . . . . . . 7.5.2 Unterstützung des Suchverhaltens nach Ellis/Meho/Tibbo . 7.6 Zusammenfassung zu kognitiven Modellen . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 91 92 92 92 94 94 95 96 98 105 105 106 106 108 109 112 112 113 121 Kapitel 1 Einführung 1.1 Internet-Suche Internet-Suche ist eine Funktion, die heute von vielen Menschen täglich genutzt wird. Das populärste Beispiel ist die Web-Suche, bei der Google und Bing heute in der westlichen Welt quasi unsere Sicht auf das Web diktieren. Daneben gibt es aber auch eine Reihe anderer Web-basierter Anwendungen, bei denen die Suche eine große Rolle spielt. Dies ist neben der Intranet-Suche (organisationsinterne Variante der WebSuche) zum Beispiel die Produktsuche in Internet-Shops, die Suche in Online-Publikationen (wie z.B. im Internet-Angebot von Zeitungen oder anderen Medienunternehmen), die für die Wissenschaft bedeutsame Suche in Digitale Bibliotheken oder auch die Suche in multimedialen Datenbeständen wie z.B. in Bild-, Video- oder Musikdatenbanken. Die verschiedenen Arten der Suche lassen sich u.a. durch folgende Facetten charakterisieren: Sprache: Neben der monolingualen Suche kann man auch cross-linguale Anwendungen betrachten wie etwa bei Google Translate1 , oder es sind sogar multilinguale Suchen möglich (noch im Forschungsstadium). Struktur: Werden Dokumente meist als atomare Einheiten betrachtet, so geht man bei der Literatursuche üblicherweise von einer Feldstruktur aus, um zwischen Titel, Autoren und Kurzfassung zu unterscheiden. Daneben berücksichtigt die Web-Suche teilweise die Graph-Struktur der Verlinkung, und bei der Suche in XML-Dokumenten geht man üblicherweise von einer baumartigen Struktur aus. Medien: IR-Methoden lassen sich nicht nur auf Text anwenden, sondern auch auf Fakten, auf Bilder (Gazopa2 ), Audiodaten wie Sprache oder Musik (Shazam3 ), auf Videos oder 3D-Daten usw. Objekte: Es gibt spezialisierte Suchmaschinen, die nach bestimmten Objekttypen suchen, wie z.B. die zahlreichen Buch-Suchmaschinen, nach Personen (123people4 , Yasni5 ) oder Firmen (Firmenfinden6 ). Statische/dynamische Inhalte: Während die meisten Suchmaschinen von statischen Inhalten ausgehen (die gleichwohl in regelmäßigen Intervallen aktualisiert werden können), gibt es auch Anwendungsbereiche, wo man von einem stetigen Strom neuer Dokumente ausgeht, wie z.B. bei Nachrichten (news.google.de7 ) oder Twitter-Meldungen (search.twitter.com8 ). 1.1.1 Suchqualität Ein wichtiges Kriterium bei der Auswahl eines Dienstes ist für die Benutzer die Suchqualität. Wir werden dieses Thema später noch ausführlicher behandeln, daher sollen hier nur die Grundbegriffe eingeführt werden. 1 http://translate.google.de 2 http://www.gazopa.com 3 http://www.shazam.com 4 http://www.123people.de 5 http://www.yasni.de 6 http://www.firmenfinden.de 7 http://news.google.de 8 http://search.twitter.com 4 KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG 5 Grundsätzlich gehen wir hier davon aus, dass der Benutzer nach relevanten Dokumenten zu seiner Anfrage sucht, und dass er sich einen bestimmten Teil der Ergebnisrangliste anschaut (z.B. die ersten zehn Antworten), den wir hier ’Menge der gefundenen Dokumente’ nennen und mit GEF bezeichnen. Ferner sei REL die Menge der relevanten Objekte in der Datenbank und ALL die Gesamtzahl der Dokumente in der Datenbank. Basierend auf diesen Mengen lassen sich dann die Maße Precision und Recall wie folgt definieren: Precision: p := |REL ∩ GEF | |GEF | Recall: r := |REL ∩ GEF | |REL| Precision gibt den Anteil der relevanten an den gefundenen Dokumenten wieder. Recall dagegen bezeichnet den Anteil der relevanten Dokumente, die tatsächlich gefunden wurden. Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur aktuellen Anfrage enthält. Ein System liefert 10 Dokumente, von denen 8 relevant sind. Dann erhält man folgende Werte: p = r = 8 |REL ∩ GEF | = = 0.8 |GEF | 10 |REL ∩ GEF | 8 = = 0.4 |REL| 20 Bei der Web-Suche selbst ist häufig nur die Precision von Interesse, deren Wert ein Benutzer auch unmittelbar erkennen kann. Recall dagegen ist schwieriger abzuschätzen, da die Menge aller relevanten Antworten meist nicht bekannt ist. Bei spezifischen Suchaufgaben spielt der Recall aber eine wichtige Rolle, etwa bei der Suche nach dem günstigsten Angebot oder dem nächstgelegenen Anbieter für ein Produkt oder eine Dienstleistung. Wir werden später einige Methoden kennenlernen, wie man den Recall abschätzen kann. 1.2 Informationskompetenz Um Informationsangebote sinnvoll nutzen zu können, ist eine entsprechende Informationskompetenz unabdingbar. Zwar ist der Zugriff auf das WWW heute zwar schon für Grundschulkinder eine Selbstverständlichkeit, aber es ist offensichtlich, dass sie aufgrund fehlender Kompetenzen nur einen sehr kleinen Teil des Informationsangebotes sinnvoll nutzen können. Wie wir nachfolgend zeigen werden, verfügen aber selbst Akademiker in der Regel über eine eingeschränkte Informationskompetenz (zumindest was den Teilaspekt der Suchkompetenz angeht). Generell wird Information bzw. Wissen als Entscheidungsgrundlage benötigt. Wie aber schon von Bandura [Bandura 97] bemerkt wird People’s actions are based more on what they believe than on what is ” objectively true“. In dem populärwissenschaftlichen Buch des Wirtschaftsnobelpreisträgers David Kahneman [Kahneman 11] wird dieses Phänomen als What you see is all there is (WYSIATI)“ bezeichnet, d.h. ” wir neigen dazu, Entscheidungen allein aufgrund der vorhandenen Information zu fällen, ohne uns darüber klar zu werden, dass diese unzureichend ist. Demgemäß bezeichnet Informationskompetenz die Fähigkeit, sich eine ausreichende Entscheidungsgrundlage zu beschaffen. Dieser Prozess besteht aus folgenden sechs Schritten: 1. Aufgabendefinition: Das Informationsproblem wird zunächst definiert, und das zugehörige Informationsbedürfnis wird identifiziert. 2. Informations-Beschaffungs-Strategien: Es werden alle möglichen Informationsquellen bestimmt, von denen dann die besten ausgewählt werden. Solche Quellen können insbesondere auch andere Personen sein, mit denen man anschließend kommuniziert. 3. Lokalisierung und Zugriff. Die Quellen werden zuerst intellektuell und physisch lokalisiert, und dann die Information innerhalb der Quelle gesucht und gefunden. KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG 6 4. Benutze die Information: Hierzu schaut man sich das gefundene Dokument/Objekt an (lesen, hören, betrachten, anfassen), und extrahiert dann die relevante Information. 5. Synthese: Die Information aus den verschiedenen gefundenen Quellen wird organisiert und anschließend präsentiert. 6. Bewertung: Abschließend wird sowohl das Produkt beurteilt – dies betrifft den Aspekt der Effektivität – als auch der Prozess im Hinblick auf seine Effizienz bewertet. Die Bewältigung dieser Schritte setzt eine Reihe weiterer Fähigkeiten voraus: 1. Aufgabendefinition: Der Benutzer muss in der Lage sein, den Informationsbedarf zu erkennen. 2. Informations-Beschaffungs-Strategien: Der Benutzer muss sowohl passende Strategien kennen als auch die Quellen, die potenziell relevante Information beinhalten. 3. Lokalisierung und Zugriff: Der Benutzer muss die Information lokalisieren können (z.B. durch eine Webseite navigieren) als auch zielgerichtet die relevante Information selektieren können 4. Benutze die Information: Hierzu muss man in der Lage sein, gefundene Information passend zu organisieren. 5. Synthese: Gefundene Information muss mit dem bisherigen Wissen kombiniert und dann zur Präsentation aufbereitet werden. 6. Bewertung: Man muss in der Lage sein, Information kritisch zu beurteilen. Eng mit der Informationskompetenz verknüpft sind eine Reihe benachbarter Kompetenzen: • Bibliothekskompetenz bezieht sich auf die Fähigkeit, eine Bibliothek (physisch oder digital) zu nutzen • Computerkompetenz betrifft die generelle Nutzung eines Computers. • Digitalkompetenz ist die Fähigkeit, über Computer dargestellte Information unterschiedlicher Formate verstehen und anwenden zu können. • Internet-Kompetenz bezieht sich auf die Nutzung des Internet allgemein. • Suchkompetenz ist die Fähigkeit, effektiv in Informationssystemen zu suchen (s.u.). • Kommunikationskompetenz betrifft die Kommunikation mit anderen Personen auf allen möglichen Kanälen. • Lesekompetenz ist die grundlegende Fähigkeit, Information aus Texten zu extrahieren. • Medienkompetenz bezieht sich auf den Umgang mit allen möglichen Medien – vom einfachen Text bis hin zur Navigation in virtuellen Welten. • Schreibkompetenz ist schließlich die Fähigkeit, Gedanken niederzuschreiben. 1.3 Suchkompetenz Um effektiv suchen zu können, muss der Benutzer idealerweise Kenntnis über den grundsätzlichen Aufbau einer Suchmaschine sowie folgende Aspekte ihrer Funktionalität verfügen: Suchbarkeit, linguistische Funktionen, Anfragesprache und Ranking. Ferner sollte man ein Repertoire an geeigneten Suchtaktiken und Strategien beherrschen, um die Suche erfolgreich voran treiben zu können. Aufbau einer Web-Suchmaschine Einige Aspekte der Suche lassen sich leichter verstehen, wenn man den grundsätzlichen Aufbau einer Web-Suchmaschine kennt.Typischerweise bestehen diese aus folgenden Komponenten (siehe Abbildung 1.1): Crawler Diese Komponente sammelt die Dokumente aus dem Web auf. Hierzu startet der Crawler mit einer Liste von Web-Servern, deren Dokumente zuerst abgefragt werden, und von wo aus dann Links zu neuen Quellen verfolgt werden. Parser/Indexer Jedes Dokument wird geparst, der reine Text extrahiert, in einzelne Wörter zerlegt, dann linguistische Algorithmen und Gewichtungsmethoden angewandt ( indexiert“) und das Ergebnis der ” Datenbank übergeben. Datenbank Diese dient zur Speicherung der extrahierten und aufbereiteten Daten in geeigneten Datenstrukturen, um eine möglichst effiziente Suche zu erlauben. Searcher Der Benutzer greift über seinen Browser auf das Such-Interface zu, das die Anfragen an die Datenbank übergibt und die Antwortrangliste geeignet aufbereitet und an den Benutzer zurückgibt. KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG 7 Abbildung 1.1: Aufbau einer Web-Suchmaschine Suchbarkeit Hierbei geht es um die Frage, welche Dokumente potenziell überhaupt durch die Suchmaschine gefunden werden können. Nicht jedes Dokument, auf das man mit dem Browser zugreifen und sich anzeigen lassen kann, ist auch suchbar. • Grundvoraussetzung ist zunächst, dass die Suchmaschine überhaupt Zugriff auf das Dokument hat. So sind zunächst einmal generell nur öffentlich zugängliche Dokumente suchbar. Eine Ausnahme hiervon bilden einige Verlage und Bibliotheken, die den Suchmaschinen das Indexieren von Dokumenten erlauben, zu denen tatsächlich nur ein eingeschränkter Zugang (z.B. kostenpflichtig oder nur ausschnittsweise Anzeige) möglich ist. Ferner muss die Suchmaschine selbst erst einmal durch das Verfolgen von Links auf das Dokument stoßen; dies ist insbesondere bei vielen Datenbankinhalten (z.B. Bibliothekskatalog) nicht der Fall. Schließlich kann der Betreiber einer Website in einer Datei robots.txt den Suchmaschinen mitteilen, welche Dokumente trotz freien Zugangs nicht indexiert werden sollen. • Ein weiteres Hindernis ist die Aktualität einer Webseite: Da die Suchmaschine im pull-Modus auf die Seiten zugreift, dauert es nach Änderungen eine Weile, bis die Suchmaschine die neuen Inhalte indexiert. Diese Zeitspanne hängt von der Strategie ab, mit der die Suchmaschine die Web-Seiten besucht – bei Nachrichtenseiten liegen diese im Stundenbereich, bei anderen Seiten kann dies bis zu mehreren Wochen dauern. • Die Suchmaschinen indexieren außer HTML nur einige wenige gängige Textformate (wie etwa txt, pdf, doc, ppt) und ignorieren weniger verbreitete Formate. Insbesondere können nur Texte indexiert werden – Faksimile-Dokumente bleiben ebenso außen vor wie etwa als Grafik dargestellter Text in HTML-Seiten (wobei dort aber der Text üblicherweise im alt-Attribut wiederholt wird). • Schließlich bildet die Sprache noch ein weiteres Hindernis bei der Suche – die Suchmaschine kann i.d.R. die Anfrage nicht in andere Sprachen übersetzen. Linguistische Funktionen Übliche Suchfunktionen, wie man sie in Texteditoren (oder auch im Browser selbst – Strg-F) findet, basieren auf einem reinen Zeichenkettenvergleich. Für eine inhaltsorientierte Suche ist dies aber völlig unzureichend, weshalb eine Reihe von linguistischen Funktionen zum Einsatz kommt, um auch Varianten der eingegebenen Suchbegriffe zu finden. Wortnormalisierung versucht, verschiedene Schreibweisen eines Wortes zusammenzuführen. Außer der fehlenden Unterscheidung zwischen Groß- und Kleinschreibung betrifft dies neben Abkürzungen und Rechtschreibvarianten insbesondere auch die Zusammen- vs. Getrenntschreibung oder BindestrichVarianten. Beispiele: meta tag – meta-tag – metatag – meta tag’s, colour – color, Prozess – Prozeß Grundformreduktion Üblicherweise werden alle Wörter auf ihre linguistische Grundform (Lemma) reduziert, also den Nominativ Singular bei Nomen, den Infinitiv bei Verben sowie die ungesteigerte Form (Positiv) bei Adjektiven und Adverbien. Beispiele: Häuser – Hauses – Hause – Haus, Duisburg – Duisburgs, aber nicht Duisburger, da letzteres ein Adjektiv ist. Möchte man die Grundformreduktion unterdrücken, so kann man den Suchterm bei einigen Suchsystemen in Anführungsstriche setzen. KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG 8 Phrasen Insbesondere die aus Nomen bestehenden Nominalphrasen spielen eine wichtige Rolle (z.B. Wahl des Bundestages). Hierzu bieten Suchmaschinen üblicherweise eine Art Abstandssuche an. Beispiele: “information retrieval”, “retrieval * information” Komposita sind zusammengesetzte Begriffe wie etwa Einfamilienhaus, Reihenendhaus, Doppelhaushälfte. Diese werden nur in Einzelfällen als Teil der Wortnormalisierung in ihre Komponenten zerlegt. Synonyme Durch den speziellen Operator ∼ ist es z.B. bei Google möglich, neben dem eingegebenen Suchterm auch nach allen (im Wörterbuch der Suchmaschine hierzu verzeichneten) Synonymen zu suchen. Beispiel: Handy Mobiltelefon Smartphone / ∼handy Anfragesprache Die Kenntnis der Anfragesprache erlaubt es, auch komplexere Anfragen zu formulieren. Nachfolgend sind die wesentlichen Operatoren von Google beschrieben (die es in gleicher oder ähnlicher Form auch bei der Konkurrenz gibt): Boolesche Operatoren: Üblicherweise werden alle Suchbegriffe implizit mit einem logischen UND verknüpft, ODER erlaubt die Disjunktion, und die Negation wird durch ein dem Suchterm vorangestelltes Minuszeichen ausgedrückt. Beispiel: handy -vertrag. Zahlenbereiche können durch .. formuliert werden, wie etwa 100..200 EURO. Facetten erlauben die Einschränkung der Antwortmenge anhand einer Reihe von Aspekten, wie etwa Objekttyp (Bilder/Maps/Videos/News/Shopping/..), Standort, Sprache oder Zeitraum. Feld-Prädikate beschränken die Suche des betreffenden Wortes auf Felder wie die URL (inurl:), den Ankertext auf das betreffende Dokument verweisender Seiten (inanchor:), den Titel des Dokumentes (intitle:) oder den eigentlichen Text (intext:). So sucht etwa duisburg -intext:duisburg nach allen Seiten zu Duisburg, bei denen Duisburg“ im Text selbst nicht vorkommt. Zusätzlich gibt es ” diese Prädikate noch mit dem Präfix all; schreibt man dieses an den Beginn der Anfrage, müssen alle folgenden Suchterme diese Bedingung erfüllen. URL-Prädikate beziehen sich auf die URL und Verlinkung der gesuchten Dokumente: site: sucht nach Seiten auf einer Website, link: nur nach Seiten, die auf die angegebene URL verweisen, filetype: spezifiziert den Dateityp des gesuchten Dokumentes, und related: auf Seiten mit den gleichen einund ausgehenden Links. So sucht etwa link:uni-due.de -site:uni-due.de nach Seiten außerhalb der UDE, die auf die Startseite der Uni verweisen. Ranking Da üblicherweise sehr viele Seiten die Suchbedingungen erfüllen, erstellt das System eine Rangordnung (Ranking der Antworten). Für den Nutzer ist es wichtig zu wissen, welche davon ihm auf der ersten Ergebnisseite gezeigt werden (nur etwa 10% aller Nutzer schauen sich weitere Ergebnisseiten an). Die konkrete Rankingfunktion ist das Geschäftsgeheimnis der Suchmaschinenbetreiber und wird zudem ständig weiterentwickelt. Generell spielen folgende Faktoren dabei eine Rolle: • Die Suchbegriffe kommen häufig in der Seite vor. • Die Suchbegriffe kommen in Ankertexten vor. • Page rank ist die Popularität einer Seite anhand ihrer Verlinkung mit anderen (populären) Seiten. • Diversität: Die ersten Antworten soll möglichst viele Aspekte der Anfrage abdecken. • Nutzer-Klicks auf Antworten werden heute standardmäßig alle protokolliert, damit das System lernt, welche Seiten bevorzugt angeklickt werden. Hierbei geht nicht nur die Gesamtheit aller Klicks zur selben Anfrage, sondern auch die Klicks des betreffenden Nutzers bei früheren Anfragen sowie ggfs. die Klicks seiner Freunde aus Google+ in die Bewertung einer Seite ein. Aufgrund der Fülle an Merkmalen kann kein einfaches Retrievalmodell (wie in den folgenden Kapiteln beschrieben) allein eingesetzt werden, sondern es wird ein learning to rank -Ansatz (siehe Kapitel 6 angewendet, der auf den Klick-Daten trainiert wird. Da es für viele Unternehmen geschäftlich fast unabdingbar ist, auf der ersten Ergebnisseite zu landen, gibt es das Gewerbe der Search engine optimization. Hier beschäftigt man sich mit der Optimierung von Webseiten, so dass diese oben in der Trefferliste erscheinen. Allerdings gibt es auch das Phänomen des Web spam, wo Seitenbetreiber auch kaum oder gar nicht zutreffende Anfragen auf ihre Seite lenken wollen. Die Suchmaschinenbetreiber versuchen, solche Seiten automatisch zu erkennen, und haben daher Regeln aufgestellt, was als Search engine optimization noch erlaubt und was bereits als Web spam angesehen wird. Auch diese Regeln und damit die Grenze zwischen erlaubter und unerlaubter Optimierung verändern sich ständig. KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG 9 Suchtaktiken und Strategien Komplexere Informationsbedürfnisse erfordern i.d.R. eine ganze Reihe von Anfragen, um sich schrittweise dem Ziel zu nähern. Erfahrene Sucher verfügen daher über ein Repertoire an Taktiken und Strategien, um den Suchprozess effektiv zu gestalten (Details siehe Abschnitt 7.4.1). Eine Strategie ist ein Plan zur Durchführung einer komplexen Suche. Taktiken bezeichnen einzelne Aktionen, die die Suche vorantreiben. [Bates 79] unterscheidet dabei folgende Arten: Monitoring-Taktiken überwachen den Fortgang des Prozesses, registrieren Abweichungen vom ursprünglichen Suchziel und versuchen, dieses weiterhin effizient anzusteuern. Strukturelle Taktiken arbeiten auf der Menge der potenziellen Antworten, indem diese z.B. mit Hilfe der o.g. Facetten eingeschränkt wird. Suchformulierung Je nach Bedarf versucht man die Frage zu verbreitern oder einzuengen, indem man etwa mehr oder weniger Terme in der Anfrage verwendet. Term-Taktiken beziehen sich auf die Auswahl und die Variation der Suchterme. Ideen-Taktiken betrachten die noch offenen Suchmöglichkeiten sowie Variationen der bisherigen Anfragen. 1.4 Information Retrieval Betrachtet man die oben diskutierten Aspekte der Internet-Suche, so erkennt man deutliche Unterschiede zur Suche in klassischen Datenbanksystemen, die strukturierte Daten verwalten: • Die Formulierung einer zum aktuellen Informationsbedürfnis passenden Anfrage bereitet erhebliche Probleme. • Meistens durchläuft der Prozess der Anfrageformulierung mehrere Iterationen, bis passende Antworten gefunden werden. • Anfragen liefern meist sehr viele Antworten, aber nur wenige davon sind für den Nutzer interessant. • Das vorgenannte Problem entschärft sich durch die vom System bereitgestellte Rangordnung der Antworten, wodurch potentiell relevante Antworten gehäuft am Anfang der Rangliste auftauchen. • Bei Textdokumenten (aber noch stärker bei Bildern) zeigt sich, dass die systemintern verwendete Repräsentation des Inhalts von Dokumenten teilweise inadäquat, auf jeden Fall aber mit Unsicherheit behaftet, ist. Das Wissenschaftsgebiet, das sich mit Informationssuchen dieser Art beschäftigt, bezeichnet man als Information Retrieval. Erste Arbeiten hierzu gab es schon in den 1950ern durch Hans Peter Luhn bei IBM, der sich u.a. mit Wortstatistiken beschäftigte. Populärster Pionier war Gerard Salton, der ab 1960 zunächst in Harvard und dann an der Cornell University an der Entwicklung des Retrievalsystems SMART arbeitete. Auf der Anwendungsseite entstanden ab 1962 erste Online-Informationssysteme, die hauptsächlich Nachweissysteme waren (es wurden nur die bibliografischen Angaben sowie eine Kurzfassung der Dokumente gespeichert, den Volltext musste man sich auf anderem Wege beschaffen). Die Nutzung dieser Systeme war wegen der Netzwerk- und Computer-Kosten relativ teuer und daher auf einen kleinen Anwenderkreis beschränkt. Erst 1991 entstand mit 1991 WAIS (Wide Area Information System) das erste frei verfügbare Retrievalsystem im Internet, das zudem eine verteilte Suche ermöglichte. Nach der Einführung des WWW 1993 kam 1994 mit Webcrawler die erste Internet-Suchmaschine. 1.4.1 Was ist Information Retrieval? Zur Definition des Gebietes legen wir hier die Beschreibung der Aufgaben und Ziele der Fachgruppe Information Retrieval“ innerhalb der Gesellschaft für Informatik“ zugrunde: ” ” Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozess des ” Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunkt” mäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG Daten syntaktisch definierte Verfahren der Daten− verarbeitung Information semantisch begründete Verfahren der (Wissen−) Repräsentation 10 Wissen pragmatisch kontrollierte Wissens− erarbeitung zur informationellen Handlungs− absicherung Abbildung 1.2: Daten – Information – Wissen Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können; häufig müssen zudem mehrere Datenbasen zur Beantwortung einer einzelnen Anfrage durchsucht werden. Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); darüber hinaus werden auch solche Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind (wie z.B. bei vielen technisch-wissenschaftlichen Datensammlungen). Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte.“ Als kennzeichnend für das Gebiet werden somit vage Anfragen und unsicheres Wissen angesehen. Die Art der Darstellung des Wissens ist dabei von untergeordneter Bedeutung. Oftmals wird IR auch eingeschränkt auf die inhaltsorientierte Suche in (multimedialen) Dokumenten betrachtet. (Tatsächlich behandeln wir in diesem Skriptum fast ausschließlich Modelle und Methoden aus diesem Bereich.) Für diese Art der Suche kann man folgende Abstraktionsstufen unterscheiden: Syntax: Hierbei wird ein Dokument als Folge von Symbolen aufgefasst. Methoden, die auf dieser Ebene operieren, sind z.B. die Zeichenkettensuche in Texten sowie die Bildretrievalverfahren, die nach Merkmalen wie Farbe, Textur und Kontur suchen. Semantik beschäftigt sich mit der Bedeutung eines Dokumentes. Methoden zur Repräsentation der Semantik eines Textes haben eine lange Tradition im Bereich der Wissensrepräsentation; semantisches Bildretrieval müsste die Suche nach Bildern unterstützen, die z.B. bestimmte (Klassen von) Objekten enthalten (Menschen, Häuser, Autos,. . . ). Pragmatik orientiert sich an der Nutzung eines Dokumentes für einen bestimmten Zweck. Zum Beispiel sucht ein Student Literatur zur einem vorgegebenen Seminarthema. Bildarchive werden häufig von Journalisten in Anspruch genommen, um einen Artikel zu illustrieren; dabei ist meist das Thema vorgegeben, aber nicht der semantische Bildinhalt. Generell lässt sich festhalten, dass Nutzer meistens an einer Suche auf der pragmatischen Ebene interessiert sind. Insbesondere bei nicht-textuellen Dokumenten können dies heutige IR-Systeme aber kaum leisten. 1.5 Daten – Information – Wissen Datenbanksysteme enthalten Daten. IR-Systeme sollen die Suche nach Information9 unterstützen. Enthalten IR-Systeme also Information? Schließlich ist vor allem in KI (Künstliche Intelligenz)-Publikationen 9 Da Information keine exakt quantifizierbare Größe ist, gibt es auch den Plural Informationen“ eigentlich nicht. Es gibt ” nur mehr oder weniger Information. KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG 11 häufig die Rede von Wissensbasen. Was ist denn nun der Unterschied zwischen Daten, Wissen und Information? In der deutschen Informationswissenschaft hat man sich vor einigen Jahren auf eine einheitliche Terminologie geeinigt, die aber leider im Gegensatz zur sonst in der Informatik verwendeten steht. Daher verwenden wir hier die allgemein übliche Begrifflichkeit, allerdings in Kombination mit den Erläuterungen aus der Informationswissenschaft (siehe Abbildung 1.2). Danach sind Daten auf der syntaktischen Ebene anzusiedeln. In diesem Sinne wäre also eine Datenbasis eine nackte Sammlung von Werten ohne jegliche Semantik. Kommt Semantik hinzu, so sprechen wir von Information. Dementsprechend enthalten also Datenbanksysteme nicht nur Daten, sondern auch Information, weil zusätzlich zu den Daten zumindest ein Teil der Semantik des jeweiligen Anwendungsgebietes auch im System modelliert wird. Genauso enthält jedes IR-System Information (im Gegensatz etwa zu dem Fall, wo man Texte einfach in einer Datei abspeichert und mit Hilfe eines Texteditors durchsucht). Wissen schließlich ist auf der pragmatischen Ebene definiert. In Abwandlung von [Kuhlen 90] lässt sich dies so formulieren: Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situa” tion zur Lösung von Problemen benötigt wird“. Da dieses Wissen häufig nicht vorhanden ist, wird danach in externen Quellen gesucht. Hierbei dient ein Informationssystem dazu, aus der gespeicherten Information das benötigte Wissen zu extrahieren. Wir sprechen auch von Informationsflut, wenn uns große Mengen an Information zugeleitet werden, aus denen wir nur mit Mühe das benötigte Wissen extrahieren können. Daher sind wir auch bereit, für gezielt bereitgestelltes Wissen zu zahlen (z.B. Tageszeitung, werbefreies Fernsehen). Somit kann man die Transformation von Information in Wissen als einen Mehrwert erzeugenden Prozess sehen [Kuhlen 91]. Schlagwortartig lässt sich die Beziehung zwischen Information und Wissen ausdrücken durch die Formulierung Wissen ist Information in Aktion“. ” Als anschauliches Beispiel kann man hierzu die online verfügbaren LINUX-Manuals betrachten. Diese beinhalten Information über LINUX. Wenn nun ein Benutzer eines LINUX-Systems eine bestimmte Aktion ausführen möchte (z.B. ein Dokument drucken), aber nicht weiß, durch welche Kommandos er dies erreicht, so ist das in diesem Fall benötigte Wissen gerade die entsprechende Teilmenge der insgesamt in den Manuals verfügbaren, umfangreichen Information. Da nur ein geringer Teil der gesamten Information benötigt wird, besteht der Mehrwert des Wissens (so sie durch die hierzu verfügbaren Werkzeuge wie z.B. das man-Kommando geliefert wird) gerade in ihrer gezielten Bereitstellung. Daten Information Wissen Entscheidung Nützlichkeit Abbildung 1.3: Wissen zur Entscheidungsunterstützung Wie oben erwähnt, dient Wissen zur informationellen Handlungsabsicherung“. Im Kern geht es dabei ” um die Rolle des Wissens zur Entscheidungsunterstützung. Dieser Zusammenhang wird durch Abbildung 1.3 verdeutlicht. Wissen dient also zur informationellen Handlungsabsicherung“, und meist stellt ” sich erst später heraus, wie nützlich die auf dem Wissen basierende Entscheidung war. 1.6 Rahmenarchitektur für IR-Systeme Wir beschreiben hier ein konzeptionelles Modell für IR-Systeme, das wir für die nachfolgenden Ausführungen in diesem Skriptum zugrunde legen (siehe Abb. 1.4). Jedes Objekt einer Datenbasis wird mittels geeigneter Erschließungsverfahren eine entsprechende interne Darstellung (die wir hier Repräsentation“ nen” nen) transformiert, in der der Inhalt geeignet repräsentiert wird. Diese wird zu einer Objekt-Beschreibung verdichtet, die für das eigentliche Retrieval benutzt wird. Am Beispiel des Dokumenten-Retrieval wollen wir diesen Sachverhalt verdeutlichen: Objekt/Dokumenttext: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Daraus erstellt ein IR-System z.B. durch Reduktion auf die linguistische Stammform und Eliminierung von Stoppwörtern folgende Repräsentation: KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG 12 Evaluierung Informations− bedürfnis Frage− Repräsentation Frage− Beschreibung Vergleich Wissensrepräsentation fiktives/ reales Objekt Objekt− Repräsentation Objekt− Beschreibung Ergebnisse Retrievalmodelle Abbildung 1.4: Konzeptionelles Modell für IR-Systeme (experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index, techni, retriev, document, know) Für das Retrieval wird eine Term-Multimenge als Beschreibung verwendet: {(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1), (perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)} Analog würde eine Suche nach dem besten Indexierungsalgorithmus repräsentiert als (best index algorithm) und als Beschreibung könnte die Konjunktion der Frageterme zugrundegelegt werden: best ∧ index ∧ algorithm. Der Vergleich von Dokumentbeschreibungen mit der Beschreibung der aktuellen Anfrage liefert dann die Retrievalergebnisse. Anhand dieser Abbildung kann auch der Aspekt der Unsicherheit verdeutlicht werden. Die Ableitung der Repräsentation aus dem eigentlichen Dokument ist eine wesentliche Quelle von Unsicherheit. Speziell bei Texten oder multimedialen Dokumenten kann deren Inhalt nur unzureichend erschlossen werden Auf der Seite der Fragen ergeben sich die gleichen Probleme der Unsicherheit, insbesondere bei der Abbildung des Informationswunsches auf die formale Anfrage. Zusätzlich spielt hier das für IR-Anwendungen typische Moment der Vagheit eine wichtige Rolle. Daher sollte die Frageformulierung in der Lage sein, diese Vagheit zu repräsentieren. Bei vielen Retrievalmodellen geschieht dies z.B. durch eine Gewichtung der Frageterme. Die Themen der nun folgenden Kapitel lassen sich ebenfalls anhand von Abbildung 1.4 illustrieren: • Die Repräsentation von Textinhalten betrachtet die Erstellung der Repräsentationen von Fragen und Dokumenten. • Retrievalmodelle fokussieren auf den Vergleich von Frage- und Dokumentbeschreibung, wobei bestimmte Formen der Beschreibung zugrunde gelegt werden, deren Herleitung aus der Repräsentation ebenfalls im Retrievalmodell spezifiziert wird. • Evaluierung beschäftigt sich mit der Qualität der Ergebnisse in Bezug auf das Informationsbedürfnis. Kapitel 2 Wissensrepräsentation für Texte 2.1 Problemstellung Da sich IR hauptsächlich mit der inhaltlichen Suche in Texten beschäftigt, stellt sich die Frage nach der geeigneten Repräsentationsform für Textinhalte. Im Gegensatz zu Standard-Datenbanksystemen, wo die Repräsentation mehr oder weniger eindeutig ist, ist die Repräsentation ein zentrales Problem im IR. Dies liegt daran, dass die in einer Frage angesprochenen Konzepte auf unterschiedlichste Weise in Texten formuliert sein können. Eine gewählte Repräsentationsform soll daher zum einen unterschiedliche Formulierungen auf die gleiche Repräsentation abbilden (und damit den Recall erhöhen), zum anderen auch unklare Formulierungen (z.B. Mehrdeutigkeit einzelner Wörter) vereindeutigen, um die Precision zu erhöhen. Wir werden in diesem Kapitel zwei Arten von Lösungsansätzen für dieses Problem vorstellen: • semantischer Ansatz: Durch die Zuordnung von Deskriptionen zu Texten wird versucht, eine Repräsentation zu erstellen, die weitgehend unabhängig von der konkreten Formulierung im Text ist. Syntax und Semantik solcher Deskriptionen sind in Form sogenannter Dokumentationssprachen festgelegt. • Freitextsuche: Hierbei wird keine zusätzliche Repräsentation erstellt, sondern es werden nur bestimmte Funktionen zur Verbesserung der Suche im Text der Dokumente angeboten. 2.2 2.2.1 Freitextsuche Grundlagen Terminologie Wir geben zunächst die Definitionen einiger linguistischer Begriffe wieder, die wir im Folgenden verwenden werden: • Token: einzelnes Wort im laufenden Text • Type: einzelnes Wort des Vokabulars • Morphem: kleinste bedeutungstragende Einheit in einem Wort, z.B. Blend-e, lauf-en, • Flexion: Deklination, Konjugation und Komparation von Wörtern • Grundform/Lemma: unflektierte Wortform; für Nomen ist es der Nominativ Singular, für Verben der Infinitv, für Adjektive und Adverbien die ungesteigerte Form (Positiv). • Derivation: Wortbildung aus dem Wortstamm mit Hilfe von Präfixen und Suffixen, z.B. haus: Haus – häuslich – aushäusig, • Stammform: (genauer: Derivationsstammform), das der Derivation zugrunde liegende lexikalische Morphem • Kompositum: Bildung eines komplexen Wortes, das aus mindestens zwei Morphemen besteht, die sonst als selbstständige Wörter vorkommen, z.B. Dampfschiff, schreibfaul, strapazierfähig • Nominalphrase: Wortgruppe im Satz, die ein Nomen als Bezugswort hat, z.B. Wahl des Bundes” kanzlers“ 13 KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 14 Ansätze Bei der Freitextsuche kann man zwischen den beiden folgenden Ansätzen unterscheiden: • informatischer Ansatz: Dieser Ansatz (der heute fast nur noch in einigen kommerziell angebotenen IR-Systemen zu finden ist) fasst Textretrieval als Zeichenkettensuche auf und bietet entsprechende Funktionen auf Zeichenkettenebene. • computerlinguistischer Ansatz: Hier wird mit Hilfe von morphologischen und teilweise auch syntaktischen Verfahren eine Normalisierung von Wortformen angestrebt, so dass sich die Suche auf Wörter bezieht (im Gegensatz zu den Zeichenketten beim informatischen Ansatz). Vorverarbeitung Bei beiden Ansätzen werden zunächst folgende Verarbeitungsschritte auf den Text der Dokumente angewandt: 1. Textbereinigung: Häufig enthält der Text noch Markup oder Trennungszeichen, die vor der weiteren Verarbeitung entfernt werden müssen. 2. Zerlegung des Textes in einzelne Wörter (Tokenization): Leer- und Interpunktionszeichen werden hier als Worttrenner aufgefasst. Bei einigen ostasiatischen Sprachen (z.B. chinesisch) gibt es keine expliziten Worttrenner; man kann das Ende eines Wortes nur mit Hilfe eines Lexikons erkennen. 3. Stoppwortbestimmung: Nicht-bedeutungstragende Wörter wie Artikel, Füllwörter oder Konjunktionen werden meist aus Aufwandsgründen von der weiteren Verarbeitung ausgeschlossen. Nur für syntaktische Verfahren müssen die Stoppwörter berücksichtigt werden, um ein korrektes Parsing zu ermöglichen. Stoppwörter machen häufig rund die Hälfte des Textes aus. Allerdings können Stoppwörter auch wichtige Bestandteile von Nominalphrasen sein, z.B. bei vitamin A“ im Englischen. ” 4. Satzende-Erkennung: Für die computerlinguistische Analyse sowie die Freitexbedingung Suche im ” selben Satz“ ist es notwendig, die Folge von Wörtern in Sätze zu untergliedern. Wegen der Verwechslungsmöglichkeit des Satzendepunktes mit Abkürzungspunkten kann diese Aufgabe nur approximativ gelöst werden (z.B. mit Hilfe von Abkürzungslisten). 5. Wortnormalisierung: Um Schreibweisenvarianten zusammenzuführen, werden die Wörter durch verschiedene Methoden normalisiert: • Groß-/Kleinschreibung: üblicherweise werden alle Wörter in Kleinschreibung überführt. • Rechtschreibung: Um die Effekte durch Rechtschreibreformen zu kompensieren, werden intern alle Wörter auf die aktuelle Schreibweise abgebildet. • Nationale Schreibvarianten (z.B. britisches und amerikanisches Englisch, oder das fehlende ’ß’ im schweizerischen Deutsch) werden vereinheitlicht. • Zusammen- und Getrennt-Schreibungen versucht man ebenso wie die Variante mit Bindestrich zusammenzuführen: meta-tag/meta tag/metatag, zusammenführen/zusammen führen, Getrenntschreibung/Getrennt-Schreibung • Häufige Abkürzungen versucht man mit der Langform zusammenzuführen Mit Ausnahme der ersten Methode benötigen alle Verfahren geeignete Wörterbücher. Probleme der Freitextsuche Die eigentliche Freitextsuche bezieht sich dann auf den so reduzierten Text (bzw. die resultierende Folge von Wörtern). Bei dieser Art der Suche nach Wörtern stellen sich folgende Probleme: • Homographen (verschieden gesprochene Wörter mit gleicher Schreibweise) Tenor: Sänger / Ausdrucksweise • Polyseme (Wörter mit mehreren Bedeutungen) Bank: Sitzgelegenheit / Geldinstitut • Flexionsformen: Haus – (des) Hauses – Häuser, schreiben – schreibt – schrieb – geschrieben • Derivationsformen (verschiedene Wortformen zu einem Wortstamm) Formatierung – Format – formatieren • Komposita: Donaudampfschiffahrtsgesellschaftskapitän, Bundeskanzlerwahl • Nominalphrasen: Wahl des Bundeskanzlers, information retrieval – retrieval of information – information was retrieved Das grundsätzliche Problem der Freitextsuche – die Wortwahl – bleibt aber in jedem Falle ungelöst! KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 2.2.2 15 Informatischer Ansatz Der informatische Ansatz betrachtet Texte als Folgen von Wörtern, wobei ein Wort als eine durch Leeroder Interpunktionszeichen begrenzte Zeichenfolge definiert ist. Somit wird hier Freitextsuche als eine spezielle Form der Zeichenkettensuche aufgefasst und entsprechende Zeichenketten-Operatoren angeboten. Diese beziehen sich zum einen auf einzelne Wörter, zum anderen auf Folgen von Wörtern. Erstere sind Truncation- und Maskierungs-Operatoren für die Freitextsuche, letztere die Kontextoperatoren. (Wie bei allen IR-Systemen üblich, wird im folgenden nicht zwischen Groß- und Kleinschreibung unterschieden). • Truncation- und Maskierungs-Operatoren dienen dazu, Flexions- und Derivationsformen von Wörtern zusammenzuführen. – Bei der Truncation wird einerseits zwischen Front- und End-Truncation unterschieden, wobei die Front-Truncation hauptsächlich benutzt wird, um beliebige Vorsilben bei der Suche zuzulassen. Andererseits kann bei der Truncation entweder eine feste oder eine variable Anzahl von Zeichen zugelassen werden. Bei den folgenden Beispielen verwenden wir das Symbol $ für Truncation für genau ein Zeichen und # für eine beliebig lange Zeichenfolge; im ersten Fall spricht man auch von beschränkter Truncation, im zweiten Fall von unbeschränkter. Wir geben jeweils das Suchmuster an und einige Wörter, die Treffer für dieses Pattern sind: schreib#: schreiben, schreibt, schreibst, schreibe schreib$$: schreiben, schreibst #schreiben: schreiben, beschreiben, anschreiben, verschreiben $$schreiben: beschreiben, anschreiben – Maskierung oder genauer Mitten-Maskierung bezieht sich auf Zeichen in der Mitte eines Wortes; da im Deutschen bei der Konjugation und der Deklination von Wörtern nicht nur die Endung betroffen ist, werden solche Operationen benötigt: schr$$b#: schreiben, schrieb / schrauben h$$s#: Haus, Häuser / Hanse, hausen, hassen Der wesentliche Vorteil der Truncation- und Maskierungsoperatoren besteht also darin, dass Flexionsund Derivationsformen von Wörtern zusammengeführt werden und Schreibarbeit gegenüber dem expliziten Aufzählen gespart wird. Möglicherweise werden dadurch aber auch unerwünschte Wörter zugelassen; daher zeigen die meisten Systeme zunächst die verschiedenen Wortformen, die ein Pattern erfüllen, so dass der Benutzer daraus auswählen kann. Das grundsätzliche Problem bei dieser Vorgehensweise ist aber, dass der Benutzer sich zunächst alle möglichen Wortformen vorstellen muss, um eine gute Anfrage zu formulieren. • Kontextoperatoren dienen zur Suche nach mehrgliedrigen Ausdrücken. Da z.B. der Ausdruck “information retrieval” im Text auch in der Form “information storage and retrieval” oder “retrieval of information” auftreten kann, muss die Anfragesprache Operatoren anbieten, die die einfache Spezifikation solcher Formen ermöglichen. Ohne solche speziellen Operatoren wäre man auf die booleschen Operatoren angewiesen, die sich lediglich auf das Vorkommen der einzelnen Wörter irgendwo im selben Text beziehen. Folgende Kontextoperatoren werden häufig angeboten: – genauer Wortabstand ($): retrieval $ information: retrieval of information, retrieval with information loss – maximaler Wortabstand (#): text # # retrieval: text retrieval, text and fact retrieval – Wortreihenfolge (,): information # , retrieval: information retrieval, retrieval of information – gleicher Satz (.): information # retrieval. matcht nicht . . . this information. Retrieval of data . . . aber auch nicht: . . . storage of information. Its retrieval . . . KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 2.2.3 16 Computerlinguistischer Ansatz Der computerlinguistische Ansatz versucht, Verfahren bereitzustellen, die die verschiedenen Flexions- und Derivationsformen eines Wortes zusammenführen. Analog sollen bei mehrgliedrigen Ausdrücken die verschiedenen möglichen Vorkommensformen erkannt werden. Im Gegensatz zum informatischen Ansatz, der zur Bewältigung dieser Probleme nur recht primitive Hilfsmittel zur Verfügung stellt, werden beim computerlinguistischen Ansatz Algorithmen bereitgestellt, die diese Transformationen automatisch ausführen. Dabei ist allerdings zu beachten, dass diese Aufgabe nicht in perfekter Art und Weise gelöst werden kann. Es gibt folgende Arten von computerlinguistischen Verfahren: • graphematische Verfahren basieren auf der Analyse von Buchstabenfolgen und werden im Bereich der Morphologie zum Zusammenführen von Flexions- oder Derivationsformen eines Wortes eingesetzt, • lexikalische Verfahren basieren auf einem Wörterbuch, das neben den Grundformen (Lemmata) mit ihren Flexionsformen auch mehrgliedrige Ausdrücke enthalten kann, die verschiedenen Bedeutungen mehrdeutiger Wörter verzeichnet, sowie Synonyme aufführen kann. • syntaktische Verfahren dienen hauptsächlich zur Identifikation von mehrgliedrigen Ausdrücken. 2.2.3.1 Graphematische Verfahren In diesem Abschnitt sollen graphematische Algorithmen für die englische Sprache vorgestellt werden. Da das Englische im Gegensatz zum Deutschen nicht so stark flektiert ist, erreichen diese Algorithmen eine sehr hohe Genauigkeit und sind daher ohne Probleme praktisch einsetzbar. Es ist zwischen Grundformund Stammformreduktion zu unterscheiden: • Bei der Grundformreduktion werden Wörter auf ihre Grundform zurückgeführt. Je nach Art des Algorithmus’ wird unterschieden zwischen: – formaler Grundform, die durch das alleinige Abtrennen der Flexionsendung erzeugt wird, wie z.B. activities → activit – und lexikographischer Grundform, die durch Abtrennen der Flexionsendung und ggfs. anschließender Rekodierung entsteht, also z.B. applies → appl → apply • Bei der Stammformreduktion werden (nach vorheriger Grundformreduktion) die Wörter auf ihren Wortstamm reduziert, indem die Derivationsendungen entfernt werden, z.B.: computer, compute, computation, computerization → comput. Lexikographische Grundformreduktion Als Beispiel für einen Reduktionsalgorithmus soll hier eine vereinfachte Fassung der in [Kuhlen 77] beschriebenen lexikographischen Grundformreduktion vorgestellt werden. Hierzu verwenden wir folgende Notationen: V alle Vokale (einschließlich Y) K alle Konsonanten / oder“ ” B 6 Leerzeichen → zu“ ” Die Regeln dieses (vereinfachten) Algorithmus’ sind dann folgende: 1) IES → Y 2) ES → 3) S → 4) S’ → IES’ → Y ES’ → 5) ’S → ’ → wenn KO / CH / SH / SS / ZZ / X vorangehen wenn K / E / VY / VO / OA / EA vorangehen KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 6) ING → ING → E wenn KK / V / X vorausgehen wenn VK vorausgehen 7) IED → Y wenn KK / V / X vorausgehen 8) ED → ED → E wenn VK vorausgehen Der Algorithmus wendet jeweils nur die erste passende Regel an. Nachfolgend geben wir einige Beispiele zu den einzelnen Regeln. Regel 1 IES → Y Beispiele zu 1: APPLIES IDENTIFIES ACTIVITIES Regel 2 BREACH PROCESS FISH COMPLEX TANGO BUZZ → → → → → → METHOD HOUSE BOY RADIO COCOA FLEA S’ → B 6 IES’ → Y ES’ → B 6 Beispiele zu 4: MOTHERS’ LADIES’ FLAMINGOES Regel 5 → → → → → → S → B 6 , wenn ∗ / E / %Y / %O / OA / EA vorangehen Beispiele zu 3: METHODS HOUSES BOYS RADIOS COCOAS FLEAS Regel 4 APPLY IDENTIFY ACTIVITY ES → B 6 , wenn ∗O / CH / SH / SS / ZZ / X vorangehen Beispiele zu 2: BREACHES PROCESSES FISHES COMPLEXES TANGOES BUZZES Regel 3 → → → → → → MOTHER LADY FLAMINGO ’S → B 6 ’ → B 6 Beispiele zu 5: MOTHER’S CHILDREN’S PETRUS’ → → → MOTHER CHILDREN PETRUS 17 KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE Regel 6 ING → B 6 , wenn ∗∗ / % / X vorausgehen ING → E, wenn %∗ vorausgehen Beispiele zu 6: DISGUSTING GOING MIXING LOOSING RETRIEVING Regel 7 DISGUST GO MIX LOOSE RETRIEVE → SATISFY ED → B 6 , wenn ∗∗ / % / X vorausgehen ED → E, wenn %∗ vorausgehen Beispiel zu 8: DISGUSTED OBEYED MIXED BELIEVED 2.2.3.2 → → → → → IED → Y Beispiel zu 7: SATISFIED Regel 8 18 → → → → DISGUST OBEY MIX BELIEVE Lexikalische Verfahren Graphematische Verfahren haben bei stark flektierten Sprachen wie z.B. dem Deutschen eine wesentlich höhere Fehlerquote als bei wenig flektierten Sprachen. Daher versucht man hier verstärkt, lexikalische Verfahren einsetzen. Für die Anwendung im IR sollte ein Lexikon folgende Relationen enthalten (s.a. [Zimmermann 91]): • Flexionsform (Vollformen) – zugehörige Grundform: Hauses – Haus, ging – gehen (meist wird nur die Grundform abgespeichert zusammen mit der Nummer der Regel, nach der daraus die Vollformen generiert werden). • Derivationsform – zugehörige Grundformen: Lieblosigkeit – lieblos, Berechnung – rechnen • Komposita – zugehörige Dekomposition: Haus’tür, Arm’band’uhr. • Synonyme: Handy — Mobiltelefon — Smartphone Lexikalische Verfahren haben generell den Nachteil, dass hier eine ständige Pflege des Wörterbuches notwendig ist. Für eine neue Anwendung ist zunächst ein hoher Anpassungsaufwand notwendig, um ein Standard-Wörterbuch mit den jeweiligen Fachbegriffen anzureichern. Auch später tauchen ständig neue Begriffe auf, die in das Lexikon aufgenommen werden müssen. Substantivkomposita (die letzte Komponente ist ein Substantiv) machen im Deutschen weniger als 10% der Token, aber mehr als 50% der Types aus. Eine auch nur annähernd vollständige Auflistung der Komposita im Wörterbuch ist daher schon aus Aufwandsgründen kaum realistisch. Andererseits ist die Kompositazerlegung aber sehr wichtig, um alle Vorkommen eines Suchwortes zu finden, wie z.B. bei Schweinebraten, Rinderbraten, Hirschbraten, Hühnerbraten, . . . oder Kernenergie, Solarenergie, Kohleenergie, Windenergie, . . . Ein Kompositum besteht nicht nur aus einer Reihe von Grundformen, sondern enthält zusätzlich Fugenelemente zur Verbindung derselben Fugenelemente können sein: -∅, -e, -en, -ens, -er, -n, -s sowie bei entlehnten Stämmen -i, -o, -al (z.B. in Elektr-o-motor, Agr-i-kultur ) und natürlich der Bindestrich. Leider gibt es keine allgemeingültigen Regeln, wann welches Fugenelement verwendet wird, wie die folgenden Beispiele zeigen: Wind-energie vs. Sonne-n-energie, Stadt-mitte vs. Städte-partnerschaft, Spargelder vs. Hilf-s-gelder und Schwein-e-braten vs. Wildschwein-braten. Um die im Text vorkommenden Komposita automatisch zu zerlegen, benötigt man ein GrundformenWörterbuch (das man auch weitestgehend vollautomatisch erstellen kann). Mit dessen Hilfe versucht man KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 19 dann, Kandidaten für Komposita in Folgen von Grundformen mit verbindenden Fugenmorphemen zu zerlegen. Allerdings ist die Zerlegung nicht immer eindeutig, wie folgende Beispiele fehlerhafter Zerlegung zeigen: Bausch-windel, Hafenbar-kasse, Kopfball-ast, Ster-befall, Tau-sender, Tram-polin. Man sollte also alle möglichen Zerlegungen generieren und hoffen, dass die fehlerhaften Zerlegungen sich nicht zu negativ auf die Retrievalqualität auswirken. 2.2.3.3 Syntaktische Verfahren Syntaktische Verfahren werden im IR hauptsächlich zur Identifikation von mehrgliedrigen Ausdrücken (Nominalphrasen) eingesetzt. Hierzu sind zwei Probleme zu lösen: 1. Wortklassenbestimmung: Zuordnung der syntaktischen Kategorie zu einzelnen Wörtern. 2. Parsing: Erkennen der syntaktischen Struktur. Für das Problem der Erkennung von Komposita muss keine vollständige syntaktische Analyse vorgenommen werden; es genügt, ein partielles Parsing zur Extraktion der relevanten Teilstrukturen. Nachfolgend beschreiben wir diese beiden Probleme etwas detaillierter. AT BEZ CONJ IN JJ JJR MD NN NNP NNS PERIOD PN RB RBR TO VB VBD VBG VBN VBP VBZ WDT article “is” conjunction preposition adjective comparative adjective modal (can, have, may, shall. . . ) singular or mass noun singular proper noun plural noun .:?! personal pronoun adverb comparative adverb “to” verb, base form verb, past tense verb, present participle, gerund verb, past participle verb, non 3rd singular present verb, 3rd singular present wh-determiner (what, which) Tabelle 2.1: Häufig verwendete Wortklassen (für Englisch) Wortklassenbestimmung Für die Definition von Wortklassen gibt es keinen Standard. Tabelle 2.1 zeigt jedoch eine häufig verwendetes Schema. Um die Wortklassen in einem Text zu bestimmen, kann auf dieselben Datenquellen zurückgegriffen werden, die auch bei der morphologischen Analyse verwendet werden: • Vollformen-Wörterbücher enthalten alle Flexionsformen von Wörtern (üblicherweise durch Angabe der Regelklasse für die möglichen Flexionen bei der Grundform); üblicherweise enthält der Eintrag auch die zugehörige(n) Wortklasse(n). • graphematische Verfahren versuchen, aus der Wortendung und evtl. Präfixen auf die Wortklasse zu schließen. Wegen des grundsätzlichen Problems der Unvollständigkeit von Wörterbüchern sollten graphematische Verfahren in jedem Fall eingesetzt werden, um auch unbekannte Wörter klassifizieren zu können. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE Nr. 1 2 3 4 5 6 7 8 Regel IES → Y ES → S → S’ → IES’ → Y ES’ → ’S → ’ → ING → ING → E IED → Y ED → ED → E 20 Klasse NNS/VBP NNS/VBP NNS/VBP NNS NN VBG VBD/VBN/JJ VBD/VBN/JJ Tabelle 2.2: Wortklassenzuordung basierend auf dem Kuhlen-Algorithmus Ein einfaches Beispiel für ein graphematisches Verfahren ist die in Tabelle 2.2 dargestellte Zuordnung von Wortklassen anhand von Kuhlens Algorithmus zur Grundformreduktion. Leider liefern die meisten Regeln keine eindeutige Wortklassenzuordung. In wenig flektierten Sprachen haben aber sowohl lexikalische als auch graphematische Verfahren mit einem grundsätzlichen Problem zu kämpfen: Vollformen können zu mehreren Wortklassen gehören, z.B.: The boys play football vs. She saw the new play. Dieses Problem lässt sich nur durch die zusätzliche Berücksichtigung des Kontextes lösen, etwa in unserem Beispiel: AT NNS VBP/NN NN → VBP und PN VBD AT JJ NN/VBP → NN. Üblicherweise betrachtet man Folgen von zwei oder drei Wörtern (Bigramme, Trigramme) als Kontextinformation. Allerdings lässt sich auch dadurch keine befriedigende Lösung erreichen. [Greene & Rubin 71] zeigten, dass selbst bei einem vollständigen Wörterbuch die Wortklassenzuordnung mit einem deterministischem Tagger nur 77 % korrekte Zuordungen liefert. Durch den Übergang zu einem statistischen Ansatz lassen sich jedoch wesentlich bessere Ergebnisse erzielen. Dabei nutzt man die unterschiedliche Häufigkeit des Vorkommens in den verschiedenen Wortklassen aus (die meisten Wörter kommen in einer bevorzugten Wortklasse vor). Z.B. sind folgende Vorkommen eher selten: to flour a pan to web the final report Ein einfacher Ansatz besteht daher darin, seltene Verwendungen zu ignorieren. So zeigten [Charniak et al. 93], dass sich durch dieses Vorgehen 90 % korrekte Zuordungen erreichen lassen. Weitere Verbesserungen sind durch statistische Ansätze zur Berücksichtigung der syntaktischen Struktur (z.B. Markov-Modelle) möglich, wodurch sich etwa 95–97 % korrekte Zuordungen erzielen lassen. S NP VP PP → → → → → → → → NP VP AT? JJ* NNS+ AT? JJ* NN+ NP PP VB PP VBZ VBZ NP IN NP Tabelle 2.3: Einfache Beispielgrammatik Parsing Basierend auf den zugeordneten Wortklassen kann man anschließend die syntaktische Struktur eines Textes bestimmen. Tabelle 2.3 zeigt eine einfache Grammatik (? steht für 0/1 Vorkommen, * KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 21 für beliebig viele und + für mindestens einmaliges Vorkommen). Mit dieser Grammatik lassen sich die nachstehenden Beispielsätze analysieren: • The analysis of 25 indexing algorithms shows consistent retrieval performance. AT NN IN JJ NN NNS VBZ JJ NN NN • A good indexing technique for Web retrieval is manual classification. AT JJ NN NN IN NN NN BEZ JJ NN Partielles Parsing Um Nominalphrasen beim Freitextretrieval zu erkennen, reicht in der Regel partielles Parsing aus. Dazu definiert man die relevanten syntaktischen Teilstrukturen. Lassen wir z.B. die Unterscheidung NN/NNP/NNS fallen, so könnte man folgende einfache Muster für Nominalphrasen definieren: phrase → NN NN+ → NN+ IN JJ* NN+ Damit kann man folgende Phrasen erkennen: indexing algorithms retrieval performance retrieval of Web documents retrieval of new documents Head-Modifier-Strukturen Ein Matching von Nominalphrasen auf der Ebene der syntaktischen Strukturen führt in der Regel zu unbefriedigenden Ergebnissen. Ein besserer Ansatz ist die Transformation der Nominalphrasen in sogenannte Head-Modifier-Strukturen. Für eine zweigliedrige Nominalphrasen bezeichnet dabei Head das Nomen, das die wesentliche Bedeutung des Kompositums ausdrückt, z.B. information retrieval, indexing algorithm, Wahl des Kanzlers. Der Modifier dagegen spezialisiert oder modifiziert die Bedeutung des heads. Bei mehr als zweigliedrigen Ausdrücken ergeben sich geschachtelte Strukturen, die man in Listen- oder Baum-Form darstellen kann (siehe auch Abbildung2.1). Dabei steht jeweils der Modifier links und der Head rechts: (((multimedia, document), retrieval), system) the domain of possible categories of linguistic expressions domain possible categories linguistic expressions Abbildung 2.1: Beispiel für geschachtelte Head-Modifier-Struktur im Englischen Analog kann man auch Komposita in Head-Modifier-Strukturen überführen: Bei zweigliedrigen Komposita ist die letzte Komponente der Head, wie etwa bei Tür-schloss vs. Schloss-tür. Bei mehrgliedrigen Komposita kann es dagegen zu Mehrdeutigkeiten kommen, wie etwa bei (Mädchen, (handels, schule)) – und nicht ((Mädchen, handels), schule). Hier hilft dann nur ein Wörterbuch. Matching-Prozess Der Vergleich zwischen einem Kompositum aus der Anfrage und einem im Dokumenttext gefundenen läuft nun wie folgt ab: KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 22 1. Nominalphrasen/Komposita in Head-Modifier-Struktur überführen. Die Transformationsregeln basieren dabei primär auf der syntaktischen Struktur 2. Test, ob das Anfragewort in der Nominalphrase aus dem Dokument enthalten ist. Dabei müssen Head- bzw. Modifier-Rolle bzgl. der gemeinsamen Wurzel übereinstimmen. Ein einzelnes Nomen wird dabei als Head aufgefasst. Zum Beispiel ist der Dokumentterm (((semistructured, data), retrieval), system) ein Treffer bzgl. der Frageterme (retrieval, system), (semistructured, data) und (data, retrieval), aber nicht für (retrieval, data). Analog liefert im Deutschen die Suche nach Tür die Haustür und die Zimmertür, aber nicht das Türschloss, und die Suche nach Mädchenhandel würde bei der o.g. Bildungsstätte fehlschlagen. 2.3 2.3.1 Semantische Ansätze Allgemeine Eigenschaften Semantische Ansätze sollen die im vorangegangenen Abschnitt dargestellten Nachteile der Freitextsuche überwinden helfen. Um sich von der konkreten sprachlichen Formulierung in dem zu indexierenden Dokument zu lösen, wird eine davon unabhängige Repräsentation des Textinhaltes durch Verwendung eines speziellen Vokabulars verwendet. Dieses Vokabular soll alle Mehrdeutigkeiten und die Probleme morphologischer und syntaktischer Art der natürlichen Sprache vermeiden. In den folgenden Abschnitten betrachten wir zunächst zwei klassische Arten von Dokumentationssprachen, nämlich Klassifikationen und Thesauri. Diese Ausführungen orientieren sich im wesentlichen an der Darstellung in [Burkart 90]. Anschließend werden als moderne Ansätze Ontologien und Tagging vorgestellt. 2.3.2 Klassifikationen Klassifikationen dienen als Strukturierung eines Wissensgebietes nach einem vorgegebenen formalen Schema. Einem einzelnen Dokument wird dabei in der Regel nur eine Klasse zugeordnet. Aus dieser Randbedingung ergibt sich bereits eine prinzipielle Schwäche, da viele Dokumente ja gerade versuchen, Brücken zwischen verschiedenen Wissensgebieten zu schlagen, so dass sie zu mehreren Klassen gehören. Andererseits gibt es einige praktische Anwendungen, die gerade eine eindeutige Klassifikation von Dokumenten voraussetzen, z.B. bei der fachsystematischen Aufstellung von Büchern in einer Bibliothek oder bei der Anordnung von Abstracts in der gedruckten Fassung eines Referateorgans. Die bekanntesten Beispiele für Klassifikationen sind die den Web-Katalogen (wie z.B. Yahoo!) zugrundeliegenden Ordnungssysteme. Daneben gibt es sehr viele fach- oder anwendungsspezifische Klassifikationen, wie z.B. LCC Library of Congress Classification DDC Dewey Decimal Classification UDC Universal Decimal Classification MSc Mathematics Subject Classification CCS ACM Computing Classification system 2.3.2.1 Eigenschaften von Klassifikationssystemen Wir betrachten zunächst einige grundlegende Eigenschaften von Klassifikationssystemen, bevor wir konkrete Beispiele vorstellen. Monohierarchie – Polyhierarchie Abbildung 2.2 zeigt links eine monohierarchische Klassifikation; hierbei sind die Klassen in eine Baumstruktur eingeordnet. Häufig reicht aber eine Baumstruktur nicht aus, um die Beziehungen zwischen den Klassen sinnvoll darzustellen. Deswegen geht man zu einer Polyhierarchie über, bei der eine Klasse mehrere Superklassen haben kann. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE Obstbaum Kernobstbaum Apfelbaum Obstbaum Steinobstbaum Birnbaum 23 Kirschbaum Nutzholzbaum Kernobstbaum Pfirsichbaum Birnbaum Abbildung 2.2: Monohierarchie (links) und Polyhierarchie (rechts) Obstbaum nach Fruchart nach Stammbildung Obstbaum Kernobstbaum niederstämmiger Obstbaum Stein− obstbaum Kern− obstbaum halbst. halbstämmiger Obstbaum Obstbaum Steinobstbaum hochst. Obstbaum hochstämmiger Obstbaum niederst. Obstbaum Abbildung 2.3: Polydimensionalität Monodimensionalität – Polydimensionalität Bei der Festlegung der Klassenstruktur kann es häufig auf einer Stufe mehrere Merkmale geben, nach denen eine weitere Aufteilung in Unterklassen vorgenommen werden kann, wobei diese Merkmale orthogonal zueinander sind. Eine polydimensionale Klassifikation, wie das Beispiel in Abb. 2.3 links illustriert, erlaubt die Darstellung dieses Sachverhaltes. Erlaubt das Klassifikationsschema keine Polydimensionalität, dann muss diese durch Einführung einer zusätzlichen Hierarchie-Ebene aufgelöst werden (Abb. 2.3 rechts), wodurch das Schema unübersichtlicher wird. Analytische vs. synthetische Klassifikation Beim Entwurf eines Klassifikationsschemas gibt es – ähnlich wie bei der Programmierung – zwei mögliche Vorgehensweisen. Die bisherigen Beispiele illustrieren die analytische Klassifikation, die top-down vorgeht: Ausgehend von der Grundgesamtheit der zu klassifizierenden Objekte sucht man rekursiv jeweils nach dem nächsten Kriterium zur weiteren Aufteilung der Objektmenge. Facette A Fruchtart A1 Apfel A2 Birne A3 Kirsche A4 Pfirsich A5 Pflaume Facette B Stammart B1 hochstämmig B2 halbstämmig B3 niederstämmig Facette C Erntezeit C1 früh C2 mittel C3 spät Tabelle 2.4: Beispiel zur Facettenklassifikation Im Gegensatz dazu geht die synthetische Klassifikation bottom-up vor. Dabei werden zuerst die relevanten Merkmale der zu klassifizierenden Objekte erhoben und im Klassifikationssystem zusammengestellt. Im zweiten Schritt werden dann die Klassen durch Kombination der Merkmale gebildet. Die synthetische KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 24 Klassifikation bezeichnet man auch als Facettenklassifikation. Tabelle 2.4 zeigt eine solche Klassifikation für Obstbäume. In diesem Schema würde ein niederstämmiger Frühapfelbaum mit A1B3C1 klassifiziert. Für die Definition der Facetten gelten folgende Regeln: 1. Die Facetten müssen disjunkt sein. 2. Innerhalb einer Facette muss monodimensional unterteilt werden. Zusätzlich müssen noch syntaktische Regeln definiert werden, die die Bildung der Klassen aus den Facetten festlegen. Facettenklassifikationen finden sich heute insbesondere bei der Produktsuche (z.B. in OnlineShops), aber auch Web-Suchmaschinen unterstützen meist einige Facetten. 2.3.2.2 Die Yahoo-Klassifikation Arts & Humanities Literature, Photography... Business & Economy B2B, Finance, Shopping, Jobs... Computers & Internet Internet, WWW, Software, Games... Education College and University, K-12... Entertainment Cool Links, Movies, Humor, Music... Government Elections, Military, Law, Taxes... Health Medicine, Diseases, Drugs, Fitness... News & Media Full Coverage, Newspapers, TV... Recreation & Sports Sports, Travel, Autos, Outdoors... Reference Libraries, Dictionaries, Quotations... Regional Countries, Regions, US States... Science Animals, Astronomy, Engineering... Social Science Archaeology, Economics, Languages... Society & Culture People, Environment, Religion... Abbildung 2.4: Yahoo!-Hauptklassen Art@ Bibliographies (6) Communications and Networking (1146) Computer Science@ Contests (26) Conventions and Conferences@ Countries, Cultures, and Groups (38) Cyberculture@ Data Formats (485) Desktop Customization@ Desktop Publishing (53) Dictionaries (24) Employment@ Ethics (18) Games@ Graphics (316) Hardware (2355) History (106) Humor@ Industry Information@ Internet (6066) Magazines@ Mobile Computing (65) Multimedia (690) Music@ News and Media (205) ... Abbildung 2.5: Untergliederung der Hauptklasse Computers & Internet Abbildung 2.4 zeigt die Hauptklassen der Yahoo-Klassifikation, und Abbildung 2.5 die weitere Unterteilung der Hauptklasse Computers & Internet“. Mit @“ markierte Klassen bezeichnen dabei Querverweise ” ” in der Klassenhierarchie. Das Ordnungssystem ist somit kein Baum, sondern ein gerichteter Graph. Typisch für Yahoo! ist ferner die variierende Tiefe des Ordnungssystems, die an manchen Stellen nur 3, an anderen bis zu 7 beträgt. Dabei können die zu klassifizierenden (Web-)Dokumente beliebigen Knoten zugeordnet werden. Somit enthält ein Knoten in der Regel die Verweise auf die zugehörigen Dokumente sowie die Liste der Unterklassen. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 2.3.2.3 25 Dezimalklassifikation Als bekanntestes Beispiel für Klassifikationssysteme gilt sicher die Dezimalklassifikation. Sie geht auf die Dewey Decimal Classification (DDC) zurück, die 1876 von Melvil Dewey in den USA als Universalklassifikation zur Aufstellung von Buchbeständen konzipiert wurde. Daraus entwickelten dann die Belgier Paul Otlet und Henri Lafontaine durch das Hinzufügen von syntaktischen Elementen die Universelle Dezimalklassifikation (DK), die zur Inhaltserschließung geeignet ist. Grundelemente der DK Wir stellen im folgenden die wesentlichen Grundelemente der DK (Dezimalklassifikation) vor: • Die Klassen der DK sind hierarchisch gegliedert. Wie der Name schon sagt, ist der maximale Verzweigungsgrad 10. Das gesamte System enthält derzeit über 130000 Klassen. • Zusätzlich zu diesen Klassen erlauben Anhängezahlen die Facettierung. • Zur Verknüpfung mehrerer DK-Zahlen dienen bestimmte Sonderzeichen. Klassen der DK Die DK-Haupttafeln umfassen folgende 10 Hauptabteilungen: 0 Allgemeines 1 Philosophie 2 Religion, Theologie 3 Sozialwissenschaften, Recht, Verwaltung 4 (zur Zeit nicht belegt) 5 Mathematik, Naturwissenschaften 6 Angewandte Wissenschaften, Medizin, Technik 7 Kunst, Kunstgewerbe, Photographie, Musik, Spiel, Sport 8 Sprachwissenschaft, Philologie, Schöne Literatur, Literaturwissenschaft 9 Heimatkunde, Geographie, Biographien, Geschichte Diese Hauptklasse werden bis hin zu sehr speziellen Sachverhalten weiter untergliedert, wie etwa im folgenden Beispiel: 3 Sozialwissenschaften, Recht, Verwaltung 33 Volkswirtschaft 336 Finanzen. Bank- und Geldwesen 336.7 Geldwesen. Bankwesen. Börsenwesen 336.76 Börsenwesen. Geldmarkt. Kapitalmarkt 336.763 Wertpapiere. Effekten 336.763.3 Obligationen. Schuldverschreibungen 336.763.31 Allgemeines 336.763.311 Verzinsliche Schuldbriefe 336.763.311.1 Langfristig verzinsliche Schuldbriefe KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 26 Facettierende Elemente Zur Facettierung in der DK dienen die Anhängezahlen, die durch spezielle Zeichen eingeleitet werden. Es gibt einerseits allgemeine Anhängezahlen, die überall in der DK verwendet werden dürfen, und andererseits spezielle Anhängezahlen, die nur für bestimmte Klassen innerhalb der DK erlaubt sind. Beispiele für allgemeine Anhängezahlen sind folgende (die jeweils einleitende Zeichenfolge ist vorangestellt): = Sprache: =30 = ˆ deutsch (0...) Form: (021) = ˆ Handbuch, 53(021)=20=30=40 = ˆ Handbuch der Physik in Englisch, Deutsch, Französisch (...) Ort (=...) Rassen und Völker ...“ Zeit ” .00 Gesichtspunkt -05 Person Verknüpfung von DK-Zahlen Zur Verknüpfung von DK-Zahlen gibt es als syntaktische Elemente spezielle Sonderzeichen: + Aufzählung mehrerer Sachverhalte, z.B. 178.1+33 = ˆ Alkoholismus und Volkswirtschaft : Beziehung zwischen zwei Sachverhalten, z.B. 178.1:33 = ˆ Auswirkung von Alkoholismus auf die Volkswirtschaft / Erstreckungszeichen (zur Zusammenfassung mehrerer nebeneinander stehender DK-Zahlen), z.B. 592/599 Systematische Zoologie: 592 bis einschließlich 599 ’ Zusamenfassungszeichen zur Bildung neuer Sachverhalte aus der Kombination einzelner DKKomponenten 2.3.2.4 Computing Classification System Als weiteres Beispiel eines Klassifikationsschemas zeigen wir hier aus dem Bereich der Informatik das von der ACM entwickelte Computing Classification System (CCS). Das CCS besteht aus folgenden Elementen: • Die general terms sind eine vorgegebene Menge von allgemeinen Begriffen, die zur Facettierung dienen. • Die classification codes stellen eine dreistufige monohierarchische Klassifikation dar. • Innerhalb einer einzelnen Klasse dienen die subject headings zur weiteren Untergliederung. Neben der für jede Klasse vorgegebenen Menge von natürlichsprachlichen Bezeichnungen sind auch alle Eigennamen als subject headings erlaubt. • Schließlich können jedem Dokument noch free terms als zusätzliche, frei wählbare Stichwörter zugeordnet werden. General terms: Die general terms des CCS sind in Tabelle 2.5 aufgelistet. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE ALGORITHMS DESIGN DOCUMENTATION ECONOMICS EXPERIMENTATION HUMAN FACTORS LANGUAGES LEGAL ASPECTS 27 MANAGEMENT MEASUREMENT PERFORMANCE RELIABILITY SECURITY STANDARDIZATION THEORY VERIFICATION Tabelle 2.5: General terms der CR Klassifikation Klassen und subject headings Die Hauptklassen des CCS sind folgende: A. GENERAL LITERATURE B. HARDWARE C. COMPUTER SYSTEMS ORGANIZATION D. SOFTWARE E. DATA F. THEORY OF COMPUTATION G. MATHEMATICS OF COMPUTING H. INFORMATION SYSTEMS I. COMPUTING METHODOLOGIES J. COMPUTER APPLICATIONS K. COMPUTING MILIEUX Am Beispiel der Klasse H.3 zeigen wir die classification codes und die zugehörigen subject headings: H.3 INFORMATION STORAGE AND RETRIEVAL Retrieval models H.3.0 General Search process H.3.1 Content Analysis and Indexing Selection process Abstracting methods H.3.4 System and Software Dictionaries Current awareness systems Indexing methods (selective dissemination of information-SDI) Linguistic processing Information networks Thesauruses Question-answering (fact retrieval) systems H.3.2 Information Storage H.3.5 Online Information Services File organization Data bank sharing Record classification H.3.6 Library Automation H.3.3 Information Search and Retrieval Clustering Large text archives H.3.mMiscellaneous Query formulation 2.3.3 Thesauri Nach DIN 1463 ist ein Thesaurus eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Bezeichnungen. Die wesentlichen Merkmale eines Thesaurus sind folgende: a) terminologische Kontrolle durch – Erfassung von Synonymen, – Kennzeichnung von Homographen und Polysemen, – Festlegung von Vorzugsbenennungen, b) Darstellung von Beziehungen zwischen Begriffen. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 2.3.3.1 28 Terminologische Kontrolle Die terminologische Kontrolle soll zur Reduktion von Mehrdeutigkeiten und Unschärfen der natürlichen Sprache dienen. Hierzu dienen die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle. Synonymkontrolle Bei der Synonymkontrolle werden Bezeichnungen zu Äquivalenzklassen zusammengefasst. Man kann folgende Arten von Synonymie unterscheiden: • Schreibweisenvarianten Friseur – Frisör UN – UNO – Vereinte Nationen • unterschiedliche Konnotationen, Sprachstile, Verbreitung Telefon – Fernsprecher Pferd – Gaul Myopie – Kurzsichtigkeit • Quasi-Synonyme Schauspiel – Theaterstück Rundfunk – Hörfunk Im Thesaurus werden darüber hinaus Begriffe mit geringen oder irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassen zusammengefasst: • unterschiedliche Spezifität Sprachwissenschaft – Linguistik • Antonyme Härte – Weichheit • zu spezieller Unterbegriff Weizen – Winterweizen • Gleichsetzung von Verb und Substantiv / Tätigkeit und Ergebnis Wohnen – Wohnung. Die Entscheidung, ob zwei Begriffe als Quasi-Synonyme zu behandeln sind, hängt dabei immer von der jeweiligen Anwendung ab. Polysemkontrolle Bei der Polysemkontrolle werden mehrdeutige Bezeichnungen auf mehrere Äquivalenzklassen aufgeteilt. Man kann hierbei noch zwischen Homographen (Bsp. Tenor“) und eigentlichen Polysemen (Bsp. Bank“) ” ” unterscheiden. Zerlegungskontrolle Bei der Zerlegungskontrolle ist die Frage zu beantworten, wie spezifisch einzelne Begriffe im Thesaurus sein sollen. Gerade im Deutschen mit seiner starken Tendenz zur Kompositabildung (Bs. Donaudampfschiffahrtsgesellschaftskapitän) ist die Bildung zu spezieller Begriffe eine große Gefahr. Diese Präkoordination führt zu folgenden Nachteilen: • Der Thesaurus wird zu umfangreich und unübersichtlich. • Zu einer Äquivalenzklasse gibt es keine oder nur wenige Dokumente in der Datenbank Den entgegengesetzten Ansatz verfolgt das UNITERM-Verfahren: Hierbei werden nur solche Begriffe (Uniterms) in den Thesaurus aufgenommen, die nicht weiter zerlegbar sind. Zur Wiedergabe eines Sachverhaltes müssen dann mehrere Uniterms verkettet werden. Diese sogenannte Postkoordination führt aber zu größerer Unschärfe beim Retrieval (Beispiel: Baum + Stamm = Baumstamm / Stammbaum). Bei der Thesaurusmethode versucht man, durch einen Kompromiss zwischen beiden Ansätzen deren Nachteile zu vermeiden. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 2.3.3.2 29 Äquivalenzklasse – Deskriptor Die terminologische Kontrolle liefert Äquivalenzklassen von Bezeichnungen. Diese können auf zwei verschiedene Arten dargestellt werden: 1. In einem Thesaurus ohne Vorzugsbenennung werden alle Elemente der Äquivalenzklasse gleich behandelt, d.h., jedes Element steht für die Äquivalenzklasse. Diese Vorgehensweise wird wegen des erhöhten Aufwands selten angewandt. 2. Bei einem Thesaurus mit Vorzugsbenennung wird ein Element der Äquivalenzklasse zur Benennung ausgewählt. Dieses Element bezeichnet man dann als Deskriptor. Im folgenden betrachten wir nur Thesauri mit Vorzugsbenennung. 2.3.3.3 Beziehungsgefüge des Thesaurus’ Neben der terminologischen Kontrolle ist die Darstellung von Beziehungen zwischen Begriffen die zweite Hauptaufgabe eines Thesaurus. Dabei werden verschiedene Arten von Beziehungen unterschieden. Äquivalenzrelation Äquivalenzrelationen verweisen von Nicht-Deskriptoren auf Deskriptoren. Sie werden meist bezeichnet als Benutze Synonym“ (BS) oder im Englischen als USE-Relation. Die Umkehrrelation bezeichnet man ” als Benutzt für“ (BF, im Englischen “used for” (UF)). Beispiele hierfür sind: ” (Fernsprecher BS Telefon und Telefon BF Fernsprecher) Hierarchische Relation Hierarchische Relationen verbinden jeweils zwei Deskriptoren. Man bezeichnet sie als Unterbegriff“ ” (UB) bzw. Oberbegriff“ (OB), im Englischen “narrower term” (NT) und “broader term” (BT). Beispiele: ” Obstbaum UB Steinobstbaum und Steinobstbaum OB Obstbaum Assoziationsrelation Die Assoziationsrelation verweist von einem Deskriptor auf einen begriffsverwandten anderen Deskriptor. Im Gegensatz zu den beiden anderen Relationen ist die Assoziationsrelation symmetrisch. Man bezeichnet sie als verwandter Begriff“ (VB, im Englischen “related term” (RT)). Beispiele: ” Obstbaum VB Obst und Obst VB Obstbaum 2.3.3.4 Darstellung des Thesaurus Deskriptor-Einträge Ein Deskriptor-Eintrag in einem Thesaurus enthält neben der Vorzugsbenennung häufig noch mehrere der folgenden Angaben: • Begriffsnummer • Notation / Deskriptor-Klassifikation • Scope note / Definition • Synonyme • Oberbegriffe / Unterbegriffe • Verwandte Begriffe • Einführungs-/ Streichungsdatum Abbildung 2.7 zeigt ein Beispiel für einen Ausschnitt aus einem Thesaurus. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE Information retrieval CD-ROM searching Data access Document retrieval Online literature searching Retrieval, information BT Information science NT Query formulation Query processing Relevance feedback RT Bibliographic systems Information analysis Information storage Query languages UF UF BT RT 30 Query processing Data querying Database querying Query optimisation Information retrieval Database management systems Database theory DATALOG Query languages UF BT Query formulation Search strategies Information retrieval BT Relevance feedback Information retrieval Abbildung 2.6: Auszug aus dem Beziehungsgefüge des INSPEC-Thesaurus’ Gesamtstruktur des Thesaurus Bei einem IR-System, das zur Recherche in einer Datenbasis mit Thesaurus verwendet wird, sollte auch der Thesaurus zugreifbar sein, wobei spezielle Funktionen zum Suchen im Thesaurus und mit Hilfe des Thesaurus angeboten werden sollten (z.B. wahlweise Einbeziehen von allen Unter-/Oberbegriffen). Daneben ist der Thesaurus aber meistens auch in gedruckter Form verfügbar. Der Hauptteil eines Thesaurus enthält dabei die Deskriptor-Einträge, die entweder alphabetisch oder systematisch geordnet sind. Darüber hinaus enthält ein Thesaurus in der Regel noch zusätzliche Register mit Verweisen auf die Deskriptor-Einträge: • komplementär zum Hauptteil eine systematische bzw. alphabetische Auflistung der Deskriptoren, • für mehrgliedriger Bezeichnungen einen speziellen Index für deren Komponenten: – KWIC – keyword in context computer system storage system system analysis system design – KWOC – keyword out of context system: computer . . . storage . . . . . . analysis . . . design 2.3.3.5 Thesauruspflege Da ein Anwendungsgebiet nie statisch ist und man darüber hinaus auch nicht annehmen kann, dass die erste Version eines Thesaurus bereits alle Ansprüche erfüllt, ist eine ständige Pflege des Thesaurus’ notwendig. Insbesondere erfordern folgende Faktoren eine laufende Anpassung des Thesaurus’: • Entwicklung des Fachgebietes, • Entwicklung der Fachsprache, • Analyse des Indexierungsverhaltens und der Indexierungsergebnisse, • Beobachtung des Benutzerverhaltens, • Analyse der Rechercheergebnisse. Bei den daraus resultierenden Änderungen muss darauf geachtet werden, dass die Konsistenz des Thesaurus’ erhalten bleibt. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 0.0058 Magnetband VB Magnetbandlaufwerk 0,0045 Magnetbandgerät BS Magnetbandlaufwerk NE7 Magnetismus (Forts.) BF Halleffekt BF Induktion OB Elektrodynamik UB Magnetfeld BIK Geophysik BFK Erdmagnetismus BIK Optik BFK Faraday-Effekt 0. 0046 Magnetbandkassette NO NE83 BF Kassette BF MB-Kassette OB Datenträger VB Magnetbandkassettenlaufwerk 0.0070 Magnetkarte NO NE87 BF Telefonkärtchen OB Datenträger VB Kartensystem 0.0051 Magnetbandkassettengerät BS Magnetbandkassettenlaufwerk NE7 0.0073 Magnetkartensystem NO ECS OB Kartensystem 0.0050 Magnetbandkassettenlaufwerk NO NE7 BF Magnetbandkassettengerät BF MB-Kassettengerät OB Datenausgabegrät OB Dateneingabegerät OB Datenspeichertechnik VB Magnetbandkassette 0.0044 Magnetbandlaufwerk NO NE7 BF Magnetbandgerät OB Bandgerät OB Datenausgabegerät OB Dateneingabegerät OB Datenspeichertechnik VB Magnetband 0.0059 Magnetfeld NO WD2 OB Magnetismus 0.0060 Magnetismus NO WD2 BF Barkhausen-Effek BF Ferromagnetismus 0.0074 Magnetkartentelefon NO GK72 BF Makatel OB Kartentelefon 0 0077 Magnetplatte NO NE82 OB Datenspeicher OB Datenträger VB Magnetplattenlaufwerk BIK Datenspeicher BFK Plattenspeicher 0.0081 Magnetplattengerät BS Magnetplattenlaufwerk NE7 0.0079 Magnetplattenlaufwerk NO NE7 BF Magnetplattengerät OB Datenausgabegerät OB Dateneingabegerät OB Datenspeichertechnik VB Magnetplatte Abbildung 2.7: Auszug aus einem Thesaurus 31 KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 2.3.4 32 Ontologien Ontologien sind in den letzten Jahren sehr populär geworden. Sie haben ihren Ursprung in den semantische Netzen aus der künstlichen Intelligenz, die zuerst in den 1970er konzipiert wurden, dann stärker formalisiert als terminologische Logiken bzw. Beschreibungslogiken diskutiert wurden und seit einigen Jahren nun im Zusammenhang mit dem “semantic web” wieder aufgelebt sind. Es gibt eine ganze Reihe von Formalismen/Sprachen für Ontologien. Am populärsten sind das vom W3C schon vor mehr als zehn Jahren vorgestellte RDF (Resource Description Framework) und RDF Schema, sowie das deutlich jüngere OWL (Web Ontology Language). Wir gehen hier nicht auf die Besonderheiten der einzelnen Ansätze ein, sondern beschreiben nur die wesentlichen Ideen. Ontologien vereinigen Konzepte aus Datenbankschemata und Thesauri in sich: Von den Thesauri wurden die Begriffshierarchien sowie die Relationen zwischen den Begriffen übernommen. Von den DatenbankSchemata stammen die Attribute, Beziehungstypen und insbesondere die Möglichkeit, Instanzen zu Konzepten zu benennen, wobei die möglichen Instanzen durch Bezugnahme auf Datentypen eingeschränkt werden können. 2.3.4.1 Ontologien: Konstrukte Ontologiesprachen stellen folgende Konstrukte zur Definition einer Ontologie bereit: Konzepte/Klassen, Vererbungsbeziehungen, Eigenschaften/Relationen, sowie Instanzen. Einige Sprachen bieten zudem die Möglichkeit, zusätzlich Regeln zu definieren. Konzepte/Klassen. Konzepte einer Ontologie werden üblicherweise als Klassen aufgefasst, wobei eine Klasse eine Menge von Instanzen mit gleichen oder ähnlichen Eigenschaften umfasst (analog zu objektorientierter Programmierung). Beispiele wären etwa Student als Klasse aller Studenten, Reiseziel als Menge aller möglichen Destinationen sowie Information Retrieval als Menge aller möglichen IR-Themen. Vererbung ist ebenfalls wie in der objektorientierten Programmierung als Teilmengenbeziehung zwischen Klassen definiert. So sind etwa Bachelor-Student und Master-Student Unterklassen von Student, Hiwi ist sowohl Unterklasse von Student als auch von Mitarbeiter, und Klassifikation und Indexierung sind Unterklassen von Information Retrieval. Allerdings muss man beachten, dass nicht alle OntologieSprachen Mehrfachvererbung erlauben. Slots: Eigenschaften/Relationen. Ein Konzept hat i.d.R. mehrere Slots, wobei ein Slot eine Eigenschaft oder eine Beziehung/Relation beschreibt; zwischen diesen Aspekten wird allerdings nicht unterschieden. Die Instanzen eines Konzeptes unterscheiden sich in den Werten für die Slots. Der Wert ist entweder von elementarem Datentyp oder einer Klasse. Für das Konzept Student könnten wir etwa als Eigenschaften Name: string, Matrikelnr: integer, Semester: integer definieren und als Relationen studiert → Studiengang, hört → Vorlesung. Die zulässigen Werte für einen Slot lassen sich auf verschiedene Arten einschränken. Zunächst unterscheidet man bei einem Slot zwischen Domain und Range. Dabei bezeichnet Domain die Menge der Konzepte, bei denen dieser Slot vorkommt, und Range ist Klasse bzw. der Datentyp, der als Wert für den Slot zulässig ist. Für obiges Beispiel haben wir etwa Domain(Name)= {Mitarbeiter,Student}, Range(Name)=string sowie Domain(studiert)={Student}, Range(studiert) = Studiengang. Die zweite Möglichkeit der Einschränkung betrifft die Kardinalität eines Slots; hier kann man üblicherweise die minimale und die maximale Anzahl von Werten angeben, die ein einzelner Slot haben darf – in unserem Beispiel etwa card(Name)=(1,1) und card(studiert)= (1,2). Als Drittes kann man auch Vererbungsbeziehungen auf Slots definieren. Dann sind die Instanzen des spezielleren Slots auch Instanzen des generelleren Slots. So könnte man etwa hört Pflicht und hört Wahlpflicht als Spezialisierung von hört definieren. Der speziellere Slot kann (muss aber nicht) bzgl. Domain, Range, oder Kardinalität eingeschränkt sein. Schließlich gibt es noch die Möglichkeit, einen Default-Wert für einen Slot anzugeben, der gilt, solange kein expliziter Slot-Wert angegeben wird. Bei der Vererbung werden die Slots an die Unterklassen vererbt – wie bei der objektorientierten Programmierung. Somit erbt eine Unterklasse alle Slots ihrer Oberklasse, sie kann aber weitere Slots haben. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 33 Zudem können die vererbten Slots eingeschränkt werden: entweder bzgl. des Range (zulässige Werte), indem man eine Unterklasse des Range der Oberklasse angibt (Bs.: Ingenieurstudent studiert → Ingenieurstudiengang), bzgl. der Kardinalität (Bs.: Diplomand: card(hört) = (0,0)), oder indem man den Slot durch einen spezielleren ersetzt. Eingabe von Instanzen. Nachdem man die Klassen mit ihren Slots definiert hat, kann man die Ontologie mit Instanzen füllen, zu denen man die jeweiligen Slot-Werte angibt. Dabei muss die Instanz einer Klasse alle Bedingungen der Klasse erfüllen. 2.3.4.2 Retrieval Nach dem Füllen der Ontologie mit Instanzen kann man Retrieval auf der Datenbasis durchführen. Dabei sucht man nach Instanzen einer Klasse (mit allen Unterklassen), die zusätzlich bestimmte Wertebedingungen erfüllen, z.B. Ingenieurstudenten mit Zweitstudiengang“ oder Studenten mit mehr als 8 Semestern, ” ” die IR hören“ Abbildung 2.8: Retrieval mit YAGO Abbildung 2.9: Ontologie-Browser zu YAGO KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 34 Ein Beispiel für ein Ontologie-basiertes Retrievalsystem ist YAGO1 , das in automatisch extrahierten Instanzen aus Wikipedia sucht (siehe Abbildung 2.8). Zu YAGO gehört auch der in Abbildung 2.9 gezeigte Ontologie-Browser. Abbildung 2.10: Freebase: Erste Antwort zu Angela Merkel“ ” Ein anderes Ontologie-basiertes System ist Freebase2 , das auf einer manuell erstellten Dokumentenund Faktenbasis basiert. Als Beispiel zeigt Abbildung das erste Antwortdokument auf die Frage nach Angela Merkel“. ” 2.3.4.3 Werkzeuge und Anwendungen Für die Entwicklung von Ontologien gibt es spezielle Ontologie-Editoren. Neben der graphischen Darstellung der Ontologie überprüfen diese die Widerspruchsfreiheit der Ontologie sowie die Erfüllung der Konsistenzbedingungen für die eingegebenen Instanzen. Abbildung 2.11 zeigt als Beispiel den Editor Protegé3 Eine Auflistung weiterer Editoren findet sich z.B. bei Wikipedia4 . Wiederverwendung von Ontologien. Um nicht für jede neue Anwendung eine eigene Ontologie definieren zu müssen, sollte man zunächst versuchen, vorhandene Ontologien wiederzuverwenden. Hierzu gibt 1 http://www.mpi-inf.mpg.de/yago-naga/yago/demo.html 2 http://www.freebase.com 3 http://protege.stanford.edu 4 http://en.wikipedia.org/wiki/Ontology_editor KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 35 Abbildung 2.11: Oberfläche des Ontologie-Editors Protegé es zum einen Ontologie-Bibliotheken, die frei verfügbare Ontologien sammeln, und zum anderen gibt es generelle Ontologien, die man für eigene Zwecke geeignet verfeinern kann. Populäre Beispiele für letzter sind etwa die DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering)5 , Cyc6 , DMOZ7 und WordNet8 . 2.3.5 Tagging Bei den bislang vorgestellten Dokumentationssprachen wird davon ausgegangen, dass sowohl die Pflege des Vokabulars als auch die Zuordnung von Deskriptionen zu Dokumenten durch speziell geschulte Fachkräfte erfolgt. Dies bedeutet einen hohen personellen Aufwand sowohl für die Erstellung und Pflege des Vokabulars als auch die Erschließung der einzelnen Dokumente. Im Gegensatz dazu werden beim Tagging all diese Aufgaben von den Endbenutzern übernommen. Dieses Verfahren eignet sich besonders für nicht-textuelle Dokumente wie z.B. Bilder, Videos oder Musik, wird aber auch auf Textdokumente wie etwa Webseiten (delicious9 ), Bücher (Librarything10 ) oder wissenschaftliche Artikel (Mendeley11 ) angewandt. Durch die Verteilung der Vokabulararbeit wie auch der Erschließung auf die Benutzer wird der damit verbundene hohe Aufwand auf viele Schultern verteilt, so dass die Arbeit für den Einzelnen leicht zu erledigen ist. Als Vorteile von Tagging sind zu nennen: • die einfache, intuitive Nutzung, • die Flexibilität und einfache Erweiterbarkeit des Vokabulars, womit auf sich ändernde Terminologie wie auch auf aktuelle Trends eingegangen werden kann, • die Inklusivität – es werden populäre Themen ebenso wie Spezialthemen abgedeckt, 5 http://www.loa-cnr.it/DOLCE.html 6 http://www.cyc.com 7 http://www.dmoz.org 8 http://www.cogsci.princeton.edu/~wn/ 9 http://del.icio.us/ 10 http://www.librarything.com 11 http://www.mendeley.com KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 36 Abbildung 2.12: Tagging in Librarything • das Gemeinschaftsgefühl, das durch das Teilen/Entdecken in sozialen Kontexten entsteht, • die Möglichkeiten zur Berücksichtigung beliebiger Facetten bei der Beschreibung, • die Unterstützung unterschiedlicher Benutzerbedürfnisse/Sichten, • die potenzielle Möglichkeit zur Lösung des Vokabularproblems (wie bei allen Dokumentationssprachen), • die Verwendung des Benutzervokabulars zur Beschreibung. Diesen Vorteilen stehen allerdings eine Reihe von Nachteilen gegenüber: • Inkonsistenzen bzgl. Terminologie und Abdeckung, • erschwerte Suche durch mehrdeutige Tags und Redundanzen, • Rauschen durch idiosynkratische Tags, • Verschleiern der Information durch Konzentration auf Popularität, • Verlagerung des eigentlichen Erschließungsaufwands auf die den Zeitpunkt der Suche: tagging bull” dozes the cost of classification and piles it onto the price of discovery“ (Davis). Darüber hinaus gibt es noch weitere Probleme: • das Kaltstart-Problem: Zu Beginn gibt es noch wenige Dokumente und daher gibt es noch keine Vokabular, aus dem man wählen könnte, was dazu führt, dass die vergebenen Tags wenig differenzieren, • verrauschte Daten – einige Tags sind nutzlos für die Community, • Tippfehler, • schlechte Informationskodierung, insbesondere durch ungewöhnliche zusammengesetzte Terme ( in” foretriev“) • Tags, die keinen Konventionen folgen ( topic: information retrieval“), ” • nur einmal benutze Tags und persönliche Tags ( ar15a“, @home“), ” ” • Verwendung von Minderheiten-Vokabularen, • Antisoziales Tagging in der Form von Spam. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 37 Zusammenfassend lässt sich feststellen, dass Tagging insbesondere für nicht-textuelle Dokumente hilfreich ist, wovon auch seine breite Verwendung bei Multimedia-Portalen zeugt. Prinzipielle Vorteile sind zudem die benutzerorientierte Beschreibung von Objekten sowie das flexible Vokabular. Nachteilig ist allerdings die meist fehlende Strukturierung des Vokabulars, was sowohl die Navigation im Vokabular als auch die automatische Einbeziehung von Unter-/Oberbegriffen und Synonymen bei der Suche verhindert; zwar gibt es auch hier unter dem Begriff Folksonomies“ Ansätze zur gemeinsamen Erstellung strukturierter Vokabula” re, aber diese haben stark mit der Vielfalt der Benutzersichten zu kämpfen. Der schwerwiegendste Nachteil beim Tagging ist allerdings, dass fast alle eingangs dieses Kapitels genannten Probleme der Freitextsuche auch hier nicht gelöst werden. 2.3.6 Dokumentationssprachen vs. Freitext Beim Vergleich mit der Freitextsuche sind folgende Vor- und Nachteile von Dokumentationssprachen zu nennen: + Durch die Abbildung verschiedener Textformulierungen auf eine einzige Bezeichnung kann ein höherer Recall erreicht werden. + Da das kontrollierte Vokabular keine mehrdeutigen Begriffe zulässt, kann auch eine höhere Precision erreicht werden. + Da ein Benutzer ein gesuchtes Konzept nur auf die entsprechende Benennung in der Dokumentationssprache abbilden muss, ergibt sich eine größere Benutzerfreundlichkeit. – Die Benutzung des Systems setzt die Kenntnis der Dokumentationssprache voraus; für gelegentliche Benutzer ist diese Hürde zu hoch. – Aufgrund der i.a. groben Granularität des kontrollierten Vokabulars kann bei spezifischen Anfragen die Precision im Vergleich zur Freitextsuche sinken. – Bei der Eingabe neuer Dokumente in die Datenbasis erhöht sich der Erschließungsaufwand deutlich, weil die Klassifikation bzw. Indexierung meist manuell erfolgt. Allerdings verringert sich durch diese Maßnahme der Aufwand bei den Recherchen, so dass die Gesamtbilanz wohl eher positiv ist. Um die Nachteile des kontrollierten Vokabulars bei der Recherche zu kompensieren, kombinieren heutige kommerziell angebotenen Datenbasen beide Suchmöglichkeiten, so dass die Dokumentationssprache die Freitextsuche ergänzt. 2.4 Beurteilung der Verfahren zur Repräsentation von Textinhalten • Obwohl rein intuitiv die Vorteile von Dokumentationssprachen überzeugen, ist deren Nutzen jedoch wissenschaftlich sehr umstritten. Der Grund hierfür ist die unzureichende experimentelle Basis für diesen Vergleich. Seit den Anfang der 60er Jahre von Cyril Cleverdon geleiteten CranfieldExperimenten [Cleverdon 91], wo alle Dokumentationssprachen deutlich schlechter abschnitten als eine Freitextsuche mit Terms in Stammform, neigt die Mehrzahl der IR-Forscher zu der Ansicht, dass Dokumentationssprachen überflüssig sind. Allerdings wurden die damaligen Experimente mit nur 1400 Dokumenten durchgeführt, so dass die Gültigkeit der Resultate für heutige Datenbasen in der Größenordnung von 106 Dokumenten mit Recht bezweifelt werden muss. Auch einige wenige neuere Vergleiche [Salton 86] lassen keine endgültige Aussage zu dieser Problematik zu. • Im Rahmen der TREC-Initiative werden verschiedene IR-Verfahren auf Datenbasen mit mehreren GB Text angewendet und die Ergebnisse miteinander verglichen. Die auf den TREC-Konferenzen [Voorhees & Harman 00] präsentierten Ergebnisse zeigen, dass halb-formale Konzepte (wie z.B. geographische oder Datumsangaben) durch eine reine Freitextsuche nicht abzudecken sind, so dass zumindest für diesem Bereich Dokumentationssprachen notwendig sind. • Es liegt nahe, nach dem Einsatz von wissensbasierten Verfahren im IR zu fragen. Frühere Studien (z.B. [Krause 92]) haben den anfänglichen Optimismus stark gedämpft. Die seit einigen Jahren populären Semantic-Web-Ansätze sind bislang ebenfalls den Nachweis schuldig geblieben, dass sie für Datenbanken realistischer Größenordnung traditionellen Ansätzen (wie z.B. Thesauri) überlegen sind. KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE 38 • Syntaktische Verfahren sind wohl hauptsächlich für die Identifikation von Nominalphrasen einsetzbar. • Maschinenlesbare Wörterbücher sind in immer größerem Maße verfügbar. Sie unterstützen die morphologische Analyse bei stark flektierten Sprachen und die Erkennung von Nominalphrasen. Einige Forschungsgruppen untersuchen auch deren Einsatz für die Disambiguierung von Begriffen. 2.5 2.5.1 Zusammenhang zwischen Modellen und Repräsentationen Textrepräsentation für IR-Modelle Abschließend zu diesem Kapitel soll eine Einordnung der verschiedenen vorgestellten Ansätze zur Repräsentation von Textinhalten im Hinblick auf ihre Kombination mit IR-Modellen versucht werden. 2.5.2 Repräsentationen und Beschreibungen für einfache statistische Modelle Zunächst illustrieren wir die Vorgehensweise bei der Freitextindexierung an einem Beispieltext: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Zunächst werden die (oben unterstrichenen) Stoppwörter entfernt: experiments indexing methods analysis indexing algorithms produced consistent retrieval performance best indexing technique retrieving documents known. Die anschließende Stammformreduktion liefert folgendes Ergebnis: experiment index method analys index algorithm produc consistent retriev perform best index techni retriev document. Die einfachsten IR-Modelle betrachten Dokumente als Mengen von Terms, so dass die zugehörige Repräsentation eines Dokumentes wie folgt aussieht: algorithm analys best consistent document experiment index method perform produc retriev techni. Wir nehmen nun an, dass wir ein Dokument durch einen Beschreibungsvektor ~x = (x1 , . . . , xn ) repräsentieren, wobei die Komponente xi jeweils das Vorkommen des Terms ti ∈ T = {t1 , . . . , tn } in dem aktuellen Dokument beschreibt. Im Falle einer Term-Menge sind die Vektor-Komponenten binär, also xi = 1, falls ti im Dokument vorkommt, und xi = 0 sonst. Als eine Verbesserung dieser Repräsentationsform kann man die Vorkommenshäufigkeit des Terms im Dokument berücksichtigen. Somit haben wir jetzt eine Multi-Menge von Terms, repräsentiert durch xi ∈ {0, 1, 2, . . .}. Die semantische Sicht auf Texte besteht hier also aus dieser Multimenge von Terms. Die eigentliche Semantik (z.B. die Unterscheidung zwischen wichtigen und unwichtigen Wörtern) kommt jedoch durch das auf diese Sicht aufbauende Retrievalmodell zustande, und zwar bei der Abbildung auf die Objektattribute mit Hilfe von statistischen Verfahren! Kapitel 3 Nicht-probabilistische IR-Modelle 3.1 Notationen Q R αQ Q βQ QD ρ rel. IR judg. D αD D βD DD Abbildung 3.1: Konzeptionelles Modell für Textretrieval Als grundlegendes konzeptionelles Modell für alle Arten von Modellen für (Text-)Retrieval verwenden wir das in Abb. 3.1 dargestellte Modell, das eine Vereinfachung des in Abschnitt 1.6 vorgestellten allgemeinen Modells ist. Dabei steht D für die Menge der Dokumente in der Datenbasis und Q für die Menge der Anfragen an das IRS. Zwischen den Dokumenten und den Anfragen besteht die Relevanzbeziehung, die hier als Abbildung in die Menge R der möglichen Relevanzurteile aufgefasst wird. Die in dem IRS repräsentierte semantische Sicht von Dokumenten bezeichnen wir im folgenden einfach als Dokumentrepräsentationen D und die formalisierten Anfragen als Frage-Repräsentationen Q. Diese entstehen aus den ursprünglichen Objekten durch die Abbildungen αD und αQ . Eine Dokumentrepräsentation kann z.B. eine Menge von Terms mit zugehörigen Vorkommenshäufigkeiten sein, eine Frage-Repräsentation ein boolescher Ausdruck mit Terms als Operanden. Die Repräsentationen werden für die Zwecke des Retrievals in Dokumentbeschreibungen (Objektattribute) DD und Fragebeschreibungen (logische Frageformulierung) QD überführt. Die Retrievalfunktion % vergleicht für Frage-Dokument-Paare diese Beschreibungen und berechnet daraus das Retrievalgewicht, das i.a. eine reelle Zahl ist. Die Erstellung der Beschreibungen aus den Repräsentationen und die (mehr oder weniger begründete) Definition einer Retrievalfunktion hängt von dem jeweils zugrunde gelegten Retrievalmodell ab. In diesem und dem folgenden Kapitel werden verschiedene solcher Retrievalmodelle beschrieben, die nicht nur in der Retrievalfunktion, sondern auch schon bzgl. der zugrunde gelegten Repräsentationen und den daraus abgeleiteten Beschreibungen, differieren. Nachstehend verwenden wir außerdem folgende Abkürzungen: T = {t1 , . . . , tn }: Indexierungsvokabular q k : Frage qk : Frage-Repräsentation qkD : Frage-Beschreibung (formalisierte Anfrage) (Fragelogik) dm : Dokument dm : Dokument-Repräsentation (semantische Sicht) 39 KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE 40 dD (Objektattribute) m : Dokument-Beschreibung d~m = {dm1 , . . . , dmn }: Dokument-Beschreibung als Menge von Indexierungsgewichten. 3.2 Überblick über die Modelle theoretische Basis Bezug zur Retrievalqualität gewichtete Indexierung gewichtete Frageterme Fragestruktur: – linear – boolesch Boolesch Boolesche Logik Fuzzy FuzzyLogik (x) Vektor VektorraumModell Probabilistisch WahrscheinlichkeitsTheorie x Sprachmodelle Statistische Sprachmodelle (x) x x x x (x) x x x x (x) x (x) x x x Abbildung 3.2: IR-Modelle In diesem und dem folgenden Kapitel behandeln wir die wichtigsten IR-Modelle: Boolesches und Fuzzy Retrieval, das Vektorraummodell, das probabilistische (Relevanz-orientierte) Modell sowie das statistische Sprachmodell. Abbildung 3.2 gibt eine Einordnung der hier und im folgenden Kapitel behandelten IRModelle. Eingeklammerte Markierungen bedeuten dabei, dass dieses Merkmal im Prinzip zutrifft, diese Variante des Modells allerdings hier nicht behandelt wird. 3.3 Boolesches Retrieval Boolesches Retrieval ist historisch als erstes Retrievalmodell entwickelt und eingesetzt worden. Vermutlich hat Taube als erster dieses Modell zugrunde gelegt, um Retrieval mit Hilfe von Schlitzlochkarten durchzuführen. Auch als man später die Dokumente auf Magnetbändern speicherte, war boolesches Retrieval das einzig anwendbare Modell: aufgrund der geringen Speicherkapazität damaliger Rechner musste direkt nach dem Einlesen des Dokumentes entschieden werden, ob es als Antwort ausgedruckt werden sollte oder nicht. Nachdem sich die Rechnerhardware rasant weiterentwickelt hat, findet man Boolesches Retrieval heute nur noch in Nischenanwendungen wie etwa Bibliothekskatalogen, Referenzretrieval oder Patentrecherche. Beim booleschen Retrieval sind die Dokumenten-Beschreibungen DD ungewichtete Indexierungen, d.h. ~ dD m = dm mit dmi {0, 1} für i = 1, . . . , n (3.1) Die Frage-Beschreibungen QD sind boolesche Ausdrücke, die nach folgenden Regeln gebildet werden: 1. ti T ⇒ ti QD 2. q1 , q2 QD ⇒ q1 ∧ q2 QD 3. q1 , q2 QD ⇒ q1 ∨ q2 QD 4. qQD ⇒ ¬q QD Die Retrievalfunktion % kann man analog zu diesen Regeln ebenso rekursiv definieren: 1. ti T ⇒ %(ti , d~m ) = dmi 2. %(q1 ∧ q2 , d~m ) = min(%(q1 , d~m ), %(q2 , d~m )) 3. %(q1 ∨ q2 , d~m ) = max(%(q1 , d~m ), %(q2 , d~m )) 4. %(¬q, d~m ) = 1 − %(q, d~m ) KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE 41 Aufgrund der binären Gewichtung der Terme in der Dokumentbeschreibung kann die Retrievalfunktion ebenfalls nur die Retrievalgewichte 0 und 1 liefern. Daraus resultiert als Antwort auf eine Anfrage eine Zweiteilung der Dokumente der Datenbasis in gefundene (% = 1) und nicht gefundene (% = 0) Dokumente. In realen IR-Systemen ist boolesches Retrieval meist nur in einer etwas modifizierten Form implementiert: Gegenüber der Darstellung hier ist die Verwendung der Negation derart eingeschränkt, dass diese nur in Kombination mit der Konjunktion verwendet werden darf, also z.B. in der Form a ∧ ¬b; eine Anfrage der Form ¬b oder a ∨ ¬b ist hingegen nicht zulässig. Die Gründe für diese Einschränkung sind implementierungstechnischer Art. 3.3.1 Mächtigkeit der booleschen Anfragesprache Ein wesentlicher (theoretischer) Vorteil der booleschen Anfragesprache besteht in ihrer Mächtigkeit. Man kann zeigen, dass mit einer booleschen Anfrage jede beliebige Teilmenge von Dokumenten aus einer Datenbasis selektiert werden kann. Voraussetzung ist dabei, dass alle Dokumente unterschiedliche Indexierungen (Beschreibungen) besitzen. Zu einer vorgegebenen Dokumentmenge D0 ⊆ D konstruiert man dann die Frageformulierung q, die genau diese Dokumente selektiert, wie folgt: Zunächst wird für jedes Dokument eine Frage qm konstruiert, die nur dieses Dokument selektiert; anschließend werden diese Teilfragen für alle Dokumente dm ∈ D0 disjunktiv miteinander verknüpft. qm xm i q = xm1 ∧ . . . ∧ xmn mit ti falls dmi = 1 = ¬ti sonst _ = qj dj D 0 Dieser theoretische Vorteil ist aber (im Gegensatz zu Datenbanksystemen) von geringer praktischer Bedeutung; da ein Benutzer in der Regel nicht genau weiß, wie die zu seiner Frage relevanten Dokumente aussehen, kann er auch die Anfrage nicht entsprechend der hier skizzierten Vorgehensweise formulieren. 3.3.2 Nachteile des booleschen Retrieval In der IR-Forschung ist man sich seit langem darüber einig, dass das boolesche Modell ziemlich ungeeignet für die Anwendung im IR ist [Verhoeff et al. 61]. In [Salton et al. 83] werden folgende Nachteile für boolesches Retrieval genannt: 1. Die Größe der Antwortmenge ist schwierig zu kontrollieren. 2. Es erfolgt keine Ordnung der Antwortmenge nach mehr oder weniger relevanten Dokumenten. 3. Es gibt keine Möglichkeit zur Gewichtung von Fragetermen oder zur Berücksichtigung von gewichteter Indexierung. 4. Die Trennung in gefundene und nicht gefundene Dokumente ist oftmals zu streng: Zu q = t1 ∧ t2 ∧ t3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie solche mit 0 gefundenen Termen. Analog erfolgt für q = t1 ∨ t2 ∨ t3 keine Unterteilung der gefundenen Dokumente 5. Die Erstellung der Frageformulierung ist sehr umständlich und überfordert daher gelegentliche Benutzer. 6. Die Retrievalqualität von booleschem Retrieval ist wesentlich schlechter als die von anderen Retrievalmodellen (s. nächster Abschnitt). Trotz dieser Nachteile wird das boolesche Retrieval heute immer noch in bestimmten Bereichen wie z.B. dem Patentretrieval eingesetzt, wo erfahrene Rechercheure davon überzeugt sind, dadurch eine bessere Kontrolle über die vom System gelieferten Antworten zu haben. Ferner spielen boolesche Anfragen bei Rechtsstreitigkeiten (z.B. in den USA) eine Rolle, wo eine beklagte Firma genau jene Dokumente herausgeben muss, die eine zuvor ausgehandelte boolesche Frageformulierung erfüllen. KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE t2 t2 1 1 0.6 42 ρ (t1 | t2, d)=0.6 0.6 ρ (t1 & t2, d)=0.6 0.6 1 t1 0.6 1 t1 Abbildung 3.3: Punkte mit gleichem Retrievalgewicht beim Fuzzy-Retrieval und Varianten 3.4 Fuzzy-Retrieval Als ein Ansatz, um einige der Nachteile von booleschem Retrieval zu überwinden, wurde basierend auf der Theorie der Fuzzy-Logik [Zadeh 65] Fuzzy-Retrieval vorgeschlagen. Im Unterschied zum booleschen Modell werden hier bei den Dokumenten-Beschreibungen nun auch gewichtete Indexierungen zugelassen, d.h. dmi [0, 1]. Frage-Beschreibungen und Retrievalfunktion sind wie beim booleschen Retrieval definiert. Durch die gewichtete Indexierung liefert die Retrievalfunktion jetzt Werte %(qkD , d~m )[0, 1]. Damit ergibt sich im Gegensatz zum booleschen Modell nun eine Rangordnung der Antwortdokumente, und die diesbezüglichen Nachteile des booleschen Retrievals entfallen. Theoretische Überlegungen wie auch experimentelle Untersuchungen zeigen aber, dass die Definition der Retrievalfunktion ungünstig ist. Wir illustrieren dies zunächst an einem Beispiel: T = {t1 , t2 } q = t1 ∧ t2 ~ d1 = (0.6, 0.6) , d~2 = (1.00, 0.59) %(q, d~1 ) = 0.6 , %(q, d~2 ) = 0.59 Obwohl hier d2 bezüglich t2 ein deutlich höheres Indexierungsgewicht als d1 hat, gibt das um 0.01 niedrigere Gewicht bzgl. t1 den Ausschlag für das insgesamt höhere Retrievalgewicht von d1 . Der Grund hierfür ist die Verwendung der Minimum-Funktion bei der konjunktiven Verknüpfung. In der Abb. 3.4 ist jeweils für Konjunktion und Disjunktion die Menge aller Paare von Gewichten (dm1 , dm2 ) markiert, für die sich ein Retrievalgewicht von 0.6 ergibt (schwarz gestrichelte, rechtwinklige Linien). Offensichtlich wäre es wünschenswert, wenn man zumindest eine teilweise Kompensation der Gewichte für die verschiedenen Terme aus der Anfrage zulassen würde, wie dies die anderen beiden Kurven andeuten. In [Lee et al. 93] werden die hierzu aus der Fuzzy-Theorie bekannten T-Normen sowie eigene Erweiterungsvorschläge evaluiert; dabei zeigt sich dass die hier vorgestellte Standarddefinition der Fuzzy-Operatoren relativ schlecht abschneidet. Ein alternatives Modell ist unter dem Namen Extended Boolean Retrieval“ in [Salton et al. 83] ” beschrieben worden. In der gleichen Veröffentlichung werden auch experimentelle Ergebnisse zum Vergleich von booleschen und Fuzzy-Retrieval mit dem Vektorraummodell präsentiert. Tabelle 3.1 zeigt diese Ergebnisse in Form mittlerer Precision-Werte (für die Recall-Punkte 0.25, 0.5 und 0.75)1 . 1 Das teilweise schlechtere Abschneiden von Fuzzy- gegenüber booleschem Retrieval ist dabei wohl auf die verwendete Evaluierungsmethode zurückzuführen, die für mehrere Dokumente im gleichen Rang ungeeignet ist. KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE Kollektion #Dok. #Fragen Bool. Fuzzy Vektor MEDLARS 1033 30 0.2065 0.2368 0.5473 ISI 1460 35 0.1118 0.1000 0.1569 43 INSPEC 12684 77 0.1159 0.1314 0.2325 CACM 3204 52 0.1789 0.1551 0.3027 Tabelle 3.1: Mittlere Precision für Boolesches Retrieval, Fuzzy-Retrieval und Vektorraummodel 3.4.1 Beurteilung des Fuzzy-Retrieval Zusammengefasst bietet Fuzzy-Retrieval folgende Vor- und Nachteile: + Durch Generalisierung des booleschen Retrieval für gewichtete Indexierung ergibt sich eine Rangordnung der Dokumente. – Der Ansatz erlaubt zunächst keine Fragetermgewichtung. Es wurden zwar einige Vorschläge hierzu gemacht (siehe den Überblick in [Bookstein 85]), die aber allesamt wenig überzeugen; zudem wurde keiner dieser Ansätze evaluiert. Den besten Vorschlag zur Behandlung dieser Problematik stellt das oben erwähnte Extended Boolean Retrieval“ dar. ” – Die Retrievalqualität ist immer noch schlecht im Vergleich z.B. zum Vektorraummodell. – Da die Frageformulierungen die gleichen wie beim booleschen Retrieval sind, bleibt der Nachteil der umständlichen Formulierung bestehen. 3.5 Das Vektorraummodell Das Vektorraummodell (VRM) ist wahrscheinlich das bekannteste Modell aus der IR-Forschung. Es wurde ursprünglich im Rahmen der Arbeiten am SMART-Projekt entwickelt [Salton 71]. SMART ist ein experimentelles Retrievalsystem, das von Gerard Salton und seinen Mitarbeitern seit 1961 zunächst in Harvard und später in Cornell entwickelt wurde. In den 80er Jahren wurde das Modell nochmals von Wong und Raghavan überarbeitet [Raghavan & Wong 86]. Im VRM werden Dokumente und Fragen (bzw. deren Beschreibungen) als Punkte in einem Vektorraum aufgefasst, der durch die Terme der Datenbasis aufgespannt wird. Beim Retrieval wird dann nach solchen Dokumenten gesucht, deren Vektoren ähnlich (im Sinne einer vorgegebenen Metrik) zum Fragevektor sind. Durch diese geometrische Interpretation ergibt sich ein sehr anschauliches Modell. Der zugrundeliegende Vektorraum wird als orthonormal angenommen, d.h. • alle Term-Vektoren sind orthogonal (und damit auch linear unabhängig), und • alle Term-Vektoren sind normiert. Diese Annahmen stellen natürlich eine starke Vereinfachung gegenüber den realen Verhältnissen dar. (In [Wong et al. 87] wird alternativ hierzu versucht, explizit einen solchen orthonormalen Vektorraum zu konstruieren, dessen Dimensionalität deutlich niedriger als |T | ist.) Die im VRM zugrunde gelegte Dokument-Beschreibung ist ähnlich der des Fuzzy-Retrieval eine gewichtete Indexierung; allerdings sind hier neben Gewichten größer als 1 prinzipiell auch negative Gewichte zulässig (obwohl negative Gewichte in SMART nie verwendet werden): ~ dD m = dm mit dmi IR für i = 1, . . . , n (3.2) Die Frage-Beschreibungen haben die gleiche Struktur wie die Dokument-Beschreibungen: qkQ = ~qk mit qki IR für i = 1, . . . , n (3.3) Als Retrievalfunktion werden verschiedene Vektor-Ähnlichkeitsmaße (z.B. das Kosinus-Maß) angewendet. Meistens wird mit dem Skalarprodukt gearbeitet: %(~qk , d~m ) = ~qk · d~m (3.4) KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE term retrieval experiment weight index XML method binary RSV qki 1 1 1 1 d1i 0.33 0.33 d2i 0.33 0.33 44 d3i 0.25 0.25 0.25 d4i 0.25 0.25 0.25 0.25 0.25 0.75 1.00 0.33 0.33 0.66 0.66 Tabelle 3.2: Beispiel zu VRM mit Skalarprodukt Das Beispiel in Tabelle 3.2 illustriert die Anwendung des VRM für die Anfrage retrieval experiments ” with weighted indexing“ Entsprechend den Retrievalgewichten werden die Dokumente in der Reihenfolge d4 , d3 , (d1 , d2 ) ausgegeben. 3.5.1 Coordination Level Match Eine vereinfachte Variante des Vektorraummodells ist der Coordination Level Match. Dabei sind sowohl für Frage- als auch für Dokumenttermgewichtung nur die binären Werte 0 und 1 zugelassen. Die DokumentBeschreibung ist somit die gleiche wie beim Booleschen Retrieval: ~ dD m = dm mit dmi ε{0, 1} für i = 1, . . . , n. Die Frage-Beschreibung ist ebenfalls ein binärer Vektor: qkD = ~qk mit qki ε{0, 1} für i = 1, . . . , n. Als Retrievalfunktion verwendet man meist das Skalarprodukt; dadurch zählt die Retrievalfunktion die Anzahl der Frageterme, die im jeweiligen Dokument vorkommen: %(~qk , d~m ) = ~qk · d~m = |qkT ∩ dTm | 3.5.2 Dokumentindexierung Das VRM macht keine Aussagen darüber, wie die Dokumentbeschreibung zu erstellen ist. Bei den Arbeiten am SMART-Projekt wurden heuristische Formeln zur Berechnung der Indexierungsgewichte für Dokumente (und Fragen) entwickelt, die sich als besonders leistungsfähig erwiesen haben. Diese Formeln wurden später im Rahmen der Arbeiten zu den experimentellen Systemen Inquery (U. Massachusetts / Bruce Croft) und OKAPI (MS Research Lab Cambridge / Stephen Robertson) weiterentwickelt. Wir stellen hier eine relativ neue Variante der Gewichtungsformel vor. Die der Indexierung zugrundeliegende Dokumenten-Repräsentation ist eine Multi-Menge (Bag) von Terms. Darauf aufbauend werden zunächst folgende Parameter definiert: dTm Menge der in dm vorkommenden Terms lm Dokumentlänge (# Anzahl laufende Wörter in dm ) al durchschnittliche Dokumentlänge in D tfmi : Vorkommenshäufigkeit (Vkh) von ti in dm . ni : # Dokumente, in denen ti vorkommt. N : # Dokumente in der Kollektion Eine Komponente der Gewichtung ist die inverse Dokumenthäufigkeit idfi , die umso höher ist, je seltener ein Term in der Kollektion vorkommt: idfi = log N ni (3.5) KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE 45 Kollektion CACM CISI CRAN INSPEC MED Coord. 0.185 0.103 0.241 0.094 0.413 SMART 0.363 0.219 0.384 0.263 0.562 Tabelle 3.3: Mittlere Precision für binäre Gewichte vs. SMART-Gewichtung Die zweite Komponente ist die normalisierte Vorkommenshäufigkeit ntfi . Hierbei sollen die Terms entsprechend ihrer Vorkommenshäufigkeit im Dokument gewichtet werden. Um den Einfluss der Dokumentlänge auszugleichen, geht diese ebenfalls mit ein, und zwar als Verhältnis zur durchschnittlichen Dokumentlänge in der Kollektion: tfmi (3.6) ntfmi = m tfmi + 0.5 + 1.5 lal Das endgültige Indexierungsgewicht ergibt sich als Produkt der beiden Komponenten und wird daher meist als tfidf-Gewichtung bezeichnet: wmi = ntfmi · idfi (3.7) . Tabelle 3.3 zeigt einige experimentelle Ergebnisse (aus [Salton & Buckley 88] mit einer früheren Version der tfidf-Formel aus dem SMART-Projekt) zu dieser Art der Gewichtung im Vergleich zu einer rein binären Gewichtung (Coordination Level Match). Dabei wurden die Gewichtungsformeln 3.5–3.7 sowohl zur Dokumentindexierung als auch zur Bestimmung des Fragevektors angewendet. 3.5.3 Relevance Feedback o o o X X X XX o X X o o o: relevant X XX X X X X o X o o X: irrelevant XX o X X X X X o X X o o X X X Abbildung 3.4: Beispiele zur Trennung von relevanten und nichtrelevanten Dokumenten im VRM Ein wesentlicher Vorteil des VRM insbesondere auch gegenüber Fuzzy-Retrieval ist die Möglichkeit, Relevance-Feedback-Daten zur Verbesserung der Retrievalqualität auszunutzen. Dabei wird versucht, Angaben über die Relevanz bzw. Nicht-Relevanz einiger Dokumente zur Modifikation des ursprünglichen Fragevektors zu verwenden. Genauer gesagt, werden die ursprünglichen Fragetermgewichte verändert, wodurch sich ein anderer Fragevektor ergibt. Abb. 3.4 illustriert verschiedene mögliche Verteilungen von relevanten und nichtrelevanten Dokumenten im Vektorraum. Außerdem ist jeweils der Vektor eingezeichnet, der vom Zentroiden der nichtrelevanten Dokumente zum Zentroiden der relevanten Dokumente führt. KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE 46 Dieser Vektor eignet sich offensichtlich als Fragevektor, um relevante und nichtrelevante Dokumente möglichst gut zu trennen. Nimmt man nämlich das Skalarprodukt als Retrievalfunktion an, dann werden die Dokumente auf eine Gerade entlang des Fragevektors projiziert, wobei der Vektor die Richtung höherer Retrievalgewichte anzeigt. In [Rocchio 66] wird eine optimale Lösung für die Bestimmung eines Fragevektors aus RelevanceFeedback-Daten vorgestellt. Die Grundidee ist dabei die, einen Fragevektor ~q zu bestimmen, der die Differenz der RSVs zwischen relevanten und irrelevanten Dokumenten maximiert. Sei DR die Menge der relevanten Dokumente zu q und DN die Menge der nichtrelevanten Dokumente zu q, dann lautet das Optimierungskriterium: X ! ~qd~k − ~qd~l = max (3.8) (dk ,dl )∈D R ×D N Zusätzlich muss man noch als Nebenbedingung den Betrag des Fragevektors beschränken: n X qi2 = c (3.9) i=1 Somit liegt ein Extremwertproblem mit Randbedingung vor, das man mit Hilfe eines LagrangeMultiplikators lösen kann: ! n n X X X 2 F =λ qi − c + qi dki − qi dli (3.10) i=1 (dk ,dl )∈D R ×D N i=1 Zur Lösung muss man nun alle partiellen Ableitungen von F nach den Komponenten qi des Fragevektors 0 setzen; zusätzlich muss auch die Nebenbedingung 3.9 gelten. ∂F ∂qi qi = ! X 2λqi + dki − dli = 0 (dk ,dl )∈D R ×D N = − ~q = − 1 2λ 1 2λ X dki − dli (dk ,dl )∈D R ×D N X d~k − d~l (dk ,dl )∈D R ×D N X X 1 d~k − |DR | d~l = − |DN | 2λ R N dk ∈D N = − R |D ||D | 1 2λ |DR | dl ∈D X dk ∈D R d~k − X 1 d~l |DN | N dl ∈D Zur Vereinfachung wählen wir c (den Betrag des Fragevektors) so, dass |DN ||DR |/2λ = −1. Damit ergibt sich der optimale Fragevektor zu ~q = X X 1 ~k − 1 d d~l |DR | |DN | R N dk ∈D (3.11) dl ∈D Der optimale Fragevektor ist somit der Verbindungsvektor der beiden Zentroiden der relevanten bzw. irrelevanten Dokumente. Abbildung 3.5 illustriert diese Lösung. Gleichzeitig wird deutlich, dass der optimale Fragevektor nicht immer die bestmögliche Lösung (bezogen auf die Retrievalqualität) darstellt. (Ein wesentlich besseres, allerdings auch aufwändigeres Verfahren ist die Support Vector Machine [Joachims 01].) Als heuristische Verbesserung, die sich in zahlreichen Experimenten bewährt hat, hat Rocchio vorgeschlagen, relevante und irrelevante Dokumente unterschiedlich stark zu gewichten, konkret: den Vektor zum Zentroiden der irrelevanten Dokumente weniger stark in die Lösung einfließen zu lassen. Abbildung 3.5.3 verdeutlicht diese KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE t2 47 + − + − + + − − + + − + − + − + − t1 Abbildung 3.5: Optimaler Fragevektor als Verbindungsvektor der Zentroiden t2 + − + − + + − − qI qopt − + + + q’ − qR − + + − t1 Abbildung 3.6: Unterschiedliche Gewichtung positiver und negativer Beispiele Vorgehensweise für unser Beispiel. Intuitiv kann man sich diese Verbesserung dadurch erklären, dass in der Regel die relevanten Dokumente höhere Indexierungsgewichte als die irrelevanten aufweisen, so dass diese Modifikation den Fragevektor in die richtige Richtung dreht“. ” Weitere Experimente haben gezeigt, dass man den neuen Fragevektor nie allein aus den RelevanceFeedback-Daten ohne Berücksichtigung des ursprünglichen Vektors bilden sollte; Es gibt ja noch weitere Dokumente, über die noch keine Relevanzinformation verfügbar ist, weil das System diese dem Benutzer noch nicht vorgelegt hat. Gerade diese Dokumente sollen aber möglichst gut in relevante und nichtrelevante aufgeteilt werden – das ist ja die eigentliche Aufgabe beim Retrieval. Also geht es darum, den ursprünglichen Vektor mit Hilfe der Relevance-Feedback-Daten zu verbessern. Prinzipiell ergibt sich also folgende Vorgehensweise: 1. Retrieval mit dem Fragevektor ~qk vom Benutzer. 2. Relevanzbeurteilung der obersten Dokumente der Rangordnung. 3. Berechnung eines verbesserten Fragevektors ~q0 aufgrund der Feedback-Daten. 4. Retrieval mit dem verbesserten Vektor. 5. Evtl. Wiederholung der Schritte 2-4. Als Iterationsvorschrift zur Berechnung eines verbesserten Fragevektors ~q0 wird in [Rocchio 66] folgende Kombination aus ursprünglichem Vektor ~q und den Zentroiden der relevanten und der nichtrelevanten Dokumente vorgeschlagen: X X 1 1 ~q0 = ~q + α R d~j − β N d~j (3.12) |D | |D | R N dj D dj D KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE Kollektion ohne RF Feedback Feedback∗ CACM 0.1459 0.2552 0.2491 CISI 0.1184 0.1404 0.1623 48 CRAN INSPEC MED 0.1156 0.1368 0.3346 0.2955 0.1821 0.5630 0.2534 0.1861 0.5279 Tabelle 3.4: Experimentelle Ergebnisse zu Relevance Feedback (mittlere Precision) Dabei sind α und β nichtnegative Konstanten, die heuristisch festzulegen sind (z.B. α = 0.75, β = 0.25). Tabelle 3.4 zeigt experimentelle Ergebnisse, die durch Anwendung der Formel 3.12 gewonnen wurden (aus [Salton & Buckley 90]). Hier wurde Feedback-Information von den obersten 15 Dokumenten des Retrievallaufs mit dem initialen Fragevektor verwendet. Zur Bewertung wurde die sogenannte residual ” collection“-Methode angewendet: dabei bleiben die Dokumente, deren Feedback-Daten benutzt wurden, bei der Bewertung unberücksichtigt. Dadurch ergibt sich ein fairer Vergleich mit der Retrievalfunktion ohne Relevance Feedback. Die Ergebnisse zeigen hier sehr deutliche Verbesserungen durch die RelevanceFeedback-Methode. Die letzte Tabellenzeile (Feedback∗ ) zeigt die Ergebnisse für eine modifizierte Anwendung der obigen Formel, bei der nur die häufigsten Terme zur Frageerweiterung benutzt werden, d.h., bei den Termen, deren Fragetermgewicht ursprünglich 0 war (weil sie in der Fragerepräsentation nicht vorkamen), wird die Formel nicht generell in der beschriebenen Weise angewandt; es werden nur die n häufigsten Terme in der vorgeschriebenen Weise berücksichtigt, die übrigen Terme behalten das Gewicht 0. Es zeigt sich, dass diese Methode bei einigen Kollektionen noch zu besseren Ergebnissen führt, während bei anderen Kollektionen schlechtere Ergebnisse produziert werden. Auch wenn die Formel 3.12 erwiesenermaßen gute Ergebnisse liefert, so sind die heuristischen Komponenten in diesem Ansatz doch unbefriedigend. Letzten Endes liegt die grundlegende Schwäche des VRM in dem fehlenden Bezug zur Retrievalqualität. Auch die o.g. Optimierungsbedingung 3.8 nimmt nicht auf die Retrievalqualität Bezug, und man kann zeigen, dass es tatsächlich in manchen Fällen bessere Vektoren zur Trennung in relevante und nichtrelevante Dokumente gibt, als sie durch diese Bedingung geliefert werden (näheres siehe Übung). 3.5.4 Beurteilung des VRM Zusammenfassend ergeben sich folgende Vor- und Nachteile für das VRM: + Das VRM ist ein relativ einfaches, anschauliches Modell, das insbesondere wegen der einfachen Art der Frageformulierung auch benutzerfreundlich ist. + Das Modell ist unmittelbar auf neue Kollektionen anwendbar; probabilistische Modelle erfordern dagegen teilweise zuerst das Sammeln von Relevance-Feedback-Daten für eine Menge von Fragen, bevor sie sinnvoll eingesetzt werden können. + Das Modell liefert in Kombination mit den SMART-Gewichtungsformeln eine sehr gute Retrievalqualität. – Leider enthält das Modell, so wie es letztendlich angewendet wird, sehr viele heuristische Komponenten; dabei stellt sich insbesondere die Frage, inwieweit diese Heuristiken auch noch beim Übergang auf wesentlich andere Kollektionen (z.B. Volltexte statt Kurzfassungen) gültig bleiben. – Der heuristische Ansatz zur Berechnung der Indexierungsgewichte hat zur Folge, dass die Dokumentrepräsentation nur schlecht erweitert werden kann. Wenn man z.B. Terms aus dem Titel stärker gewichten möchte als solche, die nur im Abstract vorkommen, dann müssen hierfür erst umfangreiche Experimente durchgeführt werden, um eine geeignete Gewichtungsformel zu finden. – In dem Modell wird keinerlei Bezug auf die Retrievalqualität genommen; es ist theoretisch nicht zu begründen, warum die zu einer Frage ähnlichen Dokumente auch relevant sein sollen. Kapitel 4 Probabilistische IR-Modelle 4.1 Einführung Ein wesentlicher Unterschied zwischen IR-Systemen und vielen anderen klassischen Informationssystemen besteht in der intrinsischen Unsicherheit des IR. Während man etwa bei Datenbankanwendungen ein Informationsbedürfnis typischerweise eindeutig auf eine präzise Anfrage abbilden kann, wofür wiederum die Antwort eindeutig definiert ist, haben wir im IR eine viel schwierigere Situation: hier repräsentiert die Anfrageformulierung das Informationsbedürfnis nur approximativ, und zudem existiert keine eindeutige Vorschrift, wie die Antwort auf eine Anfrage definiert ist. (Boolesches Retrieval stellt keine Ausnahme zu dieser Aussage dar: hier werden nur die Probleme mit Unsicherheit und Vagheit dem Benutzer aufgebürdet.) Als der erfolgreichste Ansatz, um mit Unsicherheit im IR umzugehen, haben sich die probabilistischen Modelle erwiesen. Wir betrachten in diesem Kapitel zwei Arten von probabilistischen Modellen: Zunächst gehen wir auf die älteren, relevanzorientierten Modelle ein, deren Vorläufer bis in die 1960er Jahre zurückreichen. Anschließend gehen wir auf die wesentlich jüngeren statistischen Sprachmodelle ein, die 1998 erstmals im IR auftauchten und seitdem sehr populär sind. 4.2 Das Binary-Independence-Retrieval-Modell Als Vertreter der klassischen IR Modelle präsentieren wir hier das populärste dieser Modelle, das sogenannte BIR-Modell. Wir geben zunächst eine eher informelle Einführung, und gehen dann im nächsten Abschnitt auf die theoretischen Grundlagen ein. 4.2.1 Herleitung Wie in anderen relevanzorientierten Modellen auch, versucht man im BIR-Modell die Wahrscheinlichkeit zu schätzen, dass ein gegebenes Dokument dm bezüglich der aktuellen Anfrage q als relevant beurteilt wird. Um diese als P (R|dm ) bezeichnete Wahrscheinlichkeit zu schätzen, betrachten wir die Verteilung der Terme in der Kollektion; dabei nehmen wir an, dass die Verteilung in den relevanten und den irrelevanten Dokumenten unterschiedlich ist. (Wie wir weiter unten sehen werden, sollte die Anfrage idealerweise aus solchen Termen bestehen, deren Verteilung in den relevanten und irrelevanten Dokumenten sich stark unterscheidet.) Bezeichne T = {t1 , . . . , tn } wie üblich die Menge der in der Kollektion vorkommenden Terme. Dann können wir die Menge dTm der im Dokument dm vorkommenden Terme als binären Vektor repräsentieren: ~x = (x1 , . . . , xn ) mit xi = 1, falls ti dTm und xi = 0 sonst. Im Folgenden unterscheiden wir nur zwischen Dokumenten, die unterschiedliche Mengen von Termen beinhalten. Anstelle der Relevanzwahrscheinlichkeit P (R|dm ) für ein spezifisches Dokument dm schätzen wir dann die Wahrscheinlichkeit P (R|~x); somit wird für unterschiedliche Dokumente, die aber die gleiche Termmenge beinhalten, die gleiche Relevanzwahrscheinlichkeit berechnet. Weiterhin nehmen wir an, dass eine Anfrage q in Form einer Termmenge q T ⊂ T gegeben ist. 49 KAPITEL 4. PROBABILISTISCHE IR-MODELLE 50 Um nun die gesuchte Relevanzwahrscheinlichkeit zu berechnen, wenden wir zwei Arten von Transformationen an, die häufig im Kontext probabilistischer IR-Modelle eingesetzt werden 1. Anwendung des Bayes’schen Theorems (in der Form P (a|b) = P (b|a) · P (a)/P (b)), 2. Benutzung von Odds (Chancen) anstelle von Wahrscheinlichkeiten, wobei O(y) = P (y)/P (ȳ) = P (y)/[1 − P (y)]. Damit können wir die Chancen berechnen, dass ein Dokument relevant zur Anfrage q ist, basierend auf seiner Beschreibung durch einen binären Vektor ~x: O(R|~x) = P (R) P (~x|R) P (~x) P (R|~x) = · · P (R̄|~x) P (R̄) P (~x|R̄) P (~x) (4.1) Hier bezeichnet P (R) die Wahrscheinlichkeit, dass ein zufälliges Dokument relevant ist – dies bezeichnet man auch als die Generality der Anfrage (und P (R̄) ist die Gegenwahrscheinlichkeit hiervon); dieser Parameter ist offensichtlich konstant für alle Dokumente zu einer Frage. Wichtiger für das Ranking ist die Wahrscheinlichkeit P (~x|R), dass ein zufälliges relevantes Dokument die Beschreibung ~x besitzt (und P (~x|R̄) das Entsprechende für die irrelevanten Dokumente). Da dieser Parameter in der vorliegenden Form kaum geschätzt werden kann, benötigen wir zusätzliche Unabhängigkeitsannahmen, um das Problem zu vereinfachen. Wie in [Cooper 91] gezeigt wurde, sind es genau genommen, keine Unabhängigkeitsannahmen (weshalb der Name des Modells nicht ganz korrekt ist), sondern dem BIR liegt tatsächlich eine verbundene Abhängigkeitsannahme zugrunde, die folgende Form hat: n P (~x|R) Y P (xi |R) = P (~x|R̄) i=1 P (xi |R̄) (4.2) Würde man Zähler und Nenner getrennt betrachten, so hätte man zwei Unabhängigkeitsannahmen, die besagen, dass sowohl in den relevanten als auch den irrelevanten Dokumenten die Terme unabhängig voneinander verteilt sind, dass also die Wahrscheinlichkeit, einen bestimmten Vektor ~x zu beobachten, gleich dem Produkt der entsprechenden Wahrscheinlichkeiten für die einzelnen Terme ist. Die verbundene Abhängigkeitsannahme ist hingegen weniger streng, aber etwas komplizierter: Sie besagt, dass der Quotient der beiden Wahrscheinlichkeiten für das Vorkommen von ~x in relevanten bzw. irrelevanten Dokumenten, gleich dem Produkt der Quotienten für die einzelnen Terme ist. Natürlich ist auch die Annahme der verbundenen Abhängigkeit nur eine Annäherung an die Realität – die aber erstaunlich gut funktioniert. Mit der Annahme (4.2) können wir Gleichung (4.1) überführen in O(R|~x) = O(R) n Y P (xi |R) i=1 P (xi |R̄) Das Produkt kann nun aufgeteilt werden in ein erstes Produkt, über alle im Dokument vorkommenden Terme, und ein zweites für die nicht vorkommenden Terme: O(R|~x) = O(R) Y P (xi =1|R) Y P (xi =0|R) · . P (xi =1|R̄) x =0 P (xi =0|R̄) x =1 i i Im Folgenden bezeichne pi = P (xi =1|R) die Wahrscheinlichkeit, dass der Term ti in einem zufällig gewählten relevanten Dokument vorkommt, und si = P (xi =1|R̄) die entsprechende Wahrscheinlichkeit für die irrelevanten Dokumente. Zusätzlich nehmen wir an, dass pi = si gilt für alle Terme, die nicht in der Menge q T der Frageterme vorkommt. Mit dieser Vereinfachung und den eingeführten Notationen erhalten wir dann Y pi Y 1 − pi O(R|~x) = O(R) (4.3) si 1 − si T T T T ti dm ∩q = O(R) Y T ti dT m ∩q ti q \dm pi (1 − si ) Y 1 − pi si (1 − pi ) 1 − si T ti q (4.4) KAPITEL 4. PROBABILISTISCHE IR-MODELLE 51 Bei der Anwendung dieser Formel ist man primär am Ranking der Dokumente zu der gegebenen Anfrage interessiert, während die tatsächliche Relevanzwahrscheinlichkeit eher nebensächlich ist. Wenn wir also nur eine Rangordnung erzeugen wollen, dann ist das zweite Produkt in Gleichung (4.4) ebenso wie der Wert von O(R) konstant für alle Dokumente zu einer Anfrage. Daher können wir dieser beiden Faktoren ignorieren und brauchen nur noch das erste Produkt zu betrachten, um eine Rangordnung für die aktuelle Anfrage zu erzeugen. Zur Vereinfachung der Rechnung betrachten wir den Logarithmus dieses Produkts, so dass sich der Retrievalwert (RSV) des Dokumentes dm für die Frage q berechnen lässt durch die Summe X pi (1 − si ) . %BIR (q, dm ) = ci mit ci = log si (1 − pi ) T T ti dm ∩q Dann werden die Dokumente nach fallenden Retrievalwerten geordnet. 4.2.2 Parameterschätzung Zur Anwendung des BIR-Modells müssen die Parameter pi und si für alle in der Frage vorkommenden Terme (ti q T ) geschätzt werden. Wir betrachten zunächst den Parameter si = P (xi =1|R̄), also die Wahrscheinlichkeit, dass ti in einem arbiträren nicht-relevanten Dokument vorkommt. Da in der Regel nur ein kleiner Bruchteil einer Kollektion relevant ist auf eine Anfrage, nehmen wir nun vereinfachend an, dass die Anzahl der nicht-relevanten Dokumente durch die Größe der Kollektion approximiert werden kann. Bezeichne N diesen Wert (Anzahl der Dokumente in der Kollektion) und ni die Anzahl der Dokumente, in denen der Term ti vorkommt, dann kann man si einfach durch die relative Häufigkeit ni /N schätzen. Der Parameter pi = P (xi =1|R) bezeichnet die Wahrscheinlichkeit, dass ti in einem arbiträren relevanten Dokument vorkommt. Zu seiner Schätzung benötigt man eigentlich Relevance-Feedback-Daten (s.u.). Durch vereinfachende Annahmen können wir aber auch ohne diese Information auskommen. Hierzu nehmen wir einen globalen Wert p für alle pi an. Damit erhalten wir ci 1 − si p + log 1−p si N − ni = cp + log ni = log Häufig wird p = 0.5 angenommen, so dass cp = 0 wird. Damit erhält man dann die Termgewichtung nach inverser Dokumenthäufigkeit (IDF) gemäß folgender Formel: %IDF (q, dm ) = X ti ∈q T ∩dT m log N − ni ni (4.5) In der Regel lässt man als weitere Vereinfachung ni im Zähler weg, so dass man die IDF-Gewichtung in der Form bekommt, wie wir sie schon beim Vektorraummodell kennengelernt haben. Während dort aber heuristisch vorgegangen wurde, haben wir hier jetzt eine theoretische Begründung für diese Art der Termgewichtung. Nun kommen wir zu dem Fall, dass wir Relevance-Feedback-Daten haben. Dies könnte z.B. dadurch geschehen dass wir zuerst Retrieval mit der IDF-Formel durchführen, und dann den Benutzer die obersten Antwortdokumente beurteilen lassen. Bezeichne r die Anzahl der insgesamt vom Benutzer als relevant beurteilten Dokumente und ri die Mächtigkeit der Teilmenge hiervon, in denen der Term ti vorkommt, dann kann man pi ≈ rri durch die entsprechende relative Häufigkeit schätzen. Wegen der geringen Anzahl an Beobachtungen sind diese Werte aber systematisch falsch; eine bessere Schätzung liefert die Formel +0.5 pi ≈ rir+1 . 4.2.3 Beispiel Wir geben nun ein umfangreicheres Beispiel zum BIR-Modell. Hierzu nehmen wir an, dass wir eine Frage q mit nur zwei Termen haben, also q T = {t1 , t2 }. Tabelle 4.1 zeigt die Relevanzurteile sowie die Verteilung der Terme in diesen Dokumenten. KAPITEL 4. PROBABILISTISCHE IR-MODELLE 52 di 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 x2 1 1 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 r(q, di ) R R R R R̄ R R R R R̄ R̄ R R R R̄ R̄ R̄ R R̄ R̄ Tabelle 4.1: Beispiel zum BIR-Modell ~x (1,1) (1,0) (0,1) (0,0) P (R|q, ~x) BIR actual 0.76 0.8 0.69 0.67 0.48 0.5 0.4 0.33 Tabelle 4.2: Geschätzte Relevanzwahrscheinlichkeiten für unser Beispiel Für die Schätzung der BIR-Parameter verwenden wir hier nicht die o.g. Näherungsformeln, sondern berechnen die Wahrscheinlichkeiten gemäß Definition über die zugehörigen relativen Häufigkeiten. So kommt etwa t1 in 8 von 12 relevanten Dokumenten vor, was p1 = 8/12 = 2/3 ergibt, und in 3 von 8 irrelevanten Dokumenten, was s1 = 3/8 liefert. Analog erhalten wir p2 = 7/12 und s2 = 4/8. Ferner haben wir O(R) = 12/8. Zur Schätzung der Relevanzwahrscheinlichkeit (bzw. -chancen) wenden wir Gleichung (4.3) an, was uns die in Tabelle 4.2 dargestellten Werte liefert. Hier zeigt sich, dass z.B. für die Beschreibung ~x = (1, 1) das BIR-Modell eine Relevanzwahrscheinlichkeit von rund 0.76 liefert, tatsächlich aber 4 von 5 Dokumenten mit dieser Beschreibung relevant sind. Diese Abweichung rührt von den Näherungsannahmen des Modells her. Anderseits zeigt sich aber, dass die Rangordnung für die verschiedenen Beschreibungen korrekt ist – was ja das Hauptziel des Modells ist. 4.3 BM25 Das obige Beispiel zeigt eine wesentliche Beschränkung des BIR-Modells auf: Es ist nicht möglich, zwischen den verschiedenen Dokumenten mit gleichem Dokumentvektor ~x weiter zu differenzieren, da das Modell nur mit binärer Indexierung arbeitet. Das BM25-Modell von Robertson [Robertson et al. 95] stellt eine heuristische Erweiterung des BIR-Modells auf gewichtete Indexierung dar. Hierzu wird die Vorkommenshäufigkeit der Terme im Dokument berücksichtigt. Statt also nur zwischen Vorkommen (xi = 1) und Nicht-Vorkommen (xi = 0 ) eines Terms ti zu unterschieden, sollen nun auch Gewichte zwischen 0 und 1 zugelassen werden. In Anlehnung an die Heuristiken des Vektorraum-Modells hat Robertson eine ähnliche Gewichtungsformel entwickelt: Für einen Term ti bezeiche tfmi dessen Vorkommenshäufigkeit im Dokument dm , das insgesamt lm laufende Wörter enthält. Die durchschnittliche Dokumentlänge der Kollektion sei al. Zusätzlich beinhaltet die Formel noch zwei Parameter, die an die jeweilige Kollektion angepasst werden müssen: b steuert den Einfluss der Längennormalisierung (mit 0 ≤ b ≤ 1), und k kontrolliert die Gewichtung der Vorkommenshäufigkeit. m Mit diesen Parametern berechnet man zunächst die Längennormalisierung B = (1 − b) + b lal , woraus sich die normalisierte Vorkommenshäufigkeit zu ntfmi = tfmi /B ergibt. Das BM25-Gewicht berechnet sich dann zu ntfmi tfmi umi = = (4.6) m k + ntfmi k (1 − b) + b lal + tfmi Den Einfluss des Parameters k illustriert die Abbildung 4.1, in der tf auf der Abszisse abgetragen ist und die Ordinate das resultierende Indexierungsgewicht für unterschiedliche Werte von k zeigt. Die Auswirkung der Längennormalisierung ist in Abbildung 4.2 dargestellt: Die Achsen sind wie vor, nur zeigen die einzelnen Kurven, wie das Indexierungsgewicht von der Dokumentlänge abhängt. KAPITEL 4. PROBABILISTISCHE IR-MODELLE Abbildung 4.1: Einfluss von k 53 Abbildung 4.2: Einfluss der Dokumentlänge Die vollständige Retrievalfunktion lautet dann X %BM 25 (q, dm ) = umi ci (4.7) T ti dT m ∩q = X T ti dT m ∩q 4.4 pi (1 − si ) tfmi log m si (1 − pi ) k((1 − b) + b lal ) + tfmi (4.8) Statistische Sprachmodelle Obwohl die BM25-Formel gute Retrievalergebnisse liefert und sehr häufig angewendet wird, hat sie doch den Nachteil, dass ihre Indexierungsgewichte keine theoretische Fundierung besitzen. Statistische Sprachmodelle können diesen Nachteil überwinden. Solche Modelle betrachten Sprache als Folge von Wörtern, die durch einen stochastischen Prozess erzeugt wird. Ein Sprachmodell θ ist somit definiert als eine Wahrscheinlichkeitsverteilung über die Terme des Vokabulars: X θ = {(ti , P (ti |θ)|ti ∈ T )} mit P (ti |θ) = 1 ti ∈T Damit lässt sich dann z.B. für einen gegebenen Qm Text d = t1 t2 t3 . . . tm die Wahrscheinlichkeit berechnen, dass dieser von θ generiert wurde: P (d|θ) = j=1 P (tj |θ). Statistische Sprachmodelle wurden zuerst in der automatischen Spracherkennung verwendet, später allgemein in der quantitativen Linguistik, bevor sie dann 1998 auch im IR Einzug hielten [Ponte & Croft 98, Hiemstra 98] . Die Grundidee beim Retrieval ist dabei, die Wahrscheinlichkeit zu betrachten, dass Frage und Dokument von demselben Sprachmodell generiert wurden. Genau genommen wird damit etwas anderes als die Relevanzwahrscheinlichkeit berechnet; man nimmt daher an. dass die beiden Wahrscheinlichkeiten proportional zueinander sind, so dass es für ein Ranking ausreicht, die vom Sprachmodell gelieferte Wahrscheinlichkeit zu betrachten. 4.4.1 Sprachmodell von Zhai und Lafferty Als ein populäres Beispiel für ein Sprachmodell betrachten wir den Ansatz von Zhai und Lafferty [Zhai & Lafferty 01]. Als Variante des o.g. allgemeinen Ansatzes betrachten diese die Wahrscheinlichkeit, dass die Anfrage q vom Sprachmodell des Dokumentes d generiert wurde: KAPITEL 4. PROBABILISTISCHE IR-MODELLE P (q|d) ≈ Y 54 P (ti |d) ti ⊆q T Y = Ps (ti |d) Y ti ∈q T ∩dT Pu (ti |d) ti ∈q T −dT ti ∈q T ∩dT = Y Ps (ti |d) Y Pu (ti |d) Pu (ti |d) T ti ∈q Hierbei bezeichnet Ps (ti |d)] die Wahrscheinlichkeit dass das Dokument über ti ist, falls ti im Dokumenttext vorkommt. Analog steht Pu (ti |d) für den Fall, dass das Dokument über ti ist, obwohl der Term selbst im Dokument nicht vorkommt. Zur Schätzung dieser beiden Parameter benötigt man nun spezielle Verfahren, da der direkte Weg über die relative Häufigkeit angesichts der spärlichen Daten zu systematisch verfälschten Werten führen würde. Im Folgenden bezeichne N die Anzahl Token (fortlaufende Wörter) der Kollektion, tf (t, d) die Vorkommenshäufigkeit von t in d, l(d) die Dokumentlänge (Anzahl Token) von d sowie cf (t) die Kollektionshäufigkeit (Gesamtzahl Vorkommen) von t. Damit berechnet man zunächst die beiden Parameter Pavg (t) = cf (t) N und PM L (t|d) = tf (t, d) l(d) (4.9) Hierbei steht Pavg (t) für die relative (mittlere) Vorkommenshäufigkeit von T in der Kollektion, und PM L (t|d) bezeichnet den Maximum-Likelihood-Schätzer (durch die relative Häufigkeit) für die Vorkommenshäufigkeit von t in d. Nun schätzt man Pu (ti |d) = αd Pavg (t) Ps (ti |d) = λPM L (t|d) + (1 − λ)Pavg (t) Hierbei bezeichnet λ (mit 0 < λ < 1) den Glättungsfaktor nach der Jelinek-Mercer-Methode, und αd ist eine Dokument-spezifische Konstante, die wie folgt definiert ist: P 1 − ti ∈qT ∩dT Pavg (t) P αd = 1 − ti ∈qT ∩dT PM L (t|d) Das Dokumentsprachmodell wird somit durch folgende Wahrscheinlichkeiten gebildet: ( Pu (ti |d) wenn ti ∈ /d P (ti |θd ) = Ps (ti |d) wenn ti ∈ d Alternativ gibt es noch eine Reihe weiterer Glättungsverfahren, die Ps (ti |d) auf unterschiedliche Weise aus den beiden Parametern Pavg (t) und PM L (t|d) berechnen. Zur Illustration des Zhai-Lafferty-Modells betrachten wir ein kleines Beispiel mit 4 Dokumenten: d1 = (t1 , t1 , t1 , t2 ) d3 = (t1 , t2 , t2 ) d2 = (t1 , t1 , t3 , t3 ) d4 = (t2 ) Nun wählen wir λ = 0.5 and und nehmen der Einfachheit halber konstant αd = 1 an. Für die Frage q = (t1 , t2 ) berechnen wir dann die Parameter 4 1 = 12 3 3 1 0.5(PM L (t1 |d1 ) + Pavg (t1 )) = 0.5( + ) = 4 2 1 1 0.5(PM L (t2 |d1 ) + Pavg (t2 )) = 0.5( + ) = 4 3 35 P (t1 |d1 )P (t2 |d1 ) = ≈ 0.18 192 1 Pavg (t2 ) = 3 Pavg (t1 ) = P (t1 |d1 ) = P (t2 |d1 ) = P (q|d1 ) = P (t2 |d2 ) = 6 1 = 12 2 Pavg (t2 ) = 5 8 7 24 KAPITEL 4. PROBABILISTISCHE IR-MODELLE 55 woraus sich die folgenden Retrievalgewichte ergeben: 4.4.2 P (q|d1 ) = P (q|d2 ) = 35 ≈ 0.18 192 1 ≈ 0.04 24 P (q|d3 ) = P (q|d4 ) = 35 ≈ 0.24 144 1 ≈ 0.33 3 Ähnlichkeit von Wahrscheinlichkeitsverteilungen Ein alternativer Ansatz zur Definition einer Retrievalfunktion für Sprachmodelle besteht in der Betrachtung der Ähnlichkeit der Sprachmodelle von Frage und Dokument. Wir gehen also davon aus, dass wir ein Dokument-Sprachmodell θd haben, dessen Parameter wir z.B. wie oben berechnen können. Zusätzlich berechnen wir noch das Sprachmodell θq der Anfrage, das wir z.B. als PM L (t|q) abschätzen können. Für die Quantifizierung der Ähnlichkeit der beiden Wahrscheinlichkeitsverteilungen kann man nun die Kullback-Leibler Divergence verwenden, die ein Maß für die Unähnlichkeit der beiden Verteilungen darstellt. Die Grundidee dieses Maßes besteht darin, die relative Information zu messen. Gemäß der Informationstheorie kann man Information quantifizieren als den negativen Logarithmus der zugehörigen Wahrscheinlichkeit, so dass die Information eines Terms in einem Sprachmodell sich zu − log P (t|θ) ergibt. Dann ist die Differenz der Information dieses Terms in den zwei Sprachmodellen: log P (t|θq ) − log P (t|θd ) P (t|θ ) = log P (t|θdq ) . Nun summiert man diese Differenzen über alle Terme (der Anfrage), wobei man zusätzlich entsprechend der relativen Häufigkeit der Terme gewichtet: D(θq ||θd ) = X ti ∈q T P (ti |θq ) log P (ti |θq ) P (ti |θd ) Die Dokumente werden dann nach steigenden Divergenz-Werten angeordnet. 4.5 Das Probabilistische Ranking-Prinzip Das Probabilistische Ranking-Prinzip (PRP) stellt die theoretische Rechtfertigung für probabilistische IRModelle dar. Eine solche Begründung gibt es allein für die probabilistischen Modelle, während alle anderen Modelle nur empirisch (durch ihre mehr oder weniger guten Retrievalergebnisse) begründet werden können. Das PRP zeigt, wie man optimales Retrieval erreichen kann. Optimales Retrieval wird dabei in Bezug auf die Repräsentationen definiert (z.B. liegt bei dem in den Tabellen 4.1 und 4.2 dargestellten Beispiel optimales Retrieval vor). Im Gegensatz dazu sprechen wir von perfektem Retrieval, wenn wir uns auf die Objekte selbst (und nicht auf die Repräsentationen) beziehen. Perfektes Retrieval ordnet alle relevanten Dokumente vor dem ersten irrelevanten Dokument an. Da aber IR-Systeme immer mit Repräsentationen arbeiten, ist perfektes Retrieval kein realistisches Ziel. Das in [Robertson 77] ausführlich beschriebene PRP besagt, dass man optimales Retrieval erhält, wenn man die Dokumente nach fallender Relevanzwahrscheinlichkeit anordnet. Als Optimierungskriterium werden hierzu verschiedene Aspekte betrachtet, insbesondere die gängigen Retrievalmaße. Wir betrachten hier nur die einfachste Rechtfertigung in Form eines entscheidungstheoretischen Ansatzes, die auf einem Kostenmaß basiert. Bezeichne C̄ die Kosten für das Retrieval eines irrelevanten Dokumentes, und C seinen die entsprechenden Kosten im relevanten Fall. Diese Kosten sind dabei abstrakte Größen – neben monetären Aspekten können sie etwa auch den Aufwand eines Benutzers (z.B. in Form von Arbeitszeit) messen. Die einzige Bedingung ist, dass C̄ > C, also relevante Dokumente weniger Kosten (oder höheren Nutzen) bedeuten. Mit Hilfe der vom System geschätzten Relevanzwahrscheinlichkeit kann man nun die erwarteten Kosten für das Retrieval eines bestimmten Dokumentes dj abschätzen: EC(q, dj ) = C · P (R|q, dj ) + C̄(1 − P (R|q, dj )) (4.10) Nun nehmen wir an, dass der Benutzer die ausgegebenen Dokumente in der Reihenfolge der Rangordnung anschaut und nach l Dokumenten stoppt, wobei l nicht im Voraus bekannt ist. Die durch das System KAPITEL 4. PROBABILISTISCHE IR-MODELLE 56 erzeugte Rangordnung beschreiben wir durch eine Ranking-Funktion r(i), die den Index des Dokumentes für den Rang i angibt. Die erwarteten Gesamtkosten für die vom Benutzer betrachteten Dokumente berechnen sich dann als Summe der erwarteten Kosten der einzelnen Dokumente: EC(q, l) = EC(q, dr(1) , dr(2) , . . . , dr(l) ) = l X EC(q, dr(i) ) (4.11) i=1 Um diese Kosten zu minimieren, müssen wir die Dokumente einfach nach aufsteigenden Kosten anordnen: EC(q, dr(i) ) ≤ EC(q, dr(i+1) ) Dann haben wir für jeden beliebigen Abbruchpunkt minimale Kosten. Setzen wir nun die Formel (4.10) in diese Bedingung ein, so erhalten wir C · P (R|q, dr(i) ) + C̄(1 − P (R|q, dr(i) )) ≤ C · P (R|q, dr(i+1) ) + C̄ 1 − P (R|q, dr(i+1) ) (4.12) Da C < C̄, ist dies äquivalent zu : P (R|q, dr(i) ) ≥ P (R|q, dr(i+1) ). Damit haben wir nun die Kernaussage des PRP bewiesen: Optimales Retrieval erhält man, indem man die Dokumente nach absteigender Relevanzwahrscheinlichkeit anordnet. Kapitel 5 Evaluierung Wie in kaum einem anderen Teilgebiet der Informatik spielt die Evaluierung von Verfahren im Information Retrieval eine wichtige Rolle. Aufgrund der Komplexität der Aufgabenstellung sind nicht-experimentelle Methoden zur Beurteilung von Retrievalverfahren wenig geeignet. Zudem ist die Forschungsliteratur im IR reich an Beispielen von plausibel und mächtig erscheinenden Verfahren, die entweder gar nicht praktisch umsetzbar waren oder aber bezüglich der erreichten Retrievalqualität bei weitem nicht an einfachere, aber wirkungsvollere Verfahren heran reichten. Evaluierungen sollen die Qualität eines Systems beurteilen helfen. Dabei muss man berücksichtigen, dass es unterschiedliche Blickwinkel auf ein IR-System (IRS) gibt, z.B. die von Benutzern, Käufern, Managern, Herstellern oder Entwicklern. Für jede dieser Gruppen sind bestimmte Aspekte eines Systems wichtiger als andere, stehen andere Fragen bei der Evaluierung im Vordergrund. Einige dieser Fragen könnten etwa sein: • Was kann ich ändern, um die Qualität eines Systems zu verbessern? • Welche Art der Textrepräsentation ist am besten? • Welches Retrievalmodell liefert die besten Ergebnisse? • Welche Qualität weist ein System auf? • Welches System ist besser? • Welches System soll ich kaufen? • Wie kann ich Qualität messen? • Was bedeutet Qualität für mich? Um diese Fragen zu beantworten, können jeweils geeignete Evaluierungen konzipiert und durchgeführt werden. Generell sollte jede Evaluierungen – insbesondere, wenn sie wissenschaftlichen Maßstäben genügen will – folgende zwei Eigenschaften erfüllen: Reliabilität (Zuverlässigkeit) Dieselbe Untersuchung im gleichen Kontext sollte stets dieselben Ergebnisse liefern; das Experiment sollte also wiederholbar sein. Dazu ist es notwendig, die Evaluierung ausreichend zu dokumentieren und repräsentative Stichproben von Dokumenten und Nutzern zu verwenden. Ferner müssen Störfaktoren so weit wie möglich ausgeschaltet werden. Im wissenschaftlichen Bereich sollten zudem möglichst Open-Source-Daten verwendet werden bzw. die eigenen Daten Anderen zur Verfügung gestellt werden, damit diese zum Einen die Ergebnisse verifizieren, zum Anderen mit den verwendeten Daten und Methoden weiterarbeiten können. Validität Die Beobachtungen sollten mit den tatsächlichen“ Verhältnissen übereinstimmen, um die Gül” tigkeit der Ergebnisse zu gewährleisten. Hierbei stellt sich insbesondere die Frage, wie weit man die Ergebnisse verallgemeinern kann, und für welche Gesamtheit denn die Stichproben repräsentativ sind (prädiktive Validität). Dabei ist zu beachten, dass IR-Experimente stets stochastische Experimente sind, dass also bei Wiederholungen eines Experimentes sich in der Regel nicht genau die gleichen Messwerte wie beim vorherigen Versuch ergeben. Daher muss eine ausreichende Zahl von Versuchen durchgeführt werden (z.B. eine größere Menge von Anfragen betrachtet werden), um sowohl Zuverlässigkeit als auch Validität zu erreichen. Abhängig von der Entwicklungsphase des zu untersuchenden Systems kann man folgende Arten von Evaluierungen unterscheiden: 57 KAPITEL 5. EVALUIERUNG 58 • Formative und iterative Evaluierungen werden vor bzw. begleitend zur Systementwicklung durchgeführt, um Entwurfsentscheidungen zu treffen oder ggfs. zu revidieren. • Demgegenüber steht die summative Evaluierung am Projektende, die das realisierte System mit den Projektzielen vergleicht. • Die komparative Evaluierung vergleicht mehrere Systeme (bzw. -Komponenten), meist auf der Basis standardisierter Qualitätsmaße. 5.1 Evaluierungskriterien Wenn man Informationssysteme evaluiert, muss man generell zwischen systemorientierter und benutzerorientierter Evaluierung unterscheiden: Systemorientierte Evaluierungen fokussieren oft auf die (System-)Effizienz, also die Nutzung der Systemressourcen für eine bestimmte Aufgabe (Zeit/Speicherplatz). Benutzerorientierte Evaluierungen stellen dagegen den Benutzer in das Zentrum der Betrachtungen. Hier besteht ein enger Zusammenhang mit Usability-Evaluierungen. Im IR-Kontext sind dabei folgende Kriterien von besonderem Interesse: (Benutzer-)Effizienz bezeichnet die Schnelligkeit, mit der ein Benutzer erfolgreich eine Aufgabe lösen kann. Effektivität betrachtet die Genauigkeit und Vollständigkeit, mit der ein Ziel erreicht wird. Zufriedenheit heißt einfach, der Benutzer ist mit dem System zufrieden. IR-Evaluierungen konzentrieren sich dabei in erster Linie auf die Messung der Effektivität. Grund hierfür ist, dass IR-Systeme wegen der immanenten Vagheit und Unsicherheit weder korrekte (alle gefundenen Dokumente relevant) noch vollständige (alle relevanten Dokumente) Antworten liefern können, so dass man misst, wie nahe denn ein System dem Ideal kommt. Schaut man sich publizierte Effektivitätsevaluierungen an, so stellt man fest, dass es zwei Arten hiervon gibt: Systemorientierte Evaluierungen der Effektivität verwenden vorliegende Relevanzurteile der Benutzer, die eigentlichen Experimente werden ohne weitere Benutzerbeteiligung durchgeführt. Benutzerorientierte Experimente beobachten dagegen Benutzer vor einem laufendem IR-System (in der Regel in einer Laborsituation) und berücksichtigen daher auch die Interaktion zwischen Benutzer und System. Im Folgenden betrachten wir zunächst den ersten Fall und gehen dann in Abschnitt 5.7 auf die zweite Variante ein. 5.2 Relevanz Um die Qualität der Antworten eines IR-Systems zu beurteilen, legt man meist das Konzept der Relevanz zugrunde: Relevanz bezeichnet dabei eine Eigenschaft der Beziehung zwischen der Anfrage und einem einzelnen Element der Antwortmenge. Hierbei werden folgende Annahmen gemacht: • Die Systemantwort ist eine Menge von Objekten (z. B. Dokumente). Damit werden stärker strukturierte Antworten nicht berücksichtigt. Wie unten gezeigt wird, lassen sich die hier diskutierten Evaluierungsmethoden aber leicht auf lineare Anordnungen (Rangordnungen) ausdehnen. • Die Qualität des Objekts, also seine Relevanz bezüglich der Anfrage, hängt nur von der Anfrage ab. Wechselseitige Abhängigkeiten zwischen Objekten bleiben dagegen unberücksichtigt (wenn z. B. die Bedeutung eines bestimmten Dokumentes erst nach der Lektüre eines anderen Dokumentes erkannt wird). Ebenso unberücksichtigt bleibt die Tatsache, dass die Beziehung zwischen Informationsbedürfnis und Anfrage relativ komplex sein kann und sich nur schlecht auf eine lineare Skala abbilden lässt. In der Literatur werden meist vier Arten von Relevanz unterschieden: Situative Relevanz beschreibt die (tatsächliche) Nützlichkeit des Dokumentes in Bezug auf die Aufgabe, aus der heraus das Informationsbedürfnis entstanden ist. Diese Auffassung von Relevanz orientiert sich also an unserer Definition des Informationsbegriffs. Allerdings kann man die situative Relevanz praktisch kaum erfassen, es handelt sich also eher um ein theoretisches Konstrukt. KAPITEL 5. EVALUIERUNG 59 Pertinenz ist die subjektiv vom Benutzer empfundene Nützlichkeit des Dokumentes in Bezug auf das Informationsbedürfnis. Wenn also der Anfragende selbst Relevanzurteile abgibt, so handelt es sich genau genommen um Pertinenzurteile. Objektive Relevanz ist die von einem oder mehreren neutralen Beobachtern beurteilte Beziehung zwischen dem geäußerten Informationswunsch und dem Dokument. Der Relevanzbegriff wird häufig bei Systemevaluierungen zugrunde gelegt. Systemrelevanz bezeichnet die von einem automatischen System geschätzte Relevanz des Dokumentes in Bezug auf die formale Anfrage. In diesem Skript verwenden wir hierfür die Bezeichnung Retrievalwert (englisch: Retrieval Status Value (RSV)), der durch die so genannte Retrievalfunktion berechnet wird. Ein Beispiel soll die Unterschiede verdeutlichen: Ein Benutzer überlegt, ob er das brandneue Handy XYZ kaufen soll. Seine Web-Suche findet unter ciao.de einen sehr positiven Erfahrungsbericht zu diesem Gerät. Die situative Relevanz dieses Dokumentes bezieht sich auf die Erfahrungen des Benutzers im Vergleich zu denen des Dokumentes, wenn er das Handy kauft. Pertinenz bezeichnet dagegen die subjektive, momentane Einschätzung der Nützlichkeit dieses Dokumentes. Die objektive Relevanz würde dagegen die Einschätzung eines neutralen Beobachters beschreiben (der z.B. weiß, dass solche Rezensionen häufig vom Hersteller selbst in Auftrag gegeben werden). Die Systemrelevanz bezeichnet stets die Bewertung des Dokumentes durch das Retrievalsystem. Im Folgenden wird zwischen Pertinenz und objektiver Relevanz nicht mehr unterschieden. Zudem machen wir die Einschränkung, dass die Relevanzskala zweistufig ist, also aus den beiden Werten relevant“ ” und nicht relevant“ besteht. ” 5.3 Distributionen Distributionen sind abstrakte Darstellungen von Retrievalantworten, die als Grundlage für Bewertungsmaße dienen. Wir illustrieren dieses Konzept anhand eines Beispiels: Als Antwort auf eine Anfrage berechne ein System folgende Retrievalwerte für die Dokumente in der Datenbasis: {(d1 , 0.3), (d2 , 0.8), (d3 , 0.1), (d4 , 0.8), (d5 , 0.8), (d6 , 0.6), (d7 , 0.3), (d8 , 0.1)} Daraus ergibt sich folgende Rangordnung bzw. Distribution von Dokumenten: ({d2 , d4 , d5 }, {d6 }, {d1 , d7 }, {d3 , d8 }) Die Relevanzbeurteilung des Benutzers sei nun folgende (R – relevant, R̄ – nicht relevant): {(d1 , R), (d2 , R), (d3 , R̄), (d4 , R), (d5 , R), (d6 , R̄), (d7 , R), (d8 , R)} Durch die Zusammenführung von Rangordnung und Relevanzurteilen erhält man die Distribution mit Relevanzurteilen: + + − + + − + ({d+ 2 , d4 , d5 }, {d6 }, {d1 , d7 }, {d3 , d8 }) Für die Bewertung der Retrievalqualität abstrahiert man nun von spezifischen Dokumenten. Dadurch ergeben sich Äquivalenzklassen von Distributionen mit Relevanzurteilen, die wir im folgenden einfach als Distributionen bezeichnen: ∆ = (+ + +| − | + +| + −) Die einzelnen Ränge werden dabei durch |“ getrennt, +“ bezeichnet ein relevantes und −“ ein nichtre” ” ” levantes Dokument. 5.4 Standpunkte und Bewertungsmaße Jedem Bewertungsmaß liegt ein bestimmter Standpunkt bezüglich des Besserseins“ einer Distribution ” im Vergleich zu einer anderen zugrunde. Bevor man ein Maß anwendet, sollte man sich daher im Klaren darüber sein, welcher Standpunkt dem gewählten Maß zugrundeliegt und ob dieser für die aktuelle Anwendung adäquat ist. KAPITEL 5. EVALUIERUNG 5.4.1 60 Benutzerstandpunkte Wir nehmen an, dass das IRS als Antwort auf eine Anfrage eine Rangordnung von Dokumenten produziert, die der Benutzer sequentiell solange durchsieht, bis ein bestimmtes Abbruchkriterium erfüllt ist. Für jedes Kriterium (= Standpunkt) kann man dann ein entsprechendes Bewertungsmaß definieren, das die Präferenzen des Benutzers widerspiegelt. Beispiele für mögliche Abbruchkriterien und zugehörige Bewertungsmaße sind: • n Dokumente gesehen: # gesehene relevante Dokumente • n relevante Dokumente gesehen: # gesehene Dokumente • n nicht relevante Dokumente gesehen: # gesehene / # gesehene relevante Dokumente • n nicht relevante Dokumente in Folge gesehen: # gesehene / # gesehene relevante Dokumente 5.4.2 Benutzer- vs. Systemstandpunkte Man kann grob zwischen Benutzer- und Systemstandpunkten unterscheiden. Erstere spiegeln dabei die Sicht eines einzelnen Benutzers wider, während letzteren eine globale Sicht (die des Systembetreibers) zugrundeliegt. Dementsprechend beziehen sich benutzerorientierte Maße auf das mögliche Verhalten und die Präferenzen der Benutzer. Systemorientierte Maße entsprechen dagegen einer systemorientierten Sicht, die unabhängig von speziellen Benutzerstandpunkten ist. Daher wird eine globale“ Bewertung der Dis” tribution angestrebt. Im Gegensatz dazu werden etwa bei den obigen benutzerorientierten Maßen jeweils nur die ersten Dokumente der Rangordnung betrachtet. Ein einfaches systemorientiertes Maß wäre da¯ Bezeichne S + die Anzahl her die Korrelation zwischen Systemantwort ∆ und idealer Distribution ∆. − richtig angeordnete Paare und S die Anzahl falsch angeordnete Paare sowie Smax die Anzahl richtig angeordnete Paare der optimalen Lösung, dann könnten wir z.B. die systemorientierte Güte der Antwort ¯ = (+ + + + + + | − −) berechnen als ∆ = (+ + +| − | + +| + −) im Vergleich zur idealen Rangordnung ∆ %= 5 8−3 S+ − S− = . = Smax 12 12 5.5 Maße für Ergebnismengen 5.5.1 Recall, Precision und Fallout Wir betrachten zunächst den Fall der Retrievalbewertung für eine Ergebnismenge, da die Maße für Rangordnungen Erweiterungen der mengenbezogenen Maße sind. Als Benutzerstandpunkt wird hier angenommen, dass der Benutzer sich stets alle gefundenen Dokumente anschaut. Im Folgenden bezeichne GEF die Menge der gefundenen Antwortobjekte, REL die Menge der relevanten Objekte in der Datenbank und ALL die Gesamtzahl der Dokumente in der Datenbank (Abbildung 5.1). Basierend auf diesen Mengen lassen sich dann die Maße Precision, Recall und Fallout wie folgt definieren: Precision: p := |REL ∩ GEF | |GEF | (5.1) Recall: r := |REL ∩ GEF | |REL| (5.2) Fallout: f := |GEF − REL| |ALL − REL| (5.3) Hierbei gibt die Precision den Anteil der relevanten an den gefundenen Dokumenten wieder. Recall dagegen bezeichnet den Anteil der relevanten Dokumente, die tatsächlich gefunden wurden. Schließlich misst Fallout den Anteil der gefundenen irrelevanten an allen irrelevanten Dokumenten der Kollektion; hiermit wird also die Fähigkeit des Systems bewertet, irrelevante Dokumente vom Benutzer fernzuhalten. KAPITEL 5. EVALUIERUNG 61 gefunden (GEF) 0000000000 1111111111 111111111111 000000000000 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 relevant (REL) Kollektion (ALL) Abbildung 5.1: Mengen der relevanten und gefundenen Dokumente Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur aktuellen Anfrage enthält. Ein System liefert 10 Dokumente, von denen 8 relevant sind. Dann erhält man folgende Werte: p = r = f = |REL ∩ GEF | 8 = = 0.8 |GEF | 10 8 |REL ∩ GEF | = = 0.4 |REL| 20 |GEF − REL| 2 = ≈ 0.002 |ALL − REL| 980 Da es sich bei Retrievalexperimenten um stochastische Experimente handelt, sollte man die Messwerte auch entsprechend interpretieren. Im Falle der Precision p = |REL ∩ GEF |/|GEF | wird damit die Wahrscheinlichkeit approximiert, dass ein (zufällig ausgewähltes) gefundenes Dokument relevant ist. Analog schätzt man mit dem Recall r = |REL ∩ GEF |/|REL| die Wahrscheinlichkeit, dass ein (zufällig ausgewähltes) relevantes Dokument gefunden wird. Entsprechendes gilt für den Fallout. Diese probabilistische Interpretation der Retrievalmaße spielt bei theoretischen Untersuchungen eine wesentliche Rolle 5.5.2 Distributionen, Transformationen und Präferenzen Um den Zusammenhang zwischen Distributionen und Präferenzen zu verdeutlichen, betrachten wir ein Beispiel für das Ergebnis von Booleschem Retrieval: , ∆ = (+ + + − | + + − − − −−) Nun untersuchen wir die die Auswirkungen folgender Transformationen: 1. verschiebe ein relevantes Dokument in einen niedrigeren (besseren) Rang 2. verschiebe ein irrelevantes Dokument in einen höheren Rang 3. verdopple alle Dokumente im ersten Rang auf die Maße Recall, Precision und Fallout: Transformation Recall Precision Fallout 1 + + 0 2 0 + + 3 + 0 - KAPITEL 5. EVALUIERUNG 62 Man erkennt, dass die Maße sich unterschiedlich verhalten. Wenn sich der Wert eines Maßes durch eine Transformation verbessert, so bezeichnet man diese als Präferenz. Maße lassen nun ebenso wie Benutzerstandpunkte durch Präferenzen kennzeichnen; dementsprechend kann man für einen Benutzerstandpunkt anhand der Präferenzen das passende Maß auswählen. 5.5.3 Anwendung von Retrievalmaßen Für konkrete Anwendungen – insbesondere solche, bei denen anstelle einer Ergebnismenge eine Rangliste von Antworten zom System geliefert wird – werden häufig Varianten der o.g. Maße verwendet, die an den jeweiligen Kontext angepasst wurden. • Beim Web-Retrieval kann man davon ausgehen, dass die meisten Benutzer (nach empirischen Untersuchungen ca. 90%) sich nur die erste Seite der Ergebnisliste anschauen, die in der Regel 10 Antworten enthält1 . Ein passendes Maß ist daher die Precision nach 10 Dokumenten, die meist als Prec@10“ bezeichnet wird. Ein extremer Standpunkt wäre die Precision des ersten Dokumentes ” (Prec@1). In diesem Kontext wird auch häufig die Click-Through-Rate betrachtet: in Ermangelung von Relevanzurteilen wird angenommen, dass jede angeklickte Antwort relevant sind • Bei Evaluierungsinitiativen wie TREC, CLEF oder INEX werden in analoger Weise z.B. Prec@5, Prec@10, Prec@30 und Prec@100 parallel betrachtet, um Benutzerklassen zu simulieren, die sich jeweils die entsprechende Anzahl Dokumente anschauen (siehe z.B. [Harman 95]). Als globales Maß wird hier zudem die Mean Average Precision betrachtet, die man erhält, wenn man für jede Frage zunächst die Average Precision (siehe Gleichung 5.5) bestimmt und dann das arithmetische Mittel über alle Fragen bildet. Letztere wiederum ist als Mittelwert der Precision nach jedem relevanten Dokument definiert. Abbildung 5.9 zeigt, dass man dieses Maß als benutzerorientiert interpretieren kann, wenn man annimmt, dass nach jedem relevanten Dokument ein gleich großer Anteil von Benutzern die Suche abbricht. Dies ist natürlich ziemlich unrealistisch – die meisten Benutzer werden schon relativ früh stoppen, so dass man anstelle einer Gleichverteilung eher eine schiefe Verteilung annehmen müsste. 5.5.4 Recall-Abschätzung Die Größe der Precision ist für jeden Benutzer eines IR-Systems direkt ersichtlich. Die Größe des Recalls ist dagegen für einen Benutzer weder erkennbar, noch kann sie mit vernünftigem Aufwand präzise bestimmt werden. Der Grund hierfür liegt in dem Problem, die Mächtigkeit der Menge REL zu bestimmen. Folgende Näherungsmethoden wurden hierzu vorgeschlagen: gef 4 gefundene Dokumente relevante Dokumente Frageerweiterung gef 5 gef 3 gef 2 gef 1 Abbildung 5.2: Recall-Abschätzung durch Frageerweiterung (links) und Pooling (rechts) 1 Viele Benutzer stoppen sogar schon früher, wenn nicht alle zehn Antworten ohne Scrollen sichtbar sind! KAPITEL 5. EVALUIERUNG 63 Vollständige Relevanzbeurteilung einer repräsentativen Stichprobe der gesamten Datenbasis: Da REL sehr viel kleiner als die gesamte Datenbasis ist (z. B. mögen 100 von 107 Dokumenten relevant sein), müsste die repräsentative Stichprobe schon einen relativ großen Teil der Datenbasis umfassen, was zu viel Beurteilungsaufwand erfordert. Source-Dokument-Methode: Hierbei wählt man ein zufälliges Dokument aus der Datenbank und formuliert dann eine Frage, auf die dieses Dokument relevant ist. Anschließend wird geprüft, ob das System das betreffende Dokument als Antwort auf die Frage liefert. Für eine Menge von Fragen schätzt man dann über die relative Häufigkeit die Wahrscheinlichkeit, dass das Source-Dokument gefunden wird, als Näherung des Recalls. Nachteil dieser Methode ist, dass die verwendeten Fragen keine echten Benutzerfragen sind. Frageerweiterung: Man erweitert die ursprünglichen Anfrage, so dass eine Obermenge der ursprünglichen Antwortmenge gefunden wird (siehe Abbildung5.2) die wesentlich größer ist und weitere relevante Dokumente enthält (z. B. kann man auch mehrere Frageformulierungen von verschiedenen Bearbeitern erstellen lassen und die Vereinigungsmenge der Antwortmengen betrachten). Damit erhält man aber nur eine Teilmenge der Menge REL, somit sind die darauf basierenden Recall-Schätzungen im allgemeinen zu hoch. Abgleich mit externen Quellen: Man versucht parallel zur Datenbanksuche noch mit davon unabhängigen Methoden, relevante Dokumente zu bestimmen (z. B. indem man den Fragenden oder andere Fachleute fragt, welche relevanten Dokumente sie kennen). Der Anteil der in der Datenbasis vorhandenen Dokumente, die das System als Antwort liefert, ist dann eine gute Näherung für den Recall. Nachteile dieser Methode sind, dass sie zum einen recht aufwendig ist, zum anderen oft nicht anwendbar ist, weil es keine unabhängigen externen Quellen gibt. Pooling-Methode: (Retrieval mit mehreren Systemen): Man wendet mehrere IR-Systeme auf denselben Dokumentenbestand an und mischt die Ergebnisse verschiedener Systeme zu den gleichen Anfragen, bevor man deren Relevanz beurteilt (siehe Abbildung5.2). In der Regel gibt es starke Überlappungen in den Antwortmengen der verschiedenen Systeme, so dass der Aufwand nicht linear mit der Anzahl betrachteter Systeme wächst [Harman 95]. Dieses Verfahren wird derzeit beim Vergleich experimenteller Systeme im Rahmen von Evaluierungsinitiativen angewandt. Außer den ersten beiden Verfahren liefern alle Methoden nur untere Schranken für REL; die gemessenen Recall-Werte sind daher im Allgemeinen zu optimistisch. 5.5.5 Frageweise Vergleiche Hat man für eine Frage Recall und Precision bestimmt, so lässt sich dieses Ergebnis als Punkt in einem Recall-Precision-Graphen darstellen. Beim Vergleich zweier Systeme bezüglich einer Frage ist dann dasjenige System besser, das sowohl einen höheren Recall- als auch einen besseren Precision-Wert liefert (einer der beiden Werte darf auch gleich sein). In Abbildung 5.3 sind die Bereiche, in denen bessere bzw. schlechtere Ergebnisse liegen, weiß markiert. Häufig wird allerdings ein System einen höheren Recall, das andere dagegen eine höhere Precision liefern, so dass sich keine Aussage bezüglich einer Überlegenheit eines der beiden Systeme ableiten lässt (die grauen Bereiche in Abbildung 5.3). Als eine gängige Methode, (r, p)-Paare durch eine einzige Zahl auszudrücken, hat sich das F -Maß durchgesetzt. Abhängig von einem zu wählenden Parameter β berechnet sich dieses Maß zu Fβ = (β 2 + 1) · p · r β2 · p + r (5.4) Hierbei gibt β die relative Gewichtung des Recalls an (β = 0: nur Precision zählt; β = ∞: nur Recall zählt). Üblicherweise setzt man β = 1, arbeitet also mit dem F1 -Maß. Abbildung 5.4 zeigt die Aufteilung von Recall-Precision-Punkten in bessere und schlechtere Ergebnisse durch das F -Maß: Bezogen auf den F-Wert 0,5 für verschiedene β-Werte finden sich bessere Recall-Precision-Punkte jeweils im rechten oberen Bereich, schlechtere Punkte auf der jeweils anderen Seite der Kurven. Als Alternative zu diesen kombinierten Maßen kann man auch Kostenmaße betrachten; diese werden insbesondere bei Systemen zur Informationsfilterung häufig eingesetzt. Dabei geht man von folgender Kontingenztafel aus und zählt die Anzahl Dokumente h.. für jeden der vier Fälle: KAPITEL 5. EVALUIERUNG 64 1 Precision 0.8 0.6 0.4 0.2 0 0 0.5 Recall 1 Abbildung 5.3: Darstellung eines Retrievalergebnisses als Punkt im Recall-Precision-Graphen 1 β=0.4 β=1.0 β=4.0 Precision 0.8 0.6 0.4 0.2 0 0 0.5 Recall 1 Abbildung 5.4: Aufteilung von Recall-Precision-Punkten durch das F -Maß: Für F = 0.5 und verschiedene β-Werte finden sich bessere Recall-Precision-Punkte im rechten oberen Bereich. KAPITEL 5. EVALUIERUNG 65 relevant relevant hR g hR n hIg gefunden gefunden hIn Die allgemeine Formel für die Gesamtkosten ergibt sich dann als gewichtete Summe der verschiedenen Anzahlen: I I R R I I C = CgR · hR g + Cg · hg + Cn · hn + Cn · hn Dabei sind CgR , CgI , CnR und CnI die Kostenparameter für die vier Fälle. Im einfachsten Fall könnte man etwa wählen CgR = CnI = 0 und CgI = CnR = 1. Will man dagegen ein System zur Filterung von Spam-Emails bewerten, so sollte zwar das System möglichst alle relevanten“ (d.h. Ham-Mails) identifizieren, aber möglichst wenig irrelevante“ (Spam) ” ” I Mails selektieren. Um also hR n (im Vergleich hg , der Anzahl an den Benutzer weitergeleiteten Spam-Mails) R I zu möglichst klein zu halten, sollten also entsprechende Werte Cn Cg gewählt werden. Würde man z.B. 20 gesehene Spam-Mails als genauso schlimm wie eine verlorene Ham-Mail ansehen, so könnte man setzen CnR = 20 · CgI sowie CgR = CnI = 0. 5.5.6 Mittelwertbildung Wie oben erwähnt, muss man eine Menge von Fragen betrachten, um fundierte Aussagen über die Qualität eines Systems zu erhalten. Dementsprechend müssen Mittelwerte für die Qualitätsmaße berechnet werden. Hierzu werden im IR zwei verschiedene Methoden angewendet (im Folgenden gehen wir von N Fragen aus, wobei RELi und GEFi für i = {1, . . . , N } die jeweiligen Mengen gefundener bzw. relevanter Dokumente bezeichnen): • Bei der Makrobewertung wird das arithmetische Mittel der Werte für die einzelnen Fragen gebildet, also z. B. für die Precision: N 1 X |RELi ∩ GEFi | pM = N i=1 |GEFi | Probleme ergeben sich bei der Makrobewertung, wenn einzelne Fragen leere Antwortmengen liefern (dies ist z. B. häufig bei Tests der Fall, wo nur eine Stichprobe der Dokumente der gesamten Datenbasis verwendet wird, so dass Fragen mit wenigen Antworten auf der gesamten Datenbasis oft keine Antwort in der Stichprobe liefern). Durch verbesserte probabilistische Schätzmethoden kann dieses Problem unter Umständen behoben werden. Aus stochastischer Sicht approximiert die Makro-Methode den Erwartungswert für die Precision zu einer zufällig ausgewählten Anfrage. Somit geht jede Frage gleich stark in den Mittelwert ein, was nicht immer wünschenswert sein mag (wenn man Fragen mit größeren Antwortmengen stärker gewichten will). Daher bezeichnet man diese Methode auch als Frage- oder Benutzer-orientiert. • Bei der Mikrobewertung werden zuerst Zähler und Nenner des Maßes addiert, bevor der Quotient gebildet wird – also bei der Precision: PN pµ = |RELi ∩ GEFi | PN i=1 |GEFi | i=1 Dadurch wird das Problem der leeren Antwortmengen umgangen. Da hier jedes Dokument gleich stark in den Mittelwert eingeht, bezeichnet man die Mikrobewertung auch als Dokument- oder System-orientiert. Aus stochastischer Sicht wird hier die Wahrscheinlichkeit approximiert, dass ein (zufällig ausgewähltes) gefundenes Dokument aus einer der N Anfragen relevant ist. Analoge Betrachtungen gelten für Recall und Fallout. Ein spezielles Problem der Mikro-Precision ist die fehlende Monotonie-Eigenschaft: Wir betrachten zwei verschiedene Retrievalergebnisse ∆1 , ∆2 , die von zwei Systemen zur gleichen Frage geliefert worden sind. Ein Maß ist dann monoton, wenn sich durch das Hinzufügen des gleichen Retrievalergebnisses ∆ zu beiden Ergebnissen die Aussage über die Überlegenheit eines der beiden Systeme nicht ändert. Seien ∆1 = (+−) KAPITEL 5. EVALUIERUNG 66 und ∆2 = (+ + − − −) Retrievalergebnisse, zu denen später das Retrievalergebnis ∆ = (+ + − − − − −−) hinzugefügt wird. 1 2 3 aber pµ (∆1 , ∆) = 10 Dann ist pµ (∆1 ) = 5.6 > < 2 = pµ (∆2 ), 5 4 = pµ (∆2 , ∆). 13 Rangordnungen Fast alle Retrievalverfahren liefern eine Rangordnung von Dokumenten als Antwort (eine Ausnahme bildet nur das boolesche Retrieval, das noch in einigen älteren Systemen im Einsatz ist). Daher müssen die Definitionen der Retrievalmaße entsprechend erweitert werden. Bei Rangordnungen muss man zusätzlich unterscheiden, ob eine lineare (totale) Ordnung der Dokumente aus der Datenbasis vorliegt oder nur eine schwache Ordnung (d.h. es können mehrere Dokumente im selben Rang sein). Wir beschränken uns hier auf lineare Ordnungen. n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Dokumentnr. 588 589 576 590 986 592 984 988 578 985 103 591 772 990 × = rel. × × × × × Recall 0.2 0.4 0.4 0.6 0.6 0.8 0.8 0.8 0.8 0.8 0.8 0.8 1.0 1.0 Precision 1.00 1.00 0.67 0.75 0.60 0.67 0.57 0.50 0.44 0.40 0.36 0.33 0.38 0.36 Tabelle 5.1: Recall und Precision für ∆1 nach dem Nachweis von n Dokumenten bei linearer Ordnung Retrievalergebnisse werden durch das in Abschnitt 5.3 beschriebene Schema dargestellt. Die Distributionen ∆1 und ∆2 dienen im Folgenden als Beispiele für lineare Rangordnungen: ∆1 = (+| + | − | + | − | + | − | − | − | − | − | − | + |−) ∆2 = (+| − | + | + | + | − | − | − | − | − | + | − | + |−) Die zugrundegelegte fiktive Dokumentkollektion enthält also 14 Dokumente, von denen im Fall von ∆1 5 und im Fall von ∆2 6 Dokumente als relevant beurteilt wurden. Bei einer linearen Ordnung können Recall und Precision (r, p) für eine Anfrage in Abhängigkeit von der Mächtigkeit in der Antwortmenge bestimmt werden, wie dies am Beispiel in Tabelle 5.1 gezeigt wird. ∆1 ist die zugehörige Darstellung des Retrievalergebnisses. Trägt man die sich für verschiedene n ergebenden (r, p)-Werte in das Recall-Precision-Diagramm ein, so ergibt sich das in Abbildung 5.5 (links) gezeigte Bild. Um die Übersichtlichkeit zu erhöhen, kann man die einzelnen Punkte mit Geradenstücken verbinden (lineare Interpolation, Abbildung 5.5 rechts). Diese Art der Darstellung ist besonders nützlich, wenn man die Qualitätsmaße für mehrere Rangordnungen in einem einzigen Graphen darstellen möchte (siehe Abbildungen 5.6). Allerdings darf man den Zwischenpunkten auf diesen Geradenstücken keine Bedeutung zuordnen, da die lineare Interpolation aus theoretischen Gründen nicht korrekt ist – somit kann man im Beispiel etwa nicht behaupten, die gestrichelte Linie zeige für r=0.5 einen höheren Wert. Ein weiterer Nachteil dieser Methode zeigt sich bei der Mittelung über mehrere Fragen – dann erhält man eine Zitterkurve“, da sich die Spitzen der Sägezähne“ nicht ausmitteln. ” ” KAPITEL 5. EVALUIERUNG 1 ∆1 0.8 0.8 0.6 0.6 Precision Precision 1 67 0.4 0.2 ∆1, lineare Interpolation 0.4 0.2 0 0 0 0.5 Recall 1 0 0.5 Recall 1 Abbildung 5.5: Graphische Darstellung der Werte aus Tabelle 5.1 (∆1 ), rechts mit linearer Interpolation der Punkte. 1 ∆1 ∆2 0.8 0.8 0.6 0.6 Precision Precision 1 0.4 0.2 ∆1 ∆2 0.4 0.2 0 0 0 0.5 Recall 1 0 0.5 Recall 1 Abbildung 5.6: Graphische Darstellung der Werte für zwei verschiedene Rangordnungen (∆1 und ∆2 ), rechts mit linearer Interpolation der Punkte. KAPITEL 5. EVALUIERUNG 68 1 ∆1, lineare Interpolation ∆1, Interpolation nach Salton Precision 0.8 0.6 0.4 0.2 0 0 0.5 Recall 1 Abbildung 5.7: Interpolation nach Salton 1 ∆1 ∆2 0.8 0.8 0.6 0.6 Precision Precision 1 0.4 0.2 ∆1 ∆2 0.4 0.2 0 0 0 0.5 Recall 1 0 0.5 Recall 1 Abbildung 5.8: Salton-Methode (links) im Vergleich zur Mittelung über 11 Punkte (rechts) Um die Kurven im R-P-Graphen interpretieren zu können, wurde von Salton [Salton & McGill 83, S. 167–8] vorgeschlagen, die Originalkurve wie in Abb. 5.7 dargestellt zu interpolieren. Dabei wird jeder einzelne (r, p) Wert durch eine waagerechte Linie bis zu r = 0 extrapoliert. Der resultierende Graph ergibt sich dann als das Maximum über diese Geradenstücke. Es wird also angenommen, dass der Benutzer nur nach einem relevanten Dokument stoppt (so dass die Punkte für irrelevante Ränge ignoriert werden können). Zudem stoppt er nur, falls die Precision später nicht noch einmal ansteigt. Später wurde diese Methode noch etwas weiter entwickelt, indem man aus diesen Kurven die Precision für die 11 Recall-Punkte { 0, 0.1, 0.2, . . . , 1 } abliest (oder als Verfeinerung für 101 Punkte 0, 0.01, 0.02. . . ) und diese Werte dann durch Geradenstücke verbindet. Ein Schwachpunkt dieses Ansatzes ist die Tatsache, dass für Recall 0 die Precision eigentlich undefiniert ist. Zudem werden schwache Ordnungen einfach in eine zufällige lineare Anordnung überführt, was die Reliabilität der Ergebnisse beeinträchtigt. Abbildung 5.8 zeigt die sich daraus ergebenden Kurven im Vergleich zur Salton-Methode. KAPITEL 5. EVALUIERUNG 5.6.1 69 Abbruchverhalten von Nutzern Will man eine Rangordnung durch ein einziges nutzerorientiertes Maß bewerten, so muss man das Abbruchverhalten von Nutzern entsprechend modellieren. D.h., man muss festlegen, welcher Anteil der Nutzer sich die Rangordnung bis zu welchem Punkt durchschaut. Zusätzlich braucht man ein benutzerorientiertes Bewertungsmaß für die gesehene Menge von Dokumenten. Zusammen mit dem Abbruchverhalten berechnet man dann ein entsprechendes gewichtetes Mittel. Abbildung 5.9 illustriert diese Vorgehensweise für das Maß average Precision, wo man annimmt, dass nach jedem relevanten Dokument der gleiche Anteil Nutzer stoppt, und man dann die entsprechenden Precision-Werte mittelt. Natürlich ist dies ein relativ unrealistisches Abbruchverhalten. Allgemein kann man solche Maße gemäß folgender Formel berechnen: Abbildung 5.9: Average Precision basiert auf unrealistischem Abbruchverhalten Bezeichne d(k) das Discounting, also den Anteil der Nutzer, die an Rang k stoppen, und sei g(k) der Wert des Qualitätsmaßes an Rang k. Zusätzlich benötigt man noch einen Normierungsfaktor N , der dafür sorgt, dass das Maß nur Werte zwischen 0 und 1 annehmen kann. Dann hat das Maß folgende allgemeine Form: ∞ 1 X d(k)g(k) N k=1 Im Fall der Average Precision gilt: sei r(k) = 1, falls ktes Dok relevant, und 0 sonst, bezeichne n die Pk Gesamtzahl der relevanten Dokumente, und sei s(k) = j=1 r(k) die Anzahl relevanter Dokumente bis zum Rang k, dann berechnet man AP = ∞ X r(k) s(k) k=1 5.6.2 n k (5.5) Cumulated Gain Ein wesentlich realistischeres Modell für das Nutzerverhalten wurde in [Järvelin & Kekäläinen 02] vorgeschlagen. Das zugrunde liegende Qualitätsmaß ist der cumulated gain, der insbesondere mehrstufige Relevanzskalen berücksichtigen kann. Wir stellen eine entsprechende Distribution als Folge von nichtnegativen Integer-Werten dar, also z.B. ∆1 = (3|2|3|0|0|1|2|2|3|0). Zur Definition des Maßes transformieren wir die Distribution in einen sogenannten Gain Vektor G1 = (3, 2, 3, 0, 0, 1, 2, 2, 3, 0). Daraus berechnen wir dann den Cumulated Gain Vektor: G[1] , if k = 1 CG(k) = (5.6) CG(k − 1) + G(k) , sonst Für unser Beispiel lautet dieser CG1 = (3, 5, 8, 8, 8, 9, 11, 13, 16, 16). Um nun das Abbruchverhalten zu berücksichtigen, wird der Discounted Cumulated Gain definiert. Für den Anteil der Benutzer, die nach Rang k stoppen, schlagen [Järvelin & Kekäläinen 02] folgende Funktion vor: d(k) = 1/ logb k (wobei b eine frei zu wählende Konstante ist. Der Discounted Cumulated Gain ist dann definiert als KAPITEL 5. EVALUIERUNG 70 DCG(k) = CG(k) DCG(k − 1) + G(k)/ logb k , if k < b , sonst (5.7) Für unseren obigen Gain-Vektor G = (3, 2, 3, 0, 0, 1, 2, 2, 3, 0) ergibt sich mit b = 2 folgender Discounted Cumulated Gain: DCG = (3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61). Abbildung 5.10: CG- und DCG-Kurven Abbildung 5.10 zeigt Beispiele von CG- und DCG-Kurven von 5 Teilnehmern (A-E) bei TREC-7, die über 20 Fragen gemittelt wurden. Das Problem bei diesen Maßen ist, dass sie stark von der Generality der Frage abhängen, so dass eine Mittelung über mehrere Fragen wenig sinnvoll ist. Erforderlich ist daher eine Normalisierung. Hierfür gibt es die Maße n(D)CG - normalized (Discounted) Cumulated Gain, bei denen d dividiert: man den (D)CG-Vektor durch idealen Vektor (D)CG nCG(k) = CG(k) d CG(k) (5.8) nDCG(k) = DCG(k) d DCG(k) (5.9) Abbildung 5.11 zeigt den Vergleich zwischen unnormiertem und normiertem DCG-Maß für voriges Beispiel. Abbildung 5.11: DCG- und nDCG-Kurven KAPITEL 5. EVALUIERUNG 5.6.3 71 Evaluierung von Diversity-Ranking Häufig möchte man beim Retrieval möglichst mehrere Antworten, die verschiedene Aspekte der Anfrage abdecken. Fragt der Benutzer etwa nach einem Popstar, dann möchte er vielleicht dessen neuestes Album kaufen, sich das zugehörige Video anschauen, den neuesten Klatsch erfahren oder sich anhand der Wikipedia-Seite allgemein informieren. Um solche Anfragen möglichst optimal zu beantworten, sollte ein Retrievalsystem versuchen, alle Aspekte mit den ersten Antwortdokumenten abzudecken – dies bezeichnet man als diversity ranking. Hierzu definieren wir die Maße Subtopic Recall und Precision. Bezeichne subtopics(di ) die Menge der relevanten Teilaspekte in Dokument di , und sei ns die Gesamtzahl der Teilaspekte der aktuellen Frage. Der Subtopic Recall bei Rang k ist dann definiert als s-r(k) = | ∪ki=1 subtopics(di )| ns Nehmen wir als Beispiel eine Frage mit 5 Teilaspekten (a,b,c,d,e) an. Für die Distribution < (a, b)|(b, c)|()|(a, d)|(a, c)|(e) > ergeben sich dann folgende Werte: s-r = (0.4, 0.6, 0.6, 0.8, 0.8, 1.0) Zur Definition der Subtopic Precision vergleichen wir das aktuelle System S mit dem optimalen System Sopt und berechnen die subtopic precision in Abhängigkeit vom subtopic recall s-p(s-r) = minRank(Sopt (s-r)) minRank(S(s-r)) Für unser obiges Beispiel mit S =< (a, b)|(b, c)|()|(a, d)|(a, c)|(e) > würde das ideale System folgende Distribution liefern: Sopt =< (a, d)|(b, c)|(e)| . . . >, die beiden Vektoren von subtopic recall sind dann s-r= (0.4, 0.6, 0.6, 0.8, 0.8, 1.0) und s-ropt = (0.4, 0.8, 1.0, 1.0, 1.0, 1.0). Die Gegenüberstellung liefert dann s-r 0.2 0.4 0.6 0.8 1.0 minRank(S) 1 1 2 4 6 minRank(Sopt ) 1 1 2 2 3 s-p 1 1 1 0.5 0.5 Eine Erweiterung von nDCG für Diversitäts-Ranking wird mit α-nDCG in [Clarke et al. 09] vorgeschlagen, wo ein Discounting nur für diejenigen Teilaspekte erfolgt, die der Benutzer vorher schon gesehen hat. 5.7 5.7.1 Evaluierung von interaktivem Retrieval Batch- vs. interaktives Retrieval Bisher wurde in diesem Kapitel fast ausschließlich die Evaluierung von Batch-artigem Retrieval betrachtet. Dabei wird angenommen, dass der Benutzer eine Anfrage formuliert, und dann wird die Qualität der von den einzelnen Systemen produzierten Ergebnisse bestimmt. Dieser Ansatz hat allerdings eine Reihe von Schwächen: • Es wird nur eine einzige Anfrage betrachtet, eine Reformulierung (wie sie bei interaktiven Systemen üblich ist) wird nicht berücksichtigt. • Auch bei Relevance Feedback ist die einzig mögliche Interaktion die Relevanzbeurteilung einiger Dokumente, weitergehende Reaktionen des Benutzers (wie etwa Markierung relevanter/irrelevanter Passagen) sind nicht möglich. • Heutige IR-Systeme bieten oft eine reichhaltige Funktionalität, wie z.B. Highlighting, Clustering, Browsing von Dokumenten oder Termlisten. Diese Funktionalität wird bei der Evaluierung nicht berücksichtigt. • Ergebnisse aus dem TREC interactive track [Voorhees & Harman 00] zeigen, dass die in herkömmlichen Evaluierungen beobachteten Qualitätsunterschiede zwischen Verfahren beim interaktiven Retrieval verschwinden, da sie durch den Benutzer leicht kompensiert werden können [Turpin & Hersh 01]. KAPITEL 5. EVALUIERUNG 72 Abbildung 5.12: Berrypicking-Modell nach Bates Somit ergibt sich der Schluss, dass Ergebnisse aus Batch-Evaluierungen nur sehr beschränkte Aussagekraft auf die viel realistischere Situation des interaktiven Retrieval haben. Daraus ergibt sich die Notwendigkeit für die Evaluierung von interaktivem Retrieval. Empirische Studien zu interaktivem Retrieval haben immer wieder gezeigt, dass dies ein iterativer Prozess ist, bei dem Nutzer die Anfrage häufig reformulieren. Die eingegebenen Anfragen sind zwar thematisch zusammenhängend, allerdings wandert das Ziel der Suche dabei. Die Idee des Relevance Feedback, die Anfrage für ein feststehendes Informationsbedürfnis zu optimieren, ist also unrealistisch. Als kognitives Modell für diese Situation ist von Marcia Bates das Berrypicking-Modell vorgeschlagen worden: ähnlich einem Beerensucher im Wald sammelt ein Benutzer während der Suche Beeren“ in Form von ” relevanten Dokumenten und hilfreichen Suchtermen, und wechselt dabei immer etwas die Richtung (siehe Abbildung 5.12). 5.7.2 Suchaufgaben Um interaktives Retrieval im Labor zu evaluieren, benötigt man realistische Suchaufgaben. Borlund hat hierzu den Ausdruck simulated work task“ geprägt. anstelle eines vorgegebenen Informationsbedürfnisses ” holt man also weiter aus und beschreibt den Versuchspersonen eine zu lösende Aufgabe, aus der heraus das Informationsbedürfnis begründet ist. Einige Beispiele aus dem Interactive Track“ 2009 der Evaluierungsinitiative INEX sollen dies illustrie” ren: 1. Breites Thema: You are considering to start studying nuclear physics. In order to prepare for the course you would like to get acquainted with some good introductionary texts within the field as well as some of its classics. 2. Enges Thema: Find books which present documentation of the specific health and/or beauty effects of consuming olive oil. 3. Benutzerspezifisches, enges Thema: For one of the courses you are currently attending, you need an additional textbook. You have only money for one book (assuming they all have about the same price). Um solche Aufgaben zu definieren, ist es hilfreich, ein Klassifikationsschema für Suchaufgaben zugrundezulegen, um dann auf die betrachteten Klassen generalisieren zu können. Hierzu gibt es zahlreiche Ansätze, von denen wir zwei kurz skizzieren wollen. [Shneiderman 98] unterscheidet zwischen spezifischer Faktensuche, erweiterter Faktensuche, offenem Browsing und der Klärung der Verfügbarkeit von Information. In [Ingwerswen 01] wird die in Abbildung 5.13 dargestellte zweidimensionale Unterteilung definiert, die einerseits nach dem Umfang des Vorwissens, andererseits nach dem Suchziel differenziert. Mittlerweile gibt es ein reiches Instrumentarium für diese Art der Evaluierung: KAPITEL 5. EVALUIERUNG Suche / Vorwissen Kein Wissen Teilwissen umfass. Wissen 73 eine Anfrage ein Objekt eine Anfrage heterogene Objekte mehrere Anfragen heterogene Objekte Abbildung 5.13: Information need typology matrix nach Ingwersen • Bei “think aloud”-Protokollen soll die Versuchsperson laut denken, um damit mehr Einblick in die bei der Suche ablaufenden kognitiven Prozesse zu bekommen. • Beobachtungsdaten (z.B. Log-Analyse) sind relativ einfach zu erheben, besitzen aber nur eine beschränkte Aussagekraft. • Durch Interviews nach dem Versuch (und evtl. auch schon vorher) lässt sich der subjektive Eindruck der Versuchspersonen erheben und Hinweise auf die subjektiv empfundenen Stärken und Schwächen des Systems sammeln. • Fragebögen können alternativ oder ergänzend zu Interviews eingesetzt werden. Sie erfordern weniger Aufwand für die Versuchsleitung, sind leichter auszuwerten und ermöglichen eine quantitative Beurteilung nach verschiedenen Kriterien. • Fehleranalysen dienen dazu, bei der fehlgeschlagenen Bearbeitung von Aufgaben mit dem System Rückschlüsse auf die Ursachen zu ziehen. • Zeitbedarf zur Problembearbeitung ist eine relative einfach zu erhebende Messgröße: Für eine vorgegebene Menge von Aufgaben misst man jeweils die Zeit, die die Versuchspersonen zu deren Bearbeitung benötigen. • Die Kosten-Nutzen-Analyse versucht, über die reine Retrievalqualität hinaus sowohl den Aufwand des Benutzers als auch den konkreten Nutzen zu quantifizieren. Mittlerweile wird die Notwendigkeit der Evaluierung von interaktivem Retrieval allgemein anerkannt, allerdings wird der Aufwand zur Durchführung vielfach noch gescheut. Kapitel 6 Neuere Probabilistische Modelle 6.1 6.1.1 Learning to Rank Parameter-Lernen im IR Abbildung 6.1: Lernansätze im IR Probabilistische IR-Modelle kann man auch als Lernverfahren ansehen [Fuhr 92]. Abbildung 6.1 illustriert diese Sicht. Links haben wir Frage-bezogenes Lernen, wie wir es beim BIR-Modell kennen gelernt haben: Die Parameter werden aus der Beobachtung einer Frage und einiger Dokumente hierzu gelernt (Relevance Feedback), und können dann zum Ranking der übrigen Dokumente zur selben Frage angewendet werden. Ferner ist das Lernen auf die gesehenen Terme beschränkt – Terme, die beim Lernen nicht gesehen wurden, können auch bei der Anwendung nicht berücksichtigt werden. Ein dazu duales Lernverfahren ist das das in der MItte dargestellte Dokument-bezogene Lernen. Hierbei wird ein Dokument zu einigen Fragen beobachtet, um dann die Dokumentterme besser zu gewichten, damit die Relevanzwahrscheinlichkeit des Dokumentes bei weiteren Anfragen besser geschätzt werden kann [Maron & Kuhns 60]. Die Beschränkung auf die gesehenen Terme wird schließlich beim Merkmals-bezogenen Lernen aufgehoben: Hier wird für eine Menge von Frage-Dokument- Paaren gelernt, wobei eine Menge von Termen beobachtet wird. Das Lernen bezieht sich aber jetzt nicht auf die Objekte selbst (Fragen, Dokumente, Terme), sondern auf deren Eigenschaften. Daher kann das Gelernte auch auf neue Fragen, Dokumente und Terme angewendet werden. Ein wesentliches Konzept bei jeglicher Art des Lernens ist die Generalisierung, d.h. wie weit wir von einem konkreten Einzelfall abstrahieren können (oder wollen). Diesen Aspekt soll Abbildung 6.2 verdeut- 74 KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 75 O D Q T (D,Q) (D,T) (Q,T) (D,Q,T) Abbildung 6.2: Mögliche Abstraktionen beim Lernen lichen. Wenn wir nur die Tripel (D,Q,T) betrachten, dann liegt keine Abstraktion vor. Bei (Q,T) findet eine Abstraktion von Dokumenten statt, wie es im BIR-Modell geschieht. Analog abstrahieren wir beim Dokument-bezogenen Lernen mit (D,T) von Fragen. Auch ein Lernen nur bezogen auf Terme T ist möglich, um eine von Fragen und Dokumenten unabhängige Termgewichtung zu realisieren. Schließlich wird beim Merkmals-bezogenen Lernen von Fragen, Dokumenten und Termen abstrahiert – diesen Ansatz bezeichnet man auch als learning to rank. (Die übrigen, hier nicht diskutierten, Abstraktionsmöglichkeiten wurden bislang kaum betrachtet.) Abbildung 6.3 illustriert die Anwendung von learning to rank bei Internet-Suchmaschinen. Neben den, auch bei anderen Retrieval-Anwendungen üblichen, Merkmalen von Dokumenten und ihre Beziehung zur Frage berücksichtigt man auch Frage-Merkmale (unter Berücksichtigung des Query Log) sowie Eigenschaften der Ankertexte, den Page-Rank sowie Information über den Benutzer und seine Freunde aus sozialen Netzen. Abbildung 6.3: Learning to Rank bei der Web-Suche KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 6.1.2 76 Learning-to-rank-Ansätze Man kann generell drei Arten von Ansätzen unterscheiden punktweise: Hierbei besteht die Trainingsmenge aus Frage-Dokument-Paaren mit ordinaler (z.B. binärer) oder numerischer Relevanzbeurteilung. Das Lernverfahren soll dann für jedes Frage-Dokument-Paar die Zugehörigkeit zu einer Klasse (relevant/irrelevant) oder einen Retrievalwert vorhersagen, es handelt sich also um eine Klassifikationsaufgabe oder um numerische Vorhersage. paarweise Die Trainingsmenge besteht aus Dokumentpaaren, die eine Präferenzrelation spezifizieren. Ein Klassifikationsverfahren soll nun für ein gegebenes Paar (d1 , d2 ) entscheiden, ob d1 eine bessere Antwort zur aktuellen Anfrage ist als d2 , oder umgekehrt. listenweise In diesem Fall besteht die Trainingsmenge aus Listen, die ideale Rangordnungen vorgeben. Die Lernalgorithmen versuchen nun direkt, ein bestimmtes Evaluierungsmaß (für die Liste) zu optimieren. Im Folgenden betrachten wir nur noch punktweise Ansätze, wobei wir uns zudem auf den Fall der probabilistischen Klassifikationsaufgabe beschränken. Es geht also darum, Frage-Dokument-Paare (q k , dm ) den durch die möglichen Relevanzwerte Rl ∈ R = {R1 , . . . , Rn } vorgegebenen Klassen zuzuordnen. Als Lernansatz verwenden wir Merkmals-bezogenes Lernen gemäß Abbildung 6.1; wir abstrahieren also von spezifischen Fragen, Dokumenten und Termen. Während herkömmliche Retrievalmodelle für ein gegebenes Frage-Dokument-Paar (qk , dm ) eine direkte Schätzung der Relevanzwahrscheinlichkeit P (R|qk , dm ) anstreben, geht man bei LTR-Ansätzen zweistufig vor: Zunächst konstruiert man im Beschreibungsschritt einen Merkmalsvektor ~x(qk , dm ). Im anschließenden Entscheidungssschritt wird dann eine gelernte Klassifikationsfunktion el (~x) angewendet, die die Wahrscheinlichkeiten P (Rl |~x(qk , dm )) für die Relevanzstufen Rl , l = 1, . . . , n schätzt. Diese Klassifikationsfunktion wird auf einer Lernstichprobe mit Relevanzurteilen trainiert. Die Merkmale werden typischerweise in Anlehnung an populäre Retrievalfunktionen definiert, die man ggfs. durch anwendungsspezifische Attribute ergänzt. Ein einfaches Beispiel wäre etwa folgendes: element x1 x2 x3 x4 x5 description BM25 weight of document to the query fraction of query terms matching in document fraction of query terms matching in document title BM25 weight of document title to the query min. distance of query terms in text Für die nachfolgenden Betrachtungen verwenden wir einen stark vereinfachten Merkmalsvektor, der nur aus zwei Komponenten (z.B. Frageterme kommen im Dokumenttitel vor / kommen im Abstract vor) besteht. Unsere Beispiel-Trainingsmenge sehe wie folgt aus: ~x (1,1) (1,1) (1,1) (1,0) (1,0) (0,1) (0,1) (0,1) (0,0) rk R R N R N R N N N y 1 1 0 1 0 1 0 0 0 P (R|~x ) 0.67 0.67 0.67 0.50 0.50 0.33 0.33 0.33 0.00 Tabelle 6.1: Einfaches Beispiel für Learning to Rank Eine direkte Schätzung der Relevanzwahrscheinlichkeit für jeden möglichen Merkmalsvektor, wie in der letzten Spalte angedeutet, ist in der Praxis nicht machbar, da es zu viele mögliche Ausprägungen gibt, was eine riesige Trainingsmenge voraussetzen würde. Daher benötigt man spezielle Lernmethoden (genauer: Klassifikationsverfahren), die die vorhandenen Trainingsdaten optimal ausnutzen. Einige hierfür geeignete KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 77 Abbildung 6.4: Learning to Rank mit der Rocchio-Methode Klassifikationsverfahren sind etwa Regressionsfunktionen (linear/logistisch), Entscheidungsbäume, Bayessche Klassifikatoren (ähnlich dem BIR-Modell, aber nun auf Merkmale bezogen), Supportvektor-Maschinen oder k-nächste-Nachbarn-Methoden. Um die grundsätzliche Idee zu illustrieren, verwenden wir zunächst ein nicht-probabilistisches Lernverfahren, nämlich die Rocchio-Methode zur Bestimmung des optimalen Fragevektors (siehe Abschnitt 3.5.3. Für die Beispiel-Daten aus Tabelle 6.1 ergibt sich der in Abbildung 6.4 dargestellte optimale Fragevektor (man beachte, dass hier jeweils mehrere Beispielobjekte an derselben Stelle des zweidimensionalen Vektorraums liegen, was aber der Einfahcheit des Beispiels geschuldet ist. Die gestrichelten LInien zeigen an, in welcher Reihenfolge die verschiedenen Merkmalsvektoren gerankt werden: Obwohl es sich um ein nichtprobabilistisches Verfahren handelt, ergibt sich trotzdem dieselbe Reihung wie nach fallender Relevanzwahrscheinlichkeit. 6.1.3 Regression mit minimalem quadratischem Fehler Als anschauliches Beispielverfahren betrachten wir hier Regressionsverfahren, die den quadratischen Fehler zu minimieren suchen, wobei wir uns zudem auf binäre Relevanzskalen beschränken. Wir repräsentieren die binären Relevanzurteile r(qk , dm ) durch eine Variable y mit y = 1 falls r = R und y = 0 sonst. Gesucht wird nun eine Regressionsfunktion eopt (~x), die eine optimale Approximation ŷ an die Klassenvariable y liefert. Das Optimierungskriterium ist dabei der minimale quadratische Fehler: ! E(|y − eopt (~x)|2 ) = min . Man kann zeigen, dass dann eopt (~x) eine Wahrscheinlichkeitsschätzung P (R|~x) liefert. Allerdings kann dieses sogenannte Variationsproblem in allgemeiner Form nicht gelöst werden. Stattdessen muss man die Suche auf eine vordefinierte Klasse von Funktionen beschränken. Dadurch reduziert sich das Problem zu einer Parameteroptimierungs-Aufgabe. Typische Funktionsklassen für unser Problem sind lineare Funktionen (bzw. Polynome) sowie logistische Funktionen der Form ea(~x) /(1 + ea(~x) ). Man kann nun zeigen, dass die mittels Parameteroptimierung gewonnene Funktion eine Approximation mit minimalem quadratischen Fehler an eopt : darstellt. Die Approximation bezüglich ! E(|y − ŷ |2 ) = min liefert dasselbe Resultat wie eine Optimierung mit der Bedingung ! E(|E(y |~x ) − ŷ |2 ) = 2 ! E(|P (y|~x) − ŷ | ) = min min ⇔ KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 78 Somit liefert die Parameteroptimierung eine Approximation mit minimalem quadratischen Fehler an die Relevanzwahrscheinlichkeit P (R|~x(qk , dm )). 6.1.4 Quadratmittelpolynome Als Funktionenklasse für die Parameteroptimierung betrachten wir nun Polynome mit vordefinierter Struktur, wobei wir uns hier aus didaktischen Gründen auf lineare Strukturen als Funktionsklassen beschränken: ~x = (x0 , x1 , x2 , . . . , xL ) (mit x0 = 1). Wir wollen also P (R|~x) durch die Funktion e(~x) = a0 + a1 · x1 + a2 · x2 + . . . + aN · xN approximieren. Unsere Regressionsfunktion lautet somit e (~x) = ~aT · ~x wobei ~a = (a0 , a1 , . . . , aN )T der zu bestimmende Koeffizientenvektor ist. Dieser Koeffizientenvektor wird berechnet als Lösung des linearen Gleichungssystems E(~x · ~x T ) · ~a = E(~x · ~y T ). (6.1) Die Vorgehensweise ist also folgende: 1. Benutze eine repräsentative Trainingsstichprobe T von Frage-Dokument-Paaren mit Relevanzurteilen 2. Leite Paare (~x, y ) ab. 3. Berechne zu T beide Seiten des linearen Gleichungssystems: 1 |T | (~x · ~x T ) · ~a = ! X ~x · ~x T · ~a = ~ x∈L (~x · y) 1 X |T | ~x · y ~ x∈L 4. Berechne die Lösung des Gleichungssystems. Zur Illustration der Vorgehensweise verwenden wir eine leicht modifizierte Variante des Beispiels aus 6.1, wo wir zusätzlich eine Konstante zum Merkmalsvektor hinzugefügt haben, und zudem das letzte Beispielelement weggelassen haben: ~x (1,1,1) (1,1,1) (1,1,1) (1,1,0) (1,1,0) (1,0,1) (1,0,1) (1,0,1) Für diese Trainingsdaten ergibt sich 8 1 5 · 8 6 5 5 3 rk R R N R N R N N y 1 1 0 1 0 1 0 0 P (R|~x ) 0.67 0.67 0.67 0.50 0.50 0.33 0.33 0.33 6 4 1 3 · ~a = · 3 . 8 6 3 woraus sich die Regressionsfunktion e(~x) = 0.17+0.33x1 +0.17x2 ergibt. Deren Schätzungen im Vergleich zu den optimalen Werten sehen wir nachstehend — wir haben es hier also mit einer optimalen Approximation zu tun. ~x rk y P (R|~x ) e(~x ) (1,1,1) R 1 0.67 0.67 (1,1,1) R 1 0.67 0.67 (1,1,1) N 0 0.67 0.67 (1,1,0) R 1 0.50 0.50 (1,1,0) N 0 0.50 0.50 (1,0,1) R 1 0.33 0.33 (1,0,1) N 0 0.33 0.33 (1,0,1) N 0 0.33 0.33 KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 79 Fügen wir hingegen noch ein weiteres Beispiel zu den Trainingsdaten hinzu, so ist die resultierende Funktion e0 (~x) = 0.08+0.38x1 +0.23x2 nur noch eine optimale Approximation an die Relevanzwahrscheinlichkeiten, wie nachstehende Tabelle illustriert : ~x (1,1,1) (1,1,1) (1,1,1) (1,1,0) (1,1,0) (1,0,1) (1,0,1) (1,0,1) (1,0,0) rk R R N R N R N N N y 1 1 0 1 0 1 0 0 0 P (R|~x ) 0.67 0.67 0.67 0.50 0.50 0.33 0.33 0.33 0.00 e(~x ) 0.67 0.67 0.67 0.50 0.50 0.33 0.33 0.33 0.17 e0 (~x ) 0.69 0.69 0.69 0.46 0.46 0.31 0.31 0.31 0.08 In der Praxis verwendet man polynomielle Funktionen kaum für Zwecke der Klassifikation, da deren Schätzungen nicht auf das Intervall [0,1] beschränkt sind und Schätzungen außerhalb dieses Intervalls zu Problemen führen. Logistische Funktionen liefern hingegen immer Werte aus dem Intervall (0, 1) und stellen in der Regel bessere Approximationen dar: e(~x) = exp(~aT · ~x) 1 + exp(~aT · ~x) Abbildung 6.5 illustriert die Unterschied zwischen beiden Funktionenklassen. Der einzige Nachteil logistischer Funktionen ist, dass das Gleichungssystem nur iterativ lösbar ist, was aber bei den heutigen Rechengeschwindigkeiten kein Problem darstellt. Abbildung 6.5: Lineare vs. logistische Regressionsfunktionen 6.1.5 IR-Modelle vs. Learning to Rank Abschließend zu diesem Abschnitt wollen wir IR-Modelle mit Learning to Rank-Ansätzen vergleichen. IR-Modelle beziehen sich auf spezifische Repräsentation, basieren auf bestimmten expliziten Annahmen, und besitzen ein striktes, transparentes theoretisches Modell; die Qualität eines solchen Modells Qualität hängt von der Gültigkeit der zugrundeliegenden Annahmen ab. Im Gegensatz dazu sind Learning to Rank-Ansätze flexibler bezüglich der Repräsentation, aber intransparenter, da die meisten Annahmen sind implizit; zudem wird der Merkmalsvektor heuristische definiert, was aber andererseits eine bessere Adaption an die Anwendungsdaten ermöglicht, woraus häufig eine höhere Retrievalqualität resultiert (wenn genügend Trainingsdaten verfügbar sind). KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 6.2 6.2.1 80 IPRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Das im vorigen Kapitel vorgestellte klassische PRP besagt, dass Ranking nach fallender Relevanzwahrscheinlichkeit eine optimale Retrievalqualität liefert. Der Beweis dieser Aussage basiert allerdings auf mehreren Annahmen: Betrachtet wird die Aufgabe, relevante Dokumente zu einem Informationsbedürfnis zu finden. Hierzu wird angenommen, dass die Relevanz eines Dokumentes zu einer Anfrage unabhängig ist von anderen Dokumenten. Ferner wird bei der Berechnung der Retrievalkosten das Durchsehen der Ergebnisliste als die Hauptaufgabe des Benutzers angesehen, und zudem als dessen einzige Aktivität in das Kostenmodell einbezogen. Gegen diese Sichtweise gibt es zwei Haupteinwände: 1. In der Praxis hängt die Relevanz auch von den Dokumenten ab, die der Benutzer bereits gesehen hat. Einige Dokumente können Duplikate sein oder zumindest inhaltlich sehr ähnlich (und damit irrelevant), und es kann Dokumente geben, die sich erst dann als relevant erweisen, wenn man bestimmte andere Dokumente vorher gesehen hat. 2. Das Durchsehen der Ergebnisliste ist nicht die aufwändigste Aktivität des Benutzers. Diese Aussage wird durch die Studie [Turpin & Hersh 01] bestätigt, die die Ergebnisse beim TREC Interactive Track analysierten. Bei dieser Evaluierung zeigte sich, dass Systeme mit unterschiedlicher Retrievalqualität beim interaktivem Retrieval gleich gut abschneiden. Turpin und Hersh erklären dieses Ergebnis damit, dass Benutzer Qualitätsunterschiede beim Ranking leicht kompensieren können. Möchte man also ein PRP für interaktives Retrieval formulieren, so muss man zunächst berücksichtigen, dass Benutzer hier vielfältige Interaktionsmöglichkeiten haben, wie z.B. (Re-)Formulierung der Anfrage, Dokumentauswahl anhand von Surrogaten unterschiedlicher Granularität, Auswahl verwandter Suchterme aus einer Liste, Verfolgen von Dokument-Links, Relevanzbeurteilung usw. Ferner sollten wir die eingangs dieses Kapitels formulierte Erkenntnis berücksichtigen, dass Informationsbedürfnisse nicht statisch sind, sondern sich während der Suche ändern können. Schließlich ist festzuhalten, dass es bislang keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR gibt – obwohl solche Systeme schon seit Jahrzehnten existieren! 6.2.2 Ansatz Wir formulieren zunächst die Anforderungen an ein IPRP: 1. Es sollte die vollständige Interaktion zwischen Mensch und Computer berücksichtigen. 2. Für unterschiedliche Aktivitäten im Rahmen dieser Interaktion sollten jeweils spezifische Kosten angenommen werden können. 3. Mögliche Änderungen des Informationsbedürfnisses während der Suche sollen Teil des Modells sein. Das neue Modell [Fuhr 08] basiert auf folgenden grundlegende Annahmen: • Es fokussiert nur auf die funktionalen Aspekte der Interaktion – Usability-Aspekte werden nicht berücksichtigt. • Als grundlegende Interaktionsform wird angenommen, dass das System dem Benutzer immer eine lineare Auswahlliste präsentiert. • Der Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge. • Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer. • Eine positive Entscheidung führt zu einer neuen Situation mit einer potentiell neuen Auswahlliste. Beispiele für solche Auswahllisten sind: Rangliste von Dokumenten, Liste von Surrogaten, Liste von Dokument-Clustern, KWIC-Liste, Liste von Termen zur Frage-Expansion, Links zu verwandten Dokumenten, usw. Abbildung 6.6 zeigt das zugehörige abstrakte Interaktionsmodell, wonach der Benutzer sich durch eine Folge von Situationen bewegt. Man mag das Modell einer linearen Auswahlliste für eine starke Vereinfachung halten, aber faktisch muss ein Benutzer natürlich immer in irgendeiner linearen Reihenfolge bei der Interaktion mit dem System vorgehen. Idealerweise sollte dies die Reihenfolge sein, die die Systemdesigner vorgesehen haben. Ein Beispiel für ein nichtlineares Bildschirmdesign zeigt Abbildung 6.7: Hier weiß der Benutzer nicht, in welcher Reihenfolge er sich die einzelnen Artikel anschauen soll. KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE Abbildung 6.6: Abstraktes Interaktionsmodell: Situationen mit Auswahllisten 6.2.3 81 Abbildung 6.7: Nichtlineares Bildschirmdesign Das Modell Wir beschreiben nun das formale Modell und leiten dann das IPRP her. Es wird angenommen, dass ein Benutzer sich von einer Situation zur nächsten bewegt. In jeder Situation si wird dem Benutzer eine Liste von (binären) Vorschlägen < ci1 , ci2 , . . . , ci,ni > präsentiert, die er in der angezeigten Reihenfolge beurteilt. Die erste positive Entscheidung bringt den Benutzer dann in eine neue Situation sj . Unser Ziel ist es nun, ein Modell für die optimale Anordnung der Vorschläge in einer Situation zu entwickeln, wobei wir nur eine einzelne Situation betrachten und nicht den gesamten Pfad des Benutzers. Hierzu berechnen wir zunächst den erwarteten Nutzen eines einzelnen Vorschlages: Bezeichne pij die Wahrscheinlichkeit, dass der Nutzer den Vorschlag cij akzeptiert, eij < 0 ist der Aufwand zur Beurteilung dieses Vorschlages, und aij > 0 sei der resultierende Nutzen einer positiven Entscheidung. Dann können wir den erwarteten Nutzen des Vorschlages cij abschätzen zu E(cij ) = eij + pij aij term program blend island nj 195 Mio 5 Mio 2 Mio pij 0.67 0.02 0.01 aij 0.4 4.0 4.9 pij aij 0.268 0.08 0.049 Tabelle 6.2: Beispiel zur Berechnung des erwarteten Nutzens Betrachten wir hierzu eine Beispiel: Der Benutzer führt eine Web-Suche mit dem Term Java“ durch, ” was zu n0 =290 Mio. Treffern führt. Das System schlägt nun die in Tabelle 6.2 gezeigten Terme zur Frageerweiterung vor, wobei nj deren Häufigkeit im Korpus angibt. Wir nehmen nun an, dass die Annahmewahrscheinlichkeit pij proportional zu dieser Häufigkeit ist, und dass der Nutzen (in Anlehnung an den Informationsgehalt) abgeschätzt werden kann als aij = log nn0j . Da der Aufwand eij für alle Vorschläge als gleich groß angenommen werden kann, erscheint es sinnvoll, die Vorschläge nach fallenden Werten von pij aij anzuordnen. Wir werden aber gleich sehen, dass die tatsächlichen Verhältnisse etwas komplexer sind. Wir betrachten nun den erwarteten Nutzen einer vollständigen Auswahlliste in einer Situation si mit einer Liste von Vorschlägen ri =< ci1 , ci2 , . . . , ci,ni >. Der erwartete Nutzen E(ri ) dieser Liste lässt sich dann berechnen als der Aufwand für die Beurteilung des ersten Vorschlages plus dessen Nutzen, falls der Vorschlag (mit der Wahrscheinlichkeit pi1 ) angenommen wird, und im Falle der Ablehnung (mit der Wahrscheinlichkeit 1 − pi1 ) haben wir den Aufwand für den zweiten Vorschlag plus dessen erwarteten Nutzen, usw.: KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE E(ri ) 82 = ei1 + pi1 ai1 + (1 − pi1 ) (ei2 + pi2 ai2 + (1 − pi2 ) (ei3 + pi3 ai3 + ... (1 − pi,n−1 ) (ein + pin ain ) )) ! j−1 n X Y = (1 − pik ) (eij + pij aij ) j=1 (6.2) k=1 Unser Ziel ist es nun, die Vorschläge so anzuordnen, dass der erwartete Nutzen gemäß Gleichung 6.2 maximiert wird. Hierzu betrachten wir nun zwei aufeinander folgende Vorschläge cil und ci,l+1 ! j−1 n X Y E(ri ) = (1 − pik ) (eij + pij aij ) + tl,l+1 i k=1 j=1 l6=j6=l+1 wobei tl,l+1 i = (eil + pil ail ) l−1 Y (1 − pik ) + (ei,l+1 + pi,l+1 ai,l+1 ) k=1 l Y (1 − pik ) k=1 Analog bezeichne tl+1,l die entsprechende Teilsumme für die Anordnung < . . . , ci,l+1 , cil, , . . . >. Nun i berechnen wir die Differenz der erwarteten Kosten zwischen diesen alternativen Rangfolgen, wobei wir zur Vereinfachung der Rechnung die Differenz durch die Wahrscheinlichkeit dividieren, dass der Benutzer überhaupt bis zum ersten dieser beiden Vorschläge kommt: dl,l+1 i tl,l+1 − tl+1,l i i Ql−1 (1 − pik ) k=1 = eil + pil ail + (1 − pil )(ei,l+1 + pi,l+1 ai,l+1 ) − = (ei,l+1 + pi,l+1 ai,l+1 + (1 − pi,l+1 )(eil + pil ail )) = pi,l+1 (eil + pil ail ) − pil (ei,l+1 + pi,l+1 ai,l+1 ) ! ≥ 0 ergibt sich Um die Gesamtsumme zu maximieren, muss diese Differenz nicht-negativ sein: Aus dl,l+1 i ail + eil ei,l+1 ≥ ai,l+1 + pil pi,l+1 Mittels vollständiger Induktion kann man nun leicht zeigen, dass der Gesamtnutzen maximal ist, wenn diese Bedingung für alle Paare von aufeinander folgenden Vorschlägen erfüllt ist (ähnlich dem Sortierverfahren Bubble-Sort). Damit erhalten wir das probabilistische Ranking-Prinzip für Interaktives Information Retrieval : Ordne die Vorschläge nach fallenden Werten von %(cij ) = ail + eil /pil . Dieses Ranking-Kriterium unterscheidet sich von dem weiter oben betrachteten erwarteten Nutzen E(cij ) = pij aij + eij . Der Unterschied lässt sich an dem in Tabelle 6.3 dargestellten Beispiel mit zwei Vorschlägen verdeutlichen. Als Gesamtnutzen der beiden möglichen Listen erhalten wir E(< c1 , c2 >) = 4 + 0.5 · 3 = 5.5 bzw. E(< c2 , c1 >) = 3 + 0.75 · 4 = 6. Die Anordnung < c1 , c2 > nach fallendem Nutzen der einzelnen Vorschläge ist also schlechter als die durch das IPRP vorgeschriebene Reihung < c2 , c1 >. Abschließend wollen wir noch den Unterschied zwischen dem IPRP und dem klassischen PRP betrachten. Hierzu setzen wir die Kostenfaktoren des PRP in das IPRP ein: Sei eij = −C̄, C̄ > 0 und ail = C > 0. Damit erhalten wir C̄ C̄ C− ≥C− ⇒ pil ≥ pi,l+1 pil pi,l+1 KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE Vorschlag c1 c2 pij 0.5 0.25 aij 10 16 eij -1 -1 E(cij ) 4 3 83 %(cij ) 8 12 Tabelle 6.3: Beispiel zur optimalen Anordnung von Vorschlägen Somit liefert das IPRP für diesen Fall die Aussage, dass wir die Vorschläge nach fallender (Relevanz-) Wahrscheinlichkeit pil anordnen sollten – das klassisches PRP ist also weiterhin gültig. Unser IPRP stellt eine Verallgemeinerung des klassischen Modells dar, wo wir variierende Kosten/Nutzen aij und Aufwände eij pro Vorschlag haben, und den Tradeoff zwischen Aufwand und Nutzen berücksichtigen. Ferner betrachtet das IPRP die Liste nur bis zur ersten positiven Entscheidung (in diesem Fall das erste relevante Dokument). Dadurch sind wir in der Lage, Abhängigkeiten zwischen Dokumenten zu berücksichtigen (eine unserer Annahmen war ja, dass nur positive Entscheidungen dem Benutzer helfen). Schließlich lassen wir auch Änderungen des Informationsbedürfnisses nach jeder positiven Entscheidung zu. 6.2.4 Anwendungsmöglichkeiten Nach der Vorstellung des theoretischen Modells im vorigen Abschnitt diskutieren wir hier kurz Möglichkeiten zu dessen Anwendung. Das Modell setzt die Schätzung von drei verschiedenen Parametern für jede Wahlmöglichkeit voraus: 1. Die Auswahlwahrscheinlichkeit pij wird in vielen IR-Modellen (insbesondere den klassischen probabilistischen) betrachtet. Allerdings setzen diese Modelle fast alle ein statisches Informationsbedürfnis voraus, so dass es einen Bedarf an Modellen für dynamische Bedürfnisse gibt. 2. Die Aufwandsparameter eij sind bislang kaum in der Forschung betrachtet worden, daher gibt es hier den größten Forschungsbedarf. 3. Der Nutzen aij kann als eingesparter Aufwand berechnet werden. Im Folgenden stellen wir einen Ansatz zur Schätzung dieser drei Parameter vor. 6.2.5 Schätzung der IPRP-Parameter durch Eyetracking Für die nachfolgend beschriebenen Experimente wurde die in Abbildung 6.8 dargestellte Benutzerschnittstelle verwendet. Links oben haben wir das Anfrageformular, darunter die Ergebnisliste und rechts davon die Detailansicht eines aus dieser Liste ausgewählten Eintrags. Darüber befindet sich dann der sogenannte basket, in dem Benutzer relevante Dokumente aufsammeln können. Abbildung 6.8: Benutzerschnittstelle Die Benutzerexperimente wurden mit Hilfe eines Eyetrackers ausgewertet, der registriert, auf welchen Punkt des Bildschirms der Benutzer jeweils schaut. Zur Auswertung definiert man sogenannte areas of ” KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 84 interest“ (AOI), wobei wir hier zudem in der Lage sind, die Position der einzelnen Einträge der Ergebnisliste auch nach Scrolling korrekt zu ermitteln (siehe Abbildung 6.9). Die Sequenz der Blicke kann dann von der Auswertungssoftware wie in Abbildung 6.10 visualisiert werden; grau hinterlegt sind die jeweils sichtbaren AOIs, man erkennt die Veränderungen durch das Scrolling. Bei der Auswertung unterscheidet man zudem zwischen skimming und reading, wobei Untersuchungen gezeigt haben, dass Benutzer erst ab einer Blickdauer von 80ms den dargestellten Text auch lesen; nur diese Aktionen werden im Folgenden berücksichtigt. Abbildung 6.9: Areas of Interest für Eyetracking Abbildung 6.10: AOI-Sequenz für die Ergebnisliste An den konkreten Benutzerexperimente nahmen 12 Testpersonen teil, die Bücher zu vorgegebenen Themen im Amazon-Buchbestand suchen sollten. Jeder Benutzer musste je 15 Minuten an zwei verschiedenen Aufgaben arbeiten. Beim komplexen Task war es notwendig, zusätzlich die Benutzerreviews zu einem Buch zu anzuschauen, um die relevanten Dokumente zu bestimmen. Beim engen Task war hingegen KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 85 das Lesen der Abstracts zur Relevanzbeurteilung ausreichend. Die Benutzer sollten dann die aus ihrer Sicht relevanten Dokumente im basket“ platzieren. Die Untersuchungsergebnisse für die beiden Aufga” bentypen sind in Abbildung 6.11 als Markov-Modell dargestellt. Die Zeiten in den einzelnen Zuständen sind die durchschnittlichen Verweilzeiten für die betreffenden Aktivitäten, bei den Übergängen sind die Wahrscheinlichkeiten angegeben, mit denen die jeweilige Transition genommen wird. Narrow tasks Complex tasks Query 15 % 4,9 sec Query Basket 6% Basket 1,7 sec 5,4 sec 1,7 sec 5% 2% 21 % 24 % 100 % 100 % 3% 4% 85 % 94% 1% 1% Result Item 2,3 sec Detail 74 % Result Item 2,5 sec 15,3 sec 75 % Detail 9,8 sec 9% 87 % 83 % 12 % Abbildung 6.11: Markov-Modelle: komplexer vs. enger Task Aus diesen Diagrammen lassen sich die IPRP-Parameter Aufwand und Akzeptanzwahrscheinlichkeit direkt ablesen. Um den Nutzen als eingesparten Aufwand zu berechnen, betrachten wir die Zeit bis zum Finden des ersten relevanten Dokumentes (also die erwartete Zeit zum Erreichen des baskets), und wie sich diese durch eine Transition verändert. Hierzu bezeichnen tq , tr , td und tb den Aufwand in den vier Zuständen query, result list, detail und basket. Ferner sei pXY die Übergangswahrscheinlichkeit von Zustand X nach Zustand Y . Gesucht sind nun die erwarteten Zeiten Tq , Tr und Td zum Erreichen des baskets aus den drei anderen Zuständen. Diese lassen sich gemäß folgendem linearen Gleichungssystem berechnen: Tq = tq + pqr Tr Tr = tr + prq Tq + prr Tr + prd Td Td = td + pdq Tq + pdr Tr Die Ergebnisse zeigt die obere Hälfte von Tabelle 6.4. Tq Tr Td bq br bd complex 127.9 123.0 109.5 4.9 17.7 15.9 narrow 120.8 115.4 102.4 5.4 14.7 10.7 Tabelle 6.4: Erwartete Zeiten T zum Erreichen des baskets und erwartete Nutzen b Der Nutzen kann im Prinzip als Differenz zwischen den basket-Zeiten von Quelle und Ziel einer Transition berechnet werden. Allerdings müssen wir beachten, dass wir hier im Gegensatz zum einfachen IPRPModell nicht-binäre Auswahlmöglichkeiten haben: Bezeichne cij eine Auswahl mit mij Alternativen c0ijk , k = 1, . . . , mij , und seien a0ijk und qijk die zugehörigen Nutzenwerte bzw. Auswahlwahrscheinlichkeiten, wobei gelten muss KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE mij X qijk = 1 k=1 und mij X 86 qijk a0ijk = aij . k=1 Damit berechnet sich dann z.B. der erwartete Nutzen beim Betrachten eines Elements der Ergebnisliste im komplexen Task wie folgt: br = 0.03(Tq − Tr ) + 0.01(Tr − 0) + 0.09(Td − Tr ) = 17.7s 0.03 + 0.01 + 0.09 Die anderen Werte sind in der unteren Hälfte von Tabelle 6.4 zu sehen. 6.2.6 Zusammenfassung IPRP Ausgangspunkt für die Entwicklung des IPRP war die Überlegung, dass es heutigen IIR-Systemen an der theoretischen Fundierung fehlt. Das vorgeschlagenen Modell betrachtet interaktives IR als Folge von Entscheidungen. Hierzu wird dem Nutzer eine lineare Auswahlliste vorgelegt, wobei jede positive Entscheidung zu einer neuen Situation mit (möglicherweise) neuer Auswahlliste führt. Dadurch können einerseits Änderungen des Informationsbedürfnisses einfach berücksichtigt werden, andererseits macht das Modell keine Aussagen über Interaktionspfade, sondern beschränkt sich nur auf einzelne Situationen. Der Vergleich mit dem klassischen PRP hat gezeigt, dass das IPRP eine Generalisierung hiervon darstellt, indem zusätzliche Parameter eingeführt werden, die dem interaktiven IR besser Rechnung tragen. Die zugehörige Parameterschätzung kann durch Benutzerexperimente erfolgen, die zugehörige Forschung ist aber gerade erst am Anfang. 6.3 Diversity Ranking Ein gravierender Nachteil der bisher vorgestellten Retrievalmodelle (mit Ausnahme des IPRP) besteht darin, dass Abhängigkeiten zwischen Dokumenten nicht berücksichtigt werden — auch das klassische PRP ignoriert diese explizit. Daher wird seit einigen Jahren unter dem Schlagwort Diversitäts-Ranking“ ” versucht, solche Abhängigkeiten durch Betrachtung der Ähnlichkeit von Dokumenten zu modellieren. Der Retrievalwert eines Dokumentes berechnet sich dann nicht mehr allein aus dem Vergleich zwischen Frageund Dokumentbeschreibung, sondern es werden zusätzlich die Ähnlichkeiten des betrachteten Dokumentes mit allen schon ausgegebenen Dokumenten betrachtet. Dadurch versucht man insbesondere auch, möglichst viele verschiedene Aspekte einer Anfrage durch die obersten Antworten abzudecken: gibt ein Benutzer etwa den Namen eines Popstars ein, so kann er dessen neuestes Album kaufen wollen, sich das zugehörige Video anschauen wollen, Tickets für da nächste Konzert erwerben, den neuesten Klatsch erfahren wollen, oder sich gar nur allgemein über diese Person informieren wollen. Wir stellen im Folgenden zwei Ansätze zur Behandlung dieser Problematik vor. 6.3.1 Probabilistischer Ansatz Der probabilistischen Ansatz aus [Santos et al. 12] generiert zu einer Frage verschiedene Interpretationen mittels geeigneter Verfahren zur Frageexpansion (wie sie z.B. standardmäßig in Web-Suchmaschinen zur Generierung der vorgeschlagenen Frageergänzungen eingeseetzt werden); über diese interpretationen wird zusätzlich eine Wahrscheinlichkeitsverteilung angenommen. Bezeichne S = {d1 , . . . , dn } die Menge der Dokumente, die vor dem aktuell betrachteten Dokument d ausgegeben wurden, P (d|q) sei die Wahrscheinlichkeit dass d zu q beobachtet wird (oder die Ähnlichkeit des Dokumentes zur Anfrage), und P (d, S̄|q) die Wahrscheinlichkeit dass d, aber kein Dokument ausPS, beobachtet wurde. Sei nun Q = {q1 , . . . , qk } die Menge der (disjunkten) Aspekte zur Frage q, mit qi ∈Q P (qi |q) = 1. Hierzu bezeichne P (qi |q) die Popularität von qi bzgl. q (also der Anteil der Nutzer mit der Frage q, die an qi interessiert sind), und P (d|qi ) gibt die Abdeckung von qi durch d an. Ferner bezeichne P (S̄|qi ) die Neuigkeit von qi , d.h. die fehlende Abdeckung dieses Aspekts durch bisher ausgegebene Dokumente. Als Retrievalwert wollen wir nun die Wahrscheinlichkeit P (R|d, q) schätzen als Linearkombination aus der Ähnlichkeit des Dokumentes KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 87 zur Anfrage P (d|q) und der Neuigkeit des Dokumentes P (d, S̄|q), wobei der Parameter λ die Neuigkeit eines Dokumentes gewichtet. (Das Zeichen ∝ bedeutet ’ist proportional zu’.) P (R|d, q) ∝ (1 − λ)P (d|q) + λP (d, S̄|q) Letztere lässt sich nun wie folgt berechnen: P (d, S̄|q) = X P (qi |q)P (d, S̄|qi ) qi ∈Q P (d, S̄|qi ) = P (d|qi )P (S̄|qi ) Um den letzten Faktor zu schätzen, brauchen wir zusätzlich noch die Unabhängigkeitsannahme, dass die Relevanz eines Dokumentes zu einer Teilfrage qi unabhängig ist von der Relevanz anderer Dokumente zu qi : P (S̄|qi ) = P (d¯1 , . . . , d¯n−1 |qi ) Y = (1 − P (dj |qi )) dj ∈S Insgesamt ergibt sich damit folgende Retrievalfunktion: Y X P (qi |q)P (d|qi ) (1 − P (dj |qi )) P (R|d, q) ∝ (1 − λ)P (d|q) + λ qi ∈Q Java“ ” P (dj |q) P (qi |q) d1 d2 d3 d4 0.9 0.8 0.8 0.7 P (dj |qi ) Progspr. Insel Kaffee 0.7 0.2 0.1 0.9 0.8 0.8 0.6 0.6 dj ∈S P (R|dj , q) 0.495 0.680 0.480 0.365 Tabelle 6.5: Beispiel zu probabilistischem Diversity Ranking Wir illustrieren diese Formel an einem kleinen Beispiel: Nehmen wir an, die Anfrage laute Java“ und ” wir wissen nicht, ob der Benutzer nach der Programmiersprache, der Kaffeesorte oder der Insel sucht. Für die in Tabelle 6.5 dargestellten vier Beispieldokumente nehmen wir λ = 0.5 an. Die ersten drei Dokumente decken jeweils nur einen Aspekt der Anfrage ab, während d4 alle drei Aspekte behandelt und es daher Abhängigkeiten mit den übrigen Dokumenten gibt, so dass wir den Retrievalwert berechnen zu S = {d1 , d2 , d3 } ; P (R|d4 , q) = 0.5 · 0.7 + 0.5[0.2 · 0.6 · 0.2 + 0.1 · 0.6 · 0.1] = 0.362 6.3.2 Quantentheoretisches probabilistisches Ranking Ein weiterer Ansatz zur Behandlung von Diversität [Zuccon et al. 09] basiert auf quantentheoretischem probabilistischem Ranking [Rijsbergen 04]. Ausgangspunkt ist hier das in Abbildung 6.12 dargestellte Doppelspalt-Experiment aus der Physik. Hierbei emittiert die Quelle auf der linken Seite Elementarteilchen, die durch einen der beiden Spalte A und B zur Wand rechts gelangen können. Nun misst man die Wahrscheinlichkeitsverteilung pAB der eintreffenden Teilchen auf dieser Wand. In Abbildung 6.13 sind links die beiden Wahrscheinlichkeitsverteilungen dargestellt, die man für nur einen geöffneten Spalt erhält. Nach dem klassischen Modell würde sich dann für den Doppelspalt die in der Mitte dargestellte Summe der beiden Verteilungen ergeben. Tatsächlich beobachtet man aber die rechts gezeigte Verteilung, da es gemäß dem Welle-Teilchen-Dualismus zu Interferenzen kommt. Dieses Modell wird nun auf Dokumentenretrieval übertragen, um Interferenzen (Abhängigkeiten) zwischen Dokumenten berücksichtigen zu können (siehe Abbildung 6.14). Für Diversitäts-Ranking nehmen KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 88 Abbildung 6.12: Doppelspalt-Experiment in der Physik Abbildung 6.13: Überlagerung von Wahrscheinlichkeitsverteilungen beim Doppelschlitz-Experiment wir an, dass wir Dokument DA bereits gesehen haben und fragen uns nun, welches Dokument als nächstes ausgegeben werden sollte, um pdA dB zu maximieren (Abbildung 6.15). Wenn wir klassische (Kolmogorow-)Wahrscheinlichkeiten verwenden, so erhalten wir: arg max(pAB ) B∈B = arg max(p̂K AB ) = arg max(pA + pB ) = arg max(pB ) B∈B B∈B B∈B Es ergibt sich also das klassische PRP, wonach wir die Dokumente unabhängig von den bereits ausgegebenen betrachten können und dasjenige mit der höchsten Relevanzwahrscheinlichkeit ausgegeben sollen. Im Falle von Quanten-Wahrscheinlichkeiten müssen wir aber auch die Interferenzen zwischen den Dokumenten berücksichtigen: p̂Q AB arg max(pAB ) B∈B = pA + pB + IAB = arg max(p̂Q AB ) = arg max(pA + pB + IAB ) = arg max(pB + IAB ) B∈B B∈B B∈B KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE Abbildung 6.14: Doppelspalt zur Modellierung von Dokument-Interferenz 89 Abbildung 6.15: Mehrere Dokumente Daraus ergibt sich das Quantum Probability Ranking Principle (qPRP), das besagt, dass wir die Abhängigkeiten mit allen bereits ausgegebenen Dokumenten berücksichtigen müssen, wenn wir bestimmen wollen, welches Dokument als nächstes auszugeben ist: ! X arg max pdB + IdA dB dB ∈B dA ∈A Um den Interferenz-Term zu berechnen, braucht man Quanten-Wahrscheinlichkeitstheorie; in dieser wird ein Ereignis X anstelle eines skalaren Wertes durch eine komplexe Amplitude φ(X) beschrieben, und die zugehörige Wahrscheinlichkeit berechnet sich zu P (X) = |φ(X)|2 Ferner gilt für komplexe Zahlen, dass sich deren Quadrat als Produkt der Zahl mit ihrem konjugiert komplexen Wert ergibt: |z|2 = z z̄. Wenden wir diese Regeln nun zur Berechnung des Ereignisses an, dass die beiden Dokumente dA und dB betrachtet werden, so erhalten wir: φdA dB = φ(Relevanz|dA und dB werden betrachtet) = φ(Relevanz|nur dA betrachtet) + φ(Relevanz|nur dB betrachtet) = φdA + φdB Die zugehörige Wahrscheinlichkeit, dass beide Dokumente relevant sind, ergibt sich dann zu: p̂Q AB = |φdA dB |2 = φdA dB φ̄dA dB = |φdA |2 + |φdB |2 + φdA φ̄dB + φ̄dA φdB = P (R|q, dA ) + P (R|q, dB ) + IdA dB Hauptproblem ist nun die Schätzung des Interferenz-Terms: IdA dB = φdA φ̄dB + φ̄dA φdB p p = 2 · P (R|q, dA ) P (R|q, dB ) · cos θdA dB p p ≈ 2 · P (R|q, dA ) P (R|q, dB ) · βfsim (dA , dB ) Da man nur die Beträge, aber die Winkel der beiden Ereignisse φdA und φdB kennt, wenden wir die in der letzten Zeile gezeigte Näherung mittels einer Dokument-Ähnlichkeitsfunktion an. KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE 6.3.3 90 Experimentelle Ergebnisse: qPRP vs. IPRP In [Zuccon et al. 11] wurden das Quanten-PRP mit dem IPRP experimentell verglichen. Dabei wurde kein echtes interaktives Retrieval durchgeführt, aber die Dokument-Ähnlichkeiten berücksichtigt. Bei der Evaluierung wurde dann so vorgegangen, dass der Nutzen des nächsten Dokumentes von den bereits gesehenen abhängt. Als Bewertungsmaß wurde dabei α-NDCG nach 10 Dokumenten berechnet. Das IPRP wurde hierbei nicht strikt angewendet, sondern es wurde nur der erwarteten Nutzen E(cij ) = eij + pij aij betrachtet. Zusätzlich wurde angenommen, dass der Aufwand eij konstant ist. Die Auswahlwahrscheinlichkeit pij = R(R|q, dj ) ist hier gleich der Relevanzwahrscheinlichkeit; ferner bezeichne sim(d, d0 ) die Ähnlichkeit zwischen Dokumenten d und d0 . Das Ranking-Kriterium lautet dann P 0 d0 ∈RA (1 − sim(d, d )) ˆ d = arg max P (R|q, d) |RA| d∈RA / Tabelle 6.6 zeigt die zugehörigen α-NDCG@10 Werte für den Vergleich mit dem klassischen PRP sowie zwei anderen Ansätzen (MMR und MPT) aus der Literatur. TREC 6-8 PRP 0.426 Clueweb 0.097 MMR 0.457 (+7.28%) 0.137* (+41.2%) MPT 0.426 (0.00%) 0.151* (+55.7%) qPRP 0.433 (+1.6%) 0.144* (+48.5%) iPRP 0.461 (+8.2%) 0.132* (+36.18%) Tabelle 6.6: Experimenteller Vergleich zwischen klassischem PRP, qPRP und IPRP mit zwei anderen Ansätzen Kapitel 7 Interaktives Retrieval 7.1 Ebenen-Architektur von IR-Systemen Abbildung 7.1 stellt ein Ebenen-Modell für IR-Systeme dar, das das konzeptionelle Modell aus Kapitel 1 deutlich erweitert. Während letzteres sich i.w. auf die logische Ebene beschränkt, versuchen wir hier einen breiteren Ansatz: • Die physische Ebene eines IRS beschäftigt sich mit den verwendeten internen Speicherungsstrukturen und den zugehörige Algorithmen. • Die logische Ebene abstrahiert von den Speicherungsstrukturen und beschreibt die wesentliche Suchfunktionalität des Systems, so wie sie durch das zugrundeliegende IR-Modell definiert ist. Dieser Aspekt wird somit in den Kapiteln zu IR-Modellen diskutiert. • Auf der syntaktischen Ebene werden syntaktische Objekteigenschaften betrachtet (also z.B. Text als Zeichenkette, Bilder als Pixelmatrix, . . . ). Im Rahmen dieser Vorlesung haben wir insbesondere bei der Freitextsuche diese Sichtweise zugrundegelegt. • Die semantische Ebene beschäftigt sich mit den im Dokument dargestellten Objekten und den Beziehungen dazwischen – so wie wir das im Abschnitt über Dokumentationssprachen insbesondere bei den Ontologien kennen gelernt haben. (Computerlinguistische Methodenstellen eine Mischung aus syntaktischen und semantischen Verfahren dar.) • Die pragmatische Ebene fokussiert auf den Anwendungszweck, unter dem man ein Dokument betrachtet, was gerade bei der Beurteilung der Relevanz die zentrale Rolle spielt. • Die funktionale Ebene beschäftigt sich mit den vom System bereitgestellten Funktionen zur Informationsbeschaffung. Dieser Aspekt bildet den Schwerpunkt des vorliegenden Kapitels. Abbildung 7.1: Ebenen-Architektur von IR-Systemen 91 KAPITEL 7. INTERAKTIVES RETRIEVAL 92 • Die Benutzerschnittstelle wird im nächsten Kapitel ausführlich behandelt. In konkreten IRS sind in der Regel nicht alle Ebenen vorhanden. Dies hat zur Folge, dass der Benutzer einen Teil der Aufgaben übernehmen muss, die gemäß dieser Architektur eigentlich Teil des IRS sein müssten. Besonders deutlich ist dies an der fehlenden Unterstützung von Semantik und Pragmatik von Dokumenten, und wir werden in diesem Kapitel auch sehen, dass auf der funktionalen Ebene viele Tätigkeiten des Benutzers bei der Informationsbeschaffung gar nicht unterstützt werden. Eng damit zusammenhängend ist das Problem fehlender Trennung zwischen den verschiedenen Ebenen; so gibt es in IRS auch keine logische und physische Datenunabhängigkeit wie man sie von Datenbank-Managementsystemen her kennt – was die Integration dieser beiden Typen von Informationssystemen extrem erschwert. Der Rest dieses Kapitels beschäftigt sich ausschließlich mit der funktionalen Ebene. Neben einem besseren Verständnis für das Verhalten des Benutzers verfolgt man dabei das Ziel, darauf aufbauend bessere IRS zu bauen, die an die kognitiven Aktionen des Benutzers angepasst sind und diese möglichst gut unterstützen. 7.2 7.2.1 Information Seeking Behaviour Information Seeking Behaviour und Information Searching Um Benutzer bei ihrer Informationssuche besser zu unterstützen, braucht man ein (empirisch fundiertes) Modell des Benutzerverhaltens, das insbesondere auch dabei hilft, den Prozess der Informationssuche besser zu verstehen. Bisher haben wir in diesem Skript den Ansatz des klassischen Information Retrieval zugrundegelegt. Demnach beschäftigt sich Information Retrieval mit der Informationssuche in wenig strukturierten Datenbeständen (z.B. in Texten und Multimediadaten), wobei die Vagheit des Informationsbedürfnisses und die unsichere Repräsentation des Inhalts charakteristisch sind. Der generelle Ansatz war dabei primär systemorientiert (der Benutzer taucht quasi nur als Orakel auf, das Relevanzurteile generiert). Insbesondere sind wir von einem statischen Informationsbedürfnis ausgegangen (beim Relevance Feedback versucht das System die Fragebeschreibung bezüglich dieses statischen Bedürfnisses zu optimieren). Im Gegensatz dazu steht beim interaktiven Information Retrieval (IIR) die Interaktion des Benutzers mit dem Informationssystem im Vordergrund, wobei auch Änderungen des Informationsbedürfnisses berücksichtigt werden sollen. Im Bereich des IIR gibt es zwei unterschiedliche Betrachtungsweisen, nämlich das Information Seeking Behaviour und das Information Searching, die sich im Wesentlichen in der Breite ihrer Betrachtungsweise unterscheiden: Information Seeking Behaviour basiert auf einer breiteren Sicht auf die Informationssuche als inhaltsorientierte IR-Systeme; dabei werden Verhalten, Motivation und Vorgehen des Benutzers zur Befriedigung einer Aufgabe modelliert. Zentrale Fragen sind dabei Wodurch wird ein Informationsbedürfnis ausgelöst? und Wie verhalten wir Menschen uns daraufhin, um das Problem zu lösen? Information Searching fokussiert hingegen auf die Interaktion des Benutzers mit einer Informationsquelle; solche Quellen können neben klassischen IR-Systemen im Sinne einer Suchmaschine auch andere Quellen wie z.B. herkömmliche Bibliotheken oder Auflistungen (z.B. Inhaltsverzeichnisse von Zeitschriften oder Tagungen) und thematische Zusammenstellungen sein. 7.2.2 Ellis’ Behavioural Model of Information Seeking Strategies Als einen populären Ansatz zur Beschreibung von Information Seeking Strategies stellen wir hier das Modell von Ellis [Ellis 89] vor. Es handelt sich dabei um ein generelles Modell zur Beschreibung des Suchverhaltens, das auf empirischen Benutzerstudien in den Sozialwissenschaften und in Ingenieursfirmen basiert. Ellis unterscheidet dabei acht verschiedene Kategorien des Suchverhaltens, die wir im Folgenden näher beschreiben: Starting umfasst alle Aktivitäten zu Beginn der Suche, zum Beispiel die Auswahl der Informationsquelle, eine grobe Literatursuche oder die Befragung von Kollegen. Ziel ist es, einen ersten Überblick über die Literatur zu bekommen. KAPITEL 7. INTERAKTIVES RETRIEVAL 93 Abbildung 7.2: Phasenübergänge in Ellis’ Modell Chaining beschreibt die Verfolgung von aufeinander aufbauenden Informationen in beide Richtungen (ähnlich der Suche nach Referenzen aus der Literaturliste eines Artikels). Wichtige Faktoren für die Auswahl zu verfolgender Verknüpfungen sind dabei die topikalische Relevanz, der Autor, die Aktualität, die Zitierhäufigkeit sowie die Kosten und der Zeitbedarf für die Beschaffung des Volltextes. Primär geht es in dieser Phase um das Finden neuer Informationsquellen oder gar die Neuformulierung des Informationsbedürfnisses. Browsing basiert auf den ausgewählten Informationsquellen und den gefundenen Dokumenten. Dabei wird eine semi-zielorientierte Suche in erfolgversprechenden Bereichen durchgeführt. Hierzu gehören etwa das Verfolgen von Inhaltsverzeichnissen, Listen von Titeln, Überschriften, Namen von Organisationen und Personen, Web-Links, usw.. Browsing findet immer statt, wenn relevante Information zusammenhängend und zum Thema passend aufbereitet wird. Differentiating beschreibt die Beurteilung von Informationsquellen nach ihrer Art, Qualität, Wichtigkeit oder Brauchbarkeit. Dadurch wird eine Filterung der Information vorgenommen (z.B. Regierungsinformation vs. Information unabhängiger Gruppen, wissenschaftliche Artikel vs. populärwissenschaftliche Darstellung). Monitoring dient dazu, sich auf dem neuesten Wissensstand halten, indem man die Entwicklung in einem Gebiet verfolgt. Hierzu werden meist wenige ausgewählte Quellen betrachtet (z.B. bestimmte Magazine, Mailinglisten, aber auch persönliche Kontakte). Extracting dient der Identifizierung relevanten Materials, wobei es sich um Dokumente, neue Quellen oder auch einzelne Passagen eines Dokumentes handeln kann. In dieser Phase wird die Information durch Benutzer erfasst. Dabei spielt das Hintergrundwissen des Benutzers eine wichtige Rolle. Verifying beschreibt das Überprüfen der Information bzgl. Richtigkeit und Zuverlässigkeit. Ending stellt den Abschluss der Suche dar, wobei die gefundenen Informationen miteinander verknüpft werden. Die möglichen Übergänge zwischen den einzelnen Phasen sind in Abbildung 7.2 dargestellt. Suche ist somit kein rein sequentieller Prozess. Starting, Browsing, Chaining und Monitoring sind die eigentlichen Suchprozeduren, und Differentiating ist der daran anschließende Filterungsprozess. Ellis’ Studie wurde später von Meho & Tibbo [Meho & Tibbo 03] wiederholt und neu analysiert, insbesondere auch im Hinblick auf neue Technologien (zu Zeiten von Ellis’ Studie waren Volltexte i.d.R. noch nicht elektronisch verfügbar, sondern mussten gesondert beschafft werden). Die neue Studie lieferte eine grundsätzliche Bestätigung von Ellis’ Modell; allerdings ergänzten Meho & Tibbo das Modell um drei neue Kategorien: Accessing beschreibt den Zugriff auf die Volltexte (anstelle der von Ellis betrachteten Surrogate. Die Beschaffung der Inhalte kann dabei auf unterschiedlichem Wege erfolgen und mit variierenden Kosten verbunden sein. Networking steht für die persönliche Kommunikation mit verschiedenen Personen. Dabei steht die Diskussion und die Bewertung der gefundenen Information im Vordergrund. Information Managing umfasst die Tätigkeiten der Ablage, Speicherung und Organisation der gesammelten oder verwendeten Informationen. KAPITEL 7. INTERAKTIVES RETRIEVAL 94 Abbildung 7.3: Modell von Meho und Tibbo Abbildung 7.3 stellt das Modell grafisch dar, wobei die direkte Verfügbarkeit bzw. Nicht-Verfügbarkeit von Quellen die Abläufe wesentlich bestimmt. Auf der Grundlage eines solchen Modells für das information search behavior kann man nun bessere Informationssysteme bauen, die alle Phasen und auch die Übergänge des Modells angemessen unterstützen. 7.3 Information Searching Wir betrachten nun Modelle für das Information Searching, die sich also auf die Interaktion des Benutzers mit dem Informationssystem beschränken und alle weiteren Aktivitäten im Rahmen der Informationsbeschaffung und des Informationsmanagements außer Acht lassen. 7.3.1 Einfache Modelle für den Suchprozess Das klassische Modell für den Suchprozess ist in Abbildung 7.4 dargestellt. Es geht von einem statischen Informationsbedürfnis aus und nimmt an, dass der Benutzer seine Anfrage solange verbessert, bis er eine zufriedenstellende Antwortmenge gefunden hat. Empirische Studien haben aber gezeigt, dass die Voraussetzungen dieses Modells falsch sind, insbesondere, da das Informationsbedürfnis eben nicht statisch ist. Tatsächlich besteht eine Informationssuche aus einer Folge von zusammenhängenden, aber unterschiedlichen Suchen, wo jedes Suchergebnis weitere Suchen triggert. Einzig der Aufgabenkontext bleibt der Gleiche. Die Hauptaufgabe der Suche ist somit akkumuliertes Lernen und das Sammeln neuer Information während der Suche. Ein Modell, das diesen Erkenntnissen Rechnung trägt, ist das in Abbildung 7.5 dargestellte Berrypicking-Modell von Bates [Bates 89]. Ein Informationssuchender verhält sich demnach wie ein Beerensucher im Wald, der einzelne Sträucher aberntet und dann Ausschau nach dem nächsten Strauch mit vielen Früchten hält, wobei der Weg im Zickzack verläuft und nur die grobe Richtung gleich bleibt. Analog nimmt das Berrypicking-Modell eine kontinuierliche Verschiebung von Informationsbedürfnis und Anfragen während der Suche an, da das Informationsbedürfnis nicht durch eine einzige Antwortmenge befriedigt KAPITEL 7. INTERAKTIVES RETRIEVAL 95 Abbildung 7.4: Klassisches Modell für den Suchprozess Abbildung 7.5: Berrypicking-Modell: T – Auswahl von Termen, Qi – neue Anfrage werden kann. Stattdessen besteht die Suche aus einer Folge von Selektionen und dem Aufsammeln von Informationsbrocken. 7.3.2 Belkins Episodic Interaction Model Als erstes etwas komplexeres Modell betrachten wir nun Belkins Episodic Interaction Model. Dieses Modell basiert auf der von Belkin [Belkin et al. 82] formulierten ASK-Hypothese: Klassische Suchsysteme basieren auf dem best-match“-Prinzip. Ein optimales IR-System (so wie wir das z.B. beim Probability Ranking ” Principle kennengelernt haben) liefert Dokumente zurück, die am besten zu einer Repräsentation des Informationsbedürfnisses (z.B. einer Anfrage) passen. Diese Vorgehensweise beruht auf der Annahme, dass KAPITEL 7. INTERAKTIVES RETRIEVAL 96 der Benutzer das Informationsbedürfnis exakt spezifizieren kann. Belkin argumentiert hingegen, dass ein Informationssuchender sich in einem Anomalous State of Knowledge (ASK) befindet: Ein Informationsbedürfnis entsteht durch eine Anomalie im Wissenszustand (state of knowledge) des Benutzers, der wiederum das Informationsbedürfnis zur Beseitigung der Anomalie nicht oder nur unzureichend spezifizieren kann. Daher ist es besser, anstelle einer Spezifikation des Informationsbedürfnisses den ASK möglichst gut zu beschreiben. Hierzu ist die Erfassung kognitiver und situationsbedingter Aspekte nötig, um die vorhandene Anomalie aufzulösen. Abbildung 7.6: Episodic Interaction Model Als einen möglichen Ansatz zur Erforschung und Überwindung des ASK hat Belkin das Episodic Interaction Model [Belkin 96] vorgeschlagen. Dieses Modell versucht, zwischen den verschiedenen Prozessen/Phasen im Suchverhalten (so wie sie z.B. von Ellis, Meho und Tibbo für die Kernphase der Suche beschrieben wurden) zu differenzieren. Belkin betrachtet die Benutzerinteraktion mit dem IR-System als Sequenz verschiedener Interaktionen innerhalb einer Episode der Informationssuche. Dabei durchläuft der Benutzer unterschiedliche Formen der Interaktion und Suchstrategien, abhängig von Faktoren wie Aufgabe, Ziele und Absichten, Suchhistorie, Arten von Informationsobjekten sowie nicht erfassbaren anderen Faktoren (siehe Abbildung 7.6). Hierzu müssen die von einem IR-System angebotenen Interaktionsformen eine Reihe von Aktivitäten unterstützen, wie z.B. Suchen, Browsen, Interpretation, Modifikation und die Beurteilung von Information. Ein gutes IR-System sollte daher eine entsprechende Nutzerschnittstelle anbieten. Zur Illustration gibt Belkin folgende Beispielepisode an: Ein Benutzer erinnert sich an ein Buch an einer bestimmten Stelle in der Bibliothek. Das IR-System erlaubt nun, eine bestimmte Region virtuell abzusuchen. Der Benutzer entdeckt dabei ein anderes interessantes Buch und möchte nun ähnliche Bücher finden, weiß aber nicht, wie dies erreicht werden kann. Das System bietet die hierzu möglichen Vorgehensweisen an, aus denen der Benutzer die Anzeige des Inhaltsverzeichnisses wählt. Der Benutzer findet dort einen relevanten Suchbegriff und weist das System an, nach diesem Begriff zu suchen. Das System führt nun die Suche durch und zeigt zum Suchbegriff gefundene Dokumente an. 7.3.3 Ingwersens Cognitive Model In eine etwas andere Richtung zielt Ingwersens Cognitive Model [Ingwersen 92], das eine globale Perspektive einnimmt. Das Modell umfasst alle beeinflussenden Faktoren, mit denen der Benutzer interagiert. Hierzu gehören soziales Umfeld, IR-System, Informationsobjekte, Benutzerschnittstelle sowie der Benutzer selbst. Das Modell befasst sich mit den kognitiven Strukturen, also den Manifestationen der menschlichen KAPITEL 7. INTERAKTIVES RETRIEVAL 97 Abbildung 7.7: Ingwersens Cognitive Model Kognition, von Reflexionen oder Ideen. Abbildung 7.7 zeigt das Modell: Im Mittelpunkt steht das kognitive Modell des Benutzers, der sich wiederum in einem sozialen bzw. organisatorischen Umfeld bewegt, das die Domäne, die Strategien und Ziele, die Aufgaben und Präferenzen beeinflusst. Der Benutzer formuliert nun ein Informationsbedürfnis (request), das in eine systemgerechte Anfrage (query) überführt werden muss. Die Interpretation dieser Anfrage wird durch die Einstellungen des IR-Systems (wie z.B. die Anfragesprache und die eingesetzten IR-Techniken, die Struktur der Datenbasis, die Indexierungsregeln und das zugrundeliegende IR-Modell) definiert. Informationsobjekte werden dann in Abhängigkeit von der zugrundeliegenden Wissensrepräsentation gefunden. Eine mögliche Strategie zur Unterstützung dieses kognitiven Modells ist das gleichfalls von Ingwersen formulierte Prinzip der Polyrepräsentation [Ingwersen 94]. Dabei wird ein Informationsobjekt in verschiedenen Formen repräsentiert. Die verwendeten Repräsentationen sollten dabei mit den kognitiven Strukturen korrelieren. Beim klassischen Dokumentenretrieval kann ein Dokument z.B. repräsentiert werden durch seinen Titel, Schlagwörter, externe Annotationen sowie andere Dokumente, die es zitieren. Ein anschauliches Beispiel ist der Amazon Bookstore, wo ein Dokument in der Ergebnisliste durch bibliografische Angaben und ein Miniaturbild des Buchumschlags repräsentiert wird, in den Details ferner durch Inhaltsangaben, Benutzerreviews sowie Verweisen auf ähnliche Bücher. Ein Retrievalsystem sollte somit mehrere Repräsentationen (und daher möglichst viele kognitive Strukturen) unterstützen, wodurch eine intentionale Redundanz erreicht wird. Der Benutzer erzielt ein gutes Suchergebnis, wenn viele Repräsentationen zum selben Dokument zeigen. Als Weiterentwicklung des Modells setzt man Polyrepräsentation nicht nur für die Dokumente, sondern auch für den kognitiven Raum des Benutzers ein. Im einfachsten Fall kann man z.B. ein Informationsbedürfnis mittels verschiedener Anfragen repräsentieren. Wesentlich anspruchsvoller ist die Repräsentation der aktuellen Aufgabe des Benutzers (was eine Suche auf der pragmatischen Ebene ermöglicht). Diesen KAPITEL 7. INTERAKTIVES RETRIEVAL 98 Abbildung 7.8: Globales Modell der Polyrepräsentation Ansatz findet man häufig in Handbüchern (z.B. Wie installiere ich einen Drucker? Wie erstelle ich ein Inhaltsverzeichnis? ). Abbildung 7.8 illustriert das zugehörige umfassende Modell: Der Benutzer hat eine aktuelle Aufgabe oder ein Interesse, befindet sich in einen bestimmten kognitiven Status und bewegt sich innerhalb des von ihm wahrgenommenen Problemraums, aus dem dann ein konkretes Informationsbedürfnis resultiert. Zur Repräsentation dieser Situation wird nun nicht nur eine Anfrage formuliert, sondern zusätzlich wird das zugrundeliegende Problem sowie die aktuelle Aufgabe repräsentiert. Analog erstellt das IR-System für die Informationsobjekte si verschiedene interne Repräsentationen rj , aus denen Repräsentationen qk für Anfragen, pl für Problembeschreibungen sowie wm für Aufgaben erstellt werden, die dann mit den konkreten Bedürfnissen des Benutzers abgeglichen werden. 7.3.4 Marchioninis Suchaktivitäten In [Marchionini 95] hat Marchionini eine Taxonomie für Suchaktivitäten innerhalb einer Website vorgestellt, die in Abbildung 7.9 illustriert ist. Im Folgenden charakterisieren wir kurz die wichtigsten dieser Aktivitäten. Suchmodus: Lookup Locate Finde ein spezifisches (mglw. bekanntes) Objekt Verify Bestätigung, dass ein Objekt bestimmte objektive Kriterien erfüllt Monitor Den Status eines Objektes laufend beobachten, zum Zwecke der Verwaltung oder der Überwachung Suchmodus: Learn Compare Ähnlichkeiten und Unterschiede innerhalb einer Menge von Objekten identifizieren Comprehend Neue Einsichten gewinnen, indem die Muster in einem Datenbestand erkannt werden Explore Ein Objekt oder einen Datensatz untersuchen zum Zwecke der Wissensentdeckung Suchmodus: Investigate Analyze Ein Objekt oder einen Datensatz untersuchen, um Muster und Beziehungen zu erkennen Evaluate Den Wert eines Objektes im Hinblick auf ein bestimmtes Ziel beurteilen Synthesize Ein neues oder zusammengesetztes Artefakt aus verschiedenen Quellen generieren Der größte Teil dieser Suchmodi lässt sich durch passende Design-Muster bei der Gestaltung der Benutzerschnittstelle unterstützen, wie in den nachfolgenden Abbildungen gezeigt wird. KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.9: Marchioninis Suchaktivitäten Abbildung 7.10: Locating: Autocomplete 99 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.11: Locating: Partial Matches Abbildung 7.12: Verifying: Instant Results 100 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.13: Verifying: Detail Overlay Abbildung 7.14: Comparing: Parallel Views Abbildung 7.15: Exploring: Autosuggest 101 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.16: Exploring: faceted search Abbildung 7.17: Exploring: faceted search 102 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.18: Comprehending: facet menus Abbildung 7.19: Analyzing: alternate views 103 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.20: Analyzing: data visualization 104 KAPITEL 7. INTERAKTIVES RETRIEVAL 7.3.5 105 Klassifikation von Web-Suchaktivitäten [Broder 02] unterteilt Web-Suchaktivitäten in drei Gruppen: informationell zur Suche nach Information navigierend zur Navigation nach einer bestimmten (i.d.R. bekannten) Webseite transaktionell zur Durchführung einer Transaktion (Online-Banking, Online-Shopping) In [Russell et al. 09] wird dieses Schema wie folgt verfeinert: Navigate: query(ies) leading to a site at which the main task can be performed. Navigation queries are often the names of destination sites, or terms that are heavily suggestive of the target site. Example: find Apple’s Quicktime web page. Find-Simple: searching for an evident piece of information that does not require multiple sources of information. Example: find the local YMCA phone number. Find-Complex: searching for information that requires searches on very closely related topics to integrate information across resources; often marked by a sequence of searches to find information that is coordinated. Example: search for a way to knit winter socks that uses a search for sock patterns and knitting instructions Locate/Acquire : the searcher is looking to download something, purchase an item, obtain a good or service. Example: find tickets to the game. Explore/Learn : searches that are intended to discover something or learn about a topic area. Example: finding out how to raft on the Grand Canyon, information about the tourist season, local flora and fauna. Play: activity where the searches are intended to find games, fun content or items for amusement. Example: finding sites to play online computer games; celebrity searches, etc. Meta: search tasks that are to test some capability. Example: testing a web site’s capabilities. Solche Klassifikationen werden von den Internet-Suchmaschinen benutzt, um Anfragen automatisch einzuordnen und dann je nach Klasse unterschiedlich zu behandeln. So würde eine navigierende Anfrage in der Regel auf die Homepage einer Website führen, während eine informationelle Seiten liefert, die die Antwort beinhalten, und eine transaktionale sollte die Web-Seite mit dem entsprechenden Formular finden. 7.3.6 Klassifikation von Suchaktivitäten nach Belkin Eine andere Herangehensweise zur Entwicklung benutzerfreundlicher IR-Systeme basiert auf der Klassifikation von Suchaktivitäten. Die Grundidee ist dabei, dass das Benutzerinterface an die Art der Suchaktivität angepasst sein muss (etwa im Gegensatz zu Web-Suchmaschinen, die nur eine Standardschnittstelle anbieten). Dazu wird in [Cool & Belkin 02] folgendes facettierte Schema vorgeschlagen: • Zugriff: – Methode: Scannen . . . Suchen – Modus: Erkennen . . . Spezifikation • Objekte, mit denen interagiert wird – Ebene: Information . . . Meta-Information – Medium: Text, Bilder, Sprache, Video, . . . – Quantität: 1 Objekt, Menge von Objekten, Datenbasis • Gemeinsame Dimensionen der Interaktion – Informationsobjekte: Teile . . . vollständige Objekte – Systematik: zufällig . . . systematisch – Grad: selektiv . . . erschöpfend • Interaktionskriterien (z.B. Genauigkeit, Autorität, Datum, Person) Insbesondere wird hier beim Zugriff zwischen Modus und Methode unterschieden. Der Modus gibt dabei an, ob der Benutzer das gesuchte Objekt spezifizieren kann, oder ob er es nur erkennen kann, wenn er es sieht. Die Methode beschreibt hingegen die Art der Interaktion: Nach einem spezifizierten Objekt kann nicht immer gesucht werden, manchmal muss der Benutzer auch eine größere Menge von Objekten scannen (z.B. ein IR-Buch mit einem blauen Einband oder ein IR-Buch mit einen indischem Coautor ). Würde die Amazon-Ergebnisliste etwa keine Miniaturbilder enthalten, so würde die erste Anfrage extrem umständlich zu bearbeiten sein – eine Farbsuche würde hingegen das Scannen ersparen. Somit sollte das ideale IR-System alle Suchaktivitäten des Klassifikationsschemas angemessen unterstützen. KAPITEL 7. INTERAKTIVES RETRIEVAL 7.4 106 Strategische Unterstützung Nachdem im vorigen Abschnitt verschiedene generelle Ansätze für die Modellierung und Gestaltung der Informationssuche vorgestellt wurden, betrachten wir nun einige Verfahren, die dem Benutzer helfen sollen, seine Suche voranzutreiben. Wie wir in 7.2.1 schon diskutiert haben, findet die Suche nach Information in verschiedenen, aufeinander folgenden Phasen statt, wobei jede Phase angemessen durch das System unterstützt werden sollte. Von zentraler Bedeutung ist dabei, welche Interaktionsmöglichkeiten dem Benutzer hierfür zur Verfügung gestellt werden. Wegweisend in diesem Bereich sind die Arbeiten von Marcia Bates zur strategischen Unterstützung und zur Integration der genannten Modelle; diese Ideen stellen wir in den nächsten Abschnitten vor. 7.4.1 Suchaktivitäten Bates hat basierend auf der Beobachtung professioneller Rechercheure eine Taxonomie für Suchaktivitäten entwickelt [Bates 90], wo vier Abstraktionsebenen unterschieden werden: Move beschreibt eine elementare Aktion oder einen identifizierbaren Gedanken. Hierzu gehören typischerweise die meisten Kommandos, die heutzutage von IR-System unterstützt werden, wie das Hinzufügen eines Suchbegriffs, das Anschauen eines Treffers oder das Verfolgen eines Verweises. Taktik ist eine zielorientierte Aktion zur Verbesserung des Suchergebnisses und umfasst in der Regel mehrere Moves. Beispiele wären etwa die Auswahl von Synonymen zur Erweiterung der Suchanfrage bei zu wenigen Ergebnissen, eine Einengung durch speziellere Begriffe bei zu vielen Antworten oder die Suche nach ähnlichen Dokumenten zu einem gefundenen. Strategem ( Kriegslist“) umfasst mehrere Taktiken, um Informationsstrukturen in einer Domäne aus” zunutzen. Beispiele sind das Navigieren in den Inhaltsverzeichnissen einer Zeitschrift, das Verfolgen von Referenzen und Fußnoten in einer Zitationsdatenbank, aber auch eine inhaltsorientierte Suche durch eine Folge von Anfragen. Strategie ist ein umfassender Plan zur Befriedigung eines Informationsbedürfnisses. Ein solcher Plan enthält Moves, Taktiken und Strategeme. Einfaches Beispiel wäre die Suche nach Literatur zu einem Seminarthema, bei dem man mit einer inhaltsorientierten Suche beginnt, die häufigsten Autoren und Konferenzen im Suchergebnis bestimmt und dann nach weiteren Artikeln dieser Autoren sucht sowie die Inhaltsverzeichnisse der entsprechenden Konferenzen durchschaut. Bates’ empirische Studien erfolgten mit IR-Systemen, deren Funktionalität im Wesentlichen auf Moves beschränkt war – alle höheren Aktivitäten mussten durch die Benutzer realisiert werden. Bei den Taktiken unterscheidet Bates folgende Gruppen: Monitoring ”Tactics to keep the search on track and efficient” Strukturelle Taktiken auf der Menge der potenziellen Antworten Suchformulierung verbreitern/einengen, viele/wenige Terme Term-Taktiken Auswahl/Variation der Suchterme Ideen-Taktiken offene Suchmöglichkeiten/Variation Die einzelnen Taktiken sind nachfolgend aufgelistet. 7.4.1.1 Monitoring Tactics CHECK To review the original request and compare it to the current search topic to see that it is the same. WEIGH To make a cost-benefit assessment, at one or more points of the search, of current or anticipated actions. PATTERN To make oneself aware of a search pattern, examine it, and redesign it if not maximally efficient or if out of date CORRECT To watch for and correct spelling and factual errors in one’s search topic. RECORD To keep track of followed and of desirable trails not followed or not completed. KAPITEL 7. INTERAKTIVES RETRIEVAL 107 BIBBLE To look for a bibliography already prepared, before launching oneself into the effect of preparing one; more generally, to check to see if the search work one plans has already been done in a usable form by someone else. SELECT To break down complex search queries into subproblems and work on one problem at a time. SURVEY To review, at each decision point of the search, the available options before selection. CUT When selecting among several ways to search a given query, to choose the option that cuts out the largest part of the search domain at once . STRETCH To use a source for other than is intended purposes. SCAFFOLD To design an auxiliary, indirect route through the information files and resources to reach the desired information. CLEAVE To employ binary searching in locating an item in an ordered file. 7.4.1.2 Search Formulation Tactics SPECIFY To search on terms that are as specific as the information desired EXHAUST To include most or all elements of the query in the initial search formulation; to add one or more of the query elements to an already-prepared search formulation. REDUCE To minimize the number of the elements of the query in the initial search formulation; to subtract one or more of the query elements from an already-prepared search formulation. PARALLEL To make the search formulation broad (or broader) by including synonyms or otherwise conceptually parallel terms. PINPOINT To make the search formulation precise by minimizing (or reducing) the number of parallel terms, retaining the more perfectly descriptive terms. BLOCK] To reject, in the search formulation, items containing or indexed by certain term(s), even if it means losing some document sections of relevance 7.4.1.3 Term Tactics SUPER To move upward hierarchically to a broader (superordinate) term. SUB To move downward hierarchically to a more specific (subordinate) term. RELATE To move sideways hierarchically to a coordinate term. TRACE To examine information already found in the search in order to find additional terms to be used in furthering the search. VARY To alter or substitute one’s search terms in any of several ways. See remaining term tactics for some specific variations. REARRANGE To reverse or rearrange the words in search terms in any or reasonable orders. CONTRARY To search for the term logically opposite that describing the desired information. RESPELL To search under a different spelling. RESPACE To try spacing variants NEIGHBOR To seek additional search terms by looking at neighboring terms, whether proximate alphabetically, by subject similarity, or otherwise. FIX To try alternative affixes, whether prefixes, suffixes, or infixes. 7.4.1.4 Idea Tactics RESCUE In an otherwise unproductive approach, to check for possible productive paths still untried. BREACH To breach the boundaries of one’s region of search, to revise one’s concept of the limits of the intellectual or physical territory in which one searches to respond to a query. FOCUS To look at the query more narrowly, in one or both of two senses: (1) to move from the whole query to a part of it or (2) to move from a broader to a narrower conceptualization of the query. KAPITEL 7. INTERAKTIVES RETRIEVAL 7.4.1.5 108 Taktiken für spezifische Suchsituationen Die vorgenannten Taktiken können insbesondere in den nachfolgend skizzierten Situationen sinnvoll eingesetzt werden: Too many hits SPECIFY EXHAUST PINPOINT BLOCK SUB Too few hits NEIGHBOR TRACE PARALLEL FIX SUPER RELATE VARY No hits RESPACE RESPELL REARRANGE CONTRARY SUPER RELATE NEIGHBOR TRACE Need other terms or wrong terms NEIGHBOR TRACE SUPER SUB RELATE Revise terms SPACE RESPELL FIX REVERSE CONTRARY SUPER SUB RELATE Revise search formulation SPECIFY EXHAUST REDUCE PARALLEL PINPOINT BLOCK 7.4.1.6 Strategeme Beispiele für Strategeme sind die folgenden: Subject Search Journal Run Having identified a journal central to one’s topic of interest, one reads or browses through issues or volumes of the journal. Citation Search Using a citation index or database, one starts with a citation and determines what other works have cited it. Area Scan After locating a subject area of interest in a classification scheme, one browses materials in the same general area. Footnote Chase One follows up footnotes or references, moving backward in time to other related materials. 7.4.2 Ebenen der Suchunterstützung Generell stellt sich die Frage, in welcher Form ein System die Suchaktivitäten unterstützt. Hierfür hat Bates die in Tabelle 7.1 aufgelisteten Ebenen unterschieden. Für die sinnvollen Kombinationen von Suchaktivitäten und deren Unterstützung hat Bates die in Abbildung 7.21 dargestellte Vorgehensweise vorgeschlagen. Demnach sollte sinnvollerweise mit den Taktiken begonnen werden und später auch Strategeme und Strategien realisiert werden (z.B. könnte ein System für Standardprobleme fertige Strategien bereitstellen – etwa für die “known item search”). Wie wir im nächsten Abschnitt sehen werden, konzentriert sich die aktuelle Forschung auf die proaktive Unterstützung von Taktiken. Ebene 0 Name Kein System 1 Möglichkeiten auflisten Aktionen auf Kommando Überwachen, Vorschläge 2 3 a b 4 Autom. Ausführung a b Eigenschaft Reine Benutzerebene; keine Vorschläge/Aktionen vom System (Handbuch) Vorschläge von Möglichkeiten auf Anfrage; keine Durchführung (passiv, kontextfreie Hilfe) Kann Aktionen ausführen; kein Analysieren der Suche (kontextbezogene Hilfe) Überwachen, Analysieren einer Suche, Vorschläge machen - auf Benutzeranfrage - bei Entdecken (proaktiv) Automatisches Ausführen einer Aktion - Information an den Benutzer - Keine Information Tabelle 7.1: Ebenen der Systemunterstützung nach Bates KAPITEL 7. INTERAKTIVES RETRIEVAL 109 Abbildung 7.21: Matrix aus Systemunterstützung und Suchaktivität 7.4.3 Proaktivität in IR-Systemen In diesem Abschnitt stellen wir einige Ansätze zur proaktiven Unterstützung von Taktiken und Strategemen vor. Die meisten dieser Beispiele beziehen sich auf das in Abbildung 7.22 dargestellte System http://www.daffodil.de1 , einem System zur parallelen Suche in mehreren angeschlossenen digitalen Bibliotheken. Die Benutzerschnittstelle ist als Desktop gestaltet, auf dem eine Reihe von Werkzeugen angeboten werden. Neben dem Suchfenster mit zugehöriger Ergebnisliste links sieht man rechts unten die Detailansicht eines gefundenen Dokumentes sowie darüber eine persönliche Handbibliothek, in der der Benutzer gefundene Dokumente ablegen kann. Daneben bietet Daffodil noch einige spezielle Werkzeuge an, wie z.B. die Extraktion von Autorennamen oder Termen aus der Ergebnisliste (siehe das Fenster ganz rechts unten), die Anzeige der Suchhistorie, sowie das Blättern in einem Thesaurus oder in Inhaltsverzeichnissen von Zeitschriften und Konferenzen. Beispiele für einfache proaktive Taktiken in Daffodil sind die in Abbildung 7.23 dargestellte Rechtschreibkorrektur sowie die Anzeige verwandter Suchbegriffe (Abbildung 7.24). Beide Funktionen finden sich in ähnlicher Form mittlerweile bei den meisten Web-Suchmaschinen, wie etwa die Anzeige verwandter Begriffe bei Yahoo! (Abbildung 7.25). Zu dieser Thematik hat unsere Forschungsgruppe [Schaefer et al. 05] vor einigen Jahren eine UsabilityStudie mit dem Daffodil-System durchgeführt, an dem 30 Personen teilnahmen. Der Fokus lag dabei auf der Anfrageformulierung. Wenn keine Unterstützung der oben gezeigten Art angeboten wurde, dann zeigte sich, dass die Benutzer in dieser Phase der Suche stark verunsichert sind, sie geben die gleiche Anfrage mehrfach ein und starren häufig auf die Tastatur; ferner ignorieren sie Hinweise, die an anderer Stelle auf dem Bildschirm auftauchen. Wenn dagegen die gezeigten proaktiven Funktionen aktiviert wurden, machten Benutzer weniger syntaktische und semantische Fehler, sie trafen bessere taktische Entscheidungen, und sie fühlten sich insgesamt sicherer. Eine zweite Studie [Kriewel & Fuhr 10] beschäftigte sich mit der Unterstützung bei der Fortführung der Suche (wenn der Benutzer also schon ein Suchergebnis hat). Hierzu analysierte das System den gegenwärtigen Stand der Suche und wählte dann durch case-based reasoning (Suche in einer Fall-Datenbasis nach ähnlichen Fällen) unter 30 vorgegebenen Taktiken und Strategemen aus. Die Verfügbarkeit der Vorschläge wird durch einen Knopf am unteren Ende der Ergebnisliste angezeigt, wie in Abbildung 7.26 zu sehen ist. Wenn dieser gedrückt wird, erscheint die in Abbildung 7.27 gezeigte Rangliste von Vorschlägen. Jeder Vorschlag enthält einen beschreibenden Titel, Erklärung und Abschätzung der Erfolgsaussichten. Ferner zeigen Icons den Status des Vorschlags an (direkt ausführbar, benutzt, nützlich). Der Benutzer kann einen oder mehrere Vorschläge ausführen und diese anschließend bewerten. Die Evaluierung wurde mit 24 Testpersonen durchgeführt, die jeweils drei Aufgaben zu bearbeiten hatten. Dabei stand 12 Benutzern die Vorschlagsfunktion zur Verfügung, den anderen dagegen nicht. Die 1 Daffodil KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.22: Daffodil-Desktop Abbildung 7.23: Daffodil: Rechtschreibkorrektur 110 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.24: Daffodil: verwandte Suchbegriffe Abbildung 7.25: Yahoo!: verwandte Suchbegriffe Abbildung 7.26: Hinweis auf verfügbare Vorschläge 111 KAPITEL 7. INTERAKTIVES RETRIEVAL 112 Abbildung 7.27: Daffodil: Vorschläge zur Fortsetzung der Suche Auswertung zeigte, dass die unterstützten Benutzer nicht nur mit dem Verlauf der Suche, sondern auch mit dem Ergebnis zufriedener sind und zudem signifikant mehr relevante Dokumente finden. Während sich die nicht unterstützten Benutzer im Wesentlichen auf das Reformulieren der Anfragen beschränkten, nutzten die anderen signifikant häufiger die weiteren Möglichkeiten des Systems; dies war selbst dann der Fall, als für die dritte Aufgabe die Unterstützungsfunktion abgeschaltet wurde. 7.5 Gestaltung von Anfrageschnittstellen Basierend auf den in diesem Kapitel vorgestellten Modellen lassen sich einige Regeln für die Gestaltung von Anfrageschnittstellen ableiten. die wir im Folgenden kurz vorstellen. Dabei unterscheiden wir zwischen der reinen Sitzungsunterstützung (die sich schon in Dialogsystemen aus den 1970ern fand, aber heute bei vielen Systemen fehlt) und fortgeschrittenen Funktionen, bei denen wir die Modelle von Ellis, Meho und Tibbo zugrunde legen 7.5.1 Sitzungsunterstützung Wenn ein Informationsbedürfnis nicht mit einer Anfrage befriedigt werden kann (wie das teilweise bei Web-Suchen der Fall ist), dann sollte das System Funktionen zur Verfügung stellen, um solche Sitzungen zu unterstützen (z.B. im Sinne des Berrypicking-Modells von Bates). Hierzu gehören folgende Funktionen: • Ergebnisse zusammen mit der Anfrage anzeigen • Editieren der alten Anfrage • Anzeige der Suchhistorie • Kombination von Anfragen • Speicherung einzelner Ergebnisse • Speicherung von Sitzungen Schon gegen die ersten beiden Regeln verstoßen viele Suchmaschinen (z.B. bei manchen Online-Shops). Die Anzeige der Suchhistorie wird spätestens dann notwendig, wenn der Benutzer nicht bis zur dritten Anfrage sein Ziel erreicht hat – hier bieten dann selbst die populären Web-Suchmaschinen keine Unterstützung. Die Kombination von Anfragen ist eine Funktion, die i.d.R. nur von Benutzern mit einer gewissen Suchkompetenz benötigt wird. Hingegen wird die Speicherung einzelner Ergebnisse immer dann benötigt, wenn mehr als ein einziges Antwortdokument gefragt ist – das Fehlen dieser Funktion bei WebSuchmaschinen deutet wohl darauf hin, dass das Gros der Benutzer mit einer einzigen guten Antwort zufrieden ist. Das Speichern von Sitzungen wird nur dann benötigt, wenn man umfangreichere Recherchen durchführen will oder dieselbe Anfrage in periodischen Abständen stellen will (→ Monitoring). KAPITEL 7. INTERAKTIVES RETRIEVAL 7.5.2 113 Unterstützung des Suchverhaltens nach Ellis/Meho/Tibbo Abbildung 7.28: Starting: Resource Selection Abbildung 7.29: Starting: Search term suggestion Abbildung 7.30: Starting: Related Terms Starting In dieser Phase sollte zum einen die Auswahl der zu durchsuchenden Ressourcen unterstützt werden (Abb. 7.28), zum anderen Hilfe bei der Formulierung der Anfrage angeboten werden. Zu letzterem gehören die Vervollständigung einzelner Suchterme oder der ganzen Anfrage (wie z.B. in den Toolbars der Web-Suchmaschinen) sowie die Anzeige verwandter Suchbegriffe (siehe Abb. 7.29– 7.30 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.31: Browsing: Highlighting in der Ergebnisliste Abbildung 7.32: Browsing: Sortieren/Gruppieren nach verschiedenen Kriterien 114 KAPITEL 7. INTERAKTIVES RETRIEVAL 115 Abbildung 7.33: Browsing: Aussagekräftige Surrogate Browsing Zur Unterstützung des Browsing sollte das System das Highlighting der Suchbegriffe in der Ergebnisliste unterstützen (Abb. 7.31), ebenso wie alternativ das Hervorheben weiterer Terme (analog zur Strg+F-Funktion vieler Webbrowser). Ferner sollte des möglich sein, die Ergebnismenge verschiedenen Kriterien zu sortieren oder zu gruppieren (Abb. 7.32), wobei in jedem Fall aussagekräftige Surrogate angeboten werden sollten (Abb. 7.33). Abbildung 7.34: Chaining: Klickbare Einträge in Antworten Chaining Hierzu gehört zunächst das Anbieten von Verweisen zu möglichst vielen Einträgen eines Dokumentes (etwa Autorenname und -institution, Zeitschriften(-heft), Schlagwörter, siehe Abb. 7.34). Neben dem Verfolgen von Links in der vorgegebenen Richtung sollte insbesondere auch das Forward Chaining (Wer verweist auf diese Web-Seite? Wer hat diesen Artikel zitiert? ), unterstützt werden (Abb. 7.35–7.36). Fortgeschrittenen Funktionen aus diesem Bereich sind die Ähnlichkeitssuche für ein vorgegebenes Dokument oder die Extraktion von Termen, Autoren, Zeitschriften, Konferenzen etc. aus der Ergebnisliste (Abb. 7.37–7.38). Monitoring Speicherung und periodische Ausführung von Anfragen wird nur von wenigen Systemen angeboten (Abb. 7.39–7.40). Differentiating Der Vergleich von Ergebnisseiten (durch parallele Anzeige sowie Hervorheben der Unterschiede) kann diese Funktion unterstützen (Abb. 7.41). KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.35: Chaining: Rückwärts Abbildung 7.36: Backward Chaining bei der Websuche 116 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.37: Chaining: Ähnliche Dokumente Abbildung 7.38: Chaining: Identifikation wichtiger Autoren 117 KAPITEL 7. INTERAKTIVES RETRIEVAL Abbildung 7.39: Monitoring: Saved Searches“ bei PubMed ” Abbildung 7.40: Monitoring: Watchthatpage.com 118 KAPITEL 7. INTERAKTIVES RETRIEVAL 119 Abbildung 7.41: Differentiating: Vergleich von Ergebnisseiten Extracting Hierzu sollte die Suche in der Ergebnisseite (mit Hervorheben der Treffer) möglich sein (Abb. 7.41–7.43). Abbildung 7.42: Extracting: Highlighting in Ergebnisseiten Abbildung 7.43: Extracting: Suche in der Ergebnisseite KAPITEL 7. INTERAKTIVES RETRIEVAL 120 Abbildung 7.44: Information management: Ordnen und Annotieren der Ergebnisse Abbildung 7.45: Information management: Handbibliothek in Daffodil Information Management Das Ablegen gefundener Dokumente in verschiedenen Ordnern (collate) sollte ebenso möglich sein wie auch die anschließende Annotation der Ergebnisse (sowohl out-of-line als auch inline) (Abb. 7.44–7.45). KAPITEL 7. INTERAKTIVES RETRIEVAL 7.6 121 Zusammenfassung zu kognitiven Modellen Ausgangspunkt dieses Kapitels war die Unterscheidung zwischen dem umfassenderen Information Seeking Behavior und dem auf die Interaktion mit dem IR-System bezogenen Information Searching. Wir haben hierzu eine Reihe von kognitiven Modellen kennengelernt. Gerade die Modelle zum Information Seeking Behavior sollten als Grundlage genommen werden, um neue Systeme zu entwickeln, die alle Phasen der Informationsbeschaffung zu unterstützen. Die Information-Searching-Modelle tragen insbesondere dem iterativen Charakter der Suche und der Vielfalt der Suchaufgaben Rechnung und versuchen, die zahlreichen Einflussfaktoren mit zu berücksichtigen. Gerade letzteres ist sicher wichtig, um weitere Qualitätsverbesserungen zu erreichen: Je mehr das System über den Benutzer und seine aktuelle Situation weiß, umso besser kann es seine Fragen beantworten. Als erste Ansätze zu besseren Systemen haben wir ostensive Retrieval, strategische Unterstützung durch höhere Suchfunktionen sowie die proaktive Unterstützung kennengelernt. Literaturverzeichnis Azzopardi, L.; Kazai, G.; Robertson, S. E.; Rüger, S. M.; Shokouhi, M.; Song, D.; Yilmaz, E. (Hrsg.) (2009). Advances in Information Retrieval Theory, Second International Conference on the Theory of Information Retrieval, ICTIR 2009, Cambridge, UK, September 10-12, 2009, Proceedings, Band 5766 von Lecture Notes in Computer Science. Springer. Bandura, A. (1997). Self-efficacy: The exercise of control. W. H. Freedman and Company, New York. Bates, M. J. (1979). Information Search tactics. Journal of the American Society for Information Science 30(4), S. 205–214. Bates, M. J. (1989). The design of browsing and berrypicking techniques for the online search interface. Online Review 13(5), S. 407–424. http://www.gseis.ucla.edu/faculty/bates/berrypicking.html. Bates, M. J. (1990). Where Should the Person Stop and the Information Search Interface Start? Information Processing and Management 26(5), S. 575–591. Belkin, N. (1996). Intelligent information retrieval: Whose intelligence? In: ISI ’96: Proceedings of the Fifth International Symposium for Information Science, S. 25–31. Universitätsverlag Konstanz. Belkin, N.; Oddy, R.; Brooks, H. (1982). ASK for Information Retrieval: Part I. Background and Theory. The Journal of Documentation 38(2), S. pp. 61–71. Bookstein, A. (1985). Probability and Fuzzy-Set Applications to Information Retrieval. Annual Review of Information Science and Technology 20, S. 117–151. Broder, A. (2002). A taxonomy of web search. SIGIR Forum 36(2), S. 3–10. Burkart, M. (1990). Dokumentationssprachen. In: Grundlagen der praktischen Information und Dokumentation, S. 143–182. K.G. Saur, München et al. Charniak, E.; Hendrickson, C.; Jacobson, N.; Perkowitz, N. (1993). Equations for Part-of-speech Tagging. In: Proceedings of the Elenth National Conference on Artificial Intelligence, S. 784–789. Morgan Kaufman, Menlo Park, CA. Clarke, C. L. A.; Kolla, M.; Vechtomova, O. (2009). An Effectiveness Measure for Ambiguous and Underspecified Queries. In [Azzopardi et al. 09], S. 188–199. Cleverdon, C. W. (1991). The Significance of the Cranfield Tests on Index Languages. In: Proceedings of the Fourteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, S. 3–11. ACM, New York. Cool, C.; Belkin, N. J. (2002). A Classification of Interactions with Information. In: Bruce, H.; Fidel, R.; Ingwersen, P.; Vakkari, P. (Hrsg.): Emerging frameworks and methods. Proceedings of the Fourth International Conference on Conceptions of Library and Information Science (COLIS4), S. 1– 15. Libraries Unlimited, Greenwood Village. Cooper, W. S. (1991). Some Inconsistencies and Misnomers in Probabilistic IR. In: Proceedings of the Fourteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, S. 57–61. ACM, New York. Croft, W. B.; Harper, D.; Kraft, D. H.; Zobel, J. (Hrsg.) (2001). Proceedings of the 24th Annual International Conference on Research and development in Information Retrieval, New York. ACM. Ellis, D. (1989). A behavioural approach to information retrieval system design. Journal of Documentation 45(3), S. 171–212. 122 LITERATURVERZEICHNIS 123 Fuhr, N. (1992). Probabilistic Models in Information Retrieval. The Computer Journal 35(3), S. 243–255. Fuhr, N. (2008). A Probability Ranking Principle for Interactive Information Retrieval. Information Retrieval 11(3), S. 251–265. http://dx.doi.org/10.1007/s10791-008-9045-0. Greene, B. B.; Rubin, G. M. (1971). Automatic Grammatical Tagging of English. Technical report, Brown University, Providence, RI. Harman, D. (1995). Overview of the Second Text Retrieval Conference (TREC-2). Information Processing and Management 31(03), S. 271–290. Hiemstra, D. (1998). A Linguistically Motivated Probabilistic Model of Information Retrieval. In: Lecture Notes In Computer Science - Research and Advanced Technology for Digital Libraries - Proceedings of the second European Conference on Research and Advanced Technology for Digital Libraries: ECDL’98, S. 569–584. Springer Verlag. Ingwersen, P. (1992). Information Retrieval Interaction. Taylor Graham, London. Ingwersen, P. (1994). Polyrepresentation of Information Needs and Semantic Entities, Elements of a Cognitive Theory for Information Retrieval Interaction. In: Croft, B. W.; van Rijsbergen, C. J. (Hrsg.): Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, S. 101–111. Springer-Verlag, London, et al. Ingwerswen, P. (2001). Users in context. Lectures on information retrieval 1980, S. 157–178. Järvelin, K.; Kekäläinen, J. (2002). Cumulated gain-based evaluation of IR techniques. ACM Trans. Inf. Syst. 20(4), S. 422–446. Joachims, T. (2001). The Maximum-Margin Approach to Learning Text Classifiers. Methods, Theory, and Algorithms. PhD thesis, Fachbereich Informatik, Universität Dortmund. Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. Krause, J. (1992). Intelligentes Information Retrieval. Rückblick, Bestandsaufnahme und Realisierungschancen. In: Experimentelles und praktisches Information Retrieval, S. 35–58. Universitätsverlag Konstanz, Konstanz. Kriewel, S.; Fuhr, N. (2010). An evaluation of an adaptive search suggestion system. In: 32nd European Conference on Information Retrieval Research (ECIR 2010), S. 544–555. Springer. Kuhlen, R. (1977). Experimentelle Morphologie in der Informationswissenschaft. Verlag Dokumentation, München. Kuhlen, R. (1990). Zum Stand pragmatischer Forschung in der Informationswissenschaft. In: Pragmatische Aspekte beim Entwurf und Betrieb von Informationssystemen. Proceedings des 1. Internationalen Symposiums für Informationswissenschaft, S. 13–18. Universitätsverlag Konstanz, Konstanz. Kuhlen, R. (1991). Zur Theorie informationeller Mehrwerte. In: Wissensbasierte Informationssysteme und Informationsmanagement, S. 26–39. Universitätsverlag Konstanz. Lee, J. H.; Kim, W. Y.; Kim, M. H.; Lee, Y. J. (1993). On the Evaluation of Boolean Operators in the Extended Boolean Retrieval Framework. In: Proceedings of the Sixteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, S. 291–297. ACM, New York. Marchionini, G. (1995). Information seeking in electronic environments. Cambridge University Press, New York, NY, USA. Maron, M. E.; Kuhns, J. L. (1960). On Relevance, Probabilistic Indexing, and Information Retrieval. Journal of the ACM 7, S. 216–244. Meho, L. I.; Tibbo, H. R. (2003). Modeling the information-seeking behavior of social scientists: Ellis’s study revisited. Journal of the American Society for Information Science and Technology 54(6), S. 570–587. Ponte, J. M.; Croft, W. B. (1998). A Language Modeling Approach to Information Retrieval. In: Croft, W. B.; Moffat, A.; van Rijsbergen, C. J.; Wilkinson, R.; Zobel, J. (Hrsg.): Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, S. 275–281. ACM, New York. LITERATURVERZEICHNIS 124 Raghavan, V. V.; Wong, S. K. M. (1986). A Critical Analysis of Vector Space Model for Information Retrieval. Journal of the American Society for Information Science 37(5), S. 279–287. van Rijsbergen, C. J. (2004). The Geometry of Information Retrieval. Cambridge University Press, New York, NY, USA. Robertson, S. E. (1977). The Probability Ranking Principle in IR. Journal of Documentation 33, S. 294–304. Robertson, S. E.; Walker, S.; Jones, S.; Hancock-Beaulieu, M. M. (1995). Okapi at TREC-3. In: Proceedings of the 3rd Text Retrieval Converence (TREC-3), S. 109–126. NTIS, Springfield, Virginia, USA. Rocchio, J. J. (1966). Document Retrieval Systems - Optimization and Evaluation. Report ISR-10 to the NSF, Computation Laboratory, Harvard University. Russell, D. M.; Tang, D.; Kellar, M.; Jeffries, R. (2009). Task Behaviors During Web Search: The Difficulty of Assigning Labels. In: HICSS, S. 1–5. IEEE Computer Society. Salton, G.; Buckley, C. (1988). Term Weighting Approaches in Automatic Text Retrieval. Information Processing and Management 24(5), S. 513–523. Salton, G.; Buckley, C. (1990). Improving Retrieval Performance by Relevance Feedback. Journal of the American Society for Information Science 41(4), S. 288–297. Salton, G.; McGill, M. J. (1983). Introduction to Modern Information Retrieval. McGraw-Hill, New York. Salton, G. (Hrsg.) (1971). The SMART Retrieval System - Experiments in Automatic Document Processing. Prentice Hall, Englewood, Cliffs, New Jersey. Salton, G. (1986). Another Look at Automatic Text-Retrieval Systems. Communications of the ACM 29(7), S. 648–656. Salton, G.; Fox, E.; Wu, H. (1983). Extended Boolean Information Retrieval. Communications of the ACM 26, S. 1022–1036. Santos, R.; Macdonald, C.; Ounis, I. (2012). On the role of novelty for search result diversification. Information Retrieval 15(5), S. 478–502. Schaefer, A.; Jordan, M.; Klas, C.-P.; Fuhr, N. (2005). Active Support For Query Formulation in Virtual Digital Libraries: A case study with DAFFODIL. In: Rauber, A.; Christodoulakis, C.; Tjoa, A. M. (Hrsg.): Research and Advanced Technology for Digital Libraries. Proc. European Conference on Digital Libraries (ECDL 2005), Lecture Notes in Computer Science. Springer, Heidelberg et al. Shneiderman, B. (1998). Designing the user interface. Addison-Wesley. Turpin, A. H.; Hersh, W. (2001). Why batch and user evaluations do not give the same results. In [Croft et al. 01], S. 225–231. Verhoeff, J.; Goffmann, W.; Belzer, J. (1961). Inefficiency of the Use of Boolean Functions for Information Retrieval Systems. Communications of the ACM 4, S. 557–558. Voorhees, E.; Harman, D. (2000). Overview of the Eighth Text REtrieval Conference (TREC-8). In: The Eighth Text REtrieval Conference (TREC-8), S. 1–24. NIST, Gaithersburg, MD, USA. Wong, S. K. M.; Ziarko, W.; Raghavan, V. V.; Wong, P. C. N. (1987). On Modeling of Information Retrieval Concepts in Vector Spaces. ACM Transactions on Database Systems 12(2), S. 299–321. Zadeh, L. A. (1965). Fuzzy Sets. Information and Control 8, S. 338–353. Zhai, C.; Lafferty, J. (2001). A Study of Smoothing Methods for Language Models Applied to Ad Hoc Information Retrieval. In [Croft et al. 01]. Zimmermann, H. (1991). Ein Verfahren zur automatischen Trunkierung beim Zugang zu textbezogenen Informationsbanken. In: Wissensbasierte Informationssysteme und Informationsmanagement, S. 125– 144. Universitätsverlag Konstanz. Zuccon, G.; Azzopardi, L.; van Rijsbergen, K. (2009). The Quantum Probability Ranking Principle for Information Retrieval. In [Azzopardi et al. 09], S. 232–240. Zuccon, G.; Azzopardi, L.; van Rijsbergen, C. J. (2011). The interactive PRP for diversifying document rankings. In: Ma, W.-Y.; Nie, J.-Y.; Baeza-Yates, R. A.; Chua, T.-S.; Croft, W. B. (Hrsg.): SIGIR, S. 1227–1228. ACM.