Internet-Suchmaschinen Skriptum zur Vorlesung im SS

Transcription

Internet-Suchmaschinen Skriptum zur Vorlesung im SS
Internet-Suchmaschinen
Skriptum zur Vorlesung im SS 2013
Norbert Fuhr
22. Juli 2013
Inhaltsverzeichnis
1 Einführung
1.1 Internet-Suche . . . . . . . . . . . . .
1.1.1 Suchqualität . . . . . . . . . .
1.2 Informationskompetenz . . . . . . . .
1.3 Suchkompetenz . . . . . . . . . . . . .
1.4 Information Retrieval . . . . . . . . .
1.4.1 Was ist Information Retrieval?
1.5 Daten – Information – Wissen . . . . .
1.6 Rahmenarchitektur für IR-Systeme . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
. 4
. 4
. 5
. 6
. 9
. 9
. 10
. 11
2 Wissensrepräsentation für Texte
2.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Freitextsuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Informatischer Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Computerlinguistischer Ansatz . . . . . . . . . . . . . . . . . . . . . . .
2.3 Semantische Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Allgemeine Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Klassifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.3 Thesauri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.4 Ontologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.5 Tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.6 Dokumentationssprachen vs. Freitext . . . . . . . . . . . . . . . . . . . .
2.4 Beurteilung der Verfahren zur Repräsentation von Textinhalten . . . . . . . . .
2.5 Zusammenhang zwischen Modellen und Repräsentationen . . . . . . . . . . . .
2.5.1 Textrepräsentation für IR-Modelle . . . . . . . . . . . . . . . . . . . . .
2.5.2 Repräsentationen und Beschreibungen für einfache statistische Modelle .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
13
15
16
22
22
22
27
32
35
37
37
38
38
38
3 Nicht-probabilistische IR-Modelle
3.1 Notationen . . . . . . . . . . . . . . . . . . . . . .
3.2 Überblick über die Modelle . . . . . . . . . . . . .
3.3 Boolesches Retrieval . . . . . . . . . . . . . . . . .
3.3.1 Mächtigkeit der booleschen Anfragesprache
3.3.2 Nachteile des booleschen Retrieval . . . . .
3.4 Fuzzy-Retrieval . . . . . . . . . . . . . . . . . . . .
3.4.1 Beurteilung des Fuzzy-Retrieval . . . . . . .
3.5 Das Vektorraummodell . . . . . . . . . . . . . . . .
3.5.1 Coordination Level Match . . . . . . . . . .
3.5.2 Dokumentindexierung . . . . . . . . . . . .
3.5.3 Relevance Feedback . . . . . . . . . . . . .
3.5.4 Beurteilung des VRM . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
40
40
41
41
42
43
43
44
44
45
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INHALTSVERZEICHNIS
4 Probabilistische IR-Modelle
4.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Das Binary-Independence-Retrieval-Modell . . . . . . .
4.2.1 Herleitung . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Parameterschätzung . . . . . . . . . . . . . . . .
4.2.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . .
4.3 BM25 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Statistische Sprachmodelle . . . . . . . . . . . . . . . . .
4.4.1 Sprachmodell von Zhai und Lafferty . . . . . . .
4.4.2 Ähnlichkeit von Wahrscheinlichkeitsverteilungen
4.5 Das Probabilistische Ranking-Prinzip . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
49
49
51
51
52
53
53
55
55
5 Evaluierung
5.1 Evaluierungskriterien . . . . . . . . . . . . . . . . . . . . .
5.2 Relevanz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Distributionen . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Standpunkte und Bewertungsmaße . . . . . . . . . . . . .
5.4.1 Benutzerstandpunkte . . . . . . . . . . . . . . . .
5.4.2 Benutzer- vs. Systemstandpunkte . . . . . . . . . .
5.5 Maße für Ergebnismengen . . . . . . . . . . . . . . . . . .
5.5.1 Recall, Precision und Fallout . . . . . . . . . . . .
5.5.2 Distributionen, Transformationen und Präferenzen
5.5.3 Anwendung von Retrievalmaßen . . . . . . . . . .
5.5.4 Recall-Abschätzung . . . . . . . . . . . . . . . . .
5.5.5 Frageweise Vergleiche . . . . . . . . . . . . . . . .
5.5.6 Mittelwertbildung . . . . . . . . . . . . . . . . . .
5.6 Rangordnungen . . . . . . . . . . . . . . . . . . . . . . . .
5.6.1 Abbruchverhalten von Nutzern . . . . . . . . . . .
5.6.2 Cumulated Gain . . . . . . . . . . . . . . . . . . .
5.6.3 Evaluierung von Diversity-Ranking . . . . . . . . .
5.7 Evaluierung von interaktivem Retrieval . . . . . . . . . .
5.7.1 Batch- vs. interaktives Retrieval . . . . . . . . . .
5.7.2 Suchaufgaben . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
58
58
59
59
60
60
60
60
61
62
62
63
65
66
69
69
71
71
71
72
6 Neuere Probabilistische Modelle
6.1 Learning to Rank . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Parameter-Lernen im IR . . . . . . . . . . . . . . . .
6.1.2 Learning-to-rank-Ansätze . . . . . . . . . . . . . . .
6.1.3 Regression mit minimalem quadratischem Fehler . .
6.1.4 Quadratmittelpolynome . . . . . . . . . . . . . . . .
6.1.5 IR-Modelle vs. Learning to Rank . . . . . . . . . . .
6.2 IPRP: Probabilistisches Ranking-Prinzip für Interaktives IR
6.2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . .
6.2.2 Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.3 Das Modell . . . . . . . . . . . . . . . . . . . . . . .
6.2.4 Anwendungsmöglichkeiten . . . . . . . . . . . . . . .
6.2.5 Schätzung der IPRP-Parameter durch Eyetracking .
6.2.6 Zusammenfassung IPRP . . . . . . . . . . . . . . . .
6.3 Diversity Ranking . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 Probabilistischer Ansatz . . . . . . . . . . . . . . . .
6.3.2 Quantentheoretisches probabilistisches Ranking . . .
6.3.3 Experimentelle Ergebnisse: qPRP vs. IPRP . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
74
74
74
76
77
78
79
80
80
80
81
83
83
86
86
86
87
90
INHALTSVERZEICHNIS
7 Interaktives Retrieval
7.1 Ebenen-Architektur von IR-Systemen . . . . . . . . . . . . . . . .
7.2 Information Seeking . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Information Seeking Behaviour und Information Searching .
7.2.2 Ellis’ Behavioural Model of Information Seeking Strategies
7.3 Information Searching . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Einfache Modelle für den Suchprozess . . . . . . . . . . . .
7.3.2 Belkins Episodic Interaction Model . . . . . . . . . . . . . .
7.3.3 Ingwersens Cognitive Model . . . . . . . . . . . . . . . . . .
7.3.4 Marchioninis Suchaktivitäten . . . . . . . . . . . . . . . . .
7.3.5 Klassifikation von Web-Suchaktivitäten . . . . . . . . . . .
7.3.6 Klassifikation von Suchaktivitäten nach Belkin . . . . . . .
7.4 Strategische Unterstützung . . . . . . . . . . . . . . . . . . . . . .
7.4.1 Suchaktivitäten . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.2 Ebenen der Suchunterstützung . . . . . . . . . . . . . . . .
7.4.3 Proaktivität in IR-Systemen . . . . . . . . . . . . . . . . . .
7.5 Gestaltung von Anfrageschnittstellen . . . . . . . . . . . . . . . . .
7.5.1 Sitzungsunterstützung . . . . . . . . . . . . . . . . . . . . .
7.5.2 Unterstützung des Suchverhaltens nach Ellis/Meho/Tibbo .
7.6 Zusammenfassung zu kognitiven Modellen . . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
92
92
92
94
94
95
96
98
105
105
106
106
108
109
112
112
113
121
Kapitel 1
Einführung
1.1
Internet-Suche
Internet-Suche ist eine Funktion, die heute von vielen Menschen täglich genutzt wird. Das populärste
Beispiel ist die Web-Suche, bei der Google und Bing heute in der westlichen Welt quasi unsere Sicht auf
das Web diktieren. Daneben gibt es aber auch eine Reihe anderer Web-basierter Anwendungen, bei denen
die Suche eine große Rolle spielt. Dies ist neben der Intranet-Suche (organisationsinterne Variante der WebSuche) zum Beispiel die Produktsuche in Internet-Shops, die Suche in Online-Publikationen (wie z.B. im
Internet-Angebot von Zeitungen oder anderen Medienunternehmen), die für die Wissenschaft bedeutsame
Suche in Digitale Bibliotheken oder auch die Suche in multimedialen Datenbeständen wie z.B. in Bild-,
Video- oder Musikdatenbanken.
Die verschiedenen Arten der Suche lassen sich u.a. durch folgende Facetten charakterisieren:
Sprache: Neben der monolingualen Suche kann man auch cross-linguale Anwendungen betrachten wie
etwa bei Google Translate1 , oder es sind sogar multilinguale Suchen möglich (noch im Forschungsstadium).
Struktur: Werden Dokumente meist als atomare Einheiten betrachtet, so geht man bei der Literatursuche üblicherweise von einer Feldstruktur aus, um zwischen Titel, Autoren und Kurzfassung zu
unterscheiden. Daneben berücksichtigt die Web-Suche teilweise die Graph-Struktur der Verlinkung,
und bei der Suche in XML-Dokumenten geht man üblicherweise von einer baumartigen Struktur aus.
Medien: IR-Methoden lassen sich nicht nur auf Text anwenden, sondern auch auf Fakten, auf Bilder
(Gazopa2 ), Audiodaten wie Sprache oder Musik (Shazam3 ), auf Videos oder 3D-Daten usw.
Objekte: Es gibt spezialisierte Suchmaschinen, die nach bestimmten Objekttypen suchen, wie z.B. die
zahlreichen Buch-Suchmaschinen, nach Personen (123people4 , Yasni5 ) oder Firmen (Firmenfinden6 ).
Statische/dynamische Inhalte: Während die meisten Suchmaschinen von statischen Inhalten ausgehen
(die gleichwohl in regelmäßigen Intervallen aktualisiert werden können), gibt es auch Anwendungsbereiche, wo man von einem stetigen Strom neuer Dokumente ausgeht, wie z.B. bei Nachrichten
(news.google.de7 ) oder Twitter-Meldungen (search.twitter.com8 ).
1.1.1
Suchqualität
Ein wichtiges Kriterium bei der Auswahl eines Dienstes ist für die Benutzer die Suchqualität. Wir werden
dieses Thema später noch ausführlicher behandeln, daher sollen hier nur die Grundbegriffe eingeführt
werden.
1 http://translate.google.de
2 http://www.gazopa.com
3 http://www.shazam.com
4 http://www.123people.de
5 http://www.yasni.de
6 http://www.firmenfinden.de
7 http://news.google.de
8 http://search.twitter.com
4
KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG
5
Grundsätzlich gehen wir hier davon aus, dass der Benutzer nach relevanten Dokumenten zu seiner
Anfrage sucht, und dass er sich einen bestimmten Teil der Ergebnisrangliste anschaut (z.B. die ersten zehn
Antworten), den wir hier ’Menge der gefundenen Dokumente’ nennen und mit GEF bezeichnen. Ferner
sei REL die Menge der relevanten Objekte in der Datenbank und ALL die Gesamtzahl der Dokumente in
der Datenbank.
Basierend auf diesen Mengen lassen sich dann die Maße Precision und Recall wie folgt definieren:
Precision:
p :=
|REL ∩ GEF |
|GEF |
Recall:
r :=
|REL ∩ GEF |
|REL|
Precision gibt den Anteil der relevanten an den gefundenen Dokumenten wieder. Recall dagegen bezeichnet den Anteil der relevanten Dokumente, die tatsächlich gefunden wurden.
Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur
aktuellen Anfrage enthält. Ein System liefert 10 Dokumente, von denen 8 relevant sind. Dann erhält man
folgende Werte:
p
=
r
=
8
|REL ∩ GEF |
=
= 0.8
|GEF |
10
|REL ∩ GEF |
8
=
= 0.4
|REL|
20
Bei der Web-Suche selbst ist häufig nur die Precision von Interesse, deren Wert ein Benutzer auch unmittelbar erkennen kann. Recall dagegen ist schwieriger abzuschätzen, da die Menge aller relevanten Antworten
meist nicht bekannt ist. Bei spezifischen Suchaufgaben spielt der Recall aber eine wichtige Rolle, etwa bei
der Suche nach dem günstigsten Angebot oder dem nächstgelegenen Anbieter für ein Produkt oder eine
Dienstleistung. Wir werden später einige Methoden kennenlernen, wie man den Recall abschätzen kann.
1.2
Informationskompetenz
Um Informationsangebote sinnvoll nutzen zu können, ist eine entsprechende Informationskompetenz unabdingbar. Zwar ist der Zugriff auf das WWW heute zwar schon für Grundschulkinder eine Selbstverständlichkeit, aber es ist offensichtlich, dass sie aufgrund fehlender Kompetenzen nur einen sehr kleinen Teil des
Informationsangebotes sinnvoll nutzen können. Wie wir nachfolgend zeigen werden, verfügen aber selbst
Akademiker in der Regel über eine eingeschränkte Informationskompetenz (zumindest was den Teilaspekt
der Suchkompetenz angeht).
Generell wird Information bzw. Wissen als Entscheidungsgrundlage benötigt. Wie aber schon von Bandura [Bandura 97] bemerkt wird People’s actions are based more on what they believe than on what is
”
objectively true“. In dem populärwissenschaftlichen Buch des Wirtschaftsnobelpreisträgers David Kahneman [Kahneman 11] wird dieses Phänomen als What you see is all there is (WYSIATI)“ bezeichnet, d.h.
”
wir neigen dazu, Entscheidungen allein aufgrund der vorhandenen Information zu fällen, ohne uns darüber
klar zu werden, dass diese unzureichend ist. Demgemäß bezeichnet Informationskompetenz die Fähigkeit,
sich eine ausreichende Entscheidungsgrundlage zu beschaffen. Dieser Prozess besteht aus folgenden sechs
Schritten:
1. Aufgabendefinition: Das Informationsproblem wird zunächst definiert, und das zugehörige Informationsbedürfnis wird identifiziert.
2. Informations-Beschaffungs-Strategien: Es werden alle möglichen Informationsquellen bestimmt, von
denen dann die besten ausgewählt werden. Solche Quellen können insbesondere auch andere Personen
sein, mit denen man anschließend kommuniziert.
3. Lokalisierung und Zugriff. Die Quellen werden zuerst intellektuell und physisch lokalisiert, und dann
die Information innerhalb der Quelle gesucht und gefunden.
KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG
6
4. Benutze die Information: Hierzu schaut man sich das gefundene Dokument/Objekt an (lesen, hören,
betrachten, anfassen), und extrahiert dann die relevante Information.
5. Synthese: Die Information aus den verschiedenen gefundenen Quellen wird organisiert und anschließend präsentiert.
6. Bewertung: Abschließend wird sowohl das Produkt beurteilt – dies betrifft den Aspekt der Effektivität
– als auch der Prozess im Hinblick auf seine Effizienz bewertet.
Die Bewältigung dieser Schritte setzt eine Reihe weiterer Fähigkeiten voraus:
1. Aufgabendefinition: Der Benutzer muss in der Lage sein, den Informationsbedarf zu erkennen.
2. Informations-Beschaffungs-Strategien: Der Benutzer muss sowohl passende Strategien kennen als
auch die Quellen, die potenziell relevante Information beinhalten.
3. Lokalisierung und Zugriff: Der Benutzer muss die Information lokalisieren können (z.B. durch eine
Webseite navigieren) als auch zielgerichtet die relevante Information selektieren können
4. Benutze die Information: Hierzu muss man in der Lage sein, gefundene Information passend zu
organisieren.
5. Synthese: Gefundene Information muss mit dem bisherigen Wissen kombiniert und dann zur Präsentation aufbereitet werden.
6. Bewertung: Man muss in der Lage sein, Information kritisch zu beurteilen.
Eng mit der Informationskompetenz verknüpft sind eine Reihe benachbarter Kompetenzen:
• Bibliothekskompetenz bezieht sich auf die Fähigkeit, eine Bibliothek (physisch oder digital) zu nutzen
• Computerkompetenz betrifft die generelle Nutzung eines Computers.
• Digitalkompetenz ist die Fähigkeit, über Computer dargestellte Information unterschiedlicher Formate verstehen und anwenden zu können.
• Internet-Kompetenz bezieht sich auf die Nutzung des Internet allgemein.
• Suchkompetenz ist die Fähigkeit, effektiv in Informationssystemen zu suchen (s.u.).
• Kommunikationskompetenz betrifft die Kommunikation mit anderen Personen auf allen möglichen
Kanälen.
• Lesekompetenz ist die grundlegende Fähigkeit, Information aus Texten zu extrahieren.
• Medienkompetenz bezieht sich auf den Umgang mit allen möglichen Medien – vom einfachen Text
bis hin zur Navigation in virtuellen Welten.
• Schreibkompetenz ist schließlich die Fähigkeit, Gedanken niederzuschreiben.
1.3
Suchkompetenz
Um effektiv suchen zu können, muss der Benutzer idealerweise Kenntnis über den grundsätzlichen Aufbau einer Suchmaschine sowie folgende Aspekte ihrer Funktionalität verfügen: Suchbarkeit, linguistische
Funktionen, Anfragesprache und Ranking. Ferner sollte man ein Repertoire an geeigneten Suchtaktiken
und Strategien beherrschen, um die Suche erfolgreich voran treiben zu können.
Aufbau einer Web-Suchmaschine Einige Aspekte der Suche lassen sich leichter verstehen, wenn man
den grundsätzlichen Aufbau einer Web-Suchmaschine kennt.Typischerweise bestehen diese aus folgenden
Komponenten (siehe Abbildung 1.1):
Crawler Diese Komponente sammelt die Dokumente aus dem Web auf. Hierzu startet der Crawler mit
einer Liste von Web-Servern, deren Dokumente zuerst abgefragt werden, und von wo aus dann Links
zu neuen Quellen verfolgt werden.
Parser/Indexer Jedes Dokument wird geparst, der reine Text extrahiert, in einzelne Wörter zerlegt, dann
linguistische Algorithmen und Gewichtungsmethoden angewandt ( indexiert“) und das Ergebnis der
”
Datenbank übergeben.
Datenbank Diese dient zur Speicherung der extrahierten und aufbereiteten Daten in geeigneten Datenstrukturen, um eine möglichst effiziente Suche zu erlauben.
Searcher Der Benutzer greift über seinen Browser auf das Such-Interface zu, das die Anfragen an die
Datenbank übergibt und die Antwortrangliste geeignet aufbereitet und an den Benutzer zurückgibt.
KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG
7
Abbildung 1.1: Aufbau einer Web-Suchmaschine
Suchbarkeit Hierbei geht es um die Frage, welche Dokumente potenziell überhaupt durch die Suchmaschine gefunden werden können. Nicht jedes Dokument, auf das man mit dem Browser zugreifen und sich
anzeigen lassen kann, ist auch suchbar.
• Grundvoraussetzung ist zunächst, dass die Suchmaschine überhaupt Zugriff auf das Dokument hat.
So sind zunächst einmal generell nur öffentlich zugängliche Dokumente suchbar. Eine Ausnahme
hiervon bilden einige Verlage und Bibliotheken, die den Suchmaschinen das Indexieren von Dokumenten erlauben, zu denen tatsächlich nur ein eingeschränkter Zugang (z.B. kostenpflichtig oder nur
ausschnittsweise Anzeige) möglich ist. Ferner muss die Suchmaschine selbst erst einmal durch das
Verfolgen von Links auf das Dokument stoßen; dies ist insbesondere bei vielen Datenbankinhalten
(z.B. Bibliothekskatalog) nicht der Fall. Schließlich kann der Betreiber einer Website in einer Datei
robots.txt den Suchmaschinen mitteilen, welche Dokumente trotz freien Zugangs nicht indexiert
werden sollen.
• Ein weiteres Hindernis ist die Aktualität einer Webseite: Da die Suchmaschine im pull-Modus auf
die Seiten zugreift, dauert es nach Änderungen eine Weile, bis die Suchmaschine die neuen Inhalte
indexiert. Diese Zeitspanne hängt von der Strategie ab, mit der die Suchmaschine die Web-Seiten
besucht – bei Nachrichtenseiten liegen diese im Stundenbereich, bei anderen Seiten kann dies bis zu
mehreren Wochen dauern.
• Die Suchmaschinen indexieren außer HTML nur einige wenige gängige Textformate (wie etwa txt,
pdf, doc, ppt) und ignorieren weniger verbreitete Formate. Insbesondere können nur Texte indexiert
werden – Faksimile-Dokumente bleiben ebenso außen vor wie etwa als Grafik dargestellter Text in
HTML-Seiten (wobei dort aber der Text üblicherweise im alt-Attribut wiederholt wird).
• Schließlich bildet die Sprache noch ein weiteres Hindernis bei der Suche – die Suchmaschine kann
i.d.R. die Anfrage nicht in andere Sprachen übersetzen.
Linguistische Funktionen Übliche Suchfunktionen, wie man sie in Texteditoren (oder auch im Browser
selbst – Strg-F) findet, basieren auf einem reinen Zeichenkettenvergleich. Für eine inhaltsorientierte Suche
ist dies aber völlig unzureichend, weshalb eine Reihe von linguistischen Funktionen zum Einsatz kommt,
um auch Varianten der eingegebenen Suchbegriffe zu finden.
Wortnormalisierung versucht, verschiedene Schreibweisen eines Wortes zusammenzuführen. Außer der
fehlenden Unterscheidung zwischen Groß- und Kleinschreibung betrifft dies neben Abkürzungen und
Rechtschreibvarianten insbesondere auch die Zusammen- vs. Getrenntschreibung oder BindestrichVarianten. Beispiele: meta tag – meta-tag – metatag – meta tag’s, colour – color, Prozess – Prozeß
Grundformreduktion Üblicherweise werden alle Wörter auf ihre linguistische Grundform (Lemma) reduziert, also den Nominativ Singular bei Nomen, den Infinitiv bei Verben sowie die ungesteigerte
Form (Positiv) bei Adjektiven und Adverbien. Beispiele: Häuser – Hauses – Hause – Haus, Duisburg
– Duisburgs, aber nicht Duisburger, da letzteres ein Adjektiv ist. Möchte man die Grundformreduktion unterdrücken, so kann man den Suchterm bei einigen Suchsystemen in Anführungsstriche
setzen.
KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG
8
Phrasen Insbesondere die aus Nomen bestehenden Nominalphrasen spielen eine wichtige Rolle (z.B. Wahl
des Bundestages). Hierzu bieten Suchmaschinen üblicherweise eine Art Abstandssuche an. Beispiele:
“information retrieval”, “retrieval * information”
Komposita sind zusammengesetzte Begriffe wie etwa Einfamilienhaus, Reihenendhaus, Doppelhaushälfte.
Diese werden nur in Einzelfällen als Teil der Wortnormalisierung in ihre Komponenten zerlegt.
Synonyme Durch den speziellen Operator ∼ ist es z.B. bei Google möglich, neben dem eingegebenen
Suchterm auch nach allen (im Wörterbuch der Suchmaschine hierzu verzeichneten) Synonymen zu
suchen. Beispiel: Handy Mobiltelefon Smartphone / ∼handy
Anfragesprache Die Kenntnis der Anfragesprache erlaubt es, auch komplexere Anfragen zu formulieren.
Nachfolgend sind die wesentlichen Operatoren von Google beschrieben (die es in gleicher oder ähnlicher
Form auch bei der Konkurrenz gibt):
Boolesche Operatoren: Üblicherweise werden alle Suchbegriffe implizit mit einem logischen UND verknüpft, ODER erlaubt die Disjunktion, und die Negation wird durch ein dem Suchterm vorangestelltes
Minuszeichen ausgedrückt. Beispiel: handy -vertrag.
Zahlenbereiche können durch .. formuliert werden, wie etwa 100..200 EURO.
Facetten erlauben die Einschränkung der Antwortmenge anhand einer Reihe von Aspekten, wie etwa
Objekttyp (Bilder/Maps/Videos/News/Shopping/..), Standort, Sprache oder Zeitraum.
Feld-Prädikate beschränken die Suche des betreffenden Wortes auf Felder wie die URL (inurl:), den
Ankertext auf das betreffende Dokument verweisender Seiten (inanchor:), den Titel des Dokumentes
(intitle:) oder den eigentlichen Text (intext:). So sucht etwa duisburg -intext:duisburg nach
allen Seiten zu Duisburg, bei denen Duisburg“ im Text selbst nicht vorkommt. Zusätzlich gibt es
”
diese Prädikate noch mit dem Präfix all; schreibt man dieses an den Beginn der Anfrage, müssen
alle folgenden Suchterme diese Bedingung erfüllen.
URL-Prädikate beziehen sich auf die URL und Verlinkung der gesuchten Dokumente: site: sucht nach
Seiten auf einer Website, link: nur nach Seiten, die auf die angegebene URL verweisen, filetype:
spezifiziert den Dateityp des gesuchten Dokumentes, und related: auf Seiten mit den gleichen einund ausgehenden Links. So sucht etwa link:uni-due.de -site:uni-due.de nach Seiten außerhalb
der UDE, die auf die Startseite der Uni verweisen.
Ranking Da üblicherweise sehr viele Seiten die Suchbedingungen erfüllen, erstellt das System eine Rangordnung (Ranking der Antworten). Für den Nutzer ist es wichtig zu wissen, welche davon ihm auf der
ersten Ergebnisseite gezeigt werden (nur etwa 10% aller Nutzer schauen sich weitere Ergebnisseiten an).
Die konkrete Rankingfunktion ist das Geschäftsgeheimnis der Suchmaschinenbetreiber und wird zudem
ständig weiterentwickelt. Generell spielen folgende Faktoren dabei eine Rolle:
• Die Suchbegriffe kommen häufig in der Seite vor.
• Die Suchbegriffe kommen in Ankertexten vor.
• Page rank ist die Popularität einer Seite anhand ihrer Verlinkung mit anderen (populären) Seiten.
• Diversität: Die ersten Antworten soll möglichst viele Aspekte der Anfrage abdecken.
• Nutzer-Klicks auf Antworten werden heute standardmäßig alle protokolliert, damit das System lernt,
welche Seiten bevorzugt angeklickt werden. Hierbei geht nicht nur die Gesamtheit aller Klicks zur
selben Anfrage, sondern auch die Klicks des betreffenden Nutzers bei früheren Anfragen sowie ggfs.
die Klicks seiner Freunde aus Google+ in die Bewertung einer Seite ein.
Aufgrund der Fülle an Merkmalen kann kein einfaches Retrievalmodell (wie in den folgenden Kapiteln
beschrieben) allein eingesetzt werden, sondern es wird ein learning to rank -Ansatz (siehe Kapitel 6 angewendet, der auf den Klick-Daten trainiert wird.
Da es für viele Unternehmen geschäftlich fast unabdingbar ist, auf der ersten Ergebnisseite zu landen,
gibt es das Gewerbe der Search engine optimization. Hier beschäftigt man sich mit der Optimierung von
Webseiten, so dass diese oben in der Trefferliste erscheinen. Allerdings gibt es auch das Phänomen des
Web spam, wo Seitenbetreiber auch kaum oder gar nicht zutreffende Anfragen auf ihre Seite lenken wollen.
Die Suchmaschinenbetreiber versuchen, solche Seiten automatisch zu erkennen, und haben daher Regeln
aufgestellt, was als Search engine optimization noch erlaubt und was bereits als Web spam angesehen wird.
Auch diese Regeln und damit die Grenze zwischen erlaubter und unerlaubter Optimierung verändern sich
ständig.
KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG
9
Suchtaktiken und Strategien Komplexere Informationsbedürfnisse erfordern i.d.R. eine ganze Reihe
von Anfragen, um sich schrittweise dem Ziel zu nähern. Erfahrene Sucher verfügen daher über ein Repertoire an Taktiken und Strategien, um den Suchprozess effektiv zu gestalten (Details siehe Abschnitt 7.4.1).
Eine Strategie ist ein Plan zur Durchführung einer komplexen Suche. Taktiken bezeichnen einzelne
Aktionen, die die Suche vorantreiben. [Bates 79] unterscheidet dabei folgende Arten:
Monitoring-Taktiken überwachen den Fortgang des Prozesses, registrieren Abweichungen vom ursprünglichen Suchziel und versuchen, dieses weiterhin effizient anzusteuern.
Strukturelle Taktiken arbeiten auf der Menge der potenziellen Antworten, indem diese z.B. mit Hilfe
der o.g. Facetten eingeschränkt wird.
Suchformulierung Je nach Bedarf versucht man die Frage zu verbreitern oder einzuengen, indem man
etwa mehr oder weniger Terme in der Anfrage verwendet.
Term-Taktiken beziehen sich auf die Auswahl und die Variation der Suchterme.
Ideen-Taktiken betrachten die noch offenen Suchmöglichkeiten sowie Variationen der bisherigen Anfragen.
1.4
Information Retrieval
Betrachtet man die oben diskutierten Aspekte der Internet-Suche, so erkennt man deutliche Unterschiede
zur Suche in klassischen Datenbanksystemen, die strukturierte Daten verwalten:
• Die Formulierung einer zum aktuellen Informationsbedürfnis passenden Anfrage bereitet erhebliche
Probleme.
• Meistens durchläuft der Prozess der Anfrageformulierung mehrere Iterationen, bis passende Antworten gefunden werden.
• Anfragen liefern meist sehr viele Antworten, aber nur wenige davon sind für den Nutzer interessant.
• Das vorgenannte Problem entschärft sich durch die vom System bereitgestellte Rangordnung der
Antworten, wodurch potentiell relevante Antworten gehäuft am Anfang der Rangliste auftauchen.
• Bei Textdokumenten (aber noch stärker bei Bildern) zeigt sich, dass die systemintern verwendete
Repräsentation des Inhalts von Dokumenten teilweise inadäquat, auf jeden Fall aber mit Unsicherheit
behaftet, ist.
Das Wissenschaftsgebiet, das sich mit Informationssuchen dieser Art beschäftigt, bezeichnet man als
Information Retrieval. Erste Arbeiten hierzu gab es schon in den 1950ern durch Hans Peter Luhn bei IBM,
der sich u.a. mit Wortstatistiken beschäftigte. Populärster Pionier war Gerard Salton, der ab 1960 zunächst
in Harvard und dann an der Cornell University an der Entwicklung des Retrievalsystems SMART arbeitete.
Auf der Anwendungsseite entstanden ab 1962 erste Online-Informationssysteme, die hauptsächlich Nachweissysteme waren (es wurden nur die bibliografischen Angaben sowie eine Kurzfassung der Dokumente
gespeichert, den Volltext musste man sich auf anderem Wege beschaffen). Die Nutzung dieser Systeme
war wegen der Netzwerk- und Computer-Kosten relativ teuer und daher auf einen kleinen Anwenderkreis
beschränkt. Erst 1991 entstand mit 1991 WAIS (Wide Area Information System) das erste frei verfügbare
Retrievalsystem im Internet, das zudem eine verteilte Suche ermöglichte. Nach der Einführung des WWW
1993 kam 1994 mit Webcrawler die erste Internet-Suchmaschine.
1.4.1
Was ist Information Retrieval?
Zur Definition des Gebietes legen wir hier die Beschreibung der Aufgaben und Ziele der Fachgruppe
Information Retrieval“ innerhalb der Gesellschaft für Informatik“ zugrunde:
”
”
Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozess des
”
Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die
Fachgruppe Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunkt”
mäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen
entstehen. Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im
KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG
Daten
syntaktisch
definierte
Verfahren der
Daten−
verarbeitung
Information
semantisch
begründete
Verfahren der
(Wissen−)
Repräsentation
10
Wissen
pragmatisch
kontrollierte
Wissens−
erarbeitung zur
informationellen
Handlungs−
absicherung
Abbildung 1.2: Daten – Information – Wissen
Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können; häufig müssen zudem mehrere Datenbasen zur Beantwortung einer einzelnen Anfrage
durchsucht werden. Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip
nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation
von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); darüber hinaus werden auch solche Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind
(wie z.B. bei vielen technisch-wissenschaftlichen Datensammlungen). Aus dieser Problematik ergibt sich
die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem
weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung
seines Anwendungsproblems beurteilt werden sollte.“
Als kennzeichnend für das Gebiet werden somit vage Anfragen und unsicheres Wissen angesehen. Die
Art der Darstellung des Wissens ist dabei von untergeordneter Bedeutung.
Oftmals wird IR auch eingeschränkt auf die inhaltsorientierte Suche in (multimedialen) Dokumenten
betrachtet. (Tatsächlich behandeln wir in diesem Skriptum fast ausschließlich Modelle und Methoden aus
diesem Bereich.) Für diese Art der Suche kann man folgende Abstraktionsstufen unterscheiden:
Syntax: Hierbei wird ein Dokument als Folge von Symbolen aufgefasst. Methoden, die auf dieser Ebene operieren, sind z.B. die Zeichenkettensuche in Texten sowie die Bildretrievalverfahren, die nach
Merkmalen wie Farbe, Textur und Kontur suchen.
Semantik beschäftigt sich mit der Bedeutung eines Dokumentes. Methoden zur Repräsentation der Semantik eines Textes haben eine lange Tradition im Bereich der Wissensrepräsentation; semantisches
Bildretrieval müsste die Suche nach Bildern unterstützen, die z.B. bestimmte (Klassen von) Objekten
enthalten (Menschen, Häuser, Autos,. . . ).
Pragmatik orientiert sich an der Nutzung eines Dokumentes für einen bestimmten Zweck. Zum Beispiel
sucht ein Student Literatur zur einem vorgegebenen Seminarthema. Bildarchive werden häufig von
Journalisten in Anspruch genommen, um einen Artikel zu illustrieren; dabei ist meist das Thema
vorgegeben, aber nicht der semantische Bildinhalt.
Generell lässt sich festhalten, dass Nutzer meistens an einer Suche auf der pragmatischen Ebene interessiert
sind. Insbesondere bei nicht-textuellen Dokumenten können dies heutige IR-Systeme aber kaum leisten.
1.5
Daten – Information – Wissen
Datenbanksysteme enthalten Daten. IR-Systeme sollen die Suche nach Information9 unterstützen. Enthalten IR-Systeme also Information? Schließlich ist vor allem in KI (Künstliche Intelligenz)-Publikationen
9 Da Information keine exakt quantifizierbare Größe ist, gibt es auch den Plural Informationen“ eigentlich nicht. Es gibt
”
nur mehr oder weniger Information.
KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG
11
häufig die Rede von Wissensbasen. Was ist denn nun der Unterschied zwischen Daten, Wissen und Information? In der deutschen Informationswissenschaft hat man sich vor einigen Jahren auf eine einheitliche
Terminologie geeinigt, die aber leider im Gegensatz zur sonst in der Informatik verwendeten steht. Daher
verwenden wir hier die allgemein übliche Begrifflichkeit, allerdings in Kombination mit den Erläuterungen
aus der Informationswissenschaft (siehe Abbildung 1.2). Danach sind Daten auf der syntaktischen Ebene
anzusiedeln. In diesem Sinne wäre also eine Datenbasis eine nackte Sammlung von Werten ohne jegliche
Semantik. Kommt Semantik hinzu, so sprechen wir von Information. Dementsprechend enthalten also
Datenbanksysteme nicht nur Daten, sondern auch Information, weil zusätzlich zu den Daten zumindest
ein Teil der Semantik des jeweiligen Anwendungsgebietes auch im System modelliert wird. Genauso enthält jedes IR-System Information (im Gegensatz etwa zu dem Fall, wo man Texte einfach in einer Datei
abspeichert und mit Hilfe eines Texteditors durchsucht).
Wissen schließlich ist auf der pragmatischen Ebene definiert. In Abwandlung von [Kuhlen 90] lässt sich
dies so formulieren: Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situa”
tion zur Lösung von Problemen benötigt wird“. Da dieses Wissen häufig nicht vorhanden ist, wird danach
in externen Quellen gesucht. Hierbei dient ein Informationssystem dazu, aus der gespeicherten Information
das benötigte Wissen zu extrahieren. Wir sprechen auch von Informationsflut, wenn uns große Mengen
an Information zugeleitet werden, aus denen wir nur mit Mühe das benötigte Wissen extrahieren können.
Daher sind wir auch bereit, für gezielt bereitgestelltes Wissen zu zahlen (z.B. Tageszeitung, werbefreies
Fernsehen). Somit kann man die Transformation von Information in Wissen als einen Mehrwert erzeugenden Prozess sehen [Kuhlen 91]. Schlagwortartig lässt sich die Beziehung zwischen Information und Wissen
ausdrücken durch die Formulierung Wissen ist Information in Aktion“.
”
Als anschauliches Beispiel kann man hierzu die online verfügbaren LINUX-Manuals betrachten. Diese
beinhalten Information über LINUX. Wenn nun ein Benutzer eines LINUX-Systems eine bestimmte Aktion
ausführen möchte (z.B. ein Dokument drucken), aber nicht weiß, durch welche Kommandos er dies erreicht,
so ist das in diesem Fall benötigte Wissen gerade die entsprechende Teilmenge der insgesamt in den
Manuals verfügbaren, umfangreichen Information. Da nur ein geringer Teil der gesamten Information
benötigt wird, besteht der Mehrwert des Wissens (so sie durch die hierzu verfügbaren Werkzeuge wie z.B.
das man-Kommando geliefert wird) gerade in ihrer gezielten Bereitstellung.
Daten
Information
Wissen
Entscheidung
Nützlichkeit
Abbildung 1.3: Wissen zur Entscheidungsunterstützung
Wie oben erwähnt, dient Wissen zur informationellen Handlungsabsicherung“. Im Kern geht es dabei
”
um die Rolle des Wissens zur Entscheidungsunterstützung. Dieser Zusammenhang wird durch Abbildung 1.3 verdeutlicht. Wissen dient also zur informationellen Handlungsabsicherung“, und meist stellt
”
sich erst später heraus, wie nützlich die auf dem Wissen basierende Entscheidung war.
1.6
Rahmenarchitektur für IR-Systeme
Wir beschreiben hier ein konzeptionelles Modell für IR-Systeme, das wir für die nachfolgenden Ausführungen in diesem Skriptum zugrunde legen (siehe Abb. 1.4). Jedes Objekt einer Datenbasis wird mittels geeigneter Erschließungsverfahren eine entsprechende interne Darstellung (die wir hier Repräsentation“ nen”
nen) transformiert, in der der Inhalt geeignet repräsentiert wird. Diese wird zu einer Objekt-Beschreibung
verdichtet, die für das eigentliche Retrieval benutzt wird.
Am Beispiel des Dokumenten-Retrieval wollen wir diesen Sachverhalt verdeutlichen:
Objekt/Dokumenttext:
Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent
retrieval performance. The best indexing technique for retrieving documents is not known.
Daraus erstellt ein IR-System z.B. durch Reduktion auf die linguistische Stammform und Eliminierung
von Stoppwörtern folgende Repräsentation:
KAPITEL 1. EINF[PLEASEINSERT\PRERENDERUNICODE{ÃIJ}INTOPREAMBLE]HRUNG
12
Evaluierung
Informations−
bedürfnis
Frage−
Repräsentation
Frage−
Beschreibung
Vergleich
Wissensrepräsentation
fiktives/
reales
Objekt
Objekt−
Repräsentation
Objekt−
Beschreibung
Ergebnisse
Retrievalmodelle
Abbildung 1.4: Konzeptionelles Modell für IR-Systeme
(experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index,
techni, retriev, document, know)
Für das Retrieval wird eine Term-Multimenge als Beschreibung verwendet:
{(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1),
(perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)}
Analog würde eine Suche nach dem besten Indexierungsalgorithmus repräsentiert als
(best index algorithm)
und als Beschreibung könnte die Konjunktion der Frageterme zugrundegelegt werden:
best ∧ index ∧ algorithm.
Der Vergleich von Dokumentbeschreibungen mit der Beschreibung der aktuellen Anfrage liefert dann
die Retrievalergebnisse.
Anhand dieser Abbildung kann auch der Aspekt der Unsicherheit verdeutlicht werden. Die Ableitung
der Repräsentation aus dem eigentlichen Dokument ist eine wesentliche Quelle von Unsicherheit. Speziell
bei Texten oder multimedialen Dokumenten kann deren Inhalt nur unzureichend erschlossen werden
Auf der Seite der Fragen ergeben sich die gleichen Probleme der Unsicherheit, insbesondere bei der Abbildung des Informationswunsches auf die formale Anfrage. Zusätzlich spielt hier das für IR-Anwendungen
typische Moment der Vagheit eine wichtige Rolle. Daher sollte die Frageformulierung in der Lage sein,
diese Vagheit zu repräsentieren. Bei vielen Retrievalmodellen geschieht dies z.B. durch eine Gewichtung
der Frageterme.
Die Themen der nun folgenden Kapitel lassen sich ebenfalls anhand von Abbildung 1.4 illustrieren:
• Die Repräsentation von Textinhalten betrachtet die Erstellung der Repräsentationen von Fragen und
Dokumenten.
• Retrievalmodelle fokussieren auf den Vergleich von Frage- und Dokumentbeschreibung, wobei bestimmte Formen der Beschreibung zugrunde gelegt werden, deren Herleitung aus der Repräsentation
ebenfalls im Retrievalmodell spezifiziert wird.
• Evaluierung beschäftigt sich mit der Qualität der Ergebnisse in Bezug auf das Informationsbedürfnis.
Kapitel 2
Wissensrepräsentation für Texte
2.1
Problemstellung
Da sich IR hauptsächlich mit der inhaltlichen Suche in Texten beschäftigt, stellt sich die Frage nach
der geeigneten Repräsentationsform für Textinhalte. Im Gegensatz zu Standard-Datenbanksystemen, wo
die Repräsentation mehr oder weniger eindeutig ist, ist die Repräsentation ein zentrales Problem im IR.
Dies liegt daran, dass die in einer Frage angesprochenen Konzepte auf unterschiedlichste Weise in Texten
formuliert sein können. Eine gewählte Repräsentationsform soll daher zum einen unterschiedliche Formulierungen auf die gleiche Repräsentation abbilden (und damit den Recall erhöhen), zum anderen auch unklare
Formulierungen (z.B. Mehrdeutigkeit einzelner Wörter) vereindeutigen, um die Precision zu erhöhen.
Wir werden in diesem Kapitel zwei Arten von Lösungsansätzen für dieses Problem vorstellen:
• semantischer Ansatz:
Durch die Zuordnung von Deskriptionen zu Texten wird versucht, eine Repräsentation zu erstellen,
die weitgehend unabhängig von der konkreten Formulierung im Text ist. Syntax und Semantik solcher
Deskriptionen sind in Form sogenannter Dokumentationssprachen festgelegt.
• Freitextsuche:
Hierbei wird keine zusätzliche Repräsentation erstellt, sondern es werden nur bestimmte Funktionen
zur Verbesserung der Suche im Text der Dokumente angeboten.
2.2
2.2.1
Freitextsuche
Grundlagen
Terminologie Wir geben zunächst die Definitionen einiger linguistischer Begriffe wieder, die wir im
Folgenden verwenden werden:
• Token: einzelnes Wort im laufenden Text
• Type: einzelnes Wort des Vokabulars
• Morphem: kleinste bedeutungstragende Einheit in einem Wort, z.B. Blend-e, lauf-en,
• Flexion: Deklination, Konjugation und Komparation von Wörtern
• Grundform/Lemma: unflektierte Wortform; für Nomen ist es der Nominativ Singular, für Verben
der Infinitv, für Adjektive und Adverbien die ungesteigerte Form (Positiv).
• Derivation: Wortbildung aus dem Wortstamm mit Hilfe von Präfixen und Suffixen, z.B. haus: Haus
– häuslich – aushäusig,
• Stammform: (genauer: Derivationsstammform), das der Derivation zugrunde liegende lexikalische
Morphem
• Kompositum: Bildung eines komplexen Wortes, das aus mindestens zwei Morphemen besteht, die
sonst als selbstständige Wörter vorkommen, z.B. Dampfschiff, schreibfaul, strapazierfähig
• Nominalphrase: Wortgruppe im Satz, die ein Nomen als Bezugswort hat, z.B. Wahl des Bundes”
kanzlers“
13
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
14
Ansätze Bei der Freitextsuche kann man zwischen den beiden folgenden Ansätzen unterscheiden:
• informatischer Ansatz:
Dieser Ansatz (der heute fast nur noch in einigen kommerziell angebotenen IR-Systemen zu finden
ist) fasst Textretrieval als Zeichenkettensuche auf und bietet entsprechende Funktionen auf Zeichenkettenebene.
• computerlinguistischer Ansatz:
Hier wird mit Hilfe von morphologischen und teilweise auch syntaktischen Verfahren eine Normalisierung von Wortformen angestrebt, so dass sich die Suche auf Wörter bezieht (im Gegensatz zu den
Zeichenketten beim informatischen Ansatz).
Vorverarbeitung Bei beiden Ansätzen werden zunächst folgende Verarbeitungsschritte auf den Text
der Dokumente angewandt:
1. Textbereinigung: Häufig enthält der Text noch Markup oder Trennungszeichen, die vor der weiteren
Verarbeitung entfernt werden müssen.
2. Zerlegung des Textes in einzelne Wörter (Tokenization): Leer- und Interpunktionszeichen werden
hier als Worttrenner aufgefasst. Bei einigen ostasiatischen Sprachen (z.B. chinesisch) gibt es keine
expliziten Worttrenner; man kann das Ende eines Wortes nur mit Hilfe eines Lexikons erkennen.
3. Stoppwortbestimmung: Nicht-bedeutungstragende Wörter wie Artikel, Füllwörter oder Konjunktionen werden meist aus Aufwandsgründen von der weiteren Verarbeitung ausgeschlossen. Nur für
syntaktische Verfahren müssen die Stoppwörter berücksichtigt werden, um ein korrektes Parsing zu
ermöglichen. Stoppwörter machen häufig rund die Hälfte des Textes aus. Allerdings können Stoppwörter auch wichtige Bestandteile von Nominalphrasen sein, z.B. bei vitamin A“ im Englischen.
”
4. Satzende-Erkennung: Für die computerlinguistische Analyse sowie die Freitexbedingung Suche im
”
selben Satz“ ist es notwendig, die Folge von Wörtern in Sätze zu untergliedern. Wegen der Verwechslungsmöglichkeit des Satzendepunktes mit Abkürzungspunkten kann diese Aufgabe nur approximativ
gelöst werden (z.B. mit Hilfe von Abkürzungslisten).
5. Wortnormalisierung: Um Schreibweisenvarianten zusammenzuführen, werden die Wörter durch verschiedene Methoden normalisiert:
• Groß-/Kleinschreibung: üblicherweise werden alle Wörter in Kleinschreibung überführt.
• Rechtschreibung: Um die Effekte durch Rechtschreibreformen zu kompensieren, werden intern
alle Wörter auf die aktuelle Schreibweise abgebildet.
• Nationale Schreibvarianten (z.B. britisches und amerikanisches Englisch, oder das fehlende ’ß’
im schweizerischen Deutsch) werden vereinheitlicht.
• Zusammen- und Getrennt-Schreibungen versucht man ebenso wie die Variante mit Bindestrich zusammenzuführen: meta-tag/meta tag/metatag, zusammenführen/zusammen führen,
Getrenntschreibung/Getrennt-Schreibung
• Häufige Abkürzungen versucht man mit der Langform zusammenzuführen
Mit Ausnahme der ersten Methode benötigen alle Verfahren geeignete Wörterbücher.
Probleme der Freitextsuche Die eigentliche Freitextsuche bezieht sich dann auf den so reduzierten
Text (bzw. die resultierende Folge von Wörtern). Bei dieser Art der Suche nach Wörtern stellen sich
folgende Probleme:
• Homographen (verschieden gesprochene Wörter mit gleicher Schreibweise)
Tenor: Sänger / Ausdrucksweise
• Polyseme (Wörter mit mehreren Bedeutungen)
Bank: Sitzgelegenheit / Geldinstitut
• Flexionsformen: Haus – (des) Hauses – Häuser, schreiben – schreibt – schrieb – geschrieben
• Derivationsformen (verschiedene Wortformen zu einem Wortstamm)
Formatierung – Format – formatieren
• Komposita: Donaudampfschiffahrtsgesellschaftskapitän, Bundeskanzlerwahl
• Nominalphrasen: Wahl des Bundeskanzlers, information retrieval – retrieval of information – information was retrieved
Das grundsätzliche Problem der Freitextsuche – die Wortwahl – bleibt aber in jedem Falle ungelöst!
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
2.2.2
15
Informatischer Ansatz
Der informatische Ansatz betrachtet Texte als Folgen von Wörtern, wobei ein Wort als eine durch Leeroder Interpunktionszeichen begrenzte Zeichenfolge definiert ist. Somit wird hier Freitextsuche als eine
spezielle Form der Zeichenkettensuche aufgefasst und entsprechende Zeichenketten-Operatoren angeboten.
Diese beziehen sich zum einen auf einzelne Wörter, zum anderen auf Folgen von Wörtern. Erstere sind
Truncation- und Maskierungs-Operatoren für die Freitextsuche, letztere die Kontextoperatoren. (Wie bei
allen IR-Systemen üblich, wird im folgenden nicht zwischen Groß- und Kleinschreibung unterschieden).
• Truncation- und Maskierungs-Operatoren dienen dazu, Flexions- und Derivationsformen von Wörtern zusammenzuführen.
– Bei der Truncation wird einerseits zwischen Front- und End-Truncation unterschieden, wobei
die Front-Truncation hauptsächlich benutzt wird, um beliebige Vorsilben bei der Suche zuzulassen. Andererseits kann bei der Truncation entweder eine feste oder eine variable Anzahl von
Zeichen zugelassen werden. Bei den folgenden Beispielen verwenden wir das Symbol $ für Truncation für genau ein Zeichen und # für eine beliebig lange Zeichenfolge; im ersten Fall spricht
man auch von beschränkter Truncation, im zweiten Fall von unbeschränkter. Wir geben jeweils
das Suchmuster an und einige Wörter, die Treffer für dieses Pattern sind:
schreib#: schreiben, schreibt, schreibst, schreibe
schreib$$: schreiben, schreibst
#schreiben: schreiben, beschreiben, anschreiben, verschreiben
$$schreiben: beschreiben, anschreiben
– Maskierung oder genauer Mitten-Maskierung bezieht sich auf Zeichen in der Mitte eines Wortes; da im Deutschen bei der Konjugation und der Deklination von Wörtern nicht nur die
Endung betroffen ist, werden solche Operationen benötigt:
schr$$b#: schreiben, schrieb / schrauben
h$$s#: Haus, Häuser / Hanse, hausen, hassen
Der wesentliche Vorteil der Truncation- und Maskierungsoperatoren besteht also darin, dass Flexionsund Derivationsformen von Wörtern zusammengeführt werden und Schreibarbeit gegenüber dem expliziten
Aufzählen gespart wird. Möglicherweise werden dadurch aber auch unerwünschte Wörter zugelassen; daher
zeigen die meisten Systeme zunächst die verschiedenen Wortformen, die ein Pattern erfüllen, so dass der
Benutzer daraus auswählen kann. Das grundsätzliche Problem bei dieser Vorgehensweise ist aber, dass der
Benutzer sich zunächst alle möglichen Wortformen vorstellen muss, um eine gute Anfrage zu formulieren.
• Kontextoperatoren dienen zur Suche nach mehrgliedrigen Ausdrücken. Da z.B. der Ausdruck “information retrieval” im Text auch in der Form “information storage and retrieval” oder “retrieval of
information” auftreten kann, muss die Anfragesprache Operatoren anbieten, die die einfache Spezifikation solcher Formen ermöglichen. Ohne solche speziellen Operatoren wäre man auf die booleschen
Operatoren angewiesen, die sich lediglich auf das Vorkommen der einzelnen Wörter irgendwo im
selben Text beziehen. Folgende Kontextoperatoren werden häufig angeboten:
– genauer Wortabstand ($):
retrieval $ information: retrieval of information, retrieval with information loss
– maximaler Wortabstand (#):
text # # retrieval: text retrieval, text and fact retrieval
– Wortreihenfolge (,):
information # , retrieval: information retrieval, retrieval of information
– gleicher Satz (.):
information # retrieval. matcht nicht
. . . this information. Retrieval of data . . .
aber auch nicht:
. . . storage of information. Its retrieval . . .
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
2.2.3
16
Computerlinguistischer Ansatz
Der computerlinguistische Ansatz versucht, Verfahren bereitzustellen, die die verschiedenen Flexions- und
Derivationsformen eines Wortes zusammenführen. Analog sollen bei mehrgliedrigen Ausdrücken die verschiedenen möglichen Vorkommensformen erkannt werden. Im Gegensatz zum informatischen Ansatz, der
zur Bewältigung dieser Probleme nur recht primitive Hilfsmittel zur Verfügung stellt, werden beim computerlinguistischen Ansatz Algorithmen bereitgestellt, die diese Transformationen automatisch ausführen.
Dabei ist allerdings zu beachten, dass diese Aufgabe nicht in perfekter Art und Weise gelöst werden kann.
Es gibt folgende Arten von computerlinguistischen Verfahren:
• graphematische Verfahren basieren auf der Analyse von Buchstabenfolgen und werden im Bereich der Morphologie zum Zusammenführen von Flexions- oder Derivationsformen eines Wortes
eingesetzt,
• lexikalische Verfahren basieren auf einem Wörterbuch, das neben den Grundformen (Lemmata)
mit ihren Flexionsformen auch mehrgliedrige Ausdrücke enthalten kann, die verschiedenen Bedeutungen mehrdeutiger Wörter verzeichnet, sowie Synonyme aufführen kann.
• syntaktische Verfahren dienen hauptsächlich zur Identifikation von mehrgliedrigen Ausdrücken.
2.2.3.1
Graphematische Verfahren
In diesem Abschnitt sollen graphematische Algorithmen für die englische Sprache vorgestellt werden. Da
das Englische im Gegensatz zum Deutschen nicht so stark flektiert ist, erreichen diese Algorithmen eine
sehr hohe Genauigkeit und sind daher ohne Probleme praktisch einsetzbar. Es ist zwischen Grundformund Stammformreduktion zu unterscheiden:
• Bei der Grundformreduktion werden Wörter auf ihre Grundform zurückgeführt. Je nach Art des
Algorithmus’ wird unterschieden zwischen:
– formaler Grundform, die durch das alleinige Abtrennen der Flexionsendung erzeugt wird,
wie z.B. activities → activit
– und lexikographischer Grundform, die durch Abtrennen der Flexionsendung und ggfs. anschließender Rekodierung entsteht, also z.B. applies → appl → apply
• Bei der Stammformreduktion werden (nach vorheriger Grundformreduktion) die Wörter auf ihren
Wortstamm reduziert, indem die Derivationsendungen entfernt werden, z.B.:
computer, compute, computation, computerization → comput.
Lexikographische Grundformreduktion
Als Beispiel für einen Reduktionsalgorithmus soll hier eine vereinfachte Fassung der in [Kuhlen 77]
beschriebenen lexikographischen Grundformreduktion vorgestellt werden. Hierzu verwenden wir folgende
Notationen:
V
alle Vokale (einschließlich Y)
K
alle Konsonanten
/
oder“
”
B
6
Leerzeichen
→
zu“
”
Die Regeln dieses (vereinfachten) Algorithmus’ sind dann folgende:
1) IES → Y
2) ES →
3) S →
4) S’ →
IES’ → Y
ES’ →
5) ’S →
’ →
wenn KO / CH / SH / SS / ZZ / X vorangehen
wenn K / E / VY / VO / OA / EA vorangehen
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
6) ING →
ING → E
wenn KK / V / X vorausgehen
wenn VK vorausgehen
7) IED → Y
wenn KK / V / X vorausgehen
8) ED →
ED → E
wenn VK vorausgehen
Der Algorithmus wendet jeweils nur die erste passende Regel an.
Nachfolgend geben wir einige Beispiele zu den einzelnen Regeln.
Regel 1
IES → Y
Beispiele zu 1:
APPLIES
IDENTIFIES
ACTIVITIES
Regel 2
BREACH
PROCESS
FISH
COMPLEX
TANGO
BUZZ
→
→
→
→
→
→
METHOD
HOUSE
BOY
RADIO
COCOA
FLEA
S’ → B
6
IES’ → Y
ES’ → B
6
Beispiele zu 4:
MOTHERS’
LADIES’
FLAMINGOES
Regel 5
→
→
→
→
→
→
S → B
6 , wenn ∗ / E / %Y / %O / OA /
EA vorangehen
Beispiele zu 3:
METHODS
HOUSES
BOYS
RADIOS
COCOAS
FLEAS
Regel 4
APPLY
IDENTIFY
ACTIVITY
ES → B
6 , wenn ∗O / CH / SH / SS / ZZ /
X vorangehen
Beispiele zu 2:
BREACHES
PROCESSES
FISHES
COMPLEXES
TANGOES
BUZZES
Regel 3
→
→
→
→
→
→
MOTHER
LADY
FLAMINGO
’S → B
6
’ → B
6
Beispiele zu 5:
MOTHER’S
CHILDREN’S
PETRUS’
→
→
→
MOTHER
CHILDREN
PETRUS
17
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
Regel 6
ING → B
6 , wenn ∗∗ / % / X vorausgehen
ING → E, wenn %∗ vorausgehen
Beispiele zu 6:
DISGUSTING
GOING
MIXING
LOOSING
RETRIEVING
Regel 7
DISGUST
GO
MIX
LOOSE
RETRIEVE
→
SATISFY
ED → B
6 , wenn ∗∗ / % / X vorausgehen
ED → E, wenn %∗ vorausgehen
Beispiel zu 8:
DISGUSTED
OBEYED
MIXED
BELIEVED
2.2.3.2
→
→
→
→
→
IED → Y
Beispiel zu 7:
SATISFIED
Regel 8
18
→
→
→
→
DISGUST
OBEY
MIX
BELIEVE
Lexikalische Verfahren
Graphematische Verfahren haben bei stark flektierten Sprachen wie z.B. dem Deutschen eine wesentlich höhere Fehlerquote als bei wenig flektierten Sprachen. Daher versucht man hier verstärkt, lexikalische Verfahren einsetzen. Für die Anwendung im IR sollte ein Lexikon folgende Relationen enthalten
(s.a. [Zimmermann 91]):
• Flexionsform (Vollformen) – zugehörige Grundform: Hauses – Haus, ging – gehen (meist wird nur
die Grundform abgespeichert zusammen mit der Nummer der Regel, nach der daraus die Vollformen
generiert werden).
• Derivationsform – zugehörige Grundformen: Lieblosigkeit – lieblos, Berechnung – rechnen
• Komposita – zugehörige Dekomposition: Haus’tür, Arm’band’uhr.
• Synonyme: Handy — Mobiltelefon — Smartphone
Lexikalische Verfahren haben generell den Nachteil, dass hier eine ständige Pflege des Wörterbuches notwendig ist. Für eine neue Anwendung ist zunächst ein hoher Anpassungsaufwand notwendig, um ein
Standard-Wörterbuch mit den jeweiligen Fachbegriffen anzureichern. Auch später tauchen ständig neue
Begriffe auf, die in das Lexikon aufgenommen werden müssen.
Substantivkomposita (die letzte Komponente ist ein Substantiv) machen im Deutschen weniger als
10% der Token, aber mehr als 50% der Types aus. Eine auch nur annähernd vollständige Auflistung
der Komposita im Wörterbuch ist daher schon aus Aufwandsgründen kaum realistisch. Andererseits ist
die Kompositazerlegung aber sehr wichtig, um alle Vorkommen eines Suchwortes zu finden, wie z.B. bei
Schweinebraten, Rinderbraten, Hirschbraten, Hühnerbraten, . . . oder Kernenergie, Solarenergie, Kohleenergie, Windenergie, . . .
Ein Kompositum besteht nicht nur aus einer Reihe von Grundformen, sondern enthält zusätzlich Fugenelemente zur Verbindung derselben Fugenelemente können sein: -∅, -e, -en, -ens, -er, -n, -s sowie bei
entlehnten Stämmen -i, -o, -al (z.B. in Elektr-o-motor, Agr-i-kultur ) und natürlich der Bindestrich.
Leider gibt es keine allgemeingültigen Regeln, wann welches Fugenelement verwendet wird, wie die
folgenden Beispiele zeigen: Wind-energie vs. Sonne-n-energie, Stadt-mitte vs. Städte-partnerschaft, Spargelder vs. Hilf-s-gelder und Schwein-e-braten vs. Wildschwein-braten.
Um die im Text vorkommenden Komposita automatisch zu zerlegen, benötigt man ein GrundformenWörterbuch (das man auch weitestgehend vollautomatisch erstellen kann). Mit dessen Hilfe versucht man
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
19
dann, Kandidaten für Komposita in Folgen von Grundformen mit verbindenden Fugenmorphemen zu
zerlegen. Allerdings ist die Zerlegung nicht immer eindeutig, wie folgende Beispiele fehlerhafter Zerlegung
zeigen: Bausch-windel, Hafenbar-kasse, Kopfball-ast, Ster-befall, Tau-sender, Tram-polin. Man sollte also
alle möglichen Zerlegungen generieren und hoffen, dass die fehlerhaften Zerlegungen sich nicht zu negativ
auf die Retrievalqualität auswirken.
2.2.3.3
Syntaktische Verfahren
Syntaktische Verfahren werden im IR hauptsächlich zur Identifikation von mehrgliedrigen Ausdrücken
(Nominalphrasen) eingesetzt. Hierzu sind zwei Probleme zu lösen:
1. Wortklassenbestimmung: Zuordnung der syntaktischen Kategorie zu einzelnen Wörtern.
2. Parsing: Erkennen der syntaktischen Struktur. Für das Problem der Erkennung von Komposita muss
keine vollständige syntaktische Analyse vorgenommen werden; es genügt, ein partielles Parsing zur
Extraktion der relevanten Teilstrukturen.
Nachfolgend beschreiben wir diese beiden Probleme etwas detaillierter.
AT
BEZ
CONJ
IN
JJ
JJR
MD
NN
NNP
NNS
PERIOD
PN
RB
RBR
TO
VB
VBD
VBG
VBN
VBP
VBZ
WDT
article
“is”
conjunction
preposition
adjective
comparative adjective
modal (can, have, may, shall. . . )
singular or mass noun
singular proper noun
plural noun
.:?!
personal pronoun
adverb
comparative adverb
“to”
verb, base form
verb, past tense
verb, present participle, gerund
verb, past participle
verb, non 3rd singular present
verb, 3rd singular present
wh-determiner (what, which)
Tabelle 2.1: Häufig verwendete Wortklassen (für Englisch)
Wortklassenbestimmung Für die Definition von Wortklassen gibt es keinen Standard. Tabelle 2.1
zeigt jedoch eine häufig verwendetes Schema.
Um die Wortklassen in einem Text zu bestimmen, kann auf dieselben Datenquellen zurückgegriffen
werden, die auch bei der morphologischen Analyse verwendet werden:
• Vollformen-Wörterbücher enthalten alle Flexionsformen von Wörtern (üblicherweise durch Angabe
der Regelklasse für die möglichen Flexionen bei der Grundform); üblicherweise enthält der Eintrag
auch die zugehörige(n) Wortklasse(n).
• graphematische Verfahren versuchen, aus der Wortendung und evtl. Präfixen auf die Wortklasse
zu schließen. Wegen des grundsätzlichen Problems der Unvollständigkeit von Wörterbüchern sollten
graphematische Verfahren in jedem Fall eingesetzt werden, um auch unbekannte Wörter klassifizieren
zu können.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
Nr.
1
2
3
4
5
6
7
8
Regel
IES → Y
ES →
S →
S’ →
IES’ → Y
ES’ →
’S →
’ →
ING →
ING → E
IED → Y
ED →
ED → E
20
Klasse
NNS/VBP
NNS/VBP
NNS/VBP
NNS
NN
VBG
VBD/VBN/JJ
VBD/VBN/JJ
Tabelle 2.2: Wortklassenzuordung basierend auf dem Kuhlen-Algorithmus
Ein einfaches Beispiel für ein graphematisches Verfahren ist die in Tabelle 2.2 dargestellte Zuordnung von Wortklassen anhand von Kuhlens Algorithmus zur Grundformreduktion. Leider liefern die
meisten Regeln keine eindeutige Wortklassenzuordung.
In wenig flektierten Sprachen haben aber sowohl lexikalische als auch graphematische Verfahren mit
einem grundsätzlichen Problem zu kämpfen: Vollformen können zu mehreren Wortklassen gehören, z.B.:
The boys play football vs. She saw the new play. Dieses Problem lässt sich nur durch die zusätzliche
Berücksichtigung des Kontextes lösen, etwa in unserem Beispiel: AT NNS VBP/NN NN → VBP und
PN VBD AT JJ NN/VBP → NN. Üblicherweise betrachtet man Folgen von zwei oder drei Wörtern
(Bigramme, Trigramme) als Kontextinformation.
Allerdings lässt sich auch dadurch keine befriedigende Lösung erreichen. [Greene & Rubin 71] zeigten,
dass selbst bei einem vollständigen Wörterbuch die Wortklassenzuordnung mit einem deterministischem
Tagger nur 77 % korrekte Zuordungen liefert.
Durch den Übergang zu einem statistischen Ansatz lassen sich jedoch wesentlich bessere Ergebnisse
erzielen. Dabei nutzt man die unterschiedliche Häufigkeit des Vorkommens in den verschiedenen Wortklassen aus (die meisten Wörter kommen in einer bevorzugten Wortklasse vor). Z.B. sind folgende Vorkommen
eher selten:
to flour a pan
to web the final report
Ein einfacher Ansatz besteht daher darin, seltene Verwendungen zu ignorieren. So zeigten
[Charniak et al. 93], dass sich durch dieses Vorgehen 90 % korrekte Zuordungen erreichen lassen. Weitere Verbesserungen sind durch statistische Ansätze zur Berücksichtigung der syntaktischen Struktur (z.B.
Markov-Modelle) möglich, wodurch sich etwa 95–97 % korrekte Zuordungen erzielen lassen.
S
NP
VP
PP
→
→
→
→
→
→
→
→
NP VP
AT? JJ* NNS+
AT? JJ* NN+
NP PP
VB PP
VBZ
VBZ NP
IN NP
Tabelle 2.3: Einfache Beispielgrammatik
Parsing Basierend auf den zugeordneten Wortklassen kann man anschließend die syntaktische Struktur
eines Textes bestimmen. Tabelle 2.3 zeigt eine einfache Grammatik (? steht für 0/1 Vorkommen, *
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
21
für beliebig viele und + für mindestens einmaliges Vorkommen). Mit dieser Grammatik lassen sich die
nachstehenden Beispielsätze analysieren:
• The analysis of 25 indexing algorithms shows consistent retrieval performance.
AT NN IN JJ NN NNS VBZ JJ NN NN
• A good indexing technique for Web retrieval is manual classification.
AT JJ NN NN IN NN NN BEZ JJ NN
Partielles Parsing Um Nominalphrasen beim Freitextretrieval zu erkennen, reicht in der Regel
partielles Parsing aus. Dazu definiert man die relevanten syntaktischen Teilstrukturen. Lassen wir z.B.
die Unterscheidung NN/NNP/NNS fallen, so könnte man folgende einfache Muster für Nominalphrasen
definieren:
phrase → NN NN+
→ NN+ IN JJ* NN+
Damit kann man folgende Phrasen erkennen:
indexing algorithms
retrieval performance
retrieval of Web documents
retrieval of new documents
Head-Modifier-Strukturen Ein Matching von Nominalphrasen auf der Ebene der syntaktischen
Strukturen führt in der Regel zu unbefriedigenden Ergebnissen. Ein besserer Ansatz ist die Transformation
der Nominalphrasen in sogenannte Head-Modifier-Strukturen. Für eine zweigliedrige Nominalphrasen bezeichnet dabei Head das Nomen, das die wesentliche Bedeutung des Kompositums ausdrückt, z.B. information retrieval, indexing algorithm, Wahl des Kanzlers. Der Modifier dagegen spezialisiert oder modifiziert
die Bedeutung des heads.
Bei mehr als zweigliedrigen Ausdrücken ergeben sich geschachtelte Strukturen, die man in Listen- oder
Baum-Form darstellen kann (siehe auch Abbildung2.1). Dabei steht jeweils der Modifier links und der
Head rechts: (((multimedia, document), retrieval), system)
the domain of possible categories of linguistic expressions
domain
possible
categories
linguistic
expressions
Abbildung 2.1: Beispiel für geschachtelte Head-Modifier-Struktur im Englischen
Analog kann man auch Komposita in Head-Modifier-Strukturen überführen: Bei zweigliedrigen Komposita ist die letzte Komponente der Head, wie etwa bei Tür-schloss vs. Schloss-tür. Bei mehrgliedrigen
Komposita kann es dagegen zu Mehrdeutigkeiten kommen, wie etwa bei (Mädchen, (handels, schule)) –
und nicht ((Mädchen, handels), schule). Hier hilft dann nur ein Wörterbuch.
Matching-Prozess Der Vergleich zwischen einem Kompositum aus der Anfrage und einem im Dokumenttext gefundenen läuft nun wie folgt ab:
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
22
1. Nominalphrasen/Komposita in Head-Modifier-Struktur überführen.
Die Transformationsregeln basieren dabei primär auf der syntaktischen Struktur
2. Test, ob das Anfragewort in der Nominalphrase aus dem Dokument enthalten ist.
Dabei müssen Head- bzw. Modifier-Rolle bzgl. der gemeinsamen Wurzel übereinstimmen. Ein einzelnes Nomen wird dabei als Head aufgefasst.
Zum Beispiel ist der Dokumentterm (((semistructured, data), retrieval), system) ein Treffer bzgl. der
Frageterme (retrieval, system), (semistructured, data) und (data, retrieval), aber nicht für (retrieval, data).
Analog liefert im Deutschen die Suche nach Tür die Haustür und die Zimmertür, aber nicht das Türschloss,
und die Suche nach Mädchenhandel würde bei der o.g. Bildungsstätte fehlschlagen.
2.3
2.3.1
Semantische Ansätze
Allgemeine Eigenschaften
Semantische Ansätze sollen die im vorangegangenen Abschnitt dargestellten Nachteile der Freitextsuche
überwinden helfen. Um sich von der konkreten sprachlichen Formulierung in dem zu indexierenden Dokument zu lösen, wird eine davon unabhängige Repräsentation des Textinhaltes durch Verwendung eines
speziellen Vokabulars verwendet. Dieses Vokabular soll alle Mehrdeutigkeiten und die Probleme morphologischer und syntaktischer Art der natürlichen Sprache vermeiden. In den folgenden Abschnitten betrachten
wir zunächst zwei klassische Arten von Dokumentationssprachen, nämlich Klassifikationen und Thesauri. Diese Ausführungen orientieren sich im wesentlichen an der Darstellung in [Burkart 90]. Anschließend
werden als moderne Ansätze Ontologien und Tagging vorgestellt.
2.3.2
Klassifikationen
Klassifikationen dienen als Strukturierung eines Wissensgebietes nach einem vorgegebenen formalen Schema. Einem einzelnen Dokument wird dabei in der Regel nur eine Klasse zugeordnet. Aus dieser Randbedingung ergibt sich bereits eine prinzipielle Schwäche, da viele Dokumente ja gerade versuchen, Brücken
zwischen verschiedenen Wissensgebieten zu schlagen, so dass sie zu mehreren Klassen gehören. Andererseits gibt es einige praktische Anwendungen, die gerade eine eindeutige Klassifikation von Dokumenten
voraussetzen, z.B. bei der fachsystematischen Aufstellung von Büchern in einer Bibliothek oder bei der
Anordnung von Abstracts in der gedruckten Fassung eines Referateorgans.
Die bekanntesten Beispiele für Klassifikationen sind die den Web-Katalogen (wie z.B. Yahoo!) zugrundeliegenden Ordnungssysteme. Daneben gibt es sehr viele fach- oder anwendungsspezifische Klassifikationen,
wie z.B.
LCC Library of Congress Classification
DDC Dewey Decimal Classification
UDC Universal Decimal Classification
MSc Mathematics Subject Classification
CCS ACM Computing Classification system
2.3.2.1
Eigenschaften von Klassifikationssystemen
Wir betrachten zunächst einige grundlegende Eigenschaften von Klassifikationssystemen, bevor wir konkrete Beispiele vorstellen.
Monohierarchie – Polyhierarchie
Abbildung 2.2 zeigt links eine monohierarchische Klassifikation; hierbei sind die Klassen in eine Baumstruktur eingeordnet. Häufig reicht aber eine Baumstruktur nicht aus, um die Beziehungen zwischen den
Klassen sinnvoll darzustellen. Deswegen geht man zu einer Polyhierarchie über, bei der eine Klasse mehrere
Superklassen haben kann.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
Obstbaum
Kernobstbaum
Apfelbaum
Obstbaum
Steinobstbaum
Birnbaum
23
Kirschbaum
Nutzholzbaum
Kernobstbaum
Pfirsichbaum
Birnbaum
Abbildung 2.2: Monohierarchie (links) und Polyhierarchie (rechts)
Obstbaum
nach Fruchart
nach Stammbildung
Obstbaum
Kernobstbaum
niederstämmiger Obstbaum
Stein−
obstbaum
Kern−
obstbaum
halbst.
halbstämmiger Obstbaum
Obstbaum
Steinobstbaum
hochst.
Obstbaum
hochstämmiger Obstbaum
niederst.
Obstbaum
Abbildung 2.3: Polydimensionalität
Monodimensionalität – Polydimensionalität
Bei der Festlegung der Klassenstruktur kann es häufig auf einer Stufe mehrere Merkmale geben, nach
denen eine weitere Aufteilung in Unterklassen vorgenommen werden kann, wobei diese Merkmale orthogonal zueinander sind. Eine polydimensionale Klassifikation, wie das Beispiel in Abb. 2.3 links illustriert,
erlaubt die Darstellung dieses Sachverhaltes. Erlaubt das Klassifikationsschema keine Polydimensionalität,
dann muss diese durch Einführung einer zusätzlichen Hierarchie-Ebene aufgelöst werden (Abb. 2.3 rechts),
wodurch das Schema unübersichtlicher wird.
Analytische vs. synthetische Klassifikation
Beim Entwurf eines Klassifikationsschemas gibt es – ähnlich wie bei der Programmierung – zwei mögliche Vorgehensweisen. Die bisherigen Beispiele illustrieren die analytische Klassifikation, die top-down
vorgeht: Ausgehend von der Grundgesamtheit der zu klassifizierenden Objekte sucht man rekursiv jeweils
nach dem nächsten Kriterium zur weiteren Aufteilung der Objektmenge.
Facette
A Fruchtart
A1 Apfel
A2 Birne
A3 Kirsche
A4 Pfirsich
A5 Pflaume
Facette
B Stammart
B1 hochstämmig
B2 halbstämmig
B3 niederstämmig
Facette
C Erntezeit
C1 früh
C2 mittel
C3 spät
Tabelle 2.4: Beispiel zur Facettenklassifikation
Im Gegensatz dazu geht die synthetische Klassifikation bottom-up vor. Dabei werden zuerst die relevanten Merkmale der zu klassifizierenden Objekte erhoben und im Klassifikationssystem zusammengestellt.
Im zweiten Schritt werden dann die Klassen durch Kombination der Merkmale gebildet. Die synthetische
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
24
Klassifikation bezeichnet man auch als Facettenklassifikation. Tabelle 2.4 zeigt eine solche Klassifikation
für Obstbäume. In diesem Schema würde ein niederstämmiger Frühapfelbaum mit A1B3C1 klassifiziert.
Für die Definition der Facetten gelten folgende Regeln:
1. Die Facetten müssen disjunkt sein.
2. Innerhalb einer Facette muss monodimensional unterteilt werden.
Zusätzlich müssen noch syntaktische Regeln definiert werden, die die Bildung der Klassen aus den Facetten
festlegen. Facettenklassifikationen finden sich heute insbesondere bei der Produktsuche (z.B. in OnlineShops), aber auch Web-Suchmaschinen unterstützen meist einige Facetten.
2.3.2.2
Die Yahoo-Klassifikation
Arts & Humanities
Literature, Photography...
Business & Economy
B2B, Finance, Shopping, Jobs...
Computers & Internet
Internet, WWW, Software, Games...
Education
College and University, K-12...
Entertainment
Cool Links, Movies, Humor, Music...
Government
Elections, Military, Law, Taxes...
Health
Medicine, Diseases, Drugs, Fitness...
News & Media
Full Coverage, Newspapers, TV...
Recreation & Sports
Sports, Travel, Autos, Outdoors...
Reference
Libraries, Dictionaries, Quotations...
Regional
Countries, Regions, US States...
Science
Animals, Astronomy, Engineering...
Social Science
Archaeology, Economics, Languages...
Society & Culture
People, Environment, Religion...
Abbildung 2.4: Yahoo!-Hauptklassen
Art@
Bibliographies (6)
Communications and
Networking (1146)
Computer Science@
Contests (26)
Conventions and
Conferences@
Countries, Cultures, and
Groups (38)
Cyberculture@
Data Formats (485)
Desktop Customization@
Desktop Publishing (53)
Dictionaries (24)
Employment@
Ethics (18)
Games@
Graphics (316)
Hardware (2355)
History (106)
Humor@
Industry Information@
Internet (6066)
Magazines@
Mobile Computing (65)
Multimedia (690)
Music@
News and Media (205)
...
Abbildung 2.5: Untergliederung der Hauptklasse Computers & Internet
Abbildung 2.4 zeigt die Hauptklassen der Yahoo-Klassifikation, und Abbildung 2.5 die weitere Unterteilung der Hauptklasse Computers & Internet“. Mit @“ markierte Klassen bezeichnen dabei Querverweise
”
”
in der Klassenhierarchie. Das Ordnungssystem ist somit kein Baum, sondern ein gerichteter Graph. Typisch
für Yahoo! ist ferner die variierende Tiefe des Ordnungssystems, die an manchen Stellen nur 3, an anderen
bis zu 7 beträgt. Dabei können die zu klassifizierenden (Web-)Dokumente beliebigen Knoten zugeordnet
werden. Somit enthält ein Knoten in der Regel die Verweise auf die zugehörigen Dokumente sowie die Liste
der Unterklassen.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
2.3.2.3
25
Dezimalklassifikation
Als bekanntestes Beispiel für Klassifikationssysteme gilt sicher die Dezimalklassifikation. Sie geht auf die
Dewey Decimal Classification (DDC) zurück, die 1876 von Melvil Dewey in den USA als Universalklassifikation zur Aufstellung von Buchbeständen konzipiert wurde. Daraus entwickelten dann die Belgier
Paul Otlet und Henri Lafontaine durch das Hinzufügen von syntaktischen Elementen die Universelle
Dezimalklassifikation (DK), die zur Inhaltserschließung geeignet ist.
Grundelemente der DK
Wir stellen im folgenden die wesentlichen Grundelemente der DK (Dezimalklassifikation) vor:
• Die Klassen der DK sind hierarchisch gegliedert. Wie der Name schon sagt, ist der maximale Verzweigungsgrad 10. Das gesamte System enthält derzeit über 130000 Klassen.
• Zusätzlich zu diesen Klassen erlauben Anhängezahlen die Facettierung.
• Zur Verknüpfung mehrerer DK-Zahlen dienen bestimmte Sonderzeichen.
Klassen der DK
Die DK-Haupttafeln umfassen folgende 10 Hauptabteilungen:
0 Allgemeines
1 Philosophie
2 Religion, Theologie
3 Sozialwissenschaften, Recht, Verwaltung
4 (zur Zeit nicht belegt)
5 Mathematik, Naturwissenschaften
6 Angewandte Wissenschaften, Medizin, Technik
7 Kunst, Kunstgewerbe, Photographie, Musik, Spiel, Sport
8 Sprachwissenschaft, Philologie, Schöne Literatur, Literaturwissenschaft
9 Heimatkunde, Geographie, Biographien, Geschichte
Diese Hauptklasse werden bis hin zu sehr speziellen Sachverhalten weiter untergliedert, wie etwa im
folgenden Beispiel:
3 Sozialwissenschaften, Recht, Verwaltung
33 Volkswirtschaft
336 Finanzen. Bank- und Geldwesen
336.7 Geldwesen. Bankwesen. Börsenwesen
336.76 Börsenwesen. Geldmarkt. Kapitalmarkt
336.763 Wertpapiere. Effekten
336.763.3 Obligationen. Schuldverschreibungen
336.763.31 Allgemeines
336.763.311 Verzinsliche Schuldbriefe
336.763.311.1 Langfristig verzinsliche Schuldbriefe
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
26
Facettierende Elemente
Zur Facettierung in der DK dienen die Anhängezahlen, die durch spezielle Zeichen eingeleitet werden. Es
gibt einerseits allgemeine Anhängezahlen, die überall in der DK verwendet werden dürfen, und andererseits
spezielle Anhängezahlen, die nur für bestimmte Klassen innerhalb der DK erlaubt sind. Beispiele für
allgemeine Anhängezahlen sind folgende (die jeweils einleitende Zeichenfolge ist vorangestellt):
= Sprache: =30 =
ˆ deutsch
(0...) Form: (021) =
ˆ Handbuch,
53(021)=20=30=40 =
ˆ Handbuch der Physik in Englisch, Deutsch, Französisch
(...) Ort
(=...) Rassen und Völker
...“ Zeit
”
.00 Gesichtspunkt
-05 Person
Verknüpfung von DK-Zahlen
Zur Verknüpfung von DK-Zahlen gibt es als syntaktische Elemente spezielle Sonderzeichen:
+ Aufzählung mehrerer Sachverhalte, z.B. 178.1+33 =
ˆ Alkoholismus und Volkswirtschaft
: Beziehung zwischen zwei Sachverhalten, z.B. 178.1:33 =
ˆ Auswirkung von Alkoholismus auf die Volkswirtschaft
/ Erstreckungszeichen (zur Zusammenfassung mehrerer nebeneinander stehender DK-Zahlen), z.B.
592/599 Systematische Zoologie: 592 bis einschließlich 599
’ Zusamenfassungszeichen zur Bildung neuer Sachverhalte aus der Kombination einzelner DKKomponenten
2.3.2.4
Computing Classification System
Als weiteres Beispiel eines Klassifikationsschemas zeigen wir hier aus dem Bereich der Informatik das von
der ACM entwickelte Computing Classification System (CCS).
Das CCS besteht aus folgenden Elementen:
• Die general terms sind eine vorgegebene Menge von allgemeinen Begriffen, die zur Facettierung
dienen.
• Die classification codes stellen eine dreistufige monohierarchische Klassifikation dar.
• Innerhalb einer einzelnen Klasse dienen die subject headings zur weiteren Untergliederung. Neben
der für jede Klasse vorgegebenen Menge von natürlichsprachlichen Bezeichnungen sind auch alle
Eigennamen als subject headings erlaubt.
• Schließlich können jedem Dokument noch free terms als zusätzliche, frei wählbare Stichwörter zugeordnet werden.
General terms:
Die general terms des CCS sind in Tabelle 2.5 aufgelistet.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
ALGORITHMS
DESIGN
DOCUMENTATION
ECONOMICS
EXPERIMENTATION
HUMAN FACTORS
LANGUAGES
LEGAL ASPECTS
27
MANAGEMENT
MEASUREMENT
PERFORMANCE
RELIABILITY
SECURITY
STANDARDIZATION
THEORY
VERIFICATION
Tabelle 2.5: General terms der CR Klassifikation
Klassen und subject headings
Die Hauptklassen des CCS sind folgende:
A. GENERAL LITERATURE
B. HARDWARE
C. COMPUTER SYSTEMS ORGANIZATION
D. SOFTWARE
E. DATA
F. THEORY OF COMPUTATION
G. MATHEMATICS OF COMPUTING
H. INFORMATION SYSTEMS
I. COMPUTING METHODOLOGIES
J. COMPUTER APPLICATIONS
K. COMPUTING MILIEUX
Am Beispiel der Klasse H.3 zeigen wir die classification codes und die zugehörigen subject headings:
H.3 INFORMATION STORAGE AND RETRIEVAL
Retrieval models
H.3.0 General
Search process
H.3.1 Content Analysis and Indexing
Selection process
Abstracting methods
H.3.4 System and Software
Dictionaries
Current awareness systems
Indexing methods
(selective dissemination of information-SDI)
Linguistic processing
Information networks
Thesauruses
Question-answering (fact retrieval) systems
H.3.2 Information Storage
H.3.5 Online Information Services
File organization
Data bank sharing
Record classification
H.3.6 Library Automation
H.3.3 Information Search and Retrieval
Clustering
Large text archives
H.3.mMiscellaneous
Query formulation
2.3.3
Thesauri
Nach DIN 1463 ist ein Thesaurus eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Bezeichnungen. Die wesentlichen Merkmale eines Thesaurus sind folgende:
a) terminologische Kontrolle durch
– Erfassung von Synonymen,
– Kennzeichnung von Homographen und Polysemen,
– Festlegung von Vorzugsbenennungen,
b) Darstellung von Beziehungen zwischen Begriffen.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
2.3.3.1
28
Terminologische Kontrolle
Die terminologische Kontrolle soll zur Reduktion von Mehrdeutigkeiten und Unschärfen der natürlichen
Sprache dienen. Hierzu dienen die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle.
Synonymkontrolle
Bei der Synonymkontrolle werden Bezeichnungen zu Äquivalenzklassen zusammengefasst. Man kann
folgende Arten von Synonymie unterscheiden:
• Schreibweisenvarianten
Friseur – Frisör
UN – UNO – Vereinte Nationen
• unterschiedliche Konnotationen, Sprachstile, Verbreitung
Telefon – Fernsprecher
Pferd – Gaul
Myopie – Kurzsichtigkeit
• Quasi-Synonyme
Schauspiel – Theaterstück
Rundfunk – Hörfunk
Im Thesaurus werden darüber hinaus Begriffe mit geringen oder irrelevanten Bedeutungsdifferenzen zu
Äquivalenzklassen zusammengefasst:
• unterschiedliche Spezifität
Sprachwissenschaft – Linguistik
• Antonyme
Härte – Weichheit
• zu spezieller Unterbegriff
Weizen – Winterweizen
• Gleichsetzung von Verb und Substantiv / Tätigkeit und Ergebnis
Wohnen – Wohnung.
Die Entscheidung, ob zwei Begriffe als Quasi-Synonyme zu behandeln sind, hängt dabei immer von der
jeweiligen Anwendung ab.
Polysemkontrolle
Bei der Polysemkontrolle werden mehrdeutige Bezeichnungen auf mehrere Äquivalenzklassen aufgeteilt.
Man kann hierbei noch zwischen Homographen (Bsp. Tenor“) und eigentlichen Polysemen (Bsp. Bank“)
”
”
unterscheiden.
Zerlegungskontrolle
Bei der Zerlegungskontrolle ist die Frage zu beantworten, wie spezifisch einzelne Begriffe im Thesaurus
sein sollen. Gerade im Deutschen mit seiner starken Tendenz zur Kompositabildung (Bs. Donaudampfschiffahrtsgesellschaftskapitän) ist die Bildung zu spezieller Begriffe eine große Gefahr. Diese Präkoordination
führt zu folgenden Nachteilen:
• Der Thesaurus wird zu umfangreich und unübersichtlich.
• Zu einer Äquivalenzklasse gibt es keine oder nur wenige Dokumente in der Datenbank
Den entgegengesetzten Ansatz verfolgt das UNITERM-Verfahren: Hierbei werden nur solche Begriffe
(Uniterms) in den Thesaurus aufgenommen, die nicht weiter zerlegbar sind. Zur Wiedergabe eines Sachverhaltes müssen dann mehrere Uniterms verkettet werden. Diese sogenannte Postkoordination führt
aber zu größerer Unschärfe beim Retrieval (Beispiel: Baum + Stamm = Baumstamm / Stammbaum).
Bei der Thesaurusmethode versucht man, durch einen Kompromiss zwischen beiden Ansätzen deren
Nachteile zu vermeiden.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
2.3.3.2
29
Äquivalenzklasse – Deskriptor
Die terminologische Kontrolle liefert Äquivalenzklassen von Bezeichnungen. Diese können auf zwei verschiedene Arten dargestellt werden:
1. In einem Thesaurus ohne Vorzugsbenennung werden alle Elemente der Äquivalenzklasse gleich
behandelt, d.h., jedes Element steht für die Äquivalenzklasse. Diese Vorgehensweise wird wegen des
erhöhten Aufwands selten angewandt.
2. Bei einem Thesaurus mit Vorzugsbenennung wird ein Element der Äquivalenzklasse zur Benennung ausgewählt. Dieses Element bezeichnet man dann als Deskriptor.
Im folgenden betrachten wir nur Thesauri mit Vorzugsbenennung.
2.3.3.3
Beziehungsgefüge des Thesaurus’
Neben der terminologischen Kontrolle ist die Darstellung von Beziehungen zwischen Begriffen die zweite
Hauptaufgabe eines Thesaurus. Dabei werden verschiedene Arten von Beziehungen unterschieden.
Äquivalenzrelation
Äquivalenzrelationen verweisen von Nicht-Deskriptoren auf Deskriptoren. Sie werden meist bezeichnet
als Benutze Synonym“ (BS) oder im Englischen als USE-Relation. Die Umkehrrelation bezeichnet man
”
als Benutzt für“ (BF, im Englischen “used for” (UF)). Beispiele hierfür sind:
”
(Fernsprecher BS Telefon und Telefon BF Fernsprecher)
Hierarchische Relation
Hierarchische Relationen verbinden jeweils zwei Deskriptoren. Man bezeichnet sie als Unterbegriff“
”
(UB) bzw. Oberbegriff“ (OB), im Englischen “narrower term” (NT) und “broader term” (BT). Beispiele:
”
Obstbaum UB Steinobstbaum und Steinobstbaum OB Obstbaum
Assoziationsrelation
Die Assoziationsrelation verweist von einem Deskriptor auf einen begriffsverwandten anderen Deskriptor.
Im Gegensatz zu den beiden anderen Relationen ist die Assoziationsrelation symmetrisch. Man bezeichnet
sie als verwandter Begriff“ (VB, im Englischen “related term” (RT)). Beispiele:
”
Obstbaum VB Obst und Obst VB Obstbaum
2.3.3.4
Darstellung des Thesaurus
Deskriptor-Einträge
Ein Deskriptor-Eintrag in einem Thesaurus enthält neben der Vorzugsbenennung häufig noch mehrere
der folgenden Angaben:
• Begriffsnummer
• Notation / Deskriptor-Klassifikation
• Scope note / Definition
• Synonyme
• Oberbegriffe / Unterbegriffe
• Verwandte Begriffe
• Einführungs-/ Streichungsdatum
Abbildung 2.7 zeigt ein Beispiel für einen Ausschnitt aus einem Thesaurus.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
Information retrieval
CD-ROM searching
Data access
Document retrieval
Online literature searching
Retrieval, information
BT Information science
NT Query formulation
Query processing
Relevance feedback
RT Bibliographic systems
Information analysis
Information storage
Query languages
UF
UF
BT
RT
30
Query processing
Data querying
Database querying
Query optimisation
Information retrieval
Database management systems
Database theory
DATALOG
Query languages
UF
BT
Query formulation
Search strategies
Information retrieval
BT
Relevance feedback
Information retrieval
Abbildung 2.6: Auszug aus dem Beziehungsgefüge des INSPEC-Thesaurus’
Gesamtstruktur des Thesaurus
Bei einem IR-System, das zur Recherche in einer Datenbasis mit Thesaurus verwendet wird, sollte auch
der Thesaurus zugreifbar sein, wobei spezielle Funktionen zum Suchen im Thesaurus und mit Hilfe des Thesaurus angeboten werden sollten (z.B. wahlweise Einbeziehen von allen Unter-/Oberbegriffen). Daneben ist
der Thesaurus aber meistens auch in gedruckter Form verfügbar. Der Hauptteil eines Thesaurus enthält
dabei die Deskriptor-Einträge, die entweder alphabetisch oder systematisch geordnet sind. Darüber hinaus
enthält ein Thesaurus in der Regel noch zusätzliche Register mit Verweisen auf die Deskriptor-Einträge:
• komplementär zum Hauptteil eine systematische bzw. alphabetische Auflistung der Deskriptoren,
• für mehrgliedriger Bezeichnungen einen speziellen Index für deren Komponenten:
– KWIC – keyword in context
computer system
storage system
system analysis
system design
– KWOC – keyword out of context
system:
computer . . .
storage . . .
. . . analysis
. . . design
2.3.3.5
Thesauruspflege
Da ein Anwendungsgebiet nie statisch ist und man darüber hinaus auch nicht annehmen kann, dass die erste
Version eines Thesaurus bereits alle Ansprüche erfüllt, ist eine ständige Pflege des Thesaurus’ notwendig.
Insbesondere erfordern folgende Faktoren eine laufende Anpassung des Thesaurus’:
• Entwicklung des Fachgebietes,
• Entwicklung der Fachsprache,
• Analyse des Indexierungsverhaltens und der Indexierungsergebnisse,
• Beobachtung des Benutzerverhaltens,
• Analyse der Rechercheergebnisse.
Bei den daraus resultierenden Änderungen muss darauf geachtet werden, dass die Konsistenz des Thesaurus’ erhalten bleibt.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
0.0058
Magnetband
VB Magnetbandlaufwerk
0,0045
Magnetbandgerät
BS Magnetbandlaufwerk NE7
Magnetismus (Forts.)
BF Halleffekt
BF Induktion
OB Elektrodynamik
UB Magnetfeld
BIK Geophysik
BFK Erdmagnetismus
BIK Optik
BFK Faraday-Effekt
0. 0046
Magnetbandkassette
NO NE83
BF Kassette
BF MB-Kassette
OB Datenträger
VB Magnetbandkassettenlaufwerk
0.0070
Magnetkarte
NO NE87
BF Telefonkärtchen
OB Datenträger
VB Kartensystem
0.0051
Magnetbandkassettengerät
BS Magnetbandkassettenlaufwerk NE7
0.0073
Magnetkartensystem
NO ECS
OB Kartensystem
0.0050
Magnetbandkassettenlaufwerk
NO NE7
BF Magnetbandkassettengerät
BF MB-Kassettengerät
OB Datenausgabegrät
OB Dateneingabegerät
OB Datenspeichertechnik
VB Magnetbandkassette
0.0044
Magnetbandlaufwerk
NO NE7
BF Magnetbandgerät
OB Bandgerät
OB Datenausgabegerät
OB Dateneingabegerät
OB Datenspeichertechnik
VB Magnetband
0.0059
Magnetfeld
NO WD2
OB Magnetismus
0.0060
Magnetismus
NO WD2
BF Barkhausen-Effek
BF Ferromagnetismus
0.0074
Magnetkartentelefon
NO GK72
BF Makatel
OB Kartentelefon
0 0077
Magnetplatte
NO NE82
OB Datenspeicher
OB Datenträger
VB Magnetplattenlaufwerk
BIK Datenspeicher
BFK Plattenspeicher
0.0081
Magnetplattengerät
BS Magnetplattenlaufwerk NE7
0.0079
Magnetplattenlaufwerk
NO NE7
BF Magnetplattengerät
OB Datenausgabegerät
OB Dateneingabegerät
OB Datenspeichertechnik
VB Magnetplatte
Abbildung 2.7: Auszug aus einem Thesaurus
31
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
2.3.4
32
Ontologien
Ontologien sind in den letzten Jahren sehr populär geworden. Sie haben ihren Ursprung in den semantische
Netzen aus der künstlichen Intelligenz, die zuerst in den 1970er konzipiert wurden, dann stärker formalisiert als terminologische Logiken bzw. Beschreibungslogiken diskutiert wurden und seit einigen Jahren
nun im Zusammenhang mit dem “semantic web” wieder aufgelebt sind. Es gibt eine ganze Reihe von Formalismen/Sprachen für Ontologien. Am populärsten sind das vom W3C schon vor mehr als zehn Jahren
vorgestellte RDF (Resource Description Framework) und RDF Schema, sowie das deutlich jüngere OWL
(Web Ontology Language). Wir gehen hier nicht auf die Besonderheiten der einzelnen Ansätze ein, sondern
beschreiben nur die wesentlichen Ideen.
Ontologien vereinigen Konzepte aus Datenbankschemata und Thesauri in sich: Von den Thesauri wurden die Begriffshierarchien sowie die Relationen zwischen den Begriffen übernommen. Von den DatenbankSchemata stammen die Attribute, Beziehungstypen und insbesondere die Möglichkeit, Instanzen zu Konzepten zu benennen, wobei die möglichen Instanzen durch Bezugnahme auf Datentypen eingeschränkt
werden können.
2.3.4.1
Ontologien: Konstrukte
Ontologiesprachen stellen folgende Konstrukte zur Definition einer Ontologie bereit: Konzepte/Klassen,
Vererbungsbeziehungen, Eigenschaften/Relationen, sowie Instanzen. Einige Sprachen bieten zudem die
Möglichkeit, zusätzlich Regeln zu definieren.
Konzepte/Klassen. Konzepte einer Ontologie werden üblicherweise als Klassen aufgefasst, wobei eine
Klasse eine Menge von Instanzen mit gleichen oder ähnlichen Eigenschaften umfasst (analog zu objektorientierter Programmierung). Beispiele wären etwa Student als Klasse aller Studenten, Reiseziel als Menge
aller möglichen Destinationen sowie Information Retrieval als Menge aller möglichen IR-Themen.
Vererbung ist ebenfalls wie in der objektorientierten Programmierung als Teilmengenbeziehung zwischen Klassen definiert. So sind etwa Bachelor-Student und Master-Student Unterklassen von Student,
Hiwi ist sowohl Unterklasse von Student als auch von Mitarbeiter, und Klassifikation und Indexierung
sind Unterklassen von Information Retrieval. Allerdings muss man beachten, dass nicht alle OntologieSprachen Mehrfachvererbung erlauben.
Slots: Eigenschaften/Relationen. Ein Konzept hat i.d.R. mehrere Slots, wobei ein Slot eine Eigenschaft oder eine Beziehung/Relation beschreibt; zwischen diesen Aspekten wird allerdings nicht unterschieden. Die Instanzen eines Konzeptes unterscheiden sich in den Werten für die Slots. Der Wert ist
entweder von elementarem Datentyp oder einer Klasse. Für das Konzept Student könnten wir etwa als
Eigenschaften Name: string, Matrikelnr: integer, Semester: integer definieren und als Relationen studiert
→ Studiengang, hört → Vorlesung.
Die zulässigen Werte für einen Slot lassen sich auf verschiedene Arten einschränken. Zunächst unterscheidet man bei einem Slot zwischen Domain und Range. Dabei bezeichnet Domain die Menge der
Konzepte, bei denen dieser Slot vorkommt, und Range ist Klasse bzw. der Datentyp, der als Wert für
den Slot zulässig ist. Für obiges Beispiel haben wir etwa Domain(Name)= {Mitarbeiter,Student}, Range(Name)=string sowie Domain(studiert)={Student}, Range(studiert) = Studiengang.
Die zweite Möglichkeit der Einschränkung betrifft die Kardinalität eines Slots; hier kann man üblicherweise die minimale und die maximale Anzahl von Werten angeben, die ein einzelner Slot haben darf – in
unserem Beispiel etwa card(Name)=(1,1) und card(studiert)= (1,2).
Als Drittes kann man auch Vererbungsbeziehungen auf Slots definieren. Dann sind die Instanzen
des spezielleren Slots auch Instanzen des generelleren Slots. So könnte man etwa hört Pflicht und
hört Wahlpflicht als Spezialisierung von hört definieren. Der speziellere Slot kann (muss aber nicht) bzgl.
Domain, Range, oder Kardinalität eingeschränkt sein.
Schließlich gibt es noch die Möglichkeit, einen Default-Wert für einen Slot anzugeben, der gilt, solange
kein expliziter Slot-Wert angegeben wird.
Bei der Vererbung werden die Slots an die Unterklassen vererbt – wie bei der objektorientierten Programmierung. Somit erbt eine Unterklasse alle Slots ihrer Oberklasse, sie kann aber weitere Slots haben.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
33
Zudem können die vererbten Slots eingeschränkt werden: entweder bzgl. des Range (zulässige Werte),
indem man eine Unterklasse des Range der Oberklasse angibt (Bs.: Ingenieurstudent studiert → Ingenieurstudiengang), bzgl. der Kardinalität (Bs.: Diplomand: card(hört) = (0,0)), oder indem man den Slot
durch einen spezielleren ersetzt.
Eingabe von Instanzen. Nachdem man die Klassen mit ihren Slots definiert hat, kann man die Ontologie mit Instanzen füllen, zu denen man die jeweiligen Slot-Werte angibt. Dabei muss die Instanz einer
Klasse alle Bedingungen der Klasse erfüllen.
2.3.4.2
Retrieval
Nach dem Füllen der Ontologie mit Instanzen kann man Retrieval auf der Datenbasis durchführen. Dabei
sucht man nach Instanzen einer Klasse (mit allen Unterklassen), die zusätzlich bestimmte Wertebedingungen erfüllen, z.B. Ingenieurstudenten mit Zweitstudiengang“ oder Studenten mit mehr als 8 Semestern,
”
”
die IR hören“
Abbildung 2.8: Retrieval mit YAGO
Abbildung 2.9: Ontologie-Browser zu YAGO
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
34
Ein Beispiel für ein Ontologie-basiertes Retrievalsystem ist YAGO1 , das in automatisch extrahierten
Instanzen aus Wikipedia sucht (siehe Abbildung 2.8). Zu YAGO gehört auch der in Abbildung 2.9 gezeigte
Ontologie-Browser.
Abbildung 2.10: Freebase: Erste Antwort zu Angela Merkel“
”
Ein anderes Ontologie-basiertes System ist Freebase2 , das auf einer manuell erstellten Dokumentenund Faktenbasis basiert. Als Beispiel zeigt Abbildung das erste Antwortdokument auf die Frage nach
Angela Merkel“.
”
2.3.4.3
Werkzeuge und Anwendungen
Für die Entwicklung von Ontologien gibt es spezielle Ontologie-Editoren. Neben der graphischen Darstellung der Ontologie überprüfen diese die Widerspruchsfreiheit der Ontologie sowie die Erfüllung der
Konsistenzbedingungen für die eingegebenen Instanzen. Abbildung 2.11 zeigt als Beispiel den Editor Protegé3 Eine Auflistung weiterer Editoren findet sich z.B. bei Wikipedia4 .
Wiederverwendung von Ontologien. Um nicht für jede neue Anwendung eine eigene Ontologie definieren zu müssen, sollte man zunächst versuchen, vorhandene Ontologien wiederzuverwenden. Hierzu gibt
1 http://www.mpi-inf.mpg.de/yago-naga/yago/demo.html
2 http://www.freebase.com
3 http://protege.stanford.edu
4 http://en.wikipedia.org/wiki/Ontology_editor
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
35
Abbildung 2.11: Oberfläche des Ontologie-Editors Protegé
es zum einen Ontologie-Bibliotheken, die frei verfügbare Ontologien sammeln, und zum anderen gibt es
generelle Ontologien, die man für eigene Zwecke geeignet verfeinern kann. Populäre Beispiele für letzter
sind etwa die DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering)5 , Cyc6 , DMOZ7
und WordNet8 .
2.3.5
Tagging
Bei den bislang vorgestellten Dokumentationssprachen wird davon ausgegangen, dass sowohl die Pflege des
Vokabulars als auch die Zuordnung von Deskriptionen zu Dokumenten durch speziell geschulte Fachkräfte
erfolgt. Dies bedeutet einen hohen personellen Aufwand sowohl für die Erstellung und Pflege des Vokabulars
als auch die Erschließung der einzelnen Dokumente. Im Gegensatz dazu werden beim Tagging all diese
Aufgaben von den Endbenutzern übernommen. Dieses Verfahren eignet sich besonders für nicht-textuelle
Dokumente wie z.B. Bilder, Videos oder Musik, wird aber auch auf Textdokumente wie etwa Webseiten
(delicious9 ), Bücher (Librarything10 ) oder wissenschaftliche Artikel (Mendeley11 ) angewandt. Durch die
Verteilung der Vokabulararbeit wie auch der Erschließung auf die Benutzer wird der damit verbundene
hohe Aufwand auf viele Schultern verteilt, so dass die Arbeit für den Einzelnen leicht zu erledigen ist.
Als Vorteile von Tagging sind zu nennen:
• die einfache, intuitive Nutzung,
• die Flexibilität und einfache Erweiterbarkeit des Vokabulars, womit auf sich ändernde Terminologie
wie auch auf aktuelle Trends eingegangen werden kann,
• die Inklusivität – es werden populäre Themen ebenso wie Spezialthemen abgedeckt,
5 http://www.loa-cnr.it/DOLCE.html
6 http://www.cyc.com
7 http://www.dmoz.org
8 http://www.cogsci.princeton.edu/~wn/
9 http://del.icio.us/
10 http://www.librarything.com
11 http://www.mendeley.com
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
36
Abbildung 2.12: Tagging in Librarything
• das Gemeinschaftsgefühl, das durch das Teilen/Entdecken in sozialen Kontexten entsteht,
• die Möglichkeiten zur Berücksichtigung beliebiger Facetten bei der Beschreibung,
• die Unterstützung unterschiedlicher Benutzerbedürfnisse/Sichten,
• die potenzielle Möglichkeit zur Lösung des Vokabularproblems (wie bei allen Dokumentationssprachen),
• die Verwendung des Benutzervokabulars zur Beschreibung.
Diesen Vorteilen stehen allerdings eine Reihe von Nachteilen gegenüber:
• Inkonsistenzen bzgl. Terminologie und Abdeckung,
• erschwerte Suche durch mehrdeutige Tags und Redundanzen,
• Rauschen durch idiosynkratische Tags,
• Verschleiern der Information durch Konzentration auf Popularität,
• Verlagerung des eigentlichen Erschließungsaufwands auf die den Zeitpunkt der Suche: tagging bull”
dozes the cost of classification and piles it onto the price of discovery“ (Davis).
Darüber hinaus gibt es noch weitere Probleme:
• das Kaltstart-Problem: Zu Beginn gibt es noch wenige Dokumente und daher gibt es noch keine Vokabular, aus dem man wählen könnte, was dazu führt, dass die vergebenen Tags wenig differenzieren,
• verrauschte Daten – einige Tags sind nutzlos für die Community,
• Tippfehler,
• schlechte Informationskodierung, insbesondere durch ungewöhnliche zusammengesetzte Terme ( in”
foretriev“)
• Tags, die keinen Konventionen folgen ( topic: information retrieval“),
”
• nur einmal benutze Tags und persönliche Tags ( ar15a“, @home“),
”
”
• Verwendung von Minderheiten-Vokabularen,
• Antisoziales Tagging in der Form von Spam.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
37
Zusammenfassend lässt sich feststellen, dass Tagging insbesondere für nicht-textuelle Dokumente hilfreich
ist, wovon auch seine breite Verwendung bei Multimedia-Portalen zeugt. Prinzipielle Vorteile sind zudem
die benutzerorientierte Beschreibung von Objekten sowie das flexible Vokabular. Nachteilig ist allerdings
die meist fehlende Strukturierung des Vokabulars, was sowohl die Navigation im Vokabular als auch die automatische Einbeziehung von Unter-/Oberbegriffen und Synonymen bei der Suche verhindert; zwar gibt es
auch hier unter dem Begriff Folksonomies“ Ansätze zur gemeinsamen Erstellung strukturierter Vokabula”
re, aber diese haben stark mit der Vielfalt der Benutzersichten zu kämpfen. Der schwerwiegendste Nachteil
beim Tagging ist allerdings, dass fast alle eingangs dieses Kapitels genannten Probleme der Freitextsuche
auch hier nicht gelöst werden.
2.3.6
Dokumentationssprachen vs. Freitext
Beim Vergleich mit der Freitextsuche sind folgende Vor- und Nachteile von Dokumentationssprachen zu
nennen:
+ Durch die Abbildung verschiedener Textformulierungen auf eine einzige Bezeichnung kann ein höherer
Recall erreicht werden.
+ Da das kontrollierte Vokabular keine mehrdeutigen Begriffe zulässt, kann auch eine höhere Precision
erreicht werden.
+ Da ein Benutzer ein gesuchtes Konzept nur auf die entsprechende Benennung in der Dokumentationssprache abbilden muss, ergibt sich eine größere Benutzerfreundlichkeit.
– Die Benutzung des Systems setzt die Kenntnis der Dokumentationssprache voraus; für gelegentliche
Benutzer ist diese Hürde zu hoch.
– Aufgrund der i.a. groben Granularität des kontrollierten Vokabulars kann bei spezifischen Anfragen
die Precision im Vergleich zur Freitextsuche sinken.
– Bei der Eingabe neuer Dokumente in die Datenbasis erhöht sich der Erschließungsaufwand deutlich,
weil die Klassifikation bzw. Indexierung meist manuell erfolgt. Allerdings verringert sich durch diese
Maßnahme der Aufwand bei den Recherchen, so dass die Gesamtbilanz wohl eher positiv ist.
Um die Nachteile des kontrollierten Vokabulars bei der Recherche zu kompensieren, kombinieren heutige
kommerziell angebotenen Datenbasen beide Suchmöglichkeiten, so dass die Dokumentationssprache die
Freitextsuche ergänzt.
2.4
Beurteilung der Verfahren zur Repräsentation von Textinhalten
• Obwohl rein intuitiv die Vorteile von Dokumentationssprachen überzeugen, ist deren Nutzen jedoch wissenschaftlich sehr umstritten. Der Grund hierfür ist die unzureichende experimentelle Basis für diesen Vergleich. Seit den Anfang der 60er Jahre von Cyril Cleverdon geleiteten CranfieldExperimenten [Cleverdon 91], wo alle Dokumentationssprachen deutlich schlechter abschnitten als
eine Freitextsuche mit Terms in Stammform, neigt die Mehrzahl der IR-Forscher zu der Ansicht,
dass Dokumentationssprachen überflüssig sind. Allerdings wurden die damaligen Experimente mit
nur 1400 Dokumenten durchgeführt, so dass die Gültigkeit der Resultate für heutige Datenbasen
in der Größenordnung von 106 Dokumenten mit Recht bezweifelt werden muss. Auch einige wenige
neuere Vergleiche [Salton 86] lassen keine endgültige Aussage zu dieser Problematik zu.
• Im Rahmen der TREC-Initiative werden verschiedene IR-Verfahren auf Datenbasen mit mehreren
GB Text angewendet und die Ergebnisse miteinander verglichen. Die auf den TREC-Konferenzen
[Voorhees & Harman 00] präsentierten Ergebnisse zeigen, dass halb-formale Konzepte (wie z.B. geographische oder Datumsangaben) durch eine reine Freitextsuche nicht abzudecken sind, so dass
zumindest für diesem Bereich Dokumentationssprachen notwendig sind.
• Es liegt nahe, nach dem Einsatz von wissensbasierten Verfahren im IR zu fragen. Frühere Studien (z.B. [Krause 92]) haben den anfänglichen Optimismus stark gedämpft. Die seit einigen Jahren
populären Semantic-Web-Ansätze sind bislang ebenfalls den Nachweis schuldig geblieben, dass sie
für Datenbanken realistischer Größenordnung traditionellen Ansätzen (wie z.B. Thesauri) überlegen
sind.
KAPITEL 2. WISSENSREPRÄSENTATION FÜR TEXTE
38
• Syntaktische Verfahren sind wohl hauptsächlich für die Identifikation von Nominalphrasen einsetzbar.
• Maschinenlesbare Wörterbücher sind in immer größerem Maße verfügbar. Sie unterstützen die morphologische Analyse bei stark flektierten Sprachen und die Erkennung von Nominalphrasen. Einige
Forschungsgruppen untersuchen auch deren Einsatz für die Disambiguierung von Begriffen.
2.5
2.5.1
Zusammenhang zwischen Modellen und Repräsentationen
Textrepräsentation für IR-Modelle
Abschließend zu diesem Kapitel soll eine Einordnung der verschiedenen vorgestellten Ansätze zur Repräsentation von Textinhalten im Hinblick auf ihre Kombination mit IR-Modellen versucht werden.
2.5.2
Repräsentationen und Beschreibungen für einfache statistische Modelle
Zunächst illustrieren wir die Vorgehensweise bei der Freitextindexierung an einem Beispieltext:
Experiments with Indexing Methods.
The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The
best indexing technique for retrieving documents is not known.
Zunächst werden die (oben unterstrichenen) Stoppwörter entfernt:
experiments indexing methods analysis indexing algorithms produced consistent retrieval
performance best indexing technique retrieving documents known.
Die anschließende Stammformreduktion liefert folgendes Ergebnis:
experiment index method analys index algorithm produc consistent retriev perform best index
techni retriev document.
Die einfachsten IR-Modelle betrachten Dokumente als Mengen von Terms, so dass die zugehörige Repräsentation eines Dokumentes wie folgt aussieht:
algorithm analys best consistent document experiment index method perform produc retriev
techni.
Wir nehmen nun an, dass wir ein Dokument durch einen Beschreibungsvektor ~x = (x1 , . . . , xn ) repräsentieren, wobei die Komponente xi jeweils das Vorkommen des Terms ti ∈ T = {t1 , . . . , tn } in dem aktuellen
Dokument beschreibt.
Im Falle einer Term-Menge sind die Vektor-Komponenten binär, also xi = 1, falls ti im Dokument
vorkommt, und xi = 0 sonst.
Als eine Verbesserung dieser Repräsentationsform kann man die Vorkommenshäufigkeit des Terms im
Dokument berücksichtigen. Somit haben wir jetzt eine Multi-Menge von Terms, repräsentiert durch
xi ∈ {0, 1, 2, . . .}.
Die semantische Sicht auf Texte besteht hier also aus dieser Multimenge von Terms. Die eigentliche
Semantik (z.B. die Unterscheidung zwischen wichtigen und unwichtigen Wörtern) kommt jedoch durch das
auf diese Sicht aufbauende Retrievalmodell zustande, und zwar bei der Abbildung auf die Objektattribute
mit Hilfe von statistischen Verfahren!
Kapitel 3
Nicht-probabilistische IR-Modelle
3.1
Notationen
Q
R
αQ
Q
βQ
QD
ρ
rel.
IR
judg.
D
αD
D
βD
DD
Abbildung 3.1: Konzeptionelles Modell für Textretrieval
Als grundlegendes konzeptionelles Modell für alle Arten von Modellen für (Text-)Retrieval verwenden
wir das in Abb. 3.1 dargestellte Modell, das eine Vereinfachung des in Abschnitt 1.6 vorgestellten allgemeinen Modells ist. Dabei steht D für die Menge der Dokumente in der Datenbasis und Q für die Menge
der Anfragen an das IRS. Zwischen den Dokumenten und den Anfragen besteht die Relevanzbeziehung,
die hier als Abbildung in die Menge R der möglichen Relevanzurteile aufgefasst wird. Die in dem IRS
repräsentierte semantische Sicht von Dokumenten bezeichnen wir im folgenden einfach als Dokumentrepräsentationen D und die formalisierten Anfragen als Frage-Repräsentationen Q. Diese entstehen aus den
ursprünglichen Objekten durch die Abbildungen αD und αQ . Eine Dokumentrepräsentation kann z.B. eine
Menge von Terms mit zugehörigen Vorkommenshäufigkeiten sein, eine Frage-Repräsentation ein boolescher
Ausdruck mit Terms als Operanden.
Die Repräsentationen werden für die Zwecke des Retrievals in Dokumentbeschreibungen (Objektattribute) DD und Fragebeschreibungen (logische Frageformulierung) QD überführt. Die Retrievalfunktion
% vergleicht für Frage-Dokument-Paare diese Beschreibungen und berechnet daraus das Retrievalgewicht,
das i.a. eine reelle Zahl ist. Die Erstellung der Beschreibungen aus den Repräsentationen und die (mehr
oder weniger begründete) Definition einer Retrievalfunktion hängt von dem jeweils zugrunde gelegten
Retrievalmodell ab. In diesem und dem folgenden Kapitel werden verschiedene solcher Retrievalmodelle beschrieben, die nicht nur in der Retrievalfunktion, sondern auch schon bzgl. der zugrunde gelegten
Repräsentationen und den daraus abgeleiteten Beschreibungen, differieren.
Nachstehend verwenden wir außerdem folgende Abkürzungen:
T = {t1 , . . . , tn }: Indexierungsvokabular
q k : Frage
qk : Frage-Repräsentation
qkD :
Frage-Beschreibung
(formalisierte Anfrage)
(Fragelogik)
dm : Dokument
dm : Dokument-Repräsentation
(semantische Sicht)
39
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
40
dD
(Objektattribute)
m : Dokument-Beschreibung
d~m = {dm1 , . . . , dmn }: Dokument-Beschreibung als Menge von Indexierungsgewichten.
3.2
Überblick über die Modelle
theoretische
Basis
Bezug zur
Retrievalqualität
gewichtete
Indexierung
gewichtete
Frageterme
Fragestruktur:
– linear
– boolesch
Boolesch
Boolesche
Logik
Fuzzy
FuzzyLogik
(x)
Vektor
VektorraumModell
Probabilistisch
WahrscheinlichkeitsTheorie
x
Sprachmodelle
Statistische
Sprachmodelle
(x)
x
x
x
x
(x)
x
x
x
x
(x)
x
(x)
x
x
x
Abbildung 3.2: IR-Modelle
In diesem und dem folgenden Kapitel behandeln wir die wichtigsten IR-Modelle: Boolesches und Fuzzy
Retrieval, das Vektorraummodell, das probabilistische (Relevanz-orientierte) Modell sowie das statistische
Sprachmodell. Abbildung 3.2 gibt eine Einordnung der hier und im folgenden Kapitel behandelten IRModelle. Eingeklammerte Markierungen bedeuten dabei, dass dieses Merkmal im Prinzip zutrifft, diese
Variante des Modells allerdings hier nicht behandelt wird.
3.3
Boolesches Retrieval
Boolesches Retrieval ist historisch als erstes Retrievalmodell entwickelt und eingesetzt worden. Vermutlich
hat Taube als erster dieses Modell zugrunde gelegt, um Retrieval mit Hilfe von Schlitzlochkarten durchzuführen. Auch als man später die Dokumente auf Magnetbändern speicherte, war boolesches Retrieval das
einzig anwendbare Modell: aufgrund der geringen Speicherkapazität damaliger Rechner musste direkt nach
dem Einlesen des Dokumentes entschieden werden, ob es als Antwort ausgedruckt werden sollte oder nicht.
Nachdem sich die Rechnerhardware rasant weiterentwickelt hat, findet man Boolesches Retrieval heute nur
noch in Nischenanwendungen wie etwa Bibliothekskatalogen, Referenzretrieval oder Patentrecherche.
Beim booleschen Retrieval sind die Dokumenten-Beschreibungen DD ungewichtete Indexierungen, d.h.
~
dD
m = dm
mit dmi {0, 1}
für i = 1, . . . , n
(3.1)
Die Frage-Beschreibungen QD sind boolesche Ausdrücke, die nach folgenden Regeln gebildet werden:
1. ti T ⇒ ti QD
2. q1 , q2 QD ⇒ q1 ∧ q2 QD
3. q1 , q2 QD ⇒ q1 ∨ q2 QD
4. qQD ⇒ ¬q QD
Die Retrievalfunktion % kann man analog zu diesen Regeln ebenso rekursiv definieren:
1. ti T ⇒ %(ti , d~m ) = dmi
2. %(q1 ∧ q2 , d~m ) = min(%(q1 , d~m ), %(q2 , d~m ))
3. %(q1 ∨ q2 , d~m ) = max(%(q1 , d~m ), %(q2 , d~m ))
4. %(¬q, d~m ) = 1 − %(q, d~m )
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
41
Aufgrund der binären Gewichtung der Terme in der Dokumentbeschreibung kann die Retrievalfunktion
ebenfalls nur die Retrievalgewichte 0 und 1 liefern. Daraus resultiert als Antwort auf eine Anfrage eine
Zweiteilung der Dokumente der Datenbasis in gefundene (% = 1) und nicht gefundene (% = 0) Dokumente.
In realen IR-Systemen ist boolesches Retrieval meist nur in einer etwas modifizierten Form implementiert: Gegenüber der Darstellung hier ist die Verwendung der Negation derart eingeschränkt, dass
diese nur in Kombination mit der Konjunktion verwendet werden darf, also z.B. in der Form a ∧ ¬b; eine
Anfrage der Form ¬b oder a ∨ ¬b ist hingegen nicht zulässig. Die Gründe für diese Einschränkung sind
implementierungstechnischer Art.
3.3.1
Mächtigkeit der booleschen Anfragesprache
Ein wesentlicher (theoretischer) Vorteil der booleschen Anfragesprache besteht in ihrer Mächtigkeit. Man
kann zeigen, dass mit einer booleschen Anfrage jede beliebige Teilmenge von Dokumenten aus einer Datenbasis selektiert werden kann. Voraussetzung ist dabei, dass alle Dokumente unterschiedliche Indexierungen
(Beschreibungen) besitzen.
Zu einer vorgegebenen Dokumentmenge D0 ⊆ D konstruiert man dann die Frageformulierung q, die
genau diese Dokumente selektiert, wie folgt: Zunächst wird für jedes Dokument eine Frage qm konstruiert,
die nur dieses Dokument selektiert; anschließend werden diese Teilfragen für alle Dokumente dm ∈ D0
disjunktiv miteinander verknüpft.
qm
xm i
q
= xm1 ∧ . . . ∧ xmn mit
ti falls dmi = 1
=
¬ti sonst
_
=
qj
dj D 0
Dieser theoretische Vorteil ist aber (im Gegensatz zu Datenbanksystemen) von geringer praktischer
Bedeutung; da ein Benutzer in der Regel nicht genau weiß, wie die zu seiner Frage relevanten Dokumente
aussehen, kann er auch die Anfrage nicht entsprechend der hier skizzierten Vorgehensweise formulieren.
3.3.2
Nachteile des booleschen Retrieval
In der IR-Forschung ist man sich seit langem darüber einig, dass das boolesche Modell ziemlich ungeeignet für die Anwendung im IR ist [Verhoeff et al. 61]. In [Salton et al. 83] werden folgende Nachteile für
boolesches Retrieval genannt:
1. Die Größe der Antwortmenge ist schwierig zu kontrollieren.
2. Es erfolgt keine Ordnung der Antwortmenge nach mehr oder weniger relevanten Dokumenten.
3. Es gibt keine Möglichkeit zur Gewichtung von Fragetermen oder zur Berücksichtigung von gewichteter Indexierung.
4. Die Trennung in gefundene und nicht gefundene Dokumente ist oftmals zu streng:
Zu q = t1 ∧ t2 ∧ t3 werden Dokumente mit zwei gefundenen Termen genauso zurückgewiesen wie
solche mit 0 gefundenen Termen.
Analog erfolgt für q = t1 ∨ t2 ∨ t3 keine Unterteilung der gefundenen Dokumente
5. Die Erstellung der Frageformulierung ist sehr umständlich und überfordert daher gelegentliche Benutzer.
6. Die Retrievalqualität von booleschem Retrieval ist wesentlich schlechter als die von anderen Retrievalmodellen (s. nächster Abschnitt).
Trotz dieser Nachteile wird das boolesche Retrieval heute immer noch in bestimmten Bereichen wie z.B.
dem Patentretrieval eingesetzt, wo erfahrene Rechercheure davon überzeugt sind, dadurch eine bessere
Kontrolle über die vom System gelieferten Antworten zu haben. Ferner spielen boolesche Anfragen bei
Rechtsstreitigkeiten (z.B. in den USA) eine Rolle, wo eine beklagte Firma genau jene Dokumente herausgeben muss, die eine zuvor ausgehandelte boolesche Frageformulierung erfüllen.
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
t2
t2
1
1
0.6
42
ρ (t1 | t2, d)=0.6
0.6
ρ (t1 & t2, d)=0.6
0.6
1
t1
0.6
1
t1
Abbildung 3.3: Punkte mit gleichem Retrievalgewicht beim Fuzzy-Retrieval und Varianten
3.4
Fuzzy-Retrieval
Als ein Ansatz, um einige der Nachteile von booleschem Retrieval zu überwinden, wurde basierend auf
der Theorie der Fuzzy-Logik [Zadeh 65] Fuzzy-Retrieval vorgeschlagen. Im Unterschied zum booleschen
Modell werden hier bei den Dokumenten-Beschreibungen nun auch gewichtete Indexierungen zugelassen,
d.h. dmi [0, 1]. Frage-Beschreibungen und Retrievalfunktion sind wie beim booleschen Retrieval definiert.
Durch die gewichtete Indexierung liefert die Retrievalfunktion jetzt Werte %(qkD , d~m )[0, 1]. Damit ergibt sich im Gegensatz zum booleschen Modell nun eine Rangordnung der Antwortdokumente, und die
diesbezüglichen Nachteile des booleschen Retrievals entfallen. Theoretische Überlegungen wie auch experimentelle Untersuchungen zeigen aber, dass die Definition der Retrievalfunktion ungünstig ist. Wir
illustrieren dies zunächst an einem Beispiel:
T = {t1 , t2 }
q = t1 ∧ t2
~
d1 = (0.6, 0.6) , d~2 = (1.00, 0.59)
%(q, d~1 ) = 0.6 , %(q, d~2 ) = 0.59
Obwohl hier d2 bezüglich t2 ein deutlich höheres Indexierungsgewicht als d1 hat, gibt das um 0.01 niedrigere Gewicht bzgl. t1 den Ausschlag für das insgesamt höhere Retrievalgewicht von d1 . Der Grund hierfür ist
die Verwendung der Minimum-Funktion bei der konjunktiven Verknüpfung. In der Abb. 3.4 ist jeweils für
Konjunktion und Disjunktion die Menge aller Paare von Gewichten (dm1 , dm2 ) markiert, für die sich ein
Retrievalgewicht von 0.6 ergibt (schwarz gestrichelte, rechtwinklige Linien). Offensichtlich wäre es wünschenswert, wenn man zumindest eine teilweise Kompensation der Gewichte für die verschiedenen Terme
aus der Anfrage zulassen würde, wie dies die anderen beiden Kurven andeuten. In [Lee et al. 93] werden die hierzu aus der Fuzzy-Theorie bekannten T-Normen sowie eigene Erweiterungsvorschläge evaluiert;
dabei zeigt sich dass die hier vorgestellte Standarddefinition der Fuzzy-Operatoren relativ schlecht abschneidet. Ein alternatives Modell ist unter dem Namen Extended Boolean Retrieval“ in [Salton et al. 83]
”
beschrieben worden.
In der gleichen Veröffentlichung werden auch experimentelle Ergebnisse zum Vergleich von booleschen
und Fuzzy-Retrieval mit dem Vektorraummodell präsentiert. Tabelle 3.1 zeigt diese Ergebnisse in Form
mittlerer Precision-Werte (für die Recall-Punkte 0.25, 0.5 und 0.75)1 .
1 Das teilweise schlechtere Abschneiden von Fuzzy- gegenüber booleschem Retrieval ist dabei wohl auf die verwendete
Evaluierungsmethode zurückzuführen, die für mehrere Dokumente im gleichen Rang ungeeignet ist.
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
Kollektion
#Dok.
#Fragen
Bool.
Fuzzy
Vektor
MEDLARS
1033
30
0.2065
0.2368
0.5473
ISI
1460
35
0.1118
0.1000
0.1569
43
INSPEC
12684
77
0.1159
0.1314
0.2325
CACM
3204
52
0.1789
0.1551
0.3027
Tabelle 3.1: Mittlere Precision für Boolesches Retrieval, Fuzzy-Retrieval und Vektorraummodel
3.4.1
Beurteilung des Fuzzy-Retrieval
Zusammengefasst bietet Fuzzy-Retrieval folgende Vor- und Nachteile:
+ Durch Generalisierung des booleschen Retrieval für gewichtete Indexierung ergibt sich eine Rangordnung der Dokumente.
– Der Ansatz erlaubt zunächst keine Fragetermgewichtung. Es wurden zwar einige Vorschläge hierzu
gemacht (siehe den Überblick in [Bookstein 85]), die aber allesamt wenig überzeugen; zudem wurde
keiner dieser Ansätze evaluiert. Den besten Vorschlag zur Behandlung dieser Problematik stellt das
oben erwähnte Extended Boolean Retrieval“ dar.
”
– Die Retrievalqualität ist immer noch schlecht im Vergleich z.B. zum Vektorraummodell.
– Da die Frageformulierungen die gleichen wie beim booleschen Retrieval sind, bleibt der Nachteil der
umständlichen Formulierung bestehen.
3.5
Das Vektorraummodell
Das Vektorraummodell (VRM) ist wahrscheinlich das bekannteste Modell aus der IR-Forschung. Es wurde
ursprünglich im Rahmen der Arbeiten am SMART-Projekt entwickelt [Salton 71]. SMART ist ein experimentelles Retrievalsystem, das von Gerard Salton und seinen Mitarbeitern seit 1961 zunächst in Harvard
und später in Cornell entwickelt wurde. In den 80er Jahren wurde das Modell nochmals von Wong und
Raghavan überarbeitet [Raghavan & Wong 86].
Im VRM werden Dokumente und Fragen (bzw. deren Beschreibungen) als Punkte in einem Vektorraum
aufgefasst, der durch die Terme der Datenbasis aufgespannt wird. Beim Retrieval wird dann nach solchen
Dokumenten gesucht, deren Vektoren ähnlich (im Sinne einer vorgegebenen Metrik) zum Fragevektor sind.
Durch diese geometrische Interpretation ergibt sich ein sehr anschauliches Modell.
Der zugrundeliegende Vektorraum wird als orthonormal angenommen, d.h.
• alle Term-Vektoren sind orthogonal (und damit auch linear unabhängig), und
• alle Term-Vektoren sind normiert.
Diese Annahmen stellen natürlich eine starke Vereinfachung gegenüber den realen Verhältnissen dar. (In
[Wong et al. 87] wird alternativ hierzu versucht, explizit einen solchen orthonormalen Vektorraum zu konstruieren, dessen Dimensionalität deutlich niedriger als |T | ist.)
Die im VRM zugrunde gelegte Dokument-Beschreibung ist ähnlich der des Fuzzy-Retrieval eine gewichtete Indexierung; allerdings sind hier neben Gewichten größer als 1 prinzipiell auch negative Gewichte
zulässig (obwohl negative Gewichte in SMART nie verwendet werden):
~
dD
m = dm
mit dmi IR
für i = 1, . . . , n
(3.2)
Die Frage-Beschreibungen haben die gleiche Struktur wie die Dokument-Beschreibungen:
qkQ = ~qk
mit qki IR
für i = 1, . . . , n
(3.3)
Als Retrievalfunktion werden verschiedene Vektor-Ähnlichkeitsmaße (z.B. das Kosinus-Maß) angewendet.
Meistens wird mit dem Skalarprodukt gearbeitet:
%(~qk , d~m ) = ~qk · d~m
(3.4)
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
term
retrieval
experiment
weight
index
XML
method
binary
RSV
qki
1
1
1
1
d1i
0.33
0.33
d2i
0.33
0.33
44
d3i
0.25
0.25
0.25
d4i
0.25
0.25
0.25
0.25
0.25
0.75
1.00
0.33
0.33
0.66
0.66
Tabelle 3.2: Beispiel zu VRM mit Skalarprodukt
Das Beispiel in Tabelle 3.2 illustriert die Anwendung des VRM für die Anfrage retrieval experiments
”
with weighted indexing“
Entsprechend den Retrievalgewichten werden die Dokumente in der Reihenfolge d4 , d3 , (d1 , d2 ) ausgegeben.
3.5.1
Coordination Level Match
Eine vereinfachte Variante des Vektorraummodells ist der Coordination Level Match. Dabei sind sowohl
für Frage- als auch für Dokumenttermgewichtung nur die binären Werte 0 und 1 zugelassen. Die DokumentBeschreibung ist somit die gleiche wie beim Booleschen Retrieval:
~
dD
m = dm
mit dmi ε{0, 1}
für i = 1, . . . , n.
Die Frage-Beschreibung ist ebenfalls ein binärer Vektor:
qkD = ~qk
mit qki ε{0, 1}
für i = 1, . . . , n.
Als Retrievalfunktion verwendet man meist das Skalarprodukt; dadurch zählt die Retrievalfunktion die
Anzahl der Frageterme, die im jeweiligen Dokument vorkommen:
%(~qk , d~m ) = ~qk · d~m = |qkT ∩ dTm |
3.5.2
Dokumentindexierung
Das VRM macht keine Aussagen darüber, wie die Dokumentbeschreibung zu erstellen ist. Bei den Arbeiten
am SMART-Projekt wurden heuristische Formeln zur Berechnung der Indexierungsgewichte für Dokumente (und Fragen) entwickelt, die sich als besonders leistungsfähig erwiesen haben. Diese Formeln wurden
später im Rahmen der Arbeiten zu den experimentellen Systemen Inquery (U. Massachusetts / Bruce
Croft) und OKAPI (MS Research Lab Cambridge / Stephen Robertson) weiterentwickelt. Wir stellen hier
eine relativ neue Variante der Gewichtungsformel vor.
Die der Indexierung zugrundeliegende Dokumenten-Repräsentation ist eine Multi-Menge (Bag) von
Terms. Darauf aufbauend werden zunächst folgende Parameter definiert:
dTm Menge der in dm vorkommenden Terms
lm Dokumentlänge (# Anzahl laufende Wörter in dm )
al durchschnittliche Dokumentlänge in D
tfmi : Vorkommenshäufigkeit (Vkh) von ti in dm .
ni : # Dokumente, in denen ti vorkommt.
N : # Dokumente in der Kollektion
Eine Komponente der Gewichtung ist die inverse Dokumenthäufigkeit idfi , die umso höher ist, je
seltener ein Term in der Kollektion vorkommt:
idfi = log
N
ni
(3.5)
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
45
Kollektion CACM CISI CRAN INSPEC MED
Coord.
0.185 0.103 0.241
0.094 0.413
SMART 0.363 0.219 0.384
0.263 0.562
Tabelle 3.3: Mittlere Precision für binäre Gewichte vs. SMART-Gewichtung
Die zweite Komponente ist die normalisierte Vorkommenshäufigkeit ntfi . Hierbei sollen die Terms entsprechend ihrer Vorkommenshäufigkeit im Dokument gewichtet werden. Um den Einfluss der Dokumentlänge
auszugleichen, geht diese ebenfalls mit ein, und zwar als Verhältnis zur durchschnittlichen Dokumentlänge
in der Kollektion:
tfmi
(3.6)
ntfmi =
m
tfmi + 0.5 + 1.5 lal
Das endgültige Indexierungsgewicht ergibt sich als Produkt der beiden Komponenten und wird daher meist
als tfidf-Gewichtung bezeichnet:
wmi = ntfmi · idfi
(3.7)
.
Tabelle 3.3 zeigt einige experimentelle Ergebnisse (aus [Salton & Buckley 88] mit einer früheren Version
der tfidf-Formel aus dem SMART-Projekt) zu dieser Art der Gewichtung im Vergleich zu einer rein
binären Gewichtung (Coordination Level Match). Dabei wurden die Gewichtungsformeln 3.5–3.7 sowohl
zur Dokumentindexierung als auch zur Bestimmung des Fragevektors angewendet.
3.5.3
Relevance Feedback
o
o
o
X
X
X XX
o
X
X
o
o
o: relevant
X
XX
X
X
X
X
o
X
o
o
X: irrelevant
XX
o
X
X
X
X
X
o
X
X
o
o
X
X
X
Abbildung 3.4: Beispiele zur Trennung von relevanten und nichtrelevanten Dokumenten im VRM
Ein wesentlicher Vorteil des VRM insbesondere auch gegenüber Fuzzy-Retrieval ist die Möglichkeit,
Relevance-Feedback-Daten zur Verbesserung der Retrievalqualität auszunutzen. Dabei wird versucht, Angaben über die Relevanz bzw. Nicht-Relevanz einiger Dokumente zur Modifikation des ursprünglichen
Fragevektors zu verwenden. Genauer gesagt, werden die ursprünglichen Fragetermgewichte verändert, wodurch sich ein anderer Fragevektor ergibt. Abb. 3.4 illustriert verschiedene mögliche Verteilungen von
relevanten und nichtrelevanten Dokumenten im Vektorraum. Außerdem ist jeweils der Vektor eingezeichnet, der vom Zentroiden der nichtrelevanten Dokumente zum Zentroiden der relevanten Dokumente führt.
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
46
Dieser Vektor eignet sich offensichtlich als Fragevektor, um relevante und nichtrelevante Dokumente möglichst gut zu trennen. Nimmt man nämlich das Skalarprodukt als Retrievalfunktion an, dann werden die
Dokumente auf eine Gerade entlang des Fragevektors projiziert, wobei der Vektor die Richtung höherer
Retrievalgewichte anzeigt.
In [Rocchio 66] wird eine optimale Lösung für die Bestimmung eines Fragevektors aus RelevanceFeedback-Daten vorgestellt. Die Grundidee ist dabei die, einen Fragevektor ~q zu bestimmen, der die Differenz der RSVs zwischen relevanten und irrelevanten Dokumenten maximiert. Sei DR die Menge der
relevanten Dokumente zu q und DN die Menge der nichtrelevanten Dokumente zu q, dann lautet das
Optimierungskriterium:
X
!
~qd~k − ~qd~l = max
(3.8)
(dk ,dl )∈D R ×D N
Zusätzlich muss man noch als Nebenbedingung den Betrag des Fragevektors beschränken:
n
X
qi2 = c
(3.9)
i=1
Somit liegt ein Extremwertproblem mit Randbedingung vor, das man mit Hilfe eines LagrangeMultiplikators lösen kann:
!
n
n
X
X
X
2
F =λ
qi − c +
qi dki − qi dli
(3.10)
i=1
(dk ,dl )∈D R ×D N i=1
Zur Lösung muss man nun alle partiellen Ableitungen von F nach den Komponenten qi des Fragevektors
0 setzen; zusätzlich muss auch die Nebenbedingung 3.9 gelten.
∂F
∂qi
qi
=
!
X
2λqi +
dki − dli = 0
(dk ,dl )∈D R ×D N
= −
~q = −
1
2λ
1
2λ
X
dki − dli
(dk ,dl )∈D R ×D N
X
d~k − d~l
(dk ,dl )∈D R ×D N
X
X
1
d~k − |DR |
d~l
= − |DN |
2λ
R
N
dk ∈D
N
= −
R
|D ||D | 1
2λ
|DR |
dl ∈D
X
dk ∈D R
d~k −
X
1
d~l
|DN |
N
dl ∈D
Zur Vereinfachung wählen wir c (den Betrag des Fragevektors) so, dass |DN ||DR |/2λ = −1. Damit ergibt
sich der optimale Fragevektor zu
~q =
X
X
1
~k − 1
d
d~l
|DR |
|DN |
R
N
dk ∈D
(3.11)
dl ∈D
Der optimale Fragevektor ist somit der Verbindungsvektor der beiden Zentroiden der relevanten bzw.
irrelevanten Dokumente.
Abbildung 3.5 illustriert diese Lösung. Gleichzeitig wird deutlich, dass der optimale Fragevektor nicht
immer die bestmögliche Lösung (bezogen auf die Retrievalqualität) darstellt. (Ein wesentlich besseres,
allerdings auch aufwändigeres Verfahren ist die Support Vector Machine [Joachims 01].) Als heuristische
Verbesserung, die sich in zahlreichen Experimenten bewährt hat, hat Rocchio vorgeschlagen, relevante
und irrelevante Dokumente unterschiedlich stark zu gewichten, konkret: den Vektor zum Zentroiden der
irrelevanten Dokumente weniger stark in die Lösung einfließen zu lassen. Abbildung 3.5.3 verdeutlicht diese
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
t2
47
+
−
+
−
+
+
−
−
+
+
−
+
−
+
−
+
−
t1
Abbildung 3.5: Optimaler Fragevektor als Verbindungsvektor der Zentroiden
t2
+
−
+
−
+
+
−
−
qI
qopt
−
+
+
+
q’
−
qR
−
+
+
−
t1
Abbildung 3.6: Unterschiedliche Gewichtung positiver und negativer Beispiele
Vorgehensweise für unser Beispiel. Intuitiv kann man sich diese Verbesserung dadurch erklären, dass in
der Regel die relevanten Dokumente höhere Indexierungsgewichte als die irrelevanten aufweisen, so dass
diese Modifikation den Fragevektor in die richtige Richtung dreht“.
”
Weitere Experimente haben gezeigt, dass man den neuen Fragevektor nie allein aus den RelevanceFeedback-Daten ohne Berücksichtigung des ursprünglichen Vektors bilden sollte; Es gibt ja noch weitere
Dokumente, über die noch keine Relevanzinformation verfügbar ist, weil das System diese dem Benutzer
noch nicht vorgelegt hat. Gerade diese Dokumente sollen aber möglichst gut in relevante und nichtrelevante aufgeteilt werden – das ist ja die eigentliche Aufgabe beim Retrieval. Also geht es darum, den
ursprünglichen Vektor mit Hilfe der Relevance-Feedback-Daten zu verbessern. Prinzipiell ergibt sich also
folgende Vorgehensweise:
1. Retrieval mit dem Fragevektor ~qk vom Benutzer.
2. Relevanzbeurteilung der obersten Dokumente der Rangordnung.
3. Berechnung eines verbesserten Fragevektors ~q0 aufgrund der Feedback-Daten.
4. Retrieval mit dem verbesserten Vektor.
5. Evtl. Wiederholung der Schritte 2-4.
Als Iterationsvorschrift zur Berechnung eines verbesserten Fragevektors ~q0 wird in [Rocchio 66] folgende
Kombination aus ursprünglichem Vektor ~q und den Zentroiden der relevanten und der nichtrelevanten
Dokumente vorgeschlagen:
X
X
1
1
~q0 = ~q + α R
d~j − β N
d~j
(3.12)
|D |
|D
|
R
N
dj D
dj D
KAPITEL 3. NICHT-PROBABILISTISCHE IR-MODELLE
Kollektion
ohne RF
Feedback
Feedback∗
CACM
0.1459
0.2552
0.2491
CISI
0.1184
0.1404
0.1623
48
CRAN INSPEC MED
0.1156 0.1368 0.3346
0.2955 0.1821 0.5630
0.2534 0.1861 0.5279
Tabelle 3.4: Experimentelle Ergebnisse zu Relevance Feedback (mittlere Precision)
Dabei sind α und β nichtnegative Konstanten, die heuristisch festzulegen sind (z.B. α = 0.75, β = 0.25).
Tabelle 3.4 zeigt experimentelle Ergebnisse, die durch Anwendung der Formel 3.12 gewonnen wurden (aus [Salton & Buckley 90]). Hier wurde Feedback-Information von den obersten 15 Dokumenten des
Retrievallaufs mit dem initialen Fragevektor verwendet. Zur Bewertung wurde die sogenannte residual
”
collection“-Methode angewendet: dabei bleiben die Dokumente, deren Feedback-Daten benutzt wurden,
bei der Bewertung unberücksichtigt. Dadurch ergibt sich ein fairer Vergleich mit der Retrievalfunktion
ohne Relevance Feedback. Die Ergebnisse zeigen hier sehr deutliche Verbesserungen durch die RelevanceFeedback-Methode. Die letzte Tabellenzeile (Feedback∗ ) zeigt die Ergebnisse für eine modifizierte Anwendung der obigen Formel, bei der nur die häufigsten Terme zur Frageerweiterung benutzt werden, d.h.,
bei den Termen, deren Fragetermgewicht ursprünglich 0 war (weil sie in der Fragerepräsentation nicht
vorkamen), wird die Formel nicht generell in der beschriebenen Weise angewandt; es werden nur die n
häufigsten Terme in der vorgeschriebenen Weise berücksichtigt, die übrigen Terme behalten das Gewicht
0. Es zeigt sich, dass diese Methode bei einigen Kollektionen noch zu besseren Ergebnissen führt, während
bei anderen Kollektionen schlechtere Ergebnisse produziert werden.
Auch wenn die Formel 3.12 erwiesenermaßen gute Ergebnisse liefert, so sind die heuristischen Komponenten in diesem Ansatz doch unbefriedigend. Letzten Endes liegt die grundlegende Schwäche des VRM in
dem fehlenden Bezug zur Retrievalqualität. Auch die o.g. Optimierungsbedingung 3.8 nimmt nicht auf die
Retrievalqualität Bezug, und man kann zeigen, dass es tatsächlich in manchen Fällen bessere Vektoren zur
Trennung in relevante und nichtrelevante Dokumente gibt, als sie durch diese Bedingung geliefert werden
(näheres siehe Übung).
3.5.4
Beurteilung des VRM
Zusammenfassend ergeben sich folgende Vor- und Nachteile für das VRM:
+ Das VRM ist ein relativ einfaches, anschauliches Modell, das insbesondere wegen der einfachen Art
der Frageformulierung auch benutzerfreundlich ist.
+ Das Modell ist unmittelbar auf neue Kollektionen anwendbar; probabilistische Modelle erfordern
dagegen teilweise zuerst das Sammeln von Relevance-Feedback-Daten für eine Menge von Fragen,
bevor sie sinnvoll eingesetzt werden können.
+ Das Modell liefert in Kombination mit den SMART-Gewichtungsformeln eine sehr gute Retrievalqualität.
– Leider enthält das Modell, so wie es letztendlich angewendet wird, sehr viele heuristische Komponenten; dabei stellt sich insbesondere die Frage, inwieweit diese Heuristiken auch noch beim Übergang
auf wesentlich andere Kollektionen (z.B. Volltexte statt Kurzfassungen) gültig bleiben.
– Der heuristische Ansatz zur Berechnung der Indexierungsgewichte hat zur Folge, dass die Dokumentrepräsentation nur schlecht erweitert werden kann. Wenn man z.B. Terms aus dem Titel stärker
gewichten möchte als solche, die nur im Abstract vorkommen, dann müssen hierfür erst umfangreiche
Experimente durchgeführt werden, um eine geeignete Gewichtungsformel zu finden.
– In dem Modell wird keinerlei Bezug auf die Retrievalqualität genommen; es ist theoretisch nicht zu
begründen, warum die zu einer Frage ähnlichen Dokumente auch relevant sein sollen.
Kapitel 4
Probabilistische IR-Modelle
4.1
Einführung
Ein wesentlicher Unterschied zwischen IR-Systemen und vielen anderen klassischen Informationssystemen
besteht in der intrinsischen Unsicherheit des IR. Während man etwa bei Datenbankanwendungen ein Informationsbedürfnis typischerweise eindeutig auf eine präzise Anfrage abbilden kann, wofür wiederum die
Antwort eindeutig definiert ist, haben wir im IR eine viel schwierigere Situation: hier repräsentiert die
Anfrageformulierung das Informationsbedürfnis nur approximativ, und zudem existiert keine eindeutige
Vorschrift, wie die Antwort auf eine Anfrage definiert ist. (Boolesches Retrieval stellt keine Ausnahme zu
dieser Aussage dar: hier werden nur die Probleme mit Unsicherheit und Vagheit dem Benutzer aufgebürdet.) Als der erfolgreichste Ansatz, um mit Unsicherheit im IR umzugehen, haben sich die probabilistischen
Modelle erwiesen.
Wir betrachten in diesem Kapitel zwei Arten von probabilistischen Modellen: Zunächst gehen wir
auf die älteren, relevanzorientierten Modelle ein, deren Vorläufer bis in die 1960er Jahre zurückreichen.
Anschließend gehen wir auf die wesentlich jüngeren statistischen Sprachmodelle ein, die 1998 erstmals im
IR auftauchten und seitdem sehr populär sind.
4.2
Das Binary-Independence-Retrieval-Modell
Als Vertreter der klassischen IR Modelle präsentieren wir hier das populärste dieser Modelle, das sogenannte BIR-Modell. Wir geben zunächst eine eher informelle Einführung, und gehen dann im nächsten
Abschnitt auf die theoretischen Grundlagen ein.
4.2.1
Herleitung
Wie in anderen relevanzorientierten Modellen auch, versucht man im BIR-Modell die Wahrscheinlichkeit
zu schätzen, dass ein gegebenes Dokument dm bezüglich der aktuellen Anfrage q als relevant beurteilt
wird. Um diese als P (R|dm ) bezeichnete Wahrscheinlichkeit zu schätzen, betrachten wir die Verteilung der
Terme in der Kollektion; dabei nehmen wir an, dass die Verteilung in den relevanten und den irrelevanten
Dokumenten unterschiedlich ist. (Wie wir weiter unten sehen werden, sollte die Anfrage idealerweise aus
solchen Termen bestehen, deren Verteilung in den relevanten und irrelevanten Dokumenten sich stark
unterscheidet.) Bezeichne T = {t1 , . . . , tn } wie üblich die Menge der in der Kollektion vorkommenden
Terme. Dann können wir die Menge dTm der im Dokument dm vorkommenden Terme als binären Vektor
repräsentieren: ~x = (x1 , . . . , xn ) mit xi = 1, falls ti dTm und xi = 0 sonst.
Im Folgenden unterscheiden wir nur zwischen Dokumenten, die unterschiedliche Mengen von Termen
beinhalten. Anstelle der Relevanzwahrscheinlichkeit P (R|dm ) für ein spezifisches Dokument dm schätzen
wir dann die Wahrscheinlichkeit P (R|~x); somit wird für unterschiedliche Dokumente, die aber die gleiche
Termmenge beinhalten, die gleiche Relevanzwahrscheinlichkeit berechnet. Weiterhin nehmen wir an, dass
eine Anfrage q in Form einer Termmenge q T ⊂ T gegeben ist.
49
KAPITEL 4. PROBABILISTISCHE IR-MODELLE
50
Um nun die gesuchte Relevanzwahrscheinlichkeit zu berechnen, wenden wir zwei Arten von Transformationen an, die häufig im Kontext probabilistischer IR-Modelle eingesetzt werden
1. Anwendung des Bayes’schen Theorems (in der Form P (a|b) = P (b|a) · P (a)/P (b)),
2. Benutzung von Odds (Chancen) anstelle von Wahrscheinlichkeiten, wobei O(y) = P (y)/P (ȳ) =
P (y)/[1 − P (y)].
Damit können wir die Chancen berechnen, dass ein Dokument relevant zur Anfrage q ist, basierend
auf seiner Beschreibung durch einen binären Vektor ~x:
O(R|~x) =
P (R) P (~x|R) P (~x)
P (R|~x)
=
·
·
P (R̄|~x)
P (R̄) P (~x|R̄) P (~x)
(4.1)
Hier bezeichnet P (R) die Wahrscheinlichkeit, dass ein zufälliges Dokument relevant ist – dies bezeichnet
man auch als die Generality der Anfrage (und P (R̄) ist die Gegenwahrscheinlichkeit hiervon); dieser
Parameter ist offensichtlich konstant für alle Dokumente zu einer Frage. Wichtiger für das Ranking ist
die Wahrscheinlichkeit P (~x|R), dass ein zufälliges relevantes Dokument die Beschreibung ~x besitzt (und
P (~x|R̄) das Entsprechende für die irrelevanten Dokumente). Da dieser Parameter in der vorliegenden Form
kaum geschätzt werden kann, benötigen wir zusätzliche Unabhängigkeitsannahmen, um das Problem zu
vereinfachen. Wie in [Cooper 91] gezeigt wurde, sind es genau genommen, keine Unabhängigkeitsannahmen
(weshalb der Name des Modells nicht ganz korrekt ist), sondern dem BIR liegt tatsächlich eine verbundene
Abhängigkeitsannahme zugrunde, die folgende Form hat:
n
P (~x|R) Y P (xi |R)
=
P (~x|R̄) i=1 P (xi |R̄)
(4.2)
Würde man Zähler und Nenner getrennt betrachten, so hätte man zwei Unabhängigkeitsannahmen, die
besagen, dass sowohl in den relevanten als auch den irrelevanten Dokumenten die Terme unabhängig
voneinander verteilt sind, dass also die Wahrscheinlichkeit, einen bestimmten Vektor ~x zu beobachten,
gleich dem Produkt der entsprechenden Wahrscheinlichkeiten für die einzelnen Terme ist. Die verbundene
Abhängigkeitsannahme ist hingegen weniger streng, aber etwas komplizierter: Sie besagt, dass der Quotient
der beiden Wahrscheinlichkeiten für das Vorkommen von ~x in relevanten bzw. irrelevanten Dokumenten,
gleich dem Produkt der Quotienten für die einzelnen Terme ist. Natürlich ist auch die Annahme der
verbundenen Abhängigkeit nur eine Annäherung an die Realität – die aber erstaunlich gut funktioniert.
Mit der Annahme (4.2) können wir Gleichung (4.1) überführen in
O(R|~x)
= O(R)
n
Y
P (xi |R)
i=1
P (xi |R̄)
Das Produkt kann nun aufgeteilt werden in ein erstes Produkt, über alle im Dokument vorkommenden
Terme, und ein zweites für die nicht vorkommenden Terme:
O(R|~x) = O(R)
Y P (xi =1|R) Y P (xi =0|R)
·
.
P (xi =1|R̄) x =0 P (xi =0|R̄)
x =1
i
i
Im Folgenden bezeichne pi = P (xi =1|R) die Wahrscheinlichkeit, dass der Term ti in einem zufällig
gewählten relevanten Dokument vorkommt, und si = P (xi =1|R̄) die entsprechende Wahrscheinlichkeit für
die irrelevanten Dokumente. Zusätzlich nehmen wir an, dass pi = si gilt für alle Terme, die nicht in der
Menge q T der Frageterme vorkommt. Mit dieser Vereinfachung und den eingeführten Notationen erhalten
wir dann
Y pi Y 1 − pi
O(R|~x) = O(R)
(4.3)
si
1 − si
T
T
T
T
ti dm ∩q
= O(R)
Y
T
ti dT
m ∩q
ti q \dm
pi (1 − si ) Y 1 − pi
si (1 − pi )
1 − si
T
ti q
(4.4)
KAPITEL 4. PROBABILISTISCHE IR-MODELLE
51
Bei der Anwendung dieser Formel ist man primär am Ranking der Dokumente zu der gegebenen
Anfrage interessiert, während die tatsächliche Relevanzwahrscheinlichkeit eher nebensächlich ist. Wenn
wir also nur eine Rangordnung erzeugen wollen, dann ist das zweite Produkt in Gleichung (4.4) ebenso
wie der Wert von O(R) konstant für alle Dokumente zu einer Anfrage. Daher können wir dieser beiden
Faktoren ignorieren und brauchen nur noch das erste Produkt zu betrachten, um eine Rangordnung für
die aktuelle Anfrage zu erzeugen. Zur Vereinfachung der Rechnung betrachten wir den Logarithmus dieses
Produkts, so dass sich der Retrievalwert (RSV) des Dokumentes dm für die Frage q berechnen lässt durch
die Summe
X
pi (1 − si )
.
%BIR (q, dm ) =
ci
mit
ci = log
si (1 − pi )
T
T
ti dm ∩q
Dann werden die Dokumente nach fallenden Retrievalwerten geordnet.
4.2.2
Parameterschätzung
Zur Anwendung des BIR-Modells müssen die Parameter pi und si für alle in der Frage vorkommenden
Terme (ti q T ) geschätzt werden.
Wir betrachten zunächst den Parameter si = P (xi =1|R̄), also die Wahrscheinlichkeit, dass ti in einem
arbiträren nicht-relevanten Dokument vorkommt. Da in der Regel nur ein kleiner Bruchteil einer Kollektion
relevant ist auf eine Anfrage, nehmen wir nun vereinfachend an, dass die Anzahl der nicht-relevanten
Dokumente durch die Größe der Kollektion approximiert werden kann. Bezeichne N diesen Wert (Anzahl
der Dokumente in der Kollektion) und ni die Anzahl der Dokumente, in denen der Term ti vorkommt,
dann kann man si einfach durch die relative Häufigkeit ni /N schätzen.
Der Parameter pi = P (xi =1|R) bezeichnet die Wahrscheinlichkeit, dass ti in einem arbiträren relevanten Dokument vorkommt. Zu seiner Schätzung benötigt man eigentlich Relevance-Feedback-Daten
(s.u.). Durch vereinfachende Annahmen können wir aber auch ohne diese Information auskommen. Hierzu
nehmen wir einen globalen Wert p für alle pi an. Damit erhalten wir
ci
1 − si
p
+ log
1−p
si
N − ni
= cp + log
ni
=
log
Häufig wird p = 0.5 angenommen, so dass cp = 0 wird. Damit erhält man dann die Termgewichtung nach
inverser Dokumenthäufigkeit (IDF) gemäß folgender Formel:
%IDF (q, dm ) =
X
ti ∈q T ∩dT
m
log
N − ni
ni
(4.5)
In der Regel lässt man als weitere Vereinfachung ni im Zähler weg, so dass man die IDF-Gewichtung
in der Form bekommt, wie wir sie schon beim Vektorraummodell kennengelernt haben. Während dort
aber heuristisch vorgegangen wurde, haben wir hier jetzt eine theoretische Begründung für diese Art der
Termgewichtung.
Nun kommen wir zu dem Fall, dass wir Relevance-Feedback-Daten haben. Dies könnte z.B. dadurch
geschehen dass wir zuerst Retrieval mit der IDF-Formel durchführen, und dann den Benutzer die obersten
Antwortdokumente beurteilen lassen. Bezeichne r die Anzahl der insgesamt vom Benutzer als relevant
beurteilten Dokumente und ri die Mächtigkeit der Teilmenge hiervon, in denen der Term ti vorkommt,
dann kann man pi ≈ rri durch die entsprechende relative Häufigkeit schätzen. Wegen der geringen Anzahl
an Beobachtungen sind diese Werte aber systematisch falsch; eine bessere Schätzung liefert die Formel
+0.5
pi ≈ rir+1
.
4.2.3
Beispiel
Wir geben nun ein umfangreicheres Beispiel zum BIR-Modell. Hierzu nehmen wir an, dass wir eine Frage
q mit nur zwei Termen haben, also q T = {t1 , t2 }. Tabelle 4.1 zeigt die Relevanzurteile sowie die Verteilung
der Terme in diesen Dokumenten.
KAPITEL 4. PROBABILISTISCHE IR-MODELLE
52
di 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
x1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
x2 1 1 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0
r(q, di ) R R R R R̄ R R R R R̄ R̄ R R R R̄ R̄ R̄ R R̄ R̄
Tabelle 4.1: Beispiel zum BIR-Modell
~x
(1,1)
(1,0)
(0,1)
(0,0)
P (R|q, ~x)
BIR actual
0.76 0.8
0.69 0.67
0.48 0.5
0.4
0.33
Tabelle 4.2: Geschätzte Relevanzwahrscheinlichkeiten für unser Beispiel
Für die Schätzung der BIR-Parameter verwenden wir hier nicht die o.g. Näherungsformeln, sondern berechnen die Wahrscheinlichkeiten gemäß Definition über die zugehörigen relativen Häufigkeiten. So kommt
etwa t1 in 8 von 12 relevanten Dokumenten vor, was p1 = 8/12 = 2/3 ergibt, und in 3 von 8 irrelevanten Dokumenten, was s1 = 3/8 liefert. Analog erhalten wir p2 = 7/12 und s2 = 4/8. Ferner haben wir
O(R) = 12/8. Zur Schätzung der Relevanzwahrscheinlichkeit (bzw. -chancen) wenden wir Gleichung (4.3)
an, was uns die in Tabelle 4.2 dargestellten Werte liefert. Hier zeigt sich, dass z.B. für die Beschreibung
~x = (1, 1) das BIR-Modell eine Relevanzwahrscheinlichkeit von rund 0.76 liefert, tatsächlich aber 4 von 5
Dokumenten mit dieser Beschreibung relevant sind. Diese Abweichung rührt von den Näherungsannahmen
des Modells her. Anderseits zeigt sich aber, dass die Rangordnung für die verschiedenen Beschreibungen
korrekt ist – was ja das Hauptziel des Modells ist.
4.3
BM25
Das obige Beispiel zeigt eine wesentliche Beschränkung des BIR-Modells auf: Es ist nicht möglich, zwischen den verschiedenen Dokumenten mit gleichem Dokumentvektor ~x weiter zu differenzieren, da das
Modell nur mit binärer Indexierung arbeitet. Das BM25-Modell von Robertson [Robertson et al. 95] stellt
eine heuristische Erweiterung des BIR-Modells auf gewichtete Indexierung dar. Hierzu wird die Vorkommenshäufigkeit der Terme im Dokument berücksichtigt. Statt also nur zwischen Vorkommen (xi = 1) und
Nicht-Vorkommen (xi = 0 ) eines Terms ti zu unterschieden, sollen nun auch Gewichte zwischen 0 und 1
zugelassen werden. In Anlehnung an die Heuristiken des Vektorraum-Modells hat Robertson eine ähnliche
Gewichtungsformel entwickelt: Für einen Term ti bezeiche tfmi dessen Vorkommenshäufigkeit im Dokument dm , das insgesamt lm laufende Wörter enthält. Die durchschnittliche Dokumentlänge der Kollektion
sei al. Zusätzlich beinhaltet die Formel noch zwei Parameter, die an die jeweilige Kollektion angepasst
werden müssen: b steuert den Einfluss der Längennormalisierung (mit 0 ≤ b ≤ 1), und k kontrolliert die
Gewichtung der Vorkommenshäufigkeit.
m
Mit diesen Parametern berechnet man zunächst die Längennormalisierung B = (1 − b) + b lal
, woraus
sich die normalisierte Vorkommenshäufigkeit zu ntfmi = tfmi /B ergibt. Das BM25-Gewicht berechnet sich
dann zu
ntfmi
tfmi
umi =
=
(4.6)
m
k + ntfmi
k (1 − b) + b lal
+ tfmi
Den Einfluss des Parameters k illustriert die Abbildung 4.1, in der tf auf der Abszisse abgetragen
ist und die Ordinate das resultierende Indexierungsgewicht für unterschiedliche Werte von k zeigt. Die
Auswirkung der Längennormalisierung ist in Abbildung 4.2 dargestellt: Die Achsen sind wie vor, nur
zeigen die einzelnen Kurven, wie das Indexierungsgewicht von der Dokumentlänge abhängt.
KAPITEL 4. PROBABILISTISCHE IR-MODELLE
Abbildung 4.1: Einfluss von k
53
Abbildung 4.2: Einfluss der Dokumentlänge
Die vollständige Retrievalfunktion lautet dann
X
%BM 25 (q, dm ) =
umi ci
(4.7)
T
ti dT
m ∩q
=
X
T
ti dT
m ∩q
4.4
pi (1 − si )
tfmi
log
m
si (1 − pi )
k((1 − b) + b lal
) + tfmi
(4.8)
Statistische Sprachmodelle
Obwohl die BM25-Formel gute Retrievalergebnisse liefert und sehr häufig angewendet wird, hat sie doch
den Nachteil, dass ihre Indexierungsgewichte keine theoretische Fundierung besitzen. Statistische Sprachmodelle können diesen Nachteil überwinden. Solche Modelle betrachten Sprache als Folge von Wörtern,
die durch einen stochastischen Prozess erzeugt wird. Ein Sprachmodell θ ist somit definiert als eine Wahrscheinlichkeitsverteilung über die Terme des Vokabulars:
X
θ = {(ti , P (ti |θ)|ti ∈ T )} mit
P (ti |θ) = 1
ti ∈T
Damit lässt sich dann z.B. für einen gegebenen
Qm Text d = t1 t2 t3 . . . tm die Wahrscheinlichkeit berechnen,
dass dieser von θ generiert wurde: P (d|θ) = j=1 P (tj |θ).
Statistische Sprachmodelle wurden zuerst in der automatischen Spracherkennung verwendet, später allgemein in der quantitativen Linguistik, bevor sie dann 1998 auch im IR Einzug hielten [Ponte & Croft 98,
Hiemstra 98] . Die Grundidee beim Retrieval ist dabei, die Wahrscheinlichkeit zu betrachten, dass Frage
und Dokument von demselben Sprachmodell generiert wurden. Genau genommen wird damit etwas anderes
als die Relevanzwahrscheinlichkeit berechnet; man nimmt daher an. dass die beiden Wahrscheinlichkeiten
proportional zueinander sind, so dass es für ein Ranking ausreicht, die vom Sprachmodell gelieferte Wahrscheinlichkeit zu betrachten.
4.4.1
Sprachmodell von Zhai und Lafferty
Als ein populäres Beispiel für ein Sprachmodell betrachten wir den Ansatz von Zhai und Lafferty
[Zhai & Lafferty 01]. Als Variante des o.g. allgemeinen Ansatzes betrachten diese die Wahrscheinlichkeit,
dass die Anfrage q vom Sprachmodell des Dokumentes d generiert wurde:
KAPITEL 4. PROBABILISTISCHE IR-MODELLE
P (q|d) ≈
Y
54
P (ti |d)
ti ⊆q T
Y
=
Ps (ti |d)
Y
ti ∈q T ∩dT
Pu (ti |d)
ti ∈q T −dT
ti ∈q T ∩dT
=
Y
Ps (ti |d) Y
Pu (ti |d)
Pu (ti |d)
T
ti ∈q
Hierbei bezeichnet Ps (ti |d)] die Wahrscheinlichkeit dass das Dokument über ti ist, falls ti im Dokumenttext
vorkommt. Analog steht Pu (ti |d) für den Fall, dass das Dokument über ti ist, obwohl der Term selbst im
Dokument nicht vorkommt. Zur Schätzung dieser beiden Parameter benötigt man nun spezielle Verfahren,
da der direkte Weg über die relative Häufigkeit angesichts der spärlichen Daten zu systematisch verfälschten
Werten führen würde.
Im Folgenden bezeichne N die Anzahl Token (fortlaufende Wörter) der Kollektion, tf (t, d) die Vorkommenshäufigkeit von t in d, l(d) die Dokumentlänge (Anzahl Token) von d sowie cf (t) die Kollektionshäufigkeit (Gesamtzahl Vorkommen) von t. Damit berechnet man zunächst die beiden Parameter
Pavg (t) =
cf (t)
N
und
PM L (t|d) =
tf (t, d)
l(d)
(4.9)
Hierbei steht Pavg (t) für die relative (mittlere) Vorkommenshäufigkeit von T in der Kollektion, und
PM L (t|d) bezeichnet den Maximum-Likelihood-Schätzer (durch die relative Häufigkeit) für die Vorkommenshäufigkeit von t in d. Nun schätzt man
Pu (ti |d)
=
αd Pavg (t)
Ps (ti |d)
=
λPM L (t|d) + (1 − λ)Pavg (t)
Hierbei bezeichnet λ (mit 0 < λ < 1) den Glättungsfaktor nach der Jelinek-Mercer-Methode, und αd ist
eine Dokument-spezifische Konstante, die wie folgt definiert ist:
P
1 − ti ∈qT ∩dT Pavg (t)
P
αd =
1 − ti ∈qT ∩dT PM L (t|d)
Das Dokumentsprachmodell wird somit durch folgende Wahrscheinlichkeiten gebildet:
(
Pu (ti |d) wenn ti ∈
/d
P (ti |θd ) =
Ps (ti |d) wenn ti ∈ d
Alternativ gibt es noch eine Reihe weiterer Glättungsverfahren, die Ps (ti |d) auf unterschiedliche Weise
aus den beiden Parametern Pavg (t) und PM L (t|d) berechnen.
Zur Illustration des Zhai-Lafferty-Modells betrachten wir ein kleines Beispiel mit 4 Dokumenten:
d1 = (t1 , t1 , t1 , t2 ) d3 = (t1 , t2 , t2 )
d2 = (t1 , t1 , t3 , t3 ) d4 = (t2 )
Nun wählen wir λ = 0.5 and und nehmen der Einfachheit halber konstant αd = 1 an. Für die Frage
q = (t1 , t2 ) berechnen wir dann die Parameter
4
1
=
12
3
3 1
0.5(PM L (t1 |d1 ) + Pavg (t1 )) = 0.5( + ) =
4 2
1 1
0.5(PM L (t2 |d1 ) + Pavg (t2 )) = 0.5( + ) =
4 3
35
P (t1 |d1 )P (t2 |d1 ) =
≈ 0.18
192
1
Pavg (t2 ) =
3
Pavg (t1 ) =
P (t1 |d1 )
=
P (t2 |d1 )
=
P (q|d1 )
=
P (t2 |d2 )
=
6
1
=
12
2
Pavg (t2 ) =
5
8
7
24
KAPITEL 4. PROBABILISTISCHE IR-MODELLE
55
woraus sich die folgenden Retrievalgewichte ergeben:
4.4.2
P (q|d1 )
=
P (q|d2 )
=
35
≈ 0.18
192
1
≈ 0.04
24
P (q|d3 )
=
P (q|d4 )
=
35
≈ 0.24
144
1
≈ 0.33
3
Ähnlichkeit von Wahrscheinlichkeitsverteilungen
Ein alternativer Ansatz zur Definition einer Retrievalfunktion für Sprachmodelle besteht in der Betrachtung der Ähnlichkeit der Sprachmodelle von Frage und Dokument. Wir gehen also davon aus, dass wir
ein Dokument-Sprachmodell θd haben, dessen Parameter wir z.B. wie oben berechnen können. Zusätzlich
berechnen wir noch das Sprachmodell θq der Anfrage, das wir z.B. als PM L (t|q) abschätzen können.
Für die Quantifizierung der Ähnlichkeit der beiden Wahrscheinlichkeitsverteilungen kann man nun
die Kullback-Leibler Divergence verwenden, die ein Maß für die Unähnlichkeit der beiden Verteilungen
darstellt. Die Grundidee dieses Maßes besteht darin, die relative Information zu messen. Gemäß der Informationstheorie kann man Information quantifizieren als den negativen Logarithmus der zugehörigen
Wahrscheinlichkeit, so dass die Information eines Terms in einem Sprachmodell sich zu − log P (t|θ) ergibt.
Dann ist die Differenz der Information dieses Terms in den zwei Sprachmodellen: log P (t|θq ) − log P (t|θd )
P (t|θ )
= log P (t|θdq ) . Nun summiert man diese Differenzen über alle Terme (der Anfrage), wobei man zusätzlich
entsprechend der relativen Häufigkeit der Terme gewichtet:
D(θq ||θd )
=
X
ti ∈q T
P (ti |θq ) log
P (ti |θq )
P (ti |θd )
Die Dokumente werden dann nach steigenden Divergenz-Werten angeordnet.
4.5
Das Probabilistische Ranking-Prinzip
Das Probabilistische Ranking-Prinzip (PRP) stellt die theoretische Rechtfertigung für probabilistische IRModelle dar. Eine solche Begründung gibt es allein für die probabilistischen Modelle, während alle anderen
Modelle nur empirisch (durch ihre mehr oder weniger guten Retrievalergebnisse) begründet werden können.
Das PRP zeigt, wie man optimales Retrieval erreichen kann. Optimales Retrieval wird dabei in Bezug
auf die Repräsentationen definiert (z.B. liegt bei dem in den Tabellen 4.1 und 4.2 dargestellten Beispiel
optimales Retrieval vor). Im Gegensatz dazu sprechen wir von perfektem Retrieval, wenn wir uns auf die
Objekte selbst (und nicht auf die Repräsentationen) beziehen. Perfektes Retrieval ordnet alle relevanten
Dokumente vor dem ersten irrelevanten Dokument an. Da aber IR-Systeme immer mit Repräsentationen
arbeiten, ist perfektes Retrieval kein realistisches Ziel.
Das in [Robertson 77] ausführlich beschriebene PRP besagt, dass man optimales Retrieval erhält,
wenn man die Dokumente nach fallender Relevanzwahrscheinlichkeit anordnet. Als Optimierungskriterium
werden hierzu verschiedene Aspekte betrachtet, insbesondere die gängigen Retrievalmaße. Wir betrachten
hier nur die einfachste Rechtfertigung in Form eines entscheidungstheoretischen Ansatzes, die auf einem
Kostenmaß basiert.
Bezeichne C̄ die Kosten für das Retrieval eines irrelevanten Dokumentes, und C seinen die entsprechenden Kosten im relevanten Fall. Diese Kosten sind dabei abstrakte Größen – neben monetären Aspekten
können sie etwa auch den Aufwand eines Benutzers (z.B. in Form von Arbeitszeit) messen. Die einzige
Bedingung ist, dass C̄ > C, also relevante Dokumente weniger Kosten (oder höheren Nutzen) bedeuten.
Mit Hilfe der vom System geschätzten Relevanzwahrscheinlichkeit kann man nun die erwarteten Kosten
für das Retrieval eines bestimmten Dokumentes dj abschätzen:
EC(q, dj ) = C · P (R|q, dj ) + C̄(1 − P (R|q, dj ))
(4.10)
Nun nehmen wir an, dass der Benutzer die ausgegebenen Dokumente in der Reihenfolge der Rangordnung anschaut und nach l Dokumenten stoppt, wobei l nicht im Voraus bekannt ist. Die durch das System
KAPITEL 4. PROBABILISTISCHE IR-MODELLE
56
erzeugte Rangordnung beschreiben wir durch eine Ranking-Funktion r(i), die den Index des Dokumentes für den Rang i angibt. Die erwarteten Gesamtkosten für die vom Benutzer betrachteten Dokumente
berechnen sich dann als Summe der erwarteten Kosten der einzelnen Dokumente:
EC(q, l) = EC(q, dr(1) , dr(2) , . . . , dr(l) ) =
l
X
EC(q, dr(i) )
(4.11)
i=1
Um diese Kosten zu minimieren, müssen wir die Dokumente einfach nach aufsteigenden Kosten anordnen:
EC(q, dr(i) ) ≤ EC(q, dr(i+1) )
Dann haben wir für jeden beliebigen Abbruchpunkt minimale Kosten. Setzen wir nun die Formel (4.10)
in diese Bedingung ein, so erhalten wir
C · P (R|q, dr(i) ) + C̄(1 − P (R|q, dr(i) )) ≤ C · P (R|q, dr(i+1) ) + C̄ 1 − P (R|q, dr(i+1) )
(4.12)
Da C < C̄, ist dies äquivalent zu :
P (R|q, dr(i) ) ≥ P (R|q, dr(i+1) ).
Damit haben wir nun die Kernaussage des PRP bewiesen: Optimales Retrieval erhält man, indem man
die Dokumente nach absteigender Relevanzwahrscheinlichkeit anordnet.
Kapitel 5
Evaluierung
Wie in kaum einem anderen Teilgebiet der Informatik spielt die Evaluierung von Verfahren im Information
Retrieval eine wichtige Rolle. Aufgrund der Komplexität der Aufgabenstellung sind nicht-experimentelle
Methoden zur Beurteilung von Retrievalverfahren wenig geeignet. Zudem ist die Forschungsliteratur im IR
reich an Beispielen von plausibel und mächtig erscheinenden Verfahren, die entweder gar nicht praktisch
umsetzbar waren oder aber bezüglich der erreichten Retrievalqualität bei weitem nicht an einfachere, aber
wirkungsvollere Verfahren heran reichten.
Evaluierungen sollen die Qualität eines Systems beurteilen helfen. Dabei muss man berücksichtigen,
dass es unterschiedliche Blickwinkel auf ein IR-System (IRS) gibt, z.B. die von Benutzern, Käufern, Managern, Herstellern oder Entwicklern. Für jede dieser Gruppen sind bestimmte Aspekte eines Systems
wichtiger als andere, stehen andere Fragen bei der Evaluierung im Vordergrund. Einige dieser Fragen
könnten etwa sein:
• Was kann ich ändern, um die Qualität eines Systems zu verbessern?
• Welche Art der Textrepräsentation ist am besten?
• Welches Retrievalmodell liefert die besten Ergebnisse?
• Welche Qualität weist ein System auf?
• Welches System ist besser?
• Welches System soll ich kaufen?
• Wie kann ich Qualität messen?
• Was bedeutet Qualität für mich?
Um diese Fragen zu beantworten, können jeweils geeignete Evaluierungen konzipiert und durchgeführt
werden. Generell sollte jede Evaluierungen – insbesondere, wenn sie wissenschaftlichen Maßstäben genügen
will – folgende zwei Eigenschaften erfüllen:
Reliabilität (Zuverlässigkeit) Dieselbe Untersuchung im gleichen Kontext sollte stets dieselben Ergebnisse liefern; das Experiment sollte also wiederholbar sein. Dazu ist es notwendig, die Evaluierung
ausreichend zu dokumentieren und repräsentative Stichproben von Dokumenten und Nutzern zu verwenden. Ferner müssen Störfaktoren so weit wie möglich ausgeschaltet werden. Im wissenschaftlichen
Bereich sollten zudem möglichst Open-Source-Daten verwendet werden bzw. die eigenen Daten Anderen zur Verfügung gestellt werden, damit diese zum Einen die Ergebnisse verifizieren, zum Anderen
mit den verwendeten Daten und Methoden weiterarbeiten können.
Validität Die Beobachtungen sollten mit den tatsächlichen“ Verhältnissen übereinstimmen, um die Gül”
tigkeit der Ergebnisse zu gewährleisten. Hierbei stellt sich insbesondere die Frage, wie weit man die
Ergebnisse verallgemeinern kann, und für welche Gesamtheit denn die Stichproben repräsentativ sind
(prädiktive Validität).
Dabei ist zu beachten, dass IR-Experimente stets stochastische Experimente sind, dass also bei Wiederholungen eines Experimentes sich in der Regel nicht genau die gleichen Messwerte wie beim vorherigen
Versuch ergeben. Daher muss eine ausreichende Zahl von Versuchen durchgeführt werden (z.B. eine größere
Menge von Anfragen betrachtet werden), um sowohl Zuverlässigkeit als auch Validität zu erreichen.
Abhängig von der Entwicklungsphase des zu untersuchenden Systems kann man folgende Arten von
Evaluierungen unterscheiden:
57
KAPITEL 5. EVALUIERUNG
58
• Formative und iterative Evaluierungen werden vor bzw. begleitend zur Systementwicklung durchgeführt, um Entwurfsentscheidungen zu treffen oder ggfs. zu revidieren.
• Demgegenüber steht die summative Evaluierung am Projektende, die das realisierte System mit den
Projektzielen vergleicht.
• Die komparative Evaluierung vergleicht mehrere Systeme (bzw. -Komponenten), meist auf der Basis
standardisierter Qualitätsmaße.
5.1
Evaluierungskriterien
Wenn man Informationssysteme evaluiert, muss man generell zwischen systemorientierter und benutzerorientierter Evaluierung unterscheiden:
Systemorientierte Evaluierungen fokussieren oft auf die (System-)Effizienz, also die Nutzung der Systemressourcen für eine bestimmte Aufgabe (Zeit/Speicherplatz).
Benutzerorientierte Evaluierungen stellen dagegen den Benutzer in das Zentrum der Betrachtungen. Hier
besteht ein enger Zusammenhang mit Usability-Evaluierungen. Im IR-Kontext sind dabei folgende
Kriterien von besonderem Interesse:
(Benutzer-)Effizienz bezeichnet die Schnelligkeit, mit der ein Benutzer erfolgreich eine Aufgabe
lösen kann.
Effektivität betrachtet die Genauigkeit und Vollständigkeit, mit der ein Ziel erreicht wird.
Zufriedenheit heißt einfach, der Benutzer ist mit dem System zufrieden.
IR-Evaluierungen konzentrieren sich dabei in erster Linie auf die Messung der Effektivität. Grund hierfür ist, dass IR-Systeme wegen der immanenten Vagheit und Unsicherheit weder korrekte (alle gefundenen
Dokumente relevant) noch vollständige (alle relevanten Dokumente) Antworten liefern können, so dass
man misst, wie nahe denn ein System dem Ideal kommt.
Schaut man sich publizierte Effektivitätsevaluierungen an, so stellt man fest, dass es zwei Arten hiervon
gibt: Systemorientierte Evaluierungen der Effektivität verwenden vorliegende Relevanzurteile der Benutzer, die eigentlichen Experimente werden ohne weitere Benutzerbeteiligung durchgeführt. Benutzerorientierte Experimente beobachten dagegen Benutzer vor einem laufendem IR-System (in der Regel in einer
Laborsituation) und berücksichtigen daher auch die Interaktion zwischen Benutzer und System.
Im Folgenden betrachten wir zunächst den ersten Fall und gehen dann in Abschnitt 5.7 auf die zweite
Variante ein.
5.2
Relevanz
Um die Qualität der Antworten eines IR-Systems zu beurteilen, legt man meist das Konzept der Relevanz
zugrunde: Relevanz bezeichnet dabei eine Eigenschaft der Beziehung zwischen der Anfrage und einem
einzelnen Element der Antwortmenge. Hierbei werden folgende Annahmen gemacht:
• Die Systemantwort ist eine Menge von Objekten (z. B. Dokumente). Damit werden stärker strukturierte Antworten nicht berücksichtigt. Wie unten gezeigt wird, lassen sich die hier diskutierten
Evaluierungsmethoden aber leicht auf lineare Anordnungen (Rangordnungen) ausdehnen.
• Die Qualität des Objekts, also seine Relevanz bezüglich der Anfrage, hängt nur von der Anfrage ab.
Wechselseitige Abhängigkeiten zwischen Objekten bleiben dagegen unberücksichtigt (wenn z. B. die
Bedeutung eines bestimmten Dokumentes erst nach der Lektüre eines anderen Dokumentes erkannt
wird).
Ebenso unberücksichtigt bleibt die Tatsache, dass die Beziehung zwischen Informationsbedürfnis und
Anfrage relativ komplex sein kann und sich nur schlecht auf eine lineare Skala abbilden lässt.
In der Literatur werden meist vier Arten von Relevanz unterschieden:
Situative Relevanz beschreibt die (tatsächliche) Nützlichkeit des Dokumentes in Bezug auf die Aufgabe,
aus der heraus das Informationsbedürfnis entstanden ist. Diese Auffassung von Relevanz orientiert
sich also an unserer Definition des Informationsbegriffs. Allerdings kann man die situative Relevanz
praktisch kaum erfassen, es handelt sich also eher um ein theoretisches Konstrukt.
KAPITEL 5. EVALUIERUNG
59
Pertinenz ist die subjektiv vom Benutzer empfundene Nützlichkeit des Dokumentes in Bezug auf das
Informationsbedürfnis. Wenn also der Anfragende selbst Relevanzurteile abgibt, so handelt es sich
genau genommen um Pertinenzurteile.
Objektive Relevanz ist die von einem oder mehreren neutralen Beobachtern beurteilte Beziehung zwischen dem geäußerten Informationswunsch und dem Dokument. Der Relevanzbegriff wird häufig bei
Systemevaluierungen zugrunde gelegt.
Systemrelevanz bezeichnet die von einem automatischen System geschätzte Relevanz des Dokumentes in
Bezug auf die formale Anfrage. In diesem Skript verwenden wir hierfür die Bezeichnung Retrievalwert
(englisch: Retrieval Status Value (RSV)), der durch die so genannte Retrievalfunktion berechnet wird.
Ein Beispiel soll die Unterschiede verdeutlichen: Ein Benutzer überlegt, ob er das brandneue Handy
XYZ kaufen soll. Seine Web-Suche findet unter ciao.de einen sehr positiven Erfahrungsbericht zu diesem Gerät. Die situative Relevanz dieses Dokumentes bezieht sich auf die Erfahrungen des Benutzers im
Vergleich zu denen des Dokumentes, wenn er das Handy kauft. Pertinenz bezeichnet dagegen die subjektive, momentane Einschätzung der Nützlichkeit dieses Dokumentes. Die objektive Relevanz würde dagegen
die Einschätzung eines neutralen Beobachters beschreiben (der z.B. weiß, dass solche Rezensionen häufig
vom Hersteller selbst in Auftrag gegeben werden). Die Systemrelevanz bezeichnet stets die Bewertung des
Dokumentes durch das Retrievalsystem.
Im Folgenden wird zwischen Pertinenz und objektiver Relevanz nicht mehr unterschieden. Zudem
machen wir die Einschränkung, dass die Relevanzskala zweistufig ist, also aus den beiden Werten relevant“
”
und nicht relevant“ besteht.
”
5.3
Distributionen
Distributionen sind abstrakte Darstellungen von Retrievalantworten, die als Grundlage für Bewertungsmaße dienen. Wir illustrieren dieses Konzept anhand eines Beispiels: Als Antwort auf eine Anfrage berechne
ein System folgende Retrievalwerte für die Dokumente in der Datenbasis:
{(d1 , 0.3), (d2 , 0.8), (d3 , 0.1), (d4 , 0.8), (d5 , 0.8), (d6 , 0.6), (d7 , 0.3), (d8 , 0.1)}
Daraus ergibt sich folgende Rangordnung bzw. Distribution von Dokumenten:
({d2 , d4 , d5 }, {d6 }, {d1 , d7 }, {d3 , d8 })
Die Relevanzbeurteilung des Benutzers sei nun folgende (R – relevant, R̄ – nicht relevant):
{(d1 , R), (d2 , R), (d3 , R̄), (d4 , R), (d5 , R), (d6 , R̄), (d7 , R), (d8 , R)}
Durch die Zusammenführung von Rangordnung und Relevanzurteilen erhält man die Distribution mit
Relevanzurteilen:
+ +
−
+ +
− +
({d+
2 , d4 , d5 }, {d6 }, {d1 , d7 }, {d3 , d8 })
Für die Bewertung der Retrievalqualität abstrahiert man nun von spezifischen Dokumenten. Dadurch
ergeben sich Äquivalenzklassen von Distributionen mit Relevanzurteilen, die wir im folgenden einfach als
Distributionen bezeichnen:
∆ = (+ + +| − | + +| + −)
Die einzelnen Ränge werden dabei durch |“ getrennt, +“ bezeichnet ein relevantes und −“ ein nichtre”
”
”
levantes Dokument.
5.4
Standpunkte und Bewertungsmaße
Jedem Bewertungsmaß liegt ein bestimmter Standpunkt bezüglich des Besserseins“ einer Distribution
”
im Vergleich zu einer anderen zugrunde. Bevor man ein Maß anwendet, sollte man sich daher im Klaren darüber sein, welcher Standpunkt dem gewählten Maß zugrundeliegt und ob dieser für die aktuelle
Anwendung adäquat ist.
KAPITEL 5. EVALUIERUNG
5.4.1
60
Benutzerstandpunkte
Wir nehmen an, dass das IRS als Antwort auf eine Anfrage eine Rangordnung von Dokumenten produziert,
die der Benutzer sequentiell solange durchsieht, bis ein bestimmtes Abbruchkriterium erfüllt ist. Für jedes
Kriterium (= Standpunkt) kann man dann ein entsprechendes Bewertungsmaß definieren, das die Präferenzen des Benutzers widerspiegelt. Beispiele für mögliche Abbruchkriterien und zugehörige Bewertungsmaße
sind:
• n Dokumente gesehen: # gesehene relevante Dokumente
• n relevante Dokumente gesehen: # gesehene Dokumente
• n nicht relevante Dokumente gesehen: # gesehene / # gesehene relevante Dokumente
• n nicht relevante Dokumente in Folge gesehen: # gesehene / # gesehene relevante Dokumente
5.4.2
Benutzer- vs. Systemstandpunkte
Man kann grob zwischen Benutzer- und Systemstandpunkten unterscheiden. Erstere spiegeln dabei die
Sicht eines einzelnen Benutzers wider, während letzteren eine globale Sicht (die des Systembetreibers)
zugrundeliegt. Dementsprechend beziehen sich benutzerorientierte Maße auf das mögliche Verhalten und
die Präferenzen der Benutzer. Systemorientierte Maße entsprechen dagegen einer systemorientierten Sicht,
die unabhängig von speziellen Benutzerstandpunkten ist. Daher wird eine globale“ Bewertung der Dis”
tribution angestrebt. Im Gegensatz dazu werden etwa bei den obigen benutzerorientierten Maßen jeweils
nur die ersten Dokumente der Rangordnung betrachtet. Ein einfaches systemorientiertes Maß wäre da¯ Bezeichne S + die Anzahl
her die Korrelation zwischen Systemantwort ∆ und idealer Distribution ∆.
−
richtig angeordnete Paare und S die Anzahl falsch angeordnete Paare sowie Smax die Anzahl richtig
angeordnete Paare der optimalen Lösung, dann könnten wir z.B. die systemorientierte Güte der Antwort
¯ = (+ + + + + + | − −) berechnen als
∆ = (+ + +| − | + +| + −) im Vergleich zur idealen Rangordnung ∆
%=
5
8−3
S+ − S−
=
.
=
Smax
12
12
5.5
Maße für Ergebnismengen
5.5.1
Recall, Precision und Fallout
Wir betrachten zunächst den Fall der Retrievalbewertung für eine Ergebnismenge, da die Maße für Rangordnungen Erweiterungen der mengenbezogenen Maße sind.
Als Benutzerstandpunkt wird hier angenommen, dass der Benutzer sich stets alle gefundenen Dokumente anschaut. Im Folgenden bezeichne GEF die Menge der gefundenen Antwortobjekte, REL die Menge
der relevanten Objekte in der Datenbank und ALL die Gesamtzahl der Dokumente in der Datenbank
(Abbildung 5.1).
Basierend auf diesen Mengen lassen sich dann die Maße Precision, Recall und Fallout wie folgt definieren:
Precision:
p :=
|REL ∩ GEF |
|GEF |
(5.1)
Recall:
r :=
|REL ∩ GEF |
|REL|
(5.2)
Fallout:
f :=
|GEF − REL|
|ALL − REL|
(5.3)
Hierbei gibt die Precision den Anteil der relevanten an den gefundenen Dokumenten wieder. Recall
dagegen bezeichnet den Anteil der relevanten Dokumente, die tatsächlich gefunden wurden. Schließlich
misst Fallout den Anteil der gefundenen irrelevanten an allen irrelevanten Dokumenten der Kollektion;
hiermit wird also die Fähigkeit des Systems bewertet, irrelevante Dokumente vom Benutzer fernzuhalten.
KAPITEL 5. EVALUIERUNG
61
gefunden (GEF)
0000000000
1111111111
111111111111
000000000000
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
relevant (REL)
Kollektion (ALL)
Abbildung 5.1: Mengen der relevanten und gefundenen Dokumente
Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur
aktuellen Anfrage enthält. Ein System liefert 10 Dokumente, von denen 8 relevant sind. Dann erhält man
folgende Werte:
p
=
r
=
f
=
|REL ∩ GEF |
8
=
= 0.8
|GEF |
10
8
|REL ∩ GEF |
=
= 0.4
|REL|
20
|GEF − REL|
2
=
≈ 0.002
|ALL − REL|
980
Da es sich bei Retrievalexperimenten um stochastische Experimente handelt, sollte man die Messwerte
auch entsprechend interpretieren. Im Falle der Precision p = |REL ∩ GEF |/|GEF | wird damit die Wahrscheinlichkeit approximiert, dass ein (zufällig ausgewähltes) gefundenes Dokument relevant ist. Analog
schätzt man mit dem Recall r = |REL ∩ GEF |/|REL| die Wahrscheinlichkeit, dass ein (zufällig ausgewähltes) relevantes Dokument gefunden wird. Entsprechendes gilt für den Fallout. Diese probabilistische
Interpretation der Retrievalmaße spielt bei theoretischen Untersuchungen eine wesentliche Rolle
5.5.2
Distributionen, Transformationen und Präferenzen
Um den Zusammenhang zwischen Distributionen und Präferenzen zu verdeutlichen, betrachten wir ein
Beispiel für das Ergebnis von Booleschem Retrieval:
,
∆ = (+ + + − | + + − − − −−)
Nun untersuchen wir die die Auswirkungen folgender Transformationen:
1. verschiebe ein relevantes Dokument in einen niedrigeren (besseren) Rang
2. verschiebe ein irrelevantes Dokument in einen höheren Rang
3. verdopple alle Dokumente im ersten Rang
auf die Maße Recall, Precision und Fallout:
Transformation
Recall
Precision
Fallout
1
+
+
0
2
0
+
+
3
+
0
-
KAPITEL 5. EVALUIERUNG
62
Man erkennt, dass die Maße sich unterschiedlich verhalten. Wenn sich der Wert eines Maßes durch eine
Transformation verbessert, so bezeichnet man diese als Präferenz. Maße lassen nun ebenso wie Benutzerstandpunkte durch Präferenzen kennzeichnen; dementsprechend kann man für einen Benutzerstandpunkt
anhand der Präferenzen das passende Maß auswählen.
5.5.3
Anwendung von Retrievalmaßen
Für konkrete Anwendungen – insbesondere solche, bei denen anstelle einer Ergebnismenge eine Rangliste
von Antworten zom System geliefert wird – werden häufig Varianten der o.g. Maße verwendet, die an den
jeweiligen Kontext angepasst wurden.
• Beim Web-Retrieval kann man davon ausgehen, dass die meisten Benutzer (nach empirischen Untersuchungen ca. 90%) sich nur die erste Seite der Ergebnisliste anschauen, die in der Regel 10
Antworten enthält1 . Ein passendes Maß ist daher die Precision nach 10 Dokumenten, die meist als
Prec@10“ bezeichnet wird. Ein extremer Standpunkt wäre die Precision des ersten Dokumentes
”
(Prec@1). In diesem Kontext wird auch häufig die Click-Through-Rate betrachtet: in Ermangelung
von Relevanzurteilen wird angenommen, dass jede angeklickte Antwort relevant sind
• Bei Evaluierungsinitiativen wie TREC, CLEF oder INEX werden in analoger Weise z.B. Prec@5,
Prec@10, Prec@30 und Prec@100 parallel betrachtet, um Benutzerklassen zu simulieren, die sich
jeweils die entsprechende Anzahl Dokumente anschauen (siehe z.B. [Harman 95]). Als globales Maß
wird hier zudem die Mean Average Precision betrachtet, die man erhält, wenn man für jede Frage
zunächst die Average Precision (siehe Gleichung 5.5) bestimmt und dann das arithmetische Mittel
über alle Fragen bildet. Letztere wiederum ist als Mittelwert der Precision nach jedem relevanten
Dokument definiert. Abbildung 5.9 zeigt, dass man dieses Maß als benutzerorientiert interpretieren
kann, wenn man annimmt, dass nach jedem relevanten Dokument ein gleich großer Anteil von Benutzern die Suche abbricht. Dies ist natürlich ziemlich unrealistisch – die meisten Benutzer werden
schon relativ früh stoppen, so dass man anstelle einer Gleichverteilung eher eine schiefe Verteilung
annehmen müsste.
5.5.4
Recall-Abschätzung
Die Größe der Precision ist für jeden Benutzer eines IR-Systems direkt ersichtlich. Die Größe des Recalls ist
dagegen für einen Benutzer weder erkennbar, noch kann sie mit vernünftigem Aufwand präzise bestimmt
werden. Der Grund hierfür liegt in dem Problem, die Mächtigkeit der Menge REL zu bestimmen. Folgende
Näherungsmethoden wurden hierzu vorgeschlagen:
gef 4
gefundene Dokumente
relevante Dokumente
Frageerweiterung
gef 5
gef 3
gef 2
gef 1
Abbildung 5.2: Recall-Abschätzung durch Frageerweiterung (links) und Pooling (rechts)
1 Viele
Benutzer stoppen sogar schon früher, wenn nicht alle zehn Antworten ohne Scrollen sichtbar sind!
KAPITEL 5. EVALUIERUNG
63
Vollständige Relevanzbeurteilung einer repräsentativen Stichprobe der gesamten Datenbasis: Da
REL sehr viel kleiner als die gesamte Datenbasis ist (z. B. mögen 100 von 107 Dokumenten relevant sein), müsste die repräsentative Stichprobe schon einen relativ großen Teil der Datenbasis
umfassen, was zu viel Beurteilungsaufwand erfordert.
Source-Dokument-Methode: Hierbei wählt man ein zufälliges Dokument aus der Datenbank und formuliert dann eine Frage, auf die dieses Dokument relevant ist. Anschließend wird geprüft, ob das
System das betreffende Dokument als Antwort auf die Frage liefert. Für eine Menge von Fragen
schätzt man dann über die relative Häufigkeit die Wahrscheinlichkeit, dass das Source-Dokument
gefunden wird, als Näherung des Recalls. Nachteil dieser Methode ist, dass die verwendeten Fragen
keine echten Benutzerfragen sind.
Frageerweiterung: Man erweitert die ursprünglichen Anfrage, so dass eine Obermenge der ursprünglichen Antwortmenge gefunden wird (siehe Abbildung5.2) die wesentlich größer ist und weitere relevante Dokumente enthält (z. B. kann man auch mehrere Frageformulierungen von verschiedenen Bearbeitern erstellen lassen und die Vereinigungsmenge der Antwortmengen betrachten). Damit erhält
man aber nur eine Teilmenge der Menge REL, somit sind die darauf basierenden Recall-Schätzungen
im allgemeinen zu hoch.
Abgleich mit externen Quellen: Man versucht parallel zur Datenbanksuche noch mit davon unabhängigen Methoden, relevante Dokumente zu bestimmen (z. B. indem man den Fragenden oder andere
Fachleute fragt, welche relevanten Dokumente sie kennen). Der Anteil der in der Datenbasis vorhandenen Dokumente, die das System als Antwort liefert, ist dann eine gute Näherung für den
Recall. Nachteile dieser Methode sind, dass sie zum einen recht aufwendig ist, zum anderen oft nicht
anwendbar ist, weil es keine unabhängigen externen Quellen gibt.
Pooling-Methode: (Retrieval mit mehreren Systemen): Man wendet mehrere IR-Systeme auf denselben
Dokumentenbestand an und mischt die Ergebnisse verschiedener Systeme zu den gleichen Anfragen,
bevor man deren Relevanz beurteilt (siehe Abbildung5.2). In der Regel gibt es starke Überlappungen
in den Antwortmengen der verschiedenen Systeme, so dass der Aufwand nicht linear mit der Anzahl
betrachteter Systeme wächst [Harman 95]. Dieses Verfahren wird derzeit beim Vergleich experimenteller Systeme im Rahmen von Evaluierungsinitiativen angewandt.
Außer den ersten beiden Verfahren liefern alle Methoden nur untere Schranken für REL; die gemessenen
Recall-Werte sind daher im Allgemeinen zu optimistisch.
5.5.5
Frageweise Vergleiche
Hat man für eine Frage Recall und Precision bestimmt, so lässt sich dieses Ergebnis als Punkt in einem
Recall-Precision-Graphen darstellen. Beim Vergleich zweier Systeme bezüglich einer Frage ist dann dasjenige System besser, das sowohl einen höheren Recall- als auch einen besseren Precision-Wert liefert (einer
der beiden Werte darf auch gleich sein). In Abbildung 5.3 sind die Bereiche, in denen bessere bzw. schlechtere Ergebnisse liegen, weiß markiert. Häufig wird allerdings ein System einen höheren Recall, das andere
dagegen eine höhere Precision liefern, so dass sich keine Aussage bezüglich einer Überlegenheit eines der
beiden Systeme ableiten lässt (die grauen Bereiche in Abbildung 5.3).
Als eine gängige Methode, (r, p)-Paare durch eine einzige Zahl auszudrücken, hat sich das F -Maß
durchgesetzt. Abhängig von einem zu wählenden Parameter β berechnet sich dieses Maß zu
Fβ =
(β 2 + 1) · p · r
β2 · p + r
(5.4)
Hierbei gibt β die relative Gewichtung des Recalls an (β = 0: nur Precision zählt; β = ∞: nur Recall
zählt). Üblicherweise setzt man β = 1, arbeitet also mit dem F1 -Maß. Abbildung 5.4 zeigt die Aufteilung
von Recall-Precision-Punkten in bessere und schlechtere Ergebnisse durch das F -Maß: Bezogen auf den
F-Wert 0,5 für verschiedene β-Werte finden sich bessere Recall-Precision-Punkte jeweils im rechten oberen
Bereich, schlechtere Punkte auf der jeweils anderen Seite der Kurven.
Als Alternative zu diesen kombinierten Maßen kann man auch Kostenmaße betrachten; diese werden
insbesondere bei Systemen zur Informationsfilterung häufig eingesetzt. Dabei geht man von folgender
Kontingenztafel aus und zählt die Anzahl Dokumente h.. für jeden der vier Fälle:
KAPITEL 5. EVALUIERUNG
64
1
Precision
0.8
0.6
0.4
0.2
0
0
0.5
Recall
1
Abbildung 5.3: Darstellung eines Retrievalergebnisses als Punkt im Recall-Precision-Graphen
1
β=0.4
β=1.0
β=4.0
Precision
0.8
0.6
0.4
0.2
0
0
0.5
Recall
1
Abbildung 5.4: Aufteilung von Recall-Precision-Punkten durch das F -Maß: Für F = 0.5 und verschiedene
β-Werte finden sich bessere Recall-Precision-Punkte im rechten oberen Bereich.
KAPITEL 5. EVALUIERUNG
65
relevant
relevant
hR
g
hR
n
hIg
gefunden
gefunden
hIn
Die allgemeine Formel für die Gesamtkosten ergibt sich dann als gewichtete Summe der verschiedenen
Anzahlen:
I
I
R
R
I
I
C = CgR · hR
g + Cg · hg + Cn · hn + Cn · hn
Dabei sind CgR , CgI , CnR und CnI die Kostenparameter für die vier Fälle. Im einfachsten Fall könnte man
etwa wählen CgR = CnI = 0 und CgI = CnR = 1.
Will man dagegen ein System zur Filterung von Spam-Emails bewerten, so sollte zwar das System
möglichst alle relevanten“ (d.h. Ham-Mails) identifizieren, aber möglichst wenig irrelevante“ (Spam)
”
”
I
Mails selektieren. Um also hR
n (im Vergleich hg , der Anzahl an den Benutzer weitergeleiteten Spam-Mails)
R
I
zu möglichst klein zu halten, sollten also entsprechende Werte Cn Cg gewählt werden. Würde man z.B.
20 gesehene Spam-Mails als genauso schlimm wie eine verlorene Ham-Mail ansehen, so könnte man setzen
CnR = 20 · CgI sowie CgR = CnI = 0.
5.5.6
Mittelwertbildung
Wie oben erwähnt, muss man eine Menge von Fragen betrachten, um fundierte Aussagen über die Qualität
eines Systems zu erhalten. Dementsprechend müssen Mittelwerte für die Qualitätsmaße berechnet werden.
Hierzu werden im IR zwei verschiedene Methoden angewendet (im Folgenden gehen wir von N Fragen aus,
wobei RELi und GEFi für i = {1, . . . , N } die jeweiligen Mengen gefundener bzw. relevanter Dokumente
bezeichnen):
• Bei der Makrobewertung wird das arithmetische Mittel der Werte für die einzelnen Fragen gebildet,
also z. B. für die Precision:
N
1 X |RELi ∩ GEFi |
pM =
N i=1
|GEFi |
Probleme ergeben sich bei der Makrobewertung, wenn einzelne Fragen leere Antwortmengen liefern
(dies ist z. B. häufig bei Tests der Fall, wo nur eine Stichprobe der Dokumente der gesamten Datenbasis verwendet wird, so dass Fragen mit wenigen Antworten auf der gesamten Datenbasis oft keine
Antwort in der Stichprobe liefern). Durch verbesserte probabilistische Schätzmethoden kann dieses
Problem unter Umständen behoben werden.
Aus stochastischer Sicht approximiert die Makro-Methode den Erwartungswert für die Precision
zu einer zufällig ausgewählten Anfrage. Somit geht jede Frage gleich stark in den Mittelwert ein,
was nicht immer wünschenswert sein mag (wenn man Fragen mit größeren Antwortmengen stärker
gewichten will). Daher bezeichnet man diese Methode auch als Frage- oder Benutzer-orientiert.
• Bei der Mikrobewertung werden zuerst Zähler und Nenner des Maßes addiert, bevor der Quotient
gebildet wird – also bei der Precision:
PN
pµ =
|RELi ∩ GEFi |
PN
i=1 |GEFi |
i=1
Dadurch wird das Problem der leeren Antwortmengen umgangen. Da hier jedes Dokument gleich
stark in den Mittelwert eingeht, bezeichnet man die Mikrobewertung auch als Dokument- oder
System-orientiert. Aus stochastischer Sicht wird hier die Wahrscheinlichkeit approximiert, dass ein
(zufällig ausgewähltes) gefundenes Dokument aus einer der N Anfragen relevant ist.
Analoge Betrachtungen gelten für Recall und Fallout.
Ein spezielles Problem der Mikro-Precision ist die fehlende Monotonie-Eigenschaft: Wir betrachten zwei
verschiedene Retrievalergebnisse ∆1 , ∆2 , die von zwei Systemen zur gleichen Frage geliefert worden sind.
Ein Maß ist dann monoton, wenn sich durch das Hinzufügen des gleichen Retrievalergebnisses ∆ zu beiden
Ergebnissen die Aussage über die Überlegenheit eines der beiden Systeme nicht ändert. Seien ∆1 = (+−)
KAPITEL 5. EVALUIERUNG
66
und ∆2 = (+ + − − −) Retrievalergebnisse, zu denen später das Retrievalergebnis ∆ = (+ + − − − − −−)
hinzugefügt wird.
1
2
3
aber pµ (∆1 , ∆) =
10
Dann ist pµ (∆1 ) =
5.6
>
<
2
= pµ (∆2 ),
5
4
= pµ (∆2 , ∆).
13
Rangordnungen
Fast alle Retrievalverfahren liefern eine Rangordnung von Dokumenten als Antwort (eine Ausnahme bildet
nur das boolesche Retrieval, das noch in einigen älteren Systemen im Einsatz ist). Daher müssen die
Definitionen der Retrievalmaße entsprechend erweitert werden.
Bei Rangordnungen muss man zusätzlich unterscheiden, ob eine lineare (totale) Ordnung der Dokumente aus der Datenbasis vorliegt oder nur eine schwache Ordnung (d.h. es können mehrere Dokumente
im selben Rang sein). Wir beschränken uns hier auf lineare Ordnungen.
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Dokumentnr.
588
589
576
590
986
592
984
988
578
985
103
591
772
990
× = rel.
×
×
×
×
×
Recall
0.2
0.4
0.4
0.6
0.6
0.8
0.8
0.8
0.8
0.8
0.8
0.8
1.0
1.0
Precision
1.00
1.00
0.67
0.75
0.60
0.67
0.57
0.50
0.44
0.40
0.36
0.33
0.38
0.36
Tabelle 5.1: Recall und Precision für ∆1 nach dem Nachweis von n Dokumenten bei linearer Ordnung
Retrievalergebnisse werden durch das in Abschnitt 5.3 beschriebene Schema dargestellt. Die Distributionen ∆1 und ∆2 dienen im Folgenden als Beispiele für lineare Rangordnungen:
∆1
=
(+| + | − | + | − | + | − | − | − | − | − | − | + |−)
∆2
=
(+| − | + | + | + | − | − | − | − | − | + | − | + |−)
Die zugrundegelegte fiktive Dokumentkollektion enthält also 14 Dokumente, von denen im Fall von ∆1
5 und im Fall von ∆2 6 Dokumente als relevant beurteilt wurden.
Bei einer linearen Ordnung können Recall und Precision (r, p) für eine Anfrage in Abhängigkeit von
der Mächtigkeit in der Antwortmenge bestimmt werden, wie dies am Beispiel in Tabelle 5.1 gezeigt wird.
∆1 ist die zugehörige Darstellung des Retrievalergebnisses.
Trägt man die sich für verschiedene n ergebenden (r, p)-Werte in das Recall-Precision-Diagramm ein, so
ergibt sich das in Abbildung 5.5 (links) gezeigte Bild. Um die Übersichtlichkeit zu erhöhen, kann man die
einzelnen Punkte mit Geradenstücken verbinden (lineare Interpolation, Abbildung 5.5 rechts). Diese Art
der Darstellung ist besonders nützlich, wenn man die Qualitätsmaße für mehrere Rangordnungen in einem
einzigen Graphen darstellen möchte (siehe Abbildungen 5.6). Allerdings darf man den Zwischenpunkten auf
diesen Geradenstücken keine Bedeutung zuordnen, da die lineare Interpolation aus theoretischen Gründen
nicht korrekt ist – somit kann man im Beispiel etwa nicht behaupten, die gestrichelte Linie zeige für r=0.5
einen höheren Wert. Ein weiterer Nachteil dieser Methode zeigt sich bei der Mittelung über mehrere Fragen
– dann erhält man eine Zitterkurve“, da sich die Spitzen der Sägezähne“ nicht ausmitteln.
”
”
KAPITEL 5. EVALUIERUNG
1
∆1
0.8
0.8
0.6
0.6
Precision
Precision
1
67
0.4
0.2
∆1, lineare Interpolation
0.4
0.2
0
0
0
0.5
Recall
1
0
0.5
Recall
1
Abbildung 5.5: Graphische Darstellung der Werte aus Tabelle 5.1 (∆1 ), rechts mit linearer Interpolation
der Punkte.
1
∆1
∆2
0.8
0.8
0.6
0.6
Precision
Precision
1
0.4
0.2
∆1
∆2
0.4
0.2
0
0
0
0.5
Recall
1
0
0.5
Recall
1
Abbildung 5.6: Graphische Darstellung der Werte für zwei verschiedene Rangordnungen (∆1 und ∆2 ),
rechts mit linearer Interpolation der Punkte.
KAPITEL 5. EVALUIERUNG
68
1
∆1, lineare Interpolation
∆1, Interpolation nach Salton
Precision
0.8
0.6
0.4
0.2
0
0
0.5
Recall
1
Abbildung 5.7: Interpolation nach Salton
1
∆1
∆2
0.8
0.8
0.6
0.6
Precision
Precision
1
0.4
0.2
∆1
∆2
0.4
0.2
0
0
0
0.5
Recall
1
0
0.5
Recall
1
Abbildung 5.8: Salton-Methode (links) im Vergleich zur Mittelung über 11 Punkte (rechts)
Um die Kurven im R-P-Graphen interpretieren zu können, wurde von Salton [Salton & McGill 83,
S. 167–8] vorgeschlagen, die Originalkurve wie in Abb. 5.7 dargestellt zu interpolieren. Dabei wird jeder
einzelne (r, p) Wert durch eine waagerechte Linie bis zu r = 0 extrapoliert. Der resultierende Graph ergibt
sich dann als das Maximum über diese Geradenstücke. Es wird also angenommen, dass der Benutzer
nur nach einem relevanten Dokument stoppt (so dass die Punkte für irrelevante Ränge ignoriert werden
können). Zudem stoppt er nur, falls die Precision später nicht noch einmal ansteigt.
Später wurde diese Methode noch etwas weiter entwickelt, indem man aus diesen Kurven die Precision
für die 11 Recall-Punkte { 0, 0.1, 0.2, . . . , 1 } abliest (oder als Verfeinerung für 101 Punkte 0, 0.01,
0.02. . . ) und diese Werte dann durch Geradenstücke verbindet. Ein Schwachpunkt dieses Ansatzes ist die
Tatsache, dass für Recall 0 die Precision eigentlich undefiniert ist. Zudem werden schwache Ordnungen
einfach in eine zufällige lineare Anordnung überführt, was die Reliabilität der Ergebnisse beeinträchtigt.
Abbildung 5.8 zeigt die sich daraus ergebenden Kurven im Vergleich zur Salton-Methode.
KAPITEL 5. EVALUIERUNG
5.6.1
69
Abbruchverhalten von Nutzern
Will man eine Rangordnung durch ein einziges nutzerorientiertes Maß bewerten, so muss man das Abbruchverhalten von Nutzern entsprechend modellieren. D.h., man muss festlegen, welcher Anteil der Nutzer
sich die Rangordnung bis zu welchem Punkt durchschaut. Zusätzlich braucht man ein benutzerorientiertes
Bewertungsmaß für die gesehene Menge von Dokumenten. Zusammen mit dem Abbruchverhalten berechnet man dann ein entsprechendes gewichtetes Mittel. Abbildung 5.9 illustriert diese Vorgehensweise für
das Maß average Precision, wo man annimmt, dass nach jedem relevanten Dokument der gleiche Anteil
Nutzer stoppt, und man dann die entsprechenden Precision-Werte mittelt. Natürlich ist dies ein relativ
unrealistisches Abbruchverhalten. Allgemein kann man solche Maße gemäß folgender Formel berechnen:
Abbildung 5.9: Average Precision basiert auf unrealistischem Abbruchverhalten
Bezeichne d(k) das Discounting, also den Anteil der Nutzer, die an Rang k stoppen, und sei g(k) der Wert
des Qualitätsmaßes an Rang k. Zusätzlich benötigt man noch einen Normierungsfaktor N , der dafür sorgt,
dass das Maß nur Werte zwischen 0 und 1 annehmen kann. Dann hat das Maß folgende allgemeine Form:
∞
1 X
d(k)g(k)
N
k=1
Im Fall der Average Precision gilt: sei r(k) = 1, falls ktes Dok relevant, und 0 sonst, bezeichne n die
Pk
Gesamtzahl der relevanten Dokumente, und sei s(k) = j=1 r(k) die Anzahl relevanter Dokumente bis
zum Rang k, dann berechnet man
AP =
∞
X
r(k) s(k)
k=1
5.6.2
n
k
(5.5)
Cumulated Gain
Ein wesentlich realistischeres Modell für das Nutzerverhalten wurde in [Järvelin & Kekäläinen 02] vorgeschlagen. Das zugrunde liegende Qualitätsmaß ist der cumulated gain, der insbesondere mehrstufige
Relevanzskalen berücksichtigen kann. Wir stellen eine entsprechende Distribution als Folge von nichtnegativen Integer-Werten dar, also z.B. ∆1 = (3|2|3|0|0|1|2|2|3|0). Zur Definition des Maßes transformieren
wir die Distribution in einen sogenannten Gain Vektor G1 = (3, 2, 3, 0, 0, 1, 2, 2, 3, 0). Daraus berechnen
wir dann den Cumulated Gain Vektor:
G[1]
, if k = 1
CG(k) =
(5.6)
CG(k − 1) + G(k) , sonst
Für unser Beispiel lautet dieser CG1 = (3, 5, 8, 8, 8, 9, 11, 13, 16, 16).
Um nun das Abbruchverhalten zu berücksichtigen, wird der Discounted Cumulated Gain definiert. Für
den Anteil der Benutzer, die nach Rang k stoppen, schlagen [Järvelin & Kekäläinen 02] folgende Funktion
vor: d(k) = 1/ logb k (wobei b eine frei zu wählende Konstante ist. Der Discounted Cumulated Gain ist
dann definiert als
KAPITEL 5. EVALUIERUNG
70
DCG(k) =
CG(k)
DCG(k − 1) + G(k)/ logb k
, if k < b
, sonst
(5.7)
Für unseren obigen Gain-Vektor G = (3, 2, 3, 0, 0, 1, 2, 2, 3, 0) ergibt sich mit b = 2 folgender Discounted
Cumulated Gain: DCG = (3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61).
Abbildung 5.10: CG- und DCG-Kurven
Abbildung 5.10 zeigt Beispiele von CG- und DCG-Kurven von 5 Teilnehmern (A-E) bei TREC-7, die
über 20 Fragen gemittelt wurden. Das Problem bei diesen Maßen ist, dass sie stark von der Generality der
Frage abhängen, so dass eine Mittelung über mehrere Fragen wenig sinnvoll ist. Erforderlich ist daher eine
Normalisierung. Hierfür gibt es die Maße n(D)CG - normalized (Discounted) Cumulated Gain, bei denen
d dividiert:
man den (D)CG-Vektor durch idealen Vektor (D)CG
nCG(k)
=
CG(k)
d
CG(k)
(5.8)
nDCG(k)
=
DCG(k)
d
DCG(k)
(5.9)
Abbildung 5.11 zeigt den Vergleich zwischen unnormiertem und normiertem DCG-Maß für voriges Beispiel.
Abbildung 5.11: DCG- und nDCG-Kurven
KAPITEL 5. EVALUIERUNG
5.6.3
71
Evaluierung von Diversity-Ranking
Häufig möchte man beim Retrieval möglichst mehrere Antworten, die verschiedene Aspekte der Anfrage
abdecken. Fragt der Benutzer etwa nach einem Popstar, dann möchte er vielleicht dessen neuestes Album kaufen, sich das zugehörige Video anschauen, den neuesten Klatsch erfahren oder sich anhand der
Wikipedia-Seite allgemein informieren. Um solche Anfragen möglichst optimal zu beantworten, sollte ein
Retrievalsystem versuchen, alle Aspekte mit den ersten Antwortdokumenten abzudecken – dies bezeichnet man als diversity ranking. Hierzu definieren wir die Maße Subtopic Recall und Precision. Bezeichne
subtopics(di ) die Menge der relevanten Teilaspekte in Dokument di , und sei ns die Gesamtzahl der Teilaspekte der aktuellen Frage. Der Subtopic Recall bei Rang k ist dann definiert als
s-r(k) =
| ∪ki=1 subtopics(di )|
ns
Nehmen wir als Beispiel eine Frage mit 5 Teilaspekten (a,b,c,d,e) an. Für die Distribution
< (a, b)|(b, c)|()|(a, d)|(a, c)|(e) > ergeben sich dann folgende Werte: s-r = (0.4, 0.6, 0.6, 0.8, 0.8, 1.0)
Zur Definition der Subtopic Precision vergleichen wir das aktuelle System S mit dem optimalen System
Sopt und berechnen die subtopic precision in Abhängigkeit vom subtopic recall
s-p(s-r) =
minRank(Sopt (s-r))
minRank(S(s-r))
Für unser obiges Beispiel mit S =< (a, b)|(b, c)|()|(a, d)|(a, c)|(e) > würde das ideale System folgende
Distribution liefern: Sopt =< (a, d)|(b, c)|(e)| . . . >, die beiden Vektoren von subtopic recall sind dann
s-r= (0.4, 0.6, 0.6, 0.8, 0.8, 1.0) und s-ropt = (0.4, 0.8, 1.0, 1.0, 1.0, 1.0). Die Gegenüberstellung liefert dann
s-r
0.2 0.4 0.6 0.8 1.0
minRank(S)
1
1
2
4
6
minRank(Sopt ) 1
1
2
2
3
s-p
1
1
1
0.5 0.5
Eine Erweiterung von nDCG für Diversitäts-Ranking wird mit α-nDCG in [Clarke et al. 09] vorgeschlagen, wo ein Discounting nur für diejenigen Teilaspekte erfolgt, die der Benutzer vorher schon gesehen
hat.
5.7
5.7.1
Evaluierung von interaktivem Retrieval
Batch- vs. interaktives Retrieval
Bisher wurde in diesem Kapitel fast ausschließlich die Evaluierung von Batch-artigem Retrieval betrachtet.
Dabei wird angenommen, dass der Benutzer eine Anfrage formuliert, und dann wird die Qualität der von
den einzelnen Systemen produzierten Ergebnisse bestimmt. Dieser Ansatz hat allerdings eine Reihe von
Schwächen:
• Es wird nur eine einzige Anfrage betrachtet, eine Reformulierung (wie sie bei interaktiven Systemen
üblich ist) wird nicht berücksichtigt.
• Auch bei Relevance Feedback ist die einzig mögliche Interaktion die Relevanzbeurteilung einiger
Dokumente, weitergehende Reaktionen des Benutzers (wie etwa Markierung relevanter/irrelevanter
Passagen) sind nicht möglich.
• Heutige IR-Systeme bieten oft eine reichhaltige Funktionalität, wie z.B. Highlighting, Clustering,
Browsing von Dokumenten oder Termlisten. Diese Funktionalität wird bei der Evaluierung nicht
berücksichtigt.
• Ergebnisse aus dem TREC interactive track [Voorhees & Harman 00] zeigen, dass die in herkömmlichen Evaluierungen beobachteten Qualitätsunterschiede zwischen Verfahren beim interaktiven Retrieval verschwinden, da sie durch den Benutzer leicht kompensiert werden können
[Turpin & Hersh 01].
KAPITEL 5. EVALUIERUNG
72
Abbildung 5.12: Berrypicking-Modell nach Bates
Somit ergibt sich der Schluss, dass Ergebnisse aus Batch-Evaluierungen nur sehr beschränkte Aussagekraft
auf die viel realistischere Situation des interaktiven Retrieval haben. Daraus ergibt sich die Notwendigkeit
für die Evaluierung von interaktivem Retrieval.
Empirische Studien zu interaktivem Retrieval haben immer wieder gezeigt, dass dies ein iterativer
Prozess ist, bei dem Nutzer die Anfrage häufig reformulieren. Die eingegebenen Anfragen sind zwar thematisch zusammenhängend, allerdings wandert das Ziel der Suche dabei. Die Idee des Relevance Feedback,
die Anfrage für ein feststehendes Informationsbedürfnis zu optimieren, ist also unrealistisch. Als kognitives Modell für diese Situation ist von Marcia Bates das Berrypicking-Modell vorgeschlagen worden:
ähnlich einem Beerensucher im Wald sammelt ein Benutzer während der Suche Beeren“ in Form von
”
relevanten Dokumenten und hilfreichen Suchtermen, und wechselt dabei immer etwas die Richtung (siehe
Abbildung 5.12).
5.7.2
Suchaufgaben
Um interaktives Retrieval im Labor zu evaluieren, benötigt man realistische Suchaufgaben. Borlund hat
hierzu den Ausdruck simulated work task“ geprägt. anstelle eines vorgegebenen Informationsbedürfnisses
”
holt man also weiter aus und beschreibt den Versuchspersonen eine zu lösende Aufgabe, aus der heraus
das Informationsbedürfnis begründet ist.
Einige Beispiele aus dem Interactive Track“ 2009 der Evaluierungsinitiative INEX sollen dies illustrie”
ren:
1. Breites Thema: You are considering to start studying nuclear physics. In order to prepare for the
course you would like to get acquainted with some good introductionary texts within the field as well
as some of its classics.
2. Enges Thema: Find books which present documentation of the specific health and/or beauty effects of
consuming olive oil.
3. Benutzerspezifisches, enges Thema: For one of the courses you are currently attending, you need an
additional textbook. You have only money for one book (assuming they all have about the same price).
Um solche Aufgaben zu definieren, ist es hilfreich, ein Klassifikationsschema für Suchaufgaben
zugrundezulegen, um dann auf die betrachteten Klassen generalisieren zu können. Hierzu gibt es zahlreiche
Ansätze, von denen wir zwei kurz skizzieren wollen. [Shneiderman 98] unterscheidet zwischen spezifischer
Faktensuche, erweiterter Faktensuche, offenem Browsing und der Klärung der Verfügbarkeit von Information. In [Ingwerswen 01] wird die in Abbildung 5.13 dargestellte zweidimensionale Unterteilung definiert,
die einerseits nach dem Umfang des Vorwissens, andererseits nach dem Suchziel differenziert.
Mittlerweile gibt es ein reiches Instrumentarium für diese Art der Evaluierung:
KAPITEL 5. EVALUIERUNG
Suche /
Vorwissen
Kein Wissen
Teilwissen
umfass. Wissen
73
eine Anfrage
ein Objekt
eine Anfrage
heterogene Objekte
mehrere Anfragen
heterogene Objekte
Abbildung 5.13: Information need typology matrix nach Ingwersen
• Bei “think aloud”-Protokollen soll die Versuchsperson laut denken, um damit mehr Einblick in die
bei der Suche ablaufenden kognitiven Prozesse zu bekommen.
• Beobachtungsdaten (z.B. Log-Analyse) sind relativ einfach zu erheben, besitzen aber nur eine beschränkte Aussagekraft.
• Durch Interviews nach dem Versuch (und evtl. auch schon vorher) lässt sich der subjektive Eindruck
der Versuchspersonen erheben und Hinweise auf die subjektiv empfundenen Stärken und Schwächen
des Systems sammeln.
• Fragebögen können alternativ oder ergänzend zu Interviews eingesetzt werden. Sie erfordern weniger Aufwand für die Versuchsleitung, sind leichter auszuwerten und ermöglichen eine quantitative
Beurteilung nach verschiedenen Kriterien.
• Fehleranalysen dienen dazu, bei der fehlgeschlagenen Bearbeitung von Aufgaben mit dem System
Rückschlüsse auf die Ursachen zu ziehen.
• Zeitbedarf zur Problembearbeitung ist eine relative einfach zu erhebende Messgröße: Für eine vorgegebene Menge von Aufgaben misst man jeweils die Zeit, die die Versuchspersonen zu deren Bearbeitung
benötigen.
• Die Kosten-Nutzen-Analyse versucht, über die reine Retrievalqualität hinaus sowohl den Aufwand
des Benutzers als auch den konkreten Nutzen zu quantifizieren.
Mittlerweile wird die Notwendigkeit der Evaluierung von interaktivem Retrieval allgemein anerkannt,
allerdings wird der Aufwand zur Durchführung vielfach noch gescheut.
Kapitel 6
Neuere Probabilistische Modelle
6.1
6.1.1
Learning to Rank
Parameter-Lernen im IR
Abbildung 6.1: Lernansätze im IR
Probabilistische IR-Modelle kann man auch als Lernverfahren ansehen [Fuhr 92]. Abbildung 6.1 illustriert diese Sicht. Links haben wir Frage-bezogenes Lernen, wie wir es beim BIR-Modell kennen gelernt
haben: Die Parameter werden aus der Beobachtung einer Frage und einiger Dokumente hierzu gelernt (Relevance Feedback), und können dann zum Ranking der übrigen Dokumente zur selben Frage angewendet
werden. Ferner ist das Lernen auf die gesehenen Terme beschränkt – Terme, die beim Lernen nicht gesehen
wurden, können auch bei der Anwendung nicht berücksichtigt werden. Ein dazu duales Lernverfahren ist
das das in der MItte dargestellte Dokument-bezogene Lernen. Hierbei wird ein Dokument zu einigen Fragen beobachtet, um dann die Dokumentterme besser zu gewichten, damit die Relevanzwahrscheinlichkeit
des Dokumentes bei weiteren Anfragen besser geschätzt werden kann [Maron & Kuhns 60]. Die Beschränkung auf die gesehenen Terme wird schließlich beim Merkmals-bezogenen Lernen aufgehoben: Hier wird
für eine Menge von Frage-Dokument- Paaren gelernt, wobei eine Menge von Termen beobachtet wird.
Das Lernen bezieht sich aber jetzt nicht auf die Objekte selbst (Fragen, Dokumente, Terme), sondern auf
deren Eigenschaften. Daher kann das Gelernte auch auf neue Fragen, Dokumente und Terme angewendet
werden.
Ein wesentliches Konzept bei jeglicher Art des Lernens ist die Generalisierung, d.h. wie weit wir von
einem konkreten Einzelfall abstrahieren können (oder wollen). Diesen Aspekt soll Abbildung 6.2 verdeut-
74
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
75
O
D
Q
T
(D,Q)
(D,T)
(Q,T)
(D,Q,T)
Abbildung 6.2: Mögliche Abstraktionen beim Lernen
lichen. Wenn wir nur die Tripel (D,Q,T) betrachten, dann liegt keine Abstraktion vor. Bei (Q,T) findet
eine Abstraktion von Dokumenten statt, wie es im BIR-Modell geschieht. Analog abstrahieren wir beim
Dokument-bezogenen Lernen mit (D,T) von Fragen. Auch ein Lernen nur bezogen auf Terme T ist möglich, um eine von Fragen und Dokumenten unabhängige Termgewichtung zu realisieren. Schließlich wird
beim Merkmals-bezogenen Lernen von Fragen, Dokumenten und Termen abstrahiert – diesen Ansatz bezeichnet man auch als learning to rank. (Die übrigen, hier nicht diskutierten, Abstraktionsmöglichkeiten
wurden bislang kaum betrachtet.)
Abbildung 6.3 illustriert die Anwendung von learning to rank bei Internet-Suchmaschinen. Neben den,
auch bei anderen Retrieval-Anwendungen üblichen, Merkmalen von Dokumenten und ihre Beziehung zur
Frage berücksichtigt man auch Frage-Merkmale (unter Berücksichtigung des Query Log) sowie Eigenschaften der Ankertexte, den Page-Rank sowie Information über den Benutzer und seine Freunde aus sozialen
Netzen.
Abbildung 6.3: Learning to Rank bei der Web-Suche
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
6.1.2
76
Learning-to-rank-Ansätze
Man kann generell drei Arten von Ansätzen unterscheiden
punktweise: Hierbei besteht die Trainingsmenge aus Frage-Dokument-Paaren mit ordinaler (z.B. binärer)
oder numerischer Relevanzbeurteilung. Das Lernverfahren soll dann für jedes Frage-Dokument-Paar
die Zugehörigkeit zu einer Klasse (relevant/irrelevant) oder einen Retrievalwert vorhersagen, es handelt sich also um eine Klassifikationsaufgabe oder um numerische Vorhersage.
paarweise Die Trainingsmenge besteht aus Dokumentpaaren, die eine Präferenzrelation spezifizieren.
Ein Klassifikationsverfahren soll nun für ein gegebenes Paar (d1 , d2 ) entscheiden, ob d1 eine bessere
Antwort zur aktuellen Anfrage ist als d2 , oder umgekehrt.
listenweise In diesem Fall besteht die Trainingsmenge aus Listen, die ideale Rangordnungen vorgeben.
Die Lernalgorithmen versuchen nun direkt, ein bestimmtes Evaluierungsmaß (für die Liste) zu optimieren.
Im Folgenden betrachten wir nur noch punktweise Ansätze, wobei wir uns zudem auf den Fall der probabilistischen Klassifikationsaufgabe beschränken. Es geht also darum, Frage-Dokument-Paare (q k , dm )
den durch die möglichen Relevanzwerte Rl ∈ R = {R1 , . . . , Rn } vorgegebenen Klassen zuzuordnen. Als
Lernansatz verwenden wir Merkmals-bezogenes Lernen gemäß Abbildung 6.1; wir abstrahieren also von
spezifischen Fragen, Dokumenten und Termen. Während herkömmliche Retrievalmodelle für ein gegebenes Frage-Dokument-Paar (qk , dm ) eine direkte Schätzung der Relevanzwahrscheinlichkeit P (R|qk , dm )
anstreben, geht man bei LTR-Ansätzen zweistufig vor: Zunächst konstruiert man im Beschreibungsschritt
einen Merkmalsvektor ~x(qk , dm ). Im anschließenden Entscheidungssschritt wird dann eine gelernte Klassifikationsfunktion el (~x) angewendet, die die Wahrscheinlichkeiten P (Rl |~x(qk , dm )) für die Relevanzstufen
Rl , l = 1, . . . , n schätzt. Diese Klassifikationsfunktion wird auf einer Lernstichprobe mit Relevanzurteilen
trainiert.
Die Merkmale werden typischerweise in Anlehnung an populäre Retrievalfunktionen definiert, die man
ggfs. durch anwendungsspezifische Attribute ergänzt. Ein einfaches Beispiel wäre etwa folgendes:
element
x1
x2
x3
x4
x5
description
BM25 weight of document to the query
fraction of query terms matching in document
fraction of query terms matching in document title
BM25 weight of document title to the query
min. distance of query terms in text
Für die nachfolgenden Betrachtungen verwenden wir einen stark vereinfachten Merkmalsvektor, der
nur aus zwei Komponenten (z.B. Frageterme kommen im Dokumenttitel vor / kommen im Abstract vor)
besteht. Unsere Beispiel-Trainingsmenge sehe wie folgt aus:
~x
(1,1)
(1,1)
(1,1)
(1,0)
(1,0)
(0,1)
(0,1)
(0,1)
(0,0)
rk
R
R
N
R
N
R
N
N
N
y
1
1
0
1
0
1
0
0
0
P (R|~x )
0.67
0.67
0.67
0.50
0.50
0.33
0.33
0.33
0.00
Tabelle 6.1: Einfaches Beispiel für Learning to Rank
Eine direkte Schätzung der Relevanzwahrscheinlichkeit für jeden möglichen Merkmalsvektor, wie in der
letzten Spalte angedeutet, ist in der Praxis nicht machbar, da es zu viele mögliche Ausprägungen gibt, was
eine riesige Trainingsmenge voraussetzen würde. Daher benötigt man spezielle Lernmethoden (genauer:
Klassifikationsverfahren), die die vorhandenen Trainingsdaten optimal ausnutzen. Einige hierfür geeignete
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
77
Abbildung 6.4: Learning to Rank mit der Rocchio-Methode
Klassifikationsverfahren sind etwa Regressionsfunktionen (linear/logistisch), Entscheidungsbäume, Bayessche Klassifikatoren (ähnlich dem BIR-Modell, aber nun auf Merkmale bezogen), Supportvektor-Maschinen
oder k-nächste-Nachbarn-Methoden.
Um die grundsätzliche Idee zu illustrieren, verwenden wir zunächst ein nicht-probabilistisches Lernverfahren, nämlich die Rocchio-Methode zur Bestimmung des optimalen Fragevektors (siehe Abschnitt 3.5.3.
Für die Beispiel-Daten aus Tabelle 6.1 ergibt sich der in Abbildung 6.4 dargestellte optimale Fragevektor (man beachte, dass hier jeweils mehrere Beispielobjekte an derselben Stelle des zweidimensionalen
Vektorraums liegen, was aber der Einfahcheit des Beispiels geschuldet ist. Die gestrichelten LInien zeigen
an, in welcher Reihenfolge die verschiedenen Merkmalsvektoren gerankt werden: Obwohl es sich um ein
nichtprobabilistisches Verfahren handelt, ergibt sich trotzdem dieselbe Reihung wie nach fallender Relevanzwahrscheinlichkeit.
6.1.3
Regression mit minimalem quadratischem Fehler
Als anschauliches Beispielverfahren betrachten wir hier Regressionsverfahren, die den quadratischen Fehler
zu minimieren suchen, wobei wir uns zudem auf binäre Relevanzskalen beschränken. Wir repräsentieren
die binären Relevanzurteile r(qk , dm ) durch eine Variable y mit y = 1 falls r = R und y = 0 sonst.
Gesucht wird nun eine Regressionsfunktion eopt (~x), die eine optimale Approximation ŷ an die Klassenvariable y liefert. Das Optimierungskriterium ist dabei der minimale quadratische Fehler:
!
E(|y − eopt (~x)|2 ) = min .
Man kann zeigen, dass dann eopt (~x) eine Wahrscheinlichkeitsschätzung P (R|~x) liefert. Allerdings kann
dieses sogenannte Variationsproblem in allgemeiner Form nicht gelöst werden. Stattdessen muss man die
Suche auf eine vordefinierte Klasse von Funktionen beschränken. Dadurch reduziert sich das Problem zu
einer Parameteroptimierungs-Aufgabe. Typische Funktionsklassen für unser Problem sind lineare Funktionen (bzw. Polynome) sowie logistische Funktionen der Form ea(~x) /(1 + ea(~x) ).
Man kann nun zeigen, dass die mittels Parameteroptimierung gewonnene Funktion eine Approximation
mit minimalem quadratischen Fehler an eopt : darstellt. Die Approximation bezüglich
!
E(|y − ŷ |2 ) = min
liefert dasselbe Resultat wie eine Optimierung mit der Bedingung
!
E(|E(y |~x ) − ŷ |2 ) =
2
!
E(|P (y|~x) − ŷ | ) =
min
min
⇔
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
78
Somit liefert die Parameteroptimierung eine Approximation mit minimalem quadratischen Fehler an
die Relevanzwahrscheinlichkeit P (R|~x(qk , dm )).
6.1.4
Quadratmittelpolynome
Als Funktionenklasse für die Parameteroptimierung betrachten wir nun Polynome mit vordefinierter
Struktur, wobei wir uns hier aus didaktischen Gründen auf lineare Strukturen als Funktionsklassen beschränken: ~x = (x0 , x1 , x2 , . . . , xL ) (mit x0 = 1). Wir wollen also P (R|~x) durch die Funktion e(~x) =
a0 + a1 · x1 + a2 · x2 + . . . + aN · xN approximieren. Unsere Regressionsfunktion lautet somit
e (~x) = ~aT · ~x
wobei ~a = (a0 , a1 , . . . , aN )T der zu bestimmende Koeffizientenvektor ist. Dieser Koeffizientenvektor wird
berechnet als Lösung des linearen Gleichungssystems
E(~x · ~x T ) · ~a = E(~x · ~y T ).
(6.1)
Die Vorgehensweise ist also folgende:
1. Benutze eine repräsentative Trainingsstichprobe T von Frage-Dokument-Paaren mit Relevanzurteilen
2. Leite Paare (~x, y ) ab.
3. Berechne zu T beide Seiten des linearen Gleichungssystems:
1
|T |
(~x · ~x T ) · ~a =
!
X
~x · ~x T
· ~a =
~
x∈L
(~x · y)
1 X
|T |
~x · y
~
x∈L
4. Berechne die Lösung des Gleichungssystems.
Zur Illustration der Vorgehensweise verwenden wir eine leicht modifizierte Variante des Beispiels aus 6.1,
wo wir zusätzlich eine Konstante zum Merkmalsvektor hinzugefügt haben, und zudem das letzte Beispielelement weggelassen haben:
~x
(1,1,1)
(1,1,1)
(1,1,1)
(1,1,0)
(1,1,0)
(1,0,1)
(1,0,1)
(1,0,1)
Für diese Trainingsdaten ergibt sich

8
1 
5
·
8
6
5
5
3
rk
R
R
N
R
N
R
N
N
y
1
1
0
1
0
1
0
0
P (R|~x )
0.67
0.67
0.67
0.50
0.50
0.33
0.33
0.33

 
6
4
1
3  · ~a = ·  3  .
8
6
3
woraus sich die Regressionsfunktion e(~x) = 0.17+0.33x1 +0.17x2 ergibt. Deren Schätzungen im Vergleich zu
den optimalen Werten sehen wir nachstehend — wir haben es hier also mit einer optimalen Approximation
zu tun.
~x
rk y P (R|~x ) e(~x )
(1,1,1) R 1
0.67
0.67
(1,1,1) R 1
0.67
0.67
(1,1,1) N 0
0.67
0.67
(1,1,0) R 1
0.50
0.50
(1,1,0) N 0
0.50
0.50
(1,0,1) R 1
0.33
0.33
(1,0,1) N 0
0.33
0.33
(1,0,1) N 0
0.33
0.33
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
79
Fügen wir hingegen noch ein weiteres Beispiel zu den Trainingsdaten hinzu, so ist die resultierende
Funktion e0 (~x) = 0.08+0.38x1 +0.23x2 nur noch eine optimale Approximation an die Relevanzwahrscheinlichkeiten, wie nachstehende Tabelle illustriert :
~x
(1,1,1)
(1,1,1)
(1,1,1)
(1,1,0)
(1,1,0)
(1,0,1)
(1,0,1)
(1,0,1)
(1,0,0)
rk
R
R
N
R
N
R
N
N
N
y
1
1
0
1
0
1
0
0
0
P (R|~x )
0.67
0.67
0.67
0.50
0.50
0.33
0.33
0.33
0.00
e(~x )
0.67
0.67
0.67
0.50
0.50
0.33
0.33
0.33
0.17
e0 (~x )
0.69
0.69
0.69
0.46
0.46
0.31
0.31
0.31
0.08
In der Praxis verwendet man polynomielle Funktionen kaum für Zwecke der Klassifikation, da deren
Schätzungen nicht auf das Intervall [0,1] beschränkt sind und Schätzungen außerhalb dieses Intervalls
zu Problemen führen. Logistische Funktionen liefern hingegen immer Werte aus dem Intervall (0, 1) und
stellen in der Regel bessere Approximationen dar:
e(~x) =
exp(~aT · ~x)
1 + exp(~aT · ~x)
Abbildung 6.5 illustriert die Unterschied zwischen beiden Funktionenklassen. Der einzige Nachteil logistischer Funktionen ist, dass das Gleichungssystem nur iterativ lösbar ist, was aber bei den heutigen
Rechengeschwindigkeiten kein Problem darstellt.
Abbildung 6.5: Lineare vs. logistische Regressionsfunktionen
6.1.5
IR-Modelle vs. Learning to Rank
Abschließend zu diesem Abschnitt wollen wir IR-Modelle mit Learning to Rank-Ansätzen vergleichen.
IR-Modelle beziehen sich auf spezifische Repräsentation, basieren auf bestimmten expliziten Annahmen,
und besitzen ein striktes, transparentes theoretisches Modell; die Qualität eines solchen Modells Qualität
hängt von der Gültigkeit der zugrundeliegenden Annahmen ab.
Im Gegensatz dazu sind Learning to Rank-Ansätze flexibler bezüglich der Repräsentation, aber intransparenter, da die meisten Annahmen sind implizit; zudem wird der Merkmalsvektor heuristische definiert,
was aber andererseits eine bessere Adaption an die Anwendungsdaten ermöglicht, woraus häufig eine höhere Retrievalqualität resultiert (wenn genügend Trainingsdaten verfügbar sind).
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
6.2
6.2.1
80
IPRP: Probabilistisches Ranking-Prinzip für Interaktives IR
Motivation
Das im vorigen Kapitel vorgestellte klassische PRP besagt, dass Ranking nach fallender Relevanzwahrscheinlichkeit eine optimale Retrievalqualität liefert. Der Beweis dieser Aussage basiert allerdings auf
mehreren Annahmen: Betrachtet wird die Aufgabe, relevante Dokumente zu einem Informationsbedürfnis
zu finden. Hierzu wird angenommen, dass die Relevanz eines Dokumentes zu einer Anfrage unabhängig
ist von anderen Dokumenten. Ferner wird bei der Berechnung der Retrievalkosten das Durchsehen der
Ergebnisliste als die Hauptaufgabe des Benutzers angesehen, und zudem als dessen einzige Aktivität in
das Kostenmodell einbezogen. Gegen diese Sichtweise gibt es zwei Haupteinwände:
1. In der Praxis hängt die Relevanz auch von den Dokumenten ab, die der Benutzer bereits gesehen
hat. Einige Dokumente können Duplikate sein oder zumindest inhaltlich sehr ähnlich (und damit
irrelevant), und es kann Dokumente geben, die sich erst dann als relevant erweisen, wenn man
bestimmte andere Dokumente vorher gesehen hat.
2. Das Durchsehen der Ergebnisliste ist nicht die aufwändigste Aktivität des Benutzers. Diese Aussage
wird durch die Studie [Turpin & Hersh 01] bestätigt, die die Ergebnisse beim TREC Interactive Track
analysierten. Bei dieser Evaluierung zeigte sich, dass Systeme mit unterschiedlicher Retrievalqualität
beim interaktivem Retrieval gleich gut abschneiden. Turpin und Hersh erklären dieses Ergebnis
damit, dass Benutzer Qualitätsunterschiede beim Ranking leicht kompensieren können.
Möchte man also ein PRP für interaktives Retrieval formulieren, so muss man zunächst berücksichtigen,
dass Benutzer hier vielfältige Interaktionsmöglichkeiten haben, wie z.B. (Re-)Formulierung der Anfrage,
Dokumentauswahl anhand von Surrogaten unterschiedlicher Granularität, Auswahl verwandter Suchterme
aus einer Liste, Verfolgen von Dokument-Links, Relevanzbeurteilung usw. Ferner sollten wir die eingangs
dieses Kapitels formulierte Erkenntnis berücksichtigen, dass Informationsbedürfnisse nicht statisch sind,
sondern sich während der Suche ändern können. Schließlich ist festzuhalten, dass es bislang keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR gibt – obwohl solche Systeme
schon seit Jahrzehnten existieren!
6.2.2
Ansatz
Wir formulieren zunächst die Anforderungen an ein IPRP:
1. Es sollte die vollständige Interaktion zwischen Mensch und Computer berücksichtigen.
2. Für unterschiedliche Aktivitäten im Rahmen dieser Interaktion sollten jeweils spezifische Kosten
angenommen werden können.
3. Mögliche Änderungen des Informationsbedürfnisses während der Suche sollen Teil des Modells sein.
Das neue Modell [Fuhr 08] basiert auf folgenden grundlegende Annahmen:
• Es fokussiert nur auf die funktionalen Aspekte der Interaktion – Usability-Aspekte werden nicht
berücksichtigt.
• Als grundlegende Interaktionsform wird angenommen, dass das System dem Benutzer immer eine
lineare Auswahlliste präsentiert.
• Der Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge.
• Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer.
• Eine positive Entscheidung führt zu einer neuen Situation mit einer potentiell neuen Auswahlliste.
Beispiele für solche Auswahllisten sind: Rangliste von Dokumenten, Liste von Surrogaten, Liste von
Dokument-Clustern, KWIC-Liste, Liste von Termen zur Frage-Expansion, Links zu verwandten Dokumenten, usw. Abbildung 6.6 zeigt das zugehörige abstrakte Interaktionsmodell, wonach der Benutzer sich
durch eine Folge von Situationen bewegt. Man mag das Modell einer linearen Auswahlliste für eine starke
Vereinfachung halten, aber faktisch muss ein Benutzer natürlich immer in irgendeiner linearen Reihenfolge
bei der Interaktion mit dem System vorgehen. Idealerweise sollte dies die Reihenfolge sein, die die Systemdesigner vorgesehen haben. Ein Beispiel für ein nichtlineares Bildschirmdesign zeigt Abbildung 6.7: Hier
weiß der Benutzer nicht, in welcher Reihenfolge er sich die einzelnen Artikel anschauen soll.
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
Abbildung 6.6: Abstraktes Interaktionsmodell: Situationen mit Auswahllisten
6.2.3
81
Abbildung 6.7: Nichtlineares Bildschirmdesign
Das Modell
Wir beschreiben nun das formale Modell und leiten dann das IPRP her. Es wird angenommen, dass ein
Benutzer sich von einer Situation zur nächsten bewegt. In jeder Situation si wird dem Benutzer eine Liste
von (binären) Vorschlägen < ci1 , ci2 , . . . , ci,ni > präsentiert, die er in der angezeigten Reihenfolge beurteilt.
Die erste positive Entscheidung bringt den Benutzer dann in eine neue Situation sj . Unser Ziel ist es nun,
ein Modell für die optimale Anordnung der Vorschläge in einer Situation zu entwickeln, wobei wir nur eine
einzelne Situation betrachten und nicht den gesamten Pfad des Benutzers.
Hierzu berechnen wir zunächst den erwarteten Nutzen eines einzelnen Vorschlages: Bezeichne pij die
Wahrscheinlichkeit, dass der Nutzer den Vorschlag cij akzeptiert, eij < 0 ist der Aufwand zur Beurteilung
dieses Vorschlages, und aij > 0 sei der resultierende Nutzen einer positiven Entscheidung. Dann können
wir den erwarteten Nutzen des Vorschlages cij abschätzen zu E(cij ) = eij + pij aij
term
program
blend
island
nj
195 Mio
5 Mio
2 Mio
pij
0.67
0.02
0.01
aij
0.4
4.0
4.9
pij aij
0.268
0.08
0.049
Tabelle 6.2: Beispiel zur Berechnung des erwarteten Nutzens
Betrachten wir hierzu eine Beispiel: Der Benutzer führt eine Web-Suche mit dem Term Java“ durch,
”
was zu n0 =290 Mio. Treffern führt. Das System schlägt nun die in Tabelle 6.2 gezeigten Terme zur Frageerweiterung vor, wobei nj deren Häufigkeit im Korpus angibt. Wir nehmen nun an, dass die Annahmewahrscheinlichkeit pij proportional zu dieser Häufigkeit ist, und dass der Nutzen (in Anlehnung an den
Informationsgehalt) abgeschätzt werden kann als aij = log nn0j . Da der Aufwand eij für alle Vorschläge
als gleich groß angenommen werden kann, erscheint es sinnvoll, die Vorschläge nach fallenden Werten von
pij aij anzuordnen. Wir werden aber gleich sehen, dass die tatsächlichen Verhältnisse etwas komplexer sind.
Wir betrachten nun den erwarteten Nutzen einer vollständigen Auswahlliste in einer Situation si mit
einer Liste von Vorschlägen ri =< ci1 , ci2 , . . . , ci,ni >. Der erwartete Nutzen E(ri ) dieser Liste lässt sich
dann berechnen als der Aufwand für die Beurteilung des ersten Vorschlages plus dessen Nutzen, falls
der Vorschlag (mit der Wahrscheinlichkeit pi1 ) angenommen wird, und im Falle der Ablehnung (mit der
Wahrscheinlichkeit 1 − pi1 ) haben wir den Aufwand für den zweiten Vorschlag plus dessen erwarteten
Nutzen, usw.:
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
E(ri )
82
= ei1 + pi1 ai1 +
(1 − pi1 ) (ei2 + pi2 ai2 +
(1 − pi2 ) (ei3 + pi3 ai3 +
...
(1 − pi,n−1 ) (ein + pin ain ) ))
!
j−1
n
X
Y
=
(1 − pik ) (eij + pij aij )
j=1
(6.2)
k=1
Unser Ziel ist es nun, die Vorschläge so anzuordnen, dass der erwartete Nutzen gemäß Gleichung 6.2
maximiert wird. Hierzu betrachten wir nun zwei aufeinander folgende Vorschläge cil und ci,l+1
!
j−1
n
X
Y
E(ri ) =
(1 − pik ) (eij + pij aij ) + tl,l+1
i
k=1
j=1
l6=j6=l+1
wobei
tl,l+1
i
=
(eil + pil ail )
l−1
Y
(1 − pik ) + (ei,l+1 + pi,l+1 ai,l+1 )
k=1
l
Y
(1 − pik )
k=1
Analog bezeichne tl+1,l
die entsprechende Teilsumme für die Anordnung < . . . , ci,l+1 , cil, , . . . >. Nun
i
berechnen wir die Differenz der erwarteten Kosten zwischen diesen alternativen Rangfolgen, wobei wir
zur Vereinfachung der Rechnung die Differenz durch die Wahrscheinlichkeit dividieren, dass der Benutzer
überhaupt bis zum ersten dieser beiden Vorschläge kommt:
dl,l+1
i
tl,l+1
− tl+1,l
i
i
Ql−1
(1
−
pik )
k=1
= eil + pil ail + (1 − pil )(ei,l+1 + pi,l+1 ai,l+1 ) −
=
(ei,l+1 + pi,l+1 ai,l+1 + (1 − pi,l+1 )(eil + pil ail ))
=
pi,l+1 (eil + pil ail ) − pil (ei,l+1 + pi,l+1 ai,l+1 )
!
≥ 0 ergibt sich
Um die Gesamtsumme zu maximieren, muss diese Differenz nicht-negativ sein: Aus dl,l+1
i
ail +
eil
ei,l+1
≥ ai,l+1 +
pil
pi,l+1
Mittels vollständiger Induktion kann man nun leicht zeigen, dass der Gesamtnutzen maximal ist, wenn diese
Bedingung für alle Paare von aufeinander folgenden Vorschlägen erfüllt ist (ähnlich dem Sortierverfahren
Bubble-Sort).
Damit erhalten wir das probabilistische Ranking-Prinzip für Interaktives Information Retrieval :
Ordne die Vorschläge nach fallenden Werten von %(cij ) = ail + eil /pil .
Dieses Ranking-Kriterium unterscheidet sich von dem weiter oben betrachteten erwarteten Nutzen
E(cij ) = pij aij + eij . Der Unterschied lässt sich an dem in Tabelle 6.3 dargestellten Beispiel mit zwei
Vorschlägen verdeutlichen. Als Gesamtnutzen der beiden möglichen Listen erhalten wir E(< c1 , c2 >) =
4 + 0.5 · 3 = 5.5 bzw. E(< c2 , c1 >) = 3 + 0.75 · 4 = 6. Die Anordnung < c1 , c2 > nach fallendem Nutzen
der einzelnen Vorschläge ist also schlechter als die durch das IPRP vorgeschriebene Reihung < c2 , c1 >.
Abschließend wollen wir noch den Unterschied zwischen dem IPRP und dem klassischen PRP betrachten. Hierzu setzen wir die Kostenfaktoren des PRP in das IPRP ein: Sei eij = −C̄, C̄ > 0 und ail = C > 0.
Damit erhalten wir
C̄
C̄
C−
≥C−
⇒
pil ≥ pi,l+1
pil
pi,l+1
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
Vorschlag
c1
c2
pij
0.5
0.25
aij
10
16
eij
-1
-1
E(cij )
4
3
83
%(cij )
8
12
Tabelle 6.3: Beispiel zur optimalen Anordnung von Vorschlägen
Somit liefert das IPRP für diesen Fall die Aussage, dass wir die Vorschläge nach fallender (Relevanz-)
Wahrscheinlichkeit pil anordnen sollten – das klassisches PRP ist also weiterhin gültig. Unser IPRP stellt
eine Verallgemeinerung des klassischen Modells dar, wo wir variierende Kosten/Nutzen aij und Aufwände
eij pro Vorschlag haben, und den Tradeoff zwischen Aufwand und Nutzen berücksichtigen. Ferner betrachtet das IPRP die Liste nur bis zur ersten positiven Entscheidung (in diesem Fall das erste relevante
Dokument). Dadurch sind wir in der Lage, Abhängigkeiten zwischen Dokumenten zu berücksichtigen (eine
unserer Annahmen war ja, dass nur positive Entscheidungen dem Benutzer helfen). Schließlich lassen wir
auch Änderungen des Informationsbedürfnisses nach jeder positiven Entscheidung zu.
6.2.4
Anwendungsmöglichkeiten
Nach der Vorstellung des theoretischen Modells im vorigen Abschnitt diskutieren wir hier kurz Möglichkeiten zu dessen Anwendung. Das Modell setzt die Schätzung von drei verschiedenen Parametern für jede
Wahlmöglichkeit voraus:
1. Die Auswahlwahrscheinlichkeit pij wird in vielen IR-Modellen (insbesondere den klassischen probabilistischen) betrachtet. Allerdings setzen diese Modelle fast alle ein statisches Informationsbedürfnis
voraus, so dass es einen Bedarf an Modellen für dynamische Bedürfnisse gibt.
2. Die Aufwandsparameter eij sind bislang kaum in der Forschung betrachtet worden, daher gibt es
hier den größten Forschungsbedarf.
3. Der Nutzen aij kann als eingesparter Aufwand berechnet werden.
Im Folgenden stellen wir einen Ansatz zur Schätzung dieser drei Parameter vor.
6.2.5
Schätzung der IPRP-Parameter durch Eyetracking
Für die nachfolgend beschriebenen Experimente wurde die in Abbildung 6.8 dargestellte Benutzerschnittstelle verwendet. Links oben haben wir das Anfrageformular, darunter die Ergebnisliste und rechts davon
die Detailansicht eines aus dieser Liste ausgewählten Eintrags. Darüber befindet sich dann der sogenannte
basket, in dem Benutzer relevante Dokumente aufsammeln können.
Abbildung 6.8: Benutzerschnittstelle
Die Benutzerexperimente wurden mit Hilfe eines Eyetrackers ausgewertet, der registriert, auf welchen
Punkt des Bildschirms der Benutzer jeweils schaut. Zur Auswertung definiert man sogenannte areas of
”
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
84
interest“ (AOI), wobei wir hier zudem in der Lage sind, die Position der einzelnen Einträge der Ergebnisliste auch nach Scrolling korrekt zu ermitteln (siehe Abbildung 6.9). Die Sequenz der Blicke kann dann
von der Auswertungssoftware wie in Abbildung 6.10 visualisiert werden; grau hinterlegt sind die jeweils
sichtbaren AOIs, man erkennt die Veränderungen durch das Scrolling. Bei der Auswertung unterscheidet
man zudem zwischen skimming und reading, wobei Untersuchungen gezeigt haben, dass Benutzer erst ab
einer Blickdauer von 80ms den dargestellten Text auch lesen; nur diese Aktionen werden im Folgenden
berücksichtigt.
Abbildung 6.9: Areas of Interest für Eyetracking
Abbildung 6.10: AOI-Sequenz für die Ergebnisliste
An den konkreten Benutzerexperimente nahmen 12 Testpersonen teil, die Bücher zu vorgegebenen
Themen im Amazon-Buchbestand suchen sollten. Jeder Benutzer musste je 15 Minuten an zwei verschiedenen Aufgaben arbeiten. Beim komplexen Task war es notwendig, zusätzlich die Benutzerreviews zu
einem Buch zu anzuschauen, um die relevanten Dokumente zu bestimmen. Beim engen Task war hingegen
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
85
das Lesen der Abstracts zur Relevanzbeurteilung ausreichend. Die Benutzer sollten dann die aus ihrer
Sicht relevanten Dokumente im basket“ platzieren. Die Untersuchungsergebnisse für die beiden Aufga”
bentypen sind in Abbildung 6.11 als Markov-Modell dargestellt. Die Zeiten in den einzelnen Zuständen
sind die durchschnittlichen Verweilzeiten für die betreffenden Aktivitäten, bei den Übergängen sind die
Wahrscheinlichkeiten angegeben, mit denen die jeweilige Transition genommen wird.
Narrow tasks
Complex tasks
Query
15 %
4,9 sec
Query
Basket
6%
Basket
1,7 sec
5,4 sec
1,7 sec
5%
2%
21 %
24 %
100 %
100 %
3%
4%
85 %
94%
1%
1%
Result
Item
2,3 sec
Detail
74 %
Result
Item
2,5 sec
15,3 sec
75 %
Detail
9,8 sec
9%
87 %
83 %
12 %
Abbildung 6.11: Markov-Modelle: komplexer vs. enger Task
Aus diesen Diagrammen lassen sich die IPRP-Parameter Aufwand und Akzeptanzwahrscheinlichkeit
direkt ablesen. Um den Nutzen als eingesparten Aufwand zu berechnen, betrachten wir die Zeit bis zum
Finden des ersten relevanten Dokumentes (also die erwartete Zeit zum Erreichen des baskets), und wie
sich diese durch eine Transition verändert. Hierzu bezeichnen tq , tr , td und tb den Aufwand in den vier Zuständen query, result list, detail und basket. Ferner sei pXY die Übergangswahrscheinlichkeit von Zustand
X nach Zustand Y . Gesucht sind nun die erwarteten Zeiten Tq , Tr und Td zum Erreichen des baskets aus
den drei anderen Zuständen. Diese lassen sich gemäß folgendem linearen Gleichungssystem berechnen:
Tq
= tq + pqr Tr
Tr
= tr + prq Tq + prr Tr + prd Td
Td
= td + pdq Tq + pdr Tr
Die Ergebnisse zeigt die obere Hälfte von Tabelle 6.4.
Tq
Tr
Td
bq
br
bd
complex
127.9
123.0
109.5
4.9
17.7
15.9
narrow
120.8
115.4
102.4
5.4
14.7
10.7
Tabelle 6.4: Erwartete Zeiten T zum Erreichen des baskets und erwartete Nutzen b
Der Nutzen kann im Prinzip als Differenz zwischen den basket-Zeiten von Quelle und Ziel einer Transition berechnet werden. Allerdings müssen wir beachten, dass wir hier im Gegensatz zum einfachen IPRPModell nicht-binäre Auswahlmöglichkeiten haben: Bezeichne cij eine Auswahl mit mij Alternativen c0ijk ,
k = 1, . . . , mij , und seien a0ijk und qijk die zugehörigen Nutzenwerte bzw. Auswahlwahrscheinlichkeiten,
wobei gelten muss
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
mij
X
qijk = 1
k=1
und
mij
X
86
qijk a0ijk = aij .
k=1
Damit berechnet sich dann z.B. der erwartete Nutzen beim Betrachten eines Elements der Ergebnisliste
im komplexen Task wie folgt:
br =
0.03(Tq − Tr ) + 0.01(Tr − 0) + 0.09(Td − Tr )
= 17.7s
0.03 + 0.01 + 0.09
Die anderen Werte sind in der unteren Hälfte von Tabelle 6.4 zu sehen.
6.2.6
Zusammenfassung IPRP
Ausgangspunkt für die Entwicklung des IPRP war die Überlegung, dass es heutigen IIR-Systemen an
der theoretischen Fundierung fehlt. Das vorgeschlagenen Modell betrachtet interaktives IR als Folge von
Entscheidungen. Hierzu wird dem Nutzer eine lineare Auswahlliste vorgelegt, wobei jede positive Entscheidung zu einer neuen Situation mit (möglicherweise) neuer Auswahlliste führt. Dadurch können einerseits
Änderungen des Informationsbedürfnisses einfach berücksichtigt werden, andererseits macht das Modell
keine Aussagen über Interaktionspfade, sondern beschränkt sich nur auf einzelne Situationen. Der Vergleich mit dem klassischen PRP hat gezeigt, dass das IPRP eine Generalisierung hiervon darstellt, indem
zusätzliche Parameter eingeführt werden, die dem interaktiven IR besser Rechnung tragen. Die zugehörige
Parameterschätzung kann durch Benutzerexperimente erfolgen, die zugehörige Forschung ist aber gerade
erst am Anfang.
6.3
Diversity Ranking
Ein gravierender Nachteil der bisher vorgestellten Retrievalmodelle (mit Ausnahme des IPRP) besteht
darin, dass Abhängigkeiten zwischen Dokumenten nicht berücksichtigt werden — auch das klassische
PRP ignoriert diese explizit. Daher wird seit einigen Jahren unter dem Schlagwort Diversitäts-Ranking“
”
versucht, solche Abhängigkeiten durch Betrachtung der Ähnlichkeit von Dokumenten zu modellieren. Der
Retrievalwert eines Dokumentes berechnet sich dann nicht mehr allein aus dem Vergleich zwischen Frageund Dokumentbeschreibung, sondern es werden zusätzlich die Ähnlichkeiten des betrachteten Dokumentes
mit allen schon ausgegebenen Dokumenten betrachtet. Dadurch versucht man insbesondere auch, möglichst
viele verschiedene Aspekte einer Anfrage durch die obersten Antworten abzudecken: gibt ein Benutzer etwa
den Namen eines Popstars ein, so kann er dessen neuestes Album kaufen wollen, sich das zugehörige Video
anschauen wollen, Tickets für da nächste Konzert erwerben, den neuesten Klatsch erfahren wollen, oder
sich gar nur allgemein über diese Person informieren wollen. Wir stellen im Folgenden zwei Ansätze zur
Behandlung dieser Problematik vor.
6.3.1
Probabilistischer Ansatz
Der probabilistischen Ansatz aus [Santos et al. 12] generiert zu einer Frage verschiedene Interpretationen
mittels geeigneter Verfahren zur Frageexpansion (wie sie z.B. standardmäßig in Web-Suchmaschinen zur
Generierung der vorgeschlagenen Frageergänzungen eingeseetzt werden); über diese interpretationen wird
zusätzlich eine Wahrscheinlichkeitsverteilung angenommen. Bezeichne S = {d1 , . . . , dn } die Menge der
Dokumente, die vor dem aktuell betrachteten Dokument d ausgegeben wurden, P (d|q) sei die Wahrscheinlichkeit dass d zu q beobachtet wird (oder die Ähnlichkeit des Dokumentes zur Anfrage), und P (d, S̄|q)
die Wahrscheinlichkeit dass d, aber kein Dokument ausPS, beobachtet wurde. Sei nun Q = {q1 , . . . , qk }
die Menge der (disjunkten) Aspekte zur Frage q, mit qi ∈Q P (qi |q) = 1. Hierzu bezeichne P (qi |q) die
Popularität von qi bzgl. q (also der Anteil der Nutzer mit der Frage q, die an qi interessiert sind), und
P (d|qi ) gibt die Abdeckung von qi durch d an. Ferner bezeichne P (S̄|qi ) die Neuigkeit von qi , d.h. die
fehlende Abdeckung dieses Aspekts durch bisher ausgegebene Dokumente. Als Retrievalwert wollen wir
nun die Wahrscheinlichkeit P (R|d, q) schätzen als Linearkombination aus der Ähnlichkeit des Dokumentes
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
87
zur Anfrage P (d|q) und der Neuigkeit des Dokumentes P (d, S̄|q), wobei der Parameter λ die Neuigkeit
eines Dokumentes gewichtet. (Das Zeichen ∝ bedeutet ’ist proportional zu’.)
P (R|d, q) ∝ (1 − λ)P (d|q) + λP (d, S̄|q)
Letztere lässt sich nun wie folgt berechnen:
P (d, S̄|q)
=
X
P (qi |q)P (d, S̄|qi )
qi ∈Q
P (d, S̄|qi )
=
P (d|qi )P (S̄|qi )
Um den letzten Faktor zu schätzen, brauchen wir zusätzlich noch die Unabhängigkeitsannahme, dass die
Relevanz eines Dokumentes zu einer Teilfrage qi unabhängig ist von der Relevanz anderer Dokumente zu
qi :
P (S̄|qi )
= P (d¯1 , . . . , d¯n−1 |qi )
Y
=
(1 − P (dj |qi ))
dj ∈S
Insgesamt ergibt sich damit folgende Retrievalfunktion:


Y
X
P (qi |q)P (d|qi )
(1 − P (dj |qi ))
P (R|d, q) ∝ (1 − λ)P (d|q) + λ
qi ∈Q
Java“
”
P (dj |q)
P (qi |q)
d1
d2
d3
d4
0.9
0.8
0.8
0.7
P (dj |qi )
Progspr. Insel Kaffee
0.7
0.2
0.1
0.9
0.8
0.8
0.6
0.6
dj ∈S
P (R|dj , q)
0.495
0.680
0.480
0.365
Tabelle 6.5: Beispiel zu probabilistischem Diversity Ranking
Wir illustrieren diese Formel an einem kleinen Beispiel: Nehmen wir an, die Anfrage laute Java“ und
”
wir wissen nicht, ob der Benutzer nach der Programmiersprache, der Kaffeesorte oder der Insel sucht.
Für die in Tabelle 6.5 dargestellten vier Beispieldokumente nehmen wir λ = 0.5 an. Die ersten drei
Dokumente decken jeweils nur einen Aspekt der Anfrage ab, während d4 alle drei Aspekte behandelt und
es daher Abhängigkeiten mit den übrigen Dokumenten gibt, so dass wir den Retrievalwert berechnen zu
S = {d1 , d2 , d3 } ; P (R|d4 , q) = 0.5 · 0.7 + 0.5[0.2 · 0.6 · 0.2 + 0.1 · 0.6 · 0.1] = 0.362
6.3.2
Quantentheoretisches probabilistisches Ranking
Ein weiterer Ansatz zur Behandlung von Diversität [Zuccon et al. 09] basiert auf quantentheoretischem
probabilistischem Ranking [Rijsbergen 04]. Ausgangspunkt ist hier das in Abbildung 6.12 dargestellte
Doppelspalt-Experiment aus der Physik. Hierbei emittiert die Quelle auf der linken Seite Elementarteilchen, die durch einen der beiden Spalte A und B zur Wand rechts gelangen können.
Nun misst man die Wahrscheinlichkeitsverteilung pAB der eintreffenden Teilchen auf dieser Wand. In
Abbildung 6.13 sind links die beiden Wahrscheinlichkeitsverteilungen dargestellt, die man für nur einen
geöffneten Spalt erhält. Nach dem klassischen Modell würde sich dann für den Doppelspalt die in der Mitte
dargestellte Summe der beiden Verteilungen ergeben. Tatsächlich beobachtet man aber die rechts gezeigte
Verteilung, da es gemäß dem Welle-Teilchen-Dualismus zu Interferenzen kommt.
Dieses Modell wird nun auf Dokumentenretrieval übertragen, um Interferenzen (Abhängigkeiten) zwischen Dokumenten berücksichtigen zu können (siehe Abbildung 6.14). Für Diversitäts-Ranking nehmen
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
88
Abbildung 6.12: Doppelspalt-Experiment in der Physik
Abbildung 6.13: Überlagerung von Wahrscheinlichkeitsverteilungen beim Doppelschlitz-Experiment
wir an, dass wir Dokument DA bereits gesehen haben und fragen uns nun, welches Dokument als nächstes
ausgegeben werden sollte, um pdA dB zu maximieren (Abbildung 6.15).
Wenn wir klassische (Kolmogorow-)Wahrscheinlichkeiten verwenden, so erhalten wir:
arg max(pAB )
B∈B
=
arg max(p̂K
AB )
=
arg max(pA + pB )
=
arg max(pB )
B∈B
B∈B
B∈B
Es ergibt sich also das klassische PRP, wonach wir die Dokumente unabhängig von den bereits ausgegebenen betrachten können und dasjenige mit der höchsten Relevanzwahrscheinlichkeit ausgegeben sollen.
Im Falle von Quanten-Wahrscheinlichkeiten müssen wir aber auch die Interferenzen zwischen den Dokumenten berücksichtigen:
p̂Q
AB
arg max(pAB )
B∈B
= pA + pB + IAB
=
arg max(p̂Q
AB )
=
arg max(pA + pB + IAB )
=
arg max(pB + IAB )
B∈B
B∈B
B∈B
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
Abbildung 6.14: Doppelspalt zur Modellierung
von Dokument-Interferenz
89
Abbildung 6.15: Mehrere Dokumente
Daraus ergibt sich das Quantum Probability Ranking Principle (qPRP), das besagt, dass wir die
Abhängigkeiten mit allen bereits ausgegebenen Dokumenten berücksichtigen müssen, wenn wir bestimmen
wollen, welches Dokument als nächstes auszugeben ist:
!
X
arg max pdB +
IdA dB
dB ∈B
dA ∈A
Um den Interferenz-Term zu berechnen, braucht man Quanten-Wahrscheinlichkeitstheorie; in dieser
wird ein Ereignis X anstelle eines skalaren Wertes durch eine komplexe Amplitude φ(X) beschrieben, und
die zugehörige Wahrscheinlichkeit berechnet sich zu
P (X) = |φ(X)|2
Ferner gilt für komplexe Zahlen, dass sich deren Quadrat als Produkt der Zahl mit ihrem konjugiert
komplexen Wert ergibt: |z|2 = z z̄. Wenden wir diese Regeln nun zur Berechnung des Ereignisses an, dass
die beiden Dokumente dA und dB betrachtet werden, so erhalten wir:
φdA dB
=
φ(Relevanz|dA und dB werden betrachtet)
=
φ(Relevanz|nur dA betrachtet) +
φ(Relevanz|nur dB betrachtet)
=
φdA + φdB
Die zugehörige Wahrscheinlichkeit, dass beide Dokumente relevant sind, ergibt sich dann zu:
p̂Q
AB
=
|φdA dB |2
=
φdA dB φ̄dA dB
=
|φdA |2 + |φdB |2 + φdA φ̄dB + φ̄dA φdB
=
P (R|q, dA ) + P (R|q, dB ) + IdA dB
Hauptproblem ist nun die Schätzung des Interferenz-Terms:
IdA dB
=
φdA φ̄dB + φ̄dA φdB
p
p
= 2 · P (R|q, dA ) P (R|q, dB ) · cos θdA dB
p
p
≈ 2 · P (R|q, dA ) P (R|q, dB ) · βfsim (dA , dB )
Da man nur die Beträge, aber die Winkel der beiden Ereignisse φdA und φdB kennt, wenden wir die in der
letzten Zeile gezeigte Näherung mittels einer Dokument-Ähnlichkeitsfunktion an.
KAPITEL 6. NEUERE PROBABILISTISCHE MODELLE
6.3.3
90
Experimentelle Ergebnisse: qPRP vs. IPRP
In [Zuccon et al. 11] wurden das Quanten-PRP mit dem IPRP experimentell verglichen. Dabei wurde
kein echtes interaktives Retrieval durchgeführt, aber die Dokument-Ähnlichkeiten berücksichtigt. Bei der
Evaluierung wurde dann so vorgegangen, dass der Nutzen des nächsten Dokumentes von den bereits gesehenen abhängt. Als Bewertungsmaß wurde dabei α-NDCG nach 10 Dokumenten berechnet. Das IPRP
wurde hierbei nicht strikt angewendet, sondern es wurde nur der erwarteten Nutzen E(cij ) = eij + pij aij
betrachtet. Zusätzlich wurde angenommen, dass der Aufwand eij konstant ist. Die Auswahlwahrscheinlichkeit pij = R(R|q, dj ) ist hier gleich der Relevanzwahrscheinlichkeit; ferner bezeichne sim(d, d0 ) die
Ähnlichkeit zwischen Dokumenten d und d0 . Das Ranking-Kriterium lautet dann
P
0 d0 ∈RA (1 − sim(d, d ))
ˆ
d = arg max P (R|q, d)
|RA|
d∈RA
/
Tabelle 6.6 zeigt die zugehörigen α-NDCG@10 Werte für den Vergleich mit dem klassischen PRP sowie
zwei anderen Ansätzen (MMR und MPT) aus der Literatur.
TREC 6-8
PRP
0.426
Clueweb
0.097
MMR
0.457
(+7.28%)
0.137*
(+41.2%)
MPT
0.426
(0.00%)
0.151*
(+55.7%)
qPRP
0.433
(+1.6%)
0.144*
(+48.5%)
iPRP
0.461
(+8.2%)
0.132*
(+36.18%)
Tabelle 6.6: Experimenteller Vergleich zwischen klassischem PRP, qPRP und IPRP mit zwei anderen
Ansätzen
Kapitel 7
Interaktives Retrieval
7.1
Ebenen-Architektur von IR-Systemen
Abbildung 7.1 stellt ein Ebenen-Modell für IR-Systeme dar, das das konzeptionelle Modell aus Kapitel 1
deutlich erweitert. Während letzteres sich i.w. auf die logische Ebene beschränkt, versuchen wir hier einen
breiteren Ansatz:
• Die physische Ebene eines IRS beschäftigt sich mit den verwendeten internen Speicherungsstrukturen
und den zugehörige Algorithmen.
• Die logische Ebene abstrahiert von den Speicherungsstrukturen und beschreibt die wesentliche Suchfunktionalität des Systems, so wie sie durch das zugrundeliegende IR-Modell definiert ist. Dieser
Aspekt wird somit in den Kapiteln zu IR-Modellen diskutiert.
• Auf der syntaktischen Ebene werden syntaktische Objekteigenschaften betrachtet (also z.B. Text als
Zeichenkette, Bilder als Pixelmatrix, . . . ). Im Rahmen dieser Vorlesung haben wir insbesondere bei
der Freitextsuche diese Sichtweise zugrundegelegt.
• Die semantische Ebene beschäftigt sich mit den im Dokument dargestellten Objekten und den Beziehungen dazwischen – so wie wir das im Abschnitt über Dokumentationssprachen insbesondere bei
den Ontologien kennen gelernt haben. (Computerlinguistische Methodenstellen eine Mischung aus
syntaktischen und semantischen Verfahren dar.)
• Die pragmatische Ebene fokussiert auf den Anwendungszweck, unter dem man ein Dokument betrachtet, was gerade bei der Beurteilung der Relevanz die zentrale Rolle spielt.
• Die funktionale Ebene beschäftigt sich mit den vom System bereitgestellten Funktionen zur Informationsbeschaffung. Dieser Aspekt bildet den Schwerpunkt des vorliegenden Kapitels.
Abbildung 7.1: Ebenen-Architektur von IR-Systemen
91
KAPITEL 7. INTERAKTIVES RETRIEVAL
92
• Die Benutzerschnittstelle wird im nächsten Kapitel ausführlich behandelt.
In konkreten IRS sind in der Regel nicht alle Ebenen vorhanden. Dies hat zur Folge, dass der Benutzer einen Teil der Aufgaben übernehmen muss, die gemäß dieser Architektur eigentlich Teil des IRS
sein müssten. Besonders deutlich ist dies an der fehlenden Unterstützung von Semantik und Pragmatik
von Dokumenten, und wir werden in diesem Kapitel auch sehen, dass auf der funktionalen Ebene viele
Tätigkeiten des Benutzers bei der Informationsbeschaffung gar nicht unterstützt werden. Eng damit zusammenhängend ist das Problem fehlender Trennung zwischen den verschiedenen Ebenen; so gibt es in IRS
auch keine logische und physische Datenunabhängigkeit wie man sie von Datenbank-Managementsystemen
her kennt – was die Integration dieser beiden Typen von Informationssystemen extrem erschwert.
Der Rest dieses Kapitels beschäftigt sich ausschließlich mit der funktionalen Ebene. Neben einem
besseren Verständnis für das Verhalten des Benutzers verfolgt man dabei das Ziel, darauf aufbauend
bessere IRS zu bauen, die an die kognitiven Aktionen des Benutzers angepasst sind und diese möglichst
gut unterstützen.
7.2
7.2.1
Information Seeking Behaviour
Information Seeking Behaviour und Information Searching
Um Benutzer bei ihrer Informationssuche besser zu unterstützen, braucht man ein (empirisch fundiertes) Modell des Benutzerverhaltens, das insbesondere auch dabei hilft, den Prozess der Informationssuche
besser zu verstehen. Bisher haben wir in diesem Skript den Ansatz des klassischen Information Retrieval zugrundegelegt. Demnach beschäftigt sich Information Retrieval mit der Informationssuche in wenig
strukturierten Datenbeständen (z.B. in Texten und Multimediadaten), wobei die Vagheit des Informationsbedürfnisses und die unsichere Repräsentation des Inhalts charakteristisch sind. Der generelle Ansatz war
dabei primär systemorientiert (der Benutzer taucht quasi nur als Orakel auf, das Relevanzurteile generiert).
Insbesondere sind wir von einem statischen Informationsbedürfnis ausgegangen (beim Relevance Feedback
versucht das System die Fragebeschreibung bezüglich dieses statischen Bedürfnisses zu optimieren). Im Gegensatz dazu steht beim interaktiven Information Retrieval (IIR) die Interaktion des Benutzers mit dem
Informationssystem im Vordergrund, wobei auch Änderungen des Informationsbedürfnisses berücksichtigt
werden sollen.
Im Bereich des IIR gibt es zwei unterschiedliche Betrachtungsweisen, nämlich das Information Seeking
Behaviour und das Information Searching, die sich im Wesentlichen in der Breite ihrer Betrachtungsweise
unterscheiden:
Information Seeking Behaviour basiert auf einer breiteren Sicht auf die Informationssuche als inhaltsorientierte IR-Systeme; dabei werden Verhalten, Motivation und Vorgehen des Benutzers zur Befriedigung einer Aufgabe modelliert. Zentrale Fragen sind dabei Wodurch wird ein Informationsbedürfnis
ausgelöst? und Wie verhalten wir Menschen uns daraufhin, um das Problem zu lösen?
Information Searching fokussiert hingegen auf die Interaktion des Benutzers mit einer Informationsquelle; solche Quellen können neben klassischen IR-Systemen im Sinne einer Suchmaschine auch
andere Quellen wie z.B. herkömmliche Bibliotheken oder Auflistungen (z.B. Inhaltsverzeichnisse von
Zeitschriften oder Tagungen) und thematische Zusammenstellungen sein.
7.2.2
Ellis’ Behavioural Model of Information Seeking Strategies
Als einen populären Ansatz zur Beschreibung von Information Seeking Strategies stellen wir hier das
Modell von Ellis [Ellis 89] vor. Es handelt sich dabei um ein generelles Modell zur Beschreibung des
Suchverhaltens, das auf empirischen Benutzerstudien in den Sozialwissenschaften und in Ingenieursfirmen
basiert. Ellis unterscheidet dabei acht verschiedene Kategorien des Suchverhaltens, die wir im Folgenden
näher beschreiben:
Starting umfasst alle Aktivitäten zu Beginn der Suche, zum Beispiel die Auswahl der Informationsquelle,
eine grobe Literatursuche oder die Befragung von Kollegen. Ziel ist es, einen ersten Überblick über
die Literatur zu bekommen.
KAPITEL 7. INTERAKTIVES RETRIEVAL
93
Abbildung 7.2: Phasenübergänge in Ellis’ Modell
Chaining beschreibt die Verfolgung von aufeinander aufbauenden Informationen in beide Richtungen
(ähnlich der Suche nach Referenzen aus der Literaturliste eines Artikels). Wichtige Faktoren für die
Auswahl zu verfolgender Verknüpfungen sind dabei die topikalische Relevanz, der Autor, die Aktualität, die Zitierhäufigkeit sowie die Kosten und der Zeitbedarf für die Beschaffung des Volltextes.
Primär geht es in dieser Phase um das Finden neuer Informationsquellen oder gar die Neuformulierung des Informationsbedürfnisses.
Browsing basiert auf den ausgewählten Informationsquellen und den gefundenen Dokumenten. Dabei
wird eine semi-zielorientierte Suche in erfolgversprechenden Bereichen durchgeführt. Hierzu gehören
etwa das Verfolgen von Inhaltsverzeichnissen, Listen von Titeln, Überschriften, Namen von Organisationen und Personen, Web-Links, usw.. Browsing findet immer statt, wenn relevante Information
zusammenhängend und zum Thema passend aufbereitet wird.
Differentiating beschreibt die Beurteilung von Informationsquellen nach ihrer Art, Qualität, Wichtigkeit
oder Brauchbarkeit. Dadurch wird eine Filterung der Information vorgenommen (z.B. Regierungsinformation vs. Information unabhängiger Gruppen, wissenschaftliche Artikel vs. populärwissenschaftliche Darstellung).
Monitoring dient dazu, sich auf dem neuesten Wissensstand halten, indem man die Entwicklung in
einem Gebiet verfolgt. Hierzu werden meist wenige ausgewählte Quellen betrachtet (z.B. bestimmte
Magazine, Mailinglisten, aber auch persönliche Kontakte).
Extracting dient der Identifizierung relevanten Materials, wobei es sich um Dokumente, neue Quellen
oder auch einzelne Passagen eines Dokumentes handeln kann. In dieser Phase wird die Information
durch Benutzer erfasst. Dabei spielt das Hintergrundwissen des Benutzers eine wichtige Rolle.
Verifying beschreibt das Überprüfen der Information bzgl. Richtigkeit und Zuverlässigkeit.
Ending stellt den Abschluss der Suche dar, wobei die gefundenen Informationen miteinander verknüpft
werden.
Die möglichen Übergänge zwischen den einzelnen Phasen sind in Abbildung 7.2 dargestellt. Suche ist
somit kein rein sequentieller Prozess. Starting, Browsing, Chaining und Monitoring sind die eigentlichen
Suchprozeduren, und Differentiating ist der daran anschließende Filterungsprozess.
Ellis’ Studie wurde später von Meho & Tibbo [Meho & Tibbo 03] wiederholt und neu analysiert, insbesondere auch im Hinblick auf neue Technologien (zu Zeiten von Ellis’ Studie waren Volltexte i.d.R. noch
nicht elektronisch verfügbar, sondern mussten gesondert beschafft werden). Die neue Studie lieferte eine
grundsätzliche Bestätigung von Ellis’ Modell; allerdings ergänzten Meho & Tibbo das Modell um drei neue
Kategorien:
Accessing beschreibt den Zugriff auf die Volltexte (anstelle der von Ellis betrachteten Surrogate. Die
Beschaffung der Inhalte kann dabei auf unterschiedlichem Wege erfolgen und mit variierenden Kosten
verbunden sein.
Networking steht für die persönliche Kommunikation mit verschiedenen Personen. Dabei steht die Diskussion und die Bewertung der gefundenen Information im Vordergrund.
Information Managing umfasst die Tätigkeiten der Ablage, Speicherung und Organisation der gesammelten oder verwendeten Informationen.
KAPITEL 7. INTERAKTIVES RETRIEVAL
94
Abbildung 7.3: Modell von Meho und Tibbo
Abbildung 7.3 stellt das Modell grafisch dar, wobei die direkte Verfügbarkeit bzw. Nicht-Verfügbarkeit
von Quellen die Abläufe wesentlich bestimmt.
Auf der Grundlage eines solchen Modells für das information search behavior kann man nun bessere
Informationssysteme bauen, die alle Phasen und auch die Übergänge des Modells angemessen unterstützen.
7.3
Information Searching
Wir betrachten nun Modelle für das Information Searching, die sich also auf die Interaktion des Benutzers
mit dem Informationssystem beschränken und alle weiteren Aktivitäten im Rahmen der Informationsbeschaffung und des Informationsmanagements außer Acht lassen.
7.3.1
Einfache Modelle für den Suchprozess
Das klassische Modell für den Suchprozess ist in Abbildung 7.4 dargestellt. Es geht von einem statischen
Informationsbedürfnis aus und nimmt an, dass der Benutzer seine Anfrage solange verbessert, bis er eine
zufriedenstellende Antwortmenge gefunden hat.
Empirische Studien haben aber gezeigt, dass die Voraussetzungen dieses Modells falsch sind, insbesondere, da das Informationsbedürfnis eben nicht statisch ist. Tatsächlich besteht eine Informationssuche
aus einer Folge von zusammenhängenden, aber unterschiedlichen Suchen, wo jedes Suchergebnis weitere
Suchen triggert. Einzig der Aufgabenkontext bleibt der Gleiche. Die Hauptaufgabe der Suche ist somit
akkumuliertes Lernen und das Sammeln neuer Information während der Suche.
Ein Modell, das diesen Erkenntnissen Rechnung trägt, ist das in Abbildung 7.5 dargestellte
Berrypicking-Modell von Bates [Bates 89]. Ein Informationssuchender verhält sich demnach wie ein Beerensucher im Wald, der einzelne Sträucher aberntet und dann Ausschau nach dem nächsten Strauch mit
vielen Früchten hält, wobei der Weg im Zickzack verläuft und nur die grobe Richtung gleich bleibt. Analog
nimmt das Berrypicking-Modell eine kontinuierliche Verschiebung von Informationsbedürfnis und Anfragen während der Suche an, da das Informationsbedürfnis nicht durch eine einzige Antwortmenge befriedigt
KAPITEL 7. INTERAKTIVES RETRIEVAL
95
Abbildung 7.4: Klassisches Modell für den Suchprozess
Abbildung 7.5: Berrypicking-Modell: T – Auswahl von Termen, Qi – neue Anfrage
werden kann. Stattdessen besteht die Suche aus einer Folge von Selektionen und dem Aufsammeln von
Informationsbrocken.
7.3.2
Belkins Episodic Interaction Model
Als erstes etwas komplexeres Modell betrachten wir nun Belkins Episodic Interaction Model. Dieses Modell
basiert auf der von Belkin [Belkin et al. 82] formulierten ASK-Hypothese: Klassische Suchsysteme basieren
auf dem best-match“-Prinzip. Ein optimales IR-System (so wie wir das z.B. beim Probability Ranking
”
Principle kennengelernt haben) liefert Dokumente zurück, die am besten zu einer Repräsentation des Informationsbedürfnisses (z.B. einer Anfrage) passen. Diese Vorgehensweise beruht auf der Annahme, dass
KAPITEL 7. INTERAKTIVES RETRIEVAL
96
der Benutzer das Informationsbedürfnis exakt spezifizieren kann. Belkin argumentiert hingegen, dass ein
Informationssuchender sich in einem Anomalous State of Knowledge (ASK) befindet: Ein Informationsbedürfnis entsteht durch eine Anomalie im Wissenszustand (state of knowledge) des Benutzers, der wiederum
das Informationsbedürfnis zur Beseitigung der Anomalie nicht oder nur unzureichend spezifizieren kann.
Daher ist es besser, anstelle einer Spezifikation des Informationsbedürfnisses den ASK möglichst gut zu
beschreiben. Hierzu ist die Erfassung kognitiver und situationsbedingter Aspekte nötig, um die vorhandene
Anomalie aufzulösen.
Abbildung 7.6: Episodic Interaction Model
Als einen möglichen Ansatz zur Erforschung und Überwindung des ASK hat Belkin das Episodic
Interaction Model [Belkin 96] vorgeschlagen. Dieses Modell versucht, zwischen den verschiedenen Prozessen/Phasen im Suchverhalten (so wie sie z.B. von Ellis, Meho und Tibbo für die Kernphase der Suche
beschrieben wurden) zu differenzieren. Belkin betrachtet die Benutzerinteraktion mit dem IR-System als
Sequenz verschiedener Interaktionen innerhalb einer Episode der Informationssuche. Dabei durchläuft der
Benutzer unterschiedliche Formen der Interaktion und Suchstrategien, abhängig von Faktoren wie Aufgabe, Ziele und Absichten, Suchhistorie, Arten von Informationsobjekten sowie nicht erfassbaren anderen
Faktoren (siehe Abbildung 7.6). Hierzu müssen die von einem IR-System angebotenen Interaktionsformen eine Reihe von Aktivitäten unterstützen, wie z.B. Suchen, Browsen, Interpretation, Modifikation und
die Beurteilung von Information. Ein gutes IR-System sollte daher eine entsprechende Nutzerschnittstelle
anbieten.
Zur Illustration gibt Belkin folgende Beispielepisode an: Ein Benutzer erinnert sich an ein Buch an
einer bestimmten Stelle in der Bibliothek. Das IR-System erlaubt nun, eine bestimmte Region virtuell abzusuchen. Der Benutzer entdeckt dabei ein anderes interessantes Buch und möchte nun ähnliche Bücher
finden, weiß aber nicht, wie dies erreicht werden kann. Das System bietet die hierzu möglichen Vorgehensweisen an, aus denen der Benutzer die Anzeige des Inhaltsverzeichnisses wählt. Der Benutzer findet dort
einen relevanten Suchbegriff und weist das System an, nach diesem Begriff zu suchen. Das System führt
nun die Suche durch und zeigt zum Suchbegriff gefundene Dokumente an.
7.3.3
Ingwersens Cognitive Model
In eine etwas andere Richtung zielt Ingwersens Cognitive Model [Ingwersen 92], das eine globale Perspektive einnimmt. Das Modell umfasst alle beeinflussenden Faktoren, mit denen der Benutzer interagiert.
Hierzu gehören soziales Umfeld, IR-System, Informationsobjekte, Benutzerschnittstelle sowie der Benutzer
selbst. Das Modell befasst sich mit den kognitiven Strukturen, also den Manifestationen der menschlichen
KAPITEL 7. INTERAKTIVES RETRIEVAL
97
Abbildung 7.7: Ingwersens Cognitive Model
Kognition, von Reflexionen oder Ideen. Abbildung 7.7 zeigt das Modell: Im Mittelpunkt steht das kognitive Modell des Benutzers, der sich wiederum in einem sozialen bzw. organisatorischen Umfeld bewegt,
das die Domäne, die Strategien und Ziele, die Aufgaben und Präferenzen beeinflusst. Der Benutzer formuliert nun ein Informationsbedürfnis (request), das in eine systemgerechte Anfrage (query) überführt
werden muss. Die Interpretation dieser Anfrage wird durch die Einstellungen des IR-Systems (wie z.B. die
Anfragesprache und die eingesetzten IR-Techniken, die Struktur der Datenbasis, die Indexierungsregeln
und das zugrundeliegende IR-Modell) definiert. Informationsobjekte werden dann in Abhängigkeit von der
zugrundeliegenden Wissensrepräsentation gefunden.
Eine mögliche Strategie zur Unterstützung dieses kognitiven Modells ist das gleichfalls von Ingwersen
formulierte Prinzip der Polyrepräsentation [Ingwersen 94]. Dabei wird ein Informationsobjekt in verschiedenen Formen repräsentiert. Die verwendeten Repräsentationen sollten dabei mit den kognitiven Strukturen korrelieren. Beim klassischen Dokumentenretrieval kann ein Dokument z.B. repräsentiert werden
durch seinen Titel, Schlagwörter, externe Annotationen sowie andere Dokumente, die es zitieren. Ein
anschauliches Beispiel ist der Amazon Bookstore, wo ein Dokument in der Ergebnisliste durch bibliografische Angaben und ein Miniaturbild des Buchumschlags repräsentiert wird, in den Details ferner durch
Inhaltsangaben, Benutzerreviews sowie Verweisen auf ähnliche Bücher.
Ein Retrievalsystem sollte somit mehrere Repräsentationen (und daher möglichst viele kognitive Strukturen) unterstützen, wodurch eine intentionale Redundanz erreicht wird. Der Benutzer erzielt ein gutes
Suchergebnis, wenn viele Repräsentationen zum selben Dokument zeigen.
Als Weiterentwicklung des Modells setzt man Polyrepräsentation nicht nur für die Dokumente, sondern
auch für den kognitiven Raum des Benutzers ein. Im einfachsten Fall kann man z.B. ein Informationsbedürfnis mittels verschiedener Anfragen repräsentieren. Wesentlich anspruchsvoller ist die Repräsentation
der aktuellen Aufgabe des Benutzers (was eine Suche auf der pragmatischen Ebene ermöglicht). Diesen
KAPITEL 7. INTERAKTIVES RETRIEVAL
98
Abbildung 7.8: Globales Modell der Polyrepräsentation
Ansatz findet man häufig in Handbüchern (z.B. Wie installiere ich einen Drucker? Wie erstelle ich ein
Inhaltsverzeichnis? ). Abbildung 7.8 illustriert das zugehörige umfassende Modell: Der Benutzer hat eine
aktuelle Aufgabe oder ein Interesse, befindet sich in einen bestimmten kognitiven Status und bewegt sich
innerhalb des von ihm wahrgenommenen Problemraums, aus dem dann ein konkretes Informationsbedürfnis resultiert. Zur Repräsentation dieser Situation wird nun nicht nur eine Anfrage formuliert, sondern
zusätzlich wird das zugrundeliegende Problem sowie die aktuelle Aufgabe repräsentiert. Analog erstellt
das IR-System für die Informationsobjekte si verschiedene interne Repräsentationen rj , aus denen Repräsentationen qk für Anfragen, pl für Problembeschreibungen sowie wm für Aufgaben erstellt werden, die
dann mit den konkreten Bedürfnissen des Benutzers abgeglichen werden.
7.3.4
Marchioninis Suchaktivitäten
In [Marchionini 95] hat Marchionini eine Taxonomie für Suchaktivitäten innerhalb einer Website vorgestellt, die in Abbildung 7.9 illustriert ist. Im Folgenden charakterisieren wir kurz die wichtigsten dieser
Aktivitäten.
Suchmodus: Lookup
Locate Finde ein spezifisches (mglw. bekanntes) Objekt
Verify Bestätigung, dass ein Objekt bestimmte objektive Kriterien erfüllt
Monitor Den Status eines Objektes laufend beobachten, zum Zwecke der Verwaltung oder der
Überwachung
Suchmodus: Learn
Compare Ähnlichkeiten und Unterschiede innerhalb einer Menge von Objekten identifizieren
Comprehend Neue Einsichten gewinnen, indem die Muster in einem Datenbestand erkannt werden
Explore Ein Objekt oder einen Datensatz untersuchen zum Zwecke der Wissensentdeckung
Suchmodus: Investigate
Analyze Ein Objekt oder einen Datensatz untersuchen, um Muster und Beziehungen zu erkennen
Evaluate Den Wert eines Objektes im Hinblick auf ein bestimmtes Ziel beurteilen
Synthesize Ein neues oder zusammengesetztes Artefakt aus verschiedenen Quellen generieren
Der größte Teil dieser Suchmodi lässt sich durch passende Design-Muster bei der Gestaltung der Benutzerschnittstelle unterstützen, wie in den nachfolgenden Abbildungen gezeigt wird.
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.9: Marchioninis Suchaktivitäten
Abbildung 7.10: Locating: Autocomplete
99
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.11: Locating: Partial Matches
Abbildung 7.12: Verifying: Instant Results
100
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.13: Verifying: Detail Overlay
Abbildung 7.14: Comparing: Parallel Views
Abbildung 7.15: Exploring: Autosuggest
101
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.16: Exploring: faceted search
Abbildung 7.17: Exploring: faceted search
102
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.18: Comprehending: facet menus
Abbildung 7.19: Analyzing: alternate views
103
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.20: Analyzing: data visualization
104
KAPITEL 7. INTERAKTIVES RETRIEVAL
7.3.5
105
Klassifikation von Web-Suchaktivitäten
[Broder 02] unterteilt Web-Suchaktivitäten in drei Gruppen:
informationell zur Suche nach Information
navigierend zur Navigation nach einer bestimmten (i.d.R. bekannten) Webseite
transaktionell zur Durchführung einer Transaktion (Online-Banking, Online-Shopping)
In [Russell et al. 09] wird dieses Schema wie folgt verfeinert:
Navigate: query(ies) leading to a site at which the main task can be performed. Navigation queries are
often the names of destination sites, or terms that are heavily suggestive of the target site. Example:
find Apple’s Quicktime web page.
Find-Simple: searching for an evident piece of information that does not require multiple sources of
information. Example: find the local YMCA phone number.
Find-Complex: searching for information that requires searches on very closely related topics to integrate
information across resources; often marked by a sequence of searches to find information that is
coordinated. Example: search for a way to knit winter socks that uses a search for sock patterns and
knitting instructions
Locate/Acquire : the searcher is looking to download something, purchase an item, obtain a good or
service. Example: find tickets to the game.
Explore/Learn : searches that are intended to discover something or learn about a topic area. Example:
finding out how to raft on the Grand Canyon, information about the tourist season, local flora and
fauna.
Play: activity where the searches are intended to find games, fun content or items for amusement. Example: finding sites to play online computer games; celebrity searches, etc.
Meta: search tasks that are to test some capability. Example: testing a web site’s capabilities.
Solche Klassifikationen werden von den Internet-Suchmaschinen benutzt, um Anfragen automatisch
einzuordnen und dann je nach Klasse unterschiedlich zu behandeln. So würde eine navigierende Anfrage
in der Regel auf die Homepage einer Website führen, während eine informationelle Seiten liefert, die die
Antwort beinhalten, und eine transaktionale sollte die Web-Seite mit dem entsprechenden Formular finden.
7.3.6
Klassifikation von Suchaktivitäten nach Belkin
Eine andere Herangehensweise zur Entwicklung benutzerfreundlicher IR-Systeme basiert auf der Klassifikation von Suchaktivitäten. Die Grundidee ist dabei, dass das Benutzerinterface an die Art der Suchaktivität angepasst sein muss (etwa im Gegensatz zu Web-Suchmaschinen, die nur eine Standardschnittstelle
anbieten). Dazu wird in [Cool & Belkin 02] folgendes facettierte Schema vorgeschlagen:
• Zugriff:
– Methode: Scannen . . . Suchen
– Modus: Erkennen . . . Spezifikation
• Objekte, mit denen interagiert wird
– Ebene: Information . . . Meta-Information
– Medium: Text, Bilder, Sprache, Video, . . .
– Quantität: 1 Objekt, Menge von Objekten, Datenbasis
• Gemeinsame Dimensionen der Interaktion
– Informationsobjekte: Teile . . . vollständige Objekte
– Systematik: zufällig . . . systematisch
– Grad: selektiv . . . erschöpfend
• Interaktionskriterien (z.B. Genauigkeit, Autorität, Datum, Person)
Insbesondere wird hier beim Zugriff zwischen Modus und Methode unterschieden. Der Modus gibt
dabei an, ob der Benutzer das gesuchte Objekt spezifizieren kann, oder ob er es nur erkennen kann, wenn
er es sieht. Die Methode beschreibt hingegen die Art der Interaktion: Nach einem spezifizierten Objekt
kann nicht immer gesucht werden, manchmal muss der Benutzer auch eine größere Menge von Objekten
scannen (z.B. ein IR-Buch mit einem blauen Einband oder ein IR-Buch mit einen indischem Coautor ).
Würde die Amazon-Ergebnisliste etwa keine Miniaturbilder enthalten, so würde die erste Anfrage extrem
umständlich zu bearbeiten sein – eine Farbsuche würde hingegen das Scannen ersparen. Somit sollte das
ideale IR-System alle Suchaktivitäten des Klassifikationsschemas angemessen unterstützen.
KAPITEL 7. INTERAKTIVES RETRIEVAL
7.4
106
Strategische Unterstützung
Nachdem im vorigen Abschnitt verschiedene generelle Ansätze für die Modellierung und Gestaltung der
Informationssuche vorgestellt wurden, betrachten wir nun einige Verfahren, die dem Benutzer helfen sollen,
seine Suche voranzutreiben. Wie wir in 7.2.1 schon diskutiert haben, findet die Suche nach Information in
verschiedenen, aufeinander folgenden Phasen statt, wobei jede Phase angemessen durch das System unterstützt werden sollte. Von zentraler Bedeutung ist dabei, welche Interaktionsmöglichkeiten dem Benutzer
hierfür zur Verfügung gestellt werden. Wegweisend in diesem Bereich sind die Arbeiten von Marcia Bates
zur strategischen Unterstützung und zur Integration der genannten Modelle; diese Ideen stellen wir in den
nächsten Abschnitten vor.
7.4.1
Suchaktivitäten
Bates hat basierend auf der Beobachtung professioneller Rechercheure eine Taxonomie für Suchaktivitäten
entwickelt [Bates 90], wo vier Abstraktionsebenen unterschieden werden:
Move beschreibt eine elementare Aktion oder einen identifizierbaren Gedanken. Hierzu gehören typischerweise die meisten Kommandos, die heutzutage von IR-System unterstützt werden, wie das
Hinzufügen eines Suchbegriffs, das Anschauen eines Treffers oder das Verfolgen eines Verweises.
Taktik ist eine zielorientierte Aktion zur Verbesserung des Suchergebnisses und umfasst in der Regel
mehrere Moves. Beispiele wären etwa die Auswahl von Synonymen zur Erweiterung der Suchanfrage
bei zu wenigen Ergebnissen, eine Einengung durch speziellere Begriffe bei zu vielen Antworten oder
die Suche nach ähnlichen Dokumenten zu einem gefundenen.
Strategem ( Kriegslist“) umfasst mehrere Taktiken, um Informationsstrukturen in einer Domäne aus”
zunutzen. Beispiele sind das Navigieren in den Inhaltsverzeichnissen einer Zeitschrift, das Verfolgen
von Referenzen und Fußnoten in einer Zitationsdatenbank, aber auch eine inhaltsorientierte Suche
durch eine Folge von Anfragen.
Strategie ist ein umfassender Plan zur Befriedigung eines Informationsbedürfnisses. Ein solcher Plan
enthält Moves, Taktiken und Strategeme. Einfaches Beispiel wäre die Suche nach Literatur zu einem
Seminarthema, bei dem man mit einer inhaltsorientierten Suche beginnt, die häufigsten Autoren und
Konferenzen im Suchergebnis bestimmt und dann nach weiteren Artikeln dieser Autoren sucht sowie
die Inhaltsverzeichnisse der entsprechenden Konferenzen durchschaut.
Bates’ empirische Studien erfolgten mit IR-Systemen, deren Funktionalität im Wesentlichen auf Moves
beschränkt war – alle höheren Aktivitäten mussten durch die Benutzer realisiert werden. Bei den Taktiken
unterscheidet Bates folgende Gruppen:
Monitoring ”Tactics to keep the search on track and efficient”
Strukturelle Taktiken auf der Menge der potenziellen Antworten
Suchformulierung verbreitern/einengen, viele/wenige Terme
Term-Taktiken Auswahl/Variation der Suchterme
Ideen-Taktiken offene Suchmöglichkeiten/Variation
Die einzelnen Taktiken sind nachfolgend aufgelistet.
7.4.1.1
Monitoring Tactics
CHECK To review the original request and compare it to the current search topic to see that it is the
same.
WEIGH To make a cost-benefit assessment, at one or more points of the search, of current or anticipated
actions.
PATTERN To make oneself aware of a search pattern, examine it, and redesign it if not maximally
efficient or if out of date
CORRECT To watch for and correct spelling and factual errors in one’s search topic.
RECORD To keep track of followed and of desirable trails not followed or not completed.
KAPITEL 7. INTERAKTIVES RETRIEVAL
107
BIBBLE To look for a bibliography already prepared, before launching oneself into the effect of preparing
one; more generally, to check to see if the search work one plans has already been done in a usable
form by someone else.
SELECT To break down complex search queries into subproblems and work on one problem at a time.
SURVEY To review, at each decision point of the search, the available options before selection.
CUT When selecting among several ways to search a given query, to choose the option that cuts out the
largest part of the search domain at once .
STRETCH To use a source for other than is intended purposes.
SCAFFOLD To design an auxiliary, indirect route through the information files and resources to reach
the desired information.
CLEAVE To employ binary searching in locating an item in an ordered file.
7.4.1.2
Search Formulation Tactics
SPECIFY To search on terms that are as specific as the information desired
EXHAUST To include most or all elements of the query in the initial search formulation; to add one or
more of the query elements to an already-prepared search formulation.
REDUCE To minimize the number of the elements of the query in the initial search formulation; to
subtract one or more of the query elements from an already-prepared search formulation.
PARALLEL To make the search formulation broad (or broader) by including synonyms or otherwise
conceptually parallel terms.
PINPOINT To make the search formulation precise by minimizing (or reducing) the number of parallel
terms, retaining the more perfectly descriptive terms. BLOCK] To reject, in the search formulation,
items containing or indexed by certain term(s), even if it means losing some document sections of
relevance
7.4.1.3
Term Tactics
SUPER To move upward hierarchically to a broader (superordinate) term.
SUB To move downward hierarchically to a more specific (subordinate) term.
RELATE To move sideways hierarchically to a coordinate term.
TRACE To examine information already found in the search in order to find additional terms to be used
in furthering the search.
VARY To alter or substitute one’s search terms in any of several ways. See remaining term tactics for
some specific variations.
REARRANGE To reverse or rearrange the words in search terms in any or reasonable orders.
CONTRARY To search for the term logically opposite that describing the desired information.
RESPELL To search under a different spelling.
RESPACE To try spacing variants
NEIGHBOR To seek additional search terms by looking at neighboring terms, whether proximate alphabetically, by subject similarity, or otherwise.
FIX To try alternative affixes, whether prefixes, suffixes, or infixes.
7.4.1.4
Idea Tactics
RESCUE In an otherwise unproductive approach, to check for possible productive paths still untried.
BREACH To breach the boundaries of one’s region of search, to revise one’s concept of the limits of the
intellectual or physical territory in which one searches to respond to a query.
FOCUS To look at the query more narrowly, in one or both of two senses: (1) to move from the whole
query to a part of it or (2) to move from a broader to a narrower conceptualization of the query.
KAPITEL 7. INTERAKTIVES RETRIEVAL
7.4.1.5
108
Taktiken für spezifische Suchsituationen
Die vorgenannten Taktiken können insbesondere in den nachfolgend skizzierten Situationen sinnvoll eingesetzt werden:
Too many hits SPECIFY EXHAUST PINPOINT BLOCK SUB
Too few hits NEIGHBOR TRACE PARALLEL FIX SUPER RELATE VARY
No hits RESPACE RESPELL REARRANGE CONTRARY SUPER RELATE NEIGHBOR TRACE
Need other terms or wrong terms NEIGHBOR TRACE SUPER SUB RELATE
Revise terms SPACE RESPELL FIX REVERSE CONTRARY SUPER SUB RELATE
Revise search formulation SPECIFY EXHAUST REDUCE PARALLEL PINPOINT BLOCK
7.4.1.6
Strategeme
Beispiele für Strategeme sind die folgenden:
Subject Search
Journal Run Having identified a journal central to one’s topic of interest, one reads or browses through
issues or volumes of the journal.
Citation Search Using a citation index or database, one starts with a citation and determines what
other works have cited it.
Area Scan After locating a subject area of interest in a classification scheme, one browses materials in
the same general area.
Footnote Chase One follows up footnotes or references, moving backward in time to other related materials.
7.4.2
Ebenen der Suchunterstützung
Generell stellt sich die Frage, in welcher Form ein System die Suchaktivitäten unterstützt. Hierfür hat
Bates die in Tabelle 7.1 aufgelisteten Ebenen unterschieden.
Für die sinnvollen Kombinationen von Suchaktivitäten und deren Unterstützung hat Bates die in Abbildung 7.21 dargestellte Vorgehensweise vorgeschlagen. Demnach sollte sinnvollerweise mit den Taktiken
begonnen werden und später auch Strategeme und Strategien realisiert werden (z.B. könnte ein System für
Standardprobleme fertige Strategien bereitstellen – etwa für die “known item search”). Wie wir im nächsten Abschnitt sehen werden, konzentriert sich die aktuelle Forschung auf die proaktive Unterstützung von
Taktiken.
Ebene
0
Name
Kein System
1
Möglichkeiten
auflisten
Aktionen auf
Kommando
Überwachen,
Vorschläge
2
3
a
b
4
Autom. Ausführung
a
b
Eigenschaft
Reine Benutzerebene;
keine Vorschläge/Aktionen vom System
(Handbuch) Vorschläge von Möglichkeiten auf Anfrage;
keine Durchführung
(passiv, kontextfreie Hilfe) Kann Aktionen ausführen;
kein Analysieren der Suche
(kontextbezogene Hilfe) Überwachen, Analysieren einer Suche,
Vorschläge machen
- auf Benutzeranfrage
- bei Entdecken (proaktiv)
Automatisches Ausführen einer Aktion
- Information an den Benutzer
- Keine Information
Tabelle 7.1: Ebenen der Systemunterstützung nach Bates
KAPITEL 7. INTERAKTIVES RETRIEVAL
109
Abbildung 7.21: Matrix aus Systemunterstützung und Suchaktivität
7.4.3
Proaktivität in IR-Systemen
In diesem Abschnitt stellen wir einige Ansätze zur proaktiven Unterstützung von Taktiken und Strategemen vor. Die meisten dieser Beispiele beziehen sich auf das in Abbildung 7.22 dargestellte System
http://www.daffodil.de1 , einem System zur parallelen Suche in mehreren angeschlossenen digitalen Bibliotheken. Die Benutzerschnittstelle ist als Desktop gestaltet, auf dem eine Reihe von Werkzeugen angeboten
werden. Neben dem Suchfenster mit zugehöriger Ergebnisliste links sieht man rechts unten die Detailansicht eines gefundenen Dokumentes sowie darüber eine persönliche Handbibliothek, in der der Benutzer
gefundene Dokumente ablegen kann. Daneben bietet Daffodil noch einige spezielle Werkzeuge an, wie z.B.
die Extraktion von Autorennamen oder Termen aus der Ergebnisliste (siehe das Fenster ganz rechts unten), die Anzeige der Suchhistorie, sowie das Blättern in einem Thesaurus oder in Inhaltsverzeichnissen
von Zeitschriften und Konferenzen.
Beispiele für einfache proaktive Taktiken in Daffodil sind die in Abbildung 7.23 dargestellte Rechtschreibkorrektur sowie die Anzeige verwandter Suchbegriffe (Abbildung 7.24). Beide Funktionen finden
sich in ähnlicher Form mittlerweile bei den meisten Web-Suchmaschinen, wie etwa die Anzeige verwandter
Begriffe bei Yahoo! (Abbildung 7.25).
Zu dieser Thematik hat unsere Forschungsgruppe [Schaefer et al. 05] vor einigen Jahren eine UsabilityStudie mit dem Daffodil-System durchgeführt, an dem 30 Personen teilnahmen. Der Fokus lag dabei auf
der Anfrageformulierung. Wenn keine Unterstützung der oben gezeigten Art angeboten wurde, dann zeigte
sich, dass die Benutzer in dieser Phase der Suche stark verunsichert sind, sie geben die gleiche Anfrage
mehrfach ein und starren häufig auf die Tastatur; ferner ignorieren sie Hinweise, die an anderer Stelle auf
dem Bildschirm auftauchen. Wenn dagegen die gezeigten proaktiven Funktionen aktiviert wurden, machten
Benutzer weniger syntaktische und semantische Fehler, sie trafen bessere taktische Entscheidungen, und
sie fühlten sich insgesamt sicherer.
Eine zweite Studie [Kriewel & Fuhr 10] beschäftigte sich mit der Unterstützung bei der Fortführung der
Suche (wenn der Benutzer also schon ein Suchergebnis hat). Hierzu analysierte das System den gegenwärtigen Stand der Suche und wählte dann durch case-based reasoning (Suche in einer Fall-Datenbasis nach
ähnlichen Fällen) unter 30 vorgegebenen Taktiken und Strategemen aus. Die Verfügbarkeit der Vorschläge
wird durch einen Knopf am unteren Ende der Ergebnisliste angezeigt, wie in Abbildung 7.26 zu sehen
ist. Wenn dieser gedrückt wird, erscheint die in Abbildung 7.27 gezeigte Rangliste von Vorschlägen. Jeder
Vorschlag enthält einen beschreibenden Titel, Erklärung und Abschätzung der Erfolgsaussichten. Ferner
zeigen Icons den Status des Vorschlags an (direkt ausführbar, benutzt, nützlich). Der Benutzer kann einen
oder mehrere Vorschläge ausführen und diese anschließend bewerten.
Die Evaluierung wurde mit 24 Testpersonen durchgeführt, die jeweils drei Aufgaben zu bearbeiten
hatten. Dabei stand 12 Benutzern die Vorschlagsfunktion zur Verfügung, den anderen dagegen nicht. Die
1 Daffodil
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.22: Daffodil-Desktop
Abbildung 7.23: Daffodil: Rechtschreibkorrektur
110
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.24: Daffodil: verwandte Suchbegriffe
Abbildung 7.25: Yahoo!: verwandte Suchbegriffe
Abbildung 7.26: Hinweis auf verfügbare Vorschläge
111
KAPITEL 7. INTERAKTIVES RETRIEVAL
112
Abbildung 7.27: Daffodil: Vorschläge zur Fortsetzung der Suche
Auswertung zeigte, dass die unterstützten Benutzer nicht nur mit dem Verlauf der Suche, sondern auch
mit dem Ergebnis zufriedener sind und zudem signifikant mehr relevante Dokumente finden. Während
sich die nicht unterstützten Benutzer im Wesentlichen auf das Reformulieren der Anfragen beschränkten,
nutzten die anderen signifikant häufiger die weiteren Möglichkeiten des Systems; dies war selbst dann der
Fall, als für die dritte Aufgabe die Unterstützungsfunktion abgeschaltet wurde.
7.5
Gestaltung von Anfrageschnittstellen
Basierend auf den in diesem Kapitel vorgestellten Modellen lassen sich einige Regeln für die Gestaltung
von Anfrageschnittstellen ableiten. die wir im Folgenden kurz vorstellen. Dabei unterscheiden wir zwischen
der reinen Sitzungsunterstützung (die sich schon in Dialogsystemen aus den 1970ern fand, aber heute bei
vielen Systemen fehlt) und fortgeschrittenen Funktionen, bei denen wir die Modelle von Ellis, Meho und
Tibbo zugrunde legen
7.5.1
Sitzungsunterstützung
Wenn ein Informationsbedürfnis nicht mit einer Anfrage befriedigt werden kann (wie das teilweise bei
Web-Suchen der Fall ist), dann sollte das System Funktionen zur Verfügung stellen, um solche Sitzungen
zu unterstützen (z.B. im Sinne des Berrypicking-Modells von Bates). Hierzu gehören folgende Funktionen:
• Ergebnisse zusammen mit der Anfrage anzeigen
• Editieren der alten Anfrage
• Anzeige der Suchhistorie
• Kombination von Anfragen
• Speicherung einzelner Ergebnisse
• Speicherung von Sitzungen
Schon gegen die ersten beiden Regeln verstoßen viele Suchmaschinen (z.B. bei manchen Online-Shops).
Die Anzeige der Suchhistorie wird spätestens dann notwendig, wenn der Benutzer nicht bis zur dritten
Anfrage sein Ziel erreicht hat – hier bieten dann selbst die populären Web-Suchmaschinen keine Unterstützung. Die Kombination von Anfragen ist eine Funktion, die i.d.R. nur von Benutzern mit einer
gewissen Suchkompetenz benötigt wird. Hingegen wird die Speicherung einzelner Ergebnisse immer dann
benötigt, wenn mehr als ein einziges Antwortdokument gefragt ist – das Fehlen dieser Funktion bei WebSuchmaschinen deutet wohl darauf hin, dass das Gros der Benutzer mit einer einzigen guten Antwort
zufrieden ist. Das Speichern von Sitzungen wird nur dann benötigt, wenn man umfangreichere Recherchen
durchführen will oder dieselbe Anfrage in periodischen Abständen stellen will (→ Monitoring).
KAPITEL 7. INTERAKTIVES RETRIEVAL
7.5.2
113
Unterstützung des Suchverhaltens nach Ellis/Meho/Tibbo
Abbildung 7.28: Starting: Resource Selection
Abbildung 7.29: Starting: Search term suggestion
Abbildung 7.30: Starting: Related Terms
Starting In dieser Phase sollte zum einen die Auswahl der zu durchsuchenden Ressourcen unterstützt
werden (Abb. 7.28), zum anderen Hilfe bei der Formulierung der Anfrage angeboten werden. Zu
letzterem gehören die Vervollständigung einzelner Suchterme oder der ganzen Anfrage (wie z.B. in
den Toolbars der Web-Suchmaschinen) sowie die Anzeige verwandter Suchbegriffe (siehe Abb. 7.29–
7.30
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.31: Browsing: Highlighting in der Ergebnisliste
Abbildung 7.32: Browsing: Sortieren/Gruppieren nach verschiedenen Kriterien
114
KAPITEL 7. INTERAKTIVES RETRIEVAL
115
Abbildung 7.33: Browsing: Aussagekräftige Surrogate
Browsing Zur Unterstützung des Browsing sollte das System das Highlighting der Suchbegriffe in der
Ergebnisliste unterstützen (Abb. 7.31), ebenso wie alternativ das Hervorheben weiterer Terme (analog zur Strg+F-Funktion vieler Webbrowser). Ferner sollte des möglich sein, die Ergebnismenge verschiedenen Kriterien zu sortieren oder zu gruppieren (Abb. 7.32), wobei in jedem Fall aussagekräftige
Surrogate angeboten werden sollten (Abb. 7.33).
Abbildung 7.34: Chaining: Klickbare Einträge in Antworten
Chaining Hierzu gehört zunächst das Anbieten von Verweisen zu möglichst vielen Einträgen eines Dokumentes (etwa Autorenname und -institution, Zeitschriften(-heft), Schlagwörter, siehe Abb. 7.34).
Neben dem Verfolgen von Links in der vorgegebenen Richtung sollte insbesondere auch das Forward
Chaining (Wer verweist auf diese Web-Seite? Wer hat diesen Artikel zitiert? ), unterstützt werden
(Abb. 7.35–7.36). Fortgeschrittenen Funktionen aus diesem Bereich sind die Ähnlichkeitssuche für
ein vorgegebenes Dokument oder die Extraktion von Termen, Autoren, Zeitschriften, Konferenzen
etc. aus der Ergebnisliste (Abb. 7.37–7.38).
Monitoring Speicherung und periodische Ausführung von Anfragen wird nur von wenigen Systemen
angeboten (Abb. 7.39–7.40).
Differentiating Der Vergleich von Ergebnisseiten (durch parallele Anzeige sowie Hervorheben der Unterschiede) kann diese Funktion unterstützen (Abb. 7.41).
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.35: Chaining: Rückwärts
Abbildung 7.36: Backward Chaining bei der Websuche
116
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.37: Chaining: Ähnliche Dokumente
Abbildung 7.38: Chaining: Identifikation wichtiger Autoren
117
KAPITEL 7. INTERAKTIVES RETRIEVAL
Abbildung 7.39: Monitoring: Saved Searches“ bei PubMed
”
Abbildung 7.40: Monitoring: Watchthatpage.com
118
KAPITEL 7. INTERAKTIVES RETRIEVAL
119
Abbildung 7.41: Differentiating: Vergleich von Ergebnisseiten
Extracting Hierzu sollte die Suche in der Ergebnisseite (mit Hervorheben der Treffer) möglich sein
(Abb. 7.41–7.43).
Abbildung 7.42: Extracting: Highlighting in Ergebnisseiten
Abbildung 7.43: Extracting: Suche in der Ergebnisseite
KAPITEL 7. INTERAKTIVES RETRIEVAL
120
Abbildung 7.44: Information management: Ordnen und Annotieren der Ergebnisse
Abbildung 7.45: Information management: Handbibliothek in Daffodil
Information Management Das Ablegen gefundener Dokumente in verschiedenen Ordnern (collate) sollte ebenso möglich sein wie auch die anschließende Annotation der Ergebnisse (sowohl out-of-line als
auch inline) (Abb. 7.44–7.45).
KAPITEL 7. INTERAKTIVES RETRIEVAL
7.6
121
Zusammenfassung zu kognitiven Modellen
Ausgangspunkt dieses Kapitels war die Unterscheidung zwischen dem umfassenderen Information Seeking
Behavior und dem auf die Interaktion mit dem IR-System bezogenen Information Searching. Wir haben
hierzu eine Reihe von kognitiven Modellen kennengelernt. Gerade die Modelle zum Information Seeking
Behavior sollten als Grundlage genommen werden, um neue Systeme zu entwickeln, die alle Phasen der
Informationsbeschaffung zu unterstützen. Die Information-Searching-Modelle tragen insbesondere dem iterativen Charakter der Suche und der Vielfalt der Suchaufgaben Rechnung und versuchen, die zahlreichen
Einflussfaktoren mit zu berücksichtigen. Gerade letzteres ist sicher wichtig, um weitere Qualitätsverbesserungen zu erreichen: Je mehr das System über den Benutzer und seine aktuelle Situation weiß, umso besser
kann es seine Fragen beantworten. Als erste Ansätze zu besseren Systemen haben wir ostensive Retrieval,
strategische Unterstützung durch höhere Suchfunktionen sowie die proaktive Unterstützung kennengelernt.
Literaturverzeichnis
Azzopardi, L.; Kazai, G.; Robertson, S. E.; Rüger, S. M.; Shokouhi, M.; Song, D.; Yilmaz,
E. (Hrsg.) (2009). Advances in Information Retrieval Theory, Second International Conference on the
Theory of Information Retrieval, ICTIR 2009, Cambridge, UK, September 10-12, 2009, Proceedings,
Band 5766 von Lecture Notes in Computer Science. Springer.
Bandura, A. (1997). Self-efficacy: The exercise of control. W. H. Freedman and Company, New York.
Bates, M. J. (1979). Information Search tactics. Journal of the American Society for Information
Science 30(4), S. 205–214.
Bates, M. J. (1989). The design of browsing and berrypicking techniques for the online search interface.
Online Review 13(5), S. 407–424. http://www.gseis.ucla.edu/faculty/bates/berrypicking.html.
Bates, M. J. (1990). Where Should the Person Stop and the Information Search Interface Start?
Information Processing and Management 26(5), S. 575–591.
Belkin, N. (1996). Intelligent information retrieval: Whose intelligence? In: ISI ’96: Proceedings of the
Fifth International Symposium for Information Science, S. 25–31. Universitätsverlag Konstanz.
Belkin, N.; Oddy, R.; Brooks, H. (1982). ASK for Information Retrieval: Part I. Background and
Theory. The Journal of Documentation 38(2), S. pp. 61–71.
Bookstein, A. (1985). Probability and Fuzzy-Set Applications to Information Retrieval. Annual Review
of Information Science and Technology 20, S. 117–151.
Broder, A. (2002). A taxonomy of web search. SIGIR Forum 36(2), S. 3–10.
Burkart, M. (1990). Dokumentationssprachen. In: Grundlagen der praktischen Information und Dokumentation, S. 143–182. K.G. Saur, München et al.
Charniak, E.; Hendrickson, C.; Jacobson, N.; Perkowitz, N. (1993). Equations for Part-of-speech
Tagging. In: Proceedings of the Elenth National Conference on Artificial Intelligence, S. 784–789. Morgan
Kaufman, Menlo Park, CA.
Clarke, C. L. A.; Kolla, M.; Vechtomova, O. (2009). An Effectiveness Measure for Ambiguous and
Underspecified Queries. In [Azzopardi et al. 09], S. 188–199.
Cleverdon, C. W. (1991). The Significance of the Cranfield Tests on Index Languages. In: Proceedings of the Fourteenth Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval, S. 3–11. ACM, New York.
Cool, C.; Belkin, N. J. (2002). A Classification of Interactions with Information. In: Bruce, H.;
Fidel, R.; Ingwersen, P.; Vakkari, P. (Hrsg.): Emerging frameworks and methods. Proceedings of the
Fourth International Conference on Conceptions of Library and Information Science (COLIS4), S. 1–
15. Libraries Unlimited, Greenwood Village.
Cooper, W. S. (1991). Some Inconsistencies and Misnomers in Probabilistic IR. In: Proceedings of the
Fourteenth Annual International ACM SIGIR Conference on Research and Development in Information
Retrieval, S. 57–61. ACM, New York.
Croft, W. B.; Harper, D.; Kraft, D. H.; Zobel, J. (Hrsg.) (2001). Proceedings of the 24th Annual
International Conference on Research and development in Information Retrieval, New York. ACM.
Ellis, D. (1989). A behavioural approach to information retrieval system design. Journal of Documentation 45(3), S. 171–212.
122
LITERATURVERZEICHNIS
123
Fuhr, N. (1992). Probabilistic Models in Information Retrieval. The Computer Journal 35(3), S. 243–255.
Fuhr, N. (2008). A Probability Ranking Principle for Interactive Information Retrieval. Information
Retrieval 11(3), S. 251–265. http://dx.doi.org/10.1007/s10791-008-9045-0.
Greene, B. B.; Rubin, G. M. (1971). Automatic Grammatical Tagging of English. Technical report,
Brown University, Providence, RI.
Harman, D. (1995). Overview of the Second Text Retrieval Conference (TREC-2). Information Processing and Management 31(03), S. 271–290.
Hiemstra, D. (1998). A Linguistically Motivated Probabilistic Model of Information Retrieval. In: Lecture
Notes In Computer Science - Research and Advanced Technology for Digital Libraries - Proceedings of
the second European Conference on Research and Advanced Technology for Digital Libraries: ECDL’98,
S. 569–584. Springer Verlag.
Ingwersen, P. (1992). Information Retrieval Interaction. Taylor Graham, London.
Ingwersen, P. (1994). Polyrepresentation of Information Needs and Semantic Entities, Elements of
a Cognitive Theory for Information Retrieval Interaction. In: Croft, B. W.; van Rijsbergen, C. J.
(Hrsg.): Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval, S. 101–111. Springer-Verlag, London, et al.
Ingwerswen, P. (2001). Users in context. Lectures on information retrieval 1980, S. 157–178.
Järvelin, K.; Kekäläinen, J. (2002). Cumulated gain-based evaluation of IR techniques. ACM Trans.
Inf. Syst. 20(4), S. 422–446.
Joachims, T. (2001). The Maximum-Margin Approach to Learning Text Classifiers. Methods, Theory,
and Algorithms. PhD thesis, Fachbereich Informatik, Universität Dortmund.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Krause, J. (1992). Intelligentes Information Retrieval. Rückblick, Bestandsaufnahme und Realisierungschancen. In: Experimentelles und praktisches Information Retrieval, S. 35–58. Universitätsverlag
Konstanz, Konstanz.
Kriewel, S.; Fuhr, N. (2010). An evaluation of an adaptive search suggestion system. In: 32nd European
Conference on Information Retrieval Research (ECIR 2010), S. 544–555. Springer.
Kuhlen, R. (1977). Experimentelle Morphologie in der Informationswissenschaft. Verlag Dokumentation,
München.
Kuhlen, R. (1990). Zum Stand pragmatischer Forschung in der Informationswissenschaft. In: Pragmatische Aspekte beim Entwurf und Betrieb von Informationssystemen. Proceedings des 1. Internationalen
Symposiums für Informationswissenschaft, S. 13–18. Universitätsverlag Konstanz, Konstanz.
Kuhlen, R. (1991). Zur Theorie informationeller Mehrwerte. In: Wissensbasierte Informationssysteme
und Informationsmanagement, S. 26–39. Universitätsverlag Konstanz.
Lee, J. H.; Kim, W. Y.; Kim, M. H.; Lee, Y. J. (1993). On the Evaluation of Boolean Operators
in the Extended Boolean Retrieval Framework. In: Proceedings of the Sixteenth Annual International
ACM SIGIR Conference on Research and Development in Information Retrieval, S. 291–297. ACM,
New York.
Marchionini, G. (1995). Information seeking in electronic environments. Cambridge University Press,
New York, NY, USA.
Maron, M. E.; Kuhns, J. L. (1960). On Relevance, Probabilistic Indexing, and Information Retrieval.
Journal of the ACM 7, S. 216–244.
Meho, L. I.; Tibbo, H. R. (2003). Modeling the information-seeking behavior of social scientists:
Ellis’s study revisited. Journal of the American Society for Information Science and Technology 54(6),
S. 570–587.
Ponte, J. M.; Croft, W. B. (1998). A Language Modeling Approach to Information Retrieval. In:
Croft, W. B.; Moffat, A.; van Rijsbergen, C. J.; Wilkinson, R.; Zobel, J. (Hrsg.): Proceedings of the 21st
Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,
S. 275–281. ACM, New York.
LITERATURVERZEICHNIS
124
Raghavan, V. V.; Wong, S. K. M. (1986). A Critical Analysis of Vector Space Model for Information
Retrieval. Journal of the American Society for Information Science 37(5), S. 279–287.
van Rijsbergen, C. J. (2004). The Geometry of Information Retrieval. Cambridge University Press,
New York, NY, USA.
Robertson, S. E. (1977). The Probability Ranking Principle in IR. Journal of Documentation 33, S.
294–304.
Robertson, S. E.; Walker, S.; Jones, S.; Hancock-Beaulieu, M. M. (1995). Okapi at TREC-3. In:
Proceedings of the 3rd Text Retrieval Converence (TREC-3), S. 109–126. NTIS, Springfield, Virginia,
USA.
Rocchio, J. J. (1966). Document Retrieval Systems - Optimization and Evaluation. Report ISR-10 to
the NSF, Computation Laboratory, Harvard University.
Russell, D. M.; Tang, D.; Kellar, M.; Jeffries, R. (2009). Task Behaviors During Web Search: The
Difficulty of Assigning Labels. In: HICSS, S. 1–5. IEEE Computer Society.
Salton, G.; Buckley, C. (1988). Term Weighting Approaches in Automatic Text Retrieval. Information
Processing and Management 24(5), S. 513–523.
Salton, G.; Buckley, C. (1990). Improving Retrieval Performance by Relevance Feedback. Journal of
the American Society for Information Science 41(4), S. 288–297.
Salton, G.; McGill, M. J. (1983). Introduction to Modern Information Retrieval. McGraw-Hill, New
York.
Salton, G. (Hrsg.) (1971). The SMART Retrieval System - Experiments in Automatic Document Processing. Prentice Hall, Englewood, Cliffs, New Jersey.
Salton, G. (1986). Another Look at Automatic Text-Retrieval Systems. Communications of the ACM
29(7), S. 648–656.
Salton, G.; Fox, E.; Wu, H. (1983). Extended Boolean Information Retrieval. Communications of the
ACM 26, S. 1022–1036.
Santos, R.; Macdonald, C.; Ounis, I. (2012). On the role of novelty for search result diversification.
Information Retrieval 15(5), S. 478–502.
Schaefer, A.; Jordan, M.; Klas, C.-P.; Fuhr, N. (2005). Active Support For Query Formulation in
Virtual Digital Libraries: A case study with DAFFODIL. In: Rauber, A.; Christodoulakis, C.; Tjoa,
A. M. (Hrsg.): Research and Advanced Technology for Digital Libraries. Proc. European Conference on
Digital Libraries (ECDL 2005), Lecture Notes in Computer Science. Springer, Heidelberg et al.
Shneiderman, B. (1998). Designing the user interface. Addison-Wesley.
Turpin, A. H.; Hersh, W. (2001). Why batch and user evaluations do not give the same results. In
[Croft et al. 01], S. 225–231.
Verhoeff, J.; Goffmann, W.; Belzer, J. (1961). Inefficiency of the Use of Boolean Functions for
Information Retrieval Systems. Communications of the ACM 4, S. 557–558.
Voorhees, E.; Harman, D. (2000). Overview of the Eighth Text REtrieval Conference (TREC-8). In:
The Eighth Text REtrieval Conference (TREC-8), S. 1–24. NIST, Gaithersburg, MD, USA.
Wong, S. K. M.; Ziarko, W.; Raghavan, V. V.; Wong, P. C. N. (1987). On Modeling of Information
Retrieval Concepts in Vector Spaces. ACM Transactions on Database Systems 12(2), S. 299–321.
Zadeh, L. A. (1965). Fuzzy Sets. Information and Control 8, S. 338–353.
Zhai, C.; Lafferty, J. (2001). A Study of Smoothing Methods for Language Models Applied to Ad Hoc
Information Retrieval. In [Croft et al. 01].
Zimmermann, H. (1991). Ein Verfahren zur automatischen Trunkierung beim Zugang zu textbezogenen
Informationsbanken. In: Wissensbasierte Informationssysteme und Informationsmanagement, S. 125–
144. Universitätsverlag Konstanz.
Zuccon, G.; Azzopardi, L.; van Rijsbergen, K. (2009). The Quantum Probability Ranking Principle
for Information Retrieval. In [Azzopardi et al. 09], S. 232–240.
Zuccon, G.; Azzopardi, L.; van Rijsbergen, C. J. (2011). The interactive PRP for diversifying
document rankings. In: Ma, W.-Y.; Nie, J.-Y.; Baeza-Yates, R. A.; Chua, T.-S.; Croft, W. B. (Hrsg.):
SIGIR, S. 1227–1228. ACM.