Folien

Transcription

Folien
Erweiterte Boolesche Modelle
Theoretische Kohärenz
• Alternative: Mischung aus Booleschem und
gewichtetem Retrieval
• Idee: Verbindung: Boolesche Anfrage und
gerankter Output
• Voraussetzung: Gewinnung von RankingInformation aus exakten Booleschen
Anfragen
• Widerspruchsfreie Abbildung der Anfragen
d.h. Logikkonformität des Mischmodells
• unterschiedl. Ausdrucksmöglichkeiten
gleicher Inhalte müssen über
Transformationen geregelt werden
IR
67
• Ausschöpfen der Booleschen Möglichkeiten
–
–
–
–
–
–
–
b OR NOT (NOT a)
NOT (b AND (NOT a))
NOT b OR NOT (NOT a)
(b AND a) OR (c AND NOT a)
x OR (NOT x)
a AND (b OR c)
(a AND b) OR (a AND c)
IR
68
Extended Boolean Models
• Das MMM-Modell (Mixed Min and Max)
• Das Paice-Modell
• Das P-Norm-Modell
LogikLogik-Konformität durch Transformationen
IR
69
Das MMM-Modell (cf. Fox et al.
1992)
• Terme bilden unscharfe Mengen
• Dokumentgewicht wird als Zugehörigkeit
interpretiert
• MIN und MAX wird als Kontinuum
interpretiert
IR
IR
70
Beispiel: MMM
• SIM (Qor, D) =
– Cor1* max (dA1, dA2 , ...., d An) + Cor2* min (dA1, dA2 ,
...., d An)
• SIM (Qand, D) =
– Cand1* min (dA1, dA2 , ...., d An) + Cand2* max (dA1, dA2
, ...., d An).
• Cor1 und Cor2 sind „Weichheitskoeffizienten“
• wobei gilt: Cor1 > Cor2 und Cand1 >Cand2
– Cor1 + Cor2=1; Cand1 + Cand2=1
– für Cand1 Bereich 0,5 bis 0,8; Cor1 Bereich >0,2
71
IR
72
1
Beispiel: P-Norm-Modell (Salton
1989,354)
Das Probabilistische Modell:
stochastische Grundlagen
• Bedingte Wahrscheinlichkeit
1,1
– Wahrscheinlichkeit, daß die Aussage A zutrifft,
unter der Voraussetzung, daß eine andere
Aussage B gilt
– Instrument, um Beziehungen zwischen
Aussagen auszudrücken (Bayessche Inferenz)
1,1
B
B
x
x
0,0
0,0
A
A
OR
P( K | A) =
AND
IR
73
Beziehung zwischen Antezedent
und Konsequent
Symptom
Diagnose
Sensitivität
Spezifizität
Kopfschmerzen
Erkältung
gering
gering
Zahnschmerzen
Karies
gering
hoch
Kopfschmerzen
Mumps
hoch
gering
beidseitig
geschwollene Wangen Mumps
hoch
hoch
IR
S
S
P( K | A) =
D
D
S
SS
D
75
Zusammenfassung: Modelle
•
•
•
•
•
IR
76
Vorteile von Ranking-Verfahren
Boolesches Modell
Vektor-Raum-Modell
probabilistisches Modell
Fuzzy-Modelle
Extended Boolean Models
IR
P( K ∩ A)
P ( A)
K und A als Deskriptor
K und A als Anfrage und Dokument
Tab. 2.1: Zusammenhang zwischen Symptom und Diagnose ausgedrückt durch Sensitivität und
Spezifizität
IR
74
Probabilistisches IR
Abbildung
D
P( K ∩ A)
P( A)
• Die Rangordnung reiht die relevantesten
Dokumente an den Anfang der Folge
• Der Benutzer bestimmt den Abbruch selbst,
d.h. keine Mengenprobleme
• Experimente zeigen bessere Retrievalqualität (bereits für sehr einfache
Verfahren) cf. Salton et al. 1983
77
IR
78
2
Operationalisierung der
Gewichtung
Grundprinzip Ranking
• Basis: Terme und deren Vorkommen
(Frequenz und Verteilung)
• Welche Terme sind „gute“ Indikatoren zur
Modellierung des Dokumentinhalts?
Index
Dokumente
Anfrage
– Hochfrequenten Terme?
– Niedrigfrequenten Terme? (Hapax)
– Mittelfrequenten Terme?
Gewicht / Rankingwert pro Dokument-Anfrage-Relation
IR
79
IR
Vorgehen für ein gewichtetes
Indexierungsmodell
Problem: Woher kommen die
Gewichte?
• Bestimmung: Was ist ein Term?
•
•
•
•
•
– Wortgrenzen, Mehrwortbegriffe, Stopwörter
– Zahlen, Abkürzungen, Sonderzeichen
• Bestimmung des Beitrags dieses Terms zur
Inhaltsmodellierung des Dokuments
– Gewichtungsmodelle
IR
81
Ansätze:
- formal (z.B. Frequenzen)
- heuristisch
- empirisch
- Auf der Basis von Relevanzurteilen
kann Optimierung erfolgen
IR
82
• Gewichtung auf der Basis der Kollektionsfrequenz
Termgewichtung
– Beispiel: Inverse Document Frequency (IDF)
• Zwei Grundhäufigkeiten:
• hier wirken die Term Exhaustivity (recall-device) und
Term Specificity (precision device)
• z.B. Auto ist spezifischer als Fahrzeug
• BMW ist spezifischer als Auto
– Termfrequenz in der Kollektion
– Termfrequenz in einem Dokument
• Relativierung an
– Guter Index enthält beides
• der Dokumentlänge (Anzahl der types od. tokens)
• der Anz. der Dokumente mit best. Term
• Kollektionsgröße (Anz. der Dokumente oder Anz. der
tokens)
IR
80
• Formel: IDF t = N/n
wobei N Anzahl der Dok. in der Kollektion
n Anzahl der Dok., die t enthalten
83
IR
84
3
Gewichtung auf der Basis der
Kollektions- und Dokumentfrequenz
Gewichtung auf der Basis von
Relevanzinformation
• Beste Deskriptoren sind die, welche die
Dokumente am besten vom Rest der
Kollektion diskrimieren
• Basis: Kenntnis der Verteilung der Terme über
relevanten und nicht-relevante Dokumente
• Beispiel Gewichtungsschema von Croft 1983
cfreqij = K + (1 − K )
freqij
• Prinzip: relevance feedback
max freqij
wobei
freqij Frequenz eines Terms i im Dokument j
maxfreqi maximale Frequenz irgendeines Terms in Dok. j
IR
K ist Konstante zur Modifizierung
des Maßes
85
Ranking-Liste mit
Relevanzinformation
• Wissen über die Verteilung der Terme in
relevanten und nicht-relevanten
Dokumenten
r
( )
R
w1 = log
n
• Beispiel:
( )
N
87
IR
Formel (1)
Formel (2)
r
( )
w1 = log R
n
( )
N
r
( )
R
w = log
n−r
(
)
N −R
IR
86
Gewichtung durch Einbeziehung
von Relevanzinformation
1. Dokument A
2. Dokument X
3. Dokument H
4. Dokument B
5. Dokument F
etc.
IR
IR
89
IR
88
90
4
Formel (3)
• Wobei
– N = Anz. der Dokumente in der Kollektion
– n = Anz. der Dokumente, die Term t enthalten
– R = Anz. der relevanten Dokumente auf
Anfrage q
– r = Anz. der relevanten Dokumente, die Term t
enthalten
r
)
−
R
r
w4 = log
n−r
(
)
N −n− R+ r
(
– Verteilung der Terme über relevante und nichtrelevante Dokumente
IR
91
IR
Beispiel: Wirkung von Relevance
Feedback
Einbeziehung der Dokumentstruktur (1)
• Dokumentstruktur ist domänenabhängig
Anfrage
t2
t1
– (d.h. Struktur hat unterschiedliche Semantik)
t3
• Beispiel: Patente, wiss. Artikel,
Experimente
• Titel, Abstract, Beschreibung, State-of-theArt, Hauptanspruch, Nebenansprüche,
Zeichnung mit textuellen Verweisen
Ergebnis
d5
92
d7
rel
d11
d12
d15
rel
IR
93
IR
Einbeziehung der Dokumentstruktur (2)
Der Darmstädter
Indexierungsansatz (DIA)
•
•
•
•
•
• Beispiel:
– WENN ein Term in exponierten
Dokumentteilen vorkommt, DANN erhält er
ein stärkeres Gewicht.
– Fragen:
• Was sind die wichtigen Teile?
• Welches Gewicht soll der Term erhalten?
• s. z.B. Womser-Hacker / Zettel 1997
IR
94
95
cf. Knorz 1983, Lustig 1986, Fuhr 1988
vollautomatische Indexierung
Deskriptoren kommen aus einem Thesaurus
Indexierung für englische Titel+Abstracts
Wörterbuch, das alle Deskriptoren mit den
zugehörigen Thesaurustermen enthält
IR
96
5
Erweiterung des Booleschen
Modells durch RankingFunktionalität
• Relationen zwischen Termen und
Deskriptoren
• für die Gewichtung wird eine komplexe
Hinweisbeschreibung angelegt
–
–
–
–
Beispiel:
1. Anfrage:
(information retrieval ODER database access ODER knowledge finding)
Form des Vorkommens
statistische Angaben über den Term
Relation
korrekt dann, wenn der Term auch von einem
menschlichen Indexierer vergeben wurde
...
2. RANKING-Algorithmus
1.
2.
3.
4.
5.
6.
7. ...
n
...
Abb. 3.5: Erweiterung von Booleschem Retrieval durch Ranking-Verfahren
IR
97
Quorum-Level-Search
Anfrage Hierarchie
nr
Anz. der
Dok.
Anz. der rel.
Dok.
2
2
0
(A and B and C and D)
1
(A and B and C) or (A and B 6
and D) or (A and C and D)
or (B and C and D)
(A and B) or (A and C) or (A 23
and D) or (B and C) or (B
and D) or (C and D)
A or B or C or D
86
2
3
IR
98
Fazit: Gewichtungsschemata
• Es gibt sehr viele verschiedene
Möglichkeiten der Gewichtung.
5
• Vergleich durch Evaluierungsstudien
15
• Problem: Isolation der Wirkung schwierig
25
IR
99
IR
100
Trends aus Harman 1992
• Termgewichtung auf der Basis der
Kollektionsfrequenz führt zu Verbesserungen
• Kombination von Dokument- und
Kollektionsfrequenz kann diese Verbesserungen
noch erhöhen
→ allerdings abhängig von versch. Faktoren
→Normalisierung nötig
→Dokumentlänge spielt eine Rolle (für Ti+Ab
ungeeignet)
→problematisch bei manuell indexierten Dokumenten
oder Thesaurusbenutzung
IR
101
6