Folien
Transcription
Folien
Erweiterte Boolesche Modelle Theoretische Kohärenz • Alternative: Mischung aus Booleschem und gewichtetem Retrieval • Idee: Verbindung: Boolesche Anfrage und gerankter Output • Voraussetzung: Gewinnung von RankingInformation aus exakten Booleschen Anfragen • Widerspruchsfreie Abbildung der Anfragen d.h. Logikkonformität des Mischmodells • unterschiedl. Ausdrucksmöglichkeiten gleicher Inhalte müssen über Transformationen geregelt werden IR 67 • Ausschöpfen der Booleschen Möglichkeiten – – – – – – – b OR NOT (NOT a) NOT (b AND (NOT a)) NOT b OR NOT (NOT a) (b AND a) OR (c AND NOT a) x OR (NOT x) a AND (b OR c) (a AND b) OR (a AND c) IR 68 Extended Boolean Models • Das MMM-Modell (Mixed Min and Max) • Das Paice-Modell • Das P-Norm-Modell LogikLogik-Konformität durch Transformationen IR 69 Das MMM-Modell (cf. Fox et al. 1992) • Terme bilden unscharfe Mengen • Dokumentgewicht wird als Zugehörigkeit interpretiert • MIN und MAX wird als Kontinuum interpretiert IR IR 70 Beispiel: MMM • SIM (Qor, D) = – Cor1* max (dA1, dA2 , ...., d An) + Cor2* min (dA1, dA2 , ...., d An) • SIM (Qand, D) = – Cand1* min (dA1, dA2 , ...., d An) + Cand2* max (dA1, dA2 , ...., d An). • Cor1 und Cor2 sind „Weichheitskoeffizienten“ • wobei gilt: Cor1 > Cor2 und Cand1 >Cand2 – Cor1 + Cor2=1; Cand1 + Cand2=1 – für Cand1 Bereich 0,5 bis 0,8; Cor1 Bereich >0,2 71 IR 72 1 Beispiel: P-Norm-Modell (Salton 1989,354) Das Probabilistische Modell: stochastische Grundlagen • Bedingte Wahrscheinlichkeit 1,1 – Wahrscheinlichkeit, daß die Aussage A zutrifft, unter der Voraussetzung, daß eine andere Aussage B gilt – Instrument, um Beziehungen zwischen Aussagen auszudrücken (Bayessche Inferenz) 1,1 B B x x 0,0 0,0 A A OR P( K | A) = AND IR 73 Beziehung zwischen Antezedent und Konsequent Symptom Diagnose Sensitivität Spezifizität Kopfschmerzen Erkältung gering gering Zahnschmerzen Karies gering hoch Kopfschmerzen Mumps hoch gering beidseitig geschwollene Wangen Mumps hoch hoch IR S S P( K | A) = D D S SS D 75 Zusammenfassung: Modelle • • • • • IR 76 Vorteile von Ranking-Verfahren Boolesches Modell Vektor-Raum-Modell probabilistisches Modell Fuzzy-Modelle Extended Boolean Models IR P( K ∩ A) P ( A) K und A als Deskriptor K und A als Anfrage und Dokument Tab. 2.1: Zusammenhang zwischen Symptom und Diagnose ausgedrückt durch Sensitivität und Spezifizität IR 74 Probabilistisches IR Abbildung D P( K ∩ A) P( A) • Die Rangordnung reiht die relevantesten Dokumente an den Anfang der Folge • Der Benutzer bestimmt den Abbruch selbst, d.h. keine Mengenprobleme • Experimente zeigen bessere Retrievalqualität (bereits für sehr einfache Verfahren) cf. Salton et al. 1983 77 IR 78 2 Operationalisierung der Gewichtung Grundprinzip Ranking • Basis: Terme und deren Vorkommen (Frequenz und Verteilung) • Welche Terme sind „gute“ Indikatoren zur Modellierung des Dokumentinhalts? Index Dokumente Anfrage – Hochfrequenten Terme? – Niedrigfrequenten Terme? (Hapax) – Mittelfrequenten Terme? Gewicht / Rankingwert pro Dokument-Anfrage-Relation IR 79 IR Vorgehen für ein gewichtetes Indexierungsmodell Problem: Woher kommen die Gewichte? • Bestimmung: Was ist ein Term? • • • • • – Wortgrenzen, Mehrwortbegriffe, Stopwörter – Zahlen, Abkürzungen, Sonderzeichen • Bestimmung des Beitrags dieses Terms zur Inhaltsmodellierung des Dokuments – Gewichtungsmodelle IR 81 Ansätze: - formal (z.B. Frequenzen) - heuristisch - empirisch - Auf der Basis von Relevanzurteilen kann Optimierung erfolgen IR 82 • Gewichtung auf der Basis der Kollektionsfrequenz Termgewichtung – Beispiel: Inverse Document Frequency (IDF) • Zwei Grundhäufigkeiten: • hier wirken die Term Exhaustivity (recall-device) und Term Specificity (precision device) • z.B. Auto ist spezifischer als Fahrzeug • BMW ist spezifischer als Auto – Termfrequenz in der Kollektion – Termfrequenz in einem Dokument • Relativierung an – Guter Index enthält beides • der Dokumentlänge (Anzahl der types od. tokens) • der Anz. der Dokumente mit best. Term • Kollektionsgröße (Anz. der Dokumente oder Anz. der tokens) IR 80 • Formel: IDF t = N/n wobei N Anzahl der Dok. in der Kollektion n Anzahl der Dok., die t enthalten 83 IR 84 3 Gewichtung auf der Basis der Kollektions- und Dokumentfrequenz Gewichtung auf der Basis von Relevanzinformation • Beste Deskriptoren sind die, welche die Dokumente am besten vom Rest der Kollektion diskrimieren • Basis: Kenntnis der Verteilung der Terme über relevanten und nicht-relevante Dokumente • Beispiel Gewichtungsschema von Croft 1983 cfreqij = K + (1 − K ) freqij • Prinzip: relevance feedback max freqij wobei freqij Frequenz eines Terms i im Dokument j maxfreqi maximale Frequenz irgendeines Terms in Dok. j IR K ist Konstante zur Modifizierung des Maßes 85 Ranking-Liste mit Relevanzinformation • Wissen über die Verteilung der Terme in relevanten und nicht-relevanten Dokumenten r ( ) R w1 = log n • Beispiel: ( ) N 87 IR Formel (1) Formel (2) r ( ) w1 = log R n ( ) N r ( ) R w = log n−r ( ) N −R IR 86 Gewichtung durch Einbeziehung von Relevanzinformation 1. Dokument A 2. Dokument X 3. Dokument H 4. Dokument B 5. Dokument F etc. IR IR 89 IR 88 90 4 Formel (3) • Wobei – N = Anz. der Dokumente in der Kollektion – n = Anz. der Dokumente, die Term t enthalten – R = Anz. der relevanten Dokumente auf Anfrage q – r = Anz. der relevanten Dokumente, die Term t enthalten r ) − R r w4 = log n−r ( ) N −n− R+ r ( – Verteilung der Terme über relevante und nichtrelevante Dokumente IR 91 IR Beispiel: Wirkung von Relevance Feedback Einbeziehung der Dokumentstruktur (1) • Dokumentstruktur ist domänenabhängig Anfrage t2 t1 – (d.h. Struktur hat unterschiedliche Semantik) t3 • Beispiel: Patente, wiss. Artikel, Experimente • Titel, Abstract, Beschreibung, State-of-theArt, Hauptanspruch, Nebenansprüche, Zeichnung mit textuellen Verweisen Ergebnis d5 92 d7 rel d11 d12 d15 rel IR 93 IR Einbeziehung der Dokumentstruktur (2) Der Darmstädter Indexierungsansatz (DIA) • • • • • • Beispiel: – WENN ein Term in exponierten Dokumentteilen vorkommt, DANN erhält er ein stärkeres Gewicht. – Fragen: • Was sind die wichtigen Teile? • Welches Gewicht soll der Term erhalten? • s. z.B. Womser-Hacker / Zettel 1997 IR 94 95 cf. Knorz 1983, Lustig 1986, Fuhr 1988 vollautomatische Indexierung Deskriptoren kommen aus einem Thesaurus Indexierung für englische Titel+Abstracts Wörterbuch, das alle Deskriptoren mit den zugehörigen Thesaurustermen enthält IR 96 5 Erweiterung des Booleschen Modells durch RankingFunktionalität • Relationen zwischen Termen und Deskriptoren • für die Gewichtung wird eine komplexe Hinweisbeschreibung angelegt – – – – Beispiel: 1. Anfrage: (information retrieval ODER database access ODER knowledge finding) Form des Vorkommens statistische Angaben über den Term Relation korrekt dann, wenn der Term auch von einem menschlichen Indexierer vergeben wurde ... 2. RANKING-Algorithmus 1. 2. 3. 4. 5. 6. 7. ... n ... Abb. 3.5: Erweiterung von Booleschem Retrieval durch Ranking-Verfahren IR 97 Quorum-Level-Search Anfrage Hierarchie nr Anz. der Dok. Anz. der rel. Dok. 2 2 0 (A and B and C and D) 1 (A and B and C) or (A and B 6 and D) or (A and C and D) or (B and C and D) (A and B) or (A and C) or (A 23 and D) or (B and C) or (B and D) or (C and D) A or B or C or D 86 2 3 IR 98 Fazit: Gewichtungsschemata • Es gibt sehr viele verschiedene Möglichkeiten der Gewichtung. 5 • Vergleich durch Evaluierungsstudien 15 • Problem: Isolation der Wirkung schwierig 25 IR 99 IR 100 Trends aus Harman 1992 • Termgewichtung auf der Basis der Kollektionsfrequenz führt zu Verbesserungen • Kombination von Dokument- und Kollektionsfrequenz kann diese Verbesserungen noch erhöhen → allerdings abhängig von versch. Faktoren →Normalisierung nötig →Dokumentlänge spielt eine Rolle (für Ti+Ab ungeeignet) →problematisch bei manuell indexierten Dokumenten oder Thesaurusbenutzung IR 101 6