Einführung I: Definitionen und Wiederholung Gewichtung

Transcription

Einführung I: Definitionen und Wiederholung Gewichtung
Thomas Mandl
Überblick
• Formales
Innovative Information
Retrieval Verfahren
Hauptseminar
Wintersemester 2004/2005
Erwerb des Scheins
• aktive Teilnahme
– Anwesenheit
– Aufgaben
• Vortrag
• Abgabe einer schriftlichen Arbeit
(+ Vortragsunterlagen i.d.R. Folien als
PowerPoint Präsentation)
Vortrag
• Die Themen sind für jeweils eine/n
Studierende/n. Es spricht nichts
dagegen, dass sie doppelt vergeben
werden und dann zwei Referate zu
einer Thematik vorgestellt werden.
Dann müssen sich die Vortragenden
absprechen, so dass keine
Überschneidungen entstehen
• In jedem Fall werden zwei getrennte
schriftliche Ausarbeitungen erstellt
–
–
–
–
Vortrag
Ausarbeitung
Scheinerwerb
Terminplanung
• Kurzvorstellung Themen
• Themenvergabe
• Wiederholung
– Grundlagen Gewichtung und Vektorraum-Modell
Vorgehen im Seminar
• Referaten stellen eigene Themen vor
– informationswissenschaftliche Sichtweise
– Qualität aus Blickwinkel des Themas
• gesamtes Seminar soll zeigen:
– Überblick über Thematik
– Synergien
Vortrag
• Besuchen Sie vor dem Vortrag
unbedingt mindestens einmal die
Sprechstunde
• stellt eigenes Thema verständlich vor
• Adressaten: Teilnehmer
1
Vortrag
• Korrekte und klare Darstellung der Inhalte
– gründliche Lektüre der Literatur
– bei Bedarf Lektüre von Grundlagenliteratur
• klare Kennzeichnung von fremden geistigen
Eigentum !
• Trennung der Inhalte der Literatur und der
eigenen Ideen !
Vortrag
• Grundbegriffe klären
• z.B. alle Abkürzungen auflösen, neue
Fachbegriffe einführen
• Fehlerfreie, lesbare Unterlagen
(Handout, Folien)
– Vorsicht bei Farben und Abbildungen und
Verwendung des Beamers
Schriftliche Ausarbeitung
Literatursuche
• So weit wie möglich selbständig
• Links auf Homepage des Kurses benutzen
• digitale Bibliotheken
– ACM (über UB zugänglich)
– CiteSeer (kostenfrei)
• klassische Medien nutzen !
–
–
–
–
Bibliothek benutzen
Zeitschriften
Fernleihe (rechtzeitig!)
TIB Hannover
• stellt eigenes Thema vor
• berücksichtigt Feedback nach dem Referat !
• berücksichtigt im gesamten Seminar
gewonnene Erkenntnisse !
– Einordnung in den größeren Kontext der
Thematik und damit der anderen
Referatthemen
– enthält Bezüge zu anderen (ähnlichen/
unterschiedlichen, ...) Themen hinsichtlich
Gegenstand, Methoden, Ergebnissen, ...
– vor diesem Hintergrund eigenes Thema
kritisch bewerten
Schriftliche Ausarbeitung
schriftliche Ausarbeitung
• berücksichtigt im gesamten Seminar
gewonnene Erkenntnisse
– Dazu sollten die Referate für alle verständlich
sein
– bei Bedarf nachfragen
• Für das schriftliche Referat gelten die Richtlinien
aus der Einführung (Aufbau, Gebrauch von Zitaten,
Zitierweise usw.)
• Überblick zu den formalen Layoutvorgaben
für eine Hausarbeit
– http://www.unihildesheim.de/~einf_iw/folien/S2_WissenschaftlArbeiten.
pdf
– http://www.uni-hildesheim.de/~chlehn/wiss_arb/wiss_arb.html
– http://www.uni-hildesheim.de/~angsprwi/dokumente.html
2
schriftliche Ausarbeitung
• formal fehlerhafte Arbeiten werden
zurückgegeben, ohne dass der Inhalt
bewertet wird
• für jede Arbeit ist nur eine
Überarbeitung möglich
schriftliche Ausarbeitung
• Abgabe bis spätestens 1.5.2005
• E-mail auf der Arbeit angeben !
– Benachrichtigung nach Korrektur
Themen
• Information Foraging und Scent
• Kulturelle Unterschiede bei der Interaktion mit
Suchsystemen (Kralisch & Behrendt)
• Genre-Erkennung (cf. SIGIR 2002)
• Summarization (cf. SIGIR 2002)
• Innovative Evaluierungsmaße (Karlgren)
• Individualisierung
• QA System (Rijke)
• P2P (Peer to Peer, Henrich)
Wiederholung Grundlagen,
Gewichtung und VektorraumModell
Themen
•
•
•
•
•
•
•
•
XML Retrieval Systeme (Fuhr)
BOF (CLEF Interactive track)
Crawler (Strategien, Focused Crawling)
Soziale Netze erkennen und nutzen
(Friendster, Orkut, Linkedln)
Collaborative Filtering
Digitale Fotos (Organisation, BHCI, auch Yeo
2004)
Multimedia Retrieval
Qualitätsbewertung (Amento et al., Ivory,
Melody; Hearst, Marti)
IR
• Bis in den 60er Jahren dominierte die Annahme, der
Retrieval Prozess könne sowohl auf Seiten der
Repräsentation als auch beim Retrieval exakt
abgebildet werden. Seit den 70er Jahren haben sich
vage oder sogenannte best-match Verfahren
etabliert. Parallel vollzog sich eine Entwicklung, die
ausgehend von der Sicht auf das System immer
stärker den Benutzer in den Mittelpunkt rückte. Die
Systemsicht auf IR befasst sich ausschließlich mit
der Bearbeitung einer formalen Anfrage durch ein
Informationssystem und ihrer mathematischen
Modellierung.
3
Definition IR
IR
• Eine holistische Sichtweise bezieht sowohl Fragen
der Repräsentation von Dokumenten in einem IRSystem mit ein und berücksichtigt den Benutzer im
Kontext seines Informationsproblems und die
Interaktion zwischen Benutzer und System. Diese
Position wird oft als benutzerorientiert oder cognitive
viewpoint
(cf.
Ingwersen
1992
http://www.db.dk/pi/iri/, Belkin 1993) bezeichnet.
Information Retrieval beschäftigt sich
„schwerpunktmäßig
mit
jenen
Fragestellungen,
die
im
Zusammenhang mit vagen Anfragen und unsicherem Wissen
entstehen. Vage Anfragen sind dadurch gekennzeichnet, dass die
Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben
Fragen mit unscharfen Kriterien insbesondere auch solche, die nur
im Dialog iterativ durch Reformulierung (in Abhängigkeit von den
bisherigen Systemantworten) beantwortet werden können: häufig
müssen zudem mehrere Datenbasen zur Beantwortung einer
einzelnen Anfrage durchsucht werden.
Definition IR
Definition IR
Die Darstellungsform des in einem IR-System gespeichertem
Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale
Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit
(oder die Unvollständigkeit) dieses Wissens resultiert meist aus der
begrenzten Repräsentation von dessen Semantik (z.B. bei Texten
oder multimedialen Dokumenten); darüber hinaus werden auch
solche Anwendungen betrachtet, bei denen die gespeicherten
Daten selbst unsicher oder unvollständig sind (wie z.B. bei vielen
technisch naturwissenschaftlichen Datensammlungen).
Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung
der Qualität der Antworten eines Informationssystems, wobei in
einem weiteren Sinne die Effektivität des Systems in bezug auf die
Unterstützung des Benutzers bei der Lösung seines
Anwendungsproblems beurteilt werden sollte.“ (Fachgruppe IR
1996).
Analogie von Tom Keller
IR-Prozess
Internet-Suchmaschinen
Autoren
DokumentenBestand
Erstellung
TextDokumente
Repräsentation
Indexierung
Dokument-TermMatrix
ErgebnisDokumente
Ähnlichkeitsberechnung
InformationsSuchender
Formulierung
Anfrage
• Qualität
Ausgangmaterial
• Präzision
• Benutzerfreundlichkeit
• Individualisierbarkeit
Indexierung
AnfrageRepräsentation
4
Repräsentation: Gewichtung
Ziel: Term-Dokument-Matrix
Adaptivität Benutzer ... Retrieval
modell
0,4
0,5
Dok1 0,6
Dok2 0,4
0,3
0,8
0,6
0,7
...
Dokn 0,2
– Beispiel: Inverse Document Frequency (IDF)
– Formel: IDF t = N/n
Parameter
wobei N Anzahl der Dok. in der Kollektion
n Anzahl der Dok., die t enthalten
• Termfrequenz in einem
Dokument
– Wie wirken sich die Größen aus?
• Termfrequenz in der Kollektion
• Dokumentlänge
• Anz. der Dokumente mit best. Term
• Kollektionsgröße
– Beispiel: Inverse Document Frequency (IDF)
– Formel: IDF t = N/n
Lösungsansatz: Logarithmus
wobei N Anzahl der Dok. in der Kollektion
n Anzahl der Dok., die t enthalten
idf i = log
– Wie wirken sich die Größen aus?
– Ist das sinnvoll?
Frequenz
1
10
100
1000
Faktor
1
10
1
10
idf i = log
Term − Frequenz
Anzahl der Dokumente mit Termi
Anzahl der Dokumente in der Kollektion
Anzahl der Dokumente mit Termi
5
Lösungsansatz:
Längennormalisierung
Problem unterschiedlicher
Länge
Gleiches
Term-Gewicht ?
10
TermFrequenz
Dok1
Gewicht ji = log
10
Term − Frequenz
Anzahl der Terme in Dok . × Anzahl der Dok .
Dok2
• Beste Deskriptoren sind die, welche die
Dokumente am besten vom Rest der
Kollektion diskrimieren
• Beispiel Gewichtungsschema von Croft 1983
cfreqij = K + (1 − K )
Logic
Graph
Formal
Adhoc
Probabilistic
Vector-Space
Fuzzy Set
Browsing
Indexierung
ErgebnisDokumente
Ähnlichkeitsberechnung
Anfrage
Indexierung
AnfrageRepräsentation
Vektorraum-Modell
Network
Cluster
TextDokumente
Dokument-TermMatrix
Formulierung
Partial Match
Feature Based
Erstellung
Repräsentation
InformationsSuchender
Retrieval Techniques
Individual
DokumentenBestand
max freqij
Klassifikation der Modelle
nach Belkin/Croft 1987,112
Structure Based
Autoren
freqij
freqij Frequenz eines Terms i im Dokument j
maxfreqi maximale Frequenz irgendeines
Terms in Dok. j
K ist Konstante zur Modifizierung des
Maßes
Exact Match
IR-Prozess
Spreading Activatio
• Arbeiten innerhalb des SMARTKontexts (Salton 1971)
• ab Anfang der 60er Jahre in Harvard
und Cornell
• fungierte als Entwicklungs- und
Testumgebung für versch. IR-Techniken
und -komponenten
6
Visualisierung
Ähnlichkeitsmaße
Gewicht
von Term B
• Inneres Maß
Dokument 1
Dokument 2
n
Anfrage
ÄI (Wi ,W j ) = ∑ Termik ⋅ Term jk
k =1
Gewicht von Term A
Ähnlichkeitsmaße
Ähnlichkeitsmaße
• Kosinus
n
ÄC (Wi ,W j ) =
∑ Term
ik
k =1
n
⋅ Term jk
∑ Term ∑ Term
ik
k =1
sim (Qi , D j ) =
n
2
k =1
2
jk
Ähnlichkeitsmaße
2 ∑ ( q k d jk )
k =1
n
n
∑q +∑d
k =1
k
k =1
jk
Problem
• Häufigste Gewicht in Term-DokumentMatrix?
• Jaccard
sim(Qi , Dj ) =
n
• Dice
n
∑(q d
k =1
n
n
k
jk
)
n
∑q + ∑d − ∑q d
k =1
k
k =1
jk
k =1
k
jk
7