Einführung I: Definitionen und Wiederholung Gewichtung
Transcription
Einführung I: Definitionen und Wiederholung Gewichtung
Thomas Mandl Überblick • Formales Innovative Information Retrieval Verfahren Hauptseminar Wintersemester 2004/2005 Erwerb des Scheins • aktive Teilnahme – Anwesenheit – Aufgaben • Vortrag • Abgabe einer schriftlichen Arbeit (+ Vortragsunterlagen i.d.R. Folien als PowerPoint Präsentation) Vortrag • Die Themen sind für jeweils eine/n Studierende/n. Es spricht nichts dagegen, dass sie doppelt vergeben werden und dann zwei Referate zu einer Thematik vorgestellt werden. Dann müssen sich die Vortragenden absprechen, so dass keine Überschneidungen entstehen • In jedem Fall werden zwei getrennte schriftliche Ausarbeitungen erstellt – – – – Vortrag Ausarbeitung Scheinerwerb Terminplanung • Kurzvorstellung Themen • Themenvergabe • Wiederholung – Grundlagen Gewichtung und Vektorraum-Modell Vorgehen im Seminar • Referaten stellen eigene Themen vor – informationswissenschaftliche Sichtweise – Qualität aus Blickwinkel des Themas • gesamtes Seminar soll zeigen: – Überblick über Thematik – Synergien Vortrag • Besuchen Sie vor dem Vortrag unbedingt mindestens einmal die Sprechstunde • stellt eigenes Thema verständlich vor • Adressaten: Teilnehmer 1 Vortrag • Korrekte und klare Darstellung der Inhalte – gründliche Lektüre der Literatur – bei Bedarf Lektüre von Grundlagenliteratur • klare Kennzeichnung von fremden geistigen Eigentum ! • Trennung der Inhalte der Literatur und der eigenen Ideen ! Vortrag • Grundbegriffe klären • z.B. alle Abkürzungen auflösen, neue Fachbegriffe einführen • Fehlerfreie, lesbare Unterlagen (Handout, Folien) – Vorsicht bei Farben und Abbildungen und Verwendung des Beamers Schriftliche Ausarbeitung Literatursuche • So weit wie möglich selbständig • Links auf Homepage des Kurses benutzen • digitale Bibliotheken – ACM (über UB zugänglich) – CiteSeer (kostenfrei) • klassische Medien nutzen ! – – – – Bibliothek benutzen Zeitschriften Fernleihe (rechtzeitig!) TIB Hannover • stellt eigenes Thema vor • berücksichtigt Feedback nach dem Referat ! • berücksichtigt im gesamten Seminar gewonnene Erkenntnisse ! – Einordnung in den größeren Kontext der Thematik und damit der anderen Referatthemen – enthält Bezüge zu anderen (ähnlichen/ unterschiedlichen, ...) Themen hinsichtlich Gegenstand, Methoden, Ergebnissen, ... – vor diesem Hintergrund eigenes Thema kritisch bewerten Schriftliche Ausarbeitung schriftliche Ausarbeitung • berücksichtigt im gesamten Seminar gewonnene Erkenntnisse – Dazu sollten die Referate für alle verständlich sein – bei Bedarf nachfragen • Für das schriftliche Referat gelten die Richtlinien aus der Einführung (Aufbau, Gebrauch von Zitaten, Zitierweise usw.) • Überblick zu den formalen Layoutvorgaben für eine Hausarbeit – http://www.unihildesheim.de/~einf_iw/folien/S2_WissenschaftlArbeiten. pdf – http://www.uni-hildesheim.de/~chlehn/wiss_arb/wiss_arb.html – http://www.uni-hildesheim.de/~angsprwi/dokumente.html 2 schriftliche Ausarbeitung • formal fehlerhafte Arbeiten werden zurückgegeben, ohne dass der Inhalt bewertet wird • für jede Arbeit ist nur eine Überarbeitung möglich schriftliche Ausarbeitung • Abgabe bis spätestens 1.5.2005 • E-mail auf der Arbeit angeben ! – Benachrichtigung nach Korrektur Themen • Information Foraging und Scent • Kulturelle Unterschiede bei der Interaktion mit Suchsystemen (Kralisch & Behrendt) • Genre-Erkennung (cf. SIGIR 2002) • Summarization (cf. SIGIR 2002) • Innovative Evaluierungsmaße (Karlgren) • Individualisierung • QA System (Rijke) • P2P (Peer to Peer, Henrich) Wiederholung Grundlagen, Gewichtung und VektorraumModell Themen • • • • • • • • XML Retrieval Systeme (Fuhr) BOF (CLEF Interactive track) Crawler (Strategien, Focused Crawling) Soziale Netze erkennen und nutzen (Friendster, Orkut, Linkedln) Collaborative Filtering Digitale Fotos (Organisation, BHCI, auch Yeo 2004) Multimedia Retrieval Qualitätsbewertung (Amento et al., Ivory, Melody; Hearst, Marti) IR • Bis in den 60er Jahren dominierte die Annahme, der Retrieval Prozess könne sowohl auf Seiten der Repräsentation als auch beim Retrieval exakt abgebildet werden. Seit den 70er Jahren haben sich vage oder sogenannte best-match Verfahren etabliert. Parallel vollzog sich eine Entwicklung, die ausgehend von der Sicht auf das System immer stärker den Benutzer in den Mittelpunkt rückte. Die Systemsicht auf IR befasst sich ausschließlich mit der Bearbeitung einer formalen Anfrage durch ein Informationssystem und ihrer mathematischen Modellierung. 3 Definition IR IR • Eine holistische Sichtweise bezieht sowohl Fragen der Repräsentation von Dokumenten in einem IRSystem mit ein und berücksichtigt den Benutzer im Kontext seines Informationsproblems und die Interaktion zwischen Benutzer und System. Diese Position wird oft als benutzerorientiert oder cognitive viewpoint (cf. Ingwersen 1992 http://www.db.dk/pi/iri/, Belkin 1993) bezeichnet. Information Retrieval beschäftigt sich „schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können: häufig müssen zudem mehrere Datenbasen zur Beantwortung einer einzelnen Anfrage durchsucht werden. Definition IR Definition IR Die Darstellungsform des in einem IR-System gespeichertem Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); darüber hinaus werden auch solche Anwendungen betrachtet, bei denen die gespeicherten Daten selbst unsicher oder unvollständig sind (wie z.B. bei vielen technisch naturwissenschaftlichen Datensammlungen). Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte.“ (Fachgruppe IR 1996). Analogie von Tom Keller IR-Prozess Internet-Suchmaschinen Autoren DokumentenBestand Erstellung TextDokumente Repräsentation Indexierung Dokument-TermMatrix ErgebnisDokumente Ähnlichkeitsberechnung InformationsSuchender Formulierung Anfrage • Qualität Ausgangmaterial • Präzision • Benutzerfreundlichkeit • Individualisierbarkeit Indexierung AnfrageRepräsentation 4 Repräsentation: Gewichtung Ziel: Term-Dokument-Matrix Adaptivität Benutzer ... Retrieval modell 0,4 0,5 Dok1 0,6 Dok2 0,4 0,3 0,8 0,6 0,7 ... Dokn 0,2 – Beispiel: Inverse Document Frequency (IDF) – Formel: IDF t = N/n Parameter wobei N Anzahl der Dok. in der Kollektion n Anzahl der Dok., die t enthalten • Termfrequenz in einem Dokument – Wie wirken sich die Größen aus? • Termfrequenz in der Kollektion • Dokumentlänge • Anz. der Dokumente mit best. Term • Kollektionsgröße – Beispiel: Inverse Document Frequency (IDF) – Formel: IDF t = N/n Lösungsansatz: Logarithmus wobei N Anzahl der Dok. in der Kollektion n Anzahl der Dok., die t enthalten idf i = log – Wie wirken sich die Größen aus? – Ist das sinnvoll? Frequenz 1 10 100 1000 Faktor 1 10 1 10 idf i = log Term − Frequenz Anzahl der Dokumente mit Termi Anzahl der Dokumente in der Kollektion Anzahl der Dokumente mit Termi 5 Lösungsansatz: Längennormalisierung Problem unterschiedlicher Länge Gleiches Term-Gewicht ? 10 TermFrequenz Dok1 Gewicht ji = log 10 Term − Frequenz Anzahl der Terme in Dok . × Anzahl der Dok . Dok2 • Beste Deskriptoren sind die, welche die Dokumente am besten vom Rest der Kollektion diskrimieren • Beispiel Gewichtungsschema von Croft 1983 cfreqij = K + (1 − K ) Logic Graph Formal Adhoc Probabilistic Vector-Space Fuzzy Set Browsing Indexierung ErgebnisDokumente Ähnlichkeitsberechnung Anfrage Indexierung AnfrageRepräsentation Vektorraum-Modell Network Cluster TextDokumente Dokument-TermMatrix Formulierung Partial Match Feature Based Erstellung Repräsentation InformationsSuchender Retrieval Techniques Individual DokumentenBestand max freqij Klassifikation der Modelle nach Belkin/Croft 1987,112 Structure Based Autoren freqij freqij Frequenz eines Terms i im Dokument j maxfreqi maximale Frequenz irgendeines Terms in Dok. j K ist Konstante zur Modifizierung des Maßes Exact Match IR-Prozess Spreading Activatio • Arbeiten innerhalb des SMARTKontexts (Salton 1971) • ab Anfang der 60er Jahre in Harvard und Cornell • fungierte als Entwicklungs- und Testumgebung für versch. IR-Techniken und -komponenten 6 Visualisierung Ähnlichkeitsmaße Gewicht von Term B • Inneres Maß Dokument 1 Dokument 2 n Anfrage ÄI (Wi ,W j ) = ∑ Termik ⋅ Term jk k =1 Gewicht von Term A Ähnlichkeitsmaße Ähnlichkeitsmaße • Kosinus n ÄC (Wi ,W j ) = ∑ Term ik k =1 n ⋅ Term jk ∑ Term ∑ Term ik k =1 sim (Qi , D j ) = n 2 k =1 2 jk Ähnlichkeitsmaße 2 ∑ ( q k d jk ) k =1 n n ∑q +∑d k =1 k k =1 jk Problem • Häufigste Gewicht in Term-DokumentMatrix? • Jaccard sim(Qi , Dj ) = n • Dice n ∑(q d k =1 n n k jk ) n ∑q + ∑d − ∑q d k =1 k k =1 jk k =1 k jk 7