Vergleich von Internetsuchmaschinen

Transcription

Vergleich von Internetsuchmaschinen
Vergleich von
Internetsuchmaschinen
& Fachdatenbanken
Dr. Joachim Griesbaum
Informationswissenschaft
Universität Konstanz
Fach D 87
D-78457 Konstanz
Department of Computer and Information Science at the University of Constance
Inhalt
(1) Überblick Retrievalsysteme: Einordnung
Internetsuchmaschinen & Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
2
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Architektur von Retrievalsystemen
Nutzer mit
Informationsbedarf
Suchanfrage
Suchergebnis
Anfrageninterpretation
& -verarbeitung
Repräsentation des
Informationsbedarfs
Abgleich mittels einer
Retrievalfunktion
Wissensbasis
Repräsentation der
Dokumente
Retrievalsystem
Verfahren der
Dokumentbeschaffung
bestimmen Umfang und
Inhalt der
Dokumentkollektion
Input
Wissensobjekt
3
Internetsuchmaschinen & Fachdatenbanken
Wissensobjekt
Wissensobjekt
Informationswissenschaft Konstanz
Einordnung Internetsuchdienste – Fachdatenbanken
Internetsuchdienste ermöglichen das Auffinden von
Wissensbeständen im Internet.
Kataloge
Suchmaschinen
– roboterbasierte Suchdienste
Fachdatenbanken sind i.d.R online zugängliche
fachspezifische Retrievalsysteme, die den Zugriff auf bzw.
den Nachweis von Fachinformationen ermöglichen.
Referenzdatenbanken
bibliographische Datenbanken mit
Sekundärinformationen zu Veröffentlichungen
4
Internetsuchmaschinen & Fachdatenbanken
Faktendatenbanken
Volltextdatenbanken
Informationswissenschaft Konstanz
Suchmaschinen
Nutzer
Index
Anfragenbearbeitung -automatische TermSuchanfrage
extraktion (Volltext):
Position & Häufigkeit,
Funktions- Struktur-,
Formatelemente
-Links
Automatische Sortierung nach
Dokumentbeschaffung
Relevanzkriterien
Roboter/Anmeldung
Webpages
Internet
Bsp.: www.google.de
ask.de, Tipp: exalead.de
u.a. mit Wortstammsuche
5
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Fachdatenbanken
Index bestehend aus
bibliographischen Daten
Nutzer Boole´sche
Anfragenbearbeitung
Suchanfragen
und zusätzlichen
inhaltserschließenden
Angaben
•Titel
•Autor
•Schlagwörter (Controlled,
Treffermengen Ausgabe (meist
free terms)
Sortierung nach formalen und
•Klassifikation
Relevanzkriterien möglich)
•Abstract
•...
Zyklische Aktualisierung,
Meist intellektuelle
Zeitschriften
Dissertationen
Inhaltserschließung
Reports
Fachliteratur
Proceedings
6
Bücher
Internetsuchmaschinen & Fachdatenbanken
Bsp.: INSPEC, INFODATA,
SOLIS, COMPUSCIENCE
Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen &
Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen &
Fachdatenbanken
a)Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
7
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Dokumentraum und Dokumentbeschaffung
Internetsuchmaschinen
ƒ
Suchmaschinen erfassen z.T.
zwar viele Milliarden
Dokumente, aber das ist nur
einen Teil des Internet
ƒ
ƒ
Fachdatenbanken
ƒ
Je nach Scope und Umfang
der Datenbank fachlich
einschlägig und das
Themengebiet abdeckend
Informationsressourcen
inhaltlich, strukturell und
qualitativ sehr heterogen
ƒ
Dokumente qualitativ
hochwertig
Hochgradig veränderlicher
Dokumentraum
Î State of the Art-Recherchen
grundsätzlich möglich
Î Unsicherheit bzgl.
Vollständigkeit und Qualität
der Ergebnisse
8
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen &
Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
9
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Suchmaschinenspider-Simulation für Amazon.de
Darstellung zur Veranschaulichung gekürzt,
vgl. [www.se-spider.com]
10
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Beispiel für Erschließung aus INSPEC
Accession number
Author(s) & Editors
Source
Date
Country
Abstract & Abstract Number
Subject Headings (kontrolliertes Vokabular)
Key Phrase Identifiers (freies Vokabular)
Classification Codes (Klassifikation)
Treatment (Objekttyp: z.B. Product Review)
CODEN: Code zur Identif. von z.B. Zeitschriften
Language
ISSN
U.S. Copyright Clearance Center Code Doc. N.
Publication Type
SICI (Code nach ANSI Standard Z39.56)
Volltext (noch) frei erhältlich unter
Update Code
web.archive.org/web/20040724094753/http://www.scils.rutgers.edu/~muresan/
Copyright
Docs/ipmSpink2002.pdf (letzter Zugriff 16.03.2007)
11
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Repräsentation der Dokumente
Internetsuchmaschinen
ƒ
ƒ
ƒ
Geringer Strukturierungsgrad
& keine verlässlichen Standards
(Metadaten)
Missbrauch von Textinhalten
(Spam)
Repräsentation der
Verlinkungsstruktur
Î Reverse (Zitations-)Suche
Fachdatenbanken
ƒ
Strukturierte Feldschemata
ƒ
Vorh. Informationen werden mit
inhaltserschließenden Angaben
ergänzt
ƒ
Indexierung: Vergabe
kontrollierter und freier
Schlagwörter & Klassifikation
Î Strukturierte Anfragen (Felder)
Î Eindeutiges Vokabular
12
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen &
Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
13
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Anfragenverarbeitung in Internetsuchmaschinen
– Bsp. Google [www.google.com/help/basics.html]
ƒ Matcht exakte Terme: keine Trunkierung
Bsp:Treffermengen:
search engines = 82 Mio. URLs
search engine =302 Mio. URLs (16.03.2007)
ƒ Keine Suche in Metadaten (Ausnahme: Title)
Teilweise Zugriff auf Funktionsund Strukturelemente: site, link,
Maximale
Anfragenlänge
32 Terme
Î wenig
Gestaltungsraum
für komplexe
Suchanfragen.
daterange, filetype
ƒ Voreingestellt AND-Verknüpfung OR und NOT sind extra anzugeben
ƒ Keine Klammern, OR wird vor AND interpretiert, d.h
patent AND (verzeichnis OR katalog) = patent verzeichnis OR katalog
14
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Benutzeroberfläche und Dialoggestaltung in
Internetsuchmaschinen
ƒ Simple Benutzerschnittstelle.
ƒ Dialogführung. Request-Response-Paradigma. Optionen zur
Modifikation der letzten Suchanfrage (related queries, related
pages).
15
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Anfragenverarbeitung in Fachdatenbanken
ƒ Terme werden mit Hilfe von boole´schen Operatoren AND, OR,
NOT verknüpft. Verschachtelung mit Hilfe von Klammern möglich.
ƒ Häufig zusätzlich Proximity-Operatoren (Abstandsbedingungen).
ƒ Trunkierung: Suche nach Wörtern mit bestimmtem Wortstamm.
ƒ Feldsuche: Einschränkung der Anfrage auf spezifische Felder.
ƒ Beisp.: „Suche alle Dokumente der Autorin Spink, die sich mit der
Evaluation von Suchmaschinen befassen und nach 2003
erschienen sind“
(Search engine? and evaluation)/TITLE AND information
retrieval/CONTROLLED-TERMS AND spink/AUTHOR
LIMIT:YEAR>2003
16
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Anfragenverarbeitung in Fachdatenbanken
ƒ Anfragenlänge: Singuläre Anfragen i.d.R. bis zu 256 Zeichen
ƒ Suchdialog: Suchhistorie bietet direkten Zugriff auf und
Weiterverarbeitung vorheriger Anfragen. D.h. Anfragen nahezu
beliebig komplex Î Elaborierte Suchstrategien umsetzbar
Ablauf der Suche
1: TermA1 OR TermA2 OR TermA3
17
2: TermB1 OR TermB2 OR TermB3
3: TermC1 OR TermC2 OR TermC3
4: 1 AND 2 AND 3 =
(A1 OR A2 OR A3) AND (B1 OR B2 OR B3) AND (C1 OR C2 OR C3)
5: ...
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen &
Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
18
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Retrievalfunktion
Internetsuchmaschinen
Fachdatenbanken
ƒ Ranking der primäre Erfolgsfaktor
ƒ Ranking von geringer
Bedeutung
ƒ Automatische Sortierung:
Rankingfaktoren
ƒ Wortokurrenzen in Bezug auf
Position, Häufigkeit, Funktion,
Formatierung
ƒ Analyse von Linkstrukturen
(Linkpopularity/Pagerank)
ƒ Sprach- bzw. lokalitätsbasierte Filter
ƒ Explizite Sortierung der
Treffer nach Termhäufigkeiten & formalen
Kriterien möglich
Î Relevanz der Treffer ist
vollständig von der Qualität
der Rechercheformulierung
abhängig.
Î Funktioniert häufig sehr gut
Î Zustandekommen der Suchergebnisse
kaum nachvollziehbar
19
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen &
Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
20
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Recherchebeispiel "Evaluierung von Suchdiensten im WWW"
ƒ Im Rahmen eines Forschungsprojekts soll die Qualität verschiedener
Suchdienste bestimmt werden. Um das methodische Vorgehen zu
entwickeln, ist zunächst der gegenwärtige Forschungsstand bei der
Evaluation von Retrievalsystemen zu ermitteln.
ƒ Die Recherche soll eine hohe Vollständigkeit erreichen und
möglichst alle zentralen Artikel zum Themenfeld nachweisen.
21
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Recherche in Google
„information retrieval“ „search engine“ evaluation
403.000 Treffer
„information retrieval“„search engine“ evaluation filetype:pdf
138.000 Treffer
„information retrieval“ intitle:„search engine“ evaluation
666 Treffer
„information retrieval“ intitle:„search engine“ evaluation filetype:pdf
233 Treffer
„information retrieval“ intitle:„search engine“ intitle:evaluation
„information retrieval“ intitle:„search engine“ intitle:evaluation filetype:pdf
39 Treffer
4 Treffer
Reverse Suche zu einer relevanten gefundene Website
link:http://trec.nist.gov
62 Treffer
Erwartung: In Google zumindest einige relevante Websites zu
finden. Suche eher intuitiv unsystematisch, explorativ. Oft Zugriff auf
Informationen möglich, die nicht (so schnell) in Fachdatenbanken erfasst
werden. Trotz z.T. hoher Trefferzahlen ist der Vollständigkeitsgrad der
Ergebnisse völlig unbekannt.
22
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Recherche in INSPEC
Systematische Suche im freien und kontrollierten Vokabular.
Erwartung: Die zentralen und wichtigen Dokumente sind nahezu
vollständig und umfassend in Ergebnis #8 nachgewiesen.
23
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Inhalt
(1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen &
Fachdatenbanken
(2) Vergleich von Internetsuchmaschinen & Fachdatenbanken
a) Dokumentkollektion
b) Repräsentation der Dokumente
c) Anfrageninterpretation & -verarbeitung
d) Retrievalfunktion
(3) Recherchebeispiel
(4) Ergebnis
24
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Internetsuchmaschinen & Fachdatenbanken: Vertrauen
vs. Kontrolle? Zufallstreffer vs. hochwertiger Information?
In Internetsuchmaschinen sind
systematische Suchstrategien kaum
möglich. Sie eignen sich deshalb bei
Recherchen vor allem für eine erste
Orientierung und auch als Ausgangspunkt
für das Aufspüren relevanter Communities,
Portale und spezieller Suchdienste. D. h.
Suchmaschinen sind einerseits für
explorative Suchkontexte sinnvoll, des
Weiteren stellen Sie auch ein
hervorragendes Hilfsmittel zum langfristigen
Aufbau und Erhalt von Expertise dar.
Fachdatenbanken sind
extrem mächtige
Suchdienste, aber ohne
Einarbeitung nicht intuitiv
nutzbar. Für State of the
Art-Suchkontexte, in
denen alle zentralen und
wichtigen Dokumente
vollständig & umfassend
nachgewiesen werden
sollen, nach wie vor
unverzichtbar.
Kombination beider Instrumen
te empfehlenswert
25
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Links & Literatur
ƒ Recherchebeispiel unter http://www.inf-wiss.unikonstanz.de/CURR/summer05/infauf/recherchebeispiel_suchmasc
hinenevaluation_inspec.html
ƒ Brin, S.; Page, L. (1998), The Anatomy of a Large-Scale
Hypertextual Web Search Engine, 1998
[http://citeseer.ist.psu.edu/brin98anatomy.html 24.10.2006]
ƒ Broder, A. (2006), From query based Information Retrieval to
context driven Information Supply
[http://grupoweb.upf.es/workshop/slides/fws_broder.pdf
01.11.2006]
ƒ Ferber, R. (2003), Information Retrieval. Suchmodelle und DataMining-Verfahren für Textsammlungen und das Web. Heidelberg:
dpunkt.
26
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Links & Literatur
ƒ Fuhr, N. (2004), Theorie des Information RetrievaI: Modelle, in:
Kuhlen, Rainer; Seeger, Thomas; Strauch, Dieter (Hg.):
Grundlagen der praktischen Information und Dokumentation. 5.
völlig neu gefasste Auflage. Band 1 - Handbuch zur Einführung in
die Informationswissenschaft und -praxis. München: K G Saur,
2004, S.207-214.
ƒ Korfhage, R. R. (1997), Information storage and retrieval. Wiley:
New York.
ƒ Lewandowski, D. (2005), Web Information Retrieval:
Technologien zur Informationssuche im Internet, Frankfurt a.M.:
DGI [http://www.durchdenken.de/lewandowski/web-ir/ 23.10.2006].
ƒ Smyth, B.; Balfe, E. (2006), Anonymous personalization in
collaborative web search. Inf. Retr. 9(2): 165-190 (2006)
[http://www.springerlink.com/media/570cdglxvm1twclrrvv3/contribu
tions/4/9/j/6/49j6313t495h0w26.pdf 30.10.2006]
27
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz
Vielen Dank für Ihre Aufmerksamkeit!
[www.web-information-retrieval.de/vergleich_internetsuchmaschinen_fachdatenbanken.pdf]
28
Internetsuchmaschinen & Fachdatenbanken
Informationswissenschaft Konstanz