Informationsbeschaffung im Internet Übersicht, Besonderheiten und
Transcription
Informationsbeschaffung im Internet Übersicht, Besonderheiten und
Informationsbeschaffung im Internet Vortrag für die Brandenburgische Arbeitsgemeinschaft für Information (BRAGI) Informationsbeschaffung im Internet Übersicht, Besonderheiten und neuere Entwicklungen Prof. Dr. Günther Neher Fachhochschule Potsdam 11.02.2010 1 Informationsbeschaffung im Internet Chronologie der „Suchdienste“ „Prä-WWW“ Anfang 70er: Erste Online-Datenbanken zur Recherche von Fachinformationen • • • • DIALOG (ursprünglich internes IS der Firma Lockheed) NLM (National Library of Medicine, 1972) DIMDI (Deutsches Institut für Medizinische Dokumentation und Information, 1974) Erste Online Bibliothekskataloge (Online Public Access Catalogue, OPACs) 1990: ARCHIE (abgeleitet von „archive“). Dienst zum Durchsuchen von FTP-Archiven. Abfrage via telnet 1991: WAIS (Wide Area Information Server) GOPHER (eigener Internetdienst: Port 70, Gopher-Protokoll: RFC 1436) Zugang über spezielle Gopher-Clients (heute auch noch via Web-Browser) „Gopherspace“ als „Vorläufer“ des WWW 1992: VERONICA Menü-orientierter Suchdienst für Gopher-Verzeichnisse 2 Informationsbeschaffung im Internet Chronologie der „Suchdienste“ „WWW“ (Quelle: http://www.searchenginejournal.com/search-engine-history/13152/ ) http://www.searchenginejournal.com/search-engine-history/13152/ 3 Informationsbeschaffung im Internet Typologie der Suchdienste Allgemeine („universelle“) Suchdienste • Volltext-Suchmaschinen • Webkataloge • Metasuchmaschinen Spezialisierte Suchdienste / Deep Web Thematisch z.B. Tourismus, Film, Produkte, ... Medientyp Audio, Video, Bild, Software, ... Informationstyp • Nachrichten • Fakteninformation • Bibliographische Information • Wissenschaftliche Fachinformation • ... 4 Informationsbeschaffung im Internet Typologie der Suchdienste: Volltext-Suchmaschinen Definition: Unter dem Begriff Volltext-Suchmaschine werden Suchdienste verstanden, welche rein maschinell einen Volltextindex von Internetressourcen (Webseiten) erstellen und diesen durchsuchbar in einer Datenbank ablegen. Wichtige Vergleichskriterien zwischen Volltext-Suchmaschinen sind u.a.: • Umfang/Abdeckung, d.h. die Anzahl der indexierten Webseiten • Aktualität, d.h. zeitlicher Abstand zwischen einer Seitenindexierung • Rankingverfahren, d.h. die Art der Relevanzbewertung Beispiele: Google: http://www.google.com Altavista: http://www.altavista.com MSN Search: http://search.msn.com Fireball: http://www.fireball.de … Keine der existierenden Suchmaschinen deckt die gesamte im WWW verfügbare Information ab ! 5 Informationsbeschaffung im Internet Typologie der Suchdienste: Volltext-Suchmaschinen Beispiel: http://www.google.com 6 Informationsbeschaffung im Internet Typologie der Suchdienste: Webkataloge Definition: Webkataloge oder Webverzeichnisse sind i.d.R. manuell erstellte und redaktionell betreute, nach einem bestimmten Klassifikationssystem (Taxonomie) hierarchisch geordnete Sammlungen von Hyperlinks. Beispiele: Open Directory Project (ODP): http://dmoz.org Yahoo!: http://dir.yahoo.com Allesklar.de: http://www.allesklar.de aber auch sog. „Subject Gateways“, z.B. http://www.library.uq.edu.au/internet/subject_gateways1.html http://infomine.ucr.edu/ 7 Informationsbeschaffung im Internet Typologie der Suchdienste: Webkataloge Beispiel: http://dmoz.org 8 Informationsbeschaffung im Internet Webkataloge: Funktionsweise (schematisch) (Bildquelle: Hartmann et al., S.111) 9 Informationsbeschaffung im Internet Webkataloge: Klassifikationssystem (Taxonomie) Problematik: • Keine einheitliche, verbindliche Systematik • Optimale Einordnung häufig unklar 10 Informationsbeschaffung im Internet Typologie der Suchdienste: Metasuchmaschinen Definition: Unter dem Begriff Meta-Suchmaschine werden hier Suchdienste verstanden, die keinen eigenen Suchindex besitzen, sondern eine Suchanfrage parallel an mehrere „echte“ Suchmaschinen weiterleiten, deren Ergebnisse sammeln und dem Nutzer in aufbereiteter Form präsentieren. • Metasuchmaschinen unterhalten keine eigene Indexdatenbank • Die wesentlichen „Eigenleistungen“ einer Metasuchmaschine bestehen in der „Übersetzung“ einer Suchanfrage in die Syntax verschiedener Suchmaschinen und in der Zusammenführung der Suchergebnisse (Ranking, Dublettenentfernung) • Metasuchmaschinen machen deshalb Sinn, weil keine einzelne Suchmaschine das gesamte Web abdeckt • Metasuchmaschinen bieten in der Regel weniger Suchoptionen, als jede einzelne der Suchmaschinen => „kleinster gemeinsamer Nenner“ 11 Informationsbeschaffung im Internet Typologie der Suchdienste: Metasuchmaschinen Beispiel: http://www.metager.de 12 Informationsbeschaffung im Internet Metasuchmaschinen: Funktionsweise (schematisch) Metasuchmaschinen besitzen keine eigene Indexdatenbank ! „Übersetzen“ und verteilen die Suchanfrage, aggregieren die Suchergebnisse (nach: Hartmann et al., S.73) 2 1 4 3 5 6 13 Informationsbeschaffung im Internet Typologie der Suchdienste: Metasuchmaschinen Vorteile: Suchdienst 1 • Größere Ressourcenabdeckung Treffermenge 1 • Geringeres Risiko für „Web-Spamming“ Überlappung Nachteile: • i.a. eingeschränkte Suchoptionen („kleinster gemeinsamer Nenner“) • evtl. längere Wartezeiten Treffermenge 3 Suchdienst 3 Treffermenge 2 Suchdienst 2 Beispiele: Metager: http://www.metager.de (deutschsprachig) WebCrawler: http://www.metacrawler.com/ 14 Informationsbeschaffung im Internet Volltext-Suchmaschinen: Umfang/Abdeckung Keine Suchmaschine findet alles, unterschiedliche Suchmaschinen liefern unterschiedliche Ergebnisse ! Relative Größe der Datenbasis (Quelle: http://www.searchengineshowdown.com ) „Überlapp“ bei den Suchergebnissen (Quelle: http://www.searchengineshowdown.com ) 15 Informationsbeschaffung im Internet Praktisches Experiment: Suchmaschinenvergleich Zielsetzung: Kennenlernen der Abdeckungsproblematik (Vollständigkeit) und Bewertung (Ranking) Aufgabe: Suchen Sie bei folgenden Suchdiensten jeweils nacheinander mit einem Suchbegriff Ihrer Wahl • Yahoo: http://www.yahoo.com • Bing: http://www.bing.com • Google: http://www.google.com 16 Informationsbeschaffung im Internet Funktionsweise von (Volltext)Suchmaschinen 17 Informationsbeschaffung im Internet Suchmaschinen: Funktionsweise Indexdatenbank/Invertierter Index (unvollständige und i.d.R. nicht aktuelle „Kopie“ des WWW) 18 Informationsbeschaffung im Internet Suchmaschinen: Komponenten Web-Roboter (Robot, Crawler, Spider) • Ist ein Computerprogramm • Basiert wesentlich auf der Hyperlink-Struktur des WWW • Sammelt Dokumente auf Basis einer URL-Liste • Extrahiert ggf. neue URLs aus den gesammelten Dokumenten und fügt diese der URL-Liste hinzu. • Kann regelbasiert bestimmte Dokumentformate übergehen oder gezielt auswählen (Bildquelle: Hartmann et al., S.63) 19 Informationsbeschaffung im Internet Suchmaschinen: Komponente „Crawler“ Demo: http://www.touchgraph.com/TGGoogleBrowser.html http://www.webconfs.com/search-engine-spider-simulator.php 20 Informationsbeschaffung im Internet Suchmaschinen: Komponente „Indexer“ „Invertierter Index“ (Bildquelle: http://developer.apple.com/DOCUMENTATION/UserExperience/Conceptual/SearchKitConcepts/searchKit_basics/searchKit_basics.html ) 21 Informationsbeschaffung im Internet Suchmaschinen: Komponente „Indexer“ „Invertierter Index“ • Jedem Indexterm ist eine (evtl. gewichtete) Liste von Dokumentreferenzen zugeordnet • Ermöglicht ein extrem schnelles Auffinden von Dokumenten, die den Indexterm enthalten (Bildquelle: Hartmann et al., S.65) 22 Informationsbeschaffung im Internet Praktisches Experiment: Was Suchmaschinen vom Web "sehen" Benutzen Sie für dieses Experiment die Webrobot-Simulation http://www.webconfs.com/search-engine-spider-simulator.php Zielsetzung: Untersuchen Sie, was ein Webrobot von folgenden Websites "mitnimmt" (Sehen Sie sich die Seiten jeweils zunächst im Browser an): • http://www.fh-potsdam.de • http://www.bundestag.de • http://kvk.uni-karlsruhe.de Was würde ein Web-Robot von der URL http://o2e.fh-potsdam.de/~archiv5 sehen ? 23 Informationsbeschaffung im Internet Suchmaschinen: Komponente „Query Processor“ Aspekt: Ranking Als Ergebnis einer Suchanfrage wird eine geordnete Liste von Dokumentreferenzen angezeigt. Die Reihenfolge der Dokumentreferenzen (Ranking) entspricht der geschätzten Relevanz der Dokumente in Bezug auf die Suchanfrage aus „Sicht“ der Suchmaschine Die Relevanz wird (häufig nach geheim gehaltenen Verfahren) mathematisch berechnet ? (Bildquelle: Hartmann et al., S.32) 24 Informationsbeschaffung im Internet Suchmaschinen: Relevanzberechnung (Ranking) Plausible (und mathematisch berechenbare) Relevanzkriterien (Quelle: Hartmann et al., S.37ff) 25 Informationsbeschaffung im Internet Suchmaschinen: Relevanzberechnung (Ranking) Problematik: Die vorhergehenden 6 Rankingkriterien basieren auf dem Textinhalt des jeweiligen Einzeldokumentes und sind daher relativ einfach vom Autor der Seite manipulierbar SEO : „Search Engine Optimization“ „Web-Spamming“ Lösungsansatz: PageRank-Verfahren von Google Angelehnt an das Prinzip des „Citation-Index“ bei wissenschaftlichen Publikationen. Vereinfachtes Prinzip: Je mehr Webseiten „von aussen“ über einen Hyperlink auf ein Dokument verweisen, desto höher sein Rang S. Brin et al.: "The PageRank Citation Ranking: Bringing Order to the Web" 26 Informationsbeschaffung im Internet Weiterführend: Funktionsweise von Suchdiensten Patentschriften von Suchdienstanbietern ! http://ep.espacenet.com/advancedSearch >> Demo: ranking, google 27 Informationsbeschaffung im Internet Besonderheiten von (Volltext) Suchmaschinen 28 Informationsbeschaffung im Internet Suchoptionen: Phrasensuche Die sog. Phrasensuche erlaubt die Suche nach Mehrwortgruppen, d.h. die Suche nach Wörtern, die genau in der angegebenen Reihenfolge im Text vorkommen (im Gegensatz zur Booleschen AND-Verknüpfung). Die Phrasensuche ist eine sehr wichtige und nützliche Suchoption bei der Suche im Web, speziell bei sog. „Known-Item-Searches“ Beispiel einer „Known-Item“-Suche Gesucht wird ein Dokument, von dem ein Zitat bekannt ist: "Dann wird jede Seite nach weiterführenden Verweisen (Hyperlinks) untersucht" (Zitat aus Hartmann et al. „Informationsbeschaffung im Internet“) Suche bei Google 29 Informationsbeschaffung im Internet Suchoptionen: Metadaten „Daten über Daten“ (Bildquelle: Hartmann et al. S. 81) 30 Informationsbeschaffung im Internet Fortgeschrittene Suchoptionen: Formale Metadaten Problematik: Zu Webdokumenten existieren i.d.R. keine Metadaten im Sinne einer bibliographischen Erschließung Dublin-Core hat sich aus verschiedenen Gründen nicht breit genug durchgesetzt Aber: Webdokumente besitzen formale Eigenschaften, die sich Suchmaschinen als „formale Metadaten“ zur Erzeugung von Teilkollektionen nutzbar machen können: • • • • • Dokumentformat (Dateityp) Sprache URL letztes Änderungsdatum ... Diese formalen Metadaten können teilweise sehr effektiv zur Informationssuche ausgenutzt werden 31 Informationsbeschaffung im Internet Fortgeschrittene Suchoptionen: Formale Metadaten Hier gilt ganz besonders: Hilfeseiten des jeweiligen Suchdienstes studieren ! Beispiel: Google http://www.google.de/intl/de/help/refinesearch.html http://www.google.de/help/operators.html 32 Informationsbeschaffung im Internet Fortgeschrittene Suchoptionen: Formatkategorien 33 Informationsbeschaffung im Internet Suchhilfen/Benutzerhilfen bei Suchmaschinen Die Datenbestände von (Volltext)-Suchmaschinen bestehen im wesentlichen aus einer Indexdatenbank ohne inhaltsbezogene Metainformationen. „Benutzerhilfen“ können i.d.R. nur auf Basis einer bereits vorliegenden (ersten) Treffermenge Ad-Hoc erzeugt werden, z.B. • Korrekturvorschläge für Tippfehler • Vorschlag von Alternativbegriffen • Ähnliche Dokumente („Similar Pages“, „More like this“) • Anzeige „semantischer“ Verknüpfungen • Ad-Hoc-Kategorisierung („Clustering“) Trend: Ständige Erweiterung der Benutzerhilfen, damit auch ungeübte Nutzer immer bessere Suchergebnisse erzielen 34 Informationsbeschaffung im Internet „Deep Web“ / Invisible Web 35 Informationsbeschaffung im Internet Deep Web: Grundlagen „THE PARADOX OF THE INVISIBLE WEB is that it's easy to understand why it exists, but it's very hard to actually define in concrete, specific terms. In a nutshell, the Invisible Web consists of content that's been excluded from general-purpose search engines and Web directories such as Lycos and LookSmart--and yes, even Google. There's nothing inherently "invisible" about this content. But since this content is not easily located with the information-seeking tools used by most Web users, it's effectively invisible because it's so difficult to find unless you know exactly where to look.“ (C.Sherman in: Library Trends,2003) Definition • Unter dem Begriff „Deep Web“ versteht man diejenigen Informationsressourcen, die zwar prinzipiell über das WWW zugänglich sind, die aber von allgemeinen Suchmaschinen, wie z.B. Google nicht indexiert sind und daher über eine Suchanfrage bei diesen nicht gefunden werden können. • Synonym zu dem Begriff „Deep Web“ werden häufig die Begriffe „Invisible Web“ oder auch „Hidden Web“ verwendet. • Diejenigen Informationsressourcen im WWW, die von von allgemeinen Suchmaschinen, wie z.B. Google indexiert sind und daher über eine Suchanfrage bei diesen gefunden werden können, bezeichnet man als „Surface Web“ oder auch „Visible Web“ . 36 Informationsbeschaffung im Internet Deep Web: Grundlagen Verteilung von Deep Web Ressourcen nach Typ (Abschätzung, 2001) http://www.brightplanet.com/images/stories/pdf/deepwebwhitepaper.pdf 37 Informationsbeschaffung im Internet Deep Web: Beispiele: Datenbanken: Esp@cenet Kostenfrei: Bereich Patentrecherche: Escp@cenet http://ep.espacenet.com/?locale=de_EP 38 Informationsbeschaffung im Internet Deep Web: Beispiele: Hybrid: Scirus, Vascoda, Google Scholar „... is the most comprehensive scientific research tool on the web. With over 450 million scientific items indexed at last count, it allows researchers to search for not only journal content but also scientists' homepages, courseware, pre-print server material, patents and institutional repository and website information. ...“ Teilweise Kostenpflichtig: Bereich Wissenschaft/Technik http://www.scirus.com/ Analog: http://www.vascoda.de http://scholar.google.de 39 Informationsbeschaffung im Internet Deep Web: Ressourcen finden: Verzeichnisse http://aip.completeplanet.com http://infomine.ucr.edu/ 40 Informationsbeschaffung im Internet Deep Web: Ressourcen finden: Fachdatenbanken http://rzblx10.uni-regensburg.de/dbinfo/ http://rzblx10.uni-regensburg.de/dbinfo/fachliste.php?bib_id=fhpo 41 Informationsbeschaffung im Internet Informationsbeschaffung Neuere Entwicklungen / Trends 42 Informationsbeschaffung im Internet Neuere Entwicklungen/Trends: Einstieg Patente werden i.d.R. angemeldet BEVOR ein Produkt auf den Markt kommt. Patentrecherche kann daher benutzt werden, um neue Entwicklungen/Trends zu erkennen http://ep.espacenet.com/?locale=de_ep Besonderheit: Nach SEHR neuen Patentanmeldungen suchen, z.B. „Google 2009“ 43 Informationsbeschaffung im Internet Trenderkennung durch Patentrecherche: Beispiele Vermutung: In absehbarer Zeit automatisches Verschlagworten („Taggen“) von Bilddateien bei Google => Bessere Suchfunktion für Biulder (allg. Non-Text-Dokumente) 44 Informationsbeschaffung im Internet Trenderkennung durch Patentrecherche: Beispiele Vermutung: In absehbarer Zeit Bewertungsoption bei Google 45 Informationsbeschaffung im Internet Trends: Benutzerhilfen: Ad-Hoc-Kategorisierung (Clustering) http://clusty.com 46 Informationsbeschaffung im Internet Trends: Benutzerhilfen: Ad-Hoc-Kategorisierung (Clustering) http://fabdax.fh-potsdam.de/infodata 47 Informationsbeschaffung im Internet Trends: Benutzerhilfen: Clustering und Kontextinformationen http://www.eyeplorer.com/eyePlorer/ 48 Informationsbeschaffung im Internet Trends: Integration von Informationsquellen BASE: Bielefeld Academic Search Engine http://base.ub.uni-bielefeld.de/index.html (Quelle: BASE) 49 Informationsbeschaffung im Internet Neuere Entwicklung: „Berechenbares Wissen“: WolframAlpha http://www.wolframalpha.com/ 50 Informationsbeschaffung im Internet Trends: Integration von Informationsquellen: Mashups Beispiel: Integration von Immobilieninformation (craigslist) und Geo-Informationen (google maps) http://www.housingmaps.com/ 51 Informationsbeschaffung im Internet Demo: Mashups Google Maps/Flickr: Geographisch zugeordnete Schnappschüsse ☺ Ergebnis: http://fabday.fh-potsdam.de/~neher/mashups/geo/md12-gm-demo5.html 52 Informationsbeschaffung im Internet Informationsbeschaffung Neuere Entwicklungen / Trends „Semantic Web“ 53 Informationsbeschaffung im Internet Semantic Web: Vision "Die zentrale Anforderung an die nächste Generation von WissensmanagementSystemen ist die Möglichkeit, Informationen geeignet zu kombinieren, um damit implizites Wissen ableiten und somit neues Wissen generieren zu können. Semantik kann diese Anforderungen erfüllen und bildet somit die Grundlage für eine neue Landschaft an Anwendungen, welche die Informationstechnologie in eine Wissenstechnologie transformiert." [Rudi Studer, AIFB Karlsruhe] The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperations. [Berners-Lee et al. 2001] In the Semantic Web, it is not the Semantic which is new, it is the Web which is new. [Chris Welty, IBM] 54 Informationsbeschaffung im Internet Semantic Web: Einstieg Demo: „Semantische Suche“ mit Suche nach: Lehrmaterialien zum Thema „semantic web“ "semantic web" inurl:uni- filetype:ppt Funktioniert einigermaßen, dank Faustregel („Heuristik“): • Implizite Semantik in rein formalen Parametern (hier: Dateityp, URL) Kenntnis dieser Heuristik beim Nutzer erforderlich ! Bewusste Simulation von Semantik ! Beispielszenario: Tourismus (Projekt GETESS, 1999) http://www.getess.de/ms_berichte/veroeffentlichung/iuk99_final.pdf Wie realisierbar mit Google & Co ?? Urlaub AND Küste AND Rostock AND Wismar (2009) Prof. Dr. Günther Neher ? 55 Informationsbeschaffung im Internet Beispiel: Informationsbeschaffung im heutigen WWW Fiktive Webseite von Google indexiert <html> <body> Bob ist der Vater von Lisa und Hans.<br> Hans hat 2 Kinder, Ruth und Eva.<br> Lisa hat einen Sohn.<br> Der Sohn von Lisa heisst wie Ihr Vater, Bob<br> </body> </html> Fiktiver Informationsbedarf: Wieviel Enkel hat Bob ? 56 Informationsbeschaffung im Internet Semantic Web: Vision Dies ist NICHT reale Semantic Web-Technologie, sondern eine Simulation mit XML … <g:person id="ID_1"> <g:hasChild id="ID_2"> <g:person id="ID_2"> <g:hasChild id="ID_4"> <g:person id="ID_4"> <g:name>Bob</g:name> </g:person> </g:hasChild> <g:name>Lisa</g:name> </g:person> </g:hasChild> … <xsl:text> Bob hat </xsl:text> <xsl:value-of select="count( g:person/g:hasChild/g:person/g:hasChild )"/> <xsl:text> Enkel.</xsl:text> … >> Demo … 57 Informationsbeschaffung im Internet Trends: „Semantic Web/Linked Data“ http://www.swib09.de/ 58 Informationsbeschaffung im Internet Grundlagen: Semantik - Problemstellungen Problematik der semantischen Mehrdeutigkeit („Ambiguity“) bei Beschränkung auf die Begriffsebene (Zeichenkette) Google-Beispiele: • • • • • • Ausfall Jaguar Archiv Dokumentation Bibliothek Klausur „der neue Jaguar“ „der junge Jaguar“ 59 Informationsbeschaffung im Internet Grundlagen: Semantik - Problemstellungen Problematik der semantischen Unvollständigkeit („Synonymy“) bei Beschränkung auf die Begriffsebene (Zeichenkette) Google-Beispiel: 1.870.000 • Anschrift • Adresse 8.420.000 Anschrift OR Adresse 8.980.000 60 Informationsbeschaffung im Internet Grundlagen: Semantik - Lösungsansätze Konstruktion einer übergeordneten Ebene Metadaten Etablierte Methode: „Erschließung“ 61 Informationsbeschaffung im Internet Basiskonzept: Namensräume Bedeutung: Eindeutige Festlegung von Vokabular auf Basis von URIs http://www.w3.org/2006/Talks/0404-mit-tbl/ Hintergrund: Semiotisches Dreieck URI !! 62 Informationsbeschaffung im Internet Beispiele für XML-Namensräume http://www.ivan-herman.net/foaf.rdf 63 Informationsbeschaffung im Internet Grundlagen: RDF im Semantic Web Schichtenmodell Bildquelle: http://www.w3.org/2006/Talks/0811-sb-W3Cemergingtech/SemWebStack-tbl-2006a.png 64 Informationsbeschaffung im Internet Stetige Zunahme von RDF-Ressourcen http://linkeddata.org/ http://events.linkeddata.org/iswc2008tutorial/how-to-publish-linked-data-iswc2008-slides.pdf 65 Informationsbeschaffung im Internet Simple Knowledge Organization Systems (SKOS) RDF-basiertes Vokabular zur Repräsentation von Thesauri, Klassifikationen, etc. http://www.w3.org/2004/02/skos/ 66 Informationsbeschaffung im Internet SKOS – Simple Knowledge Organization Systems http://www.w3.org/2004/02/skos/ Repräsentation von kontrollierten Vokabularen in RDF http://eprints.rclis.org/archive/00007480/01/SKOSSchlagwortSemanticWeb.pdf http://www.gbv.de/vgm/info/biblio/01VZG/06Publikationen/2007/pdf/pdf_2837.pdf 67 Informationsbeschaffung im Internet Beispiel: Infodata-Datensätze mit Infodata-SKOS-Thesaurus >> Demo http://o2e.fh-potsdam.de/infodata/infodata.rdf (nur Firefox mit Tabulator-Plugin) http://o2e.fh-potsdam.de/infodatathes/concepts 68 Informationsbeschaffung im Internet </ENDE> Danke für Ihre Aufmerksamkeit 69