Untitled

Transcription

Untitled
Medien
"Reichthum und Schnelligkeit ist, was die Welt
bewundert und wonach jeder strebt. Eisenbahnen,
Schnellposten, Dampfschiffe und alle möglichen
Facilitäten der Communication sind es, worauf
die gebildete Welt ausgeht, sich zu überbilden und
dadurch in der Mittelmäßigkeit zu verharren . . .
Eigentlich ist es das Jahrhundert für die fähigen Köpfe,
für leichtfassende praktische Menschen, die, mit
einer gewissen Gewandtheit ausgestattet, ihre
Superiorität über die Menge fühlen, wenn sie gleich
selbst nicht zum Höchsten begabt sind. Laß uns soviel
als möglich an der Gesinnung halten, in der wir
herankamen; wir werden, mit vielleicht noch Wenigen,
die Letzten seyn einer Epoche, die so bald nicht
wiederkehrt."
(J.W. Von Goethe, 1825)
"Das Medium ist die Botschaft. Der innere Trip
ersetzt den äußeren Trip. Die rechte Hemisphäre ist ein
innerer Trip, eine Phantasiewelt. Heute ist das, was wir
Nachrichten nennen, Phantasie. Genauso, wie sie mit
Lichtgeschwindigkeit entstehen, verschwinden sie auch
wieder. Eine weitere Eigenschaft der
Lichtgeschwindigkeit ist der Gedächtnisverlust. Die
Konzentrationsdauer wird geringer und das Gedächtnis
schwächer.
Übrigens einer meiner Hauptsätze lautet: Der
Benutzer ist der Inhalt.
(Marshall McLuhan, 1978)
O kunstreicher Theuth [...] So hast du jetzt, Vater
der Buchstaben, aus Liebe das Gegenteil dessen
gesagt, was sie bewirken. Denn diese Erfindung wird
den Seelen der Lernenden vielmehr Vergessenheit
einflößen aus Nachlässigkeit der Erinnerung, weil sie
im Vertrauen auf die Schrift sich nun von außen,
vermittels fremder Zeichen, nicht aber innerlich sich
selbst und unmittelbar erinnern. Nicht also für die
Erinnerung, sondern nur für das Erinnern hast Du ein
Mittel erfunden, und von der Weisheit bringst du
deinen Lehrlingen nur den Schein bei, nicht die
Sache selbst.
(Platon, Phaidros, ca. -360)
Hans Magnus Enzensberger:
Altes Medium (1995)
Was Sie vor Augen haben,
meine Damen und Herren,
das sind Buchstaben,
Entschuldigen Sie.
Entschuldigen Sie.
Schwer zu entziffern.
Ich weiß, ich weiß.
Eine Zumutung.
Sie hätten es lieber audiovisuell,
digital und in Farbe.
Aber wem es wirklich ernst ist
mit virtual reality,
sagen wir mal:
Füllest wieder Busch & Tal,
oder: Einsamer nie als im August,
oder: Die Nacht schwingt ihre Fahn,
der kommt mit wenig aus.
Sechsundzwanzig
dieser schwarz-weißen Tänzer,
ganz ohne Graphik-Display und CD-ROM,
als Hardware ein Bleistiftstummel:
das ist alles.
Entschuldigen Sie.
Entschuldigen Sie bitte.
Ich wollte Ihnen nicht zu nahe treten.
Aber Sie wissen ja, wie das ist:
Manche verlernen es nie.
Arbeiten mit dem WWW
Das Internet – ein Werkzeug für
wissenschaftliche Arbeit
Auf vielfältige Weise nimmt das Medium Internet Einfluss
auf die Arbeits- und Kommunikationsgewohnheiten
zumindest einer jüngeren Generation von GermanistInnen.
EMail beispielsweise ist zu einem kaum noch weg zu
denkenden Kommunikationsinstrument geworden. Das
WWW, als die wichtigste Provinz des elektronischen
Kontinents, wird als Informationspool bei biographischen und
bibliographischen Fragen genutzt.
Das Internet als globaler Wissensspeicher stellt riesige
Mengen an Informationen bereit, deren Qualität jedoch sehr
unterschiedlich beurteilt werden muss. Dies hat das
wissenschaftliche Arbeiten verändert und neue Anforderungen
an die in der Wissenschaft Tätigen mit sich gebracht. Sie
müssen heute z.B. nicht in eine Bibliothek gehen, um
herauszufinden, ob es dort ein Buch gibt, das Sie für Ihre
Arbeit benötigen: Sie können in den größten Bibliotheken der
Welt online recherchieren. Wichtige Nachschlagewerke und
Arbeitsbehelfe finden sich im Internet - teilweise
kostenpflichtig - oder zumindest auf einer CD-ROM. Die
wissenschaftliche Fachkommunikation (Zeitschriften,
Foren, Diskussionsgruppen, etc.), auch das Publizieren
wissenschaftlicher Arbeiten (von Diplomarbeiten bis zum
wissenschaftlichen Aufsatz) hat sich – wenn auch derzeit nur
teilweise – ins Internet verlagert und findet dort neue
Bedingungen vor. Das „Netz der Netze“ bietet digitalisierte
Ausgaben literarischer Texte, ist aber auch selbst zum
Medium literarischer Produktion und zum Gegenstand
literaturwissenschaftlicher Forschung geworden.
Für die Literaturwissenschaft stellt das Internet jedoch
nicht nur ein neues Medium dar, es schafft zugleich
einen neuen Gegenstand. Online-Literatur ist etwas
anderes als gedruckte Literatur, sie folgt eigenen
Gesetzmäßigkeiten. (Quelle)
Und: Mit der immer schnelleren Verfügbarkeit immer
größerer Informationsmengen im Internet ist der Diskurs der
Anderen am Schreibtisch leicht verfüg-und manipulierbar.
Der Weg zum Plagiat und zum Plagiats des Plagiats ist durch
"Cut n' Paste" kurz und einfach, das "Original" nicht einfach
auszumachen. Den Kulturpessimismus Stefan Webers mag
man teilen oder nicht – dass das Textrecycling à la mode ist,
bleibt unbestritten.
Vgl. Nentwich, Cyberscience (1999)
Ein Grundübel ortet Weber in der "Ergoogelung der
Wirklichkeit". So glaubt der Medienwissenschafter,
dass weit über 90 Prozent aller Recherchen für
akademische schriftliche Arbeiten und Referate mit
"Google" starten, was nicht das Problem wäre:
Problematisch sei vielmehr, dass "eine unbekannte
Anzahl von Studierenden mit der 'Google'-Recherche
ihre Recherchetätigkeit insgesamt bereits wieder
abschließen" und viele sich dazu verleiten lassen, die
gefundenen Textsegmente gleich direkt eins zu eins
und unzitiert in ihre Arbeit zu übernehmen. (Quelle)
Der WWW-Kontintent
550 Mrd. Seiten .... 11,5 Mrd. indizierte Seiten
Bei der Suche im Internet bietet sich dem Nutzer eine
exponentiell wachsende Informationsflut: Weltweit
gibt es heute etwa 550 Mrd. Internet-Seiten, täglich
kommen etwa sieben Millionen hinzu. Um sich darin
zurecht zu finden, gibt es elektronische
Hilfsprogramme wie Suchmaschinen oder
Informationsagenten. (Quelle)
The deep Web contains nearly 550 billion individual
documents compared to the one billion of the surface
Web. (Quelle) [2001]
„[...] we revise and update the estimated size of the
indexable Web to at least 11.5 billion pages as of
the end of January 2005“. „The indexable Web is
defined as 'the part of the Web which is considered for
indexing by the major engines'“. [2005] (Quelle)
Über 100 Mio. Webserver
In the December 2006 survey we received responses
from 105,244,649 sites, an increase of 3.8 million
hostnames from last month, when the survey topped
100 million sites for the first time. [...] In percentage
terms, the Web grew by 41.5 percent this year.
That's a significant gain, but still trails the record
performance from 2000, when the explosive growth of
the dot-com boom took the survey from 10 million to
nearly 26 million sites, a one-year increase of 160
percent. (Quelle)
Webliteracy
Es ist nicht immer leicht, die richtigen „Fragen ans Netz“ zu
stellen und das Gefundene in seiner Qualität und Relevanz zu
beurteilen. Internet und WWW fordern neue Fertigkeiten, die
wir als „Webliteracy“ bezeichnen wollen. Hier einige Fragen
und Problemfelder, auf die der oder die Suchende immer
wieder stoßen.
Die Kunst, zu finden und zu bewerten, was man gefunden hat,
ist zu einer wichtigen Fertigkeit wissenschaftlicher Arbeit
geworden. Daher betreiben wir als im Folgenden eine kleine
Quellenkunde der Dienste und Informationen, die das
Internet, vorzüglich das WWW, für uns bereit hält.
Schritte bei der Recherche im WWW
Die Frage formulieren
Was suche ich genau? Wie kann ich die Fragen für den Web
formalisieren? Welche Suchbegriffe könnte ich verwenden?
Wen soll ich befragen?
An wen richte ich meine Anfrage, welchen Suchdienst soll ich
für meine spezielle Fragestellung am besten verwenden? - Die
beste Suchhilfe ist immer die, die mich zu der verlangten
Information bringt.
Kritische Überprüfung der Ergebnisse
Zu viele Informationen gefunden?
Was mache ich, wenn ich Tausende von Treffern bekomme?
Habe ich das gefunden, wonach ich suchte und erwartete?
Handelt es sich dabei um „echte Inhalte“ (Content-Seiten),
Datenbanken oder bloß um Linklisten, Verweise auf „Content“
ohne eigenständige Inhalte?
Habe ich die richtigen Begriffe verwendet? Oder ergibt die
Lektüre, dass verwandte Begriffe eine weitere Suche
interessant machen könnten?
Passt das, was ich gefunden habe, in meinen Kontext?
Sollte ich eventuell meine Strategie ändern? Andere Websites
fragen oder anders fragen?
Glaubwürdigkeit der Website prüfen
Wie glaubwürdig ist die Quelle?
Welche erkennbaren Intentionen liegen dem Webauftritt zu
Grunde?
Wer ist der Inhaber bzw. die Inhaberin der Seite?
Ist es eine bekannte Institution, eine „private“ Seite?
Was ergibt die Auswertung des Impressums?
Wie vollständig und aktuell sind die Informationen?
Wann wurde die Seite das letzte mal upgedatet?
Kann ich erfahren, welche Informationsmengen und -bereiche
eine Website für mich bereitstellt?
Relevanz prüfen
Wie relevant ist die Website, deren Seiten ich meine
Informationen gefunden habe, für mein Thema oder meine
Fragestellung ?
Wie bekannt ist die Site im Internet? Wer verlinkt auf die
Seite?
Verfügbarkeit und Zitierbarkeit prüfen
Sind die Informationen frei verfügbar?
Muss ich für sie zahlen? Gibt es andere
Zugangsbeschränkungen?
Kann die Quelle zitiert werden?
Gibt es für die Quelle einen persistenten URL?
Ist der URL gut und verständlich geformt?
Kann ich sicher sein, dass eine Leserin oder ein Leser unabhängig
vom Standort und unabhängig vom jeweiligen Computer, die Seite
aufmachen kann?
Belege sichern
Sichern Sie die Quellenangaben und speichern Sie wichtige Quellen
für sich zur weiteren Verwendung.
Die kann durch Abspeichern der Seite über den Browser oder durch
Erzeugen eines PDFs erledigt werden.
Die „Gatekeeper“ des WWW
Ohne Suchmaschinen wie Google, ohne Verzeichnisse wie Yahoo!
oder das Open Directory Project, ohne Portal-Sites wäre das Web
für uns ein nicht kartierter Kontinent. Ein überwiegender Teil aller
InternetbenutzerInnen verwenden Suchmaschinen und Portale, um
an die gewünschten Informationen zu gelangen.
Der Begriff stammt aus der Kommunikationswissenschaft
und beschreibt eine Instanz, die einkommende Nachrichten
filtert und für einen Benutzerkreis bereitstellt.
Man schätzt, dass mehr als drei Viertel
aller InternetbenutzerInnen
Suchmaschinen und Portale benutzen, um
an die gewünschten Informationen zu
gelangen.
Die Bedeutung der Portale für die Erschließung
des Informationsraums WWW
Ihnen werden Verantwortlichkeiten zur Sicherung
der Meinungsvielfalt im demokratischen Sinne
ebenso zugeordnet, wie der Verbraucherschutz, die
Auslieferung relevanter Ergebnisse sowie die
Verhinderung von Ergebnissen die im
gesellschaftlichen Rahmen als unzulässig angesehen
werden. (Quelle) [2005]
Nach einem Report des PEW Internet & American Life
Project vertrauen die meisten US-amerikanischen
Nutzer den Suchmaschinen. Sie schätzen
Suchmaschinen als faire und unbeeinflusste Quelle für
Informationen ein. Immerhin 87% aller Befragten
schätzen ihre Suchstrategien als erfolgreich
ein. Wie bereits in anderen Umfragen ermittelt, stellt
auch PEW fest, Suchmaschinennutzer bleiben einer
Suchmaschine weitgehend treu. 44% aller Befragten
nutzen ausschliesslich eine Suchmaschine, weitere 48%
nutzen 2 oder drei Suchmaschinen. Erkenntnisse die
sich in dieser Form nicht ohne weiteres übertragen
lassen. Im deutschsprachigen Bereich kommen
weit über 80% des Suchmaschinen-Traffic von
einer einzigen Suchmaschine.
Häufig werden Nutzer wohl über die Form der
Werbung auf den Ergebnisseiten getäuscht. Die Hälfte
aller Nutzer würde eine Suchmaschine nicht mehr
nutzen, wenn die Werbung nicht eindeutig
gekennzeichnet wäre. Doch nur 1 von 6 Nutzern kann
wirklich konstant sämtliche Werbung von den
regulären Treffern aus dem Suchmaschinenindex
unterscheiden. Prinzipiell sind 70% aller Nutzer mit
dem Konzept der Sponsored Links einverstanden. Sie
möchten nur eine klare Kennzeichnung der Werbung,
so wie sie es von anderen Medien wie TV und
Druckerzeugnissen gewohnt sind. (Quelle: @web
Newsletter 6 (2005), Nr. 145)
Der "Suchmaschinenmarkt":
Nielsen/Netrating erhebt in regelmäßigen
Abständen das Suchverhalten der
NutzerInnen des Internet.
Statistik über die Entwicklung der OnlineSuche in den USA und die Marktanteile
der führenden Suchmaschinen.
@Web.de: Deep Web
Deep Web
Das sollte uns jedoch nicht darüber hinweg täuschen, dass
diese Findehilfen des Internet längst nicht alle Informationen
indizieren, die im Web tatsächlich vorhanden sind.
Schätzungen gehen davon aus, dass im „Deep Web“ oder
Überlegen Sie, welche dieser
Datenbanken und Services Sie kennen!
Der "Informationsraum" des WWW wird
von verschiedenen Suchmaschinen in
unterschiedlicher Weise durchsucht. Die
„Invisible Web“ wesentlich mehr an Informationen zu
finden sind als im „Surface Web“.
Das Deep Web besteht zu großen Teilen aus
themenspezifischen Datenbanken
(Fachdatenbanken) und Webseiten, die erst durch
Anfragen dynamisch aus Datenbanken generiert
werden. Grob kann das Deep Web unterschieden
werden in „Inhalte, die nicht frei zugänglich
sind“ und „Inhalte, die nicht von
Suchmaschinen indiziert werden“. Die Größe des
Deep Web kann nur geschätzt werden – es wird davon
ausgegangen, dass es ein Vielfaches des direkt
zugänglichen Webs umfasst. Suchmaschinen werden
ständig weiterentwickelt, daher können Webseiten, die
gestern noch zum Deep Web gehörten, heute schon Teil
des Oberflächenwebs sein. (Quelle)
Ergebnismengen überschneiden sich, doch
bleiben insgesamt weit hinter den
Datenmengen zurück, die tatsächlich
abrufbar sind.
Differenzierung: Website : Webseite
Mit Webpräsenz, Webangebot, Webauftritt, „Homepage“
oder Website wird ein ganzes Projekt im World Wide Web
bezeichnet, das meist aus mehreren Dokumenten (Dateien,
Ressourcen) besteht, die durch eine einheitliche
Navigation (das Hypertext-Verfahren) zusammengefasst und
verknüpft werden. Website ist also ein mehr logisch als
technisch zu fassender Begriff. Eine Site ist in der Regel über
Beispiel für eine Website
einen Basis-URL zu erreichen, wenngleich die tatsächlichen
Beispiel für eine "Seite" (sehen Sie sich
Ressourcen verteilt sein können.
den URL an!)
Der Begriff Webseite ("Webpage") bezeichnet ein Objekt, das
im Browser als eine „Seite“ angezeigt werden kann.
Diese hat jedoch wiederum verschiedenste Elemente und
besteht in der Regel nicht nur aus Text. Die "Seiten" müssen
nicht tatsächlich am Webserver "physikalisch" vorhanden
sein, vielmehr zählen auch alle dynamisch generierten Seiten,
die ein Service ausliefert, dazu.
Versuch einer Typologie der Findehilfen
Nach Methode der Informationsbeschaffung und -Darstellung
lassen sich verschiedene Suchsysteme unterscheiden. Hier
Einen guten Überblick über das Thema
eine kleine Typologie:
liefert u.a. http://www.at-web.de/
o
o
o
Manuell oder semiautomatisch erstellte Kataloge
(Verzeichnisdienste) und Linklisten
Roboter - Indizes („Suchmaschinen“)
Spezielle Suchdienste, Linklisten, Portale, Subject
Gateways
http://www.suchlexikon.de/ bringt u.a.
ein Verzeichnis speziell deutschsprachiger
Suchdiensten mit derzeit ca. 2558
Einträgen.
Kataloge (WWW-Verzeichnisse)
Kataloge werden von Menschen gemacht. Eine Redaktion und
nicht bloß eine Software besucht die angemeldeten Seiten und
sortiert sie in einen Schlagwortkatalog ein.
Der Katalog wird den Suchenden dann hierarchisch
präsentiert. Meist gibt es allerdings Möglichkeiten des
horizontalen Verzweigens zu anderen Ästen des "Baums" und
zu einer "flachen" Suche im Raum des Katalogs.
Im Gegensatz zur Suchmaschine wird meist nur die relevante
Startseite einer Website erfasst, nicht die einzelnen Seiten
Open Directory Project:
(a) Internationale Einstiegsseite
(b) Deutsche Einstiegsseite (Dabei ist zu
beachten, dass die Startseiten
dmoz.at/dmoz.de lediglich den Zugang
zu eigentlichen Kategorien des Open
Directory Project (ODP) vermitteln.
Yahoo! Steht für "Yet Another Hierarchical
Officious Oracle" und ist zugleich eine
selbst.
Kataloge eignen sich gut zur Suche nach einem
bestimmten Thema oder Sachgebiet, vor allem, wenn es
darauf ankommt, repräsentative Dokumente zu finden.
Weniger eignet er sich zur Klärung einer bestimmten Frage
oder zur Beantwortung eines einzigen, spezifischen
Sachverhalts.
Im Bereich der Verzeichnisdienste haben sich
Kooperationen etabliert, die auf Synergieeffekte bauen
und Kosten minimieren helfen. So verwendet etwa Google das
Verzeichnis des Open Directory Projects. „Ziel des Open
Directory Projects ist es, mit Hilfe eine riesigen Anzahl von
Editoren das umfassendste Verzeichnis des WWW zu
erstellen.“
Bezeichnung für eine ungehobelte Person.
Das deutschsprachige Yahoo!-Verzeichnis,
das in 2005 seinen 10. Geburtstag feierte.
@Web.de: 10 Jahre Yahoo!
Google: http://directory.google.com/
(basiert auf ODP)
Beispiel
Erlanger Liste
Der erste Verzeichnisdienst im Netz wurde von Yahoo (1995,
im deutschen Sprachraum 1996) gestartet. Die Gründer von
Yahoo! waren David Filo und Jerry Yang. Zu dieser Zeit gab es
noch keine automatisierten Suchmaschinen.
Suchmaschinen
Eine Suchmaschine vereinigt unter einer einheitlichen
Oberfläche (meist ein Portal) verschiedene, meist verteilte
Programme zur Recherche von Dokumenten, die
(a) in einem Computer oder
(b) einem Computernetzwerk wie z. B. dem World Wide Web
gespeichert sind.
Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine
eine Liste von Verweisen auf möglicherweise relevante
Dokumente, meistens dargestellt mit Titel und einem kurzen
Auszug des jeweiligen Dokuments. Dazu verwendet sie Daten
aus dem Dokumentinhalt und Metadaten, die diese mehr
oder weniger gut beschreiben.
Im Gegensatz zu Verzeichnissen arbeiten Suchmaschinen
weitgehend automatisiert. Die Datenbasis gewinnen die
WWW-Suchmaschinen hauptsächlich durch automatische
Indexierung des allgemein zugänglichen Web. Dabei folgen sie
den auf den Seiten enthaltenen Links.
Bereiche einer Suchmaschine
Eine Suchmaschine besteht logisch aus den folgenden
Bereichen:
• Die allgemeine Benutzerschnittstelle (Interface),
welche in der Regel das Webportal der Suchmaschine
darstellt, das unter einem "Markennamen" im WWW
bekannt ist. Meist finden dort Eingabeformulare,
Möglichkeiten zur Spezifizierung, Einschränkung,
Personalisierung und Lokalisierung der
Suchanfragen.
• Ausgabeseiten nach Verarbeiten der Suchanfragen
(Finden und Sortieren der Ergebnisse). Über die vom
Interface gelieferte Ausgabeseite werden in der Regel
die Klicks der BenutzerInnen von den Suchmaschinen
mitgeloggt.
• Der Stichwortindex ist eine große, verteilte Datenbank
und der eigentliche Kern der Suchmaschine.
• Die Suchroboter durchstöbern das WWW und liefern
die Daten an den Index.
Vgl. Wikipedia.de: Suchmaschine
Beispiele für Suchmaschinen-Blogs:
Klaus Schallhorn, http://www.atweb.de/blog/
Differenzierung nach Art der Daten
Suchmaschinen können verschiedene Typen von Daten
durchsuchen. Die Informationen im Netz liegen in
unterschiedlichsten Formen vor, sind also durchaus komplex:
Textdokumente in diversen Formaten (PDF, HTML, Word,
OpenOffice, XML, ...), Bilddokumente, Videos, Animationen
usw.
Jeder Dokumententyp weist eine ihm eigene Datenstruktur
samt Metadaten auf und erfordert spezifische
Indizieralgorithmen. Es ist beispielsweise nicht trivial, die
AutorInnen eines Dokuments sicher herauszufinden. Weiters
spielt auch die Sprache eines Dokuments bei der Indizierung
eine Rolle.
Suchmaschinen erlauben in der Regel eine differenzierte
Suche nach speziellen Datentypen (Suche nach Bildern, nach
Videos, Einschränkung nach Dokumentsprache etc.)
Beispiel: Bildersuche
Beispiel: Einschränkung der Suche
auf den Dateityp PDF
Beispiel: Filmsuche Google (englisch)
Differenzierung nach indizierten Datenquellen
Manche Suchmaschinen sind auf bestimmte Bereiche
spezialisiert, z.B. auf
• Dokumente, die im Web zugänglich sind (InternetSuchmaschinen)
Beispiel für die Suche in verteilten
• Dokumente am eigenen PC (Desktop-Suchmaschinen) Datenbanken: Prometheus
• Dokumente im Intranet (Intranet-Suchmaschinen)
Beispiel: Blogsuche (Google)
• Ergebnisse anderer Suchmaschinen
(Metasuchmaschinen)
• Dokumente in verschiedenen Fachbereichen (etwa:
wissenschaftliche Suchmaschinen)
• E-Mail-Suchmaschinen
• Blog-Suchmaschinen, RSS-Suchmaschinen
• Suche im Usenet ("Gruppen")
Die Robots
Suchmaschinen arbeiten mit riesigen
datenbankähnlichen Systemen (in der Regel Indizes),
die ihre Informationen von eigenen Suchrobotern, so
genannten „Robots“, „Crawlers“ oder „Spiders” erhalten.
Diese suchen regelmäßig die am Internet angeschlossenen
Computer auf, die gefundenen Web-Seiten werden gesammelt
und zum Index weitergeleitet. Um auf neue Web-Server und
Web-Seiten aufmerksam zu werden, machen sich Robots die
Hyperlinkstruktur des World Wide Web zunutze. Die
gesammelten Dokumente werden für die Aufnahme in den
Index aufbereitet und abgespeichert. Die Einträge im Index
können dann vom Benutzer durchsucht werden. Das Web
wächst schneller als es die Suchmaschinen indizieren können!
Aus Gründen der Ökonomie durchsuchen die Crawler meist
nicht alle Seiten einer Website und „lesen“ auch nicht alle
Dokumente zur Gänze. Laut Wikipedia.de beschränken sich
die Crawler oft auf 5-6 Verzeichnisebenen. Google soll
angeblich nur die ersten 120 KB von PDF-Dokumenten
indizieren. Manche Datei-Formate können derzeit nicht
indiziert werden (z.B. Flash).
Wrapper versuchen eine "Informationextraktion" aus
semistrukturierten Texten.
Suchmaschinen finden nur WWW-Seiten, auf die ein
Link zeigt. Ein einzelnes Dokument oder eine Gruppe von
Dokumenten, auf die niemand hinweist („Orphans“), wird der
Suchroboter schwer finden. Auch aus diesem Grund besitzen
Suchmaschinen meist eine Möglichkeit, neue Seiten
anzumelden. Diese Anmeldungen können kostenpflichtig oder
an die Erfüllung anderer Bedingungen geknüpft sein.
Aktualität. Ein Suchroboter benötigt einige Zeit, bis er das
WWW durchstöbert hat und mit der Suche wieder von vorne
beginnt. Es kann auch passieren, dass die Suchmaschine auf
eine Seite hinweist, die der Suchanfrage gar nicht entspricht.
Dann hat die Autorin der Seite den Inhalt seit dem letzten
Besuch des Suchroboters geändert. Da die Suchmaschinen
bevorzugt große Nachrichtendienste (wie etwa CNN)
indizieren, sind sie jedoch bei aktuellen Themen auf einem
guten Stand.
Das Problem des „Deep Web“: Was die Suchmaschinen
nicht ausgeben, kann nur sehr schwer gefunden werden, ja
existiert für viele BesucherInnen des Netzes nicht. Beim
Arbeiten mit Suchmaschinen sollten Sie sich immer bewusst
sein, dass jeder Index nur einen (vermutlich geringen) Teil der
Informationen speichert, die tatsächlich im Web verfügbar
sind. Einen Teil davon machen interaktive DatenbankAbfragen (wie etwa Aleph) aus; die Inhalte dieser dynamisch
erzeugten Seiten können Sie über Google oder Yahoo nicht
finden. In diesem Zusammenhang erhebt sich die Frage,
wieviele Seiten die Suchmaschinen tatsächlich auswerten.
Ranking
Die Suchergebnisse werden in der Anzeige vorsortiert. Was
auf die hinteren Rängen kommt, hat weniger Chancen,
wahrgenommen zu werden. Jede Suchmaschine verwendet zur
Feststellung der Relevanz eines Suchtreffers unterschiedliche
Methoden der Gewichtung. Die genauen Algorithmen des
Rankings werden von den Betreibern von Suchmaschinen
nicht bekannt gegeben. Jedenfalls spielt Folgendes eine Rolle:
•
•
•
•
Die Frequenz, Position und Dichte der gesuchten
Studie über "Eye-Tracking"
Wörter (Keyword-Density)
Die Link-Popularity ("Popularität einer Site / Seite im Beispiel: “Link-Popularity-Check” von
Sites
WWW")
Bei Verlinkungen auf die gesuchte Seite werden Links
wiederum unterschiedlich bewertet (z.B. wird ein
Eintrag in Yahoo höher gewertet als andere).
Weitere, aktuelle Tendenzen sind: das Clustern von
Themen sowie das Erkennen „verwandter“ Websites
und der Beziehung unter einander.
Auch das „Semantic Web“ ist immer wieder im Gespräch.
Natural Listings hingegen nennt man „die natürlichen
Ergebnisse“ in einer Suchmaschine aufgrund einer
Suchanfrage.
SEM-Agenturen
Suchmaschinenmarketing (Search Engine Marketing, SEM),
umfasst alle Maßnahmen, die dazu beitragen, dass Webseiten
in Suchmaschinen (wie zum Beispiel Google) bei einer
Suchanfrage gut gefunden werden. Dabei spielt vor allem die
Suchmaschinenoptimierung (Search Engine Optimization,
SEO) eine wichtige Rolle.
Gekaufte Ränge, Werbung
Werbungsstrategien:
Manche Suchmaschinen erlauben Kunden, sich Ränge auf der
Suchbegriff "Internet" im deutschen
ersten Ausgabeseite zu kaufen bzw. Werbung auf auf der
ersten Seite zu schalten. Dies ist eine wichtige Einnahmequelle Google und im österreichischen.
für Suchdienstanbieter. Mittels Suchmaschinen-Spamming
Adwords, AdSense von Google
versuchen manche Website-Betreiber, den RankingAlgorithmus der Suchmaschinen zu überlisten, um eine
bessere Platzierung für gewisse Suchanfragen zu bekommen.
Suchmaschinen-SPAM
Suchmaschinen-Spaming bezweckt, unter Vortäuschung
falscher Keywords u.ä. und unter Verwendung verschiedener
technischer Verfahren auf die erste Seite einer Suchanfrage zu
Klickbetrug durch Klickbots
gelangen.
Einen besonderen Fall stellen die „Google-Bomben“ dar.
Hier wird durch vielfaches Setzen vereinbartem Ankertext
gezielt versucht, bestimmte Webseiten zu diffamiern (in
Österreich der Fall Karl-Heinz Grasser mit dem Begriff „völlige
Inkompetenz“).
Rechtliche Probleme
Die „regionale Rechtssprechung wirkt sich auf
Suchmaschinen aus. Googles 'Service', den Nutzer
direkt auf die deutsche Google-Version zu leiten,
gleichgültig ob dieser nun Google.com oder Google.de
aufrufen wollte, erscheint vielen als Bevormundung.
Nicht zuletzt auch deshalb weil selbst ein beherzter
Klick aus den Link 'Google in English' nichts hilft. Der
deutsche Internet-Nutzer soll sich nun einmal mit der
deutschen Version zufrieden geben. Schließlich ist es so
auch leichter, die deutsche Rechtsprechung zu
beachten und Links zu inkriminierten Seiten sowie
Texte aus dem Google-Archiv zu entfernen." Und
weiter: „Da Google seinen Firmensitz in den USA hat,
unterliegt man auch dem amerikanischen Recht. Und
das bedeutet, dass auch der Digital Millenium
Copyright Act Anwendung findet. Dass dieses überaus
umstrittene Gesetzeswerk sich auch als
Zensurinstrument eignet, zeigte sich schon im Fall von
Scientology.“
Konzentrationen am Suchmaschinenmarkt
Über Googles-Selbstzensur in China (FAZ)
und Telepolis.
Vgl. http://www.ebusiness.de/texte/8006.asp [Stand
16.4.2004] (Die Seite ist nicht mehr
verfügbar, daher auch kein genaueres
Zitat möglich).
Altavista und AlltheWeb wurden 2003 von Yahoo!
übernommen, das schon zuvor den Inktomi-Index gekauft
hatte. Dieser Kauf erfolgte Ende 2002 zum Preis von ca. 228
Mio Euro. Von 1998-2000 lieferte Inktomi die Yahoo!-Treffer Symbolische Darstellung des
der Websuche, danach kamen sie von Google. Wo noch eigene Beziehungsgeflechts der Suchmaschinen
in Deutschland (2004)
Suchmaschinenportale existieren, werden die Ergebnisse
meist aus den Indices von Yahoo! oder Google gespeist und
gegebenenfalls nach weiteren Kriterien gefiltert und gerankt.
„Das Ziel [der Suchmaschinenbetreiber] ist es, einen
möglichst umfassenden Service anzubieten.
Dies geschieht durch eigene Fähigkeiten und die
Möglichkeiten hinzugekaufter, ergänzender Techniken.
[...] Neben den bequemen Links zu Wetterdiensten,
Nachrichten, kostenlosen E-Mail Accounts, Buchläden
und anderen mal mehr, mal weniger praktischen
Zusatzinformationen ist vor allem die Verknüpfung der
Suchfunktionen interessant. Ganz besonders macht
eine Kooperation zwischen einem Katalog und einer
Volltextsuchmaschine Sinn.“ (Quelle)
Links zu den wichtigsten allgemeinen
Suchmaschinen
http://search.yahoo.com/ | Deutschsprachiges Web:
http://de.search.yahoo.com/
http://www.google.com/ | Österreich:
http://www.google.at/
http://www.a9.com/ Suchmaschine von Amazon
http://search.msn.com/ Suchmaschine von Microsoft
http://www.teoma.com/ Testen Sie mal die Leistung der
Suchmaschinen mit gleich lautenden Angaben!
Ein europäisches Projekt ist die Suchmaschine „Quaero“. Sie
befindet sich derzeit als deutsch-französisches Projekt im
Aufbau und soll besonders stark im Auffinden multimedialer
Inhalte sein.
Die Funktionspaletten der Großen:
Neue Tendenzen
Personalisierung, Profiling, Lokalisierung,
News, Toolbars, weitere Programme
Suchmaschinen wollen mehr sein als bloße Findehilfen im
Internet. Daher hat der Trend zu Personalisierung und
Profiling voll eingesetzt. Google, Yahoo, A9 und andere
bieten die Möglichkeit, sich einen persönlichen Account
einzurichten, über den dann verschiedenste Dienste angeboten
werden: Email, personalisierbare News,
Bookmarkverwaltung und Suchhistory, Personalisierung der
Suchmaschinenhomepage, SMS-Dienste, Dating,
Marktplätze, Reiseangebote, lokale Suche, Landkarten,
Adressbücher, Organizer, usw. usf. Einer der letzten Hypes:
Google Mail und Google Earth.
Die „lokale Suche ist der eindeutige Trend der
vergangenen Wochen. Nur Google kommt in
Deutschland nicht aus dem Startloch zur lokalen
Suche. Stark ist Google hingegen beim Einkauf von
jungen Unternehmen.“ (Klaus Patzwald: @-web
Newsletter Nr. 174 vom 18.3.2006)
Yahoo! und Google
Beispiel Personalisierung, Profiling:
(Yahoo!)
Beispiel Lokalisierung: (Google)
Web.de: Lokale Suche (Geschäfte,
Restaurants, etc. in der Nähe, nur für
Deutschland)
Beispiel: News: (Google)
Beispiel: Buchsuche von Google.
Neue Produkte von Microsoft:
http://www.live.com/
Beispiel Anreicherung des Angebots
mit neuen Technologien: OnlineTextverarbeitung Writely + Google:
http://www.at-web.de/blog/?p=479
Beispiel: Anreicherung des Angebots
Aus einem Interview mit Urs Hölze, Vizepräsident von Google: mit neuen Technologien:
Wir versuchen herauszufinden, wie das Web später
einmal aussehen könnte. Produkte wie Google Earth
entspringen zunächst einmal diesem Forscherdrang. Es
ist klar, dass wir mit diesem Produkt erst einmal kein
Geld verdienen. Wir sammeln aber Erfahrung auf
einem Gebiet, das vielleicht in fünf bis zehn
Jahren wichtig wird: der ortsbezogenen
Informationssuche.
Mit drei Themen beschäftigen sich nicht nur wir,
sondern auch unsere Mitbewerber derzeit am meisten:
mit der personalisierten Suche, der Suche im
mobilen Internet und der ortsbezogenen Suche.
http://earth.google.com/
Jon Kleinberg: „Hubs“ und
„Authorities“
Vor einigen Jahren erkannte Kleinberg die
Möglichkeit, die nützlichsten Webseiten zu
einem Thema anhand ihrer Verlinkung zu
erkennen. Seiten auf die von vielen
anderen verwiesen wird, sind
"Autoritäten", Seiten die zu vielen
anderen Seiten verweisen, sind "Hubs".
Die vertrauenswürdigendsten Seiten eines
Der Wert, den wir mit allen unseren Produkten
generieren, ist ja nicht, dass wir Informationen
herstellen, sondern sie sinnvoll miteinander verbinden
und zugänglicher machen. Nehmen Sie Google News:
Mit diesem Produkt machen wir für sich genommen
genau 0,0 Dollar Umsatz. Dennoch ist der Dienst für
uns wichtig, denn wir erfüllen damit einen Teil des
Informationsbedürfnisses unserer Nutzer. (Quelle)
[2005]
Suchmaschinen versuchen weiters, zu einem Themengebiet
gehörende Webseiten zusammenzufassen („clustering“) sowie
soziale Gemeinschaften im Web zu erkennen ("communities"
-vs- "users", "small world"-Paradigma, "authorities" -vs"hubs"). Ein Beispiel, wie das aussehen könnte, sind die
Vernetzungen mit den Gewohnheiten anderer User bei
Amazon.
Themas sind, welche von den meisten
aktiven Hubs verlinkt werden. Eine
Variante dieser Idee wurde in der
Suchmaschine Google umgesetzt. Eine
strengere Umsetzung wurde mit der
Suchmaschine Teoma realisiert.Jon
Kleinberg stellt fest, dass es im scheinbar
chaotischen Internet erkennbare
Strukturen gibt. Die Strukturen werden
vor allem durch Gemeinschaften geprägt,
die gleiche Interessen vertreten und
verbinden.
Info zu Kleinberg, zum Thema
(Wikipedia).
Eine der Schwächen der herkömmlichen
Indizierungstechnologie liegt darin, dass das Clustern von
Themen, basierend auf einer automatischen Textanalyse, noch
nicht so richtig funktioniert. Eine neue Suchmaschine, die ein
solches Clustern versucht: http://clusty.com/
Beispiel: Dinev.
Viele BetreiberInnen bietet eigene Toolbars v.a. für MSIE an,
die bisweilen Sicherheitsrisiken darstellen können und
persönliches Surfverhalten rückmelden.
Google
Google mit Firmensitz in Mountain View, California, wurde
1999 als offizielle Suchmaschine im Web gestartet und hat in
kurzer Zeit die damals führende Suchmaschine Altavista
verdrängt; zuvor galt sie bereits einige Zeit als ein Geheimtipp.
Der Name leitet sich vom Wort „googol“ her. Dieser Begriff
steht für eine Zahl aus einem Einser gefolgt von 100 Nullen.
Google ist in Deutschland auch die Nummer 1 hinsichtlich der
meistbesuchten Websites; international rangiert Google auf
Platz 5.
In den letzten Monaten hat Google eine Reihe von neuen
Features implementiert, die allerdings noch nicht zur Gänze
auch in der deutschsprachigen Variante verfügbar sind
(Froogle, Google local, Wireless, Personalized Web Search,
Web und News Alert u.a.)
Wie finanziert sich Google?
Diese Frage wird oft gestellt, und in der Regel mit den
Werbe-Einnahmen beantwortet, die sich vor allem aus zwei
Quellen speisen:
• dem Programm „AdWords“, das Textanzeigen auf die
Trefferseiten von Google schaltet, die allerdings klar von
den Suchergebnisssen getrennt sind
• dem Programm „AdSense“, mit dem Google-Anzeigen von
Webmastern auf ihren Websites eingefügt werden können
Tatsächlich waren die Börsenwerte von Google lange Zeit
hervorragend. „Der Suchmaschinenprimus erzielte im ersten
Quartal des Geschäftsjahrs 2005 einen Umsatz von 1,256
Milliarden US-Dollar, eine Steigerung von 93 Prozent
gegenüber dem gleichen Vorjahresquartal.“ Tatsächlich waren
die Börsenwerte von Google lange Zeit hervorragend.
„Der Suchmaschinenprimus erzielte im ersten Quartal
des Geschäftsjahrs 2005 einen Umsatz von 1,256
Milliarden US-Dollar, eine Steigerung von 93 Prozent
gegenüber dem gleichen Vorjahresquartal.“ (Quelle)
„De facto sind wir das Unternehmen mit den weltweit
größten Gewinnmargen, und das, obwohl die Nutzung
unserer Suchmaschine kostenlos ist. Google Earth für
sich genommen hat vielleicht noch keinen großen Wert,
es ist eher faszinierend denn nützlich. Aber was, wenn
man die Maps mit anderen Informationen verknüpft?“
- meint Urs Hölzle. (Quelle)
2006 hat sich die Lage jedoch geändert:
"Das Gesetz der großen Nummern" führe dazu, dass
das Wachstum nicht mehr so stark ausfallen könne wie
früher, zitiert etwa das Wall Street Journal den
Google-Manager. Man müsse nun neue Wege suchen,
um den Umsatz weiter zu steigern, meinte Reyes. Die
Bemühungen, mehr Geld aus der Websuche durch
Optimierung des Anzeigensystems herauszuschlagen,
hätten nun so gut wie alle möglichen Zuwächse
erbracht. (Quelle)
Google wurde vor allem durch die Einführung eines neuen
Ranking-Verfahrens bekannt.
Ranking bei Google
„Im Zuge der Entwicklung des World Wide Webs
wurden verschiedene Verfahren zur Bewertung von
Webseiten mit dem Ziel der Relevanzbeurteilung durch
Suchmaschinen entwickelt. Ein aus unmittelbar
einleuchtenden Gründen auch heute immer noch von
praktisch allen Suchmaschinen genutzter Maßstab ist
das Vorkommen eines Suchbegriffs in den
Inhalten einer Webseite. Dieses Vorkommen wird nach
den verschiedensten Kriterien wie etwa der relativen
Häufigkeit des Vorkommens (der sog. KeywordDichte), den Stellen des Vorkommens des Suchbegriffs
oder auch der Exponiertheit des Suchbegriffs im
Dokument gewichtet.“ (Quelle) [2003]
Urs Hölzl: „Wir zeigen de facto kaum
Suchergebnisse an, bei denen die Treffer nach
Pagerank geordnet sind. Bei der Bewertung spielen
ganz viele Kriterien eine Rolle. Der Algorithmus wird
fast monatlich geändert.“ (Quelle) [2005]
Das PageRank-Konzept
Das PageRank-Verfahren stützt sich im Kern auf
Veröffentlichungen der Google-Gründer Lawrence Page und
Sergey Brin und wurde an der Standford-University
entwickelt.
„Die Bedeutsamkeit eines Dokuments bestimmt
sich im Rahmen des PageRank-Konzepts [...] aus der
Bedeutsamkeit der darauf verlinkenden
Dokumente. Deren Rang wiederum bestimmt sich
ebenfalls aus dem Rang verlinkender Dokumente. Die
Bedeutsamkeit eines Dokuments definiert sich
stets rekursiv aus der Bedeutsamkeit anderer
Dokumente. Da - wenn auch über viele
hintereinanderfolgende Links hinweg - der Rang eines
jeden Dokuments eine Auswirkung auf den Rang eines
jeden anderen hat, beruht das PageRank-Konzept
letztlich auf der Linkstruktur des gesamten Webs.
Obwohl diese ganzheitliche Betrachtung des WWW es
nicht vermuten lässt, gelang es Page und Brin das
PageRank-Konzept mittels eines relativ trivialen
Algorithmus umzusetzen.“ (Quelle) [2003]
Das PageRank-Verfahren ist nur ein Teil jener Algorithmen,
die das Ranking auf der Ergebnisseite definieren. Eine
wichtige Rolle spielt jedenfalls auch „Topic Search“, das
Clustern von Themen: "Im Moment suchen die Maschinen
nur nach Worten auf den Internetseiten. Die Maschinen
müssen aber besser verstehen, welche Themengebiete der
Nutzer meint", sagt Monika Henzinger, seit 1999
Forschungdirektorin bei Google.
Ähnlich resümiert auch Klaus Patzwald: „Google
verwendet maschinenbasiertes Lernen um die Treffer
besser sortieren zu können. Dafür versucht das System
konzeptionelle Cluster zu bilden. Begriffe und
Wortgruppen werden nach ihrer Bedeutung in
"vernünftige, zusammenhängende" Gruppen sortiert.
Die Sortierung und Benennung dieser Gruppen erfolgt
automatisch. Mit Hilfe dieser Cluster wird es möglich,
dass Treffer geliefert werden, die den Suchbegriff gar
nicht enthalten, aber passend zur Anfrage sind.“
(Quelle: Klaus Patzwaldt [Hg.]: @web Newsletter 6. Jg,
Nr. 148, 12.03.2005)
Moderne Konzepte hinter einer einfachen
Fassade
Hinter Google steht ein Netzwerk mit einer großen Anzahl von
linux-basierten Servern, die auf etwa 13 Rechenzentren
aufgeteilt sind. Sobek nennt 10.000, @web 54.000 Computer
in etwa 13 Rechenzentren mit Schwerpunkt in den USA. Für
die Lastverteilung, die Ausfallssicherheit des Systems und die
Lenkung der Benutzeranfragen sorgt die geschickte
Ausnutzung des DNS-Systems.
Die technische Seite von Suchmaschinen
Google verwendet viele, billige Server (ca. 1000 US$ pro
Stück) und eine angepasste Version von Redhat-Linux, sowie
ein eigenes Filesystem, das Redundanz bei der Datenhaltung
unterstützt:"We take our files and chunk them up, then you
randomly distribute the chunks across different machines,
making sure each chunk has at least two copies that are not
physically adjacent -- not on same power strip or same switch,"
Hoelzle said. "We try to make sure that even if one copy goes
away, another copy is still here." Chunks typically are 64
megabytes and are replicated three times.“ (Quelle)
[2005]
Warum wurde Google Domain-Registrar?
Es gibt laut Datamonitor Vermutungen, dass Google besser
prüfen könnte, ob Domains den Besitzer gewechselt haben um
den PageRank für den neuen Domainbesitzer zurückzusetzen.
Inhaber der neuen Domain würden nicht vom bisherigen
PageRank profitieren. „Google said in a statement sent to
reporters:
Wie das mit dem DNS-System
funktionieren kann, lesen Sie unter
http://dance.efactory.de/d-index.php
Google has become a domainname registrar to learn
more about the internet's domain name system... we
believe this information can help us increase the quality
of our search results. (Quelle) [2005]
Suchen mit Google
Einfache Suche. Sie haben ein Eingabeformular vor sich
und können drauflos tippen. Google “undiert” Begriffe, die
durch Leerzeichen getrennt sind. In der Ergebnisliste werden so Google – nur jene Seiten ausgegeben, die alle Ihre Begriffe
beinhalten. Durch die Eingabe mehrerer Wörter können Sie
also sehr schnell die Suche einschränken. Die praktische
Erfahrung zeigt jedoch, dass zunächst jene Seiten ausgegeben
werden, in denen die Begriffe "prominent" und gemeinsam
vorkommen, auf den folgenden Seiten finden sich aber oft
auch Treffer mit nur einem Begriff.
Google-Suchhilfe
Beispiele:
"Mann" "Frau" "Thomas Mann" "Heinrich
Mann Untertan"
"Kater" (Ambiguität!)
Google sucht genau nach den eingegebenen Begriffen (und
trunkiert diese nicht). Die Eingabe „Kater“ findet nicht
„Katerloch“ oder „Muskelkater“.
Das Ergebnis-Fenster , beschrieben bei Google.
Groß -und Kleinschreibung: Zwischen Groß- und
Kleinschreibung wird nicht differenziert.
Umlaute: Die Eingabe von Umlauten ist nicht erforderlich.
„Schnösel“ findet „Schnösel“ und „Schnoesel“. Für eine exakte
Suche müssen Sie ein „+“ vor den Begriff setzen. Sagt Google,
doch testen Sie selbst:
Testen: "Hoedlmoser gruber reinhard"
"Hödlmoser gruber reinhard"
" +Hödlmoser gruber reinhard"
Worttrenner werden ignoriert: „Software-Entwicklung “ und
„Softwareentwicklung“ erzielt (ungefähr) dieselbe
Treffermenge, sagt Google, testen Sie selbst und versuchen Sie,
die Ergebnisse zu interpretieren.
Verschiedene Schreibweisen werden laut Google ebenfalls "graphik graz bild foto"
ignoriert. Will man nach Schreibung differenzieren, soll man
"grafik graz bild foto"
ein „+“ vor den Begriff setzen. Sagt wiederum die Google-Hilfe.
Phrasensuche: Wenn Sie einen Begriff in
Anführungszeichen setzen, wird eine Phrasensuche gestartet;
d.h. Sie erhalten nur jene Seiten als Treffer, in denen die
gesamte Ausdruck vorkommt.
In der Phrasensuche sind offenbar Wildcards möglich.
" Wer jetzt kein Haus hat, baut sich
keines mehr"
"Nörgler * Kraus"
Stopwörter: Bestimmte Wörter bzw. Zeichen werden bei der
Suche nicht berücksichtigt. Durch die Eingabe eines Plus vor
" Star Wars Episode +I"
dem Wort können Stopwörter in die Suche mit aufgenommen
werden.
Ein Minuszeichen (-) vor einem Leerzeichen schließt das
nachfolgende Wort aus. Das Ergebnis enthält das Wort nicht.
Etwa: "zweig -stefan -arnold +pflanze"
Suche nach Zahlenwerten: Wenn Sie Intervalle bei
Zahlenwerten suchen möchten, geben Sie zwei Punkten
zwischen dem unteren und dem oberen Wert ein. „Stefan
Zweig 1930..1940“ liefert Treffer von Seiten, in denen die
(Jahres)zahlen zwischen 1930 und 1940 vorkommen.
"bertold brecht 1945..1956"
Der „Taschenrechner“: Sie können google auch für
Umrechnungen und Rechenoperationen benutzen.
"17 inch to cm"
Zugverbindungen
"graz paris"
Weitere derartige Funktionen von Google.
Übersicht bei Google.
GMail
„Als normaldenkender Mensch musste man auch die
Meldung zu GMail für einen Scherz halten. Nicht
wegen der 1 Gigabyte kostenlosen Speicherplatz für
einen Freemailaccount. Okay, dort ist viel Platz für die
Datenablage. Völlig unsinnig erscheint das Anliegen,
sämtliche E-Mails mit der GoogleSuchmaschinentechnologie erfassen zu wollen. Wer
ist den tatsächlich bereit, seine persönlichen
Daten von wildfremden Menschen verwalten zu
lassen? Daten, sprich sämtliche E-Mails werden nicht
gelöscht, wenn der Account beendet wird. Passiert das
wirklich im Sinne der Nutzer?“ meint der @-web
Newsletter, Nr. 125.
Inzwischen wurde das Service auf 2 GB
ausgeweitet.
Lesen Sie mal kritisch die
Nutzungsbedingungen!
"Scholar"
„Ca. 20 US-Dollar kostet es Google ein Buch zu
digitalisieren, ca. 5000 Bücher pro Tag soll die eigens
dafür gebaute Buch-Scan-Strasse von Google
wegarbeiten. Was bedeutet, dass täglich 100 000 USDollar für Google Print ausgegeben werden und, bei
gut 1,1 Millionen digitalisierten Büchern, die ersten 22
Millionen US-Dollar bereits verscant sind.“ (Quelle)
[2005]
"die letzten tage der menschheit"
Erweiterte Suche. Bei der erweiterten Suche lassen sich
eine Reihe von zusätzlichen Einstellungen wie etwa die
Einschränkung auf bestimmte Domains, gesuchte
Dokumententypen, Zeitangaben etc. treffen.
• link: Interessant ist z.B. die Option link:, mit – in
vereinfachter Form - der die „Link-Popularity“ getestet
werden kann.
Beispiel: 'link:http://www-gewi.kfunigraz.ac.at/edu/'
Ausühren in Google
• Mit „-filetype: PDF“ können Sie nach PDF-Dateien suchen Google – Seite der erweiterten Suche
Beispiel: literatur österreich filetype:pdf
• site: nur in den Seiten einer Website oder Domain suchen
Beispiel: literatur österreich filetype:pdf site:uni-graz.at
• -site: schließt eine bestimmte Site oder Domain aus
• inurl: Suche eines Begriffs nur im URL
Beispiel: inurl:jelinek
• intitle: sucht einen Begriff nur im Titel der Seite
• movie: Sucht nach Informationen über Filme
• "Auf gut Glück!" bringt Sie zur erstgerankten Seite.
Individuelle Sucheinstellungen. Hier kann die
BenutzerIn Settings und Filter in Bezug auf die Ausgabe
festlegen. Eine Besonderheit bildet die Toolbar von Google.
Tipps
1. Geben Sie möglichst mehrere Suchbegriffe ein,
formulieren Sie präzise Anfragen.
2. Weiter sollten Sie überlegen, welche Begriffe noch in
Zusammenhang mit dem Suchwort stehen oder welche Sie
explizit ausschließen wollen. Ein schrittweises Eingrenzen
bei zu vielen Treffern bietet sich an. Es kann hilfreich
sein, die verknüpften Begriffe leicht zu variieren, denn Sie sind
bei der Suche in der Regel darauf angewiesen genau die
Terminologie zu verwenden, derer sich der Autor der
entsprechenden Seite bedient hat.
3: Dokumente, die seltene Suchbegriffe enthalten, sind mit
einer höheren Wahrscheinlichkeit relevant als Dokumente, die
Seite bei Google
häufige Suchbegriffe enthalten. Konsequenz: Verwenden Sie
spezifische Suchbegriffe!
4. Benutzen Sie die erweiterte Suche, wenn Sie spezielle
Erfordernisse definieren können.
5. Wenn Sie an zusammenfassenden Darstellungen
interessiert sind, suchen Sie doch mal nach PDF-Dateien.
Metasuchmaschinen
Sie durchsuchen gleich mehrere Suchserver auf einmal. Dabei
unterscheidet man zum einen "echte" Meta-Suchmaschinen,
die gleichzeitig eine Reihe weiterer Server durchsuchen und
Beispiele für Metasuchmaschinen:
die Ergebnisse dann übersichtlich aufbereiten. Die Tätigkeit
Metager , Karlsruher Virtueller Katalog
der Metasucher ist jedoch rechtlich nicht unproblematisch. Sie
nutzten fremde Daten, um sie in eigenem Gewand zu
präsentieren.
Portale
Portale bieten einen themenorientierten, bereichsbezogenen
Zugang zu Infomationen im Netz
(DAF-Portal mit Newsletter)
(Germanistische und latinistische
Mediävistik: Mediaevum)
(CLIO - Fachportal/Subject Gateway für
Geschichtswissenschaft, inkl.
Metasuchmaschine)
(Kommunikation und Fachinformation für
die Geschichtswissenschaften)
(„Erlanger Liste“ - Fachinformation
Germanistik und Literaturwissenschaft)
(Perlentaucher - Literaturbesprechungen)
Software suchen
Es gibt Portale, über welche man freie Software oder
Shareware beziehen kann, etwa:
http://www.shareware.com
http://www.download.com
http://www.tucows.com
http://sourceforge.net/ (Open Source Software)
Personen und Email-Adressen suchen
Menschen im Internet zu finden sollte nicht so schwer sein,
könnte man glauben. Aber mangels zentralem "Melderegister"
und diverser technischer Stolpersteine ist es gar nicht so
einfach die gesuchte Person zu finden.Eine Reihe
Suchmaschinen haben sich darauf spezialisiert, E-Mail
Adressen zu finden. Das Problem bei solchen Adressen ist
dasselbe wie bei allen Informationen im Netz: Es gibt kein
zentrales Verzeichnis, keine Firma, kein "Amt", das Nummern
vergibt, zuweist und registriert. Daher gibt es auch kein
offizielles Telefonbuch. Jeder, der einen der mehreren
Millionen Server betreibt, kann innerhalb weniger Sekunden
einen E-Mail Account einrichten. Und genau so geschieht es
auch. Adressen entstehen in Sekunden und werden oft schon
nach kurzer Zeit wieder gelöscht.
Zeitungen, Nachrichtendienste
http://www.bigfoot.com/ (USA)
http://people.yahoo.com/ (USA)
Telefonbücher:
http://www.herold.at/ (Österreich, mit
Email-Adressen)
http://www.t-info.de/ (Deutschland)
Online sein heißt verdrahtet sein mit dem aktuellen
Weltgeschehen. Wenn Sie es drauf anlegen, dann bekommen
Sie alle wichtigen Headlines dieser Welt fast in Echtzeit auf
den Bildschirm. Oder Sie können sich einen Agenten oder
virtuellen Redakteur engagieren, der weltweit jede Menge
Meldungen nach Ihrem Interessengebiet filtert und
aufbereitet. Inzwischen gibt es eine große Anzahl von
Nachrichtenanbietern, auch deutschsprachige. Der Newsticker
ist auf vielen Seiten - zunehmend auch bei Suchmaschinen im normalen Angebot enthalten und kostenlos nutzbar.
Viele der bekannten Tageszeitungen, Zeitschriften,
Nachrichtengenturen und Sendeanstalten haben ihre
Websites, über welche aktuelle Informationen erhältlich sind.
V.a. bei Zeitungen ist zu beachten, dass sich Printausgaben
und Webausgaben im Umfang nicht decken.
News
http://news.google.at/ (tagesaktuelle Nachrichten, fasst
700 Nachrichtenquellen zusammen,
Personalisierungsmöglichkeit)
Tagesaktuelle Nachrichten
http://www.paperazzi.de/ (mit Mail-Service)
http://paperball.de (v.a. deutschsprachige Zeitungen)
Nachrichtendienste
http://futurezone.orf.at
Neu für Angehörige der KFUG:
http://www.zukunftwissen.apa.at/ Informationen der APA
aus dem Bereich Wissenschaft und Bildung.
Newsticker:
http://www.heise.de/
http://www.golem.de/
Verzeichnis
Einen internationalen Überblick über Zeitungen und
Nachrichtendienste liefert http://www.kidon.com/medialink/index.shtml
„Blogger“ , Weblogs
„Ein Weblog oder Blog (ein Kunstwort aus 'Web' und
'Logbuch') ist eine Webseite, die periodisch neue
Einträge enthält. Neue Einträge stehen an
oberster Stelle, ältere folgen in umgekehrt
chronologischer Reihenfolge. Zum
grammatischen Geschlecht ist zu bemerken, dass
überwiegend das Weblog gebraucht wird, wenngleich
auch der Weblog verbreitet ist. [...] Weblogs sind
vergleichbar mit Newslettern oder Kolumnen,
jedoch persönlicher - sie selektieren und
kommentieren oft einseitig und werden
deswegen auch mit Pamphleten des 18. und 19.
Jahrhunderts verglichen. Weblogs sind demnach
keine Alternative zu (Online-)Zeitungen, sondern eine
Ergänzung. Im Idealfall reagieren Weblogs schneller
auf Trends oder bieten weiterführende Informationen
bzw. Links zu bestimmten Themen. Die meisten
Weblogs haben eine Kommentarfunktion, die es den
Lesern ermöglicht, einen Eintrag zu kommentieren und
so mit dem Autor oder anderen Lesern zu diskutieren.“
(Quelle)
Für Blogs gibt es eigene
Suchmaschinen,
z.B.
http://www.google.at/blogsearch
http://www.technorati.com/
Verschiedene Websites bieten die Möglichkeit an, für sich
selbst einen „Blog“ einzurichten, z.B. Googles
http://www.blogger.com/home
RSS
RSS wird verwendet, um Inhalte von Webseiten
(insbesondere Nachrichtenmeldungen) in
maschinenlesbarer Form bereitzustellen. [...] Seit Mitte 2003
wird RSS vermehrt von Informationsanbietern integriert:
Viele Online-Ausgaben von Zeitungen und Zeitschriften haben
eigene RSS-Feeds eingerichtet.
Neu veröffentlichte Inhalte werden dank RSS
automatisch in regelmäßigen Abständen auf die
Computer (oder andere Endgeräte wie z.B. Handys,
PDAs oder mobile Spieleplattformen) des Abonnenten
geladen. Dadurch bekommt der Abonnent die jeweils
neuesten Informationen automatisch und bequem
geliefert.
Das Abonnement ist aber nicht auf reine Text-Inhalte
beschränkt, Verwendungen wie beispielsweise in
Podcasts zeigen, dass man auch Audio- oder
Video-Inhalte via RSS abonnieren kann, die
dann beispielsweise auf tragbare Musikplayer wie den
Apple iPod geladen werden. Die Bereitstellung von
Daten im RSS-Format bezeichnet man auch als RSSFeed. (Quelle)
Um diese „Feeds“ zu lesen, benötigte man früher spezielle
PlugIns für Browser oder das Mail-Programm. Inzwischen
haben die modernen Browser diese Eigenschaften bereits
integriert (Firefox 2.0 oder MS-Internet-Explorer 7)
Medienarchive
Medienarchive von Nachrichtendiensten bieten eine sichere,
verifizierbare Informationsquelle. Anders als die von
jedermann zusammengeschriebenen Webseiten kann man (je
nach persönlicher Einschätzung) von einer gewissen
Reputation und Seriosität ausgehen. Die Archive sind
allerdings derzeit noch nicht vollständig: Oft reichen die
erfassten Beiträge nur ein paar Jahre zurück. Sie sind zudem
oft kostenpflichtig.
Nachschlagewerke, Wörterbücher
Im Internet finden sich zahlreiche Nachschlagebehelfe. Bei
größeren Unternehmungen, die auch in gedruckter Form oder
auf CD-ROM vorliegen, sind jedoch die Inhalte meist
gegenüber den zu kaufenden Ausgaben gekürzt. Einige
Angebote sind auch kostenpflichtig. Neben Allgemein-Lexika
finden sich auch Speziallexika zu bestimmten Themen und
Fachbereichen sowie Wörterbücher.
Allgemeine Nachschlagewerke
http://de.wikipedia.org/ (freie Enzyklopädie)
Das Wortschatz-Lexikon
bietet den Zugriff auf 9 Millionen Wörter:
http://wortschatz.informatik.uni-leipzig.de/
Häufig gestellte Fragen zum Thema RSS
(ORF-Seite).
Grimmsches Wörterbuch
http://www.dwb.uni-trier.de/welcome.htm
Wörterbuch-Portal:
http://www.woerterbuch-portal.de/ Deutschland
Digitales Wörterbuch der deutschen Sprache des
20.Jahrhunderts (Anmeldung erforderlich):
http://www.dwds.de/
Mittelhochdeutsche Wörterbücher:
http://www.mwv.uni-trier.de/index.html
Wörterbuch und Grammatik für Deutsch:
http://www.canoo.net/index.html
Fotos von AutorInnen:
http://www.literaturfoto.net/
Bibliotheken
Bibliotheken sind als öffentliche Einrichtungen
klassische Anbieter von gesicherter Information über
wissenschaftliche Publikationen.
Aufgrund der sorgfältigen Aufnahme der Daten nach
festgelegten bibliographischen Richtlinien haben die
Informationen besondere Qualität (genaue Titelzitate und
Nachweise, strukturierte Beschlagwortungssysteme). Die
Bedienung der OPACs (Open Public Access Catalogue) setzt
jedoch oft bestimmte bibliographie Grundkenntnisse voraus.
Viele Bibliotheken bieten für ihre NutzerInnen auch Zugänge
zu CD-ROM-Beständen an (oft aus urheberrechtlichen
Gründen eingeschränkt auf das „Intranet“). Verschiedene
Bibliotheken bieten ein Digitalisierungsservice anstelle der
„Fernleihe“ an. Die UB Graz arbeitet in diesem Bereich mit
Austrian Literature Online zusammen.
UB-Graz:
http://mistral.uni-graz.at/ (Suche im Grazer Aleph)
http://www.uni-graz.at/ub/links/index.php (Linkseite der
UB-Graz)
http://cdsrv.uni-graz.at/cdrom/ (E-Medien Server der UBGraz)
Bsp: Bibliographie d. dt. Sprach- u. Literaturwiss.
International:
http://www.ubka.uni-karlsruhe.de/kvk.html (Karlsruher
Virtueller Katalog, eine Metasuchmaschine, Überblick über
die wichtigsten Bibliotheken und Bibliotheksverbünde
http://lcweb.loc.gov/homepage/lchp.html (Library of
Congress)
Literaturarchive
Auch Literaturarchive sind bestrebt, Teile ihres Bestandes
online zu stellen.
http://www.onb.ac.at/koop-litera/ (Portal der
österreichischen Literaturarchive)
Buchverzeichnisse
Buchverzeichnisse von meist kommerziellen AnbieterInnen
reichen von Antiquariatskatalogen bis zu Verzeichnissen der
im Buchhandel lieferbaren Bücher. In vielen Fällen gibt’s auch
Klappentexte, Inhaltsverzeichnisse oder Miniaturen der
Einbände. In manchen auch Teile aus dem „Volltext“.
http://www.buchhandel.de (Verzeichnis lieferbarer Bücher)
http://www.amazon.de/
Antiquariate:
http://eurobuch.com/ (Verbund von Online-Marktplätze im
deutsch- und englischsprachigen Raum)
Neue Funktionen bei Amazon (international)
Amazons Buchangebot setzt sich aus den Datenbanken von
VlB, Libri und KNO/K&V zusammen. Alle dort vorhandenen
Bücher werden automatisch bei Amazon angezeigt. Urheber
bzw. Verlage können selbstständig, sollten sie mit der
Abbildung der Daten nicht zufrieden sein, Informationen
nachmelden.
Bibliografische Informationen:
Cover, Seiten, Verlag, Erscheinungsdatum, ISBN, Hinweise auf
andere Ausgaben, Audio, Video. Rezensionen. Gebrauchte
Bücher + Product Details (genaue Bibliografische Angaben)
Scans des Volltexts:
Auszüge aus dem Buch: Front Cover, Copyright, Excerpt, Back
Cover, SurpriseMe, Suche im Buch.
Inside This Book – Feature: Capitalized Phrases,
Statistically Improbable Phrases, Citations. Bsp: Elfriede
Jelinek: The Piano Teacher. (mit Login)
Elektronische Texte und andere
Sammlungen von Quellen
Einerseits gibt es groß angelegte Bestrebungen, Teile der
Weltliteratur und des „kulturellen Erbes“ zu digitalisieren und
im Internet verfügbar zu machen, andererseits wird das WWW
selbst zum Medium „digitaler Literatur“. Beispiele für
Volltextarchive:
http://gutenberg.spiegel.de/ (Gutenberg-Projekt
Deutschland)
http://etext.lib.virginia.edu/
http://www.literature.at/ (Austrian Literature Online)
http://mhgta.uni-trier.de/ (Digitales Mittelhochdeutsches
Textarchiv)
http://directory.google.com/Top/Arts/Literature/Electronic_T
ext_Archives (Electronic Text Archives - Verzeichnis bei
Google)
Gutenberg.de: http://gutenberg.spiegel.de/info/info.htm
Das Projekt Gutenberg-DE wurde 1994 als Freizeitprojekt
begonnen, als es nur wenige deutschsprachige Texte im
Internet gab. Bis heute sind mehrere zehntausend
Arbeitsstunden für das Projekt vom Gutenberg-Team
aufgebracht worden. Seit über zehn Jahren stellt das Projekt
Gutenberg-DE kostenlos für jeden Literatur ins Internet. Das
Team hat in dieser Zeit unter Mithilfe freiwilligen,
unbezahlten Helfern die größte deutschsprachige OnlineLiteratursammlung mit bis zu 3,3 Millionen Seitenabrufen im
Monat aufgebaut. Umfang:
ca. 80.000 Dateien (ca. 420.000 Textseiten)
über 1.100 MB an Text- und Bildmaterial
14.000 Gedichte
1.600
1.200
3.500
1.700
Märchen
Fabeln
Sagen
vollständige Romane, Erzählungen, Novellen
Bildquellen:
Beispiel: "NYPL Digital Gallery provides access to over
275,000 images digitized from primary sources and printed
rarities in the collections of The New York Public Library,
including illuminated manuscripts, historical maps, vintage
posters, rare prints and photographs, illustrated books,
printed ephemera, and more."
http://digitalgallery.nypl.org/nypldigital/
Historisches Quellenmaterial:
Beispiel: Die Codices Electronici Ecclesiae Coloniensis
http://www.ceec.uni-koeln.de/
Beispiel für Online-Literatur:
http://www.leselupe.com/
Wissenschaftliche Zeitschriften und
ähnliche Publikationen
Die von Printpublikationen bekannten Publikationstypen
verändern oft ihre Merkmale, wenn sie das Medium wechseln.
Bei den Zeitschriften etwa ist „Periodizität“ nicht mehr
erforderlich; Beiträge können dann erscheinen, wenn sie
einlangen und (eventuell) redigiert sind. LeserInnen können
oft Beiträge zu den Veröffentlichungen direkt online eingeben
und öffentlich machen. Die Grenzen zu anderen
Publikationsformen verschleifen sich.
Immer mehr wissenschaftliche Zeitschriften finden sich im
Internet; die Zugänge sind jedoch oftmals beschränkt.
http://rzblx1.uni-regensburg.de/ezeit/ Liste
wissenschaftlicher Zeitschriften, die Artikel im Volltext
anbieten (Uni Regensburg, sehr umfangreich)
http://www.kluweronline.com/issn/0010-4817 (Computers
in the Humanities)
http://cdsrv.uni-graz.at/cdrom/ (E-Medien Server der UBGraz)
Bsp: Bibliographie d. dt. Sprach- u. Literaturwiss.
Online-Zeitschriften zu Kultur, Kunst, Literatur
(Beispiele):
http://www.ctheory.net/,
http://www.dichtung-digital.de/index.htm
http://www.computerphilologie.de