[Das Bild wurde mit Hilfe der Wordcloud

Transcription

[Das Bild wurde mit Hilfe der Wordcloud
[Das Bild wurde mit Hilfe der Wordcloud-Generator (http://wordle.net/) erstellt. Die Schriftgröße eines Schlagwortes wird durch
dessen Häufigkeit bestimmt. Hier wurde die Häufigkeit künstlich erhöht, um den Titel und die wichtigsten Begriffe darzustellen.]
Tagged Objects Collections
Seminar
Soziales Retrieval im Web 2.0 SS08
Lehrstuhl Informationssysteme
Bearbeiter:
Tuan-Vu, Tran
Betreuer:
Dipl.-Inform. Sascha Kriewel
Inhalt
1.
Abstrakt ............................................................................................................... 4
2.
Einleitung............................................................................................................. 4
2.1. Motivation ...................................................................................................... 4
2.2. Tagged Objects Collections ........................................................................... 4
2.2.1.
Was sind Tagged Objects Collections ? ..................................................... 4
2.2.2.
Arten von Tagged Objects Collections ....................................................... 5
3.1. Flickr (http://flickr.com) .................................................................................. 5
3.2. Last.fm (http://last.fm) .................................................................................... 6
3.3. Slideshare (http://slideshare.net) ................................................................... 7
3.4. Youtube (http://youtube.com) ........................................................................ 8
4.
Vorteile von Tagged Objects Collections ............................................................. 9
4.1. Mehr Struktur ................................................................................................. 9
4.2. Trend aufspüren ............................................................................................ 9
4.3. Soziale Erfahrungen .................................................................................... 10
4.4. Webseite verbinden ..................................................................................... 10
5.
Realisierung ...................................................................................................... 10
5.1. Tagging ....................................................................................................... 10
5.2. Autotagging ................................................................................................. 11
5.3. Social Browsing ........................................................................................... 12
5.4. Tag- Recommendation ................................................................................ 13
6.
Zusammenfassung - Ausblick ........................................................................... 14
7.
Referenzen ........................................................................................................ 15
1. Abstrakt
Wenn man über Web 2.0 spricht, führt kein Weg an den neuen Social-Media-Sites
vorbei. Flickr, Last.fm, Slideshare und Youtube sind die populärsten ihrer Art. Sie
benutzen verschiedene Tagging-Systeme um ihre Mediendateien zu verwalten und
katalogisieren. Dabei haben sie eine Gemeinsamkeit, Tagged Objects Collections,
Kollektionen von getaggten Objekten. In dieser Ausarbeitung werde ich Tagged
Objects Collections betrachten, ihre Vorteile analysieren und mich anschließend mit
ihrer Realisierung auseinandersetzen.
2. Einleitung
2.1. Motivation
Mit der raschen Entwicklung des Internets und mit dem zunehmenden Bedarf an
Kommunikation und Entertainment via Internet bietet Web 2.0 eine Plattform mit
vielfältigen Möglichkeiten. Besondere nutzergenerierte Inhalte erzeugen eine enorme
Menge an Daten und Informationen, die sich ständig vervielfachen. In diesem
Informationsdschungel verliert der Benutzer oft den Überblick. Um einen richtigen
und schnellen Weg zu finden, braucht der Benutzer effektiveres
Klassifikationssystem als Taxonomie. Mit Gemeinschaftliches Indexieren
(Folksonomie) lassen sich Ressourcen gemeinsam indexieren und katalogisieren.
Dies ist besonders wichtig für Mediendateien. Anders als textbasierten Dateien
lassen sich Mediendateien inhaltlich nur schwer von Computern automatisch
indexieren. Tags werden benutzt, um in der Rolle von Metadaten bei Mediendateien
zu spielen. Mit den Metadaten lassen sich Mediendateien einfacher sortieren und
katalogisieren. Dabei entsteht ein Problem, dass diese Tags auch katalogisiert
werden müssen, um Zielobjekte schneller und einfacher zu finden.
Tagged Objects Collections sammeln „getaggte Objects“ und fassen sie zu
Kollektionen zusammen um das Finden und Wiederfinden zu vereinfachen.
2.2. Tagged Objects Collections
2.2.1. Was sind Tagged Objects Collections ?
Tagged Objects Collections sind Sammlungen von Objekten, die vorher getaggt
wurden. Dabei könnten Objekte Musikstücke, Bilder, Videos, Slides (Präsentationen)
und ähnliches sein. Diese wurden entweder von dem Besitzer selbst, von der
Website (autotagging) oder gemeinsam von der Community, getaggt. Es gibt zwei
Arten von Sammlungen.
4
2.2.2. Arten von Tagged Objects Collections
Es gibt Kollektionen, in denen alle Objekte denselben Tag oder einen gemeinsamen
Tag haben. Wenn ein Benutzer nach dem Tag „Web 2.0“ bei Slideshare sucht,
bekommt er beispielweise eine Kollektion aller Slides, die mit dem Tag „Web 2.0“
versehen wurden. Dies ist besonders nützlich, wenn der Benutzer sich für ein
konkretes Thema interessiert und nach relevanten Ressourcen mit einem bekannten
Suchbegriff suchen will.
Tagged Objects Collections sind aber auch Kollektionen, in denen Objekte
verschiedene Tags haben. Sie könnten eine Kollektion aller abgespielte Musik bei
einem Last.fm-User sein, oder eine Kollektion der meist gesehenen Videos („most
viewed“) bei Youtube. Solche Kollektionen werden oft automatisch erzeugt, um
Benutzer interessante Information bereitzustellen . Hier ist dann unglaublich
interessant zu sehen, wie die Verteilung der Tags in der Kollektionen ist.
3. Flickr, Last.fm und co.
In Rahmen dieses Seminars werden ich die sogenannten „Social Media Sites“ als
Beispiele betrachten. Flickr, Youtube und Slideshare sind „User Generated Content
Sites“ d.h. ihre Inhalte werden von den Nutzern erstellt. Last.fm kann eher als
„Personal Objects Cataloging Site“ klassifiziert werden, obwohl sie Mp3 und Videos
bietet.
3.1. Flickr (http://flickr.com)
Flickr ist eine Web-2.0-Anwendung, die es Benutzern erlaubt, digitale Bilder mit
Kommentaren und Notizen auf die Website und so anderen Nutzern zur Verfügung
zu stellen. Neben dem herkömmlichen Upload über die Website können die Bilder
auch per E-Mail oder vom Fotohandy aus übertragen werden und später von
anderen Webauftritten aus verlinkt werden.
Flickr bietet die Möglichkeit, Fotos in Tags zu sortieren, in sogenannte Pools
aufzunehmen, nach Stichworten zu suchen, so genannte Fotostreams anderer
Benutzer anzuschauen und Bilder mit Bildausschnitten zu kommentieren.
Die Möglichkeit, Bilder zu taggen, mit einer Beschreibung zu versehen und von
anderen kommentieren zu lassen, unterstützt den Anwender beim schnellen Aufbau
von Metadaten. Dabei benutzt Flickr ein soziales Tagging-System, d.h. der Besitzer
kann seine Bilder beliebig taggen und kann festlegen, ob die anderen Benutzer
seine Bilder auch taggen dürfen. Außerdem bietet Flickr „geotagging“, eine Methode,
einem Foto Ortsinformationen hinzuzufügen. Der Benutzer kann mit der Drag-andDrop-Funktion die Fotos auf die Stelle der Karte platzieren, an der das Foto
aufgenommen wurde. Flickr unterstützt nur Ein-Wort Tags, das heißt, Tags dürfen
5
nur ein Wort lang sein. Ein Tag-Recommendation-System gibt den Benutzern
Vorschläge beim Taggen.
Neben der Volltextsuche bietet Flickr Suchfunktionen nach Tags. Außerdem kann
nach Kamera gesucht werden. Dazu hat Flickr eine Liste die beliebteste Kameras in
der Community.
Abbildung 01: Eine typische Kollektion bei Flickr. Dies ist eine zufällige Auswahl aus
den interessanten Fotos, die in den letzten 7 Tagen bei Flickr gefunden wurden.
3.2. Last.fm (http://last.fm)
Last.fm ist ein Internetradio auf Basis von sozialer Software („personalised online
radio station“). Es wurde entwickelt, um Nutzer auf Basis ihrer Hörgewohnheiten
neue Musik, Menschen mit ähnlichem Musikgeschmack und Konzerte in ihrer
Umgebung empfehlen zu können.
6
Last.fm kann alle auf dem PC abgespielten Musikstücke in einer Datenbank
speichern, erzeugt individuelle oder globale Charts und verbindet Benutzer mit
musikalischen Nachbarn. Bei musikalischen Nachbarn handelt es sich um Personen,
welche einen ähnlichen Musikgeschmack haben. Jeder Benutzer bekommt seine
individuelle Musik-Empfehlung von Last.fm.
Last.fm verfügt über ein Event-System. Es erstellt automatisch Konzertlisten,
basierend auf dem Musikprofil von Benutzern. Darüber hinaus kann der Benutzer
eigene Events hinzufügen. Die Interaktion zwischen Nutzern soll damit verstärkt
werden, da es sehr leicht zu erkennen ist, wer dasselbe Konzert besucht hat und
besuchen wird.
Last.fm benutzt ein kollaboratives Tagging-System, das den Benutzern erlaubt, jedes
Musikstück mit beliebigen Tags zu versehen. Die Ressourcen sind, anders als bei
Flickr, nicht pesonalisiert. Es werden auf unterschiedlichen Ebenen getaggt: Songs,
Albums und Künstler. Dabei können Tags von Songs benutzt werden, um Albums
und Künstler zu beschreiben und umgekehrt. 2008 hat Last.fm eine TagsRecommendation Funktion implementiert, um Nutzern beim Taggen zu helfen.
Suchen kann man nach Tags, Musik oder Plattenlabel. Als ein weiteres „Social
Feature“ bietet Last.fm ein Wiki-System, um beispielweise Biographien von Künstlern
gemeinsam zu verfassen.
3.3. Slideshare (http://slideshare.net)
Bei Slideshare kann man PowerPoint-Präsentationen, OpenOffice.org Impress und
PDF-Dateien veröffentlichen. Wie bei vielen anderen sozialen Netzwerke, können
Benutzer taggen, bewerten und kommentieren. Nachdem eine Datei hochgeladen
wurde, ist sie sichtbar für die Öffentlichkeit zugänglich. Der Benutzer legt fest, ob
seine Slides herunterladen werden können. Da die Folien meistens textbasiert sind,
können die Begriffe aus Folien über Suchmaschinen recherchiert werden. Darüber
hinaus könnten diese Präsentationen auf jedem Computer abgerufen werden ohne
USB-Laufwerken oder anderen Speichergeräten.
Dank einem kollaborativen Tagging-System, können Objekte gemeinsam getaggt
werden. Wie Last.fm unterstützt Slideshare Multi-Wort-Tags. Benutzer haben
außerdem die Möglichkeit, Slides zu ihren Favoriten hinzuführen. Die Präsentationen
können auch in eine externe Website eingebettet werden.
7
Abbildung 02: Eine Kollektion aller Slides mit dem Tag „Web 2.0“ bei Slideshare.
3.4. Youtube (http://youtube.com)
Youtube ist ein Videoportal, auf dem jeder Benutzer kostenlos Video-Clips ansehen
und online stellen kann. Wie es bei Videocommunities üblich sind, kann man die
einzelnen Clips bewerten und kommentieren.
Youtube benutzt ein Basic-Tagging-System, welches nur dem Besitzer erlaubt, seine
Clips zu taggen. Als eine weitere Beschränkung unterstützt Youtube nur Ein-Wort
Tags. Allerdings werden zusätzlich externe Tags von externen Webseiten, wo die
Clips eingebettet sind, benutzt. Benutzer können Clips als Favoriten kennzeichnen
und Videoanworten erstellen.
Bei Youtube kann nach Kanälen, Tags, Titel und Beschreibung gesucht werden.
Darüber hinaus gibt es Top-Favoriten, heiß diskutierte, meist gesehene und
angesagte Videos.
8
4. Vorteile von Tagged Objects Collections
4.1. Mehr Struktur
Mediendateien erhalten im Allgemeinen , anders als textbasierende Dateien, keine
inhaltlichen Metadaten. Der Exif-Header bei digitalen Bildern verrät z.B. über
Aufnahmedatum oder Belichtungszeit, kann aber nichts über den Motiv oder den
Autor des Bildes sagen. Hier kommen Tags ins Spiel. Sie ersetzen oder ergänzen
die Metadaten bei Mediendaten. Sie erhalten nicht nur Information über Inhalte,
sondern auch über Stimmung („sad“), Genre („pop“), Emotion („love“), usw…
Das Problem mit traditionellen und etablierten Formen des Sortierens mit physischen
Objekten liegt darin, dass jedes Objekt an einem Platz liegt. Beispielweise wird eine
neue CD in der Sammlung entweder unter dem Namen des Künstlers abgelegt, oder
anhand der Musikrichtung einsortiert oder einfach oben auf dem Stapel abgelegt.
Genauso verhält es sich mit digitalen Musikdateien. Eine Song kann entweder im
Ordner Künstler/Album abgelegt werden, oder aber unter Kollektion/Gerne/Playlist
sein. Jeder Inhalt hat seinen eigenen Platz. Der Benutzer muss wissen, wo dieser
Ort ist, wenn er schnell darauf zugreifen möchte. Noch komplizierter wird es, wenn er
anderen Zugriff auf diese Inhalte geben möchte. Mit Tags ist die Katalogisierung
deutlich flexibler. CD kann verschiedene Etiketten angeheftet werden, ein Song
könnte die Informationen Metal (Genre), In Flames (Künstler), Favorite oder Top
erhalten. Gleich aus welcher Motivation der Benutzer später danach sucht, ist die
Wahrscheinlichkeit die richtige Information zu finden, wesentlich größer, als wenn er
sich an das eine, entscheidende Kriterium erinnern müsste.
Tagged Objects Collections fassen getaggte Ressourcen zusammen. Relevante
Ressourcen lassen sich schnell und einfach finden. Inhalte werden dadurch
übersichtlich dargestellt.
4.2. Trend aufspüren
Benutzer können meist auf einfache Art und Weise erkennen, was momentan auf der
jeweiligen Site im Trend sind. Dafür müssten sie nur beispielweise „most viewed“
(Youtube, Slideshare), „intersestingness“ (Flickr) oder „most played“ (Last.fm)
anschauen. Erfahrungsgemäß werden Objekte in solchen Kollektionen stärke
wahrgenommen [6]. Im Vergangenheit wurden sie deshalb schon oft manipuliert.
Fans von Avril Lavigne beispielweise haben einen Weg gefunden, ein ihrer Lieder
auf Youtube jede 15 Sekunden neu abzuspielen. Und so wurde das Videoclip
„Girlfriend“ im July 2008 an der Spitze der meist gespielten Videos aller Zeiten
katapultiert [9].
Solche Fälle sind aber als Einzelfälle. Im Normalfall spiegeln solche Kollektionen die
Aktivitäten innerhalb einer Community wieder.
9
4.3. Soziale Erfahrungen
Es ist einfacher für Benutzer, Gleichgesinnten zu finden. Benutzer müssen sich nicht
kennen, machen aber dennoch ähnliche soziale Erfahrungen, da sie gleiches
Interesse an einem Objekt (Video, Foto) haben. Anhand der Kollektion aller
abgespielte Lieder generiert Last.fm für jeden Benutzer eine „Nachbarschaft“. Zwei
Benutzer, die Interesse an Landschaftsfotografie haben, entdecken Fotos des
anderen durch Kollektionen. Es gibt außerdem die sogenannten Pools, wo Benutzer
ihre Kollektionen austauschen, und daraus eine gemeinsame Kollektion machen
könnten.
Überall haben Benutzer die Möglichkeit, Ressourcen als Favoriten hinzuführen und
mit anderen zu teilen. Eine ganze Kollektion könnte so weiter gegeben werden.
4.4. Webseite verbinden
Ein Vorteil des Web 2.0 ist, dass fast jedes soziales Netzwerk eine offene API
besitzt. Dadurch können Websites auf einfache Art und Weise Verbindung mit
einander knüpfen. Events auf Last.fm haben Event-ID, über diese können auf Flickr
Bilder dem Event zugeordnet werden. Last.fm bindet diese wiederum auf Eventseiten
ein. Beispielweise haben Bilder zu dem Led Zeppelin‘s Konzert in London am
10.12.2007 den Tag „lastfm:event=338878“.
5. Realisierung
5.1. Tagging
Tagging ist der Kern von Tagged Objects Collections. Nur mit Tags ist es möglich,
Kollektionen zu bilden. Es gibt zwei Arten von Tags: normale Tags und
Maschinentags. Erstere sind das, was Benutzer vergeben. Zum Beispiel: ein Song
wurde als „cool“ oder „rock“ getaggt. Maschinentags sind maschinell erzeugte Tags.
Dazu gehören Autotagging und Geotags. Geotags erhalten GPS-Daten, die die
geografische Position von Ressourcen liefern. Autotagging wird in dem nächten
Abschnitt behandelt. Es gibt verschiedene Tagging-Systeme: Basic-, Social-, und
Collaborative-Tagging. Jede System hat seine Vorteile und Nachteile. Basic Tagging
erzeugt in der Regel wenigsten, und Collaborative Tagging die meisten Tags.
Das Problem bei einem Collaborative-Tagging-System liegt darin, dass nicht jeder
Tag sinnvoll sein muss. Weil Tagging normalerweise nicht moderiert wird, ist es
anfällig für Manipulationen durch die Website-Nutzer. Bei Last.fm zum Beispiel gibt
es Meinungsverschiedenheiten über Genre bei den Nutzern, oder bestimmte
Künstler befinden sich auf falschen Tag-Charts (das bekannteste Beispiel dafür war
die Beförderung von Paris Hilton an die Spitze des "brutal Death Metal"-Tag [8]).
Bei Youtube und Flickr dürfen Tags nur ein Wort lang sein. Taggen Benutzer ihre
Medien mit „wort1 wort2“, wird es automatisch in 2 Tags „wort1“ und „wort2“ zerlegt.
10
Das funktioniert beispielweise mit „London trip“ ganz gut, da 2 sinnvolle Tags
„London“ und „trip“ gewonnen werden. Doch es funktioniert mit „hot dog“ nicht. Denn
„hot“ und „dog“ haben nicht viel mit dem ursprünglichen amerikanischen Fastfood zu
tun. Abhilfe schafft entweder ein „_“ Zeichen in der Mitte, was in der Praxis nicht so
oft verwendet wird, oder die Wörter werden einfach nacheinander geschrieben. Um
Multi-Wort Tags zu vergeben, könnte der Benutzer seine Tags in „“ schreiben,
allerdings behandelt Flickr solche Tags intern als Ein-Wort-Tags. So sind die URLs
vielleicht suchmaschinenfreundlicher, dafür ist die menschliche Lesbarkeit schlecht.
Der
wahrscheinlich
längste
Ein-Wort-Tag
auf
Flickr
ist
„zone1referencelibrariansvisitedthewheatonpubliclibraryonseptember6“ [10]. Last.fm
und SlideShare lassen Multi-Wort-Tags zu. Das ist „natürlicher“ und verbessert die
Lesbarkeit von Tags.
Ein Schwachpunkt vom Tagging sind synonyme Tags. Der Tag „apple“ könnte für
Obst, aber auch für die Firma mit dem angebissenen Apfel als Logo stehen. So
entstehen Kollektionen, deren Inhalte untereinander keine Gemeinsamkeiten haben.
Andersherum kann die Sprache, mit der Tags versehend sind, eigentlich gleichartige
Objekte trennen. „seen live“ und „live gesehen“ sind nur zwei von vielen Beispielen.
Außerdem könnten Tags im Plural oder im Singular stehen. Ein Objekt kann mit
„dog“ oder „dogs“ getaggt sein. Es erschwert das Finden von relevanten Objekten da
jeder Tag zu einer separaten Kollektion gehört.
5.2. Autotagging
Mit der Verbreitung der Online-Musik wird automatische Musik-Empfehlung ein
zunehmend wichtiges Instrument für die Zuhörer. Mithilfe Musik-Empfehlung können
Zuhörer Musik, die sie mögen, schneller finden. Automatische Musik-Empfehlung
allgemein verwendet Collaborative-Filtering-Techniken Musik zu empfehlen, basiert
auf dem Hörgewohnheiten von anderen Musik-Hörern. Diese Collaborative-FilteringRecommenders nutzen den "wisdom of the crowds"-Ansatz um Musik zu empfehlen.
Ein wichtiges Thema für Collaborative-Filtering-Recommenders ist das Cold-Start
Problem. Ein Recommender braucht eine erhebliche Menge an Daten, bevor er gute
Empfehlungen erzeugen kann. Für neue Musik, Musik von einem unbekannten
Künstler mit wenig Zuhörer, kann ein Collaborative-Filtering-Recommender keine
gute Empfehlungen generieren.
Autotagging wurde entwickelt, um das Cold-Start Problem zu verhindern und Tags zu
glätten. Damit werden die wichtige und sinnvolle Tags hervorgehoben, und die
wenige wichtige (oder sogar falsche) Tags bleiben im Hintergrund. Unbekannte
Künstler, die wenig Hörer haben und wenig getaggt wurden, profitieren auch von
Autotagging.
Ein Autotagging-Model lernt Tags von bekannten Musikstücken und erzeugt TagsVorhersage für neue Songs.
11
Abbildung 03: Ein Autotagging Model. [2]
Künstler A wurde mit „80s“ „cool“ und „rock“ getaggt, demzufolge haben seine Songs
auch die gleichen Tags. Von jedem Song werden zufällig 5 sekundenlange Stücke
ausgewählt, insgesamt ca. eine Minute, und anschließend analysiert. Die Audio
Merkmale von den Songs werden dadurch gelernt. None/some/alot sind die
Prozente von dem „80s“ Tag im Vergleich zu den gesamten Tags. So wird der „80s“
Tag gelernt. Das gleiche Prozedur gilt für die anderen Tags. Nachdem ein Set von
gelernten Tags gesammelt wurde, kann es dazu benutzt werden, Tags für neue
Songs vorherzusagen.
5.3. Social Browsing
„Social Browsing“ beschreibt die Art und Weise, wie Benutzer mit Informationen auf
einem sozialen Netzwerk umgehen. Bei Flickr haben Benutzer verschiedene
Möglichkeiten, neue Bilder zu entdecken, entweder durch ihre Gruppe, durch Suchen
mit Tags oder durch die Fotostreams ihrer Kontakte.
Eine Studie [5] hat gezeigt, dass die meisten Benutzer die letztere Möglichkeit
benutzen. Dabei wurden drei Gruppen von Bildern untersucht : (a) Bilder zufällig aus
den Hochgeladenen auf einen bestimmten Tag (Random-set), (b) Bilder von anderen
Fotografen zu der außergewöhnlichen Qualität bewertet wurden (Apex-set) und (c)
Die interessanteste Bilder (von Flickr ausgewählt) auf einen bestimmten Tag
(Explore-set). Die Anzahl der Views, Kommentare und gekennzeichneten Favoriten
von diesen Bildern wurde analysiert, im Zusammenhang mit anderen Merkmale wie
die Anzahl der Pools indem sie aufgenommen wurden, die Anzahl der Tags sie
haben, und die Größe der sozialen Netzwerke von ihren Besitzern. Explore- und
Apex-Bilder scheinen sehr ähnlich zu sein, trotz der Tatsache, dass Apex Bilder
12
Monate alt sind (und vermutlich in mehr Pools aufgenommen wurden und/oder mehr
Tags hatten). Sie sind sehr verschieden im Vergleich zu den Random-Bilder. Im
Schnitt wurden Explore- und Apex-Bilder ca. 20 mal häufiger gesehen als RandomBilder. Beurteilung durch die Größe der sozialen Netze, sind Fotografen aus diesen
beiden auch sehr ähnlich und sie unterscheiden sich von den Random-Fotografen.
Je mehr Kontakte ein guter Fotograf hat, desto häufiger werden seine Bilder gesehen
und kommentiert. Dies ist ein wichtiges Kriterium für die Auswahl der
interessantesten Bilder bei Flickr. Kollektionen wie „Interesstingness“ (Kollektion
interessantester Bilder eines bestimmten Zeitraums) und „Explore“ (Kollektion 500
interessantester Bilder des Tages) sind gute Beispiele dafür. Darin sind die meist
gesehene Bilder zu sehen.
5.4. Tag- Recommendation
Ein häufiges Problem bei einem sozialen Netzwerk wie Flickr ist, dass Benutzer zu
wenig taggen. Je weniger Tags ein Bild hat, desto weniger Informationen hat es, und
das erschwert das Finden und Wiederfinden. Bei einer Studie [3] wurden 52 Millionen
Bilder analysiert. Dabei waren 33 Millionen Bilder, was ca. 64% entspricht, nur mit 1
bis 3 Tags versehend. 52 Millionen ist natürlich nur ein Bruchteil von insgesamt mehr
als 2 Milliarde Fotos auf Flickr [11], sagt aber viel über die gesamte Situation aus.
Eine mögliche Ursache dafür wäre, dass unerfahrene Benutzer oft nicht von Tags
wussten, oder es fällt ihnen schwer, mehrere sinnvolle Tags auf einmal zu vergeben.
Tag-Recommendation ist eine Funktion, welche Benutzern hilft, sinnvolle Tags zu
vergeben. Sie steigern damit auch die Anzahl von Tags.
Abbildung 04 zeigt, wie Tag-Recommendation funktioniert. Ein Benutzer taggt sein
Bild als „Sagrada Familia“ und „Barcelona“. Die Kandidaten für „Sagrada Familia“
sind Barcelona, Gaudi, Spain, Architechture, Catalunya und Church. Für „Barcelona“
wurden Spain, Gaudi, Catalunya, 2008, Europe und Travel als Tag-Kandidaten
gefunden. Diese Tags werden ausgewählt, weil sie am häufigsten zusammen mit
„Sagrada Familia“ und „Barcelona“ auf Flickr vergeben wurden (co-occurence). Nach
einem Ranking-Verfahren werden dann die endgültigen Tags-Empfehlungen
ausgewählt. So bekommt der Benutzer am Ende außer seiner ursprünglichen Tags
noch 5 Tags als Empfehlungen.
13
Empfohlene Tags
Sagrada Familia
Barcelona
Sagrada Familia:
Barcelona
Gaudi
Spain
Architecture
Catalunya
Church
Gaudi
Spain
Catalunya
Architecture
church
Barcelona:
Spain
Gaudi
2008
Catalunya
Europe
Travel
Aggregation & Ranking
Tag-Kandidaten
Co-occurence
Benutzerdefinierte Tags
Abbildung 04: Überblick eines Tag-Recommendation Prozesses. [3]. Bild [12].
6. Zusammenfassung - Ausblick
Youtube hat das Problem mit dem Basic-Tagging-System gut gelöst, indem sie
externe Tags mitbenutzt. Last.fm kämpft gegen die Schwäche von CollaborativeTagging-Systemen mit Autotagging und Tags Recommendation. Social Browsing hat
gezeigt, wie „sozial“ soziale Netzwerke sind. Dank ihrer Vorteile hat sich Tagging
(Folksonomy) gegen Taxonomien durchgesetzt, ihre Anwendung ist mittlerweile bei
„personal information management“-Software wie beispielweise Microsoft Outlook
oder Mozilla Thunderbird zu finden. In naher Zukunft wird Tagging bei File Manager
Programme auch eine Rolle spielen.
Tagged Objects Collections haben sich als sehr nützlich erwiesen. Besonders
Benutzer profitieren von ihren Vorteile. Natürlich haben sie auch ihre
Schwachpunkte, wie das Problem mit synonymen Tags, Singular und Plural. Es wäre
natürlich sinnvoller, wenn anstatt 3 Kollektionen wie „seen live“ „live gesehen“ und
„live gesehn“ nur eine einzige wäre. Außerdem wäre eine Filterfunktion für gezieltes
Suchen wünschenswert. AND, OR und NOT Verknüpfungen könnten dabei helfen.
So könnte ein Suchbegriff beispielweise aussehen: „beach“ OR „küste“ AND „2008“
NOT „benutzername“. Also eine Kollektion aller Bilder mit dem Tag „beach“ oder
„küste“, die im Jahr 2008 geschossen wurden und nicht von einem Benutzer
stammen.
14
7. Referenzen
[1] Gene Smith (2008). Tagging: people-powered metadata for the Social Web. New
Riders. Folien auf SlideShare http://www.slideshare.net/gsmith/
[2] Eck, Lamer (2006). Automatic Generation of Social Tags for Music
Recommendation. http://books.nips.cc/papers/files/nips20/NIPS2007_0892.pdf
[3] Sigurbjörnsson, Van Zwol (2008). Flick Tag Recommendation based on
Colllective Knowledge. 17th International World Wide Web Conference (WWW),
ACM Press, Beijing, China, Seite 327-336.
http://doi.acm.org/10.1145/1367497.1367542
[4] Tom Alby (2007). Web 2.0 Konzepte, Anwendungen, Technologien. Hanser.
[5] Lerman, Jones (2007). Social Browsing on Flickr. Proceedings of Int. Conf. on
Weblogs and Social Media, Boulder, CO, USA. http://arxiv.org/abs/cs/0612047
[6] Kristina Lerman (2008). Social Browsing & Information Filtering in Social Media.
http://arxiv.org/abs/0710.5697
[7] Flickr - Wikipedia http://en.wikipedia.org/wiki/Flickr (26.08.2008)
[8] Last.fm – Wikipedia http://en.wikipedia.org/wiki/Last.fm (26.08.2008)
[9] Youtube – Wikipedia http://en.wikipedia.org/wiki/YouTube (26.08.2008)
[10]
http://www.flickr.com/photos/tags/zone1referencelibrariansvisitedthewheatonpubliclib
raryonseptember6/
[11] http://www.flickr.com/photos/88646149@N00/2000000000/
[12] http://flickr.com/photos/nopipno/2356889559
15