Information und Wissen: global, sozial und frei?

Transcription

Griesbaum, Mandl, Womser-Hacker (Hrsg.):
2
Inhaltsverzeichnis
Joachim Griesbaum, Thomas Mandl,
Christa Womser-Hacker (Hrsg.)
Information und Wissen:
global, sozial und frei?
Proceedings des 12. Internationalen Symposiums
für Informationswissenschaft (ISI 2011)
Hildesheim, 9.—11. März 2011
4
Inhaltsverzeichnis
J. Griesbaum, T. Mandl, C. Womser-Hacker (Hrsg.):
Bibliografische Information der Deutschen Bibliothek
Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen
Nationalbibliografie; detaillierte bibliografische Daten sind im Internet unter
http://dnb.ddb.de abrufbar.
© Verlag Werner Hülsbusch, Boizenburg, 2011
www.vwh-verlag.de
Einfache Nutzungsrechte liegen beim Verlag Werner Hülsbusch, Boizenburg.
Eine weitere Verwertung im Sinne des Urheberrechtsgesetzes ist nur mit Zustimmung der Autor/inn/en möglich.
Markenerklärung: Die in diesem Werk wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenzeichen usw. können auch ohne besondere Kennzeichnung geschützte
Marken sein und als solche den gesetzlichen Bestimmungen unterliegen.
Satz: Werner Hülsbusch
Druck und Bindung: Kunsthaus Schwanheide
– Als Manuskript gedruckt –
Printed in Germany
ISSN: 0938-8710
ISBN: 978-3-940317-91-9
Inhaltsverzeichnis
Veranstalter & Tagungsteam
11
Programmkomitee
13
Partner der ISI 2011
15
Vorwort
15
Abstracts der Keynotes
19
Kalervo Järvelin
Information Retrieval: Technology, Evaluation and Beyond
20
Michael Schroeder
Semantic search for the life sciences
22
Session 1: Evaluation
23
Pavel Sirotkin
Predicting user preferences
24
Hanmin Jung, Mikyoung Lee, Won-Kyung Sung, DoWan Kim
Usefulness Evaluation on Visualization of Researcher Networks
36
Jens Kürsten, Thomas Wilhelm, Maximilian Eibl
Vergleich von IR-Systemkonfigurationen auf Komponentenebene
47
Session 2: Informationsinfrastruktur
61
Reinhild Barkey, Erhard Hinrichs, Christina Hoppermann,
Thorsten Trippel, Claus Zinn
Komponenten-basierte Metadatenschemata und Facetten-basierte Suche
62
Ina Dehnhard, Peter Weiland
Toolbasierte Datendokumentation in der Psychologie
74
Gertrud Faaß, Ulrich Heid
Nachhaltige Dokumentation virtueller Forschungsumgebungen
85
6
Inhaltsverzeichnis
Session 3: Soziale Software
97
Evelyn Dröge, Parinaz Maghferat, Cornelius Puschmann,
Julia Verbina, Katrin Weller
Konferenz-Tweets
98
Richard Heinen, Ingo Blees
Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften 111
Jens Terliesner, Isabella Peters
Der T-Index als Stabilitätsindikator für
dokument-spezifische Tag-Verteilungen
123
Session 4: Infometrics & Representations
135
Steffen Hennicke, Marlies Olensky, Viktor de Boer,
Antoine Isaac, Jan Wielemaker
A data model for cross-domain data representation
136
Stefanie Haustein
Wissenschaftliche Zeitschriften im Web 2.0
148
Philipp Leinenkugel, Werner Dees, Marc Rittberger
Abdeckung erziehungswissenschaftlicher Zeitschriften
in Google Scholar
160
Session 5: Information Retrieval
171
Ari Pirkola
Constructing Topic-specific Search Keyphrase
Suggestion Tools for Web Information Retrieval
172
Philipp Mayr, Peter Mutschke, Vivien Petras, Philipp Schaer, York Sure
Applying Science Models for Search
184
Daniela Becks, Thomas Mandl, Christa Womser-Hacker
Spezielle Anforderungen bei der Evaluierung
von Patent-Retrieval-Systemen
197
Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian
Entwicklung einer Benutzeroberfläche zur interaktiven
Regelgenerierung für die Suche in historischen Dokumenten
209
Session 6: Multimedia
221
Peter Schultes, Franz Lehner, Harald Kosch
Effects of real, media and presentation time in annotated video
222
Marc Ritter, Maximilian Eibl
Ein erweiterbares Tool zur Annotation von Videos
234
Margret Plank
AV-Portal für wissenschaftliche Filme: Analyse der Nutzerbedarfe
246
Achim Oßwald
Significant properties digitaler Objekte
257
Session 7: Information Professionals & Usage
269
Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi
A survey of internet searching skills among intermediate
school students: How librarians can help
270
Matthias Görtz
Kontextspezifische Erhebung von
aufgabenbezogenem Informationssuchverhalten
286
Jürgen Reischer, Daniel Lottes, Florian Meier, Matthias Stirner
Evaluation von Summarizing-Systemen
298
Robert Mayo Hayes, Karin Karlics, Christian Schlögl
Bedarf an Informationsspezialisten in wissensintensiven
Branchen der österreichischen Volkswirtschaft
309
Session 8:
User Experience & Behavior
323
Isto Huvila
Mining qualitative data on human information behaviour from the Web
322
Rahel Birri Blezon, René Schneider
The Social Persona Approach
327
Elena Shpilka, Ralph Koelle, Wolfgang Semar
„Mobile Tagging“: Konzeption und Implementierung eines mobilen
Informationssystems mit 2D-Tags
333
8
Inhaltsverzeichnis
Johannes Baeck, Sabine Wiem, Ralph Kölle, Thomas Mandl
User Interface Prototyping
345
Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum
Analyse und Evaluierung der Nutzung von Sitelinks
357
Bernard Bekavac, Sonja Öttl, Thomas Weinhold
Online-Beratungskomponente für die
Auswahl von Usability-Evaluationsmethoden
369
Session 9:
Information Domains & Concepts
375
Michał Goliński
Use, but verify
376
Mohammad Nazim, Bhaskar Mukherjee
Problems and prospects of implementing knowledge management
in university libraries: A case study of Banaras Hindu University
Library System
381
Daniela Becks, Julia Maria Schulz
Domänenübergreifende Phrasenextraktion mithilfe
einer lexikonunabhängigen Analysekomponente
388
Wolfram Sperber, Bernd Wegner
Content Analysis in der Mathematik:
Erschließung und Retrieval mathematischer Publikationen
393
Jürgen Reischer
Das Konzept der Informativität
404
Session 10: Information Society
409
Joseph Adjei, Peter Tobbin
Identification Systems Adoption in Africa; The Case of Ghana.
410
Alexander Botte, Marc Rittberger, Christoph Schindler
Virtuelle Forschungsumgebungen
422
Rainer Kuhlen
Der Streit um die Regelung des
Zweitveröffentlichungsrechts im Urheberrecht
434
Session 11: E-Learning / Social Media Marketing
453
Tobias Fries, Sebastian Boosz, Andreas Henrich
Integrating industrial partners into e-teaching efforts
454
Christopher Stehr, Melanie Hiller
E-Learningkurs Globalisierung
467
Manuel Burghardt, Markus Heckner, Tim Schneidermeier, Christian Wolff
Social-Media-Marketing im Hochschulbereich
478
Posterpräsentationen
493
Peter Böhm, Marc Rittberger
Nutzungsanalyse des Deutschen Bildungsservers
und Konzeption eines Personalisierungsangebots
494
Andreas Bohne-Lang, Elke Lang
A landmark in biomedical information:
many ways are leading to PubMed
496
Ina Blümel, René Berndt
3D-Modelle in bibliothekarischen Angeboten
498
Nicolai Erbs, Daniel Bär, Iryna Gurevych, Torsten Zesch
First Aid for Information Chaos in Wikis
501
Maria Gäde, Juliane Stiller
Multilingual Interface Usage
503
Jasmin Hügi, Rahel Birri Blezon, René Schneider
Fassettierte Suche in Benutzeroberflächen von digitalen Bibliotheken
505
Hanna Knäusl
Ordnung im Weltwissen
507
Isabel Nündel, Erich Weichselgartner, Günter Krampen
Die European Psychology Publication Platform
509
Projektteam IUWIS
IUWIS (Infrastruktur Urheberrecht in Wissenschaft und Bildung):
Urheberrecht zwischen Fakten und Diskursen
511
10
Inhaltsverzeichnis
Helge Klaus Rieder
Die Kulturgüterdatenbank der Region Trier
513
Karl Voit, Keith Andrews, Wolfgang Wintersteller, Wolfgang Slany
TagTree: Exploring Tag-Based Navigational Structures
516
Jakob Voß, Mathias Schindler, Christian Thiele
Link server aggregation with BEACON
519
Praxis-Tracks
Matthias Görtz
Wissenschaft trifft Praxis
Studierendenprogramm
Katrin Geist
Mittendrin statt nur dabei
523
524
529
530
Hochschulverband Informationswissenschaft (HI) e.V.
www.informationswissenschaft.org
IuK-Initiative Wissenschaft e.V.
www.iuk-initiative.org
Stiftung Universität Hildesheim
Institut für Informationswissenschaft und Sprachtechnologie
Universität Hildesheim
Bühler Campus, Gebäude Lübeckerstr. 3
31141 Hildesheim
www.uni-hildesheim.de/de/iwist.htm
Partner
The American Society for Information Science & Technology (ASIS&T)
www.asis.org
12
Konferenzchair
Christa Womser-Hacker, Universität Hildesheim
Programmchair
Thomas Mandl, Universität Hildesheim
Organisationschair / Tagungsband
Joachim Griesbaum, Universität Hildesheim
Chair Doktorandenprogramm
Christian Wolff, Universität Regensburg
Chair für den Gerhard-Lustig-Preis
Rainer Hammwöhner, Universität Regensburg
Chair für das Posterprogramm
Vivien Petras, Humboldt-Universität zu Berlin
Demo-Chair und neue Technologien
Ralph Kölle, Universität Hildesheim
Chair für das studentische Programm
Katrin Geist, Studentin an der Universität Hildesheim
Sponsoring-Koordination
Ben Heuwing
Praxis-Track
Matthias Görtz
Tagungsbüro
Sidika Uyulgan, Julia Jürgens
Web
Matthias Görtz, Ben Heuwing, Saskia-Janina Untiet-Kepp
Print
Julia Maria Schulz, Daniela Becks, Ben Heuwing
Organisationsteam:
Folker Caroli, Gabriele Hahn, Nadine Mahrholz, Katrin Werner
Helfer und Volunteers:
Fatima Alagic, Jasper Brandes, Yasemin Ciftci, Jan Denecke, Anna Eberle,
Mira Heimsoth, Tomke Jaspers, Elisa Jatho, Dustin King, Hannes Krengel,
Philipp Krieger, Gerrit Lutter, Simon Mangeng, Linda Meier, Veselina Milanova, Sabrina Rauch, Alexander Rösler, Clemens Roth, Stefan Strathmeier,
Fabian Wächter, Lars Wendt, Hans Christian Wenske, Laura Willecke
Programmkomitee
Internationales Symposium für Informationswissenschaft
www.isi2011.de
Tatjana Aparac-Jelušic, University of Zadar, Kroatien
Bernard Bekavac, Hochschule für Technik und Wirtschaft Chur
Nicolas Belkin, Rutgers University
Christoph Bläsi, Universität Mainz
Andreas Brellochs, Zürcher Kantonalbank, Zürich, Abt. InfoCenter
Rafael Capurro, ZKM Karlsruhe
Nicolae Dragulanescu, University Politehnica of Bucharest
Maximilian Eibl, Technische Universität Chemnitz
Simone Fühles-Ubach, Fachhochschule Köln
Norbert Fuhr, Universität Duisburg-Essen
Ursula Georgy, Fachhochschule Köln
Stefan Gradmann, Humboldt Universität zu Berlin
Joachim Griesbaum, Universität Hildesheim
Rainer Hammwöhner, Universität Regensburg
Ilse M. Harms, Universität des Saarlandes
Josef Herget, Donau-Universität Krems
Hans-Christoph Hobohm, Fachhochschule Potsdam
Isto Huvila, Uppsala University
Peter Ingwersen, Universität Kopenhagen
DoWan Kim, University Paichai, Daejeon
Michael Kluck, Stiftung Wissenschaft und Politik (SWP) Berlin
Gerhard Knorz, Hochschule Darmstadt
Traugott Koch, Max Planck Digital Library Berlin
Jürgen Krause, ehemals GESIS und Universität Koblenz Landau
Otto Krickl, Universität Graz
Rainer Kuhlen, ehemals Universität Konstanz
Dirk Lewandowski, Hochschule für Ang. Wissenschaften Hamburg
Thomas Mandl, Universität Hildesheim
Michel J. Menou, University College London
Achim Oßwald, Fachhochschule Köln
14
Programmkomitee
Vivien Petras, Humboldt-Universität zu Berlin
Wolf Rauch, Universität Graz
Ulrich Reimer, University of Applied Science, St. Gallen
Harald Reiterer, Universität Konstanz
Marc Rittberger, Hochschule Darmstadt/DIPF
Christian Schlögl, Universität Graz
Colin Schmidt, Universität Le Mans
Ralph Schmidt, Hochschule für Ang. Wissenschaften Hamburg
Wolfgang Schmitz, Universitätsbibliothek der Universität Köln
René Schneider, Haute école de gestion de Genève – HEG Genf
Ulrike Schömer, Fachhochschule Hannover
Michael Seadle, Humboldt Universität zu Berlin
Wolfgang Semar, Hochschule für Technik und Wirtschaft Chur
Wolfram Sperber, ZIB Berlin
Ulrike Spree, Hochschule für Ang. Wissenschaften Hamburg
Maximilian Stempfhuber, RWTH Aachen, Hochschulbibliothek
Wolfgang G. Stock, Universität Düsseldorf
Klaus Tochtermann, ZBW Kiel
Gabriela Tullius, Fachhochschule Reutlingen
Sirje Virkus, Universität Tallinn
Christian Wolff, Universität Regensburg
Julian Warner, Queens University of Belfast
Erich Weichselgartner, ZPID Trier
Christa Womser-Hacker, Universität Hildesheim
Maja Zumer, Universität Ljubljana
When Music comes into Play – Überlegungen zur Bedeutung von Musik ... 15
Partner der ISI 2011
Wir danken unseren Partnern für die Unterstützung der Konferenz:
\\file02.iw.uni-hildesheim.de\isi\g...
16
Vorwort
Ellen Jünger
Vorwort
17
Vorwort
Das 12. Internationale Symposium für Informationswissenschaft (ISI), das
vom 9. bis 11. März 2011 an der Universität Hildesheim zusammen mit der
17. Jahrestagung der IuK-Initiative Wissenschaft stattfindet, greift unter dem
Tagungsmotto „Information und Wissen: global, sozial und frei?“ zentrale
informationswissenschaftliche und informationspraktische Fragestellungen
auf und stellt sie in einen aktuellen, wissenschaftlichen und gesellschaftspolitischen Kontext.
Der Fokus liegt auf Information und Wissen in einer immer stärker vernetzten, globalisierten Welt, auf der Rolle von sozialen Netzwerken und auf
der Diskussion von „freier“ Information und „freiem“ Wissen im Spagat zwischen Open Access und noch fragilen politischen Entscheidungen im Urheberrecht für Wissenschaft und Bildung. Damit wird auch ein Forschungsschwerpunkt im Institut für Informationswissenschaft und Sprachtechnologie an der Universität Hildesheim aufgegriffen, das sich in seinem besonderen Profil mit Informations- und Wissensprozessen vor dem Hintergrund der Mehrsprachigkeit und Interkulturalität beschäftigt.
Die ISI 2011 ist die Tagung der deutschsprachigen Informationswissenschaft. Sie wird vom Hochschulverband für Informationswissenschaft (HI)
e.V. in Kooperation mit der IuK-Initiative Wissenschaft veranstaltet.
Ein besonderes Ziel war es in diesem Jahr, eine stärkere Internationalisierung zu erreichen, ohne auf die erfolgreiche Tradition der bisherigen ISITagungen zu verzichten. Die Einlösung dieser Herausforderung spiegelt sich
in der Kooperation mit dem European Chapter von ASIST (The American
Society for Information Science and Technology), im Programmkomitee, in
der Herkunft der Beitragenden und in der intensiveren Einbeziehung der
englischen Sprache als Tagungssprache wider. Ein spezielles Panel geht dem
Selbstverständnis einer European Information Science Community nach.
Auf den Call for Papers gingen mehr als 90 Einreichungen ein, wovon nur
ein Teil für die Tagung ausgewählt werden konnte. Jeder Beitrag wurde von
mindestens drei Mitgliedern des Programmkomitees anonym begutachtet; die
nicht immer leichte Entscheidung fiel in einem intensiven Diskussionsprozess.
Die Beiträge in diesem Tagungsband beleuchten das Generalthema der
Tagung aus vielfältigen thematischen Perspektiven und aus der Sichtweise
18
Vorwort
unterschiedlicher Disziplinen. Dabei kommen aktuelle Themenfelder genauso zum Tragen wie traditionelle Kernthemen der Informationswissenschaft
wie Information Retrieval, Informationsverhalten, Mensch-Maschine-Interaktion sowie deren Evaluierung. Deutlich rücken auch Themen der Fachinformation bzw. der Informationsinfrastruktur in den Vordergrund. Theorie
und konstruktive Praxis halten sich die Waage und profitieren von einander.
Zum Schluss ein Wort des Dankes bereits im Vorfeld der Tagung: Der Erfolg einer wissenschaftlichen Tagung steht und fällt mit der Qualität der Beiträge. Die Herausgeber dieses Bandes danken dem Programmkomitee für die
fundierte Begutachtung der vielen Beiträge. Insbesondere sei den Autoren
und Autorinnen gedankt, welche die ISI 2011 mit ihren Einreichungen zu
einem wichtigen Community Event machen.
Die problemlose Kooperation mit dem Verlag Werner Hülsbusch hat uns
in einer Zeit, wo Stress etwas Natürliches ist, vieles vereinfacht. Nicht zuletzt
gebührt unser Dank dem gesamten Team des Instituts für Informationswissenschaft und Sprachtechnologie und den vielen studentischen Helfern und
Helferinnen vor Ort, die alle mit großem Engagement und Interesse die Tagungsarbeit unterstützt haben.
Wir wünschen allen Teilnehmern und Teilnehmerinnen der ISI 2011 eine
spannende Zeit in Hildesheim und allen Lesern und Leserinnen des Tagungsbandes eine interessante Lektüre.
Hildesheim, im Februar 2011
Christa Womser-Hacker, Joachim Griesbaum und Thomas Mandl
Vorwort
19
Abstracts der Keynotes
20
Kalervo Järvelin
Information Retrieval:
Technology, Evaluation and Beyond
Kalervo Järvelin
School of Information Sciences
University of Tampere, Finland
[email protected]
Abstract
The ultimate goal of information retrieval (IR) research is to create ways to
support humans to better access information in order to better carry out their
tasks. Because of this, IR research has a primarily technological interest in
knowledge creation – how to find information (better)? IR research therefore
has a constructive aspect (to create novel systems) and an evaluation aspect
(are they any good?). Evaluation is sometimes referred to as a hallmark and
distinctive feature of IR research. No claim in IR is granted any merit unless
it is shown, through rigorous evaluation, that the claim is well founded.
Technological innovation alone is not sufficient. In fact, much research in IR
deals with IR evaluation and its methodology.
Evaluation, in general, is the systematic determination of merit and significance of something using criteria against a set of standards. Evaluation therefore requires some object that is evaluated and some goal that should be
achieved or served. In IR, both can be set in many ways. The object usually
is an IR system or a system component – but what is an IR system? The goal
is typically the quality of the retrieved result – but what is the retrieved result
and how does one measure quality? These questions can be answered in alternative ways, which lead to different kinds of IR evaluation.
Practical life with all its variability is difficult and expensive to investigate.
Therefore surrogate and more easily measurable goals are employed in IR
evaluation, typically the quality of the ranked result list instead of the work
task result. The task performance process may also be cut down from a work
task to a search task and down to running an individual query in a test collection. This simplification has led to standardization of research designs and
tremendous success in IR research. However, as the goals and systems drift
21
farther away from the practical life condition, an alert mind needs to ask,
whether the findings still serve the initial goals of evaluation? If means (outputs) replace ends (outcomes), one runs the risk of suboptimization.
It is important to evaluate the subsystems of information retrieval processes,
in addition to the search engines. By lifting one’s eyes from the search engine
effectiveness alone, one may be able to put the subsystems and their contributions in relation with each other. We will discuss nested IR evaluation
frameworks ranging from IR system centered evaluation to work-task based
evaluation. We will also point to the Pandora’s box of problems that the
enlargement of the scope of research grants us.
The contributions of a research area, in addition to constructive and evaluative contributions, may be generally empirical, theoretical and methodological. Why should we care about anything beyond IR experimentation (i.e.
evaluation)? The talk will outline some motivations and possibilities for descriptive, explanatory and theoretical research in IR.
22
Kalervo Järvelin
Semantic search for the life sciences
Michael Schroeder
Biotechnology Center of the TU Dresden
Tatzberg 47/49, 01307 Dresden
director(at)biotec.tu-dresden.de
Abstract
Semantic search promises to improve classical keyword search by exploiting
background knowledge to improve completeness of search results and navigation in search results. I will give a summary of GoPubMed, the first semantic search engine for the life sciences. Besides demonstrating the power
of semantic search, I will highlight problems in entity recognition, disambiguation and ontology generation. A prerequesite for efforts such as
GoPubMed are open access and open data.
Session 1:
Evaluation
23
24
Pavel Sirotkin
An evaluation of popular relevance metrics
Pavel Sirotkin
Heinrich Heine University Düsseldorf
Information Science Department
Universitätstr. 1, 40225 Düsseldorf
[email protected]
Abstract
The many metrics employed for the evaluation of search engine results have
not themselves been conclusively evaluated. We propose a new measure for a
metric’s ability to identify user preference of result lists. Using this measure,
we evaluate the metrics Discounted Cumulated Gain, Mean Average Precision and classical precision, finding that the former performs best. We also
show that considering more results for a given query can impair rather than
improve a metric’s ability to predict user preferences.
Introduction
One issue in the evaluation of information retrieval systems in general and
search engines in particular is the missing benchmark for system evaluation
metrics. Given the by now abundant number of measurement types, it is unclear how to judge them. With time, some measures like classical precision
fall out of the researchers’ favour, while new ones gain acceptance. However,
the process is slow and by no means conclusive. As Büttcher et al. (2010, p.
410) note, “given their importance in IR evaluation, one might assume that
the relationship between user satisfaction and, say, average precision has
been thoroughly studied and is well understood. Unfortunately, this is not the
25
case. User studies trying to find correlations between user satisfaction and
various effectiveness measures are a relatively recent phenomenon.”
Thus, the meaning of metrics is unclear. It might be conceivable that popular metrics measure user satisfaction; or user preference; or task completion; or success in reaching goals; or perhaps just the correlation with the
metric itself and nothing else. We attempt to provide first answers to a particular question that has received relatively little attention until now: How
well can popular metrics pick out user preference between result lists? We
will describe some popular metrics and discuss previously conducted evaluations in Section 2. Section 3 describes our own methodology and introduces a
new measure employed to produce results described in Section 4. Section 5
provides a discussion of those results, with conclusions drawn in Section 6.
Related Work
Evaluation metrics
A list by Della Mea et al. (2006), which does not claim any completeness,
contains 45 evaluation metrics introduced from 1965 to 2005. Many of them
have hardly been used except by their creators, and most are not relevant for
our purposes. The earliest and surely most influential metric is precision. It is
defined simply as the proportion of relevant documents returned by a system.
Its shortcomings for the purposes of web evaluation have been often stated;
particularly, as thousands of pages can be relevant to a query, it might be
unwise to assign an equal weight to all returned results.
These concerns were partly addressed by Average Precision (AP). As its
name suggests, it averages precisions at individual ranks. In words, AP considers the precision at every relevant result in the list, and divides it by the
result’s rank; then, the precision is averaged by dividing the sum of discounted precisions by the total number of relevant results. In most cases, the
AP of many queries is considered, and a Mean Average Precision (MAP) is
calculated. MAP is one of the most-used metrics and is employed in single
studies as well as in large efforts such as TREC.
26
Pavel Sirotkin
Formula 1. MAP formula with queries Q, relevant documents R, documents D at
rank r and n returned results. rel is a relevance function assigning 1 to relevant results.
Another metric which has enjoyed wide popularity since its introduction
is Discounted Cumulated Gain or DCG for short (Järvelin and Kekäläinen
2002). The more basic measure upon which it is constructed is the Cumulated Gain, which is a simple sum of the relevance judgements of all results
up to a certain rank. DCG enhances this rather simple method by introducing
“[a] discounting function [...] that progressively reduces the document score
as its rank increases but not too steeply (e.g., as division by rank) to allow for
user persistence in examining further documents” (Järvelin and Kekäläinen
2002, p. 425). In practice, the authors suggest a logarithmic function, which
can be adjusted (by selecting its base) to provide a more or less strong discount, depending on the expectations of users’ persistence. DCG can be
modified to allow for better inter-query comparison; to this end, a perfect
ranking for known documents is constructed. The DCG of a result list is then
divided by the ideal DCG, producing normalized DCG (nDCG) in the 0...1
range.
Formula 2. DCG with logarithm base b (based on Järvelin and Kekäläinen 2002).
Metric Evaluations
When a new evaluation metric is introduced, it is usually explained what its
advantage over existing metrics is. Mostly, this happens in theoretical terms;
more often than not, an experimental metric evaluation is also given. There
are many studies comparing one metric to another; however, this has the
disadvantage of being a circular confirmation, indicating at best correlation
between metrics.
Another method was used for evaluating different CG metrics (Järvelin
and Kekäläinen 2000; Järvelin and Kekäläinen 2002). Those were used to
evaluate different IR systems, where one was hypothesized to outperform the
27
others. The CG measures indeed showed a significant difference between the
systems, and were considered to have been validated. We do not regard this
methodology as satisfactory. It seems that evaluating the hypothesis with a
new metric while at the same time evaluating the metric against the hypothesis may produce a positive correlation without necessarily signifying a meaningful connection to any outside entity.
More promising approaches attempt to judge metrics with regard to an external standard. These studies often cast doubt on assumptions about explicit
measures. Several studies report that MAP does not correlate in a significant
way with user performance (Hersh et al. 2000; Turpin and Scholer 2006).
Another study showed some correlation (Kelly et al. 2007); however, it was
significant for less than half of all users. Also, the study has methodological
issues; it included only four topics, and, while raters were to formulate own
queries, the result lists were predefined. That means that raters actually rated
the same result lists for different queries. A further study examined the correlation between average precision and user success (Al-Maskari et al. 2008).
The results showed a strong correlation between average precision and user
success metrics (such as the number of retrieved documents) as well as user
satisfaction. The correlation values are signifycant; however, the correlation
was with a fourfold increase in average precision, which is quite an extraordinary difference. Compared with this distinction, the increase in user success and especially user satisfaction was quite low. When the (absolute or
relative) difference between the systems’ average precision was reduced, the
significance of correlations promptly dropped and all but disappeared when
the increase in average precision was at 30%. One more MAP study looked
at average precision at rank 3, which was found to have a strong correlation
with explicit user satisfaction (Huffman and Hochster 2007).
In a further study, precision, CG, DCG and NDCG were compared to
three explicit measures of user satisfaction with the search session called
“accuracy”, “coverage” and “ranking” (Al-Maskari et al. 2007). The results
were mixed. From the overall 12 relations between metric and user satisfaction, only two showed a significant correlation, namely, precision and CG
with the ranking of results. There have been further studies indicating the
need for more holistic ratings. Ali, Chang et al. (2005) have shown that the
correlation between result-based DCG scores and result list scores (on a tertiary scale) is 0.54 for image and 0.29 for news search. While the fields were
more specific than general web search, the numbers clearly do not indicate a
reliable link between the scores.
28
Pavel Sirotkin
These studies do not produce conclusive results, though they seem to cast
doubt on the connections between popular metrics (as they have been used
for web search evaluation) and user satisfaction. Therefore, the need for
novel methods of metric evaluation has been emphasized (Mandl 2010).
Methodology
We attempt to provide a comparison of three popular explicit evaluation metrics in their relationship to user satisfaction. That is to say, we attempt to test
whether and how well (M)AP and (n)DCG1 indicate users’ explicitly stated
preferences. While there is no absolute standard against which to measure
evaluation metrics, we consider user preference between two result lists to be
a useful start. From the point of view of a search engine developer, the most
interesting question to be answered by a metric is whether a given algorithm
is better than another. This other might be a previous version of the algorithm, a competing search engine, or just a baseline value. Additional questions might regard the confidence in the preference statement or the amount
of difference between the algorithms. And the most direct way to gather user
preference is to obtain explicit judgments. The directness is needed to ensure
that the standard we are measuring metrics against is not itself biased by an
intermittent layer of theory. While a direct comparison of two result sets is
not usual (and might be considered “unnatural” for search behaviour), we
think it nevertheless provides a more close reflection of actual user preference than other methods.
For the study, the help of 31 first-year Information Science students was
enlisted. They were required to enter queries they were interested in, as well
as a detailed statement of their information need. For every query, the top 50
results were fetched from a major web search engine. From these, two result
lists were constructed; one contained the results in original order, while the
ordering of the other was completely randomized. Then the users were confronted, also through a web interface, with different types of judgments.
1 As we calculate the metrics on a per-query basis, nDCG is analogous to DCG while
being easier to compare as it falls into the usual 0...1 range. Also, MAP for a single
query is obviously equal to AP. For convenience, we will speak of MAP in all contexts.
29
First, they were presented with a query, an information need statement, and
two result lists displayed side by side, which were anonymized and presented
in random order. They were asked to conduct a search session as they would
do normally, and when they were done, to indicate which result list they
found better, or if both were equally good (or bad)2. Later, they were presented with single results and requested to evaluate their relevance given the
query and the information need. Ratings were graded on a 1...6 scale, which
is familiar to German students since it is the standard grade scale in schools
and universities. For evaluation purposes, the ratings were converted to a
1...0 scale with 0.2 intervals (1 → 1.0, 2 → 0.8, …, 6 → 0.0). Both the preference and the relevance judgments could be for the users’ own queries or for
others’. The raters performed all actions via a Web interface.
The main evaluation measure was the ratio of queries for which the difference between metric values for the two result lists would correctly predict explicit user preference. We call the measure Preference Identification Ratio (PIR). The definition is
given in
Formula 3, with Q being the set of queries where the output of one algorithm has been judged to be better than another, mq1 and mq2 being metric
values for the two result lists under comparison, pq the preference judgment
(with value 1 if q1 is preferred and -1 if q2 is preferred), and t a threshold
value to allow treating result list quality as equal if their metric values are
similar. On an intuitive level, the numerator is the number of queries where
we can correctly predict the user preference from explicit result ratings minus
the number of queries where the preference prediction is inversed. The denominator is simply the number of preference judgments where a preference
actually exists. If two result lists are judged to be of similar quality, a metric’s values do not influence PIR, as choosing any one does not lead to any
advantages or disadvantages to the user3. This implies that if a metric’s values could be used to correctly predict user preference judgments for all sessions, its PIR would be 1; and if every preference prediction was reversed,
the PIR would be -1. However, since assuming no preferences at all would
result in a PIR value of 0, we can consider this to be the baseline.
2 Interestingly (and surprisingly for us), the randomized result list was judged to be better
than the original one in ca. 26% of all cases. The reasons for and implications of this
finding go beyond the scope of this paper and will be discussed elsewhere.
3 It may be argued that if the current algorithm performs equally well, the adoption of a
novel one is a waste of effort. Here, though, we focus on user experience.
30
Pavel Sirotkin
Formula 3. Preference Identification Ratio with metric values m, queries Q, preference judgments p and threshold t.
Evaluation
Our aim was to determine how well MAP and nDCG predict user preference
in different conditions as measured by PIR. For comparison, precision was
also evaluated. In a departure from the classical definitions, we retained
graded relevance values for precision and MAP. We defined Precision@K as
the sum of relevance ratings at ranks 1 to K divided by K, which is a slight
adjustment of the original formula also falling into the 0...1 range. For MAP,
only the relevance function changes. The different conditions were different
cut-off values, corresponding to different amounts of evaluation effort. If,
after some rank, a further increase of the cut-off value provided only marginal PIR gains, one might lower the cut-off value and direct the released
resources towards an increased number of queries.
Our first task was to find appropriate values for the threshold t. To this
end, we calculated PIR for every metric, cut-off value and threshold (the
latter in 0.01 intervals); then, we selected thresholds performing best for
every metric/cut-off combination. A sample t evaluation is shown in
Figure 1. While the PIR differences between neighbouring t values were
expectedly small and thus not statistically significant, we feel justified in this
approach as our main aim was inter-metric comparison. Thus, even if the
better PIR of a threshold is due to chance, the influence of randomness
should average out between thresholds, cut-off values and measures, and
while the absolute numbers might be too high, the relative performance
judgments are still relevant.
31
Figure 1. Evaluation for different t values for precision with cut-offs 2, 5 and 10.
Now using the best available t values for every metric/cut-off combination, we were able to compare PIR performances. The relevant values can be
seen in Figure 2.
Figure 2. PIR results
32
Pavel Sirotkin
A comparison of metrics and cut-off values suggests that in different circumstances, different metrics might be appropriate. MAP performs quite
poorly at small cut-offs, but emerges as the best metric at 10. Precision never
outperforms nDCG, but (at least at the earlier ranks) comes close enough for
the difference to be minimal. In absolute terms, the maximum PIR reached is
0.84 (nDCG@7-8).
Discussion
We would like to point out that search engine evaluation is just a small part
of IR evaluation and, moreover, the type of performance we have attempted
to capture is just one of many possible aspects of search engine quality.
Lewandowski and Hochstötter (2007) propose a four-way quality framework
including index quality, quality of the results, quality of search features and
usability. The pure evaluation of organic, web page based result lists (as opposed to paid content or “universal search” features) is itself only a minimalistic subset of “quality of the results”. However, the evaluated content is still
an important and arguably even crucial part of a search engine’s results.
Also, our test subjects obviously did not constitute a representative sample of
search engine users. While we look forward to studies with more diverse
raters, the group is hardly less heterogeneous than those of most comparable
studies.
Our results lead to some conclusions of practical importance. As an increasing cut-off value does not necessarily lead to a better approximation of
user preferences, it might be a good idea to divert some resources from rating
queries deeper to rating more queries. This has been found to provide higher
significance (Sanderson and Zobel 2005); our results suggest that, rather than
being a trade-off, exchanging depth for width can be doubly effective. It may
even be sensible to reduce the cut-off to as low as 4, since it means cutting
the effort in half while losing about 15% of information as measured by PIR.
A possible explanation for the decrease of prediction quality is that users
hardly look at documents beyond a certain rank (Hotchkiss et al. 2005), in
which case any later difference in result quality is not reflected in actual user
preferences. It would also explain why precision is the most and MAP the
33
least affected, since the former has no and the latter a high discounting factor
for later results.
Regarding individual metrics, nDCG was shown to perform best in most
circumstances. In the best case, it correctly predicted 84% of user preferences. MAP might be employed if one explicitly desires to take into account
later results, even if their relevance may not be important to the user. While
precision performs considerably well, the present study has not found a situation where it would be the most useful metric.
The absolute PIR values we report may well be overestimations, as discussed in the Evaluation section. On the other hand, the preference judgments obtained were binary. We might assume that, given degrees of preference, we would find strong preferences easier to identify by considering
document ratings. While metrics are often compared on their ability to distinguish between entities of relatively close quality, from the practical point
of view, it is crucial for a metric to reliably pick out large differences, since
those are the instances where the most improvements can be made. However,
these conjectures await further research to confirm or disprove them.
Finally, our evaluation might have a value beyond its immediate results.
We think that choosing an explicit, praxis-based standard for evaluating
evaluation can help distinguish between the multitudes of available metrics.
Particularly, a measure like PIR can be more practical than correlation measures often employed in such studies. Rather than indicating whether a given
metric reflects a preference tendency, it can tell for what ratio of queries we
would provide better results by using each metric to simulate preference
judgments.
Conclusions and future work
A measure of a metric’s ability to predict user satisfaction across queries was
introduced. We used this measure, the Preference Identification Ratio (PIR),
to provide estimates for the some common relevance metrics. (n)DCG was
found to perform best, indicating the preferred result lists for up to 84% of
queries. MAP provided good judgments at higher cut-off values, while precision did well without ever being the most informative metric. We also
showed that search engine evaluations might be performed in a more signifi-
34
Pavel Sirotkin
cant and efficient way by considering more queries in less depth. The most
significant cut-off values lie between 6 and 10 for different metrics, while the
most efficient might come as low as cut-off 4.
Further work should look at PIR for degrees of preference and explore
whether the metrics’ performance stays at similar levels, and also to evaluate
further metrics. We also intend to examine in more detail the cases where
single metrics failed to pick a preferred result list to provide a qualitative
analysis of their weaknesses. Finally, the connection of our results with log
data might provide insights into relations between user behaviour and relevance or preference judgments.
References
Al-Maskari, A., M. Sanderson and P. Clough (2007). The relationship between IR
effectiveness measures and user satisfaction. SIGIR 2007. Amsterdam, ACM:
773–774.
Al-Maskari, A., M. Sanderson, P. Clough and E. Airio (2008). The good and the bad
system: does the test collection predict users’ effectiveness? SIGIR 2008. Singapore, ACM: 59–66.
Ali, K., C.-C. Chang and Y. Juan (2005). Exploring Cost-Effective Approaches to
Human Evaluation of Search Engine Relevance. Advances in Information Retrieval. Berlin/Heidelberg, Springer: 360–374.
Büttcher, S., C. L. A. Clarke and G. V. Cormack (2010). Information retrieval: implementing and evaluating search engines. Cambridge, Mass.; London, MIT
Press.
Della Mea, V., G. Demartini, L. Di Gaspero and S. Mizzaro (2006). “Measuring
Retrieval Effectiveness with Average Distance Measure (ADM)” Information:
Wissenschaft und Praxis 57(8): 433–443.
Hersh, W., A. Turpin, S. Price, B. Chan, D. Kramer, L. Sacherek and D. Olson
(2000). Do batch and user evaluations give the same results? SIGIR 2000. Athens, ACM: 17–24.
Hotchkiss, G., S. Alston and G. Edwards (2005). Google Eye Tracking Report, Enquiro.
Huffman, S. B. and M. Hochster (2007). How well does result relevance predict
session satisfaction? SIGIR 2007. Amsterdam, ACM: 567–574.
35
Järvelin, K. and J. Kekäläinen (2002). “Cumulated gain-based evaluation of IR techniques” ACM Trans. Inf. Syst. 20(4): 422–446.
Kelly, D., X. Fu and C. Shah (2007). Effects of rank and precision of search results
on users’ evaluations of system performance, University of North Carolina.
Lewandowski, D. and N. Höchstötter (2007). Web searching: A quality measurement
perspective. Web Searching: Interdisciplinary Perspectives. Dordrecht, Springer:
309-340.
Mandl, T. (2010). “Evaluierung im Information Retrieval” Information Wissenschaft
& Praxis 61(6–7): 341–348.
Sanderson, M. and J. Zobel (2005). Information retrieval system evaluation: effort,
sensitivity, and reliability. SIGIR 2005. Salvador, ACM: 162–169.
Turpin, A. and F. Scholer (2006). User performance versus precision measures for
simple search tasks. SIGIR 2006. Seattle, ACM: 11–18.
36
Usefulness Evaluation on Visualization
of Researcher Networks
Hanmin Jung1, Mikyoung Lee1,
Won-Kyung Sung1, DoWan Kim2
1
Korea Institute of Science and Technology Information (KISTI)
Daejeon, KOREA
e-mail: {jhm, jerryis, wksung}@kisti.re.kr
2
Paichai University
Daejeon, KOREA
e-mail: [email protected]
Abstract
This study aims to analyze and evaluate usefulness on the visualization of
researcher networks from the user’s perspective. We selected the following
four academic information services in the viewpoint of data set and level of
functionality; Authoratory, Researchgate, Biomedexperts, and Academic.research. By six IT technology researchers and professors with doctorate, the
services were evaluated based on functional quality criteria of information
visualization elements and on information quality criteria served by the elements as a user study, and we concluded that it is necessary to overcome
visual complexity in information visualization of researcher networks by
showing additional information and by including additional attributes.
Key Words
Researcher network, Information visualization, Evaluation criteria, Functional and information quality
Usefulness Evaluation on Visualization of Researcher Network
1
37
Introduction
Today’s Web is cementing its place as core infrastructure of information
services, and with the massive penetration of smart phones and advancements in mobile Web, information services are undergoing evolution in order
to enable use them anytime, anywhere in any way, and by anyone. However,
text-oriented information services require attention for reading, and domain
knowledge and ability of reasoning for understanding correctly. This is one
of the main factors undermining the user’s ability to acquire information on
the Web. Therefore, efforts have been made to maximize the usefulness of
information perception by efficiently delivering a massive amount of information accumulated on the Web at an amazing speed, and information visualization is one of the fruits of such efforts [1]. In particular, information
visualization and the use of graphic metaphors to that end have become major HCI design concepts involving information services.
Scientific visualization is a concept similar to information visualization
[2] [3]. Scientific visualization differs from information visualization in that
it visualizes real objects using computer graphic technology. Just like topography maps that show mapped, visualized information, information visualization can be designed in conjunction with scientific visualization. Information visualization can be explained with the following characteristics [4].
• Information visualization helps users quickly understand a massive
amount of data.
• Information visualization helps users recognize important information instantly.
• Information visualization allows recognition of new attributes that are
embedded in the information and are difficult to understand. For instance, users can recognize specific patterns embedded in information
through visualization.
• Information visualization may cause problems with data themselves –
because visualization may accompany quality control issues.
This study aims to analyze and evaluate usefulness on the visualization of
researcher networks from the user’s perspective. To this end, representative
researcher networks that have been developed and operated as part of Web
information services are chosen. By doing so, this study ultimately aims to
contribute to practical development of technologies for information visualization that can enhance the usefulness of Web information services.
38
2
Visualization of Researcher Networks
2.1
Evaluation Targets
We have examined popular Web information services that are successfully
serving information on researcher network-based academic research, and
selected the following four academic information services in the viewpoint of
data set and level of functionality.
• http://www.authoratory.com (Authoratory)
• http://researchgate.com (Researchgate)
• http://biomedexperts.com (Biomedexperts)
• http://academic.research.microsoft.com (Academic.research)
Authoratory uses a computer program for analyzing millions of academic
papers available in PubMed and puts the analyzed results into a database,
while providing information on 969,189 scientists including researcher profiles, research trends, researchers’ social networks, and published papers. As
a professional network for scientists, Researchgate has about 400,000 scientists registered, and provides information on published papers, participating
research groups, and researchers’ social networks. Meanwhile, Biomedexperts is a literature-based, scientific social network site that automatically
analyzes millions of papers published in over 20,000 scientific journals and
extracts information on authors, co-authors, and their affiliations. In so doing,
the service has identified co-author relations of researchers working at over
3,500 organizations in more than 190 countries. Biomedexperts provides expert lists for each research area, as well as information on researchers’ social
network, research trends, and locations of their organizations. Finally, Academic.research provides information on researchers, researchers’ social networks, and research trends, as well as information indicating a researcher’s
productivity including published papers, number of citations, G-index, and
H-index, based on information extracted automatically from over 6 million
papers. All of them are representative services that provide visualized researcher networks as well as academic information that is commonly required in the scientific and technological fields.
2.2
39
Researcher Networks
Researcher network visualizes relationships between researchers by symbolizing nodes and links with diagrams. It has emerged as a kind of social network, which is a representative service of Web 2.0. It also expresses desired
information by using radial visualization technology and presents the correlations of each piece of information dynamically with images to help users
visualize, compare, and recognize the relationships between information,
flows, and characteristics in an intuitive manner. However, a larger number
of nodes and worse too many induced links between the nodes undermine the
ability to express and convey information.
A researcher network consists of two basic attributes, i.e. nodes and links,
and the following additional attributes added on to control the two or to enhance information recognition.
• Color to discriminate nodes and links
• Link attribute to express strength of the relationships between nodes
using width and length
• Information filtering control to constrain what to be displayed in the network
• Node metaphor to express a node’s meaning using text or image
• Browsing control to change the shape of the network
Figure 1 shows an example of a researcher network offered by Biomedexperts. It provides information filtering control that filters information by
selecting the number of Co-publications, Publications, and Connections.
When a user moves the mouse over to a semi-transparent window, it displays
relevant information such as the author’s research profile, timeline, and publications (see the right screen of Figure 1).
Fig. 1 Researcher network of Biomedexperts
40
In addition, when the mouse is brought over to the author’s name shown
on the network browser, the link between the author and co-authors connected at the 1st depth is displayed in blue, and the line becomes thicker if
co-authorship is greater than average.
Fig. 2 shows a researcher network of Authoratory, which offers a simple
service that displays the number of co-authored papers over the link between
researchers. It supports relatively simple browsing control such as moving
the node’s axis, and if a user selects a specific node, a new network around
the centered node is re-drawn.
Fig. 2 Researcher network of Authoratory
Fig. 3 shows a researcher network of Researchgate. On this network, users can sort co-authorship relations by group or by interest area (See the right
part of Fig. 3) using information filtering control located at the top of the
browser.
Fig. 3 Researcher network of Researchgate
41
Fig. 4 shows a researcher network offered by Academic.research. Users
can press the buttons on the upper right part of the browser to reduce/enlarge
or move it up and down and left and right. The length between nodes indicates the level of closeness in co-relationship. When a user clicks on coauthored publications, another pop-up window displays the list (See the right
part of Fig. 4). The researcher network of Academic.research supports
browsing control, node metaphor, link attributes among the above-mentioned
additional attributes.
Fig. 4 Researcher network of Academic.research
3
Usefulness Evaluation on Visualization
of Researcher Network
3.1
Evaluation Criteria
The usefulness of information visualization in Web information services can
be evaluated based on functional quality criteria of information visualization
elements and on information quality criteria served by the elements as a user
study [5]. More specifically, the usefulness of elements for information visualization can be defined by the efficiency, effectiveness, and satisfaction of
the set of functions and actions used to achieve the results desired by users as
well as the visualized results. This study defines the functional quality criteria and information quality criteria, as follows, to evaluate the usefulness of
the elements by referring to ISO9241-11 and ISO9126-1 [6] [7].
42
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Minimal action: Is it possible to acquire a desired result with minimal
actions?
Resource utilization: Are visualization elements sufficiently utilized for
performing a given task? (ISO9126-1: Efficiency-Resource behavior)
Operability: Are essential efforts to operate and control the information
service performed with ease? (ISO9126-1: Usability-Operability)
Feedback: Does the information service give feedback for the user’s
action?
Navigability: Can users move and use the service environment easily
from the perspective of functional quality?
Time behavior: How fast can functions be performed and how much time
does it take for information to be loaded and visualized? (ISO9126-1: Efficiency-Time behavior)
Consistency: Are visualization elements consistent and do they deliver
their meanings to users sufficiently?
Accurateness: Do functions bring about a desired result or effect?
(ISO9126-1: Functionality-Accurateness)
Completeness: Can users perform and complete a given task clearly?
Attractiveness: How attractive is the environment of the information
service to users?
Flexibility: Can users customize the user interface of the information
service according to their preferences?
User guidance: Does the information service give feedback for the user’s
action appropriately and supportively?
Visualization type: Is it possible to visualize information in the format
desired by users?
Report type: Is it possible to create reports in the format desired by users?
Information accuracy: Does visualized information meet the user’s needs
accurately?
Information completeness: Is served information complete enough to
satisfy the user’s needs?
Information navigability: Can users navigate in served information easily
and quickly?
Information individualization: Can served information be utilized to meet
individual needs such as email transfer, saving files, sharing through
Twitter and use group?
3.2
43
Evaluation Process
Six IT technology researchers and professors with doctorate were involved as
test persons (TPs). Each TP performed the following task on the four services
introduced in Chapter 2 and evaluated information visualization for researcher network services according to the evaluation criteria mentioned in
3.1 [8] [9].
• Task: Give a name of an expert in your own field into each service and
investigate the expert’s researcher network it provides. (e.g.) Search for
“Jinde Cao” who is an expert in ‘neutral network’ field.
TPs quantitatively assigned each evaluation criterion with a value between 0
~ 5, with one unit being 0.5, and were allowed to discuss pros and cons of
visualization elements qualitatively. The following heuristics were used to
perform the user test.
• Visibility of system status: The test environment was prepared so that
both TPs and an observer can simultaneously monitor how the task is being performed.
• Match the system to the real world: Ensure that the test environment
matches the TP’s actual work environment as closely as possible.
• User control and freedom: TPs have the freedom to use the test environment and to perform the test.
• Help and assistance: If required by TPs, the observer can provide answer
to their questions as long as such support will not affect test results.
3.3
Evaluation Results
For Biomedexperts, TPs judged that the list on the right side and the additional information on the left side shown in conjunction with a researcher
network explain the network in a very efficient manner. Also, they suggested
that additional attributes such as color and information filtering control are
adequately applied to enhance the user’s ability of information recognition,
and the graphic chart provided with a co-author list helps users recognize a
researcher’s research trend easily. They also gave a high score on the feature
that the service does not require screen changes.
44
Table 1. Evaluation Results on the four Researcher Networks
(FQ: Functional quality, IQ: Information quality)
Resource utilization was not evaluated since it cannot be evaluated by users.
Evaluation criteria
FQ Minimal action
Operability
Feedback
Navigability
Time behavior
Consistency
Accurateness
Completeness
Attractiveness
Flexibility
User guidance
Average
IQ Visualization type
Report type
Information accuracy
Information
completeness
Information navigability
Information individualization
Average
Biomedexperts
4.50
4.75
4.83
4.92
5.00
4.50
4.83
4.83
4.67
4.25
4.42
4.68
4.17
N/A
5.00
Authoratory
3.42
3.08
3.08
3.00
3.67
3.58
3.33
3.67
3.83
3.50
3.42
3.42
4.00
4.00
4.50
Researchgate Academic.
research
2.25
4.00
2.08
3.75
2.42
4.17
2.50
4.33
4.33
4.50
3.25
4.58
2.92
4.75
2.75
4.75
2.08
3.83
2.00
4.00
2.17
3.83
2.61
4.23
1.83
4.42
N/A
N/A
1.25
4.67
5.00
4.75
1.17
4.67
4.42
4.25
1.25
4.17
3.75
4.75
1.00
N/A
4.47
4.38
1.17
4.48
While TPs assigned a rather high score to information quality, they gave a
relatively low score to functional quality for Authoratory. They pointed out
the limitation in displaying co-authorship of a specific year only, the difficulty of recognizing the entire researcher network, and confusion caused by
excessive and redundant presentations of the same information with various
visual elements. In other words, the more information is provided from the
researcher network, the more complex it becomes due to the absence of additional attributes to resolve this issue. However, the contribution of Authoratory to user satisfaction received a positive evaluation, as it provides a
method to personalize search results.
45
Researchgate received relatively poor scores from TPs because it provides
a network service for researchers that are in contact with a given researcher
in the viewpoint of social network, rather than researcher network based on
co-authorship or citation relationship.
Academic.research provides a researcher network service with a relatively
simple structure. In other words, it provides an intuitive service function; a
node is shown as a picture image when its corresponding researcher’s image
file is available.
4
Conclusion
We defined functional quality criteria and information quality criteria and
then evaluated four major information services focused on researcher network. The researcher networks evaluated through this study commonly use
diagrams to represent nodes for researchers and links for the relationships
between them, thereby visually indicating their correlations to users. They
present an issue of diminished ability to express information with a larger
number of nodes and more complicated links between the nodes. Therefore,
as in the case with Biomedexperts, we concluded that it is necessary to overcome this challenge by showing additional information and by including
additional attributes such as information filtering control. As another conclusion, such services should carefully consider the functions that can complement limitations of visualization elements rather than aesthetics of design.
In the future, this study will be expanded to additionally evaluate visualized graphs and lists that provide information on researchers and research
trends.
46
References
[1]
S. Card and J. Mackinlay, “The Structure of the Information Visualization Design Space”, In Proceedings of IEEE Symposium on Information Visualization,
1997.
[2]
D. Gordin and R. Pea, “Prospects for Scientific Visualization as an Educational
Technology”, In Journal of the Learning Sciences 4(3), 1995.
[3]
S. Bryson, “Virtual Reality in Scientific Visualization”, In Communication of
the ACM, 39(5), 1996.
[4]
C. Ware, Information Visualization, 2004.
[5]
S. Erazo, “Evaluation of the Functional Efficiency of Applications Multimediales, In Current Developments in Technology-Assisted Education”, 2006.
[6]
http://www.iso.org/iso/catalogue_detail.htm?csnumber=16883
[7]
http://www.sqa.net/iso9126.html
[8]
J. Volckmann and M. Lippert, “Web Usability Testing”, Arbeitspapiere Wirtschaftsinformatik, University Giessen, 2006.
[9]
A. Seffah et al., “Usability Measurement and Metrics: A Consolidated Model”,
In Software Quality Journal 14(2), 2006.
47
Vergleich von IR-Systemkonfigurationen
auf Komponentenebene
Jens Kürsten, Thomas Wilhelm und Maximilian Eibl
Technische Universität Chemnitz
Straße der Nationen 62, 09111 Chemnitz
{jens.kuersten, eibl}@informatik.tu-chemnitz.de
Kurzfassung
In der klassischen Evaluationsforschung werden Verfahren anhand der Performance der Gesamtsysteme bewertet. Dies macht es schwer, die Wirkung
einzelner Systemkomponenten und ihr Zusammenspiel zu analysieren. Auf
Basis einer umfangreichen Evaluation mit mehreren englischsprachigen Testkorpora wird ein Werkzeug zum interaktiven Vergleich von Systemkonfigurationen vorgestellt. Neben der Möglichkeit, den Einfluss einzelner Komponenten auf das Rechercheergebnis zu untersuchen, wird ein Ansatz zur
Normierung der Ergebnisse beschrieben. Dieser wird genutzt, um den Einsatz des Visualisierungswerkzeugs für den korpusübergreifenden Vergleich
von Systemkonfigurationen zu skizzieren.
Abstract
In traditional information retrieval (IR) evaluation new models are assessed
based on system effectiveness in terms of a metric suitable to the problem of
interest. Drawing conclusions about the impact of system components and
possible interaction effects is almost impossible in this setting. We address
this problem and present a tool for interactive comparison of system configurations on component-level based on a large-scale evaluation across several English test collections. An approach to normalize effectiveness measures
is applied in order to allow comparison across test collections. The provided
visual presentation enables researchers and practitioners to study the impact
of system components on retrieval effectiveness in an efficient way.
48
1
Motivation
Evaluationsforschung ist eines der wesentlichen Instrumente der Informationswissenschaft. Im Information Retrieval ermöglicht sie eine Bewertung
von Systemen anhand festgelegter Kriterien, das heißt einer Menge von Anfragen und deren Relevanzbewertungen bezüglich einer Sammlung von Dokumenten. Diese Vorgehensweise für die Evaluation von IR Systemen, die
als Cranfield Paradigma bezeichnet wird, hat sich im Verlauf der letzten
Jahrzehnte im Bereich des textuellen Retrievals nicht wesentlich weiterentwickelt. Im gleichen Zeitraum haben sich die eingesetzten Systeme in ihrem
Aufbau sehr wohl verändert. Nicht nur die Komponenten, aus denen ein IR
System besteht, sind für sich gesehen komplexer geworden. Auch die Vielfalt
verfügbarer theoretischer Modelle ist wesentlich größer als zu Zeiten des
Cranfield Paradigmas. Dies macht es zum heutigen Zeitpunkt nahezu unmöglich, für eine vorliegende Dokumentsammlung das Optimum im Sinne der
Systemgenauigkeit aus dem Portfolio der wissenschaftlichen Modelle und
Komponenten auszuwählen. Für Inhaltsanbieter, egal ob regionaler Zeitungsverlag oder Fernsehsender mit nationaler Reichweite, stellt sich unter anderem genau dieses Problem bei der Verwertung ihres Archivbestandes im Geschäftsfeld des Internets. Daher werfen diese Fakten im Kontext der textbasierten Suche die Frage nach neuen Methoden der vergleichenden Systembewertung auf.
An dieser Schnittstelle setzt der hier vorgestellte Ansatz zur Evaluation
auf Komponentenebene an. Die Idee des Vergleichs von Systemen auf Basis
ihrer wesentlichen Bestandteile wurde bereits im Rahmen verschiedener Evaluationskampagnen vorgeschlagen. Ein allgemeiner Überblick wird in (Hanburry 2010) gegeben. Als Ausgangspunkt dient der Grid@CLEF Task (Ferro
2009). Dort wurde ein vierstufiges Konzept für die Evaluation von bilingualen Systemen vorgeschlagen. Basierend auf dieser Idee werden hier unterschiedliche Methoden für drei wesentliche Systemkomponenten anhand verschiedener Textkorpora verglichen. Als Testdaten dienen zwölf englischsprachige Kollektionen aus den CLEF1 und TREC2 Kampagnen mit entsprechenden Anfragen und Relevanzbewertungen.
1 Cross-Language Evaluation Forum: http://www.clef-campaign.org/, abgerufen am
08.11.2010
2 Text Retrieval Conference: http://trec.nist.gov/, abgerufen am 08.11.2010
49
Die Bewertung von IR Systemen beruht im Normalfall auf einer Kennzahl wie Mean Average Precision (MAP) oder Geometric Mean Average
Precision (GMAP). Beide Metriken repräsentieren die durchschnittliche Güte
eines Systems auf einer Menge von Anfragen. Wir verwenden MAP und
GMAP für den Vergleich der Konfigurationen. Diese Auswahl wird in Abschnitt vier näher begründet. Da wir zusätzlich über verschiedene Kollektionen hinweg vergleichen wollen, wenden wir eine Methode zur Normierung
der Werte an, die ebenso in Abschnitt vier beschrieben wird. Die wesentlichen Beiträge dieser Forschungsarbeit sind die Vorstellung des experimentellen Aufbaus und der Ergebnisse einer umfassenden Evaluation auf Komponentenebene über mehrere englischsprachige Korpora hinweg. Darüber
hinaus wird ein Werkzeug zur Visualisierung vorgestellt, mit dem sich die
umfangreichen Evaluationsergebnisse vergleichen und interpretieren lassen.
2
Experimentaufbau
In den vergangenen fünf Jahren wurde ein hochgradig flexibles Retrieval
Framework entwickelt, dessen Konzept in (Kürsten 2008) dargestellt ist. Das
System integriert die beiden wissenschaftlichen Tools Terrier (Ounis 2007)
und Lemur (Ogilvie 2002) sowie das Open-Source Projekt Apache Lucene3.
Im Rahmen der CLEF Kampagne wurden Erfahrungen gesammelt, um Einblicke in die Funktionsweise von IR Systemen zu gewinnen und das Zusammenspiel der Komponenten besser zu verstehen. Die in den Vergleichen erzielten Resultate hatten dabei durchweg unterschiedliche Güte und machen
die eingangs formulierte These der Schwierigkeit der Auswahl einer möglichst optimalen Systemkonfiguration anhand eines vorgegebenen Datenkorpus offensichtlich.
2.1
Parameter der Evaluation
Nachfolgend werden Evaluationsergebnisse vorgestellt, die über einen dreidimensionalen Parameterraum von Systemkonfigurationen aufgespannt wer-
3 Apache Lucene Suchmaschine: http://lucene.apache.org/, abgerufen am 08.11.2010
50
den. Die erste wesentliche Komponente ist die Wortstammreduktion. In das
verwendete Framework wurden fünf Varianten integriert und getestet:
• Porter Stemmer (Porter 1997)
• Krovetz Stemmer (Krovetz 1993)
• UeaLite Stemmer (Jenkins 2005)
• N-Gram Stemmer, mit N=4 und N=5
Die Auswahl der angegebenen Algorithmen zur Wortstammreduktion deckt
drei unterschiedliche Ansätze ab. Der wohl am weitesten verbreitete Algorithmus nach (Porter 1997) steht für die Klasse der regelbasierten Verfahren.
Der von (Krovetz 1993) beschriebene Algorithmus steht für die Gruppe der
Ansätze, die die Probleme von zu starker oder zu schwacher Reduktion durch
den Einsatz eines Wortbuchs abschwächen. Der UeaLite Stemmer aus (Jenkins 2005) setzt auf eine generell weniger stark ausgeprägte Reduktion. Der
N-Gram Stemmer ist sprachenunabhängig aber dadurch gleichzeitig auch
ungenauer. Aufgrund dessen ist er für den Einsatz auf mehrsprachigen Kollektionen besonders geeignet. In einer umfassenden Studie (McNamee 2009)
über eine Reihe von Testkollektionen haben sich die angegebenen Varianten
mit N=4 und N=5 auf Korpora in englischer Sprache im Vergleich als besonders robust erwiesen.
Der Ranking Algorithmus, der in der Forschung von allen Komponenten
am häufigsten untersucht wird, bildet die zweite Dimension des untersuchten
Parameterraums. In der vorliegenden Studie werden 13 verschiedene Modelle, die zum Großteil im Terrier Framework (Ounis 2007) integriert sind,
zur Evaluation ausgewählt. Die nachfolgende Liste enthält alle getesteten
Varianten in drei wesentlichen Gruppen:
• Klassische Modelle: TF-IDF, BM25 und Lucene
• Modelle aus dem Divergence from Randomness (DFR) Framework:
DFRee, DFR_BM25, DLH, DPH, BB2, IFB2, In_ExpB2 und PL2
• Linguistisch motivierte (LM) Modelle: HiemstraLM, DirichletLM
Die erste Gruppe enthält mit dem Ranking Algorithmus von Lucene und TFIDF zwei ähnliche Modelle, die beide im Wesentlichen auf einer Kombination von Term- und inverser Dokumentfrequenz basieren. Der Hauptunterschied liegt in der flexiblen Gewichtungsmöglichkeit mithilfe der Lucene
Programmierschnittstelle. Die aufgeführte Klasse der wahrscheinlichkeitsbasierten DFR Modelle wird bereits umfangreich im Rahmen der Dokumen-
51
tation4 des Terrier Frameworks beschrieben. Erwähnenswert ist hier die Sonderstellung der Modelle DLH und DPH, die aufgrund einer abgewandelten
mathematischen Grundlage streng genommen in eine eigene Kategorie gehören. Die theoretische Basis der Gruppe der LM Algorithmen ist eine für jeden Dokumentkorpus spezifische Analyse der Wortverteilungen, die dann
wiederum mit wahrscheinlichkeitsbasierten Annahmen in eine Dokumentrangfolge überführt wird.
Die letzte Dimension des angedeuteten Parameterraums entsteht durch
den Einsatz unterschiedlicher Modelle für automatisches Pseudo-Relevanzfeedback (PRF). In dieser Studie wurden die zwei Ansätze Kullback-Leiber
und Bose-Einstein2, die ihre theoretische Grundlage ebenfalls im DFR Modell haben, mit Konfigurationen ohne PRF verglichen. Beim Einsatz von
PRF haben die beiden zusätzlichen Parameter Dokumentanzahl und Termanzahl einen Einfluss auf die Güte der Ergebnisse. Daher wurden hierfür sieben
verschiedene Ausprägungen der Dokumentanzahl und 13 Varianten für die
Gesamtanzahl der letztlichen Erweiterungsterme ausgewählt.
Die Variation der Ausprägungen der angegebenen Parameter ergibt
11,895 Systemkonfigurationen, die entsprechend für jeden der im nachfolgenden Abschnitt aufgeführten Testkorpora getestet wurden. Insgesamt wurden daher gut 140,000 Retrievalexperimente durchgeführt.
2.2
Testkorpora
Für die Evaluation wurden unterschiedliche Korpora englischer Sprache ausgewählt, um Zusammenhänge zwischen der Art des Korpus in Bezug auf
linguistische Merkmale und der Güte der Systemkonfigurationen zu untersuchen. In Tabelle 1 sind die verwendeten Korpora mit entsprechenden Metadaten gelistet. In der Menge der Testkorpora wurden vier wesentliche Typen identifiziert: (a) bibliothekarische Kataloge (LIB); (b) Beschreibungen
multimedialer Daten (MM); (c) Nachrichtenartikel (NEWS); und (d) eine
Sammlung manuell transkribierter Sprache (SPTR). Im Rest dieses Beitrags
verwenden wir die Identifikation (ID) aus Tabelle 1, um ein entsprechendes
Testkorpus zu benennen. Die Abkürzung KPN steht für die Evaluationskampagne, bei der die entsprechende Dokumentsammlung verwendet wurde.
4 Dokumentation zum Terrier Framework: http://terrier.org/docs/v3.0/dfr_description.html, abgerufen am 08.11.2010
52
Die Spalte #QU gibt die Größe der für den jeweiligen Testkorpus verfügbaren Anfragemenge an.
Tabelle 1. Testkorpora und deren Eigenschaften
ID
LIB1
LIB2
LIB3
LIB4
SPTR
MM1
MM2
MM3
NEWS1
NEWS2
NEWS3
NEWS4
3
Name
CSA-EN
TEL (British Library)
Federal Register
GIRT4-EN (GESIS)
103rd Congress Rec.
Belga Image Captions
IAPR-TC12 Annotat.
Wiki Images
Financial Times
Foreign Broadcast IS
LA Times 1994
LA Times 1989/90
KPN
CLEF
CLEF
TREC
CLEF
TREC
CLEF
CLEF
INEX
TREC
TREC
CLEF
TREC
Jahr
2007
2008
1997
2003
1997
2009
2007
2006
1997
1997
2009
1997
#Dok.
20,000
~1,000,000
~55,000
~150,000
~30,000
~500,000
20,000
~150,000
~210,000
~130,000
~110,000
~130,000
#QU
50
100
150
150
50
50
60
106
150
150
89
150
Ergebnisse
Eine detaillierte Auswertung der gut 140,000 durchgeführten Experimente
stellt aufgrund der schieren Datenmenge eine Herausforderung dar. Als
Kennzahlen für die Systembewertung werden MAP und GMAP eingesetzt.
In Tabelle 1 wird deutlich, dass für die Testkorpora unterschiedlich große
Mengen von Anfragen verwendet wurden. In (Robertson 2006) wurde argumentiert, dass die Stabilität der MAP insbesondere auf kleineren Anfragemengen am höchsten ist. Ausgehend von dieser These verwenden wir daher
MAP als Referenzmaß. Darüber hinaus führen wir die Güte der Systeme
zusätzlich anhand der GMAP auf. Die Gründe dafür sind die ebenfalls in
(Robertson 2006) angeführte Fokussierung auf die Robustheit von Systemen
und den Aspekt, dass keines der beiden Maße besser oder schlechter ist als
das jeweils andere. Ferner soll später beim Vergleich der Systemkonfigurationen die Möglichkeit bestehen, die für eine jeweilige Forschungsfrage passendere Kennzahl auszuwählen. In Tabelle 2 werden die besten Ergebnisse je
53
Testkorpus dem durchschnittlichen Ergebnis aller Systemkonfigurationen
(AMAP, AGMAP) gegenübergestellt.
Die Analyse der Resultate zeigt, dass sowohl die durchschnittliche Güte
der Systemkonfigurationen als auch deren Verhältnis zur jeweils besten Konfiguration in Abhängigkeit von Korpus und Anfragemenge variiert. Betrachten wir jedoch das Verhältnis der beiden aufgelisteten Größen, so lässt sich
feststellen, dass die beste Konfiguration für die MAP im Bereich von 22 bis
42 Prozent oberhalb der AMAP liegt. Wobei hier jedoch vier Testkorpora die
obere Grenze um 40 Prozent markieren. Betrachtet man die Ergebnisse im
Sinne der GMAP, so zeigt sich, dass genau diese vier Testkorpora die
AGMAP mit 74 bis 130 Prozent besonders deutlich übertreffen.
Tabelle 2. Durchschnittliche Güte der Systemkonfigurationen je Testkorpus
im Verhältnis zur besten getesteten Systemkonfiguration nach MAP und
GMAP
ID
LIB1
LIB2
LIB3
LIB4
SPTR
MM1
MM2
MM3
NEWS1
NEWS2
NEWS3
NEWS4
AMAP
0.2878
0.2958
0.2403
0.3248
0.2225
0.4198
0.2380
0.2168
0.2717
0.2360
0.4521
0.2215
MAP
0.3776 (+31.20%)
0.4187 (+41.56%)
0.3361 (+39.84%)
0.4183 (+28.80%)
0.3203 (+43.92%)
0.5309 (+26.48%)
0.2916 (+22.49%)
0.2781 (+28.30%)
0.3306 (+21.68%)
0.3112 (+31.83%)
0.5864 (+29.70%)
0.2876 (+29.85%)
AGMAP
0.2021
0.1584
0.0356
0.1911
0.0656
0.2995
0.0653
0.0798
0.0864
0.0574
0.2616
0.0901
GMAP
0.2971 (+47.00%)
0.2759 (+74.18%)
0.0817 (+129.63%)
0.2802 (+46.61%)
0.1390 (+112.08%)
0.4685 (+56.46%)
0.1028 (+57.46%)
0.1292 (+61.83%)
0.1430 (+65.55%)
0.1191 (+107.48%)
0.4239 (+62.02%)
0.1450 (+60.99%)
Aus Tabelle 1 kann man wiederum ablesen, dass die Anzahl der Anfragen
allein nicht für diese Schwankungen verantwortlich sein kann. Denn die Anfragemenge deckt das volle Spektrum zwischen 50 und 150 ab. Die restlichen
Testkorpora schwanken beim Verhältnis GMAP zu AGMAP zwischen gut
47 und knapp 66 Prozent. Dies entspricht einem ähnlichen Bereich wie beim
Verhältnis zwischen MAP und AMAP. Die absoluten Werte sind jedoch
deutlich höher, was dafür spricht, dass die besten Systemkonfigurationen
wesentlich robuster sind. Die hier dargelegten Daten ermöglichen noch keine
54
Bewertung des Einflusses einzelner Komponenten auf die Güte der Ergebnisse. Die Voraussetzungen für eine vergleichende Bewertung der Systemkonfigurationen auch über mehrere Testkorpora werden im nachfolgenden
Abschnitt diskutiert.
4
Vergleich der Systemkonfigurationen
Aus Forschungssicht interessanter als die Güte des besten Systems für jedes
Testkorpus zu bestimmen, ist die vergleichende Bewertung der Konfigurationen über eine Menge von Korpora. Darüber hinaus stellt sich dann vielmehr
die Frage, welche Zusammenhänge zwischen Testkorpus und Systemkonfiguration in Bezug auf die Güte der Retrievalergebnisse existieren. Um sich
dieser Fragestellung anzunehmen und eine Vergleichbarkeit über Korpora
hinweg zu gewährleisten, müssen die Ergebnisse in geeigneter Form normiert
werden. Zu diesem Thema existieren bereits Forschungsarbeiten, deren Kernideen nachfolgend kurz skizziert werden. Ist diese Normierung erfolgt, können die Ergebnisse in entsprechender Form aufbereitet werden, um einen
Vergleich auch über verschiedene Korpora hinweg zu ermöglichen. Da die
Darstellung von knapp 12,000 Experimenten in traditioneller Form mittels
Tabellen oder statischen Grafiken nicht gelingen kann, stellen wir ein interaktives Werkzeug zur visuellen Interpretation vor.
4.1
Normierung der Ergebnisse
In (Mizarro 2007) werden die Evaluationsdaten für eine spätere Netzwerkanalyse normiert. Dabei erfolgt die Standardisierung der Ergebnisse anhand
der Systemgüte im Sinne von MAP oder GMAP, einerseits durch Subtraktion
des durchschnittlichen Ergebnisses für eine Anfrage und andererseits durch
Subtraktion des Durchschnittswerts für ein System. In weiteren Publikationen wurde diskutiert, die Normierung anhand des besten Wertes je Anfrage
durchzuführen. Ein weiterer Ansatz zur Standardisierung (Webber 2008)
schlägt hingegen vor, für ein System vergleichbare Ergebnisse auch auf unterschiedlichen Korpora zu erzeugen. Dazu wird zusätzlich zur einfachen
Normierung auch die Varianz von Retrievalergebnissen betrachtet, was eine
55
Auswahl von Anfragen ermöglicht, mit der dann vergleichbare Gesamtergebnisse erzielt werden können.
In unserem konkreten Fall ist die Varianz der Ergebnisse der Systemkonfigurationen von Interesse. Denn sie ist der womöglich einzige Anhaltspunkt
für die Zusammenhänge zwischen Korpuseigenschaften und Systemkonfigurationen. Daher wurde die in (Mizarro 2007) vorgeschlagene Strategie angewendet und die Ergebnisse für MAP und GMAP jeweils anhand der durchschnittlichen Güte aller Systemkonfigurationen je Anfrage normiert. Damit
wird für jede Konfiguration jeweils ein normierter Wert MAPn und GMAPn
ermittelt. Die Formeln (1) und (2) verdeutlichen den Prozess zur Normierung
anhand der MAPn. Dabei steht AP(si, tj) für die Average Precision von Systemkonfiguration i für Anfrage j und AAP(tj) für die durchschnittliche Average Precision aller Konfigurationen für Anfrage j.
(1)
(2)
Der Nachweis der Äquivalenz zwischen MAP und MAPn respektive
GMAP und GMAPn wurde ebenfalls in (Mizarro 2007) geführt. Die Äquivalenzbeziehung zwischen MAP und MAPn respektive GMAP und GMAPn
macht eine Auflistung der normierten Ergebnisse analog zu Tabelle 2 überflüssig.
4.2
Interaktive Visualisierung
Aus Sicht der Autoren ist ein Vergleich von Systemkonfigurationen und deren Komponenten am besten visuell und interaktiv realisierbar. Die Datenvisualisierung ist ein eigenes Forschungsgebiet, deren Inhalte hier nicht näher
erläutert werden sollen. Vielmehr wird es als Mittel zum Zweck eingesetzt.
Zur Visualisierung von mehrdimensionalen Daten wird in der Literatur häufig das Prinzip paralleler Koordinaten (Wegman 1990) vorgeschlagen. Daher
soll dieser Ansatz hier als Grundlage dienen. Zur Realisierung wird die freie
Programmbibliothek Protovis5 der Forschergruppe Visualisierung an der
Stanford Universität verwendet.
5 JavaScript Bibliothek
08.11.2010
Protovis:
http://vis.stanford.edu/protovis/,
abgerufen
am
56
Abbildung 1 zeigt das Visualisierungswerkzeug. Die Säule ganz rechts
steht für die Güte der Konfiguration in Bezug auf die Rechercheergebnisse.
Alle weiteren Säulen spannen den Parameterraum auf. Die Farbgebung6 verdeutlicht den Einfluss der Konfiguration auf die Recherchequalität, dabei
steht grün für gute und rot für schlechte Ergebnisse. Die Nutzung des Werkzeugs erfolgt in zwei Schritten. Zuerst wird aus der Datenbasis eine gewünschte Untermenge selektiert. Diese Auswahl erfolgt durch Einschränkung der Parameter, der Güte der Ergebnisse oder einer Kombination aus
beiden.
Abbildung 1: Visualisierung der Ergebnisse der mehrdimensionalen Systemkonfigurationen für ein ausgewähltes Testkorpus. Die Säulen 1–6 stellen den Parameterraum
dar, Säule 7 die Güte (MAP) der Retrievalergebnisse.
Im folgenden Schritt können die ausgewählten Daten interaktiv verglichen werden. Dazu kann auf jeder Säule ein Bereich markiert werden, der
sich verschieben lässt, um unterschiedliche Konfigurationen der entsprechen6 Der Prototyp zur Visualisierung ist online erreichbar unter: http://sachsmedia.tv/compeval/, abgerufen am 08.11.2010
57
den Komponente zu vergleichen. Im dargestellten Beispiel wurden der Korpus CLEF2008-AH-TEL, der Krovetz Stemmer, vier Ranking Modelle sowie
kein PRF und das PRF Modell KLCorrect ausgewählt. Exemplarisch wurde
in der Visualisierung auf der Säule PRF Dokumente eine Einschränkung auf
9 Dokumente vorgenommen. Die MAP für die selektierten Systemkonfigurationen liegt zwischen 13 und 42 Prozent. Die Ergebnisse der im Beispiel ausgewählten Konfigurationen sind farblich hervorgehoben. Zu erkennen ist
eine Kumulation im Bereich von 13 bis 26 Prozent MAP und eine zweite im
Bereich von 36 bis 42 Prozent. Über die MAP Säule kann die Darstellung auf
ausgewählte Retrievalergebnisse reduziert werden, um beispielsweise eine
besonders gute oder schlechte Konfiguration zu identifizieren.
5
Fazit und Ausblick
Zur vergleichenden Bewertung der am Retrievalprozess beteiligten Systemkomponenten wurden die umfangreichen Ergebnisse der vorgestellten experimentellen Studie in eine interaktive, grafische Darstellung überführt. Das
Werkzeug erlaubt es, jede Dimension und die Zielmetrik des untersuchten
Parameterraumes gezielt einzuschränken. Das in Abschnitt vier dargelegte
Beispiel zeigt, dass sowohl die Auswirkungen einzelner Parameter als auch
die Wechselwirkungen zwischen den Komponenten auf einen oder mehrere
Testkorpora analysiert werden können. Damit lassen sich Rückschlüsse auf
die Robustheit der jeweiligen Systemkonfigurationen ziehen. Für weitere
Arbeiten existieren bereits wesentliche Ansatzpunkte. So ist beispielsweise
eine Verbesserung der Auswahlmechanismen des Werkzeugs geplant. Die
Möglichkeit Koordinaten aus der Darstellung zu entfernen, würde es erlauben, auf bestimmte Aspekte der Konfiguration konzentrierter eingehen zu
können.
58
Danksagung
Diese Arbeit wurde teilweise von Mitarbeitern der Forschungsinitiative
sachsMedia (www.sachsmedia.tv) realisiert, die im Rahmen des Förderprogramms Unternehmen Region vom BMBF finanziert wird.
Referenzen
Ferro, N. und Harman, D. (2009). CLEF 2009: Grid@CLEF pilot track overview. In:
Multilingual Information Access Evaluation I. Text Retrieval Experiments, 10th
CLEF Workshop, Corfu, Greece
Hanburry, A. und Müller, H. (2010). Automated Component-Level Evaluation: Present and Future. In: Multilingual and Multimodal Information Access Evaluation,
Padua, Italy
Jenkins, M. C. und Smith, D. (2005). Conservative stemming for search and indexing. In: Proceedings of the 28th international ACM SIGIR conference, Salvador,
Brazil
Kürsten, J., Wilhelm, T., und Eibl, M. (2008). Extensible retrieval and evaluation
framework: Xtrieval. LWA 2008: Lernen – Wissen – Adaption, Workshop Proceedings, Germany
Krovetz, R. (1993). Viewing morphology as inference process. In: Proceedings of
the 16th international ACM SIGIR conference, pp. 191–202, Pittsburgh, USA
McNamee, P., Nicholas, C., und Mayfield, J. (2009). Addressing morphological
variation in alphabetic languages. In: Proceedings of the 32nd international ACM
SIGIR conference, pp. 75–82, July 19–23, Boston, USA
Mizarro, S. und Robertson, S. (2007). Hits hits TREC: exploring IR evaluation results with network analysis. In: Proceedings of the 30th international ACM
SIGIR conference, pp. 479–486, Amsterdam, Netherlands
Ogilvie, P. und Callan, J. (2002). Experiments using the Lemur toolkit. In: Proceedings of the 2001 Text Retrieval Conference, pp. 103–108. National Institute
of Standards and Technology, special publication 500-250, USA
Ounis, I., Lioma, C., Macdonald, C., und Plachouras, V. (2007). Research directions
in terrier: a search engine for advanced retrieval on the Web. Novatica/UPGRADE Special Issue on Next Generation Web Search, pp. 49–56
59
Porter, M. F. (1997). An algorithm for suffix stripping. In: Multimedia information
and systems series – Readings in information retrieval, pp. 313–316, San Francisco, USA
Robertson, S. (2006) On GMAP: and other transformations. In: Proceedings of the
15th ACM CIKM conference, pp. 78–83, Arlington, USA
Webber, W., Moffat, A., und Zobel, J. (2008). Score standardization for inter-collection comparison of retrieval systems. In: Proceedings of the 31st international
ACM SIGIR conference, pp. 51–58, Singapore
Wegman, E. J. (1990). Hyperdimensional data analysis using parallel coordinates. In:
Journal oft he American Statistical Association, Vol. 85, No. 411, pp. 664–675,
USA
60
Session 2:
Informationsinfrastruktur
61
62
R. Barkey, E. Hinrichs, C. Hoppermann, T. Trippel, C. Zinn
Komponenten-basierte Metadatenschemata
und Facetten-basierte Suche
Ein flexibler und universeller Ansatz
Reinhild Barkey, Erhard Hinrichs, Christina Hoppermann,
Thorsten Trippel, Claus Zinn
Seminar für Sprachwissenschaft und SFB 833 – Universität Tübingen
Wilhelmstr. 19, D-72074 Tübingen
E-Mail: [email protected]
Zusammenfassung
Wenn man verschiedenartige Forschungsdaten über Metadaten inhaltlich
beschreiben möchte, sind bibliografische Angaben allein nicht ausreichend.
Vielmehr benötigt man zusätzliche Beschreibungsmittel, die der Natur und
Komplexität gegebener Forschungsressourcen Rechnung tragen. Verschiedene Arten von Forschungsdaten bedürfen verschiedener Metadatenprofile,
die über gemeinsame Komponenten definiert werden. Solche Forschungsdaten können gesammelt (z.B. über OAI-PMH-Harvesting) und mittels Facetten-basierter Suche über eine einheitliche Schnittstelle exploriert werden.
Der beschriebene Anwendungskontext kann über sprachwissenschaftliche
Daten hinaus verallgemeinert werden.
Abstract
The content description of various kinds of research data using metadata
requires other than bibliographical data fields that are alone not sufficient for
this purpose. To properly account for research data, other metadata fields are
required, often specific to a given research data set. Consequently, metadata
profiles adapted to different types of resources need to be created. These are
defined by building blocks, called components, that can be shared across
profiles. Research data described in this way can be harvested, for example,
using OAI-PMH. The resulting metadata collection can then be explored via
a unified interface using faceted browsers. The described application is in the
area of linguistic data, but our approach is also applicable for other domains.
1
63
Beschreibungsprofile für Klassen
von Ressourcen
Wissenschaftliche und andere Publikationen werden in der Regel mit strukturierten Beschreibungen, Metadaten, versehen, wie z.B. mit bibliografischen
Angaben zu Autoren, Publikationstitel, Verlagshaus und Erscheinungsjahr,
sowie mit einer Klassifikation oder Verschlagwortung. Diese Metadaten erlauben das Auffinden von Publikationen innerhalb von (Bibliotheks-) Katalogen. Auf diese Weise kann auch innerhalb einer wissenschaftlichen Arbeit
auf andere publizierte Arbeiten verwiesen werden. Gleichzeitig helfen
Schlagworte, verwandte Arbeiten grobkörnig zu gruppieren.
Für Druckerzeugnisse hat sich als Beschreibungssystem eine Kernmenge
von Datenkategorien für Metadaten etabliert, die Dublin-Core-Kategorien
(Hillmann, 2005). Viele dieser Kategorien sind für Forschungsprimärdaten
nicht relevant oder nicht aussagekräftig, um durch die Beschreibung einem
möglichen Benutzer einen hinreichenden Eindruck zu geben, um was für eine
Ressource es sich überhaupt handelt. Unterschiedliche Klassen von Ressourcen benötigen dabei unterschiedliche Beschreibungsebenen. So sind etwa
für die Sprachtechnologie Informationen zu Audioformaten von Aufnahmen
wichtig, wohingegen für Textkorpora eher der Zeichensatz eine Rolle spielt,
für lexikalische Ressourcen die Struktur der einzelnen Einträge, für Fragebogenauswertungen die Größe der Stichprobe und Methode, etc.
Aus diesen Beispielen wird deutlich, dass die benötigten Beschreibungsdimensionen für Ressourcen stets vom Ressourcentyp abhängen, auch wenn
für Archivierungszwecke allgemeine bibliografische Kategorien für alle Typen Anwendung finden können. Daher ist es notwendig, basierend auf einem
Klassifikationssystem für Ressourcen und möglichen Prototypen Beschreibungsmuster zu definieren, die in Abhängigkeit vom Ressourcentyp auf die
jeweilige Ressource angewendet werden können. Diese Beschreibungsmuster
bilden Profile für Metadaten.
64
2
Komponentenbasierte
Metadatenbeschreibungen
Profile für unterschiedliche Ressourcentypen sind nicht überschneidungsfrei,
weil bestimmte Beschreibungsebenen, wie z.B. bibliografische Informationen, häufig von verschiedenen Ressourcentypen verwendet werden. Somit
können auch Beschreibungen unterschiedlicher Ressourcentypen Ähnlichkeiten aufweisen. Um die Wiederverwendung von gemeinsamen Datenkategorien und Beschreibungsstrukturen sowohl bei der Erstellung als auch bei
der Interpretation von Beschreibungen zu gewährleisten, wurde ein System
für Metadaten entwickelt, bei dem zusammengehörige Datenkategorien und strukturen zu Komponenten zusammengefasst werden. Komponenten sind
dabei zunächst Mengen von beschreibenden Datenkategorien. Diese wiederum können selbst zu größeren Komponenten kombiniert werden, um
schließlich für einen Ressourcentyp als ein Beschreibungsprofil Verwendung
zu finden. Damit werden Komponenten als Bausteine für Profile verwendet,
wobei die gleichen Komponenten innerhalb verschiedener Profile enthalten
sein können.
Im Rahmen des EU-Projektes CLARIN (www.clarin.eu) wurde zur systematischen Verwendung von Komponenten ein Metadatenschema, die Component MetaData Infrastructure (CMDI, siehe Broeder et al., 2010, siehe
auch htttp://www.clarin.eu/cmdi), entwickelt. Neben einer Beschreibungssprache für Profile und Komponenten enthält diese Infrastruktur dazu auch
weitere Werkzeuge, sowohl Editoren als auch Analysewerkzeuge. Diese
operieren unabhängig vom Ressourcentyp auf bestimmten Datenkategorien.1
Bestehende Metadatenstandards wie Dublin Core (Coyle und Baker, 2008),
OLAC (Simons und Bird, 2008) oder der TEI-Header (TEI P5, 2007) können
als Profile oder auch als Komponenten dargestellt werden, sodass ein Komponentenmodell mit Profilen als Obermenge bestehender Metadatenschemas
angesehen werden kann. So werden die bibliografischen Informationen in
den Metadaten einer Ressource für Archiv- und Bibliothekskataloge ver1 Die Implementierung hätte dabei auch mittels XML-Namespaces erfolgen können, dies
allerdings zu Lasten einer erhöhten Komplexität, da potenziell die volle Ausdrucksmächtigkeit von XSchema zur Verfügung gestanden hätte. Die vorliegenden Werkzeuge dagegen basieren zwar auf XSchema, operieren aber auf einer Teilmenge davon
und enthalten Restriktionen, die zu einer leichteren Handhabung führen.
65
wendbar. Andere Datenkategorien dagegen, wie z.B. die Angabe von Annotationstypen bei linguistischen Korpora, werden von allgemeinen Kataloganwendungen ignoriert, aber von spezialisierten Suchmaschinen oder Diensten verwendet.
Um auch institutionsübergreifend die Verwendung gleicher Komponenten
und Profile zu ermöglichen, wurde im Rahmen von CMDI die Component
Registry veröffentlicht. Dabei handelt es sich um ein Verzeichnis, das zentral
Komponenten und Profile sowohl zur Weiterverwendung in Institutionen und
Projekten als auch zur Validierung konkreter Instanzen zur Verfügung stellt.
Die Komponenten erhalten dort einen persistenten Identifikator (Persistent
Identifier oder PID, siehe ISO 24619), auf den sowohl von anderen Komponenten als auch Instanzen verwiesen werden kann und der über ein HandleSystem zu einer URL aufgelöst wird.
Innerhalb der Komponenten werden die Datenkategorien mit einer Referenz auf bereits standardisierte oder im Standardisierungsprozess befindliche
Datenkategorien verwendet, die in einem Verzeichnis definiert und nachhaltig dokumentiert werden. Bei diesem Verzeichnis für Datenkategorien
handelt es sich um ISOcat, das aus dem Bereich der Sprachressourcen der
International Organization of Standardization (ISO, siehe ISO 12620:2009,
siehe auch http://www.isocat.org) stammt. Die Referenz auf in ISOcat definierte Datenkategorien innerhalb der Komponenten ermöglicht es, dass Datenkategorien von unterschiedlichen Erstellern von Metadateninstanzen in
gleicher Weise verstanden werden. Außerdem können Probleme wie nicht
der Definition entsprechende entfremdete Verwendungen der Datenkategorien (d.h. Tag Abuse) eingedämmt werden.
In den Komponentendefinitionen von CMDI können zudem kontrollierte
Vokabulare angegeben werden. Diese können ebenfalls dazu beitragen, das
Problem des Tag Abuse zu minimieren, da Datenkategorien durch das kontrollierte Vokabular formal auf ihre Konsistenz geprüft werden können.
Gleichzeitig gibt es auch Freitextfelder wie Zusammenfassungen und Beschreibungen, deren Inhalt nicht genauer reglementiert wird. Der Gebrauch
von Datenmodellen ist nach Maßgabe der zugrundeliegenden Schemasprache
möglich. Im Rahmen des CMDI-Datenmodells ist dies mit der Verwendung
von XSchema sehr weitgehend umgesetzt worden, angefangen von Datumsformaten bis zu regulären Ausdrücken für Zeichenkettendefinitionen.
Abbildung 1 stellt eine Anwendung des Komponentenmodells für linguistische Korpora dar. Die Komponenten (durch Rechtecke repräsentiert) können dabei selbst weitere Komponenten enthalten. So ist z.B. die Komponente
66
zur Annotation innerhalb der Komponente zur Erstellung der Ressource
(Creation) eingebunden. Komponenten sind dabei unterschiedlich komplex
(illustriert durch die Dimensionen der Rechtecke), können aber in verschiedenen Profilen und Komponenten erscheinen. Beispielsweise wird die in der
vorliegenden Implementierung verwendete Komponente GeneralInfo in fast
allen Profilen für unterschiedliche Ressourcentypen eingebunden. Tochterkomponenten und Datenkategorien können nebeneinander in Komponenten
erscheinen (in der Abbildung: Datenkategorien mit durchgezogenen Kanten).
Abbildung 1:
Komponentenmodell für Metadaten zur Beschreibung von linguistischen Korpora.
3
67
Verbreitung von Metadaten über OAI-PMH
Für den Austausch von Metadaten in Archiven hat sich im Rahmen der Open
Archive Initiative ein Containerformat etabliert: das Open Archive Initiative
Protocol for Metadata Harvesting (siehe OAI-PMH, 2008). Obwohl OAIPMH im Wesentlichen zum Austausch von Dublin-Core-Daten für Kataloginformationen zwischen Bibliotheken gedacht war, erlaubt es dieses Protokoll dennoch, z.B. mithilfe von Namespaces, auch weitere Metadatenformate
einzubinden. Auf diese Weise können detaillierte Metadaten nach dem Komponentenmodell über einen OAI-PMH-Server bereitgestellt werden. Die einzige Voraussetzung dabei ist, dass es – möglicherweise zusätzlich zu diesen
spezifischen Metadaten – bibliografische Metadaten nach Dublin Core gibt,
wenn der verwendende Service auf Dublin Core Metadaten beschränkt ist.
Services, die von Dublin Core unabhängig sind, benötigen diese Abbildung
nicht. CMDI Informationen können damit direkt in OAI-PMH-Containern
eingebunden und verteilt werden.
Da ein Komponentenmodell detailreicher ist und in Dublin Core die Datenkategorien optional sind, gibt es immer eine verlustbehaftete Abbildung
dieser Komponenten-Metadaten nach Dublin Core. Um eine vollständigere
Abbildung von den detailreicheren Metadaten auf Dublin Core vorzunehmen,
ist eine profilspezifische Anpassung nötig. So kann eine Person, die in einer
Projektleiterkomponente einer Ressource erscheint, in Abhängigkeit vom
Ressourcentyp in Dublin Core als Herausgeber oder als Autor aufgefasst
werden. Dies kann automatisiert beim Bereitstellen auf dem OAI-PMH-Server erfolgen, sodass keine redundante Dateneingabe erfolgen muss.
Die über OAI-PMH-Server bereitgestellten Metadaten können automatisiert mit Crawlern und Webservices erfasst werden. Zur Zeit werden Metadatenbestände unter anderem von den folgenden sprachwissenschaftlichen
Institutionen semiautomatisch erfasst und ausgewertet: MPI Nijmegen, Universität Leipzig, Bayerisches Archiv für Sprachdaten, Universität Stuttgart,
Universität Tübingen, Berlin-Brandenburgische Akademie der Wissenschaften und linguistische Sonderforschungsbereiche der DFG.
68
4
Verwendung von komponentenbasierten
Metadaten für die Facetten-basierte Suche
Ein wesentliches Problem bei der Weiterverwendung von Forschungsprimärdaten in anderen Kontexten und der Überprüfung von Ergebnissen anhand
der Daten – was zum Beispiel durch die Deutsche Forschungsgemeinschaft
gefordert wird (DFG, 2009) – ist neben der Langzeitarchivierung auch und
gerade die Auffindbarkeit der Daten (Rehm, et al., 2010). Dies umfasst zunächst nicht den Zugang zu den Forschungsprimärdaten, sondern die Auffindbarkeit ihrer formalen Beschreibungen, wie sie beispielsweise in Bibliothekskatalogen für Schriften vorliegen. Dabei stellt die große Variation von
Metadatenkategorien in Abhängigkeit von den Klassen von Ressourcen eine
Herausforderung dar. Volltextsuchen über die Metadaten sind für diesen
Zweck nur bedingt hilfreich, da sie die in Datenkategorien und Metadatenstrukturen implizit enthaltenen Informationen nicht auswerten. Auch klassische formularbasierte Suchen, die oft als „erweiterte Suche“ bezeichnet
werden, sind durch die Variabilität der Metadatenschemas mit unterschiedlichen Komponenten stark eingeschränkt, weil sie nicht alle Varianten berücksichtigen können, ohne zu umfangreich und unübersichtlich zu werden.
Um diese Probleme zu vermeiden, kann man ein Facetten-basiertes Suchsystem (siehe Hearst, 2006) einsetzen, das alle Datensätze eines Datenbestandes mithilfe von Ausprägungen wohldefinierter Facetten beschreibt. Dazu werden einem Datensatz in der Regel mehr als eine Kategorie (Teilmenge) zugeordnet. Die Abbildung zwischen Facetten und Metadatenfeldern
diverser Metadatenprofile wird dabei durch den oben beschriebenen Komponenten-basierten Ansatz enorm vereinfacht. Dies liegt daran, dass eventuelle Ambiguitäten in der Lesart durch Referenz auf das Verzeichnis von
Metadatenkategorien (www.isocat.org) leicht aufgelöst werden können.
Der Benutzer eines Faceted Browsers erhält bereits zu Suchbeginn eine
Facetten-basierte Übersicht über den gesamten Datenbestand. Abbildung 2
veranschaulicht dies am Beispiel des im Projekt „Nachhaltigkeit Linguistischer Daten“ (NaLiDa, http://www.sfs.uni-tuebingen.de/nalida) entwickelten Faceted Browsers, der einen Zugang zu sprachwissenschaftlichen Forschungsprimärdaten auf der Basis von komponentenbasierten Metadaten erlaubt. Sichtbar sind in der Abbildung die Facetten origin (Quelle eines Datensatzes), modality (Modalität der Ressource), resourcetype (Ressourcentyp), country (Ursprungsland), language (Sprache der Ressource) und or-
69
ganisation (Institution, an der diese Ressource entstanden ist) sowie ihre
Facettenausprägungen und die Anzahl der Datensätze, die mit den jeweiligen
Ausprägungen beschrieben sind. Durch die Auswahl einer Facettenausprägung (z.B. die Facette resourcetype mit Ausprägung corpus) setzt der Nutzer
einen Filter, der den Suchraum entsprechend verkleinert. Die ausgewählten
Datensätze (Anzahl 4499) werden so wiederum umgehend mithilfe der verbliebenen Facetten beschrieben, sodass der Nutzer gezielt durch Suchräume
navigieren kann. Auf diese Weise kann ein Nutzer etwa alle Ressourcen
identifizieren, die zugleich aus einem bestimmten Korpus stammen und einer
bestimmten Sprache zugeordnet werden. In diesem Suchkontext fächert der
Faceted Browser die ausgewählten Ressourcen u.a. bezüglich der Ausprägungen der Facette genre auf. Nutzer können so ihre Suche nach einem
deutschsprachigen Korpus mit Dialogdaten oder Diskursdaten verfeinern.
Abbildung 2: Der NaLiDa-Faceted-Browser zum Metadaten-basierten Zugriff auf
Forschungsprimärdaten in der Sprachwissenschaft.
70
Für die sehr großen und heterogen Datenbestände in der Sprachwissenschaft ist die Einführung bedingter Facetten hilfreich. Bedingte Facetten sind
solche, die nur für bestimmte Typen von Ressourcen relevant sind und die
dem Nutzer erst nach Vorauswahl von einigen allgemeinen, sogenannten unbedingten Facetten angezeigt werden. Somit erlauben sie eine feinkörnigere
Suche in Teilräumen von Metadatensätzen. Beispielsweise wird die bedingte
Facette genre mit ihren Ausprägungen discourse, poetry, story-telling, etc.
nur angezeigt, wenn Datensätze vom Ressourcetyp corpus weiter exploriert
werden sollen. Werden vom Nutzer hingegen Datensätze vom Ressourcentyp
tool ausgewählt, wird ihre weitere Exploration durch die Einführung der bedingten Facette tooltype (mir ihren Ausprägungen spell checker, POS tagger,
named entity recognizer, etc.) erleichtert.
Abbildung 3:
Architektur eines Metadaten-basierten Zugangs zu Forschungsprimärdaten.
Diese Benutzerschnittstelle ist unabhängig von der Datenhaltung der Forschungsprimärdaten, erlaubt aber über die persistenten Identifikatoren (PIDs)
der Forschungsprimärdaten die Verbindung zwischen beiden. Abbildung 3
illustriert die Architektur eines Systems, in dem Metadaten und Primärdaten
71
konzeptionell getrennt sind und unterschiedlichen Rechteverwaltungs- und
Zugangssystemen unterstehen. Die Metadaten-Objekte sind in einem Metadata Repository offen zugänglich und damit lesbar. Sie können von unterschiedlichen Services verwendet werden. Der Zugang zu Primärdaten erfordert dagegen sowohl die Authentifizierung als auch die Überprüfung der
speziellen Rechte eines Benutzers, die Autorisierung. Die Suche und die Auflösung von persistenten Identifikatoren auf URLs können dabei wiederum
unabhängig als Service realisiert werden.
5
Zusammenfassung und
weiterführende Arbeiten
In diesem Beitrag haben wir die Grundzüge von Komponenten-basierten
Metadatenmodellen skizziert und aufgezeigt, wie flexibel ein solches System
auf unterschiedliche Ressourcentypen angewendet werden kann. Dabei erweist sich ein Faceted Browser als hervorragendes Werkzeug, um erfahrenen
Nutzern wie auch Anfängern einen einheitlichen Zugriff auf Kollektionen
von Metadatensätzen zu geben. Die Einführung bedingter Facetten sorgt zudem dafür, dass Navigationselemente dynamisch und kontextsensitiv bereitgestellt werden und bringt somit Nutzern eine zusätzliche Unterstützung zur
schnellen und strukturierten Exploration großer Datenmengen.
Nach der ersten Implementierung eines Faceted Browsers auf der Basis
von CMDI-Komponentenmetadaten für unterschiedliche Korpora, Lexika
und computerlinguistische Werkzeuge, sollen in einem nächsten Arbeitsschritt Profile für weitere Ressourcentypen geschaffen und die Inhaltsmodelle von Komponenten überprüft und bei Bedarf angepasst werden. Diese
Komponenten sind ferner über die Component Registry zur Weiterverwendung bereit zu stellen.
Ein wichtiger, bereits initiierter Schritt besteht darin, das Komponentenmodell selbst und eine Implementierungssprache für Komponenten in den
Standardisierungsprozess im Rahmen der ISO einzubringen. Dies soll dazu
führen, dass langfristig und transparent Dienstleistungen für die Forschung
und Ressourcengemeinschaft aufgebaut werden können.
Zur Erweiterung des Systems wird außerdem versucht, weitere Archive
und Daten produzierende Projekte mit einzubeziehen und gegebenenfalls bei
72
der Erstellung von Metadatenbeispielen für ihre Datentypen zu unterstützen.
Dies soll dazu führen, dass Forschungsprimärdaten langfristig zur Weiterverwendung, Referenz und als Forschungs- und Ergebnisbeleg verfügbar sind.
Literaturverzeichnis
Broeder, D.; Kemps-Snijders, M.; Van Uytvanck, D.; Windhouwer, M.; Withers, P.;
Wittenburg, P.; Zinn, C. (2010): “A Data Category Registry- and Componentbased Metadata Framework”. Proceedings of the 7th conference on International
Language Resources and Evaluation.
Coyle, K.; Baker, Thomas (2009): Guidelines for Dublin Core Application Profiles.
Dublin Core Metadata Initiative, 2009-05-18.
http://dublincore.org/documents/2009/05/18/profile-guidelines/
DFG (2009): Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten. Deutsche Forschungsgemeinschaft, Ausschuss für
Wissenschaftliche Bibliotheken und Informationssysteme, Unterausschuss für Informationsmanagement, 2009.
http://www.dfg.de/download/pdf/foerderung/programme/lis/ua_inf_empfehlungen_20
0901.pdf
Hearst, M. (2006): “Design Recommendations for Hierarchical Faceted Search Interfaces”. ACM SIGIR Workshop on Faceted Search.
Hillmann, D. (2005): Using Dublin Core – The Elements. Dublin Core Metadata
Initiative, 2005-11-07.
http://dublincore .org/documents/2005/11/07/usageguide/elements.shtml
ISO 12620:2009: Terminology and other language and content resources – Specification of data categories and management of a Data Category Registry for language resources. International Organization of Standardization, Genf.
http://www.isocat.org
ISO/DIS 24619:2010: Language resource management -- Persistent identification
and sustainable access (PISA). International Organization of Standardization,
Genf. http://www.isocat.org
OAI-PMH (2008): The Open Archives Initiative Protocol for Metadata Harvesting.
Protocol Version 2.0 of 2002-06-14, Document Version 2008-12-07.
http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm
Rehm, G., Schonefeld, O., Trippel, T. Witt, A. (2010): Sustainability of Linguistic
Resources Revisited. Proceedings of the International Symposium on XML for
73
the Long Haul: Issues in the Long-term Preservation of XML. Balisage Series on
Markup Technologies, vol. 6 (2010). doi:10.4242/Balisage/Vol6.Witt01
Simons, G.; Bird, S. (2008): OLAC Metadata. Open Language Archive Community,
2008-05-31. http://www.language-archives.org/OLAC/metadata-20080531.html
TEI P5 (2007): TEI Guidelines. Text Encoding Initiative, 1. November 2007.
http://www.tei-c.org/Guidelines/P5/
74
Toolbasierte Datendokumentation
in der Psychologie
Leibniz-Zentrum für Psychologische Information und Dokumentation
D-54286 Trier
E-Mail: dehnhard@zpid, [email protected]
Zusammenfassung
Das Leibniz-Zentrum für Psychologische Information und Dokumentation
(ZPID) stellt mit PsychData seit 2002 ein auf Forschende in der Psychologie
ausgerichtetes Datenarchiv zur Verfügung. In diesem Beitrag werden die
Herausforderungen der Forschungsdatendokumentation im Fach Psychologie
dargestellt, und es wird ein im Rahmen des Projekts entwickeltes Werkzeug
vorgestellt, das insbesondere in der forschungsbegleitenden Dokumentation
eingesetzt werden kann.
Abstract
Since 2002, the Leibniz Institute for Psychology Information is operating a
data archive supporting researchers in psychology. This paper discusses the
challenges of documenting research data in psychology and related disciplines. Moreover, a Web application is presented which has been developed
for data documentation during the research process.
Einleitung
Psychologie versteht sich als empirische Wissenschaft, deren Erkenntnisfortschritt auf der Gewinnung und Verarbeitung von Forschungsdaten beruht
(Erdfelder, 1994). Die aufgrund der Daten ermittelten Ergebnisse werden
dann in Publikationen der Forschungsgemeinschaft zur Verfügung gestellt.
75
Während früher im Anhang einer Publikation noch die Daten veröffentlicht
wurden (z.B. Donders, 1868) und so also direkt verfügbar waren, ist es heute
schwieriger, an die Datenbasis einer Veröffentlichung zu gelangen (Wicherts
et al., 2006). Trotz des enormen Stellenwerts, der der empirischen Grundlage
psychologischer Forschung beigemessen wird, erhalten die Forschungsdaten
weniger Beachtung. Dies wird auch an der Tatsache deutlich, dass bisher die
Veröffentlichung von Daten Wissenschaftlern keine Reputation bringt, sondern nur darauf aufbauende Publikationen (vgl. Wagner, 2010, Klump et al.,
2006).
Allerdings lässt sich in Forschungskultur und -politik ein Umdenken feststellen. Die Vorteile des Data Sharing, wie z.B. ökonomischer Nutzen, Qualitätssicherung, Potenzial für Reanalysen unter neuen Fragestellungen oder mit
anderen statistischen Methoden, werden zunehmend erkannt (vgl. Bengel &
Wittman, 1982, Wicherts et al. 2006) und führen zu ersten forschungspolitischen und infrastrukturellen Maßnahmen. So gibt die Deutsche Forschungsgemeinschaft (DFG) in ihrer Denkschrift Vorschläge zur Sicherung
guter wissenschaftlicher Praxis die Empfehlung, dass „Primärdaten als
Grundlagen für Veröffentlichungen auf haltbaren und gesicherten Trägern in
der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden
sollen“ (DFG, 1998).
Über die reine Aufbewahrungspflicht hinaus, sollten Daten auch für andere Wissenschaftler auffindbar und zugänglich sein. Die Verbesserung und
Erweiterung der Dateninfrastruktur in den Sozial-, Verhaltens- und Wirtschaftswissenschaften stellt daher das erklärte Arbeitsziel des Rates für Sozial- und WirtschaftsDaten (RatSWD)1 dar. Der RatSWD ist ein unabhängiges
Gremium, das sich aus empirisch arbeitenden Wissenschaftlern von Universitäten, Hochschulen und anderen Forschungseinrichtungen unabhängiger
wissenschaftlicher Forschung sowie von Vertreterinnen und Vertretern wichtiger Datenproduzenten zusammensetzt. Seine Aufgaben liegen in der Optimierung des Datenzugangs und der Datennutzung sowie in der Interessenvermittlung zwischen Wissenschaft und Datenproduzenten.
Speziell für das Fach Psychologie bietet das Datenarchiv PsychData2 ein
Serviceangebot zur Unterstützung von Forschenden im Primär- und Sekundärforschungskontext an (vgl. Ruusalepp, 2008, Klopp, 2010). Forscher er1 http://www.ratswd.de/, letzter Zugriff am 25.10.2010.
2 http://psychdata.de/, letzter Zugriff am 04.11.2010.
76
halten die Möglichkeit, ihre Daten bei PsychData langfristig zu archivieren
und zur Nachnutzung bereitzustellen. Dies beinhaltet auch die Zitierfähigkeit
der Daten, da diese über DOIs (Digital Object Identifiers) identifizierbar
bleiben. Die bereitgestellten Daten können von Sekundärforschern für die
wissenschaftliche Forschung und Lehre nachgenutzt werden. Sowohl die
Datenbereitstellung durch den Produzenten als auch die Weitergabe an Datennutzer sind vertraglich geregelt. Abbildung 1 zeigt die Verortung der
PsychData-Plattform im Forschungskontext. Neben der Datenarchivierung
und -bereitstellung unterstützt PsychData Wissenschaftler bei der retrospektiven und forschungsbegleitenden Dokumentation ihrer Daten.
Abbildung 1: PsychData im Forschungskontext
Voraussetzung zum Data Sharing
Die Archivierung und Bereitstellung von Forschungsdaten erfordert eine entsprechende Aufbereitung der Daten. Neben den technischen Maßnahmen zur
Datensicherung wie z.B. Speicherung in geräte- und systemunabhängigen
Formaten, ist vor allem eine langfristige Interpretierbarkeit der Daten sicherzustellen. Ohne eine umfassende Dokumentation sind die Forschungsdaten
inhaltsleer und somit für eine Nachnutzung unbrauchbar. Diese Dokumentation sollte optimalerweise anhand von internationalen Standards erfolgen,
um Interoperabilität und Durchsuchbarkeit der Inhalte zu gewährleisten. Ebenso wichtig wie die Dokumentation sind Kontrollen der Forschungsdaten
auf Integrität, Vollständigkeit, Konsistenz und Anonymisierung.
Diese notwendige Dokumentation und auch Datenüberprüfung wird im
Forschungsalltag häufig nachlässig durchgeführt. Doch gerade eine Dokumentation des Forschungsprozesses von Beginn an wird als „Best Practice“
im Datenmanagement angesehen (Van den Eynden et al., 2009). Eine retrospektive Aufbereitung der Daten ist meist zeit- und arbeitsaufwendiger, ein-
77
zelne Fragen lassen sich im Nachhinein möglicherweise gar nicht mehr klären. Gründe für die Vernachlässigung einer gründlichen Dokumentation werden vor allem in der mangelnden zur Verfügung stehenden Zeit oder auch
den fehlenden „incentives“ vermutet (Wagner, 2010). Eine weitere Ursache
dafür, dass die Datendokumentation keine selbstverständliche Routine im
Forschungsalltag darstellt, könnte in der fehlenden Verbreitung von Standards und Richtlinien zur Dokumentation liegen und auch im Fehlen geeigneter Werkzeuge und Plattformen, die eine möglichst effiziente Dokumentation der Forschungsdaten erlauben (vgl. Postle et al., 2002). Gängige Statistikpakete unterstützen den Forschenden hierbei nur sehr unzureichend.
Dokumentationsstandards im PsychData-Archiv
Das psychologische Archiv PsychData verwendet zur Beschreibung der zur
Verfügung gestellten Forschungsdaten ein Set von Metadaten, das sowohl
den Forschungskontext als auch die Variablen selbst umfassend dokumentiert. Diese Metadaten orientieren sich an den international anerkannten Dokumentationsstandards Dublin Core3 mit seinen 15 Kernelementen und DDI
Version 2 (Data Documentation Initiative4). DDI ist ein XML-Format, das
speziell für die Beschreibung von sozialwissenschaftlichen Daten entwickelt
wurde und in vielen Projekten weltweit eingesetzt wird.5 Im April 2008 ist
Version 3 des DDI Standards erschienen, die im Gegensatz zu der vor allem
auf die Variablenbeschreibung konzentrierte Version 2 versucht den gesamten data life cycle abzubilden. Mittelfristig ist geplant, die PsychDataMetadaten im DDI 3 Format zur Verfügung zu stellen. Das von PsychData
verwendete Metadatenset ist mit beiden Dokumentationsstandards kompatibel, wurde aber entsprechend erweitert, um den Besonderheiten der psychologischen Forschung gerecht zu werden (vgl. Fahrenberg, 2009, Weichselgartner, 2008). Kennzeichnend für die Psychologie ist die Erforschung
3 http://dublincore.org/, letzter Zugriff am 08.11.2010.
4 http://www.ddialliance.org/, letzter Zugriff am 08.11.2010.
5 Eine Liste einiger Projekte, die DDI zur Dokumentation ihrer Daten einsetzen, ist unter http://www.ddialliance.org/ddi-at-work/projects verfügbar (letzter Zugriff am
25.10.2010).
78
nicht direkt beobachtbarer innerpsychischer Prozesse. Für deren Messung
sind Konstruktbildungen, Operationalisierungen und die Entwicklung von
Erhebungsinstrumenten sowie derer Validierung notwendig und müssen
dementsprechend auch ausreichend dokumentiert werden.
Mit den PsychData-Metadaten erfolgt daher zum einen eine genaue Studienbeschreibung anhand von bibliografischen Angaben (wie Autor, Titel
etc.), einer inhaltlichen Studiendarstellung (z.B. zugrundeliegende Hypothesen) und insbesondere Angaben zum Datenerhebungsprozess (verwendete
Testverfahren, Methodenbeschreibung, Stichprobenziehung etc.).
Zum anderen werden zum eindeutigen Verständnis der Forschungsdaten
selbst die einzelnen Variablen anhand eines Kodebuchs beschrieben. Das von
PsychData verwendete Kodebuch-Schema enthält die Elemente: Variablenname, inhaltliche Variablenbeschreibung, Itemtext (z.B. die gestellte Frage
oder Instruktionsanweisung), Wertebereich der gültigen Werte, Wertebereich
der fehlenden Werte, Bedeutung der gültigen Werte und Bedeutung der fehlenden Werte.
Die Erstellung einer kompletten Dokumentation anhand einer Studienbeschreibung und eines Kodebuchs bedeutet einen relativ zeitintensiven Arbeitsaufwand. Dieser kann durch entsprechende technische Unterstützung jedoch wesentlich verringert werden.
Ein Werkzeug zur
forschungsbegleitenden Dokumentation
Im Rahmen des PsychData-Projekts wurde ein webbasiertes Dokumentationstool entwickelt, das es Forschern erleichtern soll, ihre Daten umfassend
zu dokumentieren und auf Konsistenz zu überprüfen. Das Dokumentationstool ermöglicht die Datenbeschreibung anhand des PsychData-Metadatensets
sowie das Hochladen und Archivieren der Forschungsdaten selbst. Die Nutzung des Tools kann sowohl retrospektiv als auch forschungsbegleitend erfolgen. Bei der Bearbeitung eines Kodebuchs und der zugehörigen Datenmatrix erfolgen automatische Fehlerkontrollen, durch die Mindeststandards
der Datenaufbereitung gewährleistet werden.
Neben der Funktion eines reinen Dokumentationswerkzeugs für einzelne
Forscher besteht auch die Möglichkeit, die Anwendung als eine Data Sharing
79
Plattform zu verwenden. Einzelne Mitarbeiter können Mitgliedern aus ihrer
Forschungsgruppe Zugriff auf ihre Datensätze gewähren. Ebenso kann die
Anwendung bei der Betreuung von Diplomarbeiten oder Dissertationen eingesetzt werden, indem Studierende, die mit dem Tool arbeiten, ihren jeweiligen Betreuern den Zugriff auf ihre Daten ermöglichen. Hierfür steht eine
Rechteverwaltung zur Verfügung, mit der die Zugriffsrechte für andere Personen auf die eigenen Daten festgelegt werden können.
Ein Anwendungsfeld dieses Werkzeugs sind Datensammlungen, wie sie
im Rahmen von Diplom-/Masterarbeiten oder auch Dissertationen entstehen.
Diese wurden bisher nicht langfristig archiviert und publiziert – Studierende
sind zwar in der Regel von ihrem Lehrstuhl angehalten, ihre Daten auf einem
Datenträger wie CD-ROM zusammen mit der Prüfungsarbeit abzugeben, im
Gegensatz zu den eigentlichen Arbeiten, die häufig auf Dokumentenservern
abgelegt werden, verschwinden die Daten dann aber meist in irgendwelchen
Stahlschränken und sind für eine Nachnutzung nicht verfügbar. Abgesehen
von den fehlenden Zugriffsmöglichkeiten sind die Beschreibungen der Daten
nicht standardisiert, was ein Nachrechnen der Ergebnisse durch den/die Betreuer/in der Prüfungsarbeit bzw. eine Nutzung der Daten durch Dritte in
einem anderen Auswertungskontext sehr schwierig macht. Hier kann das
Dokumentationstool einen Beitrag leisten, um zum einen die Verfügbarkeit
von Datensätzen zu gewährleisten, zum anderen aber auch die Lehrenden bei
der Betreuung studentischer Arbeiten zu unterstützen. Darüber hinaus führt
der Einsatz eines solchen Tools in Empiriepraktika oder ähnlichen Veranstaltungen die Studierenden an die Grundsätze der guten wissenschaftlichen
Praxis heran.
Das Dokumentationstool ist eine PHP/MySQL-Anwendung und stellt somit relativ geringe Anforderungen an die darunterliegende Infrastruktur. Aus
Nutzersicht besteht die Software aus den Komponenten Metadaten-Formular,
Kodebuch-Upload/-Eingabe, Datenmatrix-Upload/-Eingabe, einer Rechteverwaltung und Funktionen zum Datenexport.
Abbildung 2 zeigt das Metadatenformular der Anwendung, das in die Bereiche Basisdaten (z.B. beteiligte Forscher, Arbeitstitel, finanzielle Förderung), Informationen zur Studie (z.B. Forschungshypothesen, verwendete
Erhebungsmethoden, Vorgehen, Zeiträume), Informationen zur Stichprobe
und weitere Angaben zu den Daten (z.B. Anonymisierung und Informationen
zur Kodierung der Daten) aufgeteilt ist. Diese Metadaten unterstützen später
zum einen das Discovery von Datensätzen, zum anderen machen sie die Entstehung der Daten nachvollziehbarer.
80
Abbildung 2: Metadatenformular des Dokumentationstools
Ein wesentliches Element der Datendokumentation ist die Erstellung von
Kodebüchern. Die Anwendung bietet einen komfortablen Editor an, der die Nutzereingaben validiert und auf Fehler aufmerksam macht (siehe Abbildung 3).
Abbildung 3: Kodebuch bearbeiten
81
Alternativ zur direkten Eingabe in der Anwendung ist es auch möglich,
vorbereitete Kodebücher hochzuladen. Diese können beispielsweise in einem
Texteditor erstellt werden. Geplant ist ein Werkzeug, das eine semiautomatische Erstellung der Kodebücher aus SPSS heraus ermöglicht.
Ebenso wie die Kodebücher werden auch die eigentlichen Daten direkt in
der Datenbank verwaltet. Datenpunkte können entweder direkt eingegeben/bearbeitet werden oder in Form einer Textdatei mit Tab-separierten Werten hochgeladen werden. Die eingegebenen/hochgeladenen Werte werden
gegen das Kodebuch validiert, sodass Fehler direkt erkannt und korrigiert
werden können.
Neben der Darstellung der Forschungsdaten in einer Datenmatrix steht
auch eine Häufigkeitsverteilung über die einzelnen Variablen zur Verfügung
(siehe Abbildung 4). Diese kann zur Kontrolle bereits exportierter Forschungsdaten dienen.
Abbildung 4: Häufigkeitsverteilung
Als Exportfunktionen für Kodebuch und Datenmatrix existiert bisher die
Ausgabe als Textdatei mit Tab-separierten Werten. Vorteil dieses Formats ist
82
die Eignung als ein plattformunabhängiges Format. Geplant sind dennoch
weitere Ausgabeformate wie Excel oder SPSS-Dateien.
Um die Anwendung als eine Data Sharing Plattform einsetzen zu können,
beispielsweise im Kontext von Arbeitsgruppen oder studentischen Arbeiten,
kann die Rechteverwaltung genutzt werden. Der Besitzer eines Datensatzes
kann entscheiden, wem er welchen Zugriff auf einen Datensatz gewähren
möchte. Zur Wahl stehen ein einfaches Leserecht, ein Lese- und Schreibrecht
und darüber hinausgehend das zusätzliche Grant-Privileg, Zugriffsrechte an
weitere, im System registrierte Personen weiterzugeben. Abbildung 5 zeigt
einen Screenshot der Rechteverwaltung.
Abbildung 5: Rechteverwaltung
Ausblick
Das psychologische Datenarchiv PsychData stellt ein Werkzeug bereit, das
psychologische Forscher bei der forschungsbegleitenden Datendokumentation und -aufbereitung unterstützt. Außerdem wird eine sichere Archivierung
der Forschungsdaten zusammen mit der zugehörigen Dokumentation ermög-
83
licht. Dadurch können die Forschungsdaten sehr einfach für weitere Analysen bereitgestellt werden. Durch die Vorgabe von bewährten Dokumentationsstandards ergeben sich dabei mehrere Vorteile: Von Beginn der Forschungsarbeiten wird ein strukturiertes Vorgehen während des Forschungsprozess gefördert. Fehlerquellen wie ungültige Kodierungen werden durch
die Validierungsroutinen sehr schnell erkannt und können direkt korrigiert
werden.
Das Tool unterstützt noch nicht den gesamten Dokumentationsprozess –
einige begleitende Arbeitsschritte können bisher nur außerhalb des Tools
durchgeführt werden: Das Umwandeln von Statistik-Software-Formaten in
Tab-separierte Textdateien, das Erstellen einer Studiendokumentation und
eines Kodebuchs, die Korrektur von Fehlern in Variablenbeschreibungen und
Forschungsdaten setzen entsprechende Kenntnisse bzw. die Bereitschaft, sich
diese anzueignen, voraus. Obwohl hier auch ein gewisser Vorteil gesehen
werden kann, da sich der Nutzer aktiv mit Erfordernissen der Datendokumentation auseinandersetzen muss, kann es sich nur um einen zwischenzeitlichen Entwicklungsstand handeln. Die Erleichterung der Datendokumentation im Forschungsalltag ist eindeutiges Entwicklungsziel. Zur Erreichung dieses Ziels werden daher weitere Entwicklungen folgen wie z.B.
die Erweiterung auf Ein- und Ausgabeformate gängiger Statistikprogramme
oder das automatisierte Erstellen von Kodebüchern aus bereits vorhandenen
(Teil-) Dokumentationen.
Der Mehrwert des Systems hat sich bereits in der Dokumentationsarbeit
im psychologischen Datenarchiv PsychData gezeigt. Ein weiteres Anwendungsszenario ist die Nutzung des Dokumentationswerkzeugs als eine Art
Data Sharing-Plattform für Forschungsprojekte.
Bengel, J. & Wittmann, W. W. (1982). Bedeutung und Möglichkeiten von Sekundäranalysen in der psychologischen Forschung. Psychologische Rundschau, 33,
19–36.
Donders, F. C. (1868). Die Schnelligkeit psychischer Processe. Archiv für Anatomie,
Physiologie und wissenschaftliche Medizin, Berlin, 657–681.
84
Deutsche Forschungsgemeinschaft. (1998). Vorschläge zur Sicherung guter wissenschaftlicher Praxis: Empfehlungen der Kommission „Selbstkontrolle in der Wissenschaft“. Weinheim: Wiley-VCH
Erdfelder, E. (1994). Erzeugung und Verwendung empirischer Daten. In T. Herrmann & W. H. Tack (Hrsg.), Enzyklopädie der Psychologie. Themenbereich B
Methodologie und Methoden, Serie I Forschungsmethoden der Psychologie, Bd.
1 Methodologische Grundlagen der Psychologie (S. 47–97). Göttingen: Hogrefe.
Fahrenberg, J. (2009). Open Access – nur Texte oder auch Primärdaten? 05. Oktober
2009.
http://www.jochen-fahrenberg.de/fileadmin/openacces/Open_Access_Primaerdaten.pdf
(Zugriff am 04.11.2010)
Klopp, T. (2010). Open Data: Forscher sollen ihre Daten teilen. Zeit Online, 22.
September 2010.
http://www.zeit.de/digital/internet/2010-09/data-sharing-open-access?page=1 (Zugriff
am 03.11.2010)
Klump, J., Bertelmann, R., Brase, J., Diepenbroek, M., Grobe, H., Höck, H., Lautenschlager, M., Schindler, U., Sens, I. & Wächter, J. (2006). Data publication in
the open access initiative. Data Science Journal, 5, 79–83.
http://www.jstage.jst.go.jp/article/dsj/5/0/5_79/_article (Zugriff am 05.11.2010)
Postle, B. R., Shapiro, L. A. & Biesanz, J. C. (2002). On Having One’s Data Shared.
Journal of Cognitive Neuroscience, 14, 838–840.
Ruusalepp, R. (2008). Infrastructure, Planning and Data Curation. A comparative
study of international approaches to enabling the sharing of research data. Version 1.6. 30. November 2008.
http://www.dcc.ac.uk/docs/publications/reports/Data_Sharing_Report.pdf (Zugriff am
03.11.2010)
Van den Eynden, V., Corti, L., Woollard, M. & Bishop, L. (2009). Managing and
Sharing Data. A best practice guide for researchers. Essex: UK Data Archive.
http://www.data-archive.ac.uk/media/2894/managingsharing.pdf
04.11.2010)
(Zugriff
am
Wagner, G.G. (2010). Forschungsdaten fallen nicht vom Himmel. Forschung und
Lehre, 9, 650–651.
http://www.forschung-und-lehre.de/wordpress/?p=5562 (Zugriff am 04.11.2010)
Weichselgartner, E. (2008). Fünf Jahre Primärdatenarchivierung in der Psychologie:
Ein Erfahrungsbericht. In Ockenfeld, M. (Hrsg.), Verfügbarkeit von Information
(S. 259–267). Frankfurt a. M.: DGI.
Wicherts, J. M., Borsboom, D., Kats, J. & Molenaar, D. (2006). The poor availability
of psychological research data for reanalysis. American Psychologist, 61, 726 bis
728
85
Nachhaltige Dokumentation
virtueller Forschungsumgebungen
Dokumentation von NLP-Webservices am Beispiel eines
morphologischen Analysewerkzeugs
Gertrud Faaß1, Ulrich Heid2
1
2
Institut für maschinelle Sprachverarbeitung
Universität Stuttgart, Stuttgart
[email protected]
Universität Hildesheim, Hildesheim
[email protected]
Zusammenfassung
In den letzten Jahren werden immer mehr virtuelle Forschungsumgebungen
für die maschinelle Sprachverarbeitung zur Verfügung gestellt. Diese sollten
zum einen nachhaltig und zum anderen für potenzielle Nutzer vergleichbar
dokumentiert werden. In diesem Beitrag werden daher Bedingungen für die
Nachhaltigkeit insbesondere von NLP- (Natural Language Processing) Werkzeugen beschrieben: Die Dokumentation sollte nicht nur die Software, sondern auch ihre Evaluierung anhand einer – ebenfalls gut dokumentierten –
Testsuite umfassen. Im Beitrag werden auch Möglichkeiten dargestellt, den
Dokumentationsvorgang selbst anhand von DocBook XML zu automatisieren.
Abstract
Throughout the last years, an increasing number of virtual research environments have been offered in the field of Natural Language Processing (NLP).
These should be documented in a sustainable way that also guarantees comparability for potential users. This paper thus describes constraints for the
sustainability of NLP-environments: the documentation must describe not
only the software from the developer’s view, but also its evaluation according to a testsuite, which is itself to be documented comprehensively. The
86
paper also describes the possibility of automating the documentation processes by utilizing DocBook XML.
1
Hintergrund
Im Rahmen des europäischen Forschungsprojekts CLARIN1 werden verschiedene NLP- (Natural Language Processing) Werkzeuge für Sprach- und
Humanwissenschaftler frei verfügbar bereitgestellt. Dies soll über Web Services geschehen: Internet-Portale, bei denen – online und offline – linguistische Daten eingegeben, analysiert und die Ergebnisse eingesehen werden
können. Mögliche Analysen sind beispielsweise morphologischer, syntaktischer, aber auch lexikografischer Art (z.B. Kollokationsextraktion). Im Falle
von morphologischen und syntaktischen Analysen werden die eingegebenen
Daten mit den entsprechenden Informationen angereichert (annotiert) zurückgegeben.
Grundthema von CLARIN ist die Nachhaltigkeit: Während in früheren
Jahren linguistische Ressourcen (d.h. Textsammlungen, Lexika und Sprachverarbeitungswerkzeuge (vgl. Witt et al. (2009)) projektweise an Instituten
erzeugt und gespeichert, und danach oft vergessen wurden, sollen solche
Ressourcen nun aufbereitet und einem breiten Benutzerkreis zur Verfügung
gestellt werden. Ziel ist somit auch ein rationellerer Umgang mit den in die
Ressourcenerstellung investierten Forschungsgeldern.
D-SPIN2 (Bankhardt 2009) ist der deutsche Beitrag zu CLARIN. Im DSPIN-Projekt stellen Wissenschaftler von mehreren Universitäten und Institutionen (u.a. die Universitäten Leipzig und Stuttgart, das Institut für Deutsche Sprache, etc.) ihre Ressourcen über Webservices, z.B. “WebLicht” (vgl.
Hinrichs et al. (2010)), zur Verfügung. Die Ressourcen sind vor allem für die
empirische geisteswissenschaftliche Forschung geeignet. Das Projekt befindet sich in der Vorbereitungsphase.
In diesem Beitrag beschreiben wir zuerst Bedingungen für die öffentliche
Bereitstellung von NLP-Software, die sich aus dem Anspruch der Nachhaltigkeit ergeben (Abschitt 2). Im Abschnitt 3 wird dann konkret die Um1 Common LAnguage Resources and technology INfrastructure http://www.clarin.eu
2 Deutsche SPrachressourcen-INfrastruktur: http://www.d-spin.org
87
setzung dieser Bedingungen bei der geplanten Bereitstellung eines Morphologiewerkzeugs diskutiert und es werden Ergebnisse aufgezeigt. Abschnitt 4
bietet eine Zusammenfassung und einen Ausblick auf zukünftige Arbeiten in
diesem Zusammenhang.
2
Bedingungen für Nachhaltigkeit
Ein zentraler Aspekt der Nachhaltigkeit von Ressourcen ist deren Dokumentation: Nur anhand der Dokumentation kann ein Benutzer nachvollziehen,
nach welchen Kriterien ein Tool oder eine Textsammlung erstellt wurde. Es
ist für ihn außerdem von Wichtigkeit, zu erfahren, welche Bedingungen für
die Nutzung eines NLP-Werkzeugs gelten bzw. inwieweit es anderen Tools
ähnlich ist, oder wo es sich von anderen unterscheidet. Verfügbarkeit und
urheberrechtliche Aspekte sind ebenfalls zu berücksichtigen.
Für die strukturierte Beschreibung solcher Fakten wurden in den letzten
Jahren Normenvorschläge für die Annotation von Meta-Daten textueller Ressourcen (z.B. Autor, Erstellungsdatum, Formatinformation etc.) entwickelt
(siehe auch Component Metadata Infrastructure, CMDI, www.clarin.eu/
cmdi). Die Richtlinien der Text Encoding Initiative (TEI3) für die Annotation
von zwischen verschiedenen Institutionen auszutauschenden Daten sind hier
ein gutes Beispiel: Nicht nur Webseiten, sondern auch Textsammlungen, die
linguistischer Forschung dienen, sind heutzutage meist mit solchen Metadaten angereichert.
Für NLP Software („Tools“) und deren Ergebnisdaten gilt dies bisher
nicht. In den 1990ern gab es zwar erste Überlegungen in Richtung von Standards4 für Dokumentation und Evaluierung, bisher dokumentiert jedoch
meist der Entwickler das, wovon er meint, dass es relevant sei (Underwood
(1998)). Auch in Untersuchungen zu virtuellen Forschungsumgebungen, wie
z.B. Carusi und Reimer (2010), ist die Nützlichkeit der Dokumentation für
den potenziellen Nutzer der angebotenen Tools kein Thema. Ein konkretes
Beispiel eines Portals für Sprachverarbeitungswerkzeuge ist das NLP Tool
Registry am DFKI, wo Entwickler über ihre NLP Tools informieren können.
3 http://www.tei-c.org
4 Siehe ISO 9126 (2.1.2) sowie EAGLES EAG-EWG-PR.2
88
Hier gibt es allerdings keine Vorschriften dafür, was eigentlich zu dokumentieren ist, für das zu füllende „description“ Feld sind keinerlei Vorgaben angegeben. Bei im Prinzip vergleichbaren Tools ergibt sich daraus die Frage,
wie potenzielle Benutzer eines Webservice konkurrierende Tools vergleichen
und das für ihre Ansprüche geeignete Tool auswählen können. Weiterhin soll
ein Benutzer nicht nur eine vergleichbare Qualitätsangabe erhalten, sondern
auch darüber informiert werden, mit welcher Version des Tools er arbeitet
(bzw. mit welchen Datenressourcen das Tool arbeitet), um, bei z.B. wiederholter Anwendung desselben Services auch dasselbe Ergebnis erwarten zu
können. Um die Vergleichbarkeit von Tools sicherstellen zu können, sollte
sämtliche Dokumentation unserer Ansicht nach anhand standardisierter Vorlagen erfolgen. Dokumentiert werden sollten dabei die folgenden Aspekte:
• Die Software (siehe auch das NaLiDa Projekt des sfs Tübingen5, Rehm
et al. (2010));
• Eine Testsuite (d.h. eine Ist-Eingabe mit einer Soll-Ausgabe der Software);
• Evaluierung eines Testlaufs mit der dokumentierten Software anhand der
Testsuite.
Eine weitere Bedingung für Nachhaltigkeit ist die Verfügbarkeit der Dokumentation: sie sollte jederzeit abrufbar, am besten auf einer Webseite, zur
Verfügung gestellt werden. Verschiedene Versionen der Dokumentation sollten sich dabei klar unterscheiden, auf ältere Versionen sollte bei Bedarf auch
zugegriffen werden können, wenn neuere Versionen publiziert sind.
Zur Dokumentation bzw. Repräsentation von angereicherten Daten sind
mehrere ISO6-Standards in Vorbereitung bzw. bereits veröffentlicht: Für
diese ist die Arbeitsgruppe ISO TC 37/SC47 zuständig. Derzeit werden Normen zur Wort-Segmentierung (ISO 24614-1:2010, 24614-2:2010), zur Repräsentation von Datenstrukturen (ISO 24610-1:2006), von lexikalischen
(LMF, ISO 24613:2008), morphosyntaktischen (MAF, ISO DIS 24611:2008),
sowie syntaktischen Annotationsprinzipien (SynAF, ISO DIS 24615:2010)
erarbeitet. Wir planen zwar, die Ausgaben unseres Tools mit MAF zu kodieren, dies ist jedoch nicht Thema unseres Artikels. Hier beschreiben wir die
Dokumentation der Software und der Testsuite sowie deren Validierung.
5 http://www.sfs.tuebingen.de/nalida
6 http://www.iso.org
7 http://www.tc37sc4.org
3
89
SMOR
Das Stuttgarter Morphologische Analysewerkzeug SMOR (Schmid et al.
(2004)) wird seit Jahren erfolgreich in mehreren Anwendungen (zum Beispiel bei der grammatischen Analyse) eingesetzt. Es ist geplant, dieses Tool
im Rahmen des D-Spin-Projekts Forschern kostenlos als Teil des „WebLicht“-Webservices zur Verfügung zu stellen. Wir dokumentieren das Tool
selbst nach den NaLiDa Richtlinien. Zusätzlich wird es anhand einer Testsuite evaluiert. Drittens wird der Erstellungsvorgang und der Inhalt der Testsuite selbst ebenfalls dokumentiert, um auch hier die Vergleichbarkeit mit
anderen Werkzeugen sicherstellen zu können. Diese Evaluierung unterscheidet sich daher von bisherigen Ansätzen, wie z.B. Morpholympics (Hausser
(1996) oder Morpho Challenge (z.B. Kurimo und Varjokallio (2008)), weil
sie eine Anpassung der Testsuite zulässt: Falls ein anderes Analysewerkzeug
mit SMOR verglichen werden soll, können spezifisch die Teile der Testsuite
ausgewählt werden, die von beiden Tools gleichermaßen verarbeitet werden
können.
3.1
Morphologische Analyse mit SMOR
SMOR beschreibt Derivations-, Kompositions- und Flexionsvorgänge gleichermaßen. Dabei verfügt es über eine große Wissensbasis (alleine ca.
48.000 Flexionsstammformen sind im Lexikon verzeichnet). Das Tool erzeugt für (einzelne oder eine Liste von) Wortformen morphologische Analysen, im Folgenden ein Beispiel:
Projekt<NN>planen<V>ung<SUFF><+NN><Fem><Dat><Sg>
Projekt<NN>planen<V>ung<SUFF><+NN><Fem><Gen><Sg>
Projekt<NN>planen<V>ung<SUFF><+NN><Fem><Nom><Sg>
Projekt<NN>planen<V>ung<SUFF><+NN><Fem><Acc><Sg>
(1) Eingabe: Projektplanung
(1) zeigt folgende Analyse: SMOR liefert eine Aufgliederung in Morpheme: das Verb planen ist Basis einer Derivation (zum Nomen Planung), Projektplanung ist das Ergebnis einer Komposition dieses Nomens mit dem Wort
Projekt. Zusätzlich liefert SMOR Information zur Flexion, indem Werte zu Person, Numerus und Kasus des Gesamtwortes hinzugefügt werden. Der als Kopf
eines komplexen Wortes erkannte Wortbestandteil ist mit „+“ gekennzeichnet.
90
3.2
Erstellung und Dokumentation der Testsuite
Wie in Faaß et al. (2010) dargestellt, wurde die Testsuite („Gold Standard“)
auf Basis von je 1000 selektierten Wortformen der drei produktiven Wortarten Nomen, Verb und Adjektiv erzeugt. Die Erstellung dieser Wortformenliste erfolgte semi-automatisch aus einer großen Textsammlung (880
Mio. Token) nach quantitativen Kriterien. Ein erster Durchlauf mit SMOR
zeigte bereits die Wortformen auf, die vom Tool nicht erkannt werden (negatives), diese wurden dann manuell aufgeteilt in true negatives, d.h. Wortformen, die auch nicht erkannt werden sollen (Wortformen mit Schreibfehlern, Wortformen, die in der Textsammlung mit falscher Wortart annotiert
wurden, etc.), sowie in Wortformen, die das Tool eigentlich hätte erkennen
sollen (false negatives). Für diese Wortformen werden nun – als Vorgabe für
die nächste Version des Tools – manuell Soll-Analysen erstellt.
Jede erstellte Analyse wird anhand der im Projekt erarbeiteten Richtlinien, die zur Dokumentation der Testsuite hinzugefügt werden, geprüft und,
falls nötig, korrigiert. Die Richtlinien enthalten Vorgaben, wie z.B.
• Derivationelle Analysen, sollten, falls möglich, auf ein zugrundeliegendes Verb zurückgeführt werden, dabei spielt, z.B. Ablautung keine Rolle
(Betrieb also auf betreiben zurückführen);
• Wörter, deren Wortbestandteile im heutigen Deutsch nicht mehr produktiv verwendet werden, bzw. deren Wortbildung für einen heutigen
Sprecher nicht mehr nachvollziehbar ist (Zukunft, Wirtschaft, etc.) sollten
als opak analysiert werden (Zukunft nicht auf zu-kommen, Wirtschaft
nicht auf Wirt +schaft zurückführen). Diese Wörter sind jedoch zu kennzeichnen, da sie eine eigene Gruppe bilden.
Nach den Analysen werden auch die zugrunde liegenden Wortformen selbst
aufgrund anerkannter linguistischer Kriterien ausführlich dokumentiert. Da
wir SMOR auch bei der Erstellung der Testsuite nutzen, kann es im gleichen
Arbeitsgang evaluiert werden: jede korrekte, und jede inkorrekte, jede vorhandene und jede nicht vorhandene Analyse wird gezählt und ausgewertet,
sodass sich Zahlwerte für Recall und Precision ergeben.
Für die Dokumentation der Testsuite wird „DocBook-XML“8 verwendet,
welches einerseits über alle notwendigen Ausdrucksmöglichkeiten verfügt,
jedoch andererseits leicht anzuwenden ist. DocBook-Seiten können auch
vollautomatisch über einfach zu erzeugende Skripte, z.B. aus Tabellen er8 http://www.docbook.org
91
stellt werden. Zusätzlich existieren XSL-Stylesheets, anhand derer die erstellte Dokumentation auf Knopfdruck in HTML, also Webseitenformat, konvertiert werden kann. Damit erfüllt DocBook gleich zwei Bedingungen: Es
erlaubt die Erstellung einer formatierten Vorlage und es ist leicht in eine
Webseite, in der die Software angeboten wird, einzubinden.
Wir möchten dies anhand eines Beispiels veranschaulichen: Die beiden
Wortformen leisten und standen sind Teil der Testsuite. Manuell wird eine
Dokumentation zu diesen Wortformen (tabellarisch) in Microsoft Excel erstellt, vgl. den Auszug in (2). Ein Skript erzeugt aus diesen Daten das DocBook-Format, ein Auszug der Darstellung findet sich in (3).
(2) Auszug aus der Excel-Datei, die zur Dokumentation der Wortformen dient
(3) Auszug: Automatisch erzeugte DocBook Dokumentation (aus (2))
92
Diese DocBook-XML-Daten werden mit einem XSL-Stylesheet wiederum automatisch in eine HTML-Datei überführt; (4) zeigt einen Bildschirmausschnitt in der Browser-Ansicht.
(4) Auszug: Automatisch erzeugte HTML-Seite (aus (3))
3.3
Dokumentation der Software
Die Software wird anhand der NaLiDa Richtlinien9, mit wenigen Erweiterungen, ebenfalls mit DocBook-XML dokumentiert und in mehreren Abschnitten nach HTML überführt. Die DocBook-Vorlage des ersten Abschnitts beinhaltet unter anderem die folgenden Felder: Name, Version (+Datum),
Beschreibung (Publikation), Herkunft, Institution, Urheber. Informationen
zum Umfang des verwendeten Lexikons sind spezifisch für morphologische
Analysesysteme relevant, im zweiten Abschnitt der Dokumentation werden
daher Zahlen zu den verwendeten Flexions-, Derivations- und Kompositionsstammformen sowie zu Affixen im Lexikon des Tools veröffentlicht. Der
dritte Abschnitt beschäftigt sich ausführlich mit den Ausgaben des Tools: Art
der Analyse (hier wird eine Werteliste vorgegeben), Art der Ausgabe, Granularität der Ausgabe.
Es folgen Beispiel-Ausgaben, die typische Analysen des Tools beschreiben sowie eine vollständige Übersicht aller möglichen Annotationsbestandteile mit Hinweisen zu ihrer Verwendung, (5) zeigt einen Auszug dieses
Teils.
Die Testsuite selbst wird, wie oben erwähnt, im MAF Format angeboten.
9 http://www.sfs.uni-tuebingen.de/nalida/
93
(5) Auszug: Beispiel-Ausgaben, in der HTML Version
3.4
Dokumentation der Evaluierung
Der dritte Teil der Dokumentation beschreibt die Evaluierung der dokumentierten Software (Teil 1) anhand der dokumentierten Testsuite (Teil 2) und
die dabei erzielten Ergebnisse. Hier beinhalten die vorgesehenen Felder Angaben zu den Beteiligten, dem Validierungszeitraum und dem Vorgehen. Erläuterungen zur Berechnung von Recall und Precision sowie die Ergebnisse
schließen die Dokumentation ab.
3.5
Stand der Entwicklung
Auf dem Stand von Januar 2010 ist die Dokumentation der Software fertiggestellt, die Erstellung der Testsuites für Nomina und Verben ist abgeschlossen; deren Dokumentation sowie die Erstellung der Testsuite für Adjektive ist in Arbeit. Die Vorlagen-Entwicklung ist weitestgehend abgeschlossen. Die Validierung verläuft parallel zur Erstellung der Testsuite und
ist daher bisher nur für Nomina und Verben abgeschlossen.
94
3.6
Zugänglichkeit, Pflege und Weiterentwicklung
der Ressourcen
Die Software wird zusammen mit einem Verweis auf die beschriebene Dokumentation im Rahmen der WebLicht-Forschungsumgebung zur Verfügung
gestellt. Für spätere Fassungen der Software ist es geplant, den Evalierungslauf gegenüber der erstellten Soll-Analysen zu wiederholen und die
Unterschiede zu dokumentieren, sodass der Entwicklungsvorgang für die
Nutzer nachvollziehbar bleibt. Ältere Fassungen der Software bleiben weiterhin zugänglich.
4
Zusammenfassung und Ausblick
Im Rahmen des Projekts D-Spin wurden Richtlinien zur Dokumentation von
morphologischer Analysesoftware entwickelt. Sie umfassen die Dokumentation der Software (anhand der NaLiDa Richtlinien), ihrer Ausgaben, einer
zur Validierung der Software erzeugten Testsuite sowie die Vorgehensweise
bei der Validierung und ihre Ergebnisse.
Die Dokumentation wird mit DocBook-XML zum Teil automatisiert erstellt und per XSL-Stylesheets nach HTML überführt, um Webseiten zu erzeugen, die für Benutzer des Webservice jederzeit zugänglich sind.
Das Projekt befindet sich in seiner finalen Phase, sein Abschluss sowie
die Veröffentlichung der Dokumentation sind für Frühjahr 2011 geplant.
References/Literaturverzeichnis
Bankhardt, C. (2009). D-SPIN – Eine Infrastruktur für Deutsche Sprachressourcen.
Sprachreport, 25 (1): 30–31, 2009.
Carusi, A. und Reimer, T. (2010). Virtual Research Environment Collaborative
Landscape Study. A JISC funded project (January 2010).
http://www.jisc.ac.uk/media/documents/publications/vrelandscapereport.pdf
95
EAGLES. Evaluation of Natural Language Processing Systems, EAG-EWG-PR-2.
EAGLES, final report, October 1996.
Faaß, G. Heid, U. und Schmid, H. (2010). Design and application of a Gold Standard
for morphological analysis: SMOR in validation. Proceedings of the 7th international Conference on Language Resources and Evaluation (LREC2010), 803
bis 810. Valetta, Malta.
Hausser, R. (Hg.) (1996). Linguistische Verifikation. Dokumentation zur Ersten
Morpholympics 1994. Tübingen: Niemeyer.
Hinrichs M., Zastrow, T., Hinrichs. E. (2010). WebLicht: Web-based LRT Services
in a Distributed eScience Infrastructure. Proceedings of the 7th international
Conference on Language Resources and Evaluation (LREC2010), 489–493. Valetta, Malta.
Kurimo, M. und Varjokallio, M. (2008). Unsupervised Morpheme Analysis Evaluation by a Comparison to a Linguistic Gold Standard – Morpho Challenge 2008.
Working Notes for the CLEF 2008 Workshop.
http://www.cis.hut.fi/mikkok/kurimo1-paperCLEF2008.pdf
Rehm, G., Schonefeld, O., Trippel, T. Witt, A. (2010). Sustainability of Linguistic
Resources Revisited. In Proceedings of the International Symposium on XML for
the Long Haul: Issues in the Long-term Preservation of XML. Balisage Series on
Markup Technologies, vol. 6 (2010). doi:10.4242/Balisage/Vol6.Witt01
Schmid, H., Fischen, A., Heid, U. (2004). SMOR: A German Computational Morphology Covering Derivation, Composition, and Inflection, Proceedings of
the IVth International Conference on Language Resources and Evaluation
(LREC2004). 1263–1266, Lisbon, Portugal.
Underwood, N. (1998). Issues in Designing a Flexible Validation Methodology for
NLP Lexica. Proceedings of the First International Conference on Language Resources and Evaluation, volume 1, 129–134, Granada, Spanien.
Witt, A., Heid, U., Sasaki, F., Sérasset, G. (2009). Multilingual Language Resources
and Interoperability. Language Resources and Evaluation (43): 1–14.
96
Session 3:
Soziale Software
97
98
E. Dröge, P. Maghferat, C. Puschmann, J. Verbina, K. Weller
Konferenz-Tweets
Ein Ansatz zur Analyse der Twitter-Kommunikation bei
wissenschaftlichen Konferenzen
Evelyn Dröge, Parinaz Maghferat, Cornelius Puschmann,
Julia Verbina, Katrin Weller
Heinrich-Heine-Universität Düsseldorf
Universitätsstr. 1, 40225 Düsseldorf
[email protected]
Zusammenfassung
Dieser Artikel untersucht den Einsatz von Twitter während vier wissenschaftlicher Konferenzen im Bereich Geisteswissenschaften bzw. Informatik.
Dabei wurden automatische Analysen von Tweets, Retweets und @-Nachrichten sowie intellektuelle Auswertungen der Inhalte durchgeführt.
Abstract
In the following study, we analyze the usage of Twitter during four scientific
conferences with focus on humanities and computer science. Automated
analyses of tweets, retweets and @-messages were performed as well as an
intellectual analysis of the tweets’ contents.
1
Einleitung
Die vorliegende Arbeit beschäftigt sich mit der Untersuchung von Kommunikationsprozessen während wissenschaftlicher Konferenzen über den Microblogging-Dienst Twitter. Mittels Twitter können Nutzer kurze Mitteilungen
von maximal 140 Zeichen (sogenannte Tweets) veröffentlichen, und die Beiträge anderer Nutzer beobachten bzw. als Follower abonnieren. Auf diese
Konferenz-Tweets
99
Weise entsteht ein Kommunikations-Netzwerk (Ebner & Reinhardt, 2009),
das für verschiedene Anwendungsszenarien interessant ist. Gleichzeitig ist
Twitter damit eine einzigartige Datenquelle, die Aufschluss über Prozesse
des Wissensaustauschs in Webcommunities geben und somit einen neuen
Teilbereich der Webometrie erschließen kann. In verschiedener Hinsicht
wird derzeit die Datenbasis von Twitter zur Analyse von Kommunikationsmustern oder Netzwerkstrukturen genutzt. Dabei wurden bereits allgemeine
Schlüsse bezüglich der Plattform an sich gezogen (Java et al., 2007) und
Nutzeranalysen durchgeführt (Mainka, 2010) sowie die Aktivitäten der Twitter-Nutzer im Kontext spezieller Ereignisse und Umgebungen untersucht –
beispielsweise bezogen auf Naturereignisse (Vieweg et al., 2010), im Arbeitsalltag (Zhao & Rosson, 2009) oder als Marketing-Instrument (Hotopp &
Willecke, 2010). Einen interessanten Ereigniskontext für die Analyse von
Twitter-Aktivitäten liefern auch wissenschaftliche Konferenzen. Tauschen
sich die Konferenzteilnehmer während der Veranstaltung über Twitter aus, so
kann sich dadurch ein zusätzlicher Mehrwert zum eigentlichen Konferenzprogramm ergeben. Erste Studienergebnisse zum Twitter-Verhalten auf Konferenzen sind bereits verfügbar (Ebner et al., 2009; Letierce et al., 2010;
Reinhardt et al., 2009). Während sich die bisherigen Studien vor allem auf
eine quantitative Auswertung verschiedener Zusammenhänge konzentrieren,
liefert dieser Beitrag einen Ansatz für eine qualitative, inhaltliche Analyse
von Konferenz-Tweets. Dabei geht es vor allem darum zu erfassen, welche
Art von Inhalten während Konferenzen über Twitter kommuniziert und diskutiert werden. Darüber hinaus wurden weitere automatisierte Analysen vorgenommen. Im Folgenden wird zum einen die Vorgehensweise als methodischer Ansatz zur Fachdiskussion gestellt. Zum anderen werden in Auszügen erste Ergebnisse präsentiert, die bei der Untersuchung von vier Konferenzen gewonnen wurden.
2
Datenerhebung und Messmethode
Wesentlicher Teil unserer Studie ist die Erprobung verschiedener Verfahren
für informetrische Analysen von Microblogs. Im Folgenden wird insbesondere auf unsere bisherige Vorgehensweise bei der Auswertung von TweetInhalten eingegangen und es werden offene Problembereiche aufgezeigt, die
100
es in Zukunft zu diskutieren gilt. Für die Untersuchung haben wir Daten von
vier verschiedenen Konferenzen erhoben. Es handelt sich dabei um archivierte Tweets, die mit dem konferenzspezifischen Hashtag (Hashtags sind
mit einem # markierte, frei wählbare Schlagworte) versehen und über Twitter
veröffentlicht wurden. Ausgewählt wurden die World Wide Web Conference
2010 (WWW2010), die Modern Language Association Conference 2009
(MLA 2009), die Dublin Core and Metadata Applications Conference 2009
(DC-2009) sowie eine Tagung des Institute for Enabling Geospatial Scholarship im Jahr 2010 (Geoinst). Kriterien für die Auswahl dieser Konferenzen
waren die Größe und der Fachbereich: je zwei Konferenzen sind (im weitesten Sinne) dem Fachbereich Informatik bzw. den Geisteswissenschaften
(speziell Digital Humanities) zuzuordnen. Für beide Fachbereiche wurde
jeweils eine große Konferenz (ab ca. 1.000 Teilnehmern) sowie eine kleinere
Veranstaltung (weniger als 500 Teilnehmer) ausgewählt1. Tabelle 1 gibt einen Überblick über die vier Konferenzen, ihre Fachbereiche und Größenkategorien. Alle Konferenzen fanden im Zeitraum von Ende 2009 bis
Mitte 2010 statt und dauerten drei bis fünf Tage. Die Konferenzsprache war
Englisch. Für die Datensammlung wurde auf das Tool TwapperKeeper
(http://twapperkeeper.com/) zurückgegriffen, mit dem Kurznachrichten von
Twitter über frei auswählbare Suchbegriffe archiviert werden können. Die für
die Untersuchung berücksichtigten Tweets wurden ausschließlich über verfügbare Konferenzhashtags ausgewählt. Das Kennzeichnen von Tweets mittels vereinbarter Hashtags wird häufig bei Konferenzen genutzt, damit der
Nachrichtenstrom von allen Interessierten leicht verfolgt werden kann. Hashtags von Konferenzen werden entweder im Vorfeld offiziell von den Organisatoren der Veranstaltung festgelegt oder spontan beim Versenden erster
Tweets von Teilnehmern gesetzt und anschließend von anderen übernommen. Bei der Analyse haben wir für jede der vier Konferenzen nur den
am häufigsten verwendeten Hashtag genutzt, nachdem überprüft wurde, dass
Schreibvarianten (z.B. #www10 statt #www2010) nur sehr vereinzelt auftraten. Für künftige Untersuchungsstandards empfiehlt es sich jedoch, alle
vorkommenden Schreibvarianten zu ermitteln und mit zu erfassen. Von uns
ebenfalls unberücksichtigt sind die Hashtags von angeschlossenen Veranstaltungen (z.B. fand neben der WWW2010 noch die Web Science Conference
2010 statt, deren Hashtag #websci10 nicht mit erfasst wurde).
1 Die Zahlen beruhen zum Teil auf Schätzungen, da nicht bei jeder Konferenz eine offizielle Teilnehmerzahl angegeben wurde.
Konferenz-Tweets
101
Tabelle 1: Übersicht über die untersuchten Konferenzen.
Konferenz
World Wide Web
Conference
(WWW2010)
Dublin Core and
Metadata Applications Conference
(DC-2009)
Modern Language
Association Conference (MLA 2009)
Tagung d. Institute
for Enabling Geospatial Scholarship (Geoinst)
Hashtag
Ort
Zeit
#www2010 Raleigh,
26. bis
NC, USA 30.4.10
Fachbereich
Informatik
Größe
>1000
#dcmi2009
Seoul,
Südkorea
12. bis
Informatik
16.10.09
#mla09
Philadelphia, PA,
USA
Charlottesville,
VA, USA
27. bis
Philologie, Li- >1000
30.12.09 teratur, Digital
Humanities
25. bis
Digital Huma- <500
27.05.10 nities
#geoinst
<500
Der Schwerpunkt lag in dieser Studie in der intellektuellen, qualitativen
Analyse der Tweet-Inhalte. Darüber hinaus wurden automatische Messungen
vorgenommen, vor allem bezogen auf Twitter-Nutzer, Verlinkungen und
formale Arten von Tweets. Tweets können automatisiert unterschieden werden in Retweets, @-Nachrichten, persönliche Nachrichten und übrige
Tweets. Ein Retweet (RT) ist die Weiterleitung eines Tweets oder eines Teilstückes eines Tweets. Retweets werden in der Regel mit „RT@user“ oder mit
„via user“ zu Beginn oder zum Ende des Tweets gekennzeichnet (Boyd et al.,
2010). @-Nachrichten (@-messages) bezeichnen Tweets einer Konversation
zwischen mindestens zwei Twitter-Nutzern. In unserer Analyse der @Nachrichten haben wir nur Tweets mit einbezogen, die mit „@user“ oder
„.@user“ beginnen. Tweets, bei denen das „@user“-Kürzel in der Mitte des
Tweets platziert ist, wurden nicht mitgezählt. Persönliche Nachrichten, die
bei Twitter nur zwischen Nutzern, die sich gegenseitig folgen, verschickt
werden können, sind für andere nicht sichtbar und kamen daher nicht in der
untersuchten Datenmenge vor.
Für die intellektuelle Auswertung der Tweet-Inhalte wurde vor Auswertungsbeginn ein Prototyp für ein Kategorienschema entwickelt, über das die
Einordnung der Inhalte stattfand. Dabei wurde das erste entwickelte Schema
nach einem Testdurchgang deutlich überarbeitet und vereinfacht, da die zunächst gewählte Komplexität mit einer zu geringen Konsistenz bei der Kategorisierung durch die fünf beteiligten Indexer endete. Außerdem wurde das
102
Schema der Häufigkeit der Kategorienverwendung in der Testindexierung
angepasst. In einem erneuten Testlauf mit dem überarbeiteten Schema wurde
so eine verbesserte Konsistenz erzielt. Abbildung 1 zeigt das fertige Kategorisierungsschema sowie die jeweils für die Kennzeichnung der Tweets verwendeten Kürzel.
1. Ebene: Zweck
- 1.1 Kommunikation [COM]
- 1.2 Konferenzbezogene Tweets
[CONF]
- 1.3 Selbstbezogene Tweets [ME]
- 1.4 Retweets [RT]
- 1.5 Externe Links [URL]
- 1.6 Nicht definierbar [NA]
2. Ebene: Inhalt
- 1.1 Inhaltsbezug zur Konferenz [YES]
- 1.2 Kein inhaltlicher Bezug zur
Konferenz [NO]
- 1.3 Nicht definierbar [NA]
Abbildung 1: Schema zur Kategorisierung von Tweet-Inhalten.
Auf einer ersten Ebene wird erfasst, welchem Zweck ein Tweet hauptsächlich dient. Dabei unterscheiden wir folgendermaßen:
• Tweets, die in erster Linie einen Auszug aus einer Konversation abbilden
(z.B. Fragen, Aufrufe) [COM]. Beispiel: “Good luck to all the TW people at #www2010 and #websci2010”.
• Tweets, die sich direkt auf die Konferenz beziehen [CONF]. Beispiel:
“the ‘official’ tag for Dublin Core conference in Seoul is now
#dcmi2009”.
• Tweets, die sich in erster Linie auf die Verfassung, den Aufenthaltsort,
Aktivitäten, Gedanken und Gefühle des Autors beziehen [ME]. Beispiel:
“managed to change my flights. Let’s hope the cloud doesn’t stand in the
way now ... #www2010 #w4a #ashtag”.
• Weiterhin wurden Retweets [RT] und Tweets, die URLs beinhalten
[URL], gesondert gekennzeichnet. Retweets wurden, abgesehen von der
Markierung mit RT, nicht weiter inhaltlich kategorisiert, da es sich hier
nur um Kopien bereits vorhandener Tweets handelt.
Konnte ein Tweet keiner dieser Kategorien zugeordnet werden, so wurde er
mit NA markiert. Ein Tweet konnte auf der ersten Ebene mehreren Kategorien zugeordnet werden, was vor allem bei der Verwendung von URL Gebrauch fand. Ebenfalls gekennzeichnet wurden Tweets, die nicht in englischer oder in verschiedenen Sprachen verfasst waren (wobei Tweets in nicht
bekannten Sprachen nicht inhaltlich ausgewertet wurden). Auf der zweiten
Ebene wurde zwischen Tweets, in denen sich der Nutzer inhaltlich auf die
Konferenz-Tweets
103
Konferenz bezieht, und allen übrigen Tweets unterschieden. Auch hier gab es
die Möglichkeit, bei Unklarheiten NA anzugeben. Das Schema wurde bislang auf die WWW2010, die MLA 2009 und die DC-2009 angewandt.
3
Ausgewählte Ergebnisse
Tabelle 2 enthält einen Überblick über die Kennwerte der Konferenzen, die
automatisch gewonnen wurden. Sie können als Basis für einen Vergleich
verschiedener Merkmale dienen. Die MLA 2009 stellt mit 7309 Teilnehmern
die größte Konferenz in unserem Vergleich dar. Am meisten getwittert wurde
jedoch auf der WWW2010 (3475 Tweets), die auch die größte Anzahl an
Twitterern aufweist (911 Nutzer mit mindestens einem Tweet zum Konferenz-Hashtag). Möglicherweise liegt das an der fachlichen Ausrichtung der
Konferenz, da bei computerwissenschaftsorientierten Veranstaltungen eine
höhere Akzeptanz neuer Internettechniken vermutet werden kann. Dass die
fachliche Ausrichtung der Konferenz kein alleiniges Kriterium zu sein
scheint, lässt die sehr geringe Anzahl an Tweets bei der ebenfalls informations- bzw. computerwissenschaftlichen DC-2009 vermuten, die selbst von
den Konferenzteilnehmern bemerkt wurde. Interessant ist dagegen die hohe
Anzahl der Tweets auf der Geoinst-Konferenz mit dem eher geisteswissenschaftlichen Schwerpunkt. Trotz der geringen Anzahl an Teilnehmern gibt es
100 Twitterer und 1673 Tweets. Die Auswertung von Retweets und @Nachrichten zeigt eine leichte Tendenz dahingehend, dass der Anteil an RTs
bei den beiden computerwissenschaftlichen Konferenzen und der Anteil der
@-Nachrichten bei den beiden geisteswissenschaftlichen Konferenzen höher
liegt. Die Anzahl der @-Nachrichten pro Twitterer ist bei der Geoinst mit
4,11 deutlich größer als bei den anderen. Hier gilt es weiter zu untersuchen,
ob ein hoher Anteil an @-Nachrichten vor allem bei kleinen Konferenzen
auftritt, wo die Wahrscheinlichkeit der Bekanntschaft der Teilnehmer untereinander größer ist. Erfasst wurde außerdem automatisch, wie viele Tweets
104
eine URL als Verweis auf weitere Web-Inhalte enthalten2. Die WWW2010
ist hier Spitzenreiter, fast 40% der Tweets enthalten eine URL.
Tabelle 2: Vergleich der Kennzahlen für die vier Konferenzen.
WWW 2010 DC-2009
MLA 2009
Geoinst
Untersuchungszeitraum3 13.04.–
14.05.2010
12.10.–
23.10.2009
15.12.2009– 11.05.–
14.01.2010 09.06.2010
Anzahl Tweets
3358
146
1929
1673
Anzahl Twitterer
903
27
369
99
3,72
5,41
5,23
16,90
Anteil/Anzahl RTs
(autom. Auswertung)
33,38%
1121/3358
25,34%
37/146
21,41%
413/1929
8,31%
139/1673
∅ RTs/Twitterer
1,24
1,37
1,12
1,40
Anteil/Anzahl @-Nach- 7,47%
richten
251/3358
5,48%
8/146
13,37%
258/1929
24,33%
407/1673
∅ @-Nachrichten/ Twit- 0,28
terer
0,30
0,70
4,11
Anteil/Anzahl Tweets
mit URL
19,86%
29/146
26,70%
515/1929
14,82%
248/1673
∅ Tweets/Twitterer
4
39,67%
1132/3358
Die inhaltliche Auswertung der Tweets sollte vor allem erste Anhaltspunkte für die Funktion von Twitter während Konferenzen liefern. Eine we2 Auch in der intellektuellen Analyse wurden Tweets, die eine URL enthalten, gekennzeichnet. Die Zahlen liegen hierbei niedriger als die automatisch erfassten Werte,
da in der intellektuellen Auswertungen URLs in RTs nicht mitgezählt wurden.
3 Erfasst wurde im Idealfall ein Zeitraum von je zwei Wochen vor und nach der Konferenz. Der Anteil an Tweets aus dieser Gesamtmenge, die tatsächlich während der Konferenztage verschickt wurden, verteilt sich wie folgt: WWW2010: 70,61%, DC-2009:
94,52%, MLA 2009: 67,65%, Geoinst: 87,33%. Eine Umrechnung für die Kennwerte
und die Kategorisierungen auf die jeweils tatsächlichen Konferenztage steht noch aus.
4 In der Menge der automatisch erfassten RTs finden sich alle Tweets, welche die Struktur „RT@user“ enthalten. Nicht enthalten sind Retweets, die mit „via“ o. Ä. gekennzeichnet sind. In der manuell kategorisierten Tweetmenge sind diese jedoch erfasst,
weshalb sich die Anzahl der Retweets bei der automatischen und manuellen Auswertung unterscheidet.
Konferenz-Tweets
105
sentliche Frage war dabei, inwiefern die eigentlichen fachlichen Inhalte der
Konferenz bei Twitter diskutiert werden. Abbildung 2 gibt hierfür einen ersten zusammenfassenden Überblick für die drei Konferenzen, deren Tweets
inhaltlich kategorisiert wurden. Der hohe Anteil an Tweets, für die keine
Angabe verfügbar ist, erklärt sich dadurch, dass RTs nicht weiter inhaltlich
bestimmt wurden. Davon abgesehen zeigt sich, dass der Anteil an nicht auf
fachliche Inhalte bezogenen Tweets bei der MLA 2009 und der DC-2009
deutlich überwiegt, lediglich bei der WWW2010 ist das Verhältnis zwischen
fachlichen und nicht-fachlichen Tweets in etwa ausgewogen. In den Abbildungen 3 und 4 wurde für die MLA 2009 bzw. die WWW2010 weiter ausdifferenziert, welche Kategorien sich auf fachliche Inhalte beziehen.
Anteil der Tweets an gesamten
Konferenztweets
Beziehen sich die Tweets auf fachliche Inhalte der Konferenz?
100%
80%
619
1467
48
keine Angabe
60%
40%
1002
20%
0%
308
MLA 2009
938
953
WWW2010
74
Nein
Ja
24
DC-2009
Abbildung 2: Auswertung der 2. Ebene im Kategorisierungsschema (siehe Abb. 1),
Gesamtüberblick für die Konferenzen MLA 2009, WWW2010, DC-2009.
Abbildung 3 enthält einen Überblick über die Kategorien der inhaltlichen
Auswertung der Tweets der MLA-Konferenz. Dabei waren 514 Tweets (intellektuell bestimmte) RTs, die auf der zweiten Ebene nicht weiter kategorisiert worden sind. Die zweithäufigste Kategorie ist COM. Von diesen
358 Tweets, die reine Konversations- und Kommunikationselemente enthalten, beziehen sich nur 55 auch auf die Inhalte der Konferenz. Von den 285
selbstreferenzierenden Tweets in der Kategorie ME sind nur 16 auf Konferenzinhalte bezogen. In der Kategorie CONF findet sich wie erwartet der
größte Anteil an fachlichen Inhalten. 158 von 269 CONF-Tweets beziehen
sich auf die Inhalte der Konferenz, und enthalten z.B. Berichte über die Vorträge, Kommentare oder Verweise auf Präsentationen. Die übrigen Tweets in
106
dieser Kategorie beziehen sich auf organisatorische Aspekte der Konferenz.
Der relativ hohe Anteil an nicht-kategorisierten Tweets bei dieser Konferenz
(Kennzeichen NA) liegt vor allem an einer inhaltlichen Besonderheit. Es
finden sich zahlreiche sogenannte „MLA Tips“, die auf ironische Weise das
Verhalten der Konferenzteilnehmer thematisieren (Beispiel: „#MLA09 Tip:
Remember you don’t have to answer interview questions about your marital
status, religion, sexual orientation, or dissertation“). Als NA wurden auch
zahlreiche Werbe-Tweets gekennzeichnet. Verhältnismäßig wenigen Tweets
wurden mehrere gleichwertige Kategorien zugeordnet. Insgesamt 220 Tweets
enthalten URLs (davon 73 ohne weitere Kategoriezuweisung). Die meisten
von ihnen verlinken auf Blogs und nichtwissenschaftliche Publikationen im
Internet. Die meisten der MLA-Tweets sind an den Konferenztagen entstanden, vor allem am vorletzten Tag der Konferenz (mit 426 Tweets). Darunter
sind viele konferenzbezogene aber nicht inhaltliche Tweets zu erkennen, z.B.
Beschwerden über die Räumlichkeiten oder Verweise auf den KonferenzHashtag. Insgesamt haben 308 Tweets direkt auf die Konferenzinhalte Bezug
genommen (siehe Abb. 2), die außerdem überwiegend an den tatsächlichen
Konferenztagen verfasst wurden.
600
keine Angabe
Nein
Anzahl der Tweets (MLA09)
500
Ja
400
300
200
100
RL
F,
UR
L
M
E,
UR
L
C
O
M
,U
R
L
C
O
N
F,
M
E
C
O
M
,M
C
E
O
M
C
,C
O
M
O
,C
NF
O
NF
,U
R
L
N
A,
C
U
O
R
M
L
,M
E,
C
O
U
N
R
F,
L
M
E,
U
R
L
A
C
O
N
N
U
F
M
E
O
N
C
T
C
R
O
M
0
Abbildung 3: MLA 2009-Tweets, n=1929: Kategorisierung der Tweets. Dabei wird
die Anzahl der vorkommenden Kategorie-Kombinationen erfasst und für jede angegeben, inwiefern die darunter fallenden Tweets fachliche Konferenzinhalte thematisieren.
Konferenz-Tweets
107
Eine intensive Diskussion um ein inhaltliches Top-Thema der Konferenz
(„Digital Humanities“) fand am vorletzten Tag der Konferenz statt und
kommt als ein möglicher Grund für die hohe Anzahl der Tweets an diesem
Tag in Frage. Die Tweets vor und nach der Konferenz fallen meist in die
Kategorien COM und ME. Vor der Konferenz sind viele kommunikative
Tweets zu identifizieren, die sich mit der Vorbereitung auf der Konferenz,
persönlichen Beiträgen und der Anreise befassen. Nach der Konferenz sind
sehr viele Verweise auf Präsentationsfolien, Blogeinträge und verschiedene
Websites sowie Danksagungen, persönliche Meinungen und Aktivitäten zu
sehen. Detailliertere und vergleichende Analysen hierzu sollen noch folgen.
Bei der WWW2010 wurden insgesamt 3358 Tweets analysiert. Fast 3/4
der ausgetauschten Tweets fallen dabei unmittelbar auf die fünf Konferenztage (26.-30.04.2010). Dabei fällt auf, dass am letzten Konferenztag eine
überproportional große Anzahl an Tweets verfasst wurde (ca. 46,5% der
Tweets aller Konferenztage). Deutlich weniger Tweets (nur 5%) wurden am
ersten Konferenztag veröffentlicht. Abbildung 4 zeigt die Aufschlüsselung
der WWW2010-Tweets nach Kategorien und die Angaben zum fachlichen
Konferenzbezug. Bei der Häufigkeit der Vergabe liegen nach den Retweets
diesmal die Kategorie CONF bzw. die Kombination CONF+URL vorne, mit
deutlichem Abstand vor COM (Platz 4) und ME (Platz 5).
Anzahl der Tweets (WWW10)
1400
keine Angabe
Nein
Ja
1200
1000
800
600
400
200
NA
M
,U
CO
R
N L
CO F,
M
M
,C E
O
M NF
E,
U
CO R
L
M
,M
CO N
E
N A,
U
CO F,
R
M ME L
, C ,U
O
R
CO NF L
M ,U
,M R
E, L
U
CO
CO RL
M
, C M,
R
O
NF T
,M
M E
E,
RT
CO
M
E
UR
L
L
M
CO
NF
UR
NF
,
CO
CO
RT
0
Abbildung 4: WWW2010-Tweets, n=3287 (71 Tweets wg. Fremdsprachen nicht
berücksichtigt): Kategorisierung der Tweets nach dem Schema aus Abb. 1.
108
Die Tweets, die sich auf der ersten Ebene auf die Konferenz bezogen haben (CONF, CONF+URL, CONF+ME, COM+CONF), verzeichnen die
höchsten Werte für thematische Bezüge zu Inhalten der Konferenz. Die restlichen Kategorien thematisieren hingegen kaum fachliche Inhalte der Konferenz. Twitternde Konferenzteilnehmer waren demnach in mindestens gleichem Maße daran interessiert, sich über die konferenzbezogenen Informationen auszutauschen (CONF), wie auch über eigene Erfahrungen zu
berichten (ME) und mit anderen ins Gespräch zu kommen (COM). Insgesamt
ist die Menge der Tweets, die unmittelbar mit dem Inhalt der WWW2010 zu
tun hatten, und die Menge, in der andere Inhalte behandelt werden, ungefähr
gleich groß. Demnach sind die Tweets der WWW2010 im Vergleich zu den
anderen Konferenzen am stärksten fachorientiert (Abb. 2). Wie schon bei der
Kategorisierung der MLA 2009 wurden auch hier nur wenigen Tweets mehrere gleichwertige Kategorien zugewiesen (eine Ausnahme bildet die Kombination CONF+URL). In Abbildung 5 wurde schließlich die Mehrfachvergabe von Kategorien aufgelöst. Dadurch ergibt sich ein Überblick, welcher
Anteil an Tweets von der jeweiligen Konferenz mit der jeweiligen Kategorie
ausgezeichnet ist.
Antei an den Gesamttweets in %
Wie viel Prozent der gesamten Tweets einer Konferenz
wurden die folgenden Kategorien zugewiesen?
50
WWW2010
40
MLA 2009
DC-2009
30
20
10
0
RT
CONF
URL
COM
ME
NA
Abbildung 5: Relative Häufigkeit der Kategorien pro Konferenz, dabei konnte jeder
Tweet mit mehreren Kategorien beschrieben werden. Bei reinen Retweets ohne weitere Textbestandteile (RT) wurden keine anderen inhaltsbeschreibenden Kategorien
vergeben.
Konferenz-Tweets
4
109
Fazit und Ausblick
Mit unserem Ansatz haben wir erste Anhaltspunkte für die vergleichende
Analyse von Konferenzen basierend auf den Twitter-Aktivitäten der Konferenzteilnehmer erhalten. Es zeigt sich, dass Twitter mit unterschiedlicher
Ausrichtung genutzt wird. Jede der untersuchten Konferenzen verfügt über
ein eigenes Profil, bei dem z.B. die eigentliche Fachdiskussion (wie bei der
WWW2010) oder die Gruppen-Kommunikation (wie bei der Geoinst) stärker
ausgeprägt sein kann. Für die Zukunft ist zum einen eine Ausweitung der
Untersuchung auf weitere Konferenzen geplant, zum anderen sollen die vorhandenen Daten vertiefend analysiert werden. Insbesondere soll dabei auf die
Inhalte der in Tweets verlinkten Webseiten, auf den Aktivitätsgrad während
verschiedener Phasen der Konferenz sowie auf das Retweet-Verhalten eingegangen werden. Eine Analyse der Vernetzung der Twitter-Community sowie
Ranglisten der aktivsten Twitterer sind ebenfalls in Arbeit. Für die methodische Weiterentwicklung möchten wir das Kategorisierungssystem zur Diskussion stellen. Darüber hinaus kann diskutiert werden, welche begleitenden
Umstände es zu erfassen gilt (z.B. die Klärung der jeweiligen Konferenzumstände wie freie W-LAN Verfügbarkeit, ein offiziell vorgegebener Hashtag).
Insgesamt eröffnet sich mit Twitter ein weites Feld zur Beobachtung und
Messung von Verhaltensweisen und Vernetzungen innerhalb wissenschaftlicher Communities.
Boyd, D., Golder, S. & Lotan, G. (2010). Tweet, Tweet, Retweet: Conversational
Aspects of Retweeting on Twitter. In Proceedings of the 43rd Hawaii International Conference on System Sciences, Kauai, HI.
Ebner, M. & Reinhardt, W. (2009). Social Networking in Scientific Conferences.
Twitter as Tool for Strengthen a Scientific Community. In Proceedings of the 1st
International Workshop on Science 2.0 for TEL at the 4th European Conference
on Technology Enhanced Learning, Nizza.
Hotopp, D. & Willecke, L. (2010). Twitter als Werkzeug des Online-Marketings.
Richtlinien für erfolgreiches Twittern. Information – Wissenschaft und Praxis,
61(6–7), 419–422.
110
Java, A., Song, X., Finin, T. & Tseng, B. (2007). Why We Twitter: Understanding
Microblogging Usage and Communities. In Proceedings of the 9th WebKDD and
1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis,
San Jose, CA.
Letierce, J., Passant, A., Breslin, J. & Decker, S. (2010). Understanding How Twitter
Is Used to Spread Scientific Messages. In Proceedings of the 2nd Web Science
Conference, Raleigh, NC.
Mainka, A. (2010). Twitter: Gezwitscher oder gezielte Informationsvermittlung? Information – Wissenschaft und Praxis, 61(2), 77–82.
Reinhardt, W., Ebner, M., Beham, G. & Costa, C. (2009). How People are Using
Twitter During Conferences. In Proceedings of the 5th EduMedia conference,
Salzburg.
Vieweg, S., Hughes, A. L., Starbird, K. & Palen, L. (2010). Microblogging During
Two Natural Hazards Events: What Twitter May Contribute to Situational
Awareness. In Proceedings of the 28th International Conference on Human Factors in Computing Systems, Atlanta, GA.
Zhao, D. & Rosson, M. B. (2009). How and Why People Twitter: The Role that
Micro-Blogging Plays in Informal Communication at Work. In Proceedings of
the ACM 2009 International Conference on Supporting Group Work, Sanibel Island, FL.
Social Bookmarking als Werkzeug
für die Kooperation von Lehrkräften
Das Projekt Edutags für den Deutschen Bildungsserver
Richard Heinen1, Ingo Blees2
1
Universität Duisburg-Essen
Forsthausweg 2 – LC 105, 47057 Duisburg
[email protected]
2
Deutsches Institut für Internationale Pädagogische Forschung
Schloßstraße 29, 60486 Frankfurt/Main
[email protected]
Zusammenfassung
Im Artikel werden zunächst Forschungsergebnisse zur Kooperation von
Lehrkräften dargestellt. Daran schließen sich Überlegungen an, welche webbasierten Dienste eine Kooperation unter Lehrkräften unterstützen könnten
und ob solche Dienste bereits (erkennbar) genutzt werden. Abschließend
werden die Konzeption eines Social-Bookmarking-Dienstes für Lehrkräfte
erläutert und die ersten Entwicklungs- und Implementationsschritte dargestellt.
Abstract
The article begins with an outline of research on cooperation among teachers
that is followed by reasoning about which web-based services could support
such cooperation and whether these services are already in use by teachers.
In the main part the design of a customized social bookmarking service for
teachers is explicated and the first steps of its development and implementation are shown.
112
1
Kooperation von Lehrkräften
Digitalen Medien im Unterricht werden vielfältige Potenziale zur Verbesserung des Lehrens und Lernens zugeschrieben. Grundsätzlich sei ein Unterricht möglich, der schülerzentrierter, projektorientierter sei, der es ermögliche, auf individuelle Leistungsunterschiede zu reagieren, der aber vor allem
auch Möglichkeiten zu kooperativeren Arbeitsformen biete. Beispiele, die
dies exemplarisch belegen können, sind vielfältig entwickelt, erprobt und
dokumentiert [Eickelmann, 2009]. In der Regel wird dabei aber der Unterricht einer einzelnen Lehrkraft in den Blick genommen. Unberücksicht bleibt
oft die Frage der Lehrerkooperation.
Eine in den letzten Jahren zunehmende Outputorientierung von Unterricht
rückt die Professionalisierung des Lehrerberufs in den Blick. Neben Aspekten der Aus- und Weiterbildung ist hier auch nach Formen der Kooperation
von Lehrkräften zu fragen. Der Austausch mit anderen Lehrkräften unterstützt die Reflexion des eigenen Handelns und kann so die Qualität des Unterrichts und von Arbeitszufriedenheit erhöhen [Ihme, Möller & Pohlmann,
2009]. Effiziente Formen der Kooperation können die Arbeitsbelastung der
einzelnen Lehrkraft reduzieren [Obolenski, 2006].
Aktuelle Untersuchungen zur Lehrerkooperation belegen einerseits die
positive Wirkung gelungener Kooperation, zeigen andererseits aber auch,
dass diese häufig noch nicht hoch entwickelt und etabliert ist [Bauer, 2008].
Hierfür werden eine Reihe von Gründen angeführt. Die Lehrtätigkeit als
solche, der eigentliche Unterricht ist eine vereinzelte Tätigkeit, in der Folge
wird Unterricht auch alleine vorbereitet und entwickelt. Die Lehrerausbildung unterstützt kooperative Arbeitsformen nicht nur nicht, sondern sozialisiert angehende Lehrkräfte immer noch eher im Sinne einer Einzeltätigkeit
[Tenorth, 2006]. Zudem wird die Zusammenarbeit mit anderen Lehrkräften
häufig auch mit zusätzlichem Zeitaufwand verbunden und daher abgelehnt.
Diese Ablehnung gilt es durch alternative Formen der Kooperation aufzubrechen und Kommunikations- und Selbstreflexionsprozesse anzustoßen [Kolbe,
Reh, Coelen & Otto, 2008]. Denn andere Formen der Kooperation können
den Arbeitsalltag von Lehrkräften bereichern. Von der punktuellen problemorientierten Zusammenarbeit bis zur institutionalisierten Zusammenarbeit
sind Kooperationsformen beschrieben [Little, 1990]. Neben der schulinternen
Kooperation sind aber auch immer wieder Formen zu beobachten, bei denen
gerade engagierte Lehrkräfte, die in ihrer Schule keine Partnerschaften fin-
den, die Kooperation außerhalb der eigenen Schule suchen [Schönknecht,
1997].
Kooperation unter Lehrkräften scheint also eine schwierige Sache zu sein.
Dennoch wurden einige Merkmale gelingender Kooperation identifiziert.
• Im Rahmen einer Kooperation arbeiten kleinere Gruppen zusammen.
• Die Kooperation wird von der Leitung gefördert und unterstützt.
• Es liegt eine klare Aufgabenstellung für die Kooperation vor, bzw. es ist
ein klares Kooperationsziel formuliert.
• Es werden Arbeitsschritte und Zuständigkeiten transparent festgelegt
[Legters, 1999].
Vor diesem Hintergrund wird im Rahmen des hier beschriebenen Projektes
gefragt, wie der Einsatz von digitalen Medien die Kooperation von Lehrkräften unterstützen kann. Ziel ist es, eine webbasierte Software zur Verfügung zu stellen, die einfach zu bedienen ist und Kooperation von Lehrkräften in unterschiedlichen Szenarien unterstützen kann, die darüber hinaus
aber auch das Potenzial bietet, Lehrkräfte im Umgang mit digitalen Medien
im Kontext der Unterrichtsvorbereitung vertrauter zu machen und sie dazu
anregt, sich über den Unterricht und die verwendeten digitalen Ressourcen
auszutauschen. Die Ansiedlung des Projektes beim Deutschen Bildungsserver1 bietet den Vorteil, dass ein Ressourcenpool entsteht, der Lehrkräften
offen zur Verfügung steht. Es werden so neue Formen der Ressourcensammlung und -bewertung erprobt, die ggf. den Datenbestand des redaktionell gepflegten Angebotes bereichern können.
2
Social Bookmarking
Social Bookmarking und Tagging sind Formen der virtuellen Zusammenarbeit, die es ermöglichen, große auf Internetressourcen basierende Wissensbestände aufzubauen, zu strukturieren und gemeinsam zu nutzen.2 Neben der
Art der Strukturierung über freie Tags, d.h. individuelle durch die User ver1 http://www.bildungsserver.de/start.html
2 Bertram (2009) gibt einen Überblick über die informationswissenschaftlich relevanten
Aspekte des Social Tagging. Eine im Weiteren zugrundegelegte umfassende Darstellung zum Thema liefert Peters (2009).
114
gebene Schlagwörter, ist auch die Suche sehr flexibel, denn anders als in der
Lesezeichenverwaltung eines Browsers kann jede Ressource von verschiedenen Usern mit mehreren Schlagworten getaggt werden. Hier ergeben sich
positive Effekte aus der Zusammenarbeit im Netzwerk. Für den Einzeluser
kann die Nutzung eines webbasierten Werkzeuges von Vorteil sein, wenn
mehrere Rechner genutzt werden. Der Zugriff auf die Ressourcensammlung
ist von jedem Rechner aus möglich. Dies entspricht der Arbeitssituation von
Lehrkräften, die Unterricht am heimischen Rechner vorbereiten, im Lehrerzimmer evtl. Zugriff auf einen Arbeitsrechner haben und auf Lehrerrechner
im Klassen- oder Computerraum zugreifen. Erst die Zusammenarbeit mit
anderen Usern macht aus einem Bookmarking- ein Social-BookmarkingSystem. Die gemeinsame Verschlagwortung und Bewertung von Quellen
erhöht deren Qualität. Je mehr User eine Ressource für sich sichern und mit
Tags versehen, umso relevanter könnte diese Ressource für eine Gruppe
sein.3
Für die Annäherung an kooperative Arbeitsformen erscheint ein SocialBookmarking-System auch deshalb besonders geeignet, weil nicht eigene
Unterrichtsentwürfe und selbsterstellte Materialien ausgetauscht werden
(müssen) – wie dies z.B. mit Wikis realisierbar wäre –, sondern „lediglich“
Ressourcen ausgetauscht werden, die im Netz aufgefunden wurden. In einem
zweiten Schritt kann dann über die Kommentarfunktion ein Austausch über
Erfahrungen im Unterricht beginnen.
Es wird also angenommen, dass ein Social-Bookmarking-System eine
webbasierte Software-Lösung ist, die kooperative Arbeitsformen unterstützen
kann. Andere Werkzeuge wie etwa Blogs sind eher geeignet, die Reflexion
der einzelnen Lehrkraft zu unterstützen [Reinmann & Bianco, 2008].
2.1
Aktuelle Nutzung bestehender Dienste
Die Nutzung bestehender Bookmarking-Systeme bei der Vorbereitung von
Unterricht scheint bisher in Deutschland bzw. im deutschsprachigen Raum
nicht weit verbreitet zu sein. Eine explorative Untersuchung, bei der die
Dienste del.icio.us und Mr. Wong4 untersucht wurden, zeigte, dass kaum
Ressourcen mit unterrichtsrelevanten Tags markiert sind. Hierzu wurden 25
3 Zum kollaborativen Filtern durch Social Tagging vgl. Peters (2009), 299ff.
4 http://del.icio.us und http://www.mister-wong.de/
themen- bzw. fachspezifische Begriffe in unterschiedlichen Abstraktionstiefen (Biologie, Zellbiologie, Mitose) mit dem Begriff Unterricht kombiniert
und die Trefferlisten ausgewertet. Bei den allgemeinen Begriffen wurden
mehr Treffer gefunden, allerdings verwiesen diese eher auf Einstiegsseiten
von Portalen und nicht auf konkrete Materialien. Insgesamt waren Ressourcen immer nur im zweistelligen Bereich getaggt. Ausnahmen waren wenige
englischsprachige Portale, die auch mit deutschen Tags versehen waren. Bei
den spezifischeren Suchbegriffen wurden Verweise auf konkrete Materialien
gefunden, doch lag die Zahl der User, die die einzelnen Ressourcen getaggt
hatten, immer im einstelligen Bereich. Als Beispiel sei die Unterrichtseinheit
„Mitose“5 genannt, die bei Lehrer-Online die Besucher-Hits Biologie anführt,
aber nur zweimal (!) auf del.icio.us getaggt ist.
Die explorative Untersuchung legt den Schluss nahe, dass die Idee des
Social-Bookmarking für Zwecke der Unterrichtsvorbereitung bei deutschsprachigen Lehrkräften wenig verbreitet ist. Die geringe Zahl von Mehrfachtagging bei spezifischen Ressourcen lässt zudem den Schluss zu, dass die
Dienste bisher eher von Einzelusern und nicht von Gruppen im Sinne einer
kooperativen Arbeitsweise genutzt werden. Im Rahmen der Fokusgruppe
(s.u.) wurden diese Ergebnisse auch diskutiert. Es zeigte sich, dass (zumindest bei den beteiligten Lehrkräften) die fehlende Nutzung nicht aus einer
Ablehnung der Systeme erwuchs, sondern aus mangelndem Wissen über deren Existenz oder Skepsis gegenüber nicht-öffentlichen Anbietern.
2.2
Edutags – Social Bookmarking auf dem DBS
Auf der Grundlage der bisherigen Darstellungen wurde die Entwicklung und
exemplarische Implementierung eines Social-Bookmarking-Dienstes für
Lehrkräfte auf dem Deutschen Bildungsserver konzipiert.
2.2.1 Erstellung eines Prototypen
Die Entscheidung, ein eigenständiges Werkzeug zu entwickeln, war von
mehreren Überlegungen geleitet. Ein Social-Bookmarking-System für Lehrkräfte in Deutschland sollte als eigenständiges Angebot eines renommierten
Anbieters erkennbar sein. In der Entwicklung soll flexibel auf Anforderungen
5 http://www.lehrer-online.de/mitose.php
116
der Lehrkräfte eingegangen werden können. Das System soll den Bildungsbereich ins Zentrum stellen.
Zunächst wurde daher mit dem Content-Management-System Drupal ein
Prototyp für ein Social-Bookmarking-System entwickelt. Die Entscheidung,
Drupal als Grundlage zu wählen, liegt im konzeptionellen Ansatz des Systems begründet. Drupal ist ein CMS, das als Open Source vorliegt. Es ist
stark auf die Unterstützung von virtuellen Gemeinschaften ausgerichtet. Ein
besonderer Vorteil von Drupal ist dabei, dass unterschiedliche Anforderungen mithilfe von Modulen, die ebenfalls als Open Source zur Verfügung
stehen, umgesetzt werden können [Westrup, Vervenne & Kerres, 2010]. Das
System ist so flexibel und anpassbar, und kann auf die Rückmeldungen der
Lehrkräfte im Laufe der Testphasen reagieren.
Der Prototyp wies bereits wichtige Funktionalitäten eines BookmarkingDienstes auf, ohne dass diese jedoch detailliert ausgearbeitet waren. Folgende Funktionalitäten sind im Prototypen bereits angelegt.
Bereich Bookmarking, Tagging, Bewerten
•
•
•
Mithilfe eines Bookmarklets, das in die Symbolleiste aller gängigen
Browser integriert wird, können User eigene Lesezeichen anlegen.
Beim Anlegen eines neuen Lesezeichens werden URL, Seitentitel und
ggf. eine Textpassage in das Lesezeichen übernommen.
In einem zweiten Schritt können User Tags vergeben. Dabei stehen drei
Verfahren zur Auswahl: 1) Das System schlägt zu jedem Lesezeichen
Tags vor. Im Prototyp ist der Algorithmus hierfür noch nicht festgelegt.
Im Laufe der Erprobung soll festgestellt werden, ob eigenen Tags, anderen Tags derselben Ressource oder Tags aus Gruppen eine höhere Gewichtung gegeben werden soll. In einem Textfeld können Tags frei eingegeben werden. Hierbei haben User die Wahl, 2) entweder eigene, frei
gewählte Tags zu vergeben oder 3) sich von der Autovervollständigung
des Systems leiten zu lassen. Grundidee der Autovervollständigung ist
es, dass Usern Tags aus einer hinterlegten Taxonomie vorgeschlagen
werden.6 Durch dieses Verfahren soll eine Quasi-Standardisierung unter-
6 Obwohl sich dies von der Grundidee des Social Tagging entfernt, wird diese Unterstützung im untersuchten Setting von den Nutzern ausdrücklich verlangt (s.u.); und
auch in der neueren Literatur werden Tag-Empfehlungen als Systemerweiterungen angeregt, s. Peters (2009), 238 ff.
•
•
stützt werden, zugrunde liegt eine Auswahl von Deskriptoren des Fachinformationssystems Bildung entlang von MINT-Fachsystematiken.
Nach dem Speichern der Lesezeichen können alle Elemente (Titel, URL,
Beschreibung, Tags) auch wieder geändert werden.
Jedes Lesezeichen kann mit einer 5-Sterne-Bewertung versehen werden.
Die User bekommen dabei sowohl die selbst vergebene Wertung angezeigt, als auch den Durchschnittswert und die Anzahl der insgesamt vergebenen Wertungen.
Bereich Suche
•
•
•
•
Das System bietet im Wesentlichen drei Suchwege.
Der User durchstöbert die Lesezeichen, die von der Startseite aus in umgekehrt chronologischer Reihenfolge erreichbar sind.
Eine Volltextsuche durchsucht alle Elemente der Lesezeichen.
Tagclouds zeigen die vergebenen Tags in Wolkenform an. Dabei werden
häufig vergebene Tags größer dargestellt als weniger häufig vergebene
Tags. Tagclouds werden an verschiedenen Stellen im System angezeigt
und basieren dabei jeweils auf unterschiedlichen Ressourcen, abhängig
davon, im welchem Kontext sie angezeigt werden. D.h. es gibt eine eigene Tagcloud für einzelne User, Gruppen und für das Gesamtsystem, mit
denen auf die jeweiligen Teilmengen zugegriffen werden kann.
Bereich Kooperation
•
•
•
•
•
Zusammenarbeit ermöglicht das System auf verschiedenen Ebenen:
Das System zeigt an, wie oft eine Ressource als Lesezeichen angelegt
wurde. Neben der Anzahl werden aber auch die einzelnen User und die
von ihnen vergebenen Tags angezeigt.
User können sich zu Gruppen zusammenschließen. Gruppen erhalten
eine eigene Tagcloud und eine chronologische Auflistung der Ressourcen der Gruppe. So wird der Aufbau einer systematischen Themensammlung in der Gruppe unterstützt. Inwieweit die Zusammenarbeit in Gruppen zur Qualitätssteigerung der einzelnen Ressourcen beitragen kann,
muss noch im Detail untersucht werden [Noll, Au Yeung, Gibbins, Meinel & Shadbolt, 2009].
Einzelne User können sich gegenseitig als Freunde markieren. Damit ist
ein Einblick in die Sammlung der einzelnen User möglich.
Neben den Tags und Beschreibungen, die bei der Anlage der Lesezeichen vergeben werden, können User Kommentare zu Lesezeichen anle-
118
gen, über die eine Diskussion zu den Ressourcen und ihren Einsatzmöglichkeiten im Unterricht möglich ist.
2.2.2 Weiterentwicklung in einer Fokusgruppe
Das Basiskonzept und der darauf aufbauende Prototyp wurden in einer Fokusgruppe mit Lehrkräften diskutiert. Die Methode der Fokusgruppe bot sich
an, da das zu bewertende Produkt noch in einem unfertigen Zustand vorlag
und so einfach und schnell ein Feedback zum Prototypen eingeholt werden
konnte [Morgan, 1997]. Die Mitglieder der Fokusgruppe wurden unter verschiedenen Aspekten ausgewählt.
Ein Teil der Gruppe unterrichtet an Schulen, in denen Schüler/-innen und
Lehrkräfte über eine Ausstattung mit individuellen Endgeräten verfügen. In
diesen Schulen ist der Einsatz digitaler Medien im Unterricht an der Tagesordnung und der Bedarf an guten digitalen Ressourcen entsprechend hoch.
Der Austausch von Ressourcen erfolgt bei diesen Lehrkräften meist per EMail oder über den Schulserver.
Weitere Teilnehmende unterrichten an Schulen, die den Einsatz von LMS
(Lernmanagementsystemen) bereits etabliert haben. In diesen Schulen werden digital vorliegende Ressourcen über ein LMS an Schüler/-innen verteilt.
Hausaufgaben können darüber eingesammelt werden. Funktionalitäten zum
systematischen Aufbau von Sammlungen mit online verfügbaren Ressourcen
enthalten gängige LMS jedoch nicht.
Eine dritte Gruppe von Lehrkräften kam von Schulen, die zwar über eine,
nach eigener Einschätzung, akzeptable technische Ausstattung, aber weder
über eine systematisch genutzte Lernplattform, noch über etablierte Formen
der Medienarbeit im Unterricht, noch über erprobte Formen der Kooperation
in der mediengestützten Unterrichtsvorbereitung verfügen.
Allen Teilnehmenden war gemein, dass sie der Kooperation im Kollegium einen hohen Stellenwert beimaßen, für die eigene Schule aber ein zu
geringes Maß an Kooperation konstatierten.
In der Gruppe wurden Konzept und Prototyp unter vier Aspekten diskutiert:
1. Funktionalitäten, die erforderlich oder weniger gewünscht sind
2. Umgang mit persönlichen Daten auf der Plattform
3. Unterstützung beim Taggen von Ressourcen
4. Exportmöglichkeiten und Suchhilfen
Die Diskussionen der Fokusgruppe lassen sich folgendermaßen zusammenfassen:
1. Es werden vor allem Funktionalitäten erwartet, die die Kernaufgabe des
Systems unterstützen. Bereits bei der Implementierung von allgemeinen
Diskussionsforen und Kommentierungsmöglichkeiten einzelner Ressourcen findet sich keine eindeutige Mehrheit. Gemeinsam wurde die Aussage erarbeitet, dass ein System erwartet wird, das nicht die Aufgaben
anderer Plattformen ersetzt, sondern sich auf die definierte Aufgabe der
digitalen Verwaltung online verfügbarer Ressourcen konzentriert.
2. Die Frage der persönlichen Daten auf der Plattform wurde kontrovers
diskutiert. Die Meinungen sind zwischen zwei extremen Positionen angesiedelt. Die eine setzt auf möglichst weitgehende Datenvermeidung,
sowohl bei der Registrierung als auch bei der Anzeige gegenüber anderen Usern, die andere sieht ausführliche Daten über die einzelnen User
als Qualitätsmerkmal. Im Ergebnis fand die Gruppe zu dem Konsens,
dass bei der Registrierung nur die rechtlich erforderlichen Daten erhoben
werden sollten, während die Nutzerprofile optional mit weitergehenden
Informationen angereicht werden können.
Besonders im Kontext des Umgangs mit persönlichen Daten wurde von
allen Teilnehmenden der Fokusgruppe die Meinung geäußert, es sei
wichtig, ein System zu schaffen, das durch einen öffentlichen, nicht kommerziellen und in Deutschland angesiedelten Dienstleister zur Verfügung
gestellt wird.
3. Unter dem Aspekt der Tagginghilfen wurden klar konkrete Tag-Vorschläge gefordert, die sich aus den eigenen Tags der User, den Tags der
Gruppen, denen die User angehören, und den Tags, die andere für eine
bestimmte Ressource verwendet haben, zusammensetzen. Die Steuerung
freier Tags durch Autovervollständigung mit einer hinterlegten Taxonomy wurde weder positiv noch negativ gewertet. Hier zeigt die Fokusgruppe eine abwartende, aber offene Haltung.
4. Im Rahmen der Konzeptvorstellung wurden Ideen präsentiert, Suchergebnisse als Scorm-Paket, als RSS-Feeds oder in einer anderen Form,
die zum Import in ein LMS geeignet ist, zu entwickeln. Ebenso wurde
angeregt, Hilfe für einen teilautomatisierten Import bestehender Sammlungen in das System zu entwickeln. Beide Angebote wurden von der
Fokusgruppe nicht positiv bewertet. Hingegen wurde eine intuitiv bedienbare und differenzierte Suchfunktion gefordert. Begründet wurde
dies damit, dass es zur Zeit kaum importgeeignete Ressourcensammlun-
120
gen gebe. Auch beim Export setzen die Teilnehmenden eher auf manuelle Übertragung, da hier viele unterschiedliche Szenarien genannt wurden, wie die Verwendung in Arbeitsblättern oder in Webquests, die Einbindung in Aufgaben etc.
Die Ergebnisse der Diskussion der Fokusgruppe bestätigten die bisherige
Entwicklung des Prototypen, setzten aber an einigen Stellen wichtige Akzente, die nun in die Weiterentwicklung des Prototypen einfließen.
2.2.3 Erprobungsszenarien
Eine zweite Version des Prototypen, die dann auch bereits zum produktiven
Einsatz einer betreuten Gruppen geeignet ist, wird seit November 2010 mit
verschiedenen Testgruppen erprobt. Hierbei werden drei Szenarien realisiert:
• Nutzung durch eine Gruppe in einer Schule;
• Nutzung durch Einzellehrer mit einem Thema in einer Region;
• Nutzung durch eine Gruppe von Einzellehrkräften bundesweit.
Die Leitfragen für diese Phase orientieren sich an den Erkenntnissen zur Lehrerkooperation, die am Anfang des Artikels dargestellt wurden:
• Kann ein Social-Bookmarking-Dienst die Kooperation von Lehrkräften
unterstützen?
• Welche Rolle spielt dabei die Unterstützung durch die Schulleitung?
• Welche Rolle spielt die konkrete Aufgabenstellung der Kooperation?
• Kommt es zu einer differenzierten Rollenaufteilung?
• Ist der gemeinsame Arbeitskontext für die Kooperation wichtig?
3
Ausblick
Mit edutags wird ein passgenaues Tool für die Kooperation von Lehrkräften
bei der Sammlung, inhaltlichen Erschließung und Bewertung für den Unterrichtseinsatz entwickelt. Der Deutsche Bildungsserver kann zugleich das
Kernangebot an redaktionellen Inhalten in seinen Themenkatalogen mit einem Pool von mit fachlicher Expertise ausgewählten Online-Ressourcen
anreichern. Die selektive Übernahme des mit edutags aggregierten und er-
schlossenen Contents in den redaktionellen Bestand wird erleichtert durch
die Verbindung von Folksonomy und Taxonomie.
Vom Social Tagging auf edutags wird eine Verbesserung des Vokabulars
zur inhaltlichen Erschließung hinsichtlich Aktualität und Berücksichtigung
von Nutzerinteressen ebenso erwartet wie Einsatzmöglichkeiten der Folksonomy für Retrieval [Hotho, Jäschke, Schmitz & Stumme, 2006] und Browsing, z.B. in Form von Suchtermvorschlägen und tag-generierten Empfehlungen [Peters, 2009]. Diese Einsatzfelder werden Gegenstand weiterer Untersuchungen im Projektkontext sein.
Bauer, K. O. (2008). Lehrerinteraktion und- kooperation. In: Helsper, W., Böhme, J.
(Hrsg.). Handbuch der Schulforschung, 839–856. Heidelberg: Springer.
Bertram, J. (2009). Social Tagging – Zum Potential einer neuen Indexiermethode. In:
Information: Wissenschaft und Praxis, 60(1), 19–26.
Bianco, T. & Reinmann, G. (2008). Bloggen – Pflichtübung oder Passion? Eine empirische Untersuchung von Knowledge Blogs als Tool des persönlichen Wissensmanagements vor dem Hintergrund der Selbstbestimmungstheorie.
http://www.imb-uni-augsburg.de/files/TamaraBianco_Masterarbeit_KnowledgeBlogs_Web.pdf (Zugriffsdatum: 10.1.2011)
Eickelmann, B. (2009). Digitale Medien in Schule und Unterricht erfolgreich implementieren: Eine empirische Analyse aus Sicht der Schulentwicklungsforschung.
Münster: Waxmann.
Heinen, R. (2010). Nachhaltige Integration digitaler Medien in Schulen aus Sicht der
Educational Governance. In: Schroeder, U. (Hrsg.). Interaktive Kulturen – Workshop-Band, 231–238. Berlin: Logos Verlag.
Hotho, A., Jäschke, R., Schmitz, C. & Stumme, G. (2006). Information Retrieval in
Folksonomies: Search and Ranking. In: Sure, Y., Domingue, J. (eds.): The Semantic Web: Research and Applications. Lecture Notes in Computer Science,
Volume 4011, 411–426.
Ihme, T. A., Möller, J. & Pohlmann, B. (2009). Effekte von Kooperation auf die
Qualität von Lehrmaterial. In: Zeitschrift für Pädagogische Psychologie, 23(3),
259–263.
122
Kolbe, F. U., Reh, S., Coelen, T. & Otto, H. (2008). Kooperation unter Pädagogen.
In: Coelen, T., Otto, H.-U. (Hrsg). Grundbegriffe Ganztagsbildung, 799–808.
Heidelberg: Springer.
Legters, N. E. (1999). Teacher collaboration in a restructuring urban high school.
Center for Research on the Education of Students Placed at Risk, Johns Hopkins
University & Howard University.
Little, J. (1990). The persistence of privacy: Autonomy and initiative in teachers’
professional relations. In: The Teachers College Record, 91(4), 509–536.
Morgan, D. L. (1997). Focus groups as qualitative research. Sage Publications, Inc.
Noll, M. G., Au Yeung, C., Gibbins, N., Meinel, C. & Shadbolt, N. (2009). Telling
experts from spammers: Expertise ranking in folksonomies. In: Proceedings of
the 32nd international ACM SIGIR conference on Research and development in
information retrieval, 612–619.
Obolenski, A. (2006). Kooperation von Pädagoginnen und Pädagogen als Bestandteil
professionellen Handelns. In: Spies, A., Tredop, D. (Hrsg). „Risikobiografien“ –
Benachteiligte Jugendliche zwischen Ausgrenzung und Förderprojekten, 267 bis
280. Heidelberg: Springer.
Peters, I. (2009): Folksonomies. Indexing and Retrieval in Web 2.0. Berlin: De
Gruyter Saur.
Schönknecht, G. (1997). Innovative Lehrerinnen und Lehrer. Weinheim: Dt. StudienVerlag.
Westrup, D., Vervenne, M. & Kerres, M. (2010). Die Implementierung des SCORM
Standards und dessen Implikationen für zukünftige Lehr-/Lernszenarien auf Basis
von Drupal. In: Schroeder, U. (Hrsg.), Interaktive Kulturen – Workshop-Band,
275–280. Berlin: Logos Verlag.
T-Index als Stabilitätsindikator für dokument-spezif. Tag-Verteilungen
123
Der T-Index als Stabilitätsindikator für
dokument-spezifische Tag-Verteilungen
Heinrich-Heine-Universität, Abteilung für Informationswissenschaft
Universitätsstr. 1, D-40225 Düsseldorf
{jens.terliesner | isabella.peters}@uni-duesseldorf.de
Zusammenfassung
Studien zeigen, dass die Form von dokument-spezifischen Tag-Verteilungen
in Broad Folksonomies nach einem gewissen Zeitraum stabil bleibt, sich also
auch mit steigender Anzahl von Tags und Taggern nicht ändert. Die Frage,
welche Bedingungen zur Stabilität führen, ist dagegen noch nicht in der Forschung geklärt. Daher wird hier eine Methode zur Bestimmung von Stabilität
erläutert sowie der T-Index als Stabilitätsindikator eingeführt.
Abstract
Research shows that in broad folksonomies the shape of document-specific
tag distributions remains stable after a certain point in time and that it is not
influenced by increasing numbers of tags or taggers. The question under
which particular conditions tag distributions become stable is not well discussed yet. The paper presents an approach for determination of stability and
introduces the t-index as an indicator for stability.
1
Einführung
Im Web 2.0 sind immer mehr Dienste anzutreffen, die bei der Erschließung
der durch die Nutzer bereitgestellten Dokumente auf Folksonomies (Peters,
2009) setzen. Unterscheiden können wir hier nach Vander Wal (2005) Broad
Folksonomies, die die Mehrfachvergabe von gleichen Tags für ein Dokument
erlauben, und Narrow Folksonomies, die lediglich aus den Tags des Autors
124
bestehen. Daher ist auch nur bei Broad Folksonomies die Bildung einer dokument-spezifischen Tag-Verteilung möglich. Dokument-spezifische TagVerteilungen nennen wir „Docsonomy“.
Zahlreiche Studien (Maass, Kowatsch & Münster, 2007; Maier & Thalmann, 2007; Robu, Halpin & Shepherd, 2009) zu Tag-Verteilungen haben ergeben, dass sobald eine kritische Masse von Dokumenten mit einer hinreichenden Menge an Tags versehen ist, die Tag-Zuordnung auch über längere
Zeiträume weitestgehend konstant bleibt: “the objects will stabilize once
enough objects are tagged” (Maarek et al., 2006). Kipp und Campbell (2006)
beobachten ebenfalls diesen Zusammenhang: “Furthermore, early research
suggests that when a URL acquires a certain number of taggers, the most
common terms tend to remain stable”. Die Stabilität betrifft dabei die Form
der Tag-Verteilung. Die relative Häufigkeit der indexierten Tags, jedoch
nicht ihre absolute Zahl, bleibt nach Erreichen der Verteilungsform konstant
bzw. verhält sich skaleninvariant.
Welche Bedingungen zur Stabilität von Docsonomies führen können bzw.
mit welchen Kennwerten sie festgestellt werden kann, wurde in der Forschungsliteratur noch nicht detailliert diskutiert. Lediglich Robu, Halpin und
Shepherd (2009) präsentieren mithilfe der Kullback-Leibler-Divergenz einen
Ansatz zur Berechnung der Stabilität von Tag-Verteilungen. Mit dieser
Methode, die auf der relativen Entropie von zwei Verteilungen basiert, konnten sie die Skaleninvarianz von Tag-Verteilungen bestätigen: “If the Kullback-Leibler divergence between two consecutive time points or between
each step and the final one becomes zero (or close to zero), it indicates that
the shape of the distribution has stopped evolving” (Robu, Halpin & Shepherd, 2009, 12).
Das Wissen um die Stabilität von Docsonomies hat immensen Nutzen für
die informationswissenschaftliche Praxis und den effektiven Umgang mit
Wissensbeständen im Web 2.0. Denn können die Ergebnisse der oben genannten Studien bestätigt werden und können Kennwerte (z.B. Gesamtzahl
der Tagger, Gesamtzahl der Tags, Anzahl der Unique Tags1 oder Anzahl Monate nach dem ersten Tagger) ermittelt werden, die den Zeitpunkt der Stabilität markieren bzw. ihn vorhersagen, wäre es bspw. möglich, das TagInventar der Docsonomy als ihr kontrolliertes Vokabular anzusehen. Dieses
wäre dann durch die kollektive Intelligenz (Surowiecki, 2004) der Nutzer-
1 „Unique Tags“ spiegeln die Anzahl der Rangplätze der Docsonomy wider.
125
schaft geprüft und bestimmt worden (Kipp & Campbell, 2006). Auch das
Ausnutzen von sog. „Power Tags“ im Information Retrieval (Peters & Stock,
2010) wäre so möglich. Der umgekehrte Fall, also das Bemerken eines Bruches in der Stabilität von Tag-Verteilungen, kann ebenso in der Praxis hilfreich sein, weist er doch auf eine veränderte Nutzung der sprachlichen Bezeichnungen innerhalb der Docsonomies hin. Hier ließen sich dann möglicherweise Trends, Phänomene des Sprachwandels oder Änderungen in den
Sichtweisen auf Dokumente erkennen.
Daher wird im Folgenden ein Ansatz zur Berechnung der Stabilität von
Docsonomies vorgestellt und der T-Index als Kennwert eingeführt, der das
Verhältnis von Unique Tags zu der Gesamtanzahl der vergebenen Tags in der
Docsonomy wiedergibt. Darüber hinaus können wir durch die Analyse von
116 Docsonomies zeigen, dass der mit unserer Methode ermittelte Wert der
Stabilität stark positiv mit dem T-Index korreliert und der T-Index deswegen
als Stabilitätsindikator für Docsonomies eingesetzt werden kann.
2
Studie zur Stabilität von Docsonomies
Um Berechnungen zu und Aussagen über die Stabilität von Docsonomies
treffen zu können, muss zunächst definiert werden, was Stabilität in diesem
Kontext meint. Wir können in Tagging-Systemen niemals davon ausgehen,
dass Docsonomies absolute Stabilität erreichen, da Nutzer immer wieder auf
sie zugreifen und Tags hinzufügen werden. Zum Zwecke der Operationalisierung von Docsonomies werden wir zunächst vereinfachte Annahmen treffen, um später eine Bewertungsgrundlage für den T-Index zu haben.
2.1
Erstellung des Datensatzes
Für die Analyse wird aus dem Social-Bookmarking-Dienst delicious2 eine
zufällige Auswahl von 116 Docsonomies heruntergeladen, in denen mindestens einmal der Tag „folksonomy“ verwendet wurde und die mindestens
100 Tagger aufweisen.
2 http://www.delicious.com.
126
Die Docsonomies des Datensatzes unterscheiden sich in der Anzahl der
Tagger (siehe Tabelle 1), nach der Anzahl der Unique Tags und der Gesamtzahl der vergebenen Tags (siehe Tabelle 2). Nach genau 1.000 Taggern variiert die Anzahl der Unique Tags stark und liegt zwischen 325 und 882; gleiches gilt für die Gesamtzahl der vergebenen Tags. Zu einem ähnlichen
Ergebnis sind auch Dellschaft und Staab (2010) gekommen, welche nach
5.000 vergebenen Tags zwischen 430 und 1.900 Unique Tags gezählt haben.
Tabelle 1: Charakteristika der Docsonomies: Anzahl der Docsonomies.
# Tagger
# Docsonomies
100–200
26
200–500
29
500–1.000
25
1.000–2.000
36
Tabelle 2: Charakteristika der Docsonomies: Anzahl der Tags.
# Tagger exakt
# Unique Tags (min/max)
# Gesamttags (min/max)
# Dokumente mit mindestens x Taggern
2.2
100
40/159
176/551
116
200
83/247
336/1.021
90
500
181/448
921/2.520
61
1.000
325/882
2.311/4.629
36
Definition von Stabilität
Stabilität bedeutet hier, dass eine Konsolidierung der relativen Häufigkeit
aller Tags einer Docsonomy stattfindet. Die relative Häufigkeit eines Tags
wird dabei bestimmt als Quotient aus Vergabehäufigkeit des Tags und der
Gesamtzahl der vergebenen Tags der Docsonomy. Dadurch erhält man für
jeden Tag seinen Anteil an der Gesamtmenge. Dies entspricht der Formel
wt (x) =
at (x)
gt
wobei t der untersuchte Zeitpunkt ist. Der Rangplatz, der immer denselben
Tag repräsentiert, ist x, der Wert an Rangplatz x zum Zeitpunkt t ist wt(x).
Die Anzahl des Auftretens von Tag x zum Zeitpunkt t ist at(x) und die Gesamtzahl aller Tags zum Zeitpunkt t ist gt.
Um die Stabilität von Tag-Verteilungen bestimmen zu können, müssen
zunächst Vergleichsobjekte geschaffen werden. Wir sehen die Tag-Verteilung zum Downloadzeitpunkt (samt Rangfolge der Tags) als Referenzverteilung an. Es wird mit Maier und Thalmann (2007) und Golder und Huberman
(2005) angenommen, dass eine Docsonomy umso stabiler ist, je mehr Benut-
127
zer Tags hinzugefügt haben. Daher hat die letzte bekannte Verteilung die
größte Wahrscheinlichkeit stabil zu sein und gilt deshalb als Referenz.
Ein anderer Indikator für die Stabilität von Docsonomies wurde in der
Anzahl der Rangvertauschungen innerhalb einer Docsonomy vermutet. Die
Vertauschungen werden berechnet, indem zu jedem Zeitpunkt alle Tags nach
Häufigkeit des Auftretens sortiert werden. Nun wird nach jedem hinzugefügten Tag überprüft, ob sich nach erneuter Sortierung die Reihenfolge der
Tags geändert hat. Bei diesen Berechnungen wurden Tags, die gleich häufig
genutzt wurden, als ein Rangplatz angesehen. Durch das Hinzufügen eines einzelnen Tags kann daher nur eine einzige Rangplatzvertauschung ausgelöst
werden. Daraus folgt, dass durch einen Tagger maximal so viele Rangvertauschungen ausgelöst werden können, wie Tags vom Tagger hinzugefügt wurden.
Die Analyse der 116 Docsonomies hat ergeben, dass die Anzahl der
Rangvertauschungen nicht signifikant abnimmt, umso öfter eine Docsonomy
getaggt wurde. Vielmehr scheinen die Vertauschungen nahezu zufällig im
Verlauf einer Docsonomy zu sein. Maier und Thalmann (2007) haben in
einem Versuch nur die ersten 10% bzw. die ersten 20% aller Rangplätze beobachtet und im Laufe einer Folksonomy einen deutlichen Rückgang der
Vertauschungen festgestellt. Das deutet daraufhin, dass die meisten Rangvertauschungen auf den hinteren Rangplätzen der Verteilung stattfinden.
Da hier die Stabilität der gesamten Docsonomy bestimmt werden soll,
kann die Anzahl der Rangvertauschungen somit nicht als Indikator für Stabilität gelten.
2.3
Berechnung von Docsonomies und ihrer Stabilität
Nach jedem Tagger, der einer Docsonomy Tags hinzufügt, kann sich die
Tag-Verteilung einer Docsonomy geändert haben. Jede Tag-Verteilung, die
beim Hinzukommen weiterer Tags durch einen Tagger entsteht, wird mit der
Referenzverteilung abgeglichen. Bei der Erstellung der Tag-Verteilungen ist
zu beachten, dass die Rangfolge der Tags durch die Verteilung zum Downloadzeitpunkt vorgegeben ist. Das bedeutet, ein Tag befindet sich zu jedem
Zeitpunkt auf demselben Rangplatz. Der Abgleich kann stattfinden indem die
Fläche3 zwischen den beiden Graphen ermittelt wird. Dabei gilt: je kleiner
die Fläche, desto ähnlicher sind sich die beiden Tag-Verteilungen (siehe Abbildung 1). Die Berechnung der Fläche erfolgt durch die Summierung der
3 Zum Zwecke der Anschaulichkeit wird hier von Fläche gesprochen.
128
Differenzen (als Betrag) der beiden relativen Tag-Häufigkeiten an jedem
Rangplatz. So ergibt sich für jeden Verteilungsvergleich ein einziger Wert,
den wir hier als „Differenz“ bezeichnen.
Die Differenz d(t1,t2) entspricht der Formel
d (t1, t 2 ) =
1 u
∑ | w t 1( x ) − w t 2 ( x ) |
2 x=1
Die Anzahl der Unique Tags zum Zeitpunkt t2 ist u. Es werden die Zeitpunkte t1 und t2 einer Tag-Verteilung betrachtet, wobei stets gilt t1 ist kleiner
als t2. t1 und t2 ergeben sich aus den Zeitpunkten an denen Nutzer Tags zu der
Docsonomy hinzufügen. Diese werden durchnummeriert und nehmen die
Werte von 1 bis u an. Um zu verhindern, dass Werte von d(t1,t2) > 1 entstehen, wird eine Division durch 2 vorgenommen. Der Wert der Differenz liegt
daher im Intervall zwischen 0 und 14. Die Flächen unter den Graphen einer
einzelnen Verteilung zu verschiedenen Zeitpunkten sind immer gleich groß
(da sich die Werte aller Rangplätze zu 1 aufsummieren). Verteilungen derselben Docsonomy sind vergleichbar, da es sich bei den Verteilungen um
relative Tag-Häufigkeiten handelt.
Abbildung 1: Die Tag-Verteilungen einer Docsonomy zu zwei verschiedenen Zeitpunkten t1 und t2.
4 Dies hat später auch den Vorteil, dass die Differenz für dasselbe Intervall wie der TIndex definiert ist.
129
Da wir mit dieser Methode immer die letzte bekannte Verteilung als Referenz nehmen, wird der Wert der Differenz zum letzten bekannten Zeitpunkt
zu 0. Daher kann die Differenz nicht als alleiniger Indikator für die Stabilität
von Tag-Verteilungen gelten und ein anderer Indikator muss für die Stabilitätsbestimmung eingeführt werden. Die Einführung eines Schwellenwertes
würde nur bedingt Abhilfe schaffen, da hier zunächst empirisch ermittelt
werden müsste, ab welchen Werten zwei Docsonomies noch ähnlich und
damit stabil bzw. nicht mehr ähnlich und damit nicht mehr stabil sind. Außerdem besteht bei dieser Methode das Problem, dass die Referenzverteilung
nur für einen Zeitpunkt gültig ist. Zukünftige Änderungen der Docsonomy
können nicht berücksichtigt werden. Nichtsdestotrotz haben wir mit dieser
Methode die grundlegenden Daten geschaffen, die die Evaluation des TIndex ermöglichen.
3
Berechnung des T-Indexes
Der Quotient aus der Anzahl der Unique Tags und der Anzahl der insgesamt
vergebenen Tags wird im Rahmen dieses Artikels als T-Index bezeichnet.
Der Buchstabe T steht für tariert (im Gleichgewicht). Der T-Index ist unabhängig von einer Referenzverteilung und kann zu jedem beliebigen Zeitpunkt
mit folgender Formel berechnet werden:
T (t ) =
Anzahl Unique Tags
Anzahl Gesamttags
Der Kehrwert von T entspricht der durchschnittlichen Nutzung jedes Unique Tags. T<0,2 bedeutet also, dass jeder Unique Tag im Durchschnitt öfter
als fünfmal benutzt wurde. Falls eine neue Sichtweise auf ein Dokument
entsteht (Trend), werden viele neue Tags hinzugefügt, die Stabilität lässt
nach und der Wert des T-Indexes steigt an. Die Analyse des Datensatzes hat
gezeigt, dass die Anzahl der Unique Tags nach 1.000 Taggern stark variiert
(siehe Tabelle 2). Diese Varianz wird mit dem T-Index ausgeglichen. Wenn
im Verlauf einer Docsonomy keine oder nur wenig neue Tags hinzugefügt
werden, ist die Ressource ausreichend gut durch Tagger beschrieben worden,
sodass keine neuen Tags zur Beschreibung genutzt werden müssen. Falls der
Wert des T-Indexes sehr klein ist, sind sehr viele Tags, die die Ressource
beschreiben, bereits mehrfach benutzt worden. Im Laufe der Zeit werden
130
immer weniger neue Tags zu einer Docsonomy hinzugefügt, dass bedeutet,
es kommen immer weniger neue Informationen hinzu. Dieses Verhältnis
spiegelt sich ebenfalls im T-Index wider.
Um zu zeigen, dass der T-Index als Indikator für Stabilität gelten kann,
wird die Beziehung zwischen der Differenz und dem T-Index bei jedem
Zeitpunkt t mittels des Pearson-Korrelationskoeffizienten geprüft.
4
Ergebnisse der Studie
Wenn der T-Index die Stabilität einer Docsonomy wiedergibt, so muss auch
der Wert des T-Indexes stabil werden. Um diese These zu überprüfen, werden für die 116 Docsonomies Grafiken erzeugt, die den Wert des T-Indexes
und den Wert der Differenz zur Referenzverteilung aufzeigen. Auf der xAchse ist die Anzahl der Tagger aufgetragen. Auf der y-Achse sind die Werte des T-Indexes bzw. die Werte der Differenz aufgetragen (siehe Abbildungen 2 und 3).
Es lässt sich erkennen, dass die Differenz zwischen einer Verteilung und
der Referenzverteilung und der Wert des T-Indexes in vielen Docsonomies
sehr ähnlich verlaufen. Der Graph des T-Indexes verläuft in den meisten
Docsonomies zum Ende nahezu waagerecht. Eine gruppenweise Analyse der
Graphen nach Anzahl der Tagger hat ergeben, dass der Graph des T-Indexes
in vielen Docsonomies aus der ersten Gruppe (100–200 Tagger) nicht waagerecht ist. In den folgenden Gruppen wird der Anteil von waagerecht verlaufenden Graphen höher. In der letzten Gruppe (1.000–2.000 Tagger) verlaufen
alle Graphen für den T-Index waagerecht (siehe Abbildungen 2 und 3). Das
bedeutet, dass der T-Index sich auf ein stabiles Niveau eingependelt hat. Das
heißt auch, dass bei einem stabilen T-Wert von 0,2 durchschnittlich jeder
fünfte Tag ein neuer Unique Tag ist, der von den Nutzern zur Docsonomy
hinzugefügt wird.
131
Abbildung 2: T-Index und Differenz aus der ersten Gruppe (100–200 Tagger; links)
und aus der zweiten Gruppe (200–500 Tagger; rechts).
Abbildung 3: T-Index und Differenz aus der dritten Gruppe (500–1.000 Tagger;
links) und aus der vierten Gruppe (1.000–2.000 Tagger; rechts).
Der Anteil von Unique Tags zur Gesamtzahl vergebener Tags ist nahezu
fest und ändert sich nur noch wenig (Abweichung <10%). Der durchschnittliche Wert für den Pearson-Korrelationskoeffizienten für T-Index und Differenz aller 116 Docsonomies ist 0,87. Der Median liegt bei 0,90. Der geringste Korrelationskoeffizient liegt bei 0,60. Der Korrelationskoeffizient
nach Pearson ergibt einen Wert zwischen +1 und -1; falls der Koeffizient
gleich null ist, so sind die zu untersuchenden Werte unkorreliert. Bei positiv
korrelierten Werten liegt der Wert des Koeffizienten zwischen 0 und +1 und
bei negativ korrelierten Werten zwischen 0 und -1.
Die Analyse zeigt somit, dass im ausgewählten Datensatz ein linearer Zusammenhang zwischen T-Index und Differenz besteht.
132
5
Fazit
Die Form von Docsonomies wird im Laufe der Zeit stabil, d.h. trotz hinzukommender Tags ändert sich ihre Erscheinung nicht wesentlich. Die Bestimmung des Zeitpunkts wann diese Stabilität eintritt wurde bislang wenig
diskutiert. Wir haben gezeigt, dass man die Stabilität einer Docsonomy mittels relativer Häufigkeit der Tags bestimmen sollte. Zudem wurde der TIndex als Stabilitätsindikator eingeführt, der unabhängig von einer Referenzverteilung berechnet werden kann. Die Studie hat gezeigt, dass alle Verläufe
des T-Indexes waagerecht werden. Daher kann davon ausgegangen werden,
dass der T-Index im Laufe einer Docsonomy immer stabil wird. Das bedeutet
auch, dass in allen untersuchten Docsonomies der Wert des T-Indexes nahezu stetig sinkt oder er einen nahezu konstanten Wert erreicht. Für eine Implementierung des T-Indexes als Stabilitätsindikator muss ein Schwellenwert
eingeführt werden, der sich entweder auf eine Anzahl von Taggern bezieht
(bspw. n Tagger, bei denen sich der Wert des T-Indexes nahezu nicht ändert)
oder der festgesetzt wird (bspw. n < 0,2).
Darüber hinaus konnte durch die Überprüfung mit dem Pearson-Korrelationskoeffizienten festgestellt werden, dass die Differenz zweier Docsonomies basierend auf der Summe von relativen Tag-Häufigkeiten stark positiv
mit dem T-Index in Beziehung steht. Daher lässt sich auch hier die Schlussfolgerung ziehen, dass der T-Index geeignet ist, die Stabilität von Docsonomies widerzuspiegeln.
Es kann durchaus sein, dass der Wert des T-Indexes im weiteren Verlauf
einer Docsonomy weiter sinken wird. Wodurch die Unterschiede des Wertes
des T-Indexes in stabilen Docsonomies entstehen, kann an dieser Stelle nur
vermutet werden. Es kann an dokumentspezifischen Eigenschaften liegen,
wie der Anzahl an Tags, die eine Ressource beschreiben, an der Art des Dokuments (z.B. Foto, Webseite oder Video), am Content des Dokuments (z.B.
unterschiedlich viele abgebildete Gegenstände im Foto) oder am unterschiedlichen Taggingverhalten der Nutzer. Weitere Forschungen sollten diese Fraugestellung bearbeiten. Dies könnte geschehen, indem verschiedene Arten von
Ressourcen getrennt analysiert werden.
133
Danksagung
Wir danken unseren Kollegen der HHU Düsseldorf für die Unterstützung bei
der Erstellung dieser Studie sowie der Förderung durch die Deutsche Forschungsgemeinschaft (Kennzeichen STO 764/4-1).
Dellschaft, C. & Staab, S. (2010). On Differences in the Tagging Behavior of Spammers and Regular Users. In Proceedings of the Web Science Conference, Raleigh, USA.
Golder, S. & Huberman, B. (2005). The Structure of Collaborative Tagging Systems.
Retrieved October, 25, 2010, from http://arxiv.org/abs/cs.dl/ 0508082.
Kipp, M. & Campbell, D. (2006). Patterns and Inconsistencies in Collaborative Tagging Systems: An Examination of Tagging Practices. In Proceedings of the 17th
Annual Meeting of the American Society for Information Science and Technology, Austin, Texas, USA.
Maarek, Y., Marnasse, N., Navon, Y. & Soroka, V. (2006). Tagging the Physical
World. In Proceedings of the Collaborative Web Tagging Workshop at WWW
2006, Edinburgh, Scotland.
Maass, W., Kowatsch, T. & Münster, T. (2007). Vocabulary Patterns in Free-for-all
Collaborative Indexing Systems. In Proceedings of International Workshop on
Emergent Semantics and Ontology Evolution, Busan, Korea (pp. 45–57).
Maier, R. & Thalmann, S. (2007). Kollaboratives Tagging zur inhaltlichen Beschreibung von Lern- und Wissensressourcen. In R. Tolksdorf & J. Freytag (Eds.), Proceedings of XML Tage, Berlin, Germany (pp. 75–86). Berlin: Freie Universität.
Peters, I. (2009). Folksonomies: Indexing and Retrieval in Web 2.0. Berlin: De
Gruyter, Saur.
Peters, I. & Stock, W. G. (2010). “Power Tags” in Information Retrieval. Library Hi
Tech, 28(1), 81–93.
Robu, V., Halpin, H. & Shepherd, H. (2009). Emergence of Consensus and Shared
Vocabularies in Collaborative Tagging Systems. ACM Transactions on the Web,
3(4), 1–34.
Surowiecki, J. (2004). The Wisdom of Crowds. London: Little, Brown Book Group.
Vander Wal, T. (2005). Explaining and Showing Broad and Narrow Folksonomies,
Retrieved October 20, 201.
http://www.vanderwal.net/random/entrysel.php?blog=1635
134
Session 4:
Infometrics & Representations
135
136
S. Hennicke, M. Olensky, V. de Boer, A. Isaac, J. Wielemaker
A data model for cross-domain
data representation
The “Europeana Data Model”
in the case of archival and museum data
Steffen Hennicke1, Marlies Olensky1, Viktor de Boer2,
Antoine Isaac2,3, Jan Wielemaker2
1
Humboldt-Universität zu Berlin
Institut für Bibliotheks- und Informationswissenschaft
Dorotheenstrasse 26, 10117 Berlin
[email protected], [email protected]
2
Vrije Universiteit Amsterdam – Department of Computer Science
De Boelelaan 1081a, 1081 HV Amsterdam
[email protected], [email protected], [email protected]
3
Europeana – Koninklijke Bibliotheek
Prins Willem-Alexanderhof 5, 2509 LK Den Haag
Abstract
This paper reports on ongoing work about heterogeneous and cross-domain
data conversion to a common data model in EuropeanaConnect. The “Europeana Data Model” (EDM) provides the means to accommodate data from
different domains while mostly retaining the original metadata notion. We
give an introduction to the EDM and demonstrate how important metadata
principles of two different metadata standards can be represented by EDM:
one from the library domain (“Bibliopolis”), and one from the archive domain based on the “Encoded Archival Description” (EAD) standard. We
conclude that the EDM offers a feasible approach to the issue of heterogeneous data interoperability in a digital library environment.
1
137
Introduction
The project Europeana was set up as part of the EU policy framework for the
information society and media (i2010 strategy) aiming at the establishment of
a single access point to the distributed European (digital) cultural heritage
covering all four different domains: libraries, museums, archives and audiovisual archives. In November 2008 a first prototype of Europeana was released providing basic search functionalities over about two million digital
object representations. Among other projects Europeana v1.0 and EuropeanaConnect work on completing Europeana’s technical components and architecture (cf. Concordia et al., 2010).
2
Cross-domain interoperability
Europeana will be a digital library, a digital museum, a digital archive and a
digital audio-visual archive. Its object representations come from heterogeneous sources. Data heterogeneity is a general problem, whenever digital
libraries need to interoperate. Thus, issues of cross-domain data representation and different structural and semantic problems need to be addressed.
Previous efforts on metadata harmonization include standardization and mappings/crosswalks (cf. Chan et al., 2006 and Zeng et al., 2006). Haslhofer et
al. (2010) distinguish between three categories of interoperability approaches: agreement on a certain model, agreement on a certain metamodel, and
model reconciliation.
The current metadata schema in use, the Europeana Semantic Elements
(ESE) has solved the interoperability problem by agreeing on a common
model and standardizing as well as converting the object metadata into flat,
Dublin Core based representations. Thus, the original, richer metadata from
the provider is lost during the conversion process. However, in the light of
data enrichment, contextualization and semantic search functionalities it is
important to use a data model that is able to reflect the richness of metadata
from the original provider.
The Europeana Data Model (EDM) was developed as a co-effort of Europeana v1.0 and EuropeanaConnect (Isaac et al., 2010). It is an approach
138
which combines two categories of interoperability techniques: the agreement
on a common meta-data model and model reconciliation, i.e. mappings
(Haslhofer et al., 2010).
In the following sections we will explain Europeana’s approach to overcome cross-domain data heterogeneity in order to provide useful access to
Europe’s digital cultural heritage. To illustrate that this data model truly
works across domains we will expand on two use cases taken from EuropeanaConnect’s ongoing work on data conversion. We have converted the
Bibliopolis’1 metadata schema and the Encoded Archival Description2 (EAD)
standard into the EDM as part of proofing exercises. Bibliopolis is a database
about the national history of the printed book in the Netherlands. The Encoded Archival Description (EAD) standard is maintained by the Library of
Congress and is an established XML standard in the archival area.
3
The Europeana Data Model
To solve the problem of cross-domain data interoperability the EDM builds
on the reuse of existing standards from the Semantic Web environment but
does not specialize in any community standard (Doerr et al., 2010). The
EDM acts as a top-level ontology consisting of elements from standards like
OAI-ORE3, RDF(S)4, DC5 and SKOS6 and allows for specializations of these
elements. Thus, richer metadata can be expressed through specializations of
classes and properties. Some elements were defined in the Europeana namespace, yet contain referrals to other metadata standards. This allows for correct mappings and cross-domain interoperability.
1 “Bibliopolis”: http://www.bibliopolis.nl/ [7.10.2010].
2 “Encoded Archival Description”: http://www.loc.gov/ead/ [7.10.2010].
3 “Open Archives Initiative Protocol – Object Exchange and Reuse”: http://www.openarchives.org/ore/ [7.10.2010].
4 “Resource Description Framework (Schema)”: http://www.w3.org/RDF/ [7.10.2010].
5 “Dublin Core”: http://dublincore.org/ [7.10.2010].
6 “Simplified Knowledge Organization System”: http://www.w3.org/2004/02/skos/
[7.10.2010].
139
RDF(S) is used as an overall meta-model to represent the data. The ORE
approach is used to structure the different information snippets belonging to
an object and its representation. It follows the concept of aggregations
(ore:Aggregation) and allows to distinguish between digital representations which are accessible on the Web and thus modeled as ens:WebResource and the provided object, e.g., represented as a ens:PhysicalThing. Furthermore, different, possibly conflicting views from more than
one provider on the same object can be handled in EDM by using the proxy
mechanism (ore:Proxy). The DCMI Metadata Terms describe the objects.
SKOS is used to model controlled vocabularies which annotate the digital
objects (Isaac et al., 2010).
The EDM will replace the current metadata schema Europeana Semantic
Elements (ESE) (Europeana v1.0, 2010) in the next release of Europeana
(“Danube” release, scheduled for 2011). The ESE will then become an application profile of the EDM, which will thus be backwards compatible.
4
Bibliopolis
Bibliopolis is the electronic national history of the printed book in the Netherlands curated by the Dutch National Library. The collection consists of
1,645 images related to book-printing. These images are described by metadata records and are accompanied by a thesaurus containing 1,033 terms used
as keywords for describing and indexing the images. Both thesaurus and
metadata are bilingual (English and Dutch).
Figure 1 shows an example of a Bibliopolis object image and its metadata
record. The Bibliopolis metadata is presented in an XML format and has a
relatively simple ‘flat’ structure. Each object is represented by one metadata
record inm:Record.7 Individual metadata elements are denoted by single
XML tags. The values of the metadata fields are free text terms, which can be
present in the Bibliopolis thesaurus.
The Bibliopolis example represents both the simple and the common case
as many cultural heritage institutions have similarly structured metadata and
7 “inm” is the original namespace of Bibliopolis. “bib” is the new namespace for the
Bibliopolis data created during the conversion process.
140
thesauri. This example shows how such ‘flat’ metadata is represented in
EDM and demonstrates the use of some of the central features of the model.
Figure 1: Example Bibliopolis metadata record and the described image
Each inm:Record in the original metadata becomes a PhysicalThingProxy-Aggregation cluster in the EDM representation (cf. Figure 2). Each of
these three EDM resources receives a URI, constructed by concatenating the
Bibliopolis namespace prefix, the resource type (proxy-, etc.) and a guaranteed unique identifier, in this case the number (inm:NUMMER). By having a
uniform URI creation scheme, objects referring to other objects can be easily
represented in RDF by using URIs as objects. EDM specifies the relations
that hold between these resources (ore:proxyIn, ore:aggregates, etc.)
and these are added to the data.
In EDM, the metadata describing the cultural heritage resource itself (e.g.,
painting, book…) is attached to the ore:Proxy using DC Terms properties.
The Bibliopolis metadata fields can be represented in EDM in two ways: In
the case where an original field exactly matches a DC Terms property (for
example inm:TITEL and dcterms:title), the DC Terms property is
used directly. In the case where the match is not exact, a Bibliopolis property
is created in RDF which is specified as being a sub-property of the appropriate DC Terms property (for example inm:TECHNIEK is a rdfs:subPro-
141
pertyOf of dcterms:medium). Interoperability at the EDM level is ensured through RDFS semantics by using this sub-property method.
Some Bibliopolis metadata fields are actually the identical properties with
different language values (for example inm:TITEL and inm:TITEL_EN).
In EDM/RDF these are represented using the same property and a language
tagged-RDF literal as value. Figure 2 shows an example.
Figure 2:
This RDF graph shows part of the converted metadata of a Bibliopolis object.
In EDM associated web pages, thumbnail images and other web resources
are attached to the aggregation. As Figure 2 shows, in the case of Bibliopolis,
the landing page (the main access page for an object) is represented by
bib:landingPage which is a sub-property of ens:landingPage and
has the aggregation as subject. In EDM, the ens:PhysicalThing resource
of the triangle does not have any properties itself and is only used to relate
objects as described by multiple aggregators and represented then through
multiple proxies. Also, the relation to a thesaurus (skos:Concept) is depicted.
5
Encoded Archival Description (EAD)
While Bibliopolis exemplifies a simple and very common case of object centric data representation, EAD represents finding aids which describe one or
142
more archival collections which themselves consist of many files or items
organized according to provenance in sequential order and in a contextualizing hierarchy. In other, non-archival terms we can say that an EAD file is one
huge record containing many single objects which are contextualized by a
hierarchical and sequential order.
Several different EAD dialects exist each of which are subsets of the full
EAD model. We use APEnet-EAD which is currently developed by the APEnet project8 within the context of Europeana. However, the core notion and
structure of an EAD representation remains the same.
The eadheader element contains bibliographic and descriptive information to identify a finding aid document. Its sibling element archdesc holds
information about the archival collection as a whole and – within subsequent
descendant c elements – information about classes, series, subseries, files,
and items represented in a hierarchical and sequential order. Files or items
generally constitute the smallest unit within the archival description and potentially hold digital representations of the possibly many single items (e.g.,
paper pages) it contains. All other intermediate levels normally structure the
context for a file. The described structure is intrinsic to archival documentation practice and theory. The single file loses most of its information
value if it is not properly represented within its context of provenance.
The Bibliopolis example demonstrates central and standard features of the
EDM and the conversion process like the mechanism of sub-properties for
descriptive metadata or the creation and assignment of URIs to resources.
Here we will focus on advanced features for the representation of hierarchical and sequential order in EDM.
Figure 3 shows a simplified snippet from an EAD-XML representation of
a finding aid of the Nationaal Archief in Den Haag.9 The archdesc element
contains several descriptive metadata fields which hold information about the
title of the whole archival fond (unittitle), the time span the material
covers (unitdate), a call number (unitid), the name of the repository
where the material is kept (repository), and a summary of the contents
8 APEnet project homepage: http://www.apenet.eu/ [18.10.2010].
9 The original presentation of this archival fond can be found at http://tinyurl.com/EADNatArch [6.11.2010], the equivalent representation in ESE is at http://tinyurl.com/
EAD-EurSemEle [6.11.2010], and a first technical demo of the EDM representation is
available at http://tinyurl.com/EAD-EurDataMod [6.11.2010].
143
(scopecontent). Further down the hierarchy we see several c levels which
are of different types: a series which contains a file which holds two items.
All these levels have a call number and a title which are constitutive parts of
the contextual description. The two items also link to digital representations
(dao), e.g. digital images, of their contents.
Figure 3: Simplified snippet from an EAD-XML representation of a finding aid of
the Nationaal Archief in Den Haag.
Figure 4 pictures a simplified graph representation of the example in figure 3 which shows how hierarchies and sequences are modeled in EDM.
Archdesc and each c level are represented by an aggregation with a proxy
for the descriptive metadata.10 The URI of a resource indicates the type of
each level.
10 All ens:PhysicalThing are omitted, ens:WebResource are displayed only for
one of the items and the ens:Proxy only hold the title of each level.
144
Figure 4: Simplified EDM representation of an EAD structure.
During conversion the EAD hierarchy has been translated into a double
hierarchy: The ore:aggregates properties between the aggregations mirror the XML-hierarchy of the documentation in the EAD file. At the same
time these relations represent, on a more abstract level, the different level of
genericity of digital object “packages” submitted via the EAD file to Europeana. The dct:hasPart properties between the proxies conceptually reflect the documented physical hierarchy of the archival material as it exists in
the actual archive. This line of hierarchy says that the archival fond (archdesc) incorporates a series which has a file which holds two item as parts.
145
This way the original hierarchical context of description is retained and every
part of the complex object EAD file is represented distinctively.
In the XML structure the two item elements are in an intentional and
meaningful sequence. To express that the item with title “Pagina 2” is second in sequence with regard to the item with title “Pagina 1” we assert an
ens:isNextInSequence statement.
This small example shows how EDM models complex hierarchical objects. The archdesc level and each c level from the EAD file have been
converted to aggregations constituting objects in their own right which have
been linked together with inter-object properties. In the same way other interobject relations can be modeled, for instance derivative relations between
different translations of a book with the property ens:isDerivativeOf.
From a data modeling point of view no structural issues arose. EDM easily represents complex, hierarchical, and sequential objects. The EDM leaves
room for data providers to consider different modeling options: For example,
with regard to search and retrieval, it is possible to include the eadheader
as a separate aggregation which describes a printed finding aid as a separate
object. It is also possible to consider only levels which hold digital representations worth finding and therefore dismiss all other levels from the EDM
representation. In our example above each c level in an EAD file is considered as a retrievable object in its own right.
6
Conclusion
Four community workshops11 confirmed the feasibility of the EDM for the
different domains represented in Europeana. It is important to stress that
EDM does not make assumptions about the domain models. The two examples discussed in this paper focus on the difference of flat and hierarchical
structures of the metadata, but EDM also accommodates, for example, eventcentric models. It is designed to be applied to different metadata structures
and our examples provide the proof of concept for two of them.
11 Held for archives and museums in Berlin, libraries in Amsterdam, and audiovisual
archives in Pisa during March and April of 2010.
146
Currently prototyping continues and additional data sets are converted to
EDM. These data sets will be integrated into a demonstrator called ThoughtLab12 which shows the use of the cross-domain data representation in search
and retrieval functionalities envisioned for Europeana.
This work is part of the current development of the EDM and the restructuring of the Europeana information space, which enables new functionalities
like semantic search (Gradmann, 2010). It is important to note that the issue
of data modeling is a separate step from the issue of data visualization: not all
complex data needs to be rendered in end-user interfaces.
The EDM is an approach to interoperability of heterogeneous data in a
digital library environment. We showed how EDM accommodates metadata
representations from two different domains while building on existing standards and leaving room for specializations. The EDM is aggregation-oriented
and abstracts from the domains by remaining minimal in its modeling approach. It demonstrates how a domain-independent ontology defined by an
RDF model is a feasible approach to integrate different metadata perspectives
by providing a layer of generic properties and classes which at the same time
can be specialized. Thus, it is possible to accommodate flat metadata representations like in the case of Bibliopolis but at the same time very complex
structures like in the case of APEnet-EAD.
References
Chan, L. M., Marcia L. Z. (2006). Metadata Interoperability and Standardization – A
Study of Methodology. Part I: Achieving Interoperability at the Schema Level.
D-Lib Magazine 12 (6) June 2006.
http://www.dlib.org/dlib/june06/chan/06chan.html (Retrieved January 12, 2011)
Concordia, C., Gradmann, S., Siebinga, S. (2010). Not just another portal, not just
another digital library: A portrait of Europeana as an application program interface. In: International Federation of Library Associations and Institutions 36 (1),
pp. 61–69. http://dx.doi.org/10.1177/0340035209360764
12 “Semantic Searching Prototype, ThoughtLab”: http://www.europeana.eu/portal/
thought-lab.html [18.10.2010].
147
Doerr, M., Gradmann, S., Hennicke, S. et al. (2010). The Europeana Data Model
(EDM). Paper presented at the World Library and Information Congress: 76th
IFLA General Conference and Assembly 10–15 August 2010, Gothenburg, Sweden.
http://www.ifla.org/files/hq/papers/ifla76/149-doerr-en.pdf (Retrieved October 29,
2010)
Europeana v1.0 (2010). Europeana Semantic Elements Specification, Version 3.3.
http://www.version1.europeana.eu/web/guest/technical-requirements (Retrieved
October 18, 2010)
Gradmann, S. (2010). Knowledge = Information in Context. On the Importance of
Semantic Contextualisation in Europeana. Europeana White Paper, 1.
http://version1.europeana.eu/web/europeana-project/whitepapers (Retrieved October
18, 2010)
Haslhofer, B., Klas, W. (2010). A survey of techniques for achieving metadata interoperability. In: ACM Computing Surveys 42 (2), S. 1–37.
http://portal.acm.org/citation.cfm?doid=1667062.1667064 (Retrieved January 4, 2011)
Isaac, A. (ed.) (2010). Europeana Data Model Primer.
http://version1.europeana.eu/web/europeana-project/technicaldocuments/ (Retrieved
October 18, 2010)
Zeng, M. L., Chan, L. M. (2006). Metadata Interoperability and Standardization – A
Study of Methodology. Part II: Achieving Interoperability at the Schema Level.
D-Lib Magazine 12(6) June 2006.
http://www.dlib.org/dlib/june06/zeng/06zeng.html (Retrieved January 12, 2011)
148
Stefanie Haustein
Wissenschaftliche Zeitschriften
im Web 2.0
Die Analyse von Social Bookmarks
zur Evaluation wissenschaftlicher Journale
Stefanie Haustein1,2
1
Forschungszentrum Jülich, Zentralbibliothek
52425 Jülich
2
Heinrich-Heine-Universität Düsseldorf
Institut für Sprache und Information – Abt. Informationswissenschaft
Universitätsstr. 1, 40225 Düsseldorf
[email protected]
Zusammenfassung
Die Evaluation wissenschaftlicher Zeitschriften wird größtenteils auf den
Impact Factor reduziert, welcher die durchschnittliche Anzahl der erhaltenen
Zitate pro Artikel misst. Im Gegensatz zu diesem Zitationsindikator können
Nutzungsstatistiken den Einfluss eines Journals zeitnah und auf die gesamte
Leserschaft (auch die nicht-zitierende) abbilden. Mit dem Aufkommen des
E-Publishing ist das Erheben dieser Statistiken auf Grundlage von Download- und Klickraten technisch möglich geworden. Jedoch werden weltweite
Nutzungsdaten nicht flächendeckend zur Verfügung gestellt und lokale Daten
sind oft inkonsistent und nicht vergleichbar. Dieser Beitrag beschreibt die alternative Erhebung von globalen Zeitschriftennutzungsdaten auf der Grundlage von Social Bookmarks.
Abstract
For the most part, the evaluation of scientific journals is limited to the Impact
Factor, which normalizes the number of received citations by the number of
publications. Compared to this citation indicator, usage statistics can measure
the impact of a journal in realtime and account for the whole readership – not
149
just the citing authors. With the rise of e-publishing, these statistics can be
computed on the basis of download and click rates. However, global usage
statistics are not made available and local data often lacks consistency and
comparability. This contribution describes an alternative way to compute
global journal usage on the basis of social bookmarks.
Einleitung
Bei der Bewertung wissenschaftlicher Zeitschriften kommt mit dem Impact
Factor ein quantitativer Indikator zum Einsatz, der den Einfluss eines Journals an der durchschnittlichen Anzahl an Zitaten pro Publikation misst. Die
Probleme im Umgang mit diesem Kennwert sind dabei genauso zahlreich
wie bekannt (Seglen 1997). Mit der Umstellung von Print auf Online wird
der Einfluss einer Zeitschrift auf die Leserschaft durch die Erhebung von
Download- und Klickraten direkt und unmittelbar messbar (Bollen et al.
2005).
Nutzungsstatistiken geben Auskunft über die Anzahl der heruntergeladenen Publikationen und erfassen so die Diffusion der Zeitschrifteninhalte innerhalb der gesamten wissenschaftlichen Community. Im Gegensatz zur
Zitationsanalyse wird so auch der Einfluss auf reine Leser analysiert, den
Teil der Leserschaft, der selbst nicht publiziert und damit die Quelle der Information nicht mit einem Zitat kennzeichnet (Roick 2006). Ein weiterer
Vorteil besteht in der Unmittelbarkeit dieses Indikators: die Information ist
über die Logfiles kurze Zeit nach dem Download verfügbar, wohingegen das
Zitat erst nach einem oft langwierigen Publikationsprozess messbar wird
(Bollen et al 2005). Obwohl sich im Hinblick auf die Vereinheitlichung von
Nutzungsstatistiken in den letzten Jahren viel durch die Einführung von
Standards wie COUNTER getan hat, bleibt die Anwendung in der Zeitschriftenevaluierung problematisch (Baker & Read 2008).
Zwar wird im COUNTER Code of Practice die zu zählende Nutzung genau definiert, damit gelieferte Zahlen vergleichbar sind, jedoch wird dem
Verlag freigestellt, ob er die Statistiken in Version 1a oder 5 des Journal Reports zur Verfügung stellt (COUNTER 2008). Journal Report 1a umfasst
dabei die „Number of Successful Full-Text Article Requests from an Archive
by Month and Journal“ (COUNTER 2008). Dort wird aufgeschlüsselt, in
welchem Monat es wie viele Volltextzugriffe pro Zeitschrift gab, jedoch
150
Stefanie Haustein
bleibt unklar auf welche Artikel, Ausgaben oder Publikationsjahre sich die
Nutzung bezieht (Shepherd 2005). Eine Normalisierung und damit der Vergleich von verschiedenen Journalen sind so nicht möglich. Leider lassen sich
in der Praxis viele Institutionen und Bibliotheken nicht davon abhalten auf
Grundlage der absoluten Zahlen Vergleichsstatistiken zur Zeitschriftennutzung zu erstellen. Obwohl die Verlage detaillierte Daten über alle Zugriffe
auf ihre elektronischen Inhalte sammeln und für die Nutzungsanalyse aufbereiten, werden die Ergebnisse unter Verschluss gehalten. Nutzungsdaten werden im Rahmen der geforderten Standards ausschließlich den abonnierenden
Institutionen auf lokaler Ebene zur Verfügung gestellt. Statistiken über die
weltweite Nutzung von Zeitschriften werden nicht veröffentlicht (Gorraiz &
Gumpenberger 2010).
Social Bookmarks als Datengrundlage
für alternative Nutzungsstatistiken
Aufgrund der problematischen Datenlage werden alternative Wege benötigt,
um den Einfluss wissenschaftlicher Periodika auf die internationale wissenschaftliche Community zu untersuchen. Daher wird vorgeschlagen, die Lesezeichen bei Social Bookmarking Services zu analysieren. Dabei wird in Analogie zu Download- und Klickstatistiken davon ausgegangen, dass das
Abspeichern eines Artikels mit der Nutzung der Zeitschrift, in welcher der
Artikel erschienen ist, gleichzusetzen ist (Haustein et al. 2010). Auf dieser
Annahme beruhen weitere Projekte wie ReaderMeter1 und Altmetrics2. Konzeptionelle Grundlagen zur Anwendung von Web 2.0-generierten Daten in
der Szientometrie liefern Taraborelli (2008) und Priem und Hemminger
(2010).
Nach dem Vorbild von Delicious3 sind seit 2004 mehrere Bookmarking
Dienste entstanden, die sich den speziellen Anforderungen von akademischen Nutzern angepasst haben. Nutzer von Social Bookmarking Plattformen
1 http://readermeter.org.
2 http://altmetrics.org/manifesto/
3 http://www.delicious.com.
151
können online wissenschaftliche Literatur abspeichern, verschlagworten und
mit anderen Usern teilen (Priem & Hemminger 2010, Reher & Haustein
2010, Hammond et al. 2005). CiteULike4 war der erste Dienst, der sich auf
akademische Zwecke spezialisiert hat, jedoch gibt es mit BibSonomy5, Connotea6 und 2collab7 Plattformen, die denselben Service anbieten. Da 2collab
seit nunmehr einem Jahr keine neuen Nutzer zulässt, beschränkt sich die
Datenerhebung auf die drei übrigen Dienste. Plattformen wie Mendeley8 und
Zotero9 bieten ihren Usern mittlerweile ebenfalls die Möglichkeit, Bibliografien online zu teilen. Da diese Dienste jedoch primär als Social Collection
Management als als Social Bookmarking Plattformen zum Einsatz kommen
und ihre Inhalte erst langsam für das Web 2.0 „auftauen“ (Priem & Hemminger 2010), werden sie in dieser Studie nicht berücksichtigt. Durch das enorme Wachstum der Nutzerzahlen wird sich aber besonders Mendeley in Zukunft auch als Quelle für alternative Nutzungsstatistiken etablieren können
(Priem & Hemminger 2010).
Ablauf der Studie
Um die Nutzung bei Social Bookmarking Diensten vergleichbar zu machen,
dienen 45 Zeitschriften aus dem Bereich der Festkörperphysik als Datengrundlage. Um die Nutzung dieser Journale detailliert analysieren zu können,
wurden für die 168.109 Artikel, die in diesen Zeitschriften zwischen 2004
und 2008 veröffentlicht wurden, die bibliografischen Datensätze aus dem
Web of Science heruntergeladen. Da sich die Bookmarking-Einträge als lücken- und fehlerhaft erwiesen, wurden verschiedene Suchstrategien definiert,
um möglichst alle Bookmarks zu finden. Über die ZDB10 wurden alle bekannten Formulierungen und Schreibweisen für Zeitschriftentitel und Abkürzungen und ISSNs ermittelt. Zusätzlich wurde über die DOIs auf Ebene der
einzelnen Artikel gesucht. Für 95% aller Dokumente waren die DOIs bereits
44 http://citeulike.org.
45 http://www.bibsonomy.org.
46 http://connotea.org.
47 http://www.2collab.com.
48 http://www.mendeley.com.
49 http://www.zotero.org.
10 http://www.zeitschriftendatenbank.de.
152
Stefanie Haustein
über die Web of Science-Daten verfügbar. Da die Einträge allerdings Fehler
enthielten, wurden alle DOIs über http://www.dx.doi.org überprüft. Fehlende
und fehlerhafte DOIs wurden mithilfe der bibliografischen Angaben der Artikel über CrossRef11 ermittelt, sodass schließlich 98,6% der Dokumente über
die DOIs gesucht werden konnten (Haustein et al. 2010).
Download der Bookmarks
Die Erhebung der Bookmarking-Daten musste an die unterschiedlichen
Such- und Schnittstellenfunktionalitäten der drei Dienste angepasst werden.
Bei bibsonomy.org konnte die API für das Retrieval der Daten im XMLFormat genutzt werden. Da über die API allerdings keine Feldsuche zur Verfügung stand, mussten Titel, Titelabkürzungen, ISSNs und DOIs zunächst
über die Volltextsuche erhoben werden. Anschließend wurde die Treffermenge auf die Einträge reduziert, bei denen der Suchterm im gesuchten Feld
vorkam und welche auf Publikationen aus dem gesuchten Fünfjahreszeitraum
verwiesen (Haustein et al. 2010). CiteULike bietet zwar keine Schnittstelle,
um die gesuchten Bookmarks direkt herunterladen zu können, dafür aber
ausführliche Suchfunktionen an, sodass das direkte Retrieval der gesuchten
Einträge für jedes Journal möglich war (Reher & Haustein 2010). Die Treffermengen wurden von der Website geparst, im RIS-Format gespeichert und
in einer Datenbank abgelegt. Connotea bietet weder eine umfangreiche Feldnoch eine Volltextsuche an. Zwar ist eine API verfügbar, über die Treffermengen heruntergeladen werden können, allerdings kann hier nur nach Tags,
Nutzern oder Erstellungsdatum des Bookmarks gesucht werden (Reher &
Haustein 2010). Die einzige Möglichkeit, die Bookmarks zu den gesuchten
Artikeln ermitteln zu können, war daher, alle Datenbankeinträge nach ihren
Erstellungsdaten herunterzuladen und in einer durchsuchbaren Feldstruktur
abzulegen.
Erstellen der Nutzungsstatistiken
Wegen der fehler- und lückenhaften Metadaten der Bookmarks ging der Web
2.0-Effekt, verschiedene Nutzer der Plattformen über gemeinsame Ressourcen miteinander zu verbinden, oft verloren. Wenn bibliografische Angaben
mehrerer Nutzer zu einer Publikation Fehler enthielten oder unvollständig
waren, wurde diese nicht als gemeinsame Ressource erkannt. Da die Nutzung
aus Normalisierungsgründen jedoch auch auf Artikelebene untersucht wer11 http://www.crossref.org.
153
den sollte, wurden die Bookmarks über die DOIs mit den Web of ScienceEinträgen verbunden, um eine korrekte Zuordnung garantieren zu können.
Fehlende DOI-Informationen wurden mithilfe von CrossRef und manueller
Recherche ergänzt.
q
BibSonomy
145 users
802 articles
2054 users
CiteULike
Connotea
8082 articles
313 users
1995 articles
Abbildung 1 Anzahl der Nutzer und gespeicherten Artikel von 45 Zeitschriften bei
den verschiedenen Plattformen BibSonomy, CiteULike und Connotea.
Die meisten Bookmarks zu den 168.109 Artikeln wurden bei CiteULike
ermittelt: 10.640 Einträge konnten 8.082 Publikationen aus allen 45 Zeitschriften zugeordnet werden. Bei Connotea wurden 1.995 Artikel 2.042mal
und bei BibSonomy 802 Dokumente 940mal hinterlegt (Abb. 1). Auch bei
der Anzahl eindeutiger Nutzer liegt CiteULike vorne: Dort speicherten 2.054
User die Artikel der gesuchten Zeitschriften im Untersuchungszeitraum. Bei
Connotea waren es 313 und BibSonomy 145 Nutzer (Abb. 1). Die Annahme,
dass User sich generell für eine der drei Plattformen entscheiden, wurde
durch einen Dublettencheck12 der Nutzernamen zwischen den verschiedenen
Services bestätigt. Von 2.441 unterschiedlichen Nutzernamen erschienen
lediglich 71 in zwei Services. Die Bookmarking-Daten der drei Plattformen
wurden daher kombiniert und dienen als Datenbasis für die Erhebung der
Nutzungsstatistiken. Insgesamt wurden 13.608 Bookmarks analysiert (Haustein et al. 2010).
12 An dieser Stelle sei angemerkt, dass es sich bei dem Dublettencheck um den Abgleich
von Nutzernamen und nicht der dahinterstehenden Personen handelt. Theoretisch kann
sich ein Nutzer bei den verschiedenen Diensten (oder sogar beim selben Dienst) mit
mehreren Namen angemeldet haben, genauso wie sich hinter demselben Alias auch
mehrere Personen verbergen können.
154
Stefanie Haustein
Ergebnisse
Auf Grundlage der Bookmarking-Daten werden vier Indikatoren generiert,
die die globale Nutzung der Zeitschriften aus verschiedenen Perspektiven
abbilden sollen: Nutzungsrate (Usage Ratio), Nutzungsbreite (Usage Diffusion), und die Nutzungsintensität auf Artikel- (Article Usage Intensity) und
auf Zeitschriftenebene (Journal Usage Intensity). Zusätzlich zu den quantitativen Kennwerten können die Tags, mit denen die Nutzer die Dokumente
verschlagwortet haben, ausgewertet werden, um die Sicht der Leser auf die
Zeitschrifteninhalte abbilden zu können (Haustein et al. 2010).
Mit 2.214 Artikeln war Applied Physics A die Zeitschriften mit der
höchsten Anzahl genutzter Publikationen, gefolgt von Physical Review E
(1.822) und Physical Review A (1.259). Da die Anzahl der Bookmarks abhängig vom Output der Zeitschrift ist und dieser im Fall der 45 Zeitschriften
im Untersuchungszeitraum von 173 bis 25.983 (Tab. 1; s. Anhang) variiert,
bedarf es einer Normalisierung. Anders als geläufige Download-Statistiken
(COUNTER Journal Report 1a) ermöglichen die Bookmarking-Daten adäquate Normalisierungsmethoden.
Nutzungsrate
Die Nutzungsrate (Usage Ratio) beschreibt den Anteil der Publikationen
einer Zeitschrift mit mindestens einem Nutzer gegenüber dem Gesamtoutput.
Die Anzahl der genutzten Artikel wird dabei durch die Anzahl aller Veröffentlichungen der Zeitschrift im Untersuchungszeitraum dividiert. Mit 0,63
hat Reviews of Modern Physics die höchste Nutzungsrate (Tab. 1). 63% aller
Artikel, die Reviews of Modern Physics zwischen 2004 und 2008 veröffentlicht hat, wurden mindestens einmal bei CiteULike, Connotea oder BibSonomy abgespeichert. Der Mittelwert für alle Zeitschriften beträgt 0,06 und
der Median ist 0,07.
Nutzungsbreite
Die Nutzungsbreite (Usage Diffusion) bildet die Anzahl der eindeutigen Nutzer einer Zeitschrift und damit die Verbreitung einer Zeitschrift innerhalb der
wissenschaftlichen Community ab. Da die Anzahl der Leser unabhängig von
der Anzahl der veröffentlichten Dokumente ist, wird hier die absolute Größe
verwendet. Durchschnittlich nutzten 115 eindeutige User eine Zeitschrift.
Der Median beträgt 52 (Tab. 1). Die Power-Law-Verteilung von Nutzern auf
155
Zeitschriften reichte von drei (Journal of Rheology) bis 820 (Physical Review E).
Nutzungsintensität auf Artikelebene
Article Usage Intensity untersucht die Intensiät der Nutzung der Artikel,
indem pro Zeitschrift die Anzahl der Bookmarks durch die Anzahl der unterschiedlichen gespeicherten Artikel dividiert wird. Die mittlere Nutzungsintensität auf Artikelebene für alle 45 Zeitschriften beträgt 1,32 und der
Median 1,17. Da 84% aller Dokumente nur einen Nutzer hatten, war die Nutzungsintensität durchschnittlich also sehr gering. Mit durchschnittlich 3,89
Nutzern (d.h. Bookmarks) pro Publikation war Reviews of Modern Physics
die Zeitschrift mit den am intensivsten genutzten Artikeln. Der Artikel mit
den meisten (67) Nutzern wurde in Physics Reports veröffentlicht (Tab. 1).
Nutzungsintensität auf Zeitschriftenebene
Im Gegensatz zur Article Usage Intensity untersucht Journal Usage Intensity
nicht, ob Dokumente einer Zeitschrift von vielen verschiedenen Lesern genutzt werden, sondern überprüft, wie intensiv ein einzelner User die Zeitschrift nutzt. Dabei wird pro Zeitschrift die Anzahl der Bookmarks durch die
Anzahl der verschiedenen Nutzer geteilt. Dieser Wert untersucht damit, wie
treu ein Leser die Inhalte einer Zeitschrift verfolgt. Durchschnittlich lag der
Wert bei 1,89 (Median: 1,63) Artikeln pro User. Am intensivsten wurde Physical Review A gelesen: 278 eindeutige User nutzten durchschnittlich 5,67
Dokumente (Tab. 1).
Auswertung der Tags
Zusätzlich zur Auswertung der Anzahl der Bookmarks und Nutzer können
die Tags, mit denen die User die Artikel verschlagwortet haben, ausgewertet
werden. So kann die Sicht der Leser auf die Inhalte der Zeitschriften analysiert werden. Jüngste Untersuchungen haben gezeigt, dass diese sich weitgehend von anderen Indexierungsmethoden unterscheiden. 88% aller Bookmarks enthielten Tags. Dies zeigt, dass die Leser diese Funktion nutzen, um
die für sie relevanten Inhalte der Publikationen zu beschreiben. Nach der
Bereinigung der Tags (Vereinheitlichung von Sonderzeichen, Singular- und
Pluralformen, englischer und amerikanischer Schreibweisen etc.) wurden
insgesamt 8.208 verschiedene Tags 38.241mal vergeben. Die Tag-Frequenz
folgt einer Power-Law-Verteilung: Der Begriff mit der höchsten Frequenz
156
Stefanie Haustein
(„network“) wurde in der gesamten Datenmenge 687mal vergeben, der
zweithöchste („quantum“) 344mal. 4.494 Wörter wurden hingegen nur einmal genannt.
Werden die Tags auf Ebene der Zeitschriften kumuliert, können verschiedene thematische Schwerpunkte der Journale kenntlich gemacht werden.
Hierzu eignen sich vor allem sogenannte Tag-Clouds, die die Wörter nach
der Anzahl der Nennungen in unterschiedlichen Größen darstellen. Es können aber nicht nur unterschiedliche Themenbereiche zwischen verschiedenen
Zeitschriften dargestellt werden. Wenn die Tags den Publikationsjahren der
jeweiligen Artikel zugeordnet werden, lassen sich thematische Trends erkennen. Abbildung 2 zeigt die Tag-Cloud zu den Veröffentlichungen des Journal
of Physics – Condensed Matter aus dem Jahr 2008.
Abbildung 2 Tag-Cloud für Artikel, die 2008 im Journal of Physics – Condensed
Matter publiziert wurden.
Fazit
Analog zu auf Download- und Klickraten basierenden Statistiken wurde gezeigt, dass das Abspeichern wissenschaftlicher Artikel bei spezialisierten
157
Plattformen wie CiteULike, Connotea oder BibSonomy Nutzung signalisiert.
Auf Grundlage von 13,608 Bookmarks und 10,280 Artikeln wurde mithilfe
vier verschiedener Indikatoren beispielhaft die globale Nutzung von 45 physikalischen Zeitschriften analysiert. Die detaillierte Datenstruktur ermöglichte im Gegensatz zu herkömmlichen Downloadstatistiken den normalisierten
Vergleich wissenschaftlicher Journale. Die bislang geringe Nutzung verhindert bislang zwar generelle Aussagen zur Zeitschriftennutzung, jedoch zeigt
der Trend einen starken Nutzeranstieg bei den Social Bookmarking Plattformen, sodass die vorgestellten Indikatoren in Zukunft als alternative Nutzungskennwerte angewendet werden können (Priem & Hemminger 2010).
Gegenüber der Zitationsanalyse messen sie den Einfluss eines Journals auf
die gesamte Leserschaft in Echtzeit und sind gegenüber Downloadstatistiken
frei verfügbar. Tags, mit denen die Nutzer die gespeicherten Artikel verschlagworten, geben zusätzlich Auskunft über Lesersicht auf den Zeitschrifteninhalt.
Anhang
Act Cryst A
Act Cryst B
Ann Phys
Appl Phys A
Appl Phys Let
Comput Mater Sci
EPL
Eur Phys J B
Eur Phys J E
Hyperfine Interact
IEEE Nanotechnol
2,051
326
2,341
493
1,161
296
1,884 2685
3,726 25983
1,549 1299
2,203 3291
1,568 2056
1,943
707
-- 1006
2,154
519
39
10
21
94
2587
50
414
229
104
9
28
29
9
18
88
2214
46
316
140
79
9
19
0,09
0,02
0,06
0,03
0,09
0,04
0,10
0,07
0,11
0,01
0,04
21
8
17
75
581
32
223
155
56
6
15
1,34
1,11
1,17
1,07
1,17
1,09
1,31
1,64
1,32
1,00
1,47
Nutzungsintensität
(Zeitschrift)
Nutzungsintensität
(Artikel)
Nutzungsbreite
Nutzungsrate
gespeicherte
Artikel
Bookmarks
Publikationen
(2004 bis 2008)
Zeitschrift
Impact Factor
Tabelle 1
Nutzungsindikatoren, Impact Factor und Publikationszahl für 45 Zeitschriften
1,86
1,25
1,24
1,25
4,45
1,56
1,86
1,48
1,86
1,50
1,87
Int J Thermophys
J Appl Phys
J Low Temp Phys
J Magn Magn Mater
J Phys A
J Phys Condens Matter
J Phys D
J Rheol
J Stat Mech
J Stat Phys
J Vac Sci Technol A
JETP Lett
Nanotechnol
New J Phys
Nucl Instrum Meth A
Nucl Instrum Meth B
Phys Fluids
Phys Lett A
Phys Rep
Phys Rev A
Phys Rev E
Phys Scr
Phys Solid State
Phys Stat Sol A
Phys Stat Sol B
Phys Today
Physica B
Physica C
Pramana
Rep Prog Phys
Rev Mod Phys
Soft Matter
Solid State Ion
Supercond Sci Technol
0,889
757
2,201 17827
1,034 1260
1,283 7549
1,540 5244
1,900 7427
2,104 4554
2,676
347
2,758
958
1,621 1049
1,173 1580
1,418 1487
3,446 4852
3,440 1926
1,019 7670
0,999 5973
1,738 2702
2,174 5328
18,522
341
2,908 11027
2,508 12117
0,970 2543
0,682 1970
1,205 2721
1,166 2691
3,674 1780
0,822 5561
0,740 3947
0,274 1258
12,090
220
173
33,985
4,586
654
2,425 2270
1,847 1685
15
1002
38
128
299
558
199
5
222
79
28
31
311
436
235
129
259
159
221
1575
2916
57
6
73
81
43
65
65
14
184
424
109
12
45
14
909
36
111
225
438
177
4
134
67
27
28
276
307
215
122
220
137
76
1259
1822
54
6
66
76
35
64
55
14
89
109
93
12
36
0,02
0,05
0,03
0,02
0,04
0,06
0,04
0,01
0,14
0,06
0,02
0,02
0,06
0,16
0,03
0,02
0,08
0,03
0,22
0,11
0,15
0,02
0,00
0,02
0,03
0,02
0,01
0,01
0,01
0,41
0,63
0,14
0,01
0,02
8
327
20
73
186
244
125
3
136
52
17
21
177
239
91
52
101
99
164
278
820
38
6
50
56
36
40
29
13
134
240
51
9
31
1,07
1,10
1,06
1,15
1,33
1,27
1,12
1,25
1,66
1,18
1,04
1,11
1,13
1,42
1,09
1,06
1,18
1,16
2,91
1,25
1,60
1,06
1,00
1,11
1,07
1,23
1,02
1,18
1,00
2,07
3,89
1,17
1,00
1,25
Nutzungsintensität
(Zeitschrift)
Nutzungsintensität
(Artikel)
Nutzungsbreite
Nutzungsrate
gespeicherte
Artikel
Bookmarks
Publikationen
(2004 bis 2008)
Zeitschrift
Stefanie Haustein
Impact Factor
158
1,88
3,06
1,90
1,75
1,61
2,29
1,59
1,67
1,63
1,52
1,65
1,48
1,76
1,82
2,58
2,48
2,56
1,61
1,35
5,67
3,56
1,50
1,00
1,46
1,45
1,19
1,63
2,24
1,08
1,37
1,77
2,14
1,33
1,45
159
Baker, G. & Read, E. J. (2008). Vendor supplied usage data for electronic resources:
a survey of academic libraries. Learned Publishing 21, 48–57.
Bollen, J., Van de Sompel, H., Smith, J. A. & Luce, R. (2005). Toward alternative
metrics of journal impact: A comparison of download and citation data. Information Processing & Management 41, 1419–1440.
COUNTER (2008). Code of Practice for Journals and Databases Release 3, August
2008. http://www.projectcounter.org/code_practice.html
Gorraiz, J. & Gumpenberger C. (2010). Going beyond citations: SERUM – a new
tool provided by a network of libraries. Liber Quarterly 20, 80–93.
Hammond, T., Hannay, T., Lund, B. & Scott, J. (2005). Social bookmarking tools
(I). D-Lib Magazine 11.
Haustein, S., Golov, E., Luckanus, K., Reher, S. & Terliesner, J. (2010). Journal evaluation and science 2.0: Using social bookmarks to analyze reader perception.
Proceedings of the 11th International Conference on Science and Technology Indicators, Leiden, 117–119.
Priem, J. & Hemminger, B. M. (2010). Scientometrics 2.0: Toward new metrics of
scholarly impact on the social Web. First Monday 15.
Reher, S. & Haustein, S. (2010). Social bookmarking in STM: Putting services to the
acid test. ONLINE 34 (6), 34–42.
Roick, C. (2006). Medical journals for authors and/or readers? Opinions of different
reader groups about the journal “Psychiatrische Praxis”. Psychiatrische Praxis 33,
287–295.
Seglen, P. O. (1997). Citations and journal impact factors: questionable indicators of
research quality. Allergy 52, 1050–1056.
Shepherd. P. T. (2005). COUNTER 2005. A new Code of Practice and new applications of COUNTER usage statistics. Learned Publishing 18, 287–293.
Taraborelli, D. (2008). Soft peer review: Social software and distributed scientific
evaluation. Proceedings of the 8th International Conference on the Design of Cooperative Systems.
160
Abdeckung erziehungswissenschaftlicher
Zeitschriften in Google Scholar
Philipp Leinenkugel1, Werner Dees2, Marc Rittberger2
1
2
Langbehnstraße 15, 83022 Rosenheim
[email protected]
Deutsches Institut für Internationale Pädagogische Forschung (DIPF)
Schloßstraße 29, 60486 Frankfurt am Main
[email protected]; [email protected]
Zusammenfassung
Der vorliegende Beitrag untersucht den Abdeckungsgrad erziehungswissenschaftlicher Fachzeitschriften in Google Scholar und verdeutlicht, inwieweit
die Nutzung des kostenlosen Suchdienstes für diese Disziplin sinnvoll ist.
Insgesamt wurden 712 Artikel aus sechs ausgewählten Fachzeitschriften der
Erziehungswissenschaft überprüft. Als Ergebnis kann festgehalten werden,
dass Google Scholar vor allem aufgrund eines mangelhaften Abdeckungsgrades (noch) keine ernsthafte Alternative zu herkömmlichen Fachdatenbanken darstellt.
Abstract
This paper investigates the range of coverage of educational science journals
in Google Scholar and indicates to what extent the free scientific search engine is appropriate for this discipline. A total of 712 articles taken from six
selected pedagogic journals were examined. The results indicate that due to
an inadequate range of coverage Google Scholar does not (presently) constitute a viable alternative to traditional educational research databases.
Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar 161
1
Einleitung
Seit der Einführung von Google Scholar im November 2004 (die deutschsprachige Version im April 2006) wird dieser Dienst mit viel Lob für das
Angebot eines kostenfreien Zugangs zu einer immensen Menge an bibliografischen Daten und zum Teil auch Volltexten bedacht, aber auch mit viel
Kritik für die oft äußerst mangelhafte Qualität der präsentierten Metadaten
[vgl. Fell 2010, Jacsó 2010].
Da Google keine konkreten Angaben zu den indexierten Inhalten macht,
wurde schon kurze Zeit nach der Einführung von Google Scholar die als
Beta-Version gestartete „wissenschaftliche Suchmaschine“ eingehend geprüft. So wurde eine Reihe von Studien durchgeführt, die Auskunft über den
Abdeckungsgrad wissenschaftlicher Fachartikel und Zeitschriftenbeiträge in
verschiedenen Disziplinen geben sollten, bspw. von Lewandowski [2007] für
die Bibliotheks- und Informationswissenschaft, Meier und Conkling [2008]
für die Ingenieurwissenschaften oder Clermont [2010] für die Betriebswirtschaft.
Die Schlussfolgerungen dieser Studien unterscheiden sich v.a. in Abhängigkeit von den untersuchten Disziplinen und Publikationssprachen. Während sich Google Scholar nach Lewandowski [2007: 166ff.] „nicht als Ersatz
für bibliografische Datenbanken im Bereich Bibliotheks- und Informationswissenschaft eignet“, zieht Clermont [2010: 84] das Fazit, „dass Google
Scholar bei entsprechender Beachtung von Einschränkungen und durch einen
genauen ‚Expertenblick‘ zur Literaturrecherche genutzt werden kann.“ Insbesondere im Vergleich mit der traditionellen Zitationsdatenbank Web of
Science könnte Google Scholar nach Harzing und van der Wal [2008] aufgrund der breiteren Erfassung von Zeitschriften und darüber hinaus auch Büchern und Tagungsbänden gerade für die Sozial- und Geisteswissenschaften
sowie die Ingenieurwissenschaften von Vorteil sein.
Viele der bisher durchgeführten Studien zur Abdeckung von Google
Scholar beziehen sich auf die Natur-, Wirtschafts- oder Ingenieurwissenschaften. Für die Erziehungswissenschaft mit ihrem Fokus auf Publikationsorgane aus dem deutschsprachigen Raum ist es von besonderem Interesse,
wie sich der Abdeckungsgrad deutscher Fachzeitschriften der Erziehungswissenschaft darstellt.
162
Daher wurde eine Studie durchgeführt, welche den Abdeckungsgrad
von bedeutenden erziehungswissenschaftlichen Fachzeitschriften aus dem
deutschsprachigen Raum in Google Scholar ermitteln sollte.
Hauptziel dieser Studie war es, zum einen die akademische Nutzbarkeit
des Google Dienstes für die genannte Wissenschaftsdisziplin zu testen. Anhand der Ergebnisse sollte festgestellt werden, ob und inwieweit der kostenfreie Google-Dienst als Alternative zu kostenpflichtigen Fach- und Zitationsdatenbanken in Frage kommen kann.
Da Google Scholar knapp fünf Jahre nach der offiziellen Einführung in
Deutschland nach wie vor den Zusatz „Beta-Version“ trägt, sollte außerdem
festgestellt werden, inwieweit sich nach einer mehrjährigen Aufbau- und
Entwicklungsphase die bisher geäußerten positiven und negativen Ansichten
auf die zu untersuchende Disziplin übertragen lassen.
2
Abdeckung und Arten des Nachweises
Die meiste Kritik erhielt Google Scholar bisher aufgrund einer unklaren und
ungleichmäßigen Abdeckung von Inhalten, einer mangelnden Qualität der
Ergebnisse und der fehlerbehafteten Suchfunktion. Die Unsicherheit über die
Inhalte betrifft vor allem die Frage, welche Zeitschriften überhaupt indexiert
werden, welche Fachgebiete und welche Zeiträume gut abgedeckt sind, und
wie die Wissenschaftlichkeit der nachgewiesenen Literatur (etwa mit Blick
auf Hausarbeiten oder Kursmaterialien) einzuschätzen ist. Im Hinblick auf
die Datenqualität lässt sich feststellen, dass Treffer häufig fehlerhafte bibliografische Angaben aufweisen und die Ergebnislisten zudem Dubletten enthalten [Clermont 2010].
Grundsätzlich wird in Google Scholar zwischen vier Nachweisformaten
unterschieden, welche in den meisten Fällen zu Beginn eines jeden Treffers
ersichtlich sind [Mayr/Walter 2006].
• Volltexte im PDF-Format, welche kostenfrei von Verlags- oder OpenAccess-Servern heruntergeladen werden können. Zum Teil werden auch
Beiträge im MS Word-, HTML- oder Postscript-Format indexiert. Erkennbar ist diese Form des Nachweises durch die vorangestellte Kennzeichnung [PDF], [DOC], [HTML] bzw. [PS].
•
•
•
3
Direkte Verlinkungen auf das zitierte Dokument, welches in den meisten
Fällen zumindest auf Abstract-Level verfügbar und für Lizenznehmer im
Volltext abrufbar ist. Diese Form stellt die Mehrheit der in Google Scholar gefundenen Ergebnisse dar.
Zitierte Zeitschriftenartikel, die lediglich als Zitation und ohne eine direkte Verlinkung auf den Volltext vorliegen und mit dem Präfix [ZITATION] gekennzeichnet sind.
Nachweise von Büchern, welche u.a. über die Büchersuche von Google
abgerufen werden und durch das vorangestellte [BUCH] erkennbar sind.
Da diese Form des Nachweises für die vorliegende Untersuchung irrelevant ist, wurden sie bei der Ergebnisermittlung nicht weiter berücksichtigt.
Aufbau der Untersuchung
Für die vorliegende Untersuchung wurden insgesamt sechs Fachzeitschriften
aus der Erziehungswissenschaft berücksichtigt. Konkret wurden die Jahrgänge 2006 bis 2009 abgeprüft und die zurückgelieferten Daten analysiert.1
Zeitschriften gehören zu den zentralen Publikationsmedien wissenschaftlicher Erkenntnisse und Fachdiskussionen, weshalb sich diese Studie zur
Überprüfung der akademischen Nutzbarkeit von Google Scholar auf den Abdeckungsgrad von Zeitschriften und dort wiederum auf Fachartikel beschränkte. Andere Beiträge wie Themeneinleitungen, Kommentare, Rezensionen oder Vorworte hingegen blieben bei der Untersuchung unberücksichtigt. Die methodische Vorgehensweise der Untersuchung gliederte sich wie
folgt:
• Schritt 1: Für die Untersuchung wurden zentrale deutschsprachige Zeitschriften der allgemeinen Erziehungswissenschaft gewählt. Mit der Zeitschrift für Erziehungswissenschaft, der Zeitschrift für Pädagogik und der
Zeitschrift für Soziologie der Erziehung und Sozialisation wurden die
drei deutschen Zeitschriften der Kategorie „Education & Educational research“ der Journal Citation Reports des Web of Science ausgewählt.
1 Für die Mitwirkung an Datenerhebung und -analyse sei Luise Likow und Michaela
Sieber gedankt.
164
•
•
Darüber hinaus wurden mit Bildung und Erziehung und Unterrichtswissenschaft zwei Zeitschriften einbezogen, die sowohl auf der Initial list
„Pedagogical and Educational Research“ des European Reference Index
for the Humanities (ERIH) [European Science Foundation 2011] als auch
auf der Liste „führender Fachzeitschriften“ des Datenreport Erziehungswissenschaft 2004 [Tippelt u.a. 2004: 255f.] vertreten sind und die
zugleich in einer unveröffentlichten Befragung von Mitgliedern der
Deutschen Gesellschaft für Erziehungswissenschaft aus dem Jahr 2004
unter den ersten zehn Zeitschriften gerankt wurden. Die Auswahl wurde
mit der Harvard Educational Review um eine bedeutende US-amerikanische Zeitschrift ergänzt, um den Abdeckungsgrad deutschsprachiger
Zeitschriften mit dem einer englischsprachigen vergleichen zu können.
Schritt 2: Die bibliografischen Angaben der in die Untersuchung einbezogenen Fachartikel wurden zunächst über die erziehungswissenschaftliche Literaturdatenbank „FIS Bildung“ recherchiert. Um die Vollständigkeit dieser Artikelmenge sicherzustellen, wurden die Inhaltsverzeichnisse der relevanten Jahrgänge auf den Verlagsseiten überprüft. In
den Fällen, in denen keine Inhaltsverzeichnisse auf den Verlagsseiten zu
finden waren, wurden die gedruckten Zeitschriftenausgaben herangezogen. Die Prüfung stellte sicher, dass einerseits die exakte Artikelanzahl
und anderseits auch deren korrekte bibliografischen Angaben vorlagen.
Fehlende oder inkorrekte Datensätze wurden eigenhändig übertragen
bzw. korrigiert, sodass alle Angaben vollständig zur Verfügung standen.
Schritt 3: Auf dieser Basis erfolgte nun die eigentliche Recherche in
Google Scholar. Hierbei wurde die Suchstrategie so festgelegt, dass auch
Treffer gefunden werden konnten, deren bibliografische Angaben stark
von den Inhaltsverzeichnissen der Zeitschriften abwichen. So wurde im
Anschluss an die einfache Titelsuche eine „Gegenprobe“ durchgeführt, in
welcher der Name des Verfassers bzw. der Verfasser, der Titel der Zeitschrift und der passende Jahrgang berücksichtigt wurden. Somit sollte
verhindert werden, dass möglicherweise nur aufgrund von fehlerhaften
bibliografischen Angaben in Google Scholar die Ergebnisse dieser Untersuchung beeinträchtigt werden.
4
Ergebnisse
Die Ergebnisse der Untersuchung sind in den nachfolgenden Tabellen 1 (für
die deutschsprachigen Zeitschriften) und 2 (für die englischsprachige) detailliert beschrieben. Aufgeführt ist sowohl die Gesamtanzahl der Artikel pro
Zeitschrift und Jahrgang sowie die jeweilige Anzahl an Zitationen, Verlinkungen und Volltexten. Zusätzlich ist der prozentuale Anteil pro Nachweisart
und Zeitschrift für den gesamten Untersuchungszeitraum angegeben.
Von den insgesamt 603 überprüften Fachartikeln aus deutschsprachigen
Zeitschriften konnten mehr als die Hälfte (58,4%) nicht in Google Scholar
ausfindig gemacht werden. Demgegenüber werden 24,5% durch eine Verlinkung nachgewiesen, etwa 13,4% anhand einer Zitation und lediglich 3,6%
aller gesuchten Artikel standen als Volltexte kostenfrei zur Verfügung.
Über die untersuchten Jahrgänge hinweg weist die Abdeckung teilweise
größere Unterschiede auf. So lässt sich feststellen, dass 9,0% der Artikel des
Erscheinungsjahres 2009 kostenfrei als Volltext zur Verfügung stehen, während dieser Anteil für Artikel der Erscheinungsjahre 2006 bis 2008 nur zwischen 0 und 4,7% liegt.
Der Anteil an Verlinkungen ist für den Jahrgang 2006 am höchsten und
nimmt danach ab, was vor allem auf die Zeitschrift Bildung und Erziehung
zurückzuführen ist, deren Beiträge dieses Jahres in der französischen bibliografischen Datenbank CAT.INIST dokumentiert wurden, die wiederum in
Google Scholar indexiert ist. Für die folgenden Jahre war dies nicht mehr der
Fall, wodurch die Abnahme zu erklären ist. Die Anzahl an Nachweisen durch
Zitationen ist im Jahr 2009 erwartungsgemäß am geringsten (es benötigt eine
gewisse Zeit, bis Artikel in späteren Publikationen als Zitationen auftauchen).
Tabelle 1: Abdeckung der deutschsprachigen Zeitschriften in Google Scholar
Zeitschrift
Jahrgänge
2006
alle deutschsprachigen
Zeitschriften
Anzahl Artikel
Kein Nachweis
in Google Scholar
Nachgewiesen durch Verlinkung
Nachgewiesen durch Zitation
Nachgewiesen durch Volltext
gesamt
Anteil in %
(2006–2009)
2007 2008 2009
156
61
143
91
149
95
155
105
603
352
100,0
58,4
58
36
1
40
12
0
25
22
7
25
11
14
148
81
22
24,5
13,4
3,6
166
Zeitschrift
Jahrgänge
2006
Zeitschrift für
Erziehungswissenschaft
Anzahl Artikel
Kein Nachweis
in Google Scholar
Unterrichtswissenschaft
Anzahl Artikel
Kein Nachweis
in Google Scholar
Zeitschrift für Pädagogik
Anzahl Artikel
Kein Nachweis
in Google Scholar
Bildung und Erziehung
Anzahl Artikel
Kein Nachweis
in Google Scholar
Zeitschrift für Soziologie der
Erziehung und Sozialisation
Anzahl Artikel
Kein Nachweis
in Google Scholar
gesamt
Anteil in %
(2006–2009)
2007 2008 2009
30
0
29
0
29
1
31
2
119
3
100,0
2,5
30
0
0
29
0
0
25
0
3
23
0
6
107
0
9
89,9
0,0
7,6
17
5
18
9
19
14
22
16
76
44
100,0
57,9
1
11
0
0
9
0
0
4
1
1
3
2
2
27
3
2,6
35,5
3,9
56
40
37
27
44
27
51
43
188
137
100,0
72,9
1
15
0
10
0
0
0
14
3
0
6
2
11
35
5
5,8
18,6
2,7
27
2
29
29
35
34
27
24
118
89
100,0
75,4
25
0
0
0
0
0
0
1
0
0
0
3
25
1
3
21,2
0,8
2,5
26
14
30
26
22
19
24
20
102
79
100,0
77,4
1
10
1
1
3
0
0
3
0
1
2
1
3
18
2
2,9
17,6
2,0
Tabelle 2: Abdeckung der englischsprachigen Zeitschrift in Google Scholar
Zeitschrift
Harvard Educational Review
Anzahl Artikel
Kein Nachweis
in Google Scholar
4.1
Jahrgänge
gesamt
2006 2007 2008 2009
Anteil in %
(2006–2009)
23
0
17
1
22
0
47
0
109
1
100,0
0,9
19
0
4
16
0
0
22
0
0
43
0
4
100
0
8
91,7
0,0
7,3
Abdeckung in Google Scholar
Im Hinblick auf die Auffindbarkeit der Artikel der deutschsprachigen Zeitschriften lässt sich feststellen, dass vor allem eine Zeitschrift einen besonders
hohen Abdeckungsgrad aufweist. Die Zeitschrift für Erziehungswissenschaft
ist mit einem Abdeckungsgrad von 97,5% die am besten nachgewiesene
deutsche Fachzeitschrift im Bereich der allgemeinen Erziehungswissenschaft. Die recherchierten Artikel werden fast ausschließlich über die OnlineBibliothek „Springer Link“ indexiert. Während bei der Zeitschrift Unterrichtswissenschaft weniger als die Hälfte der Artikel nachgewiesen werden
(42,0%), liegt die Abdeckungsquote bei den restlichen Zeitschriften noch
niedriger. Die Zeitschrift für Pädagogik weist ebenso wie die Bildung und
Erziehung mit 27,1% bzw. 24,5% einen niedrigen Abdeckungsgrad auf, wobei noch rund ein Viertel der Artikel in Google Scholar nachgewiesen wird.
Das Schlusslicht dieser Untersuchung bildet die Zeitschrift für Soziologie der
Erziehung und Sozialisation, bei der lediglich 22,5% der gesuchten Artikel in
Google Scholar auffindbar sind. Im Vergleich dazu ist die US-amerikanische
Zeitschrift Harvard Educational Review mit einer Gesamtabdeckung von
99% die am besten nachgewiesene Fachzeitschrift der Untersuchung. Die
Beiträge werden vor allem durch den Verlag und die dort verfügbaren Inhaltsverzeichnisse auffindbar gemacht, die im Gegensatz zu den Inhaltsverzeichnissen der meisten deutschsprachigen Zeitschriften von Google Scholar
indexiert werden.
168
4.2
Verteilung der Nachweisformate
Von den insgesamt 712 in Google Scholar gesuchten Artikeln aus allen sechs
Zeitschriften entfallen 248 (34,8%) auf Verlinkungen, die hauptsächlich zu
kostenpflichtigen Volltexten auf Verlagsseiten oder wissenschaftlichen Informationsanbietern führen. Die Gesamtanzahl an Zitationen, also nicht eigenständiger Literaturnachweise, sondern lediglich aus Dokumenten extrahierter Referenzen mit minimalen bibliografischen Angaben, beläuft sich auf
81 Stück, was einem Anteil von 11,4% entspricht. Insbesondere die Artikel
der Zeitschrift Unterrichtswissenschaft, der Zeitschrift für Pädagogik und der
Zeitschrift für Soziologie der Erziehung und Sozialisation weisen für den
Untersuchungszeitraum 2006 bis 2009 eine relativ hohe Quote an Zitationen
von 35,5%, 18,6% und 17,6% auf. Die Anzahl der kostenfreien Volltexte
hingegen erweist sich als minimal. Von 712 Artikeln stehen lediglich 30
kostenfrei zur Verfügung, was einem Anteil von 4,2% entspricht. In der Zeitschrift für Erziehungswissenschaft und der Harvard Educational Review
konnten 8 bzw. 9 Volltexte kostenfrei genutzt werden, die jedoch nicht durch
die Verlage, sondern durch alternative Quellen zugänglich gemacht wurden.
In den übrigen Zeitschriften wurden noch weniger kostenfrei zugängliche
Artikel aufgefunden. In wenigen Fällen gab es zu einem Artikel in Google
Scholar mehrere Nachweisformate (z.B. sowohl Zitation als auch Volltext),
wobei hier jeweils das Format mit dem höchsten Informationsgehalt (also
Volltext vor Zitation) gezählt und in der Auswertung berücksichtigt wurde.
Im Hinblick auf die Dokumentenformate lässt sich feststellen, dass alle frei
zugänglichen Volltexte als PDF vorliegen.
5
Fazit
Die empirische Untersuchung des Abdeckungsgrades von Google Scholar
zeigt, dass sich dieser Dienst, so wie es Lewandowski [2007] schon für die
Bibliotheks- und Informationswissenschaft festgestellt hat, auch für die
deutschsprachige Erziehungswissenschaft nicht als Ersatz für bibliografische
Datenbanken eignet. Lediglich eine der untersuchten fünf deutschsprachigen
Zeitschriften wird fast vollständig nachgewiesen, während von den anderen
vier nur etwa ein Viertel der Artikel des Zeitraums 2006 bis 2009 in Google
Scholar zu finden sind. Im Gegensatz dazu werden die Artikel der Harvard
Educational Review zu praktisch 100% nachgewiesen. Zwar werden die Inhaltsverzeichnisse aller untersuchten Zeitschriften (mit Ausnahme der Bildung und Erziehung) über die Verlagsseiten im Internet bereitgestellt, aber
nur jene der Zeitschrift für Erziehungswissenschaft und der Harvard Educational Review werden auch von Google Scholar indexiert. Das Beispiel der
Zeitschrift für Erziehungswissenschaft macht zugleich deutlich, dass die geringe Abdeckung vieler Zeitschriften nicht in einer generellen Nichtbeachtung deutschsprachiger Literatur begründet liegt, sondern auf die fehlenden oder unzulänglichen Onlineangebote der kleinen deutschen Zeitschriftenverlage zurückzuführen ist.
Noch deutlich niedriger als in der Bibliotheks- und Informationswissenschaft liegt der Anteil der elektronischen Volltexte, die in Google Scholar zu
finden sind. Nur zwei der sechs Zeitschriften (Zeitschrift für Erziehungswissenschaft und Harvard Educational Review) bieten die Artikel ihrer aktuellen Jahrgänge kostenpflichtig in elektronischer Form an. Bei weiteren drei
liegen zumindest ältere, vor dem Untersuchungszeitraum liegende, Jahrgänge
retrodigitalisiert über DigiZeitschriften vor. Insgesamt zeigt die Untersuchung, dass sich Studierende oder andere an erziehungswissenschaftlicher
Fachliteratur Interessierte nicht alleine auf die beliebte Suchmaschine Google
Scholar verlassen, sondern auch Fachdatenbanken wie FIS Bildung oder andere wissenschaftliche Suchmaschinen wie BASE (wobei deren Abdeckungsgrad erst noch zu untersuchen wäre) berücksichtigen sollten. Gleichzeitig
sollten erziehungswissenschaftliche Verlage und Autoren versuchen, in größerem Maße in Google Scholar nachgewiesen zu werden, um in diesem internationalen, multidisziplinären Angebot eine bessere Sichtbarkeit zu erreichen.
Clermont, M. (2010): Darstellung und Güteprüfung von Google Scholar zur Literatur- und Zitationsauswertung.
http://www.lut.rwth-aachen.de/Arbeitsberichte?action=AttachFile&do=view&target=Darstellung+und+G%C3%BCtepr%C3%BCfung+von+Google+Scholar.pdf
(16.09.2010)
170
European Science Foundation (2011): ERIH ‘Initial’ lists.
http://www.esf.org/research-areas/humanities/erih-european-reference-index-for-thehumanities/erih-initial-lists.html (09.01.2011)
Fell, C. (2010): Publish or Perish und Google Scholar – ein Segen? Leibniz-Zentrum
für Psychologische Information und Dokumentation (ZPID), Trier.
http://www.zpid.de/pub/research/2010_Fell_Publish-or-Perish.pdf (21.09.2010)
Harzing, A.; van der Wal, R. (2008): Google Scholar as a new source for citation
analysis. In: Ethics in Science and Environmental Politics 2008(8): 61–73.
Jascó, P. (2010): Metadata mega mess in Google Scholar. In: Online Information
Review 34(1), 175–191.
Lewandowski, D. (2007): Nachweis deutschsprachiger bibliotheksund informationswissenschaftlicher Aufsätze in Google Scholar. In: Information, Wissenschaft
& Praxis, 58(3), 165–168.
Mayr, P.; Walter, A. (2006): Abdeckung und Aktualität des Suchdienstes Google
Scholar. In: Information, Wissenschaft & Praxis, 57(3), 133–140.
Meier, J. J.; Conkling, T. W. (2008): Google Scholar’s Coverage of the Engineering
Literature: In: The Journal of Academic Librarianship 34(3), 196–01.
Tippelt, R.; Rauschenbach, T.; Weishaupt, H. (Hg.) (2004): Datenreport Erziehungswissenschaft 2004. Wiesbaden: VS Verlag für Sozialwissenschaften.
Session 5:
Information Retrieval
172
Ari Pirkola
Constructing Topic-specific Search
Keyphrase Suggestion Tools for
Web Information Retrieval
Ari Pirkola
Department of Information Studies and Interactive Media
University of Tampere
Kanslerinrinne 1, Tampere 33014
[email protected]
Abstract
We devised a method to extract keyphrases from the Web pages to construct
a keyphrase list for a specific topic. The keyphrases are identified and out-oftopic phrases removed based on their frequencies in the text corpora of various densities of text discussing the topic. The list is intended as a search aid
for Web information retrieval, so that the user can browse the list, identify
different aspects of the topic, and select from it keyphrases (e.g. find synonymous phrases) for a query. A keyphrase list containing a large set of keyphrases related to climate change was constructed using the proposed
method. We argue that there is a need for such keyphrase suggestion tools,
because the major Web search engines do not provide users with such terminological search aids that help them identify different topic aspects and find
synonyms.
1
Introduction
The major Web search engines Bing, Google, Yahoo, and many others are
necessary tools to find information from the Web, and they often provide
users with good results. However, the users are often faced with the problem
of finding such query keys that correctly represent their information needs.
Formulating a good query requires that the user knows what aspects are re-
Constructing Topic-specific Search Keyphrase Suggestion Tools …
173
lated to the topic (s)he is interested in, so that (s)he can modify the query
narrower or broader. As an example of an aspect, some of the aspects of climate change are glacier melting, sea-level rise, drought, adaptation, and political consequences – to mention a few among hundreds of aspects. Even
though the user is interested in an aspect with which (s)he is familiar with, it
is impossible to know all alternative expressions referring to the aspect used
by the Web page authors. The user may use the query sea level rise but may
lose the documents (s)he needs because in many relevant documents this
concept is expressed differently, e.g. rising sea level, rising seas, or higher
sea level. Moreover, authors often use elliptical expressions, i.e., phrases
where one component is omitted (e.g. after introducing the full phrase sea
level rise the author may refer to it by the elliptical phrase the level rise), and
even such short forms may strengthen the query and affect document ranking
positively.
Obviously, a list containing the most important phrases related to a particular topic would be an advantageous tool for Web searchers, helping to
find good query keys. In this study, we devise a method to construct such a
list, which is called Topic-specific Search Keyphrase Suggestion Tool. We
are interested in scientific topics but the proposed method can be generalized
to any reasonable topic. Here the keyphrase of the topic means a phrase that
is often used in texts dealing with the topic and which refers to one of its
aspects. The list is intended as an aid for Web information retrieval, so that
the user can browse the list and select from it keys for a query. Each phrase
in the list is assigned an importance score based on its frequencies in the text
corpora of various densities of text discussing the topic. The keyphrases are
extracted from pages relevant to the topic in question, and are thus known to
appear in pages discussing the topic when used as search keys. Hence, the
proposed approach implicitly involves the idea of reciprocity: keyphrases are
extracted from relevant Web pages, and the phrases in turn can be used in
queries to find relevant pages.
We encountered two main challenges when devising the keyphrase list:
(1) How to identify pages that are relevant to the topic for use as keyphrase
source data? (2) How to identify the keyphrases among all phrases in the
relevant pages and prune out out-of-topic phrases?
In the first case, the method uses an information retrieval system to assign
relevance scores to pages fetched by a focused crawler from the Web sites of
universities and other research organizations investigating the topic. The
174
Ari Pirkola
keyphrases of the topic are extracted from the pages assigned a high relevance score by the retrieval system.
Second, we introduce a novel method to identify keyphrases and to clean
the keyphrase list from out-of-topic phrases. The method calculates importance scores for phrases on the basis of the frequencies of the phrases in the
corpora of various densities of relevant text. The most obvious out-of-topic
phrases receive a low importance score and are removed from the final list.
An ideal case would be a large corpus that is dense in relevant text, but it is
not easy to access large amounts of such texts. We therefore use a very dense
corpus and an irrelevant corpus containing documents on a different topic
than the topic for which the keyphrase list is constructed, and two corpora
that are in-between these extremes. The dense corpora are built on the basis
of the occurrences of the topic title phrase (e.g. climate change) and a few
known keyphrases in the original corpus crawled from the Web. This approach allows us to separate between the keyphrases and out-of-topic phrases
based on the fact that the relative frequencies of keyphrases decrease as the
density decreases. After these automatic phases the list still contains some
undesirable phrases which are removed manually (Section 3.2).
Using the proposed method, we constructed a keyphrase list for the topic
climate change. The list is primarily intended for use in the scientific-based
search system dealing with climate change (http://kastanja.uta.fi:8988/
CLICS/) that was implemented in our earlier study, but it can be used as well
together with general Web search engines to facilitate retrieving climate
change related pages from the Web. The list is available on the Web at
http://kastanja.uta.fi:8988/CLICS/about_index.html, and it contains 2533
two-word phrases and 848 three-word phrases.
The quality of the climate change keyphrase list was evaluated by determining (using samples) what proportion of the keyphrases and what proportion of all phrases in the crawled corpus (i.e., when keyphrase identification
is not done) occur in the core content fields (title, abstract, keywords) of
journal articles and conference papers dealing with climate change. The results showed that the proportion of keyphrases was higher than the proportion of phrases systematically selected from the crawled corpus.
2
175
Related Work
The proposed idea to construct a search keyphrase suggestion tool allowing
searchers to see all important phrases related to a particular topic is novel.
The new methodological idea behind our approach is to utilize the corpora of
various densities of relevant text. Conventionally, keyphrase extraction refers
to a process where phrases that describe the contents of a document are extracted and are assigned to the same document to facilitate e.g. information
retrieval. Most conventional approaches are based on machine learning techniques. KEA (Witten et al., 1999), GenEx (Turney, 2003), and KP-Miner
(El-Beltagy and Rafea, 2009) are three well-known keyphrase extraction systems. In these systems, keyphrases are identified and scored based on their
length and their positions in documents, and using the TF-IDF weight.
Muresan and Harper (2004) also developed a terminological support for
searchers’ query construction in Web searching. However, unlike our study
they did not focus on keyphrases but proposed an interaction model based on
system-based mediation through structured specialized collections. The system assists the user in investigating the terminology and the structure of the
topic of interest by allowing the user to explore a specialized source collection representing the problem domain. The user may indicate relevant documents and clusters on the basis of which the system automatically constructs
a query representing the user’s information need. The starting point of the
approach is the ASK (Anomalous State of Knowledge) model where the user
has a problem to solve but does not know what information is needed (Belkin
et al., 1982). Lee (2008) showed that the mediated system proposed by
Muresan and Harper (2004) was better than a direct IR system not including
a source collection in terms of effectiveness, efficiency and usability. The
more search tasks the users conducted, the better were the results of the mediated system.
We crawled the relevant documents from the Web sites of research organizations using a focused crawler. Focused crawlers are programs that
fetch Web documents that are relevant to a pre-defined domain or topic
(Hersovici et al., 1998; Diligenti et al., 2000; Pirkola and Talvensaari, 2010).
Only documents assessed to be relevant by the system are downloaded and
made accessible to the users e.g. through a digital library or a topic-specific
search engine. During crawling link URLs are extracted from the pages and
are added into a URL queue. The queue is ordered based on the probability
176
Ari Pirkola
of URLs (i.e., pages pointed to by the URLs) being relevant to the topic in
question. Pages are assigned probability scores e.g. using a topic-specific
terminology, and high-score pages are downloaded first. Focused crawling
research has focused on improving crawling techniques and crawling effectiveness (Diligenti et al., 2000; Bergmark et al., 2002; Pirkola and Talvensaari, 2010), and we are not aware of any study investigating the use of focused crawling for keyphrase extraction. Perhaps the closest work to our
research is that of Talvensaari et al. (2008) who also constructed word lists
using focused crawling. However, they used focused crawling as a means to
acquire German-English and Spanish-English comparable corpora in biology
for statistical translation in cross-language information retrieval.
3
Methods
3.1
The Crawler
We implemented a focused crawler in which the relevance of the pages during crawling is determined by matching a topic-defining query against the
retrieved pages using a search engine. We used the Lemur search engine
(http://www.lemurproject.org/) which allows the use of a proximity operator
and weighted queries. The topic-defining query contained the following
query keys: #3(climate change), #3(climate research), climate, climatic,
#3(research project), research. The words combined by the proximity operator #3 are not allowed to be more than three words apart from each other to
match. The keys were combined by Lemur’s weighted #sum operator to give
more weight to the first keys above than the last two keys that relate to research activity in general. The pages with relevance scores higher than a
given threshold were kept in the crawling results. The irrelevant corpus was
crawled similarly to the relevant corpus, except that now we fetched Web
documents on genetics, and the topic-defining query contained genetics related words and phrases. In all, crawling gave some 3100 documents deemed
to be relevant and some 3600 irrelevant documents.
A focused crawler does not follow all links on a page but it will assess
which links to follow to find relevant pages. Our crawler assigns the prob-
177
ability of relevance to an unseen page v using the following formula, which
gave good results in a preliminary experiment.
Pr(T|v) = (α * rel(u) * (1/log(Nu)) + ((1 – α) * rel(<u,v>)),
where α is a weighting parameter (0 < α < 1), rel(u) is the relevance of the
seen page u, calculated by Lemur, Nu the number of links on page u, and
rel(<u,v>) the relevance of the link between u and the unseen page v. The
relevance of the link is calculated by matching the context of the link against
the topic query. The context is the anchor text, and the text immediately surrounding the anchor. The context is defined with the help of the Document
Object Model (DOM): all text that is within five DOM tree nodes of the link
node is considered belonging to the context. The Document Object Model is
a convention for representing and interacting with objects in HTML,
XHTML and XML documents (http://en.wikipedia.org/wiki/Document_Object_Model).
As can be seen, Pr(T|v) is a sum that consists of two terms: one that depends on the relevance of the page, and one that depends on the relevance of
the link. The relative importance of the two terms is determined by the
weight α. Based on our crawling experiment we selected for the α parameter
we used the value of α = 0.3. Also, the number of links on page u inversely
influences the probability. If rel(u) is high, we can think that the page “recommends” page v. However, if the page also recommends lots of other pages
(i.e., Nu is high), we can rely less on the recommendation.
3.2
Constructing the Climate Change Keyphrase List
We now describe how the climate change keyphrase list was constructed. In
the first phase, Web pages dealing with climate change were crawled using
the focused crawler described in Section 3.1. The start URL set contained
some 80 URLs of the most productive organizations engaged in climate
change research, which were identified using the Scopus citation database
(http://www.scopus.com/). The crawling scope of the crawler was limited so
that the crawler was only allowed to visit the pages on these start sites, and
their subdomains (for example, research.university.edu is a subdomain of
www.university.edu), as well as sites that are one link apart from the start
domain. These restrictions ensured that the crawling results do not degrade
but crawling keeps in scientific sites.
178
Ari Pirkola
The first phase of the processing of the crawled data was to extract all bigrams (i.e., two consecutive words) and trigrams (i.e., three consecutive
words) from the crawled relevant and irrelevant corpora, and to recognize
which bi- and trigrams are phrases. For phrase identification we used the
small word (stop-word) technique (Jaene and Seelbach, 1975) and kept those
bi- and trigrams only that were surrounded by small words and that did not
include a small word. The small word list was a standard stop-word list of an
information retrieval system, and it contained 856 words. In scientific documents words related to research (e.g. study, author) are intermixed with the
keyphrases of the topic, and the best way to remove them is to handle them
as if they were stop-words. We therefore supplemented the list with a small
set of research-related words (N=18), and removed all phrases that include
such a word.
In this study, we introduce a novel method to identify keyphrases and to
clean the keyphrase list from out-of-topic phrases. The crawled relevant corpus was divided into three separate corpora based on the occurrences of the
topic title phrase (climate change) and a few known keyphrases related to
climate change. The three corpora differ from each other in the density of
text portions containing keyphrases. We first identified the known keyphrases (N=10) that well represent the topic, such as global warming and sea
level. The three corpora were as follows: (1) The whole relevant corpus; (2)
A corpus where each text line contains the topic title phrase; (3) A corpus
where each text line contains, in addition to the topic title phrase, at least one
of the known keyphrases. The second corpus is denser in relevant text portions than the whole corpus, and the third one is denser than the second. The
fourth corpus was the irrelevant corpus, which obviously only contains a few
keyphrases. It can also be assumed that the frequency of keyphrases is relatively higher in the third corpus than in the first two corpora. The second
corpus, in turn, is assumed to contain relatively more keyphrases than the
first one. Out-of-topic phrases occur in the irrelevant corpus. They can be
expected to be infrequent in the dense corpora simply because there is not
much room for them in text portions that have many keyphrases.
After these automatic phases, the list still contained some undesirable
phrases, in particular non-specific phrases (such as take action) and phrases
containing non- or weakly informative verbs (such as addressing climate
change). These phrases were removed manually. Generally, the number of
removals depends on the applied importance score (Section 3.3) threshold.
All phrases in the crawled corpus could be assigned an importance score and
179
if a very low threshold would be applied, the percentage of removals would
be high. In the case of a high threshold none or only a few phrases need to be
removed.
3.3
Importance Score
Below we introduce notational conventions used in the importance score
calculations.
Notational Conventions.
Let P2 be some two-word phrase in the first document corpus DC(1), i.e.,
P2 ∈ DC(1). We denote its frequency in the corpus by FDC(1)(P2). Correspondingly, the frequency of a three-word phrase in the first corpus is denoted
by FDC(1)(P3). The frequencies of the two- and three-word phrases in the second, third and fourth corpora are denoted similarly, e.g. three-word phrases
in the fourth corpus: FDC(4)(P3).
Assumedly, a phrase which has a high frequency in the three relevant corpora and a low frequency in the fourth corpus deserves a high score. Therefore, the importance score for the two- and three-word phrases is calculated
as follows (in the calculations the value 0 is converted into 1):
IS(P2) = ln(FDC(1)(P2) * FDC(2)(P2) * FDC(3)(P2) / FDC(4)(P2))
IS(P3) = ln(FDC(1)( P3) * FDC(2)( P3) * FDC(3)( P3) / FDC(4)( P3))
Table 1 shows the 20 highest ranked two- and three word phrases in the
climate change keyphrase list and their importance scores. The whole list is
available at http://kastanja.uta.fi:8988/CLICS/about_index.html. Most of the
keyphrases are established phrases. The phrase change impacts is an example
of an elliptical phrase. Such short forms are understandable in the context of
climate change, and as argued in Section 1 they may be good query keys.
Table 1. The highest ranked keyphrases in the climate change keyphrase list.
Two-word phrases
change impacts
greenhouse gases
global warming
climate changes
future climate
greenhouse gas
IS(P2)
19.0
17.9
17.6
16.8
16.5
15.9
Three-word phrases
climate change impacts
greenhouse gas emissions
climate change adaptation
future climate change
global climate change
climate change projections
IS(P3)
18.5
17.5
16.6
16.3
16.2
16.2
180
Ari Pirkola
Two-word phrases
carbon dioxide
global climate
adaptation strategies
earth system
potential impacts
greenhouse effect
food security
climate adaptation
sustainable development
climate policy
potential impact
climate action
climate system
ozone layer
4
IS(P2)
15.7
15.5
15.4
15.3
15.3
15.2
15.0
15.0
15.0
Three-word phrases
global environmental change
fourth assessment report
climate change issues
climate change mitigation
induced climate change
sea level rise
climate change scenarios
regional climate change
climate change policy
IS(P3)
16.1
15.7
14.4
14.3
14.2
14.1
13.6
13.5
13.4
14.8
14.7
14.6
14.6
14.4
dangerous climate change
abrupt climate change
climate change report
climate change program
greenhouse gas concentrations
12.7
12.6
12.3
12.2
12.2
Evaluation
The quality of the climate change keyphrase list was evaluated by determining (1) what proportion of the keyphrases in the list (test situation) and (2)
what proportion of phrases selected from the relevant corpus (baseline situation) occur in the core content fields (title, abstract, keywords) of journal
articles and conference papers dealing with climate change. In the first case,
a systematic sample of keyphrases (N=50 both for two- and three-word
phrases) was selected from the keyphrase list. In the second case, similarly to
the first case, a systematic sample of two- and three-word phrases (N=50 for
both) was selected from the relevant corpus (containing both keyphrases and
out-of-topic phrases). If the proposed method effectively identifies keyphrases, as is expected, their proportion will be considerably higher than that
of corpus phrases. On the other hand, of all the corpus phrases a large proportion is keyphrases, so they are not infrequent in the core fields of relevant
articles and papers. Hence, the main question in the evaluation is whether the
second stage of the proposed approach (the use of corpora of various densi-
181
ties of relevant text) improves the effectiveness compared to the first stage
alone (constructing the relevant corpus by means of focused crawling).
In this evaluation experiment we used the Web of Science citation database (http://thomsonreuters.com/products_services/science/science_products/
a-z/web_of_science). In the Web of Science, each journal article and a conference paper is represented by a record that contains the core content fields
title, abstract, and keywords and several other fields. The query used in the
evaluation was expressed as follows: Find documents where the keyphrase
(test situation) / corpus phrase (baseline situation) and the topic title phrase
(climate change) occur in the same record in the title, abstract, or keyword
field. For example, we searched for documents that contain in their core
fields both the phrase abrupt change and the title phrase climate change.
The results of the evaluation experiment are reported in Table 2. As described above, in each four cases we selected 50 phrases, and column 2
shows how many of them occur in the core fields of articles and papers together with the phrase climate change. As shown, the number of keyphrases
is remarkably higher than that of corpus phrases. In the case of two-word
keyphrases, all 50 have occurrences (at least one occurrence) whereas only
26 two-word corpus phrases have occurrences. Column 3 indicates the total
number of occurrences for the 50 keyphrases and for the 50 corpus phrases.
Column 4 indicates the average number of occurrences per keyphrase and per
corpus phrase. For keyphrases the total number of occurrences and the average are considerably higher. Two-word keyphrases appear more frequently
than three-word keyphrases.
Table 2. The results of the evaluation experiment.
Phrase type
2-word keyphrases
2-word corpus phrases
3-word keyphrases
3-word corpus phrases
N:o keyphrases;
N:o occurrences
N:o corpus phrases
Average n:o
occurrences
50
26
11 992
11 609
239,8
112,2
43
14
22 743
11 184
154,9
113,7
182
5
Ari Pirkola
Conclusions
Conventionally, keyphrase extraction refers to a process where phrases that
describe the contents of a document are extracted and are assigned to the
same document to facilitate e.g. information retrieval. We presented a novel
approach which differs from the conventional approach in that we do not
handle individual documents but a set of documents discussing a particular
topic. From these documents we extract keyphrases that describe different
aspects of the topic. The proposed method is based on the use of several
document corpora of different densities of relevant text.
Our project plan involves building a multi-topic search keyphrase suggestion tool dealing with many globally significant topics. The climate change
keyphrase list will be a part of the larger tool. We believe that such a multitopic tool is needed in scientifically-oriented Web information retrieval. It
will serve users such as researchers and journalists searching for information
on scientifically and globally important information. It may also be possible
to apply the keyphrase list in areas other than information retrieval (e.g.
document clustering), which may be one direction of our future research.
Acknowledgments
This study was funded by the Academy of Finland (research projects 130760,
218289).
References
Belkin, N. J., Oddy, R. N., Brooks, H. M. (1982). ASK for information retrieval: Part
I. Background and history. Journal of Documentation, 38 (2), pp. 61–71.
Bergmark, D., Lagoze, C., Sbityakov, A. (2002). Focused crawls, tunneling, and
digital libraries. Sixth European Conference on Research and Advanced Technology for Digital Libraries, Rome, Italy, September 16–8, pp. 91–106.
183
Diligenti, M., Coetzee, F. M., Lawrence, S., Giles, C. L., Gori, M. (2000). Focused
crawling using context graphs. Twenty-sixth International Conference on Very
Large Databases (VLDB), pp. 527–534.
El-Beltagy, S. and Rafea, A. (2009). KP-Miner: A keyphrase extraction system for
English and Arabic documents. Information Systems, 34(1), pp. 132–144.
Hersovici, M., Jacovi, M., Maarek, Y., Pelleg, D., Shtalhaim, M., Ur, S. (1998). The
shark-search algorithm – an application: tailored Web site mapping. Seventh International Conference on World Wide Web, Brisbane, Australia.
Jaene, H. and Seelbach, D. (1975). Maschinelle Extraktion von zusammengesetzten
Ausdrücken aus englischen Fachtexten. Report ZMD-A-29. Beuth Verlag, Berlin.
Lee, H. J. (2008). Mediated information retrieval in Web searching. Proceedings of
the American Society for Information Science and Technology, 45(1), pp. 1–10.
Muresan, G. and Harper, D. J. (2004). Topic modeling for mediated access to very
large document collections. Journal of the American Society for Information Science and Technology, 55 (10), pp. 892–910.
Pirkola, A. and Talvensaari, T. (2010). Addressing the limited scope problem of
focused crawling using a result merging approach. Proceedings of the 25th Annual ACM Symposium on Applied Computing (ACM SAC), Sierre, Switzerland,
March 22–6, pp. 1735–1740.
Talvensaari, T., Pirkola, A., Järvelin, K., Juhola, M., Laurikkala, J. (2008). Focused
Web crawling in the acquisition of comparable corpora. Information Retrieval,
11(5), pp. 427–445.
Turney, P. D. (2003). Coherent keyphrase extraction via Web mining. Proceedings of
the Eighteenth International Joint Conference on Artificial Intelligence (IJCAI03), Acapulco, Mexico, pp. 434–439.
Witten, I. H., Paynter, G.W., Frank, E., Gutwin, C., Nevill-Manning, C. G. (1999).
KEA: Practical automatic keyphrase extraction. Proceedings of the 4th ACM
conference on Digital Libraries, Berkeley, California, pp. 254–255.
184
P. Mayr, P. Mutschke, V. Petras, P. Schaer, Y. Sure
Philipp Mayr1, Peter Mutschke1, Vivien Petras2,
Philipp Schaer1, York Sure1
1
GESIS – Leibniz Institute for the Social Sciences
Lennéstr. 30, 53113 Bonn, Germany
philipp.mayr | peter.mutschke | philipp.schaer | [email protected]
2
Humboldt-Universität, Institut für Bibliotheks- und Informationswissenschaft
Unter den Linden 6, 10099 Berlin, Germany
[email protected]
Abstract
The paper proposes three different kinds of science models as value-added
services that are integrated in the retrieval process to enhance retrieval quailty. The paper discusses the approaches Search Term Recommendation, Bradfordizing and Author Centrality on a general level and addresses implementation issues of the models within a real-life retrieval environment.
Introduction
Scholarly information systems often show three major points of failures, as
pointed out in various studies: (1) the vagueness between search and indexing terms, (2) the information overload by the amount of result records
listed, and (3) the problem that pure term text based rankings, such as tf-idf,
often do not meet the users’ information need. Moreover, retrieval evaluations such as TREC and CLEF have shown that simple text-based retrieval
methods scale up very well but do not progress anymore in terms of significant relevance improvements (Fuhr 2010, Armstrong et al. 2009).
185
The goal of the IRM1 project therefore is to improve retrieval quality by
value-added services that are based on computational models of the science
system under study. The overall approach of IRM is to use models focusing
on non-textual attributes of the research field, the scientific community respectively, as enhanced search stratagems (Bates 1990) within a scholarly
information retrieval (IR) environment. This strongly meets the suggestion of
Fuhr (2010) to move towards a more science model driven approach in IR
which would lead to a broader view, an understanding of limitations of current models, and therefore the ability to open up alternative access paths into
a field (Ingwersen & Järvelin 2005). The paper discusses the concepts of
models on a general level and addresses implementation issues of the models
within a real-life retrieval environment.
Model Discussion
Science models usually address issues in statistical modeling and visualization2. As a further dimension, that should be considered in science modeling
as well, the paper focuses on the application of science models in IR
(Mutschke et al. 2011). Supposing that searching in a scholarly information
system can be seen as a particular way of interacting with the science system,
the overall assumption of our approach is that a user’s search should improve
by using science model driven search tactics. This approach meets the fact
that the frequency of many structural attributes of the science system usually
follows some type of power-law distribution. These highly frequent attributes
which are produced when applying the science models have a strong selectivity in the document space which can be utilized for IR.
The paper proposes three different kinds of science models as valueadded services that are integrated in the retrieval process to enhance retrieval
quality (see Figure 1): (1) a co-word analysis model for search term recommendations (STR), (2) a bibliometric model of re-ranking, called Bradfordizing, determining core journals for a field (BRAD), and (3) a network model
1 http://www.gesis.org/irm/
2 See e.g. the workshop “Modelling Science” <http://modelling-science.simshelf.virtualknowledgestudio.nl/> and a forthcoming Special Issue in Scientometrics.
186
of re-ranking examining the centrality of authors in scientific community
(AUTH). In the following the models are discussed on a general conceptual
level.
Figure 1: A simple search example (query term: “Unemployment”) and typical structural attributes/outputs of implemented science models in our retrieval system. From
left: Search Term Recommendation (STR) producing highly associated indexing
terms, Author Networks (AUTH) with centrality-ranked author names and
Bradfordizing based on Core Journals (BRAD) with highly frequent journal
names/ISSNs.
A Co-Word-Analysis Model for Query Expansion
Metadata-driven Digital Libraries share a common problem which Furnas
(1987) addressed as the “Language Problem in IR”. Whenever a query is
formalized the searcher has to come up with the “right” terms to best match
the terms used in the index. Two language domains have to match: (1) the
language of scientific discourse which is used by the scientists who formulate
the queries and (2) the language of documentation which is used by the database vendors. To overcome this query formulation problem and to provide a
direct mapping between the language of discourse and the language of
documentation, Petras (2006) proposed a so called Search Term Recommender (STR). These recommenders are based on statistical co-word analysis
and build associations between free terms (i.e. from title or abstract) and
controlled terms (i.e. from a thesaurus). The co-word analysis implies a se-
187
mantic association between the free terms as instances of the language of
discourse and the controlled terms as instances of the language of documentation. The more often terms co-occur in the text the more likely it is that
they share a semantic relation. So, the model proposed focuses on the relationships among the terminological concepts describing the scientific discourse within a research field.
These semantic relations can be used to implement a query expansion
mechanism where the initial query is expanded with a number of related controlled terms. Different evaluations of the Search Term Recommender as an
approach for query expansion have shown (Petras 2005, Schaer et al. 2010)
that co-word analysis based term suggestions significantly improve the precision of the retrieval process. Additionally, they can provide an overview over
different areas of discussion, which deal with particular concepts (perhaps
assuming different meanings or directions of thought) when presented as an
interaction method – for example in the form of a term cloud or a confidence
ranked list.
This is especially true when domain-specific STR modules are used. A
STR trained with a social science related document set will propose different
terms and therefore concepts than e.g. a STR trained with documents from
the domain of sport science. We may think of an query on “financial crisis”:
While the social science module will suggest terms like “stock market”,
“economic problems” or “international economic organizations” the other
recommender will come up with relations to “sport economy”, “player transfer” and “influence on performance”. Each academic field has its own languages of discourse and documentation, so therefore the query suggestion
methods have to adapt theses languages. The assumption is that term suggestions from several fields of research or information resources can provide a
new view or different domain perspective on a topic (mainly in the interactive application of STRs). When used as an automatic query expansion
mechanism this can lead to a phenomenon named “query drifts” where the
query and therefore the result set is transformed in a way the user didn’t intend.
Beside query drifting, expanded queries tend to generate very large result
sets. Nevertheless, in combination with a normal tf-idf ranking model positive effects which are related to the general concept of relevancy-ranking can
be seen. By ranking the occurrences of both the user entered words and suggested terms from the STR, documents with a higher frequency are much
more likely to be ranked in a top position (despite the fact that the result set
188
gets bigger). This can be explained with the significantly higher discriminating power of the added terms and concepts in comparison to the terms of the
original query which especially influences the term frequency part of the tfidf formula.
A Bibliometric Re-Ranking Model
For the problem of oversized result sets we propose a re-ranking model that
applies a bibliometric law called Bradford law. Modeling science based on
Bradford law is motivated by the necessity for researchers to concentrate on a
small fraction of topically relevant literature output in a field. Fundamentally,
Bradford law states that literature on any scientific field or subject-specific
topic scatters in a typical way. In the literature we can find different names
for this type of distribution, e.g. “long tail distribution”, “extremely skewed”,
“law of the vital few” or “power law” which all show the same properties of
a self-similar distribution. A Bradford distribution typically generates a core
or nucleus with the highest concentration of papers – normally situated in a
set of few so-called core journals – which is followed by zones with loose
concentrations of paper frequencies. The last zone covers the so-called peripheral journals which are located in the model far distant from the core
subject and normally contribute just one or two topically relevant papers.
Bradfordizing, originally described by White (1981), is a utilization of the
Bradford law of scattering model which sorts/re-ranks a result set accordingly to the rank a scientific journal gets in a Bradford distribution. The journals in a search result are ranked by the frequency of their listing in the result
set (number of articles in a certain journal). Bradfordizing assures that the
central publication sources for any query are sorted to the top positions of the
result set (Mayr 2010).
On an abstract level, re-ranking by Bradfordizing can be used as a compensation mechanism for enlarged search spaces with interdisciplinary
document sets. Bradfordizing can be used in favor of its structuring and filtering facility. Our analyses show that the hierarchy of the result set after
Bradfordizing is a completely different one compared to the original ranking.
Furthermore, Bradfordizing can be a helpful information service to positively
influence the search process, especially for searchers who are new on a research topic and don’t know the main publication sources in a research field.
The opening up of new access paths and possibilities to explore document
189
spaces can be a very valuable facility. Additionally, re-ranking via bradfordized document sets offer an opportunity to switch between term-based search
and the search mode browsing. It is clear that the approach will be provided
as an alternative ranking option, as one additional way or stratagem to access
topical documents (cf. Bates 1990).
Interesting in this context is a statement by Bradford where he explains
the utility of the typical three zones. The core and zone 2 journals are in his
words “obviously and a priori relevant to the subjects”, whereas the last zone
(zone 3) is a very “mixed” zone, with some relevant journals, but also journals of “very general scope” (Bradford 1934). Pontigo and Lancaster (1986)
come to a slightly different conclusion of their qualitative study. They investigated that experts on a topic always find a certain significant amount of
relevant items in the last zone. This is in agreement with quantitative analyses of relevance assessments in the Bradford zones (Mayr 2010). The study
shows that the last zone covers significantly less often relevant documents
than the core or zone 2. The highest precision can very constantly be found in
the core.
To conclude, modeling science into a core and a periphery – the Bradford
approach – always runs the risk and critic of disregarding important developments outside the core. Hjorland and Nicolaisen (2005) recently started a
first exploration of possible side effects and biases of the Bradford methods.
They criticized that Bradfordizing favors majority views and mainstream
journals and ignores minority standpoints. This is a serious argument, because by definition, journals which publish few papers on specific topics
have very little chance to get into the core of a more general topic.
A Network Model of Re-Ranking
Author centrality is a network model approach of re-ranking taking the social
structure of a scientific community into account. The approach is motivated
by the perception of “science (as) a social institution where the production of
scientific knowledge is embedded in collaborative networks of scientists”
(He 2009). The increasing significance of collaboration in science correlates
with an increasing impact of collaborative papers (Beaver 2004), due to the
complexity of nowadays research issues that require more collaboration (cf.
Jiang 2008).
190
Collaboration in science is mainly represented by co-authorships between
two or more authors who write a publication together. Transferred to a whole
community, co-authorships form a co-authorship network as a particular
“prototype of a social network” (Yin et al. 2006) that reflects the overall collaboration structure of a community. As inequality of positions is a structural
property in social networks in general, locating strategic positions in scientific collaboration structures becomes an important issue also in examining
the relevance of authors for a field (cf. Jiang 2008, Lu and Feng 2009, Liu et
al. 2005). This perception of collaboration in science corresponds directly
with the idea of structural centrality (Freeman 1977). Many authors characterize collaboration in science in terms that match a concept of centrality
widely used in social network analysis (Chen et al. 2009, Yin et al. 2006),
namely the betweenness centrality measure which evaluates the degree to
which a node is positioned between others on shortest paths and thus emphasizes the node’s brokerage role in the network’s information flow (Freeman
1977, cf. Mutschke 2010).
As collaboration inherently implies the share of knowledge, high betweenness authors can be therefore seen as “pivot points of knowledge flow
in the network” (Yin et al. 2006) and, by bringing different authors together,
as the driving forces of the community making processes itself. The general
assumption of the proposed model therefore is that the authors’ impact on a
scientific field can be quantified by their betweenness in co-authorship networks (cf. Yan and Ding 2009) and is therefore taken as an index of their
publications. In short, this is done as follows (Mutschke 1994, 2004): (1) A
co-authorship network is calculated on-the-fly on the basis of the result set to
a specific query. (2) For each individual author in the network the betweenness is computed. (3) Each publication in the result set is weighted by the
highest betweenness value of its authors (yielding a relevance value for each
publication in the result set). (4) The result set is then re-ranked in descending order by that relevance values of the publications such that publications
of central authors appear on top of the ranking.
The adequacy of this approach was confirmed by a number of empirical
studies that turned out a high correlation between betweenness and other
structural attributes, such as citation counts (Yan and Ding 2009), program
committee membership (Liu et al 2005) and centrality of author topics in
keyword networks (Mutschke and Quan-Haase 2001). Accordingly, an evaluation of the proposed ranking model (see below) has shown a higher precision than the text-based ranking. But, more importantly, it turned out that it
191
favors quite other relevant documents. Thus, the true benefit of such a network model based ranking approach is that it provides a quite different view
on the document space than pure text-based rankings.
However, two particular problems also emerge from that model. One is
the conceptual problem of author name ambiguity (homonymy, synonymy)
in bibliographic databases. In particular, the potential homonymy of names
may misrepresent the true social structure of a scientific community. The
other problem is the computation effort needed for calculating betweenness
in large networks that may bother, in case of long computation times, the
retrieval process and finally user acceptance.
Evaluation Results
To evaluate the general feasibility and performance of the models, we conducted a user assessment where 369,397 single documents from the SOLIS
database on Social Science topics were evaluated by 73 information science
students for 10 topics. The documents include title, abstract, controlled keywords etc. The assessment system was built on top of the IRM prototype.
The three services were compared to a tf-idf ranked result set from the underlying Solr search engine. Since the assessments were conducted with students
instead of domain experts, Fleiss’ Kappa values were calculated to measure
the degree of inter-rater agreement (Schaer et al. 2010). Since there is no
general accepted threshold for Fleiss’ Kappa (cp. Sim and Wright, 2005), a
custom threshold of 0.40 was selected and the values for three topics were
dropped. The average precision among the top 10 documents for each service
was: AUTH: 61%, BRAD: 56%, SOLR 52% and STR: 64% (according to a
t-test the differences between the service are not statistical significant). A
comparison of the intersection of the relevant top 10 documents between
each pair of retrieval service shows that the result sets are nearly disjoint. 400
assessed documents (4 services * 10 per service * 10 topics) only had 36
intersections in total. AUTH and SOLR as well as AUTH and BRAD have
just three relevant documents in common (for all 10 topics), and AUTH and
STR have only five documents in common. BRAD and SOLR have six, and
BRAD and STR have five relevant documents in common. The largest, but
still low overlap is between SOLR and STR, which have 14 common docu-
192
ments. Thus, there is no or very little overlap between the sets of relevant
top-ranked documents obtained from different rankings.
Two results can be clearly seen: (1) The measured precision values of the
evaluated services are at least the same or slightly better than the tf-idf based
SOLR baseline (based on the degree of data cleaning) and (2) the services
returned clearly disjoint result sets emphasizing that the three services provide quite different views on the document space. This strongly suggests
thinking about a combination of the different services.
Model Combination
As a next step in the IRM project we are dealing with combinations of the
three models in various ways: (1) by using one model output as a filter
mechanism for further iterations, (2) by computing combined ranking scores.
The first combination method works in a similar way as faceted search approaches where items returned by different search services are used to filter
the result set. Accordingly, AUTH can be applied on the set of publications
assigned to core journals determined by BRAD. Our prototype allows every
combination of the three services. Typically the more filter steps are taken,
the smaller the result set gets.
A more sophisticated approach is to create a combined ranking score (cf.
the popular ‘learning to rank’ methods). As discussed before, an inherent
problem of both re-ranking mechanisms BRAD and AUTH is the lack of an
“inner group” ranking. When a journal is detected as a core journal its corresponding documents are ranked to the top but the rank of each single document within this group is not defined. To solve this problem, a combination
of the original tf-idf score (mapped on [0,1]) and a journal or author specific
weighting factor is applied. To compute the weighting factor
for a
document d with respect to a journal j and a query q, the document count for
j is multiplied with a factor of 1/
where
is the maximum count
for all journals J obtained for q. This yields a score within [0,1]. The factor
is 1 when d is assigned to the journal having the highest coreness and it is
0 when d is not published in a journal. The same approach is applied for the
weighting factor for author centrality
. Here all centrality values are
where
mapped in [0,1] by multiplying each centrality value with 1/
193
is the highest centrality value q. The factor
is 1 when d is assigned to the most central author and it is 0 when d’s author is isolated.
The actual score, which is used for the final ranking process, is now computed with the following formula:
,
where tf-idf could be complemented by STR. When one of the factors is 0 the
score is 0 and the document is discarded. Thus, the combined score tends to
be a strong filtering method since it focuses on documents loading on all
relevance indicators used.
Outlook:
A Service-Oriented Architecture of Retrieval Models
The proposed models are implemented in an interactive web-based prototype3 using Solr for searching, Recommind Mindserver for the STR, own
Java classes for BRAD and AUTH and the Grails Web framework for the
interface. The user can dynamically modify the retrieval process by applying
one of the models proposed either for the initial search or on the result set
obtained. Moreover, the services can be combined to enhance the effects
provided and in addition we tend to give more control over the services to the
user. Currently, the prototype is going to be re-implemented as a serviceoriented architecture (SOA) of re-usable, combinable and scalable web services (see this approach also in Daffodil4). The major goal here is to have an
architecture that provides services not only within the boundaries of a single
IR system (as Private Services) but also as Public Services via the web such
that the services can be used also by external information systems (see Figure
2). The other way around, this architecture allows for an easier integration of
further value-added services provided by external partners.
3 http://www.gesis.org/beta/prototypen/irm
4 http://www.daffodil.de/
194
Figure 2: Retrieval services as loosely coupled Web Services in a service-oriented
architecture. The three proposed services are used internally as private services. They
are also available as public services on the web and are free to be integrated in other
retrieval systems. At the same time external services e.g. from social networks or
public services like Word Net can be integrated in our own system.
In this paper we have shown a further dimension of using science models,
the application of science models for search. We have discussed and implemented three science model driven retrieval services to improve search in
scholarly information systems. As a next step, our proposed SOA architecture might be an appropriate open framework for an integration and combination of further science models. This approach might be also a novel paradigm
for enhanced Information Retrieval.
References
Armstrong, T. G.; Moffat, A.; Webber, W. & Zobel, J. (2009). Improvements that
don’t add up: ad-hoc retrieval results since 1998. In: Proceeding of the CIKM
’09, pp. 601–610.
Bates, J. (1990). ‘Where should the person stop and the information search interface
start?’, Information Processing & Management 26 (5), pp. 575–591.
Beaver, D. (2004). Does collaborative research have greater epistemic authority?
Scientometrics 60 (3), pp. 399–408.
Bradford, S. C. (1934). Sources of information on specific subjects. Engineering,
137(3550), pp. 85–86.
195
Chen, C., Chen, Y., Horowitz, M., Hou, H., Liu, Z. & Pellegrino, D. (2009). Towards
an explanatory and computational theory of scientific discovery. Journal of Informetrics 3, pp. 191–209.
Freeman, L. C. (1977). A set of measures of centrality based on betweenness. Socioetry 40, pp. 35–41.
Fuhr, N. (2010). IR Between Science and Engineering, and the Role of Experimentation. Keynote talk at CLEF 2010, Padua, Italy.
Furnas, G. W.; Landauer, T. K.; Gomez, L. M. & Dumais, S. T. (1987). The Vocabulary Problem in Human-System Communication, Communications of the ACM
30 (11), pp. 964–971.
He, Z.-L. (2009). International collaboration does not have greater epistemic authority. JASIST 60(10), pp. 2151–2164.
Hjørland, B., and Nicolaisen, J. (2005). Bradford’s law of scattering: ambiguities in
the concept of “subject”. 5th International Conference on Conceptions of Library
and Information Science.
Ingwersen, P. and Järvelin, K. (2005), The turn: integration of information seeking
and retrieval in context. Springer.
Jiang, Y. (2008). Locating active actors in the scientific collaboration communities
based on interaction topology analysis. Scientometrics 74(3), pp. 471–482.
Liu, X., Bollen, J., Nelson, M. L. & Sompel, H. van de (2005). Co-Authorship Networks in the Digital Library Research Community. Information Processing &
Management 41 (2005), pp. 1462–1480.
Mayr, P. (2010). Information Retrieval Mehrwertdienste für Digitale Bibliotheken:
Crosskonkordanzen und Bradfordizing. GESIS-Schriftenreihe, Bd. 5.
Mutschke, P., Mayr, P., Schaer, P & Sure, Y. (2011 to appear). Science Models as
Value-Added Services for Scholarly Information Systems. Scientometrics. Special Issue on “Modelling science – mathematical models of knowledge dynamics”.
Mutschke, P. (1994): Processing Scientific Networks in Bibliographic Databases. In:
Bock, H. H., et al. (eds.): Information Systems and Data Analysis, Heidelberg
Berlin, S. 127–133.
Mutschke, P. and Quan-Haase, A. (2001). Collaboration and Cognitive Structures in
Social Science Research Fields: Towards Socio-Cognitive Analysis in Information Systems. Scientometrics 52 (3), pp. 487–502.
Mutschke, P. (2004). Autorennetzwerke: Netzwerkanalyse als Mehrwertdienst für
Informationssysteme. In: Information zwischen Kultur und Marktwirtschaft: Proceedings ISI 2004. Konstanz, S. 141–162.
196
Mutschke, P. (2010). Zentralitäts- und Prestigemaße. In: Häußling, Roger; Stegbauer, Christian (Eds.): Handbuch Netzwerkforschung. Wiesbaden: VS-Verlag für
Sozialwissenschaften.
Petras, V. (2005). How one Word can make all the Difference – Using Subject
Metadata for Automatic Query Expansion and Reformulation. Working Notes for
the CLEF 2005 Workshop, 21–23 September.
Petras, V. (2006). Translating Dialects in Search: Mapping between Specialized
Languages of Discourse and Documentary Languages. University of California,
Berkley.
Pontigo, J. and Lancaster, F. W. (1986). Qualitative aspects of the Bradford distribution. Scientometrics, 9(1–2), 59–70.
Schaer, P.; Mayr, P. & Mutschke, P. (2010). Implications of Inter-Rater Agreement
on a Student Information Retrieval Evaluation. Proceedings of LWA2010.
Sim, J. and Wright, C. C. (2005). The Kappa Statistic in Reliability Studies: Use,
Interpretation, and Sample Size Requirements. Physical Therapy. Vol. 85, pp.
257–268.
Yan, E. and Ding, Y. (2009). Applying Centrality Measures to Impact Analysis: A
Coauthorship Network Analysis. JASIST 60(10), pp. 2107–2118.
Yin, L., Kretschmer, H., Hannemann, R. A. & Liu, Z. (2006). Connection and stratification in research collaboration: An analysis of the COLLNET network. Information Processing & Management 42, pp. 1599–1613.
White, H. D. (1981). ‘Bradfordizing’ search output: how it would help online users.
Online Review, 5(1), 47–54.
Spezielle Anforderungen bei d. Evaluierung von Patent-Retrieval-Syst. 197
Spezielle Anforderungen
bei der Evaluierung von
Patent-Retrieval-Systemen
Marienburger Platz 22, 31141 Hildesheim
{daniela.becks, mandl, womser}@uni-hildesheim.de
Zusammenfassung
Innerhalb der informationswissenschaftlich geprägten Fachinformation nimmt
die Patentdomäne eine gewisse Sonderstellung ein, da sie über eine Reihe
von Besonderheiten verfügt, die es notwendig machen, die klassischen Methoden der Bewertung zu überarbeiten bzw. zu adaptieren. Dies belegen unter
anderem die Ergebnisse des Intellectual Property Track, der seit 2009 im
Rahmen der Evaluierungskampagne CLEF1 stattfindet. Der vorliegende Artikel beschreibt die innerhalb des zuvor genannten Track erzielten Ergebnisse. Darüber hinaus werden die Konsequenzen für die Evaluierung von Patent-Retrieval-Systemen herausgearbeitet.
Abstract
Within the area of specialized information, the patent domain is considered to
be quite unique, because it has a number of characteristics, which long for a
change or the adaption of traditional evaluation methods. This fact is, for
example, shown by the results of the Intellectual Property Track, which since
2009 takes place in the context of the CLEF evaluation campaign. This paper
presents the results gained within the above mentioned track. Furthermore,
the consequences for the evaluation of patent retrieval systems are pointed
out.
1 Cross-Language Evaluation Forum: http://www.clef-campaign.org
198
1
Einleitung
Für Forschung und Bildung innerhalb aller wissenschaftlichen Disziplinen
stellt die Fachinformation bzw. Informationsinfrastruktur eine wichtige
Grundlage dar. Besondere Beachtung findet dabei die Patentinformation. Es
zeigt sich vermehrt, dass sich diese in der Informationswissenschaft zu einem
interessanten Forschungsgegenstand entwickelt, da sie über besondere Charakteristika verfügt, die sie von anderen Domänen deutlich unterscheiden. In
der Patentinformation laufen die Ergebnisse verschiedener Disziplinen zusammen, was sich in der Heterogenität dieses Bereichs widerspiegelt. Zu den
Besonderheiten zählen unter anderem die Terminologie innerhalb von Patentschriften (vgl. z.B. Graf/Azzopardi 2008; Schamlu 1985), das Suchverhalten der Nutzergruppen und die Nutzer selbst (vgl. z.B. Graf/Azzopardi 2008).
Infolgedessen liefert die Patentdomäne auch für die Informationswissenschaft, die sich u.a. mit Fachinformation, Informationssystemen und deren
Evaluierung sowie dem Informationssuchverhalten beschäftigt, interessante
Ansatzpunkte.
Die Bedeutung der Patentinformation für die Wissenschaft erhöht sich mit
der Anzahl der Patentierungen. Gleichzeitig steigt auch die Anzahl an Forschungsaktivitäten im Bereich Patent Information Retrieval an. Dieses hat
sich mittlerweile zu einem selbstständigen Forschungsgebiet etabliert, das es
sich zur Aufgabe macht, die traditionellen Methoden und Werkzeuge des
Information Retrieval an diese spezielle Domäne anzupassen. Die zuvor genannten Charakteristika von Patenten stellen dabei in nahezu allen Bereichen
des Retrieval-Prozesses eine große Herausforderung dar. Hier sei zunächst
auf die Indexierung der Patentdokumente und den eigentlichen Suchprozess
verwiesen. Für die Evaluierung entsprechender Informationssysteme stellen
sich weitere Anforderungen, auf die im zweiten Kapitel dieses Beitrags eingegangen wird. Eine genaue Betrachtung der Schwierigkeiten, die im Rahmen des Retrieval-Prozesses auftreten können, folgt in Kapitel 3. Der Beitrag
schließt mit einer Diskussion dieser Erkenntnisse.
2
Patent Retrieval im Rahmen von CLEF
Im Jahre 2009 hielt das Patent Information Retrieval erstmals Einzug in die
europäische Evaluierungsinitiative CLEF, welche die Mehrsprachigkeitsproblematik in die Information-Retrieval-Evaluierung einbezieht. Zuvor waren Patent-Retrieval-Verfahren bereits in TREC2 und NTCIR3 involviert. Das
Ziel des sogenannten Intellectual Property Track (CLEF-IP Track) besteht
darin, Information-Retrieval-Techniken für Patente in verschiedenen Sprachen zu evaluieren (vgl. Roda et al. 2010: 385).
2.1
Testkollektion und Topics
Die Experimente im Rahmen des CLEF-IP Track basieren auf dem Einsatz
einer speziellen Testkollektion, die sich aus einer Vielzahl an Patenten des
Europäischen Patentamtes (EPO) zusammensetzt (vgl. Roda et al. 2010:
387 f.; Piroi 2010b: 17). Da es sich um eine cross-linguale Evaluierungsinitiative handelt, beinhaltet die Testkollektion sowohl englischsprachige Dokumente als auch Patent- und Anmeldeschriften in Deutsch und Französisch
(vgl. Roda et al. 2010: 389; Piroi 2010b: 17). Während sich die Kollektion
im Falle des CLEF-IP Track 2009 aus ungefähr 1,6 Millionen Dokumenten
zusammensetzt (vgl. Roda et al. 2009: 388), umfasst das Korpus 2010 bereits
2,6 Millionen Patent- und Anmeldeschriften (vgl. Piroi 2010a: 3).
Im Rahmen von Evaluierungsinitiativen wird eine Aufgabe typischerweise durch ein sogenanntes Topic beschrieben (vgl. z.B. Mandl 2010:
341 f.). Es sei angemerkt, dass die automatische Generierung von Queries aus
Anfragedokumenten bereits ein erhebliches Problem darstellt, da die Anfrageformulierung im Rahmen der Patentrecherche den wahrscheinlich wichtigsten Prozess darstellt. Es kommt erschwerend hinzu, dass innerhalb der
Patentdomäne wenig Information über die eigentliche Anfrageformulierung
öffentlich gemacht wird. Für die automatische Evaluierung bedeutet dies,
dass die Anfrage häufig ohne explizites Wissen modelliert werden muss.
Bereits in diesem Schritt können jedoch erhebliche Fehler auftreten, die sich
auf die Retrieval-Ergebnisse auswirken.
2 Text Retrieval Conference: http://trec.nist.gov/
3 Asiatische Evaluierungsinitiative: http://research.nii.ac.jp/ntcir/index-en.html
200
Im Kontext des Intellectual Property Track stehen unterschiedliche Sets
von Anfragedokumenten, deren Umfang von 500 (small set) bis hin zu
10.000 (large set) variiert (vgl. Roda et al. 2010: 390; Piroi 2010a: 4), zur
Verfügung. Sowohl die Dokumente in der Kollektion als auch die Topics
weisen die typische Patentstruktur auf. In Anlehnung an Graf und Azzopardi
untergliedert sich ein Patent in folgende Abschnitte:
• Bibliografische Daten (z.B.: Name des Erfinders)
• Offenlegung (z.B.: Titel, Beschreibung)
• Ansprüche
(vgl. Graf/Azzopardi 2008: 63 f.)
Die bereits angedeuteten terminologischen Besonderheiten finden sich vor
allem in den textuellen Abschnitten wieder. Abschnitt eins umfasst ausschließlich Metadaten. Von besonderer Bedeutung sind zudem die Klassifikationsangaben wie die IPC4-Klassen. (vgl. Becks et al. 2010a: 492)
2.2
Aufgaben im Rahmen des CLEF-IP Track
Im Jahre 2009 startete der Intellectual Property Track mit der Prior ArtSuche, die darauf abzielt, festzustellen, ob eine Erfindung oder auch nur ein
Teil dieser bereits existiert oder nicht (vgl. Graf/Azzopardi 2008: 64; Roda et
al. 2010: 390). Sie stellt eine der am häufigsten praktizierten Recherchearten
dar (vgl. Graf/Azzopardi 2008: 64). In Anlehnung an Roda et al. nutzen Patentanmelder diese Form der Suche, bevor sie eine Anmeldung einreichen,
um zu prüfen, ob die geplante Erfindung in der Literatur bereits dargelegt
wurde. Patentprüfer führen die Prior-Art-Recherche hingegen aus, um festzustellen, ob die in der Anmeldung beschriebene Erfindung den Anspruch
der Neuheit erfüllt und somit patentierfähig ist. (vgl. Roda et al. 2010: 390)
Diese Retrieval-Aufgabe wurde 2010 beibehalten, jedoch durch eine
Klassifikationsaufgabe mit dem Ziel, ein gegebenes Patent entsprechend
seiner IPC-Klassen einzuordnen, ergänzt (vgl. Piroi 2010b: 17; Piroi 2010a:
4).
4 Internation Patent Classification
3
Besonderheiten der Patentdomäne
Sowohl im Jahr 2009 als auch in 2010 wurden im Rahmen des CLEF-IP
Track vom Institut für Informationswissenschaft und Sprachtechnologie der
Universität Hildesheim Experimente durchgeführt. Zu diesem Zweck entwickelte man eine Retrieval-Umgebung auf der Basis der Open-SourceSuchmaschine Lucene5. Eine detaillierte Beschreibung dieses RetrievalSystems findet sich beispielsweise in Becks et al. 2010a.
Des Weiteren wurde innerhalb eines Kooperationsprojektes mit FIZ
Karlsruhe untersucht, wie der Retrieval-Prozess innerhalb dieser Domäne
gezielt unterstützen werden kann (vgl. Hackl-Sommer 2010).
Wie bereits angedeutet, verfügt die Patentdomäne über einige Charakteristika, die sie von anderen Domänen unterscheidet. Im nachfolgenden Kapitel werden einige dieser Besonderheiten herausgearbeitet und vor dem Hintergrund der Experimente innerhalb des CLEF-IP Track diskutiert. Der Fokus
liegt dabei insbesondere auf den Schwierigkeiten, die sich aufgrund dieser
domänenspezifischen Eigenschaften ergeben.
3.1
Terminologie
Im Falle von Patentdokumenten handelt es sich um eine sehr spezielle und in
sich heterogene Textsorte, bei der verschiedene Arten von Begrifflichkeiten
aufeinander treffen. So finden sich einerseits sehr allgemeine Terme (vgl. u.a.
Graf/Azzopardi 2008: 64) wie „System“, „Ansatz“ oder „Methode“. Da derartige Terme in der Patentschrift vermehrt auftreten, bringen sie innerhalb
des Retrieval-Prozesses wenig Nutzen. Eine Anfrage, die sich ausschließlich
aus vagen Termen oder Phrasen zusammensetzt, resultiert meist in einer sehr
umfangreichen Ergebnisliste (vgl. auch Becks et al. 2010a: 492). Aus der
Sicht der Patentanmelder eignen sich diese Terme, um den genauen Inhalt zu
verschleiern und das Auffinden zu beeinträchtigen. Um diesem Problem entgegenzuwirken, kam im Rahmen der Experimente im Jahre 2009 und 2010
eine domänenspezifische Stoppwortliste zum Einsatz. Dabei handelt es sich
um eine Standardstoppwortliste6, die um die zuvor genannten allgemeinen
5 http://lucene.apache.org/
6 http://members.unine.ch/jacques.savoy/clef/index.html
202
Terme erweitert wurde. Innerhalb der Patentschrift können zudem Fachtermini in folgenden Ausprägungen vorliegen:
• Komplexe Phrasen in verschiedenen linguistischen Relationen
• Komposita und Wortzusammensetzungen mit Bindestrich
• Zahlen, Formeln und physikalische Einheiten (auch als Bestandteil in
komplexeren Einheiten)
• Akronyme
(Becks et al. 2010a: 493)
Technische Fachbegriffe wie „AGR-System“ (EP-1114924-B1) stellen insbesondere während des Indexierungsprozesses eine Schwierigkeit dar, denn
sie bedürfen spezieller Werkzeuge für die Vorverarbeitung und Normierung.
Einen Sonderfall bilden vor allem Zahlen, die in diesem Artikel ebenfalls zu
der Kategorie Technisches Vokabular zählen. Sie tauchen innerhalb der Patentschrift beispielsweise in Form von Verweisen auf, aber auch als Mengenangaben treten sie in Erscheinung. Liegen Zahlen in Form von Verweisen
(beispielsweise auf Abbildungen oder Claims) vor, so besitzen sie eher
Stoppwortcharakter und resultieren ebenfalls in einer sehr umfangeichen Ergebnisliste. Zahlen, die jedoch gemeinsam mit Einheiten, z.B. „1.2288 MHz“
(EP-1117189-B1) oder innerhalb von chemischen Elementen auftreten, beispielsweise „Cis-Diamminoplatin(II)chlorid“ (EP-1520870-B1), können das
Retrieval hingegen entscheidend beeinflussen. Infolgedessen erscheint es
problematisch, Zahlen im Zuge der Stoppworteliminierung zu entfernen.
Aufgrund der zuvor genannten Problematik stellt sich die Frage, ob sich
einfache Terme für das Patent Information Retrieval überhaupt eignen oder ob
man Phrasen den Vorzug gewähren sollte. Dieser Fragestellung wurde im Rahmen der CLEF-Experimente im Jahre 2010 nachgegangen. Dabei zeigte sich
deutlich, dass sich Recall und Mean Average Precision eines Patent Retrieval
Systems durch den Einsatz von Phrasen erhöhen lassen (siehe Tabelle 1).
Tab. 1: Retrieval-Ergebnisse CLEF-IP Track 2010 (aus Becks et al. 2010b)
Run
EN_BM25_Terms_allFields
EN_BM25_Phrases_title
EN_BM25_Phrases_des_cl
EN_BM25_Phrases_allFields
Recall
0.3298
0.4816
0.3665
0.3605
Precision
0.0125
0.0124
0.0109
0.0116
MAP
0.0414
0.0493
0.0415
0.0422
7 Die P@5gibt die Precision nach 5gefundenen Dokumenten an.
P@57
0.0914
0.0870
0.0922
0.0938
Ein Vergleich der Ergebnisse des ersten (EN_BM25_Terms_allFields)
und vierten (EN_BM25_Phrase_allFields) Experiments, indem jeweils die
Inhalte aus den Abschnitten Titel, Ansprüche und Beschreibung in die Anfrage einfließen, zeigt, dass die Verwendung von Phrasen anstelle einfacher
Terme eine leichte Erhöhung der Mean Average Precision und des Recall
bewirken. Diese ist jedoch sehr gering. Darüber hinaus belegen die Ergebnisse innerhalb der Tabelle deutlich, dass die Mean Average Precision im
Falle des zweiten Experiments (EN_BM25_Phrases_title), in dem ausschließlich Phrasen aus dem Titel der Patentschrift zum Einsatz kamen, mit
4,93% am höchsten ist. Es zeigt sich zudem, dass der Recall mit rund 48%
die Werte der übrigen Experimente deutlich übersteigt. Insgesamt zeigt sich,
dass die Retrieval-Ergebnisse sehr niedrig ausfallen und Verbesserungen
möglich und auch notwendig sind.
3.2
Retrieval-Parameter
Als Retrieval-Parameter werden an dieser Stelle alle Variablen bezeichnet,
die auf den Retrieval-Prozess Einfluss haben. Hierzu zählt unter anderem das
zugrunde liegende Modell bzw. der verwendete Ranking-Algorithmus.
Der Retrieval-Prozess wird innerhalb der Patentdomäne im Wesentlichen
von den folgenden zwei übergeordneten Zielen dominiert:
• Maximierung des Recall
• Erhöhung der Precision
(vgl. Kando 2000: 40 f.).
Als elementar wird die Maximierung des Recall im Rahmen der Prior-ArtSuche (siehe Kapitel 2.2) angesehen, da in diesem Szenario alle Dokumente
von Bedeutung sind, die belegen, dass eine geplante oder schon angemeldete
Erfindung bereits existiert oder nicht (vgl. Graf/Azzopardi 2008: 64; Roda et
al. 2010: 390). Allein ein fehlendes Dokument kann in diesem Fall zu einer
Patentverletzung führen. Im Rahmen der Experimente im Jahre 2009 und
2010 wurde versucht, dieser Forderung nachzukommen. Dabei zeigte sich,
dass die Internationale Patentklassifikation ein geeignetes Instrument zur
Maximierung des Recall darstellt. Es wurden die ersten acht Stellen des
Klassifikationscodes berücksichtigt, was der Patenthauptgruppe entspricht.
Weiterhin wurde die Annahme zugrunde gelegt, dass ein relevantes Dokument mindestens einen Klassifikationscode mit dem Anfragedokument teilen
204
muss. Im CLEF-IP Track 2010 konnten auf diese Weise etwa 48% der relevanten Dokumente abgedeckt werden (vgl. Becks et al. 2010b: 4).
Im Hinblick auf das zweite übergeordnete Ziel lässt sich festhalten, dass
die Erhöhung der Precision vor allem für den sich an die Recherche anschließenden Analyseprozess eine große Rolle spielt, denn Patentrechercheure investieren in der Regel sehr viel Zeit in diesen Schritt (vgl. Azzopardi et al. 2010: 15). Je höher die Precision eines Patent-Retrieval-Systems,
desto weniger irrelevante Dokumente enthält die Ergebnisliste. Dies hätte
wiederum zur Folge, dass sich der Aufwand, der für die Sichtung und Analyse der Ergebnisliste notwendig ist, erheblich reduziert. Im Hinblick auf die
Suchergebnisse sollte zudem angestrebt werden, alle für den Rechercheur
relevanten Patentschriften an der Spitze der Ranking-Liste zu platzieren. In
diesem Zusammenhang stellte sich im Rahmen der CLEF-IP Experimente
heraus, dass die Implementierung des Okapi-Algorithmus (BM25) (vgl. z.B.
Robertson/Spärck 1994), dieser Forderung Rechnung trägt. Insbesondere die
Precision nach fünf gefundenen Dokumenten (P@5) konnte deutlich erhöht
werden (vgl. Becks et al. 2010b). Ein Vergleich der Ergebnisse beider Jahre
belegt diese Tatsache.
Tab. 2: Retrieval-Ergebnisse BM25/tf-idf (nach Becks et al. 2010a und 2010b)
Run
Run CLEF-IP 2009 (tf-idf)
Run CLEF-IP 2010 (bm25)
Recall
0.2052
0.3298
Precision
0.0026
0.0125
MAP
0.0200
0.0414
P@5
0.0000
0.0914
Anhand der vorliegenden Tabelle zeigt sich der Vorteil des BM25-Gewichtungsmodells sehr deutlich, denn der Run CLEF-IP 2010 weist mit etwa
9% eine weitaus höhere P@5 auf. Beide Experimente wurden unter nahezu
identischen Versuchsbedingungen durchgeführt, die nachfolgend kurz dargestellt sind:
• Suche auf der Basis eines englischen Index
• Stemming erfolgt mithilfe des Porter Stemmer
• Anfrage wird aus allen Feldern generiert
• Verwendung einfacher Terme innerhalb der Anfrage
Lediglich der Ranking-Algorithmus variierte. Im Rahmen des CLEF-IP
Tracks 2009 basierte das verwendete Retrieval-System auf der Standardimplementierung von Lucene. Hierbei handelt es sich um eine modifizierte
Variante des Vektorraummodells. Das Ranking der Ergebnisdokumente erfolgt somit mithilfe der tf-idf-Gewichtung. (vgl. Becks et al. 2010a) Im Jahre
2010 zeigte sich hingegen, dass die Umstellung auf BM25 erfolgreich war.
Die Ergebnisse in Tabelle 2 belegen deutlich, dass dieser Schritt sowohl eine
Steigerung der Mean Average Precision als auch der P@5 bewirkt hat. Im
Hinblick auf die Eingangshypothese lässt sich zusammenfassen, dass die
Implementierung des Okapi-Algorithmus in diesem Fall eine Zeitersparnis
innerhalb des Analyseprozesses herbeiführen würde, da sich mehr relevante
Dokumente in den obersten Positionen der Ranking-Liste befinden.
3.3
Relevanzmodell
Wie bereits erwähnt, basieren die Experimente im Rahmen des CLEF-IP
Track auf einer vom IRF bereitgestellten Testkollektion. Diese beinhaltet
neben den Dokumenten und Topics auch Relevanzurteile, die in der Regel
intellektuell durch Juroren generiert werden (vgl. z.B. Mandl 2010: 342). Im
Rahmen der Patentdomäne ist diese Aufgabe nicht trivial, da das inhaltliche
Verständnis einer Patentschrift ein erhöhtes Maß an Domänenwissen erfordert. Durch die Breite der vertretenen Disziplinen ist sehr unterschiedliche
Expertise gefragt. Dies hat zur Folge, dass für die einzelnen Domänen (z.B.
Chemie oder Physik) jeweils ein entsprechender Experte zur Verfügung stehen muss. Des Weiteren erweist sich die manuelle Bewertung einer gegebenen Menge an Dokumenten häufig als sehr ressourcenintensiv. (vgl. auch
Roda et al. 2010: 386, 392) Es kommt erschwerend hinzu, dass insbesondere
im Falle von Patenten eine Relevanzentscheidung auf der Basis des Titels
häufig nicht möglich ist, da sich dieser in der Regel als sehr vage erweist, wie
das folgende Beispiel verdeutlicht.
Beispiel: „Schneidplatte“ (EP-1125660-B1)
Von den Organisatoren wurde daher auf einen alternativen Ansatz zurückgegriffen, der auf den innerhalb der Patentschrift vorliegenden Zitationen basiert. Diese können folgende zwei Ausprägungen annehmen:
• Zitationen von Patentanmeldern
• Zitationen von Patentprüfern
(vgl. Roda et al. 2010: 393)
Während erstere eher subjektiv sind, da die Anmelder selbst auswählen, welche Quellen sie zitieren, handelt es sich im Falle der Zitationen von Patentprüfern streng genommen bereits um Expertenurteile. Die in der Kollektion
enthaltenen Relevanzurteile beinhalten beide Formen der Relevanz. Die Eig-
206
nung dieses Verfahrens wurde durch Patentexperten unterstützt (vgl. Roda et
al. 2010: 393). Insgesamt ist dieses Bewertungsmodell dennoch kritisch zu
sehen, da es sich um ein konstruiertes Szenario handelt. Gemäß dem zuvor
beschriebenen Ansatz besitzt ein Anfragedokument in der Regel immer relevante Dokumente, da die Zitationen in jeder Patentschrift vorliegen. Für das
betrachtete Retrieval-Szenario der Prior-Art-Suche erscheint diese Annahme
allerdings untypisch, da der Fall, dass eine Erfindung tatsächlich neu ist und
keinen State of the Art vorweist, unbeachtet bleibt. Abschließend sei angemerkt, dass sich die in den Patentschriften enthaltenen Zitationen auch innerhalb des Retrievals einsetzen ließen. Im Rahmen der Experimente sollte jedoch auf diese Vorgehensweise verzichtet werden.
4
Diskussion
Dieser Artikel macht deutlich, dass die Patentdomäne über zahlreiche Besonderheiten verfügt, die es notwendig machen, die klassischen Ansätze der
Information-Retrieval-Evaluierung zu überarbeiten bzw. an die Domänenspezifika anzupassen. Dies belegen auch die Ergebnisse im Rahmen des
CLEF-IP Track, die insgesamt eher schlecht ausgefallen sind (vgl. z.B. Roda
et al. 2010). In diesem Kontext zeigten sich insbesondere die Schwächen
einfacher Baseline-Ansätze, jedoch konnten auch Patent-Retrieval-Systeme,
die zum Teil auf linguistischen Verfahren aufsetzen (vgl. z.B. Herbert et al.
2010), lediglich durchschnittliche Ergebnisse erzielen. Daher liegt die Vermutung nahe, dass patentspezifisches Wissen notwendig ist, um die Ergebnisse weiter zu verbessern. Ein erster wichtiger Schritt bestünde darin, Methoden und Werkzeuge für die Vorverarbeitung zu entwickeln, die gezielt an
den Spezifika dieser Textsorte ansetzen. An dieser Stelle sei erneut an die
Problematik der heterogenen Begrifflichkeiten erinnert (siehe Kapitel 3.1).
Für entsprechende Werkzeuge bedeutet dies, dass diese sowohl im Hinblick
auf eine Allgemein- als auch verschiedene Fachsprachen trainiert werden
müssen. Darüber hinaus erscheint es notwendig, verfügbare Ressourcen (z.B.
Stoppwortlisten) umfangreich zu überarbeiten bzw. zu erweitern. Am kritischsten erweist sich jedoch das vorgestellte Relevanzmodell, da es auf Expertenurteile im engeren Sinne verzichtet. Die Einbeziehung von Patentexperten erscheint jedoch zwingend notwendig. Eine Art Expertenpool wäre
im Rahmen des Evaluierungsprozesses von sehr großem Vorteil.
Azzopardi, Leif; Joho, Hideo; Vanderbauwhede, Wim (2010): Report: A Survey on
Patent Users Search Behavior, Search Functionality and System Requirements.
Becks, Daniela; Womser-Hacker, Christa; Mandl, Thomas; Kölle, Ralph (2010a):
Patent Retrieval Experiments in the Context of the CLEF IP Track 2009. In: Multilingual Information Access Evaluation I. Text Retrieval Experiments. Proceedings of the 10th Workshop of the Cross-Language Evaluation Forum 2009. Berlin,
Heidelberg: Springer (LNCS 6241), S.491–496.
Becks, Daniela; Mandl, Thomas; Womser-Hacker, Christa (2010b): Phrases or
Terms? – The Impact of Different Query Types. In: Online Proceedings of the
CLEF-IP Track 2010, September 20–23, 2010, Padua, Italy.
http://clef2010.org/resources/proceedings/clef2010labs_submission_99.pdf
Graf, Erik; Azzopardi, Leif (2008): A methodology for building a test collection for
prior art search. In: Proceedings of the 2nd International Workshop on Evaluating
Information Access (EVIA), December 16, 2008, Tokyo, Japan, S.60–71.
Hackl-Sommer, René (2010): Patentretrieval – Unterstützende Verfahren und Transparenz bei der Patentrecherche, Fachinformationszentrum Karlsruhe.
Herbert, Benjamin; Szarvas, György; Gurevych, Iryna (2010): Prior Art Search Using International Patent Classification Codes and All-Claims-Queries. In: Multilingual Information Access Evaluation I. Text Retrieval Experiments. Proceedings of the 10th Workshop of the Cross-Language Evaluation Forum 2009. Berlin,
Heidelberg: Springer (LNCS 6241), S.452–459.
Kando, Noriko (2000): What Shall We Evaluate? – Preliminary Discussion for the
NTCIR Patent IR Challenge (PIC) Based on the Brainstorming with the Specialized Intermediaries in Patent Searching and Patent Attorneys. In: ACM-SIGIR
Workshop on Patent Retrieval, July 28, 2000, Athens, Greece, S.37–42.
Mandl, Thomas (2010): Evaluierung im Information Retrieval. In: Information Wissenschaft und Praxis, Jahrgang 61, Nr.6–7, 2010, S. 341–348.
Piroi, Florina; Tait, John (2010a): CLEF-IP 2010: Retrieval Experiments in the Intellectual Property Domain. In: Online Proceedings of the CLEF-IP Track 2010,
September 20–23, 2010, Padua, Italy.
http://clef2010.org/resources/proceedings/clef2010labs_submission_122.pdf
Piroi, Florina; Tait, John (2010b): CLEF-IP 2010: Retrieval Experiments in the Intellectual Property Domain. In: CLEF 2010 Labs and Workshops Abstracts of the
Notebook Papers, September 20–23, 2010, Padua, Italy, S.17.
208
Robertson, Stephen E.; Spärck Jones, Karen (1994): Simple, proven approaches to
text retrieval. Technical Report (Nr. 356), December 1994 version with updates
1996, 1997, 2006, University of Cambridge, Computer Laboratory.
Roda, Giovanna; Tait, John; Piroi, Florina; Zenz, Veronika (2010): CLEF-IP 2009:
Retrieval Experiments in the Intellectual Property Domain. In: Multilingual Information Access Evaluation I. Text Retrieval Experiments. Proceedings of the
10th Workshop of the Cross-Language Evaluation Forum 2009. Berlin, Heidelberg: Springer (LNCS 6241), S.385–409.
Schamlu, Mariam (1985): Patentschriften – Patentwesen. Eine argumentationstheoretische Analyse der Textsorte Patent am Beispiel der Patentschriften zu Lehrmitteln. München: Iudicium.
Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung ... 209
Entwicklung einer Benutzeroberfläche zur
interaktiven Regelgenerierung für die Suche
in historischen Dokumenten
Universität Duisburg-Essen
Lotharstr. 65, 47048 Duisburg
{ernst, korbar, awakian}@is.inf.uni-due.de
Zusammenfassung
Für Retrieval in historischen Dokumenten wird eine Abbildung der Suchbegriffe auf ihre historischen Varianten in den Dokumenten benötigt. Hierfür
wurde ein regelbasierter Ansatz entwickelt. Mit dem RuleGenerator wurde
dafür eine Benutzeroberfläche entworfen, die es dem Anwender selbst ermöglicht, automatisch Belege zu erstellen und daraus Regeln zu generieren
und zu bearbeiten. Im Rahmen einer eyetrackergestützten Benutzerstudie
wurde die Benutzerfreundlichkeit des Werkzeugs evaluiert.
Abstract
Retrieval in historic documents with non-standard spelling requires a mapping from search terms onto the terms in the document. For describing this
mapping, a rule-based approach has been developed. The RuleGenerator user
interface enables the user to create evidences automatically and hence to generate and edit rules. With an eyetracker-based user evaluation the usability
of this tool has been demonstrated.
Einleitung
Trotz verfügbarer Volltextsuche für die wachsende Zahl an digitalen, historischen Kollektionen werden viele Dokumente nicht gefunden, weil die
Schreibweise in vielen Ländern über Jahrhunderte hinweg nicht festgelegt
210
war. Die nicht-standardisierte Schreibweise führt zu Fehlern, da die meisten
Benutzer den Suchbegriff in moderner Sprache eingeben, und diese sich von
der historischen Sprache in den Dokumenten unterscheidet. Z. B. ist akzeptieren die moderne Form der Schreibvariante acceptieren. Um dieses Problem
zu lösen, wurde eine regelbasierte Suchmaschine entwickelt, bei der der Benutzer seine Anfragen in zeitgemäßer Schreibweise eingeben kann, wenn er
in historischen Texten suchen möchte [Ernst-Gerlach/Fuhr 07].
Mit wörterbuchbasierten Methoden (z. B. [Hauser et al. 07]) können nur
Wörter gefunden werden, die im Wörterbuch enthalten sind. Außerdem ist
der zeitliche Aufwand für den Aufbau der Wörterbücher relativ hoch. Werden Ähnlichkeitsmaße (z. B. [Pilz 09]) verwendet, muss der Suchbegriff mit
jedem Wort aus dem Index verglichen werden. Die entwickelte Suchmaschine überwindet diesen Nachteil mit einem regelbasierten Ansatz, um das
gesamte Vokabular abzudecken und dadurch den Recall zu erhöhen. Dafür
werden Transformationsregeln generiert, die aus einem Suchbegriff die historischen Varianten generieren [Ernst-Gerlach/Fuhr 06].
Die automatische Regelgenerierung benötigt als Trainingsdaten Belege
aus modernem Lemma und zugehöriger historischer Variante. Daraus werden
die sogenannten Regelkerne bestimmt. Diese beinhalten die notwendigen
Transformationen und identifizieren den zugehörigen Kontext. Z. B. ergibt
sich für die moderne Wortform unnütz und die historische Form unnuts
die folgende Menge, die aus zwei Regelkernen besteht: {(unn(ü→u)t),
(t(z→s))}. Im zweiten Schritt werden für jeden Regelkern die zugehörigen
Regelkandidaten (z. B. ü→u, nü→ nu, üt→ ut, nüt→ nut, Cü→ Cu, z$→s$)
bestimmt. Diese berücksichtigen auch die Kontextinformationen (z. B. Konsonant (C) oder Wortende ($)) der modernen Schreibweise. Im letzten Schritt
werden die nützlichen Regeln durch Pruning der Regelmenge bestimmt. Dazu wird eine modifizierte Version des PRISM-Algorithmus [Cenderowska
87] eingesetzt.
Durch die Zeit- und Ortsabhängigkeit der Regeln müssen die Regelsätze
jeweils neu generiert werden, wenn ein neues Korpus verfügbar wird. Zur
Vereinfachung dieses Prozesses ist eine Benutzeroberfläche erstellt worden,
die dem Benutzer sowohl bei der Belegerstellung als auch bei der Regelerstellung interaktive Unterstützung bietet. Da in [Nguyen et al. 06] für den
Bereich des Data Mining gezeigt wurde, dass eine Visualisierung den Benutzer bei der Bildung von neuen Regeln unterstützt, werden insbesondere
geeignete Übersichten über die Belege sowie die Regelmengen und -kandidaten visualisiert. Dabei soll der Benutzer keine Informatikkenntnisse zur
Bedienung benötigen. Ausgehend von seinen Bedürfnissen wird sich der
Benutzer mehr auf den Recall oder die Precision seiner Suche konzentrieren.
Das Werkzeug bietet an dieser Stelle die notwendige Flexibilität. Dabei wird
dem Benutzer automatische Unterstützung für den gesamten Prozess der Regelgenerierung angeboten.
Im folgenden Artikel wird zunächst ein kurzer Überblick über die verwandten Arbeiten im Bereich der Regelerstellung gegeben. Anschließend
wird in Abschnitt 3 der RuleGenerator vorgestellt. Das Werkzeug wird in
Abschnitt 4 evaluiert. Der letzte Abschnitt fasst den Artikel zusammen und
gibt einen Ausblick auf zukünftige Arbeiten.
Verwandte Arbeiten
[Gotscharek et al. 09] haben mit dem LeXtractor ein Werkzeug zur Konstruktion von historischen Lexika entwickelt. Die Lexikoneinträge können
auch als Belege aufgefasst werden. Da Lexikoneinträge eine hohe Präzision
aufweisen sollen, muss ein Experte alle unbekannten Wörter der Kollektion
überprüfen. Zur Unterstützung wird eine Liste mit Textstellen angeboten,
wenn ein Wort für die Konstruktion eines Lexikoneintrags ausgewählt wird.
Der LeXtractor verwendet manuell erstellte Regeln (sog. Patterns), um potenzielle moderne Formen in einem aktuellen Lexikon zu finden.
Pilz und Luther [Pilz/Luther 09] unterstützen die Sammlung von Belegen
in ihrem Evidencer Werkzeug mit einem Bayes’schem Klassifizierer, der die
Wahrscheinlichkeit schätzt, ob es sich um eine Schreibvariante handelt. Nach
einer Trainingsphase mit bekannten Belegen wird eine Liste mit unbekannten
Wörtern präsentiert, welche absteigend nach der Wahrscheinlichkeit für
Schreibvarianten sortiert werden. Der Benutzer kann den Klassifizierer anpassen, indem er den Grenzwert für mögliche Varianten verändert.
VARD 2 [Baron/Rayson 08] ist ebenfalls in der Lage, moderne Formen
für Schreibvarianten in historischen Dokumenten zu finden. Das Werkzeug
markiert alle Varianten, die nicht in einem modernen Lexikon zu finden sind.
Für jedes markierte Wort wird dem Benutzer eine Liste mit potenziellen zugehörigen modernen Schreibungen angeboten. Der Benutzer kann aus der
Liste die passende moderne Form auswählen. Ein zweiter Modus bietet zudem die Möglichkeit, automatisch die Vorschläge mit dem höchsten Ranking
212
zu akzeptieren, wenn der Wert über einem vom Benutzer festgelegten Mindestwert liegt. Um diese Vorschläge zu generieren, werden eine manuelle
Liste mit Belegen, eine modifizierte Version des SoundEx-Algorithmus und
eine manuell erstellte Liste von Ersetzungsregeln verwendet.
Zusammenfassend lässt sich feststellen, dass alle betrachteten Ansätze einen hohen manuellen Aufwand benötigen, bevor sie zur Suche nach Schreibvarianten eingesetzt werden können. Deswegen würde ein automatisches
Werkzeug den Zugang zu historischen Dokumenten für den Benutzer deutlich erleichtern.
RuleGenerator
Mit dem RuleGenerator [Awakian 2010] (s. Abb. 1) wurde ein Werkzeug
entwickelt, das dem Benutzer die automatische Generierung von Belegen und
Regeln ermöglicht.
Abbildung 1: RuleGenerator Applikation
Vor der Erstellung des RuleGenerators wurde zunächst eine Anforderungsanalyse durchgeführt. Darauf aufbauend wurde ein Design-Konzept
entwickelt. Hierfür wurden zunächst mit einer hierarchischen AufgabenAnalyse die Teilaufgaben festgelegt. Anschließend wurde das konzeptionelle
Modell der Benutzeroberfläche mithilfe von Mockups umgesetzt und mit
kognitiven Durchgängen getestet, bevor das Konzept implementiert wurde.
Bei der Analyse ergaben sich die Schwerpunkte Bildung und Bearbeitung
von Belegen sowie die Generierung und Bearbeitung von Regeln. Deswegen
wurde zunächst eine horizontale Zweiteilung in die Komponenten SmartEvidencer (oben) für die Belege und Rule-Modification (unten) [Korbar 2010]
für die Regeln vorgenommen. Der SmartEvidencer gliedert sich wiederum in
die Komponenten Evidences (rechts oben) zur Belegsammlung und bearbeitung und Historic Text (links oben) mit den Textquellen. Die RuleModification gliedert sich in die Rule-Selector- und die Rule-VisualizationKomponenten. Die Rule-Selector-Komponente (links unten) erlaubt es dem
Benutzer, durch die Regelmenge zu browsen und bestimmte Regeln zu finden. Wird eine konkrete Regel ausgewählt, wird sie rechts unten in der Visualisierungs-Komponente dargestellt. Sowohl beim SmartEvidencer als auch
bei der Rule-Modification wird jeweils in der linken Teilkomponente der
Überblick gegeben und entsprechend der Lese- und Interaktionsrichtung
werden rechts weitere Details zur Verfügung gestellt. Wird ein neuer Beleg
in der Evidencer-Komponente erstellt bzw. ausgewählt, werden die daraus
erstellten Regeln in der darunter liegenden Komponente Rule-Selector angezeigt. Die einzelnen Komponenten werden im Folgenden näher erläutert.
SmartEvidencer
Mit dem SmartEvidencer werden zunächst die Belege gesammelt, aus denen
dann die Regeln generiert werden. Hierfür wurde die automatische Belegegenerierung [Ernst-Gerlach/Fuhr 2010a/b] integriert, die aus den unbekannten Wörtern und Vorschlägen der Rechtschreibprüfung Belege bildet. Daraus
werden wie gewohnt Regelkerne generiert und die häufigsten (für die Belegbildung) akzeptiert. Basierend auf diesen Regeln werden schrittweise Belege
vom System akzeptiert. Die Ergebnisse dieses Prozesses werden dem Benutzer in einer Liste präsentiert (s. Abb. 2). Diese zeigt die modernen und historischen Formen sowie den Regelkern an. Der Benutzer kann anschließend
einzelne Belege oder alle Belege akzeptieren. Experimentelle Ergebnisse ha-
214
ben gezeigt, dass ein großer Teil der Belege und letztendlich auch der Regelkerne auf diese Weise generiert werden kann. Dadurch können die Trainingsdaten deutlich schneller und mit geringerem manuellen Aufwand erzeugt
werden. Der Benutzer kann diesen Prozess beeinflussen, indem er die minimale Wortlänge, die minimale Anzahl an Regelvorkommen sowie die maximale Anzahl der Regelanwendungen pro Wort als Parameter einstellt.
Abbildung 2: Automatische Belege
Im Anschluss an die Bearbeitung der automatischen Belege kann der Benutzer in dem Unmatched-Reiter (s. Abb. 1 oben links) aus den noch nicht
zugeordneten Wörtern weitere Belege bilden. Dazu werden dem Benutzer die
unbekannten Wörter in einer Liste angezeigt. Zu einem ausgewählten Wort
kann der Benutzer entweder einen Vorschlag der Rechtschreibprüfung akzeptieren oder selbst einen Vorschlag eingeben.
Im Matched-Reiter werden die akzeptierten Belege mit den Regeln angezeigt. Zudem besteht in dieser Ansicht auch die Möglichkeit, bereits akzeptierte Regeln noch weiter zu bearbeiten. Belege, die in dieser Ansicht mit
einem Fragezeichen erscheinen, wurden automatisch generiert und mit dem
Later-Button anstatt mit dem Accept-Button akzeptiert. Diese Unterscheidung ermöglicht es dem Benutzer, Belege vorläufig zu akzeptieren, wenn er
schnell eine Suche ermöglichen will. Diese Belege kann er bei Bedarf zu
einem späteren Zeitpunkt überprüfen.
In der Historic-Text-Komponente werden die möglichen Schreibvarianten
in einem kurzen Textauszug hervorgehoben dargestellt. Auf diese Weise
kann der Benutzer bei Bedarf aus den Kontextinformationen die genaue Bedeutung des Wortes erschließen. Falls der Textauszug nicht ausreichend ist,
kann auch eine Anzeige des gesamten Textes erfolgen.
Rule-Modification
Der Rule-Selector soll dem Benutzer einen Überblick über die gesamte Regelmenge verschaffen und ihn bei der Suche nach einer bestimmten Regel
unterstützen. Zu diesem Zweck wurde ein Filter implementiert, der es ermöglicht, die vorhandene Regelmenge nach verschiedenen Regelkriterien
(z. B. Regeltyp oder find- und replace-Teil) zu filtern. Die Rule-Visualization-Komponente ermöglicht es dem Benutzer, die im Rule-Selector ausgewählte Regel im Detail zu betrachten. Außerdem erlaubt sie es, die selektierte Regel zu modifizieren, zu löschen oder neue Regeln in Abhängigkeit
der ausgewählten Regel zu erstellen. Für die Visualisierung wurden zunächst
die im JUNG-Framework1 vorhandenen Layout-Algorithmen für Graphen
evaluiert. Da diese Algorithmen nicht direkt für die gegebenen Daten geeignet waren, wurde ein Konzept für ein eigenes Layout erstellt (s. Abb. 1 unten
rechts), welches Ansätze aus den bestehenden Verfahren übernimmt. Zur
optischen Platzierung der Knoten des Graphen wurde die hierarchische Einordnung von Knoten des Sugiyama-Layouts mit der rekursiven Zeichenweise
von üblichen Tree-Layouts kombiniert. Dabei wird der Wurzelknoten auf
Ebene 0 angeordnet, während alle anderen Knoten in Abhängigkeit zur maximalen Anzahl passierter Kanten bis zum Wurzelknoten angeordnet werden.
1 http://jung.sourceforge.net – Stand 13.01.2011
216
Daraus ergibt sich ein Layout, bei dem alle Kanten nach unten gerichtet sind.
Um die Übersichtlichkeit der Visualisierung zusätzlich zu verbessern, werden nur die Regeln angezeigt, die für die ausgewählte Regel relevant sind.
Weitere Regeln werden in expandierbaren Knoten zusammengefasst und
können bei Bedarf zusätzlich angezeigt werden.
Innerhalb der Rule-Visualization-Komponente stellt eine Toolbar die verschiedenen Möglichkeiten zur Modifikation der Regelmenge zur Verfügung.
Der Benutzer kann vorhandene Regeln editieren und löschen oder neue Regeln erstellen. Zur Erstellung von neuen Regeln gibt es Dialoge mit unterschiedlichen Unterstützungsmöglichkeiten. Der Benutzer kann z. B. eine Regel frei eingeben oder einen Dialog verwenden, der ihn dabei unterstützt,
Regeln zu erstellen, die die selektierte Regel spezialisieren oder diese generalisieren.
Bei der Durchführung von Modifikationen wird der Benutzer von einem
Preview-Modus unterstützt. Dieser wird aktiviert, sobald der Benutzer einen
Modifizierungs-Dialog öffnet. Der Preview-Modus visualisiert den Graphen
in dem Zustand, in dem er wäre, wenn die aktuell vorhandene Änderung
durchgeführt würde. Jegliche Eingabe innerhalb eines Modifizierungs-Dialogs löst eine Aktualisierung des Preview-Modus aus. So sieht der Benutzer
sofort die Konsequenzen seiner Änderung und wird bei der Entscheidungsfindung unterstützt. Dies ist in Abbildung 3 zu sehen. Links wurde die Regel
uot → uet ausgewählt und der Modifizierungs-Button betätigt. Daraufhin
wurde sowohl im find- als auch im replace-Teil der Regel das u durch ein a
ersetzt. Nach dieser Änderung wurde die Visualisierung des Preview-Modus
aktualisiert. Dieser zeigt nun die ursprüngliche Form der Regel an (old rule)
sowie die Form der Regel, die vorliegt, sofern diese Änderung bestätigt wird
(new rule). Zusätzlich werden die Änderungen auch farblich markiert.
Abbildung 3: Preview-Modus
Evaluation
Die Benutzerfreundlichkeit der vorgestellten RuleGenerator-Applikation
wurde innerhalb einer eyetrackergestützten Benutzerstudie evaluiert. An der
Evaluation nahmen zehn Studenten der Universität Duisburg-Essen teil. Unter den Testpersonen befanden sich sieben Informatiker, zwei Sozialwissenschaftler und ein Erziehungswissenschaftler. Mit einem Computer arbeiteten
die Testpersonen seit acht bis zwanzig Jahren und alle Testpersonen gaben
an, den Computer täglich zu verwenden. Ziel der im Folgenden dargestellten
Evaluation war der generelle Test der Abläufe.
Vor der Evaluation bekamen die Benutzer zunächst eine kurze Anleitung
sowie eine mündliche Einführung in die Applikation. Es war den Testpersonen gestattet, während der Evaluation Fragen zu stellen. Die Fragen sowie
die Maus- und Augenbewegung der Personen wurden beobachtet und protokolliert bzw. aufgezeichnet. Die Evaluation bestand aus einer Reihe von Aufgaben, die die Testpersonen innerhalb der RuleGenerator-Applikation durchführen sollten. Im Anschluss daran gab es ein kurzes Interview und die
Probanden füllten einen Fragebogen aus. Auf diesem gab es verschiedene
Aussagen zur RuleGenerator-Applikation, die die Probanden mit 1 (= trifft
nicht zu) bis 5 (= trifft voll zu) bewerten sollten. Die Ergebnisse der wichtigsten Aussagen sind in Abbildung 4 zu sehen. Die ersten vier Aussagen in
der Abbildung beziehen sich auf die Applikation insgesamt. Wie dort zu
sehen ist, wurde die Applikation im allgemeinen positiv bewertet. Der Median von „Tool übersichtlich“, „Bedienung einfach“ und „Bedienung flüssig“
liegt jeweils bei vier und auch die weiteren Werte liegen bis auf die Ausreißer im positiven Bereich. Lediglich die Icons der Applikation wurden in
der Aussage „Icons eindeutig“ mittelmäßig bewertet. Im Interview mit den Probanden bestätigten sich diese Ergebnisse und es stellte sich heraus, dass die
Probanden vor allem Probleme mit den Icons in der Rule-Modification hatten.
Die nächsten vier Aussagen in der Abbildung 4 beziehen sich auf den Evidencer-Teil der Applikation. Dort wurde von den Benutzern „Belegfilter
hilfreich“, „Erzeugung Belege einfach“ sowie „Manuelle Belegerstellung
einfach“ im Median ebenfalls mit 4 bewertet. Die Aussage „Beleg editieren
einfach“ wurde etwas schlechter bewertet. Im Interview zeigte sich, dass
einige Personen Probleme hatten, den Zugang zu dieser Funktion zu finden.
Sie erwarteten, dass die Operation ebenfalls über die Toolbar erreichbar ist,
diese konnte jedoch lediglich über einen Doppelklick aktiviert werden.
218
Abbildung 4: Aussagenbewertung der Probanden
Die letzten vier Aussagen beziehen sich auf den Teil Rule-Modification.
Dort bewerteten die Probanden die Aussagen „Expandierbare Knoten verbessern Übersicht“, „Regelfilter hilfreich“ sowie „Regelvisualisierung bei
Modifizierung hilfreich“ ebenfalls mit einem Median von vier. Die Aussage
„Regel finden einfach“ wurde von den Benutzern mit einem Median von drei
bewertet. Im Interview und bei der Auswertung der Eyetracker-Daten ergab
sich, dass die Benutzer beim Finden von Regeln vor allem Probleme damit
hatten, dass der Regelbaum bei der Benutzung des Filters nicht automatisch
expandiert wurde.
Durch die Verwendung des Eyetrackers wurde deutlich, dass viele Teilnehmer den Bestätigungsdialog bei Modifikationen erst sehr spät bemerkten.
Nachdem der Benutzer die ausgewählte Regel gelöscht hatte, schaute er auf
den Belegteil oben, ohne den Dialog, der noch bestätigt werden musste, zu
bemerken. Weitere Mängel, wie der fehlende Edit-Button im Belegteil, konnten anhand der gesammelten Eyetracker-Daten untersucht und bestätigt werden. Dadurch war z. B. ersichtlich, dass Probanden bei der Bearbeitung von
Aufgaben, in denen Belege zu editieren waren, den Belegteil sequentiell nach
einer Möglichkeit zum Editieren absuchten, anstatt einen Doppelklick auf
dem Beleg durchzuführen.
Die bei der Benutzerstudie gefundenen Probleme wurden in einer Anpassung der Implementierung behoben. So wird für den Bestätigungsdialog
der Regelmodifizierung der Hintergrund zunächst rot eingefärbt, um die
Aufmerksamkeit des Benutzers zu erregen. Des Weiteren wurden eindeutigere Icons für einige Funktionen gewählt und die mittelmäßig bewerteten
Filterfunktionen überarbeitet. Bei der Auswertung der aufgezeichneten Eyetracker-Daten wurden weitere Probleme gefunden, wie etwa fehlende alternative Möglichkeiten, um bestimmte Funktionen auszuführen. Diese wurden
behoben, indem zusätzliche Möglichkeiten – wie etwa Kontextmenüs – implementiert wurden.
Zusammenfassung
In diesem Artikel wurde eine Benutzeroberfläche zur automatischen Konstruktion von Belegen und Regeln vorgestellt. Die Benutzeroberfläche versetzt Benutzer in die Lage, ohne Programmierkenntnisse eigenständig Regeln
für historische Korpora zu erzeugen und ermöglicht somit Retrieval auf Texten mit nicht-standardisierter Rechtschreibung. Dem Benutzer wird dabei die
Gelegenheit gegeben, die automatischen Vorschläge für Belege und Regeln
zu löschen, zu editieren sowie neue zu erstellen. Dadurch ist der Ansatz sehr
flexibel, weil der Benutzer den Prozess entsprechend seinen Erwartungen an
Recall und Precision der Suchmaschine beeinflussen kann.
Die Evaluation hat gezeigt, dass neuen Benutzern die Bedienung der Applikation leicht fällt und die grundlegenden Konzepte der Applikation verstanden werden. Die bei der Evaluation gefundenen Probleme wurden in
einer Anpassung der Implementierung behoben. Dies soll im Rahmen einer
weiteren Evaluation mit späteren Benutzern wie z. B. Historikern und Linguisten überprüft werden.
Awakian, A. (2010). Development of a user-interface for an interactive rule development. Masterarbeit, Universität Duisburg-Essen
220
Baron, A.; Rayson, P. (2008). VARD 2: A tool for dealing with spelling variation in
historical corpora. Proc. of the „Postgraduate Conference in Corpus Linguistics“.
Aston University, Birmingham
Cendrowska, J. (1987). An Algorithm for Inducing Modular Rules. „International
Journal on Man-Machine Studies“. Volume 27, Nummer 4, Seiten 349–370
Ernst-Gerlach, A.; Fuhr, N. (2006). Generating Search Term Variants for Text Collections with Historic Spellings. Proc. of the “Advances in Information Retrieval
– 28th European Conference on IR Research, ECIR 2006, London, UK, April
10–12, 2006”
Ernst-Gerlach, A.; Fuhr, N. (2010a). Advanced Training Set Construction for Retrieval in Historic Documents. Proc. of the “Sixth Asia Information Retrieval Societies Conf. (AIRS 2010)”
Ernst-Gerlach, A.; Fuhr, N. (2010b). Semiautomatische Konstruktion von Trainingsdaten für historische Dokumente. Proc. of the „Information Retrieval 2010 Workshop LWA 2010“, Kassel, Germany
Gotscharek, A.; Neumann, A.; Reffle, U.; Ringlstetter, Ch.; Schulz, K. U. (2009).
Enabling information retrieval on historical document collections: the role of
matching procedures and special lexica. Proc. of „The Third Workshop on Analytics for Noisy Unstructured Text Data“, Barcelona, Spain
Hauser, A.; Heller, M.; Leiss, E.; Schulz, K. U.; Wanzeck, C. (2007). Information
Access to Historical Documents from the Early New High German Period. Proc.
of the „International Joint Conference on Artificial Intelligence (IJCAI-2007)
Workshop on Analytics for Noisy Unstructured Text Data“, Hyderabad, India
Korbar, D. (2010). Visualisierung von Regelstrukturen und Modifikationsmöglichkeiten für die Suche in Texten mit nicht-standardisierter Rechtschreibung. Diplomarbeit, Universität Duisburg-Essen
Nguyen, DucDung, T. Ho, Kawasaki (2006). Knowledge visualization in hepatitis
study. In: APVis ’06: Proc. of the 2006 „Asia-Pacific Symposium on Information
Visualization“, S. 59–62, Darlinghurst, Australia. Australian Computer Society,
Inc.
Pilz, T. (2009). Nichtstandardisierte Rechtschreibung – Variationsmodellierung und
rechnergestützte Variationsverarbeitung. Dissertation, Universität Duisburg-Essen
Pilz, T. and Luther, W. (2009). Automated support for evidence retrieval in documents with nonstandard orthography. In „The Fruits of Empirical Linguistics
Process“, Sam Featherston, S; Winkler, S.; Volume 1, S. 211–228, Mouton de
Gruyter Berlin
Session 6:
Multimedia
222
Peter Schultes , Franz Lehner , Harald Kosch
Effects of real, media and presentation time
in annotated video
Peter Schultes 1, Franz Lehner 2, Harald Kosch 3
University of Passau – Innstrasse 43, Passau
Business Administration II – [email protected]
2
Business Administration II – [email protected]
3
Distributed Informationsystems – [email protected]
1
Abstract
In recent years, annotated video became a major factor of our multimedia
world. As we can see using the example of YouTube, annotating an existing
video with graphical objects seems to get very popular these days. But a lot
of technical problems are not solved yet or are still even not identified. One
of these issues is dynamic behavior of (graphical) annotations, which current
platforms generally do not support at all (for instance YouTube). This work
deals with a question that is of inherent importance for dynamism: how can
we synchronize media, real and presentation time in interactive video? Current platforms typically support media time dependencies, but discount the
fact that user interactivity takes place at presentation time. Our approach of
handling different time systems enables interactive video to expand to a
much greater field of application.
1
Introduction
Just a few years ago, video was a linear presentation medium. We generally
interacted more with our remote control of our video players than with the
media itself. Then in the mid-nineties the DVD came up and interactive multimedia presentations emerged: additional material, alternative endings, audio
comments and so on. After suitable technologies like Adobe Flash and Microsoft Silverlight took up the internet at the beginning of the twentieth century, clickable video appeared. Illustration-, advertising- and entertainment-
223
videos are enriched with interactive features for the viewers since then.
Nowadays – in times of web 2.0 – we can see an ongoing development:
Video users themselves publish videos, annotate existing material and even
enrich the videos with interactive features. Especially due to YouTube (c.f.
[YouTube, 2009]) it became very popular for users to add graphical shapes,
interactive hotspots or links to other media into an existing video. As we can
see, the traditional observer role of video spectators seems to break up more
and more. Interactive media on the one hand and user generated content on
the other hand are the two main trends in the area of internet video. However,
the possibilities for user generated video annotations are still limited. Of
course we merely can do everything we want with a video by using programming technologies like Adobe Flash. But the majority of the video
community cannot handle these technologies, because they require a lot of
technical knowhow and experience. And YouTube annotations are certainly
not the best answer either: only three different graphical shapes, as good as
no dynamic and interactive behavior – this appears more to be the first step
but not the final state.
The main focus of our current work is to develop an annotation tool for
online videos that everybody can easily use. The primary application field of
our video annotation tool is eLearning. We would like to give our students
the possibility to add additional material, references, notes etc. into their
(customized) online lecture videos and share them within a peer group or a
public domain. One of our research aspects here is to explore how far video
is a suitable base media for user generated content. The supported video annotations include all kinds of graphical information (not metadata) like text,
shapes, freehand drawings, audio, images or even video. Currently we are
still in realization stage but we already identified some key issues of user
generated video annotations. One issue is dynamic video annotations. Dynamism in this context contains changes of visual properties of annotation elements during video presentation. Visual properties are for example the
boundary or background color of an element. A property change can be
evoked by either a timer (e.g. media time progress) or the user, who interacts
with an annotation element.
In this article we worked out the main fields of problems that came up
when realizing dynamic video annotations. The main challenge here was to
bring media time dynamics and real time interactivity together. In the next
sections we explain technical issues and semantic concepts on how to achieve dynamic and interactive video annotations in a consistent and generic way.
224
2
Related work
In recent years, the number of projects dealing with the topic of interactive
video enormously increased. The following list gives a brief overview of the
priorities in latest research and industrial projects including the main features
– making no claims of being complete.
non-linear video
The Fraunhofer Institute has presented their “nonlinear-video” project at the
cebit 2010. By own accounts, nonlinear-video enables us to “re-experience
the content of moving pictures”. The main feature here is a whole video environment. The environment provides us with the possibility to interact with
annotated video objects and retrieve sensitive information about the video
content (c.f. [Fraunhofer, 2010]). Additional to the desktop presentation, developers at the Fraunhofer Institute are also working on a hardware set-top
box. This could bring interactive television into our living rooms.
ADIVI
The ADIVI project (cf. [InnoTeamS, 2009]) – which is also a commercial
software solution – focuses on additional video annotations. The system consists of fixed video and annotation areas. The content of the annotation area
is determined by sensitive regions in the video. If the viewer clicks on a specific region, annotation area shows up all kind of additional media resources
(text, images, videos, URLs).
Microsoft Video Hyperlinks
Microsoft adCenter Labs published Video Hyperlinks (see [Microsoft, 2008])
in 2008. Here, hotspots can be placed in an existing video to mark regions of
interest with rectangular frames. The hotspots appear at certain media time
points and change their bounding according to the background objects. After
the users clicks inside the rectangle, additional information is shown.
SIVA Suite
SIVA Suite is one of the latest research projects of the University of Passau.
Basically SIVA is a comprehensive collection of software tools, which can
be used to create and play interactive videos. As well as the previous projects
SIVA provides synchronous presentation of all kinds of media annotations
225
(c.f. [Meixner, 2009]). But furthermore SIVA enables us to build alternating
storylines through a graphical scene graph editor.
3
Fundamentals
In a previous project, we already identified three basic components that make
up a dynamic video-annotation system (c.f. [Schultes (1), 2010]) in addition
to the video player: first of all, the annotation elements which appear upon
the actual video content. At second, the environment which manages the
containing elements. And third, the abstract screenplay which defines interactivity and dynamics during the presentation. These essential concepts are
summed up in the next sections, because they serve as the basis for all further
considerations.
3.1
Elements and Environment
The focus of our work lies on visual annotation elements like shapes, text,
images, videos, or interactive elements. All this video annotation elements
are instances of a common interface. The exact nature of this interface should
not be discussed further at this point (you can find more details in [Schultes
(1), 2010]). For further explanations we can simply assume the following
prerequisite: Each annotation element provides the same generic mechanism
to implement element specific behavior. We can also control and manipulate
the state of an element via the interface without having detailed information
about the particular element. The controlling of all annotation elements is
done by the runtime environment of the collaborative video player/editor. So
the annotation environment is the connection between video and user generated content and has three major functions: The first task is managing the
graphical annotation context. The second task is to interpret the abstract
screenplay and so insert/hide the annotation elements at certain time points.
And at last the environment is responsible for forwarding all changes and
events – for instance user inputs – to the annotation elements (see next section).
226
3.2
Events
The annotation environment has to react on multiple kinds of events and state
changes:
• the ongoing position in video, thus the current media time
• timing events from the system clock
• system events from user input devices (e.g. mouse clicks)
• element specific events (e.g. selection of a button shape)
After the annotation environment noticed an event or an element state
change, all detail information is packed into a standard event object. This
generally consists of an event type identifier, an explicit source element and
arbitrary detail objects (e.g. which mouse button was pressed etc). This proceeding is required, because the common element interface can only deal
with one particular (generic) event object. The event object must then be
interpreted by all involved elements. An element is usually involved in an
event, if it represents a user interface event, which occurred in the graphical
bounds of the element. The next step is to inform appropriate event handlers
about the occurrence of the event (see next section).
3.3
Actions and Dynamics
Dynamics and actions are defined in the abstract annotation screenplay. The
screenplay has to be created by the author of an interactive video prior to or
during its presentation – in our case the screenplay is collaboratively created
by the users of an internet community. Its evaluation is done by the environment at video runtime. Realization issues of the screenplay are not part of
this work – you can read further details about our “event tree”-approach
which deals with the question on how users can define and manage complex
screenplays graphically in [Schultes (2), 2010]. Basically, the screenplay
holds an amount of actions which will be executed in response to particular
events. The connection of runtime event and predefined action is called an
event handler. An event handler specifies its trigger event by an appropriate
event prototype. An example event handler could possibly be something like:
After selection of button ‘xy’ annotation element ‘yz’ should set its background colour to blue.
227
Therefore, the event prototype would map to all runtime events whose
type is “selection” and arise from element “xy”. The related action would
change the background property of element “yz”.
In this context, an action is a container for an arbitrary amount of instructions. Each instruction always references a target element and defines an
explicit command directly affecting this target. A command can easily be
realized via the generic element interface (see section 3.1). Usually instructions (and so actions) change the state of their target elements which can lead
to the occurrence of new element events. Further to the event handlers, an
abstract screenplay contains all appearing and disappearing time points of
every visual annotation element. This is essential because the elements usually do not remain visible across the entire video.
4
Real time and media time
The annotation environment initiates the execution of certain actions at particular time points. These time points always have an explicit timestamp depending on the system clock of the underlying hardware system. By default
this timestamp corresponds to a real time point in the existing time continuum. Since video is a time based medium, each real time execution point can
be mapped to a corresponding media time point. Media time points are in
contrast to real time points singletons and so recoverable. For example,
viewers can jump back and forth in media time by adjusting the current position in the video. This certainly does not apply to real time unless time machines get affordable in the near future. The presence of several execution
time points arise the question of which time point is decisive for the execution time of an action.
4.1
Media time actions
Media time events primarily include frame updates in the video player but
also derived events like “element xy is now shown” (since media time points
which change the hide/show states of annotation elements are explicitly listed
in the screenplay, these events can be treated like “real” media time events).
In order to give the impression that the annotation elements are an integral
228
part of the underlying video they strictly have to behave synchronously with
the video content. Let’s consider the screenplay contains an event handler
which changes the background color of an annotation shape at media time
00:05:15. It seems obvious that the background color must be reset to its
original value in case of a media time setback, to keep synchronous with the
video. This demand is getting even more obvious, if we take a look at moving elements (which often appear in connection with hotspots). Let’s assume
that the screenplay contains several different location requests targeting one
particular annotation shape at certain media time points. As a result, the element acts synchronously with a background object in the video. Considering
that, a media time step back inevitably forces a location update, unless user
generated content and video lose their synchronicity. Figure 1 shows this circumstance:
Nice car
Nice car
t=1
mt = 1
= play
= step back
Nice car
t=6
mt = 6
t = 10
mt = 2
t = relative real time point
mt = absolute media time point
Figure 1:
Loss of synchronism due to moving elements, when ignoring a media time step back.
So, in case of a media time backward jump, each annotation element has
to restore the most recent valid state before the target media time. Therefore,
the annotation environment has to manifest the state of the target element
before executing a media time action. This is the only way to ensure proper
element states in case of future media time jumps. In terms of software engineering this approach is called Memento (c.f. [Gamma, 1995]) and is used in
similar circumstances: realizing undo-redo mechanism in graphical user interfaces.
As we have seen, backward steps require a special treatment. But how to
handle forward steps? Of course we would lose synchronicity of annotation
229
elements and video, if we ignored forward steps. For example, if the viewer
(in respect of the scenario in figure 1) jumped from media time point 2 to 7,
the location update would fail to appear. The required action will only be
executed on media time event 6, which was skipped due to the forward jump.
Thus, the annotation environment has to predetermine the skipped state transitions and manifest them at the given media time points respectively. The
environment can achieve this easily by using the given event prototypes details in the abstract screenplay. Forward calculation is done in three sequential steps:
• Calculation of all media time actions which occur in the skipped time
span.
• Sorting of the selected actions according to their execution time points.
• Sequential execution of the actions and state manifestation of affected
elements according to execution time points.
4.2
Real time actions
In contrast to media time actions, real time actions do not depend on the
video presentation at all. Real time actions change the state of an annotation
element at a certain time point triggered by the system clock. An example
real time event would be: “12:00:35 on 01-05-2010”. Since it is not possible
to reset the real time, we do not have to care about element state manifestation and so on and only have to evaluate the necessary system clock events.
However, the environment must ensure the correct initial state of all elements
at the beginning of the video presentation: if an event handler updates the
colour of an annotation shape at 12:00:35 and presentation starts at 13:00:00,
the environment should catch up on the missed real time event and update the
element before presentation starts. This guarantees consistent behaviour of
user generated annotations, no matter at which time of day the presentation
starts.
In general, real time actions as described here would not make much
sense for normal use cases. They are more an issue for commercials on top of
the video, which are dynamically shown at particular times of day. But certainly, real time actions only play a minor role. However, we should consider
the idea as useful for element specific behaviour. Let’s take a look at an interactive door-shape: a mouse click could trigger a visual opening- or closing-animation. Animations are usually real time based, and must continue
230
even if the user pauses the video. So here we do not have absolute timestamps but relative ones, dependent on the system timestamp of the trigger
event.
4.3
Presentation time actions
The previous considerations dealt with actions that are triggered by any sort
of time events. All further events belong to the presentation time category:
for one thing there are events fired by input devices (e.g. mouse pointer
movements/clicks or keystrokes ...), for another thing element specific events
(e.g. “selection performed” in an interactive multiple choice element). These
events occur in the annotation layer, thus outside the actual video context, but
mostly depend on the video content. For instance, a mouse click on a video
object always relates to current media time – the viewer would probably not
have clicked on this particular location, if the video content had been a differed one. This is also transferable to user interactions with the annotation
layer: annotation elements are always closely linked to the video content and
media time due to their dis-/appearing (media) time points. This raises the
question of whether presentation time actions have to be rolled back as well
as media time actions in case of backward jumps. Forward calculations do
not make sense at all, since the environment cannot estimate possible interaction events during the skipped time span (which might have occurred in a
continuous presentation). But if the annotation environment manifested the
element states in case of presentation time actions, too, they could be restored
after a backward jump. The following example scenario should help us to
understand this problem:
In an interactive video project, viewers should receive additional information to objects they selected with the mouse pointer. Therefore we have a
text field, which always stays visible during the entire video presentation.
Furthermore, annotation shapes appear and disappear at specific mediatime points. These elements act as hotspots for corresponding objects in the
video. After the viewer clicks on such a hotspot element, the text field presents additional information about the enclosed video object.
Let’s assume a viewer has watched the first part of the interactive video
and has already selected some hotspot elements. Now he wants to set back
media time to watch the last scene again. This leads us to two different posi-
231
tions whether the content of the text filed has to be reset or not (after the
backward jump):
• Position 1: Mouse click occurs at real time, but the corresponding action
is executed at media time.
The environment must reset the text field after a media time setback, because its content changed through (video-) content sensitive actions. This
ensures synchronicity with the video.
• Position 2: Mouse click occurs at real time and corresponding action is
executed in real time context, too.
The content of the text field is still valid, because the last user selection
took place before the media time setback. So no rollback is required.
This ensures correct real time behaviour.
One consequence of position two is that the text field may contain information about a video object, which has not been shown yet. This could lead to
uncertainty among the viewers. But position one also shows a similar weakness: after the media time setback, all elements states suit to the current video
content. If the user performs a forward jump right after the setback, the elements cannot restore their previous state again (since forward calculation is
generally not possible – even if the target time point was recently shown).
So which of the positions is the “right” one? In general, we cannot predict
the correct handling of media time changes, if we do not know the particular
use case. If there is a strong connection between video content and user action (as in the example scenario), viewpoint one seems to be the best suitable.
If not – for instance in case of element events like button selections etc. –
viewpoint two would be a better choice. Due to the fact that the annotation
system cannot calculate the correct handling, the best solution here seems to
be a preliminary commitment in the abstract screenplay. The author of an
interactive video should have the possibility to specify the desired handling
for each presentation time action by himself.
4.4
Special cases
One special case needs to be discussed further at this point: media time actions can change the state of an element. This can evoke new element events
at the target element(s). As far as one or more of these (possible) events are
connected with other actions, “action chains” arise. Regardless of whether
position one or two is taken for media time handling, action chains whose
232
start event is a media time event, have to be completely rolled back. So the
context of action chains is always determined through the start event. This
dependency seems to be obvious, since there would not be any further events
without the start event. But there is one exception: if the implementation of a
chained action adjusts the current video position, the context switches at this
chain index. So any further action of the chain will require element state
manifestations. This may lead to pretty obscure behaviour, which we have
not considered so far. It could even be possible that a chained action triggers
another action chain. A lot of problems with action chains are not considered
so far and will be part of future work.
5
Conclusions and future work
In this work we introduced the basic concepts of handling dynamics and interactivity of graphical video annotations. As we have seen, different action
types may require a different treatment for media time jumps. In case of
presentation time actions the environment even cannot determine, whether a
roll back is necessary or not. So here we need information from the author on
how to treat each particular presentation time action. Due to the results of our
work, we were able to implement the logic for handling dynamics in annotated interactive videos.
In our future work we will concentrate on unresolved problems when media time affects video annotations (for example the above mentioned action
chains). In the next step we will finish up implementing our annotation tool
for internet videos. We expect a lot of problems when realizing collaborative
viewing and editing of annotated videos, because this area is still only insufficiently explored. We will then integrate the final collaborative video annotation player in our online lecture courses. After having sufficient user content we will launch a study about the quality and different types of the
generated user content. This should help us to get a sustainable estimation on
how far video is a suitable media for user generated content.
233
References
Fraunhofer Fokus (2010): Non Linear Video. In Fraunhofer Fokus, Future Applications and Media 02/2010.
http://www.fraunhofer.de/Images/fokus_non-linear-video_de_tcm7-61560.pdf (Retrieved 03.01.2011)
E. Gamma, R. Helm, R. Johnson, J. Vlissides (1995): Elements of Reusable Object-Oriented Software. Amsterdam: Addison-Wesley Longman, 1995
InnoTeamS (2009): ADIVI Instructional Guide, Version 3.0.
http://www.adivi.net/Materialien/ADIVI_3_help_en.pdf (Retrieved 03.01.2011)
Meixner, B., Siegel, B., Hölbling, G., Kosch, H., Lehner, F. (2009): SIVA Producer
– A Modular Authoring System for Interactive Videos. In Proceedings of
I-KNOW, 9th International Conference on Knowledge Management and Knowledge Technologies, Graz, 2009
Microsoft adCenter Labs (2008): Video and Interactive.
http://adlab.msn.com/Video-Hyperlink/ (Retrieved 03.01.2011 from)
Schultes, P., Lehner, F., Kosch, H. (2010): Videomarkup – Vom Videonutzer zum
Produzent. In Eibl, M. et al (Hrsg.): Workshop Audiovisual Media WAM 2010.
Chemnitz, 2010
Schultes, P., Lehner, F., Kosch, H. (2010): A user-centred approach to define interactive and dynamic video annotations via event trees. In 10th International Conference on Knowledge Management and Knowledge Technologies, Graz, 2010
YouTube 2009: YouTube Video Annotations, 2009.
http://www.youtube.com/t/annotations_about (Retrieved 03.01.2011 from)
234
Ein erweiterbares Tool
zur Annotation von Videos
Technische Universität Chemnitz – Professur Medieninformatik
09107 Chemnitz
{marc.ritter|eibl}@informatik.tu-chemnitz.de
Zusammenfassung
Die Beschreibung audiovisueller Medien durch Metadaten bedarf aufgrund
der Masse der Daten einer Unterstützung für die manuelle Annotation sowie
eine möglichst weitgreifende automatische Annotation. Das vorgestellte
Werkzeug unterstützt Markierung, interaktive Vorsegmentierung und Objekterkennung und -verfolgung. Mithilfe der integrierten Shot Detection kann ein
Video strukturell zerlegt werden, um beispielsweise die halbautomatische
Objektverfolgung über Szenengrenzen hinweg zu unterbinden. Die Anbindung des Forschungsframeworks AMOPA gestattet dem Nutzer beliebige
Ketten von Operationen zur Bild- und Videoverarbeitung zu erstellen. Der
Datenexport erfolgt über MPEG-7-DAVP.
Abstract
We introduce an extensible annotation tool for videos. It allows marking,
interactive segmentation and semi-automatic tracking of objects in video
images as well as preprocessing steps like shot boundary detection. The
combination with the research framework AMOPA enables the user to create
arbitrary custom image processing chains depending on the underlying field
of research. All data may be exported to MPEG-7-DAVP.
1
235
Einführung
Systeme zum Einsatz audiovisueller Medien, seien es Medienarchive, Mediatheken, Knowledge Management Systeme, E-Learningsysteme oder andere
sehen sich in den letzten Jahren einer zunehmenden Flut von Daten gegenüber. Diese durch Beschreibungsdaten sinnvoll recherchierbar zu machen,
entwickelt sich zu einer immer stärkeren Herausforderung an Kapazität und
Zeit. Hier greifen Versuche, die Annotationsprozesse weitgehend zu automatisieren bzw. die Anwender in der Annotation zu unterstützen. So werden
Algorithmen der Audio-, Bild- und Video-Verarbeitung speziell im Anwendungsgebiet des Maschinellen Lernens entwickelt und eingesetzt, indem
Klassifikatoren zum Auffinden von Objekten trainiert werden. Deren Training erfordert jedoch oftmals zuvor aufbereitete, d.h. annotierte Trainingsdaten, die bereits Beispiele der zu klassifizierenden Objekte enthalten. Die
Annotation derartiger Objekte in Bild- und Videodaten erfolgt zumeist manuell, ist mit wiederholten Arbeitsprozessen verbunden, zeitaufwendig und
verlangt zudem eine hohe menschliche Aufmerksamkeit. Einfache, schnelle
und zuverlässige Annotationsvorgänge können die Entwicklungszeit von Algorithmen positiv beeinflussen sowie die Aussagekraft über die Performanz
von wissenschaftlichen Verfahren auf größeren Testdatensätzen erhöhen.
1.1
Related Work
In der Vergangenheit wurden zahlreiche Tools entwickelt, die Annotationen
in Bildern und Videos erleichtern sollten. Das ViPER-Toolkit (Doermann &
Mihalcik 2000) erlaubt die Markierung von Einzelobjekten in Videos und die
Kreation von Deskriptoren mittels Schema-Editor und findet bei der TREC
Video Retrieval Evaluation Anwendung (Smeaton 2006). Die Handlung von
Bildinhalten lässt sich in Caliph mit einem gerichteten Graphen erfassen,
jedoch nicht mit einem Bildobjekt vereinen. Die Komplementäranwendung
Emir findet ähnliche Bilder mithilfe von MPEG-7 Low-Level-Deskriptoren
(Lux 2009). Mit diesen durchsucht (Vezzani 2006) Videos nach zuvor trainierten Objekten. Deskriptoren finden auch beim M-OntoMat-Annotizer Anwendung, der es erlaubt, in Bildern Regionen zu segmentieren, um aus diesen
dann Objekte und deren Eigenschaften zu bestimmen (Petridis 2006). Das
Multimedia Analysis and Retrieval System (MARVEL) tauscht die übliche
Annotationszeichenfläche gegen statistische Analysealgorithmen und ordnet
236
vorhandene Bilder in eine komplexe Taxonomie ein, um so die Fehlerrate
einer zeitaufwendigen manuellen Annotation zu minimieren (Columbia
2004). Einen ähnlichen Weg verfolgt das VideoAnnEx Annotation Tool. Es
hält vordefinierte Lexika zur Annotation von Schlüsselobjekten, Ereignissen
und statischen Szenen bereit (Naphade 2002). In einer MATLAB-GUI verbindet (Kounoudes 2008) eine Szenenwechselerkennung mit der Möglichkeit
Frames mit Kategorien erweiterbarer XML-Wörterbücher semantisch zu
taggen. Eine semi-automatische Segmentierung von Objekten durch aktive
Konturen und deren Verfolgung durch Interpolation verfolgt (Luo & Eleftheriadis 1999). (Goldmann 2008) modifiziert ein 2D-Trackingverfahren, um
Bildobjekte zu transformieren und deren Position im Video zu ändern. Ursprünglich zur Annotation von Sprachdialogen entwickelt, gestattet ANVIL
die Definition und Annotation diverser Kodierungsschemata auch für die
Videoverarbeitung. Daten können XML-basiert abgespeichert und in der statistischen Toolbox SPSS weiterverarbeitet werden. (Kipp 2008) erweitert die
Kodierungsschemata um eine räumlich-zeitliche Funktion zur Markierung
von Objekten über den eigenen Frame hinaus. Das für Mac OS X verfügbare
Tool VCode and VData ermöglicht die Verarbeitung multipler Videoquellen
und verschiedener Sensorformate mittels Objektmarkierung auf einem Zeitstrahl. Als Besonderheit können Annotationssequenzen syntaktisch auf Konsistenz geprüft werden (Hagedorn 2008). Einen anderen Weg schlägt
(Schroeter 2008) mit FilmEd ein, wo mehrere über heterogene Netzwerke
verbundene Nutzer interaktiv gleichzeitig Annotationen durchführen können.
Selbst mobile Geräte werden inzwischen mit allerdings sehr rudimentären
Annotationsfunktionen ausgestattet (Concejero 2008).
1.2
Motivation
Zahlreiche Anstrengungen wurden unternommen, den mühsamen und weit
verbreiteten Prozess der Frame-by-Frame-Annotation zu erleichtern. Einerseits ist es möglich, die Objektsegmentierung und -verfolgung zu automatisieren, was nur von wenigen Tools angeboten wird. Andererseits werden
mehrere Bilder einer Sequenz mit einem semantischen Begriff versehen.
Obgleich die Begriffswahl durch maschinelle Vorverarbeitung eingegrenzt
werden kann, leidet doch oftmals die Exaktheit der Annotation aufgrund der
Spezifität der zugrundeliegenden Wissenstransferfunktion. So versucht
(Fan 2008) die semantische Lücke zwischen Low-Level-Merkmalen und
High-Level-Konzepten zu schließen, indem saliente Objekte in Bildern er-
237
kannt und mit atomaren Bildkonzepten konzeptbasiert abgeglichen werden.
In vereinfachter Form ist dies auch in der Videoannotation wünschenswert.
Zudem lassen einige Tools die Möglichkeit zum Datenexport zur anwendungsspezifischen Weiterverarbeitung vermissen. Das vorliegende Annotationstool versucht nun die Vorteile zu vereinen. Dazu wird es an das effiziente und flexible Lehr- und Forschungsframework AMOPA (Ritter & Eibl
2009) angebunden, dessen Verarbeitungsketten auf Geschwindigkeit optimiert sind und sich bei Bedarf skalierbar auf andere Rechner über Java RMI
verteilen lassen. Somit können Videos nicht nur schnell strukturell zerlegt,
sondern auch Objekte markiert, segmentiert und verfolgt werden. Da Videos
im Gegensatz zu Bildern in der Regel Bewegungen und unterschiedliche
Kameraperspektiven aufzeigen, lassen sich Variationen von Objekten leichter
erfassen, erhöhen die Anzahl verfügbarer Trainingsdaten und präzisieren
zugleich deren Qualität für die Weiterverarbeitung. Einhergehend verringert
sich der Annotationsaufwand.
2
Systembeschreibung
Das Annotationstool besteht aus zwei Komponenten. Erstere bildet das Framework Automated MOving Picture Annotator (kurz: AMOPA), das (Ritter
2009) ausführlich beschreibt. Es wurde als Lehr- und Forschungsinstrument
zum Entwurf und zur Implementierung von beliebigen prozessgesteuerten
Workflow-Konzepten konzipiert. Der Zugriff auf Videodaten wird durch die
offene C-Bibliothek FFMPEG und über das Interface von Streambaby in
Java gekapselt (siehe Abb. 1).
Abbildung 1: Architektur des Annotationstools (rechts). Dieses tauscht Daten mit
AMOPA (Mitte) aus, welches die Funktionen von JMU und Streambaby aggregiert.
238
Neueste Erweiterungen des Prozesskonzeptes von Java Media Utility
(kurz: JMU) erlauben die Verwirklichung von Prozessketten mit nichtlinearem Verlauf, womit Workflows nahezu beliebiger Topologie umgesetzt
werden können.
Die Verschaltung der einzelnen Bildverarbeitungsschritte erfolgt in der
Prozesskette wahlweise per Editor oder XML, wobei jeder Schritt als eigenständiger Thread gestartet wird, um Multi-Core-Rechnerarchitekturen besser
zu unterstützen. Die zweite Komponente umfasst das eigentliche Annotationstool. Durch den Einsatz von Java-RCP als Entwicklungsplattform ist das
Tool portierbar und unter Windows und Linux anwendbar. Eine schnelle
Bilddarstellung wird durch JFace und SWT erreicht. In Abb. 2 wird die grafische Benutzungsoberfläche gezeigt.
Abbildung 2: Darstellung des Annotationstools mit einer bereits halbautomatisch
vorsegmentierten Person in der Mitte (weiße Polygonlinie).
Sie enthält zunächst die Menüleiste mit Funktionen zum Laden, Speichern, Exportieren, Szenenwechselerkennung, Objektsegmentierung und -verfolgung. Unter der Menüleiste befinden sich Buttons zur manuellen Markie-
239
rung von Objekten. Hier stehen Rechteck, Kreis, offenes sowie geschlossenes
Polygonen zur Verfügung. Um die Sichtbarkeit der Markierung in jedem
beliebigen Videomaterial zu gewährleisten, können Strichstärke und -farbe
individuell gesetzt werden. Der aktuelle Annotationsframe ist in der Mitte
dargestellt. Links reflektiert der SceneView in einer Baumstruktur die dazugehörige durch Annotationen erzeugte Objekthierarchie. Im unteren Bereich
der GUI schließt sich das ControlView an, das über entsprechende Steuerelemente die Navigation in Videos ermöglicht. Der Zugriff auf Einzelbilder
wird sequentiell in der oberen Zeile ermöglicht. Nach Ausführung der Szenenwechselerkennung kann zu den Einzelbildern einer kontinuierlichen Kameraeinstellung (engl. shot) über Klicken der repräsentativen Schlüsselbilder
(unterste Zeile) navigiert werden. Zu annotierende Frames werden durch
einen Doppelklick in die Annotationszeichenfläche transferiert.
3
Algorithmen
Die nachfolgenden Abschnitte geben einen Einblick in die im Annotationstool verwendeten Algorithmen. Deren Umsetzung erfolgt in separaten Verarbeitungsketten ausschließlich durch AMOPA. Gesteuert werden sie über eine
Schnittstelle gemeinsamer Objekte.
3.1
Navigation in Videos
In der Navigation kann unter allen Abspielfunktionen die Sprungfunktion an
eine bestimmte Position des Videos unter Umständen problematisch erscheinen, da sie die sequentielle Abtastung (Streaming) eines Videos durchbricht.
Das trifft in der aktuell angebundenen Version von FFMPEG besonders auf
das MPEG-Format zu. Wird beim Ladevorgang ein solches Format festgestellt, werden alle Videoframes momentan serialisiert als Java-Objekte auf
Festplatte ausgelagert. Im Gegensatz dazu funktioniert das Springen im Container-Format AVI reibungslos und benötigt lediglich die Verwendung eines
internen Ringpuffers.
240
3.2
Szenenwechselerkennung
Die Detektion von Szenenübergängen erfolgt in Anlehnung an das Verfahren
von (Liu 2006), nutzt jedoch nur wenige ausgewählte Merkmale zur Detektion von harten Schnitten (vgl. (Ritter & Eibl 2009)) und erreicht somit eine
Verarbeitungsgeschwindigkeit von bis zu 2,2-facher Echtzeit (Testsystem:
Dual Quad Core, 3 GHz mit Ø 65% Prozessor-Auslastung) unabhängig von
der Auflösung des Videomaterials. Dazu wird das Bild zuerst auf halbe PALAuflösung skaliert und in 48 × 48 große Blöcke zerlegt. Zu jedem Block
werden die individuellen Bewegungsvektoren bestimmt. Der Fehler zwischen
dem eigentlichen Block und seinem bewegungskompensierten Pendant ergibt
sich über die minimale absolute Distanz aller Pixel. Der Quotient über das
Verhältnis aus kumulativer Summe der Fehler aller Blöcke und einer additiven Glättungsfunktion über die Fehlersumme vergangener Bilder löst letztlich die Detektion eines Szenenübergangs aus. Gegenüber der Evaluation von
(Zwicklbauer 2010) wurde die Genauigkeit des vorliegenden Verfahrens
nochmals verbessert, indem MPEG-7-Kantenhistogramme innerhalb einer εUmgebung eines wahrscheinlichen Szenenwechsels auf je fünf benachbarten
Frames berechnet und auf Unähnlichkeit geprüft werden. Auf dem getesteten
Realmaterial kooperierender Fernsehsender (> 100 Stunden) erreicht dieses
Verfahren in eigenen Testreihen Detektionsquoten um die 99% mit einer
Falsch-Positiv-Rate von max. 1,5%.
3.3
Objektsegmentierung
Die Erfassung von genauen Konturen eines Objektes kann für dessen Merkmalsextraktion und Weiterverarbeitung von entscheidender Bedeutung sein.
Die manuelle Annotation von beliebigen Objekten mittels Freiform- oder
Polygon-Tools ist oftmals zeitintensiv. Das Annotationstool verwendet zur
semi-automatischen Segmentierung die Implementierung des GrabCut nach
(Talbot & Xu 2006). Zur Anwendung genügt es, die zu segmentierende Fläche mit einer Bounding-Box geschlossen zu umranden. Zwei Gaußsche
Mischverteilungsmodelle (GMM) werden für Vorder- und Hintergrund modelliert. Die Pixel innerhalb der Markierung werden dem Vordergrund-GMM
zugeführt. Das Farbreduktionsverfahren nach (Orchard & Bouman 1991)
bestimmt die Verteilungen innerhalb der GMMs. Danach werden alle Vordergrundpixel der wahrscheinlichsten GMM zugeordnet. Aus der neuen Pi-
241
xelverteilung wird mit den beiden GMMs als Quelle und Senke ein Graph
aufgebaut und der minimale Schnitt nach (Boykov & Kolmogorov 2004)
berechnet. Dieser Prozess wird iteriert bis sich die Pixelzuordnungen zur
jeweiligen GMM nicht mehr ändern. Die Ergebnisse des Verfahrens visualisieren Abb. 3 und Tab. 1. Die Methode erzielt akzeptable Resultate, wenn die
Farbunterschiede innerhalb des Objektes nicht zu groß sind. Probleme bereiten ausgeprägte Muster, Schatten und inhomogener Hintergrund, der keine
scharfkantige Abgrenzung des Objektes zulässt.
Abbildung 3: Evaluation der Genauigkeit des GrabCut-Algorithmus: Originalbilder
mit rechteckiger Objektselektion (oben), Unterschiede zum manuell erstellten
Ground Truth (graue Bereiche im unteren Bild). (modifiziert aus: Höhlig 2010)
Tabelle 1: Genauigkeitsanalyse GrabCut (Angaben in Pixel) (aus: Höhlig 2010)
Bild aus
Abb. 3
Buddhist
Leopard
Blume
3.4
Gesamtfläche
151.526
150.416
152.044
GrabCutManuelle
FehlSegmentation Segmentation detektionen
24.826
24.501
575
19.973
24.510
4.669
67.627
68.259
632
Fehlerquote
2,35%
19,05%
0,93%
Objektverfolgung und Datenexport
Das Annotationstool bietet die Möglichkeit, markierte Objekte wahlweise
durch Angabe einer frei zu definierenden Anzahl von Bildern oder bis zum
Ende des aktuellen Shots zu verfolgen. Dazu wird ein entsprechendes Objekt
mit einer Bounding-Box markiert (Abb. 4 links). Das weiße Rechteck bildet
den Rahmen des Suchfensters, in dem das zu verfolgende Objekt innerhalb
242
des nächsten Bildes aufgefunden werden sollte. In Anlehnung an (Beck
1999) wird ein einfaches Block-Matching-Verfahren mit n-Schrittsuche unter
Nutzung minimaler absoluter Distanz angewendet. Der Export aller Annotationen erfolgt bisher wahlweise in das Format MPEG-7-DAVP gemäß (Bailer 2007) als Plain Text oder über frei konfigurierbares XML. Eine Konvertierungsfunktion in das gegenüber MPEG-7 hierarchisch flachere ViPERDateiformat (Doermann & Mihalcik 2000) ist angestrebt.
Abbildung 4: Tracking des markierten Objekts (schwarze Bounding-Box) im Initialbild (links). Resultat der automatischen Objektverfolgung 24 Frames später (rechts).
Die Videosequenz stammt aus einer Überwachungssequenz aus TRECVID 2009
(Smeaton 2006). (entnommen aus: (Höhlig 2010))
4
Ausblick
Das beschriebene Annotationstool wird in aktuellen Forschungsarbeiten stetig weiter entwickelt. Dies umfasst sowohl die Bereitstellung einer zukünftigen Ontologie- und Thesauri-Funktion zur vereinheitlichten und konsistenteren Kennzeichnung von markierten Objekten als auch Suche und Navigation nach annotierten Objekten mittels eines Objektbrowser über Frame- und
Shotgrenzen hinweg. Eine weniger speicherintensive Lösung zur Bearbeitung
243
von MPEG-Dateien ist über Ankopplung von externen Tools zur Indexierung
der IFrames möglich. Die Einbindung von Algorithmen zur Shot Composition, die Dialoge und Nachrichtenszenen gleichen Inhalts strukturell zusammenfassen, ist ebenso angedacht wie eine Verbesserung der Segmentierungsund Verfolgungstechniken (vgl. (Price 2009)). Verfahren zur Erkennung von
Bildtexten, Sprecherwechsel und Sprache sowie zur Detek-tion von Gesichtern liegen in separaten Verarbeitungsketten in AMOPA vor und stehen zur
Integration in das Annotationstool bereit, um zukünftig umfassendere Möglichkeiten zu Annotation und Analyse anzubieten.
Danksagung
Diese Arbeit entstand partiell innerhalb des Projekts sachsMedia –Cooperative Producing, Storage and Retrieval, das im Rahmen des Programms
Unternehmen Region vom BMBF gefördert wird.
Bailer, Werner; Schallauer, Peter; Neuschmied, Helmut (2007). Description of the
MPEG-7 Detailed Audiovisual Profile (DAVP), Techn. Bericht, Joanneum Research, Graz, Austria.
Beck, Peter. (1999). Implementierung eines flexiblen Algorithmus zum Tracking von
Objekten in Java. Studienarbeit, TU Darmstadt.
Boykov, Yuri; Kolmogorov, Vladimir (2004). An experimental comparison of mincut/max-flow algorithms for energy minimization in vision. IEEE Trans. on Pattern Analysis and Machine Intelligence, 26(9):1124–1137.
Concejero, Pedro; Munuera, Jorge; Lorenz, Mirko (2008). The MESH mobile video
annotation tool. In: Proc. of the 5th ACM Nordic conference on Human-computer
interaction: building bridges, NordiCHI 2008. Schweden.
Columbia University (2004). IBM T. J. Watson Research Center: MARVEL: Multimedia Analysis and Retrieval System.
http://domino.research.ibm.com/comm/research_people.nsf/pages/jsmith.projects.html, 25.10.2010
244
Doermann, David; Mihalcik, David (2000). Tools and techniques for video performance evaluation. In: Proceedings 15th International Conference on Pattern Recognition, vol.4, pp.167–170.
Fan, Jianping; Gao, Yuli; Hangzai, Luo; Jain, Ramesh (2008). Mining Multilevel
Image Semantics via Hierarchical Classification. In: IEEE Transactions on Multimedia, 10(2), pp. 167–187.
Goldman, Dan B.; Gonterman, Chris; Curless, Brian; Salesin, David; Seitz, Steven
M. (2008). Video object annotation, navigation, and composition. In: Proceedings
of the 21st annual ACM symposium on User interface software and technology,
Monterey, CA, USA.
Hagedorn, Joey; Hailpern, Joshua; Karahalios, Karrie G. (2008). VCode and VData:
Illustrating a new Framework for Supporting the Video Annotation Workflow.
In: AVI 2008, pp. 317–321, Neapel, Italien.
Höhlig, Sebastian (2010). Analyse und Implementierung eines Verfahrens zur interaktiven semi-automatischen Objektmarkierung und -verfolgung. Bachelorarbeit,
Technische Universität Chemnitz.
Kipp, Michael (2008). Spatiotemporal Coding in ANVIL. Proc. of the 6th International Conference on Language Resources and Evaluation (LREC).
Kounoudes, Anastasis; Tsapatsoulis, Nicolas; Theodosiou, Zenonas; Milis, Marios
(2008). A multi-level Video Annotatin Tool based on XML-dictionaries. In: Proceedings of the 10th WSEAS international conference on Mathematical methods,
computational techniques and intelligent systems, Corfu, Griechenland.
Liu, Zhu; Gibbon, David; Zavesky, Eric; Shahraray, Behzad; Haffner, Patrick (2006).
AT&T RESEARCH AT TRECVID 2006. Workshop Contribution, AT&T LabsResearch.
Luo, Huitao; Eleftheriadis, Alexandros (1999). Designing an interactive tool for
video object segmentation and annotation. In: Proceedings of the 7th ACM international conference on Multimedia. Orlando, FL, USA, pp. 265–269.
Lux, Mathias. (2009). Caliph & Emir: MPEG-7 photo annotation and retrieval. Proceedings of the 17th ACM international conference on Multimedia, pp. 925–926,
Beijing, China.
Naphade, Milind R.; Lin, Ching-Yung; Smith, John R.; Tseng, Belle; Basu, Sankar
(2002). Learning to annotate video databases. In: Proc. SPIE Vol. 4676, pp. 264
bis 275, Storage and Retrieval for Media Databases.
Orchard, Michael; Bouman, Charles (1991). Color quantization of images. IEEE
Transactions on Signal Processing, 39(12), pp. 2677–2690.
Petridis, Kosmas; Anastasopoulos, Dionysios; Saathoff, Carsten; Timmermann, Norman; Kompatsiaris, Yiannis; Staab, Steffen (2006). M-OntoMat-Annotizer: Image Annotation. In: Linking Ontologies and Multimedia Low-Level Features. En-
245
gineered Applications of Semantic Web Session at the 10th International Conference on Knowledge-Based & Intelligent Information & Engineering Systems
(KES 2006), Bournemouth, U.K.
Price, Brian L.; Morse, Bryan S.; Cohen, Scott (2009). LIVEcut: Learning-based
Interactive Video Segmentation by Evaluation of Multiple Propagated Cues. In:
Proc. International Conference on Computer Vision (ICCV), Kyoto, Japan.
Ritter, Marc (2009). Visualisierung von Prozessketten zur Shot Detection. In Workshop Audiovisuelle Medien: WAM 2009, Chemnitzer Informatik-Berichte, pp.
135–150. Technische Universität Chemnitz, Germany.
Ritter, Marc; Eibl, Maximilian (2009). Visualizing steps for shot detection. In: LWA
2009: Lernen – Wissen – Adaption, Workshop Proceedings, pp. 98–100, Darmstadt, Germany.
Schroeter, Ronald; Hunter, Jane; Kosovic, Douglas (2004). FilmEd: Collaborative
Video Indexing, Annotation and Discussion Tools Over Broadband Networks. In:
Proceedings of the 10th IEEE International Conference on Multimedia Modeling,
pp. 346–353. Los Alamitos, California.
Smeaton, Alan F.; Over, Paul; Kraaij, Wessel (2006). Evaluation campaigns and
trecvid. In MIR ’06: Proceedings of the 8th ACM International Workshop on
Multimedia Information Retrieval, pages 321–330, New York, NY, USA.
Talbot, Justin F.; Xu, Xiaoqian (2006). Implementing GrabCut. Brigham Young
University, Provo, UT, USA. http://www.justintalbot.com/course-work/, 06.11.2010
Vezzani, Roberto; Grana Costantino; Bulgarelli, Daniele; Cucchiara, Rita (2006). A
Semi-Automatic Video Annotation tool with MPEG-7 Content Collections. In:
Proceedings of the 8th IEEE International Symposium on Multimedia, San Diego,
CA, USA.
Zwicklbauer, Stefan (2010). Evaluierung und Implementierung von Shot-BoundaryDetection-Algorithmen zur automatischen Video-Annotation. Bachelorarbeit,
Universität Passau, pp. 48–52.
246
Margret Plank
AV-Portal für wissenschaftliche Filme:
Analyse der Nutzerbedarfe
Margret Plank
Technische Informationsbibliothek
D-30167 Hannover
Zusammenfassung
Die Technische Informationsbibliothek (TIB) entwickelt derzeit ein innovatives AV-Portal für wissenschaftliche Filme. Hierfür soll eine Auswahl von
in der Forschung vorliegenden Methoden der visuellen Suche, Visualisierung
und der automatischen Inhaltsanalyse auf den Bereich der digitalen Bibliotheken übertragen werden. Für die Entwicklung der Benutzerschnittstelle des
AV-Portals wurden die Bedarfe der Nutzer analysiert. Auf der Basis der Ergebnisse wurde ein low-fidelity Prototyp entwickelt und in mehreren Designstufen optimiert.
Abstract
The German National Library of Science and Technology (TIB) is developing an innovative AV-Portal which allows web-based access to scientific
films. Therefore the TIB would like to transfer existing methods of visual
search, visualisation and automatic content analysis into the field of digital
libraries. In order to ensure optimum usability of the AV-Portal, the development has been accompanied by user-centred processes. A needs analysis
has been carried out and on that basis a low-fidelity prototype was developed
and optimised in several iterative design steps.
247
Hintergrund
Die Technische Informationsbibliothek (TIB) (http://www.tib-hannover.de)
sieht angesichts der Zunahme der Bedeutung multimedialer Objekte in Forschung und Lehre eine Notwendigkeit ihr Service- und Forschungsspektrum
um ein Kompetenzzentrum für multimediale Objekte (http://www.tib-hannover.de/de/die-tib/kompetenzzentrum-fuer-multimediale-objekte-kmo/) zu erweitern. Vorrangiges Ziel des Kompetenzzentrums wird es sein, die Bedingungen für den Zugang zu und die Nutzung von multimedialen Objekten in
Forschung und Lehre grundlegend zu verbessern und neue Formen der Nutzung vorhandener Bestände zu ermöglichen. In diesem Zusammenhang wird
derzeit ein innovatives AV-Portal entwickelt, das einen webbasierten Zugang
zu wissenschaftlichen Filmen aus Technik und Naturwissenschaften ermöglicht, wie z.B. Simulationen, Animationen, aufgezeichnete Experimente,
Vorlesungen und Konferenzen. Die AV-Medien sollen über das TIB- Suchportal GetInfo mit weitergehenden Forschungsinformationen wie digitalen
Volltexten, numerischen Daten und Fakten sowie Forschungsdaten verknüpft
sein. Darüber hinaus soll das Portal effiziente Such- und Präsentationsverfahren hinsichtlich multimedialer Objekte unterstützen. Die Zielgruppen eines
AV-Portals in einer wissenschaftlichen Bibliothek sind in erster Linie Produzenten und Rezipienten aus Forschung, Lehre und Praxis.
Videoretrieval
Bisherige Such- und Präsentationsverfahren orientieren sich in erster Linie an
textuellen Dokumenten, beispielsweise durch die kontrollierte Vergabe von
Metadaten. Für AV-Medien ist eine Adaption dieser Verfahren durch den
Einsatz (semi-)automatischer Medienanalyse sowie medienspezifischer Einund Ausgabeschnittstellen notwendig. Aus dem Bereich der automatischen
Extraktion von Metadaten stehen beispielsweise eine Reihe von Methoden
der automatischen Daten- und Medienanalyse für viele wichtige Medientypen wie Bilder, Audio, Videos, 3D-Modelle etc. zur Verfügung. Diese erlauben eine automatische Extraktion von Metadaten in Form von sogenannten Merkmalsvektoren oder anderen inhaltsbeschreibenden Strukturen,
248
Margret Plank
welche für die inhaltsbasierte Suche und Visualisierung herangezogen werden können (vgl. Lews et al. 2005) (vgl. Petkovic, Jonker 2004) (vgl. Marques, Furth 2002). So können solche Strukturen beispielsweise im Bereich
Video durch Verfahren der automatischen Shot-, Szenen-, Gesichter-, Kontext-, Genre-, Event- und Spracherkennung oder OCR gewonnen werden.
Neben einer textuellen Suche spielen visuelle Eingabeschnittstellen eine
entscheidende Rolle bei der Suche in AV-Datenbeständen. Gemeint sind
hierbei etwa Editoren, mittels derer Beispielsskizzen eingegeben werden
können (Query by Sketch) oder Features, die die Navigation und Selektion
anhand von Beispielobjekten (Query by Example) (vgl. Chamlers et al. 1992)
ermöglichen (vgl. Hearst 2000).
Eine medienspezifische Ergebnispräsentation ist von großer Bedeutung
um das Ergebnis einer Suchanfrage beurteilen zu können. Für den Bereich
der AV-Medien liegen eine Reihe von Verfahren vor, die es den Benutzern
erleichtert gezielt innerhalb dieses Medientyps zu recherchieren (vgl. Lews et
al. 2005). Dazu gehört ein visuelles Inhaltsverzeichnis, wie u. a. das vom
Fraunhofer Heinrich-Hertz-Institut im THESEUS-Projekt entwickelte Softwaremodul zur Videostrukturanalyse, das auf der Basis von Strukturerkennung das AV-Medium in Szenen und Shots unterteilt und eine Navigation
innerhalb der Objekte ermöglicht (http://www.shotdetection.de). Darüber
hinaus ist die Abbildung des Sprechertextes auf der Basis von automatischer
Spracherkennung zum Auffinden einer konkreten Bildsequenz möglich, wie
u.a. vom Fraunhofer IAIS (http://www.iais.fraunhofer.de/mmprec.html) entwickelt. Das OSTI (Office of Scientific and Technical Information) im Energieministerium der USA (Department of Energy, DOE) hat gemeinsam mit
Microsoft einen Audio Indexing Prototypen als Update des Multimedia
Such- und Retrievalwerkzeugs SiencePix entwickelt. Das System verfügt
über eine Spracherkennungssoftware, die ein Retrieval innerhalb der Sprechertexte möglich macht. Der gewünschte Suchterm wird zudem in den Audio-Snippets gehighlightet.
Kommerzielle Anwendungen
Für die Suche nach Bildern bieten die großen kommerziellen Suchmaschinen wie Google (http://video.google.de), Yahoo (http://de.video.search.yahoo.com) und Bing (http://www.bing.com/videos) eigene Plattformen an, auf
denen der Nutzer das Suchergebnis mit medienspezifischen Parametern eingrenzen kann (z. B. Format, Auflösung). Bei Google ist zudem die Bildrecherche nach visueller Ähnlichkeit möglich, allerdings nur mit zuvor dort
249
gefundenen Bildern. Eine Ähnlichkeitssuche, in die Nutzer durch Hochladen
auch eigene Bilder einbeziehen können, bieten GazoPa (http://www.gazopa.com/) und die Betaversion von Retrievr (http://labs.systemone.at/retrievr).
Beide verfügen zudem über die Möglichkeit einer Query by Sketch. Firmen
wie Betaface (http://www.betaface.com/) und seit kurzem auch Picasa
(http://picasa.google.de/) haben sich auf die Suche per Gesichtserkennung
spezialisiert. Picasa nutzt diese Technik um die Fotoverwaltung mit automatischer Bilderkennung und -klassifizierung zu ergänzen und bietet zudem die
Möglichkeit des Geotaggings an. TinEye (http://www.tineye.com) erlaubt
den Upload eigener Bilder, alternativ zur Eingabe einer Internetadresse als
Bildquelle und findet ausschließlich solche, die dem Original entsprechen.
Damit lassen sich beispielsweise Urheberrechtsverletzungen aufspüren. Voxalead News (http://voxaleadnews.labs.exalead.com/) sucht in den gesprochenen Inhalten von Radio- und Fernsehsendungen und ermöglicht so eine
innovative Navigation innerhalb eines Videos.
Der erfolgreiche Transfer von ausgewählten Retrieval-Lösungen aus der
Forschung in die Praxis stellt die Grundlage für die Entwicklung des geplanten AV-Portals an der TIB dar.
Nutzerbedarfe AV-Portal
Im Frühjahr 2010 hat die TIB gemeinsam mit einer auf Usability spezialisierten Agentur eine Analyse durchgeführt, die die Anforderungen der o.g.
Zielgruppen in Bezug auf Sammlung und Bereitstellung von wissenschaftlichen AV-Medien in der TIB ermitteln sollte und die folgende Maßnahmen
umfasste:
• Experteninterviews mit Vertretern aus wissenschaftlichen Instituten,
Filminstituten, Bibliotheken und Hochschulen
• Umfeldanalyse: Recherche öffentlich verfügbarer AV-Portale, inhaltsbasierter Suchmethoden und Visualisierung
• Entwicklung eines prototypischen AV-Portals auf Basis der Ergebnisse
• Fokusgruppen mit Benutzern aus den Zielgruppen
250
Margret Plank
Experteninterviews
Die Experteninterviews wurden telefonisch durchgeführt und dauerten ca. 60
Minuten. Die 6 Teilnehmer wurden gebeten, aus ihrer Sicht relevante Verfahren, Techniken und Aktivitäten aus dem Videoretrieval zu beschreiben
und deren Einsatz im geplanten Vorhaben der TIB zu bewerten.
Die Experten sehen einen großen Bedarf in einem wissenschaftlich ausgerichteten AV-Portal in Deutschland und empfehlen u. a. folgende Verfahren
und Techniken anzuwenden bzw. in den Prototyp zu integrieren:
• Kundenfreundliche Benutzeroberfläche
• Verknüpfung der Videos mit dem Kontext, z.B. Volltexte oder Forschungsdaten bzw. medienübergreifende Suche
• Leistungsstarke textuelle Suchfunktionen (einfache Suche, erweiterte
Suche)
• Visuelle Suchfunktionen (z.B. ähnlichkeitsbasierte Suche)
• Semantische Suche
• Visuelles Inhaltsverzeichnis auf der Basis von Shot-/Szenendetektion
• Faceted Search
• Navigation über den Audiotext auf der Basis von Spracherkennung
• Kanäle (Fächer, Institutionen etc.) analog zu YouTube
• Einfaches Hochladen eigener Videos inkl. Vergabe von Nutzungsrechten
• Benutzergenerierte Web 2.0-Dienste wie Tagging und Bewertung
Fokusgruppen mit Benutzern aus den Zielgruppen
Auf der Basis der o.g. Experteninterviews in Verbindung mit einer Umfeldanalyse zum Thema „Öffentlich verfügbare AV-Portale“ wurde ein Prototyp
entwickelt, der mit zwei Fokusgruppen aus den Bereichen Physik und Maschinenbau von insgesamt 15 Teilnehmern diskutiert und anschließend optimiert wurde (vgl. Plank 2010).
Analog zu den Zielgruppen der TIB wurden die Teilnehmer aus den Bereichen Industrie, Forschung und Lehre rekrutiert und setzen sich folgendermaßen zusammen: Wissenschaftliche Mitarbeiter (3), Doktoranden (2), LfbA
(1), Akademischer Oberrat (1), Studenten (3), Technischer Angestellter (1),
Dipl. Bibliothekarin (1), Ingenieur (1), ohne Angabe (2)
Es folgen die wichtigsten Ergebnisse in der Übersicht:
251
Anreize und Voraussetzungen für die Nutzung des Portals
Die 15 Teilnehmer sehen in dem Portal einen großen Mehrwert für ihre wissenschaftliche Arbeit. Sie erwarten einen großen bereits vorhandenen Grundstock an AV-Medien, wobei die Qualität der Inhalte entscheidend ist. Die
Referenzierbarkeit der selbsteingestellten Medien durch die Vergabe eines
DOI stellt einen großen Anreiz dar. Eine überregionale Wahrnehmung der
Medien sowie die Möglichkeit für das eigene Institut/Institution zu werben
wird positiv vermerkt. Eine Kontrollinstanz, die eingestellte Medien und
Benutzeraktionen überprüft, wird ebenso erwartet wie die Verknüpfung der
AV-Materialien mit anderen Medien im TIB-Suchportal GetInfo.
Suchmöglichkeiten (Text, Bild, Zeichnung)
Auf der Startseite werden über die Möglichkeit einer gezielten Suche hinaus
Zugänge wie z.B. Stöbern, Einstieg nach Themen/Zielgruppen erwartet. Weiterhin wünschen die Nutzer die Integration von Kanälen analog zu YouTube
(http://www.youtube.de) sowie eine sprachenübergreifende Suchmöglichkeit.
Die Teilnehmer zeigten sich sehr offen für innovative Suchmöglichkeiten
(Suche mit Bild, Suche mit Zeichnung), aber würden diese gern mit textueller Suche kombinieren.
Zum Video gehörige Daten und Informationen
Alle gängigen Videoformate werden erwartet (wmv, avi, …). Die Information darüber, in welchem Format ein Video vorliegt, sollte bereits in der Ergebnisliste ersichtlich sein. Neben der Möglichkeit den Source Code bei Java-Applets einsehen zu können, würden es die Benutzer begrüßen, wenn zu
erkennen ist, mit welcher Software eine Simulation erstellt wurde und ein
Link zu der Software bereitgestellt würde. Es wird gewünscht, die Ergebnisliste nach Dateigröße sortieren zu können, auch wenn diese für die Benutzer
erst spät im Recherchevorgang eine interessante Information ist. Wichtige
Detailinformationen zu den AV-Medien sollen zentral auf der Detailseite
eines Videos ersichtlich sein.
Navigation innerhalb eines Videos
Die Möglichkeit einer Suche bzw. der Navigation im Video über den abgebildeten Audiotext erscheint den Nutzern sehr interessant. Dasselbe gilt für
die Navigation über ein visuelles Inhaltsverzeichnis. Eine manuelle KapitelSegmentierung durch die Einstellenden wäre ebenfalls interessant. Auf diese
Weise könnte der Hochladende selbst entscheiden, in welche Kapitel er sei-
252
Margret Plank
nen Film einteilen würde. Weiterhin möchten die Teilnehmer auch von einer
Folie in einer Präsentation an die entsprechende Stelle im Video springen
können.
Filter Faceted Search
Der Aufbau des Filters wurde von allen Teilnehmern begrüßt. Insbesondere
die Möglichkeit uninteressante Kategorien zuklappen zu können und dafür
mehr Platz für relevante Kategorien zu haben, wurde positiv bewertet.
Sprachoptionen sollten nicht im Filter, sondern in der Suche untergebracht
werden. „Relevanz“ als Begriff im Dropdown war den Benutzern unklar und
„Verfügbarkeit“ im Sinne von rechtlicher Verfügbarkeit wird als Filterkategorie erwartet. Um die Seriosität der Videos zu erkennen, wünschten sich
die Teilnehmer die Möglichkeit, Ergebnislisten nach Quellen zu filtern.
Videos abspielen und bearbeiten
Die Benutzer wünschen sich die Möglichkeit, ein Video nicht nur in der
Standard- und in der Vollbild-Ansicht abspielen zu können, sondern wie bei
YouTube zusätzlich mindestens eine Zwischenstufe zur Auswahl zu haben.
Bezüglich der Online-Bearbeitung von Videos würde es den Teilnehmern
ausreichen von einem Video eine Szene auswählen zu können, die sie als
Ausschnitt herunterladen und somit von einem langen Video nicht die volle
Datenmenge auf ihrem Rechner speichern müssen. Ein vollständiges Schnittwerkzeug zum Neu-Kombinieren von Szenen wird nicht gewünscht.
Benutzergenerierte Inhalte/Web 2.0
Die Nutzung von Social Networks wie Facebook (http://www.facebook.com)
etc. scheint vorrangig für Studierende interessant zu sein, die auch eine Verknüpfung mit E-Learning-Plattformen wie StudIP wünschen.
Die Produzenten sollen ihr eigenes Video mit Tags versehen können, aber
ein Benutzer soll auch Schlagwörter ergänzen können. Schlagwörter, die
vom Autor oder Bereitsteller des Videos vergeben wurden, sollen von anderen unterscheidbar sein. Beim Thema Tagging wurde außerdem noch einmal die Notwendigkeit einer Kontrollinstanz diskutiert: „Nutzertags sind
wichtig, sollten aber nicht ungefiltert und unkontrolliert vergeben werden
können.“ Die Teilnehmer waren zudem gegenüber den meisten reinen Community-Features (wie Profile, Vernetzung mit anderen etc.) eher skeptisch
eingestellt. Darüber hinaus erschloss sich den Teilnehmern zunächst nicht, ob
mit „bewerten“ die Aufzeichnungsqualität eines Videos oder die Anschau-
253
lichkeit des Inhalts gemeint ist. Einig waren sich die Teilnehmer darin, dass
eine einzige Bewertungskategorie (beispielsweise durch die Vergabe von
Sternen) zu grob für die Komplexität eines Films sei und man deshalb die
Bewertung aufteilen sollte (z.B. Bewertung des Inhalts, Bewertung der technischen Qualität etc.).
Optimierter Prototyp
Auf Basis der Ergebnisse der Fokusgruppen wurde der Prototyp optimiert. Es
folgt ein Überblick über die nutzerseitigen Funktionen des geplanten AVPortals:
• Von zentraler Bedeutung ist die textbasierte Suche (z.B. nach Autor,
Titel, Abstract), die sich bei Bedarf zusätzlich anhand von vordefinierten
Kategorien und Optionen weiter einschränken lässt. Neben der gezielten
Suche ist der Sucheinstieg auch über Stöbern möglich. Nutzer finden die
AV-Medien nach Fachgebieten sortiert oder können sich die neuesten,
bestbewertesten, meistgesehenen oder zuletzt angesehenen AV-Medien
anzeigen lassen. Zudem kann das Ergebnis anhand von Filtern eingeschränkt werden (z.B. nach Fächern, Themen, Formaten, rechtlicher Verfügbarkeit, Institutionen, Medientypen, Autoren, Verlage, Erscheinungsjahre, Datenbanken). In einer Ausbaustufe soll das AV-Portal auch die
Suche nach ähnlichen AV-Medien anhand eines Bildes oder Screenshots
möglich machen (Query by Example).
• Die Trefferliste zeigt neben Detailinformationen zum AV-Medium auch
Bewertungen und Rezensionen anderer Nutzer. Zusätzlich kann über eine
TagCloud in verwandten Themen gesucht werden. Mithilfe eines visuellen Inhaltsverzeichnisses kann der Nutzer im Video navigieren und die
gesuchte Bildsequenz gezielt ermitteln. Alternativ soll über den visualisierten Sprechertext mittels Suchterm-Highlighting im Video navigiert
werden können. Angezeigt wird das Video über einen Preview Player,
der einen Vollbildmodus bietet. Zudem werden die Treffer aus dem TIBFachportal GetInfo angezeigt, wie z.B. digitale Volltexte und Forschungsdaten. Die AV-Medien werden sequenzgenau mit Digital Object
Identifiers (DOI) versehen, sodass deren Referenzierbarkeit gewährleistet
ist.
• Registrierte Nutzer können eigene AV-Medien in das Portal hochladen,
sowie deren Kapitel entweder manuell oder auch automatisch segmentieren und mit einem Logo/Wasserzeichen versehen.
254
Margret Plank
Weitere Schritte
Mit der Entwicklung eines innovativen AV-Portals an der TIB soll ein Beitrag dazu geleistet werden, den wachsenden Bestand der AV-Medien optimal
zu erschließen, effizient zu verwalten und nutzergerecht zugänglich zu machen. Um die Anforderungen und Bedürfnisse aller Benutzergruppen optimal
zu bedienen und zu berücksichtigen, wird die Entwicklung auch weiterhin
mit Methoden des benutzerzentrierten Designs begleitet. So sollen in der
Umsetzungsphase umfangreiche Usabilitytests in mehreren Iterationsstufen
stattfinden. 2011 ist ein teilfunktionaler Prototyp geplant, 2012 eine Pilotphase und bis Ende 2013 die Überführung in die Systemumgebung der TIB.
Abbildung 1: Optimierter Prototyp (Startseite) http://www.tib.uni-hannover.de/fileadmin/avportal-wireframe/2010-06-14_Wireframes_Videoportal_Start.html
255
Chamlers, M.; Chitson, P. (1992). Bead: Explorations in Information Visualization.
In: Belkin, N. (Hg.): SIGIR ’92.
Hearst, M. (2000). User Interfaces and Visualization. In: Baeza-Yates, R.; RibeiroNato, B. (Hg.): Modern information retrieval. Harlow: Addison-Wesley.
Lews, M. S.; Sebe, N.; Djeraba, C.; Jain, R. (2005): Content-based Multimedia Information Retrieval: State of the Art and Challenges. In: ACM transactions on
multimedia computing, communications, and applications. TOMCCAP. New
York, NY: ACM, Bd. 2/1, S. 1–19.
Marques, O.; Furht, B. (2002): Content-based image and video retrieval. Boston:
Kluwer Acad. Publ.
Petkovic, M.; Jonker, W. (2004): Content-based video retrieval. A database perspective. Boston, Mass.: Kluwer Acad. Publ.
Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY: ACM Press.
Internetquellen (Verifizierungsdatum: 17. Januar 2011)
Betaface http://www.betaface.com/
Bing Bilder- und Videosuche www.bing.com/images und http://www.bing.com/videos
Fraunhofer HHI http://www.hhi.fraunhofer.de/ und http://www.shotdetection.de
Fraunhofer IAIS http://www.iais.fraunhofer.de/mmprec.html
GazoPa http://www.gazopa.com
Google Bilder- und Videosuche http://images.google.de und http://video.google.de
Kompetenzzentrum für multimediale Objekte
http://www.tib-hannover.de/de/die-tib/kompetenzzentrum-fuer-multimediale-objektekmo/
OSTI (Office of Scientific and Technical Information)
http://www.msravs.com/audiosearch_demo/
Picasa http://picasa.google.de/
Plank, M. (2010) Abschlussbericht: Anforderungsspezifikation AV-Portal für wissenschaftliche Filme, Technische Informationsbibliothek (TIB)
http://www.tib-hannover.de/fileadmin/kmo/Abschlussbericht_Studie_AVPortal.pdf
Retrievr http://labs.systemone.at/retrievr
Technische Informationsbibliothek (TIB) http://www.tib-hannover.de/
256
Margret Plank
TIB Prototyp AV-Portal
http://www.tib.uni-hannover.de/fileadmin/av-portal-wireframe/2010-0614_Wireframes_Videoportal_Start.html
TinEye http://www.tineye.com
Voxalead News http://voxaleadnews.labs.exalead.com/
Yahoo Bilder- und Videosuche
http://de.images.search.yahoo.com und http://de.video.search.yahoo.com
257
Ergebnisse aus Fallstudien
Achim Oßwald
Fachhochschule Köln – Institut für Informationswissenschaft
Claudiusstraße 1, 50678 Köln
[email protected]
Zusammenfassung
Im Rahmen von 30 Fallstudien wurden von Praktikern aus dem Bibliotheksund Informationsbereich – unter Bezugnahme auf den Bedarf zukünftiger
Nutzergruppen aus ihrem Arbeitsumfeld – wesentliche Eigenschaften digitaler Objekte für die Langzeitarchivierung ermittelt. Diese Ergebnisse wurden
mit den im Rahmen des InSPECT-Projektes ermittelten Objekttypen und den
für sie als wesentlich erachteten Eigenschaften verglichen. Die Ergebnisse
der Fallstudien zeigen, dass für die Langzeitarchivierung solcher Objekte, die
von InSPECT in Betracht gezogenen Objekttypen erweitert bzw. differenziert werden sollten. Die Definition der wesentlichen Eigenschaften dieser
Objekttypen kann nach den vorliegenden Ergebnissen noch nicht als stabil
bezeichnet werden.
Abstract
Thirty case studies have been conducted by practitioners in the Library and
Information Science sector to identify significant properties of digital objects
relevant to designated communities of their working environment. The results have been compared with object groups and the significant properties
assigned to them within the InSPECT project. Results show that types of
objects considered for digital preservation by InSPECT should be expanded
and differentiated. In addition, the number and definition of significant properties assigned to these types of objects is not settled and still has to be optimized.
258
Achim Oßwald
Ausgangssituation und Fragestellungen
Die Anzahl und Varianten digitaler Objekte im beruflichen und privaten Umfeld wächst rasant. Digitale Daten- und Dokumentsammlungen sowie digitale
Kommunikations- und Geschäftsprozesse dominieren in Wissenschaft und
Praxis. Ihre Bewahrung im Sinne von mittel- bzw. langfristiger Speicherung
erhält zunehmend Bedeutung für die Dokumentation von Forschung und
Praxis, konkret als Grundlage des intersubjektiven Nachweises über Aktivitäten und ihre Ergebnisse. Wie im klassischen Archivwesen, bei dem lediglich ca. 1/10 der den Archiven angebotenen analogen Objekte langfristig
archiviert werden, so ist auch vor der Langzeitarchivierung (LZA) digitaler
Objekte eine Reduktion auf bestimmte Objektgruppen oder Objekttypen
sinnvoll. Für digitale Objekte muss zudem entschieden werden, welche konstituierenden bzw. charakterisierenden Eigenschaften für eine langfristige1
Archivierung und wieder erfolgende Nutzung notwendig sind. Dabei wird
nach aktuellem Stand der Forschung – z.B. im Rahmen des InSPECT-Projektes (Investigating the Significant Properties of Electronic Content Over
Time; vgl. Grace/Knight/Montague 2009, 5) – davon ausgegangen, dass diese ganz wesentlich vom erwarteten Nutzungskontext in einem bestimmten
organisationellen Rahmen beeinflusst werden.
Im Mittelpunkt der LZA digitaler Objekte stehen daher zwei Fragen
• Welche digitalen Objekte sollen überhaupt für die LZA ausgewählt werden?
• Welche Eigenschaften dieser digitalen Objekte sind wesentlich und daher
unbedingt zu bewahren, um den Inhalt und die Wahrnehmbarkeit dieser
Objekte auch zukünftigen Nutzern möglichst authentisch zugänglich zu
machen (sog. performance2).
Gegenstand des nachfolgend vorgestellten Projektes sind beide Fragen. Im
Rahmen eines auf drei Zyklen angelegten Forschungsprojektes wählen in
1 Neben der Möglichkeit, hierfür Jahresspannen von 20, 50 oder 100 Jahren zu definieren, besteht die Option, die Definition aus Liegmann/Neuroth (2010) aufzugreifen:
„,Langzeit‘ ist die Umschreibung eines nicht näher fixierten Zeitraumes, währenddessen wesentliche, nicht vorhersehbare technologische und soziokulturelle Veränderungen eintreten; Veränderungen, die sowohl die Gestalt als auch die Nutzungssituation digitaler Ressourcen in rasanten Entwicklungszyklen vollständig umwälzen können.“
(Kap. 1:2).
2 Hier wie auch nachfolgend werden – soweit zur Präzisierung angebracht – die in der
Fachdiskussion genutzten gängigen englischsprachigen Bezeichnungen verwendet.
259
ihrem beruflichen Kontext damit potenziell beauftragte Praktiker aus dem
Bereich Library and Information Science (LIS) LZA-relevante Objekte aus.
Danach spezifizieren sie für diese aktuelle und zukünftige, kontextbezogene
Nutzergruppen (designated communities; DC) und auf dieser Grundlage die
für die jeweiligen Objekte wesentlichen Eigenschaften (significant properties; SP), um langfristig eine adäquate Nutzung zu ermöglichen. Die Ergebnisse werden unter Bezugnahme auf den aktuellen Forschungsstand des InSPECT-Projektes zu den SP digitaler Objekte analysiert und bewertet.
Das Konzept der significant properties
und designated communities
Im Rahmen der Forschung zur LZA3 digitaler Objekte ist allgemein anerkannt, dass die wesentliche Eigenschaften (significant properties) eines digitalen Informationsobjektes so bewahrt werden sollten, dass dieses zukünftig
als authentisches Objekt zugänglich und nutzbar sein wird. Dies setzt u.a. die
Klärung voraus, welche Eigenschaften als wesentlich anzusehen sind. Die
Ermittlung dieser wesentlichen Eigenschaften erfolgt unter Berücksichtigung
des aktuellen und voraussichtlichen zukünftigen Nutzungskontextes sowie
der jeweils zu spezifizierenden Nutzergruppen (designated communities).
Das Konzept der significant properties wurde erstmals im CEDARS Projekt (The CEDARS Projekt Team 2001) herausgearbeitet und in den letzten
Jahren im Rahmen des InSPECT-Projektes (Wilson 2007 bzw. Grace/Knight/
Montague 2009) konkretisiert. Im InSPECT-Projekt war versucht worden,
für bestimmte Objekttypen (konkret: Audio-Dateien, E-Mails, Raster-Bilder
und strukturierter Text) jeweils eine Liste von SP zu ermitteln, die für eine
intersubjektive DC relevant sein würden. Hierfür wurde eine idealtypische,
aufwendige Methode für den Bewertungs- und Entscheidungsprozess mit
unterschiedlichen Interessensgruppen entwickelt (vgl. ebd. 5–14).4 Der In3 Für einen grundlegenden Überblick zum Thema Langzeitarchivierung vgl. Neuroth et
al. 2010.
4 Zur Orientierung der Anwender werden die zu ermittelnden SP fünf Kategorien (content, context, rendering, structure und behavior; vgl. Grace/Knight/Montague 2009, 10)
zugeordnet. Für die nachfolgend skizzierten Fallstudien dienten diese Kategorien und
damit verbundene Erläuterungen den Probanden als Orientierung.
260
Achim Oßwald
SPECT-Ansatz zielt insofern auf jeweils grundsätzlich relevante SP für ausgewählte Objekttypen – basierend auf der dort entwickelten Methodik, die
organisationell bedingte Sichten der designated communities zu verallgemeinern versucht.
Einen anderen methodischen Schwerpunkt setzt der Planets-Ansatz5, bei
dem SP stärker kontext- und fallbezogen ermittelt werden. Hierfür wurde das
Tool PLATO entwickelt, mit dem der Prozess des Preservation Planning und
damit in Teilbereichen auch die Ermittlung der SP und der entsprechenden
DC realisiert werden kann. Auch wenn für das Design der vorliegenden Fallstudien dieses Tool aus organisatorischen Gründen nicht in Frage kommt, so
steht der hier gewählte methodische Ansatz eher dem Planets-Vorgehen nahe. Im Wesentlichen wird dies dadurch erkennbar, dass der Einzelfallbezug
und damit die organisations- und anwendungsfallspezifischen Aspekte bei
der Ermittlung von SP stärker zum Tragen kommen (Planets 2010, 15).
Zielsetzung, Methodik und Studiendesign
Die Ergebnisse des InSPECT-Projektes werden in mehrfacher Hinsicht mit
den Analyseergebnissen aus dem hier dokumentierten Projekt in Bezug gesetzt. Ziel ist es zu ermitteln,
• inwieweit die von InSPECT gewählten Objekttypen denen entsprechen,
die von LIS-Praktikern6 (s.u.) in einer, weiteren LZA-Maßnahmen vorgelagerten, Auswahl in Betracht gezogen werden.
• inwieweit die von den an der Fallstudie teilnehmenden Berufspraktikern
ermittelten SP für jene Objekttypen, die auch von InSPECT in den Focus
genommen wurden, mit den von InSPECT als relevant ermittelten SP
übereinstimmen.
5 Planets (Preservation and Long-term Access
http://www.planets-project.eu/); vgl. Planets 2010.
through
Networked
Service;
6 Teilnehmerinnen und Teilnehmer des berufsbegleitenden Masterstudiengangs „Bibliotheks- und Informationswissenschaft“ (Library and Information Science) am Institut für
Informationswissenschaft der FH Köln. Die Akteure haben mehrjährige Berufserfahrung im LIS-Bereich und handeln vor dem Hintergrund einer breit angelegten LZAEinführung incl. wesentlichen Informationen zum methodischen Vorgehen.
261
Bislang wurden lediglich Fallstudien für ausgewählte Objekttypen (z.B.
Vektor-Grafiken (Coyne et al. 2007), Software (Matthews et al. 2008)) oder
für ausgewählte Nutzungsszenarien durchgeführt. Dabei wurde unterstellt,
dass LZA-Experten in mitderLZA beauftragten Einrichtungen die Handelnden
sind. In der LZA-Praxis ist – u.a. auch aus Kostengründen – allerdings davon
auszugehen, dass nicht nur in professionellen LZA-Institutionen, sondern aus
pragmatischen Gründen (Budget, Aufwand, Delegation) in beliebigen Organisationen andere Personen mit der Ermittlung und Festlegung von DC und
SP betraut werden. Im günstigsten Fall sind dies im Themenbereich LZA geschulte LIS-Praktiker. Insofern ist anzunehmen, dass die organisationsinterne
Abstimmung mit anderen Akteuren nur bedingt so iterativ und elaboriert erfolgt, wie dies im Rahmen idealtypischer methodischer Ansätze angenommen
wird. Die Ergebnisse tragen damit zur Überprüfung der Praxisrelevanz der
InSPECT-Projektergebnisse bei und dienen ihrer methodischen Überprüfung.
Im Rahmen der hier vorgestellten Fallstudien wählten Berufspraktiker einen LZA-relevanten Objekttyp aus ihrem beruflichen Kontext aus und legten
fest, wer dessen aktuelle sowie zukünftige DC ist (in 5, 20 und 100 Jahren)
und welche SP sich aus dieser Konstellation für das konkrete digitale Objekt
und den Objekttyp ergeben. Der Parameter „Kosten“ wurde zur Vereinfachung bewusst nicht einbezogen. Die Ergebnisse werden mit den InSPECTErgebnissen verglichen und bewertet.
Um Zufälligkeiten zu relativieren, die sich aus den Ergebnissen einer Fallstudiengruppe ergeben, ist das Projekt auf drei Zyklen angelegt. Die Ergebnisse des ersten Zyklus, der im Wintersemester 2009/10 erfolgte, sind Gegenstand dieses Beitrags. Sie erlauben erste Trendaussagen.
Ergebnisse
Objekttypen im Überblick
Von den 30 Teilnehmern wurden entsprechend dem Studiendesign in Summe
30 Objekte aus ihrem Arbeitskontext gewählt. Dabei wurden folgende der
(an Dateiformaten orientierten) InSPECT-Objekttypen ausgewählt:
262
Objekttyp
Anzahl
Achim Oßwald
AudioDatei
1
E-Mail
2
RasterBild
3
strukturierter
Text7
4
Summe
10
Abb. 1: Anzahl der Übereinstimmungen mit den InSPECT-Objekttypen
Die weiteren 20 ausgewählten Objekte verteilen sich auf drei Objekttypen: Datenbanken (1 Nennung), Präsentationen (2) sowie PDF-Dateien (17),
wobei zwischen PDF und PDF/A-Varianten unterschieden wurde. Beispielhaft seien aus dieser Typgruppe genannt: Autorenskripte, Abschlussarbeiten,
Geschäftsberichte oder Flyer.
Objekttypen in der Einzelbetrachtung
Nachfolgend werden für die vier von InSPECT (vgl. Grace/Knight/Montague
2009) definierten und untersuchten Objekttypen jeweils die dort genannten
SP (in Originalbezeichnung) aufgelistet. Die von den Fallstudienteilnehmern
bei ihren Objekten als relevant erachteten SP sind jeweils kursiv markiert
(Häufigkeit der Nennung bei > 1 in Klammern).
Audio-Datei
1. Duration
2. Bit depth
3. Sample rate
4. Number of channels
5. Sound field
6. Sound map location for each channel
7. Description
88. Originator
99. OriginatorReference
10. OriginationDate
11. OriginationTime
12. Coding History
13. Quality Report
14. Cue Sheet
Sieben der 14 von InSPECT vorgeschlagenen SP wurden gewählt, eine weitere Eigenschaft, ein „Identifier“ (ISRC; International Standard Recording
Code) wurde ergänzend vorgeschlagen.8
7 Unter Einbeziehung von Programmcode, OAI-Metadatensätzen und Wiki-Seiten, die
allerdings wegen der strukturellen Abweichungen im Abgleich mit den InSPECT-SP
(kursive Eintragungen; s.u.) nicht mitgezählt wurden.
8 Bezogen auf das Objekt Musik-CD wurden noch ergänzt: Angaben zur Struktur der CD
sowie der Position eines Tracks in der Abfolge der Tracks.
263
E-Mail
1. Local-part (Fallstudie: Sender)
2. Domain-part (Fallst: Rezipient)
3. Relationship
4. Subject (2)
5. Trace-field
6. Message body with no mark-up
7. Attachments (2)
Sofern eine E-Mail im Kontext weiterer Mails archiviert werden soll, schlägt
InSPECT noch „Message-ID“ und „References“ vor. Sechs der sieben InSPECT-SPs wurden gewählt. Ergänzend wurde vorgeschlagen: „Format“
(wird bei InSPECT nicht als gesonderte SP geführt, aber genannt), „Datum“
sowie „Schlagwörter“, „Verschlüsselung“ (ja/nein; wie?), „Empfangsbestätigung“ (angefordert/erhalten) und „Hyperlinks“ (2 Nennungen).
Raster-Bilder
1. Image Width
2. Image Height
3. X Sampling Frequency
4. Y Sampling Frequency
5. Bits per sample
6. Samples per pixel
7. Extra samples
Vier der sieben vorgeschlagenen InSPECT-SP wurden gewählt. Ergänzend
wurden vorgeschlagen: Beschreibende Metadaten (Fotograf; Inhalt; Ort und
Anlass der Aufnahmen; Format, Farbraum (2); Titel (sofern vorhanden)),
strukturelle Metadaten (z.B. Abfolge einzelner Bilder bei mehreren Dateien,
die ein Objekt konstituieren; Exif-Daten) und administrative Metadaten (Erstelldatum; Bildrechte; Veränderungen; Signatur; Verlinkung auf weitere, mit
dem digitalen Objekt verbundene Objekte/Dienstleistungen) incl. Persistent
Identifier (konkret: Uniform Resource Name) zur weiteren Beschreibung der
Relation zwischen digitalem Objekt und dessen Metadaten.
Strukturierter Text
1. Title
2. Creator
3. Date
4. Keywords
5. Rights
6. Div
7. Span
8. Language
9. Paragraph
10. Line break
11. Headings
12. Emphasis
13. Bold
14. Italics
15. Underline
16. Strong emphasis
17. Strikethrough
18. Horizontal Rule
264
19. Inserted text
20. Deleted text
21. Samp
22. Cite
23. Defined Terms (DFN)
24. Code
25. Abbreviation
26. Acronym
27. Quotations
28. Subscript/Superscript
Achim Oßwald
29. Address
30. Button
31. List Elements
32. Table Elements
33. Image
34. Link
35. Applet
36. Frame
37. Frameset
123456
25 von 37 der InSPECT-SP 9 wurden genannt. Ergänzend wurden (u.a. mit
Referenz auf den Objekttyp Wiki): „Folgeautor“, „Autoren-ID“, „Versionsnr.“, „Seiten-ID“ und „Seitenname“, „enthaltene Elemente“, „Länge“,
„Verknüpfungen“, „Formatreferenz“, „Zugriffsbeschränkungen“.
Zusammenfassung der Fallstudienergebnisse
Die Praktiker aus dem LIS-Bereich ermittelten im Rahmen der Fallstudie im
Vergleich zu InSPECT mindestens drei weitere, als relevant bewertete Objekttypen. Vor dem Hintergrund der von InSPECT angestrebten prototypischen Anwendung und damit auch Begrenzung der im Projekt entwickelten
Methodik war dies nicht anders zu erwarten. Auffallend ist jedoch, dass
PDF(/A)-Dateien von InSPECT nicht einbezogen worden waren.
Die in den Fallstudien ausgewählten SP jener Objekttypen, die auch von
InSPECT ausgewählt wurden, weichen von den SP bei InSPECT z.T. deutlich ab. In beiden Untersuchungsbereichen bringen die Praktiker insofern
eine fachlich andere Perspektive ein, als sie im Rahmen des Projektes InSPECT zum Tragen kommt.10
Da die von InSPECT ermittelten SP-Elemente von den Praktikern nur z.T.
als signifikant ausgewählt wurden, sind die von InSPECT ermittelten objekttyp-spezifischen Standard-SP zu relativieren. Dies könnte ein Indiz für
1
2
3
4
5
6
99 Die SP Nr. 6, 21, 22 und 30 werden leider in der Quelle unzureichend erläutert.
10 In einer ergänzenden Studie wäre zu ermitteln, worin dies begründet ist, z.B. in den
Gegebenheiten der organisationellen Umgebung, unzureichenden Einbeziehung der
DC, Subjektivität der Fallstudienteilnehmer oder in anderen Gründen.
265
den bislang unterschätzen Einfluss des organisationellen Kontextes, aber
auch der Pragmatik von Praktikern sein, deren Kernaufgabe nicht LZA ist.
Deutlich erkennbar variieren die genannten und ergänzten Angaben zu SP
je nach gewähltem Objekt gerade aus dem Objektbereich „strukturierter
Text“. So wird bei InSPECT z.B. die Problematik von in gesonderte Steuerdateien (z.B. Stylesheets, Dokumenttypdefinitionen) ausgelagerten Strukturinformationen (z.B. für XML- oder HTML-Dokumente) nicht angesprochen;
ebenso wenig neue Formen der Textrepräsentation wie im Fall von Wikis
(vgl. o.) und den damit verbundenen weiteren SP.11
Schlussfolgerungen
Mit den von InSPECT ausgewählten Objekttypen und darauf bezogenen
Gruppen an significant properties wird nachweislich nur ein Teil jener Objekttypen und Bedarfssituationen abgedeckt, die von Praktikern als LZArelevant ermittelt und beschrieben werden. Die in den Fallstudien ermittelten
Objekttypen und deren SP gehen hinsichtlich Vielfalt wie auch Granularität
über das von InSPECT Ermittelte hinaus. Offensichtlich gibt es hier einen
über die von InSPECT aus pragmatischer Sicht begrenzte Anzahl von Objekttypen hinausgehenden Bedarf. Vermutlich auch deshalb wurde von den
Autoren des InSPECT-Abschlussberichtes explizit dazu aufgefordert, in wieteren Fallstudien zur Absicherung der InSPECT-Ergebnisse beizutragen
(Grace/Knight/Montague 2009, 23).
Insbesondere für den Bereich von aus Office-Dokumenten erstellten PDFDokumenten besteht noch Ermittlungs- und Aufklärungsbedarf hinsichtlich
der SP von im Format PDF(/A) verfügbaren Dokumenten. Dies auch deshalb, weil sie unter Rahmenbedingungen, wie sie mit den Fallstudien erfasst
wurden, einen erheblichen Teil der in der Berufspraxis zu archivierenden
Objekte ausmachen könnten.
Um dieses Zwischenergebnis aus dem ersten Durchlauf des auf drei Zyklen angelegten fallstudienbasierten Projektes auf eine breitere Basis zu stellen, bedarf es einer erhöhten Anzahl von weiteren Probanden und Fall11 Was dafür spräche, den Objekttyp Wiki gesondert zu führen und nicht dem Typ
„strukturierter Text“ zuzuordnen.
266
Achim Oßwald
studien, mit denen weitere organisationelle Kontexte und daraus entstehende
Bedarfe erfasst werden können.
Ein weiterer Ansatz zur Klärung der Kernfrage, ob LZA-relevante Eigenschaften digitaler Objekte verallgemeinerbar sind und falls ja, welche im
Rahmen der LZA unbedingt zu bewahren sind, könnte in der Begrenzung
weiterer Fallstudien auf einen Objekttyp liegen. So könnte aus der Vielfalt
von SP, die von den Fallstudienteilnehmern ermittelt und als wesentlich ausgewählt werden, ein praxisfundierteres Kernset an SP ermittelt werden, das
dann wiederum unter Bezugnahme auf typische DC nach Fallgruppen facettiert werden könnte.
Ohne solche verdichteten Fallgruppen und Kernsets an SP bleibt die Ermittlung von SP ein vorzugsweise von organisationellen Rahmenbedingungen und dem persönlichen Fach-Know-how der Akteure beeinflusster Ansatz. Dieser wäre zudem stark einzelfallbezogen und damit kostenträchtiger
(vgl. z.B. die Erfahrungen mit PLATO) als die Empfehlung für ein stabiles
Kernset an SP. Dies könnte dazu führen, dass LZA-interessierte Anwender
aus Mangel an Kenntnissen und Finanzmitteln unzureichende Vorarbeiten für
die LZA vornehmen und somit den Gesamterfolg der LZA gefährden. Stattdessen gilt es, durch weitere Analysen dieses wie auch weiterer Ansätze bei
Praktikern eine Sensibilisierung für Fragen und Maßnahmen zur Vorbereitung der Langzeitarchivierung digitaler Objekte zu entwickeln.
Literaturverzeichnis12
The Cedars Project Team (2001). The Cedars Project Report, March 2001.
http://www.webarchive.org.uk/wayback/archive/20050410120000/http://www.leeds.a
c.uk/cedars/pubconf/papers/projectReports/CedarsProjectReportToMar01.pdf
Coyne, M. et al. (2007): The Significant Properties of Vector Images, o.O. <Oxford>, Version 4.3, 27.11.2007.
http://www.jisc.ac.uk/media/documents/programmes/preservation/vector_images.pdf
Grace, S.; Knight, G.; Montague, L. (2009). InSPECT Final Report (21.12.2009),
London http://www.significantproperties.org.uk/inspect-finalreport.pdf
12 Die Webadressen aller genannten Quellen wurden zuletzt am 6.1.2011 aufgerufen.
267
Liegmann/Neuroth (2010). Einführung. In: Neuroth, H. et al.: [Ed.] (2010): nestor
Handbuch – Eine kleine Enzyklopädie der digitalen Langzeitarchivierung (Version 2.3).
urn:nbn:de:0008-2010030508 bzw. http://nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_390.pdf
Matthews, B. et al. (2008): The Significant Properties of Software: A Study, Chilton 2008.
http://www.jisc.ac.uk/media/documents/programmes/preservation/spsoftware_report_
redacted.pdf
Neuroth, H. et al. [Ed.] (2010). nestor Handbuch – Eine kleine Enzyklopädie der digitalen Langzeitarchivierung (Version 2.3).13
http://nestor.sub.uni-goettingen.de/handbuch/index.php
Planets (2010). Planets components for the extraction and evaluation of digital object
properties. Deliverable Number D23B.
http://www.planets-project.eu/docs/reports/Planets_PC3D23B%28DOPWGreport%29.pdf
Wilson, A. (2007). Significant Properties Report. InSPECT Work Package 2.2;
Draft/Version: V2 (10.4.2007)
http://www.significantproperties.org.uk/wp22_significant_properties.pdf
13 Neben der Online-Version 2.3 ist 2009 eine Printversion 2.0 beim Verlag Werner
Hülsbusch, Boizenburg, erschienen.
268
Achim Oßwald
Session 7:
Information Professionals & Usage
269
270
A survey of internet searching skills
among intermediate school students:
How librarians can help
Rahmatollah Fattahi1, Mohaddeseh Dokhtesmati2,
Maryam Saberi3
1
2
Ferdowsi University of Mashhad
Azadi Square, Mashhad, Iran
[email protected]
Iranian Research Institute for Information Science & Technology
1090 No., Enqelab Ave., Tehran, Iran
[email protected]
3
Semnan University
Mahdishahr, Semnan, Iran
[email protected]
Abstract
The advent and development of the Internet has changed students’ pattern of
information seeking behaviors. That is also the case in Iran. The current research was carried out by interviewing with and observing of 20 intermediate
girl students to assess their information seeking behavior on the web environment through a qualitative approach. Findings indicate an acceptable level
of access to the Internet and vast use of web search engines by the girl students in Tehran. However, students’ knowledge of the concept and how
search engines work and also about the methods and tools of retrieving information from electronic sources other than the search engines is poor. The
study also shows that, compared to the Internet, the role of libraries and librarians are gradually diminishing in fulfilling the students’ information
needs. Authors recommend that school librarians can provide different instructional and information literacy programs to help students improve their
information seeking behavior and their knowledge of the Internet.
A survey of internet searching skills among intermediate school students 271
Keywords
Information seeking behavior, Intermediate school students, Internet, School
libraries, School librarians.
Introduction
Information and Communication Technology has dynamically affected the
information seeking behavior of the user. As the most effective tool in information seeking behavior, the Internet is gaining popularity among people as
well as children and young adults throughout the world (Barik, Bisen &
Bhardwaj, 2007). Use of the Web has proliferated in schools and all types of
libraries, but little is known specially in developing countries about how young people find information on the Web (Bilal & Kirby, 2002).
Besides information resources like the family, friends and other communicational media, Web has become the main resource of information to attract students due to some advantages like easy and quick access and diversity of the contents. Nevertheless, there is not yet a comprehensive
knowledge regarding students’ tendencies towards the Internet and how they
would use it. Also, it is not clear to what extent and in what ways they are
taking advantage of this modern media. Further, the role of librarians and
school libraries is also undefined. Despite many studies and researches carried out in this respect in Iran, the thesis by Alipour (2006) is the only significant work on the high school students’ information seeking behavior.
There still remain some big research gaps in this area.
Literature review
The widespread use of the Internet as a communication media and codidactic tool in schools and education centers has evolved students’ information seeking behavior. This has become a popular research area for scientists
in the world (Madden, Ford & Miller, 2007; Madden et al, 2006; Bowler,
Large & Rejskind, 2001; Large, Beheshti & Moukdad, 1999; Fidel et al,
1999; Bilal 1998, 2000, 2001, 2002) as well as in Iran (Mansourian, 2008a,
272
2008b; Mokhtarpour, 2007; Yaminfirouz & Davarpanah, 2004; Hayati &
Tasviri Ghamsari, 2000).
In a pilot study, Bilal (1998) investigated the searching behavior and success of 22 seventh grade science students in using the Yahooligans!1. Students failed in their quest mainly due to their lack of knowledge of how to
use the engine. Assessment of web-based information search skills among
students of elementary schools was the subject of research by Large, Beheshti and Moukdad (1999). The results showed that although the newcomers
tended towards sophisticated searching strategies, in case of trouble they did
not refer to the always-present search help, i.e., the librarian. A similar research was carried out at the same time by Fiedel et al. (1999) on high school
students which concluded that high school students were not able to begin a
search task without the help of librarians. Bilal (2001, 2002) shows that children’s information seeking is influenced by their cognitive, physical and
affective perspectives.
Research shows that children are more persistent and motivated in seeking information over the Web than in using traditional and online sources
(Bilal, 2000). Factors such as individual differences, age, information retrieval systems used, users’ cognitive and learning style, and users’ online
search experience are the important factor in information seeking behavior on
the Web (Kim, 2001; Bilal & Kirby, 2002). In another study, Madden et al.
(2006) evaluated information searching strategies and factors influencing the
search performance of students aged 11 to 16 using the “thinking aloud”
(expression of perceptions) approach. The search results indicated the high
level of access to computer and Internet and students’ relatively high knowledge of search tools and search engines. Madden, Ford and Miller (2007)
focused on the information resources of students in Britain’s guidance
schools. They realized that students would consider the Internet as their most
useful information resource
The only research on the information seeking behavior of students on the
Internet environment in Iran is Alipour’s thesis in 2006. He worked on the
search behaviors and information seeking patterns in Tehran high schools
using the behavioral patterns based on observation and Internet-oriented
search. He concluded that the students’ behavior in the web environment did
not follow any regular pattern. Also his study showed that the Internet is the
main search tool for many students to access news, educational and academic
updates.
1 Yahooligans! is a search engine and directory designed for children ages 7 to 12.
By reviewing the related literature, one concludes that the widespread
presence of the Internet has led to students’ high levels of access to the Web
and information resources. Their performance, however, in optimal and efficient use of different information resources of this hectic virtual world depends on their level of education and cognitive capacity. These studies also
indicate that high school students encounter difficulty, including applying
correct search syntax and finding relevant results and they lack relevant
knowledge of how to use the internet especially the search engines.
Research design
The main aim of the present study is to assess the intermediate school students’ information seeking behavior on the Internet. Based on the above aim,
the research questions are as follows:
• What is the level of Internet access among intermediate school students?
• How much these student get to use the web search engines?
• What are the students’ usual patterns of information searching and retrieval on the Internet?
• To what extent can they manage to consider necessary practices to get
the desired results without the help of others?
• Who are the students’ coaches and guides at the time of web search?
• Which one do the students prefer to use to get information: the library or
the Internet?
The approach taken in this study is a mixed method approach. The researchers have taken a sample of 20 intermediate girls students from one of central
Tehran’s schools in three different grades based on the “available sample”
method. Based on the authors’ observations, a local network comprising 20
sets of computers all connected to the Internet was available in this school. In
addition, to their routine schedule of source studies, the students also took
part in computer skills classes like MS Word and PowerPoint. The school
also had a library which, as they told the authors, had a librarian in charge.
The research instrument was the investigation inventory. The information
was gathered in two stages. First, the authors collected their required data
from the participants according to the investigation inventory and then interviewed the participants and observed their behavior of searching the Internet.
274
In order to verify the results, the investigation inventory was submitted to
two specialists on information seeking behavior and their opinions and advices were adopted to modify and optimize the results.
Results
Q1. What is the level of school students’ access to the Internet?
To answer this question we should first determine how long the students
have been familiar to the Internet, how many hours they spend weekly on the
Internet, where do they most access it, and which website they visit right
after the connection is established. Table 1 shows the answers for these questions respectively.
Table 1. Intermediate school students’ familiarity with and use of the Internet
Familiarity time span of students with the Internet
Less than 1 year
Between 1 and 2 years
Between 2 and 3 years
More than 3 years
Students’ use of the Internet during the last week
Once
Twice
Three times
Four times and more
No use
Access location to the Internet
School
Home
Coffee net
Library
The first section students visit right after the
connection is established
Electronic mail
Chat
Search engines
Weblogs
News websites
Discussion forums
Web-sites of interest
Frequency
3
1
4
12
Frequency
4
2
3
10
1
Frequency
0
20
0
0
Frequency
Percentage
15%
5%
20%
60%
Percentage
20%
10%
15%
50%
5%
Percentage
0%
100%
0%
0%
Percentage
2
2
14
0
0
0
2
10%
10%
70%
0
0
0
10%
As can be seen, the students’ knowledge of the Internet and their use of it
are at relatively good levels. They access the Internet from home more frequently than from their school. As is demonstrated in table 1, the search engines are the main places where the students visit right after accessing the
Internet. This reveals the high priority these search engines have as sources
of information for the students. It is worth noting that most of the students
spoke of “Google” instead of phrases like “search engines”. This highlights
the significant role of “Google” as the predominant search tool for intermediate school students.
Regarding the students’ search skills, two questions were posed: the first
concerned their self-assessment regarding skills in using the Internet. The
second, in verification of the first one, assessed their levels of success in
accessing their required information in their last search attempt. The answers
to these two queries are listed in tables 2.
Table 2. Students’ self-assessment of their Internet skills
Internet skills
High
Moderate
Low
Success in finding needed info in the last Internet session
Yes
No
Frequency Percentage
8
40%
10
50%
2
2%
Frequency Percentage
16
80%
4
20%
As is evident in table 2, most students assessed their Internet skills as average or high, and that is confirmed by their success in their last attempts.
Only 4 out of 20 students (that would be 20%) did not get what they wanted
from the web searches and believed that their failure was due to reasons such
as lack of skills, relatively low speed of the Internet and poor knowledge of
English language (in case of search in English).
Q2. To what extent students use the web search engines?
This question was posed because of the great appeal these search engines had
for intermediate school students (table 1). Therefore, first their level of
knowledge about search engines was evaluated. Then the frequency of their
use of different search engines and the mostly used ones were determined.
Tables 3 to 6 demonstrate the results.
276
Table 3. Intermediate students’ knowledge of search engine
Students’ knowledge of search engine
Students who knew
Students who did not know
Frequency
11
9
Percentage
55%
45%
Although search engines are the most popular Internet tools among the
students, most of them were unable to come up with a clear definition of
these tools. Usually they are not familiar with expressions like “search engines” and would rather know about some particular tools like “Google” and
“Yahoo” which is not a surprising fact. The definitions given by the students
for “Search engines” are as follows:
• “Search engines are things giving us the information we need”
• “A web-site which retrieves some data as we enter our words there”
• “A web-site which retrieves some data as we enter our words and click”
• “A search engines will search for what we have asked for”
• “We get our needed info from search engines”
• “Those web-sites where one could find whatever they are looking for”
• “Search engines are tools to find our requested web-sites”
The definitions given by the students imply their relative knowledge of the
functions and performances of search engines. No one knew about search
engine concepts and structure and its working mechanism and only spoke of
their applications and tasks.
Table 4. Use of the search engines by the students
Using the search engines
Yes
No
Extent of use
High
Average
Little
Frequency
20
0
Frequency
15
5
0
Percentage
100%
0%
Percentage
75%
25%
0%
The data in table 4 verify those of table 1 and indicate the significance of
search engines for the students.
Table 5. The frequency of students’ use of each search engine
search engines
Google
Yahoo
Microsoft
Altavista
Yahoo kids search engine
Frequency
20
19
1
0
0
Percentage
100%
95%
5%
0%
0%
Table 5 shows the most popular search engines from the students’ points
of view. According to their own remarks, students use Google more than
Yahoo because they believe Google returns more and pertinent results.
Table 6. The extent of students’ knowledge about search engines and their use
Those who knew
Those who did not know
Frequency
3
17
Percentage
15%
85%
Although the use of search engines makes access to information on the Internet much easier and more efficient and reduces the retrieval of irrelevant
information, none of the students had knowledge about these tools. The data
in table 6 shows that the only 15% of the students who had heard the search
engine names, did not use them and had not any idea how to use them. It is
obvious that when they do not have a clear definition of the search engines,
they would not know anything about the search operators.
Q3. What are the students’ patterns for searching and retrieving information on the Internet?
Pattern here means the approach students take in using the search engines.
For this purpose, first the average amount of time spent weekly by each student in searching the Internet is taken into consideration. Then their aim and
approach to get those required information from the Internet was questioned.
The answers to these queries are listed in tables 7 and 8.
According to above tables, half of the students were spending only two
hours per week in search of information on the Internet and considered this
amount of time to be adequate. 85% of them pursued the aim of finding some
school-texts to do assignments (for research purposes). Furthermore, 55%
were looking to download movies and music clips by searching the web (for
entertainment).
278
Table 7. Pattern of the search engine use by the students
Average amount of time spent weekly on the Internet
Less than 2 hours
2 hours
Between 2 and 4 hours
More than 4 hours
Purpose of searching the Internet
Schoolwork resource identification to do school work
Interest in gathering research info
Downloading music and movies
Listening to music and radio
News
Games
Surfing the web
No particular purpose
Other purposes
Frequency
10
1
5
4
Frequency
17
7
11
5
3
5
2
0
4
Percentage
50%
5%
25%
4%
Percentage
85%
35%
55%
25%
15%
25%
10%
0%
20%
Table 8. Approach used by the students to find information on the web
Approach to find their needed information
Use of search engines
Trial and error
Searching online encyclopedia
Searching online databases and web-sites
Searching electronic resources
Other approaches
Frequency
20
2
10
5
2
1
Percentage
100%
10%
50%
25%
10%
5%
All the students used search engines to find their needed information. This
supports the data in tables 1 and 4. The online encyclopedias were the second
frequently used sources of information. Half the students were using sources
such as Wikipedia as a definite example of electronic encyclopedias.
Q4. To what extent can intermediate school students follow related practices to find information on the web without getting help from others?
For this stage of the research, in which interviews were carried out along
with observation, the students were asked to search for a specific topic on the
web. It was obvious from the beginning that students were not able to find
suitable keywords to initiate and formulate their search (a verification of
what Fiedel et al. had found out). So the appropriate search keywords were
given to them or they were asked to simply repeat their last successful web
search. All the students were using Google. The authors observed that some
of the students could not enter the Google in the address bar without help. As
for the website address, they were requested to explain each section of the
address but none of them could come up with any explanation due to lack of
knowledge.
Table 9. Search practices followed by the students
Practices followed by the students
Distinguishing the most relevant resources
Navigating the websites
Choice of useful pages and sites
Using site-maps
Saving information
Defining addresses
Frequency
12
8
50
0
12
0
Percentage
60%
40%
50%
0
60%
0
The data in table 9 indicate that most of students (60%) managed to pick
up relevant resources through the search engines. They knew how to select
the relevant resources. Their navigation skills were weak and they did not
know about the site maps and their use. As for saving of information, 60% of
the students could store their obtained information. It was interesting that
some students copied the webpages and pasted them into the MS Word environment as a way to save their found data.
Q5.
Who are the students’ coaches and guides in surfing and searching the web?
Here, coaches and guides are those who have taught the students how to surf
the web and get their information.
In this stage two questions were posed to the participants: first, who initially taught them how to use the Internet? And secondly, to whom do the
students refer as they encounter a problem? Tables 10 and 12 contain the
answers to these questions.
280
Table 10.
First teachers of the students on the Internet and web search strategies
First teachers of students on Internet
School librarians
Family and relatives
Class mates
Teachers
Experienced people
Participating in instructional courses
Study of guide books
Using Trial and error approach
Frequency
0
17
2
0
0
0
0
1
Percentage
0
85%
10%
0
0
0
0
5%
Table 11. Intermediate school students’ guides at the time of web surfing
Students’ guides at the time of web surfing troubles
School librarians
Family
Classmates
Teachers
Experienced people
Others
Frequency
0
16
1
0
1
2
Percentage
0
80%
5%
0
5%
10%
It is observed from comparing tables 10 and 11 that the majority (80%) of
students has initially learned to surf the web at home. Hence, their families
have had a significant role in their getting to know the Internet. As they have
learned to explore the web at home and because of their adequate access to
the Internet (see table 1), they go to a member of their families to get help in
searching the web. The interesting fact regarding the last two tables is the
absence of teachers and librarians as students’ guides at the time web-search.
A reason for this may be the fact that many schools do not have Internet access for students and the teachers are not familiar with the Web.
In order to determine how much the school library and the librarian have
been effective in satisfying the students’ information needs, first the students’
average weekly reference to the library, and their purpose of going to the
library should be determined. It should be determined whether they have
found their required information in the library and what the role of the librarian has been in this regard. Table 12 will answer these questions.
Table 12. Students’ weekly use and purpose of using the school library
Students’ weekly use
Once
Twice
Three times
4 times or more
Never go to the library
Purposes of going to the library
Doing school works
Non-school studies
Enhance their knowledge
Interest in gathering scientific data
Finding information to do extra-curricular activities
Frequency
9
4
0
2
5
Frequency
6
12
8
9
4
Percentage
45%
20%
0
10%
25%
Percentage
30%
60%
40%
45%
20%
Although it is stated that libraries play an important role in educational
and cultural progresses of students, in practice they do not have any high
position in the students’ using of the Internet. It is so unfortunate that 5 out of
20 guidance school students (25%) have never gone to the school library.
Findings in table 12 indicate that the students often (60%) use the library
for extra-curicula studies and get information to upgrade their knowledge.
These results are in agreement with the finding in the first part of the same
table which shows that encyclopedias are the most frequently used resources
of information at these places. Because of their wide coverage of different
subjects and high quality, encyclopedias could serve as useful resources to
satisfy students’ information needs and their scientific curiosities.
Q6. Which one do the students prefer to use to get information: the library
or the Internet?
The findings here are not only unexpected but they also confirm the results of
previous questions regarding the minor role of school libraries and librarians
in helping students in their information seeking process. As is evident in
table 13, unlike the minor role of school libraries, the Internet plays a significant role in fulfilling students’ information thirst. The majority of students
participating in the research (95%) believed the easy ways to access information on the Internet and its adequacy and availability make the Internet their
number one priority over the library.
282
Table 13. The contribution of Internet and library in meeting students’ informational needs.
Internet
Library
Frequency
19
1
Percentage
95%
5%
Conclusions
Although the research population was small we can have some general conclusions regarding the information seeking behavior of Iranian intermediate
school students on the Web: Many Iranian intermediate school students access the Internet from home rather than their schools. The reason for not using the Internet at school seems to be the lack of access or lack of enough
free time.
Due to their ease of use, and facilities for seeking information on the
Web, search engines have a high popularity among school students. Google
and Yahoo lead the leading way. However, due to the lack of thorough instruction, their knowledge of these tools is limited to and they have no conceptual or structural understanding about them. Similar to the findings of
other studies (for example by Madden et al, 2006; Dersang, 2005; Bilal,
1998, 2000, 2001, 2002; Bilal & Kirby, 2002; Large, Beheshti & Moukdad,
1999) school students have cognitive difficulties in formulating effective
search queries, applying correct search syntax, term relationships, and subject
hierarchies. In case there is no organized information literacy instruction at
schools and in the absence of librarians as trainers of the new generation, the
family bears the heavy task of guiding the students in searching the Internet.
This may be the result of the students’ lack of access to the Internet at school
and at the school library that has led to the insignificant role of librarians in
this regard. Although the students have gained knowledge through their families on how to acquire their needed information on the web, a lack of instruction to help students in conducting their searches is readily felt. The advent
and development of the Internet has evolved the information seeking behavior. In this changing scenario, library and information centers have to focus
towards the user community to understand their changing information needs
and information seeking behaviors (Barik, Bisen & Bhardwaj, 2007). Also
despite the libraries’ significant role in elevating students’ knowledge, they
have not yet taken their right position in schools. This could be due to the
weakness of school libraries in providing information literacy workshops to
students, and lack of providing access to the Internet, and most importantly,
lack of integration between courses and the library resources including access
to information resources on the Web.
Based on the results of this research, the following recommendations can
be made to overcome the existing shortcomings: Providing information literacy courses by the school library will encourage students to use the library as
a learning environment (like a class) and the librarians as a teacher. School
can also offer curriculum-related user instruction that include use of the Web.
This instruction cover basic search strategies in using selected search engines
(Bilal & Kirby, 2002).
Use of the Web in intermediate schools and the increased access to the
Web by students at home & school raise many issues concerning information-seeking and use. Here the role of school librarians and teachers in educating and training students becomes more important. School IT sites could
be located in school libraries in order to give the librarians an important role
in improving information seeking behaviors of students.
School teachers can play an important role in encouraging students to use
the library and a learning media center. Thus the use of the Internet and online resources can be managed through the integration of the teacher-librarian
cooperation into the curricula with the benefits of instructing the students
how to use the Internet and how to evaluate information sources on the Web
from the curricular point of view.
Establishing and developing better school libraries with access to the
Internet will help students not to rely on people other than librarians and
teachers in learning how to search and use information sources whether
printed or electronic.
References
Alipour, R. (2006), Assessment of search and information seeking behavior patterns
of Tehran high school students in the Internet. Master thesis, Alzahra University.
284
Barik, R. K., Bisen, R. S. & Bhardwaj, J. (2007). Electronic information seeking
behavior of scientists and research scholars of CSMCRI Bhavnagar. 5th International Caliber, Pakistan: Panjab University, Chandigarh
Bilal, D. (1998). Children’s search processes in using World Wide Web search engines: An exploratory study. In Proceedings of the Sixty-First ASIS Annual
Meeting, 35, October 24–29, 1998, Pittsburgh, PA (pp. 45–53), Medford, NJ: Information Today, Inc.
Bilal, D. (2000). Children use of Yahooligans! Web search engine: 1. Cognitive,
physical and effective behavior on fact-based search tasks. Journal of the American Society for Information Science and Technology, 5(7): 646–665.
Bilal, D. (2001). Childrens use of the Yahooligans! Web search engine: II. Cognitive
and physical behaviors on research tracks. Journal of the American Society for
Information Science and Technology, 52(2): 118–136.
Bilal, D. (2002), Children use of Yahooligns! Web search engine: III. Cognitive and
physical behaviors on fully self generated search tasks. Journal of the American
Society for Information Science and Technology, 53(13): 1170–1183.
Bilal, D., Kirby, J. (2002). Differences and similarities in information seeking: children and adults as Web users. Information Processing and Management. 38, 649–
670
Davarpanah, M. (2007). Scientific communication and information seeking behavior,
Tehran: Debizesh & Chapar.
Dersang, E. T. (2005). The information-seeking behavior of youth in the digital environment. Library Trends, 54(2): 178–197.
Fidel, R., Davies, R. K., Douglass, M. H., Holder, J. K., Hopkins, C. J., Kushner, E.
J., Miyagishima, B. K. and Toney, C. D. (1999), A Visit to the Information mall:
web searching behavior of high school students. Journal of the American society
for Information Science, 50 (1), 24–37
Hayati, Z.& Tasviri Ghamsari, F. (2000). Evaluation of Internet influence on information seeking behaviors of board of teachers of Iran’s science and industrial research organization. Ketab Seasonal Periodical, 11 (4): 63–78
Kim, K. (2001). Information seeking on the Web: Effects of user and task variables.
Library & Information Science Research, 23, 233–255
Large, A. Beheshti, J. and Moukdad, H. (1999). Information seeking at the web: Navigational skills of Grade-Six primary school students. Proceedings of the ASIS
annual meeting, 36, 84–97
Madden, A. D., Fored, N. J., Miller, D., and Levey, Philipa (2006), Childrens use of
the internet for information – seeking: what strategies do they use, and what factors affect their performance? Journal of Documentation, 62(6), 744–761.
Maddaen, A. D., Fored, N. and Miller, D. (2007). Information resources used by children at an English secondary school. Journal of Documentation, 63(3), 340–358.
Mansourian, Y. (2008a). Keeping a learning diary to enhance researchers understanding of and user’s skills in web searching. Library Review, 57(9), 690–699.
Mansourian, Y. (2008b). Contextual elements and conceptual components of information visibility on the web. Library Hi Tech, 26(3), 440–453.
Mokhtarpour, R (2007), Assessment and comparison of search and information seeking behaviors of MSc and PHD students in faculty of cultural and psychological
sciences in Ahvaz Shahid Chamran Univeristy. Nama. 7(2).
http://www4.irandoc.ac.ir/data/e_j/vol7/mokhtarpour_abs.htm, accessed 16 December
2008
Yaminfirouz, M. & Davarpanah, M. (2004), Assessment of Internet search and information seeking behavior of board of teachers in Mashad Ferdowsi Unversity,
Library and Information Science Quarterly, 26: 15–64
286
Matthias Görtz
Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchverhalten
Entwicklung eines modellbasierten Online-Fragebogens
am Beispiel studentischen Informationssuchverhaltens
Matthias Görtz
Informationswissenschaft und Sprachtechnologie – Universität Hildesheim
Zusammenfassung
Dieser Artikel beschreibt die Entwicklung einer Erhebungsmethode zur Erfassung von aufgabenbezogenem Informationssuchverhalten. Der Fokus
dieser Methode liegt darauf, modelltheoretische, auf eher qualitativen Datenerhebungen basierende Erkenntnisse über Informationssuchverhalten, mit
quantitativen Ansätzen zur Erfassung der Nutzungshäufigkeit von Informationsquellen zusammenzuführen. So wird ein Online-Fragebogen vorgestellt,
der auf den Nutzungskontext und die jeweiligen Aktivitäten der Befragten
eingeht. Anhand der in einer Beispielstudie zum studentischen Informationssuchverhalten erhobenen Daten werden die Möglichkeiten der Analyse von
Informationsquellen im aufgabenbezogenen Informationssuchverhalten von
Nutzergruppen in unterschiedlichen Kontexten diskutiert.
Abstract
This article describes the development of a method for collecting data of
task-based information seeking behavior. The focus of this method therein
lies upon merging conceptual models in information seeking, which are derived mainly from qualitative studies, with quantitative approaches to collecting data on the usage of information sources in general. Thus, an online questionnaire is presented, which takes context of use and information seeking
activities of respondents into account. Based on a survey on student information seeking behavior, the possibilities of analyzing the role of information
sources for the task-based information seeking behavior of specific user
groups in different contexts is discussed.
Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchv. 287
1
Ausgangssituation und Zielsetzung
Der Performanz von Suchmaschinen wurde in Bezug auf die Entwicklung
von Suchalgorithmen und Evaluationsverfahren in der Informationswissenschaft im Rahmen der Information Retrieval (IR)-Forschung stets viel Bedeutung beigemessen. Aus system-orientierter Perspektive gilt es dabei, eine
von einem Nutzer eingegebene Suchanfrage mit einem Bestand an zur Verfügung stehenden Dokumenten oder Internetseiten zu vergleichen und relevante Treffer zurückzuliefern. Als Vorbedingung für derartige Betrachtungen
gilt es jedoch die Bedeutung dieser Suchmaschine als eine Informationsquelle von vielen für den Nutzer zur Verfügung stehenden Ressourcen zu
begreifen. So ist eine globalere Betrachtungsebene zunächst erforderlich, um
zu verstehen zu welcher Informationsquelle sich ein Nutzer wendet und unter
welchen Bedingungen die oben angesprochene Suchanfrage an ein System
gerichtet wird. Diese Erkenntnis hilft nicht nur, eine Suchanfrage eines Nutzers an ein System besser einzuordnen, sondern auch die Rolle einer Informationsquelle im gesamten Prozess einer Suche zu analysieren. Für diese
Fragestellung sind andere Maße und Methoden erforderlich, die vor allem
zwei Bedingungen erfüllen sollten.
Sie müssen zum einen die qualitative Vielseitigkeit einer Informationsumgebung und eines gegebenen Anwendungskontexts erfassen. Zum anderen
sollten sie darüber hinaus das Nutzungsverhalten des Informationssuchenden
quantifizieren, um Rückschlüsse auf die Relevanz und Akzeptanz von Informationsquellen ziehen zu können. Will man die Rolle einer bestimmten Klasse von Informationsquellen in einem gegebenen Kontext analysieren, so sind
also sowohl analytische Erkenntnisse über bestehende Einflussfaktoren auf
unterschiedliche Aktivitäten der Informationssuche (Information Seeking) als
auch statistische Nutzungszahlen von Informationsressourcen erforderlich.
Die Zusammenführung dieser methodischen Ansätze stellt eine vielversprechende Vorgehensweise dar. So ist es das Ziel dieses Beitrags, an einer Beispielstudie im studentischen Lern- und Arbeitsalltag aufzuzeigen, wie sich
konzeptionelle Modelle der Information Seeking-Forschung nutzen lassen,
um quantitative Erhebungen zu Nutzungshäufigkeiten kontextspezifisch zu
gestalten und so den gewonnenen Daten tiefergehende Erkenntnisse in Bezug
auf die Relevanz und Akzeptanz verschiedener Kategorien von Informationsquellen abzugewinnen.
288
2
Matthias Görtz
Bisherige Ansätze zur Erfassung von
Informationssuch- und -nutzungsverhalten
Wie oben bereits angesprochen, besteht in der Informationswissenschaft neben der systembezogenen Perspektive auf die Erschließung und das Wiederauffinden von Information eine erweiterte kognitive Betrachtung der Informationssuche, welche sich auf den Informationsbedarf, die Nutzung und das
Suchverhalten eines oder mehrerer kognitiver Akteure bezieht (INSU1). Sie
ist Ausdruck der Überlegung, dass die Frage der Relevanz immer auch eine
subjektive ist. In welchem Kontext befindet sich ein Nutzer in seiner Suche
nach Information? Was ist sein subjektiver Informationsbedarf? Mit welcher
Aufgabe sieht er sich konfrontiert bzw. was gedenkt er mit den Ergebnissen
zu tun? Und was sind seine Verhaltensweisen im Umgang mit den ihm typischerweise zur Verfügung stehenden Informationsressourcen? (vgl. Görtz/
Womser-Hacker 2009) Die erweiterte Perspektive auf den Akteur in der Interaktion mit Informationsquellen als Reaktion auf sein subjektives Informationsbedürfnis macht deutlich, dass die in der Evaluation von IR-Systemen
verwendeten Methoden und Maße sich nicht für die Beantwortung derartiger
Fragen eignen. Im Rahmen dieser Forschungsströmung wurde dementsprechend eine Vielzahl methodischer Ansätze entwickelt bzw. aufgegriffen.
Diese haben das Ziel, den Kontext des Suchenden zu erfassen und so alle
Prozesse der Informationssuche (externe wie interne) sowie die Wechselwirkung verschiedener Einflussfaktoren auf Vorgehensweise und Quellenwahl
der Informationssuche von Individuen oder Gruppen zu analysieren. Darüber
hinaus besteht heute eine Vielzahl von Studien, die sich Nutzungsstatistiken
von bestimmten Informationsquellen widmen. Dank dieser methodischen
Vielfalt ist die Suche nach und der Umgang mit Informationsquellen zwar
vielseitig beschrieben worden, jedoch wurden insbesondere die zuletzt genannten methodischen Ansätze stets unabhängig voneinander betrieben. In
ihrer Längsschnittanalyse der in der INSU-Forschung der 80er und 90er Jahre eingesetzten Forschungsmethoden haben Julien und Duggan (2000) diese
Beobachtungen bestätigt. So spielen die klassischen Erhebungs- bzw. Evaluierungsmethoden der IR Forschung (Experiment und Zitationsanalyse) kaum
eine große Rolle (6,7%). Vielmehr wurden Befragungsmethoden wie Inter1 Neben dem oben eingeführten Begriff der sog. Information Seeking Behavior Research
(ISB) werden die Aktivitäten dieser kognitiven Strömung auch als Information Needs,
Seeking, and Use (INSU) Studien bezeichnet.
views und Fragebögen in über 60% der untersuchten Studien verwendet.
Auch anderweitige Methoden wie die Logfile-Analyse und Ethnografie wurden in der Erforschung des Informationssuch- und -nutzungsverhaltens verstärkt eingesetzt, um zur subjektiven Beschreibung von Verhaltensweisen
eine externe Perspektive zu ergänzen. Dies zeigt die erforderlichen Schnittstellen dieser Forschungsrichtung mit angrenzenden sozialwissenschaftlichen
Disziplinen. So wurden z.B. Ansätze wie die strukturierte Beobachtung
(Mintzberg 1970) in Studien zum Informationsverhalten eingesetzt. Die so
gewonnen qualitativen Ergebnisse einer Beobachtung jedoch, wurden selten
mit den in Interviews und Fragebögen gewonnenen Daten zusammengeführt
(vgl. Görtz 2010). Um die begrenzte Aussagekraft bisheriger Erkenntnisse
innerhalb der INSU-Forschung zu erläutern, werden zunächst der Einsatz
dieser Methoden und die Form der so gewonnenen Erkenntnisse anhand zentraler Beispielstudien zum Informationssuchverhalten kurz dargestellt.
Beispiele methodischer Ansätze zur Erforschung des Nutzerkontexts
Es besteht eine Vielzahl an qualitativen Studien zur Analyse studentischen
Informationssuchverhaltens und dessen Kontexts. Eines der prominentesten
Modelle zur Beschreibung der Aktivitäten, Gefühle und Gedanken von kognitiven Akteuren in der Informationssuche ist der Information Search Process von Carol Kuhlthau.
Abbildung 1: Information Search Process (Kuhlthau 1991: 367)
290
Matthias Görtz
Entwickelt in den 1980er und 1990er Jahren wurde dieses Modell (s. Abbildung 1) als Framework und Diagnose-Tool für das Verständnis des Sucherlebnisses von Individuen in verschiedenen Bibliotheks- und anderen
Informationsumgebungen verwendet (vgl. Kuhlthau et al. 2008: 1). Um die
Thesen zu Aktivitäten, Gefühlen und Gedanken der Teilnehmer zu prüfen,
wurden qualitative Methoden in einem natürlichen Anwendungsfall eingesetzt. So führten die Schüler freie Tagebücher, sog. Strukturierte Search Logs
zur Bewertung der Nützlichkeit unterschiedlicher Informationsquellen und
reflektierten ihren Suchprozess in einem Fragebogen. Abschließende Interviews wurden eingesetzt, um die Vielfalt der erhobenen Daten zusammenzuführen und Fallstudien der Teilnehmer der Untersuchung zu erstellen.
Neben prozeduralen Information Seeking-Modellen wie dem von Kuhlthau besteht in der kognitiven Strömung eine weitere Form der Analyse des
Kontexts des Informationssuchenden. Analytische Modelle haben das Ziel,
die in den Suchprozess involvierten Objekte und deren Beziehungen untereinander sowie Wirkungsfaktoren zu modellieren (vgl. Ingwersen/Järvelin
2005: 15). Ein Beispiel solcher Arbeiten ist das konzeptionelle Framework
für Tasks von Byström und Hansen (2005). Es identifiziert die verschiedenen
Ebenen einer Task (Search, Seeking, Work), modelliert deren Interrelationen
und die Einflussfaktoren auf dessen Merkmale, wie z.B. die Komplexität
einer Aufgabe. Die Vorgehensweise zur Erstellung solcher Konzepte erfolgt
dabei grundsätzlich argumentativ. Darüber hinaus setzt z.B. Byström (1999)
ähnliche qualitative Erhebungsmethoden wie oben bereits beschrieben ein.
Tagebücher, Beobachtungen und Interviews werden zur analytischen Definition von solchen Konzepten wie Aufgabenkomplexität und dessen Merkmalen herangezogen. So beschreibt sie in ihrer Arbeit die Eigenschaften von
Aufgabenkomplexität, Typen von Information und Informationsquellen. Die
Komplexität einer Aufgabe wird dabei als Konstrukt der a priori determinability (also Vorhersehbarkeit) des Informationsbedarfs, des Prozesses zur
Lösung der Aufgabe, sowie der Struktur und Form des erwarteten Ergebnisses einer Aufgabe definiert (vgl. a.a.O.: 43). Derartige Modelle und Konstrukte helfen den Kontext des Informationssuchenden konzeptionell zu erfassen und die Abläufe und Aspekte einer Informationssuche besser zu verstehen.
Beispiele methodischer Ansätze zur Erhebung der Nutzung
Ein weiteres Phänomen der Erforschung von Informationssuch- bzw. -nutzungsverhaltens sind quantitative Studien zur Erhebung der Nutzungshäu-
figkeit von Informationsquellen. Zum einen sind dies klassische Mediennutzungsstudien wie die seit 1997 regelmäßig durchgeführten ARD/ZDF-Online-Studien. In ihrem Beitrag zu Media Perspektiven stellen Fisch und
Gscheidle (2006) unter dem Titel Onliner 2006 die Ausstattung und das Nutzungsverhalten der Internetpopulation vor. Ähnliche Studien bestehen zudem
in Bezug auf bestimmte Informationsquellen und deren Nutzung am Arbeitsplatz. Dabei stehen jedoch informationswissenschaftliche Konzepte wie die
Informationssuche oder das der Task nicht im Vordergrund. Zum anderen
bestehen auch in der Informationswissenschaft zunehmend Studien, die sich
ähnlicher empirischer Erhebungsmethoden bedienen. Warning et al. (2009)
zum Beispiel untersuchten das Informationssuchverhalten von Studierenden
in einem methodischen Mix aus qualitativen und quantitativen Erhebungswerkzeugen. So führten sie semi-strukturierte Interviews und setzten zusätzlich einen Fragebogen ein. Als zentrale Elemente solcher Studien werden
vermehrt quantitative Methoden wie z.B. großangelegte Online-Befragungen
eingesetzt. Mithilfe statistischer Methoden lassen sich so Aussagen vor allem
zur allgemeinen Nutzungsintensität bestimmter Informationsquellen treffen.
Fazit zur Aussagekraft derartiger Erhebungsmethoden
Die Vielfalt der oben beschriebenen Erhebungsmethoden im Bereich der
Information Seeking Behavior-Forschung eröffnet neue Perspektiven auf den
Informationssuchprozess und die Nutzung von Informationsquellen in unterschiedlichen Anwendungskontexten. Unabhängig voneinander sind jedoch
beide Perspektiven auf den Informationssuchprozess kognitiver Akteure beschränkt. So sehen sich auf der einen Seite prozedurale wie analytische Modelle zur Beschreibung des Kontexts und der unterschiedlichen Phasen einer
Informationssuche stets mit der Kritik konfrontiert, dass ihre Beobachtungen
nicht auf die Ebene der einzelnen Informationsquellen und deren Rolle im
Informationssuchprozess reichen. Auf der anderen Seite bieten quantitative
Studien zur Nutzungshäufigkeit von Informationsquellen keine differenzierte
Einsicht in die Verwendung der besuchten Anwendungen und ihrer Information bzw. in Bezug auf unterschiedliche Phasen des Informationssuchprozesses. So wird im Folgenden an einer Beispielstudie zur Informationssuche im
studentischen Lern- und Arbeitsalltag gezeigt, wie sich konzeptionelle Modelle und Konstrukte der Information Seeking Behavior-Forschung nutzen
lassen, um quantitative Erhebungen zu Nutzungshäufigkeiten kontextspezifisch zu gestalten und so den gewonnenen Daten tiefergehende Erkenntnisse
292
Matthias Görtz
in Bezug auf die Relevanz und Akzeptanz verschiedener Kategorien von Informationsquellen abzugewinnen.
3
Entwicklung eines
kontextspezifischen Online-Fragebogens
Für die Analyse der Rolle einer bestimmten Gruppe von Informationsquellen
für das Lern- und Arbeitsverhalten wurde entsprechend der oben beschriebenen Überlegungen ein methodischer Ansatz entwickelt, der die analytischen,
prozeduralen und statistischen Vorgehensweisen bzw. Erkenntnisse der
INSU-Forschung zusammenführt. Entsprechend wurde ein Online-Fragebogen entwickelt, der die folgenden Ziele verfolgte: 1. Erfassung der im
Lern- bzw. Arbeitsalltag typischen Aufgabentypen (Komplexität) und der Art
der benötigten Information (Informationstypen) (Byström 1999). 2. Erhebung
der Nutzung unterschiedlicher Gruppen von Informationsquellen in den jeweiligen Phasen der Informationssuche eines gegebenen Kontexts (z.B.
Kuhlthau 1991). Die Entwicklung des Fragebogens wurde mithilfe der Umfrageapplikation LimeSurvey realisiert. Dies ermöglichte den Einsatz konditionaler Bedingungen und dynamischer Fragebogenelemente. So konnten
Teilnehmer in Abhängigkeit ihrer empfunden Aufgabenkomplexität und ihrer
jeweiligen Informationssuchaktivitäten zu folgenden Items befragt werden.
I.1 dient dabei der Sammlung organisatorischer Hintergrundinformationen
der Teilnehmer. Gemeinsam mit den in I.8 erhobenen Daten zu Geschlecht
und Alter galten diese Fragen der näheren demografischen Charakterisierung
der Stichprobe. Die Teilnehmer werden dann in I.2 gebeten anzugeben, wie
sich ihr Lern- bzw. Arbeitsalltag in Bezug auf Inhalte, Arbeitsformen, Räumlichkeiten und genutzte technische Unterstützung bei der Durchführung von
aufgabenbezogener Informationssuche auf einer 7er-Likert-Skala charakterisieren lässt. Darüber hinaus wurde erfasst, welche Form und Struktur
die Ergebnisse der informationsbezogenen Aufgaben überwiegend kennzeichnen. Die Antworten zu diesen Fragen erlauben eine detaillierte Erfassung der üblichen Lern- bzw. Arbeitsumgebung der Teilnehmer. I.3 widmet
sich mit zwei Fragen der Aufgabenkomplexität im Alltag der Teilnehmenden. Als Ergänzung zu einer theoretischen Erfassung der Aufgabenkomplexität, werden anschließend vier Beispielszenarien unterschiedlicher Komple-
xität (sehr unstrukturiert – sehr strukturiert) vorgestellt. Die Teilnehmer werden gebeten, das für sie repräsentativste Szenario auszuwählen. Auf Basis
dieser Charakterisierung der für sie typischen Arbeitsaufgaben, lässt sich nun
die folgende Befragung der Nutzung der diversen Informationsquellen kontextspezifisch gestalten. So sind Aussagen zur Relevanz bestimmter Informationstypen (I.4), sowie zur Nutzung von Informationsquellen im gegebenen Anwendungskontext (I.5) jeweils in Abhängigkeit zur Aufgabenkomplexität differenzierbar. Teilnehmer, die in ihrem Lern- bzw. Arbeitsalltag für
gewöhnlich mit stark strukturierten Arbeitsaufgaben konfrontiert sind, werden demnach andere Arten sowie Quellen von Information zu ihrer Lösung
benötigen. Darüber hinaus lassen sich die folgenden Fragen zur Nutzung
bestimmter Gruppen von Informationsquellen (I.5) an die in den für die jeweiligen Zielgruppen entwickelten prozeduralen Information Seeking-Modellen (z.B. am ISP von Kuhlthau (s.o.)) definierten Phasen des Informationssuchprozesses dynamisch anpassen. So werden die Teilnehmer nach
ihren bevorzugten Anlaufstellen für die jeweiligen Aktivitäten in Abhängigkeit der für sie typischen Aufgabenkomplexität befragt. I.6 folgt dieser Logik
und fragt nach der Zufriedenheit der Teilnehmer mit ihrer zur Verfügung
stehenden Informationsumgebung für die im ISP (s. Abbildung 1) definierten
Phasen der Informationssuche. Abschließend zielt I.7 auf die Bekanntheit bestimmter Gruppen von Informationsquellen (hier Social Software-Anwendungen) und deren Rolle in den jeweiligen Phasen der aufgabenbezogenen
Informationssuche.
4
Beispielhafte Ergebnisse
der Erhebungsmethode
Die Aussagekraft der Ergebnisse einer solchen kontextspezifischen Erfassung von aufgabenbezogenem Informationssuchverhalten wird beispielhaft
deutlich an einer Studie an der Universität Hildesheim. Im Rahmen dieser
Studie wurden 95 Studierende unterschiedlicher Studiengänge und Studiensemester zu ihrem studentischen Lern- und Arbeitsalltag befragt. Mit einem
Durchschnittsalter von 23,23 Jahren, 81% weiblichen Teilnehmerinnen und
einem großen Anteil (63,16%) geistes- und sozialwissenschaftlicher Studierender entspricht die Stichprobe im Allgemeinen der Struktur der Universität.
294
Matthias Görtz
Die Befragten gaben bezüglich ihres Arbeits- bzw. Lernkontexts an, dass ihre
täglichen studienbezogenen Aufgaben zumeist fremd initiiert sind, außerhalb
hochschuleigener Räumlichkeiten und größtenteils am PC bearbeitet werden
(Item I.2). Die Form der Arbeitsergebnisse verteilte sich dabei gleich über
Präsentation/Referat, schriftliche Ausarbeitung, Prüfungen und andere Formen der Leistungsnachweise. Dabei empfanden lediglich 7% der Befragten
ihre typischen studienbezogenen Arbeitsaufgaben als sehr strukturiert. Über
die Hälfte (52%) der Studierenden gab an, dass sie häufig mit unstrukturierten oder sogar sehr unstrukturierten Aufgaben konfrontiert seien (Item I.3).
Dementsprechend niedrig fiel die Bewertung der Vorhersehbarkeit von erwartetem Ergebnis, Vorgehensweise und erforderlicher Information zur Bearbeitung einer Aufgabe aus. Der Fragebogen erwies sich in der Erfassung
der Komplexität der typischen Arbeitsaufgaben der Befragten als valide. So
bewerteten die Studierenden, die eines der eher strukturierten Szenarien (C,
D) auswählten, auch die durchschnittliche Vorhersehbarkeit ihrer Arbeitsanforderungen entsprechend hoch.
Tabelle 1: Allgemeine Nutzungshäufigkeit von Informationsquellen
Informationsquellen
Internetsuchmaschinen
Fachbezogene Druckerzeugnisse
Fachbezogene Internetseiten
Eigene Dokumente/Unterlagen
Digitale Fachinformation
Öffentliche Wikis
Persönliche Kontakte
Uni- und Veranstaltungsseiten
Uni-interne Wikis
Öffentliche soziale Netzwerke
Social Sharing Dienste
Uni-interne soziale Netzwerke
Ø
4,71
4,00
3,96
3,79
3,43
3,27
3,22
3,15
2,02
2,01
2,00
1,71
s
0,48
1,06
0,89
0,94
1,23
1,19
1,10
1,05
1,04
1,17
1,33
0,86
1 = nie / 2 = selten / 3 = manchmal / 4 = häufig / 5 = sehr häufig
In Abhängigkeit von der auf diese theoretische und Szenario-basierte
Weise erfasste Aufgabenkomplexität im Studienalltag wurden die Teilnehmer anschließend zur Bedeutung unterschiedlicher Informationstypen (Item
I.4) für die Bearbeitung ihrer typischen informationsbezogenen Arbeitsaufgaben befragt. Hier konnten nun nicht nur die angegebene Komplexität der
typischen Arbeitsaufgaben sondern auch die typischen Phasen der Informationssuche (s. Abbildung 1) in die Befragung einbezogen werden. Die Auswirkungen auf die Aussagekraft einer solchen Befragung durch die Berücksichtigung dieser kontextuellen Einflussfaktoren auf die Informationssuche lassen sich beispielhaft an Item I.5 erläutern. So ergab die Befragung nach der
allgemeinen Nutzung von verschiedenen Informationsquellen zur Unterstützung der Bearbeitung von studienbezogenen Arbeitsaufgaben ein für reine
Nutzungsstudien übliches Bild (s. Tabelle 1). Die Einbeziehung der oben
beschriebenen analytischen Perspektive auf Aufgabenkomplexität (Byström/
Hansen 2005) und für Studierende typische Vorgehensweisen in der Informationssuche (Kuhlthau 1991) lässt nun jedoch eine vielseitigere Betrachtung
dieser Angaben zu. In der weiteren Befragung zur Nutzung von Informationsquellen erhält man so durch die kontextspezifische Befragung nach den
von Kuhlthau definierten Phasen der Informationssuche ein dezidierteres
Bild, wie Abbildung 2 beispielhaft visualisiert.
Abbildung 2: Informationsquellen im Informationssuchprozess von Studierenden
So lässt sich nicht nur erfassen, welche Quellen für die Studierenden in
der Bearbeitung einer typischen Studien- bzw. Arbeitsaufgabe relevant sind,
296
Matthias Görtz
sondern auch bei welcher Art von Aufgabe und in welcher Phase der Informationssuche diese häufig verwendet werden. Dabei lässt sich z.B. erkennen,
dass Internetsuchmaschinen zwar die meist genutzte Informationsquelle im
studentischen Arbeitsprozess sind, diese jedoch vor allem der orientierten
Recherche („Exploration“) und Suche und Sammlung („Collection“) dienen.
Die Darstellung der Ergebnisse in Abbildung 2 lässt noch weitere Schlüsse
zur Relevanz bestimmter Informationsquellen für jeweilige Aktivitäten und
Aufgaben zu. In diesem Beitrag steht jedoch der methodische Ansatz im
Vordergrund.
5
Schlussfolgerung und Ausblick
Will man wie oben beschrieben die Rolle einer bestimmten Gruppe von Informationsquellen im Informationssuchverhalten einer bekannten Nutzergruppe analysieren, so kommen die Stärken des hier vorgestellten Fragebogens zum Tragen. Sie liegen vor allem in der detaillierten Aussagekraft auf
Basis bestehender Konzepte und Modelle aus der INSU-Forschung. Auf diese Weise erhalten die Aussagen der Befragten eine tiefere Bedeutung, als
wenn sie zur Nutzungshäufigkeit von Informationsquellen unabhängig von
Situation, Komplexität und Aktivität befragt werden. Die so gesammelten
Daten lassen detaillierte Schlussfolgerungen z.B. zur Gestaltung von elektronischen Informationsumgebungen basierend auf subjektiver Relevanz von
Informationsquellen zu. Die Anpassungsfähigkeit an Modelle und Konzepte
aus jeweils anderen Kontexten ermöglicht zudem die kontextspezifische Befragung anderer Nutzergruppen, wie z.B. von Mitarbeitern am Arbeitsplatz.
Daher gilt es in weiteren Studien die entwickelten Items zu verfeinern und
andere Information Seeking-Modelle in unterschiedlichen Anwendungsfeldern einzusetzen. Vom besonderen Interesse ist dabei der Einfluss des jeweiligen Kontexts auf das Informationssuchverhalten. Dieser wird mithilfe der
hier vorgestellten Methodik ermöglicht. Darüber hinaus sollten die Ergebnisse des modellbasierten Online-Fragebogens mit realen, quantitativen Nutzungsdaten ergänzt werden, um ein vielschichtiges Bild der Rolle von spezifischen Gruppen von Informationsquellen im untersuchten Kontext zu liefern.
Byström, K. (1999). Task complexity, information types and information sources.
Doctoral Dissertation. Tampere: University of Tampere.
Byström, K. & Hansen, P. (2005). Conceptual Framework for Tasks in Information
Studies. JASIST, 56(10), 1050–1061.
Fisch, M. & Gscheidle, C. (2006). Onliner 2006: Ergebnisse der ARD/ZDF-OnlineStudien 1997 bis 2006. Media Perspektiven, (8), 431–440.
Görtz, M. & Womser-Hacker, Chr. (2009): Globale Herausforderungen aus der Perspektive der Informationswissenschaft. IM – Fachzeitschrift für Information Management und Consulting 4/2009. Saarbrücken: IMC, 30–36.
Görtz, M. (2010). Informationssuchverhalten und das Social Web. Aktuelle Herausforderungen Wissenschaftlicher Ansätze zur Modellierung von Informationsverhalten. Information Wissenschaft & Praxis 61(6–7), 375–384.
Ingwersen, P. & Järvelin, K. (2005). The Turn: Integration of Information Seeking
and Retrieval in Context. Dordrecht: Springer.
Julien, H. & Duggan, L. J. (2000). A Longitudinal Analysis of the Information Needs
and Uses Literature. Library & Information Science Research, 22(3), 291–309.
Kuhlthau, C. C. (1991). Inside the search process. Information seeking from the
user’s perspective. JASIS, 42, 361-371.
Kuhlthau, C. C., Heinström, J. & Todd, R. J. (2008). The ‘information search process’ revisited. Is the model still useful? Information Research, 13 (4), paper 355.
http://InformationR.net/ir/13-4/paper355.html (Retrieved August 18, 2009)
Mintzberg, H. (1970). Structured Observation as a Method to Study Managerial
Work. Journal of Management Studies, 7 (February), 87–104.
Warning, P., Chu, S. K. W. & Kwan, A. C. M. (2009). Information Seeking And
Stopping Among Undergraduate Interns. In Proceedings of the 2009 International Conference on Knowledge Management. Hong Kong: Dec 3–4, 2009.
298
Kommerzielle und freie Systeme im Vergleich
Jürgen Reischer1, Daniel Lottes2,
Florian Meier2, Matthias Stirner2
1
Informationswissenschaft – Universität Regensburg
D-93040 Regensburg
[email protected]
2
D-93040 Regensburg
{daniel.lottes | florian2.meier | matthias.stirner}@stud.uni-regensburg.de
Zusammenfassung
Fünf kommerzielle und freie Systeme zum automatischen Zusammenfassen
von englischen Texten werden hinsichtlich ihrer Summarizing-Leistung vergleichend evaluiert. Hierfür notwendige, eigene und fremde Evaluations-Ressourcen werden vorgestellt und diskutiert sowie Auswahlkriterien für verwendete Summarizer und Evaluationsmaße dargestellt.
Abstract
Five commercial and free summarization systems are evaluated against each
other with respect to their performance in automatic text summarization. Existent and self-created evaluation resources are presented and discussed as
well as criteria for the selection of summarizers and evaluation measures described.
1
299
Einleitung
Die jährlich wiederkehrenden Evaluationen von Summarizing-Systemen im
Rahmen der ,Text Analysis Conference‘ (TAC)1 stellen einen akademischen
Wettbewerb dar, in dem vor allem wissenschaftliche Systeme zum automatischen Zusammenfassen miteinander verglichen werden. Eine Evaluation
von kommerziellen oder freien Summarizern für den alltäglichen Gebrauch
wurde u. W. bislang nur in García-Hernández (2009) bei drei Systemen für
das Englische durchgeführt. Dies ist umso erstaunlicher, als von kommerziellen Systemen eine gewisse Leistung erwartet werden kann, die den geforderten Preis rechtfertigt. Grund hierfür mag die prekäre Lage bei Ressourcen
zur Evaluation von Summarizing-Systemen sein, d. h. fehlende VolltextTextkondensat-Paare, anhand derer die Leistung der Systeme beurteilt werden kann. Ziel unserer Arbeit war es daher einerseits, diese Ressourcen zusammenzustellen bzw. selbst zu erstellen, andererseits auf Basis des bereitgestellten Evaluationskorpus einige gängige Summarizer hinsichtlich ihrer
Leistung zu evaluieren (die Usability wurde dabei nicht getestet).
Für den alltäglichen Gebrauch lassen sich Summarizer in unterschiedlichen Szenarien einsetzen: z. B. Zusammenfassen von Text-/HTML-/PDF-Dokumenten oder Vorschaufunktion (Textsnippets) in Web- und Desktop-Suchmaschinen. Dabei sind im Weiteren vor allem solche Summarizer von Interesse, die als eigenständige Programme Texte aus dem Clipboard heraus zusammenfassen können oder generell als PlugIn-Summarizer realisiert sind.
Im folgenden Abschnitt werden entsprechend Ressourcen vorgestellt, die als
Grundlage für die Evaluation verschiedener Summarizer dienen; daran anschließend werden die Summarizer präsentiert und deren Leistung bewertet.
2
Ressourcen
Bei der Auswahl der Ressourcen für die Evaluation sollten gewisse Mindestanforderungen an die Texte des jeweiligen Korpus erfüllt sein:
1 http://www.nist.gov/tac/ (25.10.2010).
300
•
Die Ressource sollte uneingeschränkt und frei verfügbar sein, d. h. offen
zugänglich und vor allem kostenlos.
• Die Texte des jeweiligen Korpus sollten von mindestens drei Personen
bearbeitet worden sein, d. h. jedes Summary eines Volltextes sollte sich
anhand der Urteile von mindestens drei Bewertern ergeben. Daraus resultiert eine höhere Objektivität des jeweiligen Summarys, das nicht aufgrund nur eines einzigen subjektiven Urteils zum ,idealen‘ Summary erkoren wird. Zudem ist erst ab drei Bewertern die Ermittlung einer sinnvollen Mehrheitsmeinung möglich. Da Summarizer für den alltäglichen
Gebrauch getestet werden (Normalnutzer, Alltagstexte), scheint es nicht
sinnvoll, ein vermeintlich ,ideales Summary‘ durch nur einen einzigen
professionellen Abstraktor als Grundlage der Evaluation zu verwenden.
• Das Korpus sollte englische Volltext-Extract-Paare enthalten, da die
Summarizer hauptsächlich für das Englische konzipiert sind und ausschließlich extraktive Zusammenfassungen erstellen können. Die Volltext-Extract-Paare sollten dabei nicht durch automatische Verfahren aus
Volltext-Abstract-Paaren erzeugt worden sein, da bei maschinellen Verfahren der Abbildung von Abstracts auf Extracts Abbildungs-Ungenauigkeiten entstehen (Pseudo-Extracts); d. h. nicht jeder Satz des Abstracts ist
genau auf einen passenden Satz des entsprechenden Volltextes abbildbar.
Dabei besteht die Gefahr, dass durch die automatisierte Abbildung nichtkontrollierbare Einflussgrößen die Evaluationsergebnisse verfälschen
(z. B. nicht-erkannte bedeutungsgleiche Ausdrücke).
Im Folgenden sollen bestehende und eigene Ressourcen vor dem Hintergrund
dieser Anforderungen dargestellt bzw. diskutiert werden.
2.1
Bestehende Summarizing-Korpora
Grundsätzlich stehen entsprechende Ressourcen zur Evaluation von Summarizern für das Englische nur in eingeschränktem Umfang zur Verfügung
(Hasler et al. (2003); für einen Überblick vgl. Orasan et al. (2009)). Ein Teil
der Korpora wie Klavans et al. (1998), Barzilay (1997), Jing et al. (1998),
Tucker (1999) und das Summbank-Korpus des LDCs2 ist nicht (mehr) frei
oder vollständig zugänglich, ein anderer Teil wie die TAC- (/DUC-) Korpora
erfüllt nicht die oben genannten Mindestanforderungen von drei oder mehr
unabhängigen Bewertern.
2 http://www.ldc.upenn.edu (25.10.2010).
301
Daher erfüllen überhaupt nur zwei kleinere Textmengen die geforderten
Kriterien: Zechner (1995) und Hasler et al. (2003). In Zechner (1995) wurden
sechs Texte aus dem ,Daily Telegraph Corpus‘ von effektiv je 13 Bewertern
auf die zentralsten oder relevantesten Sätze hin beurteilt, die die Gesamtbedeutung des jeweiligen Textes wiedergeben. In Hasler et al. (2003) finden
sich sieben von insgesamt 163 Texten, die von drei Bewertern auf die essenziellen und wichtigen Sätze hin beurteilt worden sind (113 der 163 Texte
wurden von lediglich einem Bewerter, 43 von zwei Bewertern beurteilt).
Damit stehen zunächst 13 Texte für die Evaluation zur Verfügung, für die
allesamt ein bestmögliches Kompromiss-Summary aus den Bewertungen gebildet werden konnte: Im Falle von Zechner (1995) wurden je nach Text die
sechs oder sieben am häufigsten genannten Sätze (von insgesamt 20–22 Sätzen) als Extract verwendet, wie sie im Artikel angegeben waren; im Falle
von Hasler et al. (2003) wurden alle Sätze für das Summary berücksichtigt,
die von mindestens der Hälfte der Bewerter (d. h. hier 2/3) als essenziell oder
wichtig beurteilt wurden (Mehrheits- statt Einheitsmeinung).
2.2
Eigenes Summarizing-Korpus
Zur Vergrößerung des Evaluations-Korpus wurde ein eigenes Korpus aus 10
weiteren Texten erstellt, aufgeteilt auf zwei Teilkorpora I (6 Texte) und II (4
Texte), die von jeweils 13 Personen im Hinblick auf extract-relevante Sätze
beurteilt wurden. Als Kriterium für zu extrahierende Sätze wurde deren Informativität bzw. Interessantheit zugrunde gelegt: “Ask experts to underline
and extract the most interesting or informative fragments of the text. Measure
recall and precision of the system’s summary against the human’s extract …”
Hovy (2004: 594). Damit wurde der Fokus auf informative statt indikative
Summarys gelegt und zugleich eine bewusste Abgrenzung zu den Extraktionskriterien von Zechner (1995) und Hasler et al. (2003) angesetzt, um eine
größere Bandbreite unterschiedlicher Extract-Typen abdecken zu können.3
Die zehn englischen Texte wurden ausschließlich Online-Quellen im Zeitraum von 9/2008 bis 5/2009 entnommen und sind verschiedenen (Informations-) Textsorten wie Nachrichtenartikel, Produktbericht, Proklamation oder
3 Allerdings sprechen einige Indizien dafür, dass Bewerter – unabhängig von den konkret
angegebenen Extraktionskriterien (Aufgabenstellung für die Bewerter) – zumeist solche
Sätze für das Extract selektieren, die für die jeweils beurteilende Person am interessantesten und informativsten sind (vgl. Krübel (2006) für deutsche Texte).
302
enzyklopädischer Artikel zuzurechnen.4 Die Bewerter waren zwischen 20
und 73 Jahren alt, unter ihnen vor allem Studierende, Promovierende und
Angestellte der Informationswissenschaft Regensburg; fast alle verfügten
über gute bis sehr gute Englischkenntnisse. Die Bearbeitung der Aufgaben
wurde selbständig durchgeführt, wobei den Bewertenden keine Beschränkungen hinsichtlich der Anzahl zu selektierender Sätze auferlegt wurden. Daraus
resultierten – je nach Länge des Originaltextes – Kompressionen auf 8% bis
50% gemessen am Umfang des Volltextes in Sätzen (gemäß Hovy (2004:
584) liegt dies genau im sinnvollen Bereich). Vor allem bei kürzeren Texten
waren die Kompressionsraten meist geringer.
Das Referenz-Extract, mit dem die Leistung der Summarizer gemessen
werden soll, ergibt sich jeweils aus den am häufigsten von den Bewertern
selektierten Sätzen, die von mindestens der Hälfte als informativ/interessant
befunden wurden (d. h. 7 von 13 Bewertern müssen für einen Satz stimmen).
Auf die Messung der Übereinstimmungsrate zwischen den Bewertern, z. B.
durch das Kappa-Maß, wurde verzichtet, da die Werte erwartbar niedrig ausfielen.5 Ziel war nicht die Generierung eines perfekten Extracts mit vollständiger Übereinstimmung aller Bewerter, das bei 13 bewertenden Personen äußerst unwahrscheinlich wäre. Vielmehr sollte das bestmögliche Konsensoder Kompromiss-Extract erstellt werden, dass möglichst viele unterschiedliche Nutzerinteressen und -bedürfnisse zufrieden stellt.6
4 Ein ausführliche Beschreibung und Analyse der Texte findet sich in Reischer (2010).
Die Texte samt ihren Extracts und Quellen können beim Erstautor angefragt werden.
5 Zum Kappa-Maß und zur Kritik daran vgl. Manning (2008: 151 ff.), Eugenio & Glass
(2004: 95 f.), Orasan et al. (2009), Hunt (1986).
6 Tatsächlich gab es selbst bei einer geforderten Zustimmungsrate von 75% (d. h. 10 von
13 Bewertern stimmen für einen Satz) immer mindestens zwei selektierte Sätze pro
Text. Dies lässt darauf schließen, dass jeder Text tatsächlich eine Reihe essenzieller
Sätze enthält, auf die sich eine 3/4-Mehrheit (unausgesprochen) einigen kann.
3
303
Evaluation
Im folgenden Abschnitt werden die Kriterien zur Auswahl der Summarizer
vorgestellt; daran anschließend erfolgt die Darstellung des verwendeten Evaluationsmaßes und die vergleichende Auswertung der Testkandidaten.
3.1
Getestete Summarizer
Die Auswahl der zu testenden Summarizer erfolgte anhand folgenden Kriterienkatalogs: (i) Eine kostenfreie und funktional nicht eingeschränkte Version des Systems (z. B. 30-Tage-Testversion) muss als direkt ausführbare Datei für Windows XP SP3 oder Linux Mint 8 zur Verfügung stehen. (ii) Eine
Dokumentation in Deutsch oder Englisch liegt vor. (iii) Die automatische Zusammenfassung englischer Texte wird unterstützt. (iv) Als Eingabe werden
Texte im ASCII- bzw. Unicode-Format oder Texte aus der Zwischenablage
akzeptiert (keine Online-Zusammenfassungen von Webseiten, da hier die
Korpus-Texte nicht eingegeben werden können). (v) Als Textausgabe wird
eine Textdatei oder Bildschirm-Darstellung erzeugt, anhand derer die Evaluation durchgeführt werden kann. (vi) Das System erlaubt ausreichende Einstellmöglichkeiten für die Länge des gewünschten Summarys als absolute
oder prozentuale Angabe von Sätzen in Relation zum Volltext.
Anhand dieser Kriterien wurden folgende fünf Systeme für die Evaluation
ausgewählt (Zugriff 28.1.2010):
• Copernic-Summarizer (http://www.copernic.com/en/products/summarizer/index.html),
• Intellexer-Summarizer (http://www.intellexer.com/),
• Microsoft-Word2007-Summarizer (http://www.microsoft.com/education/
autosummarize.aspx)7,
• Open-Text-Summarizer (http://libots.sourceforge.net/),
• Subject-Search-Summarizer (http://www.kryltech.com/summarizer.htm).
Folgende Summarizer fielen aus ein oder mehreren Gründen durch das Raster obigen Kriterienkatalogs:
7 Getestet wurde hier die Vollversion, die in das kommerzielle Office-Paket integriert ist,
das an der Universität Regensburg zur Verfügung steht. Eine kostenfreie Version findet
sich unter http://trial.trymicrosoftoffice.com/trialgermany/default.aspx.
304
•
Brevity-Document-Summarizer
(http://www.lextek.com/brevity/brevtest.html),
• MEAD-Summarizer (http://www. summarization.com/mead/),
• Pertinence-Summarizer (http://www.pertinence.net/index_en.html),
• Quickjist (http://quickjist-summarizer.updatestar.com/),
• SenseExplore-Summarizer (http://www.soft3k.com/SenseExplore-Summarizer-p11919.htm),
• Sinope-Summarizer (http://www.sinope.info/en/Download).
Da auch die 30-Tage-Test-Versionen laut Herstellerangaben ohne funktionale Einschränkungen sind, wurden für die im Folgenden beschriebenen Leistungsmessungen faktisch nur Vollversionen verwendet.
3.2
Leistungsmessung
Zur Messung der Leistungsfähigkeit eines Summarizers ist zum einen eine
geeignete Textmenge erforderlich (s. o.), zum anderen ein Verfahren der
Leistungsmessung. Ein aktueller Überblick über manuelle vs. automatisierte,
extrinsische vs. intrinsische Evaluationsverfahren für Abstracting und Extracting findet sich in Saggion et al. (2010), Reischer (2010), Hovy (2004), Mani
(2001a/b), Jing et al. (1998).
3.2.1
Leistungsmaße
Für die Zwecke unserer Evaluation bietet sich das von Hovy (s. obiges Zitat)
vorgeschlagene Vorgehen an, das das aus dem Information Retrieval erprobte
Verfahren der Ermittlung von Recall- und Precision-Werten zur Grundlage
nimmt. Die von den Bewertern selektierten Sätze bilden eine apriori bekannte ,Relevanzmenge‘ von Items (hier Sätze), die in Relation zu den tatsächlich
von den Systemen ermittelten Items gesetzt werden:
Recall =
Anzahl Items im System- und Referenz-Extract
––––––––––––––––––––––––––––––––––––––
Anzahl relevanter Items im Referenz-Extract
Precision =
––––––––––––––––––––––––––––––––––––––
Anzahl ermittelter Items im System-Extract
Da die Anzahl der relevanten Items vorab bekannt ist und die Summarizing-Systeme zwingend eine vorgegebene Anzahl zu ermittelnder Items
benötigen, kann die Anzahl der von den Systemen zu ermittelnden Items mit
305
der Anzahl der relevanten Items gleichgesetzt werden. Daraus resultiert das
sogenannte R-Precision-Maß (Baeza-Yates & Ribeiro-Neto (1999: 80), Manning et al. (2008: 148)):
R-Precision = –––––––––––––––––––––––––––––––––––––––––––––
Anzahl ermittelter = relevanter Items im System-Extract
Das R-Precision-Maß bietet den Vorteil, dass es einfach anzuwenden ist
und den Evaluationsaufwand verringert, da keine numerisch gesonderten
Precision- und Recall-Werte berechnet werden müssen. Zudem liefert das
Maß normalisierte Werte zwischen 0 und 1, die genau dann erreicht werden
können, wenn keine bzw. alle Items der Relevanzmenge vom System korrekt
ermittelt wurden.
3.2.2 Ergebnisse
Tabelle 1 unten zeigt die Ergebnisse der Auswertung im Überblick, geordnet
nach Korpus und Summarizing-System. Zum Vergleich sind auch die Baseline-Werte für die jeweilige Textmenge angegeben: Hierfür werden N Sätze
vom Anfang jedes Textes ermittelt und die ,zufällig‘ korrekten Sätze berechnet.8 Gerade bei Nachrichten-Texten bietet die Baseline oftmals eine schwer
zu schlagende Hürde (vgl. Ledeneva et al. (2008), Jurafsky & Martin (2009:
841)).
Tab. 1: Ergebnisse der Evaluation
(Werte auf zwei Stellen gerundet; beste Werte unterstrichen)
Summarizer
Baseline
Copernic
Intellexer
OpenText
SubjectSearch
Word2007
Korpus ZechnerKorpus
0.43
0.59
0.40
0.58
0.37
0.47
CASTKorpus
0.15
0.47
0.51
0.46
0.47
0.36
Eigenes
Korpus I
0.47
0.52
0.58
0.45
0.48
0.44
Eigenes
Korpus II
0.39
0.46
0.57
0.51
0.44
0.39
Durchschnitt
0.36
0.51
0.52
0.50
0.44
0.42
8 Der vergleichsweise geringe Baseline-Wert beim CAST-Korpus erklärt sich durch den
grundsätzlichen Aufbau der Texte, die am Anfang neben der doppelt angeführten Überschrift auch den Autorennamen und den Ort des beschriebenen Ereignisses stehen haben. Die Texte wurden für die Evaluation jedoch nicht verändert, da ein gutes System
die Textstruktur gerade selbst erkennen können muss (z. B. anhand der geringen Satzlänge).
306
Ein Wert von 0.50 bedeutet, dass ein System von N relevanten und zu ermittelnden (auszugebenden) Items 50% korrekte Treffer erzielt hat, d. h. die
eine Hälfte der Items in der ermittelten Satzmenge ist korrekt, die andere
Hälfte falsch.
Nach den Zahlen am besten schneidet der Intellexer-Summarizer ab, dicht
gefolgt vom Copernic- und OpenText-Summarizer. Allerdings bleibt allein
der Copernic-Summarizer als einziges System bei keiner der Textmengen unterhalb der Baseline, d. h. er bietet die ausgewogenste Leistung, auch im Hinblick auf die Aufgabenstellung an die Bewerter (zentrale, essenzielle oder informative Sätze). In allen drei Fällen liegt die durchschnittliche Performance
bei etwa 50% korrekt ermittelter Sätze.
Der SubjectSearch- und Word2007-Summarizer verfehlen diese Marke
deutlich, wobei das Word2007-System insgesamt bei allen Textmengen am
schlechtesten abschneidet. Seine Gesamtleistung liegt etwa 10 Prozentpunkte
unterhalb des besten Systems und nur 6 Punkte oberhalb der Baseline.
4
Fazit und Ausblick
Die besten kommerziellen und freien Systeme zum automatischen Zusammenfassen von Texten bieten eine Leistung von etwa 50% korrekt ermittelter
Texteinheiten in Bezug auf entsprechende Modell- oder Referenz-Summarys.
Für den alltäglichen Gebrauch mag dies eine durchaus ausreichende Leistung
sein, sofern man sich schnell einen Überblick über die Inhalte eines Textes
verschaffen will. Der Mehrwert solcher Systeme kommt vor allem dann zum
Tragen, wenn umfangreiches Textmaterial rezipiert werden muss. Für kritische Entscheidungen (z. B. in geschäftlichen Prozessen), in denen alle relevanten Informationen ungefiltert zur Verfügung stehen müssen, eignen sich
automatische Verfahren nicht. Entsprechend weisen die Hersteller darauf hin,
dass keinerlei Verantwortung für (Fehl-) Entscheidungen übernommen wird,
die aufgrund der Extracts von den Nutzern getroffen werden (,Disclaimer‘).
Zu bedenken ist dabei auch, dass die Leistung für andere Sprachen als das
Englische deutlich schlechter ausfallen kann, sodass eine generelle Aussage
über diese Systeme – schon aufgrund fehlender Evaluationsressourcen für die
unterstützten Sprachen – kaum möglich ist. Die Systeme müssen zudem stets
einen Kompromiss hinsichtlich der verarbeitbaren Textsorten und der Aus-
307
richtung auf informative vs. indikative Summarys finden. Die hier durchgeführte intrinsische Evaluation gängiger Summarizer vermittelt daher nur einen ersten Eindruck vom Leistungsspektrum dieser Systeme. Für eine umfassendere Evaluation wären nicht nur mehr Sprachen und größere bzw. unterschiedliche Korpora notwendig, sondern auch extrinsische Evaluationen, die
die Leistung der Systeme im Hinblick auf bestimmte Aufgabenstellungen
messen (z. B. Entscheidung über die Relevanz von Texten). Der hierfür jeweils notwendige Aufwand ist jedoch so beträchtlich, dass dies nur schrittweise realisiert werden kann. Sinnvoll ist dabei zunächst die Vergrößerung
der Datengrundlage hinsichtlich der Anzahl der Texte und in Bezug auf die
Abdeckung von Textsorten. Dabei wäre schon viel gewonnen, wenn die in
der Literatur erwähnten, intellektuell erstellten Ressourcen auch frei zugänglich wären bzw. nicht der Datendegeneration zum Opfer fielen.9
Baeza-Yates, R. & Ribeiro-Neto, B. (1999). Modern Information Retrieval. London
et al.: Pearson.
Barzilay, R. (1997): Lexical Chains for Summarization. Universität Negev: Masterarbeit. http://www.cs.bgu.ac.il/~elhadad/barzilay.pdf (23.8.2009)
Eugenio Di, B. & Glass, M. (2004). The Kappa Statistic: A second look. Computational Linguistics, 30(1), S. 95–101.
García-Hernández, R. A. & Ledeneva, Y. & Mendoza, G. M. & Dominguez, Á. H. &
Chavez, J. & Gelbukh, A. & Tapia Fabela, J. L. (2009). Comparing Commercial
Tools and State-of-the-Art Methods for Generating Text Summaries. Proceedings
of the 8th Mexican International Conference on Artificial Intelligence (MICAI),
S. 92–96.
Hasler, L. & Orasan, C. & Mitkov, R. (2003). Building better corpora for summarisation. Proceedings of Corpus Linguistics 2003, S. 309–319.
Hovy, E. (2004). Text Summarization. In Mitkov, R. (Hrsg.). The Oxford Handbook
of Computational Linguistics. Oxford: University Press, S. 583–598.
9 Für das in Klavans et al. (1998) erwähnte Korpus trifft dies offenbar zu: Es war nicht
mehr auffindbar (persönliche Kommunikation via Email).
308
Hunt, R. J. (1986). Percent Agreement, Pearson’s Correlation, and Kappa as Measures of Inter-examiner Reliability. Journal of Dental Research, 65(2), S. 128–130.
Jing, H. & Barzilay, R. & McKeown, K. & Elhadad, M. (1998). Summarization
Evaluation Methods: Experiments and Analysis. Proceedings of the AAAI Symposium on Intelligent Summarization, S. 60–68.
Jurafsky, D. & Martin, J. H. (22009). Speech and Language Processing. London u. a.:
Pearson Education.
Klavans, J. L. & McKeown, K. R. & Kan, M.-Y. & Lee, S. (1998). Resources for
Evaluation of Summarization Techniques. Proceedings of the 1st International
Conference on Language Resources and Evaluation (ohne Seite).
Krübel, M. (2006). Analyse und Vergleich von Extraktionsalgorithmen für die Automatische Textzusammenfassung. Technische Universität Chemnitz: Diplomarbeit.
Ledeneva, Y. & Gelbukh, A. & García-Hernández, R. A. (2008). Terms Derived
from Frequent Sequences for Extractive Text Summarization. In Gelbukh, A.
(Hrsg.). Computational Linguistics and Intelligent Text Processing. Proceedings
of CICLing 2008. Berlin & Heidelberg: Springer. S. 593–604.
Mani, I. (2001a). Summarization Evaluation: An Overview.
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings2/sum-mani.pdf (5.1.2009)
Mani, I. (2001b). Automatic Summarization. Amsterdam & Philadelphia: Benjamins.
Manning, C. D. & Raghavan, P. & Schütze, H. (2008). Introduction to Information
Retrieval. Cambridge: University Press.
Orasan, C. & Hasler, L. & Mitkov, R. (2009): Corpora for text summarisation. In
Lüdeling, A. & Kytö, M. (Hrsg.). Corpus Linguistics, Bd. 2. Berlin & New York:
de Gruyter, S. 1271–1286.
Reischer, J. (2010): Retrieval und Ranking informativer Textpassagen. Eine theoretische und praktische Integration von informativem Summarizing und WithinDocument-Retrieval. Universität Regensburg: Habilitationsschrift.
Saggion, H. & Torres-Moreno, J.-M. & da Cunha, I. & SanJuan, E. & VelázquezMorales, P. (2010). Multilingual Summarization Evaluation without Human Models. Proceedings of Coling 2010, S. 1059–1067.
Tucker, R. (1999): Automatic Summarising and the CLASP system. University of
Cambridge Computer Laboratory: Doktorarbeit.
Zechner, K. (1995): Automatic Text Abstracting by Selecting Relevant Passages.
Edinburgh: M.Sc. Dissertation.
http://www.cs.cmu.edu/~zechner/abstr.pdf (23.8.2009)
Bedarf an Informationsspezialisten in wissensintensiven Branchen der ... 309
Bedarf an Informationsspezialisten
in wissensintensiven Branchen der
österreichischen Volkswirtschaft
Robert Mayo Hayes1, Karin Karlics2, Christian Schlögl2
1
University of California at Los Angeles
Department of Information Studies
GSE&IS Building, Box 951520, Los Angeles, CA 90095
[email protected]
2
Universität Graz
Institut für Informationswissenschaft und Wirtschaftsinformatik
Universitätsstraße 15/F3, A-8010 Graz
karin.karlics | christian.schloegl @uni-graz.at
Zusammenfassung
Im vorliegenden Beitrag werden Teilergebnisse eines Projekts1 vorgestellt, in
dem der Informationssektor in Österreich einer eingehenden Analyse unterzogen wurde. Das Projekt nähert sich dem Informationssektors aus einer
informationswissenschaftlichen Richtung an. Ausgangspunkt sind Universitätsbibliotheken, die Informationsservices für Wissenschaftler und Studierende erbringen. Auf Basis der Bibliothekare, die diese Services erbringen,
soll der Bedarf an Informationsspezialisten in wissensintensiven Branchen
der Wirtschaft grob abgeschätzt werden. Nach einer Adaptierung des Gesamtmodells konnte eine relativ gute Übereinstimmung mit den entsprechenden Werten der (österreichischen) Erwerbstätigenstatistik erzielt werden.
Abstract
In this contribution we present partial results of a project, the goal of which
was an extensive analysis of the information sector in Austria. The project
approaches the information sector from an information science perspective.
1 Das Projekt wurde vom Jubiläumsfonds der Österreichischen Nationalbank gefördert.
310
University libraries providing information services and information products
to researchers and students are the starting point. Based on the number of
librarians in university libraries, who provide these services, we try to project
the need for information specialists serving knowledge workers in knowledge
industries. After the adaptation of the model designed for this purpose, we
could attain a relatively good accordance between the projected and the effective number of information specialists.
1
Einführung
Mittlerweile gibt es eine Reihe von Untersuchungen zum sogenannten Informationssektor. Bahnbrechend waren insbesondere die Arbeiten von Machlup
(1962) und Porat (1977), auf die in Folge mehr oder weniger stark Bezug
genommen wurde. Die letzte und einzige Studie mit Österreich-Bezug geht
auf die 1970er Jahre zurück (Schmoranz 1980).
Der in dieser Arbeit vorgestellte Ansatz unterscheidet sich von bisherigen
dadurch, dass er sich dem Informationssektor aus einer informationswissenschaftlichen Perspektive annähert. Als Ausgangspunkt dienen wissenschaftliche Bibliotheken, die Wissenschaftler und Studierende mit Informationen
versorgen. Die zentrale Hypothese dieser Arbeit ist, dass das Modell der Informationsversorgung einer Universität(-sbibliothek) auch auf wissensintensive Branchen (Knowledge Industries) übertragbar ist, in denen den Wissenschaftlern und Studierenden die sogenannten Wissensarbeiter entsprechen.
Somit kann vom Bedarf an Bibliothekaren der Bedarf an Informationsspezialisten grob abgeschätzt werden. In diesem Aufsatz stehen die Ergebnisse und
der Test obiger Hypothese im Vordergrund.
2
Forschungsfragen und Gesamtmodell
Dem Projekt, auf dem der hier vorliegende Beitrag basiert, liegen folgende
Annahmen zugrunde:
• Annahme 1: Die Tätigkeiten von Informationsspezialisten lassen sich im
Wesentlichen in die Bereiche Medienbearbeitung (Auswahl, Beschaf-
fung, formale und inhaltliche Erschließung) und Benutzerbetreuung (Anbieten von Informationsdiensten und Bereitstellen von Informationsprodukten) einteilen. Der Bedarf an Informationsspezialisten wird im Bereich der Medienbearbeitung primär vom Ausmaß an Medienzugängen
und im Bereich der Benutzerbetreuung hauptsächlich von der Anzahl der
Bibliotheksbenutzer bestimmt.
• Annahme 2: In den mit Universitäten vergleichbaren Organisationen
(wissensintensive Branchen) kann der Bedarf an Informationsspezialisten
in ähnlicher Weise ermittelt werden. Insbesondere gilt, dass den Benutzern einer Universitätsbibliothek (Wissenschaftler, Studierende) Wissensarbeiter in wissensintensiven Branchen entsprechen. Weiter gilt, dass
die Medienanschaffungen an einer Universitätsbibliothek den Aufwendungen für Verlagsprodukte in wissensintensiven Branchen entsprechen.
Daraus leitet sich die zentrale Hypothese dieser Arbeit ab: Von der Anzahl
der Bibliothekare an Universitätsbibliotheken kann der Bedarf an Informationsspezialisten in wissensintensiven Branchen grob abgeschätzt werden.
Dieser Sachverhalt wird in Abbildung 1 zum Ausdruck gebracht.
NATIONALE VOLKSWIRTSCHAFT – KNOWLEDGE INDUSTRIES / WISSENSINTENSIVES SEGMENT
UNIVERSITÄTEN / BIBLIOTHEKEN
˜
WISSENSINTENSIVE BRANCHEN
VZÄ Medienbearbeitung
VZÄ Medienbearbeitung
:
=
€ Medienzukäufe
Zukäufe an
Verlagsprodukten
=
VZÄ Medienbearbeitung/
Mio. € Medienanschaffungen
x
˜
VZÄ Medienbearbeitung/
Mio. € Ausgaben
Verlagsprodukte
VZÄ Nutzerbetreuung
VZÄ Nutzerbetreuung
:
=
Primäre Bibliotheksnutzer
Wissensarbeiter
=
x
VZÄ Nutzerbetreuung/
Primäre Bibliotheksnutzer
VZÄ Nutzerbetreuung/
Wissensarbeiter
˜
Erwerbstätigenstatistik nach ÖNACE und Berufen
Quelle: Arbeitskräfteerhebung Statistik Austria
Berufsgruppen
Primär
n
re Sekundär
o
tk
Tertiär
es
sft Information
ah
IT
sct
ri
TI
W
KI
IS
WA
X
X
+
=
A
rb
ei
ts
kr
äf
te
n
ac
h
S
ek
to
re
n
Arbeitskräfte n. Berufsgruppen
IT = Information Technology Industries; TI = Transaction Industries; KI = Knowledge Industries;
IS = Informationsspezialisten; WA = Wissensarbeiter; VZÄ = Vollzeitäquivalente
Abbildung 1: Gesamtmodell
312
Wie aus Abbildung 1 ersichtlich ist, wird im Universitätskontext die Verhältniszahl „Mitarbeiter Medienbearbeitung (Vollzeitäquivalente – VZÄ) je
1 Mio. € Medienanschaffungen“ aus der Division der beiden Kennzahlen
„Mitarbeiter Medienbearbeitung“ (Quelle: Library Planning Model) und
„Medienzukäufe“ (Quelle: Bibliotheksstatistik) ermittelt. Diese Verhältniszahl wird dann für die wissensintensiven Branchen übernommen. Die Multiplikation mit den Zukäufen an Verlagsprodukten (Quelle: Input-OutputMatrix) ergibt den Bedarf an Informationsspezialisten in der Medienbearbeitung in den wissensintensiven Branchen.
In ähnlicher Weise erfolgt die Berechnung der Informationsspezialisten
im Nutzungsbereich. Die Bibliotheksmitarbeiter in der Nutzung (VZÄ)
(Quelle: Library Planning Model) dividiert durch die Anzahl der Bibliotheksnutzer ergibt die Verhältniszahl Bibliothekare (VZÄ) je Bibliotheksnutzer.2 Zu den Bibliotheksnutzern werden zum einen wissenschaftliche Mitarbeiter und zum anderen Studierende gezählt. Da Studierende, insbesondere
solche, die in Bachelor-Studiengänge eingeschrieben sind, eine deutlich niedrigere Nutzungsfrequenz als beispielsweise Forscher aufweisen, wurden die
drei Hauptnutzergruppen wie folgt gewichtet: 1 (Forscher) : 2/3 (Studierende
auf Masterebene) : 1/2 (Studierende auf Bachelorlevel). Die Verhältniszahl
„Bibliothekare in der Nutzerbetreuung je Bibliotheksnutzer“ wird wiederum
in den volkswirtschaftlichen Kontext übertragen. Die Multiplikation mit der
Anzahl der Wissensarbeiter in den wissensintensiven Organisationen ergibt
den Bedarf an Informationsspezialisten im Nutzungsbereich. Aus der Summe
der Informationsspezialisten aus beiden Bereichen (Medienbearbeitung und
Nutzung) errechnet sich schließlich deren Gesamtbedarf.
3
Methoden und Datenquellen
Im Projekt wurden folgende Methoden verwendet:
• Library Planning Model (LPM)
• Input-Output-Analyse.3
2 Um Zufallsschwankungen zu vermeiden, werden die Zahlen für eine durchschnittliche
österreichische Universität(-sbibliothek) verwendet.
3 Eine detaillierte Beschreibung dieser beiden Methoden findet sich im Beitrag von Hayes, Karlics und Schlögl (2009).
Bei dem von Hayes (2001) entwickelten Library Planning Model (LPM)
handelt es sich um ein Werkzeug zur Leistungsmessung in wissenschaftlichen Bibliotheken. Damit ist es auf der Grundlage von Erfahrungswerten
möglich, den Bedarf an Mitarbeitern, finanziellen Ressourcen und ServiceEinrichtungen für eine bestimmte Bibliothek zu schätzen. Für das vorliegende Projekt war die Bestimmung der Mitarbeiterbedarfe in der Medienbearbeitung und Benutzerbetreuung für eine durchschnittliche österreichische
Universitätsbibliothek von Relevanz. Zu diesem Zweck musste dieses für
amerikanische Bibliotheken entwickelte Modell an die österreichische Situation angepasst werden (Karlics & Hayes 2008; Hayes, Karlics & Schlögl
2009). Gefüttert wurde das LPM primär mit Daten aus der österreichischen
Bibliotheksstatistik (Quelle: Statistik Austria 2007) und dem Data warehouse
uni:data (Quelle: Bundesministerium für Wissenschaft und Forschung 2010).
Die Input-Output-Analyse (Statistik Austria 2010a) diente dazu, den Input
(die Zukäufe) an Verlagsprodukten in den wissensintensiven Branchen zu
ermitteln. Diese Informationen können sogenannten Verwendungstabellen
entnommen werden, die mit einer Zeitverzögerung von drei Jahren veröffentlicht werden. In einer Verwendungstabelle wird zum Ausdruck gebracht,
welche Güter in welcher Höhe in die einzelnen Branchen (Intermediärverbrauch) und in den Endkonsum einfließen. Beispielsweise kann aus ihr abgelesen werden, welche Branchen Güter der Klasse 22 (Verlags- und Druckerzeugnisse) in welcher Höhe bezogen haben. Die Verwendungstabellen für
das Jahr 2005 – der im Projektzeitraum aktuellsten Version – liegen in einer
Detailliertheit 73 (Güter) × 74 (Branchen) vor. Die im Jahr 2005 relevante
Klassifikation war die in der EU zu jenem Zeitpunkt verwendete NACE Rev.
1.1.
Da es Ziel dieser Arbeit ist, den Bedarf an Informationsspezialisten in
wissensintensiven Branchen (Knowledge Industries) abzuschätzen, war es
zunächst erforderlich, diese abzustecken. Nach dem Verständnis dieser Arbeit handelt es sich dabei um alle „Organisationen, die sich in erster Linie mit
der Erzeugung von neuem und der intellektuellen Analyse von bestehendem
Wissen sowie der Informationsvermittlung beschäftigen.“ (Hayes, Karlics &
Schlögl 2009, 119). Demgemäß wurden folgende NACE-Branchen den
Knowledge Industries zugeordnet: 22 – Verlagswesen, Druckerei, Vervielfältigung; 73 – Forschung und Entwicklung; 74A – Rechts-, Steuer- und Unternehmensberatung, Markt- und Meinungsforschung, Beteiligungsgesellschaften; 74B – Architektur- und Ingenieurbüros, technische, physikalische und
chemische Untersuchung; 74C – Werbewesen; 75 – Öffentliche Verwaltung,
314
Sozialversicherung; 80 – Unterrichtswesen; 85A – Gesundheits- und Veterinärwesen; 90 – Interessensvertretungen, Vereine; 92A – Kultur, Sport und
Unterhaltung; 92B – Hörfunk- und Fernsehanstalten, Film- und Videoherstellung, -verleih und -vertrieb, Lichtspieltheater (Kinos).
Als weitere wesentliche Datenquelle ist schließlich noch die Erwerbstätigentabelle (Quelle: Statistik Austria 2010b) zu nennen. Diese enthält die
Beschäftigtenzahlen (nach Köpfen), die auf Grundlage des Labour ForceKonzepts im Rahmen einer jährlichen Mikrozensus-Studie (Stichprobe: 0,6%
der österreichischen Haushalte) erhoben werden. Die Erwerbstätigendaten
wurden in den beiden Dimensionen Branchen und Berufe zur Verfügung
gestellt. Die Berufsdimension auf Basis der ISCO-88 Berufsklassifikation
(ILO 2004) war dabei relativ detailliert (3-Steller). Auch die Branchendimension lag auf einer detaillierteren NACE-Ebene (3-Steller) als die Verwendungstabelle vor. Insofern war es kein Problem, die für das Projekt benötigten Kennzahlen für Wissensarbeiter bzw. Informationsspezialisten in den
wissensintensiven Branchen zu ermitteln, wobei noch zu klären ist, wie sich
diese beiden Berufsgruppen zusammensetzen.
Laut dem Begriffsverständnis der hier vorliegenden Arbeit führen Wissensarbeiter primär Tätigkeiten aus, die die Erzeugung von neuem Wissen,
die Transformation von bestehendem Wissen in eine für den Empfänger geeignete Form oder die Verteilung von Wissen zum Gegenstand haben. Als
Grundlage für die Ermittlung der Wissensarbeiter diente das auf der ISCOBerufsklassifikation basierende „OECD information worker scheme“ (OECD
1981, 24), das Informationsarbeiter in vier Haupt- und elf Unterkategorien
einteilt. Im Projekt wurden den Wissensarbeitern, die enger als Informationsarbeiter laut OECD abgesteckt wurden, folgende vier Unterkategorien zugerechnet: wissenschaftliche und technische Berufe, beratende Dienstleistungen, Pädagogen und Berufe im Kommunikationswesen.
Die Informationsspezialisten konnten ohne den Umweg über das OECDSchema bestimmt werden. Sie entsprechen den ISCO-Klassen „243 – Archivare, Bibliothekare und verwandte Informationsspezialisten“4 und „414 –
Bibliotheks-, Post- und verwandte Angestellte“4, wobei aus Letzterer „Postund verwandte Angestellte“ herausgefiltert wurden.
4 Quelle: http://www.ilo.org/public/english/bureau/stat/isco/isco88/
4
Ergebnisse
In diesem Kapitel werden die durchgeführten Berechnungen Schritt für
Schritt (siehe auch Abb. 2) vorgestellt. Im Universitätskontext ergaben sich
folgende Werte für eine durchschnittliche österreichische Universitätsbibliothek:
• Bibliothekare in der Medienbearbeitung: 23,4 VZÄ [1]5
• Bibliothekare in der Nutzerbetreuung: 27,9 VZÄ [2]
• Medienzukäufe: € 1.414.609 [3]
• Bibliotheksnutzer: 6.569 VZÄ [4].
Daraus wurden die beiden Verhältniszahlen „Bibliothekare in der Medienbearbeitung je 1 Mio. € Medienzukäufe“ (16,54 VZÄ [5]) und „Bibliothekare
je Bibliotheksnutzer“ (0,004247 VZÄ [6]) errechnet. Zur Bestimmung der
Informationsspezialisten im Nutzungsbereich war es erforderlich, die Anzahl
der Wissensarbeiter in den wissensintensiven Branchen zu ermitteln. Dieser
Wert wurde aus der nach Branchen und Beschäftigtengruppen gegliederten
Erwerbstätigentabelle errechnet (siehe Tabelle 1).
Tabelle 1:
Anzahl der Wissensarbeiter und Informationsspezialisten auf Ebene der einzelnen (Sub-) Sektoren der österreichischen Volkswirtschaft im Jahr 2005
Wissensarbeiter
Information Technology
Industries
Information Transaction
Industries
Knowledge Industries
(wissensintensive Branchen)
absolut
317.066
relativ
33,7%
315.185
33,3%
337.755
73,2%
Informationsspezialisten
absolut
relativ
Input Verlagsund Druckerzeugnisse
absolut
3.327.220
.3624.263
3.477
71%
2.104.695
(Quelle: Statistik Austria und eigene Berechnungen) und Input der ÖNACE Klasse
22 – Verlag- und Druckerzeugnisse pro (Sub-) Sektor (Intermediärverbrauch) im
Jahr 2005 (in 1.000 €) (Quelle: Statistik Austria – Verwendungstabelle 2005).
5 Die Angaben in eckigen Klammern beziehen sich auf die Einträge in Abbildung 2.
316
Wenig überraschend ist, dass ein Großteil der Wissensarbeiter (337.755
[7a] bzw. 73,2%) in den wissensintensiven Branchen tätig ist. Zu berücksichtigen ist noch, dass bei den Universitäten, die ja auch Teil der Knowledge
Industries sind, die Studierenden eine Nutzergruppe darstellen, die von herkömmlichen Beschäftigungsstatistiken nicht berücksichtigt werden. Die Zahl
der Studierenden [7b] – wiederum gewichtet nach Bachelor und Master, um
unterschiedlichen Nutzungsniveaus zu entsprechen – ist daher den Wissensarbeitern zuzuschlagen. Multipliziert man nun die Gesamtzahl der Nutzer in
den Knowledge Industries (561.872 [7]) mit der Verhältniszahl „Informationsspezialisten je Wissensarbeiter“, so ergibt sich ein errechneter Bedarf
von 1919 Informationsspezialisten (im Nutzungsbereich) [8].
Für die Bestimmung der Informationsspezialisten in der Medienbearbeitung muss zunächst der Input an Verlagsprodukten in den Knowledge Industries errechnet werden (siehe Tabelle 1). Die Multiplikation dieser Zahl, für
die ein Wert von 2.104,7 Mio. € [9] ermittelt wurde, mit der Verhältniszahl
„Informationsspezialisten je 1 Mio. € Zukäufe an Verlagsprodukten“ [5] ergibt einen errechneten Bedarf von 34.815 Informationsspezialisten (in der
Medienbearbeitung) [10]. Addiert man noch die Informationsspezialisten im
Benutzungsbereich hinzu, so kommt man auf einen Bedarf an Informationsspezialisten von insgesamt 36.734 VZÄ [11].
Wie aus Abbildung 2 ersichtlich ist, ist die errechnete Zahl für Informationsspezialisten zehn Mal so hoch wie der aus der Beschäftigtenmatrix ermittelte Wert (3.477 [12]), wobei sich Letzterer nicht auf Vollzeitäquivalente,
sondern auf Köpfe bezieht. Die ursprünglich aufgestellte Hypothese, wonach
man von der Anzahl der Bibliothekare an Universitätsbibliotheken auf den
Bedarf an Informationsspezialisten in Knowledge Industries schließen kann,
kann somit nicht bestätigt werden.
Eine Ursache liegt am hohen Wert für Verlags- und Druckerzeugnisse,
wobei eigentlich nur Verlagsprodukte für das Projekt relevant wären. Da die
Input-Output-Tabellen aber nicht auf diesem Detailliertheitsgrad vorliegen,
wurde bei der Ermittlung der Informationsspezialisten ein viel zu hoher Wert
angesetzt. Eine endgültige Ablehnung der Hypothese ist mit absoluter Gewissheit also nicht möglich, wenn auch die Vermutung nahe liegt, dass Ankäufe von Verlagsprodukten in Bibliotheken in Relation zu den Knowledge
Industries deutlich höher sein dürften.
Universitäts(-bibliotheks)kontext
Bibliothekare VZÄ in der
Medienbearbeitung
23,4 [1]
:
:
Medieneinkäufe (Mio. €)
1,41 [3]
=
=
Bibliothekare Medienbearbeitung VZÄ je 1
Mio. € Medieneinkäufe
16,54 [5]
Bibliothekare in der
Nutzerbetreuung (VZÄ)
27,9 [2]
:
:
Bibliotheksnutzer
=
6.569 [4]
=
Bibliothekare VZÄ in der
0,004247[6]
Nutzerbetreuung je Bibliotheksbenutzer
VZÄ in der Medienbearbeitung
=
Einkäufe an Verlagsprodukten (Mio. €)
x
≈ VZÄ Medienbearbeitung je
1 Mio. € Medieneinkäufe
VZÄ in der Nutzerbetreuung
=
Wissensarbeiter +
Studierende (gewichtet)
x
≈ VZÄ Nutzerbetreuung je
Wissensarbeiter
34.815 [10]
=
2.104,7 [9]
x
16,54 [5]
1.919 [8]
=
(337.755 [7a]+
114.117 [7b])
x
0,004247 [6]
Informationsspezialisten in Knowledge Industries lt. Modell (gesamt)
(Informationsspezialisten Nutzerbetreuung (VZÄ) [8] +
Informationsspezialisten Medienbearbeitung (VZÄ) [10]) :
36.734 [11]
Informationsspezialisten in Knowledge Industries (gesamt)
laut Statistik Austria für das Jahr 2005:
3.477 [12]
Abbildung 2: Berechnung der Informationsspezialisten im Gesamtmodell
Da der tatsächliche Wert für Ankäufe von Verlagserzeugnissen aus der
Aufkommenstabelle der Input-Output-Rechnung nicht eruierbar ist, wurde in
weiterer Folge eine alternative Vorgehensweise beschritten. Es wurde auf die
Trennung von Medienbearbeitung und Benutzung (Annahme 1) verzichtet.
Stattdessen soll von der Verhältniszahl „alle Bibliothekare [1]6 je Benutzer“
[2] auf den Bedarf an Informationsspezialisten in wissensintensiven Branchen geschlossen werden.
Wie aus Abbildung 3 zu sehen ist, kommt es zu einer relativ guten Übereinstimmung zwischen dem errechneten Bedarf an Informationsspezialisten
(3.494 VZÄ [3]) und dem von Statistik Austria im Jahr 2005 erhobenen Wert
(3.477 Köpfe).
6 Die Angaben in eckigen Klammern beziehen sich auf die Einträge in Abbildung 3.
318
Universitäts(-bibliotheks)kontext
Bibliothekare VZÄ gesamt (lt. Statistik Austria)
50,8 [1]
:
:
Bibliotheksnutzer
=
Bibliothekare gesamt je
User (VZÄ)
6.569
=
0,007733 [2] ≈
VZÄ gesamt
3.494 [3]
=
Wissensarbeiter +
Studierende (gewichtet)
x
=
(337.755 +
114.117)
x
Informationsspezialisten VZÄ
gesamt je Wissensarbeiter
0,007733 [2]
Abbildung 3: Berechnung der Informationsspezialisten im adaptierten Gesamtmodell
5
Einschränkungen der Studie und Ausblick
Auch wenn im adaptierten Gesamtmodell eine relativ gute Übereinstimmung
von errechnetem Bedarf an Informationsspezialisten mit jenem laut Erwerbstätigenstatistik erzielt werden konnte, sollen die während des Projekts aufgetretenen Problembereiche nicht verschwiegen werden:
Ein generelles Problem besteht im hohen Aggregationsniveau von volkswirtschaftlichen Analysen. Beispielsweise liegt die Aufkommenstabelle nur
als 73 × 74-Matrix vor. Für die Bestimmung der Zukäufe an Verlagsprodukten wäre es aber wünschenswert gewesen, die NACE-Klasse 22 um eine
Ebene tiefer (Klasse 22.1 Verlagserzeugnisse) vorliegen zu haben. Darüber
hinaus hätte die Abgrenzung der Knowledge Industries präziser vorgenommen werden können, wenn die Daten in einigen Fällen (z. B. öffentliche
Verwaltung) detaillierter vorgelegen hätten.
Die Beschäftigtentabelle lag zwar in ausreichender Detailliertheit (NACE
und ISCO 3-Steller) vor. Da aber die Beschäftigtendaten in Form einer Mikrozensus-Studie erhoben werden, bei der nur 0,6% der österreichischen
Haushalte befragt werden, müssen die Werte in den einzelnen Zellen aus
Signifikanzgründen laut Auskunft von Statistik Austria (2009) einen bestimmten Schwellenwert (3.000) überschreiten, damit sie statistisch interpretierbar sind. Da aber die Gesamtzahl der Informationsspezialisten in den
sich aus elf Branchen zusammensetzenden Knowledge Industries knapp über
diesem Wert liegt, ist diese Anforderung nur bedingt erfüllt. Darüber hinaus
muss berücksichtigt werden, dass bei der Mikrozensus-Erhebung Köpfe ge-
zählt werden. Der den Vollzeitäquivalenten entsprechende Wert, der dem
errechneten Bedarf gegenübergestellt wird, sollte daher niedriger sein.
Auch am LPM, das allerdings im adaptierten Modell nicht mehr benötigt
wurde, sind Kritikpunkte auszumachen. Dieses wurde für US-Bibliotheken
entwickelt, die im Vergleich zu Bibliotheken aus dem deutschsprachigen
Raum teilweise unter anderen Rahmenbedingungen operieren. Diesen sollte
durch diverse Modellanpassungen entsprochen werden.
Schließlich sei noch darauf hingewiesen, dass im vorliegenden Projekt
nur explizit mit Informationsmanagement-Tätigkeiten betraute Personen
(Bibliothekare/Informationsspezialisten) berücksichtigt wurden. Insofern
kann das hier beschriebene Projekt als Ausgangspunkt für eine Folgestudie
mit einem wesentlich weiteren Fokus dienen. Zum einen sollten Informationsmanagement-Tätigkeiten nicht nur auf externe Informationen bezogen
werden. In vielen Organisationen spielt das Management der intern generierten Informationen (z. B. Dokumentenmanagement oder Information Architecture) eine ähnlich wichtige Rolle. Zum anderen führen Wissensarbeiter selbst
eine Reihe von informationellen Tätigkeiten durch. Interessant wäre es nun,
auch das Ausmaß dieser Tätigkeiten zu erheben. Eine Folgestudie lässt sich
allerdings nicht mehr auf einer derart aggregierten Ebene durchführen. Angeregt wird daher eine Analyse in dafür in Frage kommenden Organisationen
(z. B. in wissensintensiven Branchen) selbst.
Bundesministerium für Wissenschaft und Forschung (2010). uni:data Datawarehouse
des Bundesministeriums für Wissenschaft und Forschung.
http://www.bmwf.gv.at/unidata (Retrieved October 25, 2010)
ILO (2004). ISCO: International Standard Classification of Occupations – ISCO 88.
International
Labour
Organization.
http://www.ilo.org/public/english/bureau/stat/isco/isco88/index.htm (Retrieved October 25, 2010)
Hayes, R. (2001). Models for Library Management, Decision-Making, and Planning.
San Diego: Academic Press.
Hayes, R., Karlics, K., Schlögl, C. (2009). The problem of measuring e-resources. In:
Proceedings of LIDA 2009 conference, University of Zadar, Department of Li-
320
brary and Information Science, and Rudgers University, School of Communication, Information and Library Studies, S. 95–103.
Karlics, K., Hayes, R. (2008). The Austrian Library Planning Model: Information
use – USA versus Austria. In: J. Selthofer et al. (Eds): Proceedings of the LIDA
2008 conference, University of Osijek, S. 263–274.
Machlup, F. (1962). The Production and Distribution of Knowledge in the United
States. Princeton, N.J.: Princeton University Press.
OECD (1981). Information Activities, Electronics and Telecommunications Technologies: Impact on Employment, Growth and Trade. Paris: OECD.
Porat, M. U. (1977). The Information Economy: Definition and Measurement. Washington: US Department of Commerce.
Schmoranz, I. (1980). Makroökonomische Analyse des Informationssektors. Schriftenreihe der Österr. Computer Gesellschaft. Wien: Oldenbourg.
Statistik Austria (2007). Kulturstatistik 2005, Wien.
http://www.statistik.at/dynamic/wcmsprod/idcplg?IdcService=GET_NATIVE_FILE
&dID=48956&dDocName=024111 (Retrieved October 25, 2010)
Statistik Austria (2009). E-Mail von Statistik Austria „Erwerbstätigenstatistik nach
Wirtschaftszweigen (ÖNACE) und Beruf (ISCO)“ vom 13.4.2009.
Statistik Austria (2010a). Input-Output-Statistik.
http://www.statistik.at/web_de/statistiken/volkswirtschaftliche_gesamtrechnungen/in
put-output-statistik/index.html (Retrieved October 25, 2010)
Statistik Austria (2010b). Arbeitsmarkt.
http://www.statistik.at/web_de/statistiken/arbeitsmarkt/index.html (Retrieved October
25, 2010)
Session 8:
User Experience & Behavior
322
Isto Huvila
Mining qualitative data on human
information behaviour from the Web
Isto Huvila
Uppsala University – Dept of ALM
Thunbergsvägen 3H, SE-75126 Uppsala, Sweden
[email protected]
Abstract
This paper discusses an approach of collecting qualitative data on human
information behaviour that is based on mining web data using search engines.
The approach is technically the same that has been used for some time in
webometric research to make statistical inferences on web data, but the present paper shows how the same tools and data collecting methods can be
used to gather data for qualitative data analysis on human information behaviour.
Introduction
The theoretical and methodological variety of information behaviour (IB)
research is considerable (e.g. Fisher et al., 2005; Case, 2002; Wilson, 2010).
In spite of the wealth of theoretical frameworks and methods, the prevalent
approaches tend to focus on broad surveys of large populations or focused
indepth studies of small groups of people. Especially the qualitative approaches tend to be labour intensive both during data collection and analysis
phases. Large quantitative require a relatively broad understanding of the studied phenomenon before data collection. Surveys have persistent problems
with response rates that pertains to both web based and other types of surveys
(e.g. Bertot, 2009). The present article discusses an approach of collecting
data on IB that is based on mining web data. The approach is technically the
same that has been used for sometime in webometric research (Thelwall et
323
al., 2005) to make statistical inferences on web data, but the present paper
shows how the same tools and data collecting methods can be used to gather
data for qualitative data analysis on IB.
Mining data from the web
Webometric mining of web data is based on the fact that large amounts of
data can be collected automatically using techniques like web crawling or by
exploiting the application programming interfaces (API) provided by major
search engines like Google, Bing and Yahoo (Thelwall et al., 2005). The
methods used to collect quantifiable data for webometric research can also be
used to collect qualitative data. The present study is based on two experiments made in November 2009 and 2010 using LexiURL Searcher software
(Thelwall, 2009) that can be used to retrieve various types of research data
from the major search engines using their respective APIs. The experiments
were based on batch searching of lists of web pages that contain a selection
of IB related utterances listed in Table 1. A second experiment with search
engine related phrases gave similar results to the first one. Another set of data
with phrases “I tried to Google but” (532 hits, 44 valid hits in 50 analysed
phrases), “I tried to search on Yahoo” (19, 13/14), “I tried to search in” (803,
49/50), “I tried to search in/on the Internet” (178, 35/50), “I tried to look for”
(943, 22/50), “I searched on/in Wikipedia” (168, 50/50) and “I searched on/in
Youtube” (752, 50/50) were analysed with (from methodological point of
view) comparable outcomes.
Table 1: Examples of analysed utterances related to unsuccessful social information seeking.
Utterance
“i asked my
friends but”
Hits
IB relareturned ted hits
75
39
55
“is asked my
[mum/mom] but”
“i asked my dad 116
but”
31
93
Example of data
“I asked my friends [about language use],
but they were like, ‘Young, we grew up in
English. It’s so hard to explain’.”
“Um what’s a prostitute? I asked my mum
but she won’t tell me.”
“I asked my dad but he couldn’t explain it
so I could understand.”
324
Isto Huvila
The web pages that contained the utterances were analysed using content
analysis and close reading to map the variety of characteristics and patterns
in the information seeking situations and their contexts. Finally, the utterances were classified using the constant comparative method. A full analysis of
the data is presented in (Huvila, 2010). The column Hits returned in Table 1
indicates the number of retrieved web pages. The column IB related hits lists
the number of web pages that in the analysis were found to contain information relevant from an IB point of view. The final column short examples
of the type of information that can be retrieved using the discussed method.
Even if the analysed utterances are specific phrases related to question
asking and web searching types of IB, it is obvious that the proposed
approach may be used with any conceivable utterances present in web pages
indexed by the search engines used for data collection. The searches can be
made also using standard search engine user interfaces, but the LexiURL
software helps to collect the results to a single file that facilitates the analysis
of the material.
Discussion
According to the observations made during the experiments, the principal
benefits of using Web data were 1) that all publicly available Web data is
freely accessible for research purposes, 2) Web data is relatively easy to collect and 3) Web pages contain a large corpus of heterogeneous data from all
over the world. There are, however, some evident limitations with the data
collection method. The material is collected from the Web and is therefore
likely to represent only a very biased sample of all possible information interactions. The specific phrases tend also to be common in particular types of
web pages. The utterances analysed in the present study were common in
discussion forums, question and answer (Q&A) services and blogs. Besides
its contextual specificity, another pertinent aspect of the harvested data is that
the study population is limited to an unknown sample of information seekers.
The utterances and their contexts contain only occasional and consequential
evidence of the demographics of the studied population. The problem is similar to the difference in populations between Web based, telephone and postal
surveys. Only web users (and with the present method, only contributors) are
325
represented on the web and only those with a landline telephone are able to
participate in random digit dialling telephone surveys (Bertot, 2009; Deutskens et al., 2004).
Because the data collection procedure tends to retrieve data that is unrelated to the intention of the researcher, the dataset needs to be cleaned up for
exclusion of invalid data. In the two described experiments, the constant
comparative method Glaser & Strauss (1967) seemed to result in a reasonnably confident identification of valid and invalid cases. It is, of course, possible to use other validation methods including multiple indexer approaches
(Foster et al., 2008) to increase confidence to the data. There are also some
specific ethical considerations that pertain to the harvested data. The data is
de facto publicly available on the Web. Because it was not originally published with a forthcoming IB research in mind, a special emphasis should be
placed on a respectful use of the data and, if necessary, anonymisation of the
individual cases.
In spite of its evident limitations, the proposed data collection method has
several advantages. The limitations may be considered acceptable in quailtative studies aiming to map the variety of information interactions. Most of
the sampling related problems (e.g. what is known of the total population,
what is the context of the data) discovered during the experiments apply also
to the conventional qualitative and quantitative approaches even if sometimes
to a slightly lesser extent. Even if the two experiments showed that the specificity contextual evidence tends to vary case by case, the data was rich
enough to make inferences on specific aspects of information interactions
(e.g. the reasons of failed information seeking). Another strength of the proposed approach is that it may be used to complement other types of data collection methods as a part of a triangulation strategy. The method makes it
also possible to study (theoretically) global or semi-global populations. At
the same time it is possible to restrict the sample, for instance, by selecting
the language of the search phrases or by focussing on specific top-level domains of the searched web sites. Considering its limitations, the principal
asset of the approach is, however, that data collection using LexiURL
Searcher and similar tools is fast and easy. The low cost of acquiring data
makes it possible to experiment with a large number of phrases. The acquired
data can be analysed both qualitatively and statistically, and even if the contexts and richness of the data tend to be heterogeneous, the approach can
provide rich contextual descriptions of IB.
326
Isto Huvila
Conclusions
Mining web data using search engines APIs provides a novel approach for
collecting data for qualitative information behaviour research. The principal
benefits of the method are that the data is freely accessible for research purposes, it is easy to collect and the amount of collectable data from all over the
world is considerable. The method and especially the resulting data have,
however, several limitations. The sample is unknown, individual contexts
may be hard to characterise and the results are difficult to generalise. In spite
of its limitations, the approach can effectively complement other data collection methods and especially, to provide data for qualitative exploratory
analysis with an ambition to map a phenomenon rather than to achieve generalisable results.
References
Bertot, J. C. (2009). Web based surveys: Not your basic survey anymore. The Library Quarterly, 79(1), 119–124.
Case, D. O. (2002). Looking for information: A survey of research on information
seeking, needs, and behaviors. San Diego: Academic Press.
Deutskens, E., Ruyter, K. de, Wetzels, M. et al. & Oosterveld, P. (2004). Response
rate and response quality of internet-based surveys: An experimental study. Marketing Letters, 15(1), 21–36.
Fisher, K., Erdelez, S. & McKechnie, L. E. (Eds.). (2005). Theories of information
behavior. Medford, NJ: Information Today.
Foster, A, Urquhart, C. & Turner, J. (2008). Validating coding for a theoretical model of information behaviour. Information Research, 13(4).
Huvila, I. (2010). “I asked my Mum, but” and other cases of unsuccessful information seeking by asking. Proceedings of the ISIC 2010. Murcia: University of
Murcia, 179–191.
Thelwall, M., Vaughan, L. & Björneborn, L. (2005). Webometrics. ARIST, 39(1),
81–135.
Wilson, T. D. (2010). Fifty years of information behavior research. Bulletin of the
ASIS&T, 36(3), 27–34.
327
Using Facebook to Illustrate User Groups
Rahel Birri Blezon1, René Schneider2
Haute école de gestion de Genève
Campus de Battelle – Bâtiment F – Route de Drize 7
CH-1227 Carouge
1
2
Abstract
This paper presents the result of a survey conducted in collaboration between
the project ACCEPT and the Geneva University Library. The objective was
the evaluation of use and usefulness of the libraries’ digital resources. To
present the results, the survey responses were used to create “personas”, fictional characters representing users’ needs and actions. Personas are described on 1 or 2 pages including attitudes, goals, skills, as well as some fictional details to make the persona a more realistic character. For this last part,
Facebook was used to find “personal” information to illustrate appropriately
the different user groups and their corresponding needs.
1
Usability and usefulness in digital libraries
Evaluating digital libraries and electronic resources occupies information
specialists since the first projects in the 1990’s. The following three facets
can be evaluated: system, content and user. The interaction framework (figure 1) of Tsakonas/Papatheodorou (2008, p. 1238) represents these features
and their relationships: performance, usability and usefulness. This last point
is the link between content and user and evaluates source relevance (how
328
does the content correspond topically to the task), document format (e.g.
PDF, Word), resource reliability (or credibility), information level (e.g. full
text, abstract, metadata) and coverage of the deposited documents (timelessness or degree of temporal coverage).
Figure 1: Interaction triptych Framework
In contrast to usability evaluation for which several established methods
exist, analysing usefulness is slightly more difficult because there do exist no
“standard methods” so far. However, there are two main approaches: evaluations based on attributes and evaluations based on questionnaires.
The first one consists of an attribute or criteria list, usually filled out by an
information specialist (expert centred approach). To evaluate these attributes
– e.g. relevance of the subject, format etc. – a value is assigned to each criteria to allow a weighting. The second approach consists in establishing a questionnaire which is handed out to the target audience (user centred approach).
329
The users do some exercises to evaluate a resource or a system and to respond to the questionnaire. It is also possible to combine both approaches: A
questionnaire containing a list of attributes is handed out to users (and not to
experts) who weight the criteria.
This combination was used in the context of ACCEPT (Analyse du Comportement du Client – Evaluation des Prestations de Téléchargement), a subproject of the E-lib.ch-initiative which consists in developing a Swiss electronic library. The objective of ACCEPT is to ensure the aspects of usefulness and usability within E-lib.ch.
In this context, a survey was conducted in collaboration with the Faculty
libraries of the University of Geneva.
2
Methodology
The survey by online questionnaire was conducted between December 7 to
31 2009. Five departments of the University of Geneva were chosen: humanities, medicine, psychology and educational science, the school of translation and interpreting, as well as the institute for teacher-training. The return
rate was around 8% (655 completed questionnaires).
2.1
Personas
The concept of personas consists in creating human stereotypes of a target
public. Each persona has a name and specific characteristics – like attitudes,
goals, skills and environment. As a persona should be as realistic as possible,
some fictional details are added to make it more “human”. The idea is to
create for each user group a stereotype, so that the system is developed based
on users’ needs (Machate 2003).
However, a persona is not just a listing of data; it’s a factsheet containing
a photo and personal details: name, age, hobbies, professional experience etc.
There are usually between four and six personas for a system.
330
2.2
Using Facebook – how to proceed
To find more personal details for personas, social network profiles can be
studied. We consider Facebook as most appropriate since it is used largely by
students. This social platform is therefore very useful to find typical forenames, activities and interests for your personas.
A Facebook profile allows searching groups (in our case and among
others: “Université de Genève”, “Faculté de lettres”, “Département d’histoire
générale” etc.). Joining a group gives access to the member’s list and the
different profiles. Private information is often only available if you’re a
friend of a person. However, some people have a more “public” profile and
it’s possible to get information about activities, study fields, books and movies people like. Once enough data “collected”, they can be rearranged to create the personas and combined with photos labeled for reuse.
3
Results
The survey results were combined in different reports for the University of
Geneva. Based on these diagrams, three to four personas were created for
each department: a bachelor persona, a master persona, a teacher persona and
a researcher persona. These last two personas were sometimes taken together
when their responses were similar or when there weren’t enough responses.
We’ll just present one persona, with usefulness aspects marked in italic.
Françoise is professor in educational science. She’s 45, married and has a 10
years old daughter. She loves New York and goes regularly to the theatre or
opera. She plays piano. Françoise prefers the electronic version of a journal
because it’s accessible anytime and anywhere. It can be saved on a computer,
searched by keywords; it’s handier and more ecological. She’d like the library to acquire more journal backfiles, so that she can access the archive of
a journal online. She consults the electronic resources almost daily. She’s
rather satisfied with the communication about the electronic resources. The
format of a resource isn’t extremely important. However, level of detail and
up-do-dateness are very important for her work. She spends a lot of time to
find a specific resource (figure 2).
Figure 2 Persona “Françoise”
331
332
4
Conclusions
Personas are an easy way to represent user groups and their needs. They help
to create user-centered services and products by understanding their way of
acting and searching. Furthermore, creating personas makes work more interesting. Besides the empirical data collected by survey or interviews, you
need creativity to portray a human persona: “If I were a master student in
general history, what would be my name, my hobbies and my needs?” Social
networks provide the basic elements for this creative process.
E-lib.ch (2010). Website of the Electronic Library Switzerland.
http://www.e-lib.ch/index_e.html
Haute école de gestion de Genève HEG (2010). Website of ACCEPT.
http://campus.hesge.ch/id_bilingue/projekte_partner/projekte/accept/kontext_eng.asp
Machate, J. (2003). Von der Idee zum Produkt: mit Benutzern gestalten. Machate, J.
und Burmester, M., User Interface Tuning – Benutzungsschnittstellen menschlich
gestalten, 83–96. Frankfurt: Software und Support Verlag.
Mulder, S., Yaar, Z. (2007). The User Is Always Right: a Practical Guide to Creating
and Using Personas for the Web. Berkley, California: New Riders.
Tsakonas, G., Papatheodorou, C. (2008). Exploring usefulness and usability in the
evaluation of open access digital libraries. Information processing and management, Vol. 4, Issue 3, 1234–1250.
„Mobile Tagging“: Konzeption und Implementierung eines mobilen ...
333
„Mobile Tagging“:
Konzeption und Implementierung eines mobilen Informationssystems mit 2D-Tags
Elena Shpilka1, Ralph Koelle2, Wolfgang Semar3
1
Universität Hildesheim 2 Universität Hildesheim
Marienburger Platz 22 Marienburger Platz 22
31141 Hildesheim
31141 Hildesheim
[email protected]
[email protected]
3
HTWChur
Ringstrasse 34
CH-7004 Chur
[email protected]
Zusammenfassung
Dieser Beitrag beschreibt das Konzept, die Implementierung sowie die Evaluierung eines mobilen Informationssystems unter Verwendung von „mobile
tagging“ in einer universitären Umgebung.
Abstract
This paper describes the concept, implementation as well as evaluation of a
mobile information system, which is based on the “mobile tagging” technology and employed in a university environment.
334
Einleitung
Die letzten Jahre waren stark geprägt von einer rasanten Entwicklung auf
dem Gebiet der mobilen Informations- und Kommunikationstechnologien.
Die letzten Hürden fallen: die Rechenleistung der mobilen Endgeräte erreicht
PC-Niveau, Breitbandnetze stehen zu moderaten Flatrates zur Verfügung und
mobil verfügbare Daten finden mittels Cloud-Computing Verwendung. Schätzungen zufolge werden bis 2014 Mobilfunkgeräte den PC als das gängigste
Gerät für den Internetzugang überholt haben (Morgan Stanley Research
2009). Mobile Internetfunktionen haben den Durchbruch im Massenmarkt
geschafft: 13% der Mobilfunknutzer, damit ca. 10 Mio. Deutsche, verwenden
mittlerweile das mobile Internet (Bitkom 2010). Laut Bitkom verwenden
sogar 48% der Nutzer ihre Handykamera1. Mobiles Tagging verbindet beide
Technologien und schafft neue Möglichkeiten, die reale Umgebung mit
Diensten des mobilen Internets anzureichern.
Im Folgenden werden das Konzept, die prototypische Implementierung
sowie die Evaluierung eines mobilen Informationssystems unter Verwendung
mobilen Taggings in einer universitären Umgebung vorgestellt.
Mobilität
Mit Mobilität wird in Anlehnung an Lehner (2003b) die physische Bewegung von Geräten, Objekten, Diensten, Informationen und Personen in Bezug
auf die Kommunikationsnetze bezeichnet. In Bezug auf die Informationsgesellschaft kann man von einer „Mobilität der Information“ sprechen (vgl. Steimer et al. 2001: 16 ff.). Die Daten werden am Ort des Geschehens erfasst. Mobile Anwender können alle möglichen Informationen
rund um die Uhr und an nahezu beliebigen Orten empfangen und weiterverarbeiten. Die Ergebnisse dieser Verarbeitungsprozesse können je nach
Bedarf an beliebige andere Orte transferiert werden.
1 Die Begriffe Handy, Mobiltelefon und Smartphone werden synonym verwendet.
335
Mobile Informationssysteme
Bei mobilen Informationssystemen handelt es sich um Systeme, die durch die
Nutzung der mobilen Endgeräte für Kommunikation und Informationstransfer zu betrieblichen und privaten Zwecken zur Verfügung stehen. Die mobilen Informationssysteme unterscheiden sich von den traditionellen Informationssystemen hinsichtlich der technischen Umsetzung in folgenden Punkten:
• Die Gestaltung der Benutzeroberfläche ist durch die Hardware bestimmt
und im Vergleich zu den Desktop-Anwendungen sehr beschränkt.
• Die Verbindung erfolgt drahtlos. Die Speicherkapazität der mobilen Endgeräte ist kleiner, Verbindungsqualität und -geschwindigkeit sind in der
Regel schlechter.
• Die Sicherheitsmechanismen der mobilen Endgeräte haben momentan
noch nicht das Niveau der Desktop-Systeme erreicht (vgl. Krogstie
2005).
Diesen eher als nachteilig einzustufenden Eigenschaften stehen aber auch positive gegenüber (Lehner 2003a: 11–13):
• Ortsunabhängigkeit: Gemeint ist hier der Vorteil der Mobilität, dass man
mit einem mobilen Endgerät unabhängig von seinem Aufenthaltsort zu
jeder Zeit in der Lage ist, mit einer Client-Anwendung auf lokale oder
entfernte Dienste zuzugreifen, Daten abzurufen und zu bearbeiten.
• „Kostengünstigkeit“: Im Vergleich zu den traditionellen PCs sind mobile
Geräte weniger komplex, viel kompakter und dadurch auch günstiger.
• Convenience: Mobile Geräte sind leicht und kompakt gebaut und meistens so konzipiert, dass sie einfach und schnell bedienbar sind. Nach
Lehner findet das Mobiltelefon im Hinblick auf das Surfen im Internet
mehr Akzeptanz unter Nutzern als ein stationärer PC zum Telefonieren.
• Als weitere Vorteile werden die Lokalisierbarkeit, Personalisierung sowie Identifizierbarkeit der Teilnehmer genannt.
Zusammengefasst führt der Zugriff auf mobile Informationssysteme zu mehr
zeitlichem und räumlichem Freiraum. Die Möglichkeit, auf Informationen zu
jeder Zeit und überall zuzugreifen, kann somit zu einer Rationalisierung des
Informationsmanagements und zur Gewinnung zusätzlicher und aktuellerer
Informationen führen (vgl. Biland & Saager 2004: 20 ff.).
336
Mobile Tagging
Der Begriff „mobile tagging“ kommt aus dem Englischen: das Wort „tag“
bedeutet Kennzeichen und beschreibt das Hinterlassen von Informationen.
„Mobile“ weist darauf hin, dass diese Tags für mobile Endgeräte und mobile
Informationssysteme konzipiert sind (vgl. Hartz 2009). Es handelt sich also
zum einen um die Auszeichnung eines Gegenstandes mit einem Tag, zum
anderen um einen Prozess des Auslesens, Auswertens und ggf. Bearbeitens
der im Tag codierten Daten. Somit stellt „mobile tagging“ eine Schnittstelle
zwischen der realen, anfassbaren Welt und dem mobilen Internet zur Verfügung (Hutter et al. 2008: 1).
Abbildung 1 zeigt einen „Quick Response (QR)“-Tag2, der von der japanischen Firma Denso Wave im Jahr 1994 entwickelt wurde, und in seiner
Pixel-Struktur einen Link zur ISI 2011 Webseite beinhaltet.
Abbildung 1: Link zu http://www.isi2011.de
Zur Nutzung des QR-Tags braucht man ein (idealerweise mobiles) Endgerät, das eine Kamera und einen Internetzugang hat. Mithilfe einer speziellen
Software (Reader), die für jedes aktuelle Mobiltelefon kostenlos erhältlich
ist, wird der Code mit der Kamera eingescannt und intern weiterverarbeitet.
Je nach Pixelstruktur kann dann auf eine Website verlinkt, ein Text (zum
Lesen und Speichern), ein Termin (zur Integration in den persönlichen Kalender) oder eine elektronische Visitenkarte (für das eigene Adressbuch) dargestellt werden.
2 Neben den im Online-Bereich verbreiteten QR-Tags werden Aztec-Codes bei der Bahn
für Online-Tickets verwendet, Datamatrix ist überwiegend von Briefmarken bekannt.
337
Aktueller Entwicklungsstand von QR-Tags
Einer Studie der Fachhochschule Schmalkalden zufolge ist „für den QRCode […] der kritische Massepunkt für eine weitere Verbreitung in Deutschland erreicht“ (Urban & Leisen 2010). Die Autoren schließen dies aus den
Ergebnissen ihrer Befragung von 516 Personen im November und Dezember
2009. Die Ergebnisse im Einzelnen: 83,8% gaben an, eine Zugangsmöglichkeit zum mobilen Internet zu haben, 89,1% der verwendeten Geräte hätten
eine Kamera integriert. Damit wären die grundlegenden Funktionen des
„mobile tagging“ vorhanden. 25% (der Anwender mit technologisch entsprechend ausgestatteten Geräten) gaben an, bereits QR-Codes gescannt zu haben. Weitere 25,4% kennen die QR-Codes, haben diese aber bislang noch
nicht genutzt. Bisherige Hemmschwellen seien hauptsächlich in mangelnden
Anwendungsmöglichkeiten (17%) und geringen Mehrwerten (54%) zu sehen.
Primär genutzte Anwendungsfelder seien weiterführende Informationen in
Zeitungsartikeln (66%) und zusätzliche Nähr- und Inhaltsstoffe auf Lebensmittelverpackungen (Extended Packaging, 65%)3.
Abbildung 2: Verwendete 2D-Tags
3 Allerdings kann bei einem Anteil von 84,7% männlichen Teilnehmern und einem hohen Anteil junger Befragter (44,8% zwischen 19 und 25 Jahre alt) wahrscheinlich nicht
von einem repräsentativen Ergebnis gesprochen werden.
338
Eine Online-Befragung der Universität Hildesheim mit 129 Teilnehmern
bestätigt die Ergebnisse weitgehend. Neben dem generellen Interesse an der
Technologie selbst sowie ihren vielfältigen Anwendungsfeldern werden mobile Tags bereits von vielen Befragten aktiv genutzt (Shpilka 2010: 79). So
haben etwa 40% der Befragten angegeben, mobile Tags schon verwendet zu
haben. QR-Tags fanden dabei die häufigste Anwendung (vgl. Abbildung 2).
Unter Nutzungsszenarien wurden primär Tags auf Verpackungen, die
Nutzung von Online-Fahrplänen, und Tags zu Werbezwecken genannt (vgl.
Abbildung 3).
Abbildung 3: Verwendung von 2D-Tags
Die Frage nach weiteren sinnvollen Anwendungsfällen für mobile Tags
wurde mit „Informationen zu Produkten“, „Abfrage aktueller Fahrpläne“,
„ortsbezogene Dienste“, „schnelle Kontaktaufnahme“, „Authentifizierung“
sowie „Produkte online erwerben“ beantwortet, wobei jedoch 69 Befragte
fehlende Standardisierung bei Tag-Readern bzw. -Scannern bemängelten, 46
mögliche Verbindungskosten und 47 Datenschutz als Problem nannten (vgl.
Abbildung 4).
Im weiteren Verlauf der Umfrage wurden die Befragten mittels einer Filterfrage in zwei Gruppen eingeteilt und nur diejenigen befragt, die im universitären Kontext arbeiten oder studieren (77 von 129). Favorisiert wurden von
der universitären Gruppe das Abrufen von Klausurergebnissen, das Herunterladen des Mensaplans sowie von Aufgaben und Unterlagen, die Kontaktdaten
und Termine als Tags enthalten (Shpilka 2010: 82).
339
Abbildung 4: Probleme beim Einsatz von mobilen Tags
Obwohl über 30% der Befragten der Technologie eine ähnliche Verbreitung wie in Japan, wo über 70% der Mobilfunknutzer mobile Tags verwenden, absprechen, wurde die Technologie des „mobile tagging“ insgesamt
positiv bewertet (Shpilka 2010: 82).
Die positiven Rückmeldungen, das offensichtlich große Entwicklungspotenzial sowie der steigende Trend der Verwendung von 2D-Tags brachte die
Idee hervor, ein auf „mobile tagging“ basierendes Informationssystem zu
entwickeln und zu evaluieren.
Konzept eines universitären Informationssystems
Dank der relativ hohen Speicherkapazität (bis ca. 7 KByte) und einem hohen
Datensicherheitslevel von QR-Codes ist es grundsätzlich möglich, diese für
Speicherung und Veröffentlichung von umfangreichen Informationen zu
benutzen, beispielsweise für digitale Visitenkarten, SMS- oder Kontaktformulare. Dem steht allerdings eine heterogene Sammlung von Tag-Readern
und Anwendungen entgegen, die die Nutzung von mobilen Tags erschwert.
340
Basierend auf der Idee, die vielfältigen Anwendungsmöglichkeiten von
QR-Tags in einem System zu bündeln und so der Heterogenität der Systeme
und Reader entgegen zu wirken, wurde der Prototyp eines Informationssystems entworfen, das „mobile tagging“ und sein Anwendungspotenzial für
einen universitären Kontext nutzbar macht (Shpilka 2010: 64).
Das Informationssystem „Tagging University“ besteht aus einer Server –
und einer mobilen Client-Anwendung. Die Server-Anwendung ermöglicht
es, mobile Tags mit verschiedenen Informationstypen zu erstellen: Kalendertermine, Aufgaben, Internetadressen, Telefonnummern, digitale Visitenkarten, E-Mail- und SMS-Formulare. Während vorhandene Systeme ähnliche
Funktionalitäten bieten (Mobile Barcoder4, QR Code Tag5), soll die ServerAnwendung ihre Informationen zukünftig direkt aus den universitätsinternen
Informationssystemen wie Vorlesungsverzeichnis und Lernmanagementsystem beziehen. Für die Evaluation des Prototyps war diese Funktion noch
nicht notwendig.
Die mobile (Client-) Anwendung bietet die Möglichkeit, QR-Tags zu
scannen sowie die erkannten Daten zu speichern, zu organisieren und weiterzuverarbeiten. So können stundenplan- und prüfungsbezogene Termine in
den Terminplaner eingetragen werden und stehen ggf. nach einer Synchronisation auch auf stationären Computern oder Laptops zur Verfügung. Digitale
Visitenkarten können um weitere Informationen ergänzt werden. Internetadressen (URLs), z.B. auf aktuelle Institutsmeldungen bzgl. Verlegung oder
Ausfall von Veranstaltungen oder Sprechstunden, können in einer internen
Datenbank im Mobiltelefon gespeichert und jederzeit wieder aufgerufen
werden. Durch die zentrale Datenhaltung auf dem mobilen Gerät ist somit
der orts- und zeitunabhängige Zugriff auf universitätsrelevante Daten möglich, was einer Verbesserung bzw. Vereinfachung von Kommunikations- und
Organisationsprozessen dienen soll. QR-Tags stellen darüber hinaus die
Funktion zur einfachen Aktualisierung und Erweiterung der gespeicherten
Daten zur Verfügung.
4 Als Firefox-AddOn: https://addons.mozilla.org/de/firefox/addon/2780/
5 Als Google Chrome Erweiterung: http://www.chromeextensions.org/utilities/qr-codetag/
341
Evaluation
Die erwähnte Online-Umfrage der Universität Hildesheim hat gezeigt, dass
grundsätzlich Interesse an universitären Funktionen auf Basis mobiler Tags
besteht (Shpilka 2010: 78). Die größte Akzeptanz haben folgende Vorschläge
gefunden: Klausurergebnisse per Tag abrufen (48 von 77), Mensaplan anschauen (49), Aufgaben bzw. Lernunterlagen herunterladen (38) und Kontaktdaten und Termine aus Vorlesungsskripten übernehmen (37)6.
In Rahmen einer empirischen Evaluation wurden Benutzertests durchgeführt, um die technische Umsetzung des entwickelten Prototyps in der Praxis
zu testen. 10 Probanden mussten die mobile Anwendung auf dem eigenen
mobilen Gerät installieren und anhand der vorgegebenen Aufgaben die Funktionen des Einscannens, der Tag-Erkennung und Weiterverarbeitung der
gewonnenen Informationen durchführen. Die Funktionsfähigkeit der Applikation wurde insgesamt bestätigt. Die durchschnittliche Rate der erkannten
Tags lag bei ca. 75%. Die meisten Probanden (80%) haben angegeben, dass
die Anwendung intuitiv zu bedienen sei. Eine Testperson hat es als umständlich empfunden, weil zu viele Tasten gedrückt werden mussten. Die Angaben
zu den Antwortzeiten waren unterschiedlich, in den meisten Fällen (ca. 80%)
dauerte der Scan- bzw. Entschlüsselungsprozess zu lange. Die anderen Reaktionszeiten wie bei den Speicherfunktionen oder dem Anzeigewechsel wurden von ca. 80% positiv bewertet (Shpilka 2010: 85).
Obwohl QR-Tags prinzipiell schon seit über 15 Jahren – insbesondere in
Japan – genutzt werden, zeigt der Benutzertest, dass es nach wie vor Probleme bei der Erkennung und Verarbeitung der Tags gibt. Daher wurde zur Optimierung der Erkennungsrate in Rahmen der Benutzertests versucht, eine
optimale Größe der mobilen Tags zu ermitteln. Die Ergebnisse haben gezeigt, dass die Maße von ca. 4 × 4 cm eine optimale Größe für die Erkennung
darstellen, da solche Tags von allen Geräten schnell erkannt wurden. Bei den
kleineren Tags mussten mehrere Versuche durchgeführt werden. Da der Prozess des Einscannens und der Erkennung durch viele Faktoren wie Beleuchtung oder Verwackeln beeinflusst wird, bietet die oben genannte Größe mehr
Sicherheit der Erkennung und dient daher der Usability des Systems.
6 Auf einer Skala von 1 (gut bewertet) bis 5 (negativ bewertet) wurden jeweils die Bewertungen 1 und 2 summiert.
342
Abbildung 5: Durchführung eines Benutzertests
Bei der Durchführung der Benutzertests wurde darüber hinaus festgestellt,
dass die ausgewählte Java-Technologie trotz der Plattformunabhängigkeit,
die als ein wesentlicher Vorteil dieser Technologie gilt, nicht optimale Ergebnisse lieferte. Es zeigt sich, dass Hersteller der mobilen Geräte oft nur die
Kern-Module von Java ME implementieren, was dazu führt, dass nicht alle
für das entwickelte Informationssystem notwendige Java-Pakete (wie z.B.
das Multimedia-Paket) auf den Geräten vorhanden waren, was die Nutzung
des Systems beeinträchtigte oder gar verhinderte (bei 3 von 10 Geräten).
Leider lassen sich solche Pakete bei der überwiegenden Zahl der Geräte nicht
einfach nachinstallieren, da sie in die Firmware integriert sind.
Somit stellt die Java-Technologie zwar eine gute Basis für die Entwicklung von mobilen Applikationen dar, eine einheitliche Unterstützung der
Java-Konfigurationen durch die Hersteller wäre allerdings dringend notwendig. Für die Nutzung von „Tagging University“ sind weitere Tests auf Geräten verschiedener Plattformen nötig. Dazu bieten sich Geräte mit AndroidBetriebssystem an, da die Applikationen dieser Plattform auf Java basieren.
Ausblick
Die Technologie mobiler Tags hat trotz ihres geringen Alters bereits eine
hohe Entwicklungsstufe erreicht. Die Vielzahl der Einsatzmöglichkeiten
343
macht „mobile tagging“ für viele Branchen und unterschiedliche Einsatzgebiete attraktiv. Zurzeit werden Tags in der Logistik (Hompel et al. 2008) zur
Warenverfolgung oder als elektronische Tickets (Fahr- und Eintrittskarten)
eingesetzt. Mobile Tags sind perfekte Werbemittel, weil sie wenig Platz
brauchen und relativ viele Informationen enthalten können.
Das Ziel der Entwicklung des „Tagging University“ Systems an der Universität Hildesheim war die Bündelung möglichst vieler Funktionalitäten in
einer Anwendung, um eine Unterstützung der Benutzer beim persönlichen
Informationsmanagement bzgl. Termin-, Kontakt- oder Datenverwaltung zu
erreichen. Befragungen und Benutzertests haben gezeigt, dass, wie die Technologie des „mobile tagging“ selbst, das „Tagging University“ System hohes
Potenzial zur Weiterentwicklung hat. Dabei stehen die Usability, die Implementierung für weitere Plattformen sowie die Integration in universitäre Prozesse im Fokus.
So ist eine direkte Anmeldung zu Prüfungen oder Sprechstunden über
mobile Tags mit automatischer Sicherung der Daten in der internen Datenbank des Systems umzusetzen. Durch die Speicherung stände dem Benutzer
jederzeit eine Übersicht über Anmeldungen und Termine zur Verfügung.
Durch Integration interner Systeme wie dem Handy-Kalender ist eine Synchronisation sehr einfach möglich, darüber hinaus können Konflikte erkannt
werden und das System den Nutzer warnen. Der verbreiteten Verwendung
des Telefons bzw. des Smartphones als Termin-, Adress- und Wissensverwaltungssystem würde weiterer Vorschub geleistet.
Eine weitere nützliche Anwendung ist die Verknüpfung von Online- und
Offline-Medien der Lernmanagementsysteme. Mittels Tags können Termine,
Hausaufgaben und Skripte einfach auf das mobile Gerät heruntergeladen
werden.
Das Potenzial an Weiterentwicklungen ist hoch. In jedem Fall sollte die
Entwicklung durch die bewährte Nutzerbeteiligung mittels Befragung und
Usability-Tests unterstützt werden.
Biland, Lars; Saager, Oliver (2004): Mobile Computing – Business Models / I. Vertiefungsrichtung IT Management /E-Business. Seminararbeit. Fachhochschule
Basel. http://www.ecademy.ch/ecademy/ecadpubli.nsf/id/323
344
Bitkom (2010): Drei Viertel der Handy-Nutzer versenden SMS.
http://www.bitkom.org/files/documents/BITKOM-Presseinfo_HandyFunktionen_Ranking_23_08_2010%282%29.pdf
Hartz, Wilko (2009): Basiswissen QR Code. http://qrcode.wilkohartz.de/
Hompel, Michael; Büchter, Hubert; Franzke, Ulrich (2008): Identifikationssysteme
und Automatisierung. Berlin: Springer.
Krogstie, John (2005): IFIO TC8 Special Interest Group on Mobile information
system (MOBIS). http://www.idi.ntnu.no/~krogstie/MOBISTC8web.htm
Lehner, Franz (2003a): Mobile und drahtlose Informationssysteme: Technologien,
Anwendungen, Märkte. Berlin: Springer.
Lehner, Franz (2003b): MobiLex : Lexikon und Abkürzungsverzeichnis für Mobile
Computing und mobile Internetanwendungen. Herausgegeben von Universität
Regensburg. (Schriftenreihe Wirtschaftsinformatik).
Morgan Stanley Research (2009): The Mobile Internet Report: Ramping faster than
Desktop Internet, the Mobile Internet Will Be Bigger than Most Think.
http://www.morganstanley.com/institutional/techresearch/pdfs/mobile_internet_report
.pdf
Pascal Andres (August 2009): 2D-Codes: Überblick und Einsatzszenarien für Hochschulen. B.A. Abschlussarbeit. HTW Chur.
Shpilka, Elena (2010): Mobiles Tagging: Konzeption und Implementierung eines
mobilen Informationssystems mit 2D-Tags. Magisterarbeit. Universität Hildesheim
Steimer, Fritz L.; Maier, Iris; Spinner, Mike (2001): mCommerce: Einsatz und Anwendung von portablen Geräten für mobilen eCommerce. München: AddisonWesley.
Urban, Thomas; Leisen, Christian (2010): Mobile Tagging. Eine empirische Studie
zur Akzeptanz von QR-Codes. Fachhochschule Schmalkalden.
http://www.multi-media-marketing.org/dateien/QR-Summary-V1-00.pdf
345
Eine Evaluation spezifischer Werkzeuge
Johannes Baeck1, Sabine Wiem2,
Ralph Kölle3, Thomas Mandl3
1
Conrad-Blenkle-Straße 49, Berlin
[email protected]
2
3
IBM Interactive, Beim Strohhause 17, Hamburg
[email protected]
Universität Hildesheim, Marienburger Platz 22, Hildesheim
[email protected]
Zusammenfassung
Die Eignung von Prototyping-Werkzeugen zur Erstellung interaktiver Prototypen hängt stark vom Anwendungsfall ab. Der Beitrag beschreibt die Evaluierung von Prototyping-Werkzeugen für einen spezifischen Anwendungsfall. Dazu wurde ein Kriterienkatalog entwickelt, der auf Basis der Anforderungen bei IBM Interactive Hamburg gewichtet wurde. In einem Benchmark wurden 27 Systeme auf 20 Kriterien hin bewertet. Fünf Systeme wurden in einer heuristischen Analyse intensiver auf ihre Usability hin untersucht. Die zwei am besten geeigneten Systeme wurden in einem abschließenden Benutzertest mit der derzeitigen Lösung verglichen.
Abstract
Selecting a suitable tool for creating interactive prototypes depends on the
exact case of application. This thesis examines the method of User Interface
Prototyping on the basis of a specific use case. To this purpose a criteria catalogue was assembled in order to weigh the findings against the specific requirements of IBM Interactive Hamburg. 27 dedicated prototyping tools were
evaluated against the selected 20 benchmark criteria. Subsequently an in
depth assessment was conducted of the usability of five selected systems.
346
Lastly, two tools fitting the criteria best were compared to the currently used
solution through application in a user test.
Einleitung: User Interface Prototyping
Um Interaktionsmöglichkeiten zu visualisieren, wird häufig User Interface
Prototyping eingesetzt. Dafür bietet sich eine Vielzahl unterschiedlicher
Werkzeuge an, welche spezifische Stärken und Schwächen aufweisen. Insbesondere bei der Darstellung komplexer Interaktionsmöglichkeiten erfordern gängige Anwendungen einen hohen Umsetzungsaufwand.
Zielsetzungen des Prototyping
Entscheidend bei der Wahl eines Ansatzes ist die Zielsetzung des Prototypen
und der Mehrwert der durch den Einsatz generiert wird. So werden beim
explorativen Prototyping erste Ideen in Form von Skizzen erstellt, um angemessene Lösungsansätze in einem iterativen Prozess zu erkunden (Bäumer et
al. 1996; Preece et al. 2002). Beim experimentellen Prototyping können Hypothesen überprüft werden und daraufhin Anpassungen am System vorgenommen werden (Bäumer et al. 1996). Das frühzeitige Anfertigen von Prototypen kann zu einer besseren Kommunikation führen, da ein klarer Referenzpunkt für alle an der Entwicklung beteiligten Interessengruppen geschaffen
wird (Warfel 2009). Um Missverständnisse zu vermeiden die durch verbale
Erläuterungen entstehen, kann ein Prototyp zudem als lebende Spezifikation
eingesetzt werden, um kritische Interaktionsmechanismen zu visualisieren
(Rudd et al. 1996; Arnowitz et al. 2007). Um Usability-Probleme frühzeitig
zu erkennen, sollten Prototypen mit realen Nutzern des Systems evaluiert
werden, um spätere Kosten zu vermeiden (Vredenburg et al. 2002).
Prototypen-Charakteristiken
Abhängig von der gewünschten Zielsetzung sind einige Aspekte zu beachten,
damit die Prototypenerstellung im betreffenden Projekt einen Mehrwert erzeugen kann (Preim 1999; Warfel 2009). Insbesondere die angemessene
Wahl der Fidelity eines Prototypen, also seine Ähnlichkeit mit dem endgül-
347
tigen System kann entscheidend für den Erfolg des Prototyping sein (Lim et
al. 2005). Klassifiziert man Prototypen eindimensional nach ihrer Fidelity,
haben Low-Fidelity-Prototypen den Vorteil einer kostengünstigen und wenig
zeitintensiven Erstellung und werden daher häufig in frühen Projektphasen
eingesetzt. High-Fidelity-Protoypen ähneln dem Endprodukt bereits sehr
stark und eignen sich daher besonders zur Spezifikation eines Systems und
als Marketingwerkzeug (Rudd et al. 1996). Die Fidelity eines Prototypen
kann darüber hinaus mehrdimensional definiert werden, indem beispielsweise in visuelle und funktionale Fidelity unterschieden wird (Arnowitz 2007;
Beecher 2009). Weitere Faktoren sind das eingesetzte Medium (digital vs.
physisch), der Umfang (horizontal vs. vertikal) und die Weiterverwendung
des Prototypen (Wegwerf- vs. evolutionäre Prototypen).
Werkzeuge
Während physische Prototypen gemeinhin mit Papier und Stift erstellt werden (Paper Prototyping), wird beim digitalen Prototyping eine Vielzahl unterschiedlicher Werkzeuge eingesetzt. Die Werkzeuge können in folgende
Kategorien eingeteilt werden (Arnowitz 2007; Warfel 2009):
• Präsentations- und Visualisierungssoftware (Microsoft Visio, Microsoft
Powerpoint, etc.)
• Grafikanwendungen (Adobe Fireworks, Adobe Photoshop, etc.)
• Entwicklungsumgebungen (Adobe Flash/Flex, Adobe Dreamweaver,
etc.)
• Spezifische Prototyping-Werkzeuge (Axure RP Pro, iRise, etc.)
• Sonstige Anwendungen (Adobe Acrobat, Microsoft Excel, etc.)
Der Fokus dieser Arbeit liegt auf der Untersuchung spezifischer PrototypingWerkzeuge.
Methodisches Vorgehen
Die initiale Auswahl der zu bewertenden Werkzeuge wurde auf Grundlage
der zum Zeitpunkt der Untersuchung verfügbaren Anwendungen getroffen.
Hierbei wurden 38 spezifische Prototyping-Werkzeuge identifiziert, also ex-
348
plizit als Prototyping-Werkzeug bezeichnete Programme. Neben einigen
Grenzfällen1, wurden aus den ursprünglich 38 identifizierten Anwendungen
elf Anwendungen nicht in die Bewertung mit einbezogen. Darunter befanden
sich nicht ausgereift klassifizierte Anwendungen, nicht eigenständig2 klassifizierte und ein nicht funktionsfähiges Programm. Für die Bewertung der
verbleibenden 27 Tools wurde ein mehrstufiger Prozess entwickelt.
Den Beginn der Untersuchung bildete eine Anforderungsanalyse. Hierfür
wurden sowohl allgemeine Anforderungen als auch die Bedürfnisse der potenziellen Nutzer bei IBM Interactive Hamburg erfasst. Als Grundlage dienten Experteninterviews mit drei User Experience-Beratern. Diese Personen
wurden ausgewählt, da sie die meiste Erfahrung mit dem Einsatz von Prototyping-Techniken hatten. In den Interviews wurden Fragen zum bisherigen
Einsatz von Prototyping-Methoden, den Zielsetzungen und dem Einsatz von
interaktiven Prototypen gestellt. Durch die allgemeine und spezifische Anforderungsanalyse wurden ausreichend viele Informationen erhoben, um eine
Sammlung von Kriterien für die Evaluation zu definieren. Aus diesem Arbeitsschritt ergaben sich drei Arten von Kriterien: pragmatische, funktionale
und Usability-Kriterien. Um die spezifischen Anforderungen bei IBM Interactive zu erfassen, wurde daraufhin eine Gewichtung der Kriterien auf Basis
einer Online-Befragung durchgeführt.
Bei der Gewichtung wurden auf Grund ihrer hohen Anzahl nur die funktionalen Kriterien mit einbezogen. Der entsprechende Fragebogen wurde an
zehn Mitarbeiter der IBM Interactive Hamburg geschickt. Die Rücklaufquote
lag bei 90%. Die Befragten konnten die Priorität der Kriterien auf einer Skala
von 1 (niedrige Priorität) bis 5 (hohe Priorität) bewerten. Auf die Definition
und Gewichtung der Bewertungskriterien folgte die Bewertung der Werkzeuge. Dabei wurden alle Anwendungen einer Grobbetrachtung hinsichtlich
funktionaler und pragmatischer Kriterien unterzogen. Für die Detailbetrachtung wurden schließlich die fünf bestplatzierten Anwendungen nach Einbeziehung der Kriteriengewichtung ausgewählt.
Die Detailbetrachtung der fünf ausgewählten Anwendungen wurde in
zwei Bereiche eingeteilt: Eine pragmatische und funktionale Detailbetrachtung sowie eine analytische Betrachtung der Usability. Im ersten Teil der
1 Bei einigen Anwendungen fiel die Einordnung als spezifisches Prototyping-Werkzeug
schwer. Im Zweifelsfall wurden grenzwertige Anwendungen aufgrund der Vielzahl an
verfügbaren Anwendungen nicht berücksichtigt.
2 Hier handelte es sich um Erweiterungen für andere teils kostenpflichtige Programme.
349
Detailbetrachtung wurde jede der fünf Anwendungen qualitativ auf ihre individuelle Funktionsweise und hinsichtlich pragmatischer Faktoren überprüft.
Im zweiten Teil der Detailbetrachtung wurde eine heuristische Evaluation
durchgeführt. Mit den zwei vielversprechendsten Anwendungen aus der analytischen Betrachtung folgte ein Nutzertest. Ziel war es, die Ergebnisse aus
der heuristischen Evaluation zu überprüfen und die Anwendungen auf ihre
Usability zu untersuchen. Hierfür wurde mit beiden Anwendungen ein Testprototyp erstellt, der im Rahmen eines realistischen Szenarios von den Testpersonen geändert werden sollte. An diesem Test nahmen acht Mitarbeiter
von IBM Interactive Hamburg teil.
Anforderungsanalyse
Nach einer ausführlichen Literaturrecherche wurden bei der Suche nach konkreten Kriterien für Prototyping-Werkzeuge fünf relevante Quellen identifiziert. Dabei wurde besonders die Usability und die Effizienz der Prototypenerstellung sowie pragmatische Faktoren wie der Preis und die Verfügbarkeit einer Anwendung als relevant eingeordnet (Memmel et al. 2007). Aus
den Experteninterviews ergaben sich Erkenntnisse zum bisherigen Einsatz
von User Interface Prototyping-Methoden und Aussagen über Anforderungen
an potenzielle Werkzeuge. Da das zumeist eingesetzte Microsoft Visio einige
essentielle Funktionen nicht originär unterstützt, wurde bei IBM Interactive
Hamburg mithilfe von Visual Basic ein Makro-Paket unter dem Namen IBM
Tools entwickelt, um die Funktionalität zu erweitern. Die befragten Experten
äußerten zahlreiche Anforderungen: Abhängig vom Projekt sei zunächst der
finanzielle Aufwand zu beachten. Da bei IBM Interactive Hamburg MS
Windows eingesetzt wird, muss die Anwendung auch auf dieser Plattform
lauffähig sein. Webanwendungen seien nicht grundsätzlich abzulehnen, allerdings sollten diese auch ohne Internetzugang verwendbar sein, da Mitarbeiter
häufig unterwegs sind. Um eine effektive Zusammenarbeit mit Kunden zu
gewährleisten, sei es notwendig, dass diese mit dem Prototypen interagieren
können, ohne eine eigene Lizenz für die Anwendung zu besitzen. Wünschenswert in der Kundenzusammenarbeit sei weiterhin eine integrierte
Kommentarfunktion. Die Spezifikation von Benutzungsoberflächen erfolge
zurzeit in der Regel mithilfe von statischen Wireframes und Beschreibungen
350
in Textform. Wünschenswert wäre eine stärker an den Prototypen gekoppelte
Dokumentationsmöglichkeit sowie eine komfortablere Tabellenfunktion. Die
Darstellung von Interaktivität in Microsoft Visio – über die einfache Verknüpfung von Seiten hinaus – ist sehr umständlich und limitiert. Die Möglichkeit Master zu nutzen, Vorlagen zu erstellen und Hintergrundseiten anzulegen wird bei IBM intensiv genutzt. Eine Möglichkeit die visuelle
Erscheinung des Prototypen zu verändern und die UI-Elemente beispielsweise handgezeichnet darstellen zu lassen, wurde von den Befragten als interessant eingeschätzt. Für Visio seien entsprechende Shapes erhältlich, wurden
jedoch noch nicht eingesetzt.
Bewertungskriterien
Zunächst wurden pragmatische Kriterien definiert, um wirtschaftliche und
technische Faktoren, die für den Einsatz in der Praxis relevant sind, zu erfassen (siehe Tabelle 1).
Tabelle 1: Pragmatische Kriterien
Anforderungsbereich
Kriterium
Wirtschaftliche Faktoren Kosten für Einzellizenz
Kosten für Sammellizenz
Möglichkeit kommerzieller Nutzung
Technische Faktoren
Plattform
Der Großteil der allgemeinen und spezifischen Anforderungen war funktionaler Natur. So ergaben sich sowohl aus der Literatur als auch aus den Experteninterviews Anforderungen in Hinblick auf die Dokumentations- und
Kollaborationsfunktionalität von Prototyping-Werkzeugen. Zudem wurde die
Wiederverwendbarkeit von vorhandenen Elementen und Prototypen gefordert, um Prototypen schnell zu erstellen und flexibel ändern zu können.
Schließlich wurde in der Fachliteratur und den Experteninterviews der Bedarf nach Prototypen mit hoher Interaktivität deutlich. Eine Einteilung in
unterschiedliche Anforderungsbereiche schien zweckdienlich. Innerhalb dieser Anforderungsbereiche wurden einzelne Kriterien gesammelt, um die Stärken und Schwächen der untersuchten Anwendungen möglichst umfassend
abzubilden (siehe Tabelle 2).
351
Tabelle 2: Funktionale Kriterien
Anforderungsbereich Kriterium
Basisfunktionalität
Format des Prototypen und Exportmöglichkeiten
Offlinefähigkeit
Erstellung von Prototypen mittels Drag-and-drop-Technik
Definition der Benutzerführung durch Flussdiagramme
(Flow-Charts) oder Szenarien
Dokumentation
Hinzufügen von Kommentaren und Erläuterungen zum
Prototypen durch den Ersteller
Automatische Erstellung eines Spezifikationsdokuments
Integration in Anforderungsmanagement-Software wie
Rational Requirements Composer
Flexibilität/
Erweiterungsmöglichkeit der Anwendungsfunktionalität
Wiederverwendbarkeit über die Standardfunktionen hinaus (z. B. durch Makros)
Wiederverwendbare und editierbare UI-Elemente
für gängige Anwendungsfälle (Stencils / Widget Library)
Erweiterungsmöglichkeit der vorhandenen UI-Elemente
Wiederverwendung durch Masterseiten oder -elemente
Variable Darstellung des Prototypen (z. B. in handgezeichnetem Stil)
Interaktivität des
Simulation erweiterter Interaktionsmöglichkeiten (z. B.
Prototypen
Scrolling, Mouseover)
Verlinkungsmöglichkeit einzelner Seiten
Simulation von Dateneingabe und -ausgabe
Darstellung von Programmverzweigungen abhängig von
Benutzereingaben
Kollaboration
Gemeinschaftliches Erstellen von Prototypen
Versionierungssystem (Check-in/Check-out-Funktion)
Ausführen des Prototypen anderer Personen, ohne Installation der Anwendung (z. B. durch HTML-Prototypen oder
Anzeigeprogramm)
Hinzufügen von Kommentaren zum Prototypen durch
andere Personen, ohne die Anwendung installiert zu haben
Neben pragmatischen und funktionalen Kriterien hat besonders die Usability eines Prototyping-Werkzeugs Einfluss auf die Einsatzfähigkeit. Bei der
Definition von Usability-Kriterien für die Evaluation wurden die Grundsätze
der Dialoggestaltung nach DIN EN ISO 9241-110 als Grundlage gewählt.
Die folgenden Kriterien wurden als besonders relevant für die Usability-Be-
352
wertung eingestuft und als Grundlage für die empirische Betrachtung der
Usability in Form des Nutzertests eingesetzt.
Aufgabenangemessenheit wurde ausgewählt, da es bei der Evaluation im
Kern darum ging, zu überprüfen, ob das Erstellen von Prototypen in einer der
Aufgabe angemessenen Form möglich ist. Da unter anderem ein Vergleich
mit der derzeitigen Praxis angestrengt werden sollte schien eine Überprüfung
der Erwartungskonformität sinnvoll, da diese neben der Selbstbeschreibungsfähigkeit dazu führt, dass Nutzer das Bedienkonzept eines Systems ohne
fremde Hilfe erfassen können.
Tabelle 3: Usability-Kriterien
Anforderungsbereich Kriterium
AufgabenEffektive und effiziente Erstellung eines Prototypen
angemessenheit
Effiziente Möglichkeit, Änderungen am Prototypen vorzunehmen
Alle notwendigen Funktionen sind vorhanden
Erwartungskonformität Innere Konsistenz: Einheitliche Bedienung und Gestaltung
Äußere Konsistenz: Einhaltung anerkannter Konventionen
Anpassung an die Erwartungen und Kenntnisse des Benutzers
Selbstbeschreibungs- Ausreichende Informationen über Systemzustand
fähigkeit
Ausreichende Informationen über nötige Eingaben
Unterstützung bei der Bedienung des Systems
Ergebnis des Benchmark-Tests
Tabelle 4 zeigt die sechs besten Systeme sortiert nach der Anzahl an erfüllten
Kriterien.
353
Tabelle 4: Ergebnis der Grobbetrachtung
Rang
Prototyping-Werkzeug
1
2
3
4
5
6
iRise
Justinmind Prototyper
Axure RP Pro
Simulify
Protoshare3
iPlotz
Anzahl erfüllter Kriterien
17
16
16
15
12
12
Bewertung nach
Kriteriengewichtung
13,25
12,81
12,54
11,66
99,5
99,33
Ergebnis der Detailbetrachtung
Bei der funktionalen Detailbetrachtung wurden viele Gemeinsamkeiten zwischen Axure RP Pro und Justinmind Prototyper entdeckt. iRise ist, wie schon
in der Grobbetrachtung erfasst, bezüglich seiner Funktionalität das umfangreichste Programm. Während Simulify ähnlich viele Funktionalitäten wie
iRise, Axure RP Pro und Justinmind Prototyper bietet, ist iPlotz vor allem
aufgrund der fehlenden Darstellung von erweiterter Interaktivität den anderen
Anwendungen funktional unterlegen.
Die detaillierte Usability-Betrachtung zeigte, dass insbesondere Justinmind Prototyper und Simulify hinter den Erwartungen zurückblieben. Bei der
Grobbetrachtung wurden sie aufgrund ihrer Funktionsvielfalt gut bewertet.
Ihre Gebrauchstauglichkeit ist jedoch nicht zufriedenstellend. Zu viele große
Usability-Probleme wurden entdeckt. Vergleicht man die auch als Web-Anwendung erhältliche Anwendung iPlotz mit Simulify, war die Usability von
iPlotz nach der heuristischen Evaluation als besser zu bewerten. Obwohl
auch bei iRise und Axure RP zum Teil große Usability-Probleme auftraten,
waren sie doch die vielversprechendsten Anwendungen und wurden somit in
Form eines Benutzertest genauer betrachtet.
3 Das für IBM Interactive Hamburg entscheidende Kriterium der Offlinefähigkeit wurde
nicht erfüllt. Aus diesem Grund wurde Protoshare nicht mit in die Detailbetrachtung
aufgenommen.
354
Benutzertest
Der Benutzertest ergab, dass der Unterschied in der Usability der Anwendungen iRise und Axure RP Pro weniger stark ausgeprägt ist als der Unterschied zwischen den anderen im Detail untersuchten Anwendungen. Betrachtet man die Aufgabenangemessenheit fällt auf, dass insbesondere bei einigen
grundlegenden Arbeitsabläufen wie der Auswahl einzelner Elemente aus
Gruppen oder dem Erstellen von Links größere Probleme auftraten. Bei Axure RP Pro war zu beobachten, dass das Erstellen von Links nur über einen
einzigen Zugangsweg möglich ist und unter anderem dadurch größere Probleme bei der Nutzung auftraten. iRise bietet demgegenüber mehrere Möglichkeiten Links zu erstellen und erhöht dadurch bei einem explorativen Vorgehen des Nutzers die Chance, die Funktion zu entdecken. Die Erstellung
interaktiver Elemente ist bei beiden Systemen nicht ohne eine längere Einarbeitungszeit möglich. Besonders die Verwendung von Dynamic Panels (Axure RP Pro) bzw. Dynamic Views (iRise) erforderte bei der analytischen
Betrachtung bereits einen hohen Zeitaufwand.
Bei den zwei im Benutzertest untersuchten Anwendungen wurde deutlich,
dass zum Teil eine äquivalente Funktionsweise zu Microsoft Visio erwartet
wurde. Besonders durch die visuelle Ähnlichkeit von Axure RP Pro zu
Microsoft Visio entstanden Irritationen. Bezüglich der inneren Konsistenz
war bei Axure RP Pro zu beobachten, dass die Funktionen, mit denen Interaktivität zum Prototypen hinzugefügt werden können, nicht konsistent verortet sind. Im Nutzertest war für die Lösung der Aufgaben eine gute Selbstbeschreibungsfähigkeit wichtig. Bei Axure RP Pro waren hier Mängel vor
allem bei der Erstellung von Verknüpfungen zu erkennen. Einige Personen
scheiterten, da die Aufforderung der Anwendung zur Angabe des Linkziels
nicht eindeutig genug war. Bei iRise war die Kennzeichnung von Links und
Aktionen nicht selbstbeschreibend. Unter Berücksichtigung der kurzen Bearbeitungszeit innerhalb des Nutzertests, kann die Selbstbeschreibungsfähigkeit
jedoch bei beiden Anwendungen als ausreichend angesehen werden.
Die Einschätzungen der Nutzer zu beiden Anwendungen ergab sowohl bei
der Gesamtbewertung als auch bei der Bewertung einzelner Aufgaben eine
Tendenz für iRise. Zudem wurden die Aufgaben mit iRise im Durchschnitt in
kürzerer Zeit und mit weniger Aufwand bewältigt. Ein erheblicher Unterschied hinsichtlich der Usability besteht jedoch nicht.
355
Ausblick
Die in den vorangegangenen Kapiteln beschriebene Evaluation wurde speziell auf den Einsatz der untersuchten Werkzeuge bei IBM Interactive Hamburg abgestimmt. Der gewählte mehrstufige Prozess mit den Bewertungskriterien und die Ergebnisse lassen sich jedoch auch bei Evaluationen für
andere Zielgruppen einsetzen. Die Anforderungen anderer Zielgruppen können sich unterscheiden. Dabei ist insbesondere auf technische und wirtschaftliche Voraussetzungen, vorhandene Prozesse und Werkzeuge sowie die Zielsetzung der Prototyping-Aktivität und die Art des Endprodukts zu achten.
Schließlich spielt die Vorerfahrung der betreffenden Nutzergruppe bei der
Wahl eines geeigneten Prototyping-Werkzeugs eine große Rolle.
War bei IBM Interactive Hamburg bereits Erfahrung mit PrototypingWerkzeugen – in diesem Fall Microsoft Visio – vorhanden, haben Mitarbeiter anderer Unternehmen diese Vorerfahrung unter Umständen nicht. Variierende Vorerfahrungen beeinflussen also auch hier die jeweilige Erwartungshaltung.
Arnowitz, J.; Arent, M., Berger N. (2007). Effective prototyping for software makers.
Amsterdam.
Beecher, F. (2009). Integrating Prototyping Into Your Design Process.
http://www.boxesandarrows.com/view/integrating (abgerufen am 27.11.2009)
Bäumer, D., Bischofberger, W. R., Lichter, H., et al. (1996). User interface prototyping – concepts, tools, and experience. In Proc 18th intl conf Software engineering. IEEE. S. 532–541.
Lim, Y., Stolterman, Erik, Tenenberg, J. (2008). The anatomy of prototypes: Prototypes as filters, prototypes as manifestations of design ideas. In: ACM Trans.
Comput.-Hum. Interact. 15. S. 1–27.
Memmel, T; Gundelsweiler, F; Reiterer, H. (2007). Prototyping Corporate User Interfaces. In. Proc IASTED-HCI, Chamonix, France. S. 177–182.
Preece, J.; Rogers, Y., Sharp H. (2002). Interaction design. New York, NY: Wiley.
Preim, B. (1999). Entwicklung interaktiver Systeme. Berlin: Springer.
356
Rosson, M. B., Carroll, J. M. (2002). Usability engineering. San Francisco, CA:
Kaufmann.
Rudd, J., Stern, Ken, Isensee, S. (1996): Low vs. high-fidelity prototyping debate. In:
interactions. 3 (1), S. 76–85.
Vredenburg, K., Isensee, S., Righi, C. (2002): User-centered design: Prentice Hall
PTR.
Warfel, T. Z. (2008). First Prototyping Survey Results.
http://zakiwarfel.com/archives/first-prototyping-survey-results/
(abgerufen am 03.12.2009)
Warfel, T. Z. (2009). Prototyping – A Practitioner’s Guide. Brooklyn, NY: Rosenfeld Media.
357
Analyse und Evaluierung der
Nutzung von Sitelinks
{mahrholz | mandl | griesbau}@uni-hildesheim.de
Zusammenfassung
Dieser Beitrag geht der Frage nach, wie Sitelinks, das sind Links zu Unterseiten von Suchmaschinentreffern, von Nutzern bei Navigationsanfragen genutzt und bewertet werden. Die Ergebnisse eines Benutzertests zeigen ein
uneinheitliches Bild. Einerseits deutet sich an, dass die Nutzung von Sitelinks die Dauer der Informationssuche signifikant verringern kann. Auf der
anderen Seite werden Sitelinks oftmals nicht verwendet bzw. kaum bewusst
wahrgenommen. Insofern bleibt fraglich, inwieweit sie ein sinnvoller Bestandteil der Darstellung von Suchergebnissen sind, da sie den knappen
Raum zur Anzeige von weiteren Treffern auf den Ergebnisseiten von Suchmaschinen verringern.
Abstract
This article deals with the effects of sitelinks on user’s search behavior. Results of a user test show an ambiguous picture. On the one hand, the use of
sitelinks may reduce search time. On the other hand, users often do not use
the links. So the question remains if sitelinks can be judged as a valuable
component of search engine results descriptions or if they are an element that
unnecessarily reduces the already restricted space on result pages.
358
1
Einleitung
Die Art und Weise, wie Treffer auf den Ergebnisseiten von Suchdiensten
präsentiert werden, stellt einen zentralen Bestandteil und Erfolgsfaktor des
Web Information Retrieval dar. Die Darstellung einzelner Suchergebnisse,
meist als “descriptions” bezeichnet, bestimmt dabei zu einem hohen Grad die
Wahrscheinlichkeit, mit der die Ergebnisse selektiert und Informationsprobleme effektiv und effizient gelöst werden (Lewandowski 2008). Es existieren
vielfältige Studien, in denen Darstellungsweisen von Suchergebnissen untersucht wurden (z.B. Hotchkiss et al. 2005; Hotchkiss et al. 2007; Lorigo et al.
2008; Cutrell und Guan 2007; BVDW 2008). Der Fokus dieses Beitrags liegt
auf einer Untersuchung zur Wahrnehmung und Nutzung von Sitelinks. Es
wurden Benutzertests konzipiert und durchgeführt, in denen Probanden navigationsorientierte Informationsbedürfnisse bzw. Suchanfragen (vgl. Broder
2002) zu lösen hatten.
Bei sogenannten Navigationsanfragen dient die Suchmaschine als Mittel,
bestimmte Websites zu finden. Klassischerweise gelangt der Benutzer von
der Ergebnisseite auf die Homepage der gesuchten Website. Tatsächlich hört
der eigentliche Suchprozess in den meisten Fällen damit aber nicht auf, sondern der Benutzer setzt ihn durch Navigation auf der Zielseite fort. Da jede
Site ihr eigenes Layout und ihre eigene Darstellung für Menüs besitzt, kann
es sinnvoll sein, durch Abkürzungen von einer einheitlich gestalteten Suchseite sofort auf die gesuchten Unterpunkte einer Site zu gelangen. Als Konsequenz entstanden solche Abkürzungen inzwischen bei allen größeren Suchmaschinen. Sogenannte Sitelinks sollen dazu beitragen, den Suchprozess
effizienter zu gestalten, indem sie dem Nutzer die Möglichkeit bieten, schneller an gesuchte Informationen zu gelangen (vgl. Google 2010). In der Regel
werden bis zu acht Sitelinks, die sich auf zwei Spalten aufteilen, unter dem
ersten Suchergebnis angezeigt (siehe Abb. 1).
Neben den zweispaltigen gibt es auch einzeilige Sitelinks, deren Anzeige
sich nicht auf Navigationsanfragen beschränkt und die somit für mehrere
Ergebnisse angeboten werden können. Pro Ergebnis werden maximal vier
von diesen Links angezeigt (vgl. Phan und Krishnan 2009). Bisher gibt es
kaum zugängliche Erkenntnisse dazu, wie Sitelinks genutzt und bewertet
werden. Zudem stellt sich die Frage, ob die Links tatsächlich dazu beitragen,
den Suchprozess effizienter zu gestalten.
359
Abb. 1: Sitelinks bei Google. Suche nach „bahn“ (Anfrage vom 11.10.2010).
2
Stand der Forschung
Relevante Literatur für die Bewertung von Sitelinks bezieht sich auf Untersuchungen zum Nutzerverhalten bei unterschiedlichen Oberflächengestaltungen. Verschiedene Eyetracking-Studien haben ergeben, dass Benutzer beim
Betrachten von Suchergebnisseiten in der Regel linear vorgehen. Je höher ein
Ergebnis auf der Trefferseite positioniert ist, umso mehr Aufmerksamkeit
erhält es und umso eher wird es angeklickt (vgl. z.B. Hotchkiss et al. 2005;
Lorigo et al. 2008). Häufig ist in diesem Zusammenhang auch von einem Fförmigen Blickverlauf die Rede (vgl. Nielsen 2006). Hotchkiss et al. (2007)
stellten fest, dass die Einbindung zusätzlicher Elemente Auswirkungen auf
das Suchverhalten hat. So ziehen Bilder auf Ergebnisseiten die Blicke zunächst auf sich, was der linearen Vorgehensweise beim Betrachten der Ergebnisse entgegenwirkt. Die Autoren weisen darauf hin, dass dies auch eine
Frage der Gewohnheit sein könnte. Laut einer Google-Studie ändert sich die
grundsätzliche Vorgehensweise beim Betrachten von Suchergebnissen durch
die Einbindung von Bildelementen kaum (vgl. Aula und Rodden 2009).
Cutrell und Guan (2007) untersuchten, ob und inwiefern sich das Suchverhalten zwischen informationsund navigationsorientierten Anfragearten
bei unterschiedlichen Snippetlängen unterscheidet. Die Ergebnisse zeigten,
dass sich die Leistungen der Teilnehmer bei navigationsorientierten Anfragen
verschlechterten, wenn die Suchtreffer mit langen Snippets dargestellt wurden. Bei informationsorientierten Anfragen hingegen stellten die Forscher
das Gegenteil fest. Im Vergleich zu kurzen Snippets verbesserten sich die
Zeiten zur Bearbeitung von Suchaufgaben bei langen Snippets signifikant.
360
2008 führte der Arbeitskreis Suchmaschinen-Marketing des Bundesverbandes Digitale Wirtschaft (BVDW) e.V. eine Eyetracking-Studie durch, in
der u.a. untersucht wurde, wie Sitelinks wahrgenommen und genutzt werden.
Die Ergebnisse ergaben, dass sich das F-Muster bei der Betrachtung der
Suchtreffer durch die eingerückten Sitelinks teilte. Die Links wirkten als
optischer Trenner, wodurch das nachfolgende Ergebnis laut BVDW an Aufmerksamkeit gewann. Die Sitelinks selbst wurden in der Studie im Vergleich
zu den benachbarten Ergebnissen seltener angeklickt (vgl. BVDW 2008).
3
Experiment
Um zu untersuchen, wie Benutzer mit Sitelinks umgehen und ob die Links
tatsächlich effizient sind, wurde ein Test konzipiert, in dem Probanden verschiedene Web-Suchaufgaben bearbeiteten. Das jeweils erste Resultat auf
den Suchmaschinenergebnisseiten war mit zweispaltigen Sitelinks ausgestattet. Folgende Forschungsfragen lagen der Untersuchung zugrunde:
• Werden Sitelinks wahrgenommen und genutzt? Von welchen Faktoren
hängt es ab, ob Sitelinks genutzt werden?
• Gelangen Benutzer mithilfe der Sitelinks schneller an die von ihnen gesuchten Informationen?
• Welche Darstellungsweise einer Suchergebnisseite wird bei navigationsorientierten Anfragen allgemein bevorzugt und warum?
3.1
Teilnehmer
An der Studie nahmen 30 Studenten der Universität Hildesheim teil. Das
Durchschnittsalter der Teilnehmer lag bei 23,8 Jahren (SD = 2,2). 25 Testpersonen waren weiblich und fünf waren männlich.
3.2
Aufgaben
Ziel war eine möglichst realistische Evaluierung. Da Sitelinks vor allem als
Element der Benutzungsoberfläche angesehen werden müssen, sollte keine
systemorientierte Prüfung der Suchqualität erfolgen, sondern ein Test mit
361
Benutzern in möglichst realistischen Suchszenarien. Die Suchaufgaben mussten so konstruiert werden, dass die meisten mit Sitelinks lösbar sind, da sonst
ohnehin offensichtlich ist, dass dieses Element zu einer Verschlechterung der
Interaktion führt. Allerdings wurden Aufgaben und Lösungen gewählt, in
denen die Zielseiten teilweise direkt in den Sitelinks zu finden waren und
teils nicht. Insgesamt umfasste der Test 14 Aufgaben. Eine Aufgabe lautete
beispielsweise wie folgt:
„Du bist demnächst in Köln und planst bei der Gelegenheit den Kölner Zoo zu
besuchen. Vorher möchtest du dich erkundigen, wie viel der Eintritt kostet.
Finde die Website des Kölner Zoos und erkundige dich, wie viel der Eintritt für
Studenten kostet.“
Für zwölf Aufgaben wurde jeweils ein relevanter Sitelink ausgewählt, von
dessen Zielseite aus maximal ein weiterer Klick nötig war, um zur gesuchten
Information zu gelangen. Teilweise gab es Aufgaben, bei denen die Teilnehmer über mehrere Sitelinks das Ziel erreichen konnten. Als „bester“ Sitelink
wurde in diesen Fällen der Link ausgewählt, der die kürzeste Verbindung zur
gesuchten Information darstellte. Zwei weitere Aufgaben enthielten keine
relevanten Sitelinks, um möglichen Ermüdungseffekten vorzubeugen. Je
nach Schwierigkeitsgrad betrug das Zeitlimit zur Bearbeitung der Aufgaben
zwei bzw. drei Minuten. Die Aufgaben wurden allen Teilnehmern in der
gleichen Reihenfolge präsentiert.
3.3
Ergebnisseiten
Die Ergebnisseiten wurden manipuliert, sodass pro Aufgabe sowohl die Darstellungsweise mit als auch ohne Sitelinks angezeigt wurde. Dadurch sollte
es möglich sein, die Zeiten zur Aufgabenbearbeitung bei beiden Darstellungsweisen miteinander zu vergleichen. Die Teilnehmer wurden hierzu in
zwei gleich große Gruppen A und B aufgeteilt. Für die eine Hälfte der Aufgaben bekam Gruppe A Sitelinks angezeigt, für die andere Hälfte der Aufgaben bekam Gruppe B Sitelinks angezeigt.
Um sicherzustellen, dass jeder Teilnehmer die vorher festgelegten Ergebnisseiten erhalten würde, wurde als Suchmaschine ein Dummy eingesetzt.
Der Suchbutton auf der Startseite wurde so manipuliert, dass der Benutzer
beim Klick auf diesen auf die jeweils vorher bestimmte Trefferliste verwiesen wurde, unabhängig davon, was in das Suchfeld eingegeben wurde. Im
Vorfeld der Untersuchung wurden für jede Aufgabe die entsprechenden An-
362
fragen an eine reale Suchmaschine gestellt und die ausgegebenen Ergebnisseiten lokal in zwei separaten Ordnern (Gruppe A und B) gespeichert. Für die
Aufgaben, bei denen keine Sitelinks angezeigt werden sollten, wurden sie
jeweils aus dem Quelltext der Dateien gelöscht.
3.4
Testdurchführung
Die Tests fanden in einem dreiwöchigen Zeitraum im Juni und Juli 2009 statt
und wurden in einem Usability Labor durchgeführt. Die Probanden wurden
dazu angehalten, während der Tests ihre Vorgehensweise zu kommentieren
und anzugeben, wann sie eine Aufgabe für beendet hielten. Suchbegriffe
wurden ihnen nicht vorgeben, um eine weitestgehend natürliche Interaktion
zu ermöglichen. Da jedoch eine kontrollierte Ausgabe der Ergebnisseiten
erfolgte, konnte jeweils nur eine Anfrage pro Aufgabe an das Suchsystem gestellt werden. Zur Audio- und Bildschirmaufzeichnung wurde das Programm
Morae 3.11 genutzt. Nach der Aufgabenbearbeitung erfolgte eine Aufklärung
über den Untersuchungsgegenstand und das Ziel der Studie. Die Teilnehmer
wurden ferner gebeten, einen Abschlussfragebogen auszufüllen und einige
mündliche Fragen zu beantworten.
4
Ergebnisse
4.1
Nutzung der Sitelinks
Von den 12 × 15 = 180 Darstellungsweisen mit relevanten Sitelinks wurden
die Links insgesamt 68 Mal angeklickt. In 61 Fällen (34%) nutzten die Teilnehmer den im Vorfeld bestimmten „besten“ Sitelink. In zwei weiteren Fällen (1%) wurden Sitelinks ausgewählt, die ebenfalls relevant und somit zielführend waren. Fünf Mal (3%) wurden Sitelinks genutzt, die nicht zielführend waren. Einmal konnte eine Aufgabe daraufhin nicht erfolgreich beendet
werden, da die Testperson Orientierungsschwierigkeiten auf der entsprechenden Website hatte und das vorgegebene Zeitlimit deutlich überschritt.
1 http://www.techsmith.de
363
Über alle Aufgaben hinweg, für die relevante Sitelinks angezeigt wurden,
wurden die Links im Durchschnitt 5,6 Mal angeklickt (SD = 2,4; min = 1;
max = 92). Nicht genutzt wurden Sitelinks bei den beiden Aufgaben, für die
keine relevanten Sitelinks angezeigt wurden. Die 30 Testpersonen klickten
durchschnittlich 2,3 Mal auf die Sitelinks (SD = 1,9; min = 0; max = 63).
4.1.1 Benennungen der Sitelinks
Die Ergebnisse deuten zunächst daraufhin, dass Sitelinks eher genutzt werden, wenn deutlich ist, wohin diese führen. Am seltensten wurden die relevanten Sitelinks bei den Aufgaben 5 (Ryanair; Gruppe B) und 7 (Techniker
Krankenkasse; Gruppe A) gewählt. Bei letzterer Aufgabe klickte nur eine
Person auf den Link „Wahltarife & Zusatzversicherungen“, um Informationen über eine Auslandsreise-Krankenversicherung zu erhalten. Bei Aufgabe 5 wurde der relevante Sitelink „FAQ“ gar nicht genutzt, um Angaben zum
zulässigen Handgepäck bei Ryanair zu finden. Stattdessen wählten drei Personen den Sitelink „Fluginformationen“, welcher nicht zielführend war. Am
häufigsten wurden die Sitelinks in Gruppe A bei Aufgabe 10 genutzt (Suche
nach Informationen zum Girokonto auf der Website der ING-DiBa; Sitelink
„Girokonto“) und zwar von 9 (60%) Testpersonen aus der Gruppe. In Gruppe B wurden die Sitelinks am häufigsten bei Aufgabe 9 (Geräteabmeldung
bei der GEZ) angeklickt. In diesem Fall wählten 8 (53%) Probanden den
relevanten Sitelink „Abmelden“. In der Nachbefragung meinten einige Testpersonen, dass sie die Links generell eher verwenden, wenn diese das gesuchte Schlagwort bereits enthalten.
4.1.2 Vorerfahrungen mit Sitelinks
Die Ergebnisse der Nachbefragung ergaben, dass die Mehrheit der Testpersonen Sitelinks bereits vor dem Test gekannt und auch genutzt hatte. Unterteilt man die Antworten auf die Frage, ob Sitelinks schon vor dem Test benutzt wurden, nach den zwei Teilnehmergruppen „Sitelinks im Test benutzt“
und „Sitelinks im Test nicht benutzt“, ergibt sich folgendes Bild:
2 Das theoretische Maximum betrug 15.
3 Das theoretische Maximum betrug 6 (bezogen auf Aufgaben mit relevanten Sitelinks).
364
Tab. 1: Kreuztabelle zu den Variablen „Nutzung der Sitelinks vor dem Test“
und „Nutzung der Sitelinks in dem Test“ (n = 27)4
Sitelinks vor dem Test genutzt
ja
nein
Sitelinks während des Tests genutzt
ja
nein
18
3
22
4
Ein exakter Test nach Fisher ergab, dass die Variablen „Nutzung der Sitelinks vor dem Test“ und „Nutzung der Sitelinks in dem Test“ signifikant abhängig voneinander sind (p=0,024). Vertrautheit im Umgang mit den Links
könnte demnach einen Einfluss darauf gehabt haben, ob diese im Test angeklickt wurden oder nicht.
4.1.3 Gründe für Nicht-Nutzung der Sitelinks
Eine von insgesamt neun Testpersonen, die in dem Test gar nicht auf Sitelinks klickten, sagte in der Nachbefragung, sie habe die Links überhaupt
nicht gesehen. Fünf weitere Testpersonen gaben an, aus Gewohnheit auf den
Titel des jeweiligen Suchtreffers geklickt und ebenfalls nicht richtig auf die
Sitelinks geachtet zu haben. Teilweise meinten sie, auf der Homepage einen
besseren Überblick zu haben und daher diesen Weg zu bevorzugen. Drei
Testpersonen war nicht bewusst, dass sie mithilfe der Sitelinks direkt auf die
Unterseiten der jeweiligen Websites gelangt wären. Dabei dachten zwei von
ihnen, dass es sich um Werbelinks handelte. Eine Testperson hat die Linkfunktion als solche nicht erkannt. Auf die Problematik, dass die eigentliche
Funktion der Sitelinks von Benutzern möglicherweise nicht richtig erkannt
wird, machte eine Teilnehmerin ebenfalls im Nachgespräch aufmerksam. Sie
wies darauf hin, dass die Links daher deutlicher gekennzeichnet werden sollten.
4.2
Bearbeitungszeiten der Aufgaben
Die Bearbeitungszeit für eine Aufgabe begann mit dem Aufruf der Ergebnisseite und endete, sobald der Teilnehmer angab, die Aufgabe abgeschlossen
4 Personen, die auf die Frage „Hast du Sitelinks bereits vor dem Test genutzt?“ mit „weiß
nicht“ antworteten, wurden nicht in die Analyse einbezogen.
365
zu haben. Tendenziell waren Probanden, die relevante Sitelinks anklickten,
bei allen Aufgaben schneller als Probanden, die den Weg über die Homepages gingen. Eine getrennte Betrachtung der einzelnen Aufgaben erwies sich
als sinnvoll, da zwischen diesen teilweise große Unterschiede bezüglich der
Bearbeitungszeiten auftraten. Mittels einfaktorieller Varianzanalysen wurde
überprüft, ob sich die Bearbeitungszeiten je nach Navigationsweg (Homepage bei Darstellung mit Sitelinks; Homepage bei Darstellung ohne Sitelinks;
Sitelink) signifikant unterschieden. Varianzanalysen wurden nur für Aufgaben, bei denen die Sitelinks häufiger als fünf Mal angeklickt wurden, durchgeführt (vgl. Tab 2).
Tab. 2: Vergleich Bearbeitungszeiten pro Navigationsweg
(HP = Homepage; SL = Sitelink)
Aufgaben
Bearbeitungszeiten in Sek.
HP
HP
SL
(Darstellung (Darstellung
mit SL)
ohne SL)
Aufgabe 2 (Deutsche Post)
51,4
63,0
14,1
Aufgabe 3 (WWF)
46,7
41,4
35,6
Aufgabe 9 (GEZ)
30,6
28,3
20,1
Aufgabe 10 (ING-DiBa)
32,5
29,6
19,1
Aufgabe 11 (Olympiastadion)
52,0
52,2
29,0
p-Wert
0,001
0,207
0,024
0,005
0,001
Signifikante Unterschiede ließen sich bei vier von fünf Aufgaben feststellen. Post-hoc-Tests ergaben, dass bei den Aufgaben 2 und 11 signifikante
Unterschiede zwischen der Gruppe der Sitelink-Nutzer und den beiden
Gruppen der Homepage-Nutzer auftraten. Auf der Homepage der Deutschen
Post fanden die wenigsten Teilnehmer den direkten Verweis auf die eigentliche Zielseite, wodurch sich hier erhebliche Unterschiede in den Bearbeitungszeiten ergaben. Dies deutet darauf hin, dass Sitelink-Nutzer vor allem
bei Websites mit komplexen Homepages im Vorteil sind. Weitere signifikante Unterschiede zeigten sich bei den Aufgaben 9 und 10 jeweils zwischen den
Gruppen, die Sitelinks genutzt hatten, und den Gruppen, die bei der Darstellung ohne Sitelinks den Weg über die Homepages gewählt hatten.
366
4.3
Präferenz
In der Nachbefragung sollten die Teilnehmer drei Darstellungsweisen des
ersten Suchtreffers in eine nach Präferenz geordnete Rangfolge bringen. Neben der Darstellung ohne Sitelinks und der Darstellung mit zweispaltigen
Sitelinks sollten die Testpersonen auch die Darstellung mit einzeiligen Sitelinks (gekennzeichnet durch das Wort „Direktlinks“) bewerten (vgl. Abb. 2).
Abb. 2: Drei Darstellungsweisen des ersten Suchergebnisses
In der folgenden Tabelle ist der durchschnittliche Rangwert für die jeweiligen Darstellungsweisen abgebildet:
Tab. 3:
Mittelwerte des Rankings der drei Darstellungsweisen (niedriger = besser)
Darstellungsweise
Ranking
ohne Sitelinks
2,5
einzeilige Sitelinks
2,2
zweispaltige Sitelinks
1,3
Eine einfaktorielle Varianzanalyse mit Messwiederholung ergab signifikante Gruppenunterschiede hinsichtlich der Bewertungen. Es zeigten sich
signifikante Unterschiede zwischen den Bewertungen der Darstellungsweise
mit zweispaltigen Sitelinks und den beiden anderen Darstellungsweisen (post
hoc paarweise Vergleiche mit Bonferroni-Korrektur; jeweils p < 0,001).
Ein wesentlicher Faktor, der für die Anzeige zweispaltiger Sitelinks
spricht, sei laut Aussage der Testpersonen die Möglichkeit, Navigationswege
zu verkürzen. Zudem werde durch die Links eine bessere Übersichtlichkeit
geboten. Daher wurden sie auch in den meisten Fällen gegenüber einzeiligen
Sitelinks bevorzugt. Knapp die Hälfte der Personen gab an, dass einzeilige
Sitelinks sich nicht genug von den weiteren Komponenten des Suchergebnisses abheben und dadurch schnell übersehen werden. Trotzdem deutete sich
auch hier eine leichte Bevorzugung gegenüber der Darstellung ohne Sitelinks
an.
5
367
Diskussion und Fazit
Insgesamt sind die Ergebnisse der Untersuchung ambig. Zwar wurden die
Links in der Nachbefragung von den meisten Teilnehmern positiv bewertet,
vielfach wurden sie in dem Test aber kaum bewusst wahrgenommen und
auch nicht genutzt, um an die gesuchten Informationen zu gelangen. Meist
waren die Teilnehmer nicht bereit, sich lange auf den Suchergebnisseiten
aufzuhalten und tendierten dazu, den Titel des jeweiligen Suchergebnisses
anzuklicken. Teilweise waren die Sitelink-Nutzer in dem Test schneller, vorausgesetzt allerdings, dass die relevanten Unterpunkte tatsächlich in den
Links zu finden waren. Zwei Testpersonen wiesen darauf hin, dass Sitelinks
viel Platz wegnehmen. Tiefer positionierte Ergebnisse, die für die Suchanfrage relevant sein könnten, verschwinden dadurch eher aus dem sichtbaren
Bereich und der Nutzer müsse unter Umständen mehr scrollen. Als problematisch erwies sich in dem Test zudem, dass einigen Teilnehmern nicht bewusst war, welche Funktion Sitelinks erfüllen. Dies impliziert, dass Sitelinks
deutlicher gekennzeichnet sein sollten. Dieser Test beschränkte sich hauptsächlich auf die Untersuchung zweispaltiger Sitelinks. Zwar wurden die Probanden auch zu ihren subjektiven Eindrücken bezüglich einzeiliger Sitelinks
befragt, für weiterführende Untersuchungen wäre es aber interessant zu erfahren, wie Benutzer mit diesen Links im tatsächlichen Nutzungskontext
umgehen.
Aula, A.; Rodden, K. (2009): Eye-tracking studies: more than meets the eye.
http://googleblog.blogspot.com/2009/02/eye-tracking-studies-more-than-meets.html
[Abruf: 08.11.2010]
Broder, A. (2002): A taxonomy of web search. In: SIGIR Forum, Vol. 36, Nr. 2,
S. 3–10.
BVDW (2008): Nutzerverhalten auf Google-Suchergebnisseiten. Eine EyetrackingStudie im Auftrag des Arbeitskreises Suchmaschinen-Marketing des Bundesverbandes Digitale Wirtschaft (BVDW) e.V.
http://www.hottracker.de/whitepaper/Eyetracking-Studie_2008_Ergebnisbericht.pdf
[Abruf: 06.11.2010]
368
Cutrell, E.; Guan, Z. (2007): What Are You Looking For? An Eye-tracking Study of
Information Usage in Web Search. In: CHI ’07. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, S. 407–416.
Google (2010): Sitelinks.
http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=47334
[Abruf: 07.11.2010]
Hotchkiss, G.; Alston, S.; Edwards, G. (2005): Eye Tracking Study: An In Depth
Look at Interactions with Google using Eye Tracking Methodology. Enquiro Research (Hrsg.).
www.enquiroresearch.com/images/eyetracking2-sample.pdf [Abruf: 08.11.2010]
Hotchkiss, G.; Sherman, T.; Tobin, R.; Bates, C.; Brown, K. (2007): Search Engine
Results: 2010. Enquiro Research (Hrsg.).
http://www.enquiroresearch.com/campaigns/SearchEngineResults2010.pdf
[Abruf: 08.11.2010]
Lewandowski, D. (2008): The retrieval effectiveness of web search engines: considering results descriptions. In: Journal of Documentation, Vol. 64, Nr. 6, S. 915
bis 937.
Lorigo, Lori; Haridasan, Maya; Brynjarsdóttir, Hrönn; Xia, Ling; Joachims, Thorsten; Gay, Geri; Granka, Laura; Pellacini, Fabio; Pan, Bing (2008): Eye Tracking
and Online Search: Lessons Learned and Challenges Ahead. In: Journal of the
American Society for Information Science and Technology, Vol. 59, Nr. 7, S.
1041–1052
Nielsen, J. (2006): F-Shaped Pattern For Reading Web Content.
http://www.useit.com/alertbox/reading_pattern.html [Abruf: 08.11.2010]
Phan, D.; Krishnan, R. (2009): Einzeilige Sitelinks.
http://googlewebmastercentral-de.blogspot.com/2009/04/einzeilige-sitelinks.html
[Abruf: 07.11.2010]
Online-Beratungsk. für die Auswahl von Usability-Evaluationsmethoden 369
Online-Beratungskomponente für die Auswahl von Usability-Evaluationsmethoden
Schweizerisches Institut für Informationswissenschaft (SII)
Hochschule für Technik und Wirtschaft (HTW) Chur
CH-7000 Chur
E-Mail: {bernard.bekavac;sonja.oettl;thomas.weinhold}@htwchur.ch
Zusammenfassung
Zur Bewertung der Usability von interaktiven Produkten existiert mittlerweile ein breites Spektrum an Evaluationsmethoden, weshalb es nicht immer
einfach ist, entsprechend den jeweiligen Untersuchungszielen, eine adäquate
Methode auszuwählen. Hierfür sind eine gewisse Erfahrung und Hintergrundwissen erforderlich, welches nicht in allen Institutionen gleichermaßen
vorhanden ist, weshalb oftmals noch eine gewisse Unsicherheit hinsichtlich
der Planung und Durchführung von Usability-Evaluationen besteht. Um diesbezüglich Unterstützung bieten zu können, wurde am SII eine OnlineBeratungskomponente entwickelt. Diese bietet Anwendern die Möglichkeit
die einzelnen Usability-Evaluationsmethoden (UEM) und deren Charakteristika explorativ zu erkunden und erlaubt auf Basis der eigenen Untersuchungsziele eine transparente Auswahl geeigneter Methoden.
Abstract
Today a wide range of evaluation methods are available in order to assess the
usability of interactive products. Therefore, it is not always easy to choose
the appropriate method according to the objectives of the evaluation. For this
purpose a certain amount of experience and know-how is needed to make an
informed decision, which does not exist in all companies and institutions and
thus often a certain degree of uncertainty remains regarding usability evaluations. In order to assist such companies in the selection of appropriate evaluation methods an online advisory component was developed at the SII. This
tool offers users the possibility to explore the individual usability evaluation
methods (UEM) and their characteristics, in order to allow a transparent selection of suitable methods.
370
1
Einleitung und Motivation
Im Laufe der letzten Jahre hat sich die Usability als zentrales Qualitätsmerkmal interaktiver Produkte etabliert, wobei für Evaluationen mittlerweile ein
breites Spektrum an Untersuchungsmethoden zur Verfügung steht. Diese
können anhand einer Reihe verschiedener Merkmale (z.B. Zeitpunkt der Evaluation in Abhängigkeit des Produktstatus, Art der Gutachter) klassifiziert
werden (vgl. z.B. Nielsen, 1993; Dumas/Redish, 1999; Schweibenz/ Thissen,
2003; Bowman et al., 2002). Jede Evaluationsmethode hat ihre spezifischen
Stärken und Schwächen, weshalb bei der Auswahl eines geeigneten Testverfahrens eine gewisse Erfahrung und entsprechendes Know-how erforderlich sind. Um auch Personen ohne entsprechende Kenntnisse eine zielgerichtete Auswahl geeigneter Untersuchungsmethoden zu ermöglichen bzw. um
teilweise noch vorhandene Hemmschwellen gegenüber der Thematik Usability abzubauen, wurde vom Schweizerischen Institut für Informationswissenschaft (SII) eine Online-Beratungskomponente entwickelt, die die Transparenz im Auswahlprozess erhöhen soll. Mittels eines mehrstufigen Dialogs
sollen Anwender in die Lage versetzt werden, aus der Vielzahl existierender
Evaluationsmethoden die für ihre Zwecke geeigneten Ansätze eigenständig
zu identifizieren und sich einen ersten Überblick über den Aufwand und die
Anwendung der entsprechenden Methoden zu verschaffen.
Nachfolgend wird in Kapitel 2 aufgezeigt, wie die Autoren bei der Konzeption dieses Beratungstools vorgegangen sind, und welche Kriterien dabei
zur Auswahlunterstützung der Anwender herangezogen werden. Anschliessend werden in Kapitel 3 der konkrete Aufbau und die Einsatzmöglichkeiten
der Beratungskomponente beschrieben, bevor in Kapitel 4 ein kurzes Fazit
gezogen wird.
2
Konzeption der Online-Beratungskomponente
Für die Konzeption der in diesem Beitrag beschriebenen Online-Beratungskomponente wurde in einem ersten Schritt neben einer umfangreichen Literaturrecherche eine Analyse der Websites einschlägiger Usability-Beratungsunternehmen vorgenommen. Ziel war es, etablierte und gängige Evaluationsmethoden zu ermitteln, ggf. bereits existierende interaktive Beratungstools zu
identifizieren und geeignete Kriterien zur Unterscheidung von UEM zu erarbeiten.
Diesbezüglich ist anzumerken, dass im Zuge dieser Recherchen kein Angebot ermittelt werden konnte, dass eine systembasierte Unterstützung des
Auswahlprozesses geeigneter UEM bietet. Primär existieren in diesem Bereich Übersichtsgrafiken und textuelle Beschreibungen, in denen die Charakteristika der einzelnen Methoden, sowie deren Anwendbarkeit im Produktlebenszyklus dargestellt sind. Das Fehlen entsprechender Tools ist vermutlich darin begründet, dass es sich bei der Auswahl geeigneter Evaluationsmethoden um eine intellektuelle Aufgabe handelt, welche nur bedingt automatisierbar ist. Ein weiteres Problem ist der Umstand, dass noch nicht ausreichend geklärt ist, anhand welcher Kriterien ein objektiver Vergleich unterschiedlicher UEM vorgenommen werden kann (vgl. z.B. Hartson et al.,
2001). Dennoch sind die Autoren der Überzeugung, dass eine systemgestützte Methodenauswahl in gewissen Grenzen möglich ist, wenngleich ein solches System sich sicherlich primär an Anwender mit wenig Erfahrung in der
Durchführung von Usability-Evaluationen richtet.
Basierend auf den Rechercheergebnissen wurde in einem zweiten Schritt
in Form einer Matrix eine Charakterisierung der als relevant eingestuften
UEM vorgenommen. Dabei wurden folgende Merkmale berücksichtigt:
• Testaufbau, Testdauer, Testleitung, Anzahl benötigter Gutachter/Testpersonen, für die Untersuchung benötigtes Equipment
• Anwendbarkeit entsprechend dem Produktlebenszyklus
• Ziel der Untersuchung (z.B. Fehlersuche), Fokus der Untersuchung (z.B.
Ease-Of-Learn), Vor- und Nachteile sowie Besonderheiten der Methode
Anschließend wurden diese Kriterien bezüglich ihres Klassifikationspotenzials überprüft und unterschiedliche Entscheidungsbäume entwickelt, auf deren
Basis letztendlich die Dialoggestaltung der Beratungskomponente vorgenommen wurde.
3
Aufbau und Funktionsweise des Tools
Die Online-Beratungskomponente gliedert sich in zwei Bereiche. Im oberen
Bereich befindet sich der eigentliche Beratungsdialog, in dem der Anwender
durch den Auswahlprozess geleitet wird. Hierbei muss er sechs Fragen –
372
unterteilt in drei Phasen – beantworten. Im unteren Bereich erfolgt eine Visualisierung der Ergebnissmenge in Form einer Tag-Cloud, welche in jedem
Schritt dynamisch an die vom Anwender getroffenen Entscheidungen angepasst wird (vgl. Abbildung 1). Das gewählte Dialogdesign mit der direkten
Manipulation der Ergebnismenge ermöglicht es dem Anwender jederzeit die
Auswirkungen seiner Entscheidungen nachzuvollziehen. Bei der Formulierung der Auswahloptionen wurde darauf geachtet, dass sie aus der Perspektive der Endanwender und in einfach verständlicher Sprache verfasst sind.
Falls einzelne Optionen dennoch unklar sein sollten, können die Nutzer sich
per Mouse-Over-Effekt eine genauere Beschreibung der einzelnen Dialogelemente einblenden lassen.
Abbildung 1: Startansicht der Online-Beratungskomponente
Im ersten Dialogschritt (Phase 1) muss der Anwender zunächst Angaben
über den Status des zu untersuchenden Produktes (z.B. „skizzierter Entwurf“)
und seiner Motivation für die Durchführung einer Evaluation machen. Aufgrund dieser Rahmenbedingungen können in der Regel bereits einige UEM
als nicht empfehlenswert ausgeschlossen werden (in der Visualisierung hellgrau mit geringem Schriftgrad dargestellt), wohingegen andere Methoden
weiterhin für eine Evaluation in Frage kommen (größerer Schriftgrad,
schwarze Textfarbe).
In der nächsten Phase müssen die Ziele der geplanten Evaluation (z.B. die
gezielte Suche nach Schwachstellen) genauer spezifiziert werden. Als nächstes kann der Anwender definieren, ob der Untersuchungsgegenstand gesamthaft betrachtet werden soll oder ob schwerpunktmäßig nur bestimmte Aspekte beleuchtet werden sollen (z.B. der „Joy of Use“). Die Definition solcher Schwerpunkte hat bspw. beim Einsatz von Befragungen großen Einfluss
auf die Auswahl geeigneter, vorgefertigter Fragebögen.
In der dritten Phase kann der Anwender Zeit und Budget, das für die Evaluation zur Verfügung steht, festlegen. Diese beiden Auswahloptionen führen
im Gegensatz zu den vorangegangenen Dialogschritten nicht immer zum
direkten Ausschluss von Methoden. Stattdessen erfolgt eine differenzierte Ergebnisbetrachtung: Sofern Methoden existieren, die exakt die vom Anwender
getroffenen Charakteristika erfüllen, werden in der Tag-Cloud entsprechend
auch nur diese hervorgehoben. Andernfalls werden in der Trefferliste die aufgrund der beiden vorangehenden Phasen in Frage kommenden Methoden
hervorgehoben, wobei der Nutzer den Hinweis erhält, dass diese Methoden
zwar grundsätzlich in Frage kommen, jedoch der Zeit- oder auch der Kostenrahmen für die Evaluation angepasst werden müssten.
Abschließend erfolgt die Präsentation der empfohlenen Methoden in tabellarischer Form. Die Anwender können sich dadurch leicht einen Überblick
verschaffen, in welchen Punkten die empfohlenen Methoden mit den von
ihnen getroffenen Einstellungen übereinstimmen (in der Darstellung fett gekennzeichnet), und wo ggf. Abweichungen von den Vorstellungen der Nutzer
vorliegen (z.B. bzgl. Zeit/Budget). Zusätzlich werden den Anwendern an
dieser Stelle Links zu den Handlungsleitfäden der in Frage kommenden Methoden angeboten. Die Handlungsleitfäden enthalten jeweils eine kurze Beschreibung der Methode und charakterisieren diese entsprechend den erforderlichen personellen und materiellen Ressourcen, sowie dem Vorwissen, das
für deren Anwendung benötigt wird. Zudem werden das Einsatzgebiet, der
Ablauf und die potenziellen Erkenntnisse der jeweiligen Methode zusammenfassend dargestellt.
374
4
Fazit und Ausblick
Die in diesem Beitrag vorgestellte Onlineberatungs-Komponente wurde im
Rahmen eines Teilprojektes der schweizerischen Innovationsinitiative Elib.ch (www.e-lib.ch) entwickelt und steht mittlerweile unter einer CCLizenz online zur freien Nutzung zur Verfügung (www.cheval-lab.ch). Anzumerken ist diesbezüglich, dass die Beratungskomponente eine ausführliche
und individuelle Beratung durch Usability-Experten in keinem Fall äquivalent ersetzen kann. Vielmehr soll das Tool Interessierten mit wenig Hintergrundwissen im Usability-Bereich als Werkzeug dienen, um sich einen
Überblick über geeignete Kriterien zur Selektion von Evaluationsmethoden
zu verschaffen und die einzelnen UEM genauer kennenzulernen. Durch den
freien Zugriff auf die Online-Beratungskomponente erhoffen sich die Autoren weiteres Feedback von Anwendern, um so das Tool weiter verfeinern
oder ggf. auch erweitern zu können.
Bowman, D./Gabbard, J./Hix, D. (2002). A survey of usability evaluation in virtual
environments: classification and comparison of methods. In: Presence: Teleoperators and Virtual Environments, 11(4), S. 404–424.
Card, S./Moran, T./Newell, A. (1983). The psychology of human-computerinteraction. Hillsdale: Erlbaum.
Dumas, J./Redish, J. (1999). A Practical Guide to Usability Testing. Exeter: Intellect
Books.
Hartson, H./Andre, T./Williges, R. (2001). Criteria for evaluating usability evaluation methods. In: International Journal of Human Computer Interaction, 15(1), S.
145–181.
Nielsen, J. (1993). Usability Engineering. San Diego: Academic Press.
Schweibenz, W./Thissen, F. (2003). Qualität im Web – Benutzerfreundliche Webseiten durch Usability Evaluation. Berlin: Springer.
Session 9:
Information Domains & Concepts
376
Michał Goliński
Use, but verify
Composite Indices for Measuring the Information Society
Michał Goliński
Warsaw School of Economics, Department of Business Informatics
Al. Niepodległości 162, PL - 02-554 Warszawa
Abstract
The paper presents a brief examination of the use of composite indices in the
analysis of information society issues. The main pros and cons are presented.
1
Introduction
None of the existing theories concerning the Information Society (IS) has
solved any of the two following fundamental, connected – and probably insurmountable problems: definitional and measuring. There is no satisfying
definition of the IS (Webster 2006). It entails a subsequent problem – how to
measure almost an indefinable concept. The paper presents a short analysis of
this „Grand Challenge” (Menou, Taylor 2006), focusing on composite indices (CI).
2
Measuring the Information Society
The presence of IS issues in public discourse in the last two decades has provoked a rising demand for tools allowing to quantify occurring processes.
The main tools of quantitative description of IS are proper indices providing
Use, but verify
377
information about different aspects of information and communication technologies (ICT) usage in society and economy. They are necessary in order to
plan public and commercial projects and to assess their implementation.
They are the essential part of development policies. Indices play a vital role
in IS research. They measure, monitor and justify. A definitional function is
essential – a specific index value may be used as a turning point, defining the
formation of IS – which many critics have demanded for a long time. One
should notice that constructing such indices is marked by certain partiality. It
depends on the author’s knowledge and intentions. The numerical expression
of an indicator creates an impression of raw objectivity but its construction is
often marked with subjective beliefs and purposes. Monitoring of IS requires
the use of many molecular indicators. It seems that it is the only responsible
way to monitor complex IS issues. This method is used by most “official”
institutions, such as statistics offices, central government bodies or international organizations (e.g. Eurostat). Such research provides essential and
thorough information. However, they also have a drawback of considerable
importance. Many indicators in use are only clear to professionals. For others
they are too hermetic, difficult and simply boring. Ongoing mediatization of
our world has contributed to the popularization of a different research trend –
composite indices (CI).
3
Composite Indices in IS Research
Composite indices enable a simpler interpretation of data. They substitute a
large set of attributes with a single one – a synthetic variable. Transition from
a multidimensional set of attributes to a one-dimensional is achieved by variable aggregation. What makes the CI so attractive is the fact that they are
easy to interpret – the audience is presented with impressive rankings. CIs
have become an essential part of the contemporary debate on social, economic, and political problems; and their popularity is still rising. A 2005
survey analyzed over 130 of such tools, 80% of which were created between
years 1991 and 2005. During the 1970s and the 1980s less than 10 were created pro decade, in the 1990s – 40, and between 2000 and 2004 more than 60
(Bandura 2005). The 2008 survey analyzes almost 180 (Bandura 2008). This
rising trend can be observed in the number of studies and in the variety of
378
Michał Goliński
authors. The scope of research is also constantly expanded, including virtually all contemporary and popular issues.
Many of the CIs have played a vital role in putting important issues in the
centre of public attention and forcing policy-makers to act. Presently, it is
difficult to imagine the discussions on development without the Human Development Index (UN), education without the PISA (OECD), corruption
without the Corruption Perceptions Index (TI), competitiveness without the
World Competitiveness Index (WEF) or, last but not least, IS without the
Networked Readiness Index (also WEF). It seems plausible to put forward a
thesis that if the authors stopped at the stage of drafting a large set of indicators and did not continue with the next stage, i.e. aggregation, the popularity
of their research would suffer considerably. Moreover, the impact on the
public would not have such serious consequences, i.e. people would be less
involved and policy-makers wouldn’t be forced to act.
CIs have an important political function. They mobilize people who are
part of the decision making process and who did not participate in it earlier.
According to Porter (2009: 11): “The indicators are objects that are constructed to maximize the aesthetic and exhortative effect of the representation
of certain relationships while obscuring others”. There are many arguments
for and against using CIs (Bandura 2005: 13–14 and OECD 2008: 13–14).
Arguments listed there should make one particularly wary when using CIs in
IS analysis. One should bear in mind that the methodology used in creating a
CI substantially influences the results and, correspondingly, the countries
performance in a ranking1. Table 1 presents selected features of 19 analyzed
IS CIs. It shows significant differences in virtually all aspects of the methodology. We can find among them both studies, which are worth to promote
(e.g. the ICT Development Index, cf. Goliński 2009), and tools in which the
marketing aspect dominates over the substantive value (e.g. Networked
Readiness Index, cf. Goliński 2010). Some of these tools have become quite
popular and have gained a large group of proponents. However, we believe
that this popularity is often undeserved.
One can also boldly assume that the IS CIs are in fact superfluous. If one
assumes that the well-being of contemporary societies strongly correlates
with the information and the ICT, then one also has to assume that the successful countries must have utilized both factors effectively. „Wherefore by
1 OECD (2008: 100 and following) carried out a simulation of changes in the values of
Technology Achievement Index. The differences in the positions of 23 first countries in
the ranking reached 11 as a result of the various methods of weighting and aggregation.
Use, but verify
379
their fruits ye shall know them”– if they are “wealthy”, they must also be
“informational”. And in such case one does not need new tools, yet there is
the GDP. This risky thesis is based on high correlation levels between IS
development (measured by the ICT Development Index – IDI value) and
prosperity (measured on the basis of: GDP – r²=0,55 and HDI – r²=0,7) in
EU countries. The correlation does not mean that any causality relationship
exists, but the problem itself seems to be worth looking into.
Table 1: Selected features of analyzed IS composite indices
Index
Author
ICT Development Index
ITU
2009 154 3
(3) (4) (5) (6) (7) (8) (9) (10) (11)
0
11 11
0
8
3
Connectivity Scorecard
Waverman
2009 50
6
0
28 28
0
28
0
ICT At-a-Glance
WB
2006 144 0
0
34 28
6
27
7
ICT Diffusion Index
UNCTAD
2006 180 2
0
8
0
6
2
8
ICT Opportunity Index
ITU
2007 183 2
2
10 10
0
8
2
Digital Opportunity Index
ITU
2007 181 3
0
11 11
0
11
0
eEurope 2005
INSEAD/SAP 2005 28
5
0
39 34
5
39
0
Knowledge Economy Index WB
2008 140 4
0
12
9
3
3
9
Index of Knowledge Socie- UNPAN
ties
2005 45
3
0
15 14
1
2
13
Net Readiness Perception
Index
Goliński
2007 49
4
0
12
0
12
5
7
Digital Access Index
ITU
2003 178 5
0
8
8
0
6
2
Infostates
Orbicom/ITU 2007 183 2
2
10 10
0
8
2
E-Government Readiness
Index
UNPAN
2008 182 3
0
8
0
6
2
Networked Readiness
Index
WEF
2009 127 3
3
68 27 41
29
39
Mobile/Internet Index
ITU
2002 206 3
0
26 20
6
26
0
Technology Achievement
Index
UNDP
2001 72
0
8
0
2
6
E-Readiness Index*
EIU/IBM
4
8
8
2008 70
6
0 100 50 50
20
80
Information Society Index IDC
2008 53
4
0
15 13
2
11
4
II Development Level
Index
2004 29
0
0
7
0
7
0
Goliński
7
Legend: (3) year of the last research, (4) number of countries in research (5) subindices,
(6) subindices, II level, (7) partial indicators, including: (8) hard data, (9) soft data, (10)
concerning ICT, (11) other *est.
380
4
Michał Goliński
Conclusions
CIs are good for making the public opinion aware of the gravity of IS issues.
They do it well and in an impressive manner. However, if one is to make
political or investment decisions one needs to perform a detailed, multicriteria analysis using a set of numerous indicators. CIs should be considered
as points of departure for policy-makers. They promote IS issues, yield arguments and help to shape development policy. Finally, although using these
tools to analyse IS often constitutes an attempt to count the uncountable, one
cannot dismiss the fact that CIs play a key role in promoting the vision of IS.
By using CIs in IS analysis one should heed the old Russian proverb: “Trust,
but verify”.
References
Bandura, R. (2005). Measuring Country Performance and State Behavior: A Survey
of Composite Indices. New York: UNDP.
Bandura, R. (2008). A Survey of Composite Indices Measuring Country Performance: 2008 Update. New York: UNDP.
Goliński, M. (2009). ICT Development Index. in: Babis, H., Buko, J., Czaplewski,
R. (eds.): Rynki przesyłu i przetwarzania informacji – stan obecny i perspektywy
rozwoju. Szczecin: Uniwersytet Szczeciński.
Goliński, M. (2010). Networked Readiness Index, czyli siła marketingu. in: Czaplewski, R. (eds.): Rynek Informacji i Komunikacji. Szczecin: Uniwersytet Szczeciński.
Menou, M., J., Taylor, R., D. (2006). A “Grand Challenge”: Measuring Information
Societies. in: The Information Society: 22. Abingdon: Taylor & Francis Group.
OECD (2008). Handbook on Constructing Composite Indicators – Methodology and
User Guide. Paris: OECD.
Porter, T. (2009). Making Serious Measures: Numerical National Rankings, Peer
Review and Global Governance. New York.
http://www.allacademic.com/meta/p312210_index.html (Retrieved 2010-02-13)
Webster, F. (2006). Theories of the Information Society. Third edition. London and
New York: Routledge.
Problems and prospects of implementing knowledge management …
381
Problems and prospects of implementing
knowledge management in university
libraries: A case study of Banaras
Hindu University Library System
Mohammad Nazim1, Bhaskar Mukherjee2
Banaras Hindu University
Varanasi-221005 (INDIA)
1
Faculty of Law
[email protected]
2
Dept. Of Library & Information Science
[email protected]
Abstract
This paper examines the characteristic elements of various organizational
factors to identify whether a favorable climate for implementing and sustaining knowledge management existed in Banaras Hindu University Library
System (BHULS). The findings of the study show that there are fairly favorable conditions for adopting knowledge management practices in BHULS.
Staff in the library that participated in this study seems to be motivated and
ready to grasp the challenges.
Introduction
Knowledge management has been defined in the literature as a process or
practice of creating, acquiring, capturing, sharing and re-using organizational
knowledge (know-how) to improve performance and achieve goals and objectives of an organization (White, 2004).
382
Like other business management trends, knowledge management is also a
commercial concept, emerging first in the for-profit sector and then entering
into the non-profit. Roknuzzaman et al. (2009) argue that a library itself is a
knowledge-based organization where collection and maintenance of recorded
knowledge by librarians is a practice as old as civilization itself. The basic
goal of knowledge management within libraries is to leverage the available
knowledge that may help librarians to carry out their tasks more efficiently
and effectively (Shanhong, 2000). Knowledge management success in any
organization is believed to be dependent upon various factors as they provide
a context within which knowledge flows among individuals, whose actions in
turn are influenced by their environment (Conley and Zheng, 2009). The
existence of a favorable environment for communication, collaboration,
knowledge sharing and transfer as well as easy identification of the organization’s knowledge assets is essential for the success of knowledge management. An appropriate organizational environment enables an organization to
execute better, learn faster, and change more easily (Hariharan, 2005).
Conceptual framework
Organizational factors capture the general characteristics of the organization.
Several factors are important for the successful implementation of a knowledge management, such as top management and leadership support, organizational culture, organizational structure, technology infrastructure, knowledge process, knowledge sharing and strategy (Choi, 2000; Gold et al.,
2001). For this study, we selected five factors which are common in all the
frameworks discussed in the literature. These are: (i) organizational culture
(ii) organizational structure (iii) technology infrastructure (iv) knowledge
sharing, and (v) knowledge process.
383
Objectives and Methods
In order o gain a better understanding of how some factors are critical for the
successful application of knowledge management in university libraries, we
chose BHULS with the aim to investigate whether a favorable climate existed for the effective knowledge management process by evaluating the librarians’ perception of:
• The organizational culture and values of the organization for creating
willingness among staff to share knowledge and professional experience
with their colleagues.
• The organizational structure that allows reward and incentives for encouraging employees to coordinate and share knowledge.
• The availability and use of technology to facilitate knowledge flow in the
organization.
• The knowledge processes to capture, store, and transform knowledge.
• Knowledge sharing.
A questionnaire consisting of 15 open-ended and closed questions was designed in order to collect the required data for this study. 50 questionnaires
were non-randomly distributed to the library staff of BHULS. Of the fifty
respondents, four were deputy librarians, eight were assistant librarians, fourteen were professional assistants and twenty-four were semi-professional
assistants. We approached each respondent personally and, therefore, we
were able to get a 100% reply rate. Staff completing the questionnaire was
aged between 25 and 54 years with the majority (80%) aged between 25 to
45 years old. Their length of service was between 2 years and 27 years with
the majority (75%) having between 2 and 18 years of employment in libraries, 75% having a master degree in library and information science, 15% a
bachelor degree in library and information science and 10% a doctoral degree
in library and information science.
Findings
When respondents were asked about their organization’s willingness to accept change, the majority of participants (73%) responded positively, giving
384
examples of continuous improvement of library operations and services, development of information and human resources, and the fast adoption of new
technologies. 27% gave answer in negation mentioning that lack of recognition and receptivity for change in their organization are serious obstacles to
change. When asked about their work environment and what they think about
it, 33% of the participants considered that it was one that encouraged the
development of communities of practice and organizational learning, 21%
mentioned collaboration, and 13% mentioned communication and 9% teamwork. With respect to the ways that staff performance was encouraged in
their organization, the majority of the participants (57%) considered performance was insufficiently rewarded or not encouraged at all. However,
19% of the participants in this study indicated that this was by material reward, 14% by advancement in career, and 10% by just appreciation from
senior fellows. Upon the question, whether their organization provided support for professional training courses or workshops, an overwhelming majority (69%) of respondents asserted that their organization encouraged them to
participate in professional conferences, workshops and other related events;
17% responded that they participated in such events on their own initiative,
and 21% said that their organization sends them to such activities. In addition, 31% noted that their organization initiated their own professional seminars, trainings or other events. These high percentages show that BHULS
understands very well the importance of trained staff with up-to-date knowledge. Further, when they were asked to mention the areas where they would
like to gain more knowledge in order to overcome future challenges, 21%
mentioned knowledge of e-resources, 37% knowledge of library automation
and digitization and 19% of metadata. To characterize the nature of the organizational structure of BHULS, respondents were asked to explain in few
words the managerial style in their organization; 26% of the participants
characterized it as being one that creates a stimulating climate. Phrases and
words such as: open for change, dynamic, flexible, democratic, communicative, and competitive climate were used. On the contrary, 49% characterized
their managerial style adversely, as being authoritative and used terms such
as rigid, dictatorial, bureaucratic, disorganized, non communicative, non
transparent, and reticent to change. 25% of the respondents replied to this
important issue by choosing “not sure”. These varying perceptions show that
no major change has taken place at the management level in BHULS. Regarding the employees’ perception of their library policy concerning the staff
and the organizational development, 57% of the participants perceived the
385
priority of the library in terms of organizational development to be orientated
towards continuous professional development. However, 9% of respondents
remarked on the fact that hiring staff with higher education qualifications in
the LIS field constitutes one of the priorities for the institutions where they
work. Although technology is essential for the success of knowledge management, the literature also reveals that technology alone does not ensure a
successful knowledge management. BHULS is equipped with the latest technology to store and disseminate information resources to their users. The
library recently installed library software to integrate information and knowledge of the resources and users of different sections. Expert and best practice
databases, portals and knowledge repositories have not yet been designed and
maintained by BHULS. However, most of the participants (79%) utilize
Internet and Web 2.0 tools to share knowledge for keeping themselves
abreast with the latest development in their field. Asked about their understanding of the importance of knowledge sharing, 63% of staff mentioned
that sharing of knowledge and experiences is important for the organizational
as well as personal development. When enquired about the staff’s willingness
to share knowledge, the majority of the staff (69%) again responded positively indicating their willingness to share knowledge and professional experience. In response to the question regarding the motivation of knowledge
sharing, the following reasons were mentioned by the respondents: professional cooperation (14%), increase of working efficiency (21%), loss of
knowledge when a member of staff leaves the organization (31%), exchange
of professional experience (25%). Among the respondents not willing to
share their knowledge a lack of rewards and incentives, fear of negative consequences, and insecurity about the value of their knowledge were mentioned
as reasons. Asked about knowledge processes in their organization, the majority of respondents (65%) was found less sure about knowledge process
activities in the library. However, 10% of the respondents mentioned that the
structure of their library facilitates exchange or transfer of knowledge, 15%
mentioned that the knowledge required for their daily work is easily accessible in the library and 11% mentioned that they apply knowledge learned from
experiences. When respondents were asked to indicate the requirement of
knowledge in future to perform their work smoothly, 41% of the staff specified the requirement of IT skills, 11% specified their willingness to enhance
their knowledge level in routine work and processes assigned to them and
42% specified no requirement to enhance their level of knowledge as they are
equipped with the IT skills.
386
Conclusion
Given the critical role that organizational factors play in the success of
knowledge management practices, the results of our research show that some
of the elements of the organizational factors are existent and there are fairly
favorable conditions for adopting knowledge management practices in
BHULS. Staff in the library that participated in this study seems to be motivated and ready to grasp the challenges. A knowledge management program,
once put in practice, can lead to the improvement of their performances and a
secure position for the organization to survive in the highly competitive age.
However, this research is limited to BHULS and the findings of this research
cannot be used to generalize to other university libraries in India. Future research should encompass a larger sample and examine more concrete issues
of organizational factors that are critical to knowledge management success
in university libraries.
References
Choi, Y. S. (2000), An Empirical Study of Factors Affecting Successful Implementation of Knowledge Management, Doctoral dissertation. University of Nebraska.
Conley, C. A. and Zheng, W. (2009), “Factors Critical to Knowledge Management
Success”, Advances in Developing Human Resources, Vol. 11, pp.334.
Gold, A. H., Malhotra, A., and Segars, A. H. (2001), “Knowledge Management: An
organizational Capabilities Perspective”, Journal of Management Information
systems, Vol.18, No.1, pp. 185–214.
Hariharan, A. (2005), “Critical success factors for knowledge management”. Knowledge Management Review, Vol. 8, No.2, pp. 16–19.
Roknuzzaman, M., Kanai, H., Umemoto, K. (2009), “Integration of knowledge management process into digital library system: a theoretical perspective”, Library
Review, Vol. 58, No .5, pp. 372–386.
Shanhong, T. (2000), “Knowledge management in libraries in the twenty-first century”, paper presented at the 66th IFLA Council and General Conference, Jerusalem, August 13–18.
387
White, T. (2004), “Knowledge management in an academic library: based on the
case study KM within OULS”, paper presented at the 70th IFLA General Conference and Council, Buenos Aires, August 22–27.
388
Domänenübergreifende Phrasenextraktion
mithilfe einer lexikonunabhängigen
Analysekomponente
Universität Hildesheim – Institut für Informations- und Sprachtechnologie
Zusammenfassung
Der vorliegende Artikel beschreibt einen neuartigen domänenübergreifenden
Ansatz zur Extraktion von Phrasen, der sich mit geringem Aufwand und ohne
komplexe Lexika umsetzen und auf andere Domänen übertragen lässt. Dies
wird anhand von Kundenrezensionen und Patentschriften getestet.
Abstract
This paper presents a new approach, which can be easily adapted to different
domains without the existence of comprehensive lexica. As test documents
customer reviews and patent documents are used.
Einleitung
Die Extraktion sinntragender Phrasen aus Korpora setzt i.d.R. ein intensives
Verständnis der Texte und der betrachteten Domäne voraus. Auch bedarf es
in vielen Fällen der Adaption verwendeter Wissensbasen und zugrunde liegender Modelle. Dieser Prozess ist nicht selten zeit- und arbeitsintensiv. Der
vorliegende Artikel beschreibt einen neuartigen domänenübergreifenden
Ansatz, der Shallow und Deep Parsing kombiniert und sich mit wenig Aufwand und ohne komplexe Lexika realisieren und auf andere Domänen über-
Domänenübergreifende Phrasenextraktion ...
389
tragen lässt. Als Beispiel werden zwei sehr unterschiedliche Textdomänen
herangezogen: Kundenrezensionen und Patentschriften.
Im nächsten Abschnitt wird zunächst auf existierende Ansätze eingegangen, bevor in Kapitel 3 der domänenübergreifende Ansatz beschrieben wird.
Es schließt sich eine Beschreibung der Evaluierungsansätze an, bevor das
Paper mit einem Ausblick schließt.
Verwandte Arbeiten
Im Information Retrieval zeigt sich seit einiger Zeit, dass der klassische Bagof-Words-Ansatz sowohl innerhalb der Indexierung als auch im Anfrageprozess zunehmend abgelöst wird. Viele Wissenschaftler vertreten die Meinung, Phrasen seien häufig präziser als einfache Terme (vgl. z.B. Tseng et al.
2007: 1222). So kann bspw. die Bedeutung der beiden Terme „schwarzes
Schaf“ nur bei gemeinsamer Betrachtung (als Phrase) erfasst werden.
Zu den gängigen Verfahren der Phrasenextraktion zählen regelbasierte
Ansätze wie das wörterbuchunabhängige Begrenzerverfahren (vgl. Jaene/
Seelbach 1975). Für die Inhaltserschließung werden hier Phrasen in Form
von Mehrwortgruppen, die als mehrere eine syntaktisch-semantische Einheit
bildende Wörter definiert werden (vgl. ebd.: 9), aus englischen Fachtexten
extrahiert. Dafür werden sogenannte Begrenzerpaare definiert, die als Grenzen für die zu extrahierenden Nominalphrasen fungieren (vgl. ebd.: 7). Diese
bestehen aus Kombinationen von Stoppwörtern oder Satzzeichen, die in Listen erfasst sind (vgl. ebd.: 51 ff.). Ein ähnliches Verfahren, das innerhalb der
Patentdomäne Anwendung findet, beschreiben Tseng et al. 2007. Sie ermitteln Phrasen bzw. Schlüsselwörter mithilfe einer Stoppwortliste. Die Autoren
stellen fest, dass die längsten sich wiederholenden Phrasen häufig besonders
gute Kandidaten darstellen (vgl. Tseng et al. 2007: 1223).
Ein klassisches linguistisches Verfahren bildet das Dependenzparsing, das
die Abhängigkeiten der Satzglieder ermittelt. Im Information Retrieval finden sich Dependenzrelationen häufig als sogenannte Head/Modifier-Relationen wieder. Diese Head/Modifer-Paare setzen sich aus einem Head, welcher
den Kern der Phrase darstellt, und einem Modifier zusammen, der der Präzisierung des Heads dient (vgl. Koster 2004: 423), wie das nachfolgende Beispiel zeigt: linguistic (= modifier) approach (= head).
390
Der Vorteil von Head/Modifier-Relationen liegt insbesondere darin, dass
diese neben syntaktischen auch semantische Information enthalten (vgl. u.a.
Ruge 1989: 9). Daher erfreuen sie sich vor allem im Rahmen des Indexierungsprozesses großer Beliebtheit (vgl. u.a. Koster 2004). In Form von Head/
Modifer-Tripeln (Term-Relation-Term) erweisen sich Dependenzrelationen
u.a. für Klassifikationsaufgaben als hilfreich (vgl. Koster/Beney 2009).
Domänenübergreifende Phrasenextraktion
Die im Folgenden vorgestellte Methode für die Phrasenextraktion vereinigt
nun die beiden zuvor genannten Verfahrensansätze. Als Anwendungsbereiche werden Patentschriften und Kundenrezensionen gewählt, die in zwei
Projekten mit unterschiedlichen Zielsetzungen verwendet werden (vgl. Kapitel 4). Das Ziel des neuen Extraktionsverfahrens besteht darin, für beide Projekte ein Werkzeug zur Identifikation linguistischer Phrasen bereitzustellen,
das sich mit geringem Aufwand für unterschiedliche Domänen adaptieren
lässt und auch auf umfangreichen Korpora performant arbeitet. Dabei ist die
Semantik der extrahierten Phrasen nicht zu vernachlässigen. Demgemäß wird
ein Mischverfahren entwickelt, das auf linguistische Regeln zurückgreift,
aber eher die Funktionalität eines Shallow Parsers aufweist.
Es wird ein regelbasiertes Verfahren eingesetzt, das sich z. T. auf das Begrenzerverfahren (vgl. Jaene/Seelbach 1975) zurückführen lässt, jedoch mit
Ansätzen des Dependenzparsings (vgl. z.B. Ruge 1989) kombiniert wurde.
Um ressourcenintensives syntaktisches Parsen zu vermeiden, erfolgt die
Phrasenextraktion mithilfe verschiedener Regeln, in denen jeweils Paare von
Begrenzern definiert sind. Im Unterschied zu dem oben beschriebenen
Begrenzerverfahren werden hier Wortklassen (POS-Tags) statt Stoppwörtern
verwendet. Durch deren Einsatz werden bereits bestimmte Phrasentypen
vorgegeben. Das POS-Tag DT (Artikel) leitet bspw. ausschließlich Nominalphrasen ein. Die so definierten Phrasentypen sind abstrahiert und können
leichter auf andere Sprachen und Domänen übertragen werden, da die Kategorie DT sowohl die deutschen Artikel der, die, das als auch das englische
Pendant the umfasst. Diese abstrahierte Version des Begrenzerverfahrens ist
daher deutlich flexibler und benötigt keine komplexen Wortlisten. Außerdem
wird auf Grundzüge des Dependenzparsings zurückgegriffen. Jede der extra-
Domänenübergreifende Phrasenextraktion ...
391
hierten Phrasen verfügt daher über einen Head und einen Modifier (vgl.
Koster 2004). Die Beispiele in Abb. 1 verdeutlichen, dass es sich bei den
extrahierten Phrasen nicht nur um Head/Modifier-Paare im engeren Sinne
handeln muss, sondern auch längere Phrasen abgebildet werden.
Begrenzer: a(DT) & with(IN)
Begrenzer: a(DT) & ,(,)
(EP-1120530-B1)
(Hiu&Liu 2004)
Abb. 1: Visualisierte Beispielphrasen beider Domänen
Evaluierungsansätze
Das Ziel im Opinion Mining Projekt ist das Extrahieren von Phrasen, die aus
Meinungen bezüglich der rezensierten Produkte und deren Eigenschaften
bestehen. Für Evaluierungszwecke liegt im Projekt ein Korpus vor, das auf
Satzebene annotierte Produkteigenschaften und die diesbezüglich ausgedrückte Meinung enthält (vgl. Hu/Liu 2004; Ding et al. 2008).
Für explizit genannte Produkteigenschaften, wie „picture quality“ in folgendem Satz: „The picture quality is great.“ soll im Rahmen der Evaluierung
überprüft werden, ob die jeweilige Phrase die annotierte Produkteigenschaft
enthält. Ist dies der Fall, wird die Phrase als Treffer gewertet. Da implizit genannte Produkteigenschaften, wie „size“ im Satz „It fits in every pocket.“, so
nicht evaluiert werden können, wird das Korpus um Markierungen der entsprechenden Textstellen, die die Produkteigenschaft aufweisen, erweitert. Für
die Evaluierung werden jeweils Recall und Precision ermittelt.
Im Patent Retrieval-Projekt liegt der Fokus auf der Evaluierung der Genauigkeit der extrahierten Phrasen. Zu diesem Zweck wird auf einen Ansatz
von Verbene et al. 2010 zurückgegriffen. Als Evaluierungsbasis verwenden
die Autoren eine manuell annotierte Stichprobe von 100 Sätzen, die als Goldstandard betrachtet werden kann. Ein Abgleich der extrahierten Phrasen mit
den intellektuellen Annotationen ermöglicht die Berechnung der Accuracy.
In diesem Projekt bietet sich ein solcher Evaluierungsansatz ebenfalls an, da
eine Stichprobe manuell annotierter Patentschriften bereits existiert.
392
Ausblick
Erste Experimente und manuelle Auswertungen weisen auf eine viel versprechende und Ressourcen sparende Methode zum Extrahieren von Phrasen aus
verschiedenen Korpora hin. Im Rahmen der beiden zuvor angesprochenen
Projekte sollen im nächsten Schritt die in Kapitel 4 erläuterten Evaluierungsverfahren umgesetzt werden, um auf diese Weise den Eindruck der ersten
manuellen Auswertungen empirisch zu stützen.
Ding, X.; Liu, B.; Yu, Ph. S. (2008): A holistic lexicon-based approach to opinion
mining. In: Proceedings of the international conference on Web search and web
data mining. Palo Alto, California, USA: ACM, S. 231–240.
Hu, M.; Liu, B. (2004): Mining Opinion Features in Customer Reviews. In: Proceedings of the 19th National Conference on Artifical intelligence. San Jose, California, USA: AAAI Press/The MIT Press, S. 755–760.
Jaene, H.; Seelbach, D. (1975): Maschinelle Extraktion von zusammengesetzten
Ausdrücken aus englischen Fachtexten. Berlin u.a.: Beuth.
Koster, C. H. A. (2004): Head/Modifier Frames for Information Retrieval. In: Proceedings of the 5th Conference on Intelligent Text Processing and Computational
Linguistics. Seoul, Korea: Springer (LNCS 2945), S. 420–432.
Koster, C. H. A.; Beney, G. Jean (2009): Phrase-Based Document Categorization
Revisited. In: Proceedings of the 18th Conference on Information and Knowledge
Management. Hong Kong, China: ACM, S. 49–55.
Ruge, G. (1989): Generierung semantischer Felder auf der Basis von Frei-Texten. In:
LDV Forum 6, H. 2, S. 3–17.
Tseng, Y.-H.; Lin, Ch.-J.; Lin, Y.-I. (2007): Text Mining Techniques for Patent
Analysis. In: Information Processing and Management 43, H. 5, S. 1216–1247.
Verbene, S.; D’hondt, E.; Oostdijk, N. (2010): Quantifying the Challenges in Parsing
Patent Claims. In: Proceedings of the 1st International Workshop on Advances in
Patent Information Retrieval (AsPIRe’10). Milton Keynes, S. 14–21.
Content Analysis in der Mathematik: Erschließung und Retrieval ...
393
Content Analysis in der Mathematik:
Erschließung und Retrieval mathematischer
Publikationen
FIZ Karlsruhe – Zentralblatt MATH
Franklinstr. 11, 10587 Berlin
[email protected]
[email protected]
Zusammenfassung
Die traditionellen Informationsdienste in den Wissenschaften stehen angesichts der Publikationsflut und der Entwicklung der elektronischen Medien
gerade auch in der Mathematik vor großen Herausforderungen. Es müssen
neue Konzepte für eine erweiterte qualitativ hochwertige Erschließung entwickelt werden, die weitgehend automatisierbar sind.
In dem Beitrag werden die Konzepte zur Texterschließung in der Mathematik
analysiert und Methoden entwickelt, die neue Möglichkeiten für das Retrieval eröffnen. Der Beitrag schließt mit einem Ausblick auf die Möglichkeiten
zur Formel-Analyse.
Abstract
The classical scientific information services are confronted with big challenges: the increasing number of publications is calling for a new machinebased concept of content analysis and sophisticated methods for the retrieval.
In the paper, a few new concepts for the content analysis and the retrieval of
mathematical publications are presented. Moreover, the problem of formula
analysis and retrieval is discussed.
394
1
Einleitung
Wissenschaftliche Publikationen bilden auch heute noch den Kern des Wissens in der Mathematik und haben eine Schlüsselrolle für das Auffinden und
den Zugang zum mathematischen Wissen.
Mit dem Übergang in das industrielle Zeitalter und dem damit verbundenen Aufschwung in Forschung und Lehre hatte sich die Anzahl der wissenschaftlichen Publikationen sprunghaft erhöht. Für die Nutzer der Informationen, Wissenschaftler und Anwender, wurde es zunehmend aufwendiger
und schwieriger, die zur Lösung eines Problems relevanten Publikationen zu
identifizieren bzw. aufzufinden. In der Vergangenheit haben sich daher in
verschiedenen wissenschaftlichen Disziplinen spezialisierte Informationsdienste, die Referatejournale, herausgebildet. Ziel der Referatejournale war
(und ist es), den Lesern einen Überblick und eine Orientierungshilfe über die
Entwicklungen in den Wissenschaften zur Verfügung zu stellen.
Die Forderung nach effizienten Werkzeugen für die Suche nach relevanten Informationen ist angesichts des ungebremsten Wachstums wissenschaftlicher Literatur und der Entwicklung der elektronischen Medien aktueller
denn je. Insbesondere sind bessere Maschinen-basierte Methoden für die Erschließung der Literatur und die Einordnung der Ergebnisse in den wissenschaftlichen Kontext notwendig.
Universelle Suchmaschinen wie Google werden den Anforderungen aus
den Wissenschaften nur zum Teil gerecht, da die Anforderungen und Interessen der Wissenschaften aus kommerzieller Sicht nur von untergeordnetem
Interesse sind. In dem Beitrag werden für die Mathematik der Stand und die
Perspektiven der inhaltlichen Erschließung mathematischer Literatur diskutiert.
2
Die Referatorgane und bibliografischen
Datenbanken der Mathematik
Im 18. und 19. Jahrhundert stieg die Anzahl der wissenschaftlichen Publikationen immens an. Der erste eigenständige Referatedienst in der Mathematik,
das Jahrbuch über die Fortschritte der Mathematik (JFM), wurde 1868 von
Mathematikern in Berlin gegründet und umfasste 880 mathematische Publi-
395
kationen. Das JFM enthielt die bibliografischen Daten der Publikationen und
häufig auch Besprechungen der Arbeiten, die von anderen Mathematikern
auf freiwilliger Basis erstellt wurden.
1931 wurde in Deutschland ein weiterer Referatedienst für die Mathematik, das Zentralblatt für Mathematik (ZfM), gegründet. Es war insofern ein
Gegenkonzept zum JFM, als dass die Aktualität absolute Priorität hatte und
das Jahrgangsprinzip der JFM, also alle Arbeiten eines Jahres in einem Band
zusammenzufassen und aufzubereiten, aufgegeben wurde. Mit Ende des 2.
Weltkriegs wurde das JFM eingestellt. Bis in die 70-iger Jahre des 20. Jahrhunderts war sowohl die Produktion als auch das Produkt ZfM ausschließlich
an das Papier gebunden. Mit dem Aufkommen der elektronischen Medien
wurden zunächst die Produktion und dann auch das Produkt digitalisiert, es
entstand die Datenbank ZBMATH, zunächst parallel zur gedruckten Form.
2010 wurde die gedruckte Form des ZfM eingestellt, der Nachweisdienst
ZBMATH steht seitdem ausschließlich in elektronischer Form zur Verfügung. Heute ist die Datenbank ZBMATH der weltweit vollständigste und
umfassendste Nachweisdienst für mathematische Literatur; für eine ausführliche Darstellung der mathematischen Referatedienste siehe die Artikel von
(Wegner, 1998) und (Göbel & Sperber, 2010).
3
Content Analysis in den bibliografischen
Datenbanken der Mathematik
3.1
Qualitätsparameter der Referatedienste
Die Qualität und Attraktivität der Referatedienste macht sich an mehreren
Kriterien fest:
• Vollständigkeit der Abdeckung des Gebietes, das durch den Dienst bearbeitet wird
• Umfang und Qualität der Erschließung des Materials
• Verknüpfung mit verwandten Informationen (Kontextbezug)
• Retrieval: Nutzerschnittstellen und Zugang zu den Diensten
396
3.2
Ein Modell für die Erschließung
Grob lässt sich die Erschließung wissenschaftlicher Publikationen den folgenden vier Kategorien zuordnen:
•
Die bibliografischen Metadaten definieren das Minimum an Informationen, das für die Aufnahme in die Datenbank erforderlich ist, dazu
gehören insbesondere Autor, Titel und Quelle.
• Die referentiellen Metadaten beinhalten die Verweise und Literaturreferenzen einer Publikation bzw. auf eine Publikation, aber auch Verknüpfungen mit anderen Autoren (Autorennetzwerke).
• Die Web2.0-Metadaten umfassen im Wesentlichen das Feedback der
Community, etwa in Form von Kommentaren oder Diskussionsforen.
• Unter semantischen Metadaten werden alle Metadaten zusammengefasst,
die Aussagen über den Inhalt oder dessen Einordnung in den wissenschaftlichen Kontext machen, insbesondere sind das der Abstrakt bzw.
die Review einer Publikation, Keywords und Klassifikation. Diese Metadaten sind im Wesentlichen textbasiert. Abstrakt/Review, Keywords und
Klassifikation haben eine eigenständige Bedeutung und sind komplementär zueinander.
Bibliografische, semantische, referentielle und Web2.0-Metadaten überlappen sich. Referentielle Metadaten etwa sind ein wichtiges Werkzeug für die
Klassifizierung. Auch bibliografische Metadaten, etwa das Profil einer Zeitschrift, enthalten wichtige Anhaltspunkte über den Inhalt einer Arbeit.
3.3
397
Die Mathematical Subject Classification
In den 80er Jahren des 20. Jahrhunderts wurde von der American Mathematical Society (AMS) die AMS Subject Classification entwickelt und unter
anderem für den Referatedienst Mathematical Reviews (MR) eingesetzt. Um
dieses Schema als modernen Standard in die Mathematik einzuführen und
weiter zu entwickeln, wurde Ende der 80er in Kooperation zwischen MR
(heute Datenbank MathSciNet) und ZBMATH im Rahmen einer vertraglichen Vereinbarung eine gründliche Revision durchgeführt und diese fortan
unter dem Namen Mathematical Subject Classification (MSC) weiterentwickelt. Die MSC ist ein hierarchisches dreistufiges System mit ca. 6.000 Klassen. Neben den hierarchischen Relationen zwischen Klassen existieren zwei
weitere Arten von Verweisen zwischen den Klassen: „See also ...“ für Klassen ähnlichen Inhalts und „For .. see ...“ als Verweise auf Klassen, die spezielle Aspekte vertieft behandeln. Für weitere Informationen zur Klassifikation siehe (Göbel & Sperber, 2010).
Mit der Aktualisierung der MSC im Jahr 2010 wurde erstmals eine elektronische Master-Version eingeführt. Die Master-Version ist im TeX-Format,
aus dem andere Formatierungen, etwa PDF, Word oder ein KWIC Index generiert werden. Die TeX-Version ist im Wesentlichen identisch mit der gedruckten Version. Semantische Aussagen, insbesondere die Relationen, sind
nicht in Maschinen-verstehbarer Form dargestellt.
Die MSC weist zudem einige Schwächen im Design auf:
• Definitionen der Klassen: Die Definition der MSC-Klassen erfolgt ausschließlich über die Benennung der Klassen und deren Einordnung in das
Klassifikationsschema. So umfasst etwa die Klasse „34Dxx Stability theory“ alle Publikationen, die sich mit der Stabilität der Objekte der Klasse
„34-XX Ordinary differential equations“ befassen, also mit der Stabilität
gewöhnlicher Differentialgleichungen.
• Unübersichtlichkeit: Die große Anzahl der Klassen der MSC und die
teilweise starke inhaltliche Überlappung der Klassen führen dazu, dass
die Arbeiten mehreren Klassen zugeordnet werden können. Andererseits
ist die MSC – trotz der großen Anzahl von Klassen – für eine spezifische
Suche oftmals nicht ausreichend (zu grob).
• Ungleiche Wichtung der Klassen: Die Klassen der MSC unterscheiden
sich sowohl in Inhalt und Form als auch in der Granularität. Letzteres
führt u.a. dazu, dass die Anzahl der Arbeiten, die einer Klasse zugeordnet
sind, sehr unterschiedlich ist.
398
•
•
3.4
Lokales Design versus globales Design: Die Weiterentwicklung der
MSC erfolgt primär nach lokalen Gesichtspunkten, d.h. es finden die Erfordernisse einzelner Gebiete (MSC-Klassen der Top Ebene) Berücksichtigung. Prinzipien für ein einheitliches Design der MSC, etwa Konsistenz
in der Strukturierung des Schemas, spielen eine eher untergeordnete Rolle. So werden z.B. Anwendungen in der MSC sehr unterschiedlich gehandhabt, teilweise werden die Anwendungsbereiche direkt benannt,
meist sind sie aber unspezifisch.
Die Klassen sind verschiedenen Typs: Die Klassen umfassen mathematische Objekte (etwa Gewöhnliche Differentialgleichungen), qualitative
Aspekte (etwa Stabilität) oder Lösungsmethoden (etwa Finite Differenzenverfahren), etc.
Keywords und kontrolliertes Vokabular
Keywords sollen charakteristische Terme der bzw. über die Publikation enthalten, d.h. charakterisieren sowohl den Inhalt als auch ordnen die Publikation in den mathematischen Kontext ein. Bisher gibt es für die Mathematik
noch kein kontrolliertes Vokabular.
Unter einem kontrollierten Vokabular der Mathematik wird im Folgenden
die Menge der verwendeten Terme (Mehrwortphrasen) verstanden, die durch
intellektuelle oder maschinelle Methoden aus dem vorhandenen mathematischen Wissen extrahiert wird und die für die Mathematik repräsentativ ist.
Das kontrollierte Vokabular ist untrennbar mit der Entwicklung der Mathematik verbunden, durchläuft also einen stetigen Prozess der Veränderung und
vergrößert sich ständig. Eine zuverlässige Abschätzung über die Größenordnung des verwendeten Vokabulars gibt es bisher nicht.
In einer Voruntersuchung wurden die Keywords der Datenbank ZBMATH
untersucht. Die Analyse ergab einige überraschende Befunde, u.a. auch Hinweise auf die zu erwartende Größenordnung:
• Durchschnittlich sind jeder Publikation 3 Keywords zugeordnet.
• Häufig werden die Labels der MSC Klassen als Keywords verwendet,
die Keywords fallen sogar häufig mit den Labels der MSC Klassen zusammen.
• Die Anzahl der verschiedenen Keywords für jede der 63 MSC Top-Klassen liegt deutlich über 1.000, d.h. ein kontrolliertes Vokabular für die
Mathematik wird mehr als 500.000 Phrasen umfassen.
4
Ansätze für die semantische Erschließung
in der Mathematik
4.1
Semantic-Web-Technologien
399
Semantic-Web-Technologien beschäftigen sich mit dem Problem, Informationen so darzustellen, dass deren Bedeutung auch von Maschinen erfasst
werden kann. Informationen im Web lassen sich dann automatisch auswerten
und verknüpfen, was neuartige Möglichkeiten für die Suche und den Zugang
zu den Informationen eröffnet.
Mit dem Semantic Web stehen Methoden für eine erweiterte semantische
Erschließung von Informationen zur Verfügung: (Resource Description
Framework (RDF), 2004) und (RDF Vocabulary Description Schema Language 1.0: RDF Schema, 2004) als allgemeine Ansätze für die semantische
Annotation, (Ontology Web Language (OWL), 2009) und (Simple Knowledge Organization System (SKOS), 2009) für die Definition von Ontologien, Klassifikationssystemen und Thesauri.
RDF und RDF Schema: RDF ist ein Graphenmodell, das es erlaubt, Aussagen der Form ,Subjekt – Prädikat – Objekt‘ zu formulieren (etwa die Person A ist Autor der Publikation P) und diese zu verknüpfen. Mit RDF Schema wird das Vokabular für die RDF Darstellung der Informationen
bereitgestellt.
OWL und SKOS: OWL und SKOS setzen auf RDF auf, benutzen also das
Graphenmodell von RDF und das Vokabular von RDF Schema. Schon RDF
Schema bietet mit dem Klassenkonzept die Möglichkeit, hierarchische Beziehungen abzubilden. OWL und SKOS verfügen darüber hinaus über ein
spezielles Vokabular für Thesauri, Klassifikationssysteme und Taxonomien.
So lassen sich etwa die Klassen der obersten Ebene eines Klassifikationsschemas auszeichnen oder die Relationen zwischen Klassen präzisieren.
Speziell für die Darstellung und Beschreibung mathematischer Inhalte
wurden XML-Sprachen entwickelt, die die Möglichkeit bieten, mathematische Formeln und Symbole zu analysieren und suchbar zu machen. Darauf
wird in Abschnitt 5 näher eingegangen.
400
4.2
MSC und Semantic-Web-Technologien
Die Transformation der MSC in das Semantic Web erfolgt schrittweise. In
einem ersten Schritt wurde die MSC mittels des SKOS/RDF-Schema Vokabulars dargestellt. Hierzu gehören die Definition des MSC Schemas, der
MSC Klassen sowie der Relationen zwischen den Klassen. Mit einer 1:1Übersetzung der MSC von TeX nach SKOS ist es aber nicht getan. Um die
MSC stärker für das Retrieval nutzbar zu machen, soll die MSC in einem
zweiten Schritt überarbeitet und um zusätzliche semantische Aussagen über
die Klassen der MSC erweitert werden. Insbesondere sind vorgesehen
• eine Typisierung der Objekte der Klassen, dafür wird gegenwärtig ein
Schema entwickelt
• eine Präzisierung der Definitionen der Klassen über den Aufbau eines
kontrollierten Vokabulars, siehe dazu den Abschnitt 4.3
• eine Präzisierung der Relationen zwischen den Klassen, etwa der Transitivität der hierarchischen Relationen
• die Überarbeitung der Klassenbezeichner, die Einführung alternativer
Klassenbezeichner und die Zuweisung multilingualer Labels
• die Entwicklung von Konkordanzen, z.B. zur DDC und UDC, die für
eine Interoperabilität mit Bibliothekssystemen relevant sind
• die Verknüpfung der verschiedenen MSC-Versionen, um die Entwicklung der MSC verfolgen zu können
• dieVerlinkung mit anderen Informationsdiensten, etwa Wikipedia, ArXiv
4.3 Kontrolliertes Vokabular
Der Aufwand für den intellektuellen Aufbau eines kontrollierten Vokabulars
für die Mathematik ist bei der zu erwartenden Größenordnung zu aufwendig.
Stattdessen müssen maschinelle Lernverfahren eingesetzt werden, deren Resultate dann allerdings intellektuell ausgewertet und überprüft werden müssen.
Als Ausgangspunkt lassen sich das Vokabular der MSC sowie weitere
vorhandene kontrollierte Vokabulare in der Mathematik nutzen, etwa die
(Encyclopaedia of Mathematics (EoM), 2002). In einem zweiten Schritt sol-
401
len zusätzlich die in der Datenbank ZBMATH vorhandenen Keywords ausgewertet werden. Das führt dann zu einer Anreicherung des Startvokabulars
um Keywords, die ebenfalls eine Klassifizierung gemäß MSC haben. Zudem
ist durch die Häufigkeit ihres Auftretens eine Wichtung der Terme gegeben.
In einem dritten Schritt schließlich soll das Startvokabular zur Extraktion von
zusätzlichem Vokabular aus mathematischen Texten eingesetzt werden.
Erste Tests zur zusätzlichen Extraktion von Keywords aus Abstracts mathematischer Publikationen wurden zusammen mit W. Gödert, FH Köln für
zwei MSC-Klassen (Gewöhnliche Differentialgleichungen und Graphentheorie) mit der Open Source Software Lingo durchgeführt. Neue Begriffe
sind zumeist Mehrwortgruppen, die durch Kombinationen aus existierenden
Begriffen entstehen. Das geschieht durch Phrasenbildung aus einem gegebenen Vokabular entsprechend vordefinierter Regeln (die aber flexibel angepasst werden können). Die Wortlisten der extrahierten Phrasen müssen anschließend intellektuell gesichtet werden. Die Tests haben zu etwa 30.000 relevanten Phrasen für jede der beiden MSC-Klassen geführt.
Von zentraler Bedeutung ist die Zuordnung der Terme des Vokabulars zur
MSC. Es lassen sich damit – neben dem kontrollierten Vokabular für die
gesamte Mathematik – spezielle Vokabulare für jede MSC Klasse aufbauen.
Diese Klassen-spezifischen Vokabulare ermöglichen Aussagen über die Korrelation der Klassen. Zudem können diese Vokabulare für die automatische
Klassifizierung eingesetzt werden. In einer Charakterisierung der MSCKlassen durch ein kontrolliertes Vokabular sehen wir einen natürlichen Arbeitsschritt für die automatische Klassifizierung von Publikationen. Den
MSC-Klassen werden dabei gewichtete Vektoren von Termen zugeordnet,
die die Klassen inhaltlich definieren und als Maß für die Einordnung einer
Publikation in eine MSC-Klasse genutzt werden. Übliche Verfahren der
Textklassifizierung, siehe dazu etwa den Übersichtsartikel von (Sebastiani,
2002), also der Aufbau von Wortlisten aus Volltexten durch Elimination von
Stoppwörtern, Stemming, n-grams, etc., liefern für die Mathematik unbefriedigende Ergebnisse. Ein kontrolliertes Vokabular (also eine Art ,Positiv‘Termliste) ist ein anderer Ansatz zur Ermittlung der relevanten Phrasen für
eine automatische Klassifikation. Mit der hier vorgeschlagenen Methode
entsteht gleichzeitig ein neues Werkzeug für eine qualitativ bessere Keywordextraktion als auch die automatische Klassifizierung.
Das kontrollierte Vokabular bietet zudem die Möglichkeit, Ähnlichkeiten
zwischen Publikationen unterhalb der MSC-Ebene zu identifizieren, also ein
402
Clustering der Publikationen vorzunehmen. Das ermöglicht neue Retrievalfunktionalitäten, etwa die Suche nach inhaltlich ähnlichen Dokumenten.
Keywords sind heute für das Retrieval wichtiger als Klassifikationssysteme. Das liegt u.a. an der fehlenden Kenntnis der Klassifikationssysteme
bei vielen Nutzern, aber auch an den Nutzergewohnheiten, die sich durch die
universellen Suchmaschinen wie Google ausgeprägt haben und ohne die (explizite) Nutzung von Klassifikationssystemen auskommen.
Ein kontrolliertes Vokabular kann zudem von den Autoren als Werkzeug
für die Verschlagwortung seiner Publikationen genutzt werden, etwa indem
die Autoren ihre Publikation über eine Schnittstelle eingeben und eine Vorschlagliste für Keywords erhalten.
5
Ein Ausblick in die Zukunft: Formelanalyse
Mathematik besteht bekanntlich nicht nur aus Text, sondern auch aus Formeln und Symbolen. Mathematische Symbole und Formeln komprimieren
Sachverhalte, die sonst häufig nicht mehr in natürlicher Sprache dargestellt
werden können. Symbole und Formeln enthalten in sehr verdichteter Form
semantische Informationen. Mathematische Symbole und Formeln können
im Abstrakt/Review, den Keywords und auch im Titel auftauchen.
Mit der Entwicklung der Rechentechnik ist Software zur Lösung mathematischer Aufgaben entwickelt worden, etwa Computeralgebrasysteme zur
Lösung von Gleichungen. Diese Software ist häufig sehr speziell und muss
miteinander verknüpft werden, um ein konkretes Problem zu lösen. Es müssen Methoden und Standards entwickelt werden, um Interoperabilität verschiedener Systeme zu erreichen. Im Rahmen von XML wurden Methoden;
Standards und Markup-Sprachen entwickelt, etwa (MathML, 2010) oder
(OpenMath), mit denen Symbole und Formeln eindeutig und Maschinenverstehbar dargestellt werden können.
Mathematische Formeln spielten für das Retrieval in gedruckten Publikationen keine Rolle. Die Schwierigkeiten für das Retrieval von Symbolen und
Formeln sind vielfältig. Die mathematische Formelsprache hat ähnliche
Schwächen wie die natürliche Sprache, etwa die unterschiedliche Verwendung von Symbolen oder der fehlende semantische Bezug. Mit der Entwicklung spezieller XML Sprachen für die Mathematik wurden die Voraus-
403
setzungen geschaffen, um Methoden und Werkzeuge für die Erschließung
von Formeln und deren Retrieval zu entwickeln. Erste Methoden und Konzepte befinden sich in der Diskussion.
FIZ Karlsruhe und American Mathematical Society (2010). Mathematics Subject
Classification MSC. http://www.msc2010.org (Retrieved January 15, 2011)
Göbel, S., Sperber, W. (2010). Bibliographische Information in der Mathematik –
Werkzeug zur inhaltlichen Erschließung und für das Retrieval, Forum der Berliner Mathematischen Gesellschaft, Band 12, 70–99
Hazewinkel, M. (2002). Encyclopaedia of Mathematics, Springer-Verlag: Berlin,
Heidelberg, New York. http://eom.springer.de/ (Retrieved January 15 2011)
OpenMath Society (2009). Open Math.
http://www.openmath.org (Retrieved January 15 2011)
Sebastiani, F. (2002) Machine learning in automated text categorization, ACM Computing Surveys 34(1), 1–47
W3C (2004), OWL Web Ontology Language Reference.
http://www.w3c.org/TR/owl-ref/ (Retrieved January 15, 2011)
W3C (2004). RDF Vocabulary Description Language 1.0: RDF Schema.
http.//www.w3c.org/TR/rdf-schema (Retrieved January 15, 2011)
W3C (2004). Resource Description Framework (RDF).
http://www.w3c.org/RDF/ (Retrieved January 15, 2011)
W3C (2010). Mathematical Markup Language (MathML) Version 3.0.
http://www.w3c.org/TR/MathML3/ (Retrieved January 15 2011)
W3C (2010). SKOS Simple Knowledge Organziation System.
http://www.w3c.org/2004/02/skos/ (Retrieved January 15 2011)
Wegner, B. (1998). Berlin als Zentrum des Wissenschaftlichen Referatewesens in
Begehr, Heinrich: Mathematik in Berlin: Geschichte und Dokumentation, 1.
Halbband; Shaker, 607-628
404
Jürgen Reischer
Eine begriffliche Positionsbestimmung
für die Informationswissenschaft
Jürgen Reischer
D-93040 Regensburg
[email protected]
Zusammenfassung
Der Begriff der Informativität in der Informationswissenschaft wird aus theoretischer und empirischer Perspektive untersucht und in Zusammenhang mit
den Begriffen der Relevanz und Informationsqualität gestellt.1
Abstract
The notion of informativeness in information science will be analyzed from a
theoretical and empirical point of view and related to the concepts of relevance and information quality.
1
Einleitung
Innerhalb der Informationswissenschaft spielen vor allem die Konzepte der
Information und des Wissens sowie der Relevanz eine bedeutende Rolle
(z. B. Kuhlen (1990), Hjørland (2010)). Diese Begriffe können jedoch nicht
isoliert betrachtet werden, sondern nur im Zusammenspiel mit den Konzepten der Informativität und Informationsqualität.
1 Eine ausführlichere Version dieses Beitrags findet sich unter www.juergen-reischer.de.
2
405
Informativität, Relevanz
und Informationsqualität
Der Begriff der Informativität findet sich in der Informationswissenschaft in
wenigstens zwei Bereichen wieder: explizit beim informativen (vs. indikativen) Summarizing (vgl. Borko & Bernier (1975)) und implizit im Information Retrieval bei der Bestimmung des Informationsgehalts von Termen
(tf•idf). Boyce (1982) stellt ferner den Zusammenhang zwischen Relevanz,
Topikalität und Informativität in einem 2-stufigen Retrieval-Prozess heraus:
Zuerst werden topikalisch relevante Dokumente ermittelt, dann die Dokumente gemäß ihrer Informativität (Verständlichkeit/Neuheit) für den Nutzer
sortiert. Die Informativität einer Aussage oder eines Textes kann nun im
relationalen oder absoluten Sinne bestimmt werden:
• Ein Text oder eine Aussage kann als informativ per se (über ein Thema
X) beurteilt werden, wenn keine Relevanzrelation zu einer aktuellen Fragestellung besteht (z. B. ein informatives Summary über X, eine Nachricht mit aktuellen Neuigkeiten über X). Der Text oder die Aussage ist
dann als potenzielle Antwort auf eine Frage in einem möglichen Problemkontext zu verstehen. Die Informativität eines Textes stellt ein intrinsisches Qualitätsmerkmal des Textes dar, die ohne Bezug auf die Frage
durch rein innertextuelle Faktoren wie Verständlichkeit, Interessantheit,
Neuigkeit usw. bestimmt werden kann (s. u.). Der Text ist potenziell geeignet, als Antwort auf eine mögliche Frage zu dienen.
• Ein Text oder eine Aussage kann als informativ per te (über ein Thema
X) verstanden werden, wenn diese in Relevanzrelation zu einer aktuellen
Fragestellung eines Informationssuchenden stehen. Die Aussage oder der
Text ist dann als aktuelle Antwort auf eine Frage in einem tatsächlichen
Problemkontext zu verstehen. Das im Text oder der Aussage nur potenziell enthaltene Wissen wird im aktuellen Kontext in Bezug zum Problem
des Informationssuchenden gesetzt, um dort Erkenntnisgewinn zu bewirken (Erkenntnis als neue und verstandene Information). Die Informativität eines Textes in Bezug auf eine bestimmte Fragestellung kann als extrinsisches Qualitätsmerkmal eines Textes interpretiert werden, das über
die intrinsischen Merkmale hinaus auch die Informativität der Antwort
auf ein aktuelles Informationsbedürfnis des Nutzers einbezieht. Der Text
ist aktuell geeignet, als Antwort auf eine tatsächliche Frage zu dienen.
406
Jürgen Reischer
Relevanz im Sinne einer thematischen Passung zwischen Suchanfrage
und Antwort ist eine notwendige Bedingung zur Befriedigung eines Informationsbedürfnisses, aber keine hinreichende: Sofern der Rezipient nichts aus
der Antwort lernen kann, weil sie redundant, unspezifisch, vage usw. ist, war
die Antwort uninformativ. In diesem Sinne ist die Informativität von Texten
oder Aussagen ein mindestens so starkes Kriterium wie Relevanz selbst.
3
Empirie zur Informativität
Aus der Literatur zum Summarizing ist bereits eine Reihe von Informativitäts-Merkmalen bekannt, die zur Konstruktion automatischer Summaries verwendet werden (z. B. Paice (1990), Kupiec et al. (1995), Strzalkowski et al.
(1999), Goldstein et al. (1999); vgl. ausführlich Reischer (2010a–c)). Hierzu
rechnen Faktoren wie Novität und Spezifität (Informationsgehalt/Frequenz
von Termen), Interessantheit (Bonus-/Malus-Terme), Thematizität (Kohärenz/Deklarativität von Aussagen) sowie Faktizität (Objektivität/Wahrheitstreue von Aussagen). Vorausgesetzt ist die grundsätzliche Verständlichkeit
eines Textes als notwendige Bedingung für dessen Informativität. Im Rahmen des EXCERPT-Projekts zum Summarizing und Passagen-Retrieval wurden auch empirische Untersuchungen zum Begriff der Informativität von
Texten vorgenommen (Reischer 2010a–c). Dabei wurden je 13 Testpersonen
bei insgesamt 10 Informations-Texten verschiedener Textsorten instruiert,
die informativsten und interessantesten Sätze zu selektieren. Die Selektionskriterien konnten durch intellektuelle Analyse der linguistischen Eigenschaften jener Sätze ermittelt werden, die von mehr als 50% der Testpersonen als
informativ/interessant beurteilt wurden. Daraus resultierte eine Reihe von
maschinell ermittelbaren Parametern, die die Leistung des Systems gegenüber herkömmlichen Systemen verbessern konnten (s. u.). Eine sehr gute bis
gute Indikatorkraft besitzen dabei vor allem folgende Parameter (für eine
ausführliche Beschreibung vgl. Reischer (2010c)):
• Selektierte Sätze weisen zwei bis vier Mal so viele Steigerungsformen
auf wie nicht-selektierte Sätze. Darüber hinaus finden sich mit einem Anteil von lediglich einem Viertel bis Fünftel deutlich weniger Pronomen
der 1. Person in selektierten gegenüber nicht-selektierten Sätzen (1.-Person-Pronomen deuten dabei auf eher subjektive statt objektive Aussagen
407
hin). Generell stellen Bonus- und Malusausdrücke („better than“ vs. „by
the way“) gute Indikatoren für (nicht) selektierte Sätze dar. Außerdem
befanden sich unter den selektierten Sätzen nur deklarative Aussagesätze,
d. h. es wurde kein einziger Frage- oder Überschriften-Satz ausgewählt.
• Darüber hinaus sind selektierte Sätze aufgrund semantischer Relationen
besser mit anderen Sätzen verknüpft und damit kohärenter als nicht-selektierte. Zudem sind Inhaltsterme selektierter Sätze semantisch spezifischer (informationshaltiger) und zugleich möglichst frequent (wichtig,
zentral) im Text, wobei das Verhältnis von Funktions- zu Inhaltswörtern
zugunsten Letzterer ausfällt. Ferner finden sich selektierte Sätze häufiger
in Aufzählungen und am Abschnitts- oder Absatzanfang, wo eine erhöhte
Anzahl neu in den Text eingeführter Terme einen Hinweis auf dessen
thematische Progression (Informationsstruktur, Neuheitswert) liefert.
Die Evaluation des EXCERPT-Systems im Hinblick auf die Summarizingund Passagen-Retrieval-Leistung zeigte, dass die beschriebenen Parameter
eine etwa 10 Prozentpunkte höhere Leistung > 60% korrekt ermittelter Sätze
erlaubten als bei kommerziellen Summarizern wie Copernic oder Intellexer.
4
Fazit
Das rein theoretische Konzept der Informativität lässt sich für praktische Anwendungen im Information Retrieval oder Summarizing operationalisieren
und realisieren, indem entsprechende Textparameter als Indikatoren für Informativität verwendet werden. Die Informativität eines Textes ist diejenige
Eigenschaft, die ihn geeignet macht zur Schließung einer Wissenslücke (Lernen) oder zur Lösung eines Problems (Erkenntnisgewinn). Konsequenterweise sollte beim Retrieval und Ranking von Text(ausschnitt)en nicht nur
deren thematische Relevanz im Zentrum des Interesses stehen, sondern
gleichwertig auch deren Informativität. Wenn beim Summarizing der Fokus
auf informative Textauszüge gelegt wird, um den Rezipienten möglichst
effektiv mit Information zu versorgen, dann muss dies im gleichen Maße
auch für Texte aus Textkollektionen gelten. Der Nutzer hat vor allem ein
Informationsbedürfnis, kein Thema- oder Relevanzbedürfnis.
408
Jürgen Reischer
Borko, H. & Bernier, C. L. (1975). Abstracting Concepts and Methods. New York
u. a.: Academic Press.
Boyce, B. (1982). Beyond Topicality. A Two Stage View of Relevance and the Retrieval Process. IP&M, 18(3), S. 105–109.
Goldstein, J. & Kantrowitz, M. & Mittal, V. & Carbonell, J. (1999). Summarizing
Text Documents: Sentence Selection and Evaluation Metrics. Proc. of SIGIR’99,
S. 121–128.
Hjørland, B. (2010). The Foundation of the Concept of Relevance. JASIST 61(2), S.
217–237.
Kuhlen, R. (1990). Zum Stand pragmatischer Forschung in der Informationswissenschaft. In Herget, J. & Kuhlen, R. (Hrsg.). Pragmatische Aspekte beim
Entwurf und Betrieb von Informationssystemen. Proc. der 1. ISI. Konstanz:
UVK, S. 13–18.
Kupiec, J. & Pederson, J. & Chen, F. (1995). A Trainable Document Summarizer.
Proc. of SIGIR’95, S. 68–73.
Paice, C. (1990). Constructing Literature Abstracts by Computer: Techniques and
Prospects. IP&M, 26(1), S. 171–186.
Reischer, J. (2010a). Retrieval und Ranking informativer Textpassagen. Eine theoretische und praktische Integration von informativem Summarizing und WithinDocument-Retrieval. Universität Regensburg: Habilitationsschrift.
Reischer, J. (2010b). EXCERPT – Ein integriertes System zum informativen Summarizing und Within-Document-Retrieval. Proc. der KONVENS 2010, S. 77–84.
Reischer, J. (2010c). Das EXCERPT-System. Manuskript: Universität Regensburg.
http://www.gruenderboom.de/InfoLinguistik/Excerpt.pdf
Strzalkowski, T. & Stein, G. & Wang, J. & Wise, B. (1999). A Robust Practical Text
Summarizer. In Mani, I. & Maybury, M. T. (Hrsg.). Advances in Automatic Text
Summarization. Cambridge/London: MIT Press, S. 137–154.
Session 10:
Information Society
409
410
Identification Systems Adoption in Africa;
The Case of Ghana
Center for Communication, Media and Information Technologies [CMI]
Aalborg University, Copenhagen
Lautrupvang 15, 2750 Ballerup, Denmark
Abstract
A number of Identity Management Systems (IdMS) have been implemented
in many countries as an attempt to curtail incidences of crime and abuse of
privacy, and to give citizens easy and seamless access to services. Despite the
numerous perceived benefits, a number of challenges continue to hinder successful implementations and adoption in Africa. Using concepts of technology adoption and fit-viability theory, this paper examines the critical factors
affecting (IdMS) adoption. In this paper, a conceptual framework for IdMS
implementation and successful adoption is developed and validated with
findings from a survey conducted in Ghana. The conceptual framework
would offer policy makers the opportunity to determine the critical factors to
be considered in (IdMS) implementations.
1
Introduction
Identity management projects have lately become a major issue capturing
media attention and driving interactions between governments and citizens.
The reasons for IdMS implementations have generally been to ensure high
levels of security, efficiency, cost-effective provision of services promotion
of commercial activity, and ensuring the rights of citizens to informational
411
self-determination (Beynon-Davies, 2007). Incidentally, implementation of
IdMS that is capable of achieving these goals can be a very complex process
requiring cooperation from a number of stakeholders (Aichholzer & Strauß,
2009). In their paper on understanding complex innovation, Aichholzer &
Strauß (2009) argue that critical security and privacy systems architecture
can be very challenging. These issues then presents a dilemma to policy
makers leading to their preoccupation with technological features of the systems at the expense of analyzing the wider societal implications of the systems (Lips et al., 2009 and Aichholzer & Strauß, 2009). In spite of the numerous researches on IdMS implementation, there is still a dearth of
literature on factors affecting IdMS adoption from a developing country’s
perspective. In this paper, we analyze the key factors affecting IdMS implementations and develop a conceptual framework for future implementations
based on a survey conducted in Ghana.
The subsequent section discusses technological development in Africa
and IdMS initiatives in Ghana. Section 3 discusses the research methodology
and gives a brief description of the Technology Acceptance Model (TAM)
and the Fit-Viability Theory. In section 4, we propose a conceptual framework for implementing IdMS from a developing country’s perspective, a
description of the survey in Ghana and ending with a discussion of the survey
results. In section 5, we present our conclusions and recommendations for
IdMS implementation and adoption.
2
Technological Development in Africa
Many African countries are technologically lagging behind. This has been
attributed to several years of primitive cultural practices, bad governance,
chaotic climatic conditions, poverty and illiteracy. Historically, natural disasters, landmark events and tribal body marks have been used as means of
identification and reference points. These practices, which in the past served
their purposes, have in these last days of rapid technological development
proved very slow and unreliable, leading to improper forms of identification
and authentication. In Botswana for instance, the findings of Uzoka &
Ndzinge (2009) indicated that biometrics usage is at its infancy despite the
fact that industries may be aware of its ability to strengthen security and pro-
412
ductivity. The emergence of mobile phones and the tremendous growth in
cellular networks have made instant and reliable communication a reality in
Africa. Cell phone subscription in Africa rose from 54 million in 2003 to 350
million in 2008 with a forecast average cell phone penetration of 80% by
2012 (Comninos et al., 2008). In Ghana, this 80% penetration rate has already been achieved (GBN, 2010). This technological growth is driving a
gradual shift in Africa towards implementation of various biometrics based
identity management and electronic payment systems. Throughout Africa,
governments are moving towards various national IdMS with the enactment
of various laws. The Payment Systems Act (ACT662) and National Identification Act (ACT 707), (NIA, 2010) are key examples. These technological
developments are however not without challenges. Policy makers, security
agencies and the private sector are bedeviled with a particular type of cybercrime popularly known in Ghanaian parlance as “sakawa” (Slater & Kwami,
2005). 419 cybercrimes have already become an international issue in Nigeria (USDoS, 1997).
2.1
Identity & Identity Management Systems
Identity has several dimensions. Psychological identity is the distinguishing
characteristics of an individual, whilst social identity refers to the positive
self-concept of individuals such as organizational membership, religious
affiliation, gender and age group (Tajfel & Turner, 1985). In information
systems, identity consists of traits, attributes, and preferences, by which one
may receive personalized services either online, on mobile devices, at work,
or in many other places (Liberty, 2004). Identity consists of both physical
and digital identity. In Bhargav-Spantzel et al. (2007), digital identity may be
any kind of characteristics associated to an individual and may take the form
of user logins, identity attributes (eye colour, date of birth, etc.) and identifiers (account number, vehicle license plate).
Identity Management Systems have been used throughout history to
establish the basis for trade and governance using different tokens and technologies, seals, coded messages, signatures, and jewelry, etc. (3G_Americas,
2009). Existing literature contains several and sometimes overlapping definitions of IdMS. Depending on the situation and the context, an individual may
be represented by different partial identities (Clauß & Köhntopp, 2001).
Hence, identity management can mean different things to different people
413
depending on the context (Van Thuan, 2007). In this study, IdMS consists of
processes, policies and technologies to manage the complete lifecycle of user
identities across a system and to control a user’s access to the system resources (Van Thuan, 2007). A good IdMS can assist users in acquiring better
knowledge about individuals, which is essential in building a certain level of
trust. Similarly, IdMS can be a reliable means of protecting the privacy of
parties to transactions. An effective IdMS ensures real-time identification and
authentication to distinguish one person from the other.
2.2
Identity Management Initiatives in Ghana
In Ghana, several independent IdMS initiatives are under way. The National
Health Insurance Scheme has already rolled out a nationwide registration by
issuing identity cards to beneficiaries. Birth and death, voters’ registers,
business registrations and social security are other forms of registrations performed by various government agencies in different formats and databases.
The government has recently implemented biometric based passports and
driver’s and vehicle licenses. These two projects have been very successful
concerning user adoption with the only issue being delays in issuance of
passports or the driving licenses. To enhance commercial activity and to reduce the unbanked and under-banked population in Ghana, a biometric based
payment system (e-zwich card) was also implemented by the Bank of Ghana
(Frempong, 2010). According to France & Selormey (2009) GhIPSS opted
for biometric technology because of its superior security in terms of user
authentication and its ability to combat card cloning. The e-zwich project has
however failed to live up to the expectation even though the goals seemed
laudable from the government’s point of view (France & Selormey, 2009).
National Identification Authority is in the process of rolling out national
identity cards.
3
Methodology
This is a country study research on IdMS implementation from a developing
country’s perspective. The key question addressed in this paper is “What
factors influence adoption of Identity Management Systems in developing
414
countries?” Empirical data was gathered by consulting related studies on
privacy and IdMS implementation, stakeholder interviews and self-administered questionnaires. From the literature review, it became apparent that
Davis’ (1989) Technology Acceptance Model (TAM), and the fit-viability
theory (Tjan, 2001 and Liang et al., 2007) were relevant to the study since
they offered better constructs. Opinions of typical Ghanaian adults were used
as the unit of analysis. The questionnaire was designed based on the results
of the initial interviews. A multiple-item approach was adopted where each
item was measured on a five-point Likert scale, with answers ranging from
“strongly disagree” to “strongly agree”.
The items in the questionnaire were developed by adapting existing
measures validated by other researchers in IdMS, or by converting the definitions of the construct into a questionnaire format. The questionnaire consisted of five main sections. The questions in section 1 were aimed at gathering demographic information such as gender, age group, occupation, educational background and level of income. Section 2 focused on the citizen’s
perceptions and understanding of issues like privacy, security and controls in
identification systems. Section 3dealt with perceived usefulness and perceived ease of use. Section 5 then focused on economic feasibility and transaction cost. In total, there were 43 questions. The results of the analysis form
the basis for the development of the conceptual framework. The research is
significant since it addresses identity management issues within the context
of developing countries, scarcely represented in the IdMS literature.
3.1
Technology Acceptance Model (TAM)
Factors affecting technology adoption and diffusion of innovation have been
extensively studied with several theories emanating from it within Information Systems literature. Notable among them are the innovation diffusion
theory (Rogers, 1983), technology acceptance model (TAM) (Davis, 1989)
and the unified theory of acceptance and use of technology (UTAUT)
(Venkatesh & Davis, 2000). In Davis’ (1989) TAM for instance, what causes
people to accept or reject information technology has mainly been attributed
to its perceived usefulness and perceived ease of use. External pressure to
adopt has also been identified as another factor affecting technology adoption
(Dass & Pal, 2009). Additional factors include complexities, compatibility
and relative advantage. In Davis (1989), perceived usefulness describes the
415
degree to which a person believes that an innovation will boost their performance. Perceived ease of use on the other hand describes the degree to
which a person believes that adopting an innovation will be free of effort.
Where a system is high in perceived usefulness but it requires a great effort
from a user, it is believed that its benefits will be eroded by the efforts required and thereby dissuading users from using it. In effect users are more
likely to adopt systems which are easier to use and offer some benefits. Even
though they are aimed at deepening understanding of factors affecting adoption these studies have mainly focused on developed countries. Other factors
like free riding, connectivity and illiteracy that are peculiar to developing
countries will also be covered in this study.
3.2
Fit-Viability Model
Liang et al. (2007) adapted Tjan’s (2001) two dimensional fit-viability model
for measuring the extent to which a new technology will fit into the core
competence, structure, value and culture of organization and how viable it
could be. In their model, Liang et al. (2007), defined technology viability as
the measure of the extent to which the organizational environment is ready
for the application, as well as its economic feasibility, technical infrastructure, and social readiness of the organization. Fit measures the extent to
which the technology is capable of meeting the requirement of task. They
came to the conclusion that organizations must only pursue applications with
good fit and strong organizational viability. Economic feasibility is a key
indicator used to measure an organizations’ readiness to implement a technology. The two main criteria for measuring economic feasibility are cost
benefit analysis (e.g. net present value) and transaction cost analysis, where
reducing costs can increase a customer’s willingness to use a technology
(Spraakman, 1997). A high-transaction frequency on the other hand reduces
transaction costs and the usage of the application. In effect transaction cost is
higher where there is lack of usefulness and ease of use.
416
4
IdMS Conceptual Framework
TAM has proven to be a very useful tool for understanding and predicting
user behavior in information system implementation since it seeks to place
administration and control of information directly into the hands of users
(Aichholzer & Strauß, 2009). The following constructs are therefore adapted
from the theoretical framework and privacy related literature:
• Perceived Usefulness is the degree to which a person thinks that using a
particular system will enhance his or her performance. In the IdMS adoption, it is concerned with how users believe the system can enhance their
daily transactions and interactions. In effect high perceived usefulness
will lead to a high intention to accept identification systems.
• Perceived Ease of Use is the degree to which a person believes that using
a particular system will be free of effort (Davis, 1989). In IdMS implementations, the enrolment process, ability to gain access to different services, training and support ensures ease of use. Other factors include
network anonymization tools and minimum disclosure of personal information (Cavoukian, 2008).
• External pressure to adopt (Dass & Pal, 2009): Where there is a certain
level of force or the system is made mandatory for business transaction,
adoption is high. For instance passports are mandatory for international
travels and for that matter citizens will be under pressure to adopt a biometric passport
•
•
Privacy is the right of an individual to decide what information about
himself should be communicated to others and under what circumstances
(Westin, 1970). It is about the right of individuals to choose how they
want to live their life, and what things they want to keep private (De
Hert, 2008). In effect privacy refers to the claim or right of individuals to
exercise a measure of control over the collection, use and disclosure of
their personal information (Cavoukian, 2008). Users are more inclined to
adopt Identity Management Systems which offer a high level of privacy
assurance.
Trust is the state of readiness for unguarded interaction with someone or
something (Tway, 1993). Trust can be influenced by perceptions of intentions and past experiences. In Ghana for instance many business people perceive that national identification systems can be used for tax purposes or political witch-hunting and will therefore find various means to
417
avoid it. Negative perception on trust can have a direct effect on attitudes
towards the system. High reliability and privacy protection policies will
lead high level of trust.
• Technology Fit (Tjan, 2001): Technology fit issues are qualitative factors
that determine to what extent an investment fits into the organizations’
processes, capabilities and culture. Fit issues are therefore ‘internal’ factors that influence the system design. In developing countries, such internal factors are literacy rate, level of political tolerance, infrastructure,
cultural norms etc.
• Viability issues deal with the expected return the system is able to generate, such as the value-added potential, cost and associated benefits.
• Transaction Cost: Many people are reluctant to pay for government services even if they directly affect their livelihood. Therefore any system
requiring high transaction costs is bound to fail in developing countries
unless there are no alternatives.
The diagram below is a summary of the factors which must be considered in
IdMS implementation to ensure successful adoption. Privacy and trust issues
and technology fit characteristics must affect the four inner boxes. In effect
even if the system is very useful and easy to use, negative perception of trust
can affect successful adoption by users.
Figure 1: IdMS Conceptual Framework.
418
4.1 IdMS Adoption Survey in Ghana
In an attempt to determine factors affecting IdMS adoption we conducted a
survey using stakeholder interviews and a questionnaire. The objective of the
interviews was to acquire better understanding of the issues involved in national IdMS implementation, which will influence the design of the questionnaire. The interview focused on the key officials National Identification project and government’s electronic payment system (e-zwich project). We also
interviewed key officials of major commercial banks and trading merchants
and two groups of citizens: those who have acquired the e-zwich cards and
those who have not. An interview guide was designed to ensure consistency
and to ensure that researchers focus on the IdMS related issues.
In the case of the questionnaire, a group of executive masters in administration (EMBA), participants of the Ghana Institute of Management and
Public Administration (GIMPA) were selected. This group was selected because they represent a typical group of opinion leaders whose views on national IdMS were the unit of analysis. Additionally, we found it to be very
cost effective due to budgetary constraints and offered me to explain the rationale behind the various questions to the respondents. 250 questionnaires
were administered and 230 responses were received and analysed. The key
constructs stated in section 4 above were used to develop the questionnaire.
4.2 Results and Discussion
Based on employment positions, 95% of the respondents occupy managerial
positions. Even though National Identity (NID) Cards systems encounter a
lot of opposition in Western countries, particularly the US and the United
Kingdom, 90% of respondents believed that NID cards must be compulsory
for all Ghanaians. Another interesting finding was that 80% of respondents
prefer that cards be issued to citizens free of charge as a means of achieving
universal coverage and forgery prevention. Another interesting finding from
the survey was that the respondents were unanimous in their responses to
questions on governance, policy and monitoring. For instance, they all believed that their interest would be considered in deciding how identity data is
419
used which is consistent with Davis’ (1989) suggestion that the design characteristics of a system exert immediate effects on perceived usefulness as
well as indirect effects via perceived ease of use.
Even though security is a major concern in the West, in this survey respondents rather believed that the system will be secure and for that matter
their personal data will not be affected even though they believed there are
some risks involved due to the lack of competent personnel to manage the
databases. Concerning complexity in the use of the cards, the majority of the
respondents did not think it would be very difficult to use. A further probe
however indicated that this believe stems from the fact that respondents have
all used ATM cards and thought the NID cards even in its advanced form
may not be anything different. They also believed that the introduction of the
identity cards will not have any negative impact on users’ personal information and that they were prepared to trade off some privacy for convenience, security and faster access to public service. Strangely, all the respondents were willing to allow identification authorities to share their personal
data with other government agencies and private businesses. The analysis
showed that among those who did not want identification systems to reveal
their identity 90% were business owners. Where IdMS are required for key
business activity to take place, adoption is usually high (e.g. passport and
health insurance card).
5
Conclusion and Recommendation
This paper has identified factors influencing adoption of IdMS from a developing country’s perspective. It has shown that security issues and anonymity,
which are very critical in developed countries, are not the major concerns in
developing countries. Rather, connectivity, costs of equipment, taxation and
political motives were the key factors. Additionally, even though IdMS are
very much welcome in Africa, there is a strong perception that they must be
free for all citizens. This has a direct implication on sustainability of such
systems unless they are associated with critical services like passports and
driving licenses. In effect, to achieve high levels of IdMS adoption, policy
makers must go beyond perceived usefulness and ease of use and deal with
the key inhibiting factors.
420
Acknowledgements
We would like to thank Professor Henning Olesen, CMI, Aalborg University
for his helpful comments during the development of the paper.
References
3G_Americas. (2009). Identity Management; overview of standards & technologies
for mobile and fixed internet. 3G America whitepaper.
Aichholzer, G. & Strauß, S. (2009). Understanding a Complex Inovation process:
Identity Management in Austrian E-Government. The Proceedings of the 10th International Digital Government Research Conference.
Aichholzer, G. & Strauß, S. (2009). The Citizens Role in National Electronic Identity
Management: A Case-study of Austria. Second international Conference on Advances in Human-Oriented and Personalized Mechanisms, Technologies, and
Services. Porto, Portugal.
Beynon-Davies, P. (2007). Personal identity management and electronic government; the case of the national identity card in the UK. Journal of Enterprise Information Management , Vol. 20 (No.3), 244–249.
Bhargav-Spantzel, A., Camenisch, J., Gross, T. & Sommer, D. (2007). User centricity: a taxonomy and open issues. 15.
Cavoukian, A. (2008). The case for privacy-embedded laws of identity in the digital
age. Technical report.
Clauß, S. & Köhntopp, M. (2001). Identity Management and its support of multilateral security. Computer and Networks, 37, 205–219.
Comninos, A., Esselaar, S., Ndiwalana, A. & Stork, C. (2008). Towards Evidencebased ICT Policy and Regulation M-banking the Unbanked. Policy Paper 4,
IDRC.
Dass, S. & Pal, S. (2009). Feasibility and Sustainability Model for Identity Management. India: IIMA Research and Publications.
Davis, F. D. (1989). Perceived Usefulness, Perceived Ease of Use, and User Acceptance of Information Technology. MIS Quarterly, 13(3), 319–340.
De Hert, P. (2008). Identity management of e-ID, privacy and security in Europe: A
human rights view. Information Security Technical Report (13), 71–75.
421
France, F. & Selormey, D. (July/August 2009). Biometrics improving financial accessibility. Biometric Technology Today, S. 10–11.
Frempong, B. (Wed, 28th. April 2010). E-zwich is the dominant money transfer
system in Ghana. http://www.citifmonline.com/site/business/news/view/5232/3
GBN (2010). Ghana’s mobile penetration expected to hit 100% in 2013.
http://www.ghanabusinessnews.com/2010/06/08
Liang, T., Huang, C., Yeh, Y. & Lin, B. (2007). Adoption of mobile technology in
business: a fit-viability model. Industrial management & data systems, 107 (8),
154–169.
Liberty. (2004). Whitepaper: Benefits of Federated Identity to Government. Liberty
Alliance Project.
Lips, A. M., Taylor, J. A. & Organ, J. (2009). Managing Citizen Identity Information
in EGovernment Service Relationships in the UK. Public Management Review,
11 (6), 833–856.
NIA (2010). National Identification Authority. Editorial; NIA News, 1.
Rogers, E. (1983). Diffusion of Innovations (third ed.). New York: The Free Press.
Slater, D. & Kwami, J. (2005, June). Embeddedness and escape: Internet and mobile
use as poverty reduction strategies in Ghana. Information Society Research
Group (ISRG) Working Paper Series.
Spraakman, G. (1997). Transaction cost economics: a theory for internal audit?
Managerial Auditing Journal, 12 (7), 323–330.
Tajfel, H. & Turner, J. C. (1985). The social identity theory of intergroup behavior.
In S. W. Austin, Psychology of intergroup relations (2nd Ed., pp. 7–24). Chicago:
Nelson-Hall.
Tjan, A. (2001). Finally, a way to put your internet portfolio in order. Harvard Business Review, Vol. 79 (No. 2), pp. 76–85.
Tway, D. C. (1993). A Construct of Trust, Dissertation.
USDoS. (1997). Nigerian Advance Fee Fraud. United States Department of State
Bureau of International Narcotics and Law Enforcement Affairs.
Uzoka, F.-M. E. & Ndzinge, T. (2009). Empirical analysis of biometric technology
adoption and acceptance in Botswana. The Journal of Systems and Software, 82,
1550–1564.
Van Thuan, D. (2007). Identity Management Demystified. 3 (4).
Venkatesh, V. & Davis, F. (2000). A theoretical extension of the technology acceptance model: four longitudinal field studies. 46 (2), pp. 186–204.
Westin, A. (1970). Privacy and Freedom. New York: Atheneum.
422
Wissenschaftspolitische Erwartungen, informationswissenschaftliche Forschungsfelder und Herausforderungen
[email protected]
Zusammenfassung
Auf die Herausforderung, Forschung stärker kommunikativ, transdisziplinär,
kollaborativ und international zu organisieren sowie die Potenziale der Informationstechnologien zu nutzen, reagiert die nationale und europäische Forschungspolitik mit der Förderung von virtuellen Anwendungen zur Unterstützung der Forschungsprozesse. Aber nicht jede dezentral kooperierende
Forschungsgruppe gewinnt automatisch an Effizienz, wenn sie den Aufwand
des Einsatzes einer umfangreichen Virtuellen Forschungsumgebung wagt.
Die Implementierung von Virtuellen Forschungsumgebungen auf breiter
Basis bedarf der strategischen Planung und vorausgehender und begleitender
informationswissenschaftlicher Forschung. Der Beitrag unternimmt es, vor
dem Hintergrund bisheriger Programme und Erfahrungen ein Szenario für
informationswissenschaftliche Forschungsfelder zu entwickeln.
Abstract
To meet the challenge of organising research with a stronger focus on communicative, trans-disciplinary, collaborative and international dimensions
and to use the potential of information technology, national and European
research politics have promoted virtual applications that support research
processes. However, not every de-centrally cooperating research group automatically becomes more efficient once it endeavours the effort of tackling a
comprehensive virtual research environment. This contribution draws on
existing programmes and experience to develop a scenario for information
scientific research in the field.
423
Wissenschaftspolitische Erwartungen
Die Tatsache, dass zunehmend Daten digital zur Verfügung stehen und Prozeduren der Wissenschaft und Forschung durch IT unterstützt werden, eröffnet ein breites Spektrum an Möglichkeiten zur Innovation des Wissenschaftsund Forschungsprozesses. Vor allem die Wissenschaftspolitik und die Forschungsförderung leiten daraus Erwartungen ab und formulieren Programme,
die mit übergeordneten strategischen Zielsetzungen verbunden werden.
Virtuelle Forschungsumgebungen1 (VFU) lassen sich als digitale Infrastrukturen definieren, die es Forschern erlauben, die Potenziale elektronischer Medien für die Entwicklung neuer Forschungsmethoden und Untersuchung neuer Forschungsgegenstände zu nutzen. Die Vielfalt und Komplexität
von VFU bietet neue Möglichkeiten im wissenschaftlichen Arbeitsprozess
und stellt zugleich neue Anforderungen an die Kooperationsbereitschaft der
Akteure, die Organisation, Finanzierung sowie den Technologieeinsatz.
Technisch betrachtet bestehen sie (meist) aus einer Kernarchitektur mit allgemeinen Dienstleistungen und Werkzeugen, an die Umgebungen und Module für einzelne Forschungsgruppen mit spezifischen Konfigurationen und
Erweiterungen angeschlossen werden können. VFU können einen kompletten
Zyklus von Arbeitsprozessen in der Forschung abdecken und, abhängig von
den jeweiligen fachspezifischen und individuellen Charakteristika, strukturell
sehr weit ausdifferenziert sein.
Seit einigen Jahren sind VFU bzw. ähnliche Konzepte Gegenstand nationaler sowie europäischer Förderprogramme2. Auf europäischer Ebene hatte
das 2002 eingesetzte ESFRI-Forum3 Signalwirkung, das auf die Identifizie1 Im englischsprachigen Raum kursieren unterschiedliche Bezeichnungen, die durchaus
auch unterschiedliche Schwerpunkte der Zielsetzung signalisieren: e-infrastructures
(ERA vision, ESFRI), cyberinfrastructures (USA), collaboratories (SURF). In der deutschen Diskussion überwiegt aber die Bezeichnung Virtuelle Forschungsumgebungen,
die eine Übersetzung des britischen Begriffs „Virtual Research Environment“ ist.
2 Im Jahre 2001 startete Großbritannien mit der Gründung des Nationalen e-Science Centers (http://www.nesc.ac.uk/) und dem e-Science-Kern-Programm (http://www.rcuk.ac.
uk/escience/default.htm) großangelegte Förderprogramme. Die USA folgte nach der
Veröffentlichung des Atkins-Reports im Jahre 2003 mit der Etablierung des Büros für
Cyberinfrastructure (http://www.nsf.gov/dir/index.jsp?org=OCI).
3 In deutscher Sprache bietet sich als Ausgangsinformation über ESFRI an:
http://www.eubuero.de/arbeitsbereiche/infrastrukturen/esfri
424
rung und Förderung von Forschungsinfrastrukturen abzielt, zu denen auch
sogenannte „e-infrastructures“ gehören. Letztgenannte Thematik wurde 2006
in einer Roadmap und im 7. Rahmenprogramm der Europäischen Kommission aufgegriffen: “Europe is ready to build on the ICT capabilities of existing infrastructures in order to create a new research environment, in which
all scientists have an easy-to-use controlled access to unique or distributed
scientific facilities, regardless of their type and location in the world.”4 Im
Weiteren wird der Begriff “virtual environment” in Zusammenhang mit den
Zielsetzungen neuer Arbeits- und Organisationsmodelle sowie der Förderung
disziplinübergreifenden Zugriffs auf gemeinsame Ressourcen gebracht.
Neben und teilweise im Zuge der europäischen Initiative haben sich auf
nationaler Ebene in Europa (z.B. UK, D, NL, SWE), den USA und Australien ähnliche wissenschaftspolitische Zielsetzungen in Förderprogrammen
und teilweise auch in institutionalisierten Strukturen niedergeschlagen. In
Europa ist das JISC-Programme Virtual Research Environment hervorzuheben,5.
Deutschland hatte schon frühzeitig förderpolitische Linien zur Unterstützung der virtuellen Vernetzung von Forschung eingeschlagen. Dazu zählen
z. B. die unter dem Begriff Themenorientierte Informationsnetze seit 2000
geförderten Projekte. Das DFG-Positionspapier „Wissenschaftliche Literaturversorgung und Informationssysteme – Schwerpunkte der Förderung bis
2015“ aus dem Jahre 2006 benennt dann „Virtuelle Forschungsumgebungen“
explizit als neuen Schwerpunkt. Diese sollen „als Plattform für netzbasierte
kollaborative Arbeitsprozesse neue Formen der Zusammenarbeit sowie einen
neuen Umgang mit wissenschaftlichen Daten und Informationen ermöglichen“ (Aktionslinie 13 VFU). Die bisher geförderten Projekte haben schon
eine Reihe von Pionierentwicklungen sehr unterschiedlicher disziplinärer
Herkunft angestoßen. Ebenso lassen sich einschlägige Förderaktivitäten des
BMBF – wie D-Grid und e-Science und vernetztes Wissensmanagement –
überwiegend in die Förderprogramme zu VFU einordnen6.
Vor dem Hintergrund erster Erfahrungen mit der Förderung der Informationsinfrastruktur für die deutsche Wissenschaft hat sich ein Bedarf an über-
4 ESFRI-Roadmap: http://cordis.europa.eu/fp7/ict/e-infrastructure/overview_en.html
5 JISC Programm unter http://www.jisc.ac.uk/whatwedo/programmes/vre.aspx
6 D-Grid wurde 2005 als Förderprogramm gestartet und hat bisher 30 Projekte gefördert,
wovon allerdings nur 11 als Virtuelle Forschungsumgebungen einschlägig sind.
425
geordneter wissenschaftspolitischer Steuerung dieses Prozesses abgezeichnet,
der in zwei parallele Aktivitäten mündete. 2008 gründete sich die Schwerpunktinitiative „Digitale Information“ der Allianz-Partnerorganisationen der
deutschen Wissenschaftsorganisationen7. Anfang 2010 hat die Gemeinsame
Wissenschaftskonferenz die Kommission Zukunft der Informationsinfrastruktur (KII) eingerichtet, die im Prinzip die gleichen Zielsetzungen verfolgt, allerdings noch stärkere förderungsprogrammatische Bedeutung hat.
Lessons Learned: Barrieren und Erfolgsbedingungen
Die internationalen Förderprogramme sind zum Teil schon gut dokumentiert
und unter einigen Aspekten evaluiert8. Erste Ergebnisse signalisieren, dass
die wissenschaftspolitischen Erwartungen erfüllt werden.
Aus: [eResearch2020 2010: vi]9
7 Für einen zunächst bis 2012 befristeten Zeitraum haben sich in der Schwerpunktinitiative alle deutschen Wissenschaftsorganisationen zusammengeschlossen, um „Wissenschaftlerinnen und Wissenschaftler mit der bestmöglichen Informationsinfrastruktur
auszustatten, die sie für ihre Forschung brauchen“ http://www.allianzinitiative.de/de/.
8 Verwendet wurden vor allem: [Carusi, Reimer 2010], [eResearch2020 2010], [van der
Vaart 2010], evaluative Beiträge lieferte auch die „5th International Conference on eSocial Science” (Köln 2009). http://www.merc.ac.uk/?q=node/699
426
Dass Beteiligte an solch aufwendigen Projekten eine generelle Tendenz
zeigen, die Ergebnisse nicht im schlechten Licht darzustellen, kann als ein zu
berücksichtigender Faktor (Bias) unterstellt werden, dennoch wird die prinzipielle Wirksamkeit von VFU im Sinne der Zielsetzung auch durch andere
Evaluationsstudien bestätigt [Carusi, Reimer 2010, S. 22, Siemens 2010, S.
42]. Die graduelle Wirksamkeit hängt aber unmittelbar von der Gültigkeit
bestimmter formaler Rahmenbedingungen ab, zu denen die Studien reichhaltiges und weitgehend konvergentes Erfahrungsmaterial zusammentragen:
• Verbesserter Zugang zu Ressourcen: Zentraler Erfolgsfaktor ist „immediate research advantage by virtuality”, womit vor allem der verbesserte
Zugriff auf Dokumente, Daten, Hardware und Software gemeint ist. Weitere Motive sind die verteilte zeitsynchrone Bearbeitung, das intelligente
integrierte Daten- und Publikationsmanagement sowie die Öffnung für
multidisziplinäre Zugänge und Ansätze (Open Science).
• Forschungsprozessnahe Entwicklung und generische Nachhaltigkeit:
Eine zentrale Erkenntnis früher generischer Fehlentwicklungen ist die
Forderung, dass VRE in Orientierung an konkreten Forschungsprozessen
entwickelt werden müssen. Gleichzeitig ist im Sinne der Nachnutzbarkeit
und Nachhaltigkeit von Infrastrukturen die Einbettung in eine generische
Rahmenarchitektur anzustreben: “The frameworks would provide core
services (such as authentication and rights management; repositories;
project planning, collaboration and communication tools) and allow the
development or easy integration of modules for specific uses.” [Carusi,
Reimer 2010: 6].
Da die Entwicklung allgemeiner modularer Referenzarchitekturen notwendigerweise die Heterogenität der unterschiedlichen Forschungszusammenhänge einbeziehen muss, wird die Aggregationsfähigkeit als
entscheidend betrachtet. Prognostizierte Zukunftsszenarien setzen auf
Flexibilität: “… multiple overlapping and intersecting networks rather
than monolithic infrastructures; they will be a mixture of monopolies
(within certain communities) and duplicate or parallel efforts, of essential
tools for everyone within and across certain research communities and
tools that are only occasionally used for specific purposes by a narrow
subset within or across them, and of permanent but extensible large-scale
systems that will provide indefinite and essential support for well-defined
9 Für die Untersuchung eResearch2020 wurden 18 internationale Projekte befragt, die
wegen des Förderungsvolumens meist als Großprojekte bezeichnet werden können.
•
•
•
427
large groups of users, but also light-weight tools without any lasting
structure and only ad hoc constituencies …” [Eccles 2009 et al.: 10].
Komplexe Funktionalitäten ohne technologische Hürden: VFU müssen
vielseitige Möglichkeiten der Vernetzung offerieren, dürfen aber nicht
primär unter dem Aspekt vorangetrieben werden, avancierte ICT-Produkte zu entwickeln. Häufig wird auf die Gefahr hingewiesen, dass rein
technische Sichtweisen zu Nutzungsbarrieren werden [vgl. van der Vaart
2010, Siemens 2010]. Einfache Steuerbarkeit der Funktionalitäten ist erforderlich. In den neueren Diskussionen werden daher dezidiert neue Designansätze thematisiert, vom Usability-Engineering über nutzerzentriertes, partizipatives und evolutionäres Design bis hin zu Konzepten der
Innovationsforschung bzw. Science and Technology Studies (STS)
[bspw. Voss et al. 2007]. Iterative Designzyklen und das Verfahren des
Community-Building werden empfohlen [Carusi, Reimer 2010: 5, 24ff.].
Hinzu kommt, dass VFU-Angebote, die auf der gemeinsamen Nutzung
von Content basieren, eine Critical Mass of Active Users mit entsprechenden Beteiligungsraten benötigen, um erfolgreich und sinnvoll zu
sein (Beispiel MyExperiment, [De Roure 2009]).
Nachhaltigkeit und Verlässlichkeit: Nachhaltige Business- und Organisationsmodelle werden durchgängig in allen Studien als Defizit bezeichnet [z. B. eResearch2020 2010: 134]. Gerade Kollaborationen und
Förderprojekte, die über nationale Grenzen hinweggreifen, stellen besondere Anforderungen an die Nachhaltigkeit. Entscheidend ist ein auf Gegenseitigkeit beruhendes Organisations- und Beteiligungsmodell, das von
nachhaltig geförderten Institutionen getragen wird. Ein wichtiger Erfolgs- und damit auch Risikofaktor ist selbstverständlich die Verlässlichkeit und Zuverlässigkeit der Anwendungen und Services [Carusi, Reimer
2010: 36]. Vereinzelt gibt es auch jetzt schon Beispiele für die nachhaltige Absicherung von e-Infrastrukturen im D-Grid Verbund, z.B. das
Hochenergiephysik Community Grid (HEP CG) und das Grid zum Geodaten-Processing für Wissenschaft und Industrie (GDI-Grid)10.
Offenheit und ethische Hürden: Ethische Probleme und Aspekte der Sicherheit bilden ebenfalls eine starke Nutzungsbarriere. Forscher fragen,
welche Risiken sie eingehen, wenn sie ihre Daten und Ergebnisse frühzeitig kommunizieren. Die Bedrohung der individuellen wissenschaft-
10 http://www.dgrid.de/index.php?id=398&L=1%20and%20user%3D0%20and%201%3D1
428
lichen Profilierungsmöglichkeiten vor dem Hintergrund von ‚open data‘
ist eine Herausforderung für VFU. Auch unter der Voraussetzung von
geschlossenen Plattformen oder authentifizierten Zugängen können
rechtliche und ethische Unsicherheiten fortbestehen, wie sie auf der Kölner Konferenz E-social science 200911 vielfach berichtet wurden.
Informationswissenschaftliche
Forschungsfelder und Herausforderungen
Wie erwähnt sind VFU in der Regel integrative Anwendungen und eröffnen
in ihrer modularen Architektur eine extrem breite Palette von Funktionen und
Services. Damit berühren sie potenziell auch ebenso große Vielfalt an informationswissenschaftlichen Forschungsfeldern. Im Folgenden wollen wir uns
auf die wissenschaftlichen Herausforderungen konzentrieren, die spezifisch
für die Konzeption und Evaluation von VFU sind:
Ausrichtung auf Forschungspraxis: Die als conditio sine qua non eingestufte Optimierung des spezifischen Forschungsprozesses durch VFU eröffnet ein noch wenig beachtetes Forschungsfeld12, das die Informationswissenschaft in eine enge Kooperation und letztlich disziplinübergreifende
Forschungszusammenarbeit mit den unterschiedlichen Fachwissenschaften
führt. Zwar ist die Wissenschaft und deren Informationsversorgung schon
immer ein zentraler Gegenstand der Informationswissenschaft gewesen, aber
erst in jüngster Zeit wird auf die zentrale Herausforderung hingewiesen, die
gesamte wissenschaftliche Wertschöpfungskette aufzugreifen [Borgman
2007; 2008] und die Forscher selbst in die Konzeption von Infrastrukturen
einzubeziehen13. Dies bedeutet auch, dass im Kontext von VFU nicht nur die
11 http://www.merc.ac.uk/?q=node/699; vgl. auch Carusi, Reimer 2010: 36
12 Dies, obwohl die primäre Ausrichtung auf den Forschungsprozess bereits dezidiert in
der Gründungszeit der deutschsprachigen Informationswissenschaft als eine zentrale
Notwendigkeit formuliert wurde (siehe bspw. [Kunz, Rittel 1970]).
13 Mit dem Forschungsprozess und dessen idealtypischer Verwendung setzen sich [Voss
et al. 2009: 178 f.] auseinander, wobei von [Dunn 2009] darauf hingewiesen wird,
dass der Arbeitsprozess in den Geisteswissenschaften individueller und weniger formalisierbar gestaltet wird. Neuerdings wird versucht, mit dem Konzept der „scholarly
429
optimierte Wiederverwendung von Objekten Aufgabe informationswissenschaftlicher Forschung sein sollte, sondern auch konkrete Handlungsfelder
einer Forschergruppe14 zu identifizieren und zu modellieren sind.
Generalisierung – Spezifizierung: Die Zielsetzung, VFU so zu konzipieren, dass der Anteil generischer, d.h. in anderen Forschungssettings nachnutzbarer Features möglichst hoch ist, steht in einem unumgänglichen Spannungsverhältnis mit der primären Ausrichtung auf konkrete Forschungsprozesse. Lösungskonzepte können im modularen Aufbau von VFU oder in der
Verlagerung von sehr spezifischen Anwendungen in „Low-Level“-Ergänzungen liegen. Neben klassischen Studien zum Informationsbedarf und -verhalten (zur Methodologie vgl. [Kunz, Rittel, Schwuchow 1976]) etablierten
sich in den letzten Jahren in der internationalen Informationswissenschaft
Forschungen zu wissenschaftlichen Informationspraxen, die in ihren Analysen verstärkt auf sozio-kulturelle Ansätze und Konzepte der Science and
Technology Studies zurückgreifen [Palmer et al. 2009; Borgman 2007].
Darüber hinaus ist in diesem Kontext das breite Feld der Standardisierung, der Skalierbarkeit und Interoperabilität als Voraussetzung der Modularisierung und Übertragbarkeit in andere Forschungszusammenhänge angesprochen. Auf der Ebene der Gesamtarchitektur stellt sich die übergreifende
Forschungsfrage: Wie können komplexe Funktionalitäten angeboten werden
bei gleichzeitiger Berücksichtigung von spezifischen Forschungspraxen und
unterschiedlichen epistemischen Kulturen? [Knorr-Cetina 1999] Wie können
bestehende Informationsinfrastrukturen eingebunden werden? Wie können
dabei Usability- und Performance-Standards eingehalten werden? Deutlich
wird in diesem Zusammenhang, dass die e-Science-Visionen der ersten Stunde einer postulierten Revolution der Wissenschaft [Atkins 2003; Nentwich
2003] nicht im luftleeren Raum stattfinden [vgl. Dunn 2009]. Welche Wirtschaftlichkeitsmodelle sichern nachhaltige Betriebsfähigkeit von VFU?
Unter welchen Bedingungen funktioniert virtuelle Information, Kommunikation und Kollaboration? VFU sollen den qualitativen Sprung zu neuen Möglichkeiten der Forschung eröffnen. Die Erwartungen fokussieren sich
primitives“ [Unsworth 2000] diese disziplinäre Heterogenität zu umgehen und die
spezifischen Erkenntnisse zusammenzuführen [Palmer, Cragin 2008; Palmer et al.
2009].
14 In diesem Zusammenhang entsteht gerade am Informationszentrum Bildung des DIPF
eine Dissertation zu Informationspraxen in der Bildungsforschung, die mit einem ethnografischen Ansatz fünf Bildungsforschungsprojekte untersucht.
430
dabei vor allem auf die Ausdehnung der Potenziale (Inanspruchnahme verteilter Ressourcen), aber auch den Qualitätsgewinn durch Mehrperspektivität,
Verhaltenserweiterungen (curation) und die Optimierung der Publikationsprozesse. Ob sich diese Erwartungen realisieren, hängt in hohem Maße vom
Informations-, Kommunikations- und Kollaborationsverhalten der Forscher
ab. Die Informationswissenschaft kann hier einen breiten Fundus von Forschungsergebnissen einbringen, die z.T. auch schon auf die konkreten Anwendungsszenarien in VFU bezogen wurden. Zu nennen sind hier die Kollaborationsforschungen [Olson, Olson 2000; Olson et al. 2008], die das
Scheitern von Kollaborationen untersuchen, die Infrastrukturstudien [Edwards et al. 2009; Star, Ruhleder 1996], die die Realisierung und Stabilisierung von Informationsinfrastrukturen erforschen, sowie Forschungen zu eResearch-Projekten [u.a. Barjac et al. 2009; Lin et al. 2008]. Im Hintergrund
steht stets die Frage, unter welchen Bedingungen die neuen virtuellen Möglichkeiten genutzt und Teil des Forschungsalltags werden. Zu untersuchen
wäre auch, wie sich mittelbare Effekte über das Forschungsverhalten oder die
systematische Forschungsdokumentation auch auf Veränderungen der Forschungsmethoden und damit auch der Ergebnisse erstrecken können [vgl.
eResearch2020 2010: 132]. Das Feld der interdisziplinären Erweiterungen
durch VFU ist noch weitgehend unerforscht15. Dazu gehören auch ungeplante
Effekte, die z.B. dadurch entstehen, dass der Blick auf Forschungsdaten (z.B.
Hieroglyphen-Tafeln), die bislang vor allem einer Disziplin (der Archäologie) zugänglich waren, nun auch anderen Disziplinen möglich ist (z.B.
Sprachwissenschaftler). Unter welchen Bedingungen können VFU solche
„transzendierenden“ Erweiterungen besonders begünstigen [vgl. Kertcher
2010]?
Ethische Probleme der vernetzten Forschung: Der offene Umgang mit
Forschungsprozessen und -ergebnissen erzeugt auch rechtliche und persönliche Konfliktfelder, die durch frühzeitige Berücksichtigung in neu zu konfigurierende Mechanismen der Wahrung aller Interessen überführt werden
müssen. Wie können bei möglichst freiem Zugang zu Daten und Publikationen die Sicherung der Urheberrechte, der Rechte auf Datenselbstbestimmung der Untersuchten und des Anspruchs des Wissenschaftlers auf individuelle Profilierung erfolgen?
15 Frühzeitig hat sich [Bowker 2000a, 2000b] mit diesem Thema befasst und sich dezidiert mit Konzepten der Science and Technology Studies (STS) auseinandergesetzt.
431
Fazit: Zur Bewältigung der oben exemplarisch benannten Herausforderungen werden sehr unterschiedliche Ansätze und Methoden zu integrieren
sein [vgl. dazu z.B. die Beiträge in: Anandarajan, Anandarajan 2010]. Trotz
des klaren Anwendungsbezugs der VFU-Forschung sind auch Grundlagenforschung (z.B. Informations- und Kommunikationsverhalten in Forschungszusammenhängen) und ihr methodisches Repertoire erforderlich. Die meisten
Herausforderungen sind transdisziplinär anzugehen. Basis für diese Forschung bilden vielfältige empirische Befunde, die am besten in breiter Kollaboration erhoben und evaluiert werden können.
Anandarajan, M.; Anandarajan, A. (Hrsg.) (2010). e-Research Collaboration. Theory,
Techniques and Challenges. Berlin/Heidelberg: Springer-Verlag.
Atkins, D. E. et al. (2003). Revolutionizing Science and Engineering through Cyberinfrastructure. Report of the National Science Foundation Blue-Ribbon Advisory
Panel on Cyberinfrastructure.
http://www.nsf.gov/od/oci/reports/atkins.pdf (Retrieved November 08, 2010)
Barjak, F. et al. (2009). Case Studies of e-Infrastructure Adoption. In: Special Issue
on e-Social Science, Social Science Computing Review Journal. 27
Borgman, C. L. (2007). Scholarship in the Digital Age: Information, Infrastructure,
and the Internet. Cambridge, Ma/London: MIT Press.
Borgman, C. L. (2008). Data, Disciplines, and Scholarly Publishing. In: Learned
Publishing. 21. 29–38.
Bowker, G. C. (2000a). Biodiversity Datadiversity. In: Social Studies of Science,
30:5, 643–683.
Bowker, G. C. (2000b). Mapping Biodiversity. In: International Journal of GIS, 14:8,
739–754.
Carusi, A.; Reimer, T. (2010). Virtual Research Environment. Collaborative Landscape Study. A JISC funded project.
http://www.jisc.ac.uk/media/documents/publications/vrelandscapereport.pdf
(Retrieved Nov. 08, 2010)
De Roure, D. et al. (2009). Towards Open Science: The myExperiment approach. In:
Concurrency and Computation: Practice and Experience, 9:8.
http://eprints.ecs.soton.ac.uk/17270/1/CCPE09v8.pdf (Retrieved Nov. 08, 2010)
432
Dunn, S. (2009). Dealing with the complexity deluge: Virtual Research Environments in the Arts and Humanities. In: Library Hi Tech, 27: 2, 205–216.
Eccles, K. et al. (2009). The Future of e-Research Infrastructures. In: Proceedings of
the International Conference on e-Social Science, Köln.
http://www.merc.ac.uk/sites/default/files/events/conference//2009/papers/Eccles.pdf
(Retrieved November 08, 2010)
Edwards, P. N. et al. (2009). Introduction: An Agenda for Infrastructure Studies. In:
Journal of the Association for Information Systems, 10: 5.
eResearch2020 – The Role of e-Infrastructures in the Creation of Global Virtual
Research Communities. European Commission, Directorate General Information
Society and Media. Bonn and Brussels.
http://www.eresearch2020.eu/eResearch2020 Final Report.pdf (Retrieved November
08, 2010)
Kertcher, Z. (2010). Gaps and Bridges in Interdisciplinary Knowledge Integration.
In: Anandarajan, M.; Anandarajan, A. (Hrsg.). e-Research Collaboration. Theory,
Techniques and Challenges. Berlin/Heidelberg: Springer-Verlag. 49–64
Knorr-Cetina, K. (1999). Epistemic Cultures: How the Sciences make Knowledge.
Cambridge, MA: Harvard University Press.
Kunz, W.; Rittel, H. (1970). Systemanalyse eines Forschungsprozesses. In: Kunz,
W.; Rittel, H. (Hrsg.): Systemanalyse und Informationsverarbeitung in der Forschung. München/Wien: Oldenburg Verlag.
Kunz, W.; Rittel, H.; Schwuchow, W. (1976). Methods of Analysis and Evaluation
of Information Needs. München: Verlag Dokumentation.
Lin, Y. et al. (2008). Ontology building as a social-technical process: A case study.
In: The Oxford e-Research Conference 2008.
Nentwich, N. (2003). Cyberscience: Research in the Age of the Internet. Wien: Austrian Academy of Sciences Press.
Olson, G. M.; Olson, J. S. (2000). Distance Matters. In: Human Computer Interaction, 15, 139–178.
Olson, G. M.; Zimmerman, A.; Bos, B. (2008). Scientific Collaboration on the Internet. Cambridge, Ma/London: MIT Press.
Palmer, C. L.; Cragin, M. H. (2008). Scholarship and Disciplinary Practices. In:
Annual Review of Information Science and Technology. 42: 1, 163–212.
Palmer, C. L.; Teffeau, L. C.; Pirmann, C. M. (2009). Scholarly Information Practices in the Online Environment. Themes from the Literature and Implications for
Library Service Development. Dublin, OH: OCLC Online Computer Library
Center. http://www.oclc.org/research/publications/library/2009/2009-02.pdf
433
Siemens, L. (2010). Time, Place and Cyberspace: Foundations for Successful eResearch Collaboration. In: Anandarajan, M.; Anandarajan, A. (Hrsg.): e-Research Collaboration. Berlin/Heidelberg: Springer-Verlag.
Star, S. L.; Ruhleder, K. (1996). Steps Toward an Ecology of Infrastructure: Design
and Access for Large Information Spaces. In: Information Systems Research,
7: 1.
Unsworth, J. (2000). Scholarly Primitives: what methods do humanities researchers
have in common, and how might our tools reflect this? In: symposium Humanities Computing: formal methods, experimental practice, King’s College, London.
http://www3.isrl.illinois.edu/~unsworth/Kings.5-00/primitives.html
van der Vaart, L. (2010). Collaboratories: Connecting Researchers How to facilitate
choice, design and uptake of online research collaborations. SURF Foundation.
http://www.surffoundation.nl/SiteCollectionDocuments/Collaboratories Connecting
Researchers.pdf (Retrieved Nov. 08, 2010)
Voss, A. et al. (2007): e-Infrastructure Development and Community Engagement.
In: Third International Conference on e-Social Science. Ann Arbor, Michigan,
US, 2007. http://www.ncess.ac.uk/events/conference/2007/papers/paper170.pdf
Voss, A.; Procter, R. (2009). Virtual research environments in scholarly work and
communications. Library Hi Tech. 27:2, 2009. 174–190.
434
Rainer Kuhlen
Der Streit um die Regelung des
Zweitveröffentlichungsrechts
im Urheberrecht
oder: Was macht Wissenschaftsfreiheit aus?
Rainer Kuhlen
Prof. emeritus im Fachbereich Informatik und Informationswissenschaft
an der Universität Konstanz
Albertinkatu 19B #27, 00120 Helsinki
[email protected], www.kuhlen.name
Zusammenfassung
Die Auseinandersetzung um die Verankerung eines Zweitveröffentlichungsrechts im Urheberrecht wird aus den unterschiedlichen Perspektiven der beteiligten Akteure diskutiert. Komplexer wird das Problem dadurch, dass das
Zweitveröffentlichungsrecht als Mittel der indirekten oder direkten Begünstigung des Open-Access-Paradigmas gesehen wird. Zwar soll das Zweitveröffentlichungsrecht in erster Linie die informationelle Selbstbestimmung der
Autoren fördern. Als Zweitveröffentlichungsverpflichtung zugunsten von
Open-Access-Repositories soll jedoch auch dem Interesse der Öffentlichkeit
an einem freien Zugriff zu dem mit öffentlichen Mitteln erstelltem Wissen
Rechnung getragen werden. Das wird zumindest in Deutschland als Eingriff
in Wissenschaftsfreiheit für problematisch gehalten. Wissenschaftsfreiheit
hängt jedoch nicht von einer positiven Publikationsfreiheit bei der Zweitveröffentlichung ab. Ein Zweitveröffentlichungsrecht (der Autoren und der sie
tragenden Institutionen) könnte als Übergang zu einer vollständig durch das
Open-Access-Paradigma bestimmten Wissenschaftskommunikation angesehen werden.
Abstract
The author’s right to a secondary publication (in addition to a first publication in a commercial journal of the author’s choice) is discussed from the
Der Streit um die Regelung des Zweitveröffentlichungsrechts ...
435
perspective of the different actors in scientific publication markets. The challenge for a copyright regulation of this right becomes even more complex
because it is seen by many as indirectly, if not directly fostering the open
access paradigm. First and foremost, this right strengthens the autonomy of
the authors, but it is also understood as an obligation of the authors to have
their institutions make these works publicly available, at least those works
which have been supported by public funding. Such an institutional mandate
is believed by some, at least in Germany, to contradict the freedom of science
as guaranteed in the German constitution. The article provides some arguments to the effect that the right to a secondary publication and a concomitant institutional mandate is compatible with freedom of science.
Worum geht es beim Zweitveröffentlichungsrecht?
Es klingt wie ein abstraktes und marginales Problem: Zweitveröffentlichungsrecht1: Es ist das Recht der Autoren nach einer gewissen Frist (Embargofrist genannt) zur kommerziellen Erstpublikation bei einem Verlag oder
sogar zeitgleich zu dieser wieder über ihr Werk verfügen zu können.
Ein solches Recht ist mit einer Frist von zwölf Monaten im Prinzip auch
schon in § 38 des Urheberrechtsgesetzes (UrhG) vorgesehen. Danach dürfen
Autoren ihre Werke wieder selber „vervielfältigen und verbreiten“2, aber nur
– und das ist die entscheidende Einschränkung – „wenn nichts anderes ver1 Das Zweitveröffentlichungsrecht wird auch als „Zweitverwertungsrecht“ bezeichnet
(zuweilen auch als „Zweitverwendungsrecht“). Um die in der Umgangssprache mitschwingende kommerzielle Bedeutung von „Verwertung“ zu vermeiden, spreche ich im
Folgenden nur von „Zweitveröffentlichungsrecht“. Das Urheberrecht spricht „veröffentlichen“ bzw. das Veröffentlichungsrecht nur bei den Persönlichkeitsrechten direkt
an (§ 12 UrhG). Mit dem Zweitveröffentlichungsrecht der Autoren sind aber durchaus
auch die unter §§ 15ff UrhG angesprochenen Verwertungsrechte gemeint, wie das Vervielfältigungsrecht (§ 16), das Verbreitungsrecht (§ 17) und das Recht der öffentlichen
Zugänglichmachung (§ 19a) (worunter das Recht verstanden wird, das Werk über elektronische Netzwerke öffentlich zu machen).
2 Das in § 19a UrhG kodierte Recht der öffentlichen Zugänglichmachung war zum Zeitpunkt der Verabschiedung des Textes von § 38 UrhG noch nicht im Urheberrecht vorhanden. Dieses Recht soll natürlich ebenfalls Bestandteil des Zweitveröffentlichungsrechts, eventuell sogar nur darauf beschränkt sein. Der Gesetzgeber sollte dies klarstellen.
436
Rainer Kuhlen
einbart ist“ (§ 38, Abs. 1, Satz 2). Genau das ist aber bei den Verlagsvertragstexten meistens der Fall. Wissenschaftler, vor allem jüngere, sind kaum in
der Lage, gegenüber den Verlagen ein Zweitveröffentlichungsrecht durchzusetzen. Sie wollen und müssen in renommierten Zeitschriften publizieren und
können wegen der weitgehenden Monopolstruktur auf den wissenschaftlichen Publikationsmärkten nicht einfach ein anderes Journal eines anderen
Verlags wählen, wenn das Ansinnen von dem zunächst vorgesehenen Verlag
zurückgewiesen wird.
Das Recht aus § 38 UrhG wird durch die Vertragspraxis der Verlagswirtschaft faktisch außer Kraft gesetzt3. Es sollte leicht sein, dies zu korrigieren.
Aber um dieses Recht und die damit verbundenen Interessen wird schon seit
einigen Jahren weltweit gestritten. Aktuell in Deutschland, wo die Politik
zum dritten Mal einen Anlauf nimmt, ein zeitgemäßes Urheberrecht zu schaffen. An diesem Problem kann exemplarisch deutlich gemacht werden, wie
kompliziert es ist, eine vernünftige Balance zwischen den Interessen der Urheber, der kommerziellen Verwerter und der Nutzer von publizierten Werken
zu erzielen. Für diese Interessen werden gewichtige Geschütze in Stellung
gebracht.
Es geht um Wissenschaftsfreiheit, um den Schutz des geistigen Eigentums,
aber auch allgemein um dessen Sozialpflichtigkeit (beides gefordert durch
Art. 14 des Grundgesetzes) bzw. insbesondere um das Recht der Öffentlichkeit, zu dem mit öffentlichen Mitteln unterstützt produziertem Wissen freien
Zugang zu erhalten und natürlich um die Funktionsfähigkeit der wissenschaftlichen Fachkommunikation und, last not least, um den Bestand der Geschäftsmodelle auf den kommerziellen Informationsmärkten.
3 Bis 1965 hatten Verleger nur einfache Nutzungsrechte an Zeitschriftenbeiträgen. Das
wurde 1965 dahingehend korrigiert, dass Verleger/Herausgeber im Zweifel ein ausschließliches Nutzungsrecht erwerben. Die Rückgewinnungsregelung von 1965 kann
daher als Kompensation für die Einschränkung der Autorenautonomie interpretiert werden. Aus heutiger Sicht ist diese jedoch unzureichend.
437
Der Stand der politischen Auseinandersetzung
um das Zweitveröffentlichungsrecht
Das Zweitveröffentlichungsrecht ist deshalb erneut auf die politische Tagesordnung gekommen, weil der Bundestag bei der Verabschiedung des Zweiten
Korbs der Urheberrechtsreformen im Juli 2007 auf Antrag des Ausschusses
des Deutschen Bundestags für Bildung, Forschung und Technikfolgenabschätzung das Bundesjustizministerium (BMJ) aufgefordert hatte, eine „Prüfung eines Zweitverwertungsrechts für Urheber von wissenschaftlichen Beiträgen, die überwiegend im Rahmen einer mit öffentlichen Mitteln finanzierten Lehr- und Forschungstätigkeit entstanden sind (§ 38 UrhG)“, vorzunehmen. Das wird nun im Rahmen der Anhörungen zum Dritten Korb verhandelt.
Ein Zweitveröffentlichungsrecht für Urheber hätte der Gesetzgeber schon
im Zweiten Korb verankern können. Der Bundesrat hatte 2007 vorgeschlagen, das Gesetz unter anderem dahingehend zu ändern, dass zum einen die
Frist, nach der dieses Recht dem Urheber wieder zufällt, in der Regel auf
sechs Monate verkürzt wird und dass zum anderen dieses Recht nicht per
Vertrag abbedungen werden kann4. Vor allem Letzteres hat heftigen Widerstand der Verlagswelt in Deutschland hervorgerufen. Offensichtlich hatte
diese damals (und wie wir sehen werden, auch heute) kein Interesse an der
Einsetzung eines verbindlichen Zweitveröffentlichungsrechts5.
4 Der Vorschlag des Bundesrats zur Regelung eines Zweitverwertungsrechts in seiner
Stellungnahme zum Regierungsentwurf des Zweiten Korbes (BR-Drs. 257/06): „An
wissenschaftlichen Beiträgen, die im Rahmen einer überwiegend mit öffentlichen Mitteln finanzierten Lehr- und Forschungstätigkeit entstanden sind und in Periodika erscheinen, hat der Urheber auch bei Einräumung eines ausschließlichen Nutzungsrechts
das Recht, den Inhalt längstens nach Ablauf von sechs Monaten seit Erstveröffentlichung anderweitig öffentlich zugänglich zu machen, soweit dies zur Verfolgung nicht
kommerzieller Zwecke gerechtfertigt ist und nicht in der Formatierung der Erstveröffentlichung erfolgt. Dieses Recht kann nicht abbedungen werden.“
5 Zu unterscheiden ist das verbindliche Zweitveröffentlichungsrecht von der Praxis vieler, auch der großen Zeitschriftenverlage wie Elsevier, Wiley oder Springer, eine
Selbstpublikation der Werke ihrer Autoren als Postprint zu erlauben (also die mit der in
der Zeitschrift inhaltlich übereinstimmende, aber nicht verlagsformatierte Endversion
des Artikels). Einige Verlage bzw. einzelne Zeitschriften (z.B. die von IEEE; vgl.
http://bit.ly/9G5xoJ) erlauben dies sogar in der Verlagsversion. Nach der SherpaRomeo-Liste erlauben über 120 Verlage weltweit die Einstellung des Verlags-PDFs
438
Rainer Kuhlen
Die damalige Bundesregierung hatte diesen Vorschlag des Bundesrats
2007 zurückgewiesen6 und zwar aus folgenden Gründen:
a) Sie hatte zunächst den Vorschlag unter dem Gesichtspunkt einer Verpflichtung der Autoren, ihre Werke bei der Zweitveröffentlichung ihrer
Institution anzubieten, geprüft und dagegen verfassungsrechtliche Bedenken (sprich: Verstoß gegen Wissenschaftsfreiheit) geltend gemacht.
b) Danach wurde, eher formaljuristisch, zu bedenken gegeben, dass der
Vorschlag des Bundesrats möglicherweise als neuer Schrankenvorschlag
anzusehen sei und nicht als eine bloße Veränderung im Urhebervertragsrecht (wo ja § 38 angesiedelt ist). Für neue Schrankenvorschläge gibt es
aber in nationalen Gesetzen wegen der nach wie vor gültigen EU-Richtlinie von 2001 keinen Spielraum. Die dort angegebene Liste der möglichen Schranken ist abschließend formuliert.
c) Und zuletzt sei „zu befürchten, dass der Vorschlag gerade den deutschen
Wissenschaftlern mit internationalem Renommee, die ihre Forschungsergebnisse in internationalen Zeitschriften mit hoher Reputation veröffentlichen wollen, Publikationswege verstellen könnte.“ (ebd.)
2010 ist die Bundesregierung eine andere. Aber natürlich musste auch das
jetzige BMJ die Forderung des damaligen Bundestags aufgreifen. Bei den
Vorbereitungen zum sogenannten Dritten Korb der Urheberrechtsreform hatte das BMJ in einem Prüfkatalog auch einige Fragen zum Thema Zweitveröffentlichungsrecht gestellt. Dieser Fragenkatalog richtete sich an die verschiedenen Interessenvertreter und -verbände.
Konkret bat das BMJ in einem ersten Teil um Antworten zu den Fragen,
ob die Embargofrist von sechs Monaten angemessen sei7, ob durch eine sol-
ohne Restriktionen und zeitgleich mit dem Erscheinen (http://bit.ly/9P3jWp). Stevan
Harnad spricht sogar davon, dass “91% of journals have even given author self-archiving their explicit green light” (http://bit.ly/1xpZGX).
Strikt gegen ein Zweitveröffentlichungsrecht (vor allem bei kurzen Embargofristen) ist
auf internationaler Ebene der Verlegerverband STM (The International Association of
Scientific, Technical & Medical Publishers) in der Brussels Declaration on STM
Publishing (http://bit.ly/a0YcNn). In Deutschland lehnt auch der Börsenverein des
Deutschen Buchhandels ein im Urheberrecht verankertes Zweitveröffentlichungsrecht
strikt ab.
6 Gegenäußerung der Bundesregierung zur Stellungnahme des Bundesrates zum Entwurf
eines Zweiten Gesetzes zur Regelung des Urheberrechts in der Informationsgesellschaft
(BR-Drs. 257/06 – Beschluss)
439
che Regelung deutschen Wissenschaftlern Nachteile im internationalen Wettbewerb entstünden und in welchem Format des Werkes das Zweitveröffentlichungsrecht wahrgenommen werden solle (in der publizierten Verlags- oder
der letzten Autorenversion).
In einem zweiten Teil wurden Stellungnahmen zu Zwangslizenzmodellen
erbeten. Durch solche Modelle wird das Zweitveröffentlichungsrecht um die
Dimension einer Zweitveröffentlichungsverpflichtung erweitert. Dies wird –
nicht überraschend – derzeit noch kontroverser diskutiert. Nach einem Vorschlag8 sollen Rechteinhaber verpflichtet werden, nach einer gewissen Embargozeit (z.B. sechs Monate) jedermann ein unbeschränktes einfaches Nutzungsrecht einzuräumen, aber nur mit dem Recht der öffentlichen Zugänglichmachung (vgl. Anm. 2) und nur für die mit öffentlichen Mitteln finanzierten Werke. Gefragt wurde ergänzend, ob dafür überhaupt eine Änderung
im Urheberrecht nötig sei oder ob dies nicht über die Vergabebedingungen
für Forschungsmittel geregelt werden könne.
Gefragt wurde aber auch nach einem anderen Modell9, nach dem „der an
einer Hochschule beschäftigte Urheber verpflichtet ist, ein im Rahmen seiner
Lehr- und Forschungstätigkeit entstandenes Werk […] der Hochschule (exklusiv oder nicht exklusiv) zur Veröffentlichung anzubieten. Werde das
Werk nicht binnen einer bestimmten Frist von der Hochschule veröffentlicht,
sollen dem Urheber die Verwertungsrechte wieder unbeschränkt zustehen.“
Das war und ist den Verfechtern eines strikten Verständnisses von Wissenschaftsfreiheit ein Dorn im Auge. International kommt ein solches „Institutional Mandate“ schon häufiger zur Anwendung.
7 International scheint eine Embargofrist zwischen 6 und 12 Monaten konsensfähig zu
sein. Aus der Open-Access-Sicht sollte allerdings „so früh wie möglich“ „zeitlich parallel zur Erstpublikation“ bedeuten. Ob es Sinn macht, mit Disziplinen-spezifischen Fristen zu experimentieren, ist auch eine noch offene Frage. Sowohl die Allianzinitiative
als auch die Kulturministerkonferenz (letztere hält eine 6-Monate-Frist für angemessen)
schätzen eine Differenzierung bei der Embargofrist als „praktisch nicht durchführbar“
ein.
8 Vgl. Gerd Hansen, GRUR Int. 2005, S. 378 ff.
9 Vgl. Thomas Pflüger/Dietmar Ertmann, ZUM 2004, S. 436 – E-Publishing und Open
Access – Konsequenzen für das Urheberrecht im Hochschulbereich
440
Rainer Kuhlen
Zweitveröffentlichungsrecht und Zweitveröffentlichungsverpflichtung im Kontext von Open Access
Das Autoren-Zweitveröffentlichungsrecht als ein im Urheberrecht zu kodifizierendes Recht ist für sich schon eine höchst umstrittene Angelegenheit.
Vor allem von Seiten vieler Verlage wird zu bedenken gegeben, dass dadurch
die ökonomische Verwertung der Erstpublikation und damit ihre Geschäftsgrundlage gefährdet werde. Die Debatte verschärft sich dadurch, dass viele
Autoren es als eine indirekte oder direkte Verpflichtung ansehen10, ihren
wiedergewonnenen Freiraum dazu zu verwenden, ihrer Institution oder einer
anderen öffentlichen Einrichtung ihre Werke zu einer weiteren Publikation –
in der Regel in einem Open-Access-Repository – anzubieten. Das, so das Argument, verstoße gegen ihre grundgesetzlich garantierte Wissenschaftsfreiheit.
Die meisten Wissenschaftsorganisationen in Deutschland halten eine Verpflichtung zur Open-Access-Publikation ebenfalls rechtlich nicht für möglich, auch wenn die Wahlfreiheit für die Erstpublikation erhalten bleibt. Sie
halten aber auch eine Zweitveröffentlichungsverpflichtung nicht für erforderlich, weil man davon ausgehen könne, dass Autoren selber die Vorteile
von Open-Access-Publikationen erkennen würden, also eine Verpflichtung
nicht erforderlich sei.
Ein „Institutional Mandate“ wird hingegen mit dem Argument gefordert,
dass bislang die Mehrzahl der Autoren nicht die Option der Open-AccessPublikation wahrnehme, sodass der Erwartung (und dem Bedarf) der Öffentlichkeit an freier Verfügbarkeit der von ihr finanzierten Werke nicht in ausreichendem Umfang gerecht würde.
10 Die Debatte um eine indirekte oder direkte Verpflichtung (requested vs required)
wurde vor allem in den USA im Zusammenhang der Publikationspolitik des NIH (National Institute of Health) geführt; vgl. http://bit.ly/b9yhdN; zu den internationalen
Open-Access-„Request vs. Requirement“-Policies vgl. http://bit.ly/b9yhdN; eine
Übersicht dazu in Kapitel 8.5 „Open Access im internationalen Kontext“ in Rainer
Kuhlen: Erfolgreiches Scheitern – eine Götterdämmerung des Urheberrechts? Schriften zur Informationswissenschaft; Bd. 48. vwh – Verlag Werner Hülsbusch: Boizenburg 2008; zum lateinamerikanischen Markt der Debatte vgl. SCIELO http://bit.ly/
203Vvp; vgl. auch Stevan Harnad, Referenz in Anm. 5.
441
Die kontroversen Positionen im einzelnen
In Einklang mit der systematischen Zielsetzung des Urheberrechts, welches
ja ein Recht der Urheber sein soll11, verstärkt ein Zweitveröffentlichungsrecht zunächst einmal die Position der Autoren selbst. Noch allgemeiner
formuliert bedeutet dies eine Rückgewinnung der Autonomie der Autoren,
verstanden als informationelle Selbstbestimmung über die Verwendung ihrer
Werke. Eric W. Steinhauer stellt dieses in Bezug zu dem Recht der Autoren
auf Sichtbarkeit ihrer publizierten Werke her: „Der Wissenschaftler sollte für
den immer wichtiger werdenden Online-Bereich stets und immer die Möglichkeit haben, seine Publikationen der interessierten Öffentlichkeit zur
Kenntnis zu geben“12.
Selbstbestimmung in diesem Kontext gilt zunächst für die Erstpublikation, für die die Autoren die uneingeschränkte Entscheidungsfreiheit haben,
ob, wann, wie und wo sie publizieren. Diese Freiheit wird derzeit von Niemandem bestritten. Vor allem die DFG, die vor einem Jahr durch den Heidelberger Appell mit dem (haltlosen) Vorwurf angegriffen wurde, wissenschaftliche Autoren zur Open-Access-Publikation zwingen zu wollen13, hat
11 Faktisch ist es sicher so, dass durch die im Urhebervertragsrecht vorgesehene Übertragung der den Autoren explizit zustehenden Verwertungsrechte als Nutzungsrechte
an die (i.d.R. kommerziellen) Verwerter das Urheberrecht zu großen Teilen auch den
Interessen der Informationswirtschaft entspricht. Nicht zuletzt auf Grund des weltweiten Einflusses des angelsächsischen Copyright verwandelt sich das Urheberrecht in
der Gegenwart seit den WTO/TRIPS- und WIPO-Regelungen/Verträgen zunehmend
in Richtung eines Verwerter- oder Handelsrechts, auch wenn nach wie vor im EUBereich quasi als ideologischer Unterbau die Rechtegarantie für die persönlichen Urheber gilt.
12 Eric W. Steinhauer: Das Recht auf Sichtbarkeit. Überlegungen zu Open Access und
Wissenschaftsfreiheit 2010, 47. Als gedrucktes Buch kann der Text online bestellt
werden: http://www.mv-buchshop.de/catalog/index.php/cPath/36_159; frei herunterladbar unter: http://deposit.fernuni-hagen.de/2752/; auch aus dem INFODATA-eDepot der FH Potsdam.
13 In der Öffentlichkeit bekannt gemacht wurde der gegen Google und gegen Open
Access gerichtete Heidelberger Appell durch einen Zeitungsartikel von Roland Reuß
unter dem Titel „Eine heimliche technokratische Machtergreifung“ in FAZ.NET
vom 13.2.2009. Eine kritische Analyse des Appells von Matthias Spielkamp erschien
unter dem Titel „Open Excess: Der Heidelberger Appell“ in Perlentaucher.de
(http://bit.ly/SRMnd).
442
Rainer Kuhlen
bei verschiedenen Gelegenheiten sehr deutlich gemacht, dass es weder bei
der Erstpublikation14 noch bei der Zweitpublikation einen Zwang geben dürfe. Dies widerspräche den Grundsätzen der Wissenschaft.
Dass das Zweitveröffentlichungsrechterforderlich ist und als Verstärkung
der Autonomie der Autoren und damit auch von Wissenschaftsfreiheit anzusehen ist, darauf hat sich auch die Allianz der Wissenschaftsorganisationen in
ihrem Katalog zur Neuregelung des Urheberrechts vom 9. Juli 2010 verständigt:
„Als zwingende Regelung im Urhebervertragsrecht sollte wissenschaftlichen
Autoren nach einer angemessenen Embargofrist ein unabdingbares und formatgleiches Zweitveröffentlichungsrecht für ihre Aufsätze und unselbständig erschienenen Werke eingeräumt werden. Dieses Zweitveröffentlichungsrecht, das
für den Wissenschaftler keine Pflicht bedeutet, ist notwendig, um ihn in seiner
Verhandlungsposition gegenüber großen wissenschaftlichen Verlagen zu stärken. Der Wissenschaftler erhält durch das Zweitveröffentlichungsrecht die
Möglichkeit, selbst über den Grad der Sichtbarkeit seiner Forschungsergebnisse
zu entscheiden. Er übt dabei in besonderer Weise das Grundrecht der Wissen-
14 Wenn auch die Erstpublikation bislang überwiegend in kommerziellen Zeitschriften
erfolgt, deutet alles darauf hin, dass der Zeitschriftenmarkt in absehbarer Zeit ein
Markt der Open-Access-Zeitschriften werden wird und dass der elektronische Buchmarkt in der Wissenschaft folgen wird. SpringerOpen, nachdem Springer PubMed
Central (PMC), den größten Open-Access-Anbieter, gekauft hat, ist nur der Frontrunner. Das Open-Geschäftsmodell beruht darauf, dass irgendjemand (wissenschaftliche
Gesellschaften, Forschungsinstitute, Fachverbände, private oder öffentliche Wissenschaftsförderorganisationen oder die Länder aus den öffentlichen Haushalten) den
Verlagen die Vorleistung der Erstellung ihrer Informationsobjekte finanziert, nicht
bloß die Kosten für einen einzelnen Artikel, sondern für die gesamte jeweilige Zeitschrift oder in Zukunft vielleicht sogar für die gesamte wissenschaftliche Verlagsproduktion.
Wenn man von etwa 1,5 Millionen Artikeln pro Jahr aus den Peer-reviewed-Zeitschriften und von Kosten für einen Artikel in Höhe von 1000 Euro ausgeht, so könnte
die gesamte Jahresproduktion an hochqualitativen Artikeln für 1,5 Milliarden Euro jedermann frei zur Verfügung gestellt werden. Interessant wäre es, diesem Betrag die
gegenwärtigen weltweiten Kosten der Bibliotheken für den Kauf oder die Lizenzierung der Zeitschriften gegenüberzustellen (diese Zahlen sind aber nicht verfügbar).
Was wäre kostengünstiger für die Öffentlichkeit – die Finanzierung der Bibliotheken
(wie derzeit) und damit indirekt der Verlage oder die direkte Subventionierung der
Verlage (wie im kommerziellen Open-Modell) oder die Finanzierung der von der
Wissenschaft bzw. ihren Organisationen selbst betriebenen Zeitschriften nach dem
Gold-Open-Access-Paradigma?
443
schaftsfreiheit aus. Durch die Embargofrist wird sichergestellt, dass Verlage
wirtschaftlich arbeiten können“ (http://bit.ly/bJJ8Qp).
Mit dem Argument der Wissenschaftsfreiheit operiert auch der Deutsche
Hochschulverband (DHV), der traditionell eher die Interessen der Wissenschaftler als Autoren, weniger die der Wissenschaftler als Nutzer vertritt. Er
kommt zu einem ganz anderen Ergebnis: In einer Pressemitteilung vom 23.
März 2010 warnt er „vor einer Relativierung des Urheberrechts“ und vor
einer Einschränkung der Wissenschaftsfreiheit: „Den Wissenschaftlerinnen
und Wissenschaftlern müsse es als Urhebern vorbehalten bleiben, zu bestimmen, ob, wann, wo und wie sie ihre Werke veröffentlichen“15. Er sieht in
dem Einsatz der Allianzorganisationen für ein Zweitverwertungsrecht die
Gefahr, dass Wissenschaftler verpflichtet würden, auf eine bestimmte Art
und Weise zu publizieren. Dies sei mit der Wissenschaftsfreiheit nicht vereinbar16.
Bezeichnend für die konfliktäre Debatte um dieses Thema ist, wie die explizite Positionierung der Allianzinitiative – durch das Zweitveröffentlichungsrecht werde das Grundrecht der Wissenschaftsfreiheit gestärkt – ins
Gegenteilverkehrt wird. Warum an dieser offensichtlichen Fehlinterpretation
aus dem Umfeld des Heidelberger Appells festgehalten wird, darüber kann
nur spekuliert werden17. Ist es die Sorge um die Geschäftsgrundlage mittel15 Diese Pressemitteilung des Deutschen Hochschulverbands ist leider nicht mehr auf
dem Server des DHV abrufbar; der ursprüngliche Link geht ins Leere: http://www.hochschulverband.de/cms1/pressemitteilung+M5eacaf755f9.html; vgl. dazu die Stellungnahme im NETETHICS-Blog vom 26. 3. 2010 unter dem Titel „Verteidigen Deutscher Hochschulverband und Börsenverein wirklich Wissenschaftsfreiheit oder geht es
nur um obsolete Privilegien?“ – http://bit.ly/bEGuls.
16 Dagegen z.B. Ehmann bei IUWIS.DE: http://bit.ly/d7klvq
17 Der Mit-Initiator des Heidelberger Appells (vgl. Anm. 13), Uwe Jochum, hat sich in
der FAZ vom 3.11.2010 mit der Warnung vor dem „digitalen Tod des freien Forschers“ in diese Debatte erneut eingeschaltet und dabei auch die Position der CDUBundestagsfraktion (s. Anm. 22) kritisiert: „Was hier pathetisch gefordert wird,
schwächt in Wahrheit die Position des Autors. Denn wenn der Autor einem Verlag,
der in seine Publikation investiert, kein zeitlich begrenztes ausschließliches Nutzungsrecht mehr anbieten kann, wird seine Souveränität nicht gestärkt, sondern beschnitten.
Er verliert seine Vertragsfreiheit. Das Investitionsrisiko des Verlags wird zu groß und
dem Autor wird nur übrig bleiben, seine unlektorierten und unbeworbenen Schriften
im ach so überschaubaren Netz allein ,sichtbar‘ zu machen.“ (http://bit.ly/csVpry)
(dagegen Kuhlen im NETETHICS-Blog vom 5.11.2010 : http://bit.ly/cM422i). Olaf
Gefeller, Direktor des Instituts für Medizininformatik, Biometrie und Epidemiologie
444
Rainer Kuhlen
ständischer Verlage in Deutschland, die nach wie vor für die Buchproduktion
in den Geisteswissenschaften wichtig sind?
Exkurs: Auch Wissenschaftsfreiheit ist von positiven
Gesetzen abhängig
Der Verweis auf Grundsätze der Wissenschaft und die grundgesetzlich geschützte Wissenschaftsfreiheit sollte prinzipiell nicht dogmatisch strikt und
ohne weitere Begründung verwendet werden. Weder sind diese Grundsätze
der Wissenschaft, wenn sie denn überhaupt jemals verbindlich formuliert
wurden, ein Naturgesetz, noch sind die politischen Entscheidungsinstanzen
von der Notwendigkeit befreit, das Ausmaß der Wissenschaftsfreiheit durch
gesetzliche Regelungen festzulegen. Wissenschaftsfreiheit, wie auch alle
anderen Grundrechte, kann durch positive Gesetzgebung allerdings nur eingeschränkt werden, wenn daran ein allgemeines öffentliches Interesse besteht, etwa zum Zwecke der nationalen Sicherheit, des Daten- oder des Jugendschutzes. Die Sicherstellung der Wissenschaftskommunikation und der
Funktionsfähigkeit der Wissenschaftsmärkte liegt sicherlich auch im öffentlichen Interesse. Aber gewiss kann Wissenschaftsfreiheit als Grundrecht nie
gänzlich in Frage gestellt werden.
Begriffe wie Grundsätze oder Wissenschaftsfreiheit sollten nicht dogmatisch defensiv (zur Abwehr von Eingriffen) verwendet werden. Vielmehr
sollte überprüft werden, wie diese Grundsätze der Wissenschaft und Wissenschaftsfreiheit mit dem Interesse der Öffentlichkeit an der freien Verfügbarkeit der Werke, deren Entstehen sie entscheidend über vielfältige Maßnahmen finanziert hat, zusammengehen kann. Darauf zu setzen, dass Autoren,
an der Friedrich-Alexander-Universität (ebenfalls in der FAZ vom 1.12.2010), weist
die Vorwürfe der Heidelberger gegen die Allianz zurück: „Für mich ist ein wesentliches Element der freien Wissenschaft die freie Wissenschaftskommunikation. Dazu
gehört auch die Zugänglichkeit zu wissenschaftlicher Information und wissenschaftlichen Veröffentlichungen. Jede Initiative, die hier Verbesserungen im Sinne eines Abbaus von Hemmnissen des Zugangs schafft, findet daher meine Zustimmung. Ich sehe
in den Vorschlägen der Allianzinitiative das aufrichtige Bemühen um Verbesserungen
und vernünftige Schritte in die richtige Richtung.“
445
sobald sie das Zweitveröffentlichungsrecht zurückgewonnen hätten, in absehbarer Zeit ihre Werke den entsprechenden Open-Access-Repositories zur
Verfügung stellen werden, ist eine sehr vage Hoffnung. Darauf zu warten,
kann heute der Öffentlichkeit nicht mehr zugemutet werden.
Auch wenn das Urheberrecht schon dem Wortsinn nach das Recht der
Urheber ist, gehören doch Schrankenregelungen, die direkt auf die Interessen
der Öffentlichkeit, also der Nutzer von publizierten und urheberrechtsgeschützten Werken, Rücksicht nehmen, systematisch dazu. Dies zeigt, dass
Prinzipien wie Wissenschaftsfreiheit nicht absolute individuelle Rechte sind,
sondern auch über das Urheberrecht (in Grenzen) eingeschränkt werden können. Diese Einschränkungen beziehen sich dabei in erster Linie auf die Genehmigungsfreiheit bei der Nutzung urheberrechtlich geschützter Werke,
ohne die Vergütungsverpflichtung in Frage zu stellen.
Die Freiheit der Wissenschaft und das Interesse der Wissenschaftler sind
kaum an die exklusive individuelle Verfügungsgewalt über das produzierte
Wissen gebunden. Ist Freiheit der Wissenschaft nicht in erster Linie das
Recht, unabhängig forschen zu dürfen und entscheiden zu dürfen, ob, wie
und wann man als Wissenschaftler publizieren will? Und gehört zur Wissenschaftsfreiheit nicht auch das Recht, das publizierte Wissen umfassend nutzen zu können?
In Ergänzung zur Rückgewinnung der informationellen Autonomie der
Autoren kann eine institutionelle Verpflichtung zur Open-Access-Zweitveröffentlichung dreifach begründet werden:
• durch das Interesse und das Recht der Wissenschaftler, die ja immer auch
Nutzer sind, auf freien Zugriff zum publizierten Wissen,
• durch das Interesse und das Recht der Öffentlichkeit, das mit öffentlichen
Mitteln geförderte Wissen frei nutzen zu können,
• durch das Interesse und das Recht der die jeweiligen Autoren beschäftigenden öffentlich finanzierten Einrichtungen18, die dort erstellten Werke
so breit wie möglich in der Fachöffentlichkeit, aber auch in der allgemeinen Öffentlichkeit bekannt zu machen.
18 Bei privaten Einrichtungen wie Unternehmen der Wirtschaft mag das Interesse nicht
unbedingt vorhanden sein, das Wissen, dessen Erstellung mit öffentlichen Mitteln unterstützt wurde, so früh wie möglich allen frei zugänglich zu machen. Aber wenn das
Unternehmen sich für eine Erstpublikation entschieden hat, sollte auch hier nichts dagegen sprechen, dass eine Zweitveröffentlichung für jedermann frei zugänglich ist.
446
Rainer Kuhlen
Es macht also Sinn, das Zweitveröffentlichungsrecht in ein persönliches der
Autoren und in ein institutionelles der die Autoren tragenden Organisationen
aufzuteilen und eben beiden das (nicht-kommerzielle) Recht der öffentlichen
Zugänglichmachung zuzusprechen.
Soll das Urheberrecht die kommerzielle Grundlage
der Informationswirtschaft schützen?
Dass der Börsenverein des Deutschen Buchhandels (BV), zusammen mit der
Arbeitsgemeinschaft wissenschaftlicher Verleger (AwV), diese oben skizzierte Kritik des DHV gerne aufgreift, ist nur zu nachvollziehbar: „Kein Autor“, so der Verleger Vittorio Klostermann, „[…] sollte gedrängt werden,
seine Werke der Öffentlichkeit kostenlos zur Verfügung zu stellen […] Solche Forderungen untergraben die Freiheit der Autoren, ihre Werke in der
bestmöglichen Form zu publizieren“19. Gemeint ist wohl eher die Bedrohung
der „ökonomischen Grundlagen der Wissenschaftsverlage“. Ein Zweitveröffentlichungsrecht, so der Börsenverein, „ließe keinen Raum mehr für privatwirtschaftliche Verlage“.
Dies wird vom Börsenverein in einer ausführlichen Replik auf den Vorschlag der Allianzorganisationen weiter ausgeführt20. Der Börsenverein sieht
gar keinen Regelungsbedarf für die Einführung eines Zweitveröffentlichungsrecht, schon gar nicht zugunsten von Open Access, da es „jedem Wissenschaftler […] bereits heute frei [steht], seine Forschungsergebnisse Open
Access zu veröffentlichen“. Besonders bedroht sieht der Börsenverein die
Geschäftsmodelle der Verlage, wenn der Forderung der Allianz entsprochen
würde, das Zweitveröffentlichungsrecht im Format des Verlags wahrzunehmen:
„Damit würde aber nicht nur dem auf Finanzierung durch Zahlungen von Nutzern angelegten Subskriptionsmodell kommerzieller Verlage der Boden entzogen, sondern zugleich auch den Anbietern originärer open access-Publika19 Beleg in NETETHICS-Blog vgl. Anm. 17
20 Vgl. Kommentar zur Stellungnahme der Allianz der deutschen Wissenschaftsorganisationen „Neuregelung des Urheberrechts: Anliegen und Desiderate für einen Dritten
Korb“ – http://bit.ly/b5EQQ3
447
tionen („golden road“) eine ruinöse Konkurrenz erwachsen, die den mit open
access verbundenen Veröffentlichungskosten durch Enteignung von Verlagsleistungen ausweicht. […] In Summe würde der Vorschlag Wissenschaftsverlagen, die in die Selektion von, Navigation durch und Qualitätssicherung bei wissenschaftlichen Publikationen in elektronischer oder gedruckter Form investieren, jeden Anreiz für ihre Aktivitäten nehmen.“ (ebd.)
Auf diesen sicherlich komplexen Zusammenhang der Auswirkungen eines
Zweitveröffentlichungsrechts auf die Verlagswirtschaft kann hier nur knapp
eingegangen werden. Es kann aber nicht die Aufgabe des Urheberrechts sein,
der Verlagswirtschaft ihre bisherigen Geschäftsmodelle zu sichern – natürlich auch nicht, die kommerzielle Grundlage dieser volkswirtschaftlich zweifellos wichtigen Tätigkeit zu zerstören. Das derzeit gültige Urheberrecht hat
über vielfältige Einschränkungen durch die Schrankenregelungen (so z.B. in
den §§ 52a und b, 53 und 53a UrhG), die die Nutzung an sich begünstigen,
dafür gesorgt, dass die Informationswirtschaft nicht vorschnell, unbillig oder
sogar ruinös durch die in elektronischen Umgebungen möglichen Nutzungsformen beeinträchtigt wird.
Der Informationswirtschaft wurde ein langer Zeitraum zugestanden, sich
um neue, elektronischen Umgebungen angemessene Geschäfts- und Organisationsmodelle für das Publizieren zu kümmern.
Diese Schonzeit – ob nun von der Politik bewusst zugestanden oder nur
faktisch gegeben, sei dahingestellt – sollte vorbei sein. Es ist an der Zeit, die
im Urheberrecht erforderliche Balance wieder stärker auf die Autoren und
die Nutzer zu richten. Zu starker Schutz der kommerziellen Interessen der
Verlagswirtschaft ist nicht nur für die Ziele des Urheberrechts, sondern auch
für die allgemeine produzierende Wirtschaft kontraproduktiv. Wenn es nicht
gelingt, profitable Modelle z.B. im Rahmen von Freeconomics zu entwickeln, also einer Wirtschaftsform, bei der die eigentliche Information gebührenfrei nutzbar ist, aber mit anderen Mehrwertleistungen, verdient wird,
dann mag die Zeit der kommerziellen Publikationswirtschaft im bisherigen
Stil abgelaufen sein. Bildung und Wissenschaft, gleichermaßen Autoren und
Nutzer, können nicht länger unbillige Einschränkungen ihrer Rechte an ihren
Werken und deren Nutzung hinnehmen. Wissenschaftliches Publizieren sollte auch von der kommerziellen Informationswirtschaft vollständig nach dem
Open-Access-Paradigma organisiert sein.
448
Rainer Kuhlen
Diversifizierung des Zweitveröffentlichungsrechts —
Zwangslizenzen
Was folgt aus alldem? Um aus dem Dilemma „Recht oder Verpflichtung“
herauszukommen, empfiehlt sich, wie oben angedeutet, eine Diversifizierung
des Zweitveröffentlichungsrechts. Der Autor bekommt dieses Recht als einfaches Verwertungsrecht zugesprochen. Aber auch die Institution des Autors,
die die Arbeit finanziert hat, erhält ein einfaches Zweitpublikationsrecht.
Systematisch könnte das im Urheberrecht entweder über die Nutzungsrechte im Urhebervertragsrecht oder durch eine neue Schranke geregelt werden. Da auf Grund der Vorgaben der EU-Richtlinie von 2001, in der eine
abschließende Liste von möglichen Schrankenregelungen vorgegeben ist, die
Einführung einer neuen Schranke für den deutschen Gesetzgeber derzeit
nicht möglich ist, kommt wohl nur das Urhebervertragsrecht in Frage. Eine
entsprechende Änderung von § 38 UrhG, der in der Diskussion bevorzugt
wird, ist mit Blick auf ein institutionelles Zweitveröffentlichungsrecht jedoch
schwierig, da bislang dieser Paragraf das Recht des individuellen Autors
regelt. Aber es sollte überprüft werden, ob eine Änderung möglich ist.
Eine andere Möglichkeit wäre die Einführung einer neuen Zwangslizenz,
wie sie im Urheberrecht in § 42a als Zwangslizenz zur Herstellung von Tonträgern vorgesehen ist21. Eine Zwangslizenz, die sich direkt auf das zurückgewonnene Zweitpublikationsrecht der Autoren bezieht, nach der die Autoren im Sinne eines „Institutional Mandate“ veranlasst würden, ihre Werke
ihrer Institution zur Aufnahme in ein Open-Access-Repository zu überlassen,
wäre eine mögliche und international eher unproblematische Lösung, die
allerdings, wie ausgeführt, in Deutschland auf absehbare Zeit auf heftigen
Widerstand von vielen Seiten stößt (besonders gewichtig von Seiten der
21 Gerd Hansen hatte alternativ zu einer Änderung von § 38 UrhG zu erwägen gegeben,
ob nicht Rechteinhaber verpflichtet werden sollten, nach einer Embargofrist jedermann ein unbeschränktes, einfaches Nutzungsrecht zu gewähren, allerdings nur für
Werke, die im Rahmen einer öffentlichen Förderung entstanden sind (in GRUR Int.
2005, S. 378 ff.). Jüngst hat auch Reto Hilty das Mittel der Zwangslizenz wieder ins
Spiel gebracht, um Entwicklungen im internationalen Publikationsgeschehen entgegenzusteuern, bei denen „Mechanismen des Wettbewerbes letzten Endes zum Erliegen
kommen“ (vgl. Reto M. Hilty: Renaissance der Zwangslizenzen im Urheberrecht?
Gedanken zu Ungereimtheiten auf der urheberrechtlichen Wertschöpfungskette. Gewerblicher Rechtsschutz und Urheberrecht (GRUR) 2009, 633–644).
449
Deutschen Forschungsgemeinschaft). Alternativ könnte eine Zwangslizenz
gegenüber den kommerziellen Rechteinhabern eingeführt werden. Dieser
Vorschlag, im Urheberrecht intensiver von Zwangslizenzen Gebrauch zu
machen, wenn durch Marktversagen das öffentliche Interesse an einer unproblematischen Nutzung publizierter Werke eingeschränkt ist, ist nicht zuletzt im Münchener Max-Planck-Institut für Geistiges Eigentum, Wettbewerbs- und Steuerrecht entwickelt worden (vgl. Anm. 21).
Das Bundesjustizministerium hatte in seinem Fragekatalog zur Vorbereitung des Dritten Korbs gefragt, ob eine solche Regelung Zwangslizenz sinnvoll sei. In der Antwort der Kulturministerkonferenz wurde eine Zwangslizenz als Einschränkung der Rechte des Autors für problematisch gehalten.
Hingegen wäre eine Zwangslizenz gegenüber den Verlagen, die ja durch die
Erstpublikation Rechteinhaber sind, möglicherweise ein geeignetes Mittel,
um „dem monopolisierten Verhalten einiger international agierender Wissenschaftsverlage wirkungsvoll im Sinne der Freiheit von Wissenschaft und
Forschung“ entgegen zu wirken. Leider gab es bei der Anhörung des BMJ
zum Zweitveröffentlichungsrecht keinen Kommentar zur Frage nach der
Möglichkeit einer Zwangslizenz. Die Brisanz dieses Mittels wurde offenbar
nicht gesehen.
Wie wird, wie sollte die Politik entscheiden?
Man darf gespannt sein, zu welchem Vorschlag das BMJ bei dem für 2011 zu
erwartenden Referentenentwurf für den Dritten Korb in dieser Sache kommt
und wie der Bundestag, zunächst über den Rechtsausschuss, und der Bundesrat darauf reagieren werden.
Leider bedeutet es nicht viel, dass bei der Anhörung des BMJ vom 13. Juli 2010 sowohl in der Fachöffentlichkeit als auch quer durch die politischen
Parteien22 eine breite Mehrheit darüber zustande kam (entgegen dem skiz22 Z.B. von der CDU-Bundestagsfraktion, Michael Kretschmer und Tankred Schipanski, am 13.7.2010: „Es besteht Gesetzgebungsbedarf, um einerseits Open Access
zu fördern und andererseits die Stellung der wissenschaftlichen Urheber rechtlich
stärker abzusichern. Ein verbindliches Zweitveröffentlichungsrecht wäre der geeignete
Weg, um Open Access zielführend und wissenschaftsfreundlich auszubauen.“
(http://bit.ly/aSF4Md)
450
Rainer Kuhlen
zierten heftigen Widerstand der Publikationswirtschaft), dass ein Zweitveröffentlichungsrecht im Gesetz verankert werden soll. In welcher Form
und zu welchem Ende, darüber wird allerdings weiter gestritten, vor allem ob
dadurch ein Schritt in Richtung einer umfassenden Open-Access-Verfügbarkeit bereits publizierter Werke gemacht werden kann.
Das Zweitveröffentlichungsrecht ist ein wichtiger Schritt in Richtung
mehr Autorenautonomie und die allgemein freie Verfügbarkeit der mit öffentlichen Mitteln produzierten Werke. Man braucht nicht mehr darüber zu
diskutieren, dass Open Access – nicht nur in der Wissenschaft – nicht aufzuhalten ist. Das wissen auch die Verlage, auch wenn sie versuchen so lange
wie möglich mit ihren alten Modellen – der Verknappung des Zugriffs und
der Nutzung – Geld zu verdienen. Weltweit gibt es eine ständig wachsende
Allianz, die es nicht länger akzeptieren will, dass das mit öffentlichen (Steuer-) Mitteln finanzierte Wissen den kommerziellen Verwertungsumweg mit
all den in der Warenwirtschaft nötigen Verknappungsformen (über Gebühren, technische und rechtliche Einschränkungen) nehmen soll.
Mit dem Zweitveröffentlichungsrecht und der Erweiterung durch ein „Institutional Mandate“ sind sicher nicht alle Probleme für den Umgang mit
Konstantin von Notz und Kai Gehring von der Bundestagsfraktion Bündnis 90/Die
Grünen am 13.7.2010: „Die heutige Anhörung [des BMJ – RK] hat deutlich gemacht,
wie dringend wir eine Reform der Urheberrechtsregelungen zur erleichterten Nutzbarmachung von öffentlich finanzierter Forschung für die Allgemeinheit brauchen. Nur
so sind wir in der Lage, künftig dem berechtigten Interesse der Öffentlichkeit nach
Nutzung der durch sie finanzierten Forschung entgegenzukommen und die enormen
Chancen, die Open Access unserer Gesellschaft für die Vermehrung von Wissen bietet, besser zu nutzen.“ (http://bit.ly/9ydOzm)
René Röspel von der SPD-Bundestagsfraktion: „Wir brauchen neue rechtliche Rahmenbedingungen für das wissenschaftliche Publizieren und wir brauchen ein bildungs-, wissenschaftsund forschungsfreundliches Urheberrecht für die Informationsund Wissensgesellschaft. Überaus deutlich wurde der dringende gesetzgeberische
Handlungsbedarf, um Open Access im Bereich von Wissenschaft, Forschung und Bildung zu ermöglichen und um die Stellung der wissenschaftlichen Urheber zu stärken.
Ein wichtiger erster Schritt wäre die Ermöglichung eines verbindlichen Zweitveröffentlichungsrechts nach einer kurzen ,Embargofrist‘, um Open Access als ergänzendes Publikationsmodell zu ermöglichen und zu fördern.“ (http://bit.ly/8X3oot)
Für die Bundestagsfraktionen der FDP und Die Linke gibt es bislang keine verbindlichen Stellungnahmen bezüglich des Zweitveröffentlichungsrechts. Bei der FDP ist
Skepsis, bei Die Linke eher Zustimmung zu erwarten, auch bezüglich eines institutionellen Zweitveröffentlichungsrechts.
451
Wissen und Information in Bildung und Wissenschaft gelöst. Vor allem besteht dringender Bedarf, die zurzeit kaum noch nachvollziehbaren Ausnahmebestimmungen (Schranken) des Urheberrechts in Bezug auf Bildung und
Wissenschaft, die zunehmend die Anwaltskanzleien und die Gerichte beschäftigen, durch eine allgemeine umfassende Wissenschaftsklausel zu ersetzen23. Eine solche Klausel sollte die Nutzung publizierter Werke, für welchen
wissenschaftlichen und bildungsbezogenen Zweck auch immer, genehmigungsfrei ermöglichen24.
Ein solchermaßen wissenschaftsfreundliches Urheberrecht harmoniert mit
den Zielen von Open Access. Die politische Behandlung des Zweitveröffentlichungsrechts (als eines der Autoren und ihrer Institutionen) wird zeigen,
wie nah oder wie weit entfernt Deutschland davon ist.
23 Vgl. Rainer Kuhlen: In Richtung einer allgemeinen Wissenschaftsklausel. In: Information – Wissenschaft und Praxis (IWP) 2010, 461–467; Preprint: http://bit.ly/cZyGNW.
24 Vgl. dazu den entsprechenden Vorschlag für einen „European copyright code“, vorgelegt vom Wittem Project, April 2010 – www.copyrightcode.eu
452
Rainer Kuhlen
Session 11:
E-Learning / Social Media Marketing
453
454
Integrating industrial partners into
e-teaching efforts
Using social networks to support the initiation of
co-operations
University of Bamberg, Media Informatics
Feldkirchenstraße 21, D-96045 Bamberg
[email protected], [email protected], [email protected]
Abstract
Since 2008 we have been using the existing university-wide learning management system (LMS) “Virtual Campus” (VC) to incorporate industrial
partners into e-teaching courses at the University of Bamberg. We have developed different co-operation types and evaluated their appropriateness in
pilot co-operations between lecturers of the University of Bamberg and regional industrial partners – respecting legal requirements, too. The vast
amount of LMS courses available for students lead to a special co-operation
web portal for companies, which we have ported to common social networks
using the OpenSocial API. The social network application elevates the convenience for the company users, supports the matching of companies’ interests and co-operation topics and uses the social graph of the project partners
to reach potential attendees.
In this paper we give a general overview of popular social networks. We
describe similarities and differences in target groups, APIs, and also application and data protection policies. We explicate the use cases of our application and explain the process of developing applications based on the OpenSocial API. We also describe the experiences we have made with the
application admission procedures of different social networks and give an
outlook on how we want to utilize Facebook’s Social Graph API and embed
Facebook widgets and features (e.g. recommendation and authorization) into
the existing web version of our co-operation portal.
1
455
Background
Centrally administered university-wide learning management systems (LMS)
– which have evolved out of the former variety of competing LMS used by
different faculties or chairs at most universities in recent years (Henrich,
Sieber, Wolf 2007) – provide a powerful infrastructure to support cooperations (co-ops) and bi-directional knowledge transfer between universities and companies. They help to overcome obstacles of temporal synchronization and spatial distances in co-ops between different institutions.
Lecturers
University-wide Learning
Management System
Students
Documents
Communication
Providing content
Providing topics
Accessing content
Already available
To be established
Company
Management
Company
Staff
Fig. 1: Incorporating companies
Fig. 1 describes the usage scenario to incorporate company management
and staff into academic teaching. The green arrows symbolize the conventional usage of a university LMS: Lecturers provide topics and content to
students and set up discussion forums about course topics. Students mainly
access and download provided content. Forums and chats are used for communication between lecturers and students. Our approach incorporates two
more parties: company management and staff. Company staff can access
course content and – especially in exercise courses or seminars – the man-
456
agement can provide topics and content to increase practical relevance of the
courses. The students should also be encouraged to upload content and all
four parties can discuss topics via the LMS (red arrows). Our approach permits different types of co-ops depending on the kind of course (lecture, seminar or exercise course) and the desired degree of involvement (active/passive) of the companies. At the University of Bamberg we had co-ops ranging
from granting company members access to lecture notes, slides, lecture recordings and discussion forums up to courses, where students tested, evaluated or improved company products. Company representatives are not just
learners, but contribute knowledge, experience and real-life questions to the
courses.
LMS4KMU Application
Home View
Top 3 co‐op offers
Canvas View/Profile View
Co‐op overview
Course overview
Lecturer overview
Search field
Description
Office
Search options
Participate
Contact options
Pre‐sorted co‐ops
Further info
To course
To lecturer details
To co‐op overview
Fig. 2: Views of our app
When granting company members access to certain courses in a university LMS, privacy, data protection and copyright issues have to be considered, but common LMS offer built-in or additional features to support the
legal requirements (Fries, Henrich 2010b). Another critical success factor is
minimizing necessary efforts for companies and lecturers to start co-ops. For
that purpose we have developed a co-op web portal that provides access to
only the courses available for companies (out of over 1,400 courses in the
457
LMS “Virtual Campus”1 (VC) in winter 2010/11). The portal harvests information about courses and lecturers from different IT systems in use at the
university and provides them in a target-group specific manner to the companies (Fries, Henrich 2010a).
The co-op web portal2 is a convenient tool for the company members to
find suitable co-op offers, get contact information about the lecturers and
start co-ops. Our industrial project partners experienced no major problems
in using the web portal. After the successful pilot phase of our project, we
want to invite further companies to co-operate with lecturers and students.
The key to this is getting company members to navigate to our co-op portal.
The usage of social networks (SNs) like Xing3, LinkedIn4 or Facebook5 (FB)
has increased massively and their APIs have become very powerful and standardized (apart from FB almost all SNs provide Google’s OpenSocial (OS)
API6). So, integrating our co-op portal into SNs and integrating SN widgets
into our web portal may have potential to further increase the convenience
for interested companies and to recommend our portal to their contacts.
In chapter 2 we give a brief overview of popular SNs. We identify major
similarities, show main differences and compare their APIs. Chapter 3 presents use cases (both adapted from our web portal and newly designed ones)
of SNs for our purpose including carefully accessing users’ data. In chapter 4
we describe our app prototype and experiences with the networks and APIs.
Chapter 5 gives an outlook on future work.
2
Social Networks, APIs and Application Quality
With the increasing popularity of SNs, a change in the way of how people
search information on the internet may be about to take place. While
1 http://vc.uni-bamberg.de/moodle (checked Jan 17, 2011)
2 http://www.uni-bamberg.de/minf/lms4kmu-portal (checked Jan 17, 2011)
3 http://www.xing.com (checked Jan 17, 2011)
4 http://www.linkedin.com (checked Jan 17, 2011)
5 http://www.facebook.com (checked Jan 17, 2011)
6 http://code.google.com/intl/de-DE/apis/opensocial (checked Jan 17, 2011)
458
google.com is still the most visited website with a daily reach of approx. 45%
of global internet users, facebook.com has reached the second rank with
about 39%7. Instead of using search engines to find information about a more
or less clearly defined topic, many people browse information recommended
by their friends over SNs. Microsoft and FB seem to believe, that both approaches can be reasonably combined to subjectively increase quality of
search results, as Microsoft’s Bing will soon display recommendations of the
searcher’s FB contacts among the usual search results (Braun, 2010).
With over 500 million registered users, FB is the most popular global SN.
Started as a SN for students at the Harvard University in 2004 and extended
to other US students in 2006, it is now available in over 80 languages for
everyone. In Germany a very similar SN called studiVZ8 (VZ) was started. In
the beginning, when no German FB localization existed, VZ was clearly the
most popular SN amongst German students. But in recent years, FB has become more and more popular amongst German students. VZ has also opened
up for non-students, providing SNs called meinVZ and schülerVZ which are
closely connected to VZ. FB and VZ have a clear focus on leisure time and
entertainment. For both platforms a vast amount of third party apps (mainly
games) exist.
Despite the general dominance of FB (over 14 million registered German
users9) and the VZ networks (over 17 million users10) niche markets for specialized SNs still exist. For our attempt to initiate co-ops with companies,
especially SNs with a more business-oriented focus are worth examining. In
Germany, Xing is the most popular amongst these, whereas globally,
LinkedIn has the most registered users in this domain (Briegleb, 2010). Both
platforms provide third party apps, but in contrast to the thousands of mainly
entertainment focused apps available in FB and VZ, Xing and LinkedIn allow only a handful of apps.
APIs and third-party apps
In May 2007 FB opened the website for third-party apps by launching the so
called “FB Platform”. Apps are displayed in a container inside a FB page and
77 http://www.alexa.com/topsites (checked Jan 17, 2011)
78 http://www.studivz.net (checked Jan 17, 2011)
79 http://www.facebakers.com/facebook-statistics/germany (checked Jan 17, 2011)
10 http://www.studivz.net/l/about_us/1 (checked Jan 17, 2011)
459
can include FB widgets (e.g. the Like Button) and access users’ profile data.
The app can be implemented as usual JavaScript-enhanced HTML page
(iframe) or in the FB Markup Language (FBML) and FB JavaScript (FBJS).
To interact with FB’s backend, a REST API is provided and user data can be
accessed via the FB Query Language (FQL) (Graham, 2008). In December
2008 “FB Connect” became available, allowing developers to include FB’s
widgets into independent websites not running as apps inside FB. In 2010 the
REST API was replaced by the more modern Graph API, giving developers
three possibilities for interaction with the SN: (1) FB for Websites allows the
usage of social plugins and comfortable solutions like a single sign-on procedure on any website. (2) Apps on Facebook.com allows to run web apps in a
dedicated iframe on FB, place widgets on users’ profile pages and update a
user’s FB stream. (3) Mobile Apps is a collection of services for web apps
running on mobile devices (Krutisch 2010).
In contrast to the proprietary Social Graph API which is limited to FB,
Google released version 0.7 of its counterpart OS API in late 2007 under an
Apache 2.0 and Creative Commons license. Most SNs have implemented the
OS API so far11. So Google’s aim to provide an API for cross-platform apps
seems to be achieved, although different versions of the API are implemented
in the SNs (version 1.1 was released in November 2010, but version 0.8
(Wartala 2008) is still very wide-spread). OS can be seen as a container for
apps written in HTML, JavaScript and CSS, which can be placed on web
pages inside SNs, providing a standardized AJAX request mechanism to
contact the app developer’s web server and also standardized access to user
data in the SN (Häsel, Iacono 2010). For security and data protection reasons,
SN users can define access rules for apps in general or individually when
they add an app to their profile page (cf. chapter 4).
As Xing is the most popular business network in Germany, we started implementing our app as an OS 0.8 app, focusing on Xing’s requirements. Xing
supports three OS views, Home View (HV), Canvas View (CV) and Profile
View (PV). The HV is an app container to be included in the user’s personal
page with a fixed size of 315 x 180 pixels. It is only available for users who
added the app to their accounts. HV can access user data if permitted by the
user. CV can be larger than HV and therefore display more content. Like HV
it is only accessible for the user himself and can access the same data as HV.
PV can be as large as CV and is displayed inside the user’s profile page,
11 http://wiki.opensocial.org/index.php?title=Containers (checked Jan 17, 2011)
460
which is available to other users depending on the user’s permissions. Apart
from the owner’s data, PV can also access data of the user viewing the app
on another user’s profile page (if the viewer permits).
3
Use Cases
The prototypical implementation of our app on iGoogle12 demonstrates number 1 to 6 of the use cases described and depicted in fig. 3. The app provides
the functionality of our web portal (Fries, Henrich 2010a) and has additional
advantages: (1) The project partners (companies and lecturers) are already
using Xing to manage their business contacts; our app valorizes the wellknown environment. (2) Accessing users’ interests via OS, co-op offers can
be ordered and filtered accordingly. (3) Users’ friends are informed about the
app when browsing status updates or visiting profile pages. (4) Users can
easily recommend the app within the SN. (5) The SN profile can be used to
identify and authorize users for personalized features of the web portal. (6)
Lecturers, companies and students can communicate via the SN with others
that have added the app.
The OS version of our app supports three in most SNs available views (cf.
chapter 2). The HV with very limited display size provides the three most
appropriate co-op offers for the user. It is placed on the homepage of the user
that has installed the app when he logs in to the SN. The CV and PV of the
app provide the same functionality as our web portal, but the co-op offers are
ordered by relevance for the user who has installed the app (CV) or who
views the app (PV). Fig. 2 depicts the relationship between the views. When
the user logs in to the network, he finds the HV, containing the three co-op
offers that best match his interests. If he clicks on “more co-op offers” the
larger CV is displayed, containing all available co-op offers ordered by relevance for his interests, a basic search field and advanced search and filter
options. If the user clicks on a co-op offer in HV or CV, a course overview is
displayed in CV, giving a description as well as links for participation, further information and the lecturer’s contact data. If the user clicks on a lecturer’s name or picture (HV) or on the “lecturer’s details” link (course over12 http://www.google.de/ig/directory?q=lms4kmu (checked Jan 17, 2011)
461
view in CV), the lecturer’s contact data are displayed in CV. If a user that has
not installed the app (yet) finds it on another users profile or gets a recommendation, he can access the PV, which is similar to the CV.
Fig. 3 depicts the eight use cases (UC) our OS app is designed for. UCs 1
to 6 have already been implemented in our prototype, UCs 7 and 8 are to be
implemented next. UC 1 allows to look for an interesting co-op offer. Having
logged in, the user finds the top three co-ops for his interests in the app’s HV
on his Xing homepage and can click on an offer to get more information
about it or click on “see more offers” to get the full list (in both cases the CV
is being displayed). UC 2 starts with a Xing user finding the app (by reading
in the status updates that a friend has installed the app or joined a co-op,
watching another user’s profile, getting a recommendation from another user
or browsing the list of available apps). When he opens the app, the PV is
displayed, showing all available offers (ordered by his interests if permitted).
He can use most of the features of the portal and install the app to get full
access. UC 3 is about searching for co-ops. The user can just type in a keyword to the search field (CV or PV) and the app will display matching co-ops
only. He can also use the advanced search where he can define which fields
(co-op title, description, information for companies, lecturer name) should be
included in the search and which criteria (current semester, co-op type, lecture type) the possible co-ops have to fulfill. UC 4: When the user has found
an interesting-looking co-op in any view, he can get more details about it by
clicking on the co-op name. When he gets a recommendation, clicking the
recommendation link also displays the co-op details (after the user has installed the app). The view changes to CV in any case. UC 5 allows contacting the lecturer for a co-op. It is possible to click on the lecturer’s name next
to a co-op offer in any of the three views (HV also provides a clickable picture) or click on “contact data” (course overview in CV or PV). If the lecturer
is present at Xing himself, the user is forwarded to his Xing profile page,
showing his current contact data. If the lecturer does not have a Xing profile,
the app shows the lecturer’s picture, office address, university webpage,
email address and telephone number in CV or PV.
UC 6: When the user has decided to join a co-op, he can click on the corresponding link (in course overview). If he declares not to have a user account for the university LMS yet, the self-registration page for the LMS
opens in a new browser tab. As soon as the user has registered to the LMS,
he can enter his user name and password and “auto-enroll”. The app enrolls
him to the course and provides a link for direct access to the course page.
462
UC 1
User logs in
Homepage with
app’s Home
View appears
App sends users
interests to
server
Server sends
Top 3 co‐ops for
interests
UC 2
User finds
app or gets
recommend.
User opens app
Display Profile
View (by viewer
interests)
User installs app
User opens
Canvas View/
Profile View
User types
keyword in
search field
User clicks "start
search"
App sends
search request
to server
User navigates
to Canvas View
for more co‐ops
Look for interesting co‐op
Find, try out and install app
Matching co‐ops
are displayed
Search for co‐operations
UC 3
UC 4 User found co‐
op in any view
User opens
advanced search
options
User changes
search settings
User clicks on
course name
Server request
Change to
Canvas View
Course details
are displayed
Change to
Canvas View
Display
lecturer’s
contact data
User clicks
"register to VC"
Display VC page
for registration
in new tab
Get co‐operation details
Click lecturer
name or picture
(Home View)
Click lecturer
UC 5 name (Canvas/
Profile View)
Check if lecturer
has Xing profile
no
yes
Click "contact
data" (course
details)
Change to
lecturer’s Xing
profile
User reads
course details
User clicks "join
co‐op"
Display
participation
options
App requests
Users clicks
"automatically
enrol"
User fills in his
VC user name
and password
Server enrols
user to co‐op
App displays
"enrolment
successfull"
Users clicks "to
course page in
VC"
Display VC
course page in
new tab
User clicks
"offer co‐op" in
Home/Canvas
App changes to
Canvas View
Co‐op details
form is
displayed
User inputs data
about co‐op idea
User clicks
submit button
Admin approves
new co‐op offer
System
administrator
checks data
Co‐op data and
contact data are
saved
App sends form
data and profile
data to server
App retrieves
user’s profile
data from Xing
User clicks
"recommend" in
course overview
Display Xing’s
form for sending
messages
Insert
recommend.
text/co‐op link
User chooses
reveiver(s) out
of his friend list
User customi‐
zes recommen‐
dation text
Xing checks if
friend already
installed app
Friend clicks on
recommen‐
dation link
User’s friend
gets recommen‐
dation message
App sends
recommend. to
user’s friend(s)
User clicks
"send recom‐
mendation"
Xing displays
Home View
(friend=owner)
App displays
recommended
co‐op‘s details
Friend joins
co‐op
App displays
recommended
co‐op‘s details
Friend installs
app
UC 6 enrolment from
server
User registers to
VC
UC 7
UC 8
yes
no
Xing displays
Profile View
(friend=viewer)
Contact lecturer
Fig. 3: Use cases of our OpenSocial application
Join co‐operation
Offer co‐operation
[not yet implemented]
Recommend
co‐operation
[not yet implemented]
463
UCs 1 to 6 are derived from the UCs of our web portal and are also available for users/viewers that do not allow the app to access their profile data.
UC 7 and 8 explicitly require access to the user’s profile. UC 7: Company
members can offer co-op ideas to lecturers by entering their idea and the
possible co-op type in a form in CV. The app sends these together with the
user’s contact data to our server, where they are checked and added to the
available co-ops. Also lecturers can add ideas about future courses, mutually
planned with companies, to the portal. UC 8 provides a convenient possibility to recommend co-ops between users of the SN. When a user finds a co-op
offer that could be interesting for a friend, he can just click on “recommend”
(course overview). The app will then open a standard message sending dialogue of the SN and insert the subject, a default recommendation text and a
direct link to the co-op offer to the message. The user can then choose the
receiver(s) of the message from his friends list and change the text or subject.
The friend(s) receive the message and can click on the link. If the friend has
already installed the app, the CV opens, displaying the course overview. If
the friend has not installed the app yet, the senders PV of the app displays the
course details and the friend can install the app.
4
Implementation and Experiences
We have developed an OpenSocial app for Xing first, because its target audience highly resembles ours. As Xing does not allow general access to the
developer’s sandbox, we started developing and testing our app using the OS
Development Environment13 (OSDE) for Eclipse, based on Apache Shindig14
(Häsel, Rieke 2009). Apart from a required XML file, specifying metadata
and views (Grewe, 2009), we have implemented the app completely in
JavaScript. Most of the code from the existing web portal could be adopted in
a straightforward way. Functions handling AJAX requests had to be adapted
to work with OS’s AJAX mechanism. Functions accessing users’ profile data
had to be implemented and the app had to meet Xing’s corporate design.
Apart from our Shindig server, we also tested our app on iGoogle, where it is
13 http://code.google.com/p/opensocial-development-environment (checked Jan 17, 2011)
14 http://shindig.apache.org (checked Jan 17, 2011)
464
still available15. Unfortunately, Xing rejected our concept and app prototype
immediately, possibly due to restrictive app permission policies.
We then offered our app to LinkedIn, which has a similar target group as
Xing, but a more international focus. In contrast to Xing, LinkedIn does not
ask for a detailed concept paper, but offers a web form, where one can briefly
describe the app idea16. Unfortunately, we have only received an automatic
reply, but no decision about acceptance or rejection of our app from LinkedIn
so far. At present we concentrate on VZ and FB, which are not as business
oriented, but reach a lot of people and have less strict demands for third party
apps. On both platforms getting access to the developer’s sandbox is straightforward and allows testing the app directly within the SN.
We started developing the FB version as “App on Facebook.com” – rendered on our own server and integrated into FB as iframe. Just entering the
URL of our existing web portal was sufficient for the start. Accessing the
user’s profile data and integrating FB widgets (“Like” button) are the upcoming targets. On VZ, the previously developed OS version works in principle.
VZ, however, supports different views than Xing and has different size restrictions. Also some of our JavaScript DOM manipulations seem to be
overwritten by VZ’s CSS styles.
Privacy policies
The SNs follow different approaches to protect their users’ data. Xing apps
can only access data declared to be public by the user and the contact list of
the user who installed the app. Data of viewers, not having installed the app,
are protected. VZ uses a system of virtual business cards which the users
create and allocate to their installed apps. Besides basic information, the app
may only access the information given on each vcard or if necessary ask the
user to update his vcard. Accessing viewers’ data is not possible. Additionally, Xing and VZ demand links to the general business terms and to the
privacy policy of the app provider in each rendered view. On FB all apps can
access general information like the user’s and his friends’ names, the profile
picture URL and his unique user ID as well as all information with visibility
level “Everyone”. Furthermore the user can define privacy settings applying
to all apps and different settings for individual apps. FB was recently criti-
15 http://www.google.de/ig/directory?q=lms4kmu (checked Jan 17, 2011)
16 http://developer.linkedin.com/themes/linkedin-home/form-inapps.html (Jan 17, 2011)
465
cized for allowing apps to access viewers’ data by default (Lischka, 2010).
To be trustworthy, our app only requests those fields of user data absolutely
necessary to provide its functionality and basic features of the app are available for users, who do not allow profile access at all. It will also not send
messages to the user’s friends unless he agrees.
5
Outlook
SNs provide handy interfaces for third party developers to utilize users’ social graphs and profile data to increase an app’s range and usability. Most
SNs provide Google’s OS API, allowing the development of platformindependent apps. The most popular SN FB, however, requires an individual
implementation. Business-oriented SNs like Xing and LinkedIn provide a
more homogenous and less entertainment-oriented user group than FB and
VZ, but have stricter app acceptance policies. Our prototypical OS implementation fulfills its purpose and works fine on iGoogle and in the sandbox
of VZ. The existing web portal can be included into FB as iframe. We will
enhance it with FB widgets and access to the social graph. This way we will
be able to implement two advanced use cases in the OS and FB app version
as well as in our web portal version (using “FB for Websites”).
To reach new users we also want to provide apps for smartphones. A
slightly modified version of our web portal17 already works on Adobe Air18,
which has lately been released for Android 2.219. We also plan to implement
versions for iOs, Symbian and Windows Phone 7 utilizing the special features of the mobile devices (touch screen etc.) to increase convenience and
user experience.
17 http://www.tobiasfries.de/lms4kmu/lms4kmu.air (checked Jan 17, 2011)
18 http://www.adobe.com/de/products/air (checked Jan 17, 2011)
19 http://www.heise.de/newsticker/meldung/Adobe-Air-fuer-Android-verfuegbar1104071.html (published Oct 10, 2010)
466
References
Braun, H. (2010). Microsoft und Facebook arbeiten gemeinsam an Bing. In: c’t
23/2010: Heise, p. 30.
Briegleb, V. (2010). Xing mit bisher bestem Quartalsergebnis. Heise online Newsticker.
http://www.heise.de/newsticker/meldung/Xing-mit-bisher-bestem-Quartalsergebnis1054604.html (Retrieved October 14, 2010)
Fries, T.; Henrich, A. (2010a). Integrating Industrial Partners into e-Teaching Efforts
– a Portal to Support the Initiation of Co-operations. In: IADIS eLearning 2010
(IADIS International Conference e-Learning 2010). Freiburg.
Fries, T.; Henrich, A. (2010b). Integrating Industrial Partners into e-Teaching Efforts
– legal pitfalls and circumventions. In: Book of Abstracts 2010 (Online EDUCA
Berlin 2010). Berlin.
Graham, W. (2008). Facebook API Developers Guide. New York: Apress.
Grewe, L. (2009). OpenSocial Network Programming. Indianapolis: Wiley Publishing, Inc.
Häsel, M.; Iacono, L. (2010). Soziale Netze mit OpenSocial erweitern – Offene Beziehung. In: iX 6/2010: Heise, pp. 134–140.
Häsel, M.; Rieke, K. (2009). Aktuelles Schlagwort – OpenSocial. In: Informatik
Spektrum 32/3, 2009: pp. 250–254.
Henrich, A.; Sieber, S.; Wolf, S. (2007). Integration eines hochschulweiten LMS in
die Systemlandschaft einer Hochschule – ein pragmatischer Ansatz. In: Flexibel
integrierbares e-Learning – Nahe Zukunft oder Utopie?: Proc. Workshop on
e-Learning 2007. Leipzig: Hochschule für Technik, Wirtschaft und Kultur, pp.
57–76.
Krutisch, J. (2010). Facebook-Schnittstelle für Entwickler. In: iX 10/2010: Heise, pp.
38–43.
Lischka, K. (2010). Facebook-Anwendungen reichen unerlaubt Nutzerdaten weiter.
Spiegel Online. http://www.spiegel.de/netzwelt/web/0,1518,723636,00.html
(Retrieved October 28, 2010)
Wartala, R. (2008). Anwendungen mit der Opensocial-API entwickeln. In: iX
9/2008: Heise, pp. 54–60.
467
Konzeption und Evaluation eines Beispielkurses
Christopher Stehr1, Melanie Hiller2
1
German Graduate School of Management & Law (GGS)
Bahnhofstr. 1, 74072 Heilbronn
[email protected]
2
Universität Ulm
Helmholtzstr. 22, 89081 Ulm
[email protected]
Zusammenfassung
Das Themenfeld Globalisierung steht beispielhaft für komplexe Kursinhalte,
die ob ihres Umfanges nicht zur Gänze über e-Learning-Konzepte geschult
werden können. Im Vordergrund des vorliegenden Kursdesigns stehen daher
die wesentlichen fachlichen und inhaltlichen Dimensionen. Die Entwicklung
einer eigenen Position zum Thema Globalisierung im Diskurs mit einer Lerngruppe ist eines der zentralen Lernziele. Im Rahmen dieses Artikels werden
die wichtigsten Herausforderungen und die Umsetzungsmöglichkeiten eines
solchen e-Learningkonzeptes anhand eines Praxisbeispiels aus der Bildungsarbeit themen- und kontextspezifisch diskutiert.
Abstract
The subject globalization as an e-learning content seems to be too complex to
be thought. The whole matter has to include the specific globalization content
and state of the art. Besides, a target of such a course should also be teaching
of individual competences and developing critical reflection abilities within
an e-learning group. Chosen from a concrete successfully implemented elearning course on globalization, the following article will discuss possibilities, risks and challenges of this course design.
468
1
Einleitung und Problembeschreibung
E-Learningangebote zum Themenfeld Globalisierung unterliegen besonderen
Herausforderungen bei der Wissensvermittlung. Neben einem wertneutralen
Zugang zum Inhalt müssen die Lernenden selbständig die Vor- und Nachteile
von Globalisierungsprozessen beurteilen können, um die Kompetenz auszubilden, sich selbstgesteuert und reflektiert an Globalisierungsprozessen zu
beteiligen. Wie ist es also möglich, einen e-Learning-Kurs zum Thema Globalisierung so zu gestalten und so tutoriell zu begleiten, dass dieses Lernziel
erfolgreich erreicht wird? Auf welcher Plattform ist dies am besten umzusetzen? Steht der Entwicklungs- und Betreuungsaufwand in Relation zum
(Lern-) Erfolg? Das sind die zentralen Fragen, die in diesem Beitrag bearbeitet und beantwortet werden.
Die empirische Grundlage hierzu bietet die Evaluation eines bestehenden
Kurses eines Anbieters aus der außerschulischen Erwachsenenbildung. Das
tutorengestützte, berufsbegleitende Angebot wurde bis ins Jahr 2010 insgesamt zwölf Mal über einen Zeitraum von vier bis acht (insgesamt 400 Teilnehmer) durchgeführt. Die mit diesen Teilnehmern durchgeführte formative
und summative Evaluation, inklusive einer Befragung des Entwickler- und
des Tutorenteams (Triangulation), bilden die empirische Basis der nachfolgenden Ausarbeitung.
2
Grundlagen der Konzeption von e-Learning
E-Learning als Begriff gehört zu den definitorisch vielseitig verstandenen
Termini. Im Folgenden wird e-Learning im weit gefassten Sinne als ein übergeordneter Begriff für softwareunterstütztes Lernen verstanden [Baumgartner
et al. 2002]1, das verschiedene Lernformen und Schwerpunktsystematiken
zusammengefasst. Diese werden per Informationstechnologie unterstützt
[Moser 2010]. Neben reinen Content-Management-Systemen, die nur der
Informationsbereitstellung dienen, stehen auch Learning-Communities auf
1 Ein Überblick über technische Systeme findet sich u.a. in [Niegemann et al. 2008].
S. 457 ff.
469
Basis des Austauschs mehrerer Lernender [Dietinger 2001] zur Verfügung.
Interaktive wie individuelle Lernprozesse werden in Learning-ManagmentSystemen (LMS) abgebildet.2
Ziele eines e-Learning-Einsatzes sind u.a. Kostenreduktion [Moser 2010],
zeitliche und örtliche Flexibilität [Leidhold 2001; Mair 2005], die eine berufs- oder tätigkeitsbegleitende Einbindung ermöglicht [Risku, Peschel
2010], und die Nachhaltigkeit [Lehmann 2002; Baume 2009] des Lernprozesses. Zusätzlich können solche e-Learningkomponenten mit Präsenzveranstaltungen gekoppelt werden (Blended Learning) [Back et al. 2001; Euler
2002; Reß 2003]. Für den Erfolg einer e-Learning-Maßnahme werden die
Selbstlernfähigkeiten des Lernenden [Eichelberger et al. 2009] und die adäquate technische Umsetzung gefordert [Hagedorn 2002]. Für die Erstellung
dieses Kurskonzeptes wurden daher neben den bereits oben genannten vor
allem die Faktoren qualifizierte Begleitung [Frankfurth 2010], klar kommunizierte und durchgeführte Organisation von Zeit und Inhalten, engagierte,
innovationsfreudige und lerninteressierte Teilnehmer, optimale technische
Nutzungsvoraussetzungen sowie attraktiver, abwechslungsreicher Medieneinsatz [Hagedorn 2002] und Orientierung an der Handlungswirklichkeit der
Teilnehmer zur Erleichterung des Transfers [Krause 2004] als bestimmend
für den Lernerfolg identifiziert.
3
Globalisierung als Lerninhalt
Das Thema Globalisierung steht als Synonym für ein komplexes, besetztes3,
vom Lernenden inhaltlich nur schwer zu kategorisierendes und zu überblickendes Lernthema,4 dessen Rezeption nur im Austausch mit einem themen2 Unter Interaktivität wird Adaptionsfähigkeit des Systems wie Kommunikation mit
Lernenden und Tutoren gleichermaßen verstanden. Vgl.: [Haak 02], S. 128.
3 Als zwei ausgewählte Beispiele aus den Anfängen der in Deutschland z.T. emotional
geführten Globalisierungsdebatte: Vgl. Forrester (1997) und Martin/Schumann (1998),
neue Ansätze u.a. vgl. Weißeno (2008).
4 Google-Hits (Eingabe Begriff Globalisierung) im Februar 2008: 3,39 Mio., im Januar
2011: 4,55 Mio. Listungsergebnisse. Eingabe des Begriffes Globalisierung bei Amazon: im Juli 1999: 194 Bücher (vgl. Altvater/Mahnkopf (2002), S. 19), im Januar 2011:
27.214 Bücher.
470
erfahrenen Lehrenden verwirklicht werden kann. Darüber erfolgt je nach
Standpunkt und Betroffenheit eine persönliche wertende Kategorisierung
[Debiel et al. 2006].
Das zentrale Problem bei der Stoffreduktion und der Lernzielfestlegung
ist also: ,Die Globalisierung‘ wird in der öffentlichen Diskussion und auf der
persönlichen Ebene als psychologische Projektionsfläche verwendet.5 Ein
Lernangebot zu Globalisierung kann daher nicht nur auf reine Informationsvermittlung beschränkt sein, es muss Möglichkeiten beinhalten, eigene Einstellungen geführt zu hinterfragen und ggf. zu adaptieren, sowie eigenes
Handeln kritisch zu überdenken und ggf. verändertes Verhalten vorzubereiten [Eichelberger et al. 2009; Seiler-Schiedt et al. 2006; Andriessen 2010].
Eine Möglichkeit, die umfangreichen Lerninhalte zu reduzieren und an
unterschiedliche Zielgruppen und Kenntnisstände anzupassen, ist die Modularisierung des Lernstoffs in verschiedene, voneinander unabhängige inhaltliche Module [Kübler 2008]. Im vorliegenden Beispiel wurde daher eine thematische Unterteilung in ein sogenanntes Grundlagenmodul, sowie sieben
weitere themenspezifische Wahlmodule vorgenommen. Jedes dieser Module
besteht aus einer inhaltlichen Komponente, die den Schwerpunkt des Bausteins zunächst definitorisch und theoretisch vorstellt und wird auch in Form
einer zusammenfassenden Druckversion (ca. 150 Seiten) und als Podcast zur
Verfügung gestellt. Innerhalb der Themenbausteine werden zudem neben
dem grundlagenbildenden Selbstlernbereich (Inhaltliche Komponente) auch
weiterführende Vertiefungsangebote und ein betreutes Forum mit Tages-,
Wochen- und Kursaufgaben (Interaktive Komponente) angeboten.
Da die Wahl der zu diesem Konzept passenden Lernplattform entscheidenden Einfluss auf Art und Ablauf der späteren Kursgestaltung hat [Baumgartner et al. 2002]6, wurde für den vorliegenden Kurs eine Entscheidung für
die OpenSource-Lernplattform Moodle gefällt, da v.a. die kooperativen Lerninstrumente unter Moodle besser unterstützt werden [Leidhold 2001] und da
das modulare Kursdesign dieses vorliegenden Kurses weitgehende Übereinstimmungen mit dem didaktischen Konzept der Lernplattform aufweist. Darüber hinaus wurden die Kriterien Systemkompatibilität, Autorentools/Management, Add-Ons, Usability, verfügbare Sprachversionen, sowie Anschaf-
5 Zur öffentlichen Wahrnehmung vs. empirische Datenlage vgl. u.a. Speck (2009).
6 Für einen Überblick über gängige Systeme vgl. [Baumgartner 2002] S. 47–295 sowie
[Niegemann et al. 2008]. S. 457 ff.
471
fungs- und Unterhaltskosten berücksichtigt [Baumgartner 2002; Niegemann
et al. 2008].
4
Ergebnisse der Kursevaluation
Die nachfolgenden Ergebnisse basieren auf einem triangulierten Analyseverfahren im Rahmen der Evaluation von zwölf durchgeführten Kursen (drei
Kurse mit Präsenzeinheiten/Blended Learning) mit insgesamt rund 400 Teilnehmern. Die abschließende Evaluation mittels schriftlicher Teilnehmerbefragung fand in zwei Kursen im Rahmen einer Abschlussveranstaltung statt.
Die restlichen 10 Kurse füllten die Befragung digital aus und sandten sie
online ein. Die schriftliche Befragung umfasst u.a. Kriterien wie Zufriedenheit, subjektiver Lernerfolg, Zeitaufwand und Erfüllung der Erwartungshaltung, sowie offene Rückmeldungsmöglichkeiten zu Tutoren, zur Organisation (Zeitplan und -ablauf, Technik, im speziellen Funktionalität der Lernplattform) sowie zu Lerninhalten und Lernzielen. Darüber hinaus fand eine
quantitative Auswertung der Aktivität der Lernenden via Logfileanalyse statt.
Im Laufe von vier Wochen Kursdauer erreichen die aktivsten 10% der
Teilnehmer ca. 1100 Views7, je nach Durchführung. 5–15% der Teilnehmer
brechen den Kurs während der Laufzeit ab oder beginnen ihn erst gar nicht.
Die restlichen Teilnehmer tätigen im Durchschnitt 450 Views. Rund 65% der
Lernenden beteiligen sich regelmäßig im Forum, je nach Aktivität mit
5–10 Beiträgen pro Woche.
Die Ergebnisse der Evaluationen ergaben in allen Kursen eine gleichartig
hohe Zufriedenheit mit der tutoriellen Betreuung. Besonders hervorgehoben
wurden im Rahmen der qualitativen Rückmeldungen die schnelle und kompetente Bearbeitung organisatorischer und inhaltlicher Rückfragen. Ebenso
positiv bewertet wurden die individuellen inhaltlichen und persönlichen
Rückmeldungen, sowie auch die Bestärkung durch Lob. Auch die vom Tutor
eingebrachten tagesaktuellen Zusatzinformationen und Diskussionen über
von Teilnehmern vorgebrachte Inhalte wurden als positiv rückgemeldet.
Im Diskussionsforum aktive Teilnehmer meldeten eine höhere Zufriedenheit mit dem Kursverlauf und subjektiv bessere Lernfortschritte zurück. Eine
7 Seitenaufrufe im inhaltlichen Bereich des Kurses.
472
qualitative Inhaltsanalyse der Beiträge einzelner Teilnehmer ergab, dass sie
einzelne Lerninhalte des Forums später in ihre Argumentationsketten bei der
abschließenden Bearbeitung der Kursaufgabe integrierten. Diese Teilnehmer
gaben allerdings ebenso an, deutlich mehr als die in der Kursbeschreibung
zur Bearbeitung empfohlenen 3–4 Stunden Zeit pro Woche investiert zu haben. Ihre Kursbearbeitungszeit lag bei durchschnittlich 9,5 Stunden in der
Woche.
Das gebotene Fachwissen innerhalb des gesamten Kurskonzepts wurde
von 85% der Teilnehmer als umfangreich bis sehr umfangreich bewertet
(sechspolige Lieckertskala). Die qualitativen Rückmeldungen bezeichneten
es v.a. als ansprechend und abwechslungsreich. Das verfügbare Angebot hat
den Erwartungen der Teilnehmer (53%) entsprochen, sie bei 18% der Befragten sogar übertroffen. Die große Vielfalt und die Aktualität der eingestellten
Themen, sowie deren qualitative Aufbereitung wurden in den qualitativen
Rückmeldungen besonders oft als positiv genannt. Die Aktualität bzw. Tagesaktualität der Inhalte hat aus Sicht der Teilnehmer einen wesentlichen
Beitrag zum Lernerfolg beigesteuert. 55% aller Teilnehmer gaben an, überdurchschnittlich sowie durchschnittlich (36%) zum Themenfeld Globalisierung und zu den inhärent vermittelten ,Globalisierungskompetenzen‘ (u.a.
Informationsverarbeitung, Wissensgenerierung) gelernt zu haben. Auffallend
zeigte sich auch: Die Zufriedenheit der Teilnehmer in nicht vorher festgelegten Themenkursen, also in Kursen, in denen die Wahlmodule erst nach einer
Erwartungsabfrage zusammengestellt wurden, war höher. Diese erhielten signifikant bessere Bewertungen als von vornherein thematisch festgelegte Kurse, die als solche öffentlich ausgeschrieben waren. Von der technischen Seite
her wurde die intuitive Handhabung der Lernplattform Moodle von über 67%
aller Teilnehmer als Erfolgskriterium für die eigene hohe Lernbereitschaft
und als letztendlich ausschlaggebend für den Lernerfolg genannt.
5
Fazit
Die dargestellten Besonderheiten in Bezug auf Inhalte und Kursablauf haben
signifikante Auswirkungen auf eine Gestaltung von Lehr-Lern-Einheiten
zum Thema Globalisierung und lassen Schlussfolgerungen über die Themen-
473
bereiche Gestaltung, Konzeption, Lernplattform, Lernerfolg, tutorielle Begleitung und Relation Aufwand zum Ertrag zu:
Globalisierung als Inhalt und Stoffreduktion
Das Thema Globalisierung in seiner gesamten Fülle und Tagesaktualität ist
zu vielschichtig und zu umfangreich. Eine vollständige Vermittlung aller
Inhalte ist daher erstrebenswert, allerdings unter der Kosten-Nutzen-Relation
schwierig bis gar nicht umzusetzen (Relation Aufwand zum Ertrag). Daher
liegt ein besonderer Fokus bei der Konzeption auf der Eingrenzung sowohl
der wesentlichen Lerninhalte als auch der Lernziele. Trotz einer inhaltlichen
Reduktion ist die schematische Darstellung der Komplexität, aber auch bewertungsrelevanter Kriterien der Chancen und Risiken der Globalisierungsprozesse (Gestaltung) ein wichtiger Bestandteil für den Lernerfolg der Teilnehmer. Die Rückmeldungen der schriftlichen Befragung bewerteten die
Lernerfolge in Abhängigkeit zum eigenen Engagement und Vorwissen als
gut bis sehr gut, hierbei wurden insbesondere die angebotenen Vertiefungsmöglichkeiten als besonders positiv bewertet.
Modularisierter Aufbau und tutorielle Betreuung
Aus der letztendlich durchgeführten Beschränkung der Inhalte bei gleichzeitiger größtmöglicher Flexibilität gegenüber dem Lernenden ergibt sich
zwangsläufig ein modularer Aufbau. Bei Lerneinheiten ohne vorgeschriebene
curriculare Anforderungen bietet sich insbesondere eine Orientierung und
Ausrichtung an der Teilnehmererwartung an, was die Teilnehmerzufriedenheit, wie auch in diesem Fall, steigert. Das modulare und flexible Konzept ermöglichte es, die Stofftiefe an die Vorkenntnisse und die Motivation der
Teilnehmer anzupassen (Konzeption). Die Evaluation zeigt, dass v.a. die
Ausrichtung auf die Teilnehmerinteressen als auch die intensive individualisierte tutorielle Betreuung zu signifikant besser bewerteten Lernerfolgen beitrug.
Kompetenz und Auswahl der Tutoren
Die inhaltliche und didaktische Qualifikation der Tutoren ist letztendlich ein
entscheidendes Moment. Die Tutoren müssen über weitaus mehr als rudimentäres Globalisierungswissen verfügen. Kenntnisse der Standard- und
Sekundärliteratur gehören ebenso zur Grundvoraussetzung wie die Bereitschaft zur kontinuierlichen Weiterbildung und zur Lektüre der aktuellen Berichterstattung. Grundsätzlich erforderlich ist eine wertneutrale Vermittlungs-
474
bereitschaft zum Themenkomplex Globalisierung, ebenso wie Erfahrung mit
den Möglichkeiten der Lernplattformen, sowie mit didaktischen Möglichkeiten des e-Learning. Der menschliche Faktor ist nicht nur auf Tutorenebene
entscheidend. Insbesondere die hohe intrinsische Motivation der Teilnehmer
spielt neben der Empathie und dem Engagement der Dozenten bzw. Tutoren
eine zentrale Rolle (Tutorielle Begleitung). Versäumnisse in diesem Bereich
machen sich sofort bemerkbar und einen Erfolg eines solchen e-Learningkurses unmöglich. Allerdings schmälern der hier beschriebene hohe Aufwand bei der Auswahl der Tutoren sowie bei der tutoriellen Begleitung die
Relation Aufwand zum monetären Ertrag – aber eben nicht zum ,pädagogischen und didaktischen Wissens-Ertrag‘ (Lernerfolg).
Globalisierungskompetenzen entwickeln und stärken
Neben Fakten und Informationen spielt bei der Bewertung von Globalisierungsprozessen die individuelle Erfahrung und Positionierung des Lernenden
eine wesentliche Rolle. So sollte der Lernende bei gleichzeitiger Ambiguitätstoleranz dennoch die Flexibilität gewinnen, Globalisierung aus anderer
Sichtweise heraus zu interpretieren (zentrales Lernziel). Hierzu sind entsprechende Lernmethoden in die – sich in diesem Kurs sehr bewährt habende –
Plattform Moodle (Lernplattform) integriert bzw. zu integrieren, wie z.B.
Rollenspiele und gezielte Übungen mit Perspektivwechsel. Es zeigte sich bei
der quantitativen Auswertung der Teilnehmeraktivität, dass die spielerischen
Elemente im betreuten Forum besonders hohe Beteiligungen erzielten. Gleiches gilt für Perspektivwechsel-Tagesaufgaben. Zu Kursbeginn sind die dortigen Beteiligungen deutlich umfangreicher als bei Wissens- oder Rechercheaufgaben. Es ist daher davon auszugehen, dass diese vorwissen-unabhängigen Aufgaben die Hemmschwelle zur aktiven Beteiligung im Forum herabsetzen, was im Verlauf der weiteren Forschung untersucht werden soll.
Altvater, E.; Mahnkopf, B. (2002): Grenzen der Globalisierung. 5. Aufl. Münster.
Andriessen, F. (2010): Europa. In Bohr-Jankowski, K,; Jankowski, H.-D. (Hrsg.):
Europa 2010 – Das Ende der Solidarität? München. S. 15–18.
475
Arnold, P; Mayrberger, K.; Merkt, M. (2006): E-Learning als Prozessinnovation
zwischen Strategie und Didaktik- am Beispiel des Change Management Projekts
„KoOP“ der Hamburger Hochschulen. In Seiler Schiedt, E.; Kälin, S.; Sengstag,
C. (Hrsg.): E-Learning – alltagstaugliche Innovation? Münster. S. 27–36.
Back, A.; Bendel, O.; Stoller-Schai, D. (2001): E-Learning im Unternehmen. Grundlagen – Strategien – Methoden – Technologien. Zürich.
Baume, M. (2009): Computerunterstützte Planspiele für das Informationsmanagement: Realitätsnahe und praxisorientierte Ausbildung in der universitären Lehre
am Beispiel der „CIO-Simulation“. Norderstedt.
Baumgartner, P.; Häfele, H.; Maier-Häfele, K.(2002): E-Learning Praxishandbuch,
Auswahl von Lernplattformen. Marktübersicht – Funktionen – Fachbegriffe.
Innsbruck.
Beck, U. (1997): Was ist Globalisierung? Frankfurt am Main.
Bhagwati, J. (2004): In Defense of Globalization. Oxford.
Debiel, T.; Messner, D.; Nuscheler, F. (2006): Globale Trends 2007. Bonn.
Dietinger, T. (2001): GENTLE BWT. Der sanfte Einstieg in die virtuelle Hochschule. In Albrecht, R.; Wagner, E. (Hrsg.): Lehren und Lernen mit neuen Medien.
Plattformen Modelle Werkzeuge. Münster, New York, München, Berlin. S. 59
bis 68.
Dohmen, D.; Michel, L. P. (2003): Marktpotentiale und Geschäftsmodelle für eLearning-Angebote deutscher Hochschulen. Bielefeld.
Dörr, G.; Strittmatter, P. (2002): Multimedia aus pädagogischer Sicht. In (Issing, L.
J.; Klimsa, P., (Hrsg.): Information und Lernen mit Multimedia und Internet.
Lehrbuch für Studium und Praxis. 3. vollständig überarbeitete Auflage. Weinheim. S. 29–44.
Eichelberger, H.; Stary, C. et al (2009): Unterrichtsentwicklung via eLearning. München.
Euler, D. (2002): From Connectivity to Community. Elektronische Medien als Katalysator einer Kultur des selbstorganisierten Lernens im Team. In Spoun, S.;
Wunderlich, W. (Hrsg.): Medienkultur im digitalen Wandel. Prozesse, Potenziale, Perspektiven. Facetten einer Medienkultur. Bd. 2. Bern. S. 205–226.
Forrester, V.(1997): Der Terror der Ökonomie. Wien.
Frankfurth, A. (2010): e-Learning-Architekturmanagement. Kassel.
Haak, J. (2002): Interaktivität als Kennzeichen von Multimedia und Hypermedia. In
Issing, L. J.; Klimsa, P. (Hrsg.): Information und Lernen mit Multimedia und Internet. Lehrbuch für Studium und Praxis. 3. vollständig überarbeitete Auflage.
Weinheim. 127–138.
476
Hagedorn, F. (2002): Wann ist E-Learning erfolgreich? Das netzbasierte Lernen
vermittelt nicht nur Kompetenzen, sondern setzt auch welche voraus. In Lehmann, B.; Bloh, E., (Hrsg.): Online-Pädagogik. Hohengehren. S. 201–207.
Johannsen, A.; Böhmer, T.; Krcmar, H. (2001): In Hesse, F. W.; Friedrich, H. F.
(Hrsg.): Partizipation und Interaktion im virtuellen Seminar. Münster. S. 217 bis
242.
Krause, S. (2004): Situiertes Lernen in virtuellen Realitäten – die Didaktik der neuen
Medien?. In Rinn, U.; Meister, D. M. (Hrsg.): Didaktik und neue Medien. Konzepte und Anwendungen in der Hochschule. Münster. S. 197–208.
Kubler, H.-D. (2008): Mythos Wissensgesellschaft: Gesellschaftlicher Wandel zwischen Information, Medien und Wissen. Eine Einführung. Wiesbaden.
Lehmann, B. (2002): Konzeption von und Erfahrung mit netzbasiertem Lehren und
Lernen. In: Lehmann B.; Bloh E. (Hrsg.): Online-Pädagogik. Hohengehren. S.
323–340.
Leidhold, W. (2001): ILIAS. Entwicklung des Integrierten Lern-, Informations- und
ArbeitskooperationsSystems ILIAS – Konzeption und Einsatz. In Albrecht, R.;
Wagner, E. (Hrsg.): Lehren und Lernen mit neuen Medien. Plattformen Modelle
Werkzeuge. Münster, New York, München, Berlin. S. 27–44.
Mair, D. (2005): E-Learning – Das Drehbuch. Handbuch für Medienautoren und
Projektleiter. Berlin.
Mandl, H.; Gruber, H.; Renkl, A. (2002): Situiertes Lernen in multimedialen Lernumgebungen. In Issing, L. J.; Klimsa, P. (Hrsg.): Information und Lernen mit
Multimedia und Internet. Lehrbuch für Studium und Praxis. 3. vollständig überarbeitete Auflage. Weinheim. S. 139–150.
Martin, H-P; Schumann, H. (1998): Die Globalisierungsfalle. Der Angriff auf Demokratie und Wohlstand. Reinbeck bei Hamburg.
Meister, D.; Tergan, S.-O.; Zentel, P. (2004): Evaluation von eLearning – eine Einführung. In Meister, D.; Tergan, S.-O.; Zentel, P. (Hrsg.): Evaluation von E-Learning: Zielrichtungen, methodologische Aspekte, Zukunftsperspektiven. Münster.
S. 7–22.
Messner, D. (2009): E-Learning – Vom Nutzen ohne direkten Nutzen: E-Medienkompetenz als Kulturtechnik, In Dittler, U. et al. (Hrsg.): E-Learning: Eine Zwischenbilanz: Kritischer Rückblick als Basis eines Aufbruchs. Münster. S. 233 bis
243.
Moser, H. (2010): Einführung in die Medienpädagogik: Aufwachsen im Medienzeitalter. Wiesbaden.
Müller, A (2003): Netzgestützte Seminare in der Politikwissenschaft. In Kandzia,
P.-T.; Ottmann, T. (Hrsg.): E-Learning für die Hochschule. Erfolgreiche Ansätze
für ein flexibles Studium. Münster. S. 201–220.
477
Niegemann, H; et al. (2009): Kompendium multimediales Lernen. Berlin.
OECD (2003): Bildungspolitische Analyse 2002. Paris.
Reß, L. (2003): Live-Online-Lehren. Methoden und Übungen für das virtuelle Seminar. Friedberg.
Risku, H.; Peschel, M. (2010): Kognition und Technologie im kooperativen Lernen:
Vom Wissenstransfer zur Knowledge Creation. Göttingen.
Ritter, M; Zeitler, K. (2000): Armut durch Globalisierung – Reichtum durch Regionalisierung. Graz.
Safranski, R. (2003): Wieviel Globalisierung verträgt der Mensch. München.
Speck, P. (2009): Employability – Herausforderungen für die strategische Personalentwicklung: Konzepte für eine flexible, innovationsorientierte Arbeitswelt von
morgen. Wiesbaden.
Stehr, C. (2003a): Ist Globalisierung messbar? In Beschorner, D.; Stehr, C. (Hrsg.):
Globalisierung – Chancen und Risiken. Ulm.
Stehr, C. (2003b): Globalisierung und Destabilisierungstendenzen innerhalb des Internationalen Systems: eine Indikatorenanalyse für ausgewählte Nationalstaaten.
Berlin.
Stehr, C. (2005): Brasilien im Zeitalter der Neuen Globalisierung. Eine Indikatorenuntersuchung zur Feststellung des Globalisierungsgrades von Brasilien. In Stehr,
C. (Hrsg.): Brasilien und Globalisierung – Handlungsspielräume aktueller brasilianischer Wirtschaftspolitik. Aus der Reihe: Globalisierung – Chancen und Risiken. Ulm. S.203–249.
Teusch, U. (2004): Was ist Globalisierung? Ein Überblick. Darmstadt.
Varwick, J. (2002): Globalisierung. In Woyke, W. (Hrsg.): Handwörterbuch Internationale Politik. Bonn. S. 136–147.
Wedekind, J. (2001): Transfer von Medienkompetenz. In Hesse, F. W.; Friedrich, H.
F. (Hrsg.): Partizipation und Interaktion im virtuellen Seminar. Münster. S. 191
bis 208.
Weißeno, G. (2008): Politikkompetenz: Was Unterricht zu leisten hat. Wiesbaden.
Welge, M. K.; Holtbrügge, D. (2001): Internationales Management. 2. Aufl. Landsberg/Lech.
Zürn, M. (1998): Regieren jenseits des Nationalstaats. Frankfurt a.M.
478
M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff
Manuel Burghardt, Markus Heckner, Tim Schneidermeier,
Christian Wolff
Lehrstuhl für Medieninformatik
Institut für Information und Medien, Sprache und Kultur
Universität Regensburg, 93040 Regensburg
Zusammenfassung
Ziel dieser Studie ist es, Strategien und Werkzeuge des Social-Media-Marketing für den Bereich der Hochschulen vorzustellen und zu diskutieren. Dabei
wird insbesondere auf relevante Zielgruppen und Marketingziele eingegangen. Aktuelle Social Media-Marketingbestrebungen des 2010 neu eingeführten Studiengangs „Medieninformatik“ der Universität Regensburg werden anhand einer Feldstudie diskutiert.
Abstract
This paper presents social media marketing strategies and methods for the
academic area regarding specific target groups and marketing goals. Current
social media marketing activities for promoting the newly established chair
of media informatics at the University of Regensburg are discussed by analyzing a corresponding field study.
1
Einleitung
Facebook und YouTube liegen im Ranking der meistbesuchten Websites
weltweit unmittelbar hinter Spitzenreiter Google, die Plattformen Blogger
und Twitter folgen dicht danach [vgl. Alexa Internet 2010]. Im Kontext dieser Social Web-Dienste hat sich Social Media-Marketing entwickelt, um die
Besonderheiten der Social Media-Plattformen zur Bewerbung von Produkten
479
und Marken zu nutzen. Aktuelle Studien des Fraunhofer-Instituts für Angewandte Informationstechnik und des Deutschen Instituts für Marketing bestätigen die steigende Verbreitung und Relevanz von Social Media-Marketing
in der Geschäftswelt. Über die optimale Nutzung sozialer Medien für wirtschaftliche Zwecke gibt es bereits umfangreiche Literatur [vgl. Brown 2009,
Dunay & Krueger 2010, Hettler 2010, Hünnekens 2010, Li & Bernoff 2009,
Scott 2010, Tuten 2008 u.v.m]. Obwohl Reformen von Lehre und Studium
und der zunehmende Wettbewerb um die klügsten Köpfe von den Hochschulen Profilbildung verlangen [vgl. Lehmkuhl 2008], werden die Möglichkeiten
von Social Media-Marketing im Hochschulbereich noch kaum erkannt oder
in Unkenntnis der Anforderungen an eine Social Media-Strategie eher halbherzig betrieben.1 Erste Empfehlungen zur Nutzung von Web 2.0-Kommunikationsinstrumenten für das Hochschulmarketing finden sich in Olbrich und
Albrecht [2009]. Vor dem Hintergrund der Social Media-Strategie für den
2010 neu geschaffenen Studiengang Medieninformatik an der Universität
Regensburg sollen Möglichkeiten der sozialen Onlinemedien für den Hochschulbereich aufgezeigt werden und eine Diskussion der bisherigen Social
Media-Strategie der Regensburger Medieninformatik erfolgen.
2
Was ist Social Media?
Ein wesentliches Merkmal des Web 2.0 ist die Verfügbarkeit zahlreicher
Dienste und Plattformen zum sozialen Identitäts- und Beziehungsmanagement, die sich als Social Web zusammenfassen lassen. Social Web bedeutet
eine Fokussierung auf den Nutzer und die Unterstützung und Beförderung
der Interaktion zwischen Nutzern über das WWW. Zu diesen Interaktionen
zählen der gegenseitige Austausch von Information, das Herstellen und Pflegen von sozialen Kontakten und die Kommunikation mit anderen Mitmenschen [Ebersbach et al. 2008, S. 29]. Zu den bekanntesten Ausprägungen von
Social Media gehören neben Blogs, Wikis und Foren soziale Netzwerke wie
Facebook und MySpace, multimediale Social Tagging-Plattformen wie YouTube und Flickr sowie seit wenigen Jahren auch Microblogging-Dienste wie
1 Vgl. entsprechende Diskussionen der Mailingliste “http://www.bundesverband- hochschulkommunikation.de/”
480
Twitter. Social Media-Marketing ist der Versuch von Unternehmen und Organisationen, über entsprechende Plattformen Teil dieser User-Interaktion zu
werden und Aufmerksamkeit für eine Marke oder ein Produkt zu erzeugen,
denn durch Social Media wird „Mundpropaganda schnell zu Weltpropaganda“ [vgl. Qualmann 2010, S. 19ff].
3
Welche sozialen Medien für welchen Zweck?
Das Marketing mithilfe von Social Media kann von der Akquise neuer Kunden und zur Erhöhung der Besucherzahl einer Webseite über die Etablierung
oder Bewerbung eines Produkts bis hin zur Produktentwicklung durch die
Community unterschiedlichste Zielsetzungen verfolgen. Dabei eignen sich
verschiedene soziale Medien für die Erreichung spezifischer Ziele unterschiedlich gut, wie die nachfolgende knappe Merkmalsübersicht deutlich
machen soll [vgl. Ebersbach 2008, S. 33ff, Weinberg 2010, S. 4ff].
• Blogs | Blogs eignen sich in ihrer Eigenschaft als digitales „Tagebuch“
sehr gut dazu, z.B. den Fortschritt eines Projekts oder die Entwicklung
einer bestimmten Kampagne zu kommunizieren.
• Microblogs | Seit 2006 ist der bekannteste Microblogging-Dienst Twitter
online. In Analogie zur SMS stehen maximal 140 Zeichen für eine Nachricht zur Verfügung. Mit Microblogs lassen sich hochfrequente, rasche
Entwicklungsschritte oder Ereignisse kommunizieren. Die Interaktion
unter den Nutzern findet über das Beantworten oder Weiterleiten sogenannter Tweets, oder auch über das Senden von Direktnachrichten an einen einzelnen User statt.
• Foren/Newsgroups | Foren widmen sich üblicherweise bestimmten
Themen. Die von Nutzern verfassten Diskussionsbeiträge können von jedem beantwortet und kommentiert werden. Daher werden sie vor allem
für Informations- und Meinungsaustausch und die Diskussion genutzt.
• Soziale Netzwerke | Soziale Netzwerke eignen sich zum Aufbau von
Kundennetzwerken und für die Initiierung von viralen Marketingkampagnen. Im Vordergrund dieser Plattformen steht das Knüpfen und Verwalten von Kontakten, die einen Social Graph bilden. Häufig integrieren
Social Networks zusätzliche Social Media-Dienste wie z.B. Microblogging und Tagging. Bei der Wahl eines sozialen Netzwerks gilt es, die je-
•
•
4
481
weilige Community vorher genau zu analysieren, da sie häufig eine bestimmte Zielgruppe repräsentiert.
Social Tagging | Social Tagging ermöglicht es Nutzern, Webseiten oder
Dokumente mit Schlagwörtern (Tags) oder einer persönlichen Wertung
zu versehen. Getaggte Inhalte werden andern Usern zur Verfügung gestellt und können zu komplexen Taxonomien (Folksonomies) erweitert
werden. Ebenso wie ein gutes Ranking bei linkbasierten Suchmaschinen
ist im Kontext der Social Search auch eine gute Sichtbarkeit in Folksonomies anzustreben.
Media-Sharing | (Multimediale) Inhalte werden mit anderen Nutzern
geteilt und können ebenso mit Schlagworten (Tags) versehen werden.
Die Reichweite von Diensten wie Flickr und YouTube ist prädestiniert
für das Social Media-Marketing. Einige Werbespots werden mittlerweile
exklusiv über solche Plattformen vertrieben, da sie hier keinen weiteren
Einschränkungen wie etwa Zeitlimits unterliegen [vgl. Puma 2010].
Allgemeine Anforderungen
an eine Social Media-Strategie
Angesichts der Heterogenität der Social Media-Dienste ist die Zielsetzung
für den Einsatz von Social Media als Kommunikations- und Marketinginstrument zu präzisieren [vgl. Biederlack et al. 2009, S. 2]:
• Aufbau eines eigenen Netzwerks
• Präsentieren und Bereitstellen eigener (multimedialer) Inhalte
• Kommunikation und Feedback
Häufig überschneiden sich diese Anwendungsbereiche: So ist die Kommunikation aktueller Ereignisse erst dann sinnvoll, wenn bereits ein Netzwerk
aufgebaut wurde. Viele Social Media-Dienste wie z.B. Facebook zielen bewusst darauf ab, verschiedene Anwendungsbereiche auf einer integrierten
Plattform anzubieten. Aus Social Media-Marketing-Sicht stellt sich die Frage, ob eine parallele bzw. redundante Nutzung von Social Media-Angeboten
ein akzeptables Kosten-Nutzen-Verhältnis aufweist. In vielen Fällen ist es
jedoch möglich, verschiedene Plattformen zu koppeln, sodass beispielsweise
eine Statusmeldung in Facebook automatisch auch auf einem entsprechenden
482
Twitter-Channel publiziert wird [vgl. Twittermash 2010]. Für den Betrieb
einer Social Media-Präsenz ist zu beachten, dass Kommunikation in den
sozialen Medien nicht steuerbar ist, weil alle Nutzer im Netzwerk potenzielle
Sender sind und durch Feedback oder Kommentare die Kommunikationsziele
beeinflussen oder grundlegend verändern können: „Das unkontrollierbare
Eigenleben der Nutzer kann eine Kampagne unterstützen, aber auch binnen
kürzester Zeit das gewünschte Ergebnis ad absurdum führen“ [Postel et al.
2010, S. 2]. Das illustriert auch ein Worst Case-Beispiel aus der jüngeren
Vergangenheit des Lebensmittelriesen Nestlé, in dem eine Social MediaKampagne spektakulär scheiterte und die Facebook-Fanpage in kürzester
Zeit zu einem „virtuellen Kriegsschauplatz“ wurde [vgl. Imke 2010, Hutter
2010]. Bei der strategischen Planung ist zu berücksichtigen, dass die Präsenz
auf einer Social Media-Plattform über den anfänglichen Erstellungsaufwand
hinaus ständiger Pflege und Wartung bedarf: Inhalte müssen redaktionell
erstellt und aktualisiert werden, Benutzeranfragen in angemessener Zeit bearbeitet, Kontakte gepflegt und implizites Feedback in Form von Kommentaren ausgewertet werden [vgl. Biederlack et al. 2009, S. 3].
5
Social Media für das Hochschulmarketing
Was im angloamerikanischen Raum aufgrund anderer sozioökonomischer
Rahmenbedingungen der Finanzierung des Hochschulwesens schon lange
praktiziert wird, gewinnt auch an deutschen Hochschulen an Bedeutung: Von
Corporate Design-Bestrebungen bis hin zu Fan-Artikeln für Studierende
versuchen Hochschulen verstärkt, sich als Marke zu etablieren [vgl. Heimann
2009]. Dass die Bedeutung der sozialen Onlinemedien für diese Profilierungsversuchen zunimmt, kann auf drei Ebenen beobachtet werden:
• Universitätsübergreifend z.B. Hochschulinitiative Neue Bundesländer2,
• auf Universitätsebene: z.B. RWTH Aachen [vgl. Aperto 2010] oder
• auf Studiengangsebene: z.B. Medieninformatik Regensburg (s. u.).
Die nachfolgende Tabelle zeigt, wie Marketingziele im Hochschulbereich
mit Social Media-Diensten zielgruppenspezifisch umgesetzt werden können.
2 http://www.hochschulinitiative.de/
483
Tabelle 1:
Marketingziele und deren Umsetzung mithilfe von Social-Media-Diensten.
Aufbau eines
Netzwerks
Studieninteressierte schülerVZ, Facebook
Studierende
studiVZ, Facebook
Alumni
Allgemeine
Außendarstellung
XING, LinkedIn,
Facebook
Facebook
Präsentation von
Inhalten
YouTube, Flickr,
iTunes U
YouTube, Flickr,
iTunes U
YouTube, Flickr
YouTube, Flickr,
iTunes U
Kommunikation
Blog, (Twitter),
Facebook
Blog, Twitter, Facebook, Forum
Blog, Facebook
Blog, Facebook
Vor allem beim Netzwerkaufbau zeigen sich zielgruppenspezifische Unterschiede, die auf den jeweils speziell zugeschnittenen Angeboten basieren.
Für die Präsentation und Distribution von Inhalten bieten sich grundsätzlich
alle drei genannten Plattformen an. Vorlesungen oder Screencasts, die über
iTunes U vertrieben werden, können vor allem den Studieninteressierten als
Orientierung und den Studierenden als Unterstützung dienen. Die wichtigste
Funktion von Social Media, die Kommunikation, kann durch die Verwendung von Blogs oder Facebook erfüllt werden. Wegen ihrer kurzen Mitteilungen bieten sich für Studierende zudem Microblogs an. Studieninteressierten im Entscheidungsfindungsprozess kann Twitter ebenfalls als Quelle
dienen. Als Diskussionsplattform für Studenten kann auf ein zugangsbeschränktes Forum zurückgegriffen werden. Facebook läßt sich wegen seiner
Marktdurchdringung und aufgrund der Möglichkeit andere Diensten wie
Twitter oder YouTube zu integrieren für beinahe alle Bereiche nutzen.
6
Fallstudie: Social Media-Marketing für den
Studiengang Medieninformatik an der Uni
Regensburg
Der Studiengang Medieninformatik ist zum Wintersemester 2010/11 erstmalig eingeführt worden. Neben bewährten „traditionellen“ Kommunikati-
484
onsmitteln wie Flyern und Informationsveranstaltungen wird dabei insbesondere auf den Einsatz sozialer Medien für das Marketing gesetzt.
6.1
Social Media-Konzept
In einem ersten Schritt werden die zu erreichenden Ziele und die zu adressierende Zielgruppe erarbeitet. Das primäre Ziel ist, den neuen Studiengang
publik zu machen, einen möglichst hohen Bekanntheitsgrad unter Studieninteressierten zu erlangen und diese als Studierende zu gewinnen. Neben den
Charakteristika der Regensburger Medieninformatik gegenüber anderen
Standorten3 und Studieninhalten, sollen auch außercurriculare Aktivitäten
und die Vorzüge der Stadt kommuniziert werden. Dies dient primär der externen Kommunikation im Gegensatz etwa zur lehrstuhl- oder institutsinternen Kommunikation, die keine marketingrelevante Zielsetzung hat.
Für die Regensburger Medieninformatik als neu geschaffenen Studiengang ist die Zielgruppe der Studieninteressierten besonders relevant. Mit
einem durchschnittlichen Alter von 21,9 Jahren im ersten Hochschulsemester4 kann diese den sogenannten Digital Natives [vgl. Prensky 2001] zugerechnet werden [vgl. Statistisches Bundesamt Deutschland 2010]. Aktuellen
Studien zufolge ist die Gesamtheit aller 14- bis 19-Jährigen (100%) und
98,4% der 20- bis 29-Jährigen Deutschen online. Während die Kommunikation über Foren oder Newsgroups an Bedeutung verliert, gewinnen soziale
Netzwerke in den letzten Jahren deutlich an Akzeptanz. Knapp 80% der 14bis 29-Jährigen nutzen regelmäßig soziale Netzwerke und beinahe die Hälfte
der deutschen Internetnutzer besitzen ein eigenes Profil in einer privaten oder
beruflichen Community.5 Sieht man vom Alter ab, wirkt diese strikte Unterteilung in berufliche und private Kontakte überholt. Auch private Netzwerke
ermöglichen neuerdings die Abgrenzung von Informationsinhalten für spezifische Gruppen von Freunden6 [vgl. van Eimeren & Frees 2010]. Ferner
konnte der als rein privates Netzwerk gestartete Branchenprimus Facebook
3 Insbesondere die Ansiedelung an einer geistes- und kulturwissenschaftlichen Fakultät
und die personelle, inhaltliche und historische Nähe zur Informationswissenschaft.
4 WS 2007/08 und 2008/09.
5 nur 7% bei beruflichen Netzwerken [vgl. Eimeren & Frees 2010]
6 Facebook erlaubt dem Nutzer die Gesamtheit seiner Kontakte in Gruppen mit unterschiedlichen Rechen zu unterteilen.
485
mit 6,9 Millionen Benutzern in Deutschland seine Mitglieder im vergangenen
Jahr beinahe verdoppeln Den größten Anstieg im Bereich der sozialen Medien in Deutschland kann der Microblogging-Dienst Twitter für sich verzeichnen. Das Media Sharing-Portal YouTube stellt mit 13 Millionen Besuchern sowohl Facebook als auch Twitter in den Schatten [vgl. Nielsen Media
Research GmbH 2010]. Das Social Media-Marketing der Medieninformatik
Regensburg konzentriert sich daher auf diese Plattformen. Gestützt wird diese Entscheidung durch die Integrations- bzw. Synchronisierungsfähigkeit von
Facebook und Twitter. Beide Plattformen können so ohne Mehraufwand
gepflegt werden. Die Möglichkeit, auf YouTube gehostete Videos zusätzlich
auf Facebook einzubinden, unterstützt diesen Workflow zusätzlich. Alle
Mitarbeiter der Medieninformatik erhalten die Zugangsdaten, um aktiv am
Social Media-Marketing mitwirken zu können. Als interne Maßgabe wird ein
mindestens einwöchentlicher Veröffentlichungszyklus definiert, wobei der
Fokus auf Qualität und nicht auf der Quantität der Posts liegen soll. Aufgrund des geringen Zeitaufwands hat sich Twitter bereits nach einer kurzen
Zeitspanne als passendes Medium für kurze Mitteilungen durchgesetzt.
6.2
Studie zur Überprüfung des Erfolgs
des Social Media-Konzepts
Mit einem Fragebogen wurde zum Start des WS 2010/2011 überprüft, ob die
Annahmen über den Wirkungsgrad des Social Media-Marketings und den
zugrunde gelegten Studien verifiziert werden können. Da die Befragung in
der ersten Sitzung der Einführungsveranstaltung stattfand, wurde erhoben,
welche Social Media-Angebote die Studenten vor Beginn ihres Studiums
genutzt haben um sich über den Studiengang zu informieren. Informationen
über diese Angebote sind nur auf der Homepage der Medieninformatik vorhanden. Eine gezielte Heranführung an das Thema in Kursen und Seminaren
fand nicht statt. Alle Erstsemester wurden gebeten, den dafür entworfenen
Fragebogen, der neben demografischen Angaben und Fragen zum Studiengang und dem Onlineverhalten insbesondere das Nutzungsverhalten in Hinblick auf soziale Medien erfasst, auszufüllen. Der Fragebogen wurde mit der
Evaluationssoftware EvaSys entworfen und erfasst7. Die Auswertung der
7 http://www.electricpaper.de
486
quantitativen Daten erfolgte zusätzlich mit dem Statistikpaket SPSS8. Von
den 118 befragten Studenten sind 66 männlich und 52 weiblich. Der Altersdurchschnitt liegt bei 20,86 Jahren, wobei 18 die kleinste und 30 die größte
Ausprägung ist. Bis auf eine Ausnahme kommen alle Studenten aus Bayern
und haben je zur Hälfte einen eher ländlichen (Einwohnerzahl < 10.000)
bzw. städtischen Hintergrund (Einwohnerzahl > 10.000).
6.3
Ergebnisse
Auf die Frage wie sie auf den Studiengang aufmerksam wurden, geben 0,8%
der Studierenden Facebook, 2,5% die Fachstudienberatung, 7,6% die Presse,
je 9,2% die zentrale Studienberatung und die Informationsveranstaltung am
Regensburger Hochschultag, 14,3% den Studiengangsflyer und mit 75,6%
die absolute Mehrheit die Webseite der Medieninformatik Regensburg an.
Entscheidend für die Studiengangwahl war für 84% der Befragten das Interesse am Fach. Knapp 80% verbringen zwischen zwei und acht Stunden
täglich online, ein Zehntel weniger als zwei und 11,4% mehr als acht Stunden. Bei möglichen Mehrfachnennungen führen Dreiviertel der Befragten
einen Laptop, etwas mehr als die Hälfte einen Desktoprechner und 41,2% ein
Smartphone auf. Netbooks (9,2%) und Tablets (3,4%) haben keine weite
Verbreitung.
Den Kern der Evaluation bilden die Fragen über die Gewohnheiten und
Verhaltensweisen im Social Web.9 Die Plattformen LinkedIn, XING, MySpace und Flickr sowie das Pflegen eines eigenen Blogs werden von weniger als
10% wahrgenommen. 21 der 118 Befragten (17,6%) haben einen Account
beim Microblogging-Dienst Twitter, 27 beim sozialen Netzwerk Lokalisten
(22,7%) und 79 bei einem der VZ-Dienste (66,4%). Die Media SharingPlattform YouTube wird von 79% der Studenten genutzt, noch überboten
durch 89,1% Facebook-Usern. Die mobilen Nutzungsstatistiken10 weichen
am stärksten im Hinblick auf die Nutzung der VZ-Dienste (19,6%), YouTube
(45,1%) und der Plattform Lokalisten (4%) ab. Twitter und Facebook werden
88 http://www.spss.com/de/
99 Bei Angaben zur Nutzung von Social Media und zu Kenntnis und Nutzung der Angebote der Regensburger Medieninformatik sind Mehrfachnennungen erlaubt.
10 Nutzung auf dem Smartphone; 41,2% aller Befragten besitzen ein Smartphone und
dienen als Grundlage für diese Frage.
487
mobil von 9,8% beziehungsweise 82,4% genutzt. Über diese rein deskriptiven Statistiken hinaus sind insbesondere Korrelationen verschiedener Parameter interessant. Für die Feststellung potenzieller Zusammenhänge von Variablen bzw. deren Unabhängigkeit wird ein Chi-Quadrat-Test eingesetzt. Als
Wert wird die zweiseitige asymptotische Signifikanz angegeben.11
90
80
70
60
50
40
30
20
10
0
Kenntnis
Nutzung
Facebook
Twitter
Youtube
Abbildung 1:
Kenntnis/Nutzung der aktiven Plattform-Nutzer der Medieninformatik-Angebote
•
•
Werden Social Media-Dienste häufiger genutzt, wenn zusätzlich zu einem
Computer ein Smartphone vorhanden ist?
22,44% der Smartphone-Nutzer und 14,29% der Befragten ohne ein eigenes Smartphone verwenden Twitter (p=0,252). Vier von elf nutzen den
Microblog auch mobil. Facebook wird von 95,92% aller Smartphonenutzer regelmäßig aufgesucht. 83% davon nutzen den Dienst auch unterwegs. Die Nutzungsausprägung bei Befragten ohne Smartphone liegt bei
84,29% (p=0,450). Auch bei YouTube mit 77,6% bzw. 80% kann kein
signifikanter Unterschied festgestellt werden (p=0,747).
Gibt es geschlechtsspezifische Unterschiede der Social Media-Nutzung?
Mit 90,38% der weiblichen und der 87,88% männlichen Medieninformatiker gibt es bei der Nutzung von Facebook keinen signifikanten Unterschied (p=0,666); auch bei Twitter mit 17,31% bzw. 18,18% (p=0,902)
und YouTube (78,8% bzw. 80,3%; p=0,845) verhält es sich ähnlich.
11 Der Fokus liegt hier bei den Ergebnissen zu den Diensten Facebook, Twitter und
Youtube, da diese auch von der Medieninformatik genutzt werden.
488
•
7
Wie viele der aktiven Nutzer von Facebook, Twitter und YouTube kennen
und nutzen die Angebote der Medieninformatik Regensburg?
82 der 106 Facebook-User kennen die Webpräsenz der Medieninformatik, wovon 75,61% auch angeben sie zu nutzen. Der Account MedienInfRgb auf Twitter ist 18 von 21 Twitter-Nutzern geläufig, 14 folgen
den Tweets. Die Media Sharing-Plattform YouTube besuchen insgesamt
79% der Befragten. Mehr als der Hälfte davon (52,1%) ist der Kanal der
Medieninformatik bekannt. Genutzt wird er von 69,39%.
Diskussion und Ausblick
Die Tatsache, dass über 75% aller Studienanfänger über die Webseite der
Regensburger Medieninformatik auf den Studiengang aufmerksam wurden,
zeigt einen deutlichen Trend hin zur Online-Recherche bei der Studiengangswahl. Während damit klar sein dürfte, dass Online-Medien im Sinne
des „Web 1.0“ eine entscheidende Rolle für die Außenkommunikation spielen, dürfte die Bedeutung sozialer Medien in Zukunft noch weiter wachsen.
Auffällig ist, dass über die Kanäle der sozialen Medien bislang nur etwa 1%
der Studienanfänger auf den neuen Studiengang aufmerksam wurde. Berücksichtigt man allerdings, dass Social Media-Marketing vor allem auf virale
Effekte und Mundpropaganda innerhalb sozialer Netzwerke setzt, so ist die
geringe Wahrnehmung des gerade neu eingeführten Studiengangs nicht weiter verwunderlich. Die hohen Nutzungszahlen der sozialen Medien durch die
Studierenden allgemein bestätigen jedoch die Bedeutung der eingeschlagenen Social Media-Strategie. Zur Überwachung und Optimierung der Social
Media-Strategie sind für die Zukunft auch weiterhin Befragungen geplant.
Zudem konnten durch diese Befragung Charakteristika der Zielgruppe identifiziert werden, die für eine künftige Optimierung der Marketingstrategie, z.B.
in Form einer Anpassung für den Bereich Mobile Devices, genutzt werden
können. Grundsätzlich ist bei allen Erweiterungen des Social Media-Repertoires auf die Wartbarkeit und Integrierbarkeit der Dienste zu achten. Hier
bieten sich Plattformen wie iTunes U an, die als Zweit- oder Drittverwerter
von Inhalten angedacht sind. Die starke Präsenz der Zielgruppe im sozialen
Netzwerk Facebook erübrigt zumindest zunächst ein zusätzliches Profil auf
rein beruflichen Plattformen wie XING oder LinkedIn.
489
Alexa Internet (2010). Top Sites. http:www.alexa.com, letzter Zugriff am 07.11.2010
Aperto (2010). Exzellenz im Hochschulmarketing: Aperto modernisiert RWTH Aachen im Web.
http://www.aperto.de/start/presse/pressemitteilungen-2010/Aperto-modernisiertRWTH.html, letzter Zugriff am 27.10.2010
Biederlack, C. (2009). Sicherer Einstieg in soziale Netzwerke. 10 Tipps, die Nutzer
beachten sollten. Social Media Fachgruppe im BVDW.
http://www.bvdw.org/mybvdw/media/download/bvdw-sm-leifaden-sicherereinstieg.pdf?file=1273, letzter Zugriff am 18.9.2010
Brown, R. (2009). Public relations and the social web. How to use social media and
Web 2.0 in communications. London: Kogan Page.
Dunay, P. & Krueger, R. (2009). Facebook Marketing for Dummies. Hoboken: Wiley Publishing.
Ebersbach, A., Glaser, M. & Heigl, R. (2008). Social Web. Konstanz: UKV.
Hettler, U. (2010). Social Media-Marketing. Marketing mit Blogs, sozialen Netzwerken und weiteren Anwendungen des Web 2.0. München: Oldenbourg.
Heimann, A. (2009). Die Uni als Marke. Studenten werden zu Fans der eigenen Universität.
http://www.welt.de/lifestyle/article4229837/Studenten-werden-zu-Fans-der-eigenenUniversitaet.html, letzter Zugriff am 01.11.2010
Hochschulinitiative Neue Bundesländer (2010).
http://www.hochschulinitiative.de/, letzter Zugriff am 02.11.2010
Hutter, T. (2010). Blogpost am 21.3.2010. Blog zu Social Media. „Facebook: wenn
Fanpages zum Kriegsschauplatz werden.“
http://www.thomashutter.com/index.php/2010/03/facebook-wenn-fanpageskriegsschauplatz-werden/, letzter Zugriff am 22.10.2010
Hünnekens, W. (2010). Die Ich-Sender. Das Social Media-Prinzip: Twitter, Facebook & Communities erfolgreich einsetzen. 2. Aufl. Göttingen: Business-Village.
Imke, H. (2010). Nestlé: Social Media Desaster. Oder: Wenn Werbung plötzlich ins
Gegenteil umschlägt.
http://www.beyond-print.de/2010/03/21/nestle-social-media-desaster-2/,
letzter Zugriff am 22.10.2010
Lehmkuhl, U. (2008). Begrüßung. In: K. Siebenhaar (Hrsg.). Unternehmen Universität. Wissenschaft und Wirtschaft im Dialog. Wiesbaden: VS Verlag für Sozialwissenschaften.
Li, C. (2009). Marketing in the Groundswell. Boston: Harvard Business Press.
490
Nelles, D. (2009). Der Blick in die Social Media Kristallkugel – Was passiert 2010.
http://digital-conversation.de/2009/12/08/der-blick-in-die-social-media-kristallkugelwas-passiert-2010/, letzter Zugriff am 26.10.2010
Nielsen Media Research GmbH (2010). Facebook, Youtube und Wikipedia sind die
beliebtesten Social Media Seiten in Europa und den USA.
http://de.nielsen.com/news/NielsenPressemeldung02.02.2010SocialMediaSites.shtml, letzter Zugriff am 06.11.2010
Olbrich, R. & Albrecht, P. (2009). Hochschulmarketing – Aufgabenfelder und Institutionalisierung im Zeitalter des Medienbruchs. (18) Hagen: Berichte aus dem
Lehrstuhl für Betriebswirtschaftslehre, insb. Marketing.
http://www.fernuni-hagen.de/marketing/download/forschungsberichte/fb18_web.pdf,
Postel, Matthias et al. (2010). BVDW Leitfaden „Messbarer Erfolg im Social Media
Marketing – 10 Tipps für den Einstieg“. Social Media Fachgruppe im BVDW.
http://www.bvdw.org/mybvdw/media/download/bvdw-sm-leifaden-smmarketing.pdf?file=1438, letzter Zugriff am 18.9.2010
Prensky, M. (2001). Digital natives, digital immigrants. On the Horizon, 9(5), 1–2.
http://www.marcprensky.com/writing/Prensky%20-%20Digital%20Natives,%20Digital%20Immigrants%20-%20Part1.pdf, letzter Zugriff am 11.10.2010
Puma (2010). Puma Youtube-Channel.
www.pumahardchorus.com, letzter Zugriff am 01. November 2010
Qualman, E. (2010): Socialnomics. Wie Social Media Wirtschaft und Gesellschaft
verändern. 1. Aufl. Heidelberg: mitp (IT-fachportal.de).
Schmidt, H. (2010). Deutschland klettert auf Rang 3 der Social Media Weltrangliste.
http://faz-community.faz.net/blogs/netzkonom/archive/2010/08/30/deutschland-aufrang-3-der-social-media-weltrangliste.aspx , letzter Zugriff am 30.10.2010
Scott, David Meerman (2010): Die neuen Marketing- und PR-Regeln im Web 2.0.
Heidelberg: mitp.
Tuten, Tracy L. (2008): Advertising 2.0: Social Media Marketing in a Web 2.0
world. Westport: Praeger.
Statisches Bundesamt Deutschland (2010). Studienanfänger/-innen.
http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Content/Statisti
ken/BildungForschungKultur/Hochschulen/Tabellen/Content50/StudierendeErstesHS
Bundeslaender,templateId=renderPrint.psml, letzter Zugriff am 26.10.2010
Twittersmash (2010). Blogpost, am 26.3.2010. Twitter mit Facebook verbinden.
http://twittersmash.com/facebook-mit-twitter-verbinden,
van Eimeren, B. & Frees, B. (2010). Fast 50 Millionen Deutsche online – Multimedia für alle? Ergebnisse der ARD/ZDF-Onlinestudie 2010.
491
http://www.ard-zdf-onlinestudie.de/fileadmin/Online10/07-082010_van_Eimeren.pdf, letzter Zugriff am 02.11.2010
Weinberg, T. & Heymann-Reder, D. & Lange, C. (2010): Social Media Marketing.
Strategien für Twitter, Facebook & Co. Beijing: O’Reilly.
492
Posterpräsentationen
493
494
Nutzungsanalyse des
Deutschen Bildungsservers und Konzeption
eines Personalisierungsangebots
{boehm | rittberger}@dipf.de
Zusammenfassung
Das Poster beschreibt Ergebnisse einer Nutzungsanalyse des Deutschen Bildungsservers und einer Onlineumfrage im Hinblick auf eine Neuentwicklung
des Personalisierungsangebots.
Abstract
The poster shows results of a usage analysis of the German Education Server
and of an online survey regarding the redevelopment of its personalization
feature.
Nutzungsanalyse
Unter Verwendung der mittels der quelloffenen Webanalysesoftware Piwik
vom 01.07. bis 30.11.2009 beim Deutschen Bildungsserver (DBS) erhobenen
Daten sollte der Frage nachgegangen werden, ob sich Unterschiede in der
DBS-Nutzung hinsichtlich der drei Einstiegsarten Direkteinstieg, Suchmaschineneinstieg und Einstieg über eine Verweisseite feststellen lassen.
19,9% der Sitzungen entfallen auf Direkteinstiege, 68,7% auf Suchmaschineneinstiege und 11,4% auf Einstiege über sonstige Verweisseiten. Die
durchschnittliche Anzahl von Aktionen je Sitzung unterscheidet sich kaum
nach Einstiegsart. Bei Direkt- und bei Suchmaschineneinstiegen finden im
Nutzungsanalyse des Deutschen Bildungsservers und Konzeption ...
495
Schnitt 3,4 Aktionen statt, verglichen mit 3,9 Aktionen bei Einstiegen über
sonstige Verweisseiten. Der Anteil von Besuchern, die den DBS nach dem
Ende einer Sitzung erneut aufrufen, liegt bei Direkteinstiegen bei 47,5% und
damit deutlich höher als bei Suchmaschineneinstiegen (16%), sonstigen
Verweisen (14,9%) und auch dem Gesamtwert (22,2%). Dieser hohe Anteil
wiederkehrender Besucher bei Direkteinstiegen ist ein starkes Indiz dafür,
dass jene Besucher als Stammnutzer angesehen werden können.
Personalisierung
Unterschieden wird zwischen einer expliziten und impliziten Personalisierung. Bei der expliziten Personalisierung macht der Nutzer aktiv und bewusst
Angaben zu seinen Interessen (beispielsweise in Form eines Profils), bewertet Inhalte des Webangebots oder passt eine Internetseite interaktiv seinen
Wünschen an. Bei der impliziten Personalisierung wird die Anpassung automatisch vorgenommen.
Ziel einer primär expliziten Personalisierung ist eine Stärkung der Loyalität der vorhandenen Stammnutzer und die Bindung von Gelegenheitsnutzern.
Grundsätzlich lassen sich verschiedene Personalisierungsfunktionen unterscheiden, darunter Dashboards mit Widgets, personalisierbare RSS-Reader, ein veränderbares Layout, eine persönliche Startseite, persönliche Empfehlungen und gespeicherte Suchlisten.
Gemäß einer beim DBS durchgeführten Online-Umfrage wünschen sich
die Teilnehmer unter den vorgeschlagenen Personalisierungsfunktionen am
häufigsten eine persönliche Startseite, gefolgt von persönlichen Empfehlungen, gespeicherten Suchlisten, Tagging und einem veränderbaren Layout.
Auf Grundlage dieser Umfrageergebnisse wurde ein Prototyp entwickelt
(http://www.bildungsserver.de/demo/personalisierung/demo.html). Aufgrund
der geringen Nachfrage nach Interaktivität wurde ein vom Nutzer nicht beeinflussbarer Bereich mit zielgruppenspezifischen Neuigkeiten aus dem DBS
geschaffen. Der Protoyp wurde mittels einer Expertenevaluation überprüft
und wird derzeit auf Grundlage deren Ergebnisse weiterentwickelt.
496
Andreas Bohne-Lang, Elke Lang
A landmark in biomedical information:
many ways are leading to PubMed
MediaWiki tags open remote literature access to PubMed
Andreas Bohne-Lang1, Elke Lang2
1
Heidelberg University – Medical Faculty Mannheim
Ludolf-Krehl-Straße 13–17, D-68167 Mannheim
[email protected]
2
Darmstadt University of Appl. Sci. – Media Faculty
Haardtring 100, D-64295 Darmstadt
[email protected]
Abstract
Entrez PubMed (http://www.ncbi.nlm.nih.gov) is a central biomedical information hub. Its comprehensiveness, reliability and availability policy make it
a primary information resource for many specialized portals concer–ning
theme-focused information. NCBI offers programming tools for inclu–ding
automated information access into external applications. We present our
plug-in (http://www.mediawiki.org/wiki/Extension:Pubmed) for remote access and presentation of PubMed literature data (single hits and result sets)
within a MediaWiki page.
PubMed Extension Implementation
Up to now, PubMed literature data could not be included automatically into a
MediaWiki page. The described PubMed extension [http://www.mediawiki.
org/wiki/Extension:Pubmed] uses hooks and tag-function associations in the
wiki software part. It is based on a PHP SOAP class and contains methods to
connect to the PubMed API functions listed in [http://www.ncbi.nlm.nih.gov
/entrez/query/static/esoap_help.html]. Programming details can be found in
A landmark in biomedical information: many ways are leading to PubMed 497
[Bohne 2008]. The extension is invoked by the <pubmed> tag and transmits
a query to PubMed using the described method. The result set consists of the
PubMed article IDs related to the query. A PubMed request causes the server
to send the answer as a large data set in a XML record. In the next step, the
algorithm extracts the necessary parts by mapping the related fields. This step
is necessary, as some attribute names unfortunately are not unique, like the
‘Forename’ or the ‘Firstname’ attribute in the author definition. The following step is the layout process building the HTML code from the map–ped
data using a HTML template file. In addition to the primary literature data,
some links are generated and included. At the moment there are three default
links: A link back to the PubMed page by the PMID, a link to the journal on
Worldcat.org by ISSN and a link to the full text at the publisher’s page, if
DOI information is available. Thus the MediaWiki plug-in provides a new
tag within the markup language. The <Pubmed> tag establishes a po–werful
connection to PubMed by submitting the value between opening and closing
tag as a query string to PubMed. The <Pubmed> tag can possess three attributes influencing the result set layout. The attribute ‘limit’ controls the number of result records returned by the layout generator. The limit set by the
NCBI utilities is 500 result records per query. The limit parameter should be
used with complex queries – e.g. to present the first 20 hits. The attributes
‘layoutfile’ and ‘layoutlinks’ can set the current layout to temp–lates different from the default mode. Two other pieces of information about publication
status are added in brackets – information about the publication medium and
status (P for paper, I for Internet) and information about pub–lication status
(p for published, a for ahead of print, and e for epublished).
The MediaWiki plug-in is an easy-to-use tool for users not familiar with
programming. Using the <PubMed> tag helps them to integrate literature
reference data and links into their own wiki pages, opening access to free or
subscribed related sources like full text or Worldcat data.
Reference
Bohne-Lang, A.; Lang, E. (2008). Application Note: A MediaWiki extension to open
remote access to literature data from Pubmed. Biomedical Digital Libraries, Vol
5, No 1.
498
Ina Blümel1, René Berndt2
1
TIB Hannover
Welfengarten 1B, D-30167 Hannover
[email protected]
2
TU Graz
Inffeldgasse 16c, A-8010 Graz
[email protected]
Zusammenfassung
Dieser Beitrag umreißt semi-automatische Inhaltserschließung und visuell-interaktive Suche in 3D-Modellen im Forschungsprojekt PROBADO.
Abstract
This paper describes semi-automatic, content-based indexing and visual-interactive searching of 3D models within the PROBADO project.
PROBADO 3D
PROBADO 3D ist Teilbereich des Forschungsprojekts PROBADO, das den
prototypischen Aufbau und Betrieb einer verteilten digitalen Bibliothek für
heterogene, multimediale Dokumente zum Ziel hat. Dabei werden alle
Schritte der bibliothekarischen Verarbeitungskette vom Bestandsaufbau über
semi-automatische Inhaltserschließung bis hin zu visuell-interaktiver Suche
und Präsentation sowie Betriebsaspekten betrachtet. Partner innerhalb von
PROBADO 3D sind die Universität Bonn, TU Darmstadt, TU Graz und TIB
Hannover. PROBADO wird von der Deutschen Forschungsgemeinschaft
DFG im LIS-Programm als Leistungszentrum für Forschungsinformation
499
gefördert und ist bis 7/2011 ausgelegt. Weitere Informationen siehe
www.probado.de.
Zur Evaluation der Suchfunktionalität, zu Demonstrationszwecken und
zur Sammlung von Erfahrung mit Digitalisierungs- und Datenintegrationsarbeiten wurde an der TIB Hannover ein umfangreicher 3D-Testdatenbestand
aufgebaut, vornehmlich mit Modellen von Gebäuden und Einrichtungsgegenständen. Das Einstellen neuer Daten veranlasst die Ausführung eines
entsprechend vorkonfigurierten Workflows (Berndt 2010): Vor der inhaltsbasierten Erschließung werden technische Metadaten extrahiert, in ein einheitliches Format für die verschiedenen inhaltsbasierten Indexer konvertiert
und Vorschaudateien erzeugt. Zur Modellverwaltung wird eine Datenbanklösung mit integriertem Webfrontend benutzt, das verteilten Zugriff und ein
feinstufiges Benutzer- und Gruppenmanagement bietet.
Einer Studie unter Architekten zufolge (Blümel 2009) sind Benutzer sowohl an der gewohnten textbasierten Suche als auch am Content Based Retrieval interessiert. PROBADO 3D bietet sowohl die Suche in Metadaten als
auch modellvergleichende sowie 2D- und 3D-Skizziersuchen an (Berndt
2009). Dafür werden globale sowie lokale 3D-Formdeskriptoren sowie ein
weiterer zur Erkennung von sog. Raumstrukturgraphen verwendet (Wessel
2008). Außerdem werden Techniken wie maschinelles Lernen und Benchmarking eingesetzt, um die Modelle automatisch mit Metadaten anzureichern
und so textbasierte Suche zu ermöglichen. Hierzu wurde ein Benchmark für
Objektmodelle aus dem Fachbereich Architektur entwickelt (Wessel 2009).
Berndt, R., Blümel, I., Wessel, R. (2010). PROBADO3D – Towards an Automatic
Multimedia Indexing Workflow for Architectural 3D Models. Proceedings of
ELPUB 2010.
Berndt, R. et al. (2009). Demonstration of User Interfaces for Querying in 3D Architectural Content in PROBADO3D. Proceedings of ECDL 2009.
Blümel, I., Sens, I. (2009). Das PROBADO-Projekt: Integration von nichttextuellen
Dokumenten am Beispiel von 3D Objekten in das Dienstleistungsangebot von
Bibliotheken. ZfBB, Heft 2, 2009, Klostermann.
500
Wessel, R. Blümel, I., Klein, R. (2009). A 3D Shape Benchmark for Retrieval and
Automatic Classification of Architectural Data. Proceedings of Eurographics
2009 Workshop on 3D Object Retrieval.
Wessel, R., Blümel, I., Klein, R (2008). The room connectivity graph: Shape retrieval in the architectural domain. Proceedings of WSCG 2008.
501
Collaborative Information Management
Enhanced Through Language Technology
UKP Lab, Technische Universität Darmstadt
http://www.ukp.tu-darmstadt.de
Abstract
We present a system to prevent information chaos in wikis as one example of
an information management system. The system utilizes Natural Language
Processing techniques to support users with respect to the typical tasks of
adding, organizing, and finding content.
In recent years, the Web has turned into a ubiquitous information space and a
collaborative information management system. Wikis are one of the most
popular tools for managing unstructured textual information. While wikis
have become widely adopted in corporate and private settings (Buffa, 2006),
they suffer from a number of disadvantages resulting from their distributed
and collaborative way of construction. Over time, this leads to significant
usability limitations which make it more difficult to contribute (Désilets et
al., 2005).
In this poster, we show how these issues can be targeted utilizing Natural
Language Processing (NLP) techniques, such as keyphrase extraction, topic
segmentation, text summarization, or link discovery. Gurevych and Zesch
(2008) introduce the overall idea of supporting wiki users utilizing NLP
techniques, while Hoffart et al. (2009) describe the actual system architecture
of the enhanced wiki.
502
The poster presents the Wikulu system and highlights the major enhancements of collaborative information management in wikis. It describes
our approach to link discovery in more detail as one particular example of an
NLP technique utilized by the Wikulu system. Finally, selected results of the
user study as well as some future research directions are discussed.
While wikis represent an excellent and particularly interesting application
area of collaborative information management, the presented NLP techniques
could be applied to any means of unstructured information management, e.g.
in scientific information management for research papers.
Acknowledgements
The Wikulu project has been supported by the Klaus Tschira Foundation
under grant No. 00.133.2008. The utilized NLP techniques have been supported by the Volkswagen Foundation as part of the Lichtenberg-Professorship Program under grant No. I/82806.
Literature
Buffa, M. (2006). Intranet Wikis. In Proceedings of the IntraWebs Workshop 2006 at
the 15th International World Wide Web Conference, Edinburgh, Scotland.
Désilets, A., Paquet, S., and Vinson, N. G. (2005). Are wikis usable? WikiSym ’05:
In Proceedings of the 2005 international symposium on Wikis, pages 3–15, San
Diego, California, USA.
Gurevych, I. and Zesch, T. (2008). Selbstorganisierende Wikis. In Proceedings of
KnowTech, BITKOM, pages 317–324, Frankfurt, Germany.
Hoffart, J., Zesch, T., and Gurevych, I. (2009). An Architecture to Support Intelligent User Interfaces for Wikis by Means of Natural Language Processing. WikiSym ’09: In Proceedings of the 5th International Symposium on Wikis and Open
Collaboration, pages 1–10, Orlando, Florida, USA.
503
Berlin School of Library and Information Science – Humboldt-Universität
10117 Berlin
{maria.gaede, juliane.stiller}@ibi.hu-berlin.de
Zusammenfassung
Zu der elementaren Ebene des mehrsprachigen Zugangs zu Informationen im
Web gehört die Benutzeroberfläche. Das Poster beschreibt am Beispiel der
Europeana1 die tatsächliche Nutzung der mehrsprachigen Benutzeroberfläche
des Portals. Mittels einer Log-Dateien-Analyse werden Sessions in denen die
Sprache der Benutzeroberfläche gewechselt wurde bestimmt und die vorrangig genutzten Sprachen identifiziert.
Abstract
The most elementary level of multilingual information access is the user
interface. Using the example of Europeana1 this poster describes the usage of
the multilingual interface. Through a log file analysis we determined the
occurrence of sessions with an interface language change, including the most
frequently selected languages.
The change of the interface language of an information system is an active
intervention of the user, indicating preferences for favored languages. The
Europeana portal integrates digital objects from Europe’s cultural institutions
such as libraries, audio-visual archives, museums and archives and displays
all static interface pages in 27 European languages. In line with a user survey
1 http://www.europeana.eu/portal/
504
on multilingual information access, the majority of the participants expressed
their preference for manually switching the user interface to their native language [EuropeanaConnect 09].
Currently the Europeana portal provides two different options for language change: either the user selects the interface language by a drop-downmenu or the language is selected automatically based on the language a user
determined before (via cookie). Another option is that the user clicks on a
link requesting the local Europeana version from a referrer page such as
search engine results. The Europeana Clickstream Logger, which logs and
gathers extended information on user behavior, records the interface language and the change of the interface language for each session [Gäde 10].
The analysis of ca. 350.000 sessions from July to December 2010, excluding
bots, showed that roughly a third contained another interface language than
the default one in English.
For those sessions that included a different interface language than English
the appropriate languages were extracted. The results give indications about
the actual usage, preferred languages and options for language determination
of the multilingual interface within a digital library.
References
EuropeanaConnect (2009). D 2.1.1 Multilingual Information Access in Digital Libraries: Report on User Preferences and Information Retrieval Scenarios for Multilingual Access in Europeana.
http://www.europeanaconnect.eu/documents/D2.1.1_eConnect_Report_UserPreferen
ces_MLIA_v1.0_20091222.zip
Gäde, M., Petras, V., Stiller, J. (2010). Which Log for Which Information? Gathering Multilingual Data from Different Log File Types. In: Multilingual and Multimodal Information Access Evaluation, Vol. 6360 (2010), pp. 70–81.
Fassettierte Suche in Benutzeroberflächen von digitalen Bibliotheken
505
Fassettierte Suche in Benutzeroberflächen
von digitalen Bibliotheken
Haute Ecole de Gestion – Informationswissenschaft
7, route de Drize, CH-1227 Carouge, Genf
E-Mail: {jasmin.hugi | rahel.birri-blezon | rene.schneider}@hesge.ch
Zusammenfassung
Das Poster stellt die Ergebnisse zweier qualitativer, komparativer Benutzerakzeptanztests mit dem Schwerpunkt der Fassettierung vor. Dabei wurde das
System Swissbib (www.swissbib.ch) der fassettierten Suche von SIRIS
(http://collections.si.edu/search) gegenübergestellt, während das Projekt
e-codices.ch (www.e-codices.ch) mit der digitalen Handschriftensammlung
Penn in Hand (http://dla.library.upenn.edu/dla/medren/index.html) verglichen
wurde. Aus den jeweiligen Resultaten wurden allgemeine Empfehlungen abgeleitet, welche ebenfalls mit dem Poster präsentiert werden.
Abstract
The poster presents the results of two qualitative and comparative user acceptance tests with the focus on faceted search. For this test the system Swissbib
(www.swissbib.ch) has been confronted with the faceted search of SIRIS
(http://collections.si.edu/search), whereas the project e-codices.ch (www.ecodices.ch) was compared with the digital manuscript collection Penn in
Hand (http://dla.library.upenn.edu/dla/medren/index.html). General recommendations were derived from the respective results and are described on the
poster.
506
Thesen
Nachstehende Thesen sind das Resultat zweier komparativer Usability-Tests
zum fassettierten Suchen. Dafür wurde das System Swissbib (www.swissbib.ch) der fassettierten Suche von SIRIS (http://collections.si.edu/search)
gegenübergestellt, welches sich durch komplexere Funktionalitäten auszeichnet. Das Projekt e-codices.ch (www.e-codices.ch) wurde mit der digitalen
Handschriftensammlung Penn in Hand (http://dla.library.upenn.edu/dla/medren/index.html) verglichen.
Verallgemeinernd können aufgrund der Testergebnisse folgende Rückschlüsse gezogen werden, die nachstehend wiedergegeben werden.
• Fassetten sind zu Beginn jeder neuen Suche, die im Suchschlitz durchgeführt wird, auf Null zurückzusetzen und Bildschirmelemente zum Wegklicken von Fassetten sind prominent zu platzieren.
• Faceted Breadcrumbs sind zur Darstellung von benutzten Filtern zu vermeiden.
• Sowohl die Auswahl der Fassetten als auch die ausgewählten Fassetten
sind am linken Bildschirmrand zu platzieren.
• Fehler in der Sacherschließung müssen vermieden werden. Fassetten mit
inkonsistenter Sacherschließung sollen nicht angeboten werden.
• Eine äußerst differenzierte Fassettierung erscheint wenig angebracht. Der
Vorzug ist den eindeutig verständlichen Fassetten zu geben.
• Die Verknüpfungsmöglichkeiten einzelner Fassetten sind als möglichst
einfach und visuell nachvollziehbar zu gestalten. Die Benutzeroberfläche
soll Fehlschlüsse minimieren. Die Darstellung einer ODER-Verknüpfung
durch eine Checkbox und eine UND-Verknüpfung durch einen Link
reicht nicht aus.
Grundsätzlich gilt für die Realisierung von Interaktionswerkzeugen zum
fassettierten Suchen: „Keep it simple“. Jede komplexe Erweiterung, die über
die Grundfunktionalität einer Fassette als Filter hinausführt, sollte getestet
werden. Eine komplexe Ausgestaltung darf den kognitiven Ballast nicht vergrößern und soll von einem erwiesenen Nutzen für die Benutzer sein.
507
Hanna Knäusl
Institut für Information und Medien, Sprache und Kultur
Universität Regensburg
93040Regensburg
[email protected]
Zusammenfassung
Um die Verteilung der Inhalte auf die verschiedenen Sach- und Fachgebiete
einer Enzyklopädie zu untersuchen, wurde dafür ein Ordnungssystem entwickelt.
Abstract
To explore how the content of miscellaneous encyclopedic works is spread
over the different subject areas it was necessary to develop a classification
system.
1
Einleitung
Um die Verteilung der Artikel einer Enzyklopädie auf die verschiedenen
Fach- und Sachgebiete zu untersuchen und untereinander zu vergleichen,
benötigt man ein Ordnungssystem, um die Artikel zu kategorisieren. Die in
Enzyklopädien vorhandenen Ordnungssystematiken wie etwa die alphabetische Sortierung oder das Kategoriensystem der Wikipedia sind aus verschiedenen Gründen dazu nicht geeignet, da sie entweder keinen Aufschluss über
die Inhalte geben oder aber zu detailliert und damit zu groß sind [Ha08].
508
2
Hanna Knäusl
Forschungsziel
Besonders interessant ist die Verteilung der Inhalte in der deutschsprachigen
Wikipedia im Vergleich zu einer traditionellen Enzyklopädie wie zum Beispiel der Brockhaus Enzyklopädie in der 21. Auflage. Aufgrund von Stichproben (6 Stichproben à ca. 100 Lemmata wurden auf Vorhandensein in beiden Werken untersucht, Deckungsgleichheit zwischen 11% und 23%) wurde
die Annahme getroffen, dass die Verteilung der Inhalte unterschiedlich ausfällt. Um diese Vermutung empirisch zu überprüfen, wurde speziell dafür ein
Ordnungssystem entwickelt.
3
Anforderungen an das Ordnungssystem
Ähnlich einer Top-Level Ontologie soll das Ordnungssystem nur relativ allgemeine Merkmale erfassen, da es einerseits für alle Wissensdomänen anwendbar sein soll, aber andererseits überschaubar und fest begrenzt sein muss,
um eine sinnvolle Aussage über die Verteilungen machen zu können. Auch
Mehrfachzuordnungen und Überschneidungen dürfen nicht zulässig sein.
4
Das Ordnungssystem
Das entwickelte System erfasst fünf Aspekte eines Enzyklopädieartikels:
Typ, Sachbereich, Zeitraum, regionale Zugehörigkeit und Relevanz des Lemmas für eine Enzyklopädie. Für die Sortierung gibt es eindeutige Zuweisungsregeln. Damit soll trotz des Verzichts auf Details die Zuordnung bei den verschiedenen Enzyklopädien so konsistent wie möglich gehalten werden.
[Ha08]: Hammwöhner, Rainer; Kattenbeck, Markus; Köstlbacher, Anton (2008): Das
Kategoriensystem der Wikipedia. In Druck; Vortrag im Rahmen der ISKO 2008.
509
Die European Psychology
Publication Platform
Eine Publikationsinfrastruktur für die europäische
Psychologie und ihre Nachbardisziplinen
Leibniz-Zentrum für Psychologische Information und Dokumentation
Universitätsring 15, D-54286 Trier
Zusammenfassung
Um die europäische psychologische Forschung sichtbarer, leichter zugänglich und effektiver zu machen, entwickelt das Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) mit weiteren Kooperationspartnern die European Psychology Publication Platform. Diese OpenAccess-Publikationsinfrastruktur ist als Knotenpunkt für die wissenschaftliche Gemeinschaft gedacht und wird durch ihre Vielfalt an Sprachen, Publikationsvarianten und Mehrwertdiensten die Qualität der Informationsversorgung sowie die internationale Zusammenarbeit auf dem Feld der Psychologie und ihrer Nachbardisziplinen positiv befördern.
Abstract
In order to make European psychological research more visible, easier accessible and more effective the Leibniz-Institute for Psychology Information
(ZPID) and its cooperation partners are developing the European Psychology
Publication Platform. This open access publication infrastructure shall become a junction for the scientific community and will, based on its diversity
of languages, publication types and value-added services, foster the quality of
information supply as well as the international cooperation on the field of
Psychology and its related disciplines.
510
In 2008 hat das ZPID eine umfangreiche Analyse der europäischen Publikationssituation für die Psychologie vorgenommen [Uhl & Weichselgartner,
2009] und dabei den Bedarf für eine effektive Publikationsplattform erkannt.
Daher entwickelt das ZPID gemeinsam mit zahlreichen internationalen Kooperationspartnern die European Psychology Publication Platform, einen
multilingualen Knotenpunkt für Wissenschaftler und Praktiker, um Informationen aus der Psychologie und ihren Nachbardisziplinen sowohl zu veröffentlichen als auch zu beziehen. Dadurch wird die Vernetzung unter europäischen Wissenschaftlern vereinfacht und der effektive Austausch von Informationen auf internationaler Ebene gefördert. Gleichzeitig bleibt die Sprachenvielfalt Europas erhalten und die europäische psychologische Forschung
wird sichtbarer und leichter zugänglich.
Die Plattform wird verschiedensten Publikationsvarianten von Artikeln
und Monografien über Forschungsberichte und Konferenzbeiträge bis hin zu
Postern offenstehen. Des Weiteren sollen auch Primärdaten, Tests und multimediale Formate aufgenommen werden. Peer-Review gewährleistet die
Einhaltung höchster Qualitätsstandards. Zudem sollen Zusatzfunktionen wie
beispielsweise mehrsprachige Metadaten, Verlinkung von Zitaten, „lebende
Artikel“ und Kommentare möglich sein.
Die Konzeption der European Psychology Publication Platform ist ein
Gemeinschaftsprojekt unter der Beteiligung von Einrichtungen aus zwölf
europäischen Ländern. Aufbauend auf diesen vorbereitenden Arbeiten wird
in 2011 am ZPID mit der Realisierung der Plattform begonnen.
Uhl, M. & Weichselgartner, E. (2009). Aufbau einer innovativen Publikations-Infrastruktur für die europäische Psychologie. Information: Droge, Ware oder Commons? Wertschöpfungs- und Transformationsprozesse auf den Informationsmärkten. Proceedings des 11. Internationalen Symposiums für Informationswissenschaft (ISI 2009), 105–114.
IUWIS (Infrastruktur Urheberrecht in Wissenschaft und Bildung)
511
IUWIS (Infrastruktur Urheberrecht in Wissenschaft und Bildung): Urheberrecht zwischen
Fakten und Diskursen
Projektteam IUWIS
Institut für Bibliotheks- und Informationswissenschaft
Humboldt-Universität zu Berlin
Unter den Linden 6, D-10099 Berlin
[email protected]
Zusammenfassung
Die Web-Plattform IUWIS bietet WissenschaftlerInnen und RechtsexpertInnen die Möglichkeit zum Austausch über das Thema Urheberrecht in Wissenschaft und Bildung. Diese sind eingeladen, sich aktiv mit Fragen oder
Diskursbeiträgen einzubringen. Derzeit entsteht auf IUWIS eine semantisch
erschlossene Sammlung von Dokumenten zum Thema, die die im Internet
verstreuten Veröffentlichungen an einem Ort versammelt und nutzbar macht.
Abstract
The web platform IUWIS offers information on copyright in research and
education setting up an infrastructure where researchers, scientists and legal
professionals can discuss their problems. Additionally IUWIS assembles a
database of available publications on the topic of German copyright. The
texts are indexed based on a comprehensive semantic system in order to
make the publication activity more accessible for the scientific communities.
Stimmen zum Urheberrecht aus der Wissenschaft
Mit IUWIS entsteht eine webbasierte Infrastruktur zum Thema Urheberrecht
für Wissenschaft und Bildung, die die Orientierung in dem komplexen Feld
Urheberrecht erleichtern soll. In Wissenschaft und Bildung beeinflussen ur-
512
Projektteam IUWIS
heberrechtliche Fragen grundsätzlich die Arbeitsbedingungen für Lehrende,
Forschende und Studierende. Jedoch sind viele Regelungen des Urheberrechts für juristische Laien unverständlich, wodurch Unsicherheiten bei der
Anwendung entstehen.
IUWIS folgt dem Web 2.0-Paradigma und nutzt dort entwickelte Methoden der Interaktion durch Foren, nutzergenerierte Inhalte und Verschlagwortung (Tags), um seinen NutzerInnen niedrigschwellige Interaktionsformen zu
bieten. IUWIS versteht sich also als sozialer Dienst, in dem die NutzerInnen
ihr Wissen mit anderen teilen und gemeinsam Lösungsvorschläge für Probleme erarbeiten. Die Redaktion fungiert dabei in erster Linie als Informationbroker, der Antworten und Kontakte vermittelt, und bietet nur in eingeschränktem Maß eigene Inhalte an. Durch eine Art „Wiki-Prinzip“ werden
perspektivisch die von den Nutzern erstellten Inhalte von anderen Nutzern
überprüft und korrigiert.
Ein Mehrwert von IUWIS ist die Erfassung und Zugänglichmachung der
im Netz existierenden Inhalte im Infopool. In den Dossiers können dann die
Diskussionsstränge, die im Internet derzeit häufig ins Leere laufen, gebündelt
abgerufen werden. IUWIS ist über diverse persönliche und institutionelle
Verbindungen in der Szene aktiv (Aktionsbündnis für Urheberrecht und Bildung, iRights.info, verschiedene rechtswissenschaftliche Institute) und bindet
dadurch Experten ein.
IUWIS bündelt die Informations- und Diskursangebote mit dem Ziel, den
Bedürfnissen heterogener Zielgruppen gerecht zu werden und auch gegensätzlichen Meinungen – zum Beispiel in Hinblick auf die Reform des Urheberrechtsgesetzes – Raum zu geben. Ausgehend von der Diversität der NutzerInnen entsteht mit IUWIS ein virtueller Diskursraum, der je nach Bedarf
und Intention von allen AkteurInnen genutzt werden kann. Dabei konzentriert sich IUWIS auf die Entwicklungen in Deutschland. Durch den nutzerzentrierten Ansatz ist es jedoch jederzeit möglich, dass etwa Nutzer aus Österreich und der Schweiz vermehrt Dokumente und Diskurse aus den
dortigen Rechtsräumen auf die Webplattform bringen. Auch gibt es enge
Verbindungen mit verschiedenen europäischen Initiativen, die eine Erweiterung des Angebots in Zukunft möglich machen.
Mehr Info auf der IUWIS-Website: www.iuwis.de
513
Ein multimedialer und mobiler Onlineführer
Helge Klaus Rieder
FH Trier, FB Wirtschaft
Schneidershof, D-54208 Trier
Zusammenfassung
Die Kulturgüterdatenbank mit Einträgen von Kulturdenkmälern, Naturdenkmälern und historischen Plätzen in der Region Trier hat das Ziel, Interessenten – Touristen wie Einheimischen – das kulturelle Erbe der Region von über
17.000 Denkmälern auf dem derzeitigen Stand der Internettechnologie nahe
zu bringen.
Abstract
The Cultural Heritage Database covers the territory of the City of Trier and
the surrounding municipalities. It contains information on 17,000 buildings,
monuments and places of cultural and historical interest as well as on interesting elements of the countryside such as natural and wildlife preserves.
1
Ziel des Projekts
Die Datenbank der Kulturgüter in der Region Trier ist ein gemeinsames Projekt der Planungsgemeinschaft Region Trier, der FH Trier, des Freilichtmuseums Roscheider Hof und der NETGis, Trier. Viele Einträge und Bilder
wurden von Benutzern der Kulturgüterdatenbank erstellt. Aufgrund der vielen sensiblen Kulturdenkmäler (jüdische Friedhöfe, Nazi-Bauten etc.) werden
sie vor der Veröffentlichung redaktionell geprüft. Die komplette Neuimplementierung des Projekts mit PHP und PostgreSQL hatte das Ziel, die kom-
514
Helge Klaus Rieder
plett georeferenzierte Datenbank in Kartenserver einbinden zu können, und
die Bedienung für stationäre und verschiedene mobile Anwendungen zu optimieren. Siehe http://www.RoscheiderHof.de/kulturdb.
2
Kulturgüter für zu Hause und für unterwegs
Vorrangiges Ziel des Projekts ist es, Kultur- und Naturgüter bekannt und
auffindbar zu machen und sie durch das dadurch entstehende öffentliche
Interesse zu schützen. Ziel ist es, durch eine XML-Schicht die Kulturgüterdatenbank in verschiedenste Anwendungen einbinden zu können. Zu jeder Seite
– auch zu den Navigationsseiten – ist eine XML-Seite hinterlegt. Dadurch ist
es möglich, verschiedene Layouts für verschiedene Endgeräte zu produzieren. Die XML-Schicht ist auch öffentlich zugänglich und in der Dokumentation beschrieben. Damit ist es Dritten möglich, diese Informationen in ihr
eigenes Angebot zu integrieren. Für die Planung von Ausflügen und Exkursionen können Benutzer Listen von Kulturdenkmälern erstellen und diese
dann mit mobilen Endgeräten und Routenplanern unterwegs aufrufen.
Bei mobilen Anwendungen ist die Darstellung auf kleinen Bildschirmen
von Smartphones von der Einbindung der Daten in Routenplaner zu unterscheiden. Bei ersterem geht es um die Anpassung der Darstellung und der
Navigation an kleinere Bildschirme. Die Informationen wurden dabei auf die
im mobilen Einsatz sinnvollen Inhalte beschränkt und die Navigation etwas
vereinfacht. Die Daten der Kulturdenkmäler können in Navigationsgeräte
(PKW), GPS-Geräte (handhelds wie Garmin etc.) wie auch für Routenplaner
auf Smartphones und PCs durch den Download entsprechender Konfigurationsdateien (derzeit im Wesentlichen gpx-Dateien) integriert und dort weiterverarbeitet werden.
3
Navigation und Geo-Anwendungen
Bei der Suche nach Sehenswürdigkeiten kann über eine Menüstruktur nach
verschiedensten Kriterien (Kategorien, Ortsteile, etc.) und über eine Stringsuche gesucht werden. Vom aktuellen eigenen Standort oder von einem gefundenen Objekt aus kann und in einer selbst gewählten Entfernung um das
515
Objekt nach der gleichen Kategorie, dem gleichen Ortsteil etc. gesucht werden. Alle Objekte und alle Suchergebnisse (mit mehreren bzw. vielen Sehenswürdigkeiten) können auf einer Karte dargestellt und weiterverarbeitet
werden. Derzeit werden Umgebungskarten um den Standort des Benutzers
mit relevanten Kulturgütern entwickelt.
516
TagTree:
Exploring Tag-Based Navigational Structures
Karl Voit1, Keith Andrews2,
Wolfgang Wintersteller3, Wolfgang Slany4
1
Institute for Software Technology (IST) – Graz University of Technology
[email protected]
2
Institute for Information Systems and Computer Media (IICM)
Graz University of Technology
[email protected]
3
4
Graz University of Technology
[email protected]
Institute for Software Technology (IST) – Graz University of Technology
[email protected]
Abstract
This poster describes a new concept of storing files and folders in and retrieving from TagTrees using tagging and automatically maintained navigational hierarchies.
Although desktop search engines are now widely available on the computers
of typical users, navigation through folder hierarchies is still the dominant
mode of information access. Most users still prefer to store and search for
their information within a strict hierarchy of folders.
TagTrees are compatible with all currently prevalent software environments. A prototype implementation called tagstore provides a flexible
framework for experimentation and a testbed for both usability studies and
longer term field tests. (Voit 2011)
From the early file storage systems of the last century until modern desktop computer systems, the method of storing files into a hierarchy of folders
has not changed. The amount of information has increased dramatically
TagTree: Exploring Tag-Based Navigational Structures
517
within the last fifty years. Therefore advanced methods of accessing information in local files are an important issue.
Tagging seems to be a promising approach for handling a large number of
items. Within the last thirty years a variety of personal information management tools were developed with little or no influence on the average computer desktop as Voit et al. (2009) summarizes.
518
Storing files in TagTrees provides multi-path navigation to the same information. Users are able to browse to files using associative tags. This kind
of navigation does not rely on a mental model of the folder hierarchy system.
Therefore, within a large set of files, navigation performance in TagTrees is
able to provide better performance than browsing in strict folder hierarchies.
Ongoing user studies show that users are able to adopt this new way of
browsing their file system very fast. Subjective impression of test users is
very positive.
References
Voit, Karl (2011). tagstore. http://www.tagstore.org/ (Accessed 2011-01-17)
Voit, Karl, Keith Andrews, and Wolfgang Slany (2009). Why Personal Information
Management (PIM) Technologies Are Not Widespread.
519
Jakob Voß1, Mathias Schindler2, Christian Thiele
1
Verbundzentrale des GBV (VZG)
Platz der Göttinger Sieben 1, 37073 Göttingen
2
Wikimedia Germany
Eisenacher Strasse 2, 10777 Berlin
Abstract
We demonstrate BEACON, the simplest possible file format to exchange
links. It is successfully used by more than 50 institutions to provide links to
be aggregated by Wikipedia and other projects.
Link servers and aggregation
Although links are its most powerful feature, the WWW is primarily build of
documents. The limitation to embedded, outgoing hyperlinks, instead of links
as first class objects, has been criticized regularly. Dedicated link servers
allow links to be created, managed, and reused in context (Signer et al. 2009;
Michaelides 2001). But link server standards such as the Fundamental Open
Hypermedia Model have not been widely adopted, and link servers such as
SFX (Robertson et al 2009) remain closed data silos. With SeeAlso we have
developed a simple link server protocol based on OpenSearch Suggestions
and unAPI (Voß 2008). SeeAlso is used for catalog enrichment in German
libraries, and implemented as open source. However, the protocol is not designed for aggregating large amounts of links from many different data providers. Neither the OAI harvesting protocol seems to provide an adequate
way to exchange simple sets of links, especially for small data providers with
limited technical skills. A possible solution for aggregating links is providing
them as Linked Open Data in RDF. However, with multiple serialization
520
formats and ontologies, RDF adds more complexity than needed. For this
reason we created the BEACON file format as the simplest thing that could
possibly work. The main design goal was ease of creation: files can be generated manually or with simple tools, such as spreadsheets, provided by any
transport mechanism (HTTP, OA, …). Later they can be converted to RDF.1
BEACON format and its usage
The UTF-8 encoded format starts with a set of meta fields, followed by an
unordered list of links, one per line. Each link is build of an identifier as
source, a target URI, and an optional label and/or description. The following
excerpt contains links from German name authority records (PND) to lists of
appropriate holdings of the Bavarian State library, with the number of hits:
#FORMAT: PND-BEACON
#PREFIX: http://d-nb.info/gnd/
#TARGET: http://opacplus.bsb-muenchen.de/search?pnd={ID}
118584596|5819
11850553X|4151
Its condensed form (the first link is from http://d-nb.info/gnd/118584596 to
http://opacplus.bsb-muenchen.de/search?pnd=118584596, annotated with
‘5819’ hits) allows storing one million such links uncompressed with a size
of 12.5 MB (3.35 MB compressed). Links in BEACON format are already
provided by more than 50 institutions and harvested BEACON files are used
in projects such as Wikipedia-Personensuche,2 Bayerisches Musiker-Lexikon
Online,3 and ‘Linked History’ at University of Leipzig.4
1 See detailed description of BEACON at http://meta.wikimedia.org/wiki/BEACON and
its applications at http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON (German).
2 See Wikipedia People Search at http://toolserver.org/~apper/pd/ (German).
3 See http://www.bmlo.lmu.de/ (German).
4 See http://aksw.org/Projects/LinkedHistory/pnd/ (not limited to BEACON format).
521
References
Michaelides, D., Millard, D., Weal, M., Roure, D. (2001). Auld Leaky: A Contextual
Open Hypermedia Link Server. Proc. of the ACM Conference on Hypertext and
Hypermedia, Springer, LNCS 2266, p. 59–70.
Robertson, W., Soderdahl, P. (2004). Everything you always wanted to know about
SFX but were afraid to ask. The Serials Librarian 47:1/2, p. 129–138.
Signer, B., de Spindler, A., Norrie, M. (2009). A Framework for Link Sharing in
Cooperative Cross-Media Information Spaces. Proc. of CDVE ’09, Springer,
LNCS 5738, p. 185–192.
Voß, J. (2008). SeeAlso: A Simple Linkserver Protocol. Ariadne Issue 57, October
30th. http://www.ariadne.ac.uk/issue57/voss/.
522
523
Praxis-Tracks
524
Matthias Görtz
Der 1. ISI-Praxis-Track als Plattform für den Austausch
zwischen informationswissenschaftlicher Forschung und
Erfahrungen der Informationsarbeit in der Praxis
Matthias Görtz
Zusammenfassung
Neben den wissenschaftlichen Beiträgen werden auf dem 12. Internationalen
Symposium der Informationswissenschaft (ISI) des Hochschulverbands Informationswissenschaft (HI) auch Erfahrungsberichte aus der Praxis in das
Vortragsprogramm integriert. Der 1. ISI-Praxis-Track bietet so die Gelegenheit, Erfahrungen aus der Anwendung, Evaluation und Weiterentwicklung
informationswissenschaftlicher Konzepte in öffentlichen und privatwirtschaftlichen Institutionen in den Wissenschaftsbetrieb zurückzuspielen. Ein
derartiger Austausch zwischen Theorie und Praxis könnte zu einer festen
Institution der ISI-Tagungsreihe werden.
Abstract
In addition to scientific contributions to the 12th International Symposium of
Information Science (ISI) of the German Higher Education Association for
Information Science (HI) practical experience is included in the conference
program in the form of field reports and case studies from information professionals. The 1st ISI Corporate Track thus offers a platform for the reflection of concepts of Information Science in the application, evaluation and
advancement in public and commercial institutions. Such an exchange between theory and practice may be established as valuable addition to the
regular ISI conference series.
525
Praxis Track 1 — Information in der Praxis
Peter Schäuble (Eurospider Information Technology AG) berichtet vom
Transfer des Name Matching aus der Theorie in die Praxis der Bankenbranche. Nationale und internationale Vorschriften weisen Banken und andere
Finanzintermediäre an, riskante und verbotene Kundenbeziehungen zu erkennen. Die hierfür eingesetzte Name Matching Software muss unter anderem ein spezifisches Information Retrieval Problem lösen: Es müssen zum
Kunden Informationen gesucht werden, um diesen zu identifizieren und
schließlich das Risiko einzuschätzen. Spezielle Kategorisierungsmethoden
und Entitäten-Erkennungen unterstützen diese Aufgabe. Im Rahmen des Beitrags wird auch gezeigt, dass aus einer Verbesserung der Qualität der Treffer
direkt eine Aufwandsreduktion resultiert.
Christian Dirschl (Wolters Kluwer) argumentiert, dass das Semantic Web
sehr viele Probleme zu adressieren vermag, mit denen sich aktuell Informationsdienstleister wie Wolters Kluwer in der Informationsakquisition, -anreicherung und -nutzung beschäftigen. Um Herausforderungen wie u.a. Information Overload, fehlenden Möglichkeiten zur inhaltlichen Annotierung und
mangelnder Informationsqualität zu begegnen, hat Wolters Kluwer beschlossen, als Industriepartner in einem von der EU geförderten Projekt
http://lod2.eu teilzunehmen, damit das Semantic Web sich in eine Richtung
weiterentwickelt, die Informationsdienstleistern wie Wolters Kluwer und
seinen Kunden hilft.
Yasan Budak (VICO Research & Consulting GmbH) erörtert, ob Social
Media mehr als nur ein Kommunikationskanal ist. Anhand von Praxisbeispielen und Studienergebnissen wird unter Einsatz informationswissenschaftlicher bzw. computerlinguistischer Methoden aufgezeigt, welchen Einfluss
das Social Web auf das Verhalten der Konsumenten hat bzw. wie man mittels Einsatz von eigenen Aktionen im Social Web das Verhalten der Konsumenten beeinflussen kann. Zum Abschluss des Vortrags wird anhand von
Praxisbeispielen aufgezeigt, welche Vorzüge sich aus einem Social Media
Monitoring ergeben und welche Möglichkeiten sich für Unternehmen dadurch eröffnen.
526
Matthias Görtz
Robert Strötgen (Georg-Eckert-Institut für internationale Schulbuchforschung) präsentiert Erfahrungen aus der Implementierung einer community-basierten virtuellen Forschungsumgebung für die internationale Bildungsmedienforschung. Diese stellen Informationsanbieter vor die Herausforderung, über die bisherigen Funktionen (vor allem bei der Informationsbeschaffung) hinaus im Forschungsprozess Unterstützung zu leisten. Das
Georg-Eckert-Institut entwickelt und erprobt derzeit im Rahmen einer DFGProjektförderung innerhalb seines Informations- und Kommunikationsportals
Edumeres.net eine virtuelle Arbeits- und Forschungsumgebung (VRE). Dabei wird sowohl auf heuristische und benutzerzentrierte Usability-Studien als
auch auf die praktischen Erfahrungen mit den Demonstrationsprojekten eingegangen. Insbesondere wird die Notwendigkeit der Unterstützung von Forschern und damit die Veränderung von Rollen in der Digitalen Bibliothek
diskutiert.
Praxis Track 2 — Usability in der Praxis
Martin Beschnitt und Andrea Struckmeier (eResult Gmbh) erläutern,
warum „gutes Aussehen“ nicht immer von Vorteil ist. Diese Erkenntnis bezieht sich auf Überlegungen zum Einfluss der optischen Gestaltung von Prototypen auf das Nutzerverhalten im Usability-Test. Die Ergebnisse einer Studie der eResult GmbH implizieren, dass Prototypen geringer visueller Verfeinerung mindestens ebenso für die Systemevaluation geeignet sind wie Prototypen von hoher visueller Verfeinerung. Sofern nicht explizit das Design
eines Systems getestet werden soll, empfiehlt es sich sogar, auch in späteren
Designphasen noch mit Prototypen von geringer visueller Verfeinerung zu
arbeiten, da diese häufig mehr funktionale Probleme zu Tage fördern als
visuell stark ausgereifte Prototypen und im Hinblick auf die Usability-Bewertung weniger anfällig sind für den Einfluss der optischen Erscheinung des
Prototyps.
Nadine Wacker und Steffen Weichert (usability.de / qualitylabs) präsentieren die benutzerzentrierte Neuentwicklung einer Industrieverband-Website
und was passiert, wenn User-Centered-Design auf Unternehmenskultur trifft.
Dabei gehen sie insbesondere darauf ein, wie typische Usability-Methoden in
527
der Praxis eingesetzt werden und welche Herausforderungen und Lösungsansätze bestehen. Im Kontext eines abgeschlossenen Projekts wurde der Einfluss der Unternehmens- bzw. Verbandskultur auf den Projektverlauf und den
Einsatz von User-Research-Methoden deutlich. Auf Basis dieser Erfahrungen
zeigen die Autoren auf, wie agile Vorgehensmodelle (Scrum, Agile User Experience Design etc.) an die Unternehmenskultur angepasst werden müssen,
um zielführend zu bleiben.
Alexander Friedel (macio GmbH) und Stefanie Zürn (s.c.z. kommunikationsdesign) berichten von den Herausforderungen des User Interface Designs für Hersteller von Geräten und Maschinen bei der Internationalisierung
von Software. Zum einen sollten dabei – in der geringsten Anforderung –
Textelemente lesbar und in das User Interface passend in die relevante Landessprache überführt werden können. Zum anderen erfolgt die visuelle und
inhaltliche Anpassung der Bedienanwendung an die kulturellen Eigenheiten
und Gepflogenheiten des jeweiligen Zielmarktes. Diese Internationalisierung
bedeutet neben der Berücksichtigung im Design immer auch einen Eingriff in
das Software Engineering. Anhand eines realen Projektes stellen die Autoren
ein für den weltweiten Markt entwickeltes User Interface vor.
Klaus Tochtermann und Tamara Pianos (ZBW Leibniz-Informationszentrum Wirtschaft) stellen ihre Arbeit zur Ermöglichung wirtschaftswissenschaftlicher Recherche unter Berücksichtigung von Kundenwünschen vor.
Dabei bewegen sie sich laut eigenen Aussagen zwischen der Forderung
„Don’t make me think“ und dem Bedürfnis nach komplexen Suchoptionen.
Ihr Fachportal für die Wirtschaftswissenschaften, EconBiz, will die Komplexität im Hintergrund verarbeiten, um die Suche bequem zu gestalten. Dabei
wird versucht, möglichst viele (u.a. auch ortsbasierte) Services und Optionen
anzubieten, ohne das Portal zu komplex zu gestalten. Um dies bestmöglich
zu erreichen, wird die Community über Web 2.0-Funktionen (z.B. Open Innovation Ideenwettbewerbe) sowie einen gezielt von der ZBW eingestellten
Community Manager immer mehr in die Weiterentwicklung und Anpassungen einbezogen.
528
Matthias Görtz
Studierendenprogramm
529
530
Katrin Geist
Informationswissenschaftliche Forschungsarbeiten
und -projekte von Studierenden
Katrin Geist
Zusammenfassung
Das studentische Programm bietet Studierenden der Informationswissenschaft Gelegenheit, ihre Projekte und Arbeiten vorzustellen und so ein größeres wissenschaftliches Publikum zu erreichen. Es hat sich als fester Bestandteil des Internationalen Symposiums der Informationswissenschaft (ISI)
etabliert. Als Plattform für den Austausch zwischen den Studierenden verschiedener Standorte und als Brücke zur informationswissenschaftlichen
Forschung, versammelt das diesjährige Programm Beiträge von Studierenden
aus Abo (Finnland), Berlin, Chur (Schweiz), Hildesheim, Potsdam und Regensburg.
Abstract
The student program offers a unique opportunity for students of Information
Science to present their work at the 12th International Symposium of Information Science (ISI). It has become a valued regular event at the ISI conference series and is a platform for exchange between students and scholars
from different universities, which also connects their work with the scientific
community. This year it brings together presentations of students from Abo
(Finland), Berlin, Chur (Switzerland), Hildesheim, Potsdam and Regensburg.
531
Nadja Böller (HTW Chur) beschreibt ihre Annäherung an die Frage, inwiefern Informationskompetenz im Weiterbildungsangebot der Hochschuldidaktik berücksichtigt wird. Ausgehend von den heutigen Anforderungen an eine
arbeitsmarktorientierte Hochschulausbildung und der damit verbundenen
optimalen Kompetenzförderung durch die Hochschulen wird angenommen,
dass Hochschullehrende selbst über Informationskompetenz verfügen müssen, um diese auch bei ihren Studierenden fördern zu können. Das methodische Vorgehen und die Ergebnisse ihrer Experteninterviews werden diskutiert.
Elena di Rosa (Humboldt-Universität Berlin) beschäftigt sich in ihrer
Masterarbeit mit den Auswirkungen von Creative-Commons-Lizenzen auf
den wissenschaftlichen Publikationsprozess. Anhand von Interviews mit
WissenschaftlerInnen, ExpertInnen und Tätigen aus dem Verlagswesen werden Antworten gesucht, wie sich die Zusammenhänge von Creative-Commons-Lizenzen und der Wissenschaft derzeit gestalten und sich in Zukunft
entwickeln könnten.
Feng Gu (Department of Information Studies, Åbo Akademi, Finland)
thematisiert wissenschaftliches Informationsverhalten im Internet. Anhand
einer Online-Befragung und Interviews an chinesischen und finnischen Universitäten und Forschungsinstitutionen findet eine Annäherung an Informationsverhalten von Wissenschaftlern in Social Media statt. Es wird versucht
wissenschaftliche Kommunikation in Social Media in einem Modell abzubilden und Informationskompetenz zu evaluieren.
Dirk Eichel (FH-Potsdam) präsentiert die Ergebnisse eines Projekts zur
ökologischen Nachhaltigkeit von Bibliotheken. Das Projekt wurde gemeinsam mit Anastasia Schadt, Anja Skudlarek und Anja Wagner durchgeführt.
Die Bibliothek ist ein Ort, an dem Menschen kollaborativ und transdisziplinär mit Unterstützung modernster Informationssysteme an innovativen Problemlösungen arbeiten können. Die Beachtung von ökologischen Kriterien
sollte ein selbstverständlicher und integraler Bestandteil der Nachhaltigkeitsstrategie einer jeden Bibliothek sein.
Konstantin Baierer (Humboldt-Universität Berlin) stellt ein System vor,
mit dem sich halbstrukturierte bibliographische Referenzen parsen lassen.
Das Parsing von bibliographischen Referenzen, wie sie in Fußnoten und Lite-
532
Katrin Geist
raturverzeichnissen wissenschaftlicher Arbeiten verwendet werden, ist ein
höchst komplexes Problem, für das verschiedene Softwarelösungen existieren. Ein neu entwickeltes System (Citation::Multi::Parser) wird vorgestellt,
das verschiedene etablierte Verfahren kombiniert und die Ergebnisse durch
heuristische Verfahren und Datenbankabfragen verschmilzt, korrigiert und
anreichert. Die Software ist noch ein Prototyp, kann aber schon genutzt werden.
Gabriele Pätsch (Universität Hildesheim) stellt Ansätze für den Einsatz
von Mobile Learning in Entwicklungsländern vor und regt zur Auseinandersetzung mit der Frage an, welche Potentiale Mobile Learning in diesem Kontext birgt. Sie verdeutlicht dies am Beispiel des Projekts I-Call der österreichischen Firma common sense – eLearning & training consultants GmbH,
welches interaktive Audio-Geschichten in Subsahara-Afrika einsetzen wird.
Isabella Hastreiter (Uni Regensburg) präsentiert die Entwicklung einer
mobilen Anwendung für die Elektronische Zeitschriften Bibliothek im Rahmen eines Seminars zu Softwareergonomie und User Experience. Die einzelnen Etappen vom Problemszenario über die Anforderungsanalyse bis zum
fertigen Papier-Prototypen werden ebenso thematisiert, wie die spezielle
Umsetzung theoretischer Usability Konzepte in der Praxis.
Oliver Schönbett (Universität Hildesheim) berichtet von den Ergebnissen
seiner Magisterarbeit zur Verwendung von standortbezogenen Informationen
für die Spracherkennung. Er erläutert inwiefern Kontextinformationen zugänglich sind und wie sie in einem Dialogsystem eingesetzt werden können.
Nach einer Diskussion der Bedeutung von Kontext für Dialogsysteme wird
abschließend ein Demonstrationsprogramm vorgestellt, das einen solchen
Ansatz implementiert.
Wissam Tawileh (Universität Hildesheim) berichtet von den Ergebnissen
der Auseinandersetzung mit der vergleichenden Evaluierung von Websuchmaschinen in arabischer Sprache im Rahmen seiner Masterarbeit. Das Design
von Retrievaltests muss in diesem Kontext nicht nur den besonderen Anforderungen des Internets genügen, sondern auch interkulturelle Besonderheiten
arabischer Nutzer berücksichtigen.
533
534
Sachregister
Weitere Titel aus dem vwh-Verlagsprogramm
Reihe „E-Learning“
E. Abfalterer: Foren, Wikis, Weblogs
und Chats im Unterricht
2007, 24,90 €, ISBN 978-3-9802643-3-4
K. Himpsl: Wikis im Blended Learning 2007, 26,90 €, ISBN 978-3-9802643-5-8
M. Hornbostel: E-Learning und Didaktik 2007, 24,90 €, ISBN 978-3-940317-00-1
T. Bernhardt/M. Kirchner:
E-Learning 2.0 im Einsatz
2007, 31,90 €, ISBN 978-3-940317-16-2
A. Schett: Selbstgesteuertes Lernen
(Auszug)
Reihe „Typo | Druck“
C. Bouchon: Infografiken
2007, 27,90 €, ISBN 978-3-940317-07-0
M. Liebig: Browser-Typografie
2008, 35,90 €, ISBN 978-3-940317-09-4
U. Franzki: Identität durch Schrift –
Schrift durch Identität Studien zum
Kommunikationspotenzial von Schrift
Erscheint 3/2011, ISBN 978-3-940317-87-2
Reihe „Game Studies“
S. Schwingeler: Die Raummaschine
2008, 28,90 €, ISBN 978-3-940317-24-7
T. Rittmann: MMORPGs als virtuelle
Welten 2008, 26,50 €, 978-3-940317-20-9
S. Dreer: E-Learning an berufsbildenden
Schulen 2008, 32,90 €, 978-3-940317-28-5 B. Rapp:
Selbstreflexivität im Computerspiel
H. Ernst: Mobiles Lernen in der Praxis 2008, 32,90 €, ISBN 978-3-940317-35-3
2008, 27,50 €, ISBN 978-3-940317-25-4
2008, 27,50 €, ISBN 978-3-940317-30-8
E. Kaliva: Personal Learning
Environments in der Hochschullehre
2009, 25,90 €, ISBN 978-3-940317-40-7
S. Graf: Identity Management und EPortfolios 2009, 33,50 €, 978-3-940317-55-1
S. Panke: Informationsdesign von
Bildungsportalen
2009, 32,90 €, ISBN 978-3-940317-59-9
A. S. Nikolopoulos: Sicherung der
Nachhaltigkeit von E-LearningAngeboten an Hochschulen
2010, 32,50 €, ISBN 978-3-940317-60-5
U. Höbarth: Konstruktivistisches
Lernen mit Moodle - 2. Aufl. -
R. Seda: Interactive Storytelling im
Computerspiel
2008, 35,90 €, ISBN 978-3-940317-33-9
M. Mosel (Hg.): Gefangen im Flow?
2009, 29,90 €, ISBN 978-3-940317-37-7
A. Stoll: „Killerspiele“ oder E-Sport?
2009, 28,90 €, ISBN 978-3-940317-42-1
J. Sieck/M. A. Herzog (Hg.): Kultur
und Informatik: Serious Games
(14./15. Mai 2009, Berlin, Tagungsband)
2009, 30,90 €, ISBN 978-3-940317-47-6
R. T. Inderst:
Vergemeinschaftung in MMORPGs
2009, 34,90 €, ISBN: 978-3-940317-50-6
A. Beyer/G. Kreuzberger (Hg.): Digitale Spiele – Herausforderung und
J. Drummer: E-Learning im Unterricht Chance 2009, 32,50 €, 978-3-940317-04-9
Ein Leitfaden zum Einsatz von LernplattforM. Mayer: Warum leben, wenn man
men in der Schule
stattdessen spielen kann?
2011, 22,90 €, ISBN 978-3-940317-84-1
2010, 31,50 €, ISBN 978-3-940317-77-3
M. Krüger: Selbstgesteuertes und
kooperatives Lernen mit Vorlesungsaufzeichnungen
2011, 31,90 €, ISBN 978-3-940317-88-9
D. Ammer:
Die Umwelt des World Wide Web
Bildung für nachhaltige Entwicklung im
Medium World Wide Web aus pädagogischer
und systemtheoretischer Perspektive
2011, 31,90 €, ISBN 978-3-940317-86-5
2009, 36,90 €, ISBN 978-3-940317-54-4
D. Pietschmann:
Das Erleben virtueller Welten
2009, 28,90 €, ISBN 978-3-940317-44-5
R. T. Inderst/D. Wüllner:
10 Fragen zu Videospielen
2009, 22,90 €, ISBN 978-3-940317-56-8
A. Tolino: Gaming 2.0 – Computerspiele und Kulturproduktion
2010, 44,90 €, ISBN 978-3-940317-66-7
Sachregister
535
K.-M. Behr: Kreativer Umgang mit
Computerspielen
2010, 31,50 €, ISBN 978-3-940317-75-9
G. Werdenich: PC bang, E-Sport und
der Zauber von StarCraft
2010, 25,90 €, ISBN 978-3-940317-74-2
R. T. Inderst/P. Just (Hg.): Contact ·
Conflict · Combat Zur Tradition des
Konfliktes in digitalen Spielen
2011, 29,90 €, ISBN 978-3-940317-89-6
Reihe „Web 2.0“
C. Mörl/M. Groß: Soziale Netzwerke
im Internet Analyse der Monetarisierungsmöglichkeiten und Entwicklung
eines integrierten Geschäftsmodells
2008, 28,90 €, ISBN 978-3-940317-22-3
T. Seeber: Weblogs – die 5. Gewalt?
2008, 25,50 €, ISBN 978-3-940317-23-0
R. Bauer: Die digitale Bibliothek von
Babel Über den Umgang mit Wissensressourcen im Web 2.0
2010, 26,90 €, ISBN 978-3-940317-71-1
Reihe „Medienwirtschaft“
K. Huemer: Die Zukunft des Buchmarktes Verlage und Buchhandlungen
im digitalen Zeitalter
2010, 24,90 €, ISBN 978-3-940317-73-5
J.-F. Schrape: Gutenberg-Galaxis Reloaded? Der Wandel des deutschen Buchhandels durch Internet, E-Books und Mobile
Devices 2011, 17,90 €, 978-3-940317-85-8
Reihe „E-Business“
J. S. Günther: Erfolgreiches Onlinemarketing mit Google
2008, 43,90 €, ISBN 978-3-940317-26-1
S. Sobczak/M. Groß: Crowdsourcing
2010, 24,90 €, ISBN 978-3-940317-61-2
Reihe „E-Humanities“
J. Moskaliuk (Hg.): Konstruktion und
Russ: Online Crowds MassenphänoKommunikation von Wissen mit Wikis C.
mene und kollektives Verhalten im Internet
2008, 27,50 €, ISBN 978-3-940317-29-2
J. L. Brinning:
Persönliches Publizieren im Web 2.0
2008, 27,50 €, ISBN 978-3-940317-32-2
F.-R. Habbel/A. Huber (Hg.): Web 2.0
für Kommunen und Kommunalpolitik
2010, 31,50 €, ISBN 978-3-940317-67-4
Reihe „Multimedia“
J. Sieck (Hg.): Interaktive Systeme
6./7. Mai 2010, Berlin, Tagungsband
2010, 31,50 €, ISBN 978-3-940317-72-8
Reihe „Medientheorie“
H. Hillgärtner: Das Medium als Werkzeug 2008, 30,90 €, ISBN 978-3-940317-31-5
A. Hutter: Watchblogs: Medienkritik
2.0? Eine inhaltsanalytische Untersuchung W. Drucker: Von Sputnik zu Google
journalistischer Qualität in medienkritischen Earth Über den Perspektivenwechsel hin
2008, 27,50 €, ISBN 978-3-940317-36-0
Weblogs 2009, 27,90 €, 978-3-940317-12-4 zu einer ökologischen Weltsicht
2011, 25,90 €, ISBN 978-3-940317-82-7
M. Mara: Narziss im Cyberspace
2009, 27,90 €, ISBN 978-3-940317-46-9
Kleine Schriften
M. Pankow: In kurzen Sätzen zur weiten Welt Eine funktionale Analyse des
R. Stephan:
Cyber-Bullying in sozialen Netzwerken Phänomens Twitter [Softcover]
2010, 20,90 €, ISBN 978-3-940317-64-3
2010, 12,80 €, ISBN 978-3-940317-65-0
F.-R. Habbel/A. Huber (Hg.):
Wirtschaftsförderung 2.0
Varia
nestor Handbuch Eine kleine Enzyklo-
pädie der digitalen Langzeitarchivierung
2010, 29,90 €, ISBN 978-3-940317-68-1
2009, 24,90 €, ISBN 978-3-940317-48-3
H. Frohner: Social Tagging Grundlagen,
Anwendungen, Auswirkungen auf Wissens- Reihe „Schriften
organisation und soziale Strukturen der User zur Informationswissenschaft“
2010, 26,90 €, ISBN 978-3-940317-03-2
siehe ausführlich folgende Seite
Aktuelle Ankündigungen, Inhaltsverzeichnisse und Rezensionen
finden sie im vwh-Blog unter www.vwh-verlag.de.
Das komplette Verlagsprogramm mit Buchbeschreibungen sowie eine direkte
Bestellmöglichkeit im vwh-Shop finden Sie unter www.vwh-verlag-shop.de.
536
Sachregister
Weitere Bände aus der Reihe
„Schriften zur Informationswissenschaft“
Alexander Warta: Kollaboratives Wissensmanagement in Unternehmen
Indikatoren für Erfolg und Akzeptanz am Beispiel von Wikis
(Bd. 57 ; 2011) Boizenburg : vwh, 300 S., ISBN 978-3-940317-90-2, 30,90 €
Marco Prestipino: Die virtuelle Gemeinschaft als Informationssystem
Informationsqualität nutzergenerierter Inhalte in der Domäne Tourismus
(Bd. 56 ; 2010) Boizenburg : vwh, 304 S., ISBN 978-3-940317-69-8, 30,90 €
Andreas Ratzka: Patternbasiertes User Interface Design für multimodale
Interaktion Identifikation und Validierung von Patterns auf Basis einer Analyse
der Forschungsliteratur und explorativer Benutzertests an Systemprototypen
(Bd. 55; 2010) Boizenburg: vwh, 400 S., ISBN 978-3-940317-62-9, 33,90 €
Thomas Memmel: User Interface Specification for Interactive Software Systems
Joachim Griesbaum: Mehrwerte des kollaborativen Wissensmanagements in
der Hochschullehre Integration asynchroner netzwerkbasierter Szenarien des
CSCL in der Ausbildung der Informationswissenschaft im Rahmen des K3-Projekts
Monika Maßun: Collaborative Information Management in Enterprises
Susanne Mühlbacher: Information Literacy in Enterprises
Rainer Kuhlen (Hg.): Information: Droge, Ware oder Commons?
Wertschöpfungs- und Transformationsprozesse auf den Informationsmärkten
Proc. des 11. Internationalen Symposiums für Informationswissenschaft (ISI 2009)
Markus Heckner: Tagging, Rating, Posting Studying Forms of User
Contribution for Web-based Information Management and Information Retrieval
Rainer Kuhlen: Erfolgreiches Scheitern – eine Götterdämmerung des Urheberrechts? (Bd. 48; 2008) Boizenburg: vwh, ISBN 978-3-940317-21-6, 644 S., 39,90 €
Ralph Kölle: Java lernen in virtuellen Teams Kompensation defizitärer Rollen
durch Simulation (47; 2007) Boizenburg: vwh, 978-3-940317-17-9, 284 S., 29,90 €
A. Oßwald, M. Stempfhuber, C. Wolff (Hg.): Open Innovation
Beiträge des 10. Intern. Symposiums für Informationswissenschaft, Köln (ISI 2007)
(Bd. 46; 2007) Konstanz: UVK, ISBN 978-3-86764-020-6, XI, 518 S., 54,00 €
T. Mandl, C. Womser-Hacker (Hrsg.): Effektive Information Retrieval
Verfahren in Theorie und Praxis Beiträge HIER 2005 (Bd. 45; 2006)
Konstanz: UVK, ISBN 978-3-89669-561-1, VIII, 244 S., 34,00 €
Die Bände 41 und 43 ff. sind über den vwh-Online-Buchshop unter
www.vwh-verlag-shop.de oder per Mail an [email protected] zu beziehen.

Information und Wissen: global, sozial und frei?

Transcription

Similar documents

Rechnungswesen

3. Analytisches Messen und Testen

Digitale Audio - Schnittstellen

Leitfaden "Rechtsfragen bei E

Verfassungskonforme Ausgestaltung von DFG

as a PDF

Tischwaage 150 kg