Information und Wissen: global, sozial und frei?
Transcription
Information und Wissen: global, sozial und frei?
Griesbaum, Mandl, Womser-Hacker (Hrsg.): Information und Wissen: global, sozial und frei? 2 Inhaltsverzeichnis Joachim Griesbaum, Thomas Mandl, Christa Womser-Hacker (Hrsg.) Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenschaft (ISI 2011) Hildesheim, 9.—11. März 2011 4 Inhaltsverzeichnis J. Griesbaum, T. Mandl, C. Womser-Hacker (Hrsg.): Information und Wissen: global, sozial und frei? Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet unter http://dnb.ddb.de abrufbar. © Verlag Werner Hülsbusch, Boizenburg, 2011 www.vwh-verlag.de Einfache Nutzungsrechte liegen beim Verlag Werner Hülsbusch, Boizenburg. Eine weitere Verwertung im Sinne des Urheberrechtsgesetzes ist nur mit Zustimmung der Autor/inn/en möglich. Markenerklärung: Die in diesem Werk wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenzeichen usw. können auch ohne besondere Kennzeichnung geschützte Marken sein und als solche den gesetzlichen Bestimmungen unterliegen. Satz: Werner Hülsbusch Druck und Bindung: Kunsthaus Schwanheide – Als Manuskript gedruckt – Printed in Germany ISSN: 0938-8710 ISBN: 978-3-940317-91-9 Inhaltsverzeichnis Veranstalter & Tagungsteam 11 Programmkomitee 13 Partner der ISI 2011 15 Vorwort 15 Abstracts der Keynotes 19 Kalervo Järvelin Information Retrieval: Technology, Evaluation and Beyond 20 Michael Schroeder Semantic search for the life sciences 22 Session 1: Evaluation 23 Pavel Sirotkin Predicting user preferences 24 Hanmin Jung, Mikyoung Lee, Won-Kyung Sung, DoWan Kim Usefulness Evaluation on Visualization of Researcher Networks 36 Jens Kürsten, Thomas Wilhelm, Maximilian Eibl Vergleich von IR-Systemkonfigurationen auf Komponentenebene 47 Session 2: Informationsinfrastruktur 61 Reinhild Barkey, Erhard Hinrichs, Christina Hoppermann, Thorsten Trippel, Claus Zinn Komponenten-basierte Metadatenschemata und Facetten-basierte Suche 62 Ina Dehnhard, Peter Weiland Toolbasierte Datendokumentation in der Psychologie 74 Gertrud Faaß, Ulrich Heid Nachhaltige Dokumentation virtueller Forschungsumgebungen 85 6 Inhaltsverzeichnis Session 3: Soziale Software 97 Evelyn Dröge, Parinaz Maghferat, Cornelius Puschmann, Julia Verbina, Katrin Weller Konferenz-Tweets 98 Richard Heinen, Ingo Blees Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften 111 Jens Terliesner, Isabella Peters Der T-Index als Stabilitätsindikator für dokument-spezifische Tag-Verteilungen 123 Session 4: Infometrics & Representations 135 Steffen Hennicke, Marlies Olensky, Viktor de Boer, Antoine Isaac, Jan Wielemaker A data model for cross-domain data representation 136 Stefanie Haustein Wissenschaftliche Zeitschriften im Web 2.0 148 Philipp Leinenkugel, Werner Dees, Marc Rittberger Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar 160 Session 5: Information Retrieval 171 Ari Pirkola Constructing Topic-specific Search Keyphrase Suggestion Tools for Web Information Retrieval 172 Philipp Mayr, Peter Mutschke, Vivien Petras, Philipp Schaer, York Sure Applying Science Models for Search 184 Daniela Becks, Thomas Mandl, Christa Womser-Hacker Spezielle Anforderungen bei der Evaluierung von Patent-Retrieval-Systemen 197 Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung für die Suche in historischen Dokumenten 209 Session 6: Multimedia 221 Peter Schultes, Franz Lehner, Harald Kosch Effects of real, media and presentation time in annotated video 222 Marc Ritter, Maximilian Eibl Ein erweiterbares Tool zur Annotation von Videos 234 Margret Plank AV-Portal für wissenschaftliche Filme: Analyse der Nutzerbedarfe 246 Achim Oßwald Significant properties digitaler Objekte 257 Session 7: Information Professionals & Usage 269 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi A survey of internet searching skills among intermediate school students: How librarians can help 270 Matthias Görtz Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchverhalten 286 Jürgen Reischer, Daniel Lottes, Florian Meier, Matthias Stirner Evaluation von Summarizing-Systemen 298 Robert Mayo Hayes, Karin Karlics, Christian Schlögl Bedarf an Informationsspezialisten in wissensintensiven Branchen der österreichischen Volkswirtschaft 309 Session 8: User Experience & Behavior 323 Isto Huvila Mining qualitative data on human information behaviour from the Web 322 Rahel Birri Blezon, René Schneider The Social Persona Approach 327 Elena Shpilka, Ralph Koelle, Wolfgang Semar „Mobile Tagging“: Konzeption und Implementierung eines mobilen Informationssystems mit 2D-Tags 333 8 Inhaltsverzeichnis Johannes Baeck, Sabine Wiem, Ralph Kölle, Thomas Mandl User Interface Prototyping 345 Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum Analyse und Evaluierung der Nutzung von Sitelinks 357 Bernard Bekavac, Sonja Öttl, Thomas Weinhold Online-Beratungskomponente für die Auswahl von Usability-Evaluationsmethoden 369 Session 9: Information Domains & Concepts 375 Michał Goliński Use, but verify 376 Mohammad Nazim, Bhaskar Mukherjee Problems and prospects of implementing knowledge management in university libraries: A case study of Banaras Hindu University Library System 381 Daniela Becks, Julia Maria Schulz Domänenübergreifende Phrasenextraktion mithilfe einer lexikonunabhängigen Analysekomponente 388 Wolfram Sperber, Bernd Wegner Content Analysis in der Mathematik: Erschließung und Retrieval mathematischer Publikationen 393 Jürgen Reischer Das Konzept der Informativität 404 Session 10: Information Society 409 Joseph Adjei, Peter Tobbin Identification Systems Adoption in Africa; The Case of Ghana. 410 Alexander Botte, Marc Rittberger, Christoph Schindler Virtuelle Forschungsumgebungen 422 Rainer Kuhlen Der Streit um die Regelung des Zweitveröffentlichungsrechts im Urheberrecht 434 Session 11: E-Learning / Social Media Marketing 453 Tobias Fries, Sebastian Boosz, Andreas Henrich Integrating industrial partners into e-teaching efforts 454 Christopher Stehr, Melanie Hiller E-Learningkurs Globalisierung 467 Manuel Burghardt, Markus Heckner, Tim Schneidermeier, Christian Wolff Social-Media-Marketing im Hochschulbereich 478 Posterpräsentationen 493 Peter Böhm, Marc Rittberger Nutzungsanalyse des Deutschen Bildungsservers und Konzeption eines Personalisierungsangebots 494 Andreas Bohne-Lang, Elke Lang A landmark in biomedical information: many ways are leading to PubMed 496 Ina Blümel, René Berndt 3D-Modelle in bibliothekarischen Angeboten 498 Nicolai Erbs, Daniel Bär, Iryna Gurevych, Torsten Zesch First Aid for Information Chaos in Wikis 501 Maria Gäde, Juliane Stiller Multilingual Interface Usage 503 Jasmin Hügi, Rahel Birri Blezon, René Schneider Fassettierte Suche in Benutzeroberflächen von digitalen Bibliotheken 505 Hanna Knäusl Ordnung im Weltwissen 507 Isabel Nündel, Erich Weichselgartner, Günter Krampen Die European Psychology Publication Platform 509 Projektteam IUWIS IUWIS (Infrastruktur Urheberrecht in Wissenschaft und Bildung): Urheberrecht zwischen Fakten und Diskursen 511 10 Inhaltsverzeichnis Helge Klaus Rieder Die Kulturgüterdatenbank der Region Trier 513 Karl Voit, Keith Andrews, Wolfgang Wintersteller, Wolfgang Slany TagTree: Exploring Tag-Based Navigational Structures 516 Jakob Voß, Mathias Schindler, Christian Thiele Link server aggregation with BEACON 519 Praxis-Tracks Matthias Görtz Wissenschaft trifft Praxis Studierendenprogramm Katrin Geist Mittendrin statt nur dabei 523 524 529 530 Veranstalter & Tagungsteam Hochschulverband Informationswissenschaft (HI) e.V. www.informationswissenschaft.org IuK-Initiative Wissenschaft e.V. www.iuk-initiative.org Stiftung Universität Hildesheim Institut für Informationswissenschaft und Sprachtechnologie Universität Hildesheim Bühler Campus, Gebäude Lübeckerstr. 3 31141 Hildesheim www.uni-hildesheim.de/de/iwist.htm Partner The American Society for Information Science & Technology (ASIS&T) www.asis.org 12 Veranstalter & Tagungsteam Konferenzchair Christa Womser-Hacker, Universität Hildesheim Programmchair Thomas Mandl, Universität Hildesheim Organisationschair / Tagungsband Joachim Griesbaum, Universität Hildesheim Chair Doktorandenprogramm Christian Wolff, Universität Regensburg Chair für den Gerhard-Lustig-Preis Rainer Hammwöhner, Universität Regensburg Chair für das Posterprogramm Vivien Petras, Humboldt-Universität zu Berlin Demo-Chair und neue Technologien Ralph Kölle, Universität Hildesheim Chair für das studentische Programm Katrin Geist, Studentin an der Universität Hildesheim Sponsoring-Koordination Ben Heuwing Praxis-Track Matthias Görtz Tagungsbüro Sidika Uyulgan, Julia Jürgens Web Matthias Görtz, Ben Heuwing, Saskia-Janina Untiet-Kepp Print Julia Maria Schulz, Daniela Becks, Ben Heuwing Organisationsteam: Folker Caroli, Gabriele Hahn, Nadine Mahrholz, Katrin Werner Helfer und Volunteers: Fatima Alagic, Jasper Brandes, Yasemin Ciftci, Jan Denecke, Anna Eberle, Mira Heimsoth, Tomke Jaspers, Elisa Jatho, Dustin King, Hannes Krengel, Philipp Krieger, Gerrit Lutter, Simon Mangeng, Linda Meier, Veselina Milanova, Sabrina Rauch, Alexander Rösler, Clemens Roth, Stefan Strathmeier, Fabian Wächter, Lars Wendt, Hans Christian Wenske, Laura Willecke Programmkomitee Internationales Symposium für Informationswissenschaft www.isi2011.de Tatjana Aparac-Jelušic, University of Zadar, Kroatien Bernard Bekavac, Hochschule für Technik und Wirtschaft Chur Nicolas Belkin, Rutgers University Christoph Bläsi, Universität Mainz Andreas Brellochs, Zürcher Kantonalbank, Zürich, Abt. InfoCenter Rafael Capurro, ZKM Karlsruhe Nicolae Dragulanescu, University Politehnica of Bucharest Maximilian Eibl, Technische Universität Chemnitz Simone Fühles-Ubach, Fachhochschule Köln Norbert Fuhr, Universität Duisburg-Essen Ursula Georgy, Fachhochschule Köln Stefan Gradmann, Humboldt Universität zu Berlin Joachim Griesbaum, Universität Hildesheim Rainer Hammwöhner, Universität Regensburg Ilse M. Harms, Universität des Saarlandes Josef Herget, Donau-Universität Krems Hans-Christoph Hobohm, Fachhochschule Potsdam Isto Huvila, Uppsala University Peter Ingwersen, Universität Kopenhagen DoWan Kim, University Paichai, Daejeon Michael Kluck, Stiftung Wissenschaft und Politik (SWP) Berlin Gerhard Knorz, Hochschule Darmstadt Traugott Koch, Max Planck Digital Library Berlin Jürgen Krause, ehemals GESIS und Universität Koblenz Landau Otto Krickl, Universität Graz Rainer Kuhlen, ehemals Universität Konstanz Dirk Lewandowski, Hochschule für Ang. Wissenschaften Hamburg Thomas Mandl, Universität Hildesheim Michel J. Menou, University College London Achim Oßwald, Fachhochschule Köln 14 Programmkomitee Vivien Petras, Humboldt-Universität zu Berlin Wolf Rauch, Universität Graz Ulrich Reimer, University of Applied Science, St. Gallen Harald Reiterer, Universität Konstanz Marc Rittberger, Hochschule Darmstadt/DIPF Christian Schlögl, Universität Graz Colin Schmidt, Universität Le Mans Ralph Schmidt, Hochschule für Ang. Wissenschaften Hamburg Wolfgang Schmitz, Universitätsbibliothek der Universität Köln René Schneider, Haute école de gestion de Genève – HEG Genf Ulrike Schömer, Fachhochschule Hannover Michael Seadle, Humboldt Universität zu Berlin Wolfgang Semar, Hochschule für Technik und Wirtschaft Chur Wolfram Sperber, ZIB Berlin Ulrike Spree, Hochschule für Ang. Wissenschaften Hamburg Maximilian Stempfhuber, RWTH Aachen, Hochschulbibliothek Wolfgang G. Stock, Universität Düsseldorf Klaus Tochtermann, ZBW Kiel Gabriela Tullius, Fachhochschule Reutlingen Sirje Virkus, Universität Tallinn Christian Wolff, Universität Regensburg Julian Warner, Queens University of Belfast Erich Weichselgartner, ZPID Trier Christa Womser-Hacker, Universität Hildesheim Maja Zumer, Universität Ljubljana When Music comes into Play – Überlegungen zur Bedeutung von Musik ... 15 Partner der ISI 2011 Wir danken unseren Partnern für die Unterstützung der Konferenz: \\file02.iw.uni-hildesheim.de\isi\g... 16 Vorwort Ellen Jünger Vorwort 17 Vorwort Das 12. Internationale Symposium für Informationswissenschaft (ISI), das vom 9. bis 11. März 2011 an der Universität Hildesheim zusammen mit der 17. Jahrestagung der IuK-Initiative Wissenschaft stattfindet, greift unter dem Tagungsmotto „Information und Wissen: global, sozial und frei?“ zentrale informationswissenschaftliche und informationspraktische Fragestellungen auf und stellt sie in einen aktuellen, wissenschaftlichen und gesellschaftspolitischen Kontext. Der Fokus liegt auf Information und Wissen in einer immer stärker vernetzten, globalisierten Welt, auf der Rolle von sozialen Netzwerken und auf der Diskussion von „freier“ Information und „freiem“ Wissen im Spagat zwischen Open Access und noch fragilen politischen Entscheidungen im Urheberrecht für Wissenschaft und Bildung. Damit wird auch ein Forschungsschwerpunkt im Institut für Informationswissenschaft und Sprachtechnologie an der Universität Hildesheim aufgegriffen, das sich in seinem besonderen Profil mit Informations- und Wissensprozessen vor dem Hintergrund der Mehrsprachigkeit und Interkulturalität beschäftigt. Die ISI 2011 ist die Tagung der deutschsprachigen Informationswissenschaft. Sie wird vom Hochschulverband für Informationswissenschaft (HI) e.V. in Kooperation mit der IuK-Initiative Wissenschaft veranstaltet. Ein besonderes Ziel war es in diesem Jahr, eine stärkere Internationalisierung zu erreichen, ohne auf die erfolgreiche Tradition der bisherigen ISITagungen zu verzichten. Die Einlösung dieser Herausforderung spiegelt sich in der Kooperation mit dem European Chapter von ASIST (The American Society for Information Science and Technology), im Programmkomitee, in der Herkunft der Beitragenden und in der intensiveren Einbeziehung der englischen Sprache als Tagungssprache wider. Ein spezielles Panel geht dem Selbstverständnis einer European Information Science Community nach. Auf den Call for Papers gingen mehr als 90 Einreichungen ein, wovon nur ein Teil für die Tagung ausgewählt werden konnte. Jeder Beitrag wurde von mindestens drei Mitgliedern des Programmkomitees anonym begutachtet; die nicht immer leichte Entscheidung fiel in einem intensiven Diskussionsprozess. Die Beiträge in diesem Tagungsband beleuchten das Generalthema der Tagung aus vielfältigen thematischen Perspektiven und aus der Sichtweise 18 Vorwort unterschiedlicher Disziplinen. Dabei kommen aktuelle Themenfelder genauso zum Tragen wie traditionelle Kernthemen der Informationswissenschaft wie Information Retrieval, Informationsverhalten, Mensch-Maschine-Interaktion sowie deren Evaluierung. Deutlich rücken auch Themen der Fachinformation bzw. der Informationsinfrastruktur in den Vordergrund. Theorie und konstruktive Praxis halten sich die Waage und profitieren von einander. Zum Schluss ein Wort des Dankes bereits im Vorfeld der Tagung: Der Erfolg einer wissenschaftlichen Tagung steht und fällt mit der Qualität der Beiträge. Die Herausgeber dieses Bandes danken dem Programmkomitee für die fundierte Begutachtung der vielen Beiträge. Insbesondere sei den Autoren und Autorinnen gedankt, welche die ISI 2011 mit ihren Einreichungen zu einem wichtigen Community Event machen. Die problemlose Kooperation mit dem Verlag Werner Hülsbusch hat uns in einer Zeit, wo Stress etwas Natürliches ist, vieles vereinfacht. Nicht zuletzt gebührt unser Dank dem gesamten Team des Instituts für Informationswissenschaft und Sprachtechnologie und den vielen studentischen Helfern und Helferinnen vor Ort, die alle mit großem Engagement und Interesse die Tagungsarbeit unterstützt haben. Wir wünschen allen Teilnehmern und Teilnehmerinnen der ISI 2011 eine spannende Zeit in Hildesheim und allen Lesern und Leserinnen des Tagungsbandes eine interessante Lektüre. Hildesheim, im Februar 2011 Christa Womser-Hacker, Joachim Griesbaum und Thomas Mandl Vorwort 19 Abstracts der Keynotes 20 Kalervo Järvelin Information Retrieval: Technology, Evaluation and Beyond Kalervo Järvelin School of Information Sciences University of Tampere, Finland [email protected] Abstract The ultimate goal of information retrieval (IR) research is to create ways to support humans to better access information in order to better carry out their tasks. Because of this, IR research has a primarily technological interest in knowledge creation – how to find information (better)? IR research therefore has a constructive aspect (to create novel systems) and an evaluation aspect (are they any good?). Evaluation is sometimes referred to as a hallmark and distinctive feature of IR research. No claim in IR is granted any merit unless it is shown, through rigorous evaluation, that the claim is well founded. Technological innovation alone is not sufficient. In fact, much research in IR deals with IR evaluation and its methodology. Evaluation, in general, is the systematic determination of merit and significance of something using criteria against a set of standards. Evaluation therefore requires some object that is evaluated and some goal that should be achieved or served. In IR, both can be set in many ways. The object usually is an IR system or a system component – but what is an IR system? The goal is typically the quality of the retrieved result – but what is the retrieved result and how does one measure quality? These questions can be answered in alternative ways, which lead to different kinds of IR evaluation. Practical life with all its variability is difficult and expensive to investigate. Therefore surrogate and more easily measurable goals are employed in IR evaluation, typically the quality of the ranked result list instead of the work task result. The task performance process may also be cut down from a work task to a search task and down to running an individual query in a test collection. This simplification has led to standardization of research designs and tremendous success in IR research. However, as the goals and systems drift Information Retrieval: Technology, Evaluation and Beyond 21 farther away from the practical life condition, an alert mind needs to ask, whether the findings still serve the initial goals of evaluation? If means (outputs) replace ends (outcomes), one runs the risk of suboptimization. It is important to evaluate the subsystems of information retrieval processes, in addition to the search engines. By lifting one’s eyes from the search engine effectiveness alone, one may be able to put the subsystems and their contributions in relation with each other. We will discuss nested IR evaluation frameworks ranging from IR system centered evaluation to work-task based evaluation. We will also point to the Pandora’s box of problems that the enlargement of the scope of research grants us. The contributions of a research area, in addition to constructive and evaluative contributions, may be generally empirical, theoretical and methodological. Why should we care about anything beyond IR experimentation (i.e. evaluation)? The talk will outline some motivations and possibilities for descriptive, explanatory and theoretical research in IR. 22 Kalervo Järvelin Semantic search for the life sciences Michael Schroeder Biotechnology Center of the TU Dresden Tatzberg 47/49, 01307 Dresden director(at)biotec.tu-dresden.de Abstract Semantic search promises to improve classical keyword search by exploiting background knowledge to improve completeness of search results and navigation in search results. I will give a summary of GoPubMed, the first semantic search engine for the life sciences. Besides demonstrating the power of semantic search, I will highlight problems in entity recognition, disambiguation and ontology generation. A prerequesite for efforts such as GoPubMed are open access and open data. Information Retrieval: Technology, Evaluation and Beyond Session 1: Evaluation 23 24 Pavel Sirotkin Predicting user preferences An evaluation of popular relevance metrics Pavel Sirotkin Heinrich Heine University Düsseldorf Information Science Department Universitätstr. 1, 40225 Düsseldorf [email protected] Abstract The many metrics employed for the evaluation of search engine results have not themselves been conclusively evaluated. We propose a new measure for a metric’s ability to identify user preference of result lists. Using this measure, we evaluate the metrics Discounted Cumulated Gain, Mean Average Precision and classical precision, finding that the former performs best. We also show that considering more results for a given query can impair rather than improve a metric’s ability to predict user preferences. Introduction One issue in the evaluation of information retrieval systems in general and search engines in particular is the missing benchmark for system evaluation metrics. Given the by now abundant number of measurement types, it is unclear how to judge them. With time, some measures like classical precision fall out of the researchers’ favour, while new ones gain acceptance. However, the process is slow and by no means conclusive. As Büttcher et al. (2010, p. 410) note, “given their importance in IR evaluation, one might assume that the relationship between user satisfaction and, say, average precision has been thoroughly studied and is well understood. Unfortunately, this is not the Predicting user preferences 25 case. User studies trying to find correlations between user satisfaction and various effectiveness measures are a relatively recent phenomenon.” Thus, the meaning of metrics is unclear. It might be conceivable that popular metrics measure user satisfaction; or user preference; or task completion; or success in reaching goals; or perhaps just the correlation with the metric itself and nothing else. We attempt to provide first answers to a particular question that has received relatively little attention until now: How well can popular metrics pick out user preference between result lists? We will describe some popular metrics and discuss previously conducted evaluations in Section 2. Section 3 describes our own methodology and introduces a new measure employed to produce results described in Section 4. Section 5 provides a discussion of those results, with conclusions drawn in Section 6. Related Work Evaluation metrics A list by Della Mea et al. (2006), which does not claim any completeness, contains 45 evaluation metrics introduced from 1965 to 2005. Many of them have hardly been used except by their creators, and most are not relevant for our purposes. The earliest and surely most influential metric is precision. It is defined simply as the proportion of relevant documents returned by a system. Its shortcomings for the purposes of web evaluation have been often stated; particularly, as thousands of pages can be relevant to a query, it might be unwise to assign an equal weight to all returned results. These concerns were partly addressed by Average Precision (AP). As its name suggests, it averages precisions at individual ranks. In words, AP considers the precision at every relevant result in the list, and divides it by the result’s rank; then, the precision is averaged by dividing the sum of discounted precisions by the total number of relevant results. In most cases, the AP of many queries is considered, and a Mean Average Precision (MAP) is calculated. MAP is one of the most-used metrics and is employed in single studies as well as in large efforts such as TREC. 26 Pavel Sirotkin Formula 1. MAP formula with queries Q, relevant documents R, documents D at rank r and n returned results. rel is a relevance function assigning 1 to relevant results. Another metric which has enjoyed wide popularity since its introduction is Discounted Cumulated Gain or DCG for short (Järvelin and Kekäläinen 2002). The more basic measure upon which it is constructed is the Cumulated Gain, which is a simple sum of the relevance judgements of all results up to a certain rank. DCG enhances this rather simple method by introducing “[a] discounting function [...] that progressively reduces the document score as its rank increases but not too steeply (e.g., as division by rank) to allow for user persistence in examining further documents” (Järvelin and Kekäläinen 2002, p. 425). In practice, the authors suggest a logarithmic function, which can be adjusted (by selecting its base) to provide a more or less strong discount, depending on the expectations of users’ persistence. DCG can be modified to allow for better inter-query comparison; to this end, a perfect ranking for known documents is constructed. The DCG of a result list is then divided by the ideal DCG, producing normalized DCG (nDCG) in the 0...1 range. Formula 2. DCG with logarithm base b (based on Järvelin and Kekäläinen 2002). Metric Evaluations When a new evaluation metric is introduced, it is usually explained what its advantage over existing metrics is. Mostly, this happens in theoretical terms; more often than not, an experimental metric evaluation is also given. There are many studies comparing one metric to another; however, this has the disadvantage of being a circular confirmation, indicating at best correlation between metrics. Another method was used for evaluating different CG metrics (Järvelin and Kekäläinen 2000; Järvelin and Kekäläinen 2002). Those were used to evaluate different IR systems, where one was hypothesized to outperform the Predicting user preferences 27 others. The CG measures indeed showed a significant difference between the systems, and were considered to have been validated. We do not regard this methodology as satisfactory. It seems that evaluating the hypothesis with a new metric while at the same time evaluating the metric against the hypothesis may produce a positive correlation without necessarily signifying a meaningful connection to any outside entity. More promising approaches attempt to judge metrics with regard to an external standard. These studies often cast doubt on assumptions about explicit measures. Several studies report that MAP does not correlate in a significant way with user performance (Hersh et al. 2000; Turpin and Scholer 2006). Another study showed some correlation (Kelly et al. 2007); however, it was significant for less than half of all users. Also, the study has methodological issues; it included only four topics, and, while raters were to formulate own queries, the result lists were predefined. That means that raters actually rated the same result lists for different queries. A further study examined the correlation between average precision and user success (Al-Maskari et al. 2008). The results showed a strong correlation between average precision and user success metrics (such as the number of retrieved documents) as well as user satisfaction. The correlation values are signifycant; however, the correlation was with a fourfold increase in average precision, which is quite an extraordinary difference. Compared with this distinction, the increase in user success and especially user satisfaction was quite low. When the (absolute or relative) difference between the systems’ average precision was reduced, the significance of correlations promptly dropped and all but disappeared when the increase in average precision was at 30%. One more MAP study looked at average precision at rank 3, which was found to have a strong correlation with explicit user satisfaction (Huffman and Hochster 2007). In a further study, precision, CG, DCG and NDCG were compared to three explicit measures of user satisfaction with the search session called “accuracy”, “coverage” and “ranking” (Al-Maskari et al. 2007). The results were mixed. From the overall 12 relations between metric and user satisfaction, only two showed a significant correlation, namely, precision and CG with the ranking of results. There have been further studies indicating the need for more holistic ratings. Ali, Chang et al. (2005) have shown that the correlation between result-based DCG scores and result list scores (on a tertiary scale) is 0.54 for image and 0.29 for news search. While the fields were more specific than general web search, the numbers clearly do not indicate a reliable link between the scores. 28 Pavel Sirotkin These studies do not produce conclusive results, though they seem to cast doubt on the connections between popular metrics (as they have been used for web search evaluation) and user satisfaction. Therefore, the need for novel methods of metric evaluation has been emphasized (Mandl 2010). Methodology We attempt to provide a comparison of three popular explicit evaluation metrics in their relationship to user satisfaction. That is to say, we attempt to test whether and how well (M)AP and (n)DCG1 indicate users’ explicitly stated preferences. While there is no absolute standard against which to measure evaluation metrics, we consider user preference between two result lists to be a useful start. From the point of view of a search engine developer, the most interesting question to be answered by a metric is whether a given algorithm is better than another. This other might be a previous version of the algorithm, a competing search engine, or just a baseline value. Additional questions might regard the confidence in the preference statement or the amount of difference between the algorithms. And the most direct way to gather user preference is to obtain explicit judgments. The directness is needed to ensure that the standard we are measuring metrics against is not itself biased by an intermittent layer of theory. While a direct comparison of two result sets is not usual (and might be considered “unnatural” for search behaviour), we think it nevertheless provides a more close reflection of actual user preference than other methods. For the study, the help of 31 first-year Information Science students was enlisted. They were required to enter queries they were interested in, as well as a detailed statement of their information need. For every query, the top 50 results were fetched from a major web search engine. From these, two result lists were constructed; one contained the results in original order, while the ordering of the other was completely randomized. Then the users were confronted, also through a web interface, with different types of judgments. 1 As we calculate the metrics on a per-query basis, nDCG is analogous to DCG while being easier to compare as it falls into the usual 0...1 range. Also, MAP for a single query is obviously equal to AP. For convenience, we will speak of MAP in all contexts. Predicting user preferences 29 First, they were presented with a query, an information need statement, and two result lists displayed side by side, which were anonymized and presented in random order. They were asked to conduct a search session as they would do normally, and when they were done, to indicate which result list they found better, or if both were equally good (or bad)2. Later, they were presented with single results and requested to evaluate their relevance given the query and the information need. Ratings were graded on a 1...6 scale, which is familiar to German students since it is the standard grade scale in schools and universities. For evaluation purposes, the ratings were converted to a 1...0 scale with 0.2 intervals (1 → 1.0, 2 → 0.8, …, 6 → 0.0). Both the preference and the relevance judgments could be for the users’ own queries or for others’. The raters performed all actions via a Web interface. The main evaluation measure was the ratio of queries for which the difference between metric values for the two result lists would correctly predict explicit user preference. We call the measure Preference Identification Ratio (PIR). The definition is given in Formula 3, with Q being the set of queries where the output of one algorithm has been judged to be better than another, mq1 and mq2 being metric values for the two result lists under comparison, pq the preference judgment (with value 1 if q1 is preferred and -1 if q2 is preferred), and t a threshold value to allow treating result list quality as equal if their metric values are similar. On an intuitive level, the numerator is the number of queries where we can correctly predict the user preference from explicit result ratings minus the number of queries where the preference prediction is inversed. The denominator is simply the number of preference judgments where a preference actually exists. If two result lists are judged to be of similar quality, a metric’s values do not influence PIR, as choosing any one does not lead to any advantages or disadvantages to the user3. This implies that if a metric’s values could be used to correctly predict user preference judgments for all sessions, its PIR would be 1; and if every preference prediction was reversed, the PIR would be -1. However, since assuming no preferences at all would result in a PIR value of 0, we can consider this to be the baseline. 2 Interestingly (and surprisingly for us), the randomized result list was judged to be better than the original one in ca. 26% of all cases. The reasons for and implications of this finding go beyond the scope of this paper and will be discussed elsewhere. 3 It may be argued that if the current algorithm performs equally well, the adoption of a novel one is a waste of effort. Here, though, we focus on user experience. 30 Pavel Sirotkin Formula 3. Preference Identification Ratio with metric values m, queries Q, preference judgments p and threshold t. Evaluation Our aim was to determine how well MAP and nDCG predict user preference in different conditions as measured by PIR. For comparison, precision was also evaluated. In a departure from the classical definitions, we retained graded relevance values for precision and MAP. We defined Precision@K as the sum of relevance ratings at ranks 1 to K divided by K, which is a slight adjustment of the original formula also falling into the 0...1 range. For MAP, only the relevance function changes. The different conditions were different cut-off values, corresponding to different amounts of evaluation effort. If, after some rank, a further increase of the cut-off value provided only marginal PIR gains, one might lower the cut-off value and direct the released resources towards an increased number of queries. Our first task was to find appropriate values for the threshold t. To this end, we calculated PIR for every metric, cut-off value and threshold (the latter in 0.01 intervals); then, we selected thresholds performing best for every metric/cut-off combination. A sample t evaluation is shown in Figure 1. While the PIR differences between neighbouring t values were expectedly small and thus not statistically significant, we feel justified in this approach as our main aim was inter-metric comparison. Thus, even if the better PIR of a threshold is due to chance, the influence of randomness should average out between thresholds, cut-off values and measures, and while the absolute numbers might be too high, the relative performance judgments are still relevant. Predicting user preferences 31 Figure 1. Evaluation for different t values for precision with cut-offs 2, 5 and 10. Now using the best available t values for every metric/cut-off combination, we were able to compare PIR performances. The relevant values can be seen in Figure 2. Figure 2. PIR results 32 Pavel Sirotkin A comparison of metrics and cut-off values suggests that in different circumstances, different metrics might be appropriate. MAP performs quite poorly at small cut-offs, but emerges as the best metric at 10. Precision never outperforms nDCG, but (at least at the earlier ranks) comes close enough for the difference to be minimal. In absolute terms, the maximum PIR reached is 0.84 (nDCG@7-8). Discussion We would like to point out that search engine evaluation is just a small part of IR evaluation and, moreover, the type of performance we have attempted to capture is just one of many possible aspects of search engine quality. Lewandowski and Hochstötter (2007) propose a four-way quality framework including index quality, quality of the results, quality of search features and usability. The pure evaluation of organic, web page based result lists (as opposed to paid content or “universal search” features) is itself only a minimalistic subset of “quality of the results”. However, the evaluated content is still an important and arguably even crucial part of a search engine’s results. Also, our test subjects obviously did not constitute a representative sample of search engine users. While we look forward to studies with more diverse raters, the group is hardly less heterogeneous than those of most comparable studies. Our results lead to some conclusions of practical importance. As an increasing cut-off value does not necessarily lead to a better approximation of user preferences, it might be a good idea to divert some resources from rating queries deeper to rating more queries. This has been found to provide higher significance (Sanderson and Zobel 2005); our results suggest that, rather than being a trade-off, exchanging depth for width can be doubly effective. It may even be sensible to reduce the cut-off to as low as 4, since it means cutting the effort in half while losing about 15% of information as measured by PIR. A possible explanation for the decrease of prediction quality is that users hardly look at documents beyond a certain rank (Hotchkiss et al. 2005), in which case any later difference in result quality is not reflected in actual user preferences. It would also explain why precision is the most and MAP the Predicting user preferences 33 least affected, since the former has no and the latter a high discounting factor for later results. Regarding individual metrics, nDCG was shown to perform best in most circumstances. In the best case, it correctly predicted 84% of user preferences. MAP might be employed if one explicitly desires to take into account later results, even if their relevance may not be important to the user. While precision performs considerably well, the present study has not found a situation where it would be the most useful metric. The absolute PIR values we report may well be overestimations, as discussed in the Evaluation section. On the other hand, the preference judgments obtained were binary. We might assume that, given degrees of preference, we would find strong preferences easier to identify by considering document ratings. While metrics are often compared on their ability to distinguish between entities of relatively close quality, from the practical point of view, it is crucial for a metric to reliably pick out large differences, since those are the instances where the most improvements can be made. However, these conjectures await further research to confirm or disprove them. Finally, our evaluation might have a value beyond its immediate results. We think that choosing an explicit, praxis-based standard for evaluating evaluation can help distinguish between the multitudes of available metrics. Particularly, a measure like PIR can be more practical than correlation measures often employed in such studies. Rather than indicating whether a given metric reflects a preference tendency, it can tell for what ratio of queries we would provide better results by using each metric to simulate preference judgments. Conclusions and future work A measure of a metric’s ability to predict user satisfaction across queries was introduced. We used this measure, the Preference Identification Ratio (PIR), to provide estimates for the some common relevance metrics. (n)DCG was found to perform best, indicating the preferred result lists for up to 84% of queries. MAP provided good judgments at higher cut-off values, while precision did well without ever being the most informative metric. We also showed that search engine evaluations might be performed in a more signifi- 34 Pavel Sirotkin cant and efficient way by considering more queries in less depth. The most significant cut-off values lie between 6 and 10 for different metrics, while the most efficient might come as low as cut-off 4. Further work should look at PIR for degrees of preference and explore whether the metrics’ performance stays at similar levels, and also to evaluate further metrics. We also intend to examine in more detail the cases where single metrics failed to pick a preferred result list to provide a qualitative analysis of their weaknesses. Finally, the connection of our results with log data might provide insights into relations between user behaviour and relevance or preference judgments. References Al-Maskari, A., M. Sanderson and P. Clough (2007). The relationship between IR effectiveness measures and user satisfaction. SIGIR 2007. Amsterdam, ACM: 773–774. Al-Maskari, A., M. Sanderson, P. Clough and E. Airio (2008). The good and the bad system: does the test collection predict users’ effectiveness? SIGIR 2008. Singapore, ACM: 59–66. Ali, K., C.-C. Chang and Y. Juan (2005). Exploring Cost-Effective Approaches to Human Evaluation of Search Engine Relevance. Advances in Information Retrieval. Berlin/Heidelberg, Springer: 360–374. Büttcher, S., C. L. A. Clarke and G. V. Cormack (2010). Information retrieval: implementing and evaluating search engines. Cambridge, Mass.; London, MIT Press. Della Mea, V., G. Demartini, L. Di Gaspero and S. Mizzaro (2006). “Measuring Retrieval Effectiveness with Average Distance Measure (ADM)” Information: Wissenschaft und Praxis 57(8): 433–443. Hersh, W., A. Turpin, S. Price, B. Chan, D. Kramer, L. Sacherek and D. Olson (2000). Do batch and user evaluations give the same results? SIGIR 2000. Athens, ACM: 17–24. Hotchkiss, G., S. Alston and G. Edwards (2005). Google Eye Tracking Report, Enquiro. Huffman, S. B. and M. Hochster (2007). How well does result relevance predict session satisfaction? SIGIR 2007. Amsterdam, ACM: 567–574. Predicting user preferences 35 Järvelin, K. and J. Kekäläinen (2002). “Cumulated gain-based evaluation of IR techniques” ACM Trans. Inf. Syst. 20(4): 422–446. Kelly, D., X. Fu and C. Shah (2007). Effects of rank and precision of search results on users’ evaluations of system performance, University of North Carolina. Lewandowski, D. and N. Höchstötter (2007). Web searching: A quality measurement perspective. Web Searching: Interdisciplinary Perspectives. Dordrecht, Springer: 309-340. Mandl, T. (2010). “Evaluierung im Information Retrieval” Information Wissenschaft & Praxis 61(6–7): 341–348. Sanderson, M. and J. Zobel (2005). Information retrieval system evaluation: effort, sensitivity, and reliability. SIGIR 2005. Salvador, ACM: 162–169. Turpin, A. and F. Scholer (2006). User performance versus precision measures for simple search tasks. SIGIR 2006. Seattle, ACM: 11–18. 36 Hanmin Jung, Mikyoung Lee, Won-Kyung Sung, DoWan Kim Usefulness Evaluation on Visualization of Researcher Networks Hanmin Jung1, Mikyoung Lee1, Won-Kyung Sung1, DoWan Kim2 1 Korea Institute of Science and Technology Information (KISTI) Daejeon, KOREA e-mail: {jhm, jerryis, wksung}@kisti.re.kr 2 Paichai University Daejeon, KOREA e-mail: [email protected] Abstract This study aims to analyze and evaluate usefulness on the visualization of researcher networks from the user’s perspective. We selected the following four academic information services in the viewpoint of data set and level of functionality; Authoratory, Researchgate, Biomedexperts, and Academic.research. By six IT technology researchers and professors with doctorate, the services were evaluated based on functional quality criteria of information visualization elements and on information quality criteria served by the elements as a user study, and we concluded that it is necessary to overcome visual complexity in information visualization of researcher networks by showing additional information and by including additional attributes. Key Words Researcher network, Information visualization, Evaluation criteria, Functional and information quality Usefulness Evaluation on Visualization of Researcher Network 1 37 Introduction Today’s Web is cementing its place as core infrastructure of information services, and with the massive penetration of smart phones and advancements in mobile Web, information services are undergoing evolution in order to enable use them anytime, anywhere in any way, and by anyone. However, text-oriented information services require attention for reading, and domain knowledge and ability of reasoning for understanding correctly. This is one of the main factors undermining the user’s ability to acquire information on the Web. Therefore, efforts have been made to maximize the usefulness of information perception by efficiently delivering a massive amount of information accumulated on the Web at an amazing speed, and information visualization is one of the fruits of such efforts [1]. In particular, information visualization and the use of graphic metaphors to that end have become major HCI design concepts involving information services. Scientific visualization is a concept similar to information visualization [2] [3]. Scientific visualization differs from information visualization in that it visualizes real objects using computer graphic technology. Just like topography maps that show mapped, visualized information, information visualization can be designed in conjunction with scientific visualization. Information visualization can be explained with the following characteristics [4]. • Information visualization helps users quickly understand a massive amount of data. • Information visualization helps users recognize important information instantly. • Information visualization allows recognition of new attributes that are embedded in the information and are difficult to understand. For instance, users can recognize specific patterns embedded in information through visualization. • Information visualization may cause problems with data themselves – because visualization may accompany quality control issues. This study aims to analyze and evaluate usefulness on the visualization of researcher networks from the user’s perspective. To this end, representative researcher networks that have been developed and operated as part of Web information services are chosen. By doing so, this study ultimately aims to contribute to practical development of technologies for information visualization that can enhance the usefulness of Web information services. 38 Hanmin Jung, Mikyoung Lee, Won-Kyung Sung, DoWan Kim 2 Visualization of Researcher Networks 2.1 Evaluation Targets We have examined popular Web information services that are successfully serving information on researcher network-based academic research, and selected the following four academic information services in the viewpoint of data set and level of functionality. • http://www.authoratory.com (Authoratory) • http://researchgate.com (Researchgate) • http://biomedexperts.com (Biomedexperts) • http://academic.research.microsoft.com (Academic.research) Authoratory uses a computer program for analyzing millions of academic papers available in PubMed and puts the analyzed results into a database, while providing information on 969,189 scientists including researcher profiles, research trends, researchers’ social networks, and published papers. As a professional network for scientists, Researchgate has about 400,000 scientists registered, and provides information on published papers, participating research groups, and researchers’ social networks. Meanwhile, Biomedexperts is a literature-based, scientific social network site that automatically analyzes millions of papers published in over 20,000 scientific journals and extracts information on authors, co-authors, and their affiliations. In so doing, the service has identified co-author relations of researchers working at over 3,500 organizations in more than 190 countries. Biomedexperts provides expert lists for each research area, as well as information on researchers’ social network, research trends, and locations of their organizations. Finally, Academic.research provides information on researchers, researchers’ social networks, and research trends, as well as information indicating a researcher’s productivity including published papers, number of citations, G-index, and H-index, based on information extracted automatically from over 6 million papers. All of them are representative services that provide visualized researcher networks as well as academic information that is commonly required in the scientific and technological fields. Usefulness Evaluation on Visualization of Researcher Network 2.2 39 Researcher Networks Researcher network visualizes relationships between researchers by symbolizing nodes and links with diagrams. It has emerged as a kind of social network, which is a representative service of Web 2.0. It also expresses desired information by using radial visualization technology and presents the correlations of each piece of information dynamically with images to help users visualize, compare, and recognize the relationships between information, flows, and characteristics in an intuitive manner. However, a larger number of nodes and worse too many induced links between the nodes undermine the ability to express and convey information. A researcher network consists of two basic attributes, i.e. nodes and links, and the following additional attributes added on to control the two or to enhance information recognition. • Color to discriminate nodes and links • Link attribute to express strength of the relationships between nodes using width and length • Information filtering control to constrain what to be displayed in the network • Node metaphor to express a node’s meaning using text or image • Browsing control to change the shape of the network Figure 1 shows an example of a researcher network offered by Biomedexperts. It provides information filtering control that filters information by selecting the number of Co-publications, Publications, and Connections. When a user moves the mouse over to a semi-transparent window, it displays relevant information such as the author’s research profile, timeline, and publications (see the right screen of Figure 1). Fig. 1 Researcher network of Biomedexperts 40 Hanmin Jung, Mikyoung Lee, Won-Kyung Sung, DoWan Kim In addition, when the mouse is brought over to the author’s name shown on the network browser, the link between the author and co-authors connected at the 1st depth is displayed in blue, and the line becomes thicker if co-authorship is greater than average. Fig. 2 shows a researcher network of Authoratory, which offers a simple service that displays the number of co-authored papers over the link between researchers. It supports relatively simple browsing control such as moving the node’s axis, and if a user selects a specific node, a new network around the centered node is re-drawn. Fig. 2 Researcher network of Authoratory Fig. 3 shows a researcher network of Researchgate. On this network, users can sort co-authorship relations by group or by interest area (See the right part of Fig. 3) using information filtering control located at the top of the browser. Fig. 3 Researcher network of Researchgate Usefulness Evaluation on Visualization of Researcher Network 41 Fig. 4 shows a researcher network offered by Academic.research. Users can press the buttons on the upper right part of the browser to reduce/enlarge or move it up and down and left and right. The length between nodes indicates the level of closeness in co-relationship. When a user clicks on coauthored publications, another pop-up window displays the list (See the right part of Fig. 4). The researcher network of Academic.research supports browsing control, node metaphor, link attributes among the above-mentioned additional attributes. Fig. 4 Researcher network of Academic.research 3 Usefulness Evaluation on Visualization of Researcher Network 3.1 Evaluation Criteria The usefulness of information visualization in Web information services can be evaluated based on functional quality criteria of information visualization elements and on information quality criteria served by the elements as a user study [5]. More specifically, the usefulness of elements for information visualization can be defined by the efficiency, effectiveness, and satisfaction of the set of functions and actions used to achieve the results desired by users as well as the visualized results. This study defines the functional quality criteria and information quality criteria, as follows, to evaluate the usefulness of the elements by referring to ISO9241-11 and ISO9126-1 [6] [7]. 42 • • • • • • • • • • • • • • • • • • Hanmin Jung, Mikyoung Lee, Won-Kyung Sung, DoWan Kim Minimal action: Is it possible to acquire a desired result with minimal actions? Resource utilization: Are visualization elements sufficiently utilized for performing a given task? (ISO9126-1: Efficiency-Resource behavior) Operability: Are essential efforts to operate and control the information service performed with ease? (ISO9126-1: Usability-Operability) Feedback: Does the information service give feedback for the user’s action? Navigability: Can users move and use the service environment easily from the perspective of functional quality? Time behavior: How fast can functions be performed and how much time does it take for information to be loaded and visualized? (ISO9126-1: Efficiency-Time behavior) Consistency: Are visualization elements consistent and do they deliver their meanings to users sufficiently? Accurateness: Do functions bring about a desired result or effect? (ISO9126-1: Functionality-Accurateness) Completeness: Can users perform and complete a given task clearly? Attractiveness: How attractive is the environment of the information service to users? Flexibility: Can users customize the user interface of the information service according to their preferences? User guidance: Does the information service give feedback for the user’s action appropriately and supportively? Visualization type: Is it possible to visualize information in the format desired by users? Report type: Is it possible to create reports in the format desired by users? Information accuracy: Does visualized information meet the user’s needs accurately? Information completeness: Is served information complete enough to satisfy the user’s needs? Information navigability: Can users navigate in served information easily and quickly? Information individualization: Can served information be utilized to meet individual needs such as email transfer, saving files, sharing through Twitter and use group? Usefulness Evaluation on Visualization of Researcher Network 3.2 43 Evaluation Process Six IT technology researchers and professors with doctorate were involved as test persons (TPs). Each TP performed the following task on the four services introduced in Chapter 2 and evaluated information visualization for researcher network services according to the evaluation criteria mentioned in 3.1 [8] [9]. • Task: Give a name of an expert in your own field into each service and investigate the expert’s researcher network it provides. (e.g.) Search for “Jinde Cao” who is an expert in ‘neutral network’ field. TPs quantitatively assigned each evaluation criterion with a value between 0 ~ 5, with one unit being 0.5, and were allowed to discuss pros and cons of visualization elements qualitatively. The following heuristics were used to perform the user test. • Visibility of system status: The test environment was prepared so that both TPs and an observer can simultaneously monitor how the task is being performed. • Match the system to the real world: Ensure that the test environment matches the TP’s actual work environment as closely as possible. • User control and freedom: TPs have the freedom to use the test environment and to perform the test. • Help and assistance: If required by TPs, the observer can provide answer to their questions as long as such support will not affect test results. 3.3 Evaluation Results For Biomedexperts, TPs judged that the list on the right side and the additional information on the left side shown in conjunction with a researcher network explain the network in a very efficient manner. Also, they suggested that additional attributes such as color and information filtering control are adequately applied to enhance the user’s ability of information recognition, and the graphic chart provided with a co-author list helps users recognize a researcher’s research trend easily. They also gave a high score on the feature that the service does not require screen changes. 44 Hanmin Jung, Mikyoung Lee, Won-Kyung Sung, DoWan Kim Table 1. Evaluation Results on the four Researcher Networks (FQ: Functional quality, IQ: Information quality) Resource utilization was not evaluated since it cannot be evaluated by users. Evaluation criteria FQ Minimal action Operability Feedback Navigability Time behavior Consistency Accurateness Completeness Attractiveness Flexibility User guidance Average IQ Visualization type Report type Information accuracy Information completeness Information navigability Information individualization Average Biomedexperts 4.50 4.75 4.83 4.92 5.00 4.50 4.83 4.83 4.67 4.25 4.42 4.68 4.17 N/A 5.00 Authoratory 3.42 3.08 3.08 3.00 3.67 3.58 3.33 3.67 3.83 3.50 3.42 3.42 4.00 4.00 4.50 Researchgate Academic. research 2.25 4.00 2.08 3.75 2.42 4.17 2.50 4.33 4.33 4.50 3.25 4.58 2.92 4.75 2.75 4.75 2.08 3.83 2.00 4.00 2.17 3.83 2.61 4.23 1.83 4.42 N/A N/A 1.25 4.67 5.00 4.75 1.17 4.67 4.42 4.25 1.25 4.17 3.75 4.75 1.00 N/A 4.47 4.38 1.17 4.48 While TPs assigned a rather high score to information quality, they gave a relatively low score to functional quality for Authoratory. They pointed out the limitation in displaying co-authorship of a specific year only, the difficulty of recognizing the entire researcher network, and confusion caused by excessive and redundant presentations of the same information with various visual elements. In other words, the more information is provided from the researcher network, the more complex it becomes due to the absence of additional attributes to resolve this issue. However, the contribution of Authoratory to user satisfaction received a positive evaluation, as it provides a method to personalize search results. Usefulness Evaluation on Visualization of Researcher Network 45 Researchgate received relatively poor scores from TPs because it provides a network service for researchers that are in contact with a given researcher in the viewpoint of social network, rather than researcher network based on co-authorship or citation relationship. Academic.research provides a researcher network service with a relatively simple structure. In other words, it provides an intuitive service function; a node is shown as a picture image when its corresponding researcher’s image file is available. 4 Conclusion We defined functional quality criteria and information quality criteria and then evaluated four major information services focused on researcher network. The researcher networks evaluated through this study commonly use diagrams to represent nodes for researchers and links for the relationships between them, thereby visually indicating their correlations to users. They present an issue of diminished ability to express information with a larger number of nodes and more complicated links between the nodes. Therefore, as in the case with Biomedexperts, we concluded that it is necessary to overcome this challenge by showing additional information and by including additional attributes such as information filtering control. As another conclusion, such services should carefully consider the functions that can complement limitations of visualization elements rather than aesthetics of design. In the future, this study will be expanded to additionally evaluate visualized graphs and lists that provide information on researchers and research trends. 46 Hanmin Jung, Mikyoung Lee, Won-Kyung Sung, DoWan Kim References [1] S. Card and J. Mackinlay, “The Structure of the Information Visualization Design Space”, In Proceedings of IEEE Symposium on Information Visualization, 1997. [2] D. Gordin and R. Pea, “Prospects for Scientific Visualization as an Educational Technology”, In Journal of the Learning Sciences 4(3), 1995. [3] S. Bryson, “Virtual Reality in Scientific Visualization”, In Communication of the ACM, 39(5), 1996. [4] C. Ware, Information Visualization, 2004. [5] S. Erazo, “Evaluation of the Functional Efficiency of Applications Multimediales, In Current Developments in Technology-Assisted Education”, 2006. [6] http://www.iso.org/iso/catalogue_detail.htm?csnumber=16883 [7] http://www.sqa.net/iso9126.html [8] J. Volckmann and M. Lippert, “Web Usability Testing”, Arbeitspapiere Wirtschaftsinformatik, University Giessen, 2006. [9] A. Seffah et al., “Usability Measurement and Metrics: A Consolidated Model”, In Software Quality Journal 14(2), 2006. Vergleich von IR-Systemkonfigurationen auf Komponentenebene 47 Vergleich von IR-Systemkonfigurationen auf Komponentenebene Jens Kürsten, Thomas Wilhelm und Maximilian Eibl Technische Universität Chemnitz Straße der Nationen 62, 09111 Chemnitz {jens.kuersten, eibl}@informatik.tu-chemnitz.de Kurzfassung In der klassischen Evaluationsforschung werden Verfahren anhand der Performance der Gesamtsysteme bewertet. Dies macht es schwer, die Wirkung einzelner Systemkomponenten und ihr Zusammenspiel zu analysieren. Auf Basis einer umfangreichen Evaluation mit mehreren englischsprachigen Testkorpora wird ein Werkzeug zum interaktiven Vergleich von Systemkonfigurationen vorgestellt. Neben der Möglichkeit, den Einfluss einzelner Komponenten auf das Rechercheergebnis zu untersuchen, wird ein Ansatz zur Normierung der Ergebnisse beschrieben. Dieser wird genutzt, um den Einsatz des Visualisierungswerkzeugs für den korpusübergreifenden Vergleich von Systemkonfigurationen zu skizzieren. Abstract In traditional information retrieval (IR) evaluation new models are assessed based on system effectiveness in terms of a metric suitable to the problem of interest. Drawing conclusions about the impact of system components and possible interaction effects is almost impossible in this setting. We address this problem and present a tool for interactive comparison of system configurations on component-level based on a large-scale evaluation across several English test collections. An approach to normalize effectiveness measures is applied in order to allow comparison across test collections. The provided visual presentation enables researchers and practitioners to study the impact of system components on retrieval effectiveness in an efficient way. 48 1 Jens Kürsten, Thomas Wilhelm und Maximilian Eibl Motivation Evaluationsforschung ist eines der wesentlichen Instrumente der Informationswissenschaft. Im Information Retrieval ermöglicht sie eine Bewertung von Systemen anhand festgelegter Kriterien, das heißt einer Menge von Anfragen und deren Relevanzbewertungen bezüglich einer Sammlung von Dokumenten. Diese Vorgehensweise für die Evaluation von IR Systemen, die als Cranfield Paradigma bezeichnet wird, hat sich im Verlauf der letzten Jahrzehnte im Bereich des textuellen Retrievals nicht wesentlich weiterentwickelt. Im gleichen Zeitraum haben sich die eingesetzten Systeme in ihrem Aufbau sehr wohl verändert. Nicht nur die Komponenten, aus denen ein IR System besteht, sind für sich gesehen komplexer geworden. Auch die Vielfalt verfügbarer theoretischer Modelle ist wesentlich größer als zu Zeiten des Cranfield Paradigmas. Dies macht es zum heutigen Zeitpunkt nahezu unmöglich, für eine vorliegende Dokumentsammlung das Optimum im Sinne der Systemgenauigkeit aus dem Portfolio der wissenschaftlichen Modelle und Komponenten auszuwählen. Für Inhaltsanbieter, egal ob regionaler Zeitungsverlag oder Fernsehsender mit nationaler Reichweite, stellt sich unter anderem genau dieses Problem bei der Verwertung ihres Archivbestandes im Geschäftsfeld des Internets. Daher werfen diese Fakten im Kontext der textbasierten Suche die Frage nach neuen Methoden der vergleichenden Systembewertung auf. An dieser Schnittstelle setzt der hier vorgestellte Ansatz zur Evaluation auf Komponentenebene an. Die Idee des Vergleichs von Systemen auf Basis ihrer wesentlichen Bestandteile wurde bereits im Rahmen verschiedener Evaluationskampagnen vorgeschlagen. Ein allgemeiner Überblick wird in (Hanburry 2010) gegeben. Als Ausgangspunkt dient der Grid@CLEF Task (Ferro 2009). Dort wurde ein vierstufiges Konzept für die Evaluation von bilingualen Systemen vorgeschlagen. Basierend auf dieser Idee werden hier unterschiedliche Methoden für drei wesentliche Systemkomponenten anhand verschiedener Textkorpora verglichen. Als Testdaten dienen zwölf englischsprachige Kollektionen aus den CLEF1 und TREC2 Kampagnen mit entsprechenden Anfragen und Relevanzbewertungen. 1 Cross-Language Evaluation Forum: http://www.clef-campaign.org/, abgerufen am 08.11.2010 2 Text Retrieval Conference: http://trec.nist.gov/, abgerufen am 08.11.2010 Vergleich von IR-Systemkonfigurationen auf Komponentenebene 49 Die Bewertung von IR Systemen beruht im Normalfall auf einer Kennzahl wie Mean Average Precision (MAP) oder Geometric Mean Average Precision (GMAP). Beide Metriken repräsentieren die durchschnittliche Güte eines Systems auf einer Menge von Anfragen. Wir verwenden MAP und GMAP für den Vergleich der Konfigurationen. Diese Auswahl wird in Abschnitt vier näher begründet. Da wir zusätzlich über verschiedene Kollektionen hinweg vergleichen wollen, wenden wir eine Methode zur Normierung der Werte an, die ebenso in Abschnitt vier beschrieben wird. Die wesentlichen Beiträge dieser Forschungsarbeit sind die Vorstellung des experimentellen Aufbaus und der Ergebnisse einer umfassenden Evaluation auf Komponentenebene über mehrere englischsprachige Korpora hinweg. Darüber hinaus wird ein Werkzeug zur Visualisierung vorgestellt, mit dem sich die umfangreichen Evaluationsergebnisse vergleichen und interpretieren lassen. 2 Experimentaufbau In den vergangenen fünf Jahren wurde ein hochgradig flexibles Retrieval Framework entwickelt, dessen Konzept in (Kürsten 2008) dargestellt ist. Das System integriert die beiden wissenschaftlichen Tools Terrier (Ounis 2007) und Lemur (Ogilvie 2002) sowie das Open-Source Projekt Apache Lucene3. Im Rahmen der CLEF Kampagne wurden Erfahrungen gesammelt, um Einblicke in die Funktionsweise von IR Systemen zu gewinnen und das Zusammenspiel der Komponenten besser zu verstehen. Die in den Vergleichen erzielten Resultate hatten dabei durchweg unterschiedliche Güte und machen die eingangs formulierte These der Schwierigkeit der Auswahl einer möglichst optimalen Systemkonfiguration anhand eines vorgegebenen Datenkorpus offensichtlich. 2.1 Parameter der Evaluation Nachfolgend werden Evaluationsergebnisse vorgestellt, die über einen dreidimensionalen Parameterraum von Systemkonfigurationen aufgespannt wer- 3 Apache Lucene Suchmaschine: http://lucene.apache.org/, abgerufen am 08.11.2010 50 Jens Kürsten, Thomas Wilhelm und Maximilian Eibl den. Die erste wesentliche Komponente ist die Wortstammreduktion. In das verwendete Framework wurden fünf Varianten integriert und getestet: • Porter Stemmer (Porter 1997) • Krovetz Stemmer (Krovetz 1993) • UeaLite Stemmer (Jenkins 2005) • N-Gram Stemmer, mit N=4 und N=5 Die Auswahl der angegebenen Algorithmen zur Wortstammreduktion deckt drei unterschiedliche Ansätze ab. Der wohl am weitesten verbreitete Algorithmus nach (Porter 1997) steht für die Klasse der regelbasierten Verfahren. Der von (Krovetz 1993) beschriebene Algorithmus steht für die Gruppe der Ansätze, die die Probleme von zu starker oder zu schwacher Reduktion durch den Einsatz eines Wortbuchs abschwächen. Der UeaLite Stemmer aus (Jenkins 2005) setzt auf eine generell weniger stark ausgeprägte Reduktion. Der N-Gram Stemmer ist sprachenunabhängig aber dadurch gleichzeitig auch ungenauer. Aufgrund dessen ist er für den Einsatz auf mehrsprachigen Kollektionen besonders geeignet. In einer umfassenden Studie (McNamee 2009) über eine Reihe von Testkollektionen haben sich die angegebenen Varianten mit N=4 und N=5 auf Korpora in englischer Sprache im Vergleich als besonders robust erwiesen. Der Ranking Algorithmus, der in der Forschung von allen Komponenten am häufigsten untersucht wird, bildet die zweite Dimension des untersuchten Parameterraums. In der vorliegenden Studie werden 13 verschiedene Modelle, die zum Großteil im Terrier Framework (Ounis 2007) integriert sind, zur Evaluation ausgewählt. Die nachfolgende Liste enthält alle getesteten Varianten in drei wesentlichen Gruppen: • Klassische Modelle: TF-IDF, BM25 und Lucene • Modelle aus dem Divergence from Randomness (DFR) Framework: DFRee, DFR_BM25, DLH, DPH, BB2, IFB2, In_ExpB2 und PL2 • Linguistisch motivierte (LM) Modelle: HiemstraLM, DirichletLM Die erste Gruppe enthält mit dem Ranking Algorithmus von Lucene und TFIDF zwei ähnliche Modelle, die beide im Wesentlichen auf einer Kombination von Term- und inverser Dokumentfrequenz basieren. Der Hauptunterschied liegt in der flexiblen Gewichtungsmöglichkeit mithilfe der Lucene Programmierschnittstelle. Die aufgeführte Klasse der wahrscheinlichkeitsbasierten DFR Modelle wird bereits umfangreich im Rahmen der Dokumen- Vergleich von IR-Systemkonfigurationen auf Komponentenebene 51 tation4 des Terrier Frameworks beschrieben. Erwähnenswert ist hier die Sonderstellung der Modelle DLH und DPH, die aufgrund einer abgewandelten mathematischen Grundlage streng genommen in eine eigene Kategorie gehören. Die theoretische Basis der Gruppe der LM Algorithmen ist eine für jeden Dokumentkorpus spezifische Analyse der Wortverteilungen, die dann wiederum mit wahrscheinlichkeitsbasierten Annahmen in eine Dokumentrangfolge überführt wird. Die letzte Dimension des angedeuteten Parameterraums entsteht durch den Einsatz unterschiedlicher Modelle für automatisches Pseudo-Relevanzfeedback (PRF). In dieser Studie wurden die zwei Ansätze Kullback-Leiber und Bose-Einstein2, die ihre theoretische Grundlage ebenfalls im DFR Modell haben, mit Konfigurationen ohne PRF verglichen. Beim Einsatz von PRF haben die beiden zusätzlichen Parameter Dokumentanzahl und Termanzahl einen Einfluss auf die Güte der Ergebnisse. Daher wurden hierfür sieben verschiedene Ausprägungen der Dokumentanzahl und 13 Varianten für die Gesamtanzahl der letztlichen Erweiterungsterme ausgewählt. Die Variation der Ausprägungen der angegebenen Parameter ergibt 11,895 Systemkonfigurationen, die entsprechend für jeden der im nachfolgenden Abschnitt aufgeführten Testkorpora getestet wurden. Insgesamt wurden daher gut 140,000 Retrievalexperimente durchgeführt. 2.2 Testkorpora Für die Evaluation wurden unterschiedliche Korpora englischer Sprache ausgewählt, um Zusammenhänge zwischen der Art des Korpus in Bezug auf linguistische Merkmale und der Güte der Systemkonfigurationen zu untersuchen. In Tabelle 1 sind die verwendeten Korpora mit entsprechenden Metadaten gelistet. In der Menge der Testkorpora wurden vier wesentliche Typen identifiziert: (a) bibliothekarische Kataloge (LIB); (b) Beschreibungen multimedialer Daten (MM); (c) Nachrichtenartikel (NEWS); und (d) eine Sammlung manuell transkribierter Sprache (SPTR). Im Rest dieses Beitrags verwenden wir die Identifikation (ID) aus Tabelle 1, um ein entsprechendes Testkorpus zu benennen. Die Abkürzung KPN steht für die Evaluationskampagne, bei der die entsprechende Dokumentsammlung verwendet wurde. 4 Dokumentation zum Terrier Framework: http://terrier.org/docs/v3.0/dfr_description.html, abgerufen am 08.11.2010 52 Jens Kürsten, Thomas Wilhelm und Maximilian Eibl Die Spalte #QU gibt die Größe der für den jeweiligen Testkorpus verfügbaren Anfragemenge an. Tabelle 1. Testkorpora und deren Eigenschaften ID LIB1 LIB2 LIB3 LIB4 SPTR MM1 MM2 MM3 NEWS1 NEWS2 NEWS3 NEWS4 3 Name CSA-EN TEL (British Library) Federal Register GIRT4-EN (GESIS) 103rd Congress Rec. Belga Image Captions IAPR-TC12 Annotat. Wiki Images Financial Times Foreign Broadcast IS LA Times 1994 LA Times 1989/90 KPN CLEF CLEF TREC CLEF TREC CLEF CLEF INEX TREC TREC CLEF TREC Jahr 2007 2008 1997 2003 1997 2009 2007 2006 1997 1997 2009 1997 #Dok. 20,000 ~1,000,000 ~55,000 ~150,000 ~30,000 ~500,000 20,000 ~150,000 ~210,000 ~130,000 ~110,000 ~130,000 #QU 50 100 150 150 50 50 60 106 150 150 89 150 Ergebnisse Eine detaillierte Auswertung der gut 140,000 durchgeführten Experimente stellt aufgrund der schieren Datenmenge eine Herausforderung dar. Als Kennzahlen für die Systembewertung werden MAP und GMAP eingesetzt. In Tabelle 1 wird deutlich, dass für die Testkorpora unterschiedlich große Mengen von Anfragen verwendet wurden. In (Robertson 2006) wurde argumentiert, dass die Stabilität der MAP insbesondere auf kleineren Anfragemengen am höchsten ist. Ausgehend von dieser These verwenden wir daher MAP als Referenzmaß. Darüber hinaus führen wir die Güte der Systeme zusätzlich anhand der GMAP auf. Die Gründe dafür sind die ebenfalls in (Robertson 2006) angeführte Fokussierung auf die Robustheit von Systemen und den Aspekt, dass keines der beiden Maße besser oder schlechter ist als das jeweils andere. Ferner soll später beim Vergleich der Systemkonfigurationen die Möglichkeit bestehen, die für eine jeweilige Forschungsfrage passendere Kennzahl auszuwählen. In Tabelle 2 werden die besten Ergebnisse je Vergleich von IR-Systemkonfigurationen auf Komponentenebene 53 Testkorpus dem durchschnittlichen Ergebnis aller Systemkonfigurationen (AMAP, AGMAP) gegenübergestellt. Die Analyse der Resultate zeigt, dass sowohl die durchschnittliche Güte der Systemkonfigurationen als auch deren Verhältnis zur jeweils besten Konfiguration in Abhängigkeit von Korpus und Anfragemenge variiert. Betrachten wir jedoch das Verhältnis der beiden aufgelisteten Größen, so lässt sich feststellen, dass die beste Konfiguration für die MAP im Bereich von 22 bis 42 Prozent oberhalb der AMAP liegt. Wobei hier jedoch vier Testkorpora die obere Grenze um 40 Prozent markieren. Betrachtet man die Ergebnisse im Sinne der GMAP, so zeigt sich, dass genau diese vier Testkorpora die AGMAP mit 74 bis 130 Prozent besonders deutlich übertreffen. Tabelle 2. Durchschnittliche Güte der Systemkonfigurationen je Testkorpus im Verhältnis zur besten getesteten Systemkonfiguration nach MAP und GMAP ID LIB1 LIB2 LIB3 LIB4 SPTR MM1 MM2 MM3 NEWS1 NEWS2 NEWS3 NEWS4 AMAP 0.2878 0.2958 0.2403 0.3248 0.2225 0.4198 0.2380 0.2168 0.2717 0.2360 0.4521 0.2215 MAP 0.3776 (+31.20%) 0.4187 (+41.56%) 0.3361 (+39.84%) 0.4183 (+28.80%) 0.3203 (+43.92%) 0.5309 (+26.48%) 0.2916 (+22.49%) 0.2781 (+28.30%) 0.3306 (+21.68%) 0.3112 (+31.83%) 0.5864 (+29.70%) 0.2876 (+29.85%) AGMAP 0.2021 0.1584 0.0356 0.1911 0.0656 0.2995 0.0653 0.0798 0.0864 0.0574 0.2616 0.0901 GMAP 0.2971 (+47.00%) 0.2759 (+74.18%) 0.0817 (+129.63%) 0.2802 (+46.61%) 0.1390 (+112.08%) 0.4685 (+56.46%) 0.1028 (+57.46%) 0.1292 (+61.83%) 0.1430 (+65.55%) 0.1191 (+107.48%) 0.4239 (+62.02%) 0.1450 (+60.99%) Aus Tabelle 1 kann man wiederum ablesen, dass die Anzahl der Anfragen allein nicht für diese Schwankungen verantwortlich sein kann. Denn die Anfragemenge deckt das volle Spektrum zwischen 50 und 150 ab. Die restlichen Testkorpora schwanken beim Verhältnis GMAP zu AGMAP zwischen gut 47 und knapp 66 Prozent. Dies entspricht einem ähnlichen Bereich wie beim Verhältnis zwischen MAP und AMAP. Die absoluten Werte sind jedoch deutlich höher, was dafür spricht, dass die besten Systemkonfigurationen wesentlich robuster sind. Die hier dargelegten Daten ermöglichen noch keine 54 Jens Kürsten, Thomas Wilhelm und Maximilian Eibl Bewertung des Einflusses einzelner Komponenten auf die Güte der Ergebnisse. Die Voraussetzungen für eine vergleichende Bewertung der Systemkonfigurationen auch über mehrere Testkorpora werden im nachfolgenden Abschnitt diskutiert. 4 Vergleich der Systemkonfigurationen Aus Forschungssicht interessanter als die Güte des besten Systems für jedes Testkorpus zu bestimmen, ist die vergleichende Bewertung der Konfigurationen über eine Menge von Korpora. Darüber hinaus stellt sich dann vielmehr die Frage, welche Zusammenhänge zwischen Testkorpus und Systemkonfiguration in Bezug auf die Güte der Retrievalergebnisse existieren. Um sich dieser Fragestellung anzunehmen und eine Vergleichbarkeit über Korpora hinweg zu gewährleisten, müssen die Ergebnisse in geeigneter Form normiert werden. Zu diesem Thema existieren bereits Forschungsarbeiten, deren Kernideen nachfolgend kurz skizziert werden. Ist diese Normierung erfolgt, können die Ergebnisse in entsprechender Form aufbereitet werden, um einen Vergleich auch über verschiedene Korpora hinweg zu ermöglichen. Da die Darstellung von knapp 12,000 Experimenten in traditioneller Form mittels Tabellen oder statischen Grafiken nicht gelingen kann, stellen wir ein interaktives Werkzeug zur visuellen Interpretation vor. 4.1 Normierung der Ergebnisse In (Mizarro 2007) werden die Evaluationsdaten für eine spätere Netzwerkanalyse normiert. Dabei erfolgt die Standardisierung der Ergebnisse anhand der Systemgüte im Sinne von MAP oder GMAP, einerseits durch Subtraktion des durchschnittlichen Ergebnisses für eine Anfrage und andererseits durch Subtraktion des Durchschnittswerts für ein System. In weiteren Publikationen wurde diskutiert, die Normierung anhand des besten Wertes je Anfrage durchzuführen. Ein weiterer Ansatz zur Standardisierung (Webber 2008) schlägt hingegen vor, für ein System vergleichbare Ergebnisse auch auf unterschiedlichen Korpora zu erzeugen. Dazu wird zusätzlich zur einfachen Normierung auch die Varianz von Retrievalergebnissen betrachtet, was eine Vergleich von IR-Systemkonfigurationen auf Komponentenebene 55 Auswahl von Anfragen ermöglicht, mit der dann vergleichbare Gesamtergebnisse erzielt werden können. In unserem konkreten Fall ist die Varianz der Ergebnisse der Systemkonfigurationen von Interesse. Denn sie ist der womöglich einzige Anhaltspunkt für die Zusammenhänge zwischen Korpuseigenschaften und Systemkonfigurationen. Daher wurde die in (Mizarro 2007) vorgeschlagene Strategie angewendet und die Ergebnisse für MAP und GMAP jeweils anhand der durchschnittlichen Güte aller Systemkonfigurationen je Anfrage normiert. Damit wird für jede Konfiguration jeweils ein normierter Wert MAPn und GMAPn ermittelt. Die Formeln (1) und (2) verdeutlichen den Prozess zur Normierung anhand der MAPn. Dabei steht AP(si, tj) für die Average Precision von Systemkonfiguration i für Anfrage j und AAP(tj) für die durchschnittliche Average Precision aller Konfigurationen für Anfrage j. (1) (2) Der Nachweis der Äquivalenz zwischen MAP und MAPn respektive GMAP und GMAPn wurde ebenfalls in (Mizarro 2007) geführt. Die Äquivalenzbeziehung zwischen MAP und MAPn respektive GMAP und GMAPn macht eine Auflistung der normierten Ergebnisse analog zu Tabelle 2 überflüssig. 4.2 Interaktive Visualisierung Aus Sicht der Autoren ist ein Vergleich von Systemkonfigurationen und deren Komponenten am besten visuell und interaktiv realisierbar. Die Datenvisualisierung ist ein eigenes Forschungsgebiet, deren Inhalte hier nicht näher erläutert werden sollen. Vielmehr wird es als Mittel zum Zweck eingesetzt. Zur Visualisierung von mehrdimensionalen Daten wird in der Literatur häufig das Prinzip paralleler Koordinaten (Wegman 1990) vorgeschlagen. Daher soll dieser Ansatz hier als Grundlage dienen. Zur Realisierung wird die freie Programmbibliothek Protovis5 der Forschergruppe Visualisierung an der Stanford Universität verwendet. 5 JavaScript Bibliothek 08.11.2010 Protovis: http://vis.stanford.edu/protovis/, abgerufen am 56 Jens Kürsten, Thomas Wilhelm und Maximilian Eibl Abbildung 1 zeigt das Visualisierungswerkzeug. Die Säule ganz rechts steht für die Güte der Konfiguration in Bezug auf die Rechercheergebnisse. Alle weiteren Säulen spannen den Parameterraum auf. Die Farbgebung6 verdeutlicht den Einfluss der Konfiguration auf die Recherchequalität, dabei steht grün für gute und rot für schlechte Ergebnisse. Die Nutzung des Werkzeugs erfolgt in zwei Schritten. Zuerst wird aus der Datenbasis eine gewünschte Untermenge selektiert. Diese Auswahl erfolgt durch Einschränkung der Parameter, der Güte der Ergebnisse oder einer Kombination aus beiden. Abbildung 1: Visualisierung der Ergebnisse der mehrdimensionalen Systemkonfigurationen für ein ausgewähltes Testkorpus. Die Säulen 1–6 stellen den Parameterraum dar, Säule 7 die Güte (MAP) der Retrievalergebnisse. Im folgenden Schritt können die ausgewählten Daten interaktiv verglichen werden. Dazu kann auf jeder Säule ein Bereich markiert werden, der sich verschieben lässt, um unterschiedliche Konfigurationen der entsprechen6 Der Prototyp zur Visualisierung ist online erreichbar unter: http://sachsmedia.tv/compeval/, abgerufen am 08.11.2010 Vergleich von IR-Systemkonfigurationen auf Komponentenebene 57 den Komponente zu vergleichen. Im dargestellten Beispiel wurden der Korpus CLEF2008-AH-TEL, der Krovetz Stemmer, vier Ranking Modelle sowie kein PRF und das PRF Modell KLCorrect ausgewählt. Exemplarisch wurde in der Visualisierung auf der Säule PRF Dokumente eine Einschränkung auf 9 Dokumente vorgenommen. Die MAP für die selektierten Systemkonfigurationen liegt zwischen 13 und 42 Prozent. Die Ergebnisse der im Beispiel ausgewählten Konfigurationen sind farblich hervorgehoben. Zu erkennen ist eine Kumulation im Bereich von 13 bis 26 Prozent MAP und eine zweite im Bereich von 36 bis 42 Prozent. Über die MAP Säule kann die Darstellung auf ausgewählte Retrievalergebnisse reduziert werden, um beispielsweise eine besonders gute oder schlechte Konfiguration zu identifizieren. 5 Fazit und Ausblick Zur vergleichenden Bewertung der am Retrievalprozess beteiligten Systemkomponenten wurden die umfangreichen Ergebnisse der vorgestellten experimentellen Studie in eine interaktive, grafische Darstellung überführt. Das Werkzeug erlaubt es, jede Dimension und die Zielmetrik des untersuchten Parameterraumes gezielt einzuschränken. Das in Abschnitt vier dargelegte Beispiel zeigt, dass sowohl die Auswirkungen einzelner Parameter als auch die Wechselwirkungen zwischen den Komponenten auf einen oder mehrere Testkorpora analysiert werden können. Damit lassen sich Rückschlüsse auf die Robustheit der jeweiligen Systemkonfigurationen ziehen. Für weitere Arbeiten existieren bereits wesentliche Ansatzpunkte. So ist beispielsweise eine Verbesserung der Auswahlmechanismen des Werkzeugs geplant. Die Möglichkeit Koordinaten aus der Darstellung zu entfernen, würde es erlauben, auf bestimmte Aspekte der Konfiguration konzentrierter eingehen zu können. 58 Jens Kürsten, Thomas Wilhelm und Maximilian Eibl Danksagung Diese Arbeit wurde teilweise von Mitarbeitern der Forschungsinitiative sachsMedia (www.sachsmedia.tv) realisiert, die im Rahmen des Förderprogramms Unternehmen Region vom BMBF finanziert wird. Referenzen Ferro, N. und Harman, D. (2009). CLEF 2009: Grid@CLEF pilot track overview. In: Multilingual Information Access Evaluation I. Text Retrieval Experiments, 10th CLEF Workshop, Corfu, Greece Hanburry, A. und Müller, H. (2010). Automated Component-Level Evaluation: Present and Future. In: Multilingual and Multimodal Information Access Evaluation, Padua, Italy Jenkins, M. C. und Smith, D. (2005). Conservative stemming for search and indexing. In: Proceedings of the 28th international ACM SIGIR conference, Salvador, Brazil Kürsten, J., Wilhelm, T., und Eibl, M. (2008). Extensible retrieval and evaluation framework: Xtrieval. LWA 2008: Lernen – Wissen – Adaption, Workshop Proceedings, Germany Krovetz, R. (1993). Viewing morphology as inference process. In: Proceedings of the 16th international ACM SIGIR conference, pp. 191–202, Pittsburgh, USA McNamee, P., Nicholas, C., und Mayfield, J. (2009). Addressing morphological variation in alphabetic languages. In: Proceedings of the 32nd international ACM SIGIR conference, pp. 75–82, July 19–23, Boston, USA Mizarro, S. und Robertson, S. (2007). Hits hits TREC: exploring IR evaluation results with network analysis. In: Proceedings of the 30th international ACM SIGIR conference, pp. 479–486, Amsterdam, Netherlands Ogilvie, P. und Callan, J. (2002). Experiments using the Lemur toolkit. In: Proceedings of the 2001 Text Retrieval Conference, pp. 103–108. National Institute of Standards and Technology, special publication 500-250, USA Ounis, I., Lioma, C., Macdonald, C., und Plachouras, V. (2007). Research directions in terrier: a search engine for advanced retrieval on the Web. Novatica/UPGRADE Special Issue on Next Generation Web Search, pp. 49–56 Vergleich von IR-Systemkonfigurationen auf Komponentenebene 59 Porter, M. F. (1997). An algorithm for suffix stripping. In: Multimedia information and systems series – Readings in information retrieval, pp. 313–316, San Francisco, USA Robertson, S. (2006) On GMAP: and other transformations. In: Proceedings of the 15th ACM CIKM conference, pp. 78–83, Arlington, USA Webber, W., Moffat, A., und Zobel, J. (2008). Score standardization for inter-collection comparison of retrieval systems. In: Proceedings of the 31st international ACM SIGIR conference, pp. 51–58, Singapore Wegman, E. J. (1990). Hyperdimensional data analysis using parallel coordinates. In: Journal oft he American Statistical Association, Vol. 85, No. 411, pp. 664–675, USA 60 Jens Kürsten, Thomas Wilhelm und Maximilian Eibl Vergleich von IR-Systemkonfigurationen auf Komponentenebene Session 2: Informationsinfrastruktur 61 62 R. Barkey, E. Hinrichs, C. Hoppermann, T. Trippel, C. Zinn Komponenten-basierte Metadatenschemata und Facetten-basierte Suche Ein flexibler und universeller Ansatz Reinhild Barkey, Erhard Hinrichs, Christina Hoppermann, Thorsten Trippel, Claus Zinn Seminar für Sprachwissenschaft und SFB 833 – Universität Tübingen Wilhelmstr. 19, D-72074 Tübingen E-Mail: [email protected] Zusammenfassung Wenn man verschiedenartige Forschungsdaten über Metadaten inhaltlich beschreiben möchte, sind bibliografische Angaben allein nicht ausreichend. Vielmehr benötigt man zusätzliche Beschreibungsmittel, die der Natur und Komplexität gegebener Forschungsressourcen Rechnung tragen. Verschiedene Arten von Forschungsdaten bedürfen verschiedener Metadatenprofile, die über gemeinsame Komponenten definiert werden. Solche Forschungsdaten können gesammelt (z.B. über OAI-PMH-Harvesting) und mittels Facetten-basierter Suche über eine einheitliche Schnittstelle exploriert werden. Der beschriebene Anwendungskontext kann über sprachwissenschaftliche Daten hinaus verallgemeinert werden. Abstract The content description of various kinds of research data using metadata requires other than bibliographical data fields that are alone not sufficient for this purpose. To properly account for research data, other metadata fields are required, often specific to a given research data set. Consequently, metadata profiles adapted to different types of resources need to be created. These are defined by building blocks, called components, that can be shared across profiles. Research data described in this way can be harvested, for example, using OAI-PMH. The resulting metadata collection can then be explored via a unified interface using faceted browsers. The described application is in the area of linguistic data, but our approach is also applicable for other domains. Komponenten-basierte Metadatenschemata und Facetten-basierte Suche 1 63 Beschreibungsprofile für Klassen von Ressourcen Wissenschaftliche und andere Publikationen werden in der Regel mit strukturierten Beschreibungen, Metadaten, versehen, wie z.B. mit bibliografischen Angaben zu Autoren, Publikationstitel, Verlagshaus und Erscheinungsjahr, sowie mit einer Klassifikation oder Verschlagwortung. Diese Metadaten erlauben das Auffinden von Publikationen innerhalb von (Bibliotheks-) Katalogen. Auf diese Weise kann auch innerhalb einer wissenschaftlichen Arbeit auf andere publizierte Arbeiten verwiesen werden. Gleichzeitig helfen Schlagworte, verwandte Arbeiten grobkörnig zu gruppieren. Für Druckerzeugnisse hat sich als Beschreibungssystem eine Kernmenge von Datenkategorien für Metadaten etabliert, die Dublin-Core-Kategorien (Hillmann, 2005). Viele dieser Kategorien sind für Forschungsprimärdaten nicht relevant oder nicht aussagekräftig, um durch die Beschreibung einem möglichen Benutzer einen hinreichenden Eindruck zu geben, um was für eine Ressource es sich überhaupt handelt. Unterschiedliche Klassen von Ressourcen benötigen dabei unterschiedliche Beschreibungsebenen. So sind etwa für die Sprachtechnologie Informationen zu Audioformaten von Aufnahmen wichtig, wohingegen für Textkorpora eher der Zeichensatz eine Rolle spielt, für lexikalische Ressourcen die Struktur der einzelnen Einträge, für Fragebogenauswertungen die Größe der Stichprobe und Methode, etc. Aus diesen Beispielen wird deutlich, dass die benötigten Beschreibungsdimensionen für Ressourcen stets vom Ressourcentyp abhängen, auch wenn für Archivierungszwecke allgemeine bibliografische Kategorien für alle Typen Anwendung finden können. Daher ist es notwendig, basierend auf einem Klassifikationssystem für Ressourcen und möglichen Prototypen Beschreibungsmuster zu definieren, die in Abhängigkeit vom Ressourcentyp auf die jeweilige Ressource angewendet werden können. Diese Beschreibungsmuster bilden Profile für Metadaten. 64 2 R. Barkey, E. Hinrichs, C. Hoppermann, T. Trippel, C. Zinn Komponentenbasierte Metadatenbeschreibungen Profile für unterschiedliche Ressourcentypen sind nicht überschneidungsfrei, weil bestimmte Beschreibungsebenen, wie z.B. bibliografische Informationen, häufig von verschiedenen Ressourcentypen verwendet werden. Somit können auch Beschreibungen unterschiedlicher Ressourcentypen Ähnlichkeiten aufweisen. Um die Wiederverwendung von gemeinsamen Datenkategorien und Beschreibungsstrukturen sowohl bei der Erstellung als auch bei der Interpretation von Beschreibungen zu gewährleisten, wurde ein System für Metadaten entwickelt, bei dem zusammengehörige Datenkategorien und strukturen zu Komponenten zusammengefasst werden. Komponenten sind dabei zunächst Mengen von beschreibenden Datenkategorien. Diese wiederum können selbst zu größeren Komponenten kombiniert werden, um schließlich für einen Ressourcentyp als ein Beschreibungsprofil Verwendung zu finden. Damit werden Komponenten als Bausteine für Profile verwendet, wobei die gleichen Komponenten innerhalb verschiedener Profile enthalten sein können. Im Rahmen des EU-Projektes CLARIN (www.clarin.eu) wurde zur systematischen Verwendung von Komponenten ein Metadatenschema, die Component MetaData Infrastructure (CMDI, siehe Broeder et al., 2010, siehe auch htttp://www.clarin.eu/cmdi), entwickelt. Neben einer Beschreibungssprache für Profile und Komponenten enthält diese Infrastruktur dazu auch weitere Werkzeuge, sowohl Editoren als auch Analysewerkzeuge. Diese operieren unabhängig vom Ressourcentyp auf bestimmten Datenkategorien.1 Bestehende Metadatenstandards wie Dublin Core (Coyle und Baker, 2008), OLAC (Simons und Bird, 2008) oder der TEI-Header (TEI P5, 2007) können als Profile oder auch als Komponenten dargestellt werden, sodass ein Komponentenmodell mit Profilen als Obermenge bestehender Metadatenschemas angesehen werden kann. So werden die bibliografischen Informationen in den Metadaten einer Ressource für Archiv- und Bibliothekskataloge ver1 Die Implementierung hätte dabei auch mittels XML-Namespaces erfolgen können, dies allerdings zu Lasten einer erhöhten Komplexität, da potenziell die volle Ausdrucksmächtigkeit von XSchema zur Verfügung gestanden hätte. Die vorliegenden Werkzeuge dagegen basieren zwar auf XSchema, operieren aber auf einer Teilmenge davon und enthalten Restriktionen, die zu einer leichteren Handhabung führen. Komponenten-basierte Metadatenschemata und Facetten-basierte Suche 65 wendbar. Andere Datenkategorien dagegen, wie z.B. die Angabe von Annotationstypen bei linguistischen Korpora, werden von allgemeinen Kataloganwendungen ignoriert, aber von spezialisierten Suchmaschinen oder Diensten verwendet. Um auch institutionsübergreifend die Verwendung gleicher Komponenten und Profile zu ermöglichen, wurde im Rahmen von CMDI die Component Registry veröffentlicht. Dabei handelt es sich um ein Verzeichnis, das zentral Komponenten und Profile sowohl zur Weiterverwendung in Institutionen und Projekten als auch zur Validierung konkreter Instanzen zur Verfügung stellt. Die Komponenten erhalten dort einen persistenten Identifikator (Persistent Identifier oder PID, siehe ISO 24619), auf den sowohl von anderen Komponenten als auch Instanzen verwiesen werden kann und der über ein HandleSystem zu einer URL aufgelöst wird. Innerhalb der Komponenten werden die Datenkategorien mit einer Referenz auf bereits standardisierte oder im Standardisierungsprozess befindliche Datenkategorien verwendet, die in einem Verzeichnis definiert und nachhaltig dokumentiert werden. Bei diesem Verzeichnis für Datenkategorien handelt es sich um ISOcat, das aus dem Bereich der Sprachressourcen der International Organization of Standardization (ISO, siehe ISO 12620:2009, siehe auch http://www.isocat.org) stammt. Die Referenz auf in ISOcat definierte Datenkategorien innerhalb der Komponenten ermöglicht es, dass Datenkategorien von unterschiedlichen Erstellern von Metadateninstanzen in gleicher Weise verstanden werden. Außerdem können Probleme wie nicht der Definition entsprechende entfremdete Verwendungen der Datenkategorien (d.h. Tag Abuse) eingedämmt werden. In den Komponentendefinitionen von CMDI können zudem kontrollierte Vokabulare angegeben werden. Diese können ebenfalls dazu beitragen, das Problem des Tag Abuse zu minimieren, da Datenkategorien durch das kontrollierte Vokabular formal auf ihre Konsistenz geprüft werden können. Gleichzeitig gibt es auch Freitextfelder wie Zusammenfassungen und Beschreibungen, deren Inhalt nicht genauer reglementiert wird. Der Gebrauch von Datenmodellen ist nach Maßgabe der zugrundeliegenden Schemasprache möglich. Im Rahmen des CMDI-Datenmodells ist dies mit der Verwendung von XSchema sehr weitgehend umgesetzt worden, angefangen von Datumsformaten bis zu regulären Ausdrücken für Zeichenkettendefinitionen. Abbildung 1 stellt eine Anwendung des Komponentenmodells für linguistische Korpora dar. Die Komponenten (durch Rechtecke repräsentiert) können dabei selbst weitere Komponenten enthalten. So ist z.B. die Komponente 66 R. Barkey, E. Hinrichs, C. Hoppermann, T. Trippel, C. Zinn zur Annotation innerhalb der Komponente zur Erstellung der Ressource (Creation) eingebunden. Komponenten sind dabei unterschiedlich komplex (illustriert durch die Dimensionen der Rechtecke), können aber in verschiedenen Profilen und Komponenten erscheinen. Beispielsweise wird die in der vorliegenden Implementierung verwendete Komponente GeneralInfo in fast allen Profilen für unterschiedliche Ressourcentypen eingebunden. Tochterkomponenten und Datenkategorien können nebeneinander in Komponenten erscheinen (in der Abbildung: Datenkategorien mit durchgezogenen Kanten). Abbildung 1: Komponentenmodell für Metadaten zur Beschreibung von linguistischen Korpora. Komponenten-basierte Metadatenschemata und Facetten-basierte Suche 3 67 Verbreitung von Metadaten über OAI-PMH Für den Austausch von Metadaten in Archiven hat sich im Rahmen der Open Archive Initiative ein Containerformat etabliert: das Open Archive Initiative Protocol for Metadata Harvesting (siehe OAI-PMH, 2008). Obwohl OAIPMH im Wesentlichen zum Austausch von Dublin-Core-Daten für Kataloginformationen zwischen Bibliotheken gedacht war, erlaubt es dieses Protokoll dennoch, z.B. mithilfe von Namespaces, auch weitere Metadatenformate einzubinden. Auf diese Weise können detaillierte Metadaten nach dem Komponentenmodell über einen OAI-PMH-Server bereitgestellt werden. Die einzige Voraussetzung dabei ist, dass es – möglicherweise zusätzlich zu diesen spezifischen Metadaten – bibliografische Metadaten nach Dublin Core gibt, wenn der verwendende Service auf Dublin Core Metadaten beschränkt ist. Services, die von Dublin Core unabhängig sind, benötigen diese Abbildung nicht. CMDI Informationen können damit direkt in OAI-PMH-Containern eingebunden und verteilt werden. Da ein Komponentenmodell detailreicher ist und in Dublin Core die Datenkategorien optional sind, gibt es immer eine verlustbehaftete Abbildung dieser Komponenten-Metadaten nach Dublin Core. Um eine vollständigere Abbildung von den detailreicheren Metadaten auf Dublin Core vorzunehmen, ist eine profilspezifische Anpassung nötig. So kann eine Person, die in einer Projektleiterkomponente einer Ressource erscheint, in Abhängigkeit vom Ressourcentyp in Dublin Core als Herausgeber oder als Autor aufgefasst werden. Dies kann automatisiert beim Bereitstellen auf dem OAI-PMH-Server erfolgen, sodass keine redundante Dateneingabe erfolgen muss. Die über OAI-PMH-Server bereitgestellten Metadaten können automatisiert mit Crawlern und Webservices erfasst werden. Zur Zeit werden Metadatenbestände unter anderem von den folgenden sprachwissenschaftlichen Institutionen semiautomatisch erfasst und ausgewertet: MPI Nijmegen, Universität Leipzig, Bayerisches Archiv für Sprachdaten, Universität Stuttgart, Universität Tübingen, Berlin-Brandenburgische Akademie der Wissenschaften und linguistische Sonderforschungsbereiche der DFG. 68 4 R. Barkey, E. Hinrichs, C. Hoppermann, T. Trippel, C. Zinn Verwendung von komponentenbasierten Metadaten für die Facetten-basierte Suche Ein wesentliches Problem bei der Weiterverwendung von Forschungsprimärdaten in anderen Kontexten und der Überprüfung von Ergebnissen anhand der Daten – was zum Beispiel durch die Deutsche Forschungsgemeinschaft gefordert wird (DFG, 2009) – ist neben der Langzeitarchivierung auch und gerade die Auffindbarkeit der Daten (Rehm, et al., 2010). Dies umfasst zunächst nicht den Zugang zu den Forschungsprimärdaten, sondern die Auffindbarkeit ihrer formalen Beschreibungen, wie sie beispielsweise in Bibliothekskatalogen für Schriften vorliegen. Dabei stellt die große Variation von Metadatenkategorien in Abhängigkeit von den Klassen von Ressourcen eine Herausforderung dar. Volltextsuchen über die Metadaten sind für diesen Zweck nur bedingt hilfreich, da sie die in Datenkategorien und Metadatenstrukturen implizit enthaltenen Informationen nicht auswerten. Auch klassische formularbasierte Suchen, die oft als „erweiterte Suche“ bezeichnet werden, sind durch die Variabilität der Metadatenschemas mit unterschiedlichen Komponenten stark eingeschränkt, weil sie nicht alle Varianten berücksichtigen können, ohne zu umfangreich und unübersichtlich zu werden. Um diese Probleme zu vermeiden, kann man ein Facetten-basiertes Suchsystem (siehe Hearst, 2006) einsetzen, das alle Datensätze eines Datenbestandes mithilfe von Ausprägungen wohldefinierter Facetten beschreibt. Dazu werden einem Datensatz in der Regel mehr als eine Kategorie (Teilmenge) zugeordnet. Die Abbildung zwischen Facetten und Metadatenfeldern diverser Metadatenprofile wird dabei durch den oben beschriebenen Komponenten-basierten Ansatz enorm vereinfacht. Dies liegt daran, dass eventuelle Ambiguitäten in der Lesart durch Referenz auf das Verzeichnis von Metadatenkategorien (www.isocat.org) leicht aufgelöst werden können. Der Benutzer eines Faceted Browsers erhält bereits zu Suchbeginn eine Facetten-basierte Übersicht über den gesamten Datenbestand. Abbildung 2 veranschaulicht dies am Beispiel des im Projekt „Nachhaltigkeit Linguistischer Daten“ (NaLiDa, http://www.sfs.uni-tuebingen.de/nalida) entwickelten Faceted Browsers, der einen Zugang zu sprachwissenschaftlichen Forschungsprimärdaten auf der Basis von komponentenbasierten Metadaten erlaubt. Sichtbar sind in der Abbildung die Facetten origin (Quelle eines Datensatzes), modality (Modalität der Ressource), resourcetype (Ressourcentyp), country (Ursprungsland), language (Sprache der Ressource) und or- Komponenten-basierte Metadatenschemata und Facetten-basierte Suche 69 ganisation (Institution, an der diese Ressource entstanden ist) sowie ihre Facettenausprägungen und die Anzahl der Datensätze, die mit den jeweiligen Ausprägungen beschrieben sind. Durch die Auswahl einer Facettenausprägung (z.B. die Facette resourcetype mit Ausprägung corpus) setzt der Nutzer einen Filter, der den Suchraum entsprechend verkleinert. Die ausgewählten Datensätze (Anzahl 4499) werden so wiederum umgehend mithilfe der verbliebenen Facetten beschrieben, sodass der Nutzer gezielt durch Suchräume navigieren kann. Auf diese Weise kann ein Nutzer etwa alle Ressourcen identifizieren, die zugleich aus einem bestimmten Korpus stammen und einer bestimmten Sprache zugeordnet werden. In diesem Suchkontext fächert der Faceted Browser die ausgewählten Ressourcen u.a. bezüglich der Ausprägungen der Facette genre auf. Nutzer können so ihre Suche nach einem deutschsprachigen Korpus mit Dialogdaten oder Diskursdaten verfeinern. Abbildung 2: Der NaLiDa-Faceted-Browser zum Metadaten-basierten Zugriff auf Forschungsprimärdaten in der Sprachwissenschaft. 70 R. Barkey, E. Hinrichs, C. Hoppermann, T. Trippel, C. Zinn Für die sehr großen und heterogen Datenbestände in der Sprachwissenschaft ist die Einführung bedingter Facetten hilfreich. Bedingte Facetten sind solche, die nur für bestimmte Typen von Ressourcen relevant sind und die dem Nutzer erst nach Vorauswahl von einigen allgemeinen, sogenannten unbedingten Facetten angezeigt werden. Somit erlauben sie eine feinkörnigere Suche in Teilräumen von Metadatensätzen. Beispielsweise wird die bedingte Facette genre mit ihren Ausprägungen discourse, poetry, story-telling, etc. nur angezeigt, wenn Datensätze vom Ressourcetyp corpus weiter exploriert werden sollen. Werden vom Nutzer hingegen Datensätze vom Ressourcentyp tool ausgewählt, wird ihre weitere Exploration durch die Einführung der bedingten Facette tooltype (mir ihren Ausprägungen spell checker, POS tagger, named entity recognizer, etc.) erleichtert. Abbildung 3: Architektur eines Metadaten-basierten Zugangs zu Forschungsprimärdaten. Diese Benutzerschnittstelle ist unabhängig von der Datenhaltung der Forschungsprimärdaten, erlaubt aber über die persistenten Identifikatoren (PIDs) der Forschungsprimärdaten die Verbindung zwischen beiden. Abbildung 3 illustriert die Architektur eines Systems, in dem Metadaten und Primärdaten Komponenten-basierte Metadatenschemata und Facetten-basierte Suche 71 konzeptionell getrennt sind und unterschiedlichen Rechteverwaltungs- und Zugangssystemen unterstehen. Die Metadaten-Objekte sind in einem Metadata Repository offen zugänglich und damit lesbar. Sie können von unterschiedlichen Services verwendet werden. Der Zugang zu Primärdaten erfordert dagegen sowohl die Authentifizierung als auch die Überprüfung der speziellen Rechte eines Benutzers, die Autorisierung. Die Suche und die Auflösung von persistenten Identifikatoren auf URLs können dabei wiederum unabhängig als Service realisiert werden. 5 Zusammenfassung und weiterführende Arbeiten In diesem Beitrag haben wir die Grundzüge von Komponenten-basierten Metadatenmodellen skizziert und aufgezeigt, wie flexibel ein solches System auf unterschiedliche Ressourcentypen angewendet werden kann. Dabei erweist sich ein Faceted Browser als hervorragendes Werkzeug, um erfahrenen Nutzern wie auch Anfängern einen einheitlichen Zugriff auf Kollektionen von Metadatensätzen zu geben. Die Einführung bedingter Facetten sorgt zudem dafür, dass Navigationselemente dynamisch und kontextsensitiv bereitgestellt werden und bringt somit Nutzern eine zusätzliche Unterstützung zur schnellen und strukturierten Exploration großer Datenmengen. Nach der ersten Implementierung eines Faceted Browsers auf der Basis von CMDI-Komponentenmetadaten für unterschiedliche Korpora, Lexika und computerlinguistische Werkzeuge, sollen in einem nächsten Arbeitsschritt Profile für weitere Ressourcentypen geschaffen und die Inhaltsmodelle von Komponenten überprüft und bei Bedarf angepasst werden. Diese Komponenten sind ferner über die Component Registry zur Weiterverwendung bereit zu stellen. Ein wichtiger, bereits initiierter Schritt besteht darin, das Komponentenmodell selbst und eine Implementierungssprache für Komponenten in den Standardisierungsprozess im Rahmen der ISO einzubringen. Dies soll dazu führen, dass langfristig und transparent Dienstleistungen für die Forschung und Ressourcengemeinschaft aufgebaut werden können. Zur Erweiterung des Systems wird außerdem versucht, weitere Archive und Daten produzierende Projekte mit einzubeziehen und gegebenenfalls bei 72 R. Barkey, E. Hinrichs, C. Hoppermann, T. Trippel, C. Zinn der Erstellung von Metadatenbeispielen für ihre Datentypen zu unterstützen. Dies soll dazu führen, dass Forschungsprimärdaten langfristig zur Weiterverwendung, Referenz und als Forschungs- und Ergebnisbeleg verfügbar sind. Literaturverzeichnis Broeder, D.; Kemps-Snijders, M.; Van Uytvanck, D.; Windhouwer, M.; Withers, P.; Wittenburg, P.; Zinn, C. (2010): “A Data Category Registry- and Componentbased Metadata Framework”. Proceedings of the 7th conference on International Language Resources and Evaluation. Coyle, K.; Baker, Thomas (2009): Guidelines for Dublin Core Application Profiles. Dublin Core Metadata Initiative, 2009-05-18. http://dublincore.org/documents/2009/05/18/profile-guidelines/ DFG (2009): Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten. Deutsche Forschungsgemeinschaft, Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme, Unterausschuss für Informationsmanagement, 2009. http://www.dfg.de/download/pdf/foerderung/programme/lis/ua_inf_empfehlungen_20 0901.pdf Hearst, M. (2006): “Design Recommendations for Hierarchical Faceted Search Interfaces”. ACM SIGIR Workshop on Faceted Search. Hillmann, D. (2005): Using Dublin Core – The Elements. Dublin Core Metadata Initiative, 2005-11-07. http://dublincore .org/documents/2005/11/07/usageguide/elements.shtml ISO 12620:2009: Terminology and other language and content resources – Specification of data categories and management of a Data Category Registry for language resources. International Organization of Standardization, Genf. http://www.isocat.org ISO/DIS 24619:2010: Language resource management -- Persistent identification and sustainable access (PISA). International Organization of Standardization, Genf. http://www.isocat.org OAI-PMH (2008): The Open Archives Initiative Protocol for Metadata Harvesting. Protocol Version 2.0 of 2002-06-14, Document Version 2008-12-07. http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm Rehm, G., Schonefeld, O., Trippel, T. Witt, A. (2010): Sustainability of Linguistic Resources Revisited. Proceedings of the International Symposium on XML for Komponenten-basierte Metadatenschemata und Facetten-basierte Suche 73 the Long Haul: Issues in the Long-term Preservation of XML. Balisage Series on Markup Technologies, vol. 6 (2010). doi:10.4242/Balisage/Vol6.Witt01 Simons, G.; Bird, S. (2008): OLAC Metadata. Open Language Archive Community, 2008-05-31. http://www.language-archives.org/OLAC/metadata-20080531.html TEI P5 (2007): TEI Guidelines. Text Encoding Initiative, 1. November 2007. http://www.tei-c.org/Guidelines/P5/ 74 Ina Dehnhard, Peter Weiland Toolbasierte Datendokumentation in der Psychologie Ina Dehnhard, Peter Weiland Leibniz-Zentrum für Psychologische Information und Dokumentation D-54286 Trier E-Mail: dehnhard@zpid, [email protected] Zusammenfassung Das Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) stellt mit PsychData seit 2002 ein auf Forschende in der Psychologie ausgerichtetes Datenarchiv zur Verfügung. In diesem Beitrag werden die Herausforderungen der Forschungsdatendokumentation im Fach Psychologie dargestellt, und es wird ein im Rahmen des Projekts entwickeltes Werkzeug vorgestellt, das insbesondere in der forschungsbegleitenden Dokumentation eingesetzt werden kann. Abstract Since 2002, the Leibniz Institute for Psychology Information is operating a data archive supporting researchers in psychology. This paper discusses the challenges of documenting research data in psychology and related disciplines. Moreover, a Web application is presented which has been developed for data documentation during the research process. Einleitung Psychologie versteht sich als empirische Wissenschaft, deren Erkenntnisfortschritt auf der Gewinnung und Verarbeitung von Forschungsdaten beruht (Erdfelder, 1994). Die aufgrund der Daten ermittelten Ergebnisse werden dann in Publikationen der Forschungsgemeinschaft zur Verfügung gestellt. Toolbasierte Datendokumentation in der Psychologie 75 Während früher im Anhang einer Publikation noch die Daten veröffentlicht wurden (z.B. Donders, 1868) und so also direkt verfügbar waren, ist es heute schwieriger, an die Datenbasis einer Veröffentlichung zu gelangen (Wicherts et al., 2006). Trotz des enormen Stellenwerts, der der empirischen Grundlage psychologischer Forschung beigemessen wird, erhalten die Forschungsdaten weniger Beachtung. Dies wird auch an der Tatsache deutlich, dass bisher die Veröffentlichung von Daten Wissenschaftlern keine Reputation bringt, sondern nur darauf aufbauende Publikationen (vgl. Wagner, 2010, Klump et al., 2006). Allerdings lässt sich in Forschungskultur und -politik ein Umdenken feststellen. Die Vorteile des Data Sharing, wie z.B. ökonomischer Nutzen, Qualitätssicherung, Potenzial für Reanalysen unter neuen Fragestellungen oder mit anderen statistischen Methoden, werden zunehmend erkannt (vgl. Bengel & Wittman, 1982, Wicherts et al. 2006) und führen zu ersten forschungspolitischen und infrastrukturellen Maßnahmen. So gibt die Deutsche Forschungsgemeinschaft (DFG) in ihrer Denkschrift Vorschläge zur Sicherung guter wissenschaftlicher Praxis die Empfehlung, dass „Primärdaten als Grundlagen für Veröffentlichungen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden sollen“ (DFG, 1998). Über die reine Aufbewahrungspflicht hinaus, sollten Daten auch für andere Wissenschaftler auffindbar und zugänglich sein. Die Verbesserung und Erweiterung der Dateninfrastruktur in den Sozial-, Verhaltens- und Wirtschaftswissenschaften stellt daher das erklärte Arbeitsziel des Rates für Sozial- und WirtschaftsDaten (RatSWD)1 dar. Der RatSWD ist ein unabhängiges Gremium, das sich aus empirisch arbeitenden Wissenschaftlern von Universitäten, Hochschulen und anderen Forschungseinrichtungen unabhängiger wissenschaftlicher Forschung sowie von Vertreterinnen und Vertretern wichtiger Datenproduzenten zusammensetzt. Seine Aufgaben liegen in der Optimierung des Datenzugangs und der Datennutzung sowie in der Interessenvermittlung zwischen Wissenschaft und Datenproduzenten. Speziell für das Fach Psychologie bietet das Datenarchiv PsychData2 ein Serviceangebot zur Unterstützung von Forschenden im Primär- und Sekundärforschungskontext an (vgl. Ruusalepp, 2008, Klopp, 2010). Forscher er1 http://www.ratswd.de/, letzter Zugriff am 25.10.2010. 2 http://psychdata.de/, letzter Zugriff am 04.11.2010. 76 Ina Dehnhard, Peter Weiland halten die Möglichkeit, ihre Daten bei PsychData langfristig zu archivieren und zur Nachnutzung bereitzustellen. Dies beinhaltet auch die Zitierfähigkeit der Daten, da diese über DOIs (Digital Object Identifiers) identifizierbar bleiben. Die bereitgestellten Daten können von Sekundärforschern für die wissenschaftliche Forschung und Lehre nachgenutzt werden. Sowohl die Datenbereitstellung durch den Produzenten als auch die Weitergabe an Datennutzer sind vertraglich geregelt. Abbildung 1 zeigt die Verortung der PsychData-Plattform im Forschungskontext. Neben der Datenarchivierung und -bereitstellung unterstützt PsychData Wissenschaftler bei der retrospektiven und forschungsbegleitenden Dokumentation ihrer Daten. Abbildung 1: PsychData im Forschungskontext Voraussetzung zum Data Sharing Die Archivierung und Bereitstellung von Forschungsdaten erfordert eine entsprechende Aufbereitung der Daten. Neben den technischen Maßnahmen zur Datensicherung wie z.B. Speicherung in geräte- und systemunabhängigen Formaten, ist vor allem eine langfristige Interpretierbarkeit der Daten sicherzustellen. Ohne eine umfassende Dokumentation sind die Forschungsdaten inhaltsleer und somit für eine Nachnutzung unbrauchbar. Diese Dokumentation sollte optimalerweise anhand von internationalen Standards erfolgen, um Interoperabilität und Durchsuchbarkeit der Inhalte zu gewährleisten. Ebenso wichtig wie die Dokumentation sind Kontrollen der Forschungsdaten auf Integrität, Vollständigkeit, Konsistenz und Anonymisierung. Diese notwendige Dokumentation und auch Datenüberprüfung wird im Forschungsalltag häufig nachlässig durchgeführt. Doch gerade eine Dokumentation des Forschungsprozesses von Beginn an wird als „Best Practice“ im Datenmanagement angesehen (Van den Eynden et al., 2009). Eine retrospektive Aufbereitung der Daten ist meist zeit- und arbeitsaufwendiger, ein- Toolbasierte Datendokumentation in der Psychologie 77 zelne Fragen lassen sich im Nachhinein möglicherweise gar nicht mehr klären. Gründe für die Vernachlässigung einer gründlichen Dokumentation werden vor allem in der mangelnden zur Verfügung stehenden Zeit oder auch den fehlenden „incentives“ vermutet (Wagner, 2010). Eine weitere Ursache dafür, dass die Datendokumentation keine selbstverständliche Routine im Forschungsalltag darstellt, könnte in der fehlenden Verbreitung von Standards und Richtlinien zur Dokumentation liegen und auch im Fehlen geeigneter Werkzeuge und Plattformen, die eine möglichst effiziente Dokumentation der Forschungsdaten erlauben (vgl. Postle et al., 2002). Gängige Statistikpakete unterstützen den Forschenden hierbei nur sehr unzureichend. Dokumentationsstandards im PsychData-Archiv Das psychologische Archiv PsychData verwendet zur Beschreibung der zur Verfügung gestellten Forschungsdaten ein Set von Metadaten, das sowohl den Forschungskontext als auch die Variablen selbst umfassend dokumentiert. Diese Metadaten orientieren sich an den international anerkannten Dokumentationsstandards Dublin Core3 mit seinen 15 Kernelementen und DDI Version 2 (Data Documentation Initiative4). DDI ist ein XML-Format, das speziell für die Beschreibung von sozialwissenschaftlichen Daten entwickelt wurde und in vielen Projekten weltweit eingesetzt wird.5 Im April 2008 ist Version 3 des DDI Standards erschienen, die im Gegensatz zu der vor allem auf die Variablenbeschreibung konzentrierte Version 2 versucht den gesamten data life cycle abzubilden. Mittelfristig ist geplant, die PsychDataMetadaten im DDI 3 Format zur Verfügung zu stellen. Das von PsychData verwendete Metadatenset ist mit beiden Dokumentationsstandards kompatibel, wurde aber entsprechend erweitert, um den Besonderheiten der psychologischen Forschung gerecht zu werden (vgl. Fahrenberg, 2009, Weichselgartner, 2008). Kennzeichnend für die Psychologie ist die Erforschung 3 http://dublincore.org/, letzter Zugriff am 08.11.2010. 4 http://www.ddialliance.org/, letzter Zugriff am 08.11.2010. 5 Eine Liste einiger Projekte, die DDI zur Dokumentation ihrer Daten einsetzen, ist unter http://www.ddialliance.org/ddi-at-work/projects verfügbar (letzter Zugriff am 25.10.2010). 78 Ina Dehnhard, Peter Weiland nicht direkt beobachtbarer innerpsychischer Prozesse. Für deren Messung sind Konstruktbildungen, Operationalisierungen und die Entwicklung von Erhebungsinstrumenten sowie derer Validierung notwendig und müssen dementsprechend auch ausreichend dokumentiert werden. Mit den PsychData-Metadaten erfolgt daher zum einen eine genaue Studienbeschreibung anhand von bibliografischen Angaben (wie Autor, Titel etc.), einer inhaltlichen Studiendarstellung (z.B. zugrundeliegende Hypothesen) und insbesondere Angaben zum Datenerhebungsprozess (verwendete Testverfahren, Methodenbeschreibung, Stichprobenziehung etc.). Zum anderen werden zum eindeutigen Verständnis der Forschungsdaten selbst die einzelnen Variablen anhand eines Kodebuchs beschrieben. Das von PsychData verwendete Kodebuch-Schema enthält die Elemente: Variablenname, inhaltliche Variablenbeschreibung, Itemtext (z.B. die gestellte Frage oder Instruktionsanweisung), Wertebereich der gültigen Werte, Wertebereich der fehlenden Werte, Bedeutung der gültigen Werte und Bedeutung der fehlenden Werte. Die Erstellung einer kompletten Dokumentation anhand einer Studienbeschreibung und eines Kodebuchs bedeutet einen relativ zeitintensiven Arbeitsaufwand. Dieser kann durch entsprechende technische Unterstützung jedoch wesentlich verringert werden. Ein Werkzeug zur forschungsbegleitenden Dokumentation Im Rahmen des PsychData-Projekts wurde ein webbasiertes Dokumentationstool entwickelt, das es Forschern erleichtern soll, ihre Daten umfassend zu dokumentieren und auf Konsistenz zu überprüfen. Das Dokumentationstool ermöglicht die Datenbeschreibung anhand des PsychData-Metadatensets sowie das Hochladen und Archivieren der Forschungsdaten selbst. Die Nutzung des Tools kann sowohl retrospektiv als auch forschungsbegleitend erfolgen. Bei der Bearbeitung eines Kodebuchs und der zugehörigen Datenmatrix erfolgen automatische Fehlerkontrollen, durch die Mindeststandards der Datenaufbereitung gewährleistet werden. Neben der Funktion eines reinen Dokumentationswerkzeugs für einzelne Forscher besteht auch die Möglichkeit, die Anwendung als eine Data Sharing Toolbasierte Datendokumentation in der Psychologie 79 Plattform zu verwenden. Einzelne Mitarbeiter können Mitgliedern aus ihrer Forschungsgruppe Zugriff auf ihre Datensätze gewähren. Ebenso kann die Anwendung bei der Betreuung von Diplomarbeiten oder Dissertationen eingesetzt werden, indem Studierende, die mit dem Tool arbeiten, ihren jeweiligen Betreuern den Zugriff auf ihre Daten ermöglichen. Hierfür steht eine Rechteverwaltung zur Verfügung, mit der die Zugriffsrechte für andere Personen auf die eigenen Daten festgelegt werden können. Ein Anwendungsfeld dieses Werkzeugs sind Datensammlungen, wie sie im Rahmen von Diplom-/Masterarbeiten oder auch Dissertationen entstehen. Diese wurden bisher nicht langfristig archiviert und publiziert – Studierende sind zwar in der Regel von ihrem Lehrstuhl angehalten, ihre Daten auf einem Datenträger wie CD-ROM zusammen mit der Prüfungsarbeit abzugeben, im Gegensatz zu den eigentlichen Arbeiten, die häufig auf Dokumentenservern abgelegt werden, verschwinden die Daten dann aber meist in irgendwelchen Stahlschränken und sind für eine Nachnutzung nicht verfügbar. Abgesehen von den fehlenden Zugriffsmöglichkeiten sind die Beschreibungen der Daten nicht standardisiert, was ein Nachrechnen der Ergebnisse durch den/die Betreuer/in der Prüfungsarbeit bzw. eine Nutzung der Daten durch Dritte in einem anderen Auswertungskontext sehr schwierig macht. Hier kann das Dokumentationstool einen Beitrag leisten, um zum einen die Verfügbarkeit von Datensätzen zu gewährleisten, zum anderen aber auch die Lehrenden bei der Betreuung studentischer Arbeiten zu unterstützen. Darüber hinaus führt der Einsatz eines solchen Tools in Empiriepraktika oder ähnlichen Veranstaltungen die Studierenden an die Grundsätze der guten wissenschaftlichen Praxis heran. Das Dokumentationstool ist eine PHP/MySQL-Anwendung und stellt somit relativ geringe Anforderungen an die darunterliegende Infrastruktur. Aus Nutzersicht besteht die Software aus den Komponenten Metadaten-Formular, Kodebuch-Upload/-Eingabe, Datenmatrix-Upload/-Eingabe, einer Rechteverwaltung und Funktionen zum Datenexport. Abbildung 2 zeigt das Metadatenformular der Anwendung, das in die Bereiche Basisdaten (z.B. beteiligte Forscher, Arbeitstitel, finanzielle Förderung), Informationen zur Studie (z.B. Forschungshypothesen, verwendete Erhebungsmethoden, Vorgehen, Zeiträume), Informationen zur Stichprobe und weitere Angaben zu den Daten (z.B. Anonymisierung und Informationen zur Kodierung der Daten) aufgeteilt ist. Diese Metadaten unterstützen später zum einen das Discovery von Datensätzen, zum anderen machen sie die Entstehung der Daten nachvollziehbarer. 80 Ina Dehnhard, Peter Weiland Abbildung 2: Metadatenformular des Dokumentationstools Ein wesentliches Element der Datendokumentation ist die Erstellung von Kodebüchern. Die Anwendung bietet einen komfortablen Editor an, der die Nutzereingaben validiert und auf Fehler aufmerksam macht (siehe Abbildung 3). Abbildung 3: Kodebuch bearbeiten Toolbasierte Datendokumentation in der Psychologie 81 Alternativ zur direkten Eingabe in der Anwendung ist es auch möglich, vorbereitete Kodebücher hochzuladen. Diese können beispielsweise in einem Texteditor erstellt werden. Geplant ist ein Werkzeug, das eine semiautomatische Erstellung der Kodebücher aus SPSS heraus ermöglicht. Ebenso wie die Kodebücher werden auch die eigentlichen Daten direkt in der Datenbank verwaltet. Datenpunkte können entweder direkt eingegeben/bearbeitet werden oder in Form einer Textdatei mit Tab-separierten Werten hochgeladen werden. Die eingegebenen/hochgeladenen Werte werden gegen das Kodebuch validiert, sodass Fehler direkt erkannt und korrigiert werden können. Neben der Darstellung der Forschungsdaten in einer Datenmatrix steht auch eine Häufigkeitsverteilung über die einzelnen Variablen zur Verfügung (siehe Abbildung 4). Diese kann zur Kontrolle bereits exportierter Forschungsdaten dienen. Abbildung 4: Häufigkeitsverteilung Als Exportfunktionen für Kodebuch und Datenmatrix existiert bisher die Ausgabe als Textdatei mit Tab-separierten Werten. Vorteil dieses Formats ist 82 Ina Dehnhard, Peter Weiland die Eignung als ein plattformunabhängiges Format. Geplant sind dennoch weitere Ausgabeformate wie Excel oder SPSS-Dateien. Um die Anwendung als eine Data Sharing Plattform einsetzen zu können, beispielsweise im Kontext von Arbeitsgruppen oder studentischen Arbeiten, kann die Rechteverwaltung genutzt werden. Der Besitzer eines Datensatzes kann entscheiden, wem er welchen Zugriff auf einen Datensatz gewähren möchte. Zur Wahl stehen ein einfaches Leserecht, ein Lese- und Schreibrecht und darüber hinausgehend das zusätzliche Grant-Privileg, Zugriffsrechte an weitere, im System registrierte Personen weiterzugeben. Abbildung 5 zeigt einen Screenshot der Rechteverwaltung. Abbildung 5: Rechteverwaltung Ausblick Das psychologische Datenarchiv PsychData stellt ein Werkzeug bereit, das psychologische Forscher bei der forschungsbegleitenden Datendokumentation und -aufbereitung unterstützt. Außerdem wird eine sichere Archivierung der Forschungsdaten zusammen mit der zugehörigen Dokumentation ermög- Toolbasierte Datendokumentation in der Psychologie 83 licht. Dadurch können die Forschungsdaten sehr einfach für weitere Analysen bereitgestellt werden. Durch die Vorgabe von bewährten Dokumentationsstandards ergeben sich dabei mehrere Vorteile: Von Beginn der Forschungsarbeiten wird ein strukturiertes Vorgehen während des Forschungsprozess gefördert. Fehlerquellen wie ungültige Kodierungen werden durch die Validierungsroutinen sehr schnell erkannt und können direkt korrigiert werden. Das Tool unterstützt noch nicht den gesamten Dokumentationsprozess – einige begleitende Arbeitsschritte können bisher nur außerhalb des Tools durchgeführt werden: Das Umwandeln von Statistik-Software-Formaten in Tab-separierte Textdateien, das Erstellen einer Studiendokumentation und eines Kodebuchs, die Korrektur von Fehlern in Variablenbeschreibungen und Forschungsdaten setzen entsprechende Kenntnisse bzw. die Bereitschaft, sich diese anzueignen, voraus. Obwohl hier auch ein gewisser Vorteil gesehen werden kann, da sich der Nutzer aktiv mit Erfordernissen der Datendokumentation auseinandersetzen muss, kann es sich nur um einen zwischenzeitlichen Entwicklungsstand handeln. Die Erleichterung der Datendokumentation im Forschungsalltag ist eindeutiges Entwicklungsziel. Zur Erreichung dieses Ziels werden daher weitere Entwicklungen folgen wie z.B. die Erweiterung auf Ein- und Ausgabeformate gängiger Statistikprogramme oder das automatisierte Erstellen von Kodebüchern aus bereits vorhandenen (Teil-) Dokumentationen. Der Mehrwert des Systems hat sich bereits in der Dokumentationsarbeit im psychologischen Datenarchiv PsychData gezeigt. Ein weiteres Anwendungsszenario ist die Nutzung des Dokumentationswerkzeugs als eine Art Data Sharing-Plattform für Forschungsprojekte. Literaturverzeichnis Bengel, J. & Wittmann, W. W. (1982). Bedeutung und Möglichkeiten von Sekundäranalysen in der psychologischen Forschung. Psychologische Rundschau, 33, 19–36. Donders, F. C. (1868). Die Schnelligkeit psychischer Processe. Archiv für Anatomie, Physiologie und wissenschaftliche Medizin, Berlin, 657–681. 84 Ina Dehnhard, Peter Weiland Deutsche Forschungsgemeinschaft. (1998). Vorschläge zur Sicherung guter wissenschaftlicher Praxis: Empfehlungen der Kommission „Selbstkontrolle in der Wissenschaft“. Weinheim: Wiley-VCH Erdfelder, E. (1994). Erzeugung und Verwendung empirischer Daten. In T. Herrmann & W. H. Tack (Hrsg.), Enzyklopädie der Psychologie. Themenbereich B Methodologie und Methoden, Serie I Forschungsmethoden der Psychologie, Bd. 1 Methodologische Grundlagen der Psychologie (S. 47–97). Göttingen: Hogrefe. Fahrenberg, J. (2009). Open Access – nur Texte oder auch Primärdaten? 05. Oktober 2009. http://www.jochen-fahrenberg.de/fileadmin/openacces/Open_Access_Primaerdaten.pdf (Zugriff am 04.11.2010) Klopp, T. (2010). Open Data: Forscher sollen ihre Daten teilen. Zeit Online, 22. September 2010. http://www.zeit.de/digital/internet/2010-09/data-sharing-open-access?page=1 (Zugriff am 03.11.2010) Klump, J., Bertelmann, R., Brase, J., Diepenbroek, M., Grobe, H., Höck, H., Lautenschlager, M., Schindler, U., Sens, I. & Wächter, J. (2006). Data publication in the open access initiative. Data Science Journal, 5, 79–83. http://www.jstage.jst.go.jp/article/dsj/5/0/5_79/_article (Zugriff am 05.11.2010) Postle, B. R., Shapiro, L. A. & Biesanz, J. C. (2002). On Having One’s Data Shared. Journal of Cognitive Neuroscience, 14, 838–840. Ruusalepp, R. (2008). Infrastructure, Planning and Data Curation. A comparative study of international approaches to enabling the sharing of research data. Version 1.6. 30. November 2008. http://www.dcc.ac.uk/docs/publications/reports/Data_Sharing_Report.pdf (Zugriff am 03.11.2010) Van den Eynden, V., Corti, L., Woollard, M. & Bishop, L. (2009). Managing and Sharing Data. A best practice guide for researchers. Essex: UK Data Archive. http://www.data-archive.ac.uk/media/2894/managingsharing.pdf 04.11.2010) (Zugriff am Wagner, G.G. (2010). Forschungsdaten fallen nicht vom Himmel. Forschung und Lehre, 9, 650–651. http://www.forschung-und-lehre.de/wordpress/?p=5562 (Zugriff am 04.11.2010) Weichselgartner, E. (2008). Fünf Jahre Primärdatenarchivierung in der Psychologie: Ein Erfahrungsbericht. In Ockenfeld, M. (Hrsg.), Verfügbarkeit von Information (S. 259–267). Frankfurt a. M.: DGI. Wicherts, J. M., Borsboom, D., Kats, J. & Molenaar, D. (2006). The poor availability of psychological research data for reanalysis. American Psychologist, 61, 726 bis 728 Nachhaltige Dokumentation virtueller Forschungsumgebungen 85 Nachhaltige Dokumentation virtueller Forschungsumgebungen Dokumentation von NLP-Webservices am Beispiel eines morphologischen Analysewerkzeugs Gertrud Faaß1, Ulrich Heid2 1 2 Institut für maschinelle Sprachverarbeitung Universität Stuttgart, Stuttgart [email protected] Institut für Informationswissenschaft und Sprachtechnologie Universität Hildesheim, Hildesheim [email protected] Zusammenfassung In den letzten Jahren werden immer mehr virtuelle Forschungsumgebungen für die maschinelle Sprachverarbeitung zur Verfügung gestellt. Diese sollten zum einen nachhaltig und zum anderen für potenzielle Nutzer vergleichbar dokumentiert werden. In diesem Beitrag werden daher Bedingungen für die Nachhaltigkeit insbesondere von NLP- (Natural Language Processing) Werkzeugen beschrieben: Die Dokumentation sollte nicht nur die Software, sondern auch ihre Evaluierung anhand einer – ebenfalls gut dokumentierten – Testsuite umfassen. Im Beitrag werden auch Möglichkeiten dargestellt, den Dokumentationsvorgang selbst anhand von DocBook XML zu automatisieren. Abstract Throughout the last years, an increasing number of virtual research environments have been offered in the field of Natural Language Processing (NLP). These should be documented in a sustainable way that also guarantees comparability for potential users. This paper thus describes constraints for the sustainability of NLP-environments: the documentation must describe not only the software from the developer’s view, but also its evaluation according to a testsuite, which is itself to be documented comprehensively. The 86 Gertrud Faaß, Ulrich Heid paper also describes the possibility of automating the documentation processes by utilizing DocBook XML. 1 Hintergrund Im Rahmen des europäischen Forschungsprojekts CLARIN1 werden verschiedene NLP- (Natural Language Processing) Werkzeuge für Sprach- und Humanwissenschaftler frei verfügbar bereitgestellt. Dies soll über Web Services geschehen: Internet-Portale, bei denen – online und offline – linguistische Daten eingegeben, analysiert und die Ergebnisse eingesehen werden können. Mögliche Analysen sind beispielsweise morphologischer, syntaktischer, aber auch lexikografischer Art (z.B. Kollokationsextraktion). Im Falle von morphologischen und syntaktischen Analysen werden die eingegebenen Daten mit den entsprechenden Informationen angereichert (annotiert) zurückgegeben. Grundthema von CLARIN ist die Nachhaltigkeit: Während in früheren Jahren linguistische Ressourcen (d.h. Textsammlungen, Lexika und Sprachverarbeitungswerkzeuge (vgl. Witt et al. (2009)) projektweise an Instituten erzeugt und gespeichert, und danach oft vergessen wurden, sollen solche Ressourcen nun aufbereitet und einem breiten Benutzerkreis zur Verfügung gestellt werden. Ziel ist somit auch ein rationellerer Umgang mit den in die Ressourcenerstellung investierten Forschungsgeldern. D-SPIN2 (Bankhardt 2009) ist der deutsche Beitrag zu CLARIN. Im DSPIN-Projekt stellen Wissenschaftler von mehreren Universitäten und Institutionen (u.a. die Universitäten Leipzig und Stuttgart, das Institut für Deutsche Sprache, etc.) ihre Ressourcen über Webservices, z.B. “WebLicht” (vgl. Hinrichs et al. (2010)), zur Verfügung. Die Ressourcen sind vor allem für die empirische geisteswissenschaftliche Forschung geeignet. Das Projekt befindet sich in der Vorbereitungsphase. In diesem Beitrag beschreiben wir zuerst Bedingungen für die öffentliche Bereitstellung von NLP-Software, die sich aus dem Anspruch der Nachhaltigkeit ergeben (Abschitt 2). Im Abschnitt 3 wird dann konkret die Um1 Common LAnguage Resources and technology INfrastructure http://www.clarin.eu 2 Deutsche SPrachressourcen-INfrastruktur: http://www.d-spin.org Nachhaltige Dokumentation virtueller Forschungsumgebungen 87 setzung dieser Bedingungen bei der geplanten Bereitstellung eines Morphologiewerkzeugs diskutiert und es werden Ergebnisse aufgezeigt. Abschnitt 4 bietet eine Zusammenfassung und einen Ausblick auf zukünftige Arbeiten in diesem Zusammenhang. 2 Bedingungen für Nachhaltigkeit Ein zentraler Aspekt der Nachhaltigkeit von Ressourcen ist deren Dokumentation: Nur anhand der Dokumentation kann ein Benutzer nachvollziehen, nach welchen Kriterien ein Tool oder eine Textsammlung erstellt wurde. Es ist für ihn außerdem von Wichtigkeit, zu erfahren, welche Bedingungen für die Nutzung eines NLP-Werkzeugs gelten bzw. inwieweit es anderen Tools ähnlich ist, oder wo es sich von anderen unterscheidet. Verfügbarkeit und urheberrechtliche Aspekte sind ebenfalls zu berücksichtigen. Für die strukturierte Beschreibung solcher Fakten wurden in den letzten Jahren Normenvorschläge für die Annotation von Meta-Daten textueller Ressourcen (z.B. Autor, Erstellungsdatum, Formatinformation etc.) entwickelt (siehe auch Component Metadata Infrastructure, CMDI, www.clarin.eu/ cmdi). Die Richtlinien der Text Encoding Initiative (TEI3) für die Annotation von zwischen verschiedenen Institutionen auszutauschenden Daten sind hier ein gutes Beispiel: Nicht nur Webseiten, sondern auch Textsammlungen, die linguistischer Forschung dienen, sind heutzutage meist mit solchen Metadaten angereichert. Für NLP Software („Tools“) und deren Ergebnisdaten gilt dies bisher nicht. In den 1990ern gab es zwar erste Überlegungen in Richtung von Standards4 für Dokumentation und Evaluierung, bisher dokumentiert jedoch meist der Entwickler das, wovon er meint, dass es relevant sei (Underwood (1998)). Auch in Untersuchungen zu virtuellen Forschungsumgebungen, wie z.B. Carusi und Reimer (2010), ist die Nützlichkeit der Dokumentation für den potenziellen Nutzer der angebotenen Tools kein Thema. Ein konkretes Beispiel eines Portals für Sprachverarbeitungswerkzeuge ist das NLP Tool Registry am DFKI, wo Entwickler über ihre NLP Tools informieren können. 3 http://www.tei-c.org 4 Siehe ISO 9126 (2.1.2) sowie EAGLES EAG-EWG-PR.2 88 Gertrud Faaß, Ulrich Heid Hier gibt es allerdings keine Vorschriften dafür, was eigentlich zu dokumentieren ist, für das zu füllende „description“ Feld sind keinerlei Vorgaben angegeben. Bei im Prinzip vergleichbaren Tools ergibt sich daraus die Frage, wie potenzielle Benutzer eines Webservice konkurrierende Tools vergleichen und das für ihre Ansprüche geeignete Tool auswählen können. Weiterhin soll ein Benutzer nicht nur eine vergleichbare Qualitätsangabe erhalten, sondern auch darüber informiert werden, mit welcher Version des Tools er arbeitet (bzw. mit welchen Datenressourcen das Tool arbeitet), um, bei z.B. wiederholter Anwendung desselben Services auch dasselbe Ergebnis erwarten zu können. Um die Vergleichbarkeit von Tools sicherstellen zu können, sollte sämtliche Dokumentation unserer Ansicht nach anhand standardisierter Vorlagen erfolgen. Dokumentiert werden sollten dabei die folgenden Aspekte: • Die Software (siehe auch das NaLiDa Projekt des sfs Tübingen5, Rehm et al. (2010)); • Eine Testsuite (d.h. eine Ist-Eingabe mit einer Soll-Ausgabe der Software); • Evaluierung eines Testlaufs mit der dokumentierten Software anhand der Testsuite. Eine weitere Bedingung für Nachhaltigkeit ist die Verfügbarkeit der Dokumentation: sie sollte jederzeit abrufbar, am besten auf einer Webseite, zur Verfügung gestellt werden. Verschiedene Versionen der Dokumentation sollten sich dabei klar unterscheiden, auf ältere Versionen sollte bei Bedarf auch zugegriffen werden können, wenn neuere Versionen publiziert sind. Zur Dokumentation bzw. Repräsentation von angereicherten Daten sind mehrere ISO6-Standards in Vorbereitung bzw. bereits veröffentlicht: Für diese ist die Arbeitsgruppe ISO TC 37/SC47 zuständig. Derzeit werden Normen zur Wort-Segmentierung (ISO 24614-1:2010, 24614-2:2010), zur Repräsentation von Datenstrukturen (ISO 24610-1:2006), von lexikalischen (LMF, ISO 24613:2008), morphosyntaktischen (MAF, ISO DIS 24611:2008), sowie syntaktischen Annotationsprinzipien (SynAF, ISO DIS 24615:2010) erarbeitet. Wir planen zwar, die Ausgaben unseres Tools mit MAF zu kodieren, dies ist jedoch nicht Thema unseres Artikels. Hier beschreiben wir die Dokumentation der Software und der Testsuite sowie deren Validierung. 5 http://www.sfs.tuebingen.de/nalida 6 http://www.iso.org 7 http://www.tc37sc4.org Nachhaltige Dokumentation virtueller Forschungsumgebungen 3 89 SMOR Das Stuttgarter Morphologische Analysewerkzeug SMOR (Schmid et al. (2004)) wird seit Jahren erfolgreich in mehreren Anwendungen (zum Beispiel bei der grammatischen Analyse) eingesetzt. Es ist geplant, dieses Tool im Rahmen des D-Spin-Projekts Forschern kostenlos als Teil des „WebLicht“-Webservices zur Verfügung zu stellen. Wir dokumentieren das Tool selbst nach den NaLiDa Richtlinien. Zusätzlich wird es anhand einer Testsuite evaluiert. Drittens wird der Erstellungsvorgang und der Inhalt der Testsuite selbst ebenfalls dokumentiert, um auch hier die Vergleichbarkeit mit anderen Werkzeugen sicherstellen zu können. Diese Evaluierung unterscheidet sich daher von bisherigen Ansätzen, wie z.B. Morpholympics (Hausser (1996) oder Morpho Challenge (z.B. Kurimo und Varjokallio (2008)), weil sie eine Anpassung der Testsuite zulässt: Falls ein anderes Analysewerkzeug mit SMOR verglichen werden soll, können spezifisch die Teile der Testsuite ausgewählt werden, die von beiden Tools gleichermaßen verarbeitet werden können. 3.1 Morphologische Analyse mit SMOR SMOR beschreibt Derivations-, Kompositions- und Flexionsvorgänge gleichermaßen. Dabei verfügt es über eine große Wissensbasis (alleine ca. 48.000 Flexionsstammformen sind im Lexikon verzeichnet). Das Tool erzeugt für (einzelne oder eine Liste von) Wortformen morphologische Analysen, im Folgenden ein Beispiel: Projekt<NN>planen<V>ung<SUFF><+NN><Fem><Dat><Sg> Projekt<NN>planen<V>ung<SUFF><+NN><Fem><Gen><Sg> Projekt<NN>planen<V>ung<SUFF><+NN><Fem><Nom><Sg> Projekt<NN>planen<V>ung<SUFF><+NN><Fem><Acc><Sg> (1) Eingabe: Projektplanung (1) zeigt folgende Analyse: SMOR liefert eine Aufgliederung in Morpheme: das Verb planen ist Basis einer Derivation (zum Nomen Planung), Projektplanung ist das Ergebnis einer Komposition dieses Nomens mit dem Wort Projekt. Zusätzlich liefert SMOR Information zur Flexion, indem Werte zu Person, Numerus und Kasus des Gesamtwortes hinzugefügt werden. Der als Kopf eines komplexen Wortes erkannte Wortbestandteil ist mit „+“ gekennzeichnet. 90 3.2 Gertrud Faaß, Ulrich Heid Erstellung und Dokumentation der Testsuite Wie in Faaß et al. (2010) dargestellt, wurde die Testsuite („Gold Standard“) auf Basis von je 1000 selektierten Wortformen der drei produktiven Wortarten Nomen, Verb und Adjektiv erzeugt. Die Erstellung dieser Wortformenliste erfolgte semi-automatisch aus einer großen Textsammlung (880 Mio. Token) nach quantitativen Kriterien. Ein erster Durchlauf mit SMOR zeigte bereits die Wortformen auf, die vom Tool nicht erkannt werden (negatives), diese wurden dann manuell aufgeteilt in true negatives, d.h. Wortformen, die auch nicht erkannt werden sollen (Wortformen mit Schreibfehlern, Wortformen, die in der Textsammlung mit falscher Wortart annotiert wurden, etc.), sowie in Wortformen, die das Tool eigentlich hätte erkennen sollen (false negatives). Für diese Wortformen werden nun – als Vorgabe für die nächste Version des Tools – manuell Soll-Analysen erstellt. Jede erstellte Analyse wird anhand der im Projekt erarbeiteten Richtlinien, die zur Dokumentation der Testsuite hinzugefügt werden, geprüft und, falls nötig, korrigiert. Die Richtlinien enthalten Vorgaben, wie z.B. • Derivationelle Analysen, sollten, falls möglich, auf ein zugrundeliegendes Verb zurückgeführt werden, dabei spielt, z.B. Ablautung keine Rolle (Betrieb also auf betreiben zurückführen); • Wörter, deren Wortbestandteile im heutigen Deutsch nicht mehr produktiv verwendet werden, bzw. deren Wortbildung für einen heutigen Sprecher nicht mehr nachvollziehbar ist (Zukunft, Wirtschaft, etc.) sollten als opak analysiert werden (Zukunft nicht auf zu-kommen, Wirtschaft nicht auf Wirt +schaft zurückführen). Diese Wörter sind jedoch zu kennzeichnen, da sie eine eigene Gruppe bilden. Nach den Analysen werden auch die zugrunde liegenden Wortformen selbst aufgrund anerkannter linguistischer Kriterien ausführlich dokumentiert. Da wir SMOR auch bei der Erstellung der Testsuite nutzen, kann es im gleichen Arbeitsgang evaluiert werden: jede korrekte, und jede inkorrekte, jede vorhandene und jede nicht vorhandene Analyse wird gezählt und ausgewertet, sodass sich Zahlwerte für Recall und Precision ergeben. Für die Dokumentation der Testsuite wird „DocBook-XML“8 verwendet, welches einerseits über alle notwendigen Ausdrucksmöglichkeiten verfügt, jedoch andererseits leicht anzuwenden ist. DocBook-Seiten können auch vollautomatisch über einfach zu erzeugende Skripte, z.B. aus Tabellen er8 http://www.docbook.org Nachhaltige Dokumentation virtueller Forschungsumgebungen 91 stellt werden. Zusätzlich existieren XSL-Stylesheets, anhand derer die erstellte Dokumentation auf Knopfdruck in HTML, also Webseitenformat, konvertiert werden kann. Damit erfüllt DocBook gleich zwei Bedingungen: Es erlaubt die Erstellung einer formatierten Vorlage und es ist leicht in eine Webseite, in der die Software angeboten wird, einzubinden. Wir möchten dies anhand eines Beispiels veranschaulichen: Die beiden Wortformen leisten und standen sind Teil der Testsuite. Manuell wird eine Dokumentation zu diesen Wortformen (tabellarisch) in Microsoft Excel erstellt, vgl. den Auszug in (2). Ein Skript erzeugt aus diesen Daten das DocBook-Format, ein Auszug der Darstellung findet sich in (3). (2) Auszug aus der Excel-Datei, die zur Dokumentation der Wortformen dient (3) Auszug: Automatisch erzeugte DocBook Dokumentation (aus (2)) 92 Gertrud Faaß, Ulrich Heid Diese DocBook-XML-Daten werden mit einem XSL-Stylesheet wiederum automatisch in eine HTML-Datei überführt; (4) zeigt einen Bildschirmausschnitt in der Browser-Ansicht. (4) Auszug: Automatisch erzeugte HTML-Seite (aus (3)) 3.3 Dokumentation der Software Die Software wird anhand der NaLiDa Richtlinien9, mit wenigen Erweiterungen, ebenfalls mit DocBook-XML dokumentiert und in mehreren Abschnitten nach HTML überführt. Die DocBook-Vorlage des ersten Abschnitts beinhaltet unter anderem die folgenden Felder: Name, Version (+Datum), Beschreibung (Publikation), Herkunft, Institution, Urheber. Informationen zum Umfang des verwendeten Lexikons sind spezifisch für morphologische Analysesysteme relevant, im zweiten Abschnitt der Dokumentation werden daher Zahlen zu den verwendeten Flexions-, Derivations- und Kompositionsstammformen sowie zu Affixen im Lexikon des Tools veröffentlicht. Der dritte Abschnitt beschäftigt sich ausführlich mit den Ausgaben des Tools: Art der Analyse (hier wird eine Werteliste vorgegeben), Art der Ausgabe, Granularität der Ausgabe. Es folgen Beispiel-Ausgaben, die typische Analysen des Tools beschreiben sowie eine vollständige Übersicht aller möglichen Annotationsbestandteile mit Hinweisen zu ihrer Verwendung, (5) zeigt einen Auszug dieses Teils. Die Testsuite selbst wird, wie oben erwähnt, im MAF Format angeboten. 9 http://www.sfs.uni-tuebingen.de/nalida/ Nachhaltige Dokumentation virtueller Forschungsumgebungen 93 (5) Auszug: Beispiel-Ausgaben, in der HTML Version 3.4 Dokumentation der Evaluierung Der dritte Teil der Dokumentation beschreibt die Evaluierung der dokumentierten Software (Teil 1) anhand der dokumentierten Testsuite (Teil 2) und die dabei erzielten Ergebnisse. Hier beinhalten die vorgesehenen Felder Angaben zu den Beteiligten, dem Validierungszeitraum und dem Vorgehen. Erläuterungen zur Berechnung von Recall und Precision sowie die Ergebnisse schließen die Dokumentation ab. 3.5 Stand der Entwicklung Auf dem Stand von Januar 2010 ist die Dokumentation der Software fertiggestellt, die Erstellung der Testsuites für Nomina und Verben ist abgeschlossen; deren Dokumentation sowie die Erstellung der Testsuite für Adjektive ist in Arbeit. Die Vorlagen-Entwicklung ist weitestgehend abgeschlossen. Die Validierung verläuft parallel zur Erstellung der Testsuite und ist daher bisher nur für Nomina und Verben abgeschlossen. 94 Gertrud Faaß, Ulrich Heid 3.6 Zugänglichkeit, Pflege und Weiterentwicklung der Ressourcen Die Software wird zusammen mit einem Verweis auf die beschriebene Dokumentation im Rahmen der WebLicht-Forschungsumgebung zur Verfügung gestellt. Für spätere Fassungen der Software ist es geplant, den Evalierungslauf gegenüber der erstellten Soll-Analysen zu wiederholen und die Unterschiede zu dokumentieren, sodass der Entwicklungsvorgang für die Nutzer nachvollziehbar bleibt. Ältere Fassungen der Software bleiben weiterhin zugänglich. 4 Zusammenfassung und Ausblick Im Rahmen des Projekts D-Spin wurden Richtlinien zur Dokumentation von morphologischer Analysesoftware entwickelt. Sie umfassen die Dokumentation der Software (anhand der NaLiDa Richtlinien), ihrer Ausgaben, einer zur Validierung der Software erzeugten Testsuite sowie die Vorgehensweise bei der Validierung und ihre Ergebnisse. Die Dokumentation wird mit DocBook-XML zum Teil automatisiert erstellt und per XSL-Stylesheets nach HTML überführt, um Webseiten zu erzeugen, die für Benutzer des Webservice jederzeit zugänglich sind. Das Projekt befindet sich in seiner finalen Phase, sein Abschluss sowie die Veröffentlichung der Dokumentation sind für Frühjahr 2011 geplant. References/Literaturverzeichnis Bankhardt, C. (2009). D-SPIN – Eine Infrastruktur für Deutsche Sprachressourcen. Sprachreport, 25 (1): 30–31, 2009. Carusi, A. und Reimer, T. (2010). Virtual Research Environment Collaborative Landscape Study. A JISC funded project (January 2010). http://www.jisc.ac.uk/media/documents/publications/vrelandscapereport.pdf Nachhaltige Dokumentation virtueller Forschungsumgebungen 95 EAGLES. Evaluation of Natural Language Processing Systems, EAG-EWG-PR-2. EAGLES, final report, October 1996. Faaß, G. Heid, U. und Schmid, H. (2010). Design and application of a Gold Standard for morphological analysis: SMOR in validation. Proceedings of the 7th international Conference on Language Resources and Evaluation (LREC2010), 803 bis 810. Valetta, Malta. Hausser, R. (Hg.) (1996). Linguistische Verifikation. Dokumentation zur Ersten Morpholympics 1994. Tübingen: Niemeyer. Hinrichs M., Zastrow, T., Hinrichs. E. (2010). WebLicht: Web-based LRT Services in a Distributed eScience Infrastructure. Proceedings of the 7th international Conference on Language Resources and Evaluation (LREC2010), 489–493. Valetta, Malta. Kurimo, M. und Varjokallio, M. (2008). Unsupervised Morpheme Analysis Evaluation by a Comparison to a Linguistic Gold Standard – Morpho Challenge 2008. Working Notes for the CLEF 2008 Workshop. http://www.cis.hut.fi/mikkok/kurimo1-paperCLEF2008.pdf Rehm, G., Schonefeld, O., Trippel, T. Witt, A. (2010). Sustainability of Linguistic Resources Revisited. In Proceedings of the International Symposium on XML for the Long Haul: Issues in the Long-term Preservation of XML. Balisage Series on Markup Technologies, vol. 6 (2010). doi:10.4242/Balisage/Vol6.Witt01 Schmid, H., Fischen, A., Heid, U. (2004). SMOR: A German Computational Morphology Covering Derivation, Composition, and Inflection, Proceedings of the IVth International Conference on Language Resources and Evaluation (LREC2004). 1263–1266, Lisbon, Portugal. Underwood, N. (1998). Issues in Designing a Flexible Validation Methodology for NLP Lexica. Proceedings of the First International Conference on Language Resources and Evaluation, volume 1, 129–134, Granada, Spanien. Witt, A., Heid, U., Sasaki, F., Sérasset, G. (2009). Multilingual Language Resources and Interoperability. Language Resources and Evaluation (43): 1–14. 96 Gertrud Faaß, Ulrich Heid Nachhaltige Dokumentation virtueller Forschungsumgebungen Session 3: Soziale Software 97 98 E. Dröge, P. Maghferat, C. Puschmann, J. Verbina, K. Weller Konferenz-Tweets Ein Ansatz zur Analyse der Twitter-Kommunikation bei wissenschaftlichen Konferenzen Evelyn Dröge, Parinaz Maghferat, Cornelius Puschmann, Julia Verbina, Katrin Weller Heinrich-Heine-Universität Düsseldorf Universitätsstr. 1, 40225 Düsseldorf [email protected] Zusammenfassung Dieser Artikel untersucht den Einsatz von Twitter während vier wissenschaftlicher Konferenzen im Bereich Geisteswissenschaften bzw. Informatik. Dabei wurden automatische Analysen von Tweets, Retweets und @-Nachrichten sowie intellektuelle Auswertungen der Inhalte durchgeführt. Abstract In the following study, we analyze the usage of Twitter during four scientific conferences with focus on humanities and computer science. Automated analyses of tweets, retweets and @-messages were performed as well as an intellectual analysis of the tweets’ contents. 1 Einleitung Die vorliegende Arbeit beschäftigt sich mit der Untersuchung von Kommunikationsprozessen während wissenschaftlicher Konferenzen über den Microblogging-Dienst Twitter. Mittels Twitter können Nutzer kurze Mitteilungen von maximal 140 Zeichen (sogenannte Tweets) veröffentlichen, und die Beiträge anderer Nutzer beobachten bzw. als Follower abonnieren. Auf diese Konferenz-Tweets 99 Weise entsteht ein Kommunikations-Netzwerk (Ebner & Reinhardt, 2009), das für verschiedene Anwendungsszenarien interessant ist. Gleichzeitig ist Twitter damit eine einzigartige Datenquelle, die Aufschluss über Prozesse des Wissensaustauschs in Webcommunities geben und somit einen neuen Teilbereich der Webometrie erschließen kann. In verschiedener Hinsicht wird derzeit die Datenbasis von Twitter zur Analyse von Kommunikationsmustern oder Netzwerkstrukturen genutzt. Dabei wurden bereits allgemeine Schlüsse bezüglich der Plattform an sich gezogen (Java et al., 2007) und Nutzeranalysen durchgeführt (Mainka, 2010) sowie die Aktivitäten der Twitter-Nutzer im Kontext spezieller Ereignisse und Umgebungen untersucht – beispielsweise bezogen auf Naturereignisse (Vieweg et al., 2010), im Arbeitsalltag (Zhao & Rosson, 2009) oder als Marketing-Instrument (Hotopp & Willecke, 2010). Einen interessanten Ereigniskontext für die Analyse von Twitter-Aktivitäten liefern auch wissenschaftliche Konferenzen. Tauschen sich die Konferenzteilnehmer während der Veranstaltung über Twitter aus, so kann sich dadurch ein zusätzlicher Mehrwert zum eigentlichen Konferenzprogramm ergeben. Erste Studienergebnisse zum Twitter-Verhalten auf Konferenzen sind bereits verfügbar (Ebner et al., 2009; Letierce et al., 2010; Reinhardt et al., 2009). Während sich die bisherigen Studien vor allem auf eine quantitative Auswertung verschiedener Zusammenhänge konzentrieren, liefert dieser Beitrag einen Ansatz für eine qualitative, inhaltliche Analyse von Konferenz-Tweets. Dabei geht es vor allem darum zu erfassen, welche Art von Inhalten während Konferenzen über Twitter kommuniziert und diskutiert werden. Darüber hinaus wurden weitere automatisierte Analysen vorgenommen. Im Folgenden wird zum einen die Vorgehensweise als methodischer Ansatz zur Fachdiskussion gestellt. Zum anderen werden in Auszügen erste Ergebnisse präsentiert, die bei der Untersuchung von vier Konferenzen gewonnen wurden. 2 Datenerhebung und Messmethode Wesentlicher Teil unserer Studie ist die Erprobung verschiedener Verfahren für informetrische Analysen von Microblogs. Im Folgenden wird insbesondere auf unsere bisherige Vorgehensweise bei der Auswertung von TweetInhalten eingegangen und es werden offene Problembereiche aufgezeigt, die 100 E. Dröge, P. Maghferat, C. Puschmann, J. Verbina, K. Weller es in Zukunft zu diskutieren gilt. Für die Untersuchung haben wir Daten von vier verschiedenen Konferenzen erhoben. Es handelt sich dabei um archivierte Tweets, die mit dem konferenzspezifischen Hashtag (Hashtags sind mit einem # markierte, frei wählbare Schlagworte) versehen und über Twitter veröffentlicht wurden. Ausgewählt wurden die World Wide Web Conference 2010 (WWW2010), die Modern Language Association Conference 2009 (MLA 2009), die Dublin Core and Metadata Applications Conference 2009 (DC-2009) sowie eine Tagung des Institute for Enabling Geospatial Scholarship im Jahr 2010 (Geoinst). Kriterien für die Auswahl dieser Konferenzen waren die Größe und der Fachbereich: je zwei Konferenzen sind (im weitesten Sinne) dem Fachbereich Informatik bzw. den Geisteswissenschaften (speziell Digital Humanities) zuzuordnen. Für beide Fachbereiche wurde jeweils eine große Konferenz (ab ca. 1.000 Teilnehmern) sowie eine kleinere Veranstaltung (weniger als 500 Teilnehmer) ausgewählt1. Tabelle 1 gibt einen Überblick über die vier Konferenzen, ihre Fachbereiche und Größenkategorien. Alle Konferenzen fanden im Zeitraum von Ende 2009 bis Mitte 2010 statt und dauerten drei bis fünf Tage. Die Konferenzsprache war Englisch. Für die Datensammlung wurde auf das Tool TwapperKeeper (http://twapperkeeper.com/) zurückgegriffen, mit dem Kurznachrichten von Twitter über frei auswählbare Suchbegriffe archiviert werden können. Die für die Untersuchung berücksichtigten Tweets wurden ausschließlich über verfügbare Konferenzhashtags ausgewählt. Das Kennzeichnen von Tweets mittels vereinbarter Hashtags wird häufig bei Konferenzen genutzt, damit der Nachrichtenstrom von allen Interessierten leicht verfolgt werden kann. Hashtags von Konferenzen werden entweder im Vorfeld offiziell von den Organisatoren der Veranstaltung festgelegt oder spontan beim Versenden erster Tweets von Teilnehmern gesetzt und anschließend von anderen übernommen. Bei der Analyse haben wir für jede der vier Konferenzen nur den am häufigsten verwendeten Hashtag genutzt, nachdem überprüft wurde, dass Schreibvarianten (z.B. #www10 statt #www2010) nur sehr vereinzelt auftraten. Für künftige Untersuchungsstandards empfiehlt es sich jedoch, alle vorkommenden Schreibvarianten zu ermitteln und mit zu erfassen. Von uns ebenfalls unberücksichtigt sind die Hashtags von angeschlossenen Veranstaltungen (z.B. fand neben der WWW2010 noch die Web Science Conference 2010 statt, deren Hashtag #websci10 nicht mit erfasst wurde). 1 Die Zahlen beruhen zum Teil auf Schätzungen, da nicht bei jeder Konferenz eine offizielle Teilnehmerzahl angegeben wurde. Konferenz-Tweets 101 Tabelle 1: Übersicht über die untersuchten Konferenzen. Konferenz World Wide Web Conference (WWW2010) Dublin Core and Metadata Applications Conference (DC-2009) Modern Language Association Conference (MLA 2009) Tagung d. Institute for Enabling Geospatial Scholarship (Geoinst) Hashtag Ort Zeit #www2010 Raleigh, 26. bis NC, USA 30.4.10 Fachbereich Informatik Größe >1000 #dcmi2009 Seoul, Südkorea 12. bis Informatik 16.10.09 #mla09 Philadelphia, PA, USA Charlottesville, VA, USA 27. bis Philologie, Li- >1000 30.12.09 teratur, Digital Humanities 25. bis Digital Huma- <500 27.05.10 nities #geoinst <500 Der Schwerpunkt lag in dieser Studie in der intellektuellen, qualitativen Analyse der Tweet-Inhalte. Darüber hinaus wurden automatische Messungen vorgenommen, vor allem bezogen auf Twitter-Nutzer, Verlinkungen und formale Arten von Tweets. Tweets können automatisiert unterschieden werden in Retweets, @-Nachrichten, persönliche Nachrichten und übrige Tweets. Ein Retweet (RT) ist die Weiterleitung eines Tweets oder eines Teilstückes eines Tweets. Retweets werden in der Regel mit „RT@user“ oder mit „via user“ zu Beginn oder zum Ende des Tweets gekennzeichnet (Boyd et al., 2010). @-Nachrichten (@-messages) bezeichnen Tweets einer Konversation zwischen mindestens zwei Twitter-Nutzern. In unserer Analyse der @Nachrichten haben wir nur Tweets mit einbezogen, die mit „@user“ oder „.@user“ beginnen. Tweets, bei denen das „@user“-Kürzel in der Mitte des Tweets platziert ist, wurden nicht mitgezählt. Persönliche Nachrichten, die bei Twitter nur zwischen Nutzern, die sich gegenseitig folgen, verschickt werden können, sind für andere nicht sichtbar und kamen daher nicht in der untersuchten Datenmenge vor. Für die intellektuelle Auswertung der Tweet-Inhalte wurde vor Auswertungsbeginn ein Prototyp für ein Kategorienschema entwickelt, über das die Einordnung der Inhalte stattfand. Dabei wurde das erste entwickelte Schema nach einem Testdurchgang deutlich überarbeitet und vereinfacht, da die zunächst gewählte Komplexität mit einer zu geringen Konsistenz bei der Kategorisierung durch die fünf beteiligten Indexer endete. Außerdem wurde das 102 E. Dröge, P. Maghferat, C. Puschmann, J. Verbina, K. Weller Schema der Häufigkeit der Kategorienverwendung in der Testindexierung angepasst. In einem erneuten Testlauf mit dem überarbeiteten Schema wurde so eine verbesserte Konsistenz erzielt. Abbildung 1 zeigt das fertige Kategorisierungsschema sowie die jeweils für die Kennzeichnung der Tweets verwendeten Kürzel. 1. Ebene: Zweck - 1.1 Kommunikation [COM] - 1.2 Konferenzbezogene Tweets [CONF] - 1.3 Selbstbezogene Tweets [ME] - 1.4 Retweets [RT] - 1.5 Externe Links [URL] - 1.6 Nicht definierbar [NA] 2. Ebene: Inhalt - 1.1 Inhaltsbezug zur Konferenz [YES] - 1.2 Kein inhaltlicher Bezug zur Konferenz [NO] - 1.3 Nicht definierbar [NA] Abbildung 1: Schema zur Kategorisierung von Tweet-Inhalten. Auf einer ersten Ebene wird erfasst, welchem Zweck ein Tweet hauptsächlich dient. Dabei unterscheiden wir folgendermaßen: • Tweets, die in erster Linie einen Auszug aus einer Konversation abbilden (z.B. Fragen, Aufrufe) [COM]. Beispiel: “Good luck to all the TW people at #www2010 and #websci2010”. • Tweets, die sich direkt auf die Konferenz beziehen [CONF]. Beispiel: “the ‘official’ tag for Dublin Core conference in Seoul is now #dcmi2009”. • Tweets, die sich in erster Linie auf die Verfassung, den Aufenthaltsort, Aktivitäten, Gedanken und Gefühle des Autors beziehen [ME]. Beispiel: “managed to change my flights. Let’s hope the cloud doesn’t stand in the way now ... #www2010 #w4a #ashtag”. • Weiterhin wurden Retweets [RT] und Tweets, die URLs beinhalten [URL], gesondert gekennzeichnet. Retweets wurden, abgesehen von der Markierung mit RT, nicht weiter inhaltlich kategorisiert, da es sich hier nur um Kopien bereits vorhandener Tweets handelt. Konnte ein Tweet keiner dieser Kategorien zugeordnet werden, so wurde er mit NA markiert. Ein Tweet konnte auf der ersten Ebene mehreren Kategorien zugeordnet werden, was vor allem bei der Verwendung von URL Gebrauch fand. Ebenfalls gekennzeichnet wurden Tweets, die nicht in englischer oder in verschiedenen Sprachen verfasst waren (wobei Tweets in nicht bekannten Sprachen nicht inhaltlich ausgewertet wurden). Auf der zweiten Ebene wurde zwischen Tweets, in denen sich der Nutzer inhaltlich auf die Konferenz-Tweets 103 Konferenz bezieht, und allen übrigen Tweets unterschieden. Auch hier gab es die Möglichkeit, bei Unklarheiten NA anzugeben. Das Schema wurde bislang auf die WWW2010, die MLA 2009 und die DC-2009 angewandt. 3 Ausgewählte Ergebnisse Tabelle 2 enthält einen Überblick über die Kennwerte der Konferenzen, die automatisch gewonnen wurden. Sie können als Basis für einen Vergleich verschiedener Merkmale dienen. Die MLA 2009 stellt mit 7309 Teilnehmern die größte Konferenz in unserem Vergleich dar. Am meisten getwittert wurde jedoch auf der WWW2010 (3475 Tweets), die auch die größte Anzahl an Twitterern aufweist (911 Nutzer mit mindestens einem Tweet zum Konferenz-Hashtag). Möglicherweise liegt das an der fachlichen Ausrichtung der Konferenz, da bei computerwissenschaftsorientierten Veranstaltungen eine höhere Akzeptanz neuer Internettechniken vermutet werden kann. Dass die fachliche Ausrichtung der Konferenz kein alleiniges Kriterium zu sein scheint, lässt die sehr geringe Anzahl an Tweets bei der ebenfalls informations- bzw. computerwissenschaftlichen DC-2009 vermuten, die selbst von den Konferenzteilnehmern bemerkt wurde. Interessant ist dagegen die hohe Anzahl der Tweets auf der Geoinst-Konferenz mit dem eher geisteswissenschaftlichen Schwerpunkt. Trotz der geringen Anzahl an Teilnehmern gibt es 100 Twitterer und 1673 Tweets. Die Auswertung von Retweets und @Nachrichten zeigt eine leichte Tendenz dahingehend, dass der Anteil an RTs bei den beiden computerwissenschaftlichen Konferenzen und der Anteil der @-Nachrichten bei den beiden geisteswissenschaftlichen Konferenzen höher liegt. Die Anzahl der @-Nachrichten pro Twitterer ist bei der Geoinst mit 4,11 deutlich größer als bei den anderen. Hier gilt es weiter zu untersuchen, ob ein hoher Anteil an @-Nachrichten vor allem bei kleinen Konferenzen auftritt, wo die Wahrscheinlichkeit der Bekanntschaft der Teilnehmer untereinander größer ist. Erfasst wurde außerdem automatisch, wie viele Tweets 104 E. Dröge, P. Maghferat, C. Puschmann, J. Verbina, K. Weller eine URL als Verweis auf weitere Web-Inhalte enthalten2. Die WWW2010 ist hier Spitzenreiter, fast 40% der Tweets enthalten eine URL. Tabelle 2: Vergleich der Kennzahlen für die vier Konferenzen. WWW 2010 DC-2009 MLA 2009 Geoinst Untersuchungszeitraum3 13.04.– 14.05.2010 12.10.– 23.10.2009 15.12.2009– 11.05.– 14.01.2010 09.06.2010 Anzahl Tweets 3358 146 1929 1673 Anzahl Twitterer 903 27 369 99 3,72 5,41 5,23 16,90 Anteil/Anzahl RTs (autom. Auswertung) 33,38% 1121/3358 25,34% 37/146 21,41% 413/1929 8,31% 139/1673 ∅ RTs/Twitterer 1,24 1,37 1,12 1,40 Anteil/Anzahl @-Nach- 7,47% richten 251/3358 5,48% 8/146 13,37% 258/1929 24,33% 407/1673 ∅ @-Nachrichten/ Twit- 0,28 terer 0,30 0,70 4,11 Anteil/Anzahl Tweets mit URL 19,86% 29/146 26,70% 515/1929 14,82% 248/1673 ∅ Tweets/Twitterer 4 39,67% 1132/3358 Die inhaltliche Auswertung der Tweets sollte vor allem erste Anhaltspunkte für die Funktion von Twitter während Konferenzen liefern. Eine we2 Auch in der intellektuellen Analyse wurden Tweets, die eine URL enthalten, gekennzeichnet. Die Zahlen liegen hierbei niedriger als die automatisch erfassten Werte, da in der intellektuellen Auswertungen URLs in RTs nicht mitgezählt wurden. 3 Erfasst wurde im Idealfall ein Zeitraum von je zwei Wochen vor und nach der Konferenz. Der Anteil an Tweets aus dieser Gesamtmenge, die tatsächlich während der Konferenztage verschickt wurden, verteilt sich wie folgt: WWW2010: 70,61%, DC-2009: 94,52%, MLA 2009: 67,65%, Geoinst: 87,33%. Eine Umrechnung für die Kennwerte und die Kategorisierungen auf die jeweils tatsächlichen Konferenztage steht noch aus. 4 In der Menge der automatisch erfassten RTs finden sich alle Tweets, welche die Struktur „RT@user“ enthalten. Nicht enthalten sind Retweets, die mit „via“ o. Ä. gekennzeichnet sind. In der manuell kategorisierten Tweetmenge sind diese jedoch erfasst, weshalb sich die Anzahl der Retweets bei der automatischen und manuellen Auswertung unterscheidet. Konferenz-Tweets 105 sentliche Frage war dabei, inwiefern die eigentlichen fachlichen Inhalte der Konferenz bei Twitter diskutiert werden. Abbildung 2 gibt hierfür einen ersten zusammenfassenden Überblick für die drei Konferenzen, deren Tweets inhaltlich kategorisiert wurden. Der hohe Anteil an Tweets, für die keine Angabe verfügbar ist, erklärt sich dadurch, dass RTs nicht weiter inhaltlich bestimmt wurden. Davon abgesehen zeigt sich, dass der Anteil an nicht auf fachliche Inhalte bezogenen Tweets bei der MLA 2009 und der DC-2009 deutlich überwiegt, lediglich bei der WWW2010 ist das Verhältnis zwischen fachlichen und nicht-fachlichen Tweets in etwa ausgewogen. In den Abbildungen 3 und 4 wurde für die MLA 2009 bzw. die WWW2010 weiter ausdifferenziert, welche Kategorien sich auf fachliche Inhalte beziehen. Anteil der Tweets an gesamten Konferenztweets Beziehen sich die Tweets auf fachliche Inhalte der Konferenz? 100% 80% 619 1467 48 keine Angabe 60% 40% 1002 20% 0% 308 MLA 2009 938 953 WWW2010 74 Nein Ja 24 DC-2009 Abbildung 2: Auswertung der 2. Ebene im Kategorisierungsschema (siehe Abb. 1), Gesamtüberblick für die Konferenzen MLA 2009, WWW2010, DC-2009. Abbildung 3 enthält einen Überblick über die Kategorien der inhaltlichen Auswertung der Tweets der MLA-Konferenz. Dabei waren 514 Tweets (intellektuell bestimmte) RTs, die auf der zweiten Ebene nicht weiter kategorisiert worden sind. Die zweithäufigste Kategorie ist COM. Von diesen 358 Tweets, die reine Konversations- und Kommunikationselemente enthalten, beziehen sich nur 55 auch auf die Inhalte der Konferenz. Von den 285 selbstreferenzierenden Tweets in der Kategorie ME sind nur 16 auf Konferenzinhalte bezogen. In der Kategorie CONF findet sich wie erwartet der größte Anteil an fachlichen Inhalten. 158 von 269 CONF-Tweets beziehen sich auf die Inhalte der Konferenz, und enthalten z.B. Berichte über die Vorträge, Kommentare oder Verweise auf Präsentationen. Die übrigen Tweets in 106 E. Dröge, P. Maghferat, C. Puschmann, J. Verbina, K. Weller dieser Kategorie beziehen sich auf organisatorische Aspekte der Konferenz. Der relativ hohe Anteil an nicht-kategorisierten Tweets bei dieser Konferenz (Kennzeichen NA) liegt vor allem an einer inhaltlichen Besonderheit. Es finden sich zahlreiche sogenannte „MLA Tips“, die auf ironische Weise das Verhalten der Konferenzteilnehmer thematisieren (Beispiel: „#MLA09 Tip: Remember you don’t have to answer interview questions about your marital status, religion, sexual orientation, or dissertation“). Als NA wurden auch zahlreiche Werbe-Tweets gekennzeichnet. Verhältnismäßig wenigen Tweets wurden mehrere gleichwertige Kategorien zugeordnet. Insgesamt 220 Tweets enthalten URLs (davon 73 ohne weitere Kategoriezuweisung). Die meisten von ihnen verlinken auf Blogs und nichtwissenschaftliche Publikationen im Internet. Die meisten der MLA-Tweets sind an den Konferenztagen entstanden, vor allem am vorletzten Tag der Konferenz (mit 426 Tweets). Darunter sind viele konferenzbezogene aber nicht inhaltliche Tweets zu erkennen, z.B. Beschwerden über die Räumlichkeiten oder Verweise auf den KonferenzHashtag. Insgesamt haben 308 Tweets direkt auf die Konferenzinhalte Bezug genommen (siehe Abb. 2), die außerdem überwiegend an den tatsächlichen Konferenztagen verfasst wurden. Beziehen sich die Tweets auf fachliche Inhalte der Konferenz? 600 keine Angabe Nein Anzahl der Tweets (MLA09) 500 Ja 400 300 200 100 RL F, UR L M E, UR L C O M ,U R L C O N F, M E C O M ,M C E O M C ,C O M O ,C NF O NF ,U R L N A, C U O R M L ,M E, C O U N R F, L M E, U R L A C O N N U F M E O N C T C R O M 0 Abbildung 3: MLA 2009-Tweets, n=1929: Kategorisierung der Tweets. Dabei wird die Anzahl der vorkommenden Kategorie-Kombinationen erfasst und für jede angegeben, inwiefern die darunter fallenden Tweets fachliche Konferenzinhalte thematisieren. Konferenz-Tweets 107 Eine intensive Diskussion um ein inhaltliches Top-Thema der Konferenz („Digital Humanities“) fand am vorletzten Tag der Konferenz statt und kommt als ein möglicher Grund für die hohe Anzahl der Tweets an diesem Tag in Frage. Die Tweets vor und nach der Konferenz fallen meist in die Kategorien COM und ME. Vor der Konferenz sind viele kommunikative Tweets zu identifizieren, die sich mit der Vorbereitung auf der Konferenz, persönlichen Beiträgen und der Anreise befassen. Nach der Konferenz sind sehr viele Verweise auf Präsentationsfolien, Blogeinträge und verschiedene Websites sowie Danksagungen, persönliche Meinungen und Aktivitäten zu sehen. Detailliertere und vergleichende Analysen hierzu sollen noch folgen. Bei der WWW2010 wurden insgesamt 3358 Tweets analysiert. Fast 3/4 der ausgetauschten Tweets fallen dabei unmittelbar auf die fünf Konferenztage (26.-30.04.2010). Dabei fällt auf, dass am letzten Konferenztag eine überproportional große Anzahl an Tweets verfasst wurde (ca. 46,5% der Tweets aller Konferenztage). Deutlich weniger Tweets (nur 5%) wurden am ersten Konferenztag veröffentlicht. Abbildung 4 zeigt die Aufschlüsselung der WWW2010-Tweets nach Kategorien und die Angaben zum fachlichen Konferenzbezug. Bei der Häufigkeit der Vergabe liegen nach den Retweets diesmal die Kategorie CONF bzw. die Kombination CONF+URL vorne, mit deutlichem Abstand vor COM (Platz 4) und ME (Platz 5). Beziehen sich die Tweets auf fachliche Inhalte der Konferenz? Anzahl der Tweets (WWW10) 1400 keine Angabe Nein Ja 1200 1000 800 600 400 200 NA M ,U CO R N L CO F, M M ,C E O M NF E, U CO R L M ,M CO N E N A, U CO F, R M ME L , C ,U O R CO NF L M ,U ,M R E, L U CO CO RL M , C M, R O NF T ,M M E E, RT CO M E UR L L M CO NF UR NF , CO CO RT 0 Abbildung 4: WWW2010-Tweets, n=3287 (71 Tweets wg. Fremdsprachen nicht berücksichtigt): Kategorisierung der Tweets nach dem Schema aus Abb. 1. 108 E. Dröge, P. Maghferat, C. Puschmann, J. Verbina, K. Weller Die Tweets, die sich auf der ersten Ebene auf die Konferenz bezogen haben (CONF, CONF+URL, CONF+ME, COM+CONF), verzeichnen die höchsten Werte für thematische Bezüge zu Inhalten der Konferenz. Die restlichen Kategorien thematisieren hingegen kaum fachliche Inhalte der Konferenz. Twitternde Konferenzteilnehmer waren demnach in mindestens gleichem Maße daran interessiert, sich über die konferenzbezogenen Informationen auszutauschen (CONF), wie auch über eigene Erfahrungen zu berichten (ME) und mit anderen ins Gespräch zu kommen (COM). Insgesamt ist die Menge der Tweets, die unmittelbar mit dem Inhalt der WWW2010 zu tun hatten, und die Menge, in der andere Inhalte behandelt werden, ungefähr gleich groß. Demnach sind die Tweets der WWW2010 im Vergleich zu den anderen Konferenzen am stärksten fachorientiert (Abb. 2). Wie schon bei der Kategorisierung der MLA 2009 wurden auch hier nur wenigen Tweets mehrere gleichwertige Kategorien zugewiesen (eine Ausnahme bildet die Kombination CONF+URL). In Abbildung 5 wurde schließlich die Mehrfachvergabe von Kategorien aufgelöst. Dadurch ergibt sich ein Überblick, welcher Anteil an Tweets von der jeweiligen Konferenz mit der jeweiligen Kategorie ausgezeichnet ist. Antei an den Gesamttweets in % Wie viel Prozent der gesamten Tweets einer Konferenz wurden die folgenden Kategorien zugewiesen? 50 WWW2010 40 MLA 2009 DC-2009 30 20 10 0 RT CONF URL COM ME NA Abbildung 5: Relative Häufigkeit der Kategorien pro Konferenz, dabei konnte jeder Tweet mit mehreren Kategorien beschrieben werden. Bei reinen Retweets ohne weitere Textbestandteile (RT) wurden keine anderen inhaltsbeschreibenden Kategorien vergeben. Konferenz-Tweets 4 109 Fazit und Ausblick Mit unserem Ansatz haben wir erste Anhaltspunkte für die vergleichende Analyse von Konferenzen basierend auf den Twitter-Aktivitäten der Konferenzteilnehmer erhalten. Es zeigt sich, dass Twitter mit unterschiedlicher Ausrichtung genutzt wird. Jede der untersuchten Konferenzen verfügt über ein eigenes Profil, bei dem z.B. die eigentliche Fachdiskussion (wie bei der WWW2010) oder die Gruppen-Kommunikation (wie bei der Geoinst) stärker ausgeprägt sein kann. Für die Zukunft ist zum einen eine Ausweitung der Untersuchung auf weitere Konferenzen geplant, zum anderen sollen die vorhandenen Daten vertiefend analysiert werden. Insbesondere soll dabei auf die Inhalte der in Tweets verlinkten Webseiten, auf den Aktivitätsgrad während verschiedener Phasen der Konferenz sowie auf das Retweet-Verhalten eingegangen werden. Eine Analyse der Vernetzung der Twitter-Community sowie Ranglisten der aktivsten Twitterer sind ebenfalls in Arbeit. Für die methodische Weiterentwicklung möchten wir das Kategorisierungssystem zur Diskussion stellen. Darüber hinaus kann diskutiert werden, welche begleitenden Umstände es zu erfassen gilt (z.B. die Klärung der jeweiligen Konferenzumstände wie freie W-LAN Verfügbarkeit, ein offiziell vorgegebener Hashtag). Insgesamt eröffnet sich mit Twitter ein weites Feld zur Beobachtung und Messung von Verhaltensweisen und Vernetzungen innerhalb wissenschaftlicher Communities. Literaturverzeichnis Boyd, D., Golder, S. & Lotan, G. (2010). Tweet, Tweet, Retweet: Conversational Aspects of Retweeting on Twitter. In Proceedings of the 43rd Hawaii International Conference on System Sciences, Kauai, HI. Ebner, M. & Reinhardt, W. (2009). Social Networking in Scientific Conferences. Twitter as Tool for Strengthen a Scientific Community. In Proceedings of the 1st International Workshop on Science 2.0 for TEL at the 4th European Conference on Technology Enhanced Learning, Nizza. Hotopp, D. & Willecke, L. (2010). Twitter als Werkzeug des Online-Marketings. Richtlinien für erfolgreiches Twittern. Information – Wissenschaft und Praxis, 61(6–7), 419–422. 110 E. Dröge, P. Maghferat, C. Puschmann, J. Verbina, K. Weller Java, A., Song, X., Finin, T. & Tseng, B. (2007). Why We Twitter: Understanding Microblogging Usage and Communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis, San Jose, CA. Letierce, J., Passant, A., Breslin, J. & Decker, S. (2010). Understanding How Twitter Is Used to Spread Scientific Messages. In Proceedings of the 2nd Web Science Conference, Raleigh, NC. Mainka, A. (2010). Twitter: Gezwitscher oder gezielte Informationsvermittlung? Information – Wissenschaft und Praxis, 61(2), 77–82. Reinhardt, W., Ebner, M., Beham, G. & Costa, C. (2009). How People are Using Twitter During Conferences. In Proceedings of the 5th EduMedia conference, Salzburg. Vieweg, S., Hughes, A. L., Starbird, K. & Palen, L. (2010). Microblogging During Two Natural Hazards Events: What Twitter May Contribute to Situational Awareness. In Proceedings of the 28th International Conference on Human Factors in Computing Systems, Atlanta, GA. Zhao, D. & Rosson, M. B. (2009). How and Why People Twitter: The Role that Micro-Blogging Plays in Informal Communication at Work. In Proceedings of the ACM 2009 International Conference on Supporting Group Work, Sanibel Island, FL. Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften 111 Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften Das Projekt Edutags für den Deutschen Bildungsserver Richard Heinen1, Ingo Blees2 1 Universität Duisburg-Essen Forsthausweg 2 – LC 105, 47057 Duisburg [email protected] 2 Deutsches Institut für Internationale Pädagogische Forschung Schloßstraße 29, 60486 Frankfurt/Main [email protected] Zusammenfassung Im Artikel werden zunächst Forschungsergebnisse zur Kooperation von Lehrkräften dargestellt. Daran schließen sich Überlegungen an, welche webbasierten Dienste eine Kooperation unter Lehrkräften unterstützen könnten und ob solche Dienste bereits (erkennbar) genutzt werden. Abschließend werden die Konzeption eines Social-Bookmarking-Dienstes für Lehrkräfte erläutert und die ersten Entwicklungs- und Implementationsschritte dargestellt. Abstract The article begins with an outline of research on cooperation among teachers that is followed by reasoning about which web-based services could support such cooperation and whether these services are already in use by teachers. In the main part the design of a customized social bookmarking service for teachers is explicated and the first steps of its development and implementation are shown. 112 1 Richard Heinen, Ingo Blees Kooperation von Lehrkräften Digitalen Medien im Unterricht werden vielfältige Potenziale zur Verbesserung des Lehrens und Lernens zugeschrieben. Grundsätzlich sei ein Unterricht möglich, der schülerzentrierter, projektorientierter sei, der es ermögliche, auf individuelle Leistungsunterschiede zu reagieren, der aber vor allem auch Möglichkeiten zu kooperativeren Arbeitsformen biete. Beispiele, die dies exemplarisch belegen können, sind vielfältig entwickelt, erprobt und dokumentiert [Eickelmann, 2009]. In der Regel wird dabei aber der Unterricht einer einzelnen Lehrkraft in den Blick genommen. Unberücksicht bleibt oft die Frage der Lehrerkooperation. Eine in den letzten Jahren zunehmende Outputorientierung von Unterricht rückt die Professionalisierung des Lehrerberufs in den Blick. Neben Aspekten der Aus- und Weiterbildung ist hier auch nach Formen der Kooperation von Lehrkräften zu fragen. Der Austausch mit anderen Lehrkräften unterstützt die Reflexion des eigenen Handelns und kann so die Qualität des Unterrichts und von Arbeitszufriedenheit erhöhen [Ihme, Möller & Pohlmann, 2009]. Effiziente Formen der Kooperation können die Arbeitsbelastung der einzelnen Lehrkraft reduzieren [Obolenski, 2006]. Aktuelle Untersuchungen zur Lehrerkooperation belegen einerseits die positive Wirkung gelungener Kooperation, zeigen andererseits aber auch, dass diese häufig noch nicht hoch entwickelt und etabliert ist [Bauer, 2008]. Hierfür werden eine Reihe von Gründen angeführt. Die Lehrtätigkeit als solche, der eigentliche Unterricht ist eine vereinzelte Tätigkeit, in der Folge wird Unterricht auch alleine vorbereitet und entwickelt. Die Lehrerausbildung unterstützt kooperative Arbeitsformen nicht nur nicht, sondern sozialisiert angehende Lehrkräfte immer noch eher im Sinne einer Einzeltätigkeit [Tenorth, 2006]. Zudem wird die Zusammenarbeit mit anderen Lehrkräften häufig auch mit zusätzlichem Zeitaufwand verbunden und daher abgelehnt. Diese Ablehnung gilt es durch alternative Formen der Kooperation aufzubrechen und Kommunikations- und Selbstreflexionsprozesse anzustoßen [Kolbe, Reh, Coelen & Otto, 2008]. Denn andere Formen der Kooperation können den Arbeitsalltag von Lehrkräften bereichern. Von der punktuellen problemorientierten Zusammenarbeit bis zur institutionalisierten Zusammenarbeit sind Kooperationsformen beschrieben [Little, 1990]. Neben der schulinternen Kooperation sind aber auch immer wieder Formen zu beobachten, bei denen gerade engagierte Lehrkräfte, die in ihrer Schule keine Partnerschaften fin- Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften 113 den, die Kooperation außerhalb der eigenen Schule suchen [Schönknecht, 1997]. Kooperation unter Lehrkräften scheint also eine schwierige Sache zu sein. Dennoch wurden einige Merkmale gelingender Kooperation identifiziert. • Im Rahmen einer Kooperation arbeiten kleinere Gruppen zusammen. • Die Kooperation wird von der Leitung gefördert und unterstützt. • Es liegt eine klare Aufgabenstellung für die Kooperation vor, bzw. es ist ein klares Kooperationsziel formuliert. • Es werden Arbeitsschritte und Zuständigkeiten transparent festgelegt [Legters, 1999]. Vor diesem Hintergrund wird im Rahmen des hier beschriebenen Projektes gefragt, wie der Einsatz von digitalen Medien die Kooperation von Lehrkräften unterstützen kann. Ziel ist es, eine webbasierte Software zur Verfügung zu stellen, die einfach zu bedienen ist und Kooperation von Lehrkräften in unterschiedlichen Szenarien unterstützen kann, die darüber hinaus aber auch das Potenzial bietet, Lehrkräfte im Umgang mit digitalen Medien im Kontext der Unterrichtsvorbereitung vertrauter zu machen und sie dazu anregt, sich über den Unterricht und die verwendeten digitalen Ressourcen auszutauschen. Die Ansiedlung des Projektes beim Deutschen Bildungsserver1 bietet den Vorteil, dass ein Ressourcenpool entsteht, der Lehrkräften offen zur Verfügung steht. Es werden so neue Formen der Ressourcensammlung und -bewertung erprobt, die ggf. den Datenbestand des redaktionell gepflegten Angebotes bereichern können. 2 Social Bookmarking Social Bookmarking und Tagging sind Formen der virtuellen Zusammenarbeit, die es ermöglichen, große auf Internetressourcen basierende Wissensbestände aufzubauen, zu strukturieren und gemeinsam zu nutzen.2 Neben der Art der Strukturierung über freie Tags, d.h. individuelle durch die User ver1 http://www.bildungsserver.de/start.html 2 Bertram (2009) gibt einen Überblick über die informationswissenschaftlich relevanten Aspekte des Social Tagging. Eine im Weiteren zugrundegelegte umfassende Darstellung zum Thema liefert Peters (2009). 114 Richard Heinen, Ingo Blees gebene Schlagwörter, ist auch die Suche sehr flexibel, denn anders als in der Lesezeichenverwaltung eines Browsers kann jede Ressource von verschiedenen Usern mit mehreren Schlagworten getaggt werden. Hier ergeben sich positive Effekte aus der Zusammenarbeit im Netzwerk. Für den Einzeluser kann die Nutzung eines webbasierten Werkzeuges von Vorteil sein, wenn mehrere Rechner genutzt werden. Der Zugriff auf die Ressourcensammlung ist von jedem Rechner aus möglich. Dies entspricht der Arbeitssituation von Lehrkräften, die Unterricht am heimischen Rechner vorbereiten, im Lehrerzimmer evtl. Zugriff auf einen Arbeitsrechner haben und auf Lehrerrechner im Klassen- oder Computerraum zugreifen. Erst die Zusammenarbeit mit anderen Usern macht aus einem Bookmarking- ein Social-BookmarkingSystem. Die gemeinsame Verschlagwortung und Bewertung von Quellen erhöht deren Qualität. Je mehr User eine Ressource für sich sichern und mit Tags versehen, umso relevanter könnte diese Ressource für eine Gruppe sein.3 Für die Annäherung an kooperative Arbeitsformen erscheint ein SocialBookmarking-System auch deshalb besonders geeignet, weil nicht eigene Unterrichtsentwürfe und selbsterstellte Materialien ausgetauscht werden (müssen) – wie dies z.B. mit Wikis realisierbar wäre –, sondern „lediglich“ Ressourcen ausgetauscht werden, die im Netz aufgefunden wurden. In einem zweiten Schritt kann dann über die Kommentarfunktion ein Austausch über Erfahrungen im Unterricht beginnen. Es wird also angenommen, dass ein Social-Bookmarking-System eine webbasierte Software-Lösung ist, die kooperative Arbeitsformen unterstützen kann. Andere Werkzeuge wie etwa Blogs sind eher geeignet, die Reflexion der einzelnen Lehrkraft zu unterstützen [Reinmann & Bianco, 2008]. 2.1 Aktuelle Nutzung bestehender Dienste Die Nutzung bestehender Bookmarking-Systeme bei der Vorbereitung von Unterricht scheint bisher in Deutschland bzw. im deutschsprachigen Raum nicht weit verbreitet zu sein. Eine explorative Untersuchung, bei der die Dienste del.icio.us und Mr. Wong4 untersucht wurden, zeigte, dass kaum Ressourcen mit unterrichtsrelevanten Tags markiert sind. Hierzu wurden 25 3 Zum kollaborativen Filtern durch Social Tagging vgl. Peters (2009), 299ff. 4 http://del.icio.us und http://www.mister-wong.de/ Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften 115 themen- bzw. fachspezifische Begriffe in unterschiedlichen Abstraktionstiefen (Biologie, Zellbiologie, Mitose) mit dem Begriff Unterricht kombiniert und die Trefferlisten ausgewertet. Bei den allgemeinen Begriffen wurden mehr Treffer gefunden, allerdings verwiesen diese eher auf Einstiegsseiten von Portalen und nicht auf konkrete Materialien. Insgesamt waren Ressourcen immer nur im zweistelligen Bereich getaggt. Ausnahmen waren wenige englischsprachige Portale, die auch mit deutschen Tags versehen waren. Bei den spezifischeren Suchbegriffen wurden Verweise auf konkrete Materialien gefunden, doch lag die Zahl der User, die die einzelnen Ressourcen getaggt hatten, immer im einstelligen Bereich. Als Beispiel sei die Unterrichtseinheit „Mitose“5 genannt, die bei Lehrer-Online die Besucher-Hits Biologie anführt, aber nur zweimal (!) auf del.icio.us getaggt ist. Die explorative Untersuchung legt den Schluss nahe, dass die Idee des Social-Bookmarking für Zwecke der Unterrichtsvorbereitung bei deutschsprachigen Lehrkräften wenig verbreitet ist. Die geringe Zahl von Mehrfachtagging bei spezifischen Ressourcen lässt zudem den Schluss zu, dass die Dienste bisher eher von Einzelusern und nicht von Gruppen im Sinne einer kooperativen Arbeitsweise genutzt werden. Im Rahmen der Fokusgruppe (s.u.) wurden diese Ergebnisse auch diskutiert. Es zeigte sich, dass (zumindest bei den beteiligten Lehrkräften) die fehlende Nutzung nicht aus einer Ablehnung der Systeme erwuchs, sondern aus mangelndem Wissen über deren Existenz oder Skepsis gegenüber nicht-öffentlichen Anbietern. 2.2 Edutags – Social Bookmarking auf dem DBS Auf der Grundlage der bisherigen Darstellungen wurde die Entwicklung und exemplarische Implementierung eines Social-Bookmarking-Dienstes für Lehrkräfte auf dem Deutschen Bildungsserver konzipiert. 2.2.1 Erstellung eines Prototypen Die Entscheidung, ein eigenständiges Werkzeug zu entwickeln, war von mehreren Überlegungen geleitet. Ein Social-Bookmarking-System für Lehrkräfte in Deutschland sollte als eigenständiges Angebot eines renommierten Anbieters erkennbar sein. In der Entwicklung soll flexibel auf Anforderungen 5 http://www.lehrer-online.de/mitose.php 116 Richard Heinen, Ingo Blees der Lehrkräfte eingegangen werden können. Das System soll den Bildungsbereich ins Zentrum stellen. Zunächst wurde daher mit dem Content-Management-System Drupal ein Prototyp für ein Social-Bookmarking-System entwickelt. Die Entscheidung, Drupal als Grundlage zu wählen, liegt im konzeptionellen Ansatz des Systems begründet. Drupal ist ein CMS, das als Open Source vorliegt. Es ist stark auf die Unterstützung von virtuellen Gemeinschaften ausgerichtet. Ein besonderer Vorteil von Drupal ist dabei, dass unterschiedliche Anforderungen mithilfe von Modulen, die ebenfalls als Open Source zur Verfügung stehen, umgesetzt werden können [Westrup, Vervenne & Kerres, 2010]. Das System ist so flexibel und anpassbar, und kann auf die Rückmeldungen der Lehrkräfte im Laufe der Testphasen reagieren. Der Prototyp wies bereits wichtige Funktionalitäten eines BookmarkingDienstes auf, ohne dass diese jedoch detailliert ausgearbeitet waren. Folgende Funktionalitäten sind im Prototypen bereits angelegt. Bereich Bookmarking, Tagging, Bewerten • • • Mithilfe eines Bookmarklets, das in die Symbolleiste aller gängigen Browser integriert wird, können User eigene Lesezeichen anlegen. Beim Anlegen eines neuen Lesezeichens werden URL, Seitentitel und ggf. eine Textpassage in das Lesezeichen übernommen. In einem zweiten Schritt können User Tags vergeben. Dabei stehen drei Verfahren zur Auswahl: 1) Das System schlägt zu jedem Lesezeichen Tags vor. Im Prototyp ist der Algorithmus hierfür noch nicht festgelegt. Im Laufe der Erprobung soll festgestellt werden, ob eigenen Tags, anderen Tags derselben Ressource oder Tags aus Gruppen eine höhere Gewichtung gegeben werden soll. In einem Textfeld können Tags frei eingegeben werden. Hierbei haben User die Wahl, 2) entweder eigene, frei gewählte Tags zu vergeben oder 3) sich von der Autovervollständigung des Systems leiten zu lassen. Grundidee der Autovervollständigung ist es, dass Usern Tags aus einer hinterlegten Taxonomie vorgeschlagen werden.6 Durch dieses Verfahren soll eine Quasi-Standardisierung unter- 6 Obwohl sich dies von der Grundidee des Social Tagging entfernt, wird diese Unterstützung im untersuchten Setting von den Nutzern ausdrücklich verlangt (s.u.); und auch in der neueren Literatur werden Tag-Empfehlungen als Systemerweiterungen angeregt, s. Peters (2009), 238 ff. Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften 117 • • stützt werden, zugrunde liegt eine Auswahl von Deskriptoren des Fachinformationssystems Bildung entlang von MINT-Fachsystematiken. Nach dem Speichern der Lesezeichen können alle Elemente (Titel, URL, Beschreibung, Tags) auch wieder geändert werden. Jedes Lesezeichen kann mit einer 5-Sterne-Bewertung versehen werden. Die User bekommen dabei sowohl die selbst vergebene Wertung angezeigt, als auch den Durchschnittswert und die Anzahl der insgesamt vergebenen Wertungen. Bereich Suche • • • • Das System bietet im Wesentlichen drei Suchwege. Der User durchstöbert die Lesezeichen, die von der Startseite aus in umgekehrt chronologischer Reihenfolge erreichbar sind. Eine Volltextsuche durchsucht alle Elemente der Lesezeichen. Tagclouds zeigen die vergebenen Tags in Wolkenform an. Dabei werden häufig vergebene Tags größer dargestellt als weniger häufig vergebene Tags. Tagclouds werden an verschiedenen Stellen im System angezeigt und basieren dabei jeweils auf unterschiedlichen Ressourcen, abhängig davon, im welchem Kontext sie angezeigt werden. D.h. es gibt eine eigene Tagcloud für einzelne User, Gruppen und für das Gesamtsystem, mit denen auf die jeweiligen Teilmengen zugegriffen werden kann. Bereich Kooperation • • • • • Zusammenarbeit ermöglicht das System auf verschiedenen Ebenen: Das System zeigt an, wie oft eine Ressource als Lesezeichen angelegt wurde. Neben der Anzahl werden aber auch die einzelnen User und die von ihnen vergebenen Tags angezeigt. User können sich zu Gruppen zusammenschließen. Gruppen erhalten eine eigene Tagcloud und eine chronologische Auflistung der Ressourcen der Gruppe. So wird der Aufbau einer systematischen Themensammlung in der Gruppe unterstützt. Inwieweit die Zusammenarbeit in Gruppen zur Qualitätssteigerung der einzelnen Ressourcen beitragen kann, muss noch im Detail untersucht werden [Noll, Au Yeung, Gibbins, Meinel & Shadbolt, 2009]. Einzelne User können sich gegenseitig als Freunde markieren. Damit ist ein Einblick in die Sammlung der einzelnen User möglich. Neben den Tags und Beschreibungen, die bei der Anlage der Lesezeichen vergeben werden, können User Kommentare zu Lesezeichen anle- 118 Richard Heinen, Ingo Blees gen, über die eine Diskussion zu den Ressourcen und ihren Einsatzmöglichkeiten im Unterricht möglich ist. 2.2.2 Weiterentwicklung in einer Fokusgruppe Das Basiskonzept und der darauf aufbauende Prototyp wurden in einer Fokusgruppe mit Lehrkräften diskutiert. Die Methode der Fokusgruppe bot sich an, da das zu bewertende Produkt noch in einem unfertigen Zustand vorlag und so einfach und schnell ein Feedback zum Prototypen eingeholt werden konnte [Morgan, 1997]. Die Mitglieder der Fokusgruppe wurden unter verschiedenen Aspekten ausgewählt. Ein Teil der Gruppe unterrichtet an Schulen, in denen Schüler/-innen und Lehrkräfte über eine Ausstattung mit individuellen Endgeräten verfügen. In diesen Schulen ist der Einsatz digitaler Medien im Unterricht an der Tagesordnung und der Bedarf an guten digitalen Ressourcen entsprechend hoch. Der Austausch von Ressourcen erfolgt bei diesen Lehrkräften meist per EMail oder über den Schulserver. Weitere Teilnehmende unterrichten an Schulen, die den Einsatz von LMS (Lernmanagementsystemen) bereits etabliert haben. In diesen Schulen werden digital vorliegende Ressourcen über ein LMS an Schüler/-innen verteilt. Hausaufgaben können darüber eingesammelt werden. Funktionalitäten zum systematischen Aufbau von Sammlungen mit online verfügbaren Ressourcen enthalten gängige LMS jedoch nicht. Eine dritte Gruppe von Lehrkräften kam von Schulen, die zwar über eine, nach eigener Einschätzung, akzeptable technische Ausstattung, aber weder über eine systematisch genutzte Lernplattform, noch über etablierte Formen der Medienarbeit im Unterricht, noch über erprobte Formen der Kooperation in der mediengestützten Unterrichtsvorbereitung verfügen. Allen Teilnehmenden war gemein, dass sie der Kooperation im Kollegium einen hohen Stellenwert beimaßen, für die eigene Schule aber ein zu geringes Maß an Kooperation konstatierten. In der Gruppe wurden Konzept und Prototyp unter vier Aspekten diskutiert: 1. Funktionalitäten, die erforderlich oder weniger gewünscht sind 2. Umgang mit persönlichen Daten auf der Plattform 3. Unterstützung beim Taggen von Ressourcen 4. Exportmöglichkeiten und Suchhilfen Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften 119 Die Diskussionen der Fokusgruppe lassen sich folgendermaßen zusammenfassen: 1. Es werden vor allem Funktionalitäten erwartet, die die Kernaufgabe des Systems unterstützen. Bereits bei der Implementierung von allgemeinen Diskussionsforen und Kommentierungsmöglichkeiten einzelner Ressourcen findet sich keine eindeutige Mehrheit. Gemeinsam wurde die Aussage erarbeitet, dass ein System erwartet wird, das nicht die Aufgaben anderer Plattformen ersetzt, sondern sich auf die definierte Aufgabe der digitalen Verwaltung online verfügbarer Ressourcen konzentriert. 2. Die Frage der persönlichen Daten auf der Plattform wurde kontrovers diskutiert. Die Meinungen sind zwischen zwei extremen Positionen angesiedelt. Die eine setzt auf möglichst weitgehende Datenvermeidung, sowohl bei der Registrierung als auch bei der Anzeige gegenüber anderen Usern, die andere sieht ausführliche Daten über die einzelnen User als Qualitätsmerkmal. Im Ergebnis fand die Gruppe zu dem Konsens, dass bei der Registrierung nur die rechtlich erforderlichen Daten erhoben werden sollten, während die Nutzerprofile optional mit weitergehenden Informationen angereicht werden können. Besonders im Kontext des Umgangs mit persönlichen Daten wurde von allen Teilnehmenden der Fokusgruppe die Meinung geäußert, es sei wichtig, ein System zu schaffen, das durch einen öffentlichen, nicht kommerziellen und in Deutschland angesiedelten Dienstleister zur Verfügung gestellt wird. 3. Unter dem Aspekt der Tagginghilfen wurden klar konkrete Tag-Vorschläge gefordert, die sich aus den eigenen Tags der User, den Tags der Gruppen, denen die User angehören, und den Tags, die andere für eine bestimmte Ressource verwendet haben, zusammensetzen. Die Steuerung freier Tags durch Autovervollständigung mit einer hinterlegten Taxonomy wurde weder positiv noch negativ gewertet. Hier zeigt die Fokusgruppe eine abwartende, aber offene Haltung. 4. Im Rahmen der Konzeptvorstellung wurden Ideen präsentiert, Suchergebnisse als Scorm-Paket, als RSS-Feeds oder in einer anderen Form, die zum Import in ein LMS geeignet ist, zu entwickeln. Ebenso wurde angeregt, Hilfe für einen teilautomatisierten Import bestehender Sammlungen in das System zu entwickeln. Beide Angebote wurden von der Fokusgruppe nicht positiv bewertet. Hingegen wurde eine intuitiv bedienbare und differenzierte Suchfunktion gefordert. Begründet wurde dies damit, dass es zur Zeit kaum importgeeignete Ressourcensammlun- 120 Richard Heinen, Ingo Blees gen gebe. Auch beim Export setzen die Teilnehmenden eher auf manuelle Übertragung, da hier viele unterschiedliche Szenarien genannt wurden, wie die Verwendung in Arbeitsblättern oder in Webquests, die Einbindung in Aufgaben etc. Die Ergebnisse der Diskussion der Fokusgruppe bestätigten die bisherige Entwicklung des Prototypen, setzten aber an einigen Stellen wichtige Akzente, die nun in die Weiterentwicklung des Prototypen einfließen. 2.2.3 Erprobungsszenarien Eine zweite Version des Prototypen, die dann auch bereits zum produktiven Einsatz einer betreuten Gruppen geeignet ist, wird seit November 2010 mit verschiedenen Testgruppen erprobt. Hierbei werden drei Szenarien realisiert: • Nutzung durch eine Gruppe in einer Schule; • Nutzung durch Einzellehrer mit einem Thema in einer Region; • Nutzung durch eine Gruppe von Einzellehrkräften bundesweit. Die Leitfragen für diese Phase orientieren sich an den Erkenntnissen zur Lehrerkooperation, die am Anfang des Artikels dargestellt wurden: • Kann ein Social-Bookmarking-Dienst die Kooperation von Lehrkräften unterstützen? • Welche Rolle spielt dabei die Unterstützung durch die Schulleitung? • Welche Rolle spielt die konkrete Aufgabenstellung der Kooperation? • Kommt es zu einer differenzierten Rollenaufteilung? • Ist der gemeinsame Arbeitskontext für die Kooperation wichtig? 3 Ausblick Mit edutags wird ein passgenaues Tool für die Kooperation von Lehrkräften bei der Sammlung, inhaltlichen Erschließung und Bewertung für den Unterrichtseinsatz entwickelt. Der Deutsche Bildungsserver kann zugleich das Kernangebot an redaktionellen Inhalten in seinen Themenkatalogen mit einem Pool von mit fachlicher Expertise ausgewählten Online-Ressourcen anreichern. Die selektive Übernahme des mit edutags aggregierten und er- Social Bookmarking als Werkzeug für die Kooperation von Lehrkräften 121 schlossenen Contents in den redaktionellen Bestand wird erleichtert durch die Verbindung von Folksonomy und Taxonomie. Vom Social Tagging auf edutags wird eine Verbesserung des Vokabulars zur inhaltlichen Erschließung hinsichtlich Aktualität und Berücksichtigung von Nutzerinteressen ebenso erwartet wie Einsatzmöglichkeiten der Folksonomy für Retrieval [Hotho, Jäschke, Schmitz & Stumme, 2006] und Browsing, z.B. in Form von Suchtermvorschlägen und tag-generierten Empfehlungen [Peters, 2009]. Diese Einsatzfelder werden Gegenstand weiterer Untersuchungen im Projektkontext sein. Literaturverzeichnis Bauer, K. O. (2008). Lehrerinteraktion und- kooperation. In: Helsper, W., Böhme, J. (Hrsg.). Handbuch der Schulforschung, 839–856. Heidelberg: Springer. Bertram, J. (2009). Social Tagging – Zum Potential einer neuen Indexiermethode. In: Information: Wissenschaft und Praxis, 60(1), 19–26. Bianco, T. & Reinmann, G. (2008). Bloggen – Pflichtübung oder Passion? Eine empirische Untersuchung von Knowledge Blogs als Tool des persönlichen Wissensmanagements vor dem Hintergrund der Selbstbestimmungstheorie. http://www.imb-uni-augsburg.de/files/TamaraBianco_Masterarbeit_KnowledgeBlogs_Web.pdf (Zugriffsdatum: 10.1.2011) Eickelmann, B. (2009). Digitale Medien in Schule und Unterricht erfolgreich implementieren: Eine empirische Analyse aus Sicht der Schulentwicklungsforschung. Münster: Waxmann. Heinen, R. (2010). Nachhaltige Integration digitaler Medien in Schulen aus Sicht der Educational Governance. In: Schroeder, U. (Hrsg.). Interaktive Kulturen – Workshop-Band, 231–238. Berlin: Logos Verlag. Hotho, A., Jäschke, R., Schmitz, C. & Stumme, G. (2006). Information Retrieval in Folksonomies: Search and Ranking. In: Sure, Y., Domingue, J. (eds.): The Semantic Web: Research and Applications. Lecture Notes in Computer Science, Volume 4011, 411–426. Ihme, T. A., Möller, J. & Pohlmann, B. (2009). Effekte von Kooperation auf die Qualität von Lehrmaterial. In: Zeitschrift für Pädagogische Psychologie, 23(3), 259–263. 122 Richard Heinen, Ingo Blees Kolbe, F. U., Reh, S., Coelen, T. & Otto, H. (2008). Kooperation unter Pädagogen. In: Coelen, T., Otto, H.-U. (Hrsg). Grundbegriffe Ganztagsbildung, 799–808. Heidelberg: Springer. Legters, N. E. (1999). Teacher collaboration in a restructuring urban high school. Center for Research on the Education of Students Placed at Risk, Johns Hopkins University & Howard University. Little, J. (1990). The persistence of privacy: Autonomy and initiative in teachers’ professional relations. In: The Teachers College Record, 91(4), 509–536. Morgan, D. L. (1997). Focus groups as qualitative research. Sage Publications, Inc. Noll, M. G., Au Yeung, C., Gibbins, N., Meinel, C. & Shadbolt, N. (2009). Telling experts from spammers: Expertise ranking in folksonomies. In: Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 612–619. Obolenski, A. (2006). Kooperation von Pädagoginnen und Pädagogen als Bestandteil professionellen Handelns. In: Spies, A., Tredop, D. (Hrsg). „Risikobiografien“ – Benachteiligte Jugendliche zwischen Ausgrenzung und Förderprojekten, 267 bis 280. Heidelberg: Springer. Peters, I. (2009): Folksonomies. Indexing and Retrieval in Web 2.0. Berlin: De Gruyter Saur. Schönknecht, G. (1997). Innovative Lehrerinnen und Lehrer. Weinheim: Dt. StudienVerlag. Westrup, D., Vervenne, M. & Kerres, M. (2010). Die Implementierung des SCORM Standards und dessen Implikationen für zukünftige Lehr-/Lernszenarien auf Basis von Drupal. In: Schroeder, U. (Hrsg.), Interaktive Kulturen – Workshop-Band, 275–280. Berlin: Logos Verlag. T-Index als Stabilitätsindikator für dokument-spezif. Tag-Verteilungen 123 Der T-Index als Stabilitätsindikator für dokument-spezifische Tag-Verteilungen Jens Terliesner, Isabella Peters Heinrich-Heine-Universität, Abteilung für Informationswissenschaft Universitätsstr. 1, D-40225 Düsseldorf {jens.terliesner | isabella.peters}@uni-duesseldorf.de Zusammenfassung Studien zeigen, dass die Form von dokument-spezifischen Tag-Verteilungen in Broad Folksonomies nach einem gewissen Zeitraum stabil bleibt, sich also auch mit steigender Anzahl von Tags und Taggern nicht ändert. Die Frage, welche Bedingungen zur Stabilität führen, ist dagegen noch nicht in der Forschung geklärt. Daher wird hier eine Methode zur Bestimmung von Stabilität erläutert sowie der T-Index als Stabilitätsindikator eingeführt. Abstract Research shows that in broad folksonomies the shape of document-specific tag distributions remains stable after a certain point in time and that it is not influenced by increasing numbers of tags or taggers. The question under which particular conditions tag distributions become stable is not well discussed yet. The paper presents an approach for determination of stability and introduces the t-index as an indicator for stability. 1 Einführung Im Web 2.0 sind immer mehr Dienste anzutreffen, die bei der Erschließung der durch die Nutzer bereitgestellten Dokumente auf Folksonomies (Peters, 2009) setzen. Unterscheiden können wir hier nach Vander Wal (2005) Broad Folksonomies, die die Mehrfachvergabe von gleichen Tags für ein Dokument erlauben, und Narrow Folksonomies, die lediglich aus den Tags des Autors 124 Jens Terliesner, Isabella Peters bestehen. Daher ist auch nur bei Broad Folksonomies die Bildung einer dokument-spezifischen Tag-Verteilung möglich. Dokument-spezifische TagVerteilungen nennen wir „Docsonomy“. Zahlreiche Studien (Maass, Kowatsch & Münster, 2007; Maier & Thalmann, 2007; Robu, Halpin & Shepherd, 2009) zu Tag-Verteilungen haben ergeben, dass sobald eine kritische Masse von Dokumenten mit einer hinreichenden Menge an Tags versehen ist, die Tag-Zuordnung auch über längere Zeiträume weitestgehend konstant bleibt: “the objects will stabilize once enough objects are tagged” (Maarek et al., 2006). Kipp und Campbell (2006) beobachten ebenfalls diesen Zusammenhang: “Furthermore, early research suggests that when a URL acquires a certain number of taggers, the most common terms tend to remain stable”. Die Stabilität betrifft dabei die Form der Tag-Verteilung. Die relative Häufigkeit der indexierten Tags, jedoch nicht ihre absolute Zahl, bleibt nach Erreichen der Verteilungsform konstant bzw. verhält sich skaleninvariant. Welche Bedingungen zur Stabilität von Docsonomies führen können bzw. mit welchen Kennwerten sie festgestellt werden kann, wurde in der Forschungsliteratur noch nicht detailliert diskutiert. Lediglich Robu, Halpin und Shepherd (2009) präsentieren mithilfe der Kullback-Leibler-Divergenz einen Ansatz zur Berechnung der Stabilität von Tag-Verteilungen. Mit dieser Methode, die auf der relativen Entropie von zwei Verteilungen basiert, konnten sie die Skaleninvarianz von Tag-Verteilungen bestätigen: “If the Kullback-Leibler divergence between two consecutive time points or between each step and the final one becomes zero (or close to zero), it indicates that the shape of the distribution has stopped evolving” (Robu, Halpin & Shepherd, 2009, 12). Das Wissen um die Stabilität von Docsonomies hat immensen Nutzen für die informationswissenschaftliche Praxis und den effektiven Umgang mit Wissensbeständen im Web 2.0. Denn können die Ergebnisse der oben genannten Studien bestätigt werden und können Kennwerte (z.B. Gesamtzahl der Tagger, Gesamtzahl der Tags, Anzahl der Unique Tags1 oder Anzahl Monate nach dem ersten Tagger) ermittelt werden, die den Zeitpunkt der Stabilität markieren bzw. ihn vorhersagen, wäre es bspw. möglich, das TagInventar der Docsonomy als ihr kontrolliertes Vokabular anzusehen. Dieses wäre dann durch die kollektive Intelligenz (Surowiecki, 2004) der Nutzer- 1 „Unique Tags“ spiegeln die Anzahl der Rangplätze der Docsonomy wider. T-Index als Stabilitätsindikator für dokument-spezif. Tag-Verteilungen 125 schaft geprüft und bestimmt worden (Kipp & Campbell, 2006). Auch das Ausnutzen von sog. „Power Tags“ im Information Retrieval (Peters & Stock, 2010) wäre so möglich. Der umgekehrte Fall, also das Bemerken eines Bruches in der Stabilität von Tag-Verteilungen, kann ebenso in der Praxis hilfreich sein, weist er doch auf eine veränderte Nutzung der sprachlichen Bezeichnungen innerhalb der Docsonomies hin. Hier ließen sich dann möglicherweise Trends, Phänomene des Sprachwandels oder Änderungen in den Sichtweisen auf Dokumente erkennen. Daher wird im Folgenden ein Ansatz zur Berechnung der Stabilität von Docsonomies vorgestellt und der T-Index als Kennwert eingeführt, der das Verhältnis von Unique Tags zu der Gesamtanzahl der vergebenen Tags in der Docsonomy wiedergibt. Darüber hinaus können wir durch die Analyse von 116 Docsonomies zeigen, dass der mit unserer Methode ermittelte Wert der Stabilität stark positiv mit dem T-Index korreliert und der T-Index deswegen als Stabilitätsindikator für Docsonomies eingesetzt werden kann. 2 Studie zur Stabilität von Docsonomies Um Berechnungen zu und Aussagen über die Stabilität von Docsonomies treffen zu können, muss zunächst definiert werden, was Stabilität in diesem Kontext meint. Wir können in Tagging-Systemen niemals davon ausgehen, dass Docsonomies absolute Stabilität erreichen, da Nutzer immer wieder auf sie zugreifen und Tags hinzufügen werden. Zum Zwecke der Operationalisierung von Docsonomies werden wir zunächst vereinfachte Annahmen treffen, um später eine Bewertungsgrundlage für den T-Index zu haben. 2.1 Erstellung des Datensatzes Für die Analyse wird aus dem Social-Bookmarking-Dienst delicious2 eine zufällige Auswahl von 116 Docsonomies heruntergeladen, in denen mindestens einmal der Tag „folksonomy“ verwendet wurde und die mindestens 100 Tagger aufweisen. 2 http://www.delicious.com. 126 Jens Terliesner, Isabella Peters Die Docsonomies des Datensatzes unterscheiden sich in der Anzahl der Tagger (siehe Tabelle 1), nach der Anzahl der Unique Tags und der Gesamtzahl der vergebenen Tags (siehe Tabelle 2). Nach genau 1.000 Taggern variiert die Anzahl der Unique Tags stark und liegt zwischen 325 und 882; gleiches gilt für die Gesamtzahl der vergebenen Tags. Zu einem ähnlichen Ergebnis sind auch Dellschaft und Staab (2010) gekommen, welche nach 5.000 vergebenen Tags zwischen 430 und 1.900 Unique Tags gezählt haben. Tabelle 1: Charakteristika der Docsonomies: Anzahl der Docsonomies. # Tagger # Docsonomies 100–200 26 200–500 29 500–1.000 25 1.000–2.000 36 Tabelle 2: Charakteristika der Docsonomies: Anzahl der Tags. # Tagger exakt # Unique Tags (min/max) # Gesamttags (min/max) # Dokumente mit mindestens x Taggern 2.2 100 40/159 176/551 116 200 83/247 336/1.021 90 500 181/448 921/2.520 61 1.000 325/882 2.311/4.629 36 Definition von Stabilität Stabilität bedeutet hier, dass eine Konsolidierung der relativen Häufigkeit aller Tags einer Docsonomy stattfindet. Die relative Häufigkeit eines Tags wird dabei bestimmt als Quotient aus Vergabehäufigkeit des Tags und der Gesamtzahl der vergebenen Tags der Docsonomy. Dadurch erhält man für jeden Tag seinen Anteil an der Gesamtmenge. Dies entspricht der Formel wt (x) = at (x) gt wobei t der untersuchte Zeitpunkt ist. Der Rangplatz, der immer denselben Tag repräsentiert, ist x, der Wert an Rangplatz x zum Zeitpunkt t ist wt(x). Die Anzahl des Auftretens von Tag x zum Zeitpunkt t ist at(x) und die Gesamtzahl aller Tags zum Zeitpunkt t ist gt. Um die Stabilität von Tag-Verteilungen bestimmen zu können, müssen zunächst Vergleichsobjekte geschaffen werden. Wir sehen die Tag-Verteilung zum Downloadzeitpunkt (samt Rangfolge der Tags) als Referenzverteilung an. Es wird mit Maier und Thalmann (2007) und Golder und Huberman (2005) angenommen, dass eine Docsonomy umso stabiler ist, je mehr Benut- T-Index als Stabilitätsindikator für dokument-spezif. Tag-Verteilungen 127 zer Tags hinzugefügt haben. Daher hat die letzte bekannte Verteilung die größte Wahrscheinlichkeit stabil zu sein und gilt deshalb als Referenz. Ein anderer Indikator für die Stabilität von Docsonomies wurde in der Anzahl der Rangvertauschungen innerhalb einer Docsonomy vermutet. Die Vertauschungen werden berechnet, indem zu jedem Zeitpunkt alle Tags nach Häufigkeit des Auftretens sortiert werden. Nun wird nach jedem hinzugefügten Tag überprüft, ob sich nach erneuter Sortierung die Reihenfolge der Tags geändert hat. Bei diesen Berechnungen wurden Tags, die gleich häufig genutzt wurden, als ein Rangplatz angesehen. Durch das Hinzufügen eines einzelnen Tags kann daher nur eine einzige Rangplatzvertauschung ausgelöst werden. Daraus folgt, dass durch einen Tagger maximal so viele Rangvertauschungen ausgelöst werden können, wie Tags vom Tagger hinzugefügt wurden. Die Analyse der 116 Docsonomies hat ergeben, dass die Anzahl der Rangvertauschungen nicht signifikant abnimmt, umso öfter eine Docsonomy getaggt wurde. Vielmehr scheinen die Vertauschungen nahezu zufällig im Verlauf einer Docsonomy zu sein. Maier und Thalmann (2007) haben in einem Versuch nur die ersten 10% bzw. die ersten 20% aller Rangplätze beobachtet und im Laufe einer Folksonomy einen deutlichen Rückgang der Vertauschungen festgestellt. Das deutet daraufhin, dass die meisten Rangvertauschungen auf den hinteren Rangplätzen der Verteilung stattfinden. Da hier die Stabilität der gesamten Docsonomy bestimmt werden soll, kann die Anzahl der Rangvertauschungen somit nicht als Indikator für Stabilität gelten. 2.3 Berechnung von Docsonomies und ihrer Stabilität Nach jedem Tagger, der einer Docsonomy Tags hinzufügt, kann sich die Tag-Verteilung einer Docsonomy geändert haben. Jede Tag-Verteilung, die beim Hinzukommen weiterer Tags durch einen Tagger entsteht, wird mit der Referenzverteilung abgeglichen. Bei der Erstellung der Tag-Verteilungen ist zu beachten, dass die Rangfolge der Tags durch die Verteilung zum Downloadzeitpunkt vorgegeben ist. Das bedeutet, ein Tag befindet sich zu jedem Zeitpunkt auf demselben Rangplatz. Der Abgleich kann stattfinden indem die Fläche3 zwischen den beiden Graphen ermittelt wird. Dabei gilt: je kleiner die Fläche, desto ähnlicher sind sich die beiden Tag-Verteilungen (siehe Abbildung 1). Die Berechnung der Fläche erfolgt durch die Summierung der 3 Zum Zwecke der Anschaulichkeit wird hier von Fläche gesprochen. 128 Jens Terliesner, Isabella Peters Differenzen (als Betrag) der beiden relativen Tag-Häufigkeiten an jedem Rangplatz. So ergibt sich für jeden Verteilungsvergleich ein einziger Wert, den wir hier als „Differenz“ bezeichnen. Die Differenz d(t1,t2) entspricht der Formel d (t1, t 2 ) = 1 u ∑ | w t 1( x ) − w t 2 ( x ) | 2 x=1 Die Anzahl der Unique Tags zum Zeitpunkt t2 ist u. Es werden die Zeitpunkte t1 und t2 einer Tag-Verteilung betrachtet, wobei stets gilt t1 ist kleiner als t2. t1 und t2 ergeben sich aus den Zeitpunkten an denen Nutzer Tags zu der Docsonomy hinzufügen. Diese werden durchnummeriert und nehmen die Werte von 1 bis u an. Um zu verhindern, dass Werte von d(t1,t2) > 1 entstehen, wird eine Division durch 2 vorgenommen. Der Wert der Differenz liegt daher im Intervall zwischen 0 und 14. Die Flächen unter den Graphen einer einzelnen Verteilung zu verschiedenen Zeitpunkten sind immer gleich groß (da sich die Werte aller Rangplätze zu 1 aufsummieren). Verteilungen derselben Docsonomy sind vergleichbar, da es sich bei den Verteilungen um relative Tag-Häufigkeiten handelt. Abbildung 1: Die Tag-Verteilungen einer Docsonomy zu zwei verschiedenen Zeitpunkten t1 und t2. 4 Dies hat später auch den Vorteil, dass die Differenz für dasselbe Intervall wie der TIndex definiert ist. T-Index als Stabilitätsindikator für dokument-spezif. Tag-Verteilungen 129 Da wir mit dieser Methode immer die letzte bekannte Verteilung als Referenz nehmen, wird der Wert der Differenz zum letzten bekannten Zeitpunkt zu 0. Daher kann die Differenz nicht als alleiniger Indikator für die Stabilität von Tag-Verteilungen gelten und ein anderer Indikator muss für die Stabilitätsbestimmung eingeführt werden. Die Einführung eines Schwellenwertes würde nur bedingt Abhilfe schaffen, da hier zunächst empirisch ermittelt werden müsste, ab welchen Werten zwei Docsonomies noch ähnlich und damit stabil bzw. nicht mehr ähnlich und damit nicht mehr stabil sind. Außerdem besteht bei dieser Methode das Problem, dass die Referenzverteilung nur für einen Zeitpunkt gültig ist. Zukünftige Änderungen der Docsonomy können nicht berücksichtigt werden. Nichtsdestotrotz haben wir mit dieser Methode die grundlegenden Daten geschaffen, die die Evaluation des TIndex ermöglichen. 3 Berechnung des T-Indexes Der Quotient aus der Anzahl der Unique Tags und der Anzahl der insgesamt vergebenen Tags wird im Rahmen dieses Artikels als T-Index bezeichnet. Der Buchstabe T steht für tariert (im Gleichgewicht). Der T-Index ist unabhängig von einer Referenzverteilung und kann zu jedem beliebigen Zeitpunkt mit folgender Formel berechnet werden: T (t ) = Anzahl Unique Tags Anzahl Gesamttags Der Kehrwert von T entspricht der durchschnittlichen Nutzung jedes Unique Tags. T<0,2 bedeutet also, dass jeder Unique Tag im Durchschnitt öfter als fünfmal benutzt wurde. Falls eine neue Sichtweise auf ein Dokument entsteht (Trend), werden viele neue Tags hinzugefügt, die Stabilität lässt nach und der Wert des T-Indexes steigt an. Die Analyse des Datensatzes hat gezeigt, dass die Anzahl der Unique Tags nach 1.000 Taggern stark variiert (siehe Tabelle 2). Diese Varianz wird mit dem T-Index ausgeglichen. Wenn im Verlauf einer Docsonomy keine oder nur wenig neue Tags hinzugefügt werden, ist die Ressource ausreichend gut durch Tagger beschrieben worden, sodass keine neuen Tags zur Beschreibung genutzt werden müssen. Falls der Wert des T-Indexes sehr klein ist, sind sehr viele Tags, die die Ressource beschreiben, bereits mehrfach benutzt worden. Im Laufe der Zeit werden 130 Jens Terliesner, Isabella Peters immer weniger neue Tags zu einer Docsonomy hinzugefügt, dass bedeutet, es kommen immer weniger neue Informationen hinzu. Dieses Verhältnis spiegelt sich ebenfalls im T-Index wider. Um zu zeigen, dass der T-Index als Indikator für Stabilität gelten kann, wird die Beziehung zwischen der Differenz und dem T-Index bei jedem Zeitpunkt t mittels des Pearson-Korrelationskoeffizienten geprüft. 4 Ergebnisse der Studie Wenn der T-Index die Stabilität einer Docsonomy wiedergibt, so muss auch der Wert des T-Indexes stabil werden. Um diese These zu überprüfen, werden für die 116 Docsonomies Grafiken erzeugt, die den Wert des T-Indexes und den Wert der Differenz zur Referenzverteilung aufzeigen. Auf der xAchse ist die Anzahl der Tagger aufgetragen. Auf der y-Achse sind die Werte des T-Indexes bzw. die Werte der Differenz aufgetragen (siehe Abbildungen 2 und 3). Es lässt sich erkennen, dass die Differenz zwischen einer Verteilung und der Referenzverteilung und der Wert des T-Indexes in vielen Docsonomies sehr ähnlich verlaufen. Der Graph des T-Indexes verläuft in den meisten Docsonomies zum Ende nahezu waagerecht. Eine gruppenweise Analyse der Graphen nach Anzahl der Tagger hat ergeben, dass der Graph des T-Indexes in vielen Docsonomies aus der ersten Gruppe (100–200 Tagger) nicht waagerecht ist. In den folgenden Gruppen wird der Anteil von waagerecht verlaufenden Graphen höher. In der letzten Gruppe (1.000–2.000 Tagger) verlaufen alle Graphen für den T-Index waagerecht (siehe Abbildungen 2 und 3). Das bedeutet, dass der T-Index sich auf ein stabiles Niveau eingependelt hat. Das heißt auch, dass bei einem stabilen T-Wert von 0,2 durchschnittlich jeder fünfte Tag ein neuer Unique Tag ist, der von den Nutzern zur Docsonomy hinzugefügt wird. T-Index als Stabilitätsindikator für dokument-spezif. Tag-Verteilungen 131 Abbildung 2: T-Index und Differenz aus der ersten Gruppe (100–200 Tagger; links) und aus der zweiten Gruppe (200–500 Tagger; rechts). Abbildung 3: T-Index und Differenz aus der dritten Gruppe (500–1.000 Tagger; links) und aus der vierten Gruppe (1.000–2.000 Tagger; rechts). Der Anteil von Unique Tags zur Gesamtzahl vergebener Tags ist nahezu fest und ändert sich nur noch wenig (Abweichung <10%). Der durchschnittliche Wert für den Pearson-Korrelationskoeffizienten für T-Index und Differenz aller 116 Docsonomies ist 0,87. Der Median liegt bei 0,90. Der geringste Korrelationskoeffizient liegt bei 0,60. Der Korrelationskoeffizient nach Pearson ergibt einen Wert zwischen +1 und -1; falls der Koeffizient gleich null ist, so sind die zu untersuchenden Werte unkorreliert. Bei positiv korrelierten Werten liegt der Wert des Koeffizienten zwischen 0 und +1 und bei negativ korrelierten Werten zwischen 0 und -1. Die Analyse zeigt somit, dass im ausgewählten Datensatz ein linearer Zusammenhang zwischen T-Index und Differenz besteht. 132 5 Jens Terliesner, Isabella Peters Fazit Die Form von Docsonomies wird im Laufe der Zeit stabil, d.h. trotz hinzukommender Tags ändert sich ihre Erscheinung nicht wesentlich. Die Bestimmung des Zeitpunkts wann diese Stabilität eintritt wurde bislang wenig diskutiert. Wir haben gezeigt, dass man die Stabilität einer Docsonomy mittels relativer Häufigkeit der Tags bestimmen sollte. Zudem wurde der TIndex als Stabilitätsindikator eingeführt, der unabhängig von einer Referenzverteilung berechnet werden kann. Die Studie hat gezeigt, dass alle Verläufe des T-Indexes waagerecht werden. Daher kann davon ausgegangen werden, dass der T-Index im Laufe einer Docsonomy immer stabil wird. Das bedeutet auch, dass in allen untersuchten Docsonomies der Wert des T-Indexes nahezu stetig sinkt oder er einen nahezu konstanten Wert erreicht. Für eine Implementierung des T-Indexes als Stabilitätsindikator muss ein Schwellenwert eingeführt werden, der sich entweder auf eine Anzahl von Taggern bezieht (bspw. n Tagger, bei denen sich der Wert des T-Indexes nahezu nicht ändert) oder der festgesetzt wird (bspw. n < 0,2). Darüber hinaus konnte durch die Überprüfung mit dem Pearson-Korrelationskoeffizienten festgestellt werden, dass die Differenz zweier Docsonomies basierend auf der Summe von relativen Tag-Häufigkeiten stark positiv mit dem T-Index in Beziehung steht. Daher lässt sich auch hier die Schlussfolgerung ziehen, dass der T-Index geeignet ist, die Stabilität von Docsonomies widerzuspiegeln. Es kann durchaus sein, dass der Wert des T-Indexes im weiteren Verlauf einer Docsonomy weiter sinken wird. Wodurch die Unterschiede des Wertes des T-Indexes in stabilen Docsonomies entstehen, kann an dieser Stelle nur vermutet werden. Es kann an dokumentspezifischen Eigenschaften liegen, wie der Anzahl an Tags, die eine Ressource beschreiben, an der Art des Dokuments (z.B. Foto, Webseite oder Video), am Content des Dokuments (z.B. unterschiedlich viele abgebildete Gegenstände im Foto) oder am unterschiedlichen Taggingverhalten der Nutzer. Weitere Forschungen sollten diese Fraugestellung bearbeiten. Dies könnte geschehen, indem verschiedene Arten von Ressourcen getrennt analysiert werden. T-Index als Stabilitätsindikator für dokument-spezif. Tag-Verteilungen 133 Danksagung Wir danken unseren Kollegen der HHU Düsseldorf für die Unterstützung bei der Erstellung dieser Studie sowie der Förderung durch die Deutsche Forschungsgemeinschaft (Kennzeichen STO 764/4-1). Literaturverzeichnis Dellschaft, C. & Staab, S. (2010). On Differences in the Tagging Behavior of Spammers and Regular Users. In Proceedings of the Web Science Conference, Raleigh, USA. Golder, S. & Huberman, B. (2005). The Structure of Collaborative Tagging Systems. Retrieved October, 25, 2010, from http://arxiv.org/abs/cs.dl/ 0508082. Kipp, M. & Campbell, D. (2006). Patterns and Inconsistencies in Collaborative Tagging Systems: An Examination of Tagging Practices. In Proceedings of the 17th Annual Meeting of the American Society for Information Science and Technology, Austin, Texas, USA. Maarek, Y., Marnasse, N., Navon, Y. & Soroka, V. (2006). Tagging the Physical World. In Proceedings of the Collaborative Web Tagging Workshop at WWW 2006, Edinburgh, Scotland. Maass, W., Kowatsch, T. & Münster, T. (2007). Vocabulary Patterns in Free-for-all Collaborative Indexing Systems. In Proceedings of International Workshop on Emergent Semantics and Ontology Evolution, Busan, Korea (pp. 45–57). Maier, R. & Thalmann, S. (2007). Kollaboratives Tagging zur inhaltlichen Beschreibung von Lern- und Wissensressourcen. In R. Tolksdorf & J. Freytag (Eds.), Proceedings of XML Tage, Berlin, Germany (pp. 75–86). Berlin: Freie Universität. Peters, I. (2009). Folksonomies: Indexing and Retrieval in Web 2.0. Berlin: De Gruyter, Saur. Peters, I. & Stock, W. G. (2010). “Power Tags” in Information Retrieval. Library Hi Tech, 28(1), 81–93. Robu, V., Halpin, H. & Shepherd, H. (2009). Emergence of Consensus and Shared Vocabularies in Collaborative Tagging Systems. ACM Transactions on the Web, 3(4), 1–34. Surowiecki, J. (2004). The Wisdom of Crowds. London: Little, Brown Book Group. Vander Wal, T. (2005). Explaining and Showing Broad and Narrow Folksonomies, Retrieved October 20, 201. http://www.vanderwal.net/random/entrysel.php?blog=1635 134 Jens Terliesner, Isabella Peters T-Index als Stabilitätsindikator für dokument-spezif. Tag-Verteilungen Session 4: Infometrics & Representations 135 136 S. Hennicke, M. Olensky, V. de Boer, A. Isaac, J. Wielemaker A data model for cross-domain data representation The “Europeana Data Model” in the case of archival and museum data Steffen Hennicke1, Marlies Olensky1, Viktor de Boer2, Antoine Isaac2,3, Jan Wielemaker2 1 Humboldt-Universität zu Berlin Institut für Bibliotheks- und Informationswissenschaft Dorotheenstrasse 26, 10117 Berlin [email protected], [email protected] 2 Vrije Universiteit Amsterdam – Department of Computer Science De Boelelaan 1081a, 1081 HV Amsterdam [email protected], [email protected], [email protected] 3 Europeana – Koninklijke Bibliotheek Prins Willem-Alexanderhof 5, 2509 LK Den Haag Abstract This paper reports on ongoing work about heterogeneous and cross-domain data conversion to a common data model in EuropeanaConnect. The “Europeana Data Model” (EDM) provides the means to accommodate data from different domains while mostly retaining the original metadata notion. We give an introduction to the EDM and demonstrate how important metadata principles of two different metadata standards can be represented by EDM: one from the library domain (“Bibliopolis”), and one from the archive domain based on the “Encoded Archival Description” (EAD) standard. We conclude that the EDM offers a feasible approach to the issue of heterogeneous data interoperability in a digital library environment. A data model for cross-domain data representation 1 137 Introduction The project Europeana was set up as part of the EU policy framework for the information society and media (i2010 strategy) aiming at the establishment of a single access point to the distributed European (digital) cultural heritage covering all four different domains: libraries, museums, archives and audiovisual archives. In November 2008 a first prototype of Europeana was released providing basic search functionalities over about two million digital object representations. Among other projects Europeana v1.0 and EuropeanaConnect work on completing Europeana’s technical components and architecture (cf. Concordia et al., 2010). 2 Cross-domain interoperability Europeana will be a digital library, a digital museum, a digital archive and a digital audio-visual archive. Its object representations come from heterogeneous sources. Data heterogeneity is a general problem, whenever digital libraries need to interoperate. Thus, issues of cross-domain data representation and different structural and semantic problems need to be addressed. Previous efforts on metadata harmonization include standardization and mappings/crosswalks (cf. Chan et al., 2006 and Zeng et al., 2006). Haslhofer et al. (2010) distinguish between three categories of interoperability approaches: agreement on a certain model, agreement on a certain metamodel, and model reconciliation. The current metadata schema in use, the Europeana Semantic Elements (ESE) has solved the interoperability problem by agreeing on a common model and standardizing as well as converting the object metadata into flat, Dublin Core based representations. Thus, the original, richer metadata from the provider is lost during the conversion process. However, in the light of data enrichment, contextualization and semantic search functionalities it is important to use a data model that is able to reflect the richness of metadata from the original provider. The Europeana Data Model (EDM) was developed as a co-effort of Europeana v1.0 and EuropeanaConnect (Isaac et al., 2010). It is an approach 138 S. Hennicke, M. Olensky, V. de Boer, A. Isaac, J. Wielemaker which combines two categories of interoperability techniques: the agreement on a common meta-data model and model reconciliation, i.e. mappings (Haslhofer et al., 2010). In the following sections we will explain Europeana’s approach to overcome cross-domain data heterogeneity in order to provide useful access to Europe’s digital cultural heritage. To illustrate that this data model truly works across domains we will expand on two use cases taken from EuropeanaConnect’s ongoing work on data conversion. We have converted the Bibliopolis’1 metadata schema and the Encoded Archival Description2 (EAD) standard into the EDM as part of proofing exercises. Bibliopolis is a database about the national history of the printed book in the Netherlands. The Encoded Archival Description (EAD) standard is maintained by the Library of Congress and is an established XML standard in the archival area. 3 The Europeana Data Model To solve the problem of cross-domain data interoperability the EDM builds on the reuse of existing standards from the Semantic Web environment but does not specialize in any community standard (Doerr et al., 2010). The EDM acts as a top-level ontology consisting of elements from standards like OAI-ORE3, RDF(S)4, DC5 and SKOS6 and allows for specializations of these elements. Thus, richer metadata can be expressed through specializations of classes and properties. Some elements were defined in the Europeana namespace, yet contain referrals to other metadata standards. This allows for correct mappings and cross-domain interoperability. 1 “Bibliopolis”: http://www.bibliopolis.nl/ [7.10.2010]. 2 “Encoded Archival Description”: http://www.loc.gov/ead/ [7.10.2010]. 3 “Open Archives Initiative Protocol – Object Exchange and Reuse”: http://www.openarchives.org/ore/ [7.10.2010]. 4 “Resource Description Framework (Schema)”: http://www.w3.org/RDF/ [7.10.2010]. 5 “Dublin Core”: http://dublincore.org/ [7.10.2010]. 6 “Simplified Knowledge Organization System”: http://www.w3.org/2004/02/skos/ [7.10.2010]. A data model for cross-domain data representation 139 RDF(S) is used as an overall meta-model to represent the data. The ORE approach is used to structure the different information snippets belonging to an object and its representation. It follows the concept of aggregations (ore:Aggregation) and allows to distinguish between digital representations which are accessible on the Web and thus modeled as ens:WebResource and the provided object, e.g., represented as a ens:PhysicalThing. Furthermore, different, possibly conflicting views from more than one provider on the same object can be handled in EDM by using the proxy mechanism (ore:Proxy). The DCMI Metadata Terms describe the objects. SKOS is used to model controlled vocabularies which annotate the digital objects (Isaac et al., 2010). The EDM will replace the current metadata schema Europeana Semantic Elements (ESE) (Europeana v1.0, 2010) in the next release of Europeana (“Danube” release, scheduled for 2011). The ESE will then become an application profile of the EDM, which will thus be backwards compatible. 4 Bibliopolis Bibliopolis is the electronic national history of the printed book in the Netherlands curated by the Dutch National Library. The collection consists of 1,645 images related to book-printing. These images are described by metadata records and are accompanied by a thesaurus containing 1,033 terms used as keywords for describing and indexing the images. Both thesaurus and metadata are bilingual (English and Dutch). Figure 1 shows an example of a Bibliopolis object image and its metadata record. The Bibliopolis metadata is presented in an XML format and has a relatively simple ‘flat’ structure. Each object is represented by one metadata record inm:Record.7 Individual metadata elements are denoted by single XML tags. The values of the metadata fields are free text terms, which can be present in the Bibliopolis thesaurus. The Bibliopolis example represents both the simple and the common case as many cultural heritage institutions have similarly structured metadata and 7 “inm” is the original namespace of Bibliopolis. “bib” is the new namespace for the Bibliopolis data created during the conversion process. 140 S. Hennicke, M. Olensky, V. de Boer, A. Isaac, J. Wielemaker thesauri. This example shows how such ‘flat’ metadata is represented in EDM and demonstrates the use of some of the central features of the model. Figure 1: Example Bibliopolis metadata record and the described image Each inm:Record in the original metadata becomes a PhysicalThingProxy-Aggregation cluster in the EDM representation (cf. Figure 2). Each of these three EDM resources receives a URI, constructed by concatenating the Bibliopolis namespace prefix, the resource type (proxy-, etc.) and a guaranteed unique identifier, in this case the number (inm:NUMMER). By having a uniform URI creation scheme, objects referring to other objects can be easily represented in RDF by using URIs as objects. EDM specifies the relations that hold between these resources (ore:proxyIn, ore:aggregates, etc.) and these are added to the data. In EDM, the metadata describing the cultural heritage resource itself (e.g., painting, book…) is attached to the ore:Proxy using DC Terms properties. The Bibliopolis metadata fields can be represented in EDM in two ways: In the case where an original field exactly matches a DC Terms property (for example inm:TITEL and dcterms:title), the DC Terms property is used directly. In the case where the match is not exact, a Bibliopolis property is created in RDF which is specified as being a sub-property of the appropriate DC Terms property (for example inm:TECHNIEK is a rdfs:subPro- A data model for cross-domain data representation 141 pertyOf of dcterms:medium). Interoperability at the EDM level is ensured through RDFS semantics by using this sub-property method. Some Bibliopolis metadata fields are actually the identical properties with different language values (for example inm:TITEL and inm:TITEL_EN). In EDM/RDF these are represented using the same property and a language tagged-RDF literal as value. Figure 2 shows an example. Figure 2: This RDF graph shows part of the converted metadata of a Bibliopolis object. In EDM associated web pages, thumbnail images and other web resources are attached to the aggregation. As Figure 2 shows, in the case of Bibliopolis, the landing page (the main access page for an object) is represented by bib:landingPage which is a sub-property of ens:landingPage and has the aggregation as subject. In EDM, the ens:PhysicalThing resource of the triangle does not have any properties itself and is only used to relate objects as described by multiple aggregators and represented then through multiple proxies. Also, the relation to a thesaurus (skos:Concept) is depicted. 5 Encoded Archival Description (EAD) While Bibliopolis exemplifies a simple and very common case of object centric data representation, EAD represents finding aids which describe one or 142 S. Hennicke, M. Olensky, V. de Boer, A. Isaac, J. Wielemaker more archival collections which themselves consist of many files or items organized according to provenance in sequential order and in a contextualizing hierarchy. In other, non-archival terms we can say that an EAD file is one huge record containing many single objects which are contextualized by a hierarchical and sequential order. Several different EAD dialects exist each of which are subsets of the full EAD model. We use APEnet-EAD which is currently developed by the APEnet project8 within the context of Europeana. However, the core notion and structure of an EAD representation remains the same. The eadheader element contains bibliographic and descriptive information to identify a finding aid document. Its sibling element archdesc holds information about the archival collection as a whole and – within subsequent descendant c elements – information about classes, series, subseries, files, and items represented in a hierarchical and sequential order. Files or items generally constitute the smallest unit within the archival description and potentially hold digital representations of the possibly many single items (e.g., paper pages) it contains. All other intermediate levels normally structure the context for a file. The described structure is intrinsic to archival documentation practice and theory. The single file loses most of its information value if it is not properly represented within its context of provenance. The Bibliopolis example demonstrates central and standard features of the EDM and the conversion process like the mechanism of sub-properties for descriptive metadata or the creation and assignment of URIs to resources. Here we will focus on advanced features for the representation of hierarchical and sequential order in EDM. Figure 3 shows a simplified snippet from an EAD-XML representation of a finding aid of the Nationaal Archief in Den Haag.9 The archdesc element contains several descriptive metadata fields which hold information about the title of the whole archival fond (unittitle), the time span the material covers (unitdate), a call number (unitid), the name of the repository where the material is kept (repository), and a summary of the contents 8 APEnet project homepage: http://www.apenet.eu/ [18.10.2010]. 9 The original presentation of this archival fond can be found at http://tinyurl.com/EADNatArch [6.11.2010], the equivalent representation in ESE is at http://tinyurl.com/ EAD-EurSemEle [6.11.2010], and a first technical demo of the EDM representation is available at http://tinyurl.com/EAD-EurDataMod [6.11.2010]. A data model for cross-domain data representation 143 (scopecontent). Further down the hierarchy we see several c levels which are of different types: a series which contains a file which holds two items. All these levels have a call number and a title which are constitutive parts of the contextual description. The two items also link to digital representations (dao), e.g. digital images, of their contents. Figure 3: Simplified snippet from an EAD-XML representation of a finding aid of the Nationaal Archief in Den Haag. Figure 4 pictures a simplified graph representation of the example in figure 3 which shows how hierarchies and sequences are modeled in EDM. Archdesc and each c level are represented by an aggregation with a proxy for the descriptive metadata.10 The URI of a resource indicates the type of each level. 10 All ens:PhysicalThing are omitted, ens:WebResource are displayed only for one of the items and the ens:Proxy only hold the title of each level. 144 S. Hennicke, M. Olensky, V. de Boer, A. Isaac, J. Wielemaker Figure 4: Simplified EDM representation of an EAD structure. During conversion the EAD hierarchy has been translated into a double hierarchy: The ore:aggregates properties between the aggregations mirror the XML-hierarchy of the documentation in the EAD file. At the same time these relations represent, on a more abstract level, the different level of genericity of digital object “packages” submitted via the EAD file to Europeana. The dct:hasPart properties between the proxies conceptually reflect the documented physical hierarchy of the archival material as it exists in the actual archive. This line of hierarchy says that the archival fond (archdesc) incorporates a series which has a file which holds two item as parts. A data model for cross-domain data representation 145 This way the original hierarchical context of description is retained and every part of the complex object EAD file is represented distinctively. In the XML structure the two item elements are in an intentional and meaningful sequence. To express that the item with title “Pagina 2” is second in sequence with regard to the item with title “Pagina 1” we assert an ens:isNextInSequence statement. This small example shows how EDM models complex hierarchical objects. The archdesc level and each c level from the EAD file have been converted to aggregations constituting objects in their own right which have been linked together with inter-object properties. In the same way other interobject relations can be modeled, for instance derivative relations between different translations of a book with the property ens:isDerivativeOf. From a data modeling point of view no structural issues arose. EDM easily represents complex, hierarchical, and sequential objects. The EDM leaves room for data providers to consider different modeling options: For example, with regard to search and retrieval, it is possible to include the eadheader as a separate aggregation which describes a printed finding aid as a separate object. It is also possible to consider only levels which hold digital representations worth finding and therefore dismiss all other levels from the EDM representation. In our example above each c level in an EAD file is considered as a retrievable object in its own right. 6 Conclusion Four community workshops11 confirmed the feasibility of the EDM for the different domains represented in Europeana. It is important to stress that EDM does not make assumptions about the domain models. The two examples discussed in this paper focus on the difference of flat and hierarchical structures of the metadata, but EDM also accommodates, for example, eventcentric models. It is designed to be applied to different metadata structures and our examples provide the proof of concept for two of them. 11 Held for archives and museums in Berlin, libraries in Amsterdam, and audiovisual archives in Pisa during March and April of 2010. 146 S. Hennicke, M. Olensky, V. de Boer, A. Isaac, J. Wielemaker Currently prototyping continues and additional data sets are converted to EDM. These data sets will be integrated into a demonstrator called ThoughtLab12 which shows the use of the cross-domain data representation in search and retrieval functionalities envisioned for Europeana. This work is part of the current development of the EDM and the restructuring of the Europeana information space, which enables new functionalities like semantic search (Gradmann, 2010). It is important to note that the issue of data modeling is a separate step from the issue of data visualization: not all complex data needs to be rendered in end-user interfaces. The EDM is an approach to interoperability of heterogeneous data in a digital library environment. We showed how EDM accommodates metadata representations from two different domains while building on existing standards and leaving room for specializations. The EDM is aggregation-oriented and abstracts from the domains by remaining minimal in its modeling approach. It demonstrates how a domain-independent ontology defined by an RDF model is a feasible approach to integrate different metadata perspectives by providing a layer of generic properties and classes which at the same time can be specialized. Thus, it is possible to accommodate flat metadata representations like in the case of Bibliopolis but at the same time very complex structures like in the case of APEnet-EAD. References Chan, L. M., Marcia L. Z. (2006). Metadata Interoperability and Standardization – A Study of Methodology. Part I: Achieving Interoperability at the Schema Level. D-Lib Magazine 12 (6) June 2006. http://www.dlib.org/dlib/june06/chan/06chan.html (Retrieved January 12, 2011) Concordia, C., Gradmann, S., Siebinga, S. (2010). Not just another portal, not just another digital library: A portrait of Europeana as an application program interface. In: International Federation of Library Associations and Institutions 36 (1), pp. 61–69. http://dx.doi.org/10.1177/0340035209360764 12 “Semantic Searching Prototype, ThoughtLab”: http://www.europeana.eu/portal/ thought-lab.html [18.10.2010]. A data model for cross-domain data representation 147 Doerr, M., Gradmann, S., Hennicke, S. et al. (2010). The Europeana Data Model (EDM). Paper presented at the World Library and Information Congress: 76th IFLA General Conference and Assembly 10–15 August 2010, Gothenburg, Sweden. http://www.ifla.org/files/hq/papers/ifla76/149-doerr-en.pdf (Retrieved October 29, 2010) Europeana v1.0 (2010). Europeana Semantic Elements Specification, Version 3.3. http://www.version1.europeana.eu/web/guest/technical-requirements (Retrieved October 18, 2010) Gradmann, S. (2010). Knowledge = Information in Context. On the Importance of Semantic Contextualisation in Europeana. Europeana White Paper, 1. http://version1.europeana.eu/web/europeana-project/whitepapers (Retrieved October 18, 2010) Haslhofer, B., Klas, W. (2010). A survey of techniques for achieving metadata interoperability. In: ACM Computing Surveys 42 (2), S. 1–37. http://portal.acm.org/citation.cfm?doid=1667062.1667064 (Retrieved January 4, 2011) Isaac, A. (ed.) (2010). Europeana Data Model Primer. http://version1.europeana.eu/web/europeana-project/technicaldocuments/ (Retrieved October 18, 2010) Zeng, M. L., Chan, L. M. (2006). Metadata Interoperability and Standardization – A Study of Methodology. Part II: Achieving Interoperability at the Schema Level. D-Lib Magazine 12(6) June 2006. http://www.dlib.org/dlib/june06/zeng/06zeng.html (Retrieved January 12, 2011) 148 Stefanie Haustein Wissenschaftliche Zeitschriften im Web 2.0 Die Analyse von Social Bookmarks zur Evaluation wissenschaftlicher Journale Stefanie Haustein1,2 1 Forschungszentrum Jülich, Zentralbibliothek 52425 Jülich 2 Heinrich-Heine-Universität Düsseldorf Institut für Sprache und Information – Abt. Informationswissenschaft Universitätsstr. 1, 40225 Düsseldorf [email protected] Zusammenfassung Die Evaluation wissenschaftlicher Zeitschriften wird größtenteils auf den Impact Factor reduziert, welcher die durchschnittliche Anzahl der erhaltenen Zitate pro Artikel misst. Im Gegensatz zu diesem Zitationsindikator können Nutzungsstatistiken den Einfluss eines Journals zeitnah und auf die gesamte Leserschaft (auch die nicht-zitierende) abbilden. Mit dem Aufkommen des E-Publishing ist das Erheben dieser Statistiken auf Grundlage von Download- und Klickraten technisch möglich geworden. Jedoch werden weltweite Nutzungsdaten nicht flächendeckend zur Verfügung gestellt und lokale Daten sind oft inkonsistent und nicht vergleichbar. Dieser Beitrag beschreibt die alternative Erhebung von globalen Zeitschriftennutzungsdaten auf der Grundlage von Social Bookmarks. Abstract For the most part, the evaluation of scientific journals is limited to the Impact Factor, which normalizes the number of received citations by the number of publications. Compared to this citation indicator, usage statistics can measure the impact of a journal in realtime and account for the whole readership – not Wissenschaftliche Zeitschriften im Web 2.0 149 just the citing authors. With the rise of e-publishing, these statistics can be computed on the basis of download and click rates. However, global usage statistics are not made available and local data often lacks consistency and comparability. This contribution describes an alternative way to compute global journal usage on the basis of social bookmarks. Einleitung Bei der Bewertung wissenschaftlicher Zeitschriften kommt mit dem Impact Factor ein quantitativer Indikator zum Einsatz, der den Einfluss eines Journals an der durchschnittlichen Anzahl an Zitaten pro Publikation misst. Die Probleme im Umgang mit diesem Kennwert sind dabei genauso zahlreich wie bekannt (Seglen 1997). Mit der Umstellung von Print auf Online wird der Einfluss einer Zeitschrift auf die Leserschaft durch die Erhebung von Download- und Klickraten direkt und unmittelbar messbar (Bollen et al. 2005). Nutzungsstatistiken geben Auskunft über die Anzahl der heruntergeladenen Publikationen und erfassen so die Diffusion der Zeitschrifteninhalte innerhalb der gesamten wissenschaftlichen Community. Im Gegensatz zur Zitationsanalyse wird so auch der Einfluss auf reine Leser analysiert, den Teil der Leserschaft, der selbst nicht publiziert und damit die Quelle der Information nicht mit einem Zitat kennzeichnet (Roick 2006). Ein weiterer Vorteil besteht in der Unmittelbarkeit dieses Indikators: die Information ist über die Logfiles kurze Zeit nach dem Download verfügbar, wohingegen das Zitat erst nach einem oft langwierigen Publikationsprozess messbar wird (Bollen et al 2005). Obwohl sich im Hinblick auf die Vereinheitlichung von Nutzungsstatistiken in den letzten Jahren viel durch die Einführung von Standards wie COUNTER getan hat, bleibt die Anwendung in der Zeitschriftenevaluierung problematisch (Baker & Read 2008). Zwar wird im COUNTER Code of Practice die zu zählende Nutzung genau definiert, damit gelieferte Zahlen vergleichbar sind, jedoch wird dem Verlag freigestellt, ob er die Statistiken in Version 1a oder 5 des Journal Reports zur Verfügung stellt (COUNTER 2008). Journal Report 1a umfasst dabei die „Number of Successful Full-Text Article Requests from an Archive by Month and Journal“ (COUNTER 2008). Dort wird aufgeschlüsselt, in welchem Monat es wie viele Volltextzugriffe pro Zeitschrift gab, jedoch 150 Stefanie Haustein bleibt unklar auf welche Artikel, Ausgaben oder Publikationsjahre sich die Nutzung bezieht (Shepherd 2005). Eine Normalisierung und damit der Vergleich von verschiedenen Journalen sind so nicht möglich. Leider lassen sich in der Praxis viele Institutionen und Bibliotheken nicht davon abhalten auf Grundlage der absoluten Zahlen Vergleichsstatistiken zur Zeitschriftennutzung zu erstellen. Obwohl die Verlage detaillierte Daten über alle Zugriffe auf ihre elektronischen Inhalte sammeln und für die Nutzungsanalyse aufbereiten, werden die Ergebnisse unter Verschluss gehalten. Nutzungsdaten werden im Rahmen der geforderten Standards ausschließlich den abonnierenden Institutionen auf lokaler Ebene zur Verfügung gestellt. Statistiken über die weltweite Nutzung von Zeitschriften werden nicht veröffentlicht (Gorraiz & Gumpenberger 2010). Social Bookmarks als Datengrundlage für alternative Nutzungsstatistiken Aufgrund der problematischen Datenlage werden alternative Wege benötigt, um den Einfluss wissenschaftlicher Periodika auf die internationale wissenschaftliche Community zu untersuchen. Daher wird vorgeschlagen, die Lesezeichen bei Social Bookmarking Services zu analysieren. Dabei wird in Analogie zu Download- und Klickstatistiken davon ausgegangen, dass das Abspeichern eines Artikels mit der Nutzung der Zeitschrift, in welcher der Artikel erschienen ist, gleichzusetzen ist (Haustein et al. 2010). Auf dieser Annahme beruhen weitere Projekte wie ReaderMeter1 und Altmetrics2. Konzeptionelle Grundlagen zur Anwendung von Web 2.0-generierten Daten in der Szientometrie liefern Taraborelli (2008) und Priem und Hemminger (2010). Nach dem Vorbild von Delicious3 sind seit 2004 mehrere Bookmarking Dienste entstanden, die sich den speziellen Anforderungen von akademischen Nutzern angepasst haben. Nutzer von Social Bookmarking Plattformen 1 http://readermeter.org. 2 http://altmetrics.org/manifesto/ 3 http://www.delicious.com. Wissenschaftliche Zeitschriften im Web 2.0 151 können online wissenschaftliche Literatur abspeichern, verschlagworten und mit anderen Usern teilen (Priem & Hemminger 2010, Reher & Haustein 2010, Hammond et al. 2005). CiteULike4 war der erste Dienst, der sich auf akademische Zwecke spezialisiert hat, jedoch gibt es mit BibSonomy5, Connotea6 und 2collab7 Plattformen, die denselben Service anbieten. Da 2collab seit nunmehr einem Jahr keine neuen Nutzer zulässt, beschränkt sich die Datenerhebung auf die drei übrigen Dienste. Plattformen wie Mendeley8 und Zotero9 bieten ihren Usern mittlerweile ebenfalls die Möglichkeit, Bibliografien online zu teilen. Da diese Dienste jedoch primär als Social Collection Management als als Social Bookmarking Plattformen zum Einsatz kommen und ihre Inhalte erst langsam für das Web 2.0 „auftauen“ (Priem & Hemminger 2010), werden sie in dieser Studie nicht berücksichtigt. Durch das enorme Wachstum der Nutzerzahlen wird sich aber besonders Mendeley in Zukunft auch als Quelle für alternative Nutzungsstatistiken etablieren können (Priem & Hemminger 2010). Ablauf der Studie Um die Nutzung bei Social Bookmarking Diensten vergleichbar zu machen, dienen 45 Zeitschriften aus dem Bereich der Festkörperphysik als Datengrundlage. Um die Nutzung dieser Journale detailliert analysieren zu können, wurden für die 168.109 Artikel, die in diesen Zeitschriften zwischen 2004 und 2008 veröffentlicht wurden, die bibliografischen Datensätze aus dem Web of Science heruntergeladen. Da sich die Bookmarking-Einträge als lücken- und fehlerhaft erwiesen, wurden verschiedene Suchstrategien definiert, um möglichst alle Bookmarks zu finden. Über die ZDB10 wurden alle bekannten Formulierungen und Schreibweisen für Zeitschriftentitel und Abkürzungen und ISSNs ermittelt. Zusätzlich wurde über die DOIs auf Ebene der einzelnen Artikel gesucht. Für 95% aller Dokumente waren die DOIs bereits 44 http://citeulike.org. 45 http://www.bibsonomy.org. 46 http://connotea.org. 47 http://www.2collab.com. 48 http://www.mendeley.com. 49 http://www.zotero.org. 10 http://www.zeitschriftendatenbank.de. 152 Stefanie Haustein über die Web of Science-Daten verfügbar. Da die Einträge allerdings Fehler enthielten, wurden alle DOIs über http://www.dx.doi.org überprüft. Fehlende und fehlerhafte DOIs wurden mithilfe der bibliografischen Angaben der Artikel über CrossRef11 ermittelt, sodass schließlich 98,6% der Dokumente über die DOIs gesucht werden konnten (Haustein et al. 2010). Download der Bookmarks Die Erhebung der Bookmarking-Daten musste an die unterschiedlichen Such- und Schnittstellenfunktionalitäten der drei Dienste angepasst werden. Bei bibsonomy.org konnte die API für das Retrieval der Daten im XMLFormat genutzt werden. Da über die API allerdings keine Feldsuche zur Verfügung stand, mussten Titel, Titelabkürzungen, ISSNs und DOIs zunächst über die Volltextsuche erhoben werden. Anschließend wurde die Treffermenge auf die Einträge reduziert, bei denen der Suchterm im gesuchten Feld vorkam und welche auf Publikationen aus dem gesuchten Fünfjahreszeitraum verwiesen (Haustein et al. 2010). CiteULike bietet zwar keine Schnittstelle, um die gesuchten Bookmarks direkt herunterladen zu können, dafür aber ausführliche Suchfunktionen an, sodass das direkte Retrieval der gesuchten Einträge für jedes Journal möglich war (Reher & Haustein 2010). Die Treffermengen wurden von der Website geparst, im RIS-Format gespeichert und in einer Datenbank abgelegt. Connotea bietet weder eine umfangreiche Feldnoch eine Volltextsuche an. Zwar ist eine API verfügbar, über die Treffermengen heruntergeladen werden können, allerdings kann hier nur nach Tags, Nutzern oder Erstellungsdatum des Bookmarks gesucht werden (Reher & Haustein 2010). Die einzige Möglichkeit, die Bookmarks zu den gesuchten Artikeln ermitteln zu können, war daher, alle Datenbankeinträge nach ihren Erstellungsdaten herunterzuladen und in einer durchsuchbaren Feldstruktur abzulegen. Erstellen der Nutzungsstatistiken Wegen der fehler- und lückenhaften Metadaten der Bookmarks ging der Web 2.0-Effekt, verschiedene Nutzer der Plattformen über gemeinsame Ressourcen miteinander zu verbinden, oft verloren. Wenn bibliografische Angaben mehrerer Nutzer zu einer Publikation Fehler enthielten oder unvollständig waren, wurde diese nicht als gemeinsame Ressource erkannt. Da die Nutzung aus Normalisierungsgründen jedoch auch auf Artikelebene untersucht wer11 http://www.crossref.org. Wissenschaftliche Zeitschriften im Web 2.0 153 den sollte, wurden die Bookmarks über die DOIs mit den Web of ScienceEinträgen verbunden, um eine korrekte Zuordnung garantieren zu können. Fehlende DOI-Informationen wurden mithilfe von CrossRef und manueller Recherche ergänzt. q BibSonomy 145 users 802 articles 2054 users CiteULike Connotea 8082 articles 313 users 1995 articles Abbildung 1 Anzahl der Nutzer und gespeicherten Artikel von 45 Zeitschriften bei den verschiedenen Plattformen BibSonomy, CiteULike und Connotea. Die meisten Bookmarks zu den 168.109 Artikeln wurden bei CiteULike ermittelt: 10.640 Einträge konnten 8.082 Publikationen aus allen 45 Zeitschriften zugeordnet werden. Bei Connotea wurden 1.995 Artikel 2.042mal und bei BibSonomy 802 Dokumente 940mal hinterlegt (Abb. 1). Auch bei der Anzahl eindeutiger Nutzer liegt CiteULike vorne: Dort speicherten 2.054 User die Artikel der gesuchten Zeitschriften im Untersuchungszeitraum. Bei Connotea waren es 313 und BibSonomy 145 Nutzer (Abb. 1). Die Annahme, dass User sich generell für eine der drei Plattformen entscheiden, wurde durch einen Dublettencheck12 der Nutzernamen zwischen den verschiedenen Services bestätigt. Von 2.441 unterschiedlichen Nutzernamen erschienen lediglich 71 in zwei Services. Die Bookmarking-Daten der drei Plattformen wurden daher kombiniert und dienen als Datenbasis für die Erhebung der Nutzungsstatistiken. Insgesamt wurden 13.608 Bookmarks analysiert (Haustein et al. 2010). 12 An dieser Stelle sei angemerkt, dass es sich bei dem Dublettencheck um den Abgleich von Nutzernamen und nicht der dahinterstehenden Personen handelt. Theoretisch kann sich ein Nutzer bei den verschiedenen Diensten (oder sogar beim selben Dienst) mit mehreren Namen angemeldet haben, genauso wie sich hinter demselben Alias auch mehrere Personen verbergen können. 154 Stefanie Haustein Ergebnisse Auf Grundlage der Bookmarking-Daten werden vier Indikatoren generiert, die die globale Nutzung der Zeitschriften aus verschiedenen Perspektiven abbilden sollen: Nutzungsrate (Usage Ratio), Nutzungsbreite (Usage Diffusion), und die Nutzungsintensität auf Artikel- (Article Usage Intensity) und auf Zeitschriftenebene (Journal Usage Intensity). Zusätzlich zu den quantitativen Kennwerten können die Tags, mit denen die Nutzer die Dokumente verschlagwortet haben, ausgewertet werden, um die Sicht der Leser auf die Zeitschrifteninhalte abbilden zu können (Haustein et al. 2010). Mit 2.214 Artikeln war Applied Physics A die Zeitschriften mit der höchsten Anzahl genutzter Publikationen, gefolgt von Physical Review E (1.822) und Physical Review A (1.259). Da die Anzahl der Bookmarks abhängig vom Output der Zeitschrift ist und dieser im Fall der 45 Zeitschriften im Untersuchungszeitraum von 173 bis 25.983 (Tab. 1; s. Anhang) variiert, bedarf es einer Normalisierung. Anders als geläufige Download-Statistiken (COUNTER Journal Report 1a) ermöglichen die Bookmarking-Daten adäquate Normalisierungsmethoden. Nutzungsrate Die Nutzungsrate (Usage Ratio) beschreibt den Anteil der Publikationen einer Zeitschrift mit mindestens einem Nutzer gegenüber dem Gesamtoutput. Die Anzahl der genutzten Artikel wird dabei durch die Anzahl aller Veröffentlichungen der Zeitschrift im Untersuchungszeitraum dividiert. Mit 0,63 hat Reviews of Modern Physics die höchste Nutzungsrate (Tab. 1). 63% aller Artikel, die Reviews of Modern Physics zwischen 2004 und 2008 veröffentlicht hat, wurden mindestens einmal bei CiteULike, Connotea oder BibSonomy abgespeichert. Der Mittelwert für alle Zeitschriften beträgt 0,06 und der Median ist 0,07. Nutzungsbreite Die Nutzungsbreite (Usage Diffusion) bildet die Anzahl der eindeutigen Nutzer einer Zeitschrift und damit die Verbreitung einer Zeitschrift innerhalb der wissenschaftlichen Community ab. Da die Anzahl der Leser unabhängig von der Anzahl der veröffentlichten Dokumente ist, wird hier die absolute Größe verwendet. Durchschnittlich nutzten 115 eindeutige User eine Zeitschrift. Der Median beträgt 52 (Tab. 1). Die Power-Law-Verteilung von Nutzern auf Wissenschaftliche Zeitschriften im Web 2.0 155 Zeitschriften reichte von drei (Journal of Rheology) bis 820 (Physical Review E). Nutzungsintensität auf Artikelebene Article Usage Intensity untersucht die Intensiät der Nutzung der Artikel, indem pro Zeitschrift die Anzahl der Bookmarks durch die Anzahl der unterschiedlichen gespeicherten Artikel dividiert wird. Die mittlere Nutzungsintensität auf Artikelebene für alle 45 Zeitschriften beträgt 1,32 und der Median 1,17. Da 84% aller Dokumente nur einen Nutzer hatten, war die Nutzungsintensität durchschnittlich also sehr gering. Mit durchschnittlich 3,89 Nutzern (d.h. Bookmarks) pro Publikation war Reviews of Modern Physics die Zeitschrift mit den am intensivsten genutzten Artikeln. Der Artikel mit den meisten (67) Nutzern wurde in Physics Reports veröffentlicht (Tab. 1). Nutzungsintensität auf Zeitschriftenebene Im Gegensatz zur Article Usage Intensity untersucht Journal Usage Intensity nicht, ob Dokumente einer Zeitschrift von vielen verschiedenen Lesern genutzt werden, sondern überprüft, wie intensiv ein einzelner User die Zeitschrift nutzt. Dabei wird pro Zeitschrift die Anzahl der Bookmarks durch die Anzahl der verschiedenen Nutzer geteilt. Dieser Wert untersucht damit, wie treu ein Leser die Inhalte einer Zeitschrift verfolgt. Durchschnittlich lag der Wert bei 1,89 (Median: 1,63) Artikeln pro User. Am intensivsten wurde Physical Review A gelesen: 278 eindeutige User nutzten durchschnittlich 5,67 Dokumente (Tab. 1). Auswertung der Tags Zusätzlich zur Auswertung der Anzahl der Bookmarks und Nutzer können die Tags, mit denen die User die Artikel verschlagwortet haben, ausgewertet werden. So kann die Sicht der Leser auf die Inhalte der Zeitschriften analysiert werden. Jüngste Untersuchungen haben gezeigt, dass diese sich weitgehend von anderen Indexierungsmethoden unterscheiden. 88% aller Bookmarks enthielten Tags. Dies zeigt, dass die Leser diese Funktion nutzen, um die für sie relevanten Inhalte der Publikationen zu beschreiben. Nach der Bereinigung der Tags (Vereinheitlichung von Sonderzeichen, Singular- und Pluralformen, englischer und amerikanischer Schreibweisen etc.) wurden insgesamt 8.208 verschiedene Tags 38.241mal vergeben. Die Tag-Frequenz folgt einer Power-Law-Verteilung: Der Begriff mit der höchsten Frequenz 156 Stefanie Haustein („network“) wurde in der gesamten Datenmenge 687mal vergeben, der zweithöchste („quantum“) 344mal. 4.494 Wörter wurden hingegen nur einmal genannt. Werden die Tags auf Ebene der Zeitschriften kumuliert, können verschiedene thematische Schwerpunkte der Journale kenntlich gemacht werden. Hierzu eignen sich vor allem sogenannte Tag-Clouds, die die Wörter nach der Anzahl der Nennungen in unterschiedlichen Größen darstellen. Es können aber nicht nur unterschiedliche Themenbereiche zwischen verschiedenen Zeitschriften dargestellt werden. Wenn die Tags den Publikationsjahren der jeweiligen Artikel zugeordnet werden, lassen sich thematische Trends erkennen. Abbildung 2 zeigt die Tag-Cloud zu den Veröffentlichungen des Journal of Physics – Condensed Matter aus dem Jahr 2008. Abbildung 2 Tag-Cloud für Artikel, die 2008 im Journal of Physics – Condensed Matter publiziert wurden. Fazit Analog zu auf Download- und Klickraten basierenden Statistiken wurde gezeigt, dass das Abspeichern wissenschaftlicher Artikel bei spezialisierten Wissenschaftliche Zeitschriften im Web 2.0 157 Plattformen wie CiteULike, Connotea oder BibSonomy Nutzung signalisiert. Auf Grundlage von 13,608 Bookmarks und 10,280 Artikeln wurde mithilfe vier verschiedener Indikatoren beispielhaft die globale Nutzung von 45 physikalischen Zeitschriften analysiert. Die detaillierte Datenstruktur ermöglichte im Gegensatz zu herkömmlichen Downloadstatistiken den normalisierten Vergleich wissenschaftlicher Journale. Die bislang geringe Nutzung verhindert bislang zwar generelle Aussagen zur Zeitschriftennutzung, jedoch zeigt der Trend einen starken Nutzeranstieg bei den Social Bookmarking Plattformen, sodass die vorgestellten Indikatoren in Zukunft als alternative Nutzungskennwerte angewendet werden können (Priem & Hemminger 2010). Gegenüber der Zitationsanalyse messen sie den Einfluss eines Journals auf die gesamte Leserschaft in Echtzeit und sind gegenüber Downloadstatistiken frei verfügbar. Tags, mit denen die Nutzer die gespeicherten Artikel verschlagworten, geben zusätzlich Auskunft über Lesersicht auf den Zeitschrifteninhalt. Anhang Act Cryst A Act Cryst B Ann Phys Appl Phys A Appl Phys Let Comput Mater Sci EPL Eur Phys J B Eur Phys J E Hyperfine Interact IEEE Nanotechnol 2,051 326 2,341 493 1,161 296 1,884 2685 3,726 25983 1,549 1299 2,203 3291 1,568 2056 1,943 707 -- 1006 2,154 519 39 10 21 94 2587 50 414 229 104 9 28 29 9 18 88 2214 46 316 140 79 9 19 0,09 0,02 0,06 0,03 0,09 0,04 0,10 0,07 0,11 0,01 0,04 21 8 17 75 581 32 223 155 56 6 15 1,34 1,11 1,17 1,07 1,17 1,09 1,31 1,64 1,32 1,00 1,47 Nutzungsintensität (Zeitschrift) Nutzungsintensität (Artikel) Nutzungsbreite Nutzungsrate gespeicherte Artikel Bookmarks Publikationen (2004 bis 2008) Zeitschrift Impact Factor Tabelle 1 Nutzungsindikatoren, Impact Factor und Publikationszahl für 45 Zeitschriften 1,86 1,25 1,24 1,25 4,45 1,56 1,86 1,48 1,86 1,50 1,87 Int J Thermophys J Appl Phys J Low Temp Phys J Magn Magn Mater J Phys A J Phys Condens Matter J Phys D J Rheol J Stat Mech J Stat Phys J Vac Sci Technol A JETP Lett Nanotechnol New J Phys Nucl Instrum Meth A Nucl Instrum Meth B Phys Fluids Phys Lett A Phys Rep Phys Rev A Phys Rev E Phys Scr Phys Solid State Phys Stat Sol A Phys Stat Sol B Phys Today Physica B Physica C Pramana Rep Prog Phys Rev Mod Phys Soft Matter Solid State Ion Supercond Sci Technol 0,889 757 2,201 17827 1,034 1260 1,283 7549 1,540 5244 1,900 7427 2,104 4554 2,676 347 2,758 958 1,621 1049 1,173 1580 1,418 1487 3,446 4852 3,440 1926 1,019 7670 0,999 5973 1,738 2702 2,174 5328 18,522 341 2,908 11027 2,508 12117 0,970 2543 0,682 1970 1,205 2721 1,166 2691 3,674 1780 0,822 5561 0,740 3947 0,274 1258 12,090 220 173 33,985 4,586 654 2,425 2270 1,847 1685 15 1002 38 128 299 558 199 5 222 79 28 31 311 436 235 129 259 159 221 1575 2916 57 6 73 81 43 65 65 14 184 424 109 12 45 14 909 36 111 225 438 177 4 134 67 27 28 276 307 215 122 220 137 76 1259 1822 54 6 66 76 35 64 55 14 89 109 93 12 36 0,02 0,05 0,03 0,02 0,04 0,06 0,04 0,01 0,14 0,06 0,02 0,02 0,06 0,16 0,03 0,02 0,08 0,03 0,22 0,11 0,15 0,02 0,00 0,02 0,03 0,02 0,01 0,01 0,01 0,41 0,63 0,14 0,01 0,02 8 327 20 73 186 244 125 3 136 52 17 21 177 239 91 52 101 99 164 278 820 38 6 50 56 36 40 29 13 134 240 51 9 31 1,07 1,10 1,06 1,15 1,33 1,27 1,12 1,25 1,66 1,18 1,04 1,11 1,13 1,42 1,09 1,06 1,18 1,16 2,91 1,25 1,60 1,06 1,00 1,11 1,07 1,23 1,02 1,18 1,00 2,07 3,89 1,17 1,00 1,25 Nutzungsintensität (Zeitschrift) Nutzungsintensität (Artikel) Nutzungsbreite Nutzungsrate gespeicherte Artikel Bookmarks Publikationen (2004 bis 2008) Zeitschrift Stefanie Haustein Impact Factor 158 1,88 3,06 1,90 1,75 1,61 2,29 1,59 1,67 1,63 1,52 1,65 1,48 1,76 1,82 2,58 2,48 2,56 1,61 1,35 5,67 3,56 1,50 1,00 1,46 1,45 1,19 1,63 2,24 1,08 1,37 1,77 2,14 1,33 1,45 Wissenschaftliche Zeitschriften im Web 2.0 159 Literaturverzeichnis Baker, G. & Read, E. J. (2008). Vendor supplied usage data for electronic resources: a survey of academic libraries. Learned Publishing 21, 48–57. Bollen, J., Van de Sompel, H., Smith, J. A. & Luce, R. (2005). Toward alternative metrics of journal impact: A comparison of download and citation data. Information Processing & Management 41, 1419–1440. COUNTER (2008). Code of Practice for Journals and Databases Release 3, August 2008. http://www.projectcounter.org/code_practice.html Gorraiz, J. & Gumpenberger C. (2010). Going beyond citations: SERUM – a new tool provided by a network of libraries. Liber Quarterly 20, 80–93. Hammond, T., Hannay, T., Lund, B. & Scott, J. (2005). Social bookmarking tools (I). D-Lib Magazine 11. Haustein, S., Golov, E., Luckanus, K., Reher, S. & Terliesner, J. (2010). Journal evaluation and science 2.0: Using social bookmarks to analyze reader perception. Proceedings of the 11th International Conference on Science and Technology Indicators, Leiden, 117–119. Priem, J. & Hemminger, B. M. (2010). Scientometrics 2.0: Toward new metrics of scholarly impact on the social Web. First Monday 15. Reher, S. & Haustein, S. (2010). Social bookmarking in STM: Putting services to the acid test. ONLINE 34 (6), 34–42. Roick, C. (2006). Medical journals for authors and/or readers? Opinions of different reader groups about the journal “Psychiatrische Praxis”. Psychiatrische Praxis 33, 287–295. Seglen, P. O. (1997). Citations and journal impact factors: questionable indicators of research quality. Allergy 52, 1050–1056. Shepherd. P. T. (2005). COUNTER 2005. A new Code of Practice and new applications of COUNTER usage statistics. Learned Publishing 18, 287–293. Taraborelli, D. (2008). Soft peer review: Social software and distributed scientific evaluation. Proceedings of the 8th International Conference on the Design of Cooperative Systems. 160 Philipp Leinenkugel, Werner Dees, Marc Rittberger Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar Philipp Leinenkugel1, Werner Dees2, Marc Rittberger2 1 2 Langbehnstraße 15, 83022 Rosenheim [email protected] Deutsches Institut für Internationale Pädagogische Forschung (DIPF) Schloßstraße 29, 60486 Frankfurt am Main [email protected]; [email protected] Zusammenfassung Der vorliegende Beitrag untersucht den Abdeckungsgrad erziehungswissenschaftlicher Fachzeitschriften in Google Scholar und verdeutlicht, inwieweit die Nutzung des kostenlosen Suchdienstes für diese Disziplin sinnvoll ist. Insgesamt wurden 712 Artikel aus sechs ausgewählten Fachzeitschriften der Erziehungswissenschaft überprüft. Als Ergebnis kann festgehalten werden, dass Google Scholar vor allem aufgrund eines mangelhaften Abdeckungsgrades (noch) keine ernsthafte Alternative zu herkömmlichen Fachdatenbanken darstellt. Abstract This paper investigates the range of coverage of educational science journals in Google Scholar and indicates to what extent the free scientific search engine is appropriate for this discipline. A total of 712 articles taken from six selected pedagogic journals were examined. The results indicate that due to an inadequate range of coverage Google Scholar does not (presently) constitute a viable alternative to traditional educational research databases. Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar 161 1 Einleitung Seit der Einführung von Google Scholar im November 2004 (die deutschsprachige Version im April 2006) wird dieser Dienst mit viel Lob für das Angebot eines kostenfreien Zugangs zu einer immensen Menge an bibliografischen Daten und zum Teil auch Volltexten bedacht, aber auch mit viel Kritik für die oft äußerst mangelhafte Qualität der präsentierten Metadaten [vgl. Fell 2010, Jacsó 2010]. Da Google keine konkreten Angaben zu den indexierten Inhalten macht, wurde schon kurze Zeit nach der Einführung von Google Scholar die als Beta-Version gestartete „wissenschaftliche Suchmaschine“ eingehend geprüft. So wurde eine Reihe von Studien durchgeführt, die Auskunft über den Abdeckungsgrad wissenschaftlicher Fachartikel und Zeitschriftenbeiträge in verschiedenen Disziplinen geben sollten, bspw. von Lewandowski [2007] für die Bibliotheks- und Informationswissenschaft, Meier und Conkling [2008] für die Ingenieurwissenschaften oder Clermont [2010] für die Betriebswirtschaft. Die Schlussfolgerungen dieser Studien unterscheiden sich v.a. in Abhängigkeit von den untersuchten Disziplinen und Publikationssprachen. Während sich Google Scholar nach Lewandowski [2007: 166ff.] „nicht als Ersatz für bibliografische Datenbanken im Bereich Bibliotheks- und Informationswissenschaft eignet“, zieht Clermont [2010: 84] das Fazit, „dass Google Scholar bei entsprechender Beachtung von Einschränkungen und durch einen genauen ‚Expertenblick‘ zur Literaturrecherche genutzt werden kann.“ Insbesondere im Vergleich mit der traditionellen Zitationsdatenbank Web of Science könnte Google Scholar nach Harzing und van der Wal [2008] aufgrund der breiteren Erfassung von Zeitschriften und darüber hinaus auch Büchern und Tagungsbänden gerade für die Sozial- und Geisteswissenschaften sowie die Ingenieurwissenschaften von Vorteil sein. Viele der bisher durchgeführten Studien zur Abdeckung von Google Scholar beziehen sich auf die Natur-, Wirtschafts- oder Ingenieurwissenschaften. Für die Erziehungswissenschaft mit ihrem Fokus auf Publikationsorgane aus dem deutschsprachigen Raum ist es von besonderem Interesse, wie sich der Abdeckungsgrad deutscher Fachzeitschriften der Erziehungswissenschaft darstellt. 162 Philipp Leinenkugel, Werner Dees, Marc Rittberger Daher wurde eine Studie durchgeführt, welche den Abdeckungsgrad von bedeutenden erziehungswissenschaftlichen Fachzeitschriften aus dem deutschsprachigen Raum in Google Scholar ermitteln sollte. Hauptziel dieser Studie war es, zum einen die akademische Nutzbarkeit des Google Dienstes für die genannte Wissenschaftsdisziplin zu testen. Anhand der Ergebnisse sollte festgestellt werden, ob und inwieweit der kostenfreie Google-Dienst als Alternative zu kostenpflichtigen Fach- und Zitationsdatenbanken in Frage kommen kann. Da Google Scholar knapp fünf Jahre nach der offiziellen Einführung in Deutschland nach wie vor den Zusatz „Beta-Version“ trägt, sollte außerdem festgestellt werden, inwieweit sich nach einer mehrjährigen Aufbau- und Entwicklungsphase die bisher geäußerten positiven und negativen Ansichten auf die zu untersuchende Disziplin übertragen lassen. 2 Abdeckung und Arten des Nachweises Die meiste Kritik erhielt Google Scholar bisher aufgrund einer unklaren und ungleichmäßigen Abdeckung von Inhalten, einer mangelnden Qualität der Ergebnisse und der fehlerbehafteten Suchfunktion. Die Unsicherheit über die Inhalte betrifft vor allem die Frage, welche Zeitschriften überhaupt indexiert werden, welche Fachgebiete und welche Zeiträume gut abgedeckt sind, und wie die Wissenschaftlichkeit der nachgewiesenen Literatur (etwa mit Blick auf Hausarbeiten oder Kursmaterialien) einzuschätzen ist. Im Hinblick auf die Datenqualität lässt sich feststellen, dass Treffer häufig fehlerhafte bibliografische Angaben aufweisen und die Ergebnislisten zudem Dubletten enthalten [Clermont 2010]. Grundsätzlich wird in Google Scholar zwischen vier Nachweisformaten unterschieden, welche in den meisten Fällen zu Beginn eines jeden Treffers ersichtlich sind [Mayr/Walter 2006]. • Volltexte im PDF-Format, welche kostenfrei von Verlags- oder OpenAccess-Servern heruntergeladen werden können. Zum Teil werden auch Beiträge im MS Word-, HTML- oder Postscript-Format indexiert. Erkennbar ist diese Form des Nachweises durch die vorangestellte Kennzeichnung [PDF], [DOC], [HTML] bzw. [PS]. Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar 163 • • • 3 Direkte Verlinkungen auf das zitierte Dokument, welches in den meisten Fällen zumindest auf Abstract-Level verfügbar und für Lizenznehmer im Volltext abrufbar ist. Diese Form stellt die Mehrheit der in Google Scholar gefundenen Ergebnisse dar. Zitierte Zeitschriftenartikel, die lediglich als Zitation und ohne eine direkte Verlinkung auf den Volltext vorliegen und mit dem Präfix [ZITATION] gekennzeichnet sind. Nachweise von Büchern, welche u.a. über die Büchersuche von Google abgerufen werden und durch das vorangestellte [BUCH] erkennbar sind. Da diese Form des Nachweises für die vorliegende Untersuchung irrelevant ist, wurden sie bei der Ergebnisermittlung nicht weiter berücksichtigt. Aufbau der Untersuchung Für die vorliegende Untersuchung wurden insgesamt sechs Fachzeitschriften aus der Erziehungswissenschaft berücksichtigt. Konkret wurden die Jahrgänge 2006 bis 2009 abgeprüft und die zurückgelieferten Daten analysiert.1 Zeitschriften gehören zu den zentralen Publikationsmedien wissenschaftlicher Erkenntnisse und Fachdiskussionen, weshalb sich diese Studie zur Überprüfung der akademischen Nutzbarkeit von Google Scholar auf den Abdeckungsgrad von Zeitschriften und dort wiederum auf Fachartikel beschränkte. Andere Beiträge wie Themeneinleitungen, Kommentare, Rezensionen oder Vorworte hingegen blieben bei der Untersuchung unberücksichtigt. Die methodische Vorgehensweise der Untersuchung gliederte sich wie folgt: • Schritt 1: Für die Untersuchung wurden zentrale deutschsprachige Zeitschriften der allgemeinen Erziehungswissenschaft gewählt. Mit der Zeitschrift für Erziehungswissenschaft, der Zeitschrift für Pädagogik und der Zeitschrift für Soziologie der Erziehung und Sozialisation wurden die drei deutschen Zeitschriften der Kategorie „Education & Educational research“ der Journal Citation Reports des Web of Science ausgewählt. 1 Für die Mitwirkung an Datenerhebung und -analyse sei Luise Likow und Michaela Sieber gedankt. 164 • • Philipp Leinenkugel, Werner Dees, Marc Rittberger Darüber hinaus wurden mit Bildung und Erziehung und Unterrichtswissenschaft zwei Zeitschriften einbezogen, die sowohl auf der Initial list „Pedagogical and Educational Research“ des European Reference Index for the Humanities (ERIH) [European Science Foundation 2011] als auch auf der Liste „führender Fachzeitschriften“ des Datenreport Erziehungswissenschaft 2004 [Tippelt u.a. 2004: 255f.] vertreten sind und die zugleich in einer unveröffentlichten Befragung von Mitgliedern der Deutschen Gesellschaft für Erziehungswissenschaft aus dem Jahr 2004 unter den ersten zehn Zeitschriften gerankt wurden. Die Auswahl wurde mit der Harvard Educational Review um eine bedeutende US-amerikanische Zeitschrift ergänzt, um den Abdeckungsgrad deutschsprachiger Zeitschriften mit dem einer englischsprachigen vergleichen zu können. Schritt 2: Die bibliografischen Angaben der in die Untersuchung einbezogenen Fachartikel wurden zunächst über die erziehungswissenschaftliche Literaturdatenbank „FIS Bildung“ recherchiert. Um die Vollständigkeit dieser Artikelmenge sicherzustellen, wurden die Inhaltsverzeichnisse der relevanten Jahrgänge auf den Verlagsseiten überprüft. In den Fällen, in denen keine Inhaltsverzeichnisse auf den Verlagsseiten zu finden waren, wurden die gedruckten Zeitschriftenausgaben herangezogen. Die Prüfung stellte sicher, dass einerseits die exakte Artikelanzahl und anderseits auch deren korrekte bibliografischen Angaben vorlagen. Fehlende oder inkorrekte Datensätze wurden eigenhändig übertragen bzw. korrigiert, sodass alle Angaben vollständig zur Verfügung standen. Schritt 3: Auf dieser Basis erfolgte nun die eigentliche Recherche in Google Scholar. Hierbei wurde die Suchstrategie so festgelegt, dass auch Treffer gefunden werden konnten, deren bibliografische Angaben stark von den Inhaltsverzeichnissen der Zeitschriften abwichen. So wurde im Anschluss an die einfache Titelsuche eine „Gegenprobe“ durchgeführt, in welcher der Name des Verfassers bzw. der Verfasser, der Titel der Zeitschrift und der passende Jahrgang berücksichtigt wurden. Somit sollte verhindert werden, dass möglicherweise nur aufgrund von fehlerhaften bibliografischen Angaben in Google Scholar die Ergebnisse dieser Untersuchung beeinträchtigt werden. Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar 165 4 Ergebnisse Die Ergebnisse der Untersuchung sind in den nachfolgenden Tabellen 1 (für die deutschsprachigen Zeitschriften) und 2 (für die englischsprachige) detailliert beschrieben. Aufgeführt ist sowohl die Gesamtanzahl der Artikel pro Zeitschrift und Jahrgang sowie die jeweilige Anzahl an Zitationen, Verlinkungen und Volltexten. Zusätzlich ist der prozentuale Anteil pro Nachweisart und Zeitschrift für den gesamten Untersuchungszeitraum angegeben. Von den insgesamt 603 überprüften Fachartikeln aus deutschsprachigen Zeitschriften konnten mehr als die Hälfte (58,4%) nicht in Google Scholar ausfindig gemacht werden. Demgegenüber werden 24,5% durch eine Verlinkung nachgewiesen, etwa 13,4% anhand einer Zitation und lediglich 3,6% aller gesuchten Artikel standen als Volltexte kostenfrei zur Verfügung. Über die untersuchten Jahrgänge hinweg weist die Abdeckung teilweise größere Unterschiede auf. So lässt sich feststellen, dass 9,0% der Artikel des Erscheinungsjahres 2009 kostenfrei als Volltext zur Verfügung stehen, während dieser Anteil für Artikel der Erscheinungsjahre 2006 bis 2008 nur zwischen 0 und 4,7% liegt. Der Anteil an Verlinkungen ist für den Jahrgang 2006 am höchsten und nimmt danach ab, was vor allem auf die Zeitschrift Bildung und Erziehung zurückzuführen ist, deren Beiträge dieses Jahres in der französischen bibliografischen Datenbank CAT.INIST dokumentiert wurden, die wiederum in Google Scholar indexiert ist. Für die folgenden Jahre war dies nicht mehr der Fall, wodurch die Abnahme zu erklären ist. Die Anzahl an Nachweisen durch Zitationen ist im Jahr 2009 erwartungsgemäß am geringsten (es benötigt eine gewisse Zeit, bis Artikel in späteren Publikationen als Zitationen auftauchen). Tabelle 1: Abdeckung der deutschsprachigen Zeitschriften in Google Scholar Zeitschrift Jahrgänge 2006 alle deutschsprachigen Zeitschriften Anzahl Artikel Kein Nachweis in Google Scholar Nachgewiesen durch Verlinkung Nachgewiesen durch Zitation Nachgewiesen durch Volltext gesamt Anteil in % (2006–2009) 2007 2008 2009 156 61 143 91 149 95 155 105 603 352 100,0 58,4 58 36 1 40 12 0 25 22 7 25 11 14 148 81 22 24,5 13,4 3,6 166 Philipp Leinenkugel, Werner Dees, Marc Rittberger Zeitschrift Jahrgänge 2006 Zeitschrift für Erziehungswissenschaft Anzahl Artikel Kein Nachweis in Google Scholar Nachgewiesen durch Verlinkung Nachgewiesen durch Zitation Nachgewiesen durch Volltext Unterrichtswissenschaft Anzahl Artikel Kein Nachweis in Google Scholar Nachgewiesen durch Verlinkung Nachgewiesen durch Zitation Nachgewiesen durch Volltext Zeitschrift für Pädagogik Anzahl Artikel Kein Nachweis in Google Scholar Nachgewiesen durch Verlinkung Nachgewiesen durch Zitation Nachgewiesen durch Volltext Bildung und Erziehung Anzahl Artikel Kein Nachweis in Google Scholar Nachgewiesen durch Verlinkung Nachgewiesen durch Zitation Nachgewiesen durch Volltext Zeitschrift für Soziologie der Erziehung und Sozialisation Anzahl Artikel Kein Nachweis in Google Scholar Nachgewiesen durch Verlinkung Nachgewiesen durch Zitation Nachgewiesen durch Volltext gesamt Anteil in % (2006–2009) 2007 2008 2009 30 0 29 0 29 1 31 2 119 3 100,0 2,5 30 0 0 29 0 0 25 0 3 23 0 6 107 0 9 89,9 0,0 7,6 17 5 18 9 19 14 22 16 76 44 100,0 57,9 1 11 0 0 9 0 0 4 1 1 3 2 2 27 3 2,6 35,5 3,9 56 40 37 27 44 27 51 43 188 137 100,0 72,9 1 15 0 10 0 0 0 14 3 0 6 2 11 35 5 5,8 18,6 2,7 27 2 29 29 35 34 27 24 118 89 100,0 75,4 25 0 0 0 0 0 0 1 0 0 0 3 25 1 3 21,2 0,8 2,5 26 14 30 26 22 19 24 20 102 79 100,0 77,4 1 10 1 1 3 0 0 3 0 1 2 1 3 18 2 2,9 17,6 2,0 Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar 167 Tabelle 2: Abdeckung der englischsprachigen Zeitschrift in Google Scholar Zeitschrift Harvard Educational Review Anzahl Artikel Kein Nachweis in Google Scholar Nachgewiesen durch Verlinkung Nachgewiesen durch Zitation Nachgewiesen durch Volltext 4.1 Jahrgänge gesamt 2006 2007 2008 2009 Anteil in % (2006–2009) 23 0 17 1 22 0 47 0 109 1 100,0 0,9 19 0 4 16 0 0 22 0 0 43 0 4 100 0 8 91,7 0,0 7,3 Abdeckung in Google Scholar Im Hinblick auf die Auffindbarkeit der Artikel der deutschsprachigen Zeitschriften lässt sich feststellen, dass vor allem eine Zeitschrift einen besonders hohen Abdeckungsgrad aufweist. Die Zeitschrift für Erziehungswissenschaft ist mit einem Abdeckungsgrad von 97,5% die am besten nachgewiesene deutsche Fachzeitschrift im Bereich der allgemeinen Erziehungswissenschaft. Die recherchierten Artikel werden fast ausschließlich über die OnlineBibliothek „Springer Link“ indexiert. Während bei der Zeitschrift Unterrichtswissenschaft weniger als die Hälfte der Artikel nachgewiesen werden (42,0%), liegt die Abdeckungsquote bei den restlichen Zeitschriften noch niedriger. Die Zeitschrift für Pädagogik weist ebenso wie die Bildung und Erziehung mit 27,1% bzw. 24,5% einen niedrigen Abdeckungsgrad auf, wobei noch rund ein Viertel der Artikel in Google Scholar nachgewiesen wird. Das Schlusslicht dieser Untersuchung bildet die Zeitschrift für Soziologie der Erziehung und Sozialisation, bei der lediglich 22,5% der gesuchten Artikel in Google Scholar auffindbar sind. Im Vergleich dazu ist die US-amerikanische Zeitschrift Harvard Educational Review mit einer Gesamtabdeckung von 99% die am besten nachgewiesene Fachzeitschrift der Untersuchung. Die Beiträge werden vor allem durch den Verlag und die dort verfügbaren Inhaltsverzeichnisse auffindbar gemacht, die im Gegensatz zu den Inhaltsverzeichnissen der meisten deutschsprachigen Zeitschriften von Google Scholar indexiert werden. 168 4.2 Philipp Leinenkugel, Werner Dees, Marc Rittberger Verteilung der Nachweisformate Von den insgesamt 712 in Google Scholar gesuchten Artikeln aus allen sechs Zeitschriften entfallen 248 (34,8%) auf Verlinkungen, die hauptsächlich zu kostenpflichtigen Volltexten auf Verlagsseiten oder wissenschaftlichen Informationsanbietern führen. Die Gesamtanzahl an Zitationen, also nicht eigenständiger Literaturnachweise, sondern lediglich aus Dokumenten extrahierter Referenzen mit minimalen bibliografischen Angaben, beläuft sich auf 81 Stück, was einem Anteil von 11,4% entspricht. Insbesondere die Artikel der Zeitschrift Unterrichtswissenschaft, der Zeitschrift für Pädagogik und der Zeitschrift für Soziologie der Erziehung und Sozialisation weisen für den Untersuchungszeitraum 2006 bis 2009 eine relativ hohe Quote an Zitationen von 35,5%, 18,6% und 17,6% auf. Die Anzahl der kostenfreien Volltexte hingegen erweist sich als minimal. Von 712 Artikeln stehen lediglich 30 kostenfrei zur Verfügung, was einem Anteil von 4,2% entspricht. In der Zeitschrift für Erziehungswissenschaft und der Harvard Educational Review konnten 8 bzw. 9 Volltexte kostenfrei genutzt werden, die jedoch nicht durch die Verlage, sondern durch alternative Quellen zugänglich gemacht wurden. In den übrigen Zeitschriften wurden noch weniger kostenfrei zugängliche Artikel aufgefunden. In wenigen Fällen gab es zu einem Artikel in Google Scholar mehrere Nachweisformate (z.B. sowohl Zitation als auch Volltext), wobei hier jeweils das Format mit dem höchsten Informationsgehalt (also Volltext vor Zitation) gezählt und in der Auswertung berücksichtigt wurde. Im Hinblick auf die Dokumentenformate lässt sich feststellen, dass alle frei zugänglichen Volltexte als PDF vorliegen. 5 Fazit Die empirische Untersuchung des Abdeckungsgrades von Google Scholar zeigt, dass sich dieser Dienst, so wie es Lewandowski [2007] schon für die Bibliotheks- und Informationswissenschaft festgestellt hat, auch für die deutschsprachige Erziehungswissenschaft nicht als Ersatz für bibliografische Datenbanken eignet. Lediglich eine der untersuchten fünf deutschsprachigen Zeitschriften wird fast vollständig nachgewiesen, während von den anderen vier nur etwa ein Viertel der Artikel des Zeitraums 2006 bis 2009 in Google Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar 169 Scholar zu finden sind. Im Gegensatz dazu werden die Artikel der Harvard Educational Review zu praktisch 100% nachgewiesen. Zwar werden die Inhaltsverzeichnisse aller untersuchten Zeitschriften (mit Ausnahme der Bildung und Erziehung) über die Verlagsseiten im Internet bereitgestellt, aber nur jene der Zeitschrift für Erziehungswissenschaft und der Harvard Educational Review werden auch von Google Scholar indexiert. Das Beispiel der Zeitschrift für Erziehungswissenschaft macht zugleich deutlich, dass die geringe Abdeckung vieler Zeitschriften nicht in einer generellen Nichtbeachtung deutschsprachiger Literatur begründet liegt, sondern auf die fehlenden oder unzulänglichen Onlineangebote der kleinen deutschen Zeitschriftenverlage zurückzuführen ist. Noch deutlich niedriger als in der Bibliotheks- und Informationswissenschaft liegt der Anteil der elektronischen Volltexte, die in Google Scholar zu finden sind. Nur zwei der sechs Zeitschriften (Zeitschrift für Erziehungswissenschaft und Harvard Educational Review) bieten die Artikel ihrer aktuellen Jahrgänge kostenpflichtig in elektronischer Form an. Bei weiteren drei liegen zumindest ältere, vor dem Untersuchungszeitraum liegende, Jahrgänge retrodigitalisiert über DigiZeitschriften vor. Insgesamt zeigt die Untersuchung, dass sich Studierende oder andere an erziehungswissenschaftlicher Fachliteratur Interessierte nicht alleine auf die beliebte Suchmaschine Google Scholar verlassen, sondern auch Fachdatenbanken wie FIS Bildung oder andere wissenschaftliche Suchmaschinen wie BASE (wobei deren Abdeckungsgrad erst noch zu untersuchen wäre) berücksichtigen sollten. Gleichzeitig sollten erziehungswissenschaftliche Verlage und Autoren versuchen, in größerem Maße in Google Scholar nachgewiesen zu werden, um in diesem internationalen, multidisziplinären Angebot eine bessere Sichtbarkeit zu erreichen. Literaturverzeichnis Clermont, M. (2010): Darstellung und Güteprüfung von Google Scholar zur Literatur- und Zitationsauswertung. http://www.lut.rwth-aachen.de/Arbeitsberichte?action=AttachFile&do=view&target=Darstellung+und+G%C3%BCtepr%C3%BCfung+von+Google+Scholar.pdf (16.09.2010) 170 Philipp Leinenkugel, Werner Dees, Marc Rittberger European Science Foundation (2011): ERIH ‘Initial’ lists. http://www.esf.org/research-areas/humanities/erih-european-reference-index-for-thehumanities/erih-initial-lists.html (09.01.2011) Fell, C. (2010): Publish or Perish und Google Scholar – ein Segen? Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID), Trier. http://www.zpid.de/pub/research/2010_Fell_Publish-or-Perish.pdf (21.09.2010) Harzing, A.; van der Wal, R. (2008): Google Scholar as a new source for citation analysis. In: Ethics in Science and Environmental Politics 2008(8): 61–73. Jascó, P. (2010): Metadata mega mess in Google Scholar. In: Online Information Review 34(1), 175–191. Lewandowski, D. (2007): Nachweis deutschsprachiger bibliotheks- und informationswissenschaftlicher Aufsätze in Google Scholar. In: Information, Wissenschaft & Praxis, 58(3), 165–168. Mayr, P.; Walter, A. (2006): Abdeckung und Aktualität des Suchdienstes Google Scholar. In: Information, Wissenschaft & Praxis, 57(3), 133–140. Meier, J. J.; Conkling, T. W. (2008): Google Scholar’s Coverage of the Engineering Literature: In: The Journal of Academic Librarianship 34(3), 196–01. Tippelt, R.; Rauschenbach, T.; Weishaupt, H. (Hg.) (2004): Datenreport Erziehungswissenschaft 2004. Wiesbaden: VS Verlag für Sozialwissenschaften. Abdeckung erziehungswissenschaftlicher Zeitschriften in Google Scholar 171 Session 5: Information Retrieval 172 Ari Pirkola Constructing Topic-specific Search Keyphrase Suggestion Tools for Web Information Retrieval Ari Pirkola Department of Information Studies and Interactive Media University of Tampere Kanslerinrinne 1, Tampere 33014 [email protected] Abstract We devised a method to extract keyphrases from the Web pages to construct a keyphrase list for a specific topic. The keyphrases are identified and out-oftopic phrases removed based on their frequencies in the text corpora of various densities of text discussing the topic. The list is intended as a search aid for Web information retrieval, so that the user can browse the list, identify different aspects of the topic, and select from it keyphrases (e.g. find synonymous phrases) for a query. A keyphrase list containing a large set of keyphrases related to climate change was constructed using the proposed method. We argue that there is a need for such keyphrase suggestion tools, because the major Web search engines do not provide users with such terminological search aids that help them identify different topic aspects and find synonyms. 1 Introduction The major Web search engines Bing, Google, Yahoo, and many others are necessary tools to find information from the Web, and they often provide users with good results. However, the users are often faced with the problem of finding such query keys that correctly represent their information needs. Formulating a good query requires that the user knows what aspects are re- Constructing Topic-specific Search Keyphrase Suggestion Tools … 173 lated to the topic (s)he is interested in, so that (s)he can modify the query narrower or broader. As an example of an aspect, some of the aspects of climate change are glacier melting, sea-level rise, drought, adaptation, and political consequences – to mention a few among hundreds of aspects. Even though the user is interested in an aspect with which (s)he is familiar with, it is impossible to know all alternative expressions referring to the aspect used by the Web page authors. The user may use the query sea level rise but may lose the documents (s)he needs because in many relevant documents this concept is expressed differently, e.g. rising sea level, rising seas, or higher sea level. Moreover, authors often use elliptical expressions, i.e., phrases where one component is omitted (e.g. after introducing the full phrase sea level rise the author may refer to it by the elliptical phrase the level rise), and even such short forms may strengthen the query and affect document ranking positively. Obviously, a list containing the most important phrases related to a particular topic would be an advantageous tool for Web searchers, helping to find good query keys. In this study, we devise a method to construct such a list, which is called Topic-specific Search Keyphrase Suggestion Tool. We are interested in scientific topics but the proposed method can be generalized to any reasonable topic. Here the keyphrase of the topic means a phrase that is often used in texts dealing with the topic and which refers to one of its aspects. The list is intended as an aid for Web information retrieval, so that the user can browse the list and select from it keys for a query. Each phrase in the list is assigned an importance score based on its frequencies in the text corpora of various densities of text discussing the topic. The keyphrases are extracted from pages relevant to the topic in question, and are thus known to appear in pages discussing the topic when used as search keys. Hence, the proposed approach implicitly involves the idea of reciprocity: keyphrases are extracted from relevant Web pages, and the phrases in turn can be used in queries to find relevant pages. We encountered two main challenges when devising the keyphrase list: (1) How to identify pages that are relevant to the topic for use as keyphrase source data? (2) How to identify the keyphrases among all phrases in the relevant pages and prune out out-of-topic phrases? In the first case, the method uses an information retrieval system to assign relevance scores to pages fetched by a focused crawler from the Web sites of universities and other research organizations investigating the topic. The 174 Ari Pirkola keyphrases of the topic are extracted from the pages assigned a high relevance score by the retrieval system. Second, we introduce a novel method to identify keyphrases and to clean the keyphrase list from out-of-topic phrases. The method calculates importance scores for phrases on the basis of the frequencies of the phrases in the corpora of various densities of relevant text. The most obvious out-of-topic phrases receive a low importance score and are removed from the final list. An ideal case would be a large corpus that is dense in relevant text, but it is not easy to access large amounts of such texts. We therefore use a very dense corpus and an irrelevant corpus containing documents on a different topic than the topic for which the keyphrase list is constructed, and two corpora that are in-between these extremes. The dense corpora are built on the basis of the occurrences of the topic title phrase (e.g. climate change) and a few known keyphrases in the original corpus crawled from the Web. This approach allows us to separate between the keyphrases and out-of-topic phrases based on the fact that the relative frequencies of keyphrases decrease as the density decreases. After these automatic phases the list still contains some undesirable phrases which are removed manually (Section 3.2). Using the proposed method, we constructed a keyphrase list for the topic climate change. The list is primarily intended for use in the scientific-based search system dealing with climate change (http://kastanja.uta.fi:8988/ CLICS/) that was implemented in our earlier study, but it can be used as well together with general Web search engines to facilitate retrieving climate change related pages from the Web. The list is available on the Web at http://kastanja.uta.fi:8988/CLICS/about_index.html, and it contains 2533 two-word phrases and 848 three-word phrases. The quality of the climate change keyphrase list was evaluated by determining (using samples) what proportion of the keyphrases and what proportion of all phrases in the crawled corpus (i.e., when keyphrase identification is not done) occur in the core content fields (title, abstract, keywords) of journal articles and conference papers dealing with climate change. The results showed that the proportion of keyphrases was higher than the proportion of phrases systematically selected from the crawled corpus. Constructing Topic-specific Search Keyphrase Suggestion Tools … 2 175 Related Work The proposed idea to construct a search keyphrase suggestion tool allowing searchers to see all important phrases related to a particular topic is novel. The new methodological idea behind our approach is to utilize the corpora of various densities of relevant text. Conventionally, keyphrase extraction refers to a process where phrases that describe the contents of a document are extracted and are assigned to the same document to facilitate e.g. information retrieval. Most conventional approaches are based on machine learning techniques. KEA (Witten et al., 1999), GenEx (Turney, 2003), and KP-Miner (El-Beltagy and Rafea, 2009) are three well-known keyphrase extraction systems. In these systems, keyphrases are identified and scored based on their length and their positions in documents, and using the TF-IDF weight. Muresan and Harper (2004) also developed a terminological support for searchers’ query construction in Web searching. However, unlike our study they did not focus on keyphrases but proposed an interaction model based on system-based mediation through structured specialized collections. The system assists the user in investigating the terminology and the structure of the topic of interest by allowing the user to explore a specialized source collection representing the problem domain. The user may indicate relevant documents and clusters on the basis of which the system automatically constructs a query representing the user’s information need. The starting point of the approach is the ASK (Anomalous State of Knowledge) model where the user has a problem to solve but does not know what information is needed (Belkin et al., 1982). Lee (2008) showed that the mediated system proposed by Muresan and Harper (2004) was better than a direct IR system not including a source collection in terms of effectiveness, efficiency and usability. The more search tasks the users conducted, the better were the results of the mediated system. We crawled the relevant documents from the Web sites of research organizations using a focused crawler. Focused crawlers are programs that fetch Web documents that are relevant to a pre-defined domain or topic (Hersovici et al., 1998; Diligenti et al., 2000; Pirkola and Talvensaari, 2010). Only documents assessed to be relevant by the system are downloaded and made accessible to the users e.g. through a digital library or a topic-specific search engine. During crawling link URLs are extracted from the pages and are added into a URL queue. The queue is ordered based on the probability 176 Ari Pirkola of URLs (i.e., pages pointed to by the URLs) being relevant to the topic in question. Pages are assigned probability scores e.g. using a topic-specific terminology, and high-score pages are downloaded first. Focused crawling research has focused on improving crawling techniques and crawling effectiveness (Diligenti et al., 2000; Bergmark et al., 2002; Pirkola and Talvensaari, 2010), and we are not aware of any study investigating the use of focused crawling for keyphrase extraction. Perhaps the closest work to our research is that of Talvensaari et al. (2008) who also constructed word lists using focused crawling. However, they used focused crawling as a means to acquire German-English and Spanish-English comparable corpora in biology for statistical translation in cross-language information retrieval. 3 Methods 3.1 The Crawler We implemented a focused crawler in which the relevance of the pages during crawling is determined by matching a topic-defining query against the retrieved pages using a search engine. We used the Lemur search engine (http://www.lemurproject.org/) which allows the use of a proximity operator and weighted queries. The topic-defining query contained the following query keys: #3(climate change), #3(climate research), climate, climatic, #3(research project), research. The words combined by the proximity operator #3 are not allowed to be more than three words apart from each other to match. The keys were combined by Lemur’s weighted #sum operator to give more weight to the first keys above than the last two keys that relate to research activity in general. The pages with relevance scores higher than a given threshold were kept in the crawling results. The irrelevant corpus was crawled similarly to the relevant corpus, except that now we fetched Web documents on genetics, and the topic-defining query contained genetics related words and phrases. In all, crawling gave some 3100 documents deemed to be relevant and some 3600 irrelevant documents. A focused crawler does not follow all links on a page but it will assess which links to follow to find relevant pages. Our crawler assigns the prob- Constructing Topic-specific Search Keyphrase Suggestion Tools … 177 ability of relevance to an unseen page v using the following formula, which gave good results in a preliminary experiment. Pr(T|v) = (α * rel(u) * (1/log(Nu)) + ((1 – α) * rel(<u,v>)), where α is a weighting parameter (0 < α < 1), rel(u) is the relevance of the seen page u, calculated by Lemur, Nu the number of links on page u, and rel(<u,v>) the relevance of the link between u and the unseen page v. The relevance of the link is calculated by matching the context of the link against the topic query. The context is the anchor text, and the text immediately surrounding the anchor. The context is defined with the help of the Document Object Model (DOM): all text that is within five DOM tree nodes of the link node is considered belonging to the context. The Document Object Model is a convention for representing and interacting with objects in HTML, XHTML and XML documents (http://en.wikipedia.org/wiki/Document_Object_Model). As can be seen, Pr(T|v) is a sum that consists of two terms: one that depends on the relevance of the page, and one that depends on the relevance of the link. The relative importance of the two terms is determined by the weight α. Based on our crawling experiment we selected for the α parameter we used the value of α = 0.3. Also, the number of links on page u inversely influences the probability. If rel(u) is high, we can think that the page “recommends” page v. However, if the page also recommends lots of other pages (i.e., Nu is high), we can rely less on the recommendation. 3.2 Constructing the Climate Change Keyphrase List We now describe how the climate change keyphrase list was constructed. In the first phase, Web pages dealing with climate change were crawled using the focused crawler described in Section 3.1. The start URL set contained some 80 URLs of the most productive organizations engaged in climate change research, which were identified using the Scopus citation database (http://www.scopus.com/). The crawling scope of the crawler was limited so that the crawler was only allowed to visit the pages on these start sites, and their subdomains (for example, research.university.edu is a subdomain of www.university.edu), as well as sites that are one link apart from the start domain. These restrictions ensured that the crawling results do not degrade but crawling keeps in scientific sites. 178 Ari Pirkola The first phase of the processing of the crawled data was to extract all bigrams (i.e., two consecutive words) and trigrams (i.e., three consecutive words) from the crawled relevant and irrelevant corpora, and to recognize which bi- and trigrams are phrases. For phrase identification we used the small word (stop-word) technique (Jaene and Seelbach, 1975) and kept those bi- and trigrams only that were surrounded by small words and that did not include a small word. The small word list was a standard stop-word list of an information retrieval system, and it contained 856 words. In scientific documents words related to research (e.g. study, author) are intermixed with the keyphrases of the topic, and the best way to remove them is to handle them as if they were stop-words. We therefore supplemented the list with a small set of research-related words (N=18), and removed all phrases that include such a word. In this study, we introduce a novel method to identify keyphrases and to clean the keyphrase list from out-of-topic phrases. The crawled relevant corpus was divided into three separate corpora based on the occurrences of the topic title phrase (climate change) and a few known keyphrases related to climate change. The three corpora differ from each other in the density of text portions containing keyphrases. We first identified the known keyphrases (N=10) that well represent the topic, such as global warming and sea level. The three corpora were as follows: (1) The whole relevant corpus; (2) A corpus where each text line contains the topic title phrase; (3) A corpus where each text line contains, in addition to the topic title phrase, at least one of the known keyphrases. The second corpus is denser in relevant text portions than the whole corpus, and the third one is denser than the second. The fourth corpus was the irrelevant corpus, which obviously only contains a few keyphrases. It can also be assumed that the frequency of keyphrases is relatively higher in the third corpus than in the first two corpora. The second corpus, in turn, is assumed to contain relatively more keyphrases than the first one. Out-of-topic phrases occur in the irrelevant corpus. They can be expected to be infrequent in the dense corpora simply because there is not much room for them in text portions that have many keyphrases. After these automatic phases, the list still contained some undesirable phrases, in particular non-specific phrases (such as take action) and phrases containing non- or weakly informative verbs (such as addressing climate change). These phrases were removed manually. Generally, the number of removals depends on the applied importance score (Section 3.3) threshold. All phrases in the crawled corpus could be assigned an importance score and Constructing Topic-specific Search Keyphrase Suggestion Tools … 179 if a very low threshold would be applied, the percentage of removals would be high. In the case of a high threshold none or only a few phrases need to be removed. 3.3 Importance Score Below we introduce notational conventions used in the importance score calculations. Notational Conventions. Let P2 be some two-word phrase in the first document corpus DC(1), i.e., P2 ∈ DC(1). We denote its frequency in the corpus by FDC(1)(P2). Correspondingly, the frequency of a three-word phrase in the first corpus is denoted by FDC(1)(P3). The frequencies of the two- and three-word phrases in the second, third and fourth corpora are denoted similarly, e.g. three-word phrases in the fourth corpus: FDC(4)(P3). Assumedly, a phrase which has a high frequency in the three relevant corpora and a low frequency in the fourth corpus deserves a high score. Therefore, the importance score for the two- and three-word phrases is calculated as follows (in the calculations the value 0 is converted into 1): IS(P2) = ln(FDC(1)(P2) * FDC(2)(P2) * FDC(3)(P2) / FDC(4)(P2)) IS(P3) = ln(FDC(1)( P3) * FDC(2)( P3) * FDC(3)( P3) / FDC(4)( P3)) Table 1 shows the 20 highest ranked two- and three word phrases in the climate change keyphrase list and their importance scores. The whole list is available at http://kastanja.uta.fi:8988/CLICS/about_index.html. Most of the keyphrases are established phrases. The phrase change impacts is an example of an elliptical phrase. Such short forms are understandable in the context of climate change, and as argued in Section 1 they may be good query keys. Table 1. The highest ranked keyphrases in the climate change keyphrase list. Two-word phrases change impacts greenhouse gases global warming climate changes future climate greenhouse gas IS(P2) 19.0 17.9 17.6 16.8 16.5 15.9 Three-word phrases climate change impacts greenhouse gas emissions climate change adaptation future climate change global climate change climate change projections IS(P3) 18.5 17.5 16.6 16.3 16.2 16.2 180 Ari Pirkola Two-word phrases carbon dioxide global climate adaptation strategies earth system potential impacts greenhouse effect food security climate adaptation sustainable development climate policy potential impact climate action climate system ozone layer 4 IS(P2) 15.7 15.5 15.4 15.3 15.3 15.2 15.0 15.0 15.0 Three-word phrases global environmental change fourth assessment report climate change issues climate change mitigation induced climate change sea level rise climate change scenarios regional climate change climate change policy IS(P3) 16.1 15.7 14.4 14.3 14.2 14.1 13.6 13.5 13.4 14.8 14.7 14.6 14.6 14.4 dangerous climate change abrupt climate change climate change report climate change program greenhouse gas concentrations 12.7 12.6 12.3 12.2 12.2 Evaluation The quality of the climate change keyphrase list was evaluated by determining (1) what proportion of the keyphrases in the list (test situation) and (2) what proportion of phrases selected from the relevant corpus (baseline situation) occur in the core content fields (title, abstract, keywords) of journal articles and conference papers dealing with climate change. In the first case, a systematic sample of keyphrases (N=50 both for two- and three-word phrases) was selected from the keyphrase list. In the second case, similarly to the first case, a systematic sample of two- and three-word phrases (N=50 for both) was selected from the relevant corpus (containing both keyphrases and out-of-topic phrases). If the proposed method effectively identifies keyphrases, as is expected, their proportion will be considerably higher than that of corpus phrases. On the other hand, of all the corpus phrases a large proportion is keyphrases, so they are not infrequent in the core fields of relevant articles and papers. Hence, the main question in the evaluation is whether the second stage of the proposed approach (the use of corpora of various densi- Constructing Topic-specific Search Keyphrase Suggestion Tools … 181 ties of relevant text) improves the effectiveness compared to the first stage alone (constructing the relevant corpus by means of focused crawling). In this evaluation experiment we used the Web of Science citation database (http://thomsonreuters.com/products_services/science/science_products/ a-z/web_of_science). In the Web of Science, each journal article and a conference paper is represented by a record that contains the core content fields title, abstract, and keywords and several other fields. The query used in the evaluation was expressed as follows: Find documents where the keyphrase (test situation) / corpus phrase (baseline situation) and the topic title phrase (climate change) occur in the same record in the title, abstract, or keyword field. For example, we searched for documents that contain in their core fields both the phrase abrupt change and the title phrase climate change. The results of the evaluation experiment are reported in Table 2. As described above, in each four cases we selected 50 phrases, and column 2 shows how many of them occur in the core fields of articles and papers together with the phrase climate change. As shown, the number of keyphrases is remarkably higher than that of corpus phrases. In the case of two-word keyphrases, all 50 have occurrences (at least one occurrence) whereas only 26 two-word corpus phrases have occurrences. Column 3 indicates the total number of occurrences for the 50 keyphrases and for the 50 corpus phrases. Column 4 indicates the average number of occurrences per keyphrase and per corpus phrase. For keyphrases the total number of occurrences and the average are considerably higher. Two-word keyphrases appear more frequently than three-word keyphrases. Table 2. The results of the evaluation experiment. Phrase type 2-word keyphrases 2-word corpus phrases 3-word keyphrases 3-word corpus phrases N:o keyphrases; N:o occurrences N:o corpus phrases Average n:o occurrences 50 26 11 992 11 609 239,8 112,2 43 14 22 743 11 184 154,9 113,7 182 5 Ari Pirkola Conclusions Conventionally, keyphrase extraction refers to a process where phrases that describe the contents of a document are extracted and are assigned to the same document to facilitate e.g. information retrieval. We presented a novel approach which differs from the conventional approach in that we do not handle individual documents but a set of documents discussing a particular topic. From these documents we extract keyphrases that describe different aspects of the topic. The proposed method is based on the use of several document corpora of different densities of relevant text. Our project plan involves building a multi-topic search keyphrase suggestion tool dealing with many globally significant topics. The climate change keyphrase list will be a part of the larger tool. We believe that such a multitopic tool is needed in scientifically-oriented Web information retrieval. It will serve users such as researchers and journalists searching for information on scientifically and globally important information. It may also be possible to apply the keyphrase list in areas other than information retrieval (e.g. document clustering), which may be one direction of our future research. Acknowledgments This study was funded by the Academy of Finland (research projects 130760, 218289). References Belkin, N. J., Oddy, R. N., Brooks, H. M. (1982). ASK for information retrieval: Part I. Background and history. Journal of Documentation, 38 (2), pp. 61–71. Bergmark, D., Lagoze, C., Sbityakov, A. (2002). Focused crawls, tunneling, and digital libraries. Sixth European Conference on Research and Advanced Technology for Digital Libraries, Rome, Italy, September 16–8, pp. 91–106. Constructing Topic-specific Search Keyphrase Suggestion Tools … 183 Diligenti, M., Coetzee, F. M., Lawrence, S., Giles, C. L., Gori, M. (2000). Focused crawling using context graphs. Twenty-sixth International Conference on Very Large Databases (VLDB), pp. 527–534. El-Beltagy, S. and Rafea, A. (2009). KP-Miner: A keyphrase extraction system for English and Arabic documents. Information Systems, 34(1), pp. 132–144. Hersovici, M., Jacovi, M., Maarek, Y., Pelleg, D., Shtalhaim, M., Ur, S. (1998). The shark-search algorithm – an application: tailored Web site mapping. Seventh International Conference on World Wide Web, Brisbane, Australia. Jaene, H. and Seelbach, D. (1975). Maschinelle Extraktion von zusammengesetzten Ausdrücken aus englischen Fachtexten. Report ZMD-A-29. Beuth Verlag, Berlin. Lee, H. J. (2008). Mediated information retrieval in Web searching. Proceedings of the American Society for Information Science and Technology, 45(1), pp. 1–10. Muresan, G. and Harper, D. J. (2004). Topic modeling for mediated access to very large document collections. Journal of the American Society for Information Science and Technology, 55 (10), pp. 892–910. Pirkola, A. and Talvensaari, T. (2010). Addressing the limited scope problem of focused crawling using a result merging approach. Proceedings of the 25th Annual ACM Symposium on Applied Computing (ACM SAC), Sierre, Switzerland, March 22–6, pp. 1735–1740. Talvensaari, T., Pirkola, A., Järvelin, K., Juhola, M., Laurikkala, J. (2008). Focused Web crawling in the acquisition of comparable corpora. Information Retrieval, 11(5), pp. 427–445. Turney, P. D. (2003). Coherent keyphrase extraction via Web mining. Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence (IJCAI03), Acapulco, Mexico, pp. 434–439. Witten, I. H., Paynter, G.W., Frank, E., Gutwin, C., Nevill-Manning, C. G. (1999). KEA: Practical automatic keyphrase extraction. Proceedings of the 4th ACM conference on Digital Libraries, Berkeley, California, pp. 254–255. 184 P. Mayr, P. Mutschke, V. Petras, P. Schaer, Y. Sure Applying Science Models for Search Philipp Mayr1, Peter Mutschke1, Vivien Petras2, Philipp Schaer1, York Sure1 1 GESIS – Leibniz Institute for the Social Sciences Lennéstr. 30, 53113 Bonn, Germany philipp.mayr | peter.mutschke | philipp.schaer | [email protected] 2 Humboldt-Universität, Institut für Bibliotheks- und Informationswissenschaft Unter den Linden 6, 10099 Berlin, Germany [email protected] Abstract The paper proposes three different kinds of science models as value-added services that are integrated in the retrieval process to enhance retrieval quailty. The paper discusses the approaches Search Term Recommendation, Bradfordizing and Author Centrality on a general level and addresses implementation issues of the models within a real-life retrieval environment. Introduction Scholarly information systems often show three major points of failures, as pointed out in various studies: (1) the vagueness between search and indexing terms, (2) the information overload by the amount of result records listed, and (3) the problem that pure term text based rankings, such as tf-idf, often do not meet the users’ information need. Moreover, retrieval evaluations such as TREC and CLEF have shown that simple text-based retrieval methods scale up very well but do not progress anymore in terms of significant relevance improvements (Fuhr 2010, Armstrong et al. 2009). Applying Science Models for Search 185 The goal of the IRM1 project therefore is to improve retrieval quality by value-added services that are based on computational models of the science system under study. The overall approach of IRM is to use models focusing on non-textual attributes of the research field, the scientific community respectively, as enhanced search stratagems (Bates 1990) within a scholarly information retrieval (IR) environment. This strongly meets the suggestion of Fuhr (2010) to move towards a more science model driven approach in IR which would lead to a broader view, an understanding of limitations of current models, and therefore the ability to open up alternative access paths into a field (Ingwersen & Järvelin 2005). The paper discusses the concepts of models on a general level and addresses implementation issues of the models within a real-life retrieval environment. Model Discussion Science models usually address issues in statistical modeling and visualization2. As a further dimension, that should be considered in science modeling as well, the paper focuses on the application of science models in IR (Mutschke et al. 2011). Supposing that searching in a scholarly information system can be seen as a particular way of interacting with the science system, the overall assumption of our approach is that a user’s search should improve by using science model driven search tactics. This approach meets the fact that the frequency of many structural attributes of the science system usually follows some type of power-law distribution. These highly frequent attributes which are produced when applying the science models have a strong selectivity in the document space which can be utilized for IR. The paper proposes three different kinds of science models as valueadded services that are integrated in the retrieval process to enhance retrieval quality (see Figure 1): (1) a co-word analysis model for search term recommendations (STR), (2) a bibliometric model of re-ranking, called Bradfordizing, determining core journals for a field (BRAD), and (3) a network model 1 http://www.gesis.org/irm/ 2 See e.g. the workshop “Modelling Science” <http://modelling-science.simshelf.virtualknowledgestudio.nl/> and a forthcoming Special Issue in Scientometrics. 186 P. Mayr, P. Mutschke, V. Petras, P. Schaer, Y. Sure of re-ranking examining the centrality of authors in scientific community (AUTH). In the following the models are discussed on a general conceptual level. Figure 1: A simple search example (query term: “Unemployment”) and typical structural attributes/outputs of implemented science models in our retrieval system. From left: Search Term Recommendation (STR) producing highly associated indexing terms, Author Networks (AUTH) with centrality-ranked author names and Bradfordizing based on Core Journals (BRAD) with highly frequent journal names/ISSNs. A Co-Word-Analysis Model for Query Expansion Metadata-driven Digital Libraries share a common problem which Furnas (1987) addressed as the “Language Problem in IR”. Whenever a query is formalized the searcher has to come up with the “right” terms to best match the terms used in the index. Two language domains have to match: (1) the language of scientific discourse which is used by the scientists who formulate the queries and (2) the language of documentation which is used by the database vendors. To overcome this query formulation problem and to provide a direct mapping between the language of discourse and the language of documentation, Petras (2006) proposed a so called Search Term Recommender (STR). These recommenders are based on statistical co-word analysis and build associations between free terms (i.e. from title or abstract) and controlled terms (i.e. from a thesaurus). The co-word analysis implies a se- Applying Science Models for Search 187 mantic association between the free terms as instances of the language of discourse and the controlled terms as instances of the language of documentation. The more often terms co-occur in the text the more likely it is that they share a semantic relation. So, the model proposed focuses on the relationships among the terminological concepts describing the scientific discourse within a research field. These semantic relations can be used to implement a query expansion mechanism where the initial query is expanded with a number of related controlled terms. Different evaluations of the Search Term Recommender as an approach for query expansion have shown (Petras 2005, Schaer et al. 2010) that co-word analysis based term suggestions significantly improve the precision of the retrieval process. Additionally, they can provide an overview over different areas of discussion, which deal with particular concepts (perhaps assuming different meanings or directions of thought) when presented as an interaction method – for example in the form of a term cloud or a confidence ranked list. This is especially true when domain-specific STR modules are used. A STR trained with a social science related document set will propose different terms and therefore concepts than e.g. a STR trained with documents from the domain of sport science. We may think of an query on “financial crisis”: While the social science module will suggest terms like “stock market”, “economic problems” or “international economic organizations” the other recommender will come up with relations to “sport economy”, “player transfer” and “influence on performance”. Each academic field has its own languages of discourse and documentation, so therefore the query suggestion methods have to adapt theses languages. The assumption is that term suggestions from several fields of research or information resources can provide a new view or different domain perspective on a topic (mainly in the interactive application of STRs). When used as an automatic query expansion mechanism this can lead to a phenomenon named “query drifts” where the query and therefore the result set is transformed in a way the user didn’t intend. Beside query drifting, expanded queries tend to generate very large result sets. Nevertheless, in combination with a normal tf-idf ranking model positive effects which are related to the general concept of relevancy-ranking can be seen. By ranking the occurrences of both the user entered words and suggested terms from the STR, documents with a higher frequency are much more likely to be ranked in a top position (despite the fact that the result set 188 P. Mayr, P. Mutschke, V. Petras, P. Schaer, Y. Sure gets bigger). This can be explained with the significantly higher discriminating power of the added terms and concepts in comparison to the terms of the original query which especially influences the term frequency part of the tfidf formula. A Bibliometric Re-Ranking Model For the problem of oversized result sets we propose a re-ranking model that applies a bibliometric law called Bradford law. Modeling science based on Bradford law is motivated by the necessity for researchers to concentrate on a small fraction of topically relevant literature output in a field. Fundamentally, Bradford law states that literature on any scientific field or subject-specific topic scatters in a typical way. In the literature we can find different names for this type of distribution, e.g. “long tail distribution”, “extremely skewed”, “law of the vital few” or “power law” which all show the same properties of a self-similar distribution. A Bradford distribution typically generates a core or nucleus with the highest concentration of papers – normally situated in a set of few so-called core journals – which is followed by zones with loose concentrations of paper frequencies. The last zone covers the so-called peripheral journals which are located in the model far distant from the core subject and normally contribute just one or two topically relevant papers. Bradfordizing, originally described by White (1981), is a utilization of the Bradford law of scattering model which sorts/re-ranks a result set accordingly to the rank a scientific journal gets in a Bradford distribution. The journals in a search result are ranked by the frequency of their listing in the result set (number of articles in a certain journal). Bradfordizing assures that the central publication sources for any query are sorted to the top positions of the result set (Mayr 2010). On an abstract level, re-ranking by Bradfordizing can be used as a compensation mechanism for enlarged search spaces with interdisciplinary document sets. Bradfordizing can be used in favor of its structuring and filtering facility. Our analyses show that the hierarchy of the result set after Bradfordizing is a completely different one compared to the original ranking. Furthermore, Bradfordizing can be a helpful information service to positively influence the search process, especially for searchers who are new on a research topic and don’t know the main publication sources in a research field. The opening up of new access paths and possibilities to explore document Applying Science Models for Search 189 spaces can be a very valuable facility. Additionally, re-ranking via bradfordized document sets offer an opportunity to switch between term-based search and the search mode browsing. It is clear that the approach will be provided as an alternative ranking option, as one additional way or stratagem to access topical documents (cf. Bates 1990). Interesting in this context is a statement by Bradford where he explains the utility of the typical three zones. The core and zone 2 journals are in his words “obviously and a priori relevant to the subjects”, whereas the last zone (zone 3) is a very “mixed” zone, with some relevant journals, but also journals of “very general scope” (Bradford 1934). Pontigo and Lancaster (1986) come to a slightly different conclusion of their qualitative study. They investigated that experts on a topic always find a certain significant amount of relevant items in the last zone. This is in agreement with quantitative analyses of relevance assessments in the Bradford zones (Mayr 2010). The study shows that the last zone covers significantly less often relevant documents than the core or zone 2. The highest precision can very constantly be found in the core. To conclude, modeling science into a core and a periphery – the Bradford approach – always runs the risk and critic of disregarding important developments outside the core. Hjorland and Nicolaisen (2005) recently started a first exploration of possible side effects and biases of the Bradford methods. They criticized that Bradfordizing favors majority views and mainstream journals and ignores minority standpoints. This is a serious argument, because by definition, journals which publish few papers on specific topics have very little chance to get into the core of a more general topic. A Network Model of Re-Ranking Author centrality is a network model approach of re-ranking taking the social structure of a scientific community into account. The approach is motivated by the perception of “science (as) a social institution where the production of scientific knowledge is embedded in collaborative networks of scientists” (He 2009). The increasing significance of collaboration in science correlates with an increasing impact of collaborative papers (Beaver 2004), due to the complexity of nowadays research issues that require more collaboration (cf. Jiang 2008). 190 P. Mayr, P. Mutschke, V. Petras, P. Schaer, Y. Sure Collaboration in science is mainly represented by co-authorships between two or more authors who write a publication together. Transferred to a whole community, co-authorships form a co-authorship network as a particular “prototype of a social network” (Yin et al. 2006) that reflects the overall collaboration structure of a community. As inequality of positions is a structural property in social networks in general, locating strategic positions in scientific collaboration structures becomes an important issue also in examining the relevance of authors for a field (cf. Jiang 2008, Lu and Feng 2009, Liu et al. 2005). This perception of collaboration in science corresponds directly with the idea of structural centrality (Freeman 1977). Many authors characterize collaboration in science in terms that match a concept of centrality widely used in social network analysis (Chen et al. 2009, Yin et al. 2006), namely the betweenness centrality measure which evaluates the degree to which a node is positioned between others on shortest paths and thus emphasizes the node’s brokerage role in the network’s information flow (Freeman 1977, cf. Mutschke 2010). As collaboration inherently implies the share of knowledge, high betweenness authors can be therefore seen as “pivot points of knowledge flow in the network” (Yin et al. 2006) and, by bringing different authors together, as the driving forces of the community making processes itself. The general assumption of the proposed model therefore is that the authors’ impact on a scientific field can be quantified by their betweenness in co-authorship networks (cf. Yan and Ding 2009) and is therefore taken as an index of their publications. In short, this is done as follows (Mutschke 1994, 2004): (1) A co-authorship network is calculated on-the-fly on the basis of the result set to a specific query. (2) For each individual author in the network the betweenness is computed. (3) Each publication in the result set is weighted by the highest betweenness value of its authors (yielding a relevance value for each publication in the result set). (4) The result set is then re-ranked in descending order by that relevance values of the publications such that publications of central authors appear on top of the ranking. The adequacy of this approach was confirmed by a number of empirical studies that turned out a high correlation between betweenness and other structural attributes, such as citation counts (Yan and Ding 2009), program committee membership (Liu et al 2005) and centrality of author topics in keyword networks (Mutschke and Quan-Haase 2001). Accordingly, an evaluation of the proposed ranking model (see below) has shown a higher precision than the text-based ranking. But, more importantly, it turned out that it Applying Science Models for Search 191 favors quite other relevant documents. Thus, the true benefit of such a network model based ranking approach is that it provides a quite different view on the document space than pure text-based rankings. However, two particular problems also emerge from that model. One is the conceptual problem of author name ambiguity (homonymy, synonymy) in bibliographic databases. In particular, the potential homonymy of names may misrepresent the true social structure of a scientific community. The other problem is the computation effort needed for calculating betweenness in large networks that may bother, in case of long computation times, the retrieval process and finally user acceptance. Evaluation Results To evaluate the general feasibility and performance of the models, we conducted a user assessment where 369,397 single documents from the SOLIS database on Social Science topics were evaluated by 73 information science students for 10 topics. The documents include title, abstract, controlled keywords etc. The assessment system was built on top of the IRM prototype. The three services were compared to a tf-idf ranked result set from the underlying Solr search engine. Since the assessments were conducted with students instead of domain experts, Fleiss’ Kappa values were calculated to measure the degree of inter-rater agreement (Schaer et al. 2010). Since there is no general accepted threshold for Fleiss’ Kappa (cp. Sim and Wright, 2005), a custom threshold of 0.40 was selected and the values for three topics were dropped. The average precision among the top 10 documents for each service was: AUTH: 61%, BRAD: 56%, SOLR 52% and STR: 64% (according to a t-test the differences between the service are not statistical significant). A comparison of the intersection of the relevant top 10 documents between each pair of retrieval service shows that the result sets are nearly disjoint. 400 assessed documents (4 services * 10 per service * 10 topics) only had 36 intersections in total. AUTH and SOLR as well as AUTH and BRAD have just three relevant documents in common (for all 10 topics), and AUTH and STR have only five documents in common. BRAD and SOLR have six, and BRAD and STR have five relevant documents in common. The largest, but still low overlap is between SOLR and STR, which have 14 common docu- 192 P. Mayr, P. Mutschke, V. Petras, P. Schaer, Y. Sure ments. Thus, there is no or very little overlap between the sets of relevant top-ranked documents obtained from different rankings. Two results can be clearly seen: (1) The measured precision values of the evaluated services are at least the same or slightly better than the tf-idf based SOLR baseline (based on the degree of data cleaning) and (2) the services returned clearly disjoint result sets emphasizing that the three services provide quite different views on the document space. This strongly suggests thinking about a combination of the different services. Model Combination As a next step in the IRM project we are dealing with combinations of the three models in various ways: (1) by using one model output as a filter mechanism for further iterations, (2) by computing combined ranking scores. The first combination method works in a similar way as faceted search approaches where items returned by different search services are used to filter the result set. Accordingly, AUTH can be applied on the set of publications assigned to core journals determined by BRAD. Our prototype allows every combination of the three services. Typically the more filter steps are taken, the smaller the result set gets. A more sophisticated approach is to create a combined ranking score (cf. the popular ‘learning to rank’ methods). As discussed before, an inherent problem of both re-ranking mechanisms BRAD and AUTH is the lack of an “inner group” ranking. When a journal is detected as a core journal its corresponding documents are ranked to the top but the rank of each single document within this group is not defined. To solve this problem, a combination of the original tf-idf score (mapped on [0,1]) and a journal or author specific weighting factor is applied. To compute the weighting factor for a document d with respect to a journal j and a query q, the document count for j is multiplied with a factor of 1/ where is the maximum count for all journals J obtained for q. This yields a score within [0,1]. The factor is 1 when d is assigned to the journal having the highest coreness and it is 0 when d is not published in a journal. The same approach is applied for the weighting factor for author centrality . Here all centrality values are where mapped in [0,1] by multiplying each centrality value with 1/ Applying Science Models for Search 193 is the highest centrality value q. The factor is 1 when d is assigned to the most central author and it is 0 when d’s author is isolated. The actual score, which is used for the final ranking process, is now computed with the following formula: , where tf-idf could be complemented by STR. When one of the factors is 0 the score is 0 and the document is discarded. Thus, the combined score tends to be a strong filtering method since it focuses on documents loading on all relevance indicators used. Outlook: A Service-Oriented Architecture of Retrieval Models The proposed models are implemented in an interactive web-based prototype3 using Solr for searching, Recommind Mindserver for the STR, own Java classes for BRAD and AUTH and the Grails Web framework for the interface. The user can dynamically modify the retrieval process by applying one of the models proposed either for the initial search or on the result set obtained. Moreover, the services can be combined to enhance the effects provided and in addition we tend to give more control over the services to the user. Currently, the prototype is going to be re-implemented as a serviceoriented architecture (SOA) of re-usable, combinable and scalable web services (see this approach also in Daffodil4). The major goal here is to have an architecture that provides services not only within the boundaries of a single IR system (as Private Services) but also as Public Services via the web such that the services can be used also by external information systems (see Figure 2). The other way around, this architecture allows for an easier integration of further value-added services provided by external partners. 3 http://www.gesis.org/beta/prototypen/irm 4 http://www.daffodil.de/ 194 P. Mayr, P. Mutschke, V. Petras, P. Schaer, Y. Sure Figure 2: Retrieval services as loosely coupled Web Services in a service-oriented architecture. The three proposed services are used internally as private services. They are also available as public services on the web and are free to be integrated in other retrieval systems. At the same time external services e.g. from social networks or public services like Word Net can be integrated in our own system. In this paper we have shown a further dimension of using science models, the application of science models for search. We have discussed and implemented three science model driven retrieval services to improve search in scholarly information systems. As a next step, our proposed SOA architecture might be an appropriate open framework for an integration and combination of further science models. This approach might be also a novel paradigm for enhanced Information Retrieval. References Armstrong, T. G.; Moffat, A.; Webber, W. & Zobel, J. (2009). Improvements that don’t add up: ad-hoc retrieval results since 1998. In: Proceeding of the CIKM ’09, pp. 601–610. Bates, J. (1990). ‘Where should the person stop and the information search interface start?’, Information Processing & Management 26 (5), pp. 575–591. Beaver, D. (2004). Does collaborative research have greater epistemic authority? Scientometrics 60 (3), pp. 399–408. Bradford, S. C. (1934). Sources of information on specific subjects. Engineering, 137(3550), pp. 85–86. Applying Science Models for Search 195 Chen, C., Chen, Y., Horowitz, M., Hou, H., Liu, Z. & Pellegrino, D. (2009). Towards an explanatory and computational theory of scientific discovery. Journal of Informetrics 3, pp. 191–209. Freeman, L. C. (1977). A set of measures of centrality based on betweenness. Socioetry 40, pp. 35–41. Fuhr, N. (2010). IR Between Science and Engineering, and the Role of Experimentation. Keynote talk at CLEF 2010, Padua, Italy. Furnas, G. W.; Landauer, T. K.; Gomez, L. M. & Dumais, S. T. (1987). The Vocabulary Problem in Human-System Communication, Communications of the ACM 30 (11), pp. 964–971. He, Z.-L. (2009). International collaboration does not have greater epistemic authority. JASIST 60(10), pp. 2151–2164. Hjørland, B., and Nicolaisen, J. (2005). Bradford’s law of scattering: ambiguities in the concept of “subject”. 5th International Conference on Conceptions of Library and Information Science. Ingwersen, P. and Järvelin, K. (2005), The turn: integration of information seeking and retrieval in context. Springer. Jiang, Y. (2008). Locating active actors in the scientific collaboration communities based on interaction topology analysis. Scientometrics 74(3), pp. 471–482. Liu, X., Bollen, J., Nelson, M. L. & Sompel, H. van de (2005). Co-Authorship Networks in the Digital Library Research Community. Information Processing & Management 41 (2005), pp. 1462–1480. Mayr, P. (2010). Information Retrieval Mehrwertdienste für Digitale Bibliotheken: Crosskonkordanzen und Bradfordizing. GESIS-Schriftenreihe, Bd. 5. Mutschke, P., Mayr, P., Schaer, P & Sure, Y. (2011 to appear). Science Models as Value-Added Services for Scholarly Information Systems. Scientometrics. Special Issue on “Modelling science – mathematical models of knowledge dynamics”. Mutschke, P. (1994): Processing Scientific Networks in Bibliographic Databases. In: Bock, H. H., et al. (eds.): Information Systems and Data Analysis, Heidelberg Berlin, S. 127–133. Mutschke, P. and Quan-Haase, A. (2001). Collaboration and Cognitive Structures in Social Science Research Fields: Towards Socio-Cognitive Analysis in Information Systems. Scientometrics 52 (3), pp. 487–502. Mutschke, P. (2004). Autorennetzwerke: Netzwerkanalyse als Mehrwertdienst für Informationssysteme. In: Information zwischen Kultur und Marktwirtschaft: Proceedings ISI 2004. Konstanz, S. 141–162. 196 P. Mayr, P. Mutschke, V. Petras, P. Schaer, Y. Sure Mutschke, P. (2010). Zentralitäts- und Prestigemaße. In: Häußling, Roger; Stegbauer, Christian (Eds.): Handbuch Netzwerkforschung. Wiesbaden: VS-Verlag für Sozialwissenschaften. Petras, V. (2005). How one Word can make all the Difference – Using Subject Metadata for Automatic Query Expansion and Reformulation. Working Notes for the CLEF 2005 Workshop, 21–23 September. Petras, V. (2006). Translating Dialects in Search: Mapping between Specialized Languages of Discourse and Documentary Languages. University of California, Berkley. Pontigo, J. and Lancaster, F. W. (1986). Qualitative aspects of the Bradford distribution. Scientometrics, 9(1–2), 59–70. Schaer, P.; Mayr, P. & Mutschke, P. (2010). Implications of Inter-Rater Agreement on a Student Information Retrieval Evaluation. Proceedings of LWA2010. Sim, J. and Wright, C. C. (2005). The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements. Physical Therapy. Vol. 85, pp. 257–268. Yan, E. and Ding, Y. (2009). Applying Centrality Measures to Impact Analysis: A Coauthorship Network Analysis. JASIST 60(10), pp. 2107–2118. Yin, L., Kretschmer, H., Hannemann, R. A. & Liu, Z. (2006). Connection and stratification in research collaboration: An analysis of the COLLNET network. Information Processing & Management 42, pp. 1599–1613. White, H. D. (1981). ‘Bradfordizing’ search output: how it would help online users. Online Review, 5(1), 47–54. Spezielle Anforderungen bei d. Evaluierung von Patent-Retrieval-Syst. 197 Spezielle Anforderungen bei der Evaluierung von Patent-Retrieval-Systemen Daniela Becks, Thomas Mandl, Christa Womser-Hacker Universität Hildesheim Institut für Informationswissenschaft und Sprachtechnologie Marienburger Platz 22, 31141 Hildesheim {daniela.becks, mandl, womser}@uni-hildesheim.de Zusammenfassung Innerhalb der informationswissenschaftlich geprägten Fachinformation nimmt die Patentdomäne eine gewisse Sonderstellung ein, da sie über eine Reihe von Besonderheiten verfügt, die es notwendig machen, die klassischen Methoden der Bewertung zu überarbeiten bzw. zu adaptieren. Dies belegen unter anderem die Ergebnisse des Intellectual Property Track, der seit 2009 im Rahmen der Evaluierungskampagne CLEF1 stattfindet. Der vorliegende Artikel beschreibt die innerhalb des zuvor genannten Track erzielten Ergebnisse. Darüber hinaus werden die Konsequenzen für die Evaluierung von Patent-Retrieval-Systemen herausgearbeitet. Abstract Within the area of specialized information, the patent domain is considered to be quite unique, because it has a number of characteristics, which long for a change or the adaption of traditional evaluation methods. This fact is, for example, shown by the results of the Intellectual Property Track, which since 2009 takes place in the context of the CLEF evaluation campaign. This paper presents the results gained within the above mentioned track. Furthermore, the consequences for the evaluation of patent retrieval systems are pointed out. 1 Cross-Language Evaluation Forum: http://www.clef-campaign.org 198 1 Daniela Becks, Thomas Mandl, Christa Womser-Hacker Einleitung Für Forschung und Bildung innerhalb aller wissenschaftlichen Disziplinen stellt die Fachinformation bzw. Informationsinfrastruktur eine wichtige Grundlage dar. Besondere Beachtung findet dabei die Patentinformation. Es zeigt sich vermehrt, dass sich diese in der Informationswissenschaft zu einem interessanten Forschungsgegenstand entwickelt, da sie über besondere Charakteristika verfügt, die sie von anderen Domänen deutlich unterscheiden. In der Patentinformation laufen die Ergebnisse verschiedener Disziplinen zusammen, was sich in der Heterogenität dieses Bereichs widerspiegelt. Zu den Besonderheiten zählen unter anderem die Terminologie innerhalb von Patentschriften (vgl. z.B. Graf/Azzopardi 2008; Schamlu 1985), das Suchverhalten der Nutzergruppen und die Nutzer selbst (vgl. z.B. Graf/Azzopardi 2008). Infolgedessen liefert die Patentdomäne auch für die Informationswissenschaft, die sich u.a. mit Fachinformation, Informationssystemen und deren Evaluierung sowie dem Informationssuchverhalten beschäftigt, interessante Ansatzpunkte. Die Bedeutung der Patentinformation für die Wissenschaft erhöht sich mit der Anzahl der Patentierungen. Gleichzeitig steigt auch die Anzahl an Forschungsaktivitäten im Bereich Patent Information Retrieval an. Dieses hat sich mittlerweile zu einem selbstständigen Forschungsgebiet etabliert, das es sich zur Aufgabe macht, die traditionellen Methoden und Werkzeuge des Information Retrieval an diese spezielle Domäne anzupassen. Die zuvor genannten Charakteristika von Patenten stellen dabei in nahezu allen Bereichen des Retrieval-Prozesses eine große Herausforderung dar. Hier sei zunächst auf die Indexierung der Patentdokumente und den eigentlichen Suchprozess verwiesen. Für die Evaluierung entsprechender Informationssysteme stellen sich weitere Anforderungen, auf die im zweiten Kapitel dieses Beitrags eingegangen wird. Eine genaue Betrachtung der Schwierigkeiten, die im Rahmen des Retrieval-Prozesses auftreten können, folgt in Kapitel 3. Der Beitrag schließt mit einer Diskussion dieser Erkenntnisse. Spezielle Anforderungen bei d. Evaluierung von Patent-Retrieval-Syst. 199 2 Patent Retrieval im Rahmen von CLEF Im Jahre 2009 hielt das Patent Information Retrieval erstmals Einzug in die europäische Evaluierungsinitiative CLEF, welche die Mehrsprachigkeitsproblematik in die Information-Retrieval-Evaluierung einbezieht. Zuvor waren Patent-Retrieval-Verfahren bereits in TREC2 und NTCIR3 involviert. Das Ziel des sogenannten Intellectual Property Track (CLEF-IP Track) besteht darin, Information-Retrieval-Techniken für Patente in verschiedenen Sprachen zu evaluieren (vgl. Roda et al. 2010: 385). 2.1 Testkollektion und Topics Die Experimente im Rahmen des CLEF-IP Track basieren auf dem Einsatz einer speziellen Testkollektion, die sich aus einer Vielzahl an Patenten des Europäischen Patentamtes (EPO) zusammensetzt (vgl. Roda et al. 2010: 387 f.; Piroi 2010b: 17). Da es sich um eine cross-linguale Evaluierungsinitiative handelt, beinhaltet die Testkollektion sowohl englischsprachige Dokumente als auch Patent- und Anmeldeschriften in Deutsch und Französisch (vgl. Roda et al. 2010: 389; Piroi 2010b: 17). Während sich die Kollektion im Falle des CLEF-IP Track 2009 aus ungefähr 1,6 Millionen Dokumenten zusammensetzt (vgl. Roda et al. 2009: 388), umfasst das Korpus 2010 bereits 2,6 Millionen Patent- und Anmeldeschriften (vgl. Piroi 2010a: 3). Im Rahmen von Evaluierungsinitiativen wird eine Aufgabe typischerweise durch ein sogenanntes Topic beschrieben (vgl. z.B. Mandl 2010: 341 f.). Es sei angemerkt, dass die automatische Generierung von Queries aus Anfragedokumenten bereits ein erhebliches Problem darstellt, da die Anfrageformulierung im Rahmen der Patentrecherche den wahrscheinlich wichtigsten Prozess darstellt. Es kommt erschwerend hinzu, dass innerhalb der Patentdomäne wenig Information über die eigentliche Anfrageformulierung öffentlich gemacht wird. Für die automatische Evaluierung bedeutet dies, dass die Anfrage häufig ohne explizites Wissen modelliert werden muss. Bereits in diesem Schritt können jedoch erhebliche Fehler auftreten, die sich auf die Retrieval-Ergebnisse auswirken. 2 Text Retrieval Conference: http://trec.nist.gov/ 3 Asiatische Evaluierungsinitiative: http://research.nii.ac.jp/ntcir/index-en.html 200 Daniela Becks, Thomas Mandl, Christa Womser-Hacker Im Kontext des Intellectual Property Track stehen unterschiedliche Sets von Anfragedokumenten, deren Umfang von 500 (small set) bis hin zu 10.000 (large set) variiert (vgl. Roda et al. 2010: 390; Piroi 2010a: 4), zur Verfügung. Sowohl die Dokumente in der Kollektion als auch die Topics weisen die typische Patentstruktur auf. In Anlehnung an Graf und Azzopardi untergliedert sich ein Patent in folgende Abschnitte: • Bibliografische Daten (z.B.: Name des Erfinders) • Offenlegung (z.B.: Titel, Beschreibung) • Ansprüche (vgl. Graf/Azzopardi 2008: 63 f.) Die bereits angedeuteten terminologischen Besonderheiten finden sich vor allem in den textuellen Abschnitten wieder. Abschnitt eins umfasst ausschließlich Metadaten. Von besonderer Bedeutung sind zudem die Klassifikationsangaben wie die IPC4-Klassen. (vgl. Becks et al. 2010a: 492) 2.2 Aufgaben im Rahmen des CLEF-IP Track Im Jahre 2009 startete der Intellectual Property Track mit der Prior ArtSuche, die darauf abzielt, festzustellen, ob eine Erfindung oder auch nur ein Teil dieser bereits existiert oder nicht (vgl. Graf/Azzopardi 2008: 64; Roda et al. 2010: 390). Sie stellt eine der am häufigsten praktizierten Recherchearten dar (vgl. Graf/Azzopardi 2008: 64). In Anlehnung an Roda et al. nutzen Patentanmelder diese Form der Suche, bevor sie eine Anmeldung einreichen, um zu prüfen, ob die geplante Erfindung in der Literatur bereits dargelegt wurde. Patentprüfer führen die Prior-Art-Recherche hingegen aus, um festzustellen, ob die in der Anmeldung beschriebene Erfindung den Anspruch der Neuheit erfüllt und somit patentierfähig ist. (vgl. Roda et al. 2010: 390) Diese Retrieval-Aufgabe wurde 2010 beibehalten, jedoch durch eine Klassifikationsaufgabe mit dem Ziel, ein gegebenes Patent entsprechend seiner IPC-Klassen einzuordnen, ergänzt (vgl. Piroi 2010b: 17; Piroi 2010a: 4). 4 Internation Patent Classification Spezielle Anforderungen bei d. Evaluierung von Patent-Retrieval-Syst. 201 3 Besonderheiten der Patentdomäne Sowohl im Jahr 2009 als auch in 2010 wurden im Rahmen des CLEF-IP Track vom Institut für Informationswissenschaft und Sprachtechnologie der Universität Hildesheim Experimente durchgeführt. Zu diesem Zweck entwickelte man eine Retrieval-Umgebung auf der Basis der Open-SourceSuchmaschine Lucene5. Eine detaillierte Beschreibung dieses RetrievalSystems findet sich beispielsweise in Becks et al. 2010a. Des Weiteren wurde innerhalb eines Kooperationsprojektes mit FIZ Karlsruhe untersucht, wie der Retrieval-Prozess innerhalb dieser Domäne gezielt unterstützen werden kann (vgl. Hackl-Sommer 2010). Wie bereits angedeutet, verfügt die Patentdomäne über einige Charakteristika, die sie von anderen Domänen unterscheidet. Im nachfolgenden Kapitel werden einige dieser Besonderheiten herausgearbeitet und vor dem Hintergrund der Experimente innerhalb des CLEF-IP Track diskutiert. Der Fokus liegt dabei insbesondere auf den Schwierigkeiten, die sich aufgrund dieser domänenspezifischen Eigenschaften ergeben. 3.1 Terminologie Im Falle von Patentdokumenten handelt es sich um eine sehr spezielle und in sich heterogene Textsorte, bei der verschiedene Arten von Begrifflichkeiten aufeinander treffen. So finden sich einerseits sehr allgemeine Terme (vgl. u.a. Graf/Azzopardi 2008: 64) wie „System“, „Ansatz“ oder „Methode“. Da derartige Terme in der Patentschrift vermehrt auftreten, bringen sie innerhalb des Retrieval-Prozesses wenig Nutzen. Eine Anfrage, die sich ausschließlich aus vagen Termen oder Phrasen zusammensetzt, resultiert meist in einer sehr umfangreichen Ergebnisliste (vgl. auch Becks et al. 2010a: 492). Aus der Sicht der Patentanmelder eignen sich diese Terme, um den genauen Inhalt zu verschleiern und das Auffinden zu beeinträchtigen. Um diesem Problem entgegenzuwirken, kam im Rahmen der Experimente im Jahre 2009 und 2010 eine domänenspezifische Stoppwortliste zum Einsatz. Dabei handelt es sich um eine Standardstoppwortliste6, die um die zuvor genannten allgemeinen 5 http://lucene.apache.org/ 6 http://members.unine.ch/jacques.savoy/clef/index.html 202 Daniela Becks, Thomas Mandl, Christa Womser-Hacker Terme erweitert wurde. Innerhalb der Patentschrift können zudem Fachtermini in folgenden Ausprägungen vorliegen: • Komplexe Phrasen in verschiedenen linguistischen Relationen • Komposita und Wortzusammensetzungen mit Bindestrich • Zahlen, Formeln und physikalische Einheiten (auch als Bestandteil in komplexeren Einheiten) • Akronyme (Becks et al. 2010a: 493) Technische Fachbegriffe wie „AGR-System“ (EP-1114924-B1) stellen insbesondere während des Indexierungsprozesses eine Schwierigkeit dar, denn sie bedürfen spezieller Werkzeuge für die Vorverarbeitung und Normierung. Einen Sonderfall bilden vor allem Zahlen, die in diesem Artikel ebenfalls zu der Kategorie Technisches Vokabular zählen. Sie tauchen innerhalb der Patentschrift beispielsweise in Form von Verweisen auf, aber auch als Mengenangaben treten sie in Erscheinung. Liegen Zahlen in Form von Verweisen (beispielsweise auf Abbildungen oder Claims) vor, so besitzen sie eher Stoppwortcharakter und resultieren ebenfalls in einer sehr umfangeichen Ergebnisliste. Zahlen, die jedoch gemeinsam mit Einheiten, z.B. „1.2288 MHz“ (EP-1117189-B1) oder innerhalb von chemischen Elementen auftreten, beispielsweise „Cis-Diamminoplatin(II)chlorid“ (EP-1520870-B1), können das Retrieval hingegen entscheidend beeinflussen. Infolgedessen erscheint es problematisch, Zahlen im Zuge der Stoppworteliminierung zu entfernen. Aufgrund der zuvor genannten Problematik stellt sich die Frage, ob sich einfache Terme für das Patent Information Retrieval überhaupt eignen oder ob man Phrasen den Vorzug gewähren sollte. Dieser Fragestellung wurde im Rahmen der CLEF-Experimente im Jahre 2010 nachgegangen. Dabei zeigte sich deutlich, dass sich Recall und Mean Average Precision eines Patent Retrieval Systems durch den Einsatz von Phrasen erhöhen lassen (siehe Tabelle 1). Tab. 1: Retrieval-Ergebnisse CLEF-IP Track 2010 (aus Becks et al. 2010b) Run EN_BM25_Terms_allFields EN_BM25_Phrases_title EN_BM25_Phrases_des_cl EN_BM25_Phrases_allFields Recall 0.3298 0.4816 0.3665 0.3605 Precision 0.0125 0.0124 0.0109 0.0116 MAP 0.0414 0.0493 0.0415 0.0422 7 Die P@5gibt die Precision nach 5gefundenen Dokumenten an. P@57 0.0914 0.0870 0.0922 0.0938 Spezielle Anforderungen bei d. Evaluierung von Patent-Retrieval-Syst. 203 Ein Vergleich der Ergebnisse des ersten (EN_BM25_Terms_allFields) und vierten (EN_BM25_Phrase_allFields) Experiments, indem jeweils die Inhalte aus den Abschnitten Titel, Ansprüche und Beschreibung in die Anfrage einfließen, zeigt, dass die Verwendung von Phrasen anstelle einfacher Terme eine leichte Erhöhung der Mean Average Precision und des Recall bewirken. Diese ist jedoch sehr gering. Darüber hinaus belegen die Ergebnisse innerhalb der Tabelle deutlich, dass die Mean Average Precision im Falle des zweiten Experiments (EN_BM25_Phrases_title), in dem ausschließlich Phrasen aus dem Titel der Patentschrift zum Einsatz kamen, mit 4,93% am höchsten ist. Es zeigt sich zudem, dass der Recall mit rund 48% die Werte der übrigen Experimente deutlich übersteigt. Insgesamt zeigt sich, dass die Retrieval-Ergebnisse sehr niedrig ausfallen und Verbesserungen möglich und auch notwendig sind. 3.2 Retrieval-Parameter Als Retrieval-Parameter werden an dieser Stelle alle Variablen bezeichnet, die auf den Retrieval-Prozess Einfluss haben. Hierzu zählt unter anderem das zugrunde liegende Modell bzw. der verwendete Ranking-Algorithmus. Der Retrieval-Prozess wird innerhalb der Patentdomäne im Wesentlichen von den folgenden zwei übergeordneten Zielen dominiert: • Maximierung des Recall • Erhöhung der Precision (vgl. Kando 2000: 40 f.). Als elementar wird die Maximierung des Recall im Rahmen der Prior-ArtSuche (siehe Kapitel 2.2) angesehen, da in diesem Szenario alle Dokumente von Bedeutung sind, die belegen, dass eine geplante oder schon angemeldete Erfindung bereits existiert oder nicht (vgl. Graf/Azzopardi 2008: 64; Roda et al. 2010: 390). Allein ein fehlendes Dokument kann in diesem Fall zu einer Patentverletzung führen. Im Rahmen der Experimente im Jahre 2009 und 2010 wurde versucht, dieser Forderung nachzukommen. Dabei zeigte sich, dass die Internationale Patentklassifikation ein geeignetes Instrument zur Maximierung des Recall darstellt. Es wurden die ersten acht Stellen des Klassifikationscodes berücksichtigt, was der Patenthauptgruppe entspricht. Weiterhin wurde die Annahme zugrunde gelegt, dass ein relevantes Dokument mindestens einen Klassifikationscode mit dem Anfragedokument teilen 204 Daniela Becks, Thomas Mandl, Christa Womser-Hacker muss. Im CLEF-IP Track 2010 konnten auf diese Weise etwa 48% der relevanten Dokumente abgedeckt werden (vgl. Becks et al. 2010b: 4). Im Hinblick auf das zweite übergeordnete Ziel lässt sich festhalten, dass die Erhöhung der Precision vor allem für den sich an die Recherche anschließenden Analyseprozess eine große Rolle spielt, denn Patentrechercheure investieren in der Regel sehr viel Zeit in diesen Schritt (vgl. Azzopardi et al. 2010: 15). Je höher die Precision eines Patent-Retrieval-Systems, desto weniger irrelevante Dokumente enthält die Ergebnisliste. Dies hätte wiederum zur Folge, dass sich der Aufwand, der für die Sichtung und Analyse der Ergebnisliste notwendig ist, erheblich reduziert. Im Hinblick auf die Suchergebnisse sollte zudem angestrebt werden, alle für den Rechercheur relevanten Patentschriften an der Spitze der Ranking-Liste zu platzieren. In diesem Zusammenhang stellte sich im Rahmen der CLEF-IP Experimente heraus, dass die Implementierung des Okapi-Algorithmus (BM25) (vgl. z.B. Robertson/Spärck 1994), dieser Forderung Rechnung trägt. Insbesondere die Precision nach fünf gefundenen Dokumenten (P@5) konnte deutlich erhöht werden (vgl. Becks et al. 2010b). Ein Vergleich der Ergebnisse beider Jahre belegt diese Tatsache. Tab. 2: Retrieval-Ergebnisse BM25/tf-idf (nach Becks et al. 2010a und 2010b) Run Run CLEF-IP 2009 (tf-idf) Run CLEF-IP 2010 (bm25) Recall 0.2052 0.3298 Precision 0.0026 0.0125 MAP 0.0200 0.0414 P@5 0.0000 0.0914 Anhand der vorliegenden Tabelle zeigt sich der Vorteil des BM25-Gewichtungsmodells sehr deutlich, denn der Run CLEF-IP 2010 weist mit etwa 9% eine weitaus höhere P@5 auf. Beide Experimente wurden unter nahezu identischen Versuchsbedingungen durchgeführt, die nachfolgend kurz dargestellt sind: • Suche auf der Basis eines englischen Index • Stemming erfolgt mithilfe des Porter Stemmer • Anfrage wird aus allen Feldern generiert • Verwendung einfacher Terme innerhalb der Anfrage Lediglich der Ranking-Algorithmus variierte. Im Rahmen des CLEF-IP Tracks 2009 basierte das verwendete Retrieval-System auf der Standardimplementierung von Lucene. Hierbei handelt es sich um eine modifizierte Variante des Vektorraummodells. Das Ranking der Ergebnisdokumente erfolgt somit mithilfe der tf-idf-Gewichtung. (vgl. Becks et al. 2010a) Im Jahre Spezielle Anforderungen bei d. Evaluierung von Patent-Retrieval-Syst. 205 2010 zeigte sich hingegen, dass die Umstellung auf BM25 erfolgreich war. Die Ergebnisse in Tabelle 2 belegen deutlich, dass dieser Schritt sowohl eine Steigerung der Mean Average Precision als auch der P@5 bewirkt hat. Im Hinblick auf die Eingangshypothese lässt sich zusammenfassen, dass die Implementierung des Okapi-Algorithmus in diesem Fall eine Zeitersparnis innerhalb des Analyseprozesses herbeiführen würde, da sich mehr relevante Dokumente in den obersten Positionen der Ranking-Liste befinden. 3.3 Relevanzmodell Wie bereits erwähnt, basieren die Experimente im Rahmen des CLEF-IP Track auf einer vom IRF bereitgestellten Testkollektion. Diese beinhaltet neben den Dokumenten und Topics auch Relevanzurteile, die in der Regel intellektuell durch Juroren generiert werden (vgl. z.B. Mandl 2010: 342). Im Rahmen der Patentdomäne ist diese Aufgabe nicht trivial, da das inhaltliche Verständnis einer Patentschrift ein erhöhtes Maß an Domänenwissen erfordert. Durch die Breite der vertretenen Disziplinen ist sehr unterschiedliche Expertise gefragt. Dies hat zur Folge, dass für die einzelnen Domänen (z.B. Chemie oder Physik) jeweils ein entsprechender Experte zur Verfügung stehen muss. Des Weiteren erweist sich die manuelle Bewertung einer gegebenen Menge an Dokumenten häufig als sehr ressourcenintensiv. (vgl. auch Roda et al. 2010: 386, 392) Es kommt erschwerend hinzu, dass insbesondere im Falle von Patenten eine Relevanzentscheidung auf der Basis des Titels häufig nicht möglich ist, da sich dieser in der Regel als sehr vage erweist, wie das folgende Beispiel verdeutlicht. Beispiel: „Schneidplatte“ (EP-1125660-B1) Von den Organisatoren wurde daher auf einen alternativen Ansatz zurückgegriffen, der auf den innerhalb der Patentschrift vorliegenden Zitationen basiert. Diese können folgende zwei Ausprägungen annehmen: • Zitationen von Patentanmeldern • Zitationen von Patentprüfern (vgl. Roda et al. 2010: 393) Während erstere eher subjektiv sind, da die Anmelder selbst auswählen, welche Quellen sie zitieren, handelt es sich im Falle der Zitationen von Patentprüfern streng genommen bereits um Expertenurteile. Die in der Kollektion enthaltenen Relevanzurteile beinhalten beide Formen der Relevanz. Die Eig- 206 Daniela Becks, Thomas Mandl, Christa Womser-Hacker nung dieses Verfahrens wurde durch Patentexperten unterstützt (vgl. Roda et al. 2010: 393). Insgesamt ist dieses Bewertungsmodell dennoch kritisch zu sehen, da es sich um ein konstruiertes Szenario handelt. Gemäß dem zuvor beschriebenen Ansatz besitzt ein Anfragedokument in der Regel immer relevante Dokumente, da die Zitationen in jeder Patentschrift vorliegen. Für das betrachtete Retrieval-Szenario der Prior-Art-Suche erscheint diese Annahme allerdings untypisch, da der Fall, dass eine Erfindung tatsächlich neu ist und keinen State of the Art vorweist, unbeachtet bleibt. Abschließend sei angemerkt, dass sich die in den Patentschriften enthaltenen Zitationen auch innerhalb des Retrievals einsetzen ließen. Im Rahmen der Experimente sollte jedoch auf diese Vorgehensweise verzichtet werden. 4 Diskussion Dieser Artikel macht deutlich, dass die Patentdomäne über zahlreiche Besonderheiten verfügt, die es notwendig machen, die klassischen Ansätze der Information-Retrieval-Evaluierung zu überarbeiten bzw. an die Domänenspezifika anzupassen. Dies belegen auch die Ergebnisse im Rahmen des CLEF-IP Track, die insgesamt eher schlecht ausgefallen sind (vgl. z.B. Roda et al. 2010). In diesem Kontext zeigten sich insbesondere die Schwächen einfacher Baseline-Ansätze, jedoch konnten auch Patent-Retrieval-Systeme, die zum Teil auf linguistischen Verfahren aufsetzen (vgl. z.B. Herbert et al. 2010), lediglich durchschnittliche Ergebnisse erzielen. Daher liegt die Vermutung nahe, dass patentspezifisches Wissen notwendig ist, um die Ergebnisse weiter zu verbessern. Ein erster wichtiger Schritt bestünde darin, Methoden und Werkzeuge für die Vorverarbeitung zu entwickeln, die gezielt an den Spezifika dieser Textsorte ansetzen. An dieser Stelle sei erneut an die Problematik der heterogenen Begrifflichkeiten erinnert (siehe Kapitel 3.1). Für entsprechende Werkzeuge bedeutet dies, dass diese sowohl im Hinblick auf eine Allgemein- als auch verschiedene Fachsprachen trainiert werden müssen. Darüber hinaus erscheint es notwendig, verfügbare Ressourcen (z.B. Stoppwortlisten) umfangreich zu überarbeiten bzw. zu erweitern. Am kritischsten erweist sich jedoch das vorgestellte Relevanzmodell, da es auf Expertenurteile im engeren Sinne verzichtet. Die Einbeziehung von Patentexperten erscheint jedoch zwingend notwendig. Eine Art Expertenpool wäre im Rahmen des Evaluierungsprozesses von sehr großem Vorteil. Spezielle Anforderungen bei d. Evaluierung von Patent-Retrieval-Syst. 207 Literaturverzeichnis Azzopardi, Leif; Joho, Hideo; Vanderbauwhede, Wim (2010): Report: A Survey on Patent Users Search Behavior, Search Functionality and System Requirements. Becks, Daniela; Womser-Hacker, Christa; Mandl, Thomas; Kölle, Ralph (2010a): Patent Retrieval Experiments in the Context of the CLEF IP Track 2009. In: Multilingual Information Access Evaluation I. Text Retrieval Experiments. Proceedings of the 10th Workshop of the Cross-Language Evaluation Forum 2009. Berlin, Heidelberg: Springer (LNCS 6241), S.491–496. Becks, Daniela; Mandl, Thomas; Womser-Hacker, Christa (2010b): Phrases or Terms? – The Impact of Different Query Types. In: Online Proceedings of the CLEF-IP Track 2010, September 20–23, 2010, Padua, Italy. http://clef2010.org/resources/proceedings/clef2010labs_submission_99.pdf Graf, Erik; Azzopardi, Leif (2008): A methodology for building a test collection for prior art search. In: Proceedings of the 2nd International Workshop on Evaluating Information Access (EVIA), December 16, 2008, Tokyo, Japan, S.60–71. Hackl-Sommer, René (2010): Patentretrieval – Unterstützende Verfahren und Transparenz bei der Patentrecherche, Fachinformationszentrum Karlsruhe. Herbert, Benjamin; Szarvas, György; Gurevych, Iryna (2010): Prior Art Search Using International Patent Classification Codes and All-Claims-Queries. In: Multilingual Information Access Evaluation I. Text Retrieval Experiments. Proceedings of the 10th Workshop of the Cross-Language Evaluation Forum 2009. Berlin, Heidelberg: Springer (LNCS 6241), S.452–459. Kando, Noriko (2000): What Shall We Evaluate? – Preliminary Discussion for the NTCIR Patent IR Challenge (PIC) Based on the Brainstorming with the Specialized Intermediaries in Patent Searching and Patent Attorneys. In: ACM-SIGIR Workshop on Patent Retrieval, July 28, 2000, Athens, Greece, S.37–42. Mandl, Thomas (2010): Evaluierung im Information Retrieval. In: Information Wissenschaft und Praxis, Jahrgang 61, Nr.6–7, 2010, S. 341–348. Piroi, Florina; Tait, John (2010a): CLEF-IP 2010: Retrieval Experiments in the Intellectual Property Domain. In: Online Proceedings of the CLEF-IP Track 2010, September 20–23, 2010, Padua, Italy. http://clef2010.org/resources/proceedings/clef2010labs_submission_122.pdf Piroi, Florina; Tait, John (2010b): CLEF-IP 2010: Retrieval Experiments in the Intellectual Property Domain. In: CLEF 2010 Labs and Workshops Abstracts of the Notebook Papers, September 20–23, 2010, Padua, Italy, S.17. 208 Daniela Becks, Thomas Mandl, Christa Womser-Hacker Robertson, Stephen E.; Spärck Jones, Karen (1994): Simple, proven approaches to text retrieval. Technical Report (Nr. 356), December 1994 version with updates 1996, 1997, 2006, University of Cambridge, Computer Laboratory. Roda, Giovanna; Tait, John; Piroi, Florina; Zenz, Veronika (2010): CLEF-IP 2009: Retrieval Experiments in the Intellectual Property Domain. In: Multilingual Information Access Evaluation I. Text Retrieval Experiments. Proceedings of the 10th Workshop of the Cross-Language Evaluation Forum 2009. Berlin, Heidelberg: Springer (LNCS 6241), S.385–409. Schamlu, Mariam (1985): Patentschriften – Patentwesen. Eine argumentationstheoretische Analyse der Textsorte Patent am Beispiel der Patentschriften zu Lehrmitteln. München: Iudicium. Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung ... 209 Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung für die Suche in historischen Dokumenten Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian Universität Duisburg-Essen Lotharstr. 65, 47048 Duisburg {ernst, korbar, awakian}@is.inf.uni-due.de Zusammenfassung Für Retrieval in historischen Dokumenten wird eine Abbildung der Suchbegriffe auf ihre historischen Varianten in den Dokumenten benötigt. Hierfür wurde ein regelbasierter Ansatz entwickelt. Mit dem RuleGenerator wurde dafür eine Benutzeroberfläche entworfen, die es dem Anwender selbst ermöglicht, automatisch Belege zu erstellen und daraus Regeln zu generieren und zu bearbeiten. Im Rahmen einer eyetrackergestützten Benutzerstudie wurde die Benutzerfreundlichkeit des Werkzeugs evaluiert. Abstract Retrieval in historic documents with non-standard spelling requires a mapping from search terms onto the terms in the document. For describing this mapping, a rule-based approach has been developed. The RuleGenerator user interface enables the user to create evidences automatically and hence to generate and edit rules. With an eyetracker-based user evaluation the usability of this tool has been demonstrated. Einleitung Trotz verfügbarer Volltextsuche für die wachsende Zahl an digitalen, historischen Kollektionen werden viele Dokumente nicht gefunden, weil die Schreibweise in vielen Ländern über Jahrhunderte hinweg nicht festgelegt 210 Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian war. Die nicht-standardisierte Schreibweise führt zu Fehlern, da die meisten Benutzer den Suchbegriff in moderner Sprache eingeben, und diese sich von der historischen Sprache in den Dokumenten unterscheidet. Z. B. ist akzeptieren die moderne Form der Schreibvariante acceptieren. Um dieses Problem zu lösen, wurde eine regelbasierte Suchmaschine entwickelt, bei der der Benutzer seine Anfragen in zeitgemäßer Schreibweise eingeben kann, wenn er in historischen Texten suchen möchte [Ernst-Gerlach/Fuhr 07]. Mit wörterbuchbasierten Methoden (z. B. [Hauser et al. 07]) können nur Wörter gefunden werden, die im Wörterbuch enthalten sind. Außerdem ist der zeitliche Aufwand für den Aufbau der Wörterbücher relativ hoch. Werden Ähnlichkeitsmaße (z. B. [Pilz 09]) verwendet, muss der Suchbegriff mit jedem Wort aus dem Index verglichen werden. Die entwickelte Suchmaschine überwindet diesen Nachteil mit einem regelbasierten Ansatz, um das gesamte Vokabular abzudecken und dadurch den Recall zu erhöhen. Dafür werden Transformationsregeln generiert, die aus einem Suchbegriff die historischen Varianten generieren [Ernst-Gerlach/Fuhr 06]. Die automatische Regelgenerierung benötigt als Trainingsdaten Belege aus modernem Lemma und zugehöriger historischer Variante. Daraus werden die sogenannten Regelkerne bestimmt. Diese beinhalten die notwendigen Transformationen und identifizieren den zugehörigen Kontext. Z. B. ergibt sich für die moderne Wortform unnütz und die historische Form unnuts die folgende Menge, die aus zwei Regelkernen besteht: {(unn(ü→u)t), (t(z→s))}. Im zweiten Schritt werden für jeden Regelkern die zugehörigen Regelkandidaten (z. B. ü→u, nü→ nu, üt→ ut, nüt→ nut, Cü→ Cu, z$→s$) bestimmt. Diese berücksichtigen auch die Kontextinformationen (z. B. Konsonant (C) oder Wortende ($)) der modernen Schreibweise. Im letzten Schritt werden die nützlichen Regeln durch Pruning der Regelmenge bestimmt. Dazu wird eine modifizierte Version des PRISM-Algorithmus [Cenderowska 87] eingesetzt. Durch die Zeit- und Ortsabhängigkeit der Regeln müssen die Regelsätze jeweils neu generiert werden, wenn ein neues Korpus verfügbar wird. Zur Vereinfachung dieses Prozesses ist eine Benutzeroberfläche erstellt worden, die dem Benutzer sowohl bei der Belegerstellung als auch bei der Regelerstellung interaktive Unterstützung bietet. Da in [Nguyen et al. 06] für den Bereich des Data Mining gezeigt wurde, dass eine Visualisierung den Benutzer bei der Bildung von neuen Regeln unterstützt, werden insbesondere geeignete Übersichten über die Belege sowie die Regelmengen und -kandidaten visualisiert. Dabei soll der Benutzer keine Informatikkenntnisse zur Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung ... 211 Bedienung benötigen. Ausgehend von seinen Bedürfnissen wird sich der Benutzer mehr auf den Recall oder die Precision seiner Suche konzentrieren. Das Werkzeug bietet an dieser Stelle die notwendige Flexibilität. Dabei wird dem Benutzer automatische Unterstützung für den gesamten Prozess der Regelgenerierung angeboten. Im folgenden Artikel wird zunächst ein kurzer Überblick über die verwandten Arbeiten im Bereich der Regelerstellung gegeben. Anschließend wird in Abschnitt 3 der RuleGenerator vorgestellt. Das Werkzeug wird in Abschnitt 4 evaluiert. Der letzte Abschnitt fasst den Artikel zusammen und gibt einen Ausblick auf zukünftige Arbeiten. Verwandte Arbeiten [Gotscharek et al. 09] haben mit dem LeXtractor ein Werkzeug zur Konstruktion von historischen Lexika entwickelt. Die Lexikoneinträge können auch als Belege aufgefasst werden. Da Lexikoneinträge eine hohe Präzision aufweisen sollen, muss ein Experte alle unbekannten Wörter der Kollektion überprüfen. Zur Unterstützung wird eine Liste mit Textstellen angeboten, wenn ein Wort für die Konstruktion eines Lexikoneintrags ausgewählt wird. Der LeXtractor verwendet manuell erstellte Regeln (sog. Patterns), um potenzielle moderne Formen in einem aktuellen Lexikon zu finden. Pilz und Luther [Pilz/Luther 09] unterstützen die Sammlung von Belegen in ihrem Evidencer Werkzeug mit einem Bayes’schem Klassifizierer, der die Wahrscheinlichkeit schätzt, ob es sich um eine Schreibvariante handelt. Nach einer Trainingsphase mit bekannten Belegen wird eine Liste mit unbekannten Wörtern präsentiert, welche absteigend nach der Wahrscheinlichkeit für Schreibvarianten sortiert werden. Der Benutzer kann den Klassifizierer anpassen, indem er den Grenzwert für mögliche Varianten verändert. VARD 2 [Baron/Rayson 08] ist ebenfalls in der Lage, moderne Formen für Schreibvarianten in historischen Dokumenten zu finden. Das Werkzeug markiert alle Varianten, die nicht in einem modernen Lexikon zu finden sind. Für jedes markierte Wort wird dem Benutzer eine Liste mit potenziellen zugehörigen modernen Schreibungen angeboten. Der Benutzer kann aus der Liste die passende moderne Form auswählen. Ein zweiter Modus bietet zudem die Möglichkeit, automatisch die Vorschläge mit dem höchsten Ranking 212 Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian zu akzeptieren, wenn der Wert über einem vom Benutzer festgelegten Mindestwert liegt. Um diese Vorschläge zu generieren, werden eine manuelle Liste mit Belegen, eine modifizierte Version des SoundEx-Algorithmus und eine manuell erstellte Liste von Ersetzungsregeln verwendet. Zusammenfassend lässt sich feststellen, dass alle betrachteten Ansätze einen hohen manuellen Aufwand benötigen, bevor sie zur Suche nach Schreibvarianten eingesetzt werden können. Deswegen würde ein automatisches Werkzeug den Zugang zu historischen Dokumenten für den Benutzer deutlich erleichtern. RuleGenerator Mit dem RuleGenerator [Awakian 2010] (s. Abb. 1) wurde ein Werkzeug entwickelt, das dem Benutzer die automatische Generierung von Belegen und Regeln ermöglicht. Abbildung 1: RuleGenerator Applikation Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung ... 213 Vor der Erstellung des RuleGenerators wurde zunächst eine Anforderungsanalyse durchgeführt. Darauf aufbauend wurde ein Design-Konzept entwickelt. Hierfür wurden zunächst mit einer hierarchischen AufgabenAnalyse die Teilaufgaben festgelegt. Anschließend wurde das konzeptionelle Modell der Benutzeroberfläche mithilfe von Mockups umgesetzt und mit kognitiven Durchgängen getestet, bevor das Konzept implementiert wurde. Bei der Analyse ergaben sich die Schwerpunkte Bildung und Bearbeitung von Belegen sowie die Generierung und Bearbeitung von Regeln. Deswegen wurde zunächst eine horizontale Zweiteilung in die Komponenten SmartEvidencer (oben) für die Belege und Rule-Modification (unten) [Korbar 2010] für die Regeln vorgenommen. Der SmartEvidencer gliedert sich wiederum in die Komponenten Evidences (rechts oben) zur Belegsammlung und bearbeitung und Historic Text (links oben) mit den Textquellen. Die RuleModification gliedert sich in die Rule-Selector- und die Rule-VisualizationKomponenten. Die Rule-Selector-Komponente (links unten) erlaubt es dem Benutzer, durch die Regelmenge zu browsen und bestimmte Regeln zu finden. Wird eine konkrete Regel ausgewählt, wird sie rechts unten in der Visualisierungs-Komponente dargestellt. Sowohl beim SmartEvidencer als auch bei der Rule-Modification wird jeweils in der linken Teilkomponente der Überblick gegeben und entsprechend der Lese- und Interaktionsrichtung werden rechts weitere Details zur Verfügung gestellt. Wird ein neuer Beleg in der Evidencer-Komponente erstellt bzw. ausgewählt, werden die daraus erstellten Regeln in der darunter liegenden Komponente Rule-Selector angezeigt. Die einzelnen Komponenten werden im Folgenden näher erläutert. SmartEvidencer Mit dem SmartEvidencer werden zunächst die Belege gesammelt, aus denen dann die Regeln generiert werden. Hierfür wurde die automatische Belegegenerierung [Ernst-Gerlach/Fuhr 2010a/b] integriert, die aus den unbekannten Wörtern und Vorschlägen der Rechtschreibprüfung Belege bildet. Daraus werden wie gewohnt Regelkerne generiert und die häufigsten (für die Belegbildung) akzeptiert. Basierend auf diesen Regeln werden schrittweise Belege vom System akzeptiert. Die Ergebnisse dieses Prozesses werden dem Benutzer in einer Liste präsentiert (s. Abb. 2). Diese zeigt die modernen und historischen Formen sowie den Regelkern an. Der Benutzer kann anschließend einzelne Belege oder alle Belege akzeptieren. Experimentelle Ergebnisse ha- 214 Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian ben gezeigt, dass ein großer Teil der Belege und letztendlich auch der Regelkerne auf diese Weise generiert werden kann. Dadurch können die Trainingsdaten deutlich schneller und mit geringerem manuellen Aufwand erzeugt werden. Der Benutzer kann diesen Prozess beeinflussen, indem er die minimale Wortlänge, die minimale Anzahl an Regelvorkommen sowie die maximale Anzahl der Regelanwendungen pro Wort als Parameter einstellt. Abbildung 2: Automatische Belege Im Anschluss an die Bearbeitung der automatischen Belege kann der Benutzer in dem Unmatched-Reiter (s. Abb. 1 oben links) aus den noch nicht zugeordneten Wörtern weitere Belege bilden. Dazu werden dem Benutzer die unbekannten Wörter in einer Liste angezeigt. Zu einem ausgewählten Wort Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung ... 215 kann der Benutzer entweder einen Vorschlag der Rechtschreibprüfung akzeptieren oder selbst einen Vorschlag eingeben. Im Matched-Reiter werden die akzeptierten Belege mit den Regeln angezeigt. Zudem besteht in dieser Ansicht auch die Möglichkeit, bereits akzeptierte Regeln noch weiter zu bearbeiten. Belege, die in dieser Ansicht mit einem Fragezeichen erscheinen, wurden automatisch generiert und mit dem Later-Button anstatt mit dem Accept-Button akzeptiert. Diese Unterscheidung ermöglicht es dem Benutzer, Belege vorläufig zu akzeptieren, wenn er schnell eine Suche ermöglichen will. Diese Belege kann er bei Bedarf zu einem späteren Zeitpunkt überprüfen. In der Historic-Text-Komponente werden die möglichen Schreibvarianten in einem kurzen Textauszug hervorgehoben dargestellt. Auf diese Weise kann der Benutzer bei Bedarf aus den Kontextinformationen die genaue Bedeutung des Wortes erschließen. Falls der Textauszug nicht ausreichend ist, kann auch eine Anzeige des gesamten Textes erfolgen. Rule-Modification Der Rule-Selector soll dem Benutzer einen Überblick über die gesamte Regelmenge verschaffen und ihn bei der Suche nach einer bestimmten Regel unterstützen. Zu diesem Zweck wurde ein Filter implementiert, der es ermöglicht, die vorhandene Regelmenge nach verschiedenen Regelkriterien (z. B. Regeltyp oder find- und replace-Teil) zu filtern. Die Rule-Visualization-Komponente ermöglicht es dem Benutzer, die im Rule-Selector ausgewählte Regel im Detail zu betrachten. Außerdem erlaubt sie es, die selektierte Regel zu modifizieren, zu löschen oder neue Regeln in Abhängigkeit der ausgewählten Regel zu erstellen. Für die Visualisierung wurden zunächst die im JUNG-Framework1 vorhandenen Layout-Algorithmen für Graphen evaluiert. Da diese Algorithmen nicht direkt für die gegebenen Daten geeignet waren, wurde ein Konzept für ein eigenes Layout erstellt (s. Abb. 1 unten rechts), welches Ansätze aus den bestehenden Verfahren übernimmt. Zur optischen Platzierung der Knoten des Graphen wurde die hierarchische Einordnung von Knoten des Sugiyama-Layouts mit der rekursiven Zeichenweise von üblichen Tree-Layouts kombiniert. Dabei wird der Wurzelknoten auf Ebene 0 angeordnet, während alle anderen Knoten in Abhängigkeit zur maximalen Anzahl passierter Kanten bis zum Wurzelknoten angeordnet werden. 1 http://jung.sourceforge.net – Stand 13.01.2011 216 Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian Daraus ergibt sich ein Layout, bei dem alle Kanten nach unten gerichtet sind. Um die Übersichtlichkeit der Visualisierung zusätzlich zu verbessern, werden nur die Regeln angezeigt, die für die ausgewählte Regel relevant sind. Weitere Regeln werden in expandierbaren Knoten zusammengefasst und können bei Bedarf zusätzlich angezeigt werden. Innerhalb der Rule-Visualization-Komponente stellt eine Toolbar die verschiedenen Möglichkeiten zur Modifikation der Regelmenge zur Verfügung. Der Benutzer kann vorhandene Regeln editieren und löschen oder neue Regeln erstellen. Zur Erstellung von neuen Regeln gibt es Dialoge mit unterschiedlichen Unterstützungsmöglichkeiten. Der Benutzer kann z. B. eine Regel frei eingeben oder einen Dialog verwenden, der ihn dabei unterstützt, Regeln zu erstellen, die die selektierte Regel spezialisieren oder diese generalisieren. Bei der Durchführung von Modifikationen wird der Benutzer von einem Preview-Modus unterstützt. Dieser wird aktiviert, sobald der Benutzer einen Modifizierungs-Dialog öffnet. Der Preview-Modus visualisiert den Graphen in dem Zustand, in dem er wäre, wenn die aktuell vorhandene Änderung durchgeführt würde. Jegliche Eingabe innerhalb eines Modifizierungs-Dialogs löst eine Aktualisierung des Preview-Modus aus. So sieht der Benutzer sofort die Konsequenzen seiner Änderung und wird bei der Entscheidungsfindung unterstützt. Dies ist in Abbildung 3 zu sehen. Links wurde die Regel uot → uet ausgewählt und der Modifizierungs-Button betätigt. Daraufhin wurde sowohl im find- als auch im replace-Teil der Regel das u durch ein a ersetzt. Nach dieser Änderung wurde die Visualisierung des Preview-Modus aktualisiert. Dieser zeigt nun die ursprüngliche Form der Regel an (old rule) sowie die Form der Regel, die vorliegt, sofern diese Änderung bestätigt wird (new rule). Zusätzlich werden die Änderungen auch farblich markiert. Abbildung 3: Preview-Modus Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung ... 217 Evaluation Die Benutzerfreundlichkeit der vorgestellten RuleGenerator-Applikation wurde innerhalb einer eyetrackergestützten Benutzerstudie evaluiert. An der Evaluation nahmen zehn Studenten der Universität Duisburg-Essen teil. Unter den Testpersonen befanden sich sieben Informatiker, zwei Sozialwissenschaftler und ein Erziehungswissenschaftler. Mit einem Computer arbeiteten die Testpersonen seit acht bis zwanzig Jahren und alle Testpersonen gaben an, den Computer täglich zu verwenden. Ziel der im Folgenden dargestellten Evaluation war der generelle Test der Abläufe. Vor der Evaluation bekamen die Benutzer zunächst eine kurze Anleitung sowie eine mündliche Einführung in die Applikation. Es war den Testpersonen gestattet, während der Evaluation Fragen zu stellen. Die Fragen sowie die Maus- und Augenbewegung der Personen wurden beobachtet und protokolliert bzw. aufgezeichnet. Die Evaluation bestand aus einer Reihe von Aufgaben, die die Testpersonen innerhalb der RuleGenerator-Applikation durchführen sollten. Im Anschluss daran gab es ein kurzes Interview und die Probanden füllten einen Fragebogen aus. Auf diesem gab es verschiedene Aussagen zur RuleGenerator-Applikation, die die Probanden mit 1 (= trifft nicht zu) bis 5 (= trifft voll zu) bewerten sollten. Die Ergebnisse der wichtigsten Aussagen sind in Abbildung 4 zu sehen. Die ersten vier Aussagen in der Abbildung beziehen sich auf die Applikation insgesamt. Wie dort zu sehen ist, wurde die Applikation im allgemeinen positiv bewertet. Der Median von „Tool übersichtlich“, „Bedienung einfach“ und „Bedienung flüssig“ liegt jeweils bei vier und auch die weiteren Werte liegen bis auf die Ausreißer im positiven Bereich. Lediglich die Icons der Applikation wurden in der Aussage „Icons eindeutig“ mittelmäßig bewertet. Im Interview mit den Probanden bestätigten sich diese Ergebnisse und es stellte sich heraus, dass die Probanden vor allem Probleme mit den Icons in der Rule-Modification hatten. Die nächsten vier Aussagen in der Abbildung 4 beziehen sich auf den Evidencer-Teil der Applikation. Dort wurde von den Benutzern „Belegfilter hilfreich“, „Erzeugung Belege einfach“ sowie „Manuelle Belegerstellung einfach“ im Median ebenfalls mit 4 bewertet. Die Aussage „Beleg editieren einfach“ wurde etwas schlechter bewertet. Im Interview zeigte sich, dass einige Personen Probleme hatten, den Zugang zu dieser Funktion zu finden. Sie erwarteten, dass die Operation ebenfalls über die Toolbar erreichbar ist, diese konnte jedoch lediglich über einen Doppelklick aktiviert werden. 218 Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian Abbildung 4: Aussagenbewertung der Probanden Die letzten vier Aussagen beziehen sich auf den Teil Rule-Modification. Dort bewerteten die Probanden die Aussagen „Expandierbare Knoten verbessern Übersicht“, „Regelfilter hilfreich“ sowie „Regelvisualisierung bei Modifizierung hilfreich“ ebenfalls mit einem Median von vier. Die Aussage „Regel finden einfach“ wurde von den Benutzern mit einem Median von drei bewertet. Im Interview und bei der Auswertung der Eyetracker-Daten ergab sich, dass die Benutzer beim Finden von Regeln vor allem Probleme damit hatten, dass der Regelbaum bei der Benutzung des Filters nicht automatisch expandiert wurde. Durch die Verwendung des Eyetrackers wurde deutlich, dass viele Teilnehmer den Bestätigungsdialog bei Modifikationen erst sehr spät bemerkten. Nachdem der Benutzer die ausgewählte Regel gelöscht hatte, schaute er auf den Belegteil oben, ohne den Dialog, der noch bestätigt werden musste, zu bemerken. Weitere Mängel, wie der fehlende Edit-Button im Belegteil, konnten anhand der gesammelten Eyetracker-Daten untersucht und bestätigt werden. Dadurch war z. B. ersichtlich, dass Probanden bei der Bearbeitung von Aufgaben, in denen Belege zu editieren waren, den Belegteil sequentiell nach einer Möglichkeit zum Editieren absuchten, anstatt einen Doppelklick auf dem Beleg durchzuführen. Die bei der Benutzerstudie gefundenen Probleme wurden in einer Anpassung der Implementierung behoben. So wird für den Bestätigungsdialog Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung ... 219 der Regelmodifizierung der Hintergrund zunächst rot eingefärbt, um die Aufmerksamkeit des Benutzers zu erregen. Des Weiteren wurden eindeutigere Icons für einige Funktionen gewählt und die mittelmäßig bewerteten Filterfunktionen überarbeitet. Bei der Auswertung der aufgezeichneten Eyetracker-Daten wurden weitere Probleme gefunden, wie etwa fehlende alternative Möglichkeiten, um bestimmte Funktionen auszuführen. Diese wurden behoben, indem zusätzliche Möglichkeiten – wie etwa Kontextmenüs – implementiert wurden. Zusammenfassung In diesem Artikel wurde eine Benutzeroberfläche zur automatischen Konstruktion von Belegen und Regeln vorgestellt. Die Benutzeroberfläche versetzt Benutzer in die Lage, ohne Programmierkenntnisse eigenständig Regeln für historische Korpora zu erzeugen und ermöglicht somit Retrieval auf Texten mit nicht-standardisierter Rechtschreibung. Dem Benutzer wird dabei die Gelegenheit gegeben, die automatischen Vorschläge für Belege und Regeln zu löschen, zu editieren sowie neue zu erstellen. Dadurch ist der Ansatz sehr flexibel, weil der Benutzer den Prozess entsprechend seinen Erwartungen an Recall und Precision der Suchmaschine beeinflussen kann. Die Evaluation hat gezeigt, dass neuen Benutzern die Bedienung der Applikation leicht fällt und die grundlegenden Konzepte der Applikation verstanden werden. Die bei der Evaluation gefundenen Probleme wurden in einer Anpassung der Implementierung behoben. Dies soll im Rahmen einer weiteren Evaluation mit späteren Benutzern wie z. B. Historikern und Linguisten überprüft werden. Literaturverzeichnis Awakian, A. (2010). Development of a user-interface for an interactive rule development. Masterarbeit, Universität Duisburg-Essen 220 Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian Baron, A.; Rayson, P. (2008). VARD 2: A tool for dealing with spelling variation in historical corpora. Proc. of the „Postgraduate Conference in Corpus Linguistics“. Aston University, Birmingham Cendrowska, J. (1987). An Algorithm for Inducing Modular Rules. „International Journal on Man-Machine Studies“. Volume 27, Nummer 4, Seiten 349–370 Ernst-Gerlach, A.; Fuhr, N. (2006). Generating Search Term Variants for Text Collections with Historic Spellings. Proc. of the “Advances in Information Retrieval – 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006” Ernst-Gerlach, A.; Fuhr, N. (2010a). Advanced Training Set Construction for Retrieval in Historic Documents. Proc. of the “Sixth Asia Information Retrieval Societies Conf. (AIRS 2010)” Ernst-Gerlach, A.; Fuhr, N. (2010b). Semiautomatische Konstruktion von Trainingsdaten für historische Dokumente. Proc. of the „Information Retrieval 2010 Workshop LWA 2010“, Kassel, Germany Gotscharek, A.; Neumann, A.; Reffle, U.; Ringlstetter, Ch.; Schulz, K. U. (2009). Enabling information retrieval on historical document collections: the role of matching procedures and special lexica. Proc. of „The Third Workshop on Analytics for Noisy Unstructured Text Data“, Barcelona, Spain Hauser, A.; Heller, M.; Leiss, E.; Schulz, K. U.; Wanzeck, C. (2007). Information Access to Historical Documents from the Early New High German Period. Proc. of the „International Joint Conference on Artificial Intelligence (IJCAI-2007) Workshop on Analytics for Noisy Unstructured Text Data“, Hyderabad, India Korbar, D. (2010). Visualisierung von Regelstrukturen und Modifikationsmöglichkeiten für die Suche in Texten mit nicht-standardisierter Rechtschreibung. Diplomarbeit, Universität Duisburg-Essen Nguyen, DucDung, T. Ho, Kawasaki (2006). Knowledge visualization in hepatitis study. In: APVis ’06: Proc. of the 2006 „Asia-Pacific Symposium on Information Visualization“, S. 59–62, Darlinghurst, Australia. Australian Computer Society, Inc. Pilz, T. (2009). Nichtstandardisierte Rechtschreibung – Variationsmodellierung und rechnergestützte Variationsverarbeitung. Dissertation, Universität Duisburg-Essen Pilz, T. and Luther, W. (2009). Automated support for evidence retrieval in documents with nonstandard orthography. In „The Fruits of Empirical Linguistics Process“, Sam Featherston, S; Winkler, S.; Volume 1, S. 211–228, Mouton de Gruyter Berlin Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung ... 221 Session 6: Multimedia 222 Peter Schultes , Franz Lehner , Harald Kosch Effects of real, media and presentation time in annotated video Peter Schultes 1, Franz Lehner 2, Harald Kosch 3 University of Passau – Innstrasse 43, Passau Business Administration II – [email protected] 2 Business Administration II – [email protected] 3 Distributed Informationsystems – [email protected] 1 Abstract In recent years, annotated video became a major factor of our multimedia world. As we can see using the example of YouTube, annotating an existing video with graphical objects seems to get very popular these days. But a lot of technical problems are not solved yet or are still even not identified. One of these issues is dynamic behavior of (graphical) annotations, which current platforms generally do not support at all (for instance YouTube). This work deals with a question that is of inherent importance for dynamism: how can we synchronize media, real and presentation time in interactive video? Current platforms typically support media time dependencies, but discount the fact that user interactivity takes place at presentation time. Our approach of handling different time systems enables interactive video to expand to a much greater field of application. 1 Introduction Just a few years ago, video was a linear presentation medium. We generally interacted more with our remote control of our video players than with the media itself. Then in the mid-nineties the DVD came up and interactive multimedia presentations emerged: additional material, alternative endings, audio comments and so on. After suitable technologies like Adobe Flash and Microsoft Silverlight took up the internet at the beginning of the twentieth century, clickable video appeared. Illustration-, advertising- and entertainment- Effects of real, media and presentation time in annotated video 223 videos are enriched with interactive features for the viewers since then. Nowadays – in times of web 2.0 – we can see an ongoing development: Video users themselves publish videos, annotate existing material and even enrich the videos with interactive features. Especially due to YouTube (c.f. [YouTube, 2009]) it became very popular for users to add graphical shapes, interactive hotspots or links to other media into an existing video. As we can see, the traditional observer role of video spectators seems to break up more and more. Interactive media on the one hand and user generated content on the other hand are the two main trends in the area of internet video. However, the possibilities for user generated video annotations are still limited. Of course we merely can do everything we want with a video by using programming technologies like Adobe Flash. But the majority of the video community cannot handle these technologies, because they require a lot of technical knowhow and experience. And YouTube annotations are certainly not the best answer either: only three different graphical shapes, as good as no dynamic and interactive behavior – this appears more to be the first step but not the final state. The main focus of our current work is to develop an annotation tool for online videos that everybody can easily use. The primary application field of our video annotation tool is eLearning. We would like to give our students the possibility to add additional material, references, notes etc. into their (customized) online lecture videos and share them within a peer group or a public domain. One of our research aspects here is to explore how far video is a suitable base media for user generated content. The supported video annotations include all kinds of graphical information (not metadata) like text, shapes, freehand drawings, audio, images or even video. Currently we are still in realization stage but we already identified some key issues of user generated video annotations. One issue is dynamic video annotations. Dynamism in this context contains changes of visual properties of annotation elements during video presentation. Visual properties are for example the boundary or background color of an element. A property change can be evoked by either a timer (e.g. media time progress) or the user, who interacts with an annotation element. In this article we worked out the main fields of problems that came up when realizing dynamic video annotations. The main challenge here was to bring media time dynamics and real time interactivity together. In the next sections we explain technical issues and semantic concepts on how to achieve dynamic and interactive video annotations in a consistent and generic way. 224 2 Peter Schultes , Franz Lehner , Harald Kosch Related work In recent years, the number of projects dealing with the topic of interactive video enormously increased. The following list gives a brief overview of the priorities in latest research and industrial projects including the main features – making no claims of being complete. non-linear video The Fraunhofer Institute has presented their “nonlinear-video” project at the cebit 2010. By own accounts, nonlinear-video enables us to “re-experience the content of moving pictures”. The main feature here is a whole video environment. The environment provides us with the possibility to interact with annotated video objects and retrieve sensitive information about the video content (c.f. [Fraunhofer, 2010]). Additional to the desktop presentation, developers at the Fraunhofer Institute are also working on a hardware set-top box. This could bring interactive television into our living rooms. ADIVI The ADIVI project (cf. [InnoTeamS, 2009]) – which is also a commercial software solution – focuses on additional video annotations. The system consists of fixed video and annotation areas. The content of the annotation area is determined by sensitive regions in the video. If the viewer clicks on a specific region, annotation area shows up all kind of additional media resources (text, images, videos, URLs). Microsoft Video Hyperlinks Microsoft adCenter Labs published Video Hyperlinks (see [Microsoft, 2008]) in 2008. Here, hotspots can be placed in an existing video to mark regions of interest with rectangular frames. The hotspots appear at certain media time points and change their bounding according to the background objects. After the users clicks inside the rectangle, additional information is shown. SIVA Suite SIVA Suite is one of the latest research projects of the University of Passau. Basically SIVA is a comprehensive collection of software tools, which can be used to create and play interactive videos. As well as the previous projects SIVA provides synchronous presentation of all kinds of media annotations Effects of real, media and presentation time in annotated video 225 (c.f. [Meixner, 2009]). But furthermore SIVA enables us to build alternating storylines through a graphical scene graph editor. 3 Fundamentals In a previous project, we already identified three basic components that make up a dynamic video-annotation system (c.f. [Schultes (1), 2010]) in addition to the video player: first of all, the annotation elements which appear upon the actual video content. At second, the environment which manages the containing elements. And third, the abstract screenplay which defines interactivity and dynamics during the presentation. These essential concepts are summed up in the next sections, because they serve as the basis for all further considerations. 3.1 Elements and Environment The focus of our work lies on visual annotation elements like shapes, text, images, videos, or interactive elements. All this video annotation elements are instances of a common interface. The exact nature of this interface should not be discussed further at this point (you can find more details in [Schultes (1), 2010]). For further explanations we can simply assume the following prerequisite: Each annotation element provides the same generic mechanism to implement element specific behavior. We can also control and manipulate the state of an element via the interface without having detailed information about the particular element. The controlling of all annotation elements is done by the runtime environment of the collaborative video player/editor. So the annotation environment is the connection between video and user generated content and has three major functions: The first task is managing the graphical annotation context. The second task is to interpret the abstract screenplay and so insert/hide the annotation elements at certain time points. And at last the environment is responsible for forwarding all changes and events – for instance user inputs – to the annotation elements (see next section). 226 3.2 Peter Schultes , Franz Lehner , Harald Kosch Events The annotation environment has to react on multiple kinds of events and state changes: • the ongoing position in video, thus the current media time • timing events from the system clock • system events from user input devices (e.g. mouse clicks) • element specific events (e.g. selection of a button shape) After the annotation environment noticed an event or an element state change, all detail information is packed into a standard event object. This generally consists of an event type identifier, an explicit source element and arbitrary detail objects (e.g. which mouse button was pressed etc). This proceeding is required, because the common element interface can only deal with one particular (generic) event object. The event object must then be interpreted by all involved elements. An element is usually involved in an event, if it represents a user interface event, which occurred in the graphical bounds of the element. The next step is to inform appropriate event handlers about the occurrence of the event (see next section). 3.3 Actions and Dynamics Dynamics and actions are defined in the abstract annotation screenplay. The screenplay has to be created by the author of an interactive video prior to or during its presentation – in our case the screenplay is collaboratively created by the users of an internet community. Its evaluation is done by the environment at video runtime. Realization issues of the screenplay are not part of this work – you can read further details about our “event tree”-approach which deals with the question on how users can define and manage complex screenplays graphically in [Schultes (2), 2010]. Basically, the screenplay holds an amount of actions which will be executed in response to particular events. The connection of runtime event and predefined action is called an event handler. An event handler specifies its trigger event by an appropriate event prototype. An example event handler could possibly be something like: After selection of button ‘xy’ annotation element ‘yz’ should set its background colour to blue. Effects of real, media and presentation time in annotated video 227 Therefore, the event prototype would map to all runtime events whose type is “selection” and arise from element “xy”. The related action would change the background property of element “yz”. In this context, an action is a container for an arbitrary amount of instructions. Each instruction always references a target element and defines an explicit command directly affecting this target. A command can easily be realized via the generic element interface (see section 3.1). Usually instructions (and so actions) change the state of their target elements which can lead to the occurrence of new element events. Further to the event handlers, an abstract screenplay contains all appearing and disappearing time points of every visual annotation element. This is essential because the elements usually do not remain visible across the entire video. 4 Real time and media time The annotation environment initiates the execution of certain actions at particular time points. These time points always have an explicit timestamp depending on the system clock of the underlying hardware system. By default this timestamp corresponds to a real time point in the existing time continuum. Since video is a time based medium, each real time execution point can be mapped to a corresponding media time point. Media time points are in contrast to real time points singletons and so recoverable. For example, viewers can jump back and forth in media time by adjusting the current position in the video. This certainly does not apply to real time unless time machines get affordable in the near future. The presence of several execution time points arise the question of which time point is decisive for the execution time of an action. 4.1 Media time actions Media time events primarily include frame updates in the video player but also derived events like “element xy is now shown” (since media time points which change the hide/show states of annotation elements are explicitly listed in the screenplay, these events can be treated like “real” media time events). In order to give the impression that the annotation elements are an integral 228 Peter Schultes , Franz Lehner , Harald Kosch part of the underlying video they strictly have to behave synchronously with the video content. Let’s consider the screenplay contains an event handler which changes the background color of an annotation shape at media time 00:05:15. It seems obvious that the background color must be reset to its original value in case of a media time setback, to keep synchronous with the video. This demand is getting even more obvious, if we take a look at moving elements (which often appear in connection with hotspots). Let’s assume that the screenplay contains several different location requests targeting one particular annotation shape at certain media time points. As a result, the element acts synchronously with a background object in the video. Considering that, a media time step back inevitably forces a location update, unless user generated content and video lose their synchronicity. Figure 1 shows this circumstance: Nice car Nice car t=1 mt = 1 = play = step back Nice car t=6 mt = 6 t = 10 mt = 2 t = relative real time point mt = absolute media time point Figure 1: Loss of synchronism due to moving elements, when ignoring a media time step back. So, in case of a media time backward jump, each annotation element has to restore the most recent valid state before the target media time. Therefore, the annotation environment has to manifest the state of the target element before executing a media time action. This is the only way to ensure proper element states in case of future media time jumps. In terms of software engineering this approach is called Memento (c.f. [Gamma, 1995]) and is used in similar circumstances: realizing undo-redo mechanism in graphical user interfaces. As we have seen, backward steps require a special treatment. But how to handle forward steps? Of course we would lose synchronicity of annotation Effects of real, media and presentation time in annotated video 229 elements and video, if we ignored forward steps. For example, if the viewer (in respect of the scenario in figure 1) jumped from media time point 2 to 7, the location update would fail to appear. The required action will only be executed on media time event 6, which was skipped due to the forward jump. Thus, the annotation environment has to predetermine the skipped state transitions and manifest them at the given media time points respectively. The environment can achieve this easily by using the given event prototypes details in the abstract screenplay. Forward calculation is done in three sequential steps: • Calculation of all media time actions which occur in the skipped time span. • Sorting of the selected actions according to their execution time points. • Sequential execution of the actions and state manifestation of affected elements according to execution time points. 4.2 Real time actions In contrast to media time actions, real time actions do not depend on the video presentation at all. Real time actions change the state of an annotation element at a certain time point triggered by the system clock. An example real time event would be: “12:00:35 on 01-05-2010”. Since it is not possible to reset the real time, we do not have to care about element state manifestation and so on and only have to evaluate the necessary system clock events. However, the environment must ensure the correct initial state of all elements at the beginning of the video presentation: if an event handler updates the colour of an annotation shape at 12:00:35 and presentation starts at 13:00:00, the environment should catch up on the missed real time event and update the element before presentation starts. This guarantees consistent behaviour of user generated annotations, no matter at which time of day the presentation starts. In general, real time actions as described here would not make much sense for normal use cases. They are more an issue for commercials on top of the video, which are dynamically shown at particular times of day. But certainly, real time actions only play a minor role. However, we should consider the idea as useful for element specific behaviour. Let’s take a look at an interactive door-shape: a mouse click could trigger a visual opening- or closing-animation. Animations are usually real time based, and must continue 230 Peter Schultes , Franz Lehner , Harald Kosch even if the user pauses the video. So here we do not have absolute timestamps but relative ones, dependent on the system timestamp of the trigger event. 4.3 Presentation time actions The previous considerations dealt with actions that are triggered by any sort of time events. All further events belong to the presentation time category: for one thing there are events fired by input devices (e.g. mouse pointer movements/clicks or keystrokes ...), for another thing element specific events (e.g. “selection performed” in an interactive multiple choice element). These events occur in the annotation layer, thus outside the actual video context, but mostly depend on the video content. For instance, a mouse click on a video object always relates to current media time – the viewer would probably not have clicked on this particular location, if the video content had been a differed one. This is also transferable to user interactions with the annotation layer: annotation elements are always closely linked to the video content and media time due to their dis-/appearing (media) time points. This raises the question of whether presentation time actions have to be rolled back as well as media time actions in case of backward jumps. Forward calculations do not make sense at all, since the environment cannot estimate possible interaction events during the skipped time span (which might have occurred in a continuous presentation). But if the annotation environment manifested the element states in case of presentation time actions, too, they could be restored after a backward jump. The following example scenario should help us to understand this problem: In an interactive video project, viewers should receive additional information to objects they selected with the mouse pointer. Therefore we have a text field, which always stays visible during the entire video presentation. Furthermore, annotation shapes appear and disappear at specific mediatime points. These elements act as hotspots for corresponding objects in the video. After the viewer clicks on such a hotspot element, the text field presents additional information about the enclosed video object. Let’s assume a viewer has watched the first part of the interactive video and has already selected some hotspot elements. Now he wants to set back media time to watch the last scene again. This leads us to two different posi- Effects of real, media and presentation time in annotated video 231 tions whether the content of the text filed has to be reset or not (after the backward jump): • Position 1: Mouse click occurs at real time, but the corresponding action is executed at media time. The environment must reset the text field after a media time setback, because its content changed through (video-) content sensitive actions. This ensures synchronicity with the video. • Position 2: Mouse click occurs at real time and corresponding action is executed in real time context, too. The content of the text field is still valid, because the last user selection took place before the media time setback. So no rollback is required. This ensures correct real time behaviour. One consequence of position two is that the text field may contain information about a video object, which has not been shown yet. This could lead to uncertainty among the viewers. But position one also shows a similar weakness: after the media time setback, all elements states suit to the current video content. If the user performs a forward jump right after the setback, the elements cannot restore their previous state again (since forward calculation is generally not possible – even if the target time point was recently shown). So which of the positions is the “right” one? In general, we cannot predict the correct handling of media time changes, if we do not know the particular use case. If there is a strong connection between video content and user action (as in the example scenario), viewpoint one seems to be the best suitable. If not – for instance in case of element events like button selections etc. – viewpoint two would be a better choice. Due to the fact that the annotation system cannot calculate the correct handling, the best solution here seems to be a preliminary commitment in the abstract screenplay. The author of an interactive video should have the possibility to specify the desired handling for each presentation time action by himself. 4.4 Special cases One special case needs to be discussed further at this point: media time actions can change the state of an element. This can evoke new element events at the target element(s). As far as one or more of these (possible) events are connected with other actions, “action chains” arise. Regardless of whether position one or two is taken for media time handling, action chains whose 232 Peter Schultes , Franz Lehner , Harald Kosch start event is a media time event, have to be completely rolled back. So the context of action chains is always determined through the start event. This dependency seems to be obvious, since there would not be any further events without the start event. But there is one exception: if the implementation of a chained action adjusts the current video position, the context switches at this chain index. So any further action of the chain will require element state manifestations. This may lead to pretty obscure behaviour, which we have not considered so far. It could even be possible that a chained action triggers another action chain. A lot of problems with action chains are not considered so far and will be part of future work. 5 Conclusions and future work In this work we introduced the basic concepts of handling dynamics and interactivity of graphical video annotations. As we have seen, different action types may require a different treatment for media time jumps. In case of presentation time actions the environment even cannot determine, whether a roll back is necessary or not. So here we need information from the author on how to treat each particular presentation time action. Due to the results of our work, we were able to implement the logic for handling dynamics in annotated interactive videos. In our future work we will concentrate on unresolved problems when media time affects video annotations (for example the above mentioned action chains). In the next step we will finish up implementing our annotation tool for internet videos. We expect a lot of problems when realizing collaborative viewing and editing of annotated videos, because this area is still only insufficiently explored. We will then integrate the final collaborative video annotation player in our online lecture courses. After having sufficient user content we will launch a study about the quality and different types of the generated user content. This should help us to get a sustainable estimation on how far video is a suitable media for user generated content. Effects of real, media and presentation time in annotated video 233 References Fraunhofer Fokus (2010): Non Linear Video. In Fraunhofer Fokus, Future Applications and Media 02/2010. http://www.fraunhofer.de/Images/fokus_non-linear-video_de_tcm7-61560.pdf (Retrieved 03.01.2011) E. Gamma, R. Helm, R. Johnson, J. Vlissides (1995): Elements of Reusable Object-Oriented Software. Amsterdam: Addison-Wesley Longman, 1995 InnoTeamS (2009): ADIVI Instructional Guide, Version 3.0. http://www.adivi.net/Materialien/ADIVI_3_help_en.pdf (Retrieved 03.01.2011) Meixner, B., Siegel, B., Hölbling, G., Kosch, H., Lehner, F. (2009): SIVA Producer – A Modular Authoring System for Interactive Videos. In Proceedings of I-KNOW, 9th International Conference on Knowledge Management and Knowledge Technologies, Graz, 2009 Microsoft adCenter Labs (2008): Video and Interactive. http://adlab.msn.com/Video-Hyperlink/ (Retrieved 03.01.2011 from) Schultes, P., Lehner, F., Kosch, H. (2010): Videomarkup – Vom Videonutzer zum Produzent. In Eibl, M. et al (Hrsg.): Workshop Audiovisual Media WAM 2010. Chemnitz, 2010 Schultes, P., Lehner, F., Kosch, H. (2010): A user-centred approach to define interactive and dynamic video annotations via event trees. In 10th International Conference on Knowledge Management and Knowledge Technologies, Graz, 2010 YouTube 2009: YouTube Video Annotations, 2009. http://www.youtube.com/t/annotations_about (Retrieved 03.01.2011 from) 234 Marc Ritter, Maximilian Eibl Ein erweiterbares Tool zur Annotation von Videos Marc Ritter, Maximilian Eibl Technische Universität Chemnitz – Professur Medieninformatik 09107 Chemnitz {marc.ritter|eibl}@informatik.tu-chemnitz.de Zusammenfassung Die Beschreibung audiovisueller Medien durch Metadaten bedarf aufgrund der Masse der Daten einer Unterstützung für die manuelle Annotation sowie eine möglichst weitgreifende automatische Annotation. Das vorgestellte Werkzeug unterstützt Markierung, interaktive Vorsegmentierung und Objekterkennung und -verfolgung. Mithilfe der integrierten Shot Detection kann ein Video strukturell zerlegt werden, um beispielsweise die halbautomatische Objektverfolgung über Szenengrenzen hinweg zu unterbinden. Die Anbindung des Forschungsframeworks AMOPA gestattet dem Nutzer beliebige Ketten von Operationen zur Bild- und Videoverarbeitung zu erstellen. Der Datenexport erfolgt über MPEG-7-DAVP. Abstract We introduce an extensible annotation tool for videos. It allows marking, interactive segmentation and semi-automatic tracking of objects in video images as well as preprocessing steps like shot boundary detection. The combination with the research framework AMOPA enables the user to create arbitrary custom image processing chains depending on the underlying field of research. All data may be exported to MPEG-7-DAVP. Ein erweiterbares Tool zur Annotation von Videos 1 235 Einführung Systeme zum Einsatz audiovisueller Medien, seien es Medienarchive, Mediatheken, Knowledge Management Systeme, E-Learningsysteme oder andere sehen sich in den letzten Jahren einer zunehmenden Flut von Daten gegenüber. Diese durch Beschreibungsdaten sinnvoll recherchierbar zu machen, entwickelt sich zu einer immer stärkeren Herausforderung an Kapazität und Zeit. Hier greifen Versuche, die Annotationsprozesse weitgehend zu automatisieren bzw. die Anwender in der Annotation zu unterstützen. So werden Algorithmen der Audio-, Bild- und Video-Verarbeitung speziell im Anwendungsgebiet des Maschinellen Lernens entwickelt und eingesetzt, indem Klassifikatoren zum Auffinden von Objekten trainiert werden. Deren Training erfordert jedoch oftmals zuvor aufbereitete, d.h. annotierte Trainingsdaten, die bereits Beispiele der zu klassifizierenden Objekte enthalten. Die Annotation derartiger Objekte in Bild- und Videodaten erfolgt zumeist manuell, ist mit wiederholten Arbeitsprozessen verbunden, zeitaufwendig und verlangt zudem eine hohe menschliche Aufmerksamkeit. Einfache, schnelle und zuverlässige Annotationsvorgänge können die Entwicklungszeit von Algorithmen positiv beeinflussen sowie die Aussagekraft über die Performanz von wissenschaftlichen Verfahren auf größeren Testdatensätzen erhöhen. 1.1 Related Work In der Vergangenheit wurden zahlreiche Tools entwickelt, die Annotationen in Bildern und Videos erleichtern sollten. Das ViPER-Toolkit (Doermann & Mihalcik 2000) erlaubt die Markierung von Einzelobjekten in Videos und die Kreation von Deskriptoren mittels Schema-Editor und findet bei der TREC Video Retrieval Evaluation Anwendung (Smeaton 2006). Die Handlung von Bildinhalten lässt sich in Caliph mit einem gerichteten Graphen erfassen, jedoch nicht mit einem Bildobjekt vereinen. Die Komplementäranwendung Emir findet ähnliche Bilder mithilfe von MPEG-7 Low-Level-Deskriptoren (Lux 2009). Mit diesen durchsucht (Vezzani 2006) Videos nach zuvor trainierten Objekten. Deskriptoren finden auch beim M-OntoMat-Annotizer Anwendung, der es erlaubt, in Bildern Regionen zu segmentieren, um aus diesen dann Objekte und deren Eigenschaften zu bestimmen (Petridis 2006). Das Multimedia Analysis and Retrieval System (MARVEL) tauscht die übliche Annotationszeichenfläche gegen statistische Analysealgorithmen und ordnet 236 Marc Ritter, Maximilian Eibl vorhandene Bilder in eine komplexe Taxonomie ein, um so die Fehlerrate einer zeitaufwendigen manuellen Annotation zu minimieren (Columbia 2004). Einen ähnlichen Weg verfolgt das VideoAnnEx Annotation Tool. Es hält vordefinierte Lexika zur Annotation von Schlüsselobjekten, Ereignissen und statischen Szenen bereit (Naphade 2002). In einer MATLAB-GUI verbindet (Kounoudes 2008) eine Szenenwechselerkennung mit der Möglichkeit Frames mit Kategorien erweiterbarer XML-Wörterbücher semantisch zu taggen. Eine semi-automatische Segmentierung von Objekten durch aktive Konturen und deren Verfolgung durch Interpolation verfolgt (Luo & Eleftheriadis 1999). (Goldmann 2008) modifiziert ein 2D-Trackingverfahren, um Bildobjekte zu transformieren und deren Position im Video zu ändern. Ursprünglich zur Annotation von Sprachdialogen entwickelt, gestattet ANVIL die Definition und Annotation diverser Kodierungsschemata auch für die Videoverarbeitung. Daten können XML-basiert abgespeichert und in der statistischen Toolbox SPSS weiterverarbeitet werden. (Kipp 2008) erweitert die Kodierungsschemata um eine räumlich-zeitliche Funktion zur Markierung von Objekten über den eigenen Frame hinaus. Das für Mac OS X verfügbare Tool VCode and VData ermöglicht die Verarbeitung multipler Videoquellen und verschiedener Sensorformate mittels Objektmarkierung auf einem Zeitstrahl. Als Besonderheit können Annotationssequenzen syntaktisch auf Konsistenz geprüft werden (Hagedorn 2008). Einen anderen Weg schlägt (Schroeter 2008) mit FilmEd ein, wo mehrere über heterogene Netzwerke verbundene Nutzer interaktiv gleichzeitig Annotationen durchführen können. Selbst mobile Geräte werden inzwischen mit allerdings sehr rudimentären Annotationsfunktionen ausgestattet (Concejero 2008). 1.2 Motivation Zahlreiche Anstrengungen wurden unternommen, den mühsamen und weit verbreiteten Prozess der Frame-by-Frame-Annotation zu erleichtern. Einerseits ist es möglich, die Objektsegmentierung und -verfolgung zu automatisieren, was nur von wenigen Tools angeboten wird. Andererseits werden mehrere Bilder einer Sequenz mit einem semantischen Begriff versehen. Obgleich die Begriffswahl durch maschinelle Vorverarbeitung eingegrenzt werden kann, leidet doch oftmals die Exaktheit der Annotation aufgrund der Spezifität der zugrundeliegenden Wissenstransferfunktion. So versucht (Fan 2008) die semantische Lücke zwischen Low-Level-Merkmalen und High-Level-Konzepten zu schließen, indem saliente Objekte in Bildern er- Ein erweiterbares Tool zur Annotation von Videos 237 kannt und mit atomaren Bildkonzepten konzeptbasiert abgeglichen werden. In vereinfachter Form ist dies auch in der Videoannotation wünschenswert. Zudem lassen einige Tools die Möglichkeit zum Datenexport zur anwendungsspezifischen Weiterverarbeitung vermissen. Das vorliegende Annotationstool versucht nun die Vorteile zu vereinen. Dazu wird es an das effiziente und flexible Lehr- und Forschungsframework AMOPA (Ritter & Eibl 2009) angebunden, dessen Verarbeitungsketten auf Geschwindigkeit optimiert sind und sich bei Bedarf skalierbar auf andere Rechner über Java RMI verteilen lassen. Somit können Videos nicht nur schnell strukturell zerlegt, sondern auch Objekte markiert, segmentiert und verfolgt werden. Da Videos im Gegensatz zu Bildern in der Regel Bewegungen und unterschiedliche Kameraperspektiven aufzeigen, lassen sich Variationen von Objekten leichter erfassen, erhöhen die Anzahl verfügbarer Trainingsdaten und präzisieren zugleich deren Qualität für die Weiterverarbeitung. Einhergehend verringert sich der Annotationsaufwand. 2 Systembeschreibung Das Annotationstool besteht aus zwei Komponenten. Erstere bildet das Framework Automated MOving Picture Annotator (kurz: AMOPA), das (Ritter 2009) ausführlich beschreibt. Es wurde als Lehr- und Forschungsinstrument zum Entwurf und zur Implementierung von beliebigen prozessgesteuerten Workflow-Konzepten konzipiert. Der Zugriff auf Videodaten wird durch die offene C-Bibliothek FFMPEG und über das Interface von Streambaby in Java gekapselt (siehe Abb. 1). Abbildung 1: Architektur des Annotationstools (rechts). Dieses tauscht Daten mit AMOPA (Mitte) aus, welches die Funktionen von JMU und Streambaby aggregiert. 238 Marc Ritter, Maximilian Eibl Neueste Erweiterungen des Prozesskonzeptes von Java Media Utility (kurz: JMU) erlauben die Verwirklichung von Prozessketten mit nichtlinearem Verlauf, womit Workflows nahezu beliebiger Topologie umgesetzt werden können. Die Verschaltung der einzelnen Bildverarbeitungsschritte erfolgt in der Prozesskette wahlweise per Editor oder XML, wobei jeder Schritt als eigenständiger Thread gestartet wird, um Multi-Core-Rechnerarchitekturen besser zu unterstützen. Die zweite Komponente umfasst das eigentliche Annotationstool. Durch den Einsatz von Java-RCP als Entwicklungsplattform ist das Tool portierbar und unter Windows und Linux anwendbar. Eine schnelle Bilddarstellung wird durch JFace und SWT erreicht. In Abb. 2 wird die grafische Benutzungsoberfläche gezeigt. Abbildung 2: Darstellung des Annotationstools mit einer bereits halbautomatisch vorsegmentierten Person in der Mitte (weiße Polygonlinie). Sie enthält zunächst die Menüleiste mit Funktionen zum Laden, Speichern, Exportieren, Szenenwechselerkennung, Objektsegmentierung und -verfolgung. Unter der Menüleiste befinden sich Buttons zur manuellen Markie- Ein erweiterbares Tool zur Annotation von Videos 239 rung von Objekten. Hier stehen Rechteck, Kreis, offenes sowie geschlossenes Polygonen zur Verfügung. Um die Sichtbarkeit der Markierung in jedem beliebigen Videomaterial zu gewährleisten, können Strichstärke und -farbe individuell gesetzt werden. Der aktuelle Annotationsframe ist in der Mitte dargestellt. Links reflektiert der SceneView in einer Baumstruktur die dazugehörige durch Annotationen erzeugte Objekthierarchie. Im unteren Bereich der GUI schließt sich das ControlView an, das über entsprechende Steuerelemente die Navigation in Videos ermöglicht. Der Zugriff auf Einzelbilder wird sequentiell in der oberen Zeile ermöglicht. Nach Ausführung der Szenenwechselerkennung kann zu den Einzelbildern einer kontinuierlichen Kameraeinstellung (engl. shot) über Klicken der repräsentativen Schlüsselbilder (unterste Zeile) navigiert werden. Zu annotierende Frames werden durch einen Doppelklick in die Annotationszeichenfläche transferiert. 3 Algorithmen Die nachfolgenden Abschnitte geben einen Einblick in die im Annotationstool verwendeten Algorithmen. Deren Umsetzung erfolgt in separaten Verarbeitungsketten ausschließlich durch AMOPA. Gesteuert werden sie über eine Schnittstelle gemeinsamer Objekte. 3.1 Navigation in Videos In der Navigation kann unter allen Abspielfunktionen die Sprungfunktion an eine bestimmte Position des Videos unter Umständen problematisch erscheinen, da sie die sequentielle Abtastung (Streaming) eines Videos durchbricht. Das trifft in der aktuell angebundenen Version von FFMPEG besonders auf das MPEG-Format zu. Wird beim Ladevorgang ein solches Format festgestellt, werden alle Videoframes momentan serialisiert als Java-Objekte auf Festplatte ausgelagert. Im Gegensatz dazu funktioniert das Springen im Container-Format AVI reibungslos und benötigt lediglich die Verwendung eines internen Ringpuffers. 240 3.2 Marc Ritter, Maximilian Eibl Szenenwechselerkennung Die Detektion von Szenenübergängen erfolgt in Anlehnung an das Verfahren von (Liu 2006), nutzt jedoch nur wenige ausgewählte Merkmale zur Detektion von harten Schnitten (vgl. (Ritter & Eibl 2009)) und erreicht somit eine Verarbeitungsgeschwindigkeit von bis zu 2,2-facher Echtzeit (Testsystem: Dual Quad Core, 3 GHz mit Ø 65% Prozessor-Auslastung) unabhängig von der Auflösung des Videomaterials. Dazu wird das Bild zuerst auf halbe PALAuflösung skaliert und in 48 × 48 große Blöcke zerlegt. Zu jedem Block werden die individuellen Bewegungsvektoren bestimmt. Der Fehler zwischen dem eigentlichen Block und seinem bewegungskompensierten Pendant ergibt sich über die minimale absolute Distanz aller Pixel. Der Quotient über das Verhältnis aus kumulativer Summe der Fehler aller Blöcke und einer additiven Glättungsfunktion über die Fehlersumme vergangener Bilder löst letztlich die Detektion eines Szenenübergangs aus. Gegenüber der Evaluation von (Zwicklbauer 2010) wurde die Genauigkeit des vorliegenden Verfahrens nochmals verbessert, indem MPEG-7-Kantenhistogramme innerhalb einer εUmgebung eines wahrscheinlichen Szenenwechsels auf je fünf benachbarten Frames berechnet und auf Unähnlichkeit geprüft werden. Auf dem getesteten Realmaterial kooperierender Fernsehsender (> 100 Stunden) erreicht dieses Verfahren in eigenen Testreihen Detektionsquoten um die 99% mit einer Falsch-Positiv-Rate von max. 1,5%. 3.3 Objektsegmentierung Die Erfassung von genauen Konturen eines Objektes kann für dessen Merkmalsextraktion und Weiterverarbeitung von entscheidender Bedeutung sein. Die manuelle Annotation von beliebigen Objekten mittels Freiform- oder Polygon-Tools ist oftmals zeitintensiv. Das Annotationstool verwendet zur semi-automatischen Segmentierung die Implementierung des GrabCut nach (Talbot & Xu 2006). Zur Anwendung genügt es, die zu segmentierende Fläche mit einer Bounding-Box geschlossen zu umranden. Zwei Gaußsche Mischverteilungsmodelle (GMM) werden für Vorder- und Hintergrund modelliert. Die Pixel innerhalb der Markierung werden dem Vordergrund-GMM zugeführt. Das Farbreduktionsverfahren nach (Orchard & Bouman 1991) bestimmt die Verteilungen innerhalb der GMMs. Danach werden alle Vordergrundpixel der wahrscheinlichsten GMM zugeordnet. Aus der neuen Pi- Ein erweiterbares Tool zur Annotation von Videos 241 xelverteilung wird mit den beiden GMMs als Quelle und Senke ein Graph aufgebaut und der minimale Schnitt nach (Boykov & Kolmogorov 2004) berechnet. Dieser Prozess wird iteriert bis sich die Pixelzuordnungen zur jeweiligen GMM nicht mehr ändern. Die Ergebnisse des Verfahrens visualisieren Abb. 3 und Tab. 1. Die Methode erzielt akzeptable Resultate, wenn die Farbunterschiede innerhalb des Objektes nicht zu groß sind. Probleme bereiten ausgeprägte Muster, Schatten und inhomogener Hintergrund, der keine scharfkantige Abgrenzung des Objektes zulässt. Abbildung 3: Evaluation der Genauigkeit des GrabCut-Algorithmus: Originalbilder mit rechteckiger Objektselektion (oben), Unterschiede zum manuell erstellten Ground Truth (graue Bereiche im unteren Bild). (modifiziert aus: Höhlig 2010) Tabelle 1: Genauigkeitsanalyse GrabCut (Angaben in Pixel) (aus: Höhlig 2010) Bild aus Abb. 3 Buddhist Leopard Blume 3.4 Gesamtfläche 151.526 150.416 152.044 GrabCutManuelle FehlSegmentation Segmentation detektionen 24.826 24.501 575 19.973 24.510 4.669 67.627 68.259 632 Fehlerquote 2,35% 19,05% 0,93% Objektverfolgung und Datenexport Das Annotationstool bietet die Möglichkeit, markierte Objekte wahlweise durch Angabe einer frei zu definierenden Anzahl von Bildern oder bis zum Ende des aktuellen Shots zu verfolgen. Dazu wird ein entsprechendes Objekt mit einer Bounding-Box markiert (Abb. 4 links). Das weiße Rechteck bildet den Rahmen des Suchfensters, in dem das zu verfolgende Objekt innerhalb 242 Marc Ritter, Maximilian Eibl des nächsten Bildes aufgefunden werden sollte. In Anlehnung an (Beck 1999) wird ein einfaches Block-Matching-Verfahren mit n-Schrittsuche unter Nutzung minimaler absoluter Distanz angewendet. Der Export aller Annotationen erfolgt bisher wahlweise in das Format MPEG-7-DAVP gemäß (Bailer 2007) als Plain Text oder über frei konfigurierbares XML. Eine Konvertierungsfunktion in das gegenüber MPEG-7 hierarchisch flachere ViPERDateiformat (Doermann & Mihalcik 2000) ist angestrebt. Abbildung 4: Tracking des markierten Objekts (schwarze Bounding-Box) im Initialbild (links). Resultat der automatischen Objektverfolgung 24 Frames später (rechts). Die Videosequenz stammt aus einer Überwachungssequenz aus TRECVID 2009 (Smeaton 2006). (entnommen aus: (Höhlig 2010)) 4 Ausblick Das beschriebene Annotationstool wird in aktuellen Forschungsarbeiten stetig weiter entwickelt. Dies umfasst sowohl die Bereitstellung einer zukünftigen Ontologie- und Thesauri-Funktion zur vereinheitlichten und konsistenteren Kennzeichnung von markierten Objekten als auch Suche und Navigation nach annotierten Objekten mittels eines Objektbrowser über Frame- und Shotgrenzen hinweg. Eine weniger speicherintensive Lösung zur Bearbeitung Ein erweiterbares Tool zur Annotation von Videos 243 von MPEG-Dateien ist über Ankopplung von externen Tools zur Indexierung der IFrames möglich. Die Einbindung von Algorithmen zur Shot Composition, die Dialoge und Nachrichtenszenen gleichen Inhalts strukturell zusammenfassen, ist ebenso angedacht wie eine Verbesserung der Segmentierungsund Verfolgungstechniken (vgl. (Price 2009)). Verfahren zur Erkennung von Bildtexten, Sprecherwechsel und Sprache sowie zur Detek-tion von Gesichtern liegen in separaten Verarbeitungsketten in AMOPA vor und stehen zur Integration in das Annotationstool bereit, um zukünftig umfassendere Möglichkeiten zu Annotation und Analyse anzubieten. Danksagung Diese Arbeit entstand partiell innerhalb des Projekts sachsMedia –Cooperative Producing, Storage and Retrieval, das im Rahmen des Programms Unternehmen Region vom BMBF gefördert wird. Literaturverzeichnis Bailer, Werner; Schallauer, Peter; Neuschmied, Helmut (2007). Description of the MPEG-7 Detailed Audiovisual Profile (DAVP), Techn. Bericht, Joanneum Research, Graz, Austria. Beck, Peter. (1999). Implementierung eines flexiblen Algorithmus zum Tracking von Objekten in Java. Studienarbeit, TU Darmstadt. Boykov, Yuri; Kolmogorov, Vladimir (2004). An experimental comparison of mincut/max-flow algorithms for energy minimization in vision. IEEE Trans. on Pattern Analysis and Machine Intelligence, 26(9):1124–1137. Concejero, Pedro; Munuera, Jorge; Lorenz, Mirko (2008). The MESH mobile video annotation tool. In: Proc. of the 5th ACM Nordic conference on Human-computer interaction: building bridges, NordiCHI 2008. Schweden. Columbia University (2004). IBM T. J. Watson Research Center: MARVEL: Multimedia Analysis and Retrieval System. http://domino.research.ibm.com/comm/research_people.nsf/pages/jsmith.projects.html, 25.10.2010 244 Marc Ritter, Maximilian Eibl Doermann, David; Mihalcik, David (2000). Tools and techniques for video performance evaluation. In: Proceedings 15th International Conference on Pattern Recognition, vol.4, pp.167–170. Fan, Jianping; Gao, Yuli; Hangzai, Luo; Jain, Ramesh (2008). Mining Multilevel Image Semantics via Hierarchical Classification. In: IEEE Transactions on Multimedia, 10(2), pp. 167–187. Goldman, Dan B.; Gonterman, Chris; Curless, Brian; Salesin, David; Seitz, Steven M. (2008). Video object annotation, navigation, and composition. In: Proceedings of the 21st annual ACM symposium on User interface software and technology, Monterey, CA, USA. Hagedorn, Joey; Hailpern, Joshua; Karahalios, Karrie G. (2008). VCode and VData: Illustrating a new Framework for Supporting the Video Annotation Workflow. In: AVI 2008, pp. 317–321, Neapel, Italien. Höhlig, Sebastian (2010). Analyse und Implementierung eines Verfahrens zur interaktiven semi-automatischen Objektmarkierung und -verfolgung. Bachelorarbeit, Technische Universität Chemnitz. Kipp, Michael (2008). Spatiotemporal Coding in ANVIL. Proc. of the 6th International Conference on Language Resources and Evaluation (LREC). Kounoudes, Anastasis; Tsapatsoulis, Nicolas; Theodosiou, Zenonas; Milis, Marios (2008). A multi-level Video Annotatin Tool based on XML-dictionaries. In: Proceedings of the 10th WSEAS international conference on Mathematical methods, computational techniques and intelligent systems, Corfu, Griechenland. Liu, Zhu; Gibbon, David; Zavesky, Eric; Shahraray, Behzad; Haffner, Patrick (2006). AT&T RESEARCH AT TRECVID 2006. Workshop Contribution, AT&T LabsResearch. Luo, Huitao; Eleftheriadis, Alexandros (1999). Designing an interactive tool for video object segmentation and annotation. In: Proceedings of the 7th ACM international conference on Multimedia. Orlando, FL, USA, pp. 265–269. Lux, Mathias. (2009). Caliph & Emir: MPEG-7 photo annotation and retrieval. Proceedings of the 17th ACM international conference on Multimedia, pp. 925–926, Beijing, China. Naphade, Milind R.; Lin, Ching-Yung; Smith, John R.; Tseng, Belle; Basu, Sankar (2002). Learning to annotate video databases. In: Proc. SPIE Vol. 4676, pp. 264 bis 275, Storage and Retrieval for Media Databases. Orchard, Michael; Bouman, Charles (1991). Color quantization of images. IEEE Transactions on Signal Processing, 39(12), pp. 2677–2690. Petridis, Kosmas; Anastasopoulos, Dionysios; Saathoff, Carsten; Timmermann, Norman; Kompatsiaris, Yiannis; Staab, Steffen (2006). M-OntoMat-Annotizer: Image Annotation. In: Linking Ontologies and Multimedia Low-Level Features. En- Ein erweiterbares Tool zur Annotation von Videos 245 gineered Applications of Semantic Web Session at the 10th International Conference on Knowledge-Based & Intelligent Information & Engineering Systems (KES 2006), Bournemouth, U.K. Price, Brian L.; Morse, Bryan S.; Cohen, Scott (2009). LIVEcut: Learning-based Interactive Video Segmentation by Evaluation of Multiple Propagated Cues. In: Proc. International Conference on Computer Vision (ICCV), Kyoto, Japan. Ritter, Marc (2009). Visualisierung von Prozessketten zur Shot Detection. In Workshop Audiovisuelle Medien: WAM 2009, Chemnitzer Informatik-Berichte, pp. 135–150. Technische Universität Chemnitz, Germany. Ritter, Marc; Eibl, Maximilian (2009). Visualizing steps for shot detection. In: LWA 2009: Lernen – Wissen – Adaption, Workshop Proceedings, pp. 98–100, Darmstadt, Germany. Schroeter, Ronald; Hunter, Jane; Kosovic, Douglas (2004). FilmEd: Collaborative Video Indexing, Annotation and Discussion Tools Over Broadband Networks. In: Proceedings of the 10th IEEE International Conference on Multimedia Modeling, pp. 346–353. Los Alamitos, California. Smeaton, Alan F.; Over, Paul; Kraaij, Wessel (2006). Evaluation campaigns and trecvid. In MIR ’06: Proceedings of the 8th ACM International Workshop on Multimedia Information Retrieval, pages 321–330, New York, NY, USA. Talbot, Justin F.; Xu, Xiaoqian (2006). Implementing GrabCut. Brigham Young University, Provo, UT, USA. http://www.justintalbot.com/course-work/, 06.11.2010 Vezzani, Roberto; Grana Costantino; Bulgarelli, Daniele; Cucchiara, Rita (2006). A Semi-Automatic Video Annotation tool with MPEG-7 Content Collections. In: Proceedings of the 8th IEEE International Symposium on Multimedia, San Diego, CA, USA. Zwicklbauer, Stefan (2010). Evaluierung und Implementierung von Shot-BoundaryDetection-Algorithmen zur automatischen Video-Annotation. Bachelorarbeit, Universität Passau, pp. 48–52. 246 Margret Plank AV-Portal für wissenschaftliche Filme: Analyse der Nutzerbedarfe Margret Plank Technische Informationsbibliothek D-30167 Hannover E-Mail: [email protected] Zusammenfassung Die Technische Informationsbibliothek (TIB) entwickelt derzeit ein innovatives AV-Portal für wissenschaftliche Filme. Hierfür soll eine Auswahl von in der Forschung vorliegenden Methoden der visuellen Suche, Visualisierung und der automatischen Inhaltsanalyse auf den Bereich der digitalen Bibliotheken übertragen werden. Für die Entwicklung der Benutzerschnittstelle des AV-Portals wurden die Bedarfe der Nutzer analysiert. Auf der Basis der Ergebnisse wurde ein low-fidelity Prototyp entwickelt und in mehreren Designstufen optimiert. Abstract The German National Library of Science and Technology (TIB) is developing an innovative AV-Portal which allows web-based access to scientific films. Therefore the TIB would like to transfer existing methods of visual search, visualisation and automatic content analysis into the field of digital libraries. In order to ensure optimum usability of the AV-Portal, the development has been accompanied by user-centred processes. A needs analysis has been carried out and on that basis a low-fidelity prototype was developed and optimised in several iterative design steps. AV-Portal für wissenschaftliche Filme: Analyse der Nutzerbedarfe 247 Hintergrund Die Technische Informationsbibliothek (TIB) (http://www.tib-hannover.de) sieht angesichts der Zunahme der Bedeutung multimedialer Objekte in Forschung und Lehre eine Notwendigkeit ihr Service- und Forschungsspektrum um ein Kompetenzzentrum für multimediale Objekte (http://www.tib-hannover.de/de/die-tib/kompetenzzentrum-fuer-multimediale-objekte-kmo/) zu erweitern. Vorrangiges Ziel des Kompetenzzentrums wird es sein, die Bedingungen für den Zugang zu und die Nutzung von multimedialen Objekten in Forschung und Lehre grundlegend zu verbessern und neue Formen der Nutzung vorhandener Bestände zu ermöglichen. In diesem Zusammenhang wird derzeit ein innovatives AV-Portal entwickelt, das einen webbasierten Zugang zu wissenschaftlichen Filmen aus Technik und Naturwissenschaften ermöglicht, wie z.B. Simulationen, Animationen, aufgezeichnete Experimente, Vorlesungen und Konferenzen. Die AV-Medien sollen über das TIB- Suchportal GetInfo mit weitergehenden Forschungsinformationen wie digitalen Volltexten, numerischen Daten und Fakten sowie Forschungsdaten verknüpft sein. Darüber hinaus soll das Portal effiziente Such- und Präsentationsverfahren hinsichtlich multimedialer Objekte unterstützen. Die Zielgruppen eines AV-Portals in einer wissenschaftlichen Bibliothek sind in erster Linie Produzenten und Rezipienten aus Forschung, Lehre und Praxis. Videoretrieval Bisherige Such- und Präsentationsverfahren orientieren sich in erster Linie an textuellen Dokumenten, beispielsweise durch die kontrollierte Vergabe von Metadaten. Für AV-Medien ist eine Adaption dieser Verfahren durch den Einsatz (semi-)automatischer Medienanalyse sowie medienspezifischer Einund Ausgabeschnittstellen notwendig. Aus dem Bereich der automatischen Extraktion von Metadaten stehen beispielsweise eine Reihe von Methoden der automatischen Daten- und Medienanalyse für viele wichtige Medientypen wie Bilder, Audio, Videos, 3D-Modelle etc. zur Verfügung. Diese erlauben eine automatische Extraktion von Metadaten in Form von sogenannten Merkmalsvektoren oder anderen inhaltsbeschreibenden Strukturen, 248 Margret Plank welche für die inhaltsbasierte Suche und Visualisierung herangezogen werden können (vgl. Lews et al. 2005) (vgl. Petkovic, Jonker 2004) (vgl. Marques, Furth 2002). So können solche Strukturen beispielsweise im Bereich Video durch Verfahren der automatischen Shot-, Szenen-, Gesichter-, Kontext-, Genre-, Event- und Spracherkennung oder OCR gewonnen werden. Neben einer textuellen Suche spielen visuelle Eingabeschnittstellen eine entscheidende Rolle bei der Suche in AV-Datenbeständen. Gemeint sind hierbei etwa Editoren, mittels derer Beispielsskizzen eingegeben werden können (Query by Sketch) oder Features, die die Navigation und Selektion anhand von Beispielobjekten (Query by Example) (vgl. Chamlers et al. 1992) ermöglichen (vgl. Hearst 2000). Eine medienspezifische Ergebnispräsentation ist von großer Bedeutung um das Ergebnis einer Suchanfrage beurteilen zu können. Für den Bereich der AV-Medien liegen eine Reihe von Verfahren vor, die es den Benutzern erleichtert gezielt innerhalb dieses Medientyps zu recherchieren (vgl. Lews et al. 2005). Dazu gehört ein visuelles Inhaltsverzeichnis, wie u. a. das vom Fraunhofer Heinrich-Hertz-Institut im THESEUS-Projekt entwickelte Softwaremodul zur Videostrukturanalyse, das auf der Basis von Strukturerkennung das AV-Medium in Szenen und Shots unterteilt und eine Navigation innerhalb der Objekte ermöglicht (http://www.shotdetection.de). Darüber hinaus ist die Abbildung des Sprechertextes auf der Basis von automatischer Spracherkennung zum Auffinden einer konkreten Bildsequenz möglich, wie u.a. vom Fraunhofer IAIS (http://www.iais.fraunhofer.de/mmprec.html) entwickelt. Das OSTI (Office of Scientific and Technical Information) im Energieministerium der USA (Department of Energy, DOE) hat gemeinsam mit Microsoft einen Audio Indexing Prototypen als Update des Multimedia Such- und Retrievalwerkzeugs SiencePix entwickelt. Das System verfügt über eine Spracherkennungssoftware, die ein Retrieval innerhalb der Sprechertexte möglich macht. Der gewünschte Suchterm wird zudem in den Audio-Snippets gehighlightet. Kommerzielle Anwendungen Für die Suche nach Bildern bieten die großen kommerziellen Suchmaschinen wie Google (http://video.google.de), Yahoo (http://de.video.search.yahoo.com) und Bing (http://www.bing.com/videos) eigene Plattformen an, auf denen der Nutzer das Suchergebnis mit medienspezifischen Parametern eingrenzen kann (z. B. Format, Auflösung). Bei Google ist zudem die Bildrecherche nach visueller Ähnlichkeit möglich, allerdings nur mit zuvor dort AV-Portal für wissenschaftliche Filme: Analyse der Nutzerbedarfe 249 gefundenen Bildern. Eine Ähnlichkeitssuche, in die Nutzer durch Hochladen auch eigene Bilder einbeziehen können, bieten GazoPa (http://www.gazopa.com/) und die Betaversion von Retrievr (http://labs.systemone.at/retrievr). Beide verfügen zudem über die Möglichkeit einer Query by Sketch. Firmen wie Betaface (http://www.betaface.com/) und seit kurzem auch Picasa (http://picasa.google.de/) haben sich auf die Suche per Gesichtserkennung spezialisiert. Picasa nutzt diese Technik um die Fotoverwaltung mit automatischer Bilderkennung und -klassifizierung zu ergänzen und bietet zudem die Möglichkeit des Geotaggings an. TinEye (http://www.tineye.com) erlaubt den Upload eigener Bilder, alternativ zur Eingabe einer Internetadresse als Bildquelle und findet ausschließlich solche, die dem Original entsprechen. Damit lassen sich beispielsweise Urheberrechtsverletzungen aufspüren. Voxalead News (http://voxaleadnews.labs.exalead.com/) sucht in den gesprochenen Inhalten von Radio- und Fernsehsendungen und ermöglicht so eine innovative Navigation innerhalb eines Videos. Der erfolgreiche Transfer von ausgewählten Retrieval-Lösungen aus der Forschung in die Praxis stellt die Grundlage für die Entwicklung des geplanten AV-Portals an der TIB dar. Nutzerbedarfe AV-Portal Im Frühjahr 2010 hat die TIB gemeinsam mit einer auf Usability spezialisierten Agentur eine Analyse durchgeführt, die die Anforderungen der o.g. Zielgruppen in Bezug auf Sammlung und Bereitstellung von wissenschaftlichen AV-Medien in der TIB ermitteln sollte und die folgende Maßnahmen umfasste: • Experteninterviews mit Vertretern aus wissenschaftlichen Instituten, Filminstituten, Bibliotheken und Hochschulen • Umfeldanalyse: Recherche öffentlich verfügbarer AV-Portale, inhaltsbasierter Suchmethoden und Visualisierung • Entwicklung eines prototypischen AV-Portals auf Basis der Ergebnisse • Fokusgruppen mit Benutzern aus den Zielgruppen 250 Margret Plank Experteninterviews Die Experteninterviews wurden telefonisch durchgeführt und dauerten ca. 60 Minuten. Die 6 Teilnehmer wurden gebeten, aus ihrer Sicht relevante Verfahren, Techniken und Aktivitäten aus dem Videoretrieval zu beschreiben und deren Einsatz im geplanten Vorhaben der TIB zu bewerten. Die Experten sehen einen großen Bedarf in einem wissenschaftlich ausgerichteten AV-Portal in Deutschland und empfehlen u. a. folgende Verfahren und Techniken anzuwenden bzw. in den Prototyp zu integrieren: • Kundenfreundliche Benutzeroberfläche • Verknüpfung der Videos mit dem Kontext, z.B. Volltexte oder Forschungsdaten bzw. medienübergreifende Suche • Leistungsstarke textuelle Suchfunktionen (einfache Suche, erweiterte Suche) • Visuelle Suchfunktionen (z.B. ähnlichkeitsbasierte Suche) • Semantische Suche • Visuelles Inhaltsverzeichnis auf der Basis von Shot-/Szenendetektion • Faceted Search • Navigation über den Audiotext auf der Basis von Spracherkennung • Kanäle (Fächer, Institutionen etc.) analog zu YouTube • Einfaches Hochladen eigener Videos inkl. Vergabe von Nutzungsrechten • Benutzergenerierte Web 2.0-Dienste wie Tagging und Bewertung Fokusgruppen mit Benutzern aus den Zielgruppen Auf der Basis der o.g. Experteninterviews in Verbindung mit einer Umfeldanalyse zum Thema „Öffentlich verfügbare AV-Portale“ wurde ein Prototyp entwickelt, der mit zwei Fokusgruppen aus den Bereichen Physik und Maschinenbau von insgesamt 15 Teilnehmern diskutiert und anschließend optimiert wurde (vgl. Plank 2010). Analog zu den Zielgruppen der TIB wurden die Teilnehmer aus den Bereichen Industrie, Forschung und Lehre rekrutiert und setzen sich folgendermaßen zusammen: Wissenschaftliche Mitarbeiter (3), Doktoranden (2), LfbA (1), Akademischer Oberrat (1), Studenten (3), Technischer Angestellter (1), Dipl. Bibliothekarin (1), Ingenieur (1), ohne Angabe (2) Es folgen die wichtigsten Ergebnisse in der Übersicht: AV-Portal für wissenschaftliche Filme: Analyse der Nutzerbedarfe 251 Anreize und Voraussetzungen für die Nutzung des Portals Die 15 Teilnehmer sehen in dem Portal einen großen Mehrwert für ihre wissenschaftliche Arbeit. Sie erwarten einen großen bereits vorhandenen Grundstock an AV-Medien, wobei die Qualität der Inhalte entscheidend ist. Die Referenzierbarkeit der selbsteingestellten Medien durch die Vergabe eines DOI stellt einen großen Anreiz dar. Eine überregionale Wahrnehmung der Medien sowie die Möglichkeit für das eigene Institut/Institution zu werben wird positiv vermerkt. Eine Kontrollinstanz, die eingestellte Medien und Benutzeraktionen überprüft, wird ebenso erwartet wie die Verknüpfung der AV-Materialien mit anderen Medien im TIB-Suchportal GetInfo. Suchmöglichkeiten (Text, Bild, Zeichnung) Auf der Startseite werden über die Möglichkeit einer gezielten Suche hinaus Zugänge wie z.B. Stöbern, Einstieg nach Themen/Zielgruppen erwartet. Weiterhin wünschen die Nutzer die Integration von Kanälen analog zu YouTube (http://www.youtube.de) sowie eine sprachenübergreifende Suchmöglichkeit. Die Teilnehmer zeigten sich sehr offen für innovative Suchmöglichkeiten (Suche mit Bild, Suche mit Zeichnung), aber würden diese gern mit textueller Suche kombinieren. Zum Video gehörige Daten und Informationen Alle gängigen Videoformate werden erwartet (wmv, avi, …). Die Information darüber, in welchem Format ein Video vorliegt, sollte bereits in der Ergebnisliste ersichtlich sein. Neben der Möglichkeit den Source Code bei Java-Applets einsehen zu können, würden es die Benutzer begrüßen, wenn zu erkennen ist, mit welcher Software eine Simulation erstellt wurde und ein Link zu der Software bereitgestellt würde. Es wird gewünscht, die Ergebnisliste nach Dateigröße sortieren zu können, auch wenn diese für die Benutzer erst spät im Recherchevorgang eine interessante Information ist. Wichtige Detailinformationen zu den AV-Medien sollen zentral auf der Detailseite eines Videos ersichtlich sein. Navigation innerhalb eines Videos Die Möglichkeit einer Suche bzw. der Navigation im Video über den abgebildeten Audiotext erscheint den Nutzern sehr interessant. Dasselbe gilt für die Navigation über ein visuelles Inhaltsverzeichnis. Eine manuelle KapitelSegmentierung durch die Einstellenden wäre ebenfalls interessant. Auf diese Weise könnte der Hochladende selbst entscheiden, in welche Kapitel er sei- 252 Margret Plank nen Film einteilen würde. Weiterhin möchten die Teilnehmer auch von einer Folie in einer Präsentation an die entsprechende Stelle im Video springen können. Filter Faceted Search Der Aufbau des Filters wurde von allen Teilnehmern begrüßt. Insbesondere die Möglichkeit uninteressante Kategorien zuklappen zu können und dafür mehr Platz für relevante Kategorien zu haben, wurde positiv bewertet. Sprachoptionen sollten nicht im Filter, sondern in der Suche untergebracht werden. „Relevanz“ als Begriff im Dropdown war den Benutzern unklar und „Verfügbarkeit“ im Sinne von rechtlicher Verfügbarkeit wird als Filterkategorie erwartet. Um die Seriosität der Videos zu erkennen, wünschten sich die Teilnehmer die Möglichkeit, Ergebnislisten nach Quellen zu filtern. Videos abspielen und bearbeiten Die Benutzer wünschen sich die Möglichkeit, ein Video nicht nur in der Standard- und in der Vollbild-Ansicht abspielen zu können, sondern wie bei YouTube zusätzlich mindestens eine Zwischenstufe zur Auswahl zu haben. Bezüglich der Online-Bearbeitung von Videos würde es den Teilnehmern ausreichen von einem Video eine Szene auswählen zu können, die sie als Ausschnitt herunterladen und somit von einem langen Video nicht die volle Datenmenge auf ihrem Rechner speichern müssen. Ein vollständiges Schnittwerkzeug zum Neu-Kombinieren von Szenen wird nicht gewünscht. Benutzergenerierte Inhalte/Web 2.0 Die Nutzung von Social Networks wie Facebook (http://www.facebook.com) etc. scheint vorrangig für Studierende interessant zu sein, die auch eine Verknüpfung mit E-Learning-Plattformen wie StudIP wünschen. Die Produzenten sollen ihr eigenes Video mit Tags versehen können, aber ein Benutzer soll auch Schlagwörter ergänzen können. Schlagwörter, die vom Autor oder Bereitsteller des Videos vergeben wurden, sollen von anderen unterscheidbar sein. Beim Thema Tagging wurde außerdem noch einmal die Notwendigkeit einer Kontrollinstanz diskutiert: „Nutzertags sind wichtig, sollten aber nicht ungefiltert und unkontrolliert vergeben werden können.“ Die Teilnehmer waren zudem gegenüber den meisten reinen Community-Features (wie Profile, Vernetzung mit anderen etc.) eher skeptisch eingestellt. Darüber hinaus erschloss sich den Teilnehmern zunächst nicht, ob mit „bewerten“ die Aufzeichnungsqualität eines Videos oder die Anschau- AV-Portal für wissenschaftliche Filme: Analyse der Nutzerbedarfe 253 lichkeit des Inhalts gemeint ist. Einig waren sich die Teilnehmer darin, dass eine einzige Bewertungskategorie (beispielsweise durch die Vergabe von Sternen) zu grob für die Komplexität eines Films sei und man deshalb die Bewertung aufteilen sollte (z.B. Bewertung des Inhalts, Bewertung der technischen Qualität etc.). Optimierter Prototyp Auf Basis der Ergebnisse der Fokusgruppen wurde der Prototyp optimiert. Es folgt ein Überblick über die nutzerseitigen Funktionen des geplanten AVPortals: • Von zentraler Bedeutung ist die textbasierte Suche (z.B. nach Autor, Titel, Abstract), die sich bei Bedarf zusätzlich anhand von vordefinierten Kategorien und Optionen weiter einschränken lässt. Neben der gezielten Suche ist der Sucheinstieg auch über Stöbern möglich. Nutzer finden die AV-Medien nach Fachgebieten sortiert oder können sich die neuesten, bestbewertesten, meistgesehenen oder zuletzt angesehenen AV-Medien anzeigen lassen. Zudem kann das Ergebnis anhand von Filtern eingeschränkt werden (z.B. nach Fächern, Themen, Formaten, rechtlicher Verfügbarkeit, Institutionen, Medientypen, Autoren, Verlage, Erscheinungsjahre, Datenbanken). In einer Ausbaustufe soll das AV-Portal auch die Suche nach ähnlichen AV-Medien anhand eines Bildes oder Screenshots möglich machen (Query by Example). • Die Trefferliste zeigt neben Detailinformationen zum AV-Medium auch Bewertungen und Rezensionen anderer Nutzer. Zusätzlich kann über eine TagCloud in verwandten Themen gesucht werden. Mithilfe eines visuellen Inhaltsverzeichnisses kann der Nutzer im Video navigieren und die gesuchte Bildsequenz gezielt ermitteln. Alternativ soll über den visualisierten Sprechertext mittels Suchterm-Highlighting im Video navigiert werden können. Angezeigt wird das Video über einen Preview Player, der einen Vollbildmodus bietet. Zudem werden die Treffer aus dem TIBFachportal GetInfo angezeigt, wie z.B. digitale Volltexte und Forschungsdaten. Die AV-Medien werden sequenzgenau mit Digital Object Identifiers (DOI) versehen, sodass deren Referenzierbarkeit gewährleistet ist. • Registrierte Nutzer können eigene AV-Medien in das Portal hochladen, sowie deren Kapitel entweder manuell oder auch automatisch segmentieren und mit einem Logo/Wasserzeichen versehen. 254 Margret Plank Weitere Schritte Mit der Entwicklung eines innovativen AV-Portals an der TIB soll ein Beitrag dazu geleistet werden, den wachsenden Bestand der AV-Medien optimal zu erschließen, effizient zu verwalten und nutzergerecht zugänglich zu machen. Um die Anforderungen und Bedürfnisse aller Benutzergruppen optimal zu bedienen und zu berücksichtigen, wird die Entwicklung auch weiterhin mit Methoden des benutzerzentrierten Designs begleitet. So sollen in der Umsetzungsphase umfangreiche Usabilitytests in mehreren Iterationsstufen stattfinden. 2011 ist ein teilfunktionaler Prototyp geplant, 2012 eine Pilotphase und bis Ende 2013 die Überführung in die Systemumgebung der TIB. Abbildung 1: Optimierter Prototyp (Startseite) http://www.tib.uni-hannover.de/fileadmin/avportal-wireframe/2010-06-14_Wireframes_Videoportal_Start.html AV-Portal für wissenschaftliche Filme: Analyse der Nutzerbedarfe 255 Literaturverzeichnis Chamlers, M.; Chitson, P. (1992). Bead: Explorations in Information Visualization. In: Belkin, N. (Hg.): SIGIR ’92. Hearst, M. (2000). User Interfaces and Visualization. In: Baeza-Yates, R.; RibeiroNato, B. (Hg.): Modern information retrieval. Harlow: Addison-Wesley. Lews, M. S.; Sebe, N.; Djeraba, C.; Jain, R. (2005): Content-based Multimedia Information Retrieval: State of the Art and Challenges. In: ACM transactions on multimedia computing, communications, and applications. TOMCCAP. New York, NY: ACM, Bd. 2/1, S. 1–19. Marques, O.; Furht, B. (2002): Content-based image and video retrieval. Boston: Kluwer Acad. Publ. Petkovic, M.; Jonker, W. (2004): Content-based video retrieval. A database perspective. Boston, Mass.: Kluwer Acad. Publ. Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY: ACM Press. Internetquellen (Verifizierungsdatum: 17. Januar 2011) Betaface http://www.betaface.com/ Bing Bilder- und Videosuche www.bing.com/images und http://www.bing.com/videos Fraunhofer HHI http://www.hhi.fraunhofer.de/ und http://www.shotdetection.de Fraunhofer IAIS http://www.iais.fraunhofer.de/mmprec.html GazoPa http://www.gazopa.com Google Bilder- und Videosuche http://images.google.de und http://video.google.de Kompetenzzentrum für multimediale Objekte http://www.tib-hannover.de/de/die-tib/kompetenzzentrum-fuer-multimediale-objektekmo/ OSTI (Office of Scientific and Technical Information) http://www.msravs.com/audiosearch_demo/ Picasa http://picasa.google.de/ Plank, M. (2010) Abschlussbericht: Anforderungsspezifikation AV-Portal für wissenschaftliche Filme, Technische Informationsbibliothek (TIB) http://www.tib-hannover.de/fileadmin/kmo/Abschlussbericht_Studie_AVPortal.pdf Retrievr http://labs.systemone.at/retrievr Technische Informationsbibliothek (TIB) http://www.tib-hannover.de/ 256 Margret Plank TIB Prototyp AV-Portal http://www.tib.uni-hannover.de/fileadmin/av-portal-wireframe/2010-0614_Wireframes_Videoportal_Start.html TinEye http://www.tineye.com Voxalead News http://voxaleadnews.labs.exalead.com/ Yahoo Bilder- und Videosuche http://de.images.search.yahoo.com und http://de.video.search.yahoo.com Significant properties digitaler Objekte 257 Significant properties digitaler Objekte Ergebnisse aus Fallstudien Achim Oßwald Fachhochschule Köln – Institut für Informationswissenschaft Claudiusstraße 1, 50678 Köln [email protected] Zusammenfassung Im Rahmen von 30 Fallstudien wurden von Praktikern aus dem Bibliotheksund Informationsbereich – unter Bezugnahme auf den Bedarf zukünftiger Nutzergruppen aus ihrem Arbeitsumfeld – wesentliche Eigenschaften digitaler Objekte für die Langzeitarchivierung ermittelt. Diese Ergebnisse wurden mit den im Rahmen des InSPECT-Projektes ermittelten Objekttypen und den für sie als wesentlich erachteten Eigenschaften verglichen. Die Ergebnisse der Fallstudien zeigen, dass für die Langzeitarchivierung solcher Objekte, die von InSPECT in Betracht gezogenen Objekttypen erweitert bzw. differenziert werden sollten. Die Definition der wesentlichen Eigenschaften dieser Objekttypen kann nach den vorliegenden Ergebnissen noch nicht als stabil bezeichnet werden. Abstract Thirty case studies have been conducted by practitioners in the Library and Information Science sector to identify significant properties of digital objects relevant to designated communities of their working environment. The results have been compared with object groups and the significant properties assigned to them within the InSPECT project. Results show that types of objects considered for digital preservation by InSPECT should be expanded and differentiated. In addition, the number and definition of significant properties assigned to these types of objects is not settled and still has to be optimized. 258 Achim Oßwald Ausgangssituation und Fragestellungen Die Anzahl und Varianten digitaler Objekte im beruflichen und privaten Umfeld wächst rasant. Digitale Daten- und Dokumentsammlungen sowie digitale Kommunikations- und Geschäftsprozesse dominieren in Wissenschaft und Praxis. Ihre Bewahrung im Sinne von mittel- bzw. langfristiger Speicherung erhält zunehmend Bedeutung für die Dokumentation von Forschung und Praxis, konkret als Grundlage des intersubjektiven Nachweises über Aktivitäten und ihre Ergebnisse. Wie im klassischen Archivwesen, bei dem lediglich ca. 1/10 der den Archiven angebotenen analogen Objekte langfristig archiviert werden, so ist auch vor der Langzeitarchivierung (LZA) digitaler Objekte eine Reduktion auf bestimmte Objektgruppen oder Objekttypen sinnvoll. Für digitale Objekte muss zudem entschieden werden, welche konstituierenden bzw. charakterisierenden Eigenschaften für eine langfristige1 Archivierung und wieder erfolgende Nutzung notwendig sind. Dabei wird nach aktuellem Stand der Forschung – z.B. im Rahmen des InSPECT-Projektes (Investigating the Significant Properties of Electronic Content Over Time; vgl. Grace/Knight/Montague 2009, 5) – davon ausgegangen, dass diese ganz wesentlich vom erwarteten Nutzungskontext in einem bestimmten organisationellen Rahmen beeinflusst werden. Im Mittelpunkt der LZA digitaler Objekte stehen daher zwei Fragen • Welche digitalen Objekte sollen überhaupt für die LZA ausgewählt werden? • Welche Eigenschaften dieser digitalen Objekte sind wesentlich und daher unbedingt zu bewahren, um den Inhalt und die Wahrnehmbarkeit dieser Objekte auch zukünftigen Nutzern möglichst authentisch zugänglich zu machen (sog. performance2). Gegenstand des nachfolgend vorgestellten Projektes sind beide Fragen. Im Rahmen eines auf drei Zyklen angelegten Forschungsprojektes wählen in 1 Neben der Möglichkeit, hierfür Jahresspannen von 20, 50 oder 100 Jahren zu definieren, besteht die Option, die Definition aus Liegmann/Neuroth (2010) aufzugreifen: „,Langzeit‘ ist die Umschreibung eines nicht näher fixierten Zeitraumes, währenddessen wesentliche, nicht vorhersehbare technologische und soziokulturelle Veränderungen eintreten; Veränderungen, die sowohl die Gestalt als auch die Nutzungssituation digitaler Ressourcen in rasanten Entwicklungszyklen vollständig umwälzen können.“ (Kap. 1:2). 2 Hier wie auch nachfolgend werden – soweit zur Präzisierung angebracht – die in der Fachdiskussion genutzten gängigen englischsprachigen Bezeichnungen verwendet. Significant properties digitaler Objekte 259 ihrem beruflichen Kontext damit potenziell beauftragte Praktiker aus dem Bereich Library and Information Science (LIS) LZA-relevante Objekte aus. Danach spezifizieren sie für diese aktuelle und zukünftige, kontextbezogene Nutzergruppen (designated communities; DC) und auf dieser Grundlage die für die jeweiligen Objekte wesentlichen Eigenschaften (significant properties; SP), um langfristig eine adäquate Nutzung zu ermöglichen. Die Ergebnisse werden unter Bezugnahme auf den aktuellen Forschungsstand des InSPECT-Projektes zu den SP digitaler Objekte analysiert und bewertet. Das Konzept der significant properties und designated communities Im Rahmen der Forschung zur LZA3 digitaler Objekte ist allgemein anerkannt, dass die wesentliche Eigenschaften (significant properties) eines digitalen Informationsobjektes so bewahrt werden sollten, dass dieses zukünftig als authentisches Objekt zugänglich und nutzbar sein wird. Dies setzt u.a. die Klärung voraus, welche Eigenschaften als wesentlich anzusehen sind. Die Ermittlung dieser wesentlichen Eigenschaften erfolgt unter Berücksichtigung des aktuellen und voraussichtlichen zukünftigen Nutzungskontextes sowie der jeweils zu spezifizierenden Nutzergruppen (designated communities). Das Konzept der significant properties wurde erstmals im CEDARS Projekt (The CEDARS Projekt Team 2001) herausgearbeitet und in den letzten Jahren im Rahmen des InSPECT-Projektes (Wilson 2007 bzw. Grace/Knight/ Montague 2009) konkretisiert. Im InSPECT-Projekt war versucht worden, für bestimmte Objekttypen (konkret: Audio-Dateien, E-Mails, Raster-Bilder und strukturierter Text) jeweils eine Liste von SP zu ermitteln, die für eine intersubjektive DC relevant sein würden. Hierfür wurde eine idealtypische, aufwendige Methode für den Bewertungs- und Entscheidungsprozess mit unterschiedlichen Interessensgruppen entwickelt (vgl. ebd. 5–14).4 Der In3 Für einen grundlegenden Überblick zum Thema Langzeitarchivierung vgl. Neuroth et al. 2010. 4 Zur Orientierung der Anwender werden die zu ermittelnden SP fünf Kategorien (content, context, rendering, structure und behavior; vgl. Grace/Knight/Montague 2009, 10) zugeordnet. Für die nachfolgend skizzierten Fallstudien dienten diese Kategorien und damit verbundene Erläuterungen den Probanden als Orientierung. 260 Achim Oßwald SPECT-Ansatz zielt insofern auf jeweils grundsätzlich relevante SP für ausgewählte Objekttypen – basierend auf der dort entwickelten Methodik, die organisationell bedingte Sichten der designated communities zu verallgemeinern versucht. Einen anderen methodischen Schwerpunkt setzt der Planets-Ansatz5, bei dem SP stärker kontext- und fallbezogen ermittelt werden. Hierfür wurde das Tool PLATO entwickelt, mit dem der Prozess des Preservation Planning und damit in Teilbereichen auch die Ermittlung der SP und der entsprechenden DC realisiert werden kann. Auch wenn für das Design der vorliegenden Fallstudien dieses Tool aus organisatorischen Gründen nicht in Frage kommt, so steht der hier gewählte methodische Ansatz eher dem Planets-Vorgehen nahe. Im Wesentlichen wird dies dadurch erkennbar, dass der Einzelfallbezug und damit die organisations- und anwendungsfallspezifischen Aspekte bei der Ermittlung von SP stärker zum Tragen kommen (Planets 2010, 15). Zielsetzung, Methodik und Studiendesign Die Ergebnisse des InSPECT-Projektes werden in mehrfacher Hinsicht mit den Analyseergebnissen aus dem hier dokumentierten Projekt in Bezug gesetzt. Ziel ist es zu ermitteln, • inwieweit die von InSPECT gewählten Objekttypen denen entsprechen, die von LIS-Praktikern6 (s.u.) in einer, weiteren LZA-Maßnahmen vorgelagerten, Auswahl in Betracht gezogen werden. • inwieweit die von den an der Fallstudie teilnehmenden Berufspraktikern ermittelten SP für jene Objekttypen, die auch von InSPECT in den Focus genommen wurden, mit den von InSPECT als relevant ermittelten SP übereinstimmen. 5 Planets (Preservation and Long-term Access http://www.planets-project.eu/); vgl. Planets 2010. through Networked Service; 6 Teilnehmerinnen und Teilnehmer des berufsbegleitenden Masterstudiengangs „Bibliotheks- und Informationswissenschaft“ (Library and Information Science) am Institut für Informationswissenschaft der FH Köln. Die Akteure haben mehrjährige Berufserfahrung im LIS-Bereich und handeln vor dem Hintergrund einer breit angelegten LZAEinführung incl. wesentlichen Informationen zum methodischen Vorgehen. Significant properties digitaler Objekte 261 Bislang wurden lediglich Fallstudien für ausgewählte Objekttypen (z.B. Vektor-Grafiken (Coyne et al. 2007), Software (Matthews et al. 2008)) oder für ausgewählte Nutzungsszenarien durchgeführt. Dabei wurde unterstellt, dass LZA-Experten in mitderLZA beauftragten Einrichtungen die Handelnden sind. In der LZA-Praxis ist – u.a. auch aus Kostengründen – allerdings davon auszugehen, dass nicht nur in professionellen LZA-Institutionen, sondern aus pragmatischen Gründen (Budget, Aufwand, Delegation) in beliebigen Organisationen andere Personen mit der Ermittlung und Festlegung von DC und SP betraut werden. Im günstigsten Fall sind dies im Themenbereich LZA geschulte LIS-Praktiker. Insofern ist anzunehmen, dass die organisationsinterne Abstimmung mit anderen Akteuren nur bedingt so iterativ und elaboriert erfolgt, wie dies im Rahmen idealtypischer methodischer Ansätze angenommen wird. Die Ergebnisse tragen damit zur Überprüfung der Praxisrelevanz der InSPECT-Projektergebnisse bei und dienen ihrer methodischen Überprüfung. Im Rahmen der hier vorgestellten Fallstudien wählten Berufspraktiker einen LZA-relevanten Objekttyp aus ihrem beruflichen Kontext aus und legten fest, wer dessen aktuelle sowie zukünftige DC ist (in 5, 20 und 100 Jahren) und welche SP sich aus dieser Konstellation für das konkrete digitale Objekt und den Objekttyp ergeben. Der Parameter „Kosten“ wurde zur Vereinfachung bewusst nicht einbezogen. Die Ergebnisse werden mit den InSPECTErgebnissen verglichen und bewertet. Um Zufälligkeiten zu relativieren, die sich aus den Ergebnissen einer Fallstudiengruppe ergeben, ist das Projekt auf drei Zyklen angelegt. Die Ergebnisse des ersten Zyklus, der im Wintersemester 2009/10 erfolgte, sind Gegenstand dieses Beitrags. Sie erlauben erste Trendaussagen. Ergebnisse Objekttypen im Überblick Von den 30 Teilnehmern wurden entsprechend dem Studiendesign in Summe 30 Objekte aus ihrem Arbeitskontext gewählt. Dabei wurden folgende der (an Dateiformaten orientierten) InSPECT-Objekttypen ausgewählt: 262 Objekttyp Anzahl Achim Oßwald AudioDatei 1 E-Mail 2 RasterBild 3 strukturierter Text7 4 Summe 10 Abb. 1: Anzahl der Übereinstimmungen mit den InSPECT-Objekttypen Die weiteren 20 ausgewählten Objekte verteilen sich auf drei Objekttypen: Datenbanken (1 Nennung), Präsentationen (2) sowie PDF-Dateien (17), wobei zwischen PDF und PDF/A-Varianten unterschieden wurde. Beispielhaft seien aus dieser Typgruppe genannt: Autorenskripte, Abschlussarbeiten, Geschäftsberichte oder Flyer. Objekttypen in der Einzelbetrachtung Nachfolgend werden für die vier von InSPECT (vgl. Grace/Knight/Montague 2009) definierten und untersuchten Objekttypen jeweils die dort genannten SP (in Originalbezeichnung) aufgelistet. Die von den Fallstudienteilnehmern bei ihren Objekten als relevant erachteten SP sind jeweils kursiv markiert (Häufigkeit der Nennung bei > 1 in Klammern). Audio-Datei 1. Duration 2. Bit depth 3. Sample rate 4. Number of channels 5. Sound field 6. Sound map location for each channel 7. Description 88. Originator 99. OriginatorReference 10. OriginationDate 11. OriginationTime 12. Coding History 13. Quality Report 14. Cue Sheet Sieben der 14 von InSPECT vorgeschlagenen SP wurden gewählt, eine weitere Eigenschaft, ein „Identifier“ (ISRC; International Standard Recording Code) wurde ergänzend vorgeschlagen.8 7 Unter Einbeziehung von Programmcode, OAI-Metadatensätzen und Wiki-Seiten, die allerdings wegen der strukturellen Abweichungen im Abgleich mit den InSPECT-SP (kursive Eintragungen; s.u.) nicht mitgezählt wurden. 8 Bezogen auf das Objekt Musik-CD wurden noch ergänzt: Angaben zur Struktur der CD sowie der Position eines Tracks in der Abfolge der Tracks. Significant properties digitaler Objekte 263 E-Mail 1. Local-part (Fallstudie: Sender) 2. Domain-part (Fallst: Rezipient) 3. Relationship 4. Subject (2) 5. Trace-field 6. Message body with no mark-up 7. Attachments (2) Sofern eine E-Mail im Kontext weiterer Mails archiviert werden soll, schlägt InSPECT noch „Message-ID“ und „References“ vor. Sechs der sieben InSPECT-SPs wurden gewählt. Ergänzend wurde vorgeschlagen: „Format“ (wird bei InSPECT nicht als gesonderte SP geführt, aber genannt), „Datum“ sowie „Schlagwörter“, „Verschlüsselung“ (ja/nein; wie?), „Empfangsbestätigung“ (angefordert/erhalten) und „Hyperlinks“ (2 Nennungen). Raster-Bilder 1. Image Width 2. Image Height 3. X Sampling Frequency 4. Y Sampling Frequency 5. Bits per sample 6. Samples per pixel 7. Extra samples Vier der sieben vorgeschlagenen InSPECT-SP wurden gewählt. Ergänzend wurden vorgeschlagen: Beschreibende Metadaten (Fotograf; Inhalt; Ort und Anlass der Aufnahmen; Format, Farbraum (2); Titel (sofern vorhanden)), strukturelle Metadaten (z.B. Abfolge einzelner Bilder bei mehreren Dateien, die ein Objekt konstituieren; Exif-Daten) und administrative Metadaten (Erstelldatum; Bildrechte; Veränderungen; Signatur; Verlinkung auf weitere, mit dem digitalen Objekt verbundene Objekte/Dienstleistungen) incl. Persistent Identifier (konkret: Uniform Resource Name) zur weiteren Beschreibung der Relation zwischen digitalem Objekt und dessen Metadaten. Strukturierter Text 1. Title 2. Creator 3. Date 4. Keywords 5. Rights 6. Div 7. Span 8. Language 9. Paragraph 10. Line break 11. Headings 12. Emphasis 13. Bold 14. Italics 15. Underline 16. Strong emphasis 17. Strikethrough 18. Horizontal Rule 264 19. Inserted text 20. Deleted text 21. Samp 22. Cite 23. Defined Terms (DFN) 24. Code 25. Abbreviation 26. Acronym 27. Quotations 28. Subscript/Superscript Achim Oßwald 29. Address 30. Button 31. List Elements 32. Table Elements 33. Image 34. Link 35. Applet 36. Frame 37. Frameset 123456 25 von 37 der InSPECT-SP 9 wurden genannt. Ergänzend wurden (u.a. mit Referenz auf den Objekttyp Wiki): „Folgeautor“, „Autoren-ID“, „Versionsnr.“, „Seiten-ID“ und „Seitenname“, „enthaltene Elemente“, „Länge“, „Verknüpfungen“, „Formatreferenz“, „Zugriffsbeschränkungen“. Zusammenfassung der Fallstudienergebnisse Die Praktiker aus dem LIS-Bereich ermittelten im Rahmen der Fallstudie im Vergleich zu InSPECT mindestens drei weitere, als relevant bewertete Objekttypen. Vor dem Hintergrund der von InSPECT angestrebten prototypischen Anwendung und damit auch Begrenzung der im Projekt entwickelten Methodik war dies nicht anders zu erwarten. Auffallend ist jedoch, dass PDF(/A)-Dateien von InSPECT nicht einbezogen worden waren. Die in den Fallstudien ausgewählten SP jener Objekttypen, die auch von InSPECT ausgewählt wurden, weichen von den SP bei InSPECT z.T. deutlich ab. In beiden Untersuchungsbereichen bringen die Praktiker insofern eine fachlich andere Perspektive ein, als sie im Rahmen des Projektes InSPECT zum Tragen kommt.10 Da die von InSPECT ermittelten SP-Elemente von den Praktikern nur z.T. als signifikant ausgewählt wurden, sind die von InSPECT ermittelten objekttyp-spezifischen Standard-SP zu relativieren. Dies könnte ein Indiz für 1 2 3 4 5 6 99 Die SP Nr. 6, 21, 22 und 30 werden leider in der Quelle unzureichend erläutert. 10 In einer ergänzenden Studie wäre zu ermitteln, worin dies begründet ist, z.B. in den Gegebenheiten der organisationellen Umgebung, unzureichenden Einbeziehung der DC, Subjektivität der Fallstudienteilnehmer oder in anderen Gründen. Significant properties digitaler Objekte 265 den bislang unterschätzen Einfluss des organisationellen Kontextes, aber auch der Pragmatik von Praktikern sein, deren Kernaufgabe nicht LZA ist. Deutlich erkennbar variieren die genannten und ergänzten Angaben zu SP je nach gewähltem Objekt gerade aus dem Objektbereich „strukturierter Text“. So wird bei InSPECT z.B. die Problematik von in gesonderte Steuerdateien (z.B. Stylesheets, Dokumenttypdefinitionen) ausgelagerten Strukturinformationen (z.B. für XML- oder HTML-Dokumente) nicht angesprochen; ebenso wenig neue Formen der Textrepräsentation wie im Fall von Wikis (vgl. o.) und den damit verbundenen weiteren SP.11 Schlussfolgerungen Mit den von InSPECT ausgewählten Objekttypen und darauf bezogenen Gruppen an significant properties wird nachweislich nur ein Teil jener Objekttypen und Bedarfssituationen abgedeckt, die von Praktikern als LZArelevant ermittelt und beschrieben werden. Die in den Fallstudien ermittelten Objekttypen und deren SP gehen hinsichtlich Vielfalt wie auch Granularität über das von InSPECT Ermittelte hinaus. Offensichtlich gibt es hier einen über die von InSPECT aus pragmatischer Sicht begrenzte Anzahl von Objekttypen hinausgehenden Bedarf. Vermutlich auch deshalb wurde von den Autoren des InSPECT-Abschlussberichtes explizit dazu aufgefordert, in wieteren Fallstudien zur Absicherung der InSPECT-Ergebnisse beizutragen (Grace/Knight/Montague 2009, 23). Insbesondere für den Bereich von aus Office-Dokumenten erstellten PDFDokumenten besteht noch Ermittlungs- und Aufklärungsbedarf hinsichtlich der SP von im Format PDF(/A) verfügbaren Dokumenten. Dies auch deshalb, weil sie unter Rahmenbedingungen, wie sie mit den Fallstudien erfasst wurden, einen erheblichen Teil der in der Berufspraxis zu archivierenden Objekte ausmachen könnten. Um dieses Zwischenergebnis aus dem ersten Durchlauf des auf drei Zyklen angelegten fallstudienbasierten Projektes auf eine breitere Basis zu stellen, bedarf es einer erhöhten Anzahl von weiteren Probanden und Fall11 Was dafür spräche, den Objekttyp Wiki gesondert zu führen und nicht dem Typ „strukturierter Text“ zuzuordnen. 266 Achim Oßwald studien, mit denen weitere organisationelle Kontexte und daraus entstehende Bedarfe erfasst werden können. Ein weiterer Ansatz zur Klärung der Kernfrage, ob LZA-relevante Eigenschaften digitaler Objekte verallgemeinerbar sind und falls ja, welche im Rahmen der LZA unbedingt zu bewahren sind, könnte in der Begrenzung weiterer Fallstudien auf einen Objekttyp liegen. So könnte aus der Vielfalt von SP, die von den Fallstudienteilnehmern ermittelt und als wesentlich ausgewählt werden, ein praxisfundierteres Kernset an SP ermittelt werden, das dann wiederum unter Bezugnahme auf typische DC nach Fallgruppen facettiert werden könnte. Ohne solche verdichteten Fallgruppen und Kernsets an SP bleibt die Ermittlung von SP ein vorzugsweise von organisationellen Rahmenbedingungen und dem persönlichen Fach-Know-how der Akteure beeinflusster Ansatz. Dieser wäre zudem stark einzelfallbezogen und damit kostenträchtiger (vgl. z.B. die Erfahrungen mit PLATO) als die Empfehlung für ein stabiles Kernset an SP. Dies könnte dazu führen, dass LZA-interessierte Anwender aus Mangel an Kenntnissen und Finanzmitteln unzureichende Vorarbeiten für die LZA vornehmen und somit den Gesamterfolg der LZA gefährden. Stattdessen gilt es, durch weitere Analysen dieses wie auch weiterer Ansätze bei Praktikern eine Sensibilisierung für Fragen und Maßnahmen zur Vorbereitung der Langzeitarchivierung digitaler Objekte zu entwickeln. Literaturverzeichnis12 The Cedars Project Team (2001). The Cedars Project Report, March 2001. http://www.webarchive.org.uk/wayback/archive/20050410120000/http://www.leeds.a c.uk/cedars/pubconf/papers/projectReports/CedarsProjectReportToMar01.pdf Coyne, M. et al. (2007): The Significant Properties of Vector Images, o.O. <Oxford>, Version 4.3, 27.11.2007. http://www.jisc.ac.uk/media/documents/programmes/preservation/vector_images.pdf Grace, S.; Knight, G.; Montague, L. (2009). InSPECT Final Report (21.12.2009), London http://www.significantproperties.org.uk/inspect-finalreport.pdf 12 Die Webadressen aller genannten Quellen wurden zuletzt am 6.1.2011 aufgerufen. Significant properties digitaler Objekte 267 Liegmann/Neuroth (2010). Einführung. In: Neuroth, H. et al.: [Ed.] (2010): nestor Handbuch – Eine kleine Enzyklopädie der digitalen Langzeitarchivierung (Version 2.3). urn:nbn:de:0008-2010030508 bzw. http://nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_390.pdf Matthews, B. et al. (2008): The Significant Properties of Software: A Study, Chilton 2008. http://www.jisc.ac.uk/media/documents/programmes/preservation/spsoftware_report_ redacted.pdf Neuroth, H. et al. [Ed.] (2010). nestor Handbuch – Eine kleine Enzyklopädie der digitalen Langzeitarchivierung (Version 2.3).13 http://nestor.sub.uni-goettingen.de/handbuch/index.php Planets (2010). Planets components for the extraction and evaluation of digital object properties. Deliverable Number D23B. http://www.planets-project.eu/docs/reports/Planets_PC3D23B%28DOPWGreport%29.pdf Wilson, A. (2007). Significant Properties Report. InSPECT Work Package 2.2; Draft/Version: V2 (10.4.2007) http://www.significantproperties.org.uk/wp22_significant_properties.pdf 13 Neben der Online-Version 2.3 ist 2009 eine Printversion 2.0 beim Verlag Werner Hülsbusch, Boizenburg, erschienen. 268 Achim Oßwald Significant properties digitaler Objekte Session 7: Information Professionals & Usage 269 270 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi A survey of internet searching skills among intermediate school students: How librarians can help Rahmatollah Fattahi1, Mohaddeseh Dokhtesmati2, Maryam Saberi3 1 2 Ferdowsi University of Mashhad Azadi Square, Mashhad, Iran [email protected] Iranian Research Institute for Information Science & Technology 1090 No., Enqelab Ave., Tehran, Iran [email protected] 3 Semnan University Mahdishahr, Semnan, Iran [email protected] Abstract The advent and development of the Internet has changed students’ pattern of information seeking behaviors. That is also the case in Iran. The current research was carried out by interviewing with and observing of 20 intermediate girl students to assess their information seeking behavior on the web environment through a qualitative approach. Findings indicate an acceptable level of access to the Internet and vast use of web search engines by the girl students in Tehran. However, students’ knowledge of the concept and how search engines work and also about the methods and tools of retrieving information from electronic sources other than the search engines is poor. The study also shows that, compared to the Internet, the role of libraries and librarians are gradually diminishing in fulfilling the students’ information needs. Authors recommend that school librarians can provide different instructional and information literacy programs to help students improve their information seeking behavior and their knowledge of the Internet. A survey of internet searching skills among intermediate school students 271 Keywords Information seeking behavior, Intermediate school students, Internet, School libraries, School librarians. Introduction Information and Communication Technology has dynamically affected the information seeking behavior of the user. As the most effective tool in information seeking behavior, the Internet is gaining popularity among people as well as children and young adults throughout the world (Barik, Bisen & Bhardwaj, 2007). Use of the Web has proliferated in schools and all types of libraries, but little is known specially in developing countries about how young people find information on the Web (Bilal & Kirby, 2002). Besides information resources like the family, friends and other communicational media, Web has become the main resource of information to attract students due to some advantages like easy and quick access and diversity of the contents. Nevertheless, there is not yet a comprehensive knowledge regarding students’ tendencies towards the Internet and how they would use it. Also, it is not clear to what extent and in what ways they are taking advantage of this modern media. Further, the role of librarians and school libraries is also undefined. Despite many studies and researches carried out in this respect in Iran, the thesis by Alipour (2006) is the only significant work on the high school students’ information seeking behavior. There still remain some big research gaps in this area. Literature review The widespread use of the Internet as a communication media and codidactic tool in schools and education centers has evolved students’ information seeking behavior. This has become a popular research area for scientists in the world (Madden, Ford & Miller, 2007; Madden et al, 2006; Bowler, Large & Rejskind, 2001; Large, Beheshti & Moukdad, 1999; Fidel et al, 1999; Bilal 1998, 2000, 2001, 2002) as well as in Iran (Mansourian, 2008a, 272 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi 2008b; Mokhtarpour, 2007; Yaminfirouz & Davarpanah, 2004; Hayati & Tasviri Ghamsari, 2000). In a pilot study, Bilal (1998) investigated the searching behavior and success of 22 seventh grade science students in using the Yahooligans!1. Students failed in their quest mainly due to their lack of knowledge of how to use the engine. Assessment of web-based information search skills among students of elementary schools was the subject of research by Large, Beheshti and Moukdad (1999). The results showed that although the newcomers tended towards sophisticated searching strategies, in case of trouble they did not refer to the always-present search help, i.e., the librarian. A similar research was carried out at the same time by Fiedel et al. (1999) on high school students which concluded that high school students were not able to begin a search task without the help of librarians. Bilal (2001, 2002) shows that children’s information seeking is influenced by their cognitive, physical and affective perspectives. Research shows that children are more persistent and motivated in seeking information over the Web than in using traditional and online sources (Bilal, 2000). Factors such as individual differences, age, information retrieval systems used, users’ cognitive and learning style, and users’ online search experience are the important factor in information seeking behavior on the Web (Kim, 2001; Bilal & Kirby, 2002). In another study, Madden et al. (2006) evaluated information searching strategies and factors influencing the search performance of students aged 11 to 16 using the “thinking aloud” (expression of perceptions) approach. The search results indicated the high level of access to computer and Internet and students’ relatively high knowledge of search tools and search engines. Madden, Ford and Miller (2007) focused on the information resources of students in Britain’s guidance schools. They realized that students would consider the Internet as their most useful information resource The only research on the information seeking behavior of students on the Internet environment in Iran is Alipour’s thesis in 2006. He worked on the search behaviors and information seeking patterns in Tehran high schools using the behavioral patterns based on observation and Internet-oriented search. He concluded that the students’ behavior in the web environment did not follow any regular pattern. Also his study showed that the Internet is the main search tool for many students to access news, educational and academic updates. 1 Yahooligans! is a search engine and directory designed for children ages 7 to 12. A survey of internet searching skills among intermediate school students 273 By reviewing the related literature, one concludes that the widespread presence of the Internet has led to students’ high levels of access to the Web and information resources. Their performance, however, in optimal and efficient use of different information resources of this hectic virtual world depends on their level of education and cognitive capacity. These studies also indicate that high school students encounter difficulty, including applying correct search syntax and finding relevant results and they lack relevant knowledge of how to use the internet especially the search engines. Research design The main aim of the present study is to assess the intermediate school students’ information seeking behavior on the Internet. Based on the above aim, the research questions are as follows: • What is the level of Internet access among intermediate school students? • How much these student get to use the web search engines? • What are the students’ usual patterns of information searching and retrieval on the Internet? • To what extent can they manage to consider necessary practices to get the desired results without the help of others? • Who are the students’ coaches and guides at the time of web search? • Which one do the students prefer to use to get information: the library or the Internet? The approach taken in this study is a mixed method approach. The researchers have taken a sample of 20 intermediate girls students from one of central Tehran’s schools in three different grades based on the “available sample” method. Based on the authors’ observations, a local network comprising 20 sets of computers all connected to the Internet was available in this school. In addition, to their routine schedule of source studies, the students also took part in computer skills classes like MS Word and PowerPoint. The school also had a library which, as they told the authors, had a librarian in charge. The research instrument was the investigation inventory. The information was gathered in two stages. First, the authors collected their required data from the participants according to the investigation inventory and then interviewed the participants and observed their behavior of searching the Internet. 274 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi In order to verify the results, the investigation inventory was submitted to two specialists on information seeking behavior and their opinions and advices were adopted to modify and optimize the results. Results Q1. What is the level of school students’ access to the Internet? To answer this question we should first determine how long the students have been familiar to the Internet, how many hours they spend weekly on the Internet, where do they most access it, and which website they visit right after the connection is established. Table 1 shows the answers for these questions respectively. Table 1. Intermediate school students’ familiarity with and use of the Internet Familiarity time span of students with the Internet Less than 1 year Between 1 and 2 years Between 2 and 3 years More than 3 years Students’ use of the Internet during the last week Once Twice Three times Four times and more No use Access location to the Internet School Home Coffee net Library The first section students visit right after the connection is established Electronic mail Chat Search engines Weblogs News websites Discussion forums Web-sites of interest Frequency 3 1 4 12 Frequency 4 2 3 10 1 Frequency 0 20 0 0 Frequency Percentage 15% 5% 20% 60% Percentage 20% 10% 15% 50% 5% Percentage 0% 100% 0% 0% Percentage 2 2 14 0 0 0 2 10% 10% 70% 0 0 0 10% A survey of internet searching skills among intermediate school students 275 As can be seen, the students’ knowledge of the Internet and their use of it are at relatively good levels. They access the Internet from home more frequently than from their school. As is demonstrated in table 1, the search engines are the main places where the students visit right after accessing the Internet. This reveals the high priority these search engines have as sources of information for the students. It is worth noting that most of the students spoke of “Google” instead of phrases like “search engines”. This highlights the significant role of “Google” as the predominant search tool for intermediate school students. Regarding the students’ search skills, two questions were posed: the first concerned their self-assessment regarding skills in using the Internet. The second, in verification of the first one, assessed their levels of success in accessing their required information in their last search attempt. The answers to these two queries are listed in tables 2. Table 2. Students’ self-assessment of their Internet skills Internet skills High Moderate Low Success in finding needed info in the last Internet session Yes No Frequency Percentage 8 40% 10 50% 2 2% Frequency Percentage 16 80% 4 20% As is evident in table 2, most students assessed their Internet skills as average or high, and that is confirmed by their success in their last attempts. Only 4 out of 20 students (that would be 20%) did not get what they wanted from the web searches and believed that their failure was due to reasons such as lack of skills, relatively low speed of the Internet and poor knowledge of English language (in case of search in English). Q2. To what extent students use the web search engines? This question was posed because of the great appeal these search engines had for intermediate school students (table 1). Therefore, first their level of knowledge about search engines was evaluated. Then the frequency of their use of different search engines and the mostly used ones were determined. Tables 3 to 6 demonstrate the results. 276 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi Table 3. Intermediate students’ knowledge of search engine Students’ knowledge of search engine Students who knew Students who did not know Frequency 11 9 Percentage 55% 45% Although search engines are the most popular Internet tools among the students, most of them were unable to come up with a clear definition of these tools. Usually they are not familiar with expressions like “search engines” and would rather know about some particular tools like “Google” and “Yahoo” which is not a surprising fact. The definitions given by the students for “Search engines” are as follows: • “Search engines are things giving us the information we need” • “A web-site which retrieves some data as we enter our words there” • “A web-site which retrieves some data as we enter our words and click” • “A search engines will search for what we have asked for” • “We get our needed info from search engines” • “Those web-sites where one could find whatever they are looking for” • “Search engines are tools to find our requested web-sites” The definitions given by the students imply their relative knowledge of the functions and performances of search engines. No one knew about search engine concepts and structure and its working mechanism and only spoke of their applications and tasks. Table 4. Use of the search engines by the students Using the search engines Yes No Extent of use High Average Little Frequency 20 0 Frequency 15 5 0 Percentage 100% 0% Percentage 75% 25% 0% The data in table 4 verify those of table 1 and indicate the significance of search engines for the students. A survey of internet searching skills among intermediate school students 277 Table 5. The frequency of students’ use of each search engine search engines Google Yahoo Microsoft Altavista Yahoo kids search engine Frequency 20 19 1 0 0 Percentage 100% 95% 5% 0% 0% Table 5 shows the most popular search engines from the students’ points of view. According to their own remarks, students use Google more than Yahoo because they believe Google returns more and pertinent results. Table 6. The extent of students’ knowledge about search engines and their use Those who knew Those who did not know Frequency 3 17 Percentage 15% 85% Although the use of search engines makes access to information on the Internet much easier and more efficient and reduces the retrieval of irrelevant information, none of the students had knowledge about these tools. The data in table 6 shows that the only 15% of the students who had heard the search engine names, did not use them and had not any idea how to use them. It is obvious that when they do not have a clear definition of the search engines, they would not know anything about the search operators. Q3. What are the students’ patterns for searching and retrieving information on the Internet? Pattern here means the approach students take in using the search engines. For this purpose, first the average amount of time spent weekly by each student in searching the Internet is taken into consideration. Then their aim and approach to get those required information from the Internet was questioned. The answers to these queries are listed in tables 7 and 8. According to above tables, half of the students were spending only two hours per week in search of information on the Internet and considered this amount of time to be adequate. 85% of them pursued the aim of finding some school-texts to do assignments (for research purposes). Furthermore, 55% were looking to download movies and music clips by searching the web (for entertainment). 278 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi Table 7. Pattern of the search engine use by the students Average amount of time spent weekly on the Internet Less than 2 hours 2 hours Between 2 and 4 hours More than 4 hours Purpose of searching the Internet Schoolwork resource identification to do school work Interest in gathering research info Downloading music and movies Listening to music and radio News Games Surfing the web No particular purpose Other purposes Frequency 10 1 5 4 Frequency 17 7 11 5 3 5 2 0 4 Percentage 50% 5% 25% 4% Percentage 85% 35% 55% 25% 15% 25% 10% 0% 20% Table 8. Approach used by the students to find information on the web Approach to find their needed information Use of search engines Trial and error Searching online encyclopedia Searching online databases and web-sites Searching electronic resources Other approaches Frequency 20 2 10 5 2 1 Percentage 100% 10% 50% 25% 10% 5% All the students used search engines to find their needed information. This supports the data in tables 1 and 4. The online encyclopedias were the second frequently used sources of information. Half the students were using sources such as Wikipedia as a definite example of electronic encyclopedias. Q4. To what extent can intermediate school students follow related practices to find information on the web without getting help from others? For this stage of the research, in which interviews were carried out along with observation, the students were asked to search for a specific topic on the web. It was obvious from the beginning that students were not able to find suitable keywords to initiate and formulate their search (a verification of what Fiedel et al. had found out). So the appropriate search keywords were A survey of internet searching skills among intermediate school students 279 given to them or they were asked to simply repeat their last successful web search. All the students were using Google. The authors observed that some of the students could not enter the Google in the address bar without help. As for the website address, they were requested to explain each section of the address but none of them could come up with any explanation due to lack of knowledge. Table 9. Search practices followed by the students Practices followed by the students Distinguishing the most relevant resources Navigating the websites Choice of useful pages and sites Using site-maps Saving information Defining addresses Frequency 12 8 50 0 12 0 Percentage 60% 40% 50% 0 60% 0 The data in table 9 indicate that most of students (60%) managed to pick up relevant resources through the search engines. They knew how to select the relevant resources. Their navigation skills were weak and they did not know about the site maps and their use. As for saving of information, 60% of the students could store their obtained information. It was interesting that some students copied the webpages and pasted them into the MS Word environment as a way to save their found data. Q5. Who are the students’ coaches and guides in surfing and searching the web? Here, coaches and guides are those who have taught the students how to surf the web and get their information. In this stage two questions were posed to the participants: first, who initially taught them how to use the Internet? And secondly, to whom do the students refer as they encounter a problem? Tables 10 and 12 contain the answers to these questions. 280 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi Table 10. First teachers of the students on the Internet and web search strategies First teachers of students on Internet School librarians Family and relatives Class mates Teachers Experienced people Participating in instructional courses Study of guide books Using Trial and error approach Frequency 0 17 2 0 0 0 0 1 Percentage 0 85% 10% 0 0 0 0 5% Table 11. Intermediate school students’ guides at the time of web surfing Students’ guides at the time of web surfing troubles School librarians Family Classmates Teachers Experienced people Others Frequency 0 16 1 0 1 2 Percentage 0 80% 5% 0 5% 10% It is observed from comparing tables 10 and 11 that the majority (80%) of students has initially learned to surf the web at home. Hence, their families have had a significant role in their getting to know the Internet. As they have learned to explore the web at home and because of their adequate access to the Internet (see table 1), they go to a member of their families to get help in searching the web. The interesting fact regarding the last two tables is the absence of teachers and librarians as students’ guides at the time web-search. A reason for this may be the fact that many schools do not have Internet access for students and the teachers are not familiar with the Web. In order to determine how much the school library and the librarian have been effective in satisfying the students’ information needs, first the students’ average weekly reference to the library, and their purpose of going to the library should be determined. It should be determined whether they have found their required information in the library and what the role of the librarian has been in this regard. Table 12 will answer these questions. A survey of internet searching skills among intermediate school students 281 Table 12. Students’ weekly use and purpose of using the school library Students’ weekly use Once Twice Three times 4 times or more Never go to the library Purposes of going to the library Doing school works Non-school studies Enhance their knowledge Interest in gathering scientific data Finding information to do extra-curricular activities Frequency 9 4 0 2 5 Frequency 6 12 8 9 4 Percentage 45% 20% 0 10% 25% Percentage 30% 60% 40% 45% 20% Although it is stated that libraries play an important role in educational and cultural progresses of students, in practice they do not have any high position in the students’ using of the Internet. It is so unfortunate that 5 out of 20 guidance school students (25%) have never gone to the school library. Findings in table 12 indicate that the students often (60%) use the library for extra-curicula studies and get information to upgrade their knowledge. These results are in agreement with the finding in the first part of the same table which shows that encyclopedias are the most frequently used resources of information at these places. Because of their wide coverage of different subjects and high quality, encyclopedias could serve as useful resources to satisfy students’ information needs and their scientific curiosities. Q6. Which one do the students prefer to use to get information: the library or the Internet? The findings here are not only unexpected but they also confirm the results of previous questions regarding the minor role of school libraries and librarians in helping students in their information seeking process. As is evident in table 13, unlike the minor role of school libraries, the Internet plays a significant role in fulfilling students’ information thirst. The majority of students participating in the research (95%) believed the easy ways to access information on the Internet and its adequacy and availability make the Internet their number one priority over the library. 282 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi Table 13. The contribution of Internet and library in meeting students’ informational needs. Internet Library Frequency 19 1 Percentage 95% 5% Conclusions Although the research population was small we can have some general conclusions regarding the information seeking behavior of Iranian intermediate school students on the Web: Many Iranian intermediate school students access the Internet from home rather than their schools. The reason for not using the Internet at school seems to be the lack of access or lack of enough free time. Due to their ease of use, and facilities for seeking information on the Web, search engines have a high popularity among school students. Google and Yahoo lead the leading way. However, due to the lack of thorough instruction, their knowledge of these tools is limited to and they have no conceptual or structural understanding about them. Similar to the findings of other studies (for example by Madden et al, 2006; Dersang, 2005; Bilal, 1998, 2000, 2001, 2002; Bilal & Kirby, 2002; Large, Beheshti & Moukdad, 1999) school students have cognitive difficulties in formulating effective search queries, applying correct search syntax, term relationships, and subject hierarchies. In case there is no organized information literacy instruction at schools and in the absence of librarians as trainers of the new generation, the family bears the heavy task of guiding the students in searching the Internet. This may be the result of the students’ lack of access to the Internet at school and at the school library that has led to the insignificant role of librarians in this regard. Although the students have gained knowledge through their families on how to acquire their needed information on the web, a lack of instruction to help students in conducting their searches is readily felt. The advent and development of the Internet has evolved the information seeking behavior. In this changing scenario, library and information centers have to focus towards the user community to understand their changing information needs and information seeking behaviors (Barik, Bisen & Bhardwaj, 2007). Also A survey of internet searching skills among intermediate school students 283 despite the libraries’ significant role in elevating students’ knowledge, they have not yet taken their right position in schools. This could be due to the weakness of school libraries in providing information literacy workshops to students, and lack of providing access to the Internet, and most importantly, lack of integration between courses and the library resources including access to information resources on the Web. Based on the results of this research, the following recommendations can be made to overcome the existing shortcomings: Providing information literacy courses by the school library will encourage students to use the library as a learning environment (like a class) and the librarians as a teacher. School can also offer curriculum-related user instruction that include use of the Web. This instruction cover basic search strategies in using selected search engines (Bilal & Kirby, 2002). Use of the Web in intermediate schools and the increased access to the Web by students at home & school raise many issues concerning information-seeking and use. Here the role of school librarians and teachers in educating and training students becomes more important. School IT sites could be located in school libraries in order to give the librarians an important role in improving information seeking behaviors of students. School teachers can play an important role in encouraging students to use the library and a learning media center. Thus the use of the Internet and online resources can be managed through the integration of the teacher-librarian cooperation into the curricula with the benefits of instructing the students how to use the Internet and how to evaluate information sources on the Web from the curricular point of view. Establishing and developing better school libraries with access to the Internet will help students not to rely on people other than librarians and teachers in learning how to search and use information sources whether printed or electronic. References Alipour, R. (2006), Assessment of search and information seeking behavior patterns of Tehran high school students in the Internet. Master thesis, Alzahra University. 284 Rahmatollah Fattahi, Mohaddeseh Dokhtesmati, Maryam Saberi Barik, R. K., Bisen, R. S. & Bhardwaj, J. (2007). Electronic information seeking behavior of scientists and research scholars of CSMCRI Bhavnagar. 5th International Caliber, Pakistan: Panjab University, Chandigarh Bilal, D. (1998). Children’s search processes in using World Wide Web search engines: An exploratory study. In Proceedings of the Sixty-First ASIS Annual Meeting, 35, October 24–29, 1998, Pittsburgh, PA (pp. 45–53), Medford, NJ: Information Today, Inc. Bilal, D. (2000). Children use of Yahooligans! Web search engine: 1. Cognitive, physical and effective behavior on fact-based search tasks. Journal of the American Society for Information Science and Technology, 5(7): 646–665. Bilal, D. (2001). Childrens use of the Yahooligans! Web search engine: II. Cognitive and physical behaviors on research tracks. Journal of the American Society for Information Science and Technology, 52(2): 118–136. Bilal, D. (2002), Children use of Yahooligns! Web search engine: III. Cognitive and physical behaviors on fully self generated search tasks. Journal of the American Society for Information Science and Technology, 53(13): 1170–1183. Bilal, D., Kirby, J. (2002). Differences and similarities in information seeking: children and adults as Web users. Information Processing and Management. 38, 649– 670 Davarpanah, M. (2007). Scientific communication and information seeking behavior, Tehran: Debizesh & Chapar. Dersang, E. T. (2005). The information-seeking behavior of youth in the digital environment. Library Trends, 54(2): 178–197. Fidel, R., Davies, R. K., Douglass, M. H., Holder, J. K., Hopkins, C. J., Kushner, E. J., Miyagishima, B. K. and Toney, C. D. (1999), A Visit to the Information mall: web searching behavior of high school students. Journal of the American society for Information Science, 50 (1), 24–37 Hayati, Z.& Tasviri Ghamsari, F. (2000). Evaluation of Internet influence on information seeking behaviors of board of teachers of Iran’s science and industrial research organization. Ketab Seasonal Periodical, 11 (4): 63–78 Kim, K. (2001). Information seeking on the Web: Effects of user and task variables. Library & Information Science Research, 23, 233–255 Large, A. Beheshti, J. and Moukdad, H. (1999). Information seeking at the web: Navigational skills of Grade-Six primary school students. Proceedings of the ASIS annual meeting, 36, 84–97 Madden, A. D., Fored, N. J., Miller, D., and Levey, Philipa (2006), Childrens use of the internet for information – seeking: what strategies do they use, and what factors affect their performance? Journal of Documentation, 62(6), 744–761. A survey of internet searching skills among intermediate school students 285 Maddaen, A. D., Fored, N. and Miller, D. (2007). Information resources used by children at an English secondary school. Journal of Documentation, 63(3), 340–358. Mansourian, Y. (2008a). Keeping a learning diary to enhance researchers understanding of and user’s skills in web searching. Library Review, 57(9), 690–699. Mansourian, Y. (2008b). Contextual elements and conceptual components of information visibility on the web. Library Hi Tech, 26(3), 440–453. Mokhtarpour, R (2007), Assessment and comparison of search and information seeking behaviors of MSc and PHD students in faculty of cultural and psychological sciences in Ahvaz Shahid Chamran Univeristy. Nama. 7(2). http://www4.irandoc.ac.ir/data/e_j/vol7/mokhtarpour_abs.htm, accessed 16 December 2008 Yaminfirouz, M. & Davarpanah, M. (2004), Assessment of Internet search and information seeking behavior of board of teachers in Mashad Ferdowsi Unversity, Library and Information Science Quarterly, 26: 15–64 286 Matthias Görtz Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchverhalten Entwicklung eines modellbasierten Online-Fragebogens am Beispiel studentischen Informationssuchverhaltens Matthias Görtz Informationswissenschaft und Sprachtechnologie – Universität Hildesheim Marienburger Platz 22, 31141 Hildesheim E-Mail: [email protected] Zusammenfassung Dieser Artikel beschreibt die Entwicklung einer Erhebungsmethode zur Erfassung von aufgabenbezogenem Informationssuchverhalten. Der Fokus dieser Methode liegt darauf, modelltheoretische, auf eher qualitativen Datenerhebungen basierende Erkenntnisse über Informationssuchverhalten, mit quantitativen Ansätzen zur Erfassung der Nutzungshäufigkeit von Informationsquellen zusammenzuführen. So wird ein Online-Fragebogen vorgestellt, der auf den Nutzungskontext und die jeweiligen Aktivitäten der Befragten eingeht. Anhand der in einer Beispielstudie zum studentischen Informationssuchverhalten erhobenen Daten werden die Möglichkeiten der Analyse von Informationsquellen im aufgabenbezogenen Informationssuchverhalten von Nutzergruppen in unterschiedlichen Kontexten diskutiert. Abstract This article describes the development of a method for collecting data of task-based information seeking behavior. The focus of this method therein lies upon merging conceptual models in information seeking, which are derived mainly from qualitative studies, with quantitative approaches to collecting data on the usage of information sources in general. Thus, an online questionnaire is presented, which takes context of use and information seeking activities of respondents into account. Based on a survey on student information seeking behavior, the possibilities of analyzing the role of information sources for the task-based information seeking behavior of specific user groups in different contexts is discussed. Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchv. 287 1 Ausgangssituation und Zielsetzung Der Performanz von Suchmaschinen wurde in Bezug auf die Entwicklung von Suchalgorithmen und Evaluationsverfahren in der Informationswissenschaft im Rahmen der Information Retrieval (IR)-Forschung stets viel Bedeutung beigemessen. Aus system-orientierter Perspektive gilt es dabei, eine von einem Nutzer eingegebene Suchanfrage mit einem Bestand an zur Verfügung stehenden Dokumenten oder Internetseiten zu vergleichen und relevante Treffer zurückzuliefern. Als Vorbedingung für derartige Betrachtungen gilt es jedoch die Bedeutung dieser Suchmaschine als eine Informationsquelle von vielen für den Nutzer zur Verfügung stehenden Ressourcen zu begreifen. So ist eine globalere Betrachtungsebene zunächst erforderlich, um zu verstehen zu welcher Informationsquelle sich ein Nutzer wendet und unter welchen Bedingungen die oben angesprochene Suchanfrage an ein System gerichtet wird. Diese Erkenntnis hilft nicht nur, eine Suchanfrage eines Nutzers an ein System besser einzuordnen, sondern auch die Rolle einer Informationsquelle im gesamten Prozess einer Suche zu analysieren. Für diese Fragestellung sind andere Maße und Methoden erforderlich, die vor allem zwei Bedingungen erfüllen sollten. Sie müssen zum einen die qualitative Vielseitigkeit einer Informationsumgebung und eines gegebenen Anwendungskontexts erfassen. Zum anderen sollten sie darüber hinaus das Nutzungsverhalten des Informationssuchenden quantifizieren, um Rückschlüsse auf die Relevanz und Akzeptanz von Informationsquellen ziehen zu können. Will man die Rolle einer bestimmten Klasse von Informationsquellen in einem gegebenen Kontext analysieren, so sind also sowohl analytische Erkenntnisse über bestehende Einflussfaktoren auf unterschiedliche Aktivitäten der Informationssuche (Information Seeking) als auch statistische Nutzungszahlen von Informationsressourcen erforderlich. Die Zusammenführung dieser methodischen Ansätze stellt eine vielversprechende Vorgehensweise dar. So ist es das Ziel dieses Beitrags, an einer Beispielstudie im studentischen Lern- und Arbeitsalltag aufzuzeigen, wie sich konzeptionelle Modelle der Information Seeking-Forschung nutzen lassen, um quantitative Erhebungen zu Nutzungshäufigkeiten kontextspezifisch zu gestalten und so den gewonnenen Daten tiefergehende Erkenntnisse in Bezug auf die Relevanz und Akzeptanz verschiedener Kategorien von Informationsquellen abzugewinnen. 288 2 Matthias Görtz Bisherige Ansätze zur Erfassung von Informationssuch- und -nutzungsverhalten Wie oben bereits angesprochen, besteht in der Informationswissenschaft neben der systembezogenen Perspektive auf die Erschließung und das Wiederauffinden von Information eine erweiterte kognitive Betrachtung der Informationssuche, welche sich auf den Informationsbedarf, die Nutzung und das Suchverhalten eines oder mehrerer kognitiver Akteure bezieht (INSU1). Sie ist Ausdruck der Überlegung, dass die Frage der Relevanz immer auch eine subjektive ist. In welchem Kontext befindet sich ein Nutzer in seiner Suche nach Information? Was ist sein subjektiver Informationsbedarf? Mit welcher Aufgabe sieht er sich konfrontiert bzw. was gedenkt er mit den Ergebnissen zu tun? Und was sind seine Verhaltensweisen im Umgang mit den ihm typischerweise zur Verfügung stehenden Informationsressourcen? (vgl. Görtz/ Womser-Hacker 2009) Die erweiterte Perspektive auf den Akteur in der Interaktion mit Informationsquellen als Reaktion auf sein subjektives Informationsbedürfnis macht deutlich, dass die in der Evaluation von IR-Systemen verwendeten Methoden und Maße sich nicht für die Beantwortung derartiger Fragen eignen. Im Rahmen dieser Forschungsströmung wurde dementsprechend eine Vielzahl methodischer Ansätze entwickelt bzw. aufgegriffen. Diese haben das Ziel, den Kontext des Suchenden zu erfassen und so alle Prozesse der Informationssuche (externe wie interne) sowie die Wechselwirkung verschiedener Einflussfaktoren auf Vorgehensweise und Quellenwahl der Informationssuche von Individuen oder Gruppen zu analysieren. Darüber hinaus besteht heute eine Vielzahl von Studien, die sich Nutzungsstatistiken von bestimmten Informationsquellen widmen. Dank dieser methodischen Vielfalt ist die Suche nach und der Umgang mit Informationsquellen zwar vielseitig beschrieben worden, jedoch wurden insbesondere die zuletzt genannten methodischen Ansätze stets unabhängig voneinander betrieben. In ihrer Längsschnittanalyse der in der INSU-Forschung der 80er und 90er Jahre eingesetzten Forschungsmethoden haben Julien und Duggan (2000) diese Beobachtungen bestätigt. So spielen die klassischen Erhebungs- bzw. Evaluierungsmethoden der IR Forschung (Experiment und Zitationsanalyse) kaum eine große Rolle (6,7%). Vielmehr wurden Befragungsmethoden wie Inter1 Neben dem oben eingeführten Begriff der sog. Information Seeking Behavior Research (ISB) werden die Aktivitäten dieser kognitiven Strömung auch als Information Needs, Seeking, and Use (INSU) Studien bezeichnet. Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchv. 289 views und Fragebögen in über 60% der untersuchten Studien verwendet. Auch anderweitige Methoden wie die Logfile-Analyse und Ethnografie wurden in der Erforschung des Informationssuch- und -nutzungsverhaltens verstärkt eingesetzt, um zur subjektiven Beschreibung von Verhaltensweisen eine externe Perspektive zu ergänzen. Dies zeigt die erforderlichen Schnittstellen dieser Forschungsrichtung mit angrenzenden sozialwissenschaftlichen Disziplinen. So wurden z.B. Ansätze wie die strukturierte Beobachtung (Mintzberg 1970) in Studien zum Informationsverhalten eingesetzt. Die so gewonnen qualitativen Ergebnisse einer Beobachtung jedoch, wurden selten mit den in Interviews und Fragebögen gewonnenen Daten zusammengeführt (vgl. Görtz 2010). Um die begrenzte Aussagekraft bisheriger Erkenntnisse innerhalb der INSU-Forschung zu erläutern, werden zunächst der Einsatz dieser Methoden und die Form der so gewonnenen Erkenntnisse anhand zentraler Beispielstudien zum Informationssuchverhalten kurz dargestellt. Beispiele methodischer Ansätze zur Erforschung des Nutzerkontexts Es besteht eine Vielzahl an qualitativen Studien zur Analyse studentischen Informationssuchverhaltens und dessen Kontexts. Eines der prominentesten Modelle zur Beschreibung der Aktivitäten, Gefühle und Gedanken von kognitiven Akteuren in der Informationssuche ist der Information Search Process von Carol Kuhlthau. Abbildung 1: Information Search Process (Kuhlthau 1991: 367) 290 Matthias Görtz Entwickelt in den 1980er und 1990er Jahren wurde dieses Modell (s. Abbildung 1) als Framework und Diagnose-Tool für das Verständnis des Sucherlebnisses von Individuen in verschiedenen Bibliotheks- und anderen Informationsumgebungen verwendet (vgl. Kuhlthau et al. 2008: 1). Um die Thesen zu Aktivitäten, Gefühlen und Gedanken der Teilnehmer zu prüfen, wurden qualitative Methoden in einem natürlichen Anwendungsfall eingesetzt. So führten die Schüler freie Tagebücher, sog. Strukturierte Search Logs zur Bewertung der Nützlichkeit unterschiedlicher Informationsquellen und reflektierten ihren Suchprozess in einem Fragebogen. Abschließende Interviews wurden eingesetzt, um die Vielfalt der erhobenen Daten zusammenzuführen und Fallstudien der Teilnehmer der Untersuchung zu erstellen. Neben prozeduralen Information Seeking-Modellen wie dem von Kuhlthau besteht in der kognitiven Strömung eine weitere Form der Analyse des Kontexts des Informationssuchenden. Analytische Modelle haben das Ziel, die in den Suchprozess involvierten Objekte und deren Beziehungen untereinander sowie Wirkungsfaktoren zu modellieren (vgl. Ingwersen/Järvelin 2005: 15). Ein Beispiel solcher Arbeiten ist das konzeptionelle Framework für Tasks von Byström und Hansen (2005). Es identifiziert die verschiedenen Ebenen einer Task (Search, Seeking, Work), modelliert deren Interrelationen und die Einflussfaktoren auf dessen Merkmale, wie z.B. die Komplexität einer Aufgabe. Die Vorgehensweise zur Erstellung solcher Konzepte erfolgt dabei grundsätzlich argumentativ. Darüber hinaus setzt z.B. Byström (1999) ähnliche qualitative Erhebungsmethoden wie oben bereits beschrieben ein. Tagebücher, Beobachtungen und Interviews werden zur analytischen Definition von solchen Konzepten wie Aufgabenkomplexität und dessen Merkmalen herangezogen. So beschreibt sie in ihrer Arbeit die Eigenschaften von Aufgabenkomplexität, Typen von Information und Informationsquellen. Die Komplexität einer Aufgabe wird dabei als Konstrukt der a priori determinability (also Vorhersehbarkeit) des Informationsbedarfs, des Prozesses zur Lösung der Aufgabe, sowie der Struktur und Form des erwarteten Ergebnisses einer Aufgabe definiert (vgl. a.a.O.: 43). Derartige Modelle und Konstrukte helfen den Kontext des Informationssuchenden konzeptionell zu erfassen und die Abläufe und Aspekte einer Informationssuche besser zu verstehen. Beispiele methodischer Ansätze zur Erhebung der Nutzung Ein weiteres Phänomen der Erforschung von Informationssuch- bzw. -nutzungsverhaltens sind quantitative Studien zur Erhebung der Nutzungshäu- Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchv. 291 figkeit von Informationsquellen. Zum einen sind dies klassische Mediennutzungsstudien wie die seit 1997 regelmäßig durchgeführten ARD/ZDF-Online-Studien. In ihrem Beitrag zu Media Perspektiven stellen Fisch und Gscheidle (2006) unter dem Titel Onliner 2006 die Ausstattung und das Nutzungsverhalten der Internetpopulation vor. Ähnliche Studien bestehen zudem in Bezug auf bestimmte Informationsquellen und deren Nutzung am Arbeitsplatz. Dabei stehen jedoch informationswissenschaftliche Konzepte wie die Informationssuche oder das der Task nicht im Vordergrund. Zum anderen bestehen auch in der Informationswissenschaft zunehmend Studien, die sich ähnlicher empirischer Erhebungsmethoden bedienen. Warning et al. (2009) zum Beispiel untersuchten das Informationssuchverhalten von Studierenden in einem methodischen Mix aus qualitativen und quantitativen Erhebungswerkzeugen. So führten sie semi-strukturierte Interviews und setzten zusätzlich einen Fragebogen ein. Als zentrale Elemente solcher Studien werden vermehrt quantitative Methoden wie z.B. großangelegte Online-Befragungen eingesetzt. Mithilfe statistischer Methoden lassen sich so Aussagen vor allem zur allgemeinen Nutzungsintensität bestimmter Informationsquellen treffen. Fazit zur Aussagekraft derartiger Erhebungsmethoden Die Vielfalt der oben beschriebenen Erhebungsmethoden im Bereich der Information Seeking Behavior-Forschung eröffnet neue Perspektiven auf den Informationssuchprozess und die Nutzung von Informationsquellen in unterschiedlichen Anwendungskontexten. Unabhängig voneinander sind jedoch beide Perspektiven auf den Informationssuchprozess kognitiver Akteure beschränkt. So sehen sich auf der einen Seite prozedurale wie analytische Modelle zur Beschreibung des Kontexts und der unterschiedlichen Phasen einer Informationssuche stets mit der Kritik konfrontiert, dass ihre Beobachtungen nicht auf die Ebene der einzelnen Informationsquellen und deren Rolle im Informationssuchprozess reichen. Auf der anderen Seite bieten quantitative Studien zur Nutzungshäufigkeit von Informationsquellen keine differenzierte Einsicht in die Verwendung der besuchten Anwendungen und ihrer Information bzw. in Bezug auf unterschiedliche Phasen des Informationssuchprozesses. So wird im Folgenden an einer Beispielstudie zur Informationssuche im studentischen Lern- und Arbeitsalltag gezeigt, wie sich konzeptionelle Modelle und Konstrukte der Information Seeking Behavior-Forschung nutzen lassen, um quantitative Erhebungen zu Nutzungshäufigkeiten kontextspezifisch zu gestalten und so den gewonnenen Daten tiefergehende Erkenntnisse 292 Matthias Görtz in Bezug auf die Relevanz und Akzeptanz verschiedener Kategorien von Informationsquellen abzugewinnen. 3 Entwicklung eines kontextspezifischen Online-Fragebogens Für die Analyse der Rolle einer bestimmten Gruppe von Informationsquellen für das Lern- und Arbeitsverhalten wurde entsprechend der oben beschriebenen Überlegungen ein methodischer Ansatz entwickelt, der die analytischen, prozeduralen und statistischen Vorgehensweisen bzw. Erkenntnisse der INSU-Forschung zusammenführt. Entsprechend wurde ein Online-Fragebogen entwickelt, der die folgenden Ziele verfolgte: 1. Erfassung der im Lern- bzw. Arbeitsalltag typischen Aufgabentypen (Komplexität) und der Art der benötigten Information (Informationstypen) (Byström 1999). 2. Erhebung der Nutzung unterschiedlicher Gruppen von Informationsquellen in den jeweiligen Phasen der Informationssuche eines gegebenen Kontexts (z.B. Kuhlthau 1991). Die Entwicklung des Fragebogens wurde mithilfe der Umfrageapplikation LimeSurvey realisiert. Dies ermöglichte den Einsatz konditionaler Bedingungen und dynamischer Fragebogenelemente. So konnten Teilnehmer in Abhängigkeit ihrer empfunden Aufgabenkomplexität und ihrer jeweiligen Informationssuchaktivitäten zu folgenden Items befragt werden. I.1 dient dabei der Sammlung organisatorischer Hintergrundinformationen der Teilnehmer. Gemeinsam mit den in I.8 erhobenen Daten zu Geschlecht und Alter galten diese Fragen der näheren demografischen Charakterisierung der Stichprobe. Die Teilnehmer werden dann in I.2 gebeten anzugeben, wie sich ihr Lern- bzw. Arbeitsalltag in Bezug auf Inhalte, Arbeitsformen, Räumlichkeiten und genutzte technische Unterstützung bei der Durchführung von aufgabenbezogener Informationssuche auf einer 7er-Likert-Skala charakterisieren lässt. Darüber hinaus wurde erfasst, welche Form und Struktur die Ergebnisse der informationsbezogenen Aufgaben überwiegend kennzeichnen. Die Antworten zu diesen Fragen erlauben eine detaillierte Erfassung der üblichen Lern- bzw. Arbeitsumgebung der Teilnehmer. I.3 widmet sich mit zwei Fragen der Aufgabenkomplexität im Alltag der Teilnehmenden. Als Ergänzung zu einer theoretischen Erfassung der Aufgabenkomplexität, werden anschließend vier Beispielszenarien unterschiedlicher Komple- Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchv. 293 xität (sehr unstrukturiert – sehr strukturiert) vorgestellt. Die Teilnehmer werden gebeten, das für sie repräsentativste Szenario auszuwählen. Auf Basis dieser Charakterisierung der für sie typischen Arbeitsaufgaben, lässt sich nun die folgende Befragung der Nutzung der diversen Informationsquellen kontextspezifisch gestalten. So sind Aussagen zur Relevanz bestimmter Informationstypen (I.4), sowie zur Nutzung von Informationsquellen im gegebenen Anwendungskontext (I.5) jeweils in Abhängigkeit zur Aufgabenkomplexität differenzierbar. Teilnehmer, die in ihrem Lern- bzw. Arbeitsalltag für gewöhnlich mit stark strukturierten Arbeitsaufgaben konfrontiert sind, werden demnach andere Arten sowie Quellen von Information zu ihrer Lösung benötigen. Darüber hinaus lassen sich die folgenden Fragen zur Nutzung bestimmter Gruppen von Informationsquellen (I.5) an die in den für die jeweiligen Zielgruppen entwickelten prozeduralen Information Seeking-Modellen (z.B. am ISP von Kuhlthau (s.o.)) definierten Phasen des Informationssuchprozesses dynamisch anpassen. So werden die Teilnehmer nach ihren bevorzugten Anlaufstellen für die jeweiligen Aktivitäten in Abhängigkeit der für sie typischen Aufgabenkomplexität befragt. I.6 folgt dieser Logik und fragt nach der Zufriedenheit der Teilnehmer mit ihrer zur Verfügung stehenden Informationsumgebung für die im ISP (s. Abbildung 1) definierten Phasen der Informationssuche. Abschließend zielt I.7 auf die Bekanntheit bestimmter Gruppen von Informationsquellen (hier Social Software-Anwendungen) und deren Rolle in den jeweiligen Phasen der aufgabenbezogenen Informationssuche. 4 Beispielhafte Ergebnisse der Erhebungsmethode Die Aussagekraft der Ergebnisse einer solchen kontextspezifischen Erfassung von aufgabenbezogenem Informationssuchverhalten wird beispielhaft deutlich an einer Studie an der Universität Hildesheim. Im Rahmen dieser Studie wurden 95 Studierende unterschiedlicher Studiengänge und Studiensemester zu ihrem studentischen Lern- und Arbeitsalltag befragt. Mit einem Durchschnittsalter von 23,23 Jahren, 81% weiblichen Teilnehmerinnen und einem großen Anteil (63,16%) geistes- und sozialwissenschaftlicher Studierender entspricht die Stichprobe im Allgemeinen der Struktur der Universität. 294 Matthias Görtz Die Befragten gaben bezüglich ihres Arbeits- bzw. Lernkontexts an, dass ihre täglichen studienbezogenen Aufgaben zumeist fremd initiiert sind, außerhalb hochschuleigener Räumlichkeiten und größtenteils am PC bearbeitet werden (Item I.2). Die Form der Arbeitsergebnisse verteilte sich dabei gleich über Präsentation/Referat, schriftliche Ausarbeitung, Prüfungen und andere Formen der Leistungsnachweise. Dabei empfanden lediglich 7% der Befragten ihre typischen studienbezogenen Arbeitsaufgaben als sehr strukturiert. Über die Hälfte (52%) der Studierenden gab an, dass sie häufig mit unstrukturierten oder sogar sehr unstrukturierten Aufgaben konfrontiert seien (Item I.3). Dementsprechend niedrig fiel die Bewertung der Vorhersehbarkeit von erwartetem Ergebnis, Vorgehensweise und erforderlicher Information zur Bearbeitung einer Aufgabe aus. Der Fragebogen erwies sich in der Erfassung der Komplexität der typischen Arbeitsaufgaben der Befragten als valide. So bewerteten die Studierenden, die eines der eher strukturierten Szenarien (C, D) auswählten, auch die durchschnittliche Vorhersehbarkeit ihrer Arbeitsanforderungen entsprechend hoch. Tabelle 1: Allgemeine Nutzungshäufigkeit von Informationsquellen Informationsquellen Internetsuchmaschinen Fachbezogene Druckerzeugnisse Fachbezogene Internetseiten Eigene Dokumente/Unterlagen Digitale Fachinformation Öffentliche Wikis Persönliche Kontakte Uni- und Veranstaltungsseiten Uni-interne Wikis Öffentliche soziale Netzwerke Social Sharing Dienste Uni-interne soziale Netzwerke Ø 4,71 4,00 3,96 3,79 3,43 3,27 3,22 3,15 2,02 2,01 2,00 1,71 s 0,48 1,06 0,89 0,94 1,23 1,19 1,10 1,05 1,04 1,17 1,33 0,86 1 = nie / 2 = selten / 3 = manchmal / 4 = häufig / 5 = sehr häufig In Abhängigkeit von der auf diese theoretische und Szenario-basierte Weise erfasste Aufgabenkomplexität im Studienalltag wurden die Teilnehmer anschließend zur Bedeutung unterschiedlicher Informationstypen (Item I.4) für die Bearbeitung ihrer typischen informationsbezogenen Arbeitsaufgaben befragt. Hier konnten nun nicht nur die angegebene Komplexität der Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchv. 295 typischen Arbeitsaufgaben sondern auch die typischen Phasen der Informationssuche (s. Abbildung 1) in die Befragung einbezogen werden. Die Auswirkungen auf die Aussagekraft einer solchen Befragung durch die Berücksichtigung dieser kontextuellen Einflussfaktoren auf die Informationssuche lassen sich beispielhaft an Item I.5 erläutern. So ergab die Befragung nach der allgemeinen Nutzung von verschiedenen Informationsquellen zur Unterstützung der Bearbeitung von studienbezogenen Arbeitsaufgaben ein für reine Nutzungsstudien übliches Bild (s. Tabelle 1). Die Einbeziehung der oben beschriebenen analytischen Perspektive auf Aufgabenkomplexität (Byström/ Hansen 2005) und für Studierende typische Vorgehensweisen in der Informationssuche (Kuhlthau 1991) lässt nun jedoch eine vielseitigere Betrachtung dieser Angaben zu. In der weiteren Befragung zur Nutzung von Informationsquellen erhält man so durch die kontextspezifische Befragung nach den von Kuhlthau definierten Phasen der Informationssuche ein dezidierteres Bild, wie Abbildung 2 beispielhaft visualisiert. Abbildung 2: Informationsquellen im Informationssuchprozess von Studierenden So lässt sich nicht nur erfassen, welche Quellen für die Studierenden in der Bearbeitung einer typischen Studien- bzw. Arbeitsaufgabe relevant sind, 296 Matthias Görtz sondern auch bei welcher Art von Aufgabe und in welcher Phase der Informationssuche diese häufig verwendet werden. Dabei lässt sich z.B. erkennen, dass Internetsuchmaschinen zwar die meist genutzte Informationsquelle im studentischen Arbeitsprozess sind, diese jedoch vor allem der orientierten Recherche („Exploration“) und Suche und Sammlung („Collection“) dienen. Die Darstellung der Ergebnisse in Abbildung 2 lässt noch weitere Schlüsse zur Relevanz bestimmter Informationsquellen für jeweilige Aktivitäten und Aufgaben zu. In diesem Beitrag steht jedoch der methodische Ansatz im Vordergrund. 5 Schlussfolgerung und Ausblick Will man wie oben beschrieben die Rolle einer bestimmten Gruppe von Informationsquellen im Informationssuchverhalten einer bekannten Nutzergruppe analysieren, so kommen die Stärken des hier vorgestellten Fragebogens zum Tragen. Sie liegen vor allem in der detaillierten Aussagekraft auf Basis bestehender Konzepte und Modelle aus der INSU-Forschung. Auf diese Weise erhalten die Aussagen der Befragten eine tiefere Bedeutung, als wenn sie zur Nutzungshäufigkeit von Informationsquellen unabhängig von Situation, Komplexität und Aktivität befragt werden. Die so gesammelten Daten lassen detaillierte Schlussfolgerungen z.B. zur Gestaltung von elektronischen Informationsumgebungen basierend auf subjektiver Relevanz von Informationsquellen zu. Die Anpassungsfähigkeit an Modelle und Konzepte aus jeweils anderen Kontexten ermöglicht zudem die kontextspezifische Befragung anderer Nutzergruppen, wie z.B. von Mitarbeitern am Arbeitsplatz. Daher gilt es in weiteren Studien die entwickelten Items zu verfeinern und andere Information Seeking-Modelle in unterschiedlichen Anwendungsfeldern einzusetzen. Vom besonderen Interesse ist dabei der Einfluss des jeweiligen Kontexts auf das Informationssuchverhalten. Dieser wird mithilfe der hier vorgestellten Methodik ermöglicht. Darüber hinaus sollten die Ergebnisse des modellbasierten Online-Fragebogens mit realen, quantitativen Nutzungsdaten ergänzt werden, um ein vielschichtiges Bild der Rolle von spezifischen Gruppen von Informationsquellen im untersuchten Kontext zu liefern. Kontextspezifische Erhebung von aufgabenbezogenem Informationssuchv. 297 Literaturverzeichnis Byström, K. (1999). Task complexity, information types and information sources. Doctoral Dissertation. Tampere: University of Tampere. Byström, K. & Hansen, P. (2005). Conceptual Framework for Tasks in Information Studies. JASIST, 56(10), 1050–1061. Fisch, M. & Gscheidle, C. (2006). Onliner 2006: Ergebnisse der ARD/ZDF-OnlineStudien 1997 bis 2006. Media Perspektiven, (8), 431–440. Görtz, M. & Womser-Hacker, Chr. (2009): Globale Herausforderungen aus der Perspektive der Informationswissenschaft. IM – Fachzeitschrift für Information Management und Consulting 4/2009. Saarbrücken: IMC, 30–36. Görtz, M. (2010). Informationssuchverhalten und das Social Web. Aktuelle Herausforderungen Wissenschaftlicher Ansätze zur Modellierung von Informationsverhalten. Information Wissenschaft & Praxis 61(6–7), 375–384. Ingwersen, P. & Järvelin, K. (2005). The Turn: Integration of Information Seeking and Retrieval in Context. Dordrecht: Springer. Julien, H. & Duggan, L. J. (2000). A Longitudinal Analysis of the Information Needs and Uses Literature. Library & Information Science Research, 22(3), 291–309. Kuhlthau, C. C. (1991). Inside the search process. Information seeking from the user’s perspective. JASIS, 42, 361-371. Kuhlthau, C. C., Heinström, J. & Todd, R. J. (2008). The ‘information search process’ revisited. Is the model still useful? Information Research, 13 (4), paper 355. http://InformationR.net/ir/13-4/paper355.html (Retrieved August 18, 2009) Mintzberg, H. (1970). Structured Observation as a Method to Study Managerial Work. Journal of Management Studies, 7 (February), 87–104. Warning, P., Chu, S. K. W. & Kwan, A. C. M. (2009). Information Seeking And Stopping Among Undergraduate Interns. In Proceedings of the 2009 International Conference on Knowledge Management. Hong Kong: Dec 3–4, 2009. 298 Jürgen Reischer, Daniel Lottes, Florian Meier, Matthias Stirner Evaluation von Summarizing-Systemen Kommerzielle und freie Systeme im Vergleich Jürgen Reischer1, Daniel Lottes2, Florian Meier2, Matthias Stirner2 1 Informationswissenschaft – Universität Regensburg D-93040 Regensburg [email protected] 2 Informationswissenschaft – Universität Regensburg D-93040 Regensburg {daniel.lottes | florian2.meier | matthias.stirner}@stud.uni-regensburg.de Zusammenfassung Fünf kommerzielle und freie Systeme zum automatischen Zusammenfassen von englischen Texten werden hinsichtlich ihrer Summarizing-Leistung vergleichend evaluiert. Hierfür notwendige, eigene und fremde Evaluations-Ressourcen werden vorgestellt und diskutiert sowie Auswahlkriterien für verwendete Summarizer und Evaluationsmaße dargestellt. Abstract Five commercial and free summarization systems are evaluated against each other with respect to their performance in automatic text summarization. Existent and self-created evaluation resources are presented and discussed as well as criteria for the selection of summarizers and evaluation measures described. Evaluation von Summarizing-Systemen 1 299 Einleitung Die jährlich wiederkehrenden Evaluationen von Summarizing-Systemen im Rahmen der ,Text Analysis Conference‘ (TAC)1 stellen einen akademischen Wettbewerb dar, in dem vor allem wissenschaftliche Systeme zum automatischen Zusammenfassen miteinander verglichen werden. Eine Evaluation von kommerziellen oder freien Summarizern für den alltäglichen Gebrauch wurde u. W. bislang nur in García-Hernández (2009) bei drei Systemen für das Englische durchgeführt. Dies ist umso erstaunlicher, als von kommerziellen Systemen eine gewisse Leistung erwartet werden kann, die den geforderten Preis rechtfertigt. Grund hierfür mag die prekäre Lage bei Ressourcen zur Evaluation von Summarizing-Systemen sein, d. h. fehlende VolltextTextkondensat-Paare, anhand derer die Leistung der Systeme beurteilt werden kann. Ziel unserer Arbeit war es daher einerseits, diese Ressourcen zusammenzustellen bzw. selbst zu erstellen, andererseits auf Basis des bereitgestellten Evaluationskorpus einige gängige Summarizer hinsichtlich ihrer Leistung zu evaluieren (die Usability wurde dabei nicht getestet). Für den alltäglichen Gebrauch lassen sich Summarizer in unterschiedlichen Szenarien einsetzen: z. B. Zusammenfassen von Text-/HTML-/PDF-Dokumenten oder Vorschaufunktion (Textsnippets) in Web- und Desktop-Suchmaschinen. Dabei sind im Weiteren vor allem solche Summarizer von Interesse, die als eigenständige Programme Texte aus dem Clipboard heraus zusammenfassen können oder generell als PlugIn-Summarizer realisiert sind. Im folgenden Abschnitt werden entsprechend Ressourcen vorgestellt, die als Grundlage für die Evaluation verschiedener Summarizer dienen; daran anschließend werden die Summarizer präsentiert und deren Leistung bewertet. 2 Ressourcen Bei der Auswahl der Ressourcen für die Evaluation sollten gewisse Mindestanforderungen an die Texte des jeweiligen Korpus erfüllt sein: 1 http://www.nist.gov/tac/ (25.10.2010). 300 Jürgen Reischer, Daniel Lottes, Florian Meier, Matthias Stirner • Die Ressource sollte uneingeschränkt und frei verfügbar sein, d. h. offen zugänglich und vor allem kostenlos. • Die Texte des jeweiligen Korpus sollten von mindestens drei Personen bearbeitet worden sein, d. h. jedes Summary eines Volltextes sollte sich anhand der Urteile von mindestens drei Bewertern ergeben. Daraus resultiert eine höhere Objektivität des jeweiligen Summarys, das nicht aufgrund nur eines einzigen subjektiven Urteils zum ,idealen‘ Summary erkoren wird. Zudem ist erst ab drei Bewertern die Ermittlung einer sinnvollen Mehrheitsmeinung möglich. Da Summarizer für den alltäglichen Gebrauch getestet werden (Normalnutzer, Alltagstexte), scheint es nicht sinnvoll, ein vermeintlich ,ideales Summary‘ durch nur einen einzigen professionellen Abstraktor als Grundlage der Evaluation zu verwenden. • Das Korpus sollte englische Volltext-Extract-Paare enthalten, da die Summarizer hauptsächlich für das Englische konzipiert sind und ausschließlich extraktive Zusammenfassungen erstellen können. Die Volltext-Extract-Paare sollten dabei nicht durch automatische Verfahren aus Volltext-Abstract-Paaren erzeugt worden sein, da bei maschinellen Verfahren der Abbildung von Abstracts auf Extracts Abbildungs-Ungenauigkeiten entstehen (Pseudo-Extracts); d. h. nicht jeder Satz des Abstracts ist genau auf einen passenden Satz des entsprechenden Volltextes abbildbar. Dabei besteht die Gefahr, dass durch die automatisierte Abbildung nichtkontrollierbare Einflussgrößen die Evaluationsergebnisse verfälschen (z. B. nicht-erkannte bedeutungsgleiche Ausdrücke). Im Folgenden sollen bestehende und eigene Ressourcen vor dem Hintergrund dieser Anforderungen dargestellt bzw. diskutiert werden. 2.1 Bestehende Summarizing-Korpora Grundsätzlich stehen entsprechende Ressourcen zur Evaluation von Summarizern für das Englische nur in eingeschränktem Umfang zur Verfügung (Hasler et al. (2003); für einen Überblick vgl. Orasan et al. (2009)). Ein Teil der Korpora wie Klavans et al. (1998), Barzilay (1997), Jing et al. (1998), Tucker (1999) und das Summbank-Korpus des LDCs2 ist nicht (mehr) frei oder vollständig zugänglich, ein anderer Teil wie die TAC- (/DUC-) Korpora erfüllt nicht die oben genannten Mindestanforderungen von drei oder mehr unabhängigen Bewertern. 2 http://www.ldc.upenn.edu (25.10.2010). Evaluation von Summarizing-Systemen 301 Daher erfüllen überhaupt nur zwei kleinere Textmengen die geforderten Kriterien: Zechner (1995) und Hasler et al. (2003). In Zechner (1995) wurden sechs Texte aus dem ,Daily Telegraph Corpus‘ von effektiv je 13 Bewertern auf die zentralsten oder relevantesten Sätze hin beurteilt, die die Gesamtbedeutung des jeweiligen Textes wiedergeben. In Hasler et al. (2003) finden sich sieben von insgesamt 163 Texten, die von drei Bewertern auf die essenziellen und wichtigen Sätze hin beurteilt worden sind (113 der 163 Texte wurden von lediglich einem Bewerter, 43 von zwei Bewertern beurteilt). Damit stehen zunächst 13 Texte für die Evaluation zur Verfügung, für die allesamt ein bestmögliches Kompromiss-Summary aus den Bewertungen gebildet werden konnte: Im Falle von Zechner (1995) wurden je nach Text die sechs oder sieben am häufigsten genannten Sätze (von insgesamt 20–22 Sätzen) als Extract verwendet, wie sie im Artikel angegeben waren; im Falle von Hasler et al. (2003) wurden alle Sätze für das Summary berücksichtigt, die von mindestens der Hälfte der Bewerter (d. h. hier 2/3) als essenziell oder wichtig beurteilt wurden (Mehrheits- statt Einheitsmeinung). 2.2 Eigenes Summarizing-Korpus Zur Vergrößerung des Evaluations-Korpus wurde ein eigenes Korpus aus 10 weiteren Texten erstellt, aufgeteilt auf zwei Teilkorpora I (6 Texte) und II (4 Texte), die von jeweils 13 Personen im Hinblick auf extract-relevante Sätze beurteilt wurden. Als Kriterium für zu extrahierende Sätze wurde deren Informativität bzw. Interessantheit zugrunde gelegt: “Ask experts to underline and extract the most interesting or informative fragments of the text. Measure recall and precision of the system’s summary against the human’s extract …” Hovy (2004: 594). Damit wurde der Fokus auf informative statt indikative Summarys gelegt und zugleich eine bewusste Abgrenzung zu den Extraktionskriterien von Zechner (1995) und Hasler et al. (2003) angesetzt, um eine größere Bandbreite unterschiedlicher Extract-Typen abdecken zu können.3 Die zehn englischen Texte wurden ausschließlich Online-Quellen im Zeitraum von 9/2008 bis 5/2009 entnommen und sind verschiedenen (Informations-) Textsorten wie Nachrichtenartikel, Produktbericht, Proklamation oder 3 Allerdings sprechen einige Indizien dafür, dass Bewerter – unabhängig von den konkret angegebenen Extraktionskriterien (Aufgabenstellung für die Bewerter) – zumeist solche Sätze für das Extract selektieren, die für die jeweils beurteilende Person am interessantesten und informativsten sind (vgl. Krübel (2006) für deutsche Texte). 302 Jürgen Reischer, Daniel Lottes, Florian Meier, Matthias Stirner enzyklopädischer Artikel zuzurechnen.4 Die Bewerter waren zwischen 20 und 73 Jahren alt, unter ihnen vor allem Studierende, Promovierende und Angestellte der Informationswissenschaft Regensburg; fast alle verfügten über gute bis sehr gute Englischkenntnisse. Die Bearbeitung der Aufgaben wurde selbständig durchgeführt, wobei den Bewertenden keine Beschränkungen hinsichtlich der Anzahl zu selektierender Sätze auferlegt wurden. Daraus resultierten – je nach Länge des Originaltextes – Kompressionen auf 8% bis 50% gemessen am Umfang des Volltextes in Sätzen (gemäß Hovy (2004: 584) liegt dies genau im sinnvollen Bereich). Vor allem bei kürzeren Texten waren die Kompressionsraten meist geringer. Das Referenz-Extract, mit dem die Leistung der Summarizer gemessen werden soll, ergibt sich jeweils aus den am häufigsten von den Bewertern selektierten Sätzen, die von mindestens der Hälfte als informativ/interessant befunden wurden (d. h. 7 von 13 Bewertern müssen für einen Satz stimmen). Auf die Messung der Übereinstimmungsrate zwischen den Bewertern, z. B. durch das Kappa-Maß, wurde verzichtet, da die Werte erwartbar niedrig ausfielen.5 Ziel war nicht die Generierung eines perfekten Extracts mit vollständiger Übereinstimmung aller Bewerter, das bei 13 bewertenden Personen äußerst unwahrscheinlich wäre. Vielmehr sollte das bestmögliche Konsensoder Kompromiss-Extract erstellt werden, dass möglichst viele unterschiedliche Nutzerinteressen und -bedürfnisse zufrieden stellt.6 4 Ein ausführliche Beschreibung und Analyse der Texte findet sich in Reischer (2010). Die Texte samt ihren Extracts und Quellen können beim Erstautor angefragt werden. 5 Zum Kappa-Maß und zur Kritik daran vgl. Manning (2008: 151 ff.), Eugenio & Glass (2004: 95 f.), Orasan et al. (2009), Hunt (1986). 6 Tatsächlich gab es selbst bei einer geforderten Zustimmungsrate von 75% (d. h. 10 von 13 Bewertern stimmen für einen Satz) immer mindestens zwei selektierte Sätze pro Text. Dies lässt darauf schließen, dass jeder Text tatsächlich eine Reihe essenzieller Sätze enthält, auf die sich eine 3/4-Mehrheit (unausgesprochen) einigen kann. Evaluation von Summarizing-Systemen 3 303 Evaluation Im folgenden Abschnitt werden die Kriterien zur Auswahl der Summarizer vorgestellt; daran anschließend erfolgt die Darstellung des verwendeten Evaluationsmaßes und die vergleichende Auswertung der Testkandidaten. 3.1 Getestete Summarizer Die Auswahl der zu testenden Summarizer erfolgte anhand folgenden Kriterienkatalogs: (i) Eine kostenfreie und funktional nicht eingeschränkte Version des Systems (z. B. 30-Tage-Testversion) muss als direkt ausführbare Datei für Windows XP SP3 oder Linux Mint 8 zur Verfügung stehen. (ii) Eine Dokumentation in Deutsch oder Englisch liegt vor. (iii) Die automatische Zusammenfassung englischer Texte wird unterstützt. (iv) Als Eingabe werden Texte im ASCII- bzw. Unicode-Format oder Texte aus der Zwischenablage akzeptiert (keine Online-Zusammenfassungen von Webseiten, da hier die Korpus-Texte nicht eingegeben werden können). (v) Als Textausgabe wird eine Textdatei oder Bildschirm-Darstellung erzeugt, anhand derer die Evaluation durchgeführt werden kann. (vi) Das System erlaubt ausreichende Einstellmöglichkeiten für die Länge des gewünschten Summarys als absolute oder prozentuale Angabe von Sätzen in Relation zum Volltext. Anhand dieser Kriterien wurden folgende fünf Systeme für die Evaluation ausgewählt (Zugriff 28.1.2010): • Copernic-Summarizer (http://www.copernic.com/en/products/summarizer/index.html), • Intellexer-Summarizer (http://www.intellexer.com/), • Microsoft-Word2007-Summarizer (http://www.microsoft.com/education/ autosummarize.aspx)7, • Open-Text-Summarizer (http://libots.sourceforge.net/), • Subject-Search-Summarizer (http://www.kryltech.com/summarizer.htm). Folgende Summarizer fielen aus ein oder mehreren Gründen durch das Raster obigen Kriterienkatalogs: 7 Getestet wurde hier die Vollversion, die in das kommerzielle Office-Paket integriert ist, das an der Universität Regensburg zur Verfügung steht. Eine kostenfreie Version findet sich unter http://trial.trymicrosoftoffice.com/trialgermany/default.aspx. 304 Jürgen Reischer, Daniel Lottes, Florian Meier, Matthias Stirner • Brevity-Document-Summarizer (http://www.lextek.com/brevity/brevtest.html), • MEAD-Summarizer (http://www. summarization.com/mead/), • Pertinence-Summarizer (http://www.pertinence.net/index_en.html), • Quickjist (http://quickjist-summarizer.updatestar.com/), • SenseExplore-Summarizer (http://www.soft3k.com/SenseExplore-Summarizer-p11919.htm), • Sinope-Summarizer (http://www.sinope.info/en/Download). Da auch die 30-Tage-Test-Versionen laut Herstellerangaben ohne funktionale Einschränkungen sind, wurden für die im Folgenden beschriebenen Leistungsmessungen faktisch nur Vollversionen verwendet. 3.2 Leistungsmessung Zur Messung der Leistungsfähigkeit eines Summarizers ist zum einen eine geeignete Textmenge erforderlich (s. o.), zum anderen ein Verfahren der Leistungsmessung. Ein aktueller Überblick über manuelle vs. automatisierte, extrinsische vs. intrinsische Evaluationsverfahren für Abstracting und Extracting findet sich in Saggion et al. (2010), Reischer (2010), Hovy (2004), Mani (2001a/b), Jing et al. (1998). 3.2.1 Leistungsmaße Für die Zwecke unserer Evaluation bietet sich das von Hovy (s. obiges Zitat) vorgeschlagene Vorgehen an, das das aus dem Information Retrieval erprobte Verfahren der Ermittlung von Recall- und Precision-Werten zur Grundlage nimmt. Die von den Bewertern selektierten Sätze bilden eine apriori bekannte ,Relevanzmenge‘ von Items (hier Sätze), die in Relation zu den tatsächlich von den Systemen ermittelten Items gesetzt werden: Recall = Anzahl Items im System- und Referenz-Extract –––––––––––––––––––––––––––––––––––––– Anzahl relevanter Items im Referenz-Extract Precision = Anzahl Items im System- und Referenz-Extract –––––––––––––––––––––––––––––––––––––– Anzahl ermittelter Items im System-Extract Da die Anzahl der relevanten Items vorab bekannt ist und die Summarizing-Systeme zwingend eine vorgegebene Anzahl zu ermittelnder Items benötigen, kann die Anzahl der von den Systemen zu ermittelnden Items mit Evaluation von Summarizing-Systemen 305 der Anzahl der relevanten Items gleichgesetzt werden. Daraus resultiert das sogenannte R-Precision-Maß (Baeza-Yates & Ribeiro-Neto (1999: 80), Manning et al. (2008: 148)): Anzahl Items im System- und Referenz-Extract R-Precision = ––––––––––––––––––––––––––––––––––––––––––––– Anzahl ermittelter = relevanter Items im System-Extract Das R-Precision-Maß bietet den Vorteil, dass es einfach anzuwenden ist und den Evaluationsaufwand verringert, da keine numerisch gesonderten Precision- und Recall-Werte berechnet werden müssen. Zudem liefert das Maß normalisierte Werte zwischen 0 und 1, die genau dann erreicht werden können, wenn keine bzw. alle Items der Relevanzmenge vom System korrekt ermittelt wurden. 3.2.2 Ergebnisse Tabelle 1 unten zeigt die Ergebnisse der Auswertung im Überblick, geordnet nach Korpus und Summarizing-System. Zum Vergleich sind auch die Baseline-Werte für die jeweilige Textmenge angegeben: Hierfür werden N Sätze vom Anfang jedes Textes ermittelt und die ,zufällig‘ korrekten Sätze berechnet.8 Gerade bei Nachrichten-Texten bietet die Baseline oftmals eine schwer zu schlagende Hürde (vgl. Ledeneva et al. (2008), Jurafsky & Martin (2009: 841)). Tab. 1: Ergebnisse der Evaluation (Werte auf zwei Stellen gerundet; beste Werte unterstrichen) Summarizer Baseline Copernic Intellexer OpenText SubjectSearch Word2007 Korpus ZechnerKorpus 0.43 0.59 0.40 0.58 0.37 0.47 CASTKorpus 0.15 0.47 0.51 0.46 0.47 0.36 Eigenes Korpus I 0.47 0.52 0.58 0.45 0.48 0.44 Eigenes Korpus II 0.39 0.46 0.57 0.51 0.44 0.39 Durchschnitt 0.36 0.51 0.52 0.50 0.44 0.42 8 Der vergleichsweise geringe Baseline-Wert beim CAST-Korpus erklärt sich durch den grundsätzlichen Aufbau der Texte, die am Anfang neben der doppelt angeführten Überschrift auch den Autorennamen und den Ort des beschriebenen Ereignisses stehen haben. Die Texte wurden für die Evaluation jedoch nicht verändert, da ein gutes System die Textstruktur gerade selbst erkennen können muss (z. B. anhand der geringen Satzlänge). 306 Jürgen Reischer, Daniel Lottes, Florian Meier, Matthias Stirner Ein Wert von 0.50 bedeutet, dass ein System von N relevanten und zu ermittelnden (auszugebenden) Items 50% korrekte Treffer erzielt hat, d. h. die eine Hälfte der Items in der ermittelten Satzmenge ist korrekt, die andere Hälfte falsch. Nach den Zahlen am besten schneidet der Intellexer-Summarizer ab, dicht gefolgt vom Copernic- und OpenText-Summarizer. Allerdings bleibt allein der Copernic-Summarizer als einziges System bei keiner der Textmengen unterhalb der Baseline, d. h. er bietet die ausgewogenste Leistung, auch im Hinblick auf die Aufgabenstellung an die Bewerter (zentrale, essenzielle oder informative Sätze). In allen drei Fällen liegt die durchschnittliche Performance bei etwa 50% korrekt ermittelter Sätze. Der SubjectSearch- und Word2007-Summarizer verfehlen diese Marke deutlich, wobei das Word2007-System insgesamt bei allen Textmengen am schlechtesten abschneidet. Seine Gesamtleistung liegt etwa 10 Prozentpunkte unterhalb des besten Systems und nur 6 Punkte oberhalb der Baseline. 4 Fazit und Ausblick Die besten kommerziellen und freien Systeme zum automatischen Zusammenfassen von Texten bieten eine Leistung von etwa 50% korrekt ermittelter Texteinheiten in Bezug auf entsprechende Modell- oder Referenz-Summarys. Für den alltäglichen Gebrauch mag dies eine durchaus ausreichende Leistung sein, sofern man sich schnell einen Überblick über die Inhalte eines Textes verschaffen will. Der Mehrwert solcher Systeme kommt vor allem dann zum Tragen, wenn umfangreiches Textmaterial rezipiert werden muss. Für kritische Entscheidungen (z. B. in geschäftlichen Prozessen), in denen alle relevanten Informationen ungefiltert zur Verfügung stehen müssen, eignen sich automatische Verfahren nicht. Entsprechend weisen die Hersteller darauf hin, dass keinerlei Verantwortung für (Fehl-) Entscheidungen übernommen wird, die aufgrund der Extracts von den Nutzern getroffen werden (,Disclaimer‘). Zu bedenken ist dabei auch, dass die Leistung für andere Sprachen als das Englische deutlich schlechter ausfallen kann, sodass eine generelle Aussage über diese Systeme – schon aufgrund fehlender Evaluationsressourcen für die unterstützten Sprachen – kaum möglich ist. Die Systeme müssen zudem stets einen Kompromiss hinsichtlich der verarbeitbaren Textsorten und der Aus- Evaluation von Summarizing-Systemen 307 richtung auf informative vs. indikative Summarys finden. Die hier durchgeführte intrinsische Evaluation gängiger Summarizer vermittelt daher nur einen ersten Eindruck vom Leistungsspektrum dieser Systeme. Für eine umfassendere Evaluation wären nicht nur mehr Sprachen und größere bzw. unterschiedliche Korpora notwendig, sondern auch extrinsische Evaluationen, die die Leistung der Systeme im Hinblick auf bestimmte Aufgabenstellungen messen (z. B. Entscheidung über die Relevanz von Texten). Der hierfür jeweils notwendige Aufwand ist jedoch so beträchtlich, dass dies nur schrittweise realisiert werden kann. Sinnvoll ist dabei zunächst die Vergrößerung der Datengrundlage hinsichtlich der Anzahl der Texte und in Bezug auf die Abdeckung von Textsorten. Dabei wäre schon viel gewonnen, wenn die in der Literatur erwähnten, intellektuell erstellten Ressourcen auch frei zugänglich wären bzw. nicht der Datendegeneration zum Opfer fielen.9 Literaturverzeichnis Baeza-Yates, R. & Ribeiro-Neto, B. (1999). Modern Information Retrieval. London et al.: Pearson. Barzilay, R. (1997): Lexical Chains for Summarization. Universität Negev: Masterarbeit. http://www.cs.bgu.ac.il/~elhadad/barzilay.pdf (23.8.2009) Eugenio Di, B. & Glass, M. (2004). The Kappa Statistic: A second look. Computational Linguistics, 30(1), S. 95–101. García-Hernández, R. A. & Ledeneva, Y. & Mendoza, G. M. & Dominguez, Á. H. & Chavez, J. & Gelbukh, A. & Tapia Fabela, J. L. (2009). Comparing Commercial Tools and State-of-the-Art Methods for Generating Text Summaries. Proceedings of the 8th Mexican International Conference on Artificial Intelligence (MICAI), S. 92–96. Hasler, L. & Orasan, C. & Mitkov, R. (2003). Building better corpora for summarisation. Proceedings of Corpus Linguistics 2003, S. 309–319. Hovy, E. (2004). Text Summarization. In Mitkov, R. (Hrsg.). The Oxford Handbook of Computational Linguistics. Oxford: University Press, S. 583–598. 9 Für das in Klavans et al. (1998) erwähnte Korpus trifft dies offenbar zu: Es war nicht mehr auffindbar (persönliche Kommunikation via Email). 308 Jürgen Reischer, Daniel Lottes, Florian Meier, Matthias Stirner Hunt, R. J. (1986). Percent Agreement, Pearson’s Correlation, and Kappa as Measures of Inter-examiner Reliability. Journal of Dental Research, 65(2), S. 128–130. Jing, H. & Barzilay, R. & McKeown, K. & Elhadad, M. (1998). Summarization Evaluation Methods: Experiments and Analysis. Proceedings of the AAAI Symposium on Intelligent Summarization, S. 60–68. Jurafsky, D. & Martin, J. H. (22009). Speech and Language Processing. London u. a.: Pearson Education. Klavans, J. L. & McKeown, K. R. & Kan, M.-Y. & Lee, S. (1998). Resources for Evaluation of Summarization Techniques. Proceedings of the 1st International Conference on Language Resources and Evaluation (ohne Seite). Krübel, M. (2006). Analyse und Vergleich von Extraktionsalgorithmen für die Automatische Textzusammenfassung. Technische Universität Chemnitz: Diplomarbeit. Ledeneva, Y. & Gelbukh, A. & García-Hernández, R. A. (2008). Terms Derived from Frequent Sequences for Extractive Text Summarization. In Gelbukh, A. (Hrsg.). Computational Linguistics and Intelligent Text Processing. Proceedings of CICLing 2008. Berlin & Heidelberg: Springer. S. 593–604. Mani, I. (2001a). Summarization Evaluation: An Overview. http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings2/sum-mani.pdf (5.1.2009) Mani, I. (2001b). Automatic Summarization. Amsterdam & Philadelphia: Benjamins. Manning, C. D. & Raghavan, P. & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge: University Press. Orasan, C. & Hasler, L. & Mitkov, R. (2009): Corpora for text summarisation. In Lüdeling, A. & Kytö, M. (Hrsg.). Corpus Linguistics, Bd. 2. Berlin & New York: de Gruyter, S. 1271–1286. Reischer, J. (2010): Retrieval und Ranking informativer Textpassagen. Eine theoretische und praktische Integration von informativem Summarizing und WithinDocument-Retrieval. Universität Regensburg: Habilitationsschrift. Saggion, H. & Torres-Moreno, J.-M. & da Cunha, I. & SanJuan, E. & VelázquezMorales, P. (2010). Multilingual Summarization Evaluation without Human Models. Proceedings of Coling 2010, S. 1059–1067. Tucker, R. (1999): Automatic Summarising and the CLASP system. University of Cambridge Computer Laboratory: Doktorarbeit. Zechner, K. (1995): Automatic Text Abstracting by Selecting Relevant Passages. Edinburgh: M.Sc. Dissertation. http://www.cs.cmu.edu/~zechner/abstr.pdf (23.8.2009) Bedarf an Informationsspezialisten in wissensintensiven Branchen der ... 309 Bedarf an Informationsspezialisten in wissensintensiven Branchen der österreichischen Volkswirtschaft Robert Mayo Hayes1, Karin Karlics2, Christian Schlögl2 1 University of California at Los Angeles Department of Information Studies GSE&IS Building, Box 951520, Los Angeles, CA 90095 [email protected] 2 Universität Graz Institut für Informationswissenschaft und Wirtschaftsinformatik Universitätsstraße 15/F3, A-8010 Graz karin.karlics | christian.schloegl @uni-graz.at Zusammenfassung Im vorliegenden Beitrag werden Teilergebnisse eines Projekts1 vorgestellt, in dem der Informationssektor in Österreich einer eingehenden Analyse unterzogen wurde. Das Projekt nähert sich dem Informationssektors aus einer informationswissenschaftlichen Richtung an. Ausgangspunkt sind Universitätsbibliotheken, die Informationsservices für Wissenschaftler und Studierende erbringen. Auf Basis der Bibliothekare, die diese Services erbringen, soll der Bedarf an Informationsspezialisten in wissensintensiven Branchen der Wirtschaft grob abgeschätzt werden. Nach einer Adaptierung des Gesamtmodells konnte eine relativ gute Übereinstimmung mit den entsprechenden Werten der (österreichischen) Erwerbstätigenstatistik erzielt werden. Abstract In this contribution we present partial results of a project, the goal of which was an extensive analysis of the information sector in Austria. The project approaches the information sector from an information science perspective. 1 Das Projekt wurde vom Jubiläumsfonds der Österreichischen Nationalbank gefördert. 310 Robert Mayo Hayes, Karin Karlics, Christian Schlögl University libraries providing information services and information products to researchers and students are the starting point. Based on the number of librarians in university libraries, who provide these services, we try to project the need for information specialists serving knowledge workers in knowledge industries. After the adaptation of the model designed for this purpose, we could attain a relatively good accordance between the projected and the effective number of information specialists. 1 Einführung Mittlerweile gibt es eine Reihe von Untersuchungen zum sogenannten Informationssektor. Bahnbrechend waren insbesondere die Arbeiten von Machlup (1962) und Porat (1977), auf die in Folge mehr oder weniger stark Bezug genommen wurde. Die letzte und einzige Studie mit Österreich-Bezug geht auf die 1970er Jahre zurück (Schmoranz 1980). Der in dieser Arbeit vorgestellte Ansatz unterscheidet sich von bisherigen dadurch, dass er sich dem Informationssektor aus einer informationswissenschaftlichen Perspektive annähert. Als Ausgangspunkt dienen wissenschaftliche Bibliotheken, die Wissenschaftler und Studierende mit Informationen versorgen. Die zentrale Hypothese dieser Arbeit ist, dass das Modell der Informationsversorgung einer Universität(-sbibliothek) auch auf wissensintensive Branchen (Knowledge Industries) übertragbar ist, in denen den Wissenschaftlern und Studierenden die sogenannten Wissensarbeiter entsprechen. Somit kann vom Bedarf an Bibliothekaren der Bedarf an Informationsspezialisten grob abgeschätzt werden. In diesem Aufsatz stehen die Ergebnisse und der Test obiger Hypothese im Vordergrund. 2 Forschungsfragen und Gesamtmodell Dem Projekt, auf dem der hier vorliegende Beitrag basiert, liegen folgende Annahmen zugrunde: • Annahme 1: Die Tätigkeiten von Informationsspezialisten lassen sich im Wesentlichen in die Bereiche Medienbearbeitung (Auswahl, Beschaf- Bedarf an Informationsspezialisten in wissensintensiven Branchen der ... 311 fung, formale und inhaltliche Erschließung) und Benutzerbetreuung (Anbieten von Informationsdiensten und Bereitstellen von Informationsprodukten) einteilen. Der Bedarf an Informationsspezialisten wird im Bereich der Medienbearbeitung primär vom Ausmaß an Medienzugängen und im Bereich der Benutzerbetreuung hauptsächlich von der Anzahl der Bibliotheksbenutzer bestimmt. • Annahme 2: In den mit Universitäten vergleichbaren Organisationen (wissensintensive Branchen) kann der Bedarf an Informationsspezialisten in ähnlicher Weise ermittelt werden. Insbesondere gilt, dass den Benutzern einer Universitätsbibliothek (Wissenschaftler, Studierende) Wissensarbeiter in wissensintensiven Branchen entsprechen. Weiter gilt, dass die Medienanschaffungen an einer Universitätsbibliothek den Aufwendungen für Verlagsprodukte in wissensintensiven Branchen entsprechen. Daraus leitet sich die zentrale Hypothese dieser Arbeit ab: Von der Anzahl der Bibliothekare an Universitätsbibliotheken kann der Bedarf an Informationsspezialisten in wissensintensiven Branchen grob abgeschätzt werden. Dieser Sachverhalt wird in Abbildung 1 zum Ausdruck gebracht. NATIONALE VOLKSWIRTSCHAFT – KNOWLEDGE INDUSTRIES / WISSENSINTENSIVES SEGMENT UNIVERSITÄTEN / BIBLIOTHEKEN ˜ WISSENSINTENSIVE BRANCHEN VZÄ Medienbearbeitung VZÄ Medienbearbeitung : = € Medienzukäufe Zukäufe an Verlagsprodukten = VZÄ Medienbearbeitung/ Mio. € Medienanschaffungen x ˜ VZÄ Medienbearbeitung/ Mio. € Ausgaben Verlagsprodukte VZÄ Nutzerbetreuung VZÄ Nutzerbetreuung : = Primäre Bibliotheksnutzer Wissensarbeiter = x VZÄ Nutzerbetreuung/ Primäre Bibliotheksnutzer VZÄ Nutzerbetreuung/ Wissensarbeiter ˜ Erwerbstätigenstatistik nach ÖNACE und Berufen Quelle: Arbeitskräfteerhebung Statistik Austria Berufsgruppen Primär n re Sekundär o tk Tertiär es sft Information ah IT sct ri TI W KI IS WA X X + = A rb ei ts kr äf te n ac h S ek to re n Arbeitskräfte n. Berufsgruppen IT = Information Technology Industries; TI = Transaction Industries; KI = Knowledge Industries; IS = Informationsspezialisten; WA = Wissensarbeiter; VZÄ = Vollzeitäquivalente Abbildung 1: Gesamtmodell 312 Robert Mayo Hayes, Karin Karlics, Christian Schlögl Wie aus Abbildung 1 ersichtlich ist, wird im Universitätskontext die Verhältniszahl „Mitarbeiter Medienbearbeitung (Vollzeitäquivalente – VZÄ) je 1 Mio. € Medienanschaffungen“ aus der Division der beiden Kennzahlen „Mitarbeiter Medienbearbeitung“ (Quelle: Library Planning Model) und „Medienzukäufe“ (Quelle: Bibliotheksstatistik) ermittelt. Diese Verhältniszahl wird dann für die wissensintensiven Branchen übernommen. Die Multiplikation mit den Zukäufen an Verlagsprodukten (Quelle: Input-OutputMatrix) ergibt den Bedarf an Informationsspezialisten in der Medienbearbeitung in den wissensintensiven Branchen. In ähnlicher Weise erfolgt die Berechnung der Informationsspezialisten im Nutzungsbereich. Die Bibliotheksmitarbeiter in der Nutzung (VZÄ) (Quelle: Library Planning Model) dividiert durch die Anzahl der Bibliotheksnutzer ergibt die Verhältniszahl Bibliothekare (VZÄ) je Bibliotheksnutzer.2 Zu den Bibliotheksnutzern werden zum einen wissenschaftliche Mitarbeiter und zum anderen Studierende gezählt. Da Studierende, insbesondere solche, die in Bachelor-Studiengänge eingeschrieben sind, eine deutlich niedrigere Nutzungsfrequenz als beispielsweise Forscher aufweisen, wurden die drei Hauptnutzergruppen wie folgt gewichtet: 1 (Forscher) : 2/3 (Studierende auf Masterebene) : 1/2 (Studierende auf Bachelorlevel). Die Verhältniszahl „Bibliothekare in der Nutzerbetreuung je Bibliotheksnutzer“ wird wiederum in den volkswirtschaftlichen Kontext übertragen. Die Multiplikation mit der Anzahl der Wissensarbeiter in den wissensintensiven Organisationen ergibt den Bedarf an Informationsspezialisten im Nutzungsbereich. Aus der Summe der Informationsspezialisten aus beiden Bereichen (Medienbearbeitung und Nutzung) errechnet sich schließlich deren Gesamtbedarf. 3 Methoden und Datenquellen Im Projekt wurden folgende Methoden verwendet: • Library Planning Model (LPM) • Input-Output-Analyse.3 2 Um Zufallsschwankungen zu vermeiden, werden die Zahlen für eine durchschnittliche österreichische Universität(-sbibliothek) verwendet. 3 Eine detaillierte Beschreibung dieser beiden Methoden findet sich im Beitrag von Hayes, Karlics und Schlögl (2009). Bedarf an Informationsspezialisten in wissensintensiven Branchen der ... 313 Bei dem von Hayes (2001) entwickelten Library Planning Model (LPM) handelt es sich um ein Werkzeug zur Leistungsmessung in wissenschaftlichen Bibliotheken. Damit ist es auf der Grundlage von Erfahrungswerten möglich, den Bedarf an Mitarbeitern, finanziellen Ressourcen und ServiceEinrichtungen für eine bestimmte Bibliothek zu schätzen. Für das vorliegende Projekt war die Bestimmung der Mitarbeiterbedarfe in der Medienbearbeitung und Benutzerbetreuung für eine durchschnittliche österreichische Universitätsbibliothek von Relevanz. Zu diesem Zweck musste dieses für amerikanische Bibliotheken entwickelte Modell an die österreichische Situation angepasst werden (Karlics & Hayes 2008; Hayes, Karlics & Schlögl 2009). Gefüttert wurde das LPM primär mit Daten aus der österreichischen Bibliotheksstatistik (Quelle: Statistik Austria 2007) und dem Data warehouse uni:data (Quelle: Bundesministerium für Wissenschaft und Forschung 2010). Die Input-Output-Analyse (Statistik Austria 2010a) diente dazu, den Input (die Zukäufe) an Verlagsprodukten in den wissensintensiven Branchen zu ermitteln. Diese Informationen können sogenannten Verwendungstabellen entnommen werden, die mit einer Zeitverzögerung von drei Jahren veröffentlicht werden. In einer Verwendungstabelle wird zum Ausdruck gebracht, welche Güter in welcher Höhe in die einzelnen Branchen (Intermediärverbrauch) und in den Endkonsum einfließen. Beispielsweise kann aus ihr abgelesen werden, welche Branchen Güter der Klasse 22 (Verlags- und Druckerzeugnisse) in welcher Höhe bezogen haben. Die Verwendungstabellen für das Jahr 2005 – der im Projektzeitraum aktuellsten Version – liegen in einer Detailliertheit 73 (Güter) × 74 (Branchen) vor. Die im Jahr 2005 relevante Klassifikation war die in der EU zu jenem Zeitpunkt verwendete NACE Rev. 1.1. Da es Ziel dieser Arbeit ist, den Bedarf an Informationsspezialisten in wissensintensiven Branchen (Knowledge Industries) abzuschätzen, war es zunächst erforderlich, diese abzustecken. Nach dem Verständnis dieser Arbeit handelt es sich dabei um alle „Organisationen, die sich in erster Linie mit der Erzeugung von neuem und der intellektuellen Analyse von bestehendem Wissen sowie der Informationsvermittlung beschäftigen.“ (Hayes, Karlics & Schlögl 2009, 119). Demgemäß wurden folgende NACE-Branchen den Knowledge Industries zugeordnet: 22 – Verlagswesen, Druckerei, Vervielfältigung; 73 – Forschung und Entwicklung; 74A – Rechts-, Steuer- und Unternehmensberatung, Markt- und Meinungsforschung, Beteiligungsgesellschaften; 74B – Architektur- und Ingenieurbüros, technische, physikalische und chemische Untersuchung; 74C – Werbewesen; 75 – Öffentliche Verwaltung, 314 Robert Mayo Hayes, Karin Karlics, Christian Schlögl Sozialversicherung; 80 – Unterrichtswesen; 85A – Gesundheits- und Veterinärwesen; 90 – Interessensvertretungen, Vereine; 92A – Kultur, Sport und Unterhaltung; 92B – Hörfunk- und Fernsehanstalten, Film- und Videoherstellung, -verleih und -vertrieb, Lichtspieltheater (Kinos). Als weitere wesentliche Datenquelle ist schließlich noch die Erwerbstätigentabelle (Quelle: Statistik Austria 2010b) zu nennen. Diese enthält die Beschäftigtenzahlen (nach Köpfen), die auf Grundlage des Labour ForceKonzepts im Rahmen einer jährlichen Mikrozensus-Studie (Stichprobe: 0,6% der österreichischen Haushalte) erhoben werden. Die Erwerbstätigendaten wurden in den beiden Dimensionen Branchen und Berufe zur Verfügung gestellt. Die Berufsdimension auf Basis der ISCO-88 Berufsklassifikation (ILO 2004) war dabei relativ detailliert (3-Steller). Auch die Branchendimension lag auf einer detaillierteren NACE-Ebene (3-Steller) als die Verwendungstabelle vor. Insofern war es kein Problem, die für das Projekt benötigten Kennzahlen für Wissensarbeiter bzw. Informationsspezialisten in den wissensintensiven Branchen zu ermitteln, wobei noch zu klären ist, wie sich diese beiden Berufsgruppen zusammensetzen. Laut dem Begriffsverständnis der hier vorliegenden Arbeit führen Wissensarbeiter primär Tätigkeiten aus, die die Erzeugung von neuem Wissen, die Transformation von bestehendem Wissen in eine für den Empfänger geeignete Form oder die Verteilung von Wissen zum Gegenstand haben. Als Grundlage für die Ermittlung der Wissensarbeiter diente das auf der ISCOBerufsklassifikation basierende „OECD information worker scheme“ (OECD 1981, 24), das Informationsarbeiter in vier Haupt- und elf Unterkategorien einteilt. Im Projekt wurden den Wissensarbeitern, die enger als Informationsarbeiter laut OECD abgesteckt wurden, folgende vier Unterkategorien zugerechnet: wissenschaftliche und technische Berufe, beratende Dienstleistungen, Pädagogen und Berufe im Kommunikationswesen. Die Informationsspezialisten konnten ohne den Umweg über das OECDSchema bestimmt werden. Sie entsprechen den ISCO-Klassen „243 – Archivare, Bibliothekare und verwandte Informationsspezialisten“4 und „414 – Bibliotheks-, Post- und verwandte Angestellte“4, wobei aus Letzterer „Postund verwandte Angestellte“ herausgefiltert wurden. 4 Quelle: http://www.ilo.org/public/english/bureau/stat/isco/isco88/ Bedarf an Informationsspezialisten in wissensintensiven Branchen der ... 315 4 Ergebnisse In diesem Kapitel werden die durchgeführten Berechnungen Schritt für Schritt (siehe auch Abb. 2) vorgestellt. Im Universitätskontext ergaben sich folgende Werte für eine durchschnittliche österreichische Universitätsbibliothek: • Bibliothekare in der Medienbearbeitung: 23,4 VZÄ [1]5 • Bibliothekare in der Nutzerbetreuung: 27,9 VZÄ [2] • Medienzukäufe: € 1.414.609 [3] • Bibliotheksnutzer: 6.569 VZÄ [4]. Daraus wurden die beiden Verhältniszahlen „Bibliothekare in der Medienbearbeitung je 1 Mio. € Medienzukäufe“ (16,54 VZÄ [5]) und „Bibliothekare je Bibliotheksnutzer“ (0,004247 VZÄ [6]) errechnet. Zur Bestimmung der Informationsspezialisten im Nutzungsbereich war es erforderlich, die Anzahl der Wissensarbeiter in den wissensintensiven Branchen zu ermitteln. Dieser Wert wurde aus der nach Branchen und Beschäftigtengruppen gegliederten Erwerbstätigentabelle errechnet (siehe Tabelle 1). Tabelle 1: Anzahl der Wissensarbeiter und Informationsspezialisten auf Ebene der einzelnen (Sub-) Sektoren der österreichischen Volkswirtschaft im Jahr 2005 Wissensarbeiter Information Technology Industries Information Transaction Industries Knowledge Industries (wissensintensive Branchen) absolut 317.066 relativ 33,7% 315.185 33,3% 337.755 73,2% Informationsspezialisten absolut relativ Input Verlagsund Druckerzeugnisse absolut 3.327.220 .3624.263 3.477 71% 2.104.695 (Quelle: Statistik Austria und eigene Berechnungen) und Input der ÖNACE Klasse 22 – Verlag- und Druckerzeugnisse pro (Sub-) Sektor (Intermediärverbrauch) im Jahr 2005 (in 1.000 €) (Quelle: Statistik Austria – Verwendungstabelle 2005). 5 Die Angaben in eckigen Klammern beziehen sich auf die Einträge in Abbildung 2. 316 Robert Mayo Hayes, Karin Karlics, Christian Schlögl Wenig überraschend ist, dass ein Großteil der Wissensarbeiter (337.755 [7a] bzw. 73,2%) in den wissensintensiven Branchen tätig ist. Zu berücksichtigen ist noch, dass bei den Universitäten, die ja auch Teil der Knowledge Industries sind, die Studierenden eine Nutzergruppe darstellen, die von herkömmlichen Beschäftigungsstatistiken nicht berücksichtigt werden. Die Zahl der Studierenden [7b] – wiederum gewichtet nach Bachelor und Master, um unterschiedlichen Nutzungsniveaus zu entsprechen – ist daher den Wissensarbeitern zuzuschlagen. Multipliziert man nun die Gesamtzahl der Nutzer in den Knowledge Industries (561.872 [7]) mit der Verhältniszahl „Informationsspezialisten je Wissensarbeiter“, so ergibt sich ein errechneter Bedarf von 1919 Informationsspezialisten (im Nutzungsbereich) [8]. Für die Bestimmung der Informationsspezialisten in der Medienbearbeitung muss zunächst der Input an Verlagsprodukten in den Knowledge Industries errechnet werden (siehe Tabelle 1). Die Multiplikation dieser Zahl, für die ein Wert von 2.104,7 Mio. € [9] ermittelt wurde, mit der Verhältniszahl „Informationsspezialisten je 1 Mio. € Zukäufe an Verlagsprodukten“ [5] ergibt einen errechneten Bedarf von 34.815 Informationsspezialisten (in der Medienbearbeitung) [10]. Addiert man noch die Informationsspezialisten im Benutzungsbereich hinzu, so kommt man auf einen Bedarf an Informationsspezialisten von insgesamt 36.734 VZÄ [11]. Wie aus Abbildung 2 ersichtlich ist, ist die errechnete Zahl für Informationsspezialisten zehn Mal so hoch wie der aus der Beschäftigtenmatrix ermittelte Wert (3.477 [12]), wobei sich Letzterer nicht auf Vollzeitäquivalente, sondern auf Köpfe bezieht. Die ursprünglich aufgestellte Hypothese, wonach man von der Anzahl der Bibliothekare an Universitätsbibliotheken auf den Bedarf an Informationsspezialisten in Knowledge Industries schließen kann, kann somit nicht bestätigt werden. Eine Ursache liegt am hohen Wert für Verlags- und Druckerzeugnisse, wobei eigentlich nur Verlagsprodukte für das Projekt relevant wären. Da die Input-Output-Tabellen aber nicht auf diesem Detailliertheitsgrad vorliegen, wurde bei der Ermittlung der Informationsspezialisten ein viel zu hoher Wert angesetzt. Eine endgültige Ablehnung der Hypothese ist mit absoluter Gewissheit also nicht möglich, wenn auch die Vermutung nahe liegt, dass Ankäufe von Verlagsprodukten in Bibliotheken in Relation zu den Knowledge Industries deutlich höher sein dürften. Bedarf an Informationsspezialisten in wissensintensiven Branchen der ... 317 Universitäts(-bibliotheks)kontext Bibliothekare VZÄ in der Medienbearbeitung 23,4 [1] : : Medieneinkäufe (Mio. €) 1,41 [3] = = Bibliothekare Medienbearbeitung VZÄ je 1 Mio. € Medieneinkäufe 16,54 [5] Bibliothekare in der Nutzerbetreuung (VZÄ) 27,9 [2] : : Bibliotheksnutzer = 6.569 [4] = Bibliothekare VZÄ in der 0,004247[6] Nutzerbetreuung je Bibliotheksbenutzer Knowledge Industries Informationsspezialisten VZÄ in der Medienbearbeitung = Einkäufe an Verlagsprodukten (Mio. €) x Informationsspezialisten ≈ VZÄ Medienbearbeitung je 1 Mio. € Medieneinkäufe Informationsspezialisten VZÄ in der Nutzerbetreuung = Wissensarbeiter + Studierende (gewichtet) x Informationsspezialisten ≈ VZÄ Nutzerbetreuung je Wissensarbeiter 34.815 [10] = 2.104,7 [9] x 16,54 [5] 1.919 [8] = (337.755 [7a]+ 114.117 [7b]) x 0,004247 [6] Informationsspezialisten in Knowledge Industries lt. Modell (gesamt) (Informationsspezialisten Nutzerbetreuung (VZÄ) [8] + Informationsspezialisten Medienbearbeitung (VZÄ) [10]) : 36.734 [11] Informationsspezialisten in Knowledge Industries (gesamt) laut Statistik Austria für das Jahr 2005: 3.477 [12] Abbildung 2: Berechnung der Informationsspezialisten im Gesamtmodell Da der tatsächliche Wert für Ankäufe von Verlagserzeugnissen aus der Aufkommenstabelle der Input-Output-Rechnung nicht eruierbar ist, wurde in weiterer Folge eine alternative Vorgehensweise beschritten. Es wurde auf die Trennung von Medienbearbeitung und Benutzung (Annahme 1) verzichtet. Stattdessen soll von der Verhältniszahl „alle Bibliothekare [1]6 je Benutzer“ [2] auf den Bedarf an Informationsspezialisten in wissensintensiven Branchen geschlossen werden. Wie aus Abbildung 3 zu sehen ist, kommt es zu einer relativ guten Übereinstimmung zwischen dem errechneten Bedarf an Informationsspezialisten (3.494 VZÄ [3]) und dem von Statistik Austria im Jahr 2005 erhobenen Wert (3.477 Köpfe). 6 Die Angaben in eckigen Klammern beziehen sich auf die Einträge in Abbildung 3. 318 Robert Mayo Hayes, Karin Karlics, Christian Schlögl Universitäts(-bibliotheks)kontext Bibliothekare VZÄ gesamt (lt. Statistik Austria) 50,8 [1] : : Bibliotheksnutzer = Bibliothekare gesamt je User (VZÄ) 6.569 = 0,007733 [2] ≈ Knowledge Industries Informationsspezialisten VZÄ gesamt 3.494 [3] = Wissensarbeiter + Studierende (gewichtet) x = (337.755 + 114.117) x Informationsspezialisten VZÄ gesamt je Wissensarbeiter 0,007733 [2] Abbildung 3: Berechnung der Informationsspezialisten im adaptierten Gesamtmodell 5 Einschränkungen der Studie und Ausblick Auch wenn im adaptierten Gesamtmodell eine relativ gute Übereinstimmung von errechnetem Bedarf an Informationsspezialisten mit jenem laut Erwerbstätigenstatistik erzielt werden konnte, sollen die während des Projekts aufgetretenen Problembereiche nicht verschwiegen werden: Ein generelles Problem besteht im hohen Aggregationsniveau von volkswirtschaftlichen Analysen. Beispielsweise liegt die Aufkommenstabelle nur als 73 × 74-Matrix vor. Für die Bestimmung der Zukäufe an Verlagsprodukten wäre es aber wünschenswert gewesen, die NACE-Klasse 22 um eine Ebene tiefer (Klasse 22.1 Verlagserzeugnisse) vorliegen zu haben. Darüber hinaus hätte die Abgrenzung der Knowledge Industries präziser vorgenommen werden können, wenn die Daten in einigen Fällen (z. B. öffentliche Verwaltung) detaillierter vorgelegen hätten. Die Beschäftigtentabelle lag zwar in ausreichender Detailliertheit (NACE und ISCO 3-Steller) vor. Da aber die Beschäftigtendaten in Form einer Mikrozensus-Studie erhoben werden, bei der nur 0,6% der österreichischen Haushalte befragt werden, müssen die Werte in den einzelnen Zellen aus Signifikanzgründen laut Auskunft von Statistik Austria (2009) einen bestimmten Schwellenwert (3.000) überschreiten, damit sie statistisch interpretierbar sind. Da aber die Gesamtzahl der Informationsspezialisten in den sich aus elf Branchen zusammensetzenden Knowledge Industries knapp über diesem Wert liegt, ist diese Anforderung nur bedingt erfüllt. Darüber hinaus muss berücksichtigt werden, dass bei der Mikrozensus-Erhebung Köpfe ge- Bedarf an Informationsspezialisten in wissensintensiven Branchen der ... 319 zählt werden. Der den Vollzeitäquivalenten entsprechende Wert, der dem errechneten Bedarf gegenübergestellt wird, sollte daher niedriger sein. Auch am LPM, das allerdings im adaptierten Modell nicht mehr benötigt wurde, sind Kritikpunkte auszumachen. Dieses wurde für US-Bibliotheken entwickelt, die im Vergleich zu Bibliotheken aus dem deutschsprachigen Raum teilweise unter anderen Rahmenbedingungen operieren. Diesen sollte durch diverse Modellanpassungen entsprochen werden. Schließlich sei noch darauf hingewiesen, dass im vorliegenden Projekt nur explizit mit Informationsmanagement-Tätigkeiten betraute Personen (Bibliothekare/Informationsspezialisten) berücksichtigt wurden. Insofern kann das hier beschriebene Projekt als Ausgangspunkt für eine Folgestudie mit einem wesentlich weiteren Fokus dienen. Zum einen sollten Informationsmanagement-Tätigkeiten nicht nur auf externe Informationen bezogen werden. In vielen Organisationen spielt das Management der intern generierten Informationen (z. B. Dokumentenmanagement oder Information Architecture) eine ähnlich wichtige Rolle. Zum anderen führen Wissensarbeiter selbst eine Reihe von informationellen Tätigkeiten durch. Interessant wäre es nun, auch das Ausmaß dieser Tätigkeiten zu erheben. Eine Folgestudie lässt sich allerdings nicht mehr auf einer derart aggregierten Ebene durchführen. Angeregt wird daher eine Analyse in dafür in Frage kommenden Organisationen (z. B. in wissensintensiven Branchen) selbst. Literaturverzeichnis Bundesministerium für Wissenschaft und Forschung (2010). uni:data Datawarehouse des Bundesministeriums für Wissenschaft und Forschung. http://www.bmwf.gv.at/unidata (Retrieved October 25, 2010) ILO (2004). ISCO: International Standard Classification of Occupations – ISCO 88. International Labour Organization. http://www.ilo.org/public/english/bureau/stat/isco/isco88/index.htm (Retrieved October 25, 2010) Hayes, R. (2001). Models for Library Management, Decision-Making, and Planning. San Diego: Academic Press. Hayes, R., Karlics, K., Schlögl, C. (2009). The problem of measuring e-resources. In: Proceedings of LIDA 2009 conference, University of Zadar, Department of Li- 320 Robert Mayo Hayes, Karin Karlics, Christian Schlögl brary and Information Science, and Rudgers University, School of Communication, Information and Library Studies, S. 95–103. Karlics, K., Hayes, R. (2008). The Austrian Library Planning Model: Information use – USA versus Austria. In: J. Selthofer et al. (Eds): Proceedings of the LIDA 2008 conference, University of Osijek, S. 263–274. Machlup, F. (1962). The Production and Distribution of Knowledge in the United States. Princeton, N.J.: Princeton University Press. OECD (1981). Information Activities, Electronics and Telecommunications Technologies: Impact on Employment, Growth and Trade. Paris: OECD. Porat, M. U. (1977). The Information Economy: Definition and Measurement. Washington: US Department of Commerce. Schmoranz, I. (1980). Makroökonomische Analyse des Informationssektors. Schriftenreihe der Österr. Computer Gesellschaft. Wien: Oldenbourg. Statistik Austria (2007). Kulturstatistik 2005, Wien. http://www.statistik.at/dynamic/wcmsprod/idcplg?IdcService=GET_NATIVE_FILE &dID=48956&dDocName=024111 (Retrieved October 25, 2010) Statistik Austria (2009). E-Mail von Statistik Austria „Erwerbstätigenstatistik nach Wirtschaftszweigen (ÖNACE) und Beruf (ISCO)“ vom 13.4.2009. Statistik Austria (2010a). Input-Output-Statistik. http://www.statistik.at/web_de/statistiken/volkswirtschaftliche_gesamtrechnungen/in put-output-statistik/index.html (Retrieved October 25, 2010) Statistik Austria (2010b). Arbeitsmarkt. http://www.statistik.at/web_de/statistiken/arbeitsmarkt/index.html (Retrieved October 25, 2010) Bedarf an Informationsspezialisten in wissensintensiven Branchen der ... 321 Session 8: User Experience & Behavior 322 Isto Huvila Mining qualitative data on human information behaviour from the Web Isto Huvila Uppsala University – Dept of ALM Thunbergsvägen 3H, SE-75126 Uppsala, Sweden [email protected] Abstract This paper discusses an approach of collecting qualitative data on human information behaviour that is based on mining web data using search engines. The approach is technically the same that has been used for some time in webometric research to make statistical inferences on web data, but the present paper shows how the same tools and data collecting methods can be used to gather data for qualitative data analysis on human information behaviour. Introduction The theoretical and methodological variety of information behaviour (IB) research is considerable (e.g. Fisher et al., 2005; Case, 2002; Wilson, 2010). In spite of the wealth of theoretical frameworks and methods, the prevalent approaches tend to focus on broad surveys of large populations or focused indepth studies of small groups of people. Especially the qualitative approaches tend to be labour intensive both during data collection and analysis phases. Large quantitative require a relatively broad understanding of the studied phenomenon before data collection. Surveys have persistent problems with response rates that pertains to both web based and other types of surveys (e.g. Bertot, 2009). The present article discusses an approach of collecting data on IB that is based on mining web data. The approach is technically the same that has been used for sometime in webometric research (Thelwall et Mining qualitative data on human information behaviour from the Web 323 al., 2005) to make statistical inferences on web data, but the present paper shows how the same tools and data collecting methods can be used to gather data for qualitative data analysis on IB. Mining data from the web Webometric mining of web data is based on the fact that large amounts of data can be collected automatically using techniques like web crawling or by exploiting the application programming interfaces (API) provided by major search engines like Google, Bing and Yahoo (Thelwall et al., 2005). The methods used to collect quantifiable data for webometric research can also be used to collect qualitative data. The present study is based on two experiments made in November 2009 and 2010 using LexiURL Searcher software (Thelwall, 2009) that can be used to retrieve various types of research data from the major search engines using their respective APIs. The experiments were based on batch searching of lists of web pages that contain a selection of IB related utterances listed in Table 1. A second experiment with search engine related phrases gave similar results to the first one. Another set of data with phrases “I tried to Google but” (532 hits, 44 valid hits in 50 analysed phrases), “I tried to search on Yahoo” (19, 13/14), “I tried to search in” (803, 49/50), “I tried to search in/on the Internet” (178, 35/50), “I tried to look for” (943, 22/50), “I searched on/in Wikipedia” (168, 50/50) and “I searched on/in Youtube” (752, 50/50) were analysed with (from methodological point of view) comparable outcomes. Table 1: Examples of analysed utterances related to unsuccessful social information seeking. Utterance “i asked my friends but” Hits IB relareturned ted hits 75 39 55 “is asked my [mum/mom] but” “i asked my dad 116 but” 31 93 Example of data “I asked my friends [about language use], but they were like, ‘Young, we grew up in English. It’s so hard to explain’.” “Um what’s a prostitute? I asked my mum but she won’t tell me.” “I asked my dad but he couldn’t explain it so I could understand.” 324 Isto Huvila The web pages that contained the utterances were analysed using content analysis and close reading to map the variety of characteristics and patterns in the information seeking situations and their contexts. Finally, the utterances were classified using the constant comparative method. A full analysis of the data is presented in (Huvila, 2010). The column Hits returned in Table 1 indicates the number of retrieved web pages. The column IB related hits lists the number of web pages that in the analysis were found to contain information relevant from an IB point of view. The final column short examples of the type of information that can be retrieved using the discussed method. Even if the analysed utterances are specific phrases related to question asking and web searching types of IB, it is obvious that the proposed approach may be used with any conceivable utterances present in web pages indexed by the search engines used for data collection. The searches can be made also using standard search engine user interfaces, but the LexiURL software helps to collect the results to a single file that facilitates the analysis of the material. Discussion According to the observations made during the experiments, the principal benefits of using Web data were 1) that all publicly available Web data is freely accessible for research purposes, 2) Web data is relatively easy to collect and 3) Web pages contain a large corpus of heterogeneous data from all over the world. There are, however, some evident limitations with the data collection method. The material is collected from the Web and is therefore likely to represent only a very biased sample of all possible information interactions. The specific phrases tend also to be common in particular types of web pages. The utterances analysed in the present study were common in discussion forums, question and answer (Q&A) services and blogs. Besides its contextual specificity, another pertinent aspect of the harvested data is that the study population is limited to an unknown sample of information seekers. The utterances and their contexts contain only occasional and consequential evidence of the demographics of the studied population. The problem is similar to the difference in populations between Web based, telephone and postal surveys. Only web users (and with the present method, only contributors) are Mining qualitative data on human information behaviour from the Web 325 represented on the web and only those with a landline telephone are able to participate in random digit dialling telephone surveys (Bertot, 2009; Deutskens et al., 2004). Because the data collection procedure tends to retrieve data that is unrelated to the intention of the researcher, the dataset needs to be cleaned up for exclusion of invalid data. In the two described experiments, the constant comparative method Glaser & Strauss (1967) seemed to result in a reasonnably confident identification of valid and invalid cases. It is, of course, possible to use other validation methods including multiple indexer approaches (Foster et al., 2008) to increase confidence to the data. There are also some specific ethical considerations that pertain to the harvested data. The data is de facto publicly available on the Web. Because it was not originally published with a forthcoming IB research in mind, a special emphasis should be placed on a respectful use of the data and, if necessary, anonymisation of the individual cases. In spite of its evident limitations, the proposed data collection method has several advantages. The limitations may be considered acceptable in quailtative studies aiming to map the variety of information interactions. Most of the sampling related problems (e.g. what is known of the total population, what is the context of the data) discovered during the experiments apply also to the conventional qualitative and quantitative approaches even if sometimes to a slightly lesser extent. Even if the two experiments showed that the specificity contextual evidence tends to vary case by case, the data was rich enough to make inferences on specific aspects of information interactions (e.g. the reasons of failed information seeking). Another strength of the proposed approach is that it may be used to complement other types of data collection methods as a part of a triangulation strategy. The method makes it also possible to study (theoretically) global or semi-global populations. At the same time it is possible to restrict the sample, for instance, by selecting the language of the search phrases or by focussing on specific top-level domains of the searched web sites. Considering its limitations, the principal asset of the approach is, however, that data collection using LexiURL Searcher and similar tools is fast and easy. The low cost of acquiring data makes it possible to experiment with a large number of phrases. The acquired data can be analysed both qualitatively and statistically, and even if the contexts and richness of the data tend to be heterogeneous, the approach can provide rich contextual descriptions of IB. 326 Isto Huvila Conclusions Mining web data using search engines APIs provides a novel approach for collecting data for qualitative information behaviour research. The principal benefits of the method are that the data is freely accessible for research purposes, it is easy to collect and the amount of collectable data from all over the world is considerable. The method and especially the resulting data have, however, several limitations. The sample is unknown, individual contexts may be hard to characterise and the results are difficult to generalise. In spite of its limitations, the approach can effectively complement other data collection methods and especially, to provide data for qualitative exploratory analysis with an ambition to map a phenomenon rather than to achieve generalisable results. References Bertot, J. C. (2009). Web based surveys: Not your basic survey anymore. The Library Quarterly, 79(1), 119–124. Case, D. O. (2002). Looking for information: A survey of research on information seeking, needs, and behaviors. San Diego: Academic Press. Deutskens, E., Ruyter, K. de, Wetzels, M. et al. & Oosterveld, P. (2004). Response rate and response quality of internet-based surveys: An experimental study. Marketing Letters, 15(1), 21–36. Fisher, K., Erdelez, S. & McKechnie, L. E. (Eds.). (2005). Theories of information behavior. Medford, NJ: Information Today. Foster, A, Urquhart, C. & Turner, J. (2008). Validating coding for a theoretical model of information behaviour. Information Research, 13(4). Huvila, I. (2010). “I asked my Mum, but” and other cases of unsuccessful information seeking by asking. Proceedings of the ISIC 2010. Murcia: University of Murcia, 179–191. Thelwall, M., Vaughan, L. & Björneborn, L. (2005). Webometrics. ARIST, 39(1), 81–135. Wilson, T. D. (2010). Fifty years of information behavior research. Bulletin of the ASIS&T, 36(3), 27–34. The Social Persona Approach 327 The Social Persona Approach Using Facebook to Illustrate User Groups Rahel Birri Blezon1, René Schneider2 Haute école de gestion de Genève Campus de Battelle – Bâtiment F – Route de Drize 7 CH-1227 Carouge 1 E-Mail: [email protected] 2 E-Mail: [email protected] Abstract This paper presents the result of a survey conducted in collaboration between the project ACCEPT and the Geneva University Library. The objective was the evaluation of use and usefulness of the libraries’ digital resources. To present the results, the survey responses were used to create “personas”, fictional characters representing users’ needs and actions. Personas are described on 1 or 2 pages including attitudes, goals, skills, as well as some fictional details to make the persona a more realistic character. For this last part, Facebook was used to find “personal” information to illustrate appropriately the different user groups and their corresponding needs. 1 Usability and usefulness in digital libraries Evaluating digital libraries and electronic resources occupies information specialists since the first projects in the 1990’s. The following three facets can be evaluated: system, content and user. The interaction framework (figure 1) of Tsakonas/Papatheodorou (2008, p. 1238) represents these features and their relationships: performance, usability and usefulness. This last point is the link between content and user and evaluates source relevance (how 328 Rahel Birri Blezon, René Schneider does the content correspond topically to the task), document format (e.g. PDF, Word), resource reliability (or credibility), information level (e.g. full text, abstract, metadata) and coverage of the deposited documents (timelessness or degree of temporal coverage). Figure 1: Interaction triptych Framework In contrast to usability evaluation for which several established methods exist, analysing usefulness is slightly more difficult because there do exist no “standard methods” so far. However, there are two main approaches: evaluations based on attributes and evaluations based on questionnaires. The first one consists of an attribute or criteria list, usually filled out by an information specialist (expert centred approach). To evaluate these attributes – e.g. relevance of the subject, format etc. – a value is assigned to each criteria to allow a weighting. The second approach consists in establishing a questionnaire which is handed out to the target audience (user centred approach). The Social Persona Approach 329 The users do some exercises to evaluate a resource or a system and to respond to the questionnaire. It is also possible to combine both approaches: A questionnaire containing a list of attributes is handed out to users (and not to experts) who weight the criteria. This combination was used in the context of ACCEPT (Analyse du Comportement du Client – Evaluation des Prestations de Téléchargement), a subproject of the E-lib.ch-initiative which consists in developing a Swiss electronic library. The objective of ACCEPT is to ensure the aspects of usefulness and usability within E-lib.ch. In this context, a survey was conducted in collaboration with the Faculty libraries of the University of Geneva. 2 Methodology The survey by online questionnaire was conducted between December 7 to 31 2009. Five departments of the University of Geneva were chosen: humanities, medicine, psychology and educational science, the school of translation and interpreting, as well as the institute for teacher-training. The return rate was around 8% (655 completed questionnaires). 2.1 Personas The concept of personas consists in creating human stereotypes of a target public. Each persona has a name and specific characteristics – like attitudes, goals, skills and environment. As a persona should be as realistic as possible, some fictional details are added to make it more “human”. The idea is to create for each user group a stereotype, so that the system is developed based on users’ needs (Machate 2003). However, a persona is not just a listing of data; it’s a factsheet containing a photo and personal details: name, age, hobbies, professional experience etc. There are usually between four and six personas for a system. 330 2.2 Rahel Birri Blezon, René Schneider Using Facebook – how to proceed To find more personal details for personas, social network profiles can be studied. We consider Facebook as most appropriate since it is used largely by students. This social platform is therefore very useful to find typical forenames, activities and interests for your personas. A Facebook profile allows searching groups (in our case and among others: “Université de Genève”, “Faculté de lettres”, “Département d’histoire générale” etc.). Joining a group gives access to the member’s list and the different profiles. Private information is often only available if you’re a friend of a person. However, some people have a more “public” profile and it’s possible to get information about activities, study fields, books and movies people like. Once enough data “collected”, they can be rearranged to create the personas and combined with photos labeled for reuse. 3 Results The survey results were combined in different reports for the University of Geneva. Based on these diagrams, three to four personas were created for each department: a bachelor persona, a master persona, a teacher persona and a researcher persona. These last two personas were sometimes taken together when their responses were similar or when there weren’t enough responses. We’ll just present one persona, with usefulness aspects marked in italic. Françoise is professor in educational science. She’s 45, married and has a 10 years old daughter. She loves New York and goes regularly to the theatre or opera. She plays piano. Françoise prefers the electronic version of a journal because it’s accessible anytime and anywhere. It can be saved on a computer, searched by keywords; it’s handier and more ecological. She’d like the library to acquire more journal backfiles, so that she can access the archive of a journal online. She consults the electronic resources almost daily. She’s rather satisfied with the communication about the electronic resources. The format of a resource isn’t extremely important. However, level of detail and up-do-dateness are very important for her work. She spends a lot of time to find a specific resource (figure 2). The Social Persona Approach Figure 2 Persona “Françoise” 331 332 4 Rahel Birri Blezon, René Schneider Conclusions Personas are an easy way to represent user groups and their needs. They help to create user-centered services and products by understanding their way of acting and searching. Furthermore, creating personas makes work more interesting. Besides the empirical data collected by survey or interviews, you need creativity to portray a human persona: “If I were a master student in general history, what would be my name, my hobbies and my needs?” Social networks provide the basic elements for this creative process. References/Literaturverzeichnis E-lib.ch (2010). Website of the Electronic Library Switzerland. http://www.e-lib.ch/index_e.html Haute école de gestion de Genève HEG (2010). Website of ACCEPT. http://campus.hesge.ch/id_bilingue/projekte_partner/projekte/accept/kontext_eng.asp Machate, J. (2003). Von der Idee zum Produkt: mit Benutzern gestalten. Machate, J. und Burmester, M., User Interface Tuning – Benutzungsschnittstellen menschlich gestalten, 83–96. Frankfurt: Software und Support Verlag. Mulder, S., Yaar, Z. (2007). The User Is Always Right: a Practical Guide to Creating and Using Personas for the Web. Berkley, California: New Riders. Tsakonas, G., Papatheodorou, C. (2008). Exploring usefulness and usability in the evaluation of open access digital libraries. Information processing and management, Vol. 4, Issue 3, 1234–1250. „Mobile Tagging“: Konzeption und Implementierung eines mobilen ... 333 „Mobile Tagging“: Konzeption und Implementierung eines mobilen Informationssystems mit 2D-Tags Elena Shpilka1, Ralph Koelle2, Wolfgang Semar3 1 Universität Hildesheim 2 Universität Hildesheim Marienburger Platz 22 Marienburger Platz 22 31141 Hildesheim 31141 Hildesheim [email protected] [email protected] 3 HTWChur Ringstrasse 34 CH-7004 Chur [email protected] Zusammenfassung Dieser Beitrag beschreibt das Konzept, die Implementierung sowie die Evaluierung eines mobilen Informationssystems unter Verwendung von „mobile tagging“ in einer universitären Umgebung. Abstract This paper describes the concept, implementation as well as evaluation of a mobile information system, which is based on the “mobile tagging” technology and employed in a university environment. 334 Elena Shpilka, Ralph Koelle, Wolfgang Semar Einleitung Die letzten Jahre waren stark geprägt von einer rasanten Entwicklung auf dem Gebiet der mobilen Informations- und Kommunikationstechnologien. Die letzten Hürden fallen: die Rechenleistung der mobilen Endgeräte erreicht PC-Niveau, Breitbandnetze stehen zu moderaten Flatrates zur Verfügung und mobil verfügbare Daten finden mittels Cloud-Computing Verwendung. Schätzungen zufolge werden bis 2014 Mobilfunkgeräte den PC als das gängigste Gerät für den Internetzugang überholt haben (Morgan Stanley Research 2009). Mobile Internetfunktionen haben den Durchbruch im Massenmarkt geschafft: 13% der Mobilfunknutzer, damit ca. 10 Mio. Deutsche, verwenden mittlerweile das mobile Internet (Bitkom 2010). Laut Bitkom verwenden sogar 48% der Nutzer ihre Handykamera1. Mobiles Tagging verbindet beide Technologien und schafft neue Möglichkeiten, die reale Umgebung mit Diensten des mobilen Internets anzureichern. Im Folgenden werden das Konzept, die prototypische Implementierung sowie die Evaluierung eines mobilen Informationssystems unter Verwendung mobilen Taggings in einer universitären Umgebung vorgestellt. Mobilität Mit Mobilität wird in Anlehnung an Lehner (2003b) die physische Bewegung von Geräten, Objekten, Diensten, Informationen und Personen in Bezug auf die Kommunikationsnetze bezeichnet. In Bezug auf die Informationsgesellschaft kann man von einer „Mobilität der Information“ sprechen (vgl. Steimer et al. 2001: 16 ff.). Die Daten werden am Ort des Geschehens erfasst. Mobile Anwender können alle möglichen Informationen rund um die Uhr und an nahezu beliebigen Orten empfangen und weiterverarbeiten. Die Ergebnisse dieser Verarbeitungsprozesse können je nach Bedarf an beliebige andere Orte transferiert werden. 1 Die Begriffe Handy, Mobiltelefon und Smartphone werden synonym verwendet. „Mobile Tagging“: Konzeption und Implementierung eines mobilen ... 335 Mobile Informationssysteme Bei mobilen Informationssystemen handelt es sich um Systeme, die durch die Nutzung der mobilen Endgeräte für Kommunikation und Informationstransfer zu betrieblichen und privaten Zwecken zur Verfügung stehen. Die mobilen Informationssysteme unterscheiden sich von den traditionellen Informationssystemen hinsichtlich der technischen Umsetzung in folgenden Punkten: • Die Gestaltung der Benutzeroberfläche ist durch die Hardware bestimmt und im Vergleich zu den Desktop-Anwendungen sehr beschränkt. • Die Verbindung erfolgt drahtlos. Die Speicherkapazität der mobilen Endgeräte ist kleiner, Verbindungsqualität und -geschwindigkeit sind in der Regel schlechter. • Die Sicherheitsmechanismen der mobilen Endgeräte haben momentan noch nicht das Niveau der Desktop-Systeme erreicht (vgl. Krogstie 2005). Diesen eher als nachteilig einzustufenden Eigenschaften stehen aber auch positive gegenüber (Lehner 2003a: 11–13): • Ortsunabhängigkeit: Gemeint ist hier der Vorteil der Mobilität, dass man mit einem mobilen Endgerät unabhängig von seinem Aufenthaltsort zu jeder Zeit in der Lage ist, mit einer Client-Anwendung auf lokale oder entfernte Dienste zuzugreifen, Daten abzurufen und zu bearbeiten. • „Kostengünstigkeit“: Im Vergleich zu den traditionellen PCs sind mobile Geräte weniger komplex, viel kompakter und dadurch auch günstiger. • Convenience: Mobile Geräte sind leicht und kompakt gebaut und meistens so konzipiert, dass sie einfach und schnell bedienbar sind. Nach Lehner findet das Mobiltelefon im Hinblick auf das Surfen im Internet mehr Akzeptanz unter Nutzern als ein stationärer PC zum Telefonieren. • Als weitere Vorteile werden die Lokalisierbarkeit, Personalisierung sowie Identifizierbarkeit der Teilnehmer genannt. Zusammengefasst führt der Zugriff auf mobile Informationssysteme zu mehr zeitlichem und räumlichem Freiraum. Die Möglichkeit, auf Informationen zu jeder Zeit und überall zuzugreifen, kann somit zu einer Rationalisierung des Informationsmanagements und zur Gewinnung zusätzlicher und aktuellerer Informationen führen (vgl. Biland & Saager 2004: 20 ff.). 336 Elena Shpilka, Ralph Koelle, Wolfgang Semar Mobile Tagging Der Begriff „mobile tagging“ kommt aus dem Englischen: das Wort „tag“ bedeutet Kennzeichen und beschreibt das Hinterlassen von Informationen. „Mobile“ weist darauf hin, dass diese Tags für mobile Endgeräte und mobile Informationssysteme konzipiert sind (vgl. Hartz 2009). Es handelt sich also zum einen um die Auszeichnung eines Gegenstandes mit einem Tag, zum anderen um einen Prozess des Auslesens, Auswertens und ggf. Bearbeitens der im Tag codierten Daten. Somit stellt „mobile tagging“ eine Schnittstelle zwischen der realen, anfassbaren Welt und dem mobilen Internet zur Verfügung (Hutter et al. 2008: 1). Abbildung 1 zeigt einen „Quick Response (QR)“-Tag2, der von der japanischen Firma Denso Wave im Jahr 1994 entwickelt wurde, und in seiner Pixel-Struktur einen Link zur ISI 2011 Webseite beinhaltet. Abbildung 1: Link zu http://www.isi2011.de Zur Nutzung des QR-Tags braucht man ein (idealerweise mobiles) Endgerät, das eine Kamera und einen Internetzugang hat. Mithilfe einer speziellen Software (Reader), die für jedes aktuelle Mobiltelefon kostenlos erhältlich ist, wird der Code mit der Kamera eingescannt und intern weiterverarbeitet. Je nach Pixelstruktur kann dann auf eine Website verlinkt, ein Text (zum Lesen und Speichern), ein Termin (zur Integration in den persönlichen Kalender) oder eine elektronische Visitenkarte (für das eigene Adressbuch) dargestellt werden. 2 Neben den im Online-Bereich verbreiteten QR-Tags werden Aztec-Codes bei der Bahn für Online-Tickets verwendet, Datamatrix ist überwiegend von Briefmarken bekannt. „Mobile Tagging“: Konzeption und Implementierung eines mobilen ... 337 Aktueller Entwicklungsstand von QR-Tags Einer Studie der Fachhochschule Schmalkalden zufolge ist „für den QRCode […] der kritische Massepunkt für eine weitere Verbreitung in Deutschland erreicht“ (Urban & Leisen 2010). Die Autoren schließen dies aus den Ergebnissen ihrer Befragung von 516 Personen im November und Dezember 2009. Die Ergebnisse im Einzelnen: 83,8% gaben an, eine Zugangsmöglichkeit zum mobilen Internet zu haben, 89,1% der verwendeten Geräte hätten eine Kamera integriert. Damit wären die grundlegenden Funktionen des „mobile tagging“ vorhanden. 25% (der Anwender mit technologisch entsprechend ausgestatteten Geräten) gaben an, bereits QR-Codes gescannt zu haben. Weitere 25,4% kennen die QR-Codes, haben diese aber bislang noch nicht genutzt. Bisherige Hemmschwellen seien hauptsächlich in mangelnden Anwendungsmöglichkeiten (17%) und geringen Mehrwerten (54%) zu sehen. Primär genutzte Anwendungsfelder seien weiterführende Informationen in Zeitungsartikeln (66%) und zusätzliche Nähr- und Inhaltsstoffe auf Lebensmittelverpackungen (Extended Packaging, 65%)3. Abbildung 2: Verwendete 2D-Tags 3 Allerdings kann bei einem Anteil von 84,7% männlichen Teilnehmern und einem hohen Anteil junger Befragter (44,8% zwischen 19 und 25 Jahre alt) wahrscheinlich nicht von einem repräsentativen Ergebnis gesprochen werden. 338 Elena Shpilka, Ralph Koelle, Wolfgang Semar Eine Online-Befragung der Universität Hildesheim mit 129 Teilnehmern bestätigt die Ergebnisse weitgehend. Neben dem generellen Interesse an der Technologie selbst sowie ihren vielfältigen Anwendungsfeldern werden mobile Tags bereits von vielen Befragten aktiv genutzt (Shpilka 2010: 79). So haben etwa 40% der Befragten angegeben, mobile Tags schon verwendet zu haben. QR-Tags fanden dabei die häufigste Anwendung (vgl. Abbildung 2). Unter Nutzungsszenarien wurden primär Tags auf Verpackungen, die Nutzung von Online-Fahrplänen, und Tags zu Werbezwecken genannt (vgl. Abbildung 3). Abbildung 3: Verwendung von 2D-Tags Die Frage nach weiteren sinnvollen Anwendungsfällen für mobile Tags wurde mit „Informationen zu Produkten“, „Abfrage aktueller Fahrpläne“, „ortsbezogene Dienste“, „schnelle Kontaktaufnahme“, „Authentifizierung“ sowie „Produkte online erwerben“ beantwortet, wobei jedoch 69 Befragte fehlende Standardisierung bei Tag-Readern bzw. -Scannern bemängelten, 46 mögliche Verbindungskosten und 47 Datenschutz als Problem nannten (vgl. Abbildung 4). Im weiteren Verlauf der Umfrage wurden die Befragten mittels einer Filterfrage in zwei Gruppen eingeteilt und nur diejenigen befragt, die im universitären Kontext arbeiten oder studieren (77 von 129). Favorisiert wurden von der universitären Gruppe das Abrufen von Klausurergebnissen, das Herunterladen des Mensaplans sowie von Aufgaben und Unterlagen, die Kontaktdaten und Termine als Tags enthalten (Shpilka 2010: 82). „Mobile Tagging“: Konzeption und Implementierung eines mobilen ... 339 Abbildung 4: Probleme beim Einsatz von mobilen Tags Obwohl über 30% der Befragten der Technologie eine ähnliche Verbreitung wie in Japan, wo über 70% der Mobilfunknutzer mobile Tags verwenden, absprechen, wurde die Technologie des „mobile tagging“ insgesamt positiv bewertet (Shpilka 2010: 82). Die positiven Rückmeldungen, das offensichtlich große Entwicklungspotenzial sowie der steigende Trend der Verwendung von 2D-Tags brachte die Idee hervor, ein auf „mobile tagging“ basierendes Informationssystem zu entwickeln und zu evaluieren. Konzept eines universitären Informationssystems Dank der relativ hohen Speicherkapazität (bis ca. 7 KByte) und einem hohen Datensicherheitslevel von QR-Codes ist es grundsätzlich möglich, diese für Speicherung und Veröffentlichung von umfangreichen Informationen zu benutzen, beispielsweise für digitale Visitenkarten, SMS- oder Kontaktformulare. Dem steht allerdings eine heterogene Sammlung von Tag-Readern und Anwendungen entgegen, die die Nutzung von mobilen Tags erschwert. 340 Elena Shpilka, Ralph Koelle, Wolfgang Semar Basierend auf der Idee, die vielfältigen Anwendungsmöglichkeiten von QR-Tags in einem System zu bündeln und so der Heterogenität der Systeme und Reader entgegen zu wirken, wurde der Prototyp eines Informationssystems entworfen, das „mobile tagging“ und sein Anwendungspotenzial für einen universitären Kontext nutzbar macht (Shpilka 2010: 64). Das Informationssystem „Tagging University“ besteht aus einer Server – und einer mobilen Client-Anwendung. Die Server-Anwendung ermöglicht es, mobile Tags mit verschiedenen Informationstypen zu erstellen: Kalendertermine, Aufgaben, Internetadressen, Telefonnummern, digitale Visitenkarten, E-Mail- und SMS-Formulare. Während vorhandene Systeme ähnliche Funktionalitäten bieten (Mobile Barcoder4, QR Code Tag5), soll die ServerAnwendung ihre Informationen zukünftig direkt aus den universitätsinternen Informationssystemen wie Vorlesungsverzeichnis und Lernmanagementsystem beziehen. Für die Evaluation des Prototyps war diese Funktion noch nicht notwendig. Die mobile (Client-) Anwendung bietet die Möglichkeit, QR-Tags zu scannen sowie die erkannten Daten zu speichern, zu organisieren und weiterzuverarbeiten. So können stundenplan- und prüfungsbezogene Termine in den Terminplaner eingetragen werden und stehen ggf. nach einer Synchronisation auch auf stationären Computern oder Laptops zur Verfügung. Digitale Visitenkarten können um weitere Informationen ergänzt werden. Internetadressen (URLs), z.B. auf aktuelle Institutsmeldungen bzgl. Verlegung oder Ausfall von Veranstaltungen oder Sprechstunden, können in einer internen Datenbank im Mobiltelefon gespeichert und jederzeit wieder aufgerufen werden. Durch die zentrale Datenhaltung auf dem mobilen Gerät ist somit der orts- und zeitunabhängige Zugriff auf universitätsrelevante Daten möglich, was einer Verbesserung bzw. Vereinfachung von Kommunikations- und Organisationsprozessen dienen soll. QR-Tags stellen darüber hinaus die Funktion zur einfachen Aktualisierung und Erweiterung der gespeicherten Daten zur Verfügung. 4 Als Firefox-AddOn: https://addons.mozilla.org/de/firefox/addon/2780/ 5 Als Google Chrome Erweiterung: http://www.chromeextensions.org/utilities/qr-codetag/ „Mobile Tagging“: Konzeption und Implementierung eines mobilen ... 341 Evaluation Die erwähnte Online-Umfrage der Universität Hildesheim hat gezeigt, dass grundsätzlich Interesse an universitären Funktionen auf Basis mobiler Tags besteht (Shpilka 2010: 78). Die größte Akzeptanz haben folgende Vorschläge gefunden: Klausurergebnisse per Tag abrufen (48 von 77), Mensaplan anschauen (49), Aufgaben bzw. Lernunterlagen herunterladen (38) und Kontaktdaten und Termine aus Vorlesungsskripten übernehmen (37)6. In Rahmen einer empirischen Evaluation wurden Benutzertests durchgeführt, um die technische Umsetzung des entwickelten Prototyps in der Praxis zu testen. 10 Probanden mussten die mobile Anwendung auf dem eigenen mobilen Gerät installieren und anhand der vorgegebenen Aufgaben die Funktionen des Einscannens, der Tag-Erkennung und Weiterverarbeitung der gewonnenen Informationen durchführen. Die Funktionsfähigkeit der Applikation wurde insgesamt bestätigt. Die durchschnittliche Rate der erkannten Tags lag bei ca. 75%. Die meisten Probanden (80%) haben angegeben, dass die Anwendung intuitiv zu bedienen sei. Eine Testperson hat es als umständlich empfunden, weil zu viele Tasten gedrückt werden mussten. Die Angaben zu den Antwortzeiten waren unterschiedlich, in den meisten Fällen (ca. 80%) dauerte der Scan- bzw. Entschlüsselungsprozess zu lange. Die anderen Reaktionszeiten wie bei den Speicherfunktionen oder dem Anzeigewechsel wurden von ca. 80% positiv bewertet (Shpilka 2010: 85). Obwohl QR-Tags prinzipiell schon seit über 15 Jahren – insbesondere in Japan – genutzt werden, zeigt der Benutzertest, dass es nach wie vor Probleme bei der Erkennung und Verarbeitung der Tags gibt. Daher wurde zur Optimierung der Erkennungsrate in Rahmen der Benutzertests versucht, eine optimale Größe der mobilen Tags zu ermitteln. Die Ergebnisse haben gezeigt, dass die Maße von ca. 4 × 4 cm eine optimale Größe für die Erkennung darstellen, da solche Tags von allen Geräten schnell erkannt wurden. Bei den kleineren Tags mussten mehrere Versuche durchgeführt werden. Da der Prozess des Einscannens und der Erkennung durch viele Faktoren wie Beleuchtung oder Verwackeln beeinflusst wird, bietet die oben genannte Größe mehr Sicherheit der Erkennung und dient daher der Usability des Systems. 6 Auf einer Skala von 1 (gut bewertet) bis 5 (negativ bewertet) wurden jeweils die Bewertungen 1 und 2 summiert. 342 Elena Shpilka, Ralph Koelle, Wolfgang Semar Abbildung 5: Durchführung eines Benutzertests Bei der Durchführung der Benutzertests wurde darüber hinaus festgestellt, dass die ausgewählte Java-Technologie trotz der Plattformunabhängigkeit, die als ein wesentlicher Vorteil dieser Technologie gilt, nicht optimale Ergebnisse lieferte. Es zeigt sich, dass Hersteller der mobilen Geräte oft nur die Kern-Module von Java ME implementieren, was dazu führt, dass nicht alle für das entwickelte Informationssystem notwendige Java-Pakete (wie z.B. das Multimedia-Paket) auf den Geräten vorhanden waren, was die Nutzung des Systems beeinträchtigte oder gar verhinderte (bei 3 von 10 Geräten). Leider lassen sich solche Pakete bei der überwiegenden Zahl der Geräte nicht einfach nachinstallieren, da sie in die Firmware integriert sind. Somit stellt die Java-Technologie zwar eine gute Basis für die Entwicklung von mobilen Applikationen dar, eine einheitliche Unterstützung der Java-Konfigurationen durch die Hersteller wäre allerdings dringend notwendig. Für die Nutzung von „Tagging University“ sind weitere Tests auf Geräten verschiedener Plattformen nötig. Dazu bieten sich Geräte mit AndroidBetriebssystem an, da die Applikationen dieser Plattform auf Java basieren. Ausblick Die Technologie mobiler Tags hat trotz ihres geringen Alters bereits eine hohe Entwicklungsstufe erreicht. Die Vielzahl der Einsatzmöglichkeiten „Mobile Tagging“: Konzeption und Implementierung eines mobilen ... 343 macht „mobile tagging“ für viele Branchen und unterschiedliche Einsatzgebiete attraktiv. Zurzeit werden Tags in der Logistik (Hompel et al. 2008) zur Warenverfolgung oder als elektronische Tickets (Fahr- und Eintrittskarten) eingesetzt. Mobile Tags sind perfekte Werbemittel, weil sie wenig Platz brauchen und relativ viele Informationen enthalten können. Das Ziel der Entwicklung des „Tagging University“ Systems an der Universität Hildesheim war die Bündelung möglichst vieler Funktionalitäten in einer Anwendung, um eine Unterstützung der Benutzer beim persönlichen Informationsmanagement bzgl. Termin-, Kontakt- oder Datenverwaltung zu erreichen. Befragungen und Benutzertests haben gezeigt, dass, wie die Technologie des „mobile tagging“ selbst, das „Tagging University“ System hohes Potenzial zur Weiterentwicklung hat. Dabei stehen die Usability, die Implementierung für weitere Plattformen sowie die Integration in universitäre Prozesse im Fokus. So ist eine direkte Anmeldung zu Prüfungen oder Sprechstunden über mobile Tags mit automatischer Sicherung der Daten in der internen Datenbank des Systems umzusetzen. Durch die Speicherung stände dem Benutzer jederzeit eine Übersicht über Anmeldungen und Termine zur Verfügung. Durch Integration interner Systeme wie dem Handy-Kalender ist eine Synchronisation sehr einfach möglich, darüber hinaus können Konflikte erkannt werden und das System den Nutzer warnen. Der verbreiteten Verwendung des Telefons bzw. des Smartphones als Termin-, Adress- und Wissensverwaltungssystem würde weiterer Vorschub geleistet. Eine weitere nützliche Anwendung ist die Verknüpfung von Online- und Offline-Medien der Lernmanagementsysteme. Mittels Tags können Termine, Hausaufgaben und Skripte einfach auf das mobile Gerät heruntergeladen werden. Das Potenzial an Weiterentwicklungen ist hoch. In jedem Fall sollte die Entwicklung durch die bewährte Nutzerbeteiligung mittels Befragung und Usability-Tests unterstützt werden. Literaturverzeichnis Biland, Lars; Saager, Oliver (2004): Mobile Computing – Business Models / I. Vertiefungsrichtung IT Management /E-Business. Seminararbeit. Fachhochschule Basel. http://www.ecademy.ch/ecademy/ecadpubli.nsf/id/323 344 Elena Shpilka, Ralph Koelle, Wolfgang Semar Bitkom (2010): Drei Viertel der Handy-Nutzer versenden SMS. http://www.bitkom.org/files/documents/BITKOM-Presseinfo_HandyFunktionen_Ranking_23_08_2010%282%29.pdf Hartz, Wilko (2009): Basiswissen QR Code. http://qrcode.wilkohartz.de/ Hompel, Michael; Büchter, Hubert; Franzke, Ulrich (2008): Identifikationssysteme und Automatisierung. Berlin: Springer. Krogstie, John (2005): IFIO TC8 Special Interest Group on Mobile information system (MOBIS). http://www.idi.ntnu.no/~krogstie/MOBISTC8web.htm Lehner, Franz (2003a): Mobile und drahtlose Informationssysteme: Technologien, Anwendungen, Märkte. Berlin: Springer. Lehner, Franz (2003b): MobiLex : Lexikon und Abkürzungsverzeichnis für Mobile Computing und mobile Internetanwendungen. Herausgegeben von Universität Regensburg. (Schriftenreihe Wirtschaftsinformatik). Morgan Stanley Research (2009): The Mobile Internet Report: Ramping faster than Desktop Internet, the Mobile Internet Will Be Bigger than Most Think. http://www.morganstanley.com/institutional/techresearch/pdfs/mobile_internet_report .pdf Pascal Andres (August 2009): 2D-Codes: Überblick und Einsatzszenarien für Hochschulen. B.A. Abschlussarbeit. HTW Chur. Shpilka, Elena (2010): Mobiles Tagging: Konzeption und Implementierung eines mobilen Informationssystems mit 2D-Tags. Magisterarbeit. Universität Hildesheim Steimer, Fritz L.; Maier, Iris; Spinner, Mike (2001): mCommerce: Einsatz und Anwendung von portablen Geräten für mobilen eCommerce. München: AddisonWesley. Urban, Thomas; Leisen, Christian (2010): Mobile Tagging. Eine empirische Studie zur Akzeptanz von QR-Codes. Fachhochschule Schmalkalden. http://www.multi-media-marketing.org/dateien/QR-Summary-V1-00.pdf User Interface Prototyping 345 User Interface Prototyping Eine Evaluation spezifischer Werkzeuge Johannes Baeck1, Sabine Wiem2, Ralph Kölle3, Thomas Mandl3 1 Conrad-Blenkle-Straße 49, Berlin [email protected] 2 3 IBM Interactive, Beim Strohhause 17, Hamburg [email protected] Universität Hildesheim, Marienburger Platz 22, Hildesheim [email protected] Zusammenfassung Die Eignung von Prototyping-Werkzeugen zur Erstellung interaktiver Prototypen hängt stark vom Anwendungsfall ab. Der Beitrag beschreibt die Evaluierung von Prototyping-Werkzeugen für einen spezifischen Anwendungsfall. Dazu wurde ein Kriterienkatalog entwickelt, der auf Basis der Anforderungen bei IBM Interactive Hamburg gewichtet wurde. In einem Benchmark wurden 27 Systeme auf 20 Kriterien hin bewertet. Fünf Systeme wurden in einer heuristischen Analyse intensiver auf ihre Usability hin untersucht. Die zwei am besten geeigneten Systeme wurden in einem abschließenden Benutzertest mit der derzeitigen Lösung verglichen. Abstract Selecting a suitable tool for creating interactive prototypes depends on the exact case of application. This thesis examines the method of User Interface Prototyping on the basis of a specific use case. To this purpose a criteria catalogue was assembled in order to weigh the findings against the specific requirements of IBM Interactive Hamburg. 27 dedicated prototyping tools were evaluated against the selected 20 benchmark criteria. Subsequently an in depth assessment was conducted of the usability of five selected systems. 346 Johannes Baeck, Sabine Wiem, Ralph Kölle, Thomas Mandl Lastly, two tools fitting the criteria best were compared to the currently used solution through application in a user test. Einleitung: User Interface Prototyping Um Interaktionsmöglichkeiten zu visualisieren, wird häufig User Interface Prototyping eingesetzt. Dafür bietet sich eine Vielzahl unterschiedlicher Werkzeuge an, welche spezifische Stärken und Schwächen aufweisen. Insbesondere bei der Darstellung komplexer Interaktionsmöglichkeiten erfordern gängige Anwendungen einen hohen Umsetzungsaufwand. Zielsetzungen des Prototyping Entscheidend bei der Wahl eines Ansatzes ist die Zielsetzung des Prototypen und der Mehrwert der durch den Einsatz generiert wird. So werden beim explorativen Prototyping erste Ideen in Form von Skizzen erstellt, um angemessene Lösungsansätze in einem iterativen Prozess zu erkunden (Bäumer et al. 1996; Preece et al. 2002). Beim experimentellen Prototyping können Hypothesen überprüft werden und daraufhin Anpassungen am System vorgenommen werden (Bäumer et al. 1996). Das frühzeitige Anfertigen von Prototypen kann zu einer besseren Kommunikation führen, da ein klarer Referenzpunkt für alle an der Entwicklung beteiligten Interessengruppen geschaffen wird (Warfel 2009). Um Missverständnisse zu vermeiden die durch verbale Erläuterungen entstehen, kann ein Prototyp zudem als lebende Spezifikation eingesetzt werden, um kritische Interaktionsmechanismen zu visualisieren (Rudd et al. 1996; Arnowitz et al. 2007). Um Usability-Probleme frühzeitig zu erkennen, sollten Prototypen mit realen Nutzern des Systems evaluiert werden, um spätere Kosten zu vermeiden (Vredenburg et al. 2002). Prototypen-Charakteristiken Abhängig von der gewünschten Zielsetzung sind einige Aspekte zu beachten, damit die Prototypenerstellung im betreffenden Projekt einen Mehrwert erzeugen kann (Preim 1999; Warfel 2009). Insbesondere die angemessene Wahl der Fidelity eines Prototypen, also seine Ähnlichkeit mit dem endgül- User Interface Prototyping 347 tigen System kann entscheidend für den Erfolg des Prototyping sein (Lim et al. 2005). Klassifiziert man Prototypen eindimensional nach ihrer Fidelity, haben Low-Fidelity-Prototypen den Vorteil einer kostengünstigen und wenig zeitintensiven Erstellung und werden daher häufig in frühen Projektphasen eingesetzt. High-Fidelity-Protoypen ähneln dem Endprodukt bereits sehr stark und eignen sich daher besonders zur Spezifikation eines Systems und als Marketingwerkzeug (Rudd et al. 1996). Die Fidelity eines Prototypen kann darüber hinaus mehrdimensional definiert werden, indem beispielsweise in visuelle und funktionale Fidelity unterschieden wird (Arnowitz 2007; Beecher 2009). Weitere Faktoren sind das eingesetzte Medium (digital vs. physisch), der Umfang (horizontal vs. vertikal) und die Weiterverwendung des Prototypen (Wegwerf- vs. evolutionäre Prototypen). Werkzeuge Während physische Prototypen gemeinhin mit Papier und Stift erstellt werden (Paper Prototyping), wird beim digitalen Prototyping eine Vielzahl unterschiedlicher Werkzeuge eingesetzt. Die Werkzeuge können in folgende Kategorien eingeteilt werden (Arnowitz 2007; Warfel 2009): • Präsentations- und Visualisierungssoftware (Microsoft Visio, Microsoft Powerpoint, etc.) • Grafikanwendungen (Adobe Fireworks, Adobe Photoshop, etc.) • Entwicklungsumgebungen (Adobe Flash/Flex, Adobe Dreamweaver, etc.) • Spezifische Prototyping-Werkzeuge (Axure RP Pro, iRise, etc.) • Sonstige Anwendungen (Adobe Acrobat, Microsoft Excel, etc.) Der Fokus dieser Arbeit liegt auf der Untersuchung spezifischer PrototypingWerkzeuge. Methodisches Vorgehen Die initiale Auswahl der zu bewertenden Werkzeuge wurde auf Grundlage der zum Zeitpunkt der Untersuchung verfügbaren Anwendungen getroffen. Hierbei wurden 38 spezifische Prototyping-Werkzeuge identifiziert, also ex- 348 Johannes Baeck, Sabine Wiem, Ralph Kölle, Thomas Mandl plizit als Prototyping-Werkzeug bezeichnete Programme. Neben einigen Grenzfällen1, wurden aus den ursprünglich 38 identifizierten Anwendungen elf Anwendungen nicht in die Bewertung mit einbezogen. Darunter befanden sich nicht ausgereift klassifizierte Anwendungen, nicht eigenständig2 klassifizierte und ein nicht funktionsfähiges Programm. Für die Bewertung der verbleibenden 27 Tools wurde ein mehrstufiger Prozess entwickelt. Den Beginn der Untersuchung bildete eine Anforderungsanalyse. Hierfür wurden sowohl allgemeine Anforderungen als auch die Bedürfnisse der potenziellen Nutzer bei IBM Interactive Hamburg erfasst. Als Grundlage dienten Experteninterviews mit drei User Experience-Beratern. Diese Personen wurden ausgewählt, da sie die meiste Erfahrung mit dem Einsatz von Prototyping-Techniken hatten. In den Interviews wurden Fragen zum bisherigen Einsatz von Prototyping-Methoden, den Zielsetzungen und dem Einsatz von interaktiven Prototypen gestellt. Durch die allgemeine und spezifische Anforderungsanalyse wurden ausreichend viele Informationen erhoben, um eine Sammlung von Kriterien für die Evaluation zu definieren. Aus diesem Arbeitsschritt ergaben sich drei Arten von Kriterien: pragmatische, funktionale und Usability-Kriterien. Um die spezifischen Anforderungen bei IBM Interactive zu erfassen, wurde daraufhin eine Gewichtung der Kriterien auf Basis einer Online-Befragung durchgeführt. Bei der Gewichtung wurden auf Grund ihrer hohen Anzahl nur die funktionalen Kriterien mit einbezogen. Der entsprechende Fragebogen wurde an zehn Mitarbeiter der IBM Interactive Hamburg geschickt. Die Rücklaufquote lag bei 90%. Die Befragten konnten die Priorität der Kriterien auf einer Skala von 1 (niedrige Priorität) bis 5 (hohe Priorität) bewerten. Auf die Definition und Gewichtung der Bewertungskriterien folgte die Bewertung der Werkzeuge. Dabei wurden alle Anwendungen einer Grobbetrachtung hinsichtlich funktionaler und pragmatischer Kriterien unterzogen. Für die Detailbetrachtung wurden schließlich die fünf bestplatzierten Anwendungen nach Einbeziehung der Kriteriengewichtung ausgewählt. Die Detailbetrachtung der fünf ausgewählten Anwendungen wurde in zwei Bereiche eingeteilt: Eine pragmatische und funktionale Detailbetrachtung sowie eine analytische Betrachtung der Usability. Im ersten Teil der 1 Bei einigen Anwendungen fiel die Einordnung als spezifisches Prototyping-Werkzeug schwer. Im Zweifelsfall wurden grenzwertige Anwendungen aufgrund der Vielzahl an verfügbaren Anwendungen nicht berücksichtigt. 2 Hier handelte es sich um Erweiterungen für andere teils kostenpflichtige Programme. User Interface Prototyping 349 Detailbetrachtung wurde jede der fünf Anwendungen qualitativ auf ihre individuelle Funktionsweise und hinsichtlich pragmatischer Faktoren überprüft. Im zweiten Teil der Detailbetrachtung wurde eine heuristische Evaluation durchgeführt. Mit den zwei vielversprechendsten Anwendungen aus der analytischen Betrachtung folgte ein Nutzertest. Ziel war es, die Ergebnisse aus der heuristischen Evaluation zu überprüfen und die Anwendungen auf ihre Usability zu untersuchen. Hierfür wurde mit beiden Anwendungen ein Testprototyp erstellt, der im Rahmen eines realistischen Szenarios von den Testpersonen geändert werden sollte. An diesem Test nahmen acht Mitarbeiter von IBM Interactive Hamburg teil. Anforderungsanalyse Nach einer ausführlichen Literaturrecherche wurden bei der Suche nach konkreten Kriterien für Prototyping-Werkzeuge fünf relevante Quellen identifiziert. Dabei wurde besonders die Usability und die Effizienz der Prototypenerstellung sowie pragmatische Faktoren wie der Preis und die Verfügbarkeit einer Anwendung als relevant eingeordnet (Memmel et al. 2007). Aus den Experteninterviews ergaben sich Erkenntnisse zum bisherigen Einsatz von User Interface Prototyping-Methoden und Aussagen über Anforderungen an potenzielle Werkzeuge. Da das zumeist eingesetzte Microsoft Visio einige essentielle Funktionen nicht originär unterstützt, wurde bei IBM Interactive Hamburg mithilfe von Visual Basic ein Makro-Paket unter dem Namen IBM Tools entwickelt, um die Funktionalität zu erweitern. Die befragten Experten äußerten zahlreiche Anforderungen: Abhängig vom Projekt sei zunächst der finanzielle Aufwand zu beachten. Da bei IBM Interactive Hamburg MS Windows eingesetzt wird, muss die Anwendung auch auf dieser Plattform lauffähig sein. Webanwendungen seien nicht grundsätzlich abzulehnen, allerdings sollten diese auch ohne Internetzugang verwendbar sein, da Mitarbeiter häufig unterwegs sind. Um eine effektive Zusammenarbeit mit Kunden zu gewährleisten, sei es notwendig, dass diese mit dem Prototypen interagieren können, ohne eine eigene Lizenz für die Anwendung zu besitzen. Wünschenswert in der Kundenzusammenarbeit sei weiterhin eine integrierte Kommentarfunktion. Die Spezifikation von Benutzungsoberflächen erfolge zurzeit in der Regel mithilfe von statischen Wireframes und Beschreibungen 350 Johannes Baeck, Sabine Wiem, Ralph Kölle, Thomas Mandl in Textform. Wünschenswert wäre eine stärker an den Prototypen gekoppelte Dokumentationsmöglichkeit sowie eine komfortablere Tabellenfunktion. Die Darstellung von Interaktivität in Microsoft Visio – über die einfache Verknüpfung von Seiten hinaus – ist sehr umständlich und limitiert. Die Möglichkeit Master zu nutzen, Vorlagen zu erstellen und Hintergrundseiten anzulegen wird bei IBM intensiv genutzt. Eine Möglichkeit die visuelle Erscheinung des Prototypen zu verändern und die UI-Elemente beispielsweise handgezeichnet darstellen zu lassen, wurde von den Befragten als interessant eingeschätzt. Für Visio seien entsprechende Shapes erhältlich, wurden jedoch noch nicht eingesetzt. Bewertungskriterien Zunächst wurden pragmatische Kriterien definiert, um wirtschaftliche und technische Faktoren, die für den Einsatz in der Praxis relevant sind, zu erfassen (siehe Tabelle 1). Tabelle 1: Pragmatische Kriterien Anforderungsbereich Kriterium Wirtschaftliche Faktoren Kosten für Einzellizenz Kosten für Sammellizenz Möglichkeit kommerzieller Nutzung Technische Faktoren Plattform Der Großteil der allgemeinen und spezifischen Anforderungen war funktionaler Natur. So ergaben sich sowohl aus der Literatur als auch aus den Experteninterviews Anforderungen in Hinblick auf die Dokumentations- und Kollaborationsfunktionalität von Prototyping-Werkzeugen. Zudem wurde die Wiederverwendbarkeit von vorhandenen Elementen und Prototypen gefordert, um Prototypen schnell zu erstellen und flexibel ändern zu können. Schließlich wurde in der Fachliteratur und den Experteninterviews der Bedarf nach Prototypen mit hoher Interaktivität deutlich. Eine Einteilung in unterschiedliche Anforderungsbereiche schien zweckdienlich. Innerhalb dieser Anforderungsbereiche wurden einzelne Kriterien gesammelt, um die Stärken und Schwächen der untersuchten Anwendungen möglichst umfassend abzubilden (siehe Tabelle 2). User Interface Prototyping 351 Tabelle 2: Funktionale Kriterien Anforderungsbereich Kriterium Basisfunktionalität Format des Prototypen und Exportmöglichkeiten Offlinefähigkeit Erstellung von Prototypen mittels Drag-and-drop-Technik Definition der Benutzerführung durch Flussdiagramme (Flow-Charts) oder Szenarien Dokumentation Hinzufügen von Kommentaren und Erläuterungen zum Prototypen durch den Ersteller Automatische Erstellung eines Spezifikationsdokuments Integration in Anforderungsmanagement-Software wie Rational Requirements Composer Flexibilität/ Erweiterungsmöglichkeit der Anwendungsfunktionalität Wiederverwendbarkeit über die Standardfunktionen hinaus (z. B. durch Makros) Wiederverwendbare und editierbare UI-Elemente für gängige Anwendungsfälle (Stencils / Widget Library) Erweiterungsmöglichkeit der vorhandenen UI-Elemente Wiederverwendung durch Masterseiten oder -elemente Variable Darstellung des Prototypen (z. B. in handgezeichnetem Stil) Interaktivität des Simulation erweiterter Interaktionsmöglichkeiten (z. B. Prototypen Scrolling, Mouseover) Verlinkungsmöglichkeit einzelner Seiten Simulation von Dateneingabe und -ausgabe Darstellung von Programmverzweigungen abhängig von Benutzereingaben Kollaboration Gemeinschaftliches Erstellen von Prototypen Versionierungssystem (Check-in/Check-out-Funktion) Ausführen des Prototypen anderer Personen, ohne Installation der Anwendung (z. B. durch HTML-Prototypen oder Anzeigeprogramm) Hinzufügen von Kommentaren zum Prototypen durch andere Personen, ohne die Anwendung installiert zu haben Neben pragmatischen und funktionalen Kriterien hat besonders die Usability eines Prototyping-Werkzeugs Einfluss auf die Einsatzfähigkeit. Bei der Definition von Usability-Kriterien für die Evaluation wurden die Grundsätze der Dialoggestaltung nach DIN EN ISO 9241-110 als Grundlage gewählt. Die folgenden Kriterien wurden als besonders relevant für die Usability-Be- 352 Johannes Baeck, Sabine Wiem, Ralph Kölle, Thomas Mandl wertung eingestuft und als Grundlage für die empirische Betrachtung der Usability in Form des Nutzertests eingesetzt. Aufgabenangemessenheit wurde ausgewählt, da es bei der Evaluation im Kern darum ging, zu überprüfen, ob das Erstellen von Prototypen in einer der Aufgabe angemessenen Form möglich ist. Da unter anderem ein Vergleich mit der derzeitigen Praxis angestrengt werden sollte schien eine Überprüfung der Erwartungskonformität sinnvoll, da diese neben der Selbstbeschreibungsfähigkeit dazu führt, dass Nutzer das Bedienkonzept eines Systems ohne fremde Hilfe erfassen können. Tabelle 3: Usability-Kriterien Anforderungsbereich Kriterium AufgabenEffektive und effiziente Erstellung eines Prototypen angemessenheit Effiziente Möglichkeit, Änderungen am Prototypen vorzunehmen Alle notwendigen Funktionen sind vorhanden Erwartungskonformität Innere Konsistenz: Einheitliche Bedienung und Gestaltung Äußere Konsistenz: Einhaltung anerkannter Konventionen Anpassung an die Erwartungen und Kenntnisse des Benutzers Selbstbeschreibungs- Ausreichende Informationen über Systemzustand fähigkeit Ausreichende Informationen über nötige Eingaben Unterstützung bei der Bedienung des Systems Ergebnis des Benchmark-Tests Tabelle 4 zeigt die sechs besten Systeme sortiert nach der Anzahl an erfüllten Kriterien. User Interface Prototyping 353 Tabelle 4: Ergebnis der Grobbetrachtung Rang Prototyping-Werkzeug 1 2 3 4 5 6 iRise Justinmind Prototyper Axure RP Pro Simulify Protoshare3 iPlotz Anzahl erfüllter Kriterien 17 16 16 15 12 12 Bewertung nach Kriteriengewichtung 13,25 12,81 12,54 11,66 99,5 99,33 Ergebnis der Detailbetrachtung Bei der funktionalen Detailbetrachtung wurden viele Gemeinsamkeiten zwischen Axure RP Pro und Justinmind Prototyper entdeckt. iRise ist, wie schon in der Grobbetrachtung erfasst, bezüglich seiner Funktionalität das umfangreichste Programm. Während Simulify ähnlich viele Funktionalitäten wie iRise, Axure RP Pro und Justinmind Prototyper bietet, ist iPlotz vor allem aufgrund der fehlenden Darstellung von erweiterter Interaktivität den anderen Anwendungen funktional unterlegen. Die detaillierte Usability-Betrachtung zeigte, dass insbesondere Justinmind Prototyper und Simulify hinter den Erwartungen zurückblieben. Bei der Grobbetrachtung wurden sie aufgrund ihrer Funktionsvielfalt gut bewertet. Ihre Gebrauchstauglichkeit ist jedoch nicht zufriedenstellend. Zu viele große Usability-Probleme wurden entdeckt. Vergleicht man die auch als Web-Anwendung erhältliche Anwendung iPlotz mit Simulify, war die Usability von iPlotz nach der heuristischen Evaluation als besser zu bewerten. Obwohl auch bei iRise und Axure RP zum Teil große Usability-Probleme auftraten, waren sie doch die vielversprechendsten Anwendungen und wurden somit in Form eines Benutzertest genauer betrachtet. 3 Das für IBM Interactive Hamburg entscheidende Kriterium der Offlinefähigkeit wurde nicht erfüllt. Aus diesem Grund wurde Protoshare nicht mit in die Detailbetrachtung aufgenommen. 354 Johannes Baeck, Sabine Wiem, Ralph Kölle, Thomas Mandl Benutzertest Der Benutzertest ergab, dass der Unterschied in der Usability der Anwendungen iRise und Axure RP Pro weniger stark ausgeprägt ist als der Unterschied zwischen den anderen im Detail untersuchten Anwendungen. Betrachtet man die Aufgabenangemessenheit fällt auf, dass insbesondere bei einigen grundlegenden Arbeitsabläufen wie der Auswahl einzelner Elemente aus Gruppen oder dem Erstellen von Links größere Probleme auftraten. Bei Axure RP Pro war zu beobachten, dass das Erstellen von Links nur über einen einzigen Zugangsweg möglich ist und unter anderem dadurch größere Probleme bei der Nutzung auftraten. iRise bietet demgegenüber mehrere Möglichkeiten Links zu erstellen und erhöht dadurch bei einem explorativen Vorgehen des Nutzers die Chance, die Funktion zu entdecken. Die Erstellung interaktiver Elemente ist bei beiden Systemen nicht ohne eine längere Einarbeitungszeit möglich. Besonders die Verwendung von Dynamic Panels (Axure RP Pro) bzw. Dynamic Views (iRise) erforderte bei der analytischen Betrachtung bereits einen hohen Zeitaufwand. Bei den zwei im Benutzertest untersuchten Anwendungen wurde deutlich, dass zum Teil eine äquivalente Funktionsweise zu Microsoft Visio erwartet wurde. Besonders durch die visuelle Ähnlichkeit von Axure RP Pro zu Microsoft Visio entstanden Irritationen. Bezüglich der inneren Konsistenz war bei Axure RP Pro zu beobachten, dass die Funktionen, mit denen Interaktivität zum Prototypen hinzugefügt werden können, nicht konsistent verortet sind. Im Nutzertest war für die Lösung der Aufgaben eine gute Selbstbeschreibungsfähigkeit wichtig. Bei Axure RP Pro waren hier Mängel vor allem bei der Erstellung von Verknüpfungen zu erkennen. Einige Personen scheiterten, da die Aufforderung der Anwendung zur Angabe des Linkziels nicht eindeutig genug war. Bei iRise war die Kennzeichnung von Links und Aktionen nicht selbstbeschreibend. Unter Berücksichtigung der kurzen Bearbeitungszeit innerhalb des Nutzertests, kann die Selbstbeschreibungsfähigkeit jedoch bei beiden Anwendungen als ausreichend angesehen werden. Die Einschätzungen der Nutzer zu beiden Anwendungen ergab sowohl bei der Gesamtbewertung als auch bei der Bewertung einzelner Aufgaben eine Tendenz für iRise. Zudem wurden die Aufgaben mit iRise im Durchschnitt in kürzerer Zeit und mit weniger Aufwand bewältigt. Ein erheblicher Unterschied hinsichtlich der Usability besteht jedoch nicht. User Interface Prototyping 355 Ausblick Die in den vorangegangenen Kapiteln beschriebene Evaluation wurde speziell auf den Einsatz der untersuchten Werkzeuge bei IBM Interactive Hamburg abgestimmt. Der gewählte mehrstufige Prozess mit den Bewertungskriterien und die Ergebnisse lassen sich jedoch auch bei Evaluationen für andere Zielgruppen einsetzen. Die Anforderungen anderer Zielgruppen können sich unterscheiden. Dabei ist insbesondere auf technische und wirtschaftliche Voraussetzungen, vorhandene Prozesse und Werkzeuge sowie die Zielsetzung der Prototyping-Aktivität und die Art des Endprodukts zu achten. Schließlich spielt die Vorerfahrung der betreffenden Nutzergruppe bei der Wahl eines geeigneten Prototyping-Werkzeugs eine große Rolle. War bei IBM Interactive Hamburg bereits Erfahrung mit PrototypingWerkzeugen – in diesem Fall Microsoft Visio – vorhanden, haben Mitarbeiter anderer Unternehmen diese Vorerfahrung unter Umständen nicht. Variierende Vorerfahrungen beeinflussen also auch hier die jeweilige Erwartungshaltung. Literaturverzeichnis Arnowitz, J.; Arent, M., Berger N. (2007). Effective prototyping for software makers. Amsterdam. Beecher, F. (2009). Integrating Prototyping Into Your Design Process. http://www.boxesandarrows.com/view/integrating (abgerufen am 27.11.2009) Bäumer, D., Bischofberger, W. R., Lichter, H., et al. (1996). User interface prototyping – concepts, tools, and experience. In Proc 18th intl conf Software engineering. IEEE. S. 532–541. Lim, Y., Stolterman, Erik, Tenenberg, J. (2008). The anatomy of prototypes: Prototypes as filters, prototypes as manifestations of design ideas. In: ACM Trans. Comput.-Hum. Interact. 15. S. 1–27. Memmel, T; Gundelsweiler, F; Reiterer, H. (2007). Prototyping Corporate User Interfaces. In. Proc IASTED-HCI, Chamonix, France. S. 177–182. Preece, J.; Rogers, Y., Sharp H. (2002). Interaction design. New York, NY: Wiley. Preim, B. (1999). Entwicklung interaktiver Systeme. Berlin: Springer. 356 Johannes Baeck, Sabine Wiem, Ralph Kölle, Thomas Mandl Rosson, M. B., Carroll, J. M. (2002). Usability engineering. San Francisco, CA: Kaufmann. Rudd, J., Stern, Ken, Isensee, S. (1996): Low vs. high-fidelity prototyping debate. In: interactions. 3 (1), S. 76–85. Vredenburg, K., Isensee, S., Righi, C. (2002): User-centered design: Prentice Hall PTR. Warfel, T. Z. (2008). First Prototyping Survey Results. http://zakiwarfel.com/archives/first-prototyping-survey-results/ (abgerufen am 03.12.2009) Warfel, T. Z. (2009). Prototyping – A Practitioner’s Guide. Brooklyn, NY: Rosenfeld Media. Analyse und Evaluierung der Nutzung von Sitelinks 357 Analyse und Evaluierung der Nutzung von Sitelinks Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum Universität Hildesheim Marienburger Platz 22, 31141 Hildesheim {mahrholz | mandl | griesbau}@uni-hildesheim.de Zusammenfassung Dieser Beitrag geht der Frage nach, wie Sitelinks, das sind Links zu Unterseiten von Suchmaschinentreffern, von Nutzern bei Navigationsanfragen genutzt und bewertet werden. Die Ergebnisse eines Benutzertests zeigen ein uneinheitliches Bild. Einerseits deutet sich an, dass die Nutzung von Sitelinks die Dauer der Informationssuche signifikant verringern kann. Auf der anderen Seite werden Sitelinks oftmals nicht verwendet bzw. kaum bewusst wahrgenommen. Insofern bleibt fraglich, inwieweit sie ein sinnvoller Bestandteil der Darstellung von Suchergebnissen sind, da sie den knappen Raum zur Anzeige von weiteren Treffern auf den Ergebnisseiten von Suchmaschinen verringern. Abstract This article deals with the effects of sitelinks on user’s search behavior. Results of a user test show an ambiguous picture. On the one hand, the use of sitelinks may reduce search time. On the other hand, users often do not use the links. So the question remains if sitelinks can be judged as a valuable component of search engine results descriptions or if they are an element that unnecessarily reduces the already restricted space on result pages. 358 1 Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum Einleitung Die Art und Weise, wie Treffer auf den Ergebnisseiten von Suchdiensten präsentiert werden, stellt einen zentralen Bestandteil und Erfolgsfaktor des Web Information Retrieval dar. Die Darstellung einzelner Suchergebnisse, meist als “descriptions” bezeichnet, bestimmt dabei zu einem hohen Grad die Wahrscheinlichkeit, mit der die Ergebnisse selektiert und Informationsprobleme effektiv und effizient gelöst werden (Lewandowski 2008). Es existieren vielfältige Studien, in denen Darstellungsweisen von Suchergebnissen untersucht wurden (z.B. Hotchkiss et al. 2005; Hotchkiss et al. 2007; Lorigo et al. 2008; Cutrell und Guan 2007; BVDW 2008). Der Fokus dieses Beitrags liegt auf einer Untersuchung zur Wahrnehmung und Nutzung von Sitelinks. Es wurden Benutzertests konzipiert und durchgeführt, in denen Probanden navigationsorientierte Informationsbedürfnisse bzw. Suchanfragen (vgl. Broder 2002) zu lösen hatten. Bei sogenannten Navigationsanfragen dient die Suchmaschine als Mittel, bestimmte Websites zu finden. Klassischerweise gelangt der Benutzer von der Ergebnisseite auf die Homepage der gesuchten Website. Tatsächlich hört der eigentliche Suchprozess in den meisten Fällen damit aber nicht auf, sondern der Benutzer setzt ihn durch Navigation auf der Zielseite fort. Da jede Site ihr eigenes Layout und ihre eigene Darstellung für Menüs besitzt, kann es sinnvoll sein, durch Abkürzungen von einer einheitlich gestalteten Suchseite sofort auf die gesuchten Unterpunkte einer Site zu gelangen. Als Konsequenz entstanden solche Abkürzungen inzwischen bei allen größeren Suchmaschinen. Sogenannte Sitelinks sollen dazu beitragen, den Suchprozess effizienter zu gestalten, indem sie dem Nutzer die Möglichkeit bieten, schneller an gesuchte Informationen zu gelangen (vgl. Google 2010). In der Regel werden bis zu acht Sitelinks, die sich auf zwei Spalten aufteilen, unter dem ersten Suchergebnis angezeigt (siehe Abb. 1). Neben den zweispaltigen gibt es auch einzeilige Sitelinks, deren Anzeige sich nicht auf Navigationsanfragen beschränkt und die somit für mehrere Ergebnisse angeboten werden können. Pro Ergebnis werden maximal vier von diesen Links angezeigt (vgl. Phan und Krishnan 2009). Bisher gibt es kaum zugängliche Erkenntnisse dazu, wie Sitelinks genutzt und bewertet werden. Zudem stellt sich die Frage, ob die Links tatsächlich dazu beitragen, den Suchprozess effizienter zu gestalten. Analyse und Evaluierung der Nutzung von Sitelinks 359 Abb. 1: Sitelinks bei Google. Suche nach „bahn“ (Anfrage vom 11.10.2010). 2 Stand der Forschung Relevante Literatur für die Bewertung von Sitelinks bezieht sich auf Untersuchungen zum Nutzerverhalten bei unterschiedlichen Oberflächengestaltungen. Verschiedene Eyetracking-Studien haben ergeben, dass Benutzer beim Betrachten von Suchergebnisseiten in der Regel linear vorgehen. Je höher ein Ergebnis auf der Trefferseite positioniert ist, umso mehr Aufmerksamkeit erhält es und umso eher wird es angeklickt (vgl. z.B. Hotchkiss et al. 2005; Lorigo et al. 2008). Häufig ist in diesem Zusammenhang auch von einem Fförmigen Blickverlauf die Rede (vgl. Nielsen 2006). Hotchkiss et al. (2007) stellten fest, dass die Einbindung zusätzlicher Elemente Auswirkungen auf das Suchverhalten hat. So ziehen Bilder auf Ergebnisseiten die Blicke zunächst auf sich, was der linearen Vorgehensweise beim Betrachten der Ergebnisse entgegenwirkt. Die Autoren weisen darauf hin, dass dies auch eine Frage der Gewohnheit sein könnte. Laut einer Google-Studie ändert sich die grundsätzliche Vorgehensweise beim Betrachten von Suchergebnissen durch die Einbindung von Bildelementen kaum (vgl. Aula und Rodden 2009). Cutrell und Guan (2007) untersuchten, ob und inwiefern sich das Suchverhalten zwischen informations- und navigationsorientierten Anfragearten bei unterschiedlichen Snippetlängen unterscheidet. Die Ergebnisse zeigten, dass sich die Leistungen der Teilnehmer bei navigationsorientierten Anfragen verschlechterten, wenn die Suchtreffer mit langen Snippets dargestellt wurden. Bei informationsorientierten Anfragen hingegen stellten die Forscher das Gegenteil fest. Im Vergleich zu kurzen Snippets verbesserten sich die Zeiten zur Bearbeitung von Suchaufgaben bei langen Snippets signifikant. 360 Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum 2008 führte der Arbeitskreis Suchmaschinen-Marketing des Bundesverbandes Digitale Wirtschaft (BVDW) e.V. eine Eyetracking-Studie durch, in der u.a. untersucht wurde, wie Sitelinks wahrgenommen und genutzt werden. Die Ergebnisse ergaben, dass sich das F-Muster bei der Betrachtung der Suchtreffer durch die eingerückten Sitelinks teilte. Die Links wirkten als optischer Trenner, wodurch das nachfolgende Ergebnis laut BVDW an Aufmerksamkeit gewann. Die Sitelinks selbst wurden in der Studie im Vergleich zu den benachbarten Ergebnissen seltener angeklickt (vgl. BVDW 2008). 3 Experiment Um zu untersuchen, wie Benutzer mit Sitelinks umgehen und ob die Links tatsächlich effizient sind, wurde ein Test konzipiert, in dem Probanden verschiedene Web-Suchaufgaben bearbeiteten. Das jeweils erste Resultat auf den Suchmaschinenergebnisseiten war mit zweispaltigen Sitelinks ausgestattet. Folgende Forschungsfragen lagen der Untersuchung zugrunde: • Werden Sitelinks wahrgenommen und genutzt? Von welchen Faktoren hängt es ab, ob Sitelinks genutzt werden? • Gelangen Benutzer mithilfe der Sitelinks schneller an die von ihnen gesuchten Informationen? • Welche Darstellungsweise einer Suchergebnisseite wird bei navigationsorientierten Anfragen allgemein bevorzugt und warum? 3.1 Teilnehmer An der Studie nahmen 30 Studenten der Universität Hildesheim teil. Das Durchschnittsalter der Teilnehmer lag bei 23,8 Jahren (SD = 2,2). 25 Testpersonen waren weiblich und fünf waren männlich. 3.2 Aufgaben Ziel war eine möglichst realistische Evaluierung. Da Sitelinks vor allem als Element der Benutzungsoberfläche angesehen werden müssen, sollte keine systemorientierte Prüfung der Suchqualität erfolgen, sondern ein Test mit Analyse und Evaluierung der Nutzung von Sitelinks 361 Benutzern in möglichst realistischen Suchszenarien. Die Suchaufgaben mussten so konstruiert werden, dass die meisten mit Sitelinks lösbar sind, da sonst ohnehin offensichtlich ist, dass dieses Element zu einer Verschlechterung der Interaktion führt. Allerdings wurden Aufgaben und Lösungen gewählt, in denen die Zielseiten teilweise direkt in den Sitelinks zu finden waren und teils nicht. Insgesamt umfasste der Test 14 Aufgaben. Eine Aufgabe lautete beispielsweise wie folgt: „Du bist demnächst in Köln und planst bei der Gelegenheit den Kölner Zoo zu besuchen. Vorher möchtest du dich erkundigen, wie viel der Eintritt kostet. Finde die Website des Kölner Zoos und erkundige dich, wie viel der Eintritt für Studenten kostet.“ Für zwölf Aufgaben wurde jeweils ein relevanter Sitelink ausgewählt, von dessen Zielseite aus maximal ein weiterer Klick nötig war, um zur gesuchten Information zu gelangen. Teilweise gab es Aufgaben, bei denen die Teilnehmer über mehrere Sitelinks das Ziel erreichen konnten. Als „bester“ Sitelink wurde in diesen Fällen der Link ausgewählt, der die kürzeste Verbindung zur gesuchten Information darstellte. Zwei weitere Aufgaben enthielten keine relevanten Sitelinks, um möglichen Ermüdungseffekten vorzubeugen. Je nach Schwierigkeitsgrad betrug das Zeitlimit zur Bearbeitung der Aufgaben zwei bzw. drei Minuten. Die Aufgaben wurden allen Teilnehmern in der gleichen Reihenfolge präsentiert. 3.3 Ergebnisseiten Die Ergebnisseiten wurden manipuliert, sodass pro Aufgabe sowohl die Darstellungsweise mit als auch ohne Sitelinks angezeigt wurde. Dadurch sollte es möglich sein, die Zeiten zur Aufgabenbearbeitung bei beiden Darstellungsweisen miteinander zu vergleichen. Die Teilnehmer wurden hierzu in zwei gleich große Gruppen A und B aufgeteilt. Für die eine Hälfte der Aufgaben bekam Gruppe A Sitelinks angezeigt, für die andere Hälfte der Aufgaben bekam Gruppe B Sitelinks angezeigt. Um sicherzustellen, dass jeder Teilnehmer die vorher festgelegten Ergebnisseiten erhalten würde, wurde als Suchmaschine ein Dummy eingesetzt. Der Suchbutton auf der Startseite wurde so manipuliert, dass der Benutzer beim Klick auf diesen auf die jeweils vorher bestimmte Trefferliste verwiesen wurde, unabhängig davon, was in das Suchfeld eingegeben wurde. Im Vorfeld der Untersuchung wurden für jede Aufgabe die entsprechenden An- 362 Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum fragen an eine reale Suchmaschine gestellt und die ausgegebenen Ergebnisseiten lokal in zwei separaten Ordnern (Gruppe A und B) gespeichert. Für die Aufgaben, bei denen keine Sitelinks angezeigt werden sollten, wurden sie jeweils aus dem Quelltext der Dateien gelöscht. 3.4 Testdurchführung Die Tests fanden in einem dreiwöchigen Zeitraum im Juni und Juli 2009 statt und wurden in einem Usability Labor durchgeführt. Die Probanden wurden dazu angehalten, während der Tests ihre Vorgehensweise zu kommentieren und anzugeben, wann sie eine Aufgabe für beendet hielten. Suchbegriffe wurden ihnen nicht vorgeben, um eine weitestgehend natürliche Interaktion zu ermöglichen. Da jedoch eine kontrollierte Ausgabe der Ergebnisseiten erfolgte, konnte jeweils nur eine Anfrage pro Aufgabe an das Suchsystem gestellt werden. Zur Audio- und Bildschirmaufzeichnung wurde das Programm Morae 3.11 genutzt. Nach der Aufgabenbearbeitung erfolgte eine Aufklärung über den Untersuchungsgegenstand und das Ziel der Studie. Die Teilnehmer wurden ferner gebeten, einen Abschlussfragebogen auszufüllen und einige mündliche Fragen zu beantworten. 4 Ergebnisse 4.1 Nutzung der Sitelinks Von den 12 × 15 = 180 Darstellungsweisen mit relevanten Sitelinks wurden die Links insgesamt 68 Mal angeklickt. In 61 Fällen (34%) nutzten die Teilnehmer den im Vorfeld bestimmten „besten“ Sitelink. In zwei weiteren Fällen (1%) wurden Sitelinks ausgewählt, die ebenfalls relevant und somit zielführend waren. Fünf Mal (3%) wurden Sitelinks genutzt, die nicht zielführend waren. Einmal konnte eine Aufgabe daraufhin nicht erfolgreich beendet werden, da die Testperson Orientierungsschwierigkeiten auf der entsprechenden Website hatte und das vorgegebene Zeitlimit deutlich überschritt. 1 http://www.techsmith.de Analyse und Evaluierung der Nutzung von Sitelinks 363 Über alle Aufgaben hinweg, für die relevante Sitelinks angezeigt wurden, wurden die Links im Durchschnitt 5,6 Mal angeklickt (SD = 2,4; min = 1; max = 92). Nicht genutzt wurden Sitelinks bei den beiden Aufgaben, für die keine relevanten Sitelinks angezeigt wurden. Die 30 Testpersonen klickten durchschnittlich 2,3 Mal auf die Sitelinks (SD = 1,9; min = 0; max = 63). 4.1.1 Benennungen der Sitelinks Die Ergebnisse deuten zunächst daraufhin, dass Sitelinks eher genutzt werden, wenn deutlich ist, wohin diese führen. Am seltensten wurden die relevanten Sitelinks bei den Aufgaben 5 (Ryanair; Gruppe B) und 7 (Techniker Krankenkasse; Gruppe A) gewählt. Bei letzterer Aufgabe klickte nur eine Person auf den Link „Wahltarife & Zusatzversicherungen“, um Informationen über eine Auslandsreise-Krankenversicherung zu erhalten. Bei Aufgabe 5 wurde der relevante Sitelink „FAQ“ gar nicht genutzt, um Angaben zum zulässigen Handgepäck bei Ryanair zu finden. Stattdessen wählten drei Personen den Sitelink „Fluginformationen“, welcher nicht zielführend war. Am häufigsten wurden die Sitelinks in Gruppe A bei Aufgabe 10 genutzt (Suche nach Informationen zum Girokonto auf der Website der ING-DiBa; Sitelink „Girokonto“) und zwar von 9 (60%) Testpersonen aus der Gruppe. In Gruppe B wurden die Sitelinks am häufigsten bei Aufgabe 9 (Geräteabmeldung bei der GEZ) angeklickt. In diesem Fall wählten 8 (53%) Probanden den relevanten Sitelink „Abmelden“. In der Nachbefragung meinten einige Testpersonen, dass sie die Links generell eher verwenden, wenn diese das gesuchte Schlagwort bereits enthalten. 4.1.2 Vorerfahrungen mit Sitelinks Die Ergebnisse der Nachbefragung ergaben, dass die Mehrheit der Testpersonen Sitelinks bereits vor dem Test gekannt und auch genutzt hatte. Unterteilt man die Antworten auf die Frage, ob Sitelinks schon vor dem Test benutzt wurden, nach den zwei Teilnehmergruppen „Sitelinks im Test benutzt“ und „Sitelinks im Test nicht benutzt“, ergibt sich folgendes Bild: 2 Das theoretische Maximum betrug 15. 3 Das theoretische Maximum betrug 6 (bezogen auf Aufgaben mit relevanten Sitelinks). 364 Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum Tab. 1: Kreuztabelle zu den Variablen „Nutzung der Sitelinks vor dem Test“ und „Nutzung der Sitelinks in dem Test“ (n = 27)4 Sitelinks vor dem Test genutzt ja nein Sitelinks während des Tests genutzt ja nein 18 3 22 4 Ein exakter Test nach Fisher ergab, dass die Variablen „Nutzung der Sitelinks vor dem Test“ und „Nutzung der Sitelinks in dem Test“ signifikant abhängig voneinander sind (p=0,024). Vertrautheit im Umgang mit den Links könnte demnach einen Einfluss darauf gehabt haben, ob diese im Test angeklickt wurden oder nicht. 4.1.3 Gründe für Nicht-Nutzung der Sitelinks Eine von insgesamt neun Testpersonen, die in dem Test gar nicht auf Sitelinks klickten, sagte in der Nachbefragung, sie habe die Links überhaupt nicht gesehen. Fünf weitere Testpersonen gaben an, aus Gewohnheit auf den Titel des jeweiligen Suchtreffers geklickt und ebenfalls nicht richtig auf die Sitelinks geachtet zu haben. Teilweise meinten sie, auf der Homepage einen besseren Überblick zu haben und daher diesen Weg zu bevorzugen. Drei Testpersonen war nicht bewusst, dass sie mithilfe der Sitelinks direkt auf die Unterseiten der jeweiligen Websites gelangt wären. Dabei dachten zwei von ihnen, dass es sich um Werbelinks handelte. Eine Testperson hat die Linkfunktion als solche nicht erkannt. Auf die Problematik, dass die eigentliche Funktion der Sitelinks von Benutzern möglicherweise nicht richtig erkannt wird, machte eine Teilnehmerin ebenfalls im Nachgespräch aufmerksam. Sie wies darauf hin, dass die Links daher deutlicher gekennzeichnet werden sollten. 4.2 Bearbeitungszeiten der Aufgaben Die Bearbeitungszeit für eine Aufgabe begann mit dem Aufruf der Ergebnisseite und endete, sobald der Teilnehmer angab, die Aufgabe abgeschlossen 4 Personen, die auf die Frage „Hast du Sitelinks bereits vor dem Test genutzt?“ mit „weiß nicht“ antworteten, wurden nicht in die Analyse einbezogen. Analyse und Evaluierung der Nutzung von Sitelinks 365 zu haben. Tendenziell waren Probanden, die relevante Sitelinks anklickten, bei allen Aufgaben schneller als Probanden, die den Weg über die Homepages gingen. Eine getrennte Betrachtung der einzelnen Aufgaben erwies sich als sinnvoll, da zwischen diesen teilweise große Unterschiede bezüglich der Bearbeitungszeiten auftraten. Mittels einfaktorieller Varianzanalysen wurde überprüft, ob sich die Bearbeitungszeiten je nach Navigationsweg (Homepage bei Darstellung mit Sitelinks; Homepage bei Darstellung ohne Sitelinks; Sitelink) signifikant unterschieden. Varianzanalysen wurden nur für Aufgaben, bei denen die Sitelinks häufiger als fünf Mal angeklickt wurden, durchgeführt (vgl. Tab 2). Tab. 2: Vergleich Bearbeitungszeiten pro Navigationsweg (HP = Homepage; SL = Sitelink) Aufgaben Bearbeitungszeiten in Sek. HP HP SL (Darstellung (Darstellung mit SL) ohne SL) Aufgabe 2 (Deutsche Post) 51,4 63,0 14,1 Aufgabe 3 (WWF) 46,7 41,4 35,6 Aufgabe 9 (GEZ) 30,6 28,3 20,1 Aufgabe 10 (ING-DiBa) 32,5 29,6 19,1 Aufgabe 11 (Olympiastadion) 52,0 52,2 29,0 p-Wert 0,001 0,207 0,024 0,005 0,001 Signifikante Unterschiede ließen sich bei vier von fünf Aufgaben feststellen. Post-hoc-Tests ergaben, dass bei den Aufgaben 2 und 11 signifikante Unterschiede zwischen der Gruppe der Sitelink-Nutzer und den beiden Gruppen der Homepage-Nutzer auftraten. Auf der Homepage der Deutschen Post fanden die wenigsten Teilnehmer den direkten Verweis auf die eigentliche Zielseite, wodurch sich hier erhebliche Unterschiede in den Bearbeitungszeiten ergaben. Dies deutet darauf hin, dass Sitelink-Nutzer vor allem bei Websites mit komplexen Homepages im Vorteil sind. Weitere signifikante Unterschiede zeigten sich bei den Aufgaben 9 und 10 jeweils zwischen den Gruppen, die Sitelinks genutzt hatten, und den Gruppen, die bei der Darstellung ohne Sitelinks den Weg über die Homepages gewählt hatten. 366 4.3 Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum Präferenz In der Nachbefragung sollten die Teilnehmer drei Darstellungsweisen des ersten Suchtreffers in eine nach Präferenz geordnete Rangfolge bringen. Neben der Darstellung ohne Sitelinks und der Darstellung mit zweispaltigen Sitelinks sollten die Testpersonen auch die Darstellung mit einzeiligen Sitelinks (gekennzeichnet durch das Wort „Direktlinks“) bewerten (vgl. Abb. 2). Abb. 2: Drei Darstellungsweisen des ersten Suchergebnisses In der folgenden Tabelle ist der durchschnittliche Rangwert für die jeweiligen Darstellungsweisen abgebildet: Tab. 3: Mittelwerte des Rankings der drei Darstellungsweisen (niedriger = besser) Darstellungsweise Ranking ohne Sitelinks 2,5 einzeilige Sitelinks 2,2 zweispaltige Sitelinks 1,3 Eine einfaktorielle Varianzanalyse mit Messwiederholung ergab signifikante Gruppenunterschiede hinsichtlich der Bewertungen. Es zeigten sich signifikante Unterschiede zwischen den Bewertungen der Darstellungsweise mit zweispaltigen Sitelinks und den beiden anderen Darstellungsweisen (post hoc paarweise Vergleiche mit Bonferroni-Korrektur; jeweils p < 0,001). Ein wesentlicher Faktor, der für die Anzeige zweispaltiger Sitelinks spricht, sei laut Aussage der Testpersonen die Möglichkeit, Navigationswege zu verkürzen. Zudem werde durch die Links eine bessere Übersichtlichkeit geboten. Daher wurden sie auch in den meisten Fällen gegenüber einzeiligen Sitelinks bevorzugt. Knapp die Hälfte der Personen gab an, dass einzeilige Sitelinks sich nicht genug von den weiteren Komponenten des Suchergebnisses abheben und dadurch schnell übersehen werden. Trotzdem deutete sich auch hier eine leichte Bevorzugung gegenüber der Darstellung ohne Sitelinks an. Analyse und Evaluierung der Nutzung von Sitelinks 5 367 Diskussion und Fazit Insgesamt sind die Ergebnisse der Untersuchung ambig. Zwar wurden die Links in der Nachbefragung von den meisten Teilnehmern positiv bewertet, vielfach wurden sie in dem Test aber kaum bewusst wahrgenommen und auch nicht genutzt, um an die gesuchten Informationen zu gelangen. Meist waren die Teilnehmer nicht bereit, sich lange auf den Suchergebnisseiten aufzuhalten und tendierten dazu, den Titel des jeweiligen Suchergebnisses anzuklicken. Teilweise waren die Sitelink-Nutzer in dem Test schneller, vorausgesetzt allerdings, dass die relevanten Unterpunkte tatsächlich in den Links zu finden waren. Zwei Testpersonen wiesen darauf hin, dass Sitelinks viel Platz wegnehmen. Tiefer positionierte Ergebnisse, die für die Suchanfrage relevant sein könnten, verschwinden dadurch eher aus dem sichtbaren Bereich und der Nutzer müsse unter Umständen mehr scrollen. Als problematisch erwies sich in dem Test zudem, dass einigen Teilnehmern nicht bewusst war, welche Funktion Sitelinks erfüllen. Dies impliziert, dass Sitelinks deutlicher gekennzeichnet sein sollten. Dieser Test beschränkte sich hauptsächlich auf die Untersuchung zweispaltiger Sitelinks. Zwar wurden die Probanden auch zu ihren subjektiven Eindrücken bezüglich einzeiliger Sitelinks befragt, für weiterführende Untersuchungen wäre es aber interessant zu erfahren, wie Benutzer mit diesen Links im tatsächlichen Nutzungskontext umgehen. Literaturverzeichnis Aula, A.; Rodden, K. (2009): Eye-tracking studies: more than meets the eye. http://googleblog.blogspot.com/2009/02/eye-tracking-studies-more-than-meets.html [Abruf: 08.11.2010] Broder, A. (2002): A taxonomy of web search. In: SIGIR Forum, Vol. 36, Nr. 2, S. 3–10. BVDW (2008): Nutzerverhalten auf Google-Suchergebnisseiten. Eine EyetrackingStudie im Auftrag des Arbeitskreises Suchmaschinen-Marketing des Bundesverbandes Digitale Wirtschaft (BVDW) e.V. http://www.hottracker.de/whitepaper/Eyetracking-Studie_2008_Ergebnisbericht.pdf [Abruf: 06.11.2010] 368 Nadine Mahrholz, Thomas Mandl, Joachim Griesbaum Cutrell, E.; Guan, Z. (2007): What Are You Looking For? An Eye-tracking Study of Information Usage in Web Search. In: CHI ’07. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, S. 407–416. Google (2010): Sitelinks. http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=47334 [Abruf: 07.11.2010] Hotchkiss, G.; Alston, S.; Edwards, G. (2005): Eye Tracking Study: An In Depth Look at Interactions with Google using Eye Tracking Methodology. Enquiro Research (Hrsg.). www.enquiroresearch.com/images/eyetracking2-sample.pdf [Abruf: 08.11.2010] Hotchkiss, G.; Sherman, T.; Tobin, R.; Bates, C.; Brown, K. (2007): Search Engine Results: 2010. Enquiro Research (Hrsg.). http://www.enquiroresearch.com/campaigns/SearchEngineResults2010.pdf [Abruf: 08.11.2010] Lewandowski, D. (2008): The retrieval effectiveness of web search engines: considering results descriptions. In: Journal of Documentation, Vol. 64, Nr. 6, S. 915 bis 937. Lorigo, Lori; Haridasan, Maya; Brynjarsdóttir, Hrönn; Xia, Ling; Joachims, Thorsten; Gay, Geri; Granka, Laura; Pellacini, Fabio; Pan, Bing (2008): Eye Tracking and Online Search: Lessons Learned and Challenges Ahead. In: Journal of the American Society for Information Science and Technology, Vol. 59, Nr. 7, S. 1041–1052 Nielsen, J. (2006): F-Shaped Pattern For Reading Web Content. http://www.useit.com/alertbox/reading_pattern.html [Abruf: 08.11.2010] Phan, D.; Krishnan, R. (2009): Einzeilige Sitelinks. http://googlewebmastercentral-de.blogspot.com/2009/04/einzeilige-sitelinks.html [Abruf: 07.11.2010] Online-Beratungsk. für die Auswahl von Usability-Evaluationsmethoden 369 Online-Beratungskomponente für die Auswahl von Usability-Evaluationsmethoden Bernard Bekavac, Sonja Öttl, Thomas Weinhold Schweizerisches Institut für Informationswissenschaft (SII) Hochschule für Technik und Wirtschaft (HTW) Chur CH-7000 Chur E-Mail: {bernard.bekavac;sonja.oettl;thomas.weinhold}@htwchur.ch Zusammenfassung Zur Bewertung der Usability von interaktiven Produkten existiert mittlerweile ein breites Spektrum an Evaluationsmethoden, weshalb es nicht immer einfach ist, entsprechend den jeweiligen Untersuchungszielen, eine adäquate Methode auszuwählen. Hierfür sind eine gewisse Erfahrung und Hintergrundwissen erforderlich, welches nicht in allen Institutionen gleichermaßen vorhanden ist, weshalb oftmals noch eine gewisse Unsicherheit hinsichtlich der Planung und Durchführung von Usability-Evaluationen besteht. Um diesbezüglich Unterstützung bieten zu können, wurde am SII eine OnlineBeratungskomponente entwickelt. Diese bietet Anwendern die Möglichkeit die einzelnen Usability-Evaluationsmethoden (UEM) und deren Charakteristika explorativ zu erkunden und erlaubt auf Basis der eigenen Untersuchungsziele eine transparente Auswahl geeigneter Methoden. Abstract Today a wide range of evaluation methods are available in order to assess the usability of interactive products. Therefore, it is not always easy to choose the appropriate method according to the objectives of the evaluation. For this purpose a certain amount of experience and know-how is needed to make an informed decision, which does not exist in all companies and institutions and thus often a certain degree of uncertainty remains regarding usability evaluations. In order to assist such companies in the selection of appropriate evaluation methods an online advisory component was developed at the SII. This tool offers users the possibility to explore the individual usability evaluation methods (UEM) and their characteristics, in order to allow a transparent selection of suitable methods. 370 1 Bernard Bekavac, Sonja Öttl, Thomas Weinhold Einleitung und Motivation Im Laufe der letzten Jahre hat sich die Usability als zentrales Qualitätsmerkmal interaktiver Produkte etabliert, wobei für Evaluationen mittlerweile ein breites Spektrum an Untersuchungsmethoden zur Verfügung steht. Diese können anhand einer Reihe verschiedener Merkmale (z.B. Zeitpunkt der Evaluation in Abhängigkeit des Produktstatus, Art der Gutachter) klassifiziert werden (vgl. z.B. Nielsen, 1993; Dumas/Redish, 1999; Schweibenz/ Thissen, 2003; Bowman et al., 2002). Jede Evaluationsmethode hat ihre spezifischen Stärken und Schwächen, weshalb bei der Auswahl eines geeigneten Testverfahrens eine gewisse Erfahrung und entsprechendes Know-how erforderlich sind. Um auch Personen ohne entsprechende Kenntnisse eine zielgerichtete Auswahl geeigneter Untersuchungsmethoden zu ermöglichen bzw. um teilweise noch vorhandene Hemmschwellen gegenüber der Thematik Usability abzubauen, wurde vom Schweizerischen Institut für Informationswissenschaft (SII) eine Online-Beratungskomponente entwickelt, die die Transparenz im Auswahlprozess erhöhen soll. Mittels eines mehrstufigen Dialogs sollen Anwender in die Lage versetzt werden, aus der Vielzahl existierender Evaluationsmethoden die für ihre Zwecke geeigneten Ansätze eigenständig zu identifizieren und sich einen ersten Überblick über den Aufwand und die Anwendung der entsprechenden Methoden zu verschaffen. Nachfolgend wird in Kapitel 2 aufgezeigt, wie die Autoren bei der Konzeption dieses Beratungstools vorgegangen sind, und welche Kriterien dabei zur Auswahlunterstützung der Anwender herangezogen werden. Anschliessend werden in Kapitel 3 der konkrete Aufbau und die Einsatzmöglichkeiten der Beratungskomponente beschrieben, bevor in Kapitel 4 ein kurzes Fazit gezogen wird. 2 Konzeption der Online-Beratungskomponente Für die Konzeption der in diesem Beitrag beschriebenen Online-Beratungskomponente wurde in einem ersten Schritt neben einer umfangreichen Literaturrecherche eine Analyse der Websites einschlägiger Usability-Beratungsunternehmen vorgenommen. Ziel war es, etablierte und gängige Evaluationsmethoden zu ermitteln, ggf. bereits existierende interaktive Beratungstools zu Online-Beratungsk. für die Auswahl von Usability-Evaluationsmethoden 371 identifizieren und geeignete Kriterien zur Unterscheidung von UEM zu erarbeiten. Diesbezüglich ist anzumerken, dass im Zuge dieser Recherchen kein Angebot ermittelt werden konnte, dass eine systembasierte Unterstützung des Auswahlprozesses geeigneter UEM bietet. Primär existieren in diesem Bereich Übersichtsgrafiken und textuelle Beschreibungen, in denen die Charakteristika der einzelnen Methoden, sowie deren Anwendbarkeit im Produktlebenszyklus dargestellt sind. Das Fehlen entsprechender Tools ist vermutlich darin begründet, dass es sich bei der Auswahl geeigneter Evaluationsmethoden um eine intellektuelle Aufgabe handelt, welche nur bedingt automatisierbar ist. Ein weiteres Problem ist der Umstand, dass noch nicht ausreichend geklärt ist, anhand welcher Kriterien ein objektiver Vergleich unterschiedlicher UEM vorgenommen werden kann (vgl. z.B. Hartson et al., 2001). Dennoch sind die Autoren der Überzeugung, dass eine systemgestützte Methodenauswahl in gewissen Grenzen möglich ist, wenngleich ein solches System sich sicherlich primär an Anwender mit wenig Erfahrung in der Durchführung von Usability-Evaluationen richtet. Basierend auf den Rechercheergebnissen wurde in einem zweiten Schritt in Form einer Matrix eine Charakterisierung der als relevant eingestuften UEM vorgenommen. Dabei wurden folgende Merkmale berücksichtigt: • Testaufbau, Testdauer, Testleitung, Anzahl benötigter Gutachter/Testpersonen, für die Untersuchung benötigtes Equipment • Anwendbarkeit entsprechend dem Produktlebenszyklus • Ziel der Untersuchung (z.B. Fehlersuche), Fokus der Untersuchung (z.B. Ease-Of-Learn), Vor- und Nachteile sowie Besonderheiten der Methode Anschließend wurden diese Kriterien bezüglich ihres Klassifikationspotenzials überprüft und unterschiedliche Entscheidungsbäume entwickelt, auf deren Basis letztendlich die Dialoggestaltung der Beratungskomponente vorgenommen wurde. 3 Aufbau und Funktionsweise des Tools Die Online-Beratungskomponente gliedert sich in zwei Bereiche. Im oberen Bereich befindet sich der eigentliche Beratungsdialog, in dem der Anwender durch den Auswahlprozess geleitet wird. Hierbei muss er sechs Fragen – 372 Bernard Bekavac, Sonja Öttl, Thomas Weinhold unterteilt in drei Phasen – beantworten. Im unteren Bereich erfolgt eine Visualisierung der Ergebnissmenge in Form einer Tag-Cloud, welche in jedem Schritt dynamisch an die vom Anwender getroffenen Entscheidungen angepasst wird (vgl. Abbildung 1). Das gewählte Dialogdesign mit der direkten Manipulation der Ergebnismenge ermöglicht es dem Anwender jederzeit die Auswirkungen seiner Entscheidungen nachzuvollziehen. Bei der Formulierung der Auswahloptionen wurde darauf geachtet, dass sie aus der Perspektive der Endanwender und in einfach verständlicher Sprache verfasst sind. Falls einzelne Optionen dennoch unklar sein sollten, können die Nutzer sich per Mouse-Over-Effekt eine genauere Beschreibung der einzelnen Dialogelemente einblenden lassen. Abbildung 1: Startansicht der Online-Beratungskomponente Im ersten Dialogschritt (Phase 1) muss der Anwender zunächst Angaben über den Status des zu untersuchenden Produktes (z.B. „skizzierter Entwurf“) und seiner Motivation für die Durchführung einer Evaluation machen. Aufgrund dieser Rahmenbedingungen können in der Regel bereits einige UEM als nicht empfehlenswert ausgeschlossen werden (in der Visualisierung hellgrau mit geringem Schriftgrad dargestellt), wohingegen andere Methoden weiterhin für eine Evaluation in Frage kommen (größerer Schriftgrad, schwarze Textfarbe). Online-Beratungsk. für die Auswahl von Usability-Evaluationsmethoden 373 In der nächsten Phase müssen die Ziele der geplanten Evaluation (z.B. die gezielte Suche nach Schwachstellen) genauer spezifiziert werden. Als nächstes kann der Anwender definieren, ob der Untersuchungsgegenstand gesamthaft betrachtet werden soll oder ob schwerpunktmäßig nur bestimmte Aspekte beleuchtet werden sollen (z.B. der „Joy of Use“). Die Definition solcher Schwerpunkte hat bspw. beim Einsatz von Befragungen großen Einfluss auf die Auswahl geeigneter, vorgefertigter Fragebögen. In der dritten Phase kann der Anwender Zeit und Budget, das für die Evaluation zur Verfügung steht, festlegen. Diese beiden Auswahloptionen führen im Gegensatz zu den vorangegangenen Dialogschritten nicht immer zum direkten Ausschluss von Methoden. Stattdessen erfolgt eine differenzierte Ergebnisbetrachtung: Sofern Methoden existieren, die exakt die vom Anwender getroffenen Charakteristika erfüllen, werden in der Tag-Cloud entsprechend auch nur diese hervorgehoben. Andernfalls werden in der Trefferliste die aufgrund der beiden vorangehenden Phasen in Frage kommenden Methoden hervorgehoben, wobei der Nutzer den Hinweis erhält, dass diese Methoden zwar grundsätzlich in Frage kommen, jedoch der Zeit- oder auch der Kostenrahmen für die Evaluation angepasst werden müssten. Abschließend erfolgt die Präsentation der empfohlenen Methoden in tabellarischer Form. Die Anwender können sich dadurch leicht einen Überblick verschaffen, in welchen Punkten die empfohlenen Methoden mit den von ihnen getroffenen Einstellungen übereinstimmen (in der Darstellung fett gekennzeichnet), und wo ggf. Abweichungen von den Vorstellungen der Nutzer vorliegen (z.B. bzgl. Zeit/Budget). Zusätzlich werden den Anwendern an dieser Stelle Links zu den Handlungsleitfäden der in Frage kommenden Methoden angeboten. Die Handlungsleitfäden enthalten jeweils eine kurze Beschreibung der Methode und charakterisieren diese entsprechend den erforderlichen personellen und materiellen Ressourcen, sowie dem Vorwissen, das für deren Anwendung benötigt wird. Zudem werden das Einsatzgebiet, der Ablauf und die potenziellen Erkenntnisse der jeweiligen Methode zusammenfassend dargestellt. 374 4 Bernard Bekavac, Sonja Öttl, Thomas Weinhold Fazit und Ausblick Die in diesem Beitrag vorgestellte Onlineberatungs-Komponente wurde im Rahmen eines Teilprojektes der schweizerischen Innovationsinitiative Elib.ch (www.e-lib.ch) entwickelt und steht mittlerweile unter einer CCLizenz online zur freien Nutzung zur Verfügung (www.cheval-lab.ch). Anzumerken ist diesbezüglich, dass die Beratungskomponente eine ausführliche und individuelle Beratung durch Usability-Experten in keinem Fall äquivalent ersetzen kann. Vielmehr soll das Tool Interessierten mit wenig Hintergrundwissen im Usability-Bereich als Werkzeug dienen, um sich einen Überblick über geeignete Kriterien zur Selektion von Evaluationsmethoden zu verschaffen und die einzelnen UEM genauer kennenzulernen. Durch den freien Zugriff auf die Online-Beratungskomponente erhoffen sich die Autoren weiteres Feedback von Anwendern, um so das Tool weiter verfeinern oder ggf. auch erweitern zu können. Literaturverzeichnis Bowman, D./Gabbard, J./Hix, D. (2002). A survey of usability evaluation in virtual environments: classification and comparison of methods. In: Presence: Teleoperators and Virtual Environments, 11(4), S. 404–424. Card, S./Moran, T./Newell, A. (1983). The psychology of human-computerinteraction. Hillsdale: Erlbaum. Dumas, J./Redish, J. (1999). A Practical Guide to Usability Testing. Exeter: Intellect Books. Hartson, H./Andre, T./Williges, R. (2001). Criteria for evaluating usability evaluation methods. In: International Journal of Human Computer Interaction, 15(1), S. 145–181. Nielsen, J. (1993). Usability Engineering. San Diego: Academic Press. Schweibenz, W./Thissen, F. (2003). Qualität im Web – Benutzerfreundliche Webseiten durch Usability Evaluation. Berlin: Springer. Online-Beratungsk. für die Auswahl von Usability-Evaluationsmethoden 375 Session 9: Information Domains & Concepts 376 Michał Goliński Use, but verify Composite Indices for Measuring the Information Society Michał Goliński Warsaw School of Economics, Department of Business Informatics Al. Niepodległości 162, PL - 02-554 Warszawa E-Mail: [email protected] Abstract The paper presents a brief examination of the use of composite indices in the analysis of information society issues. The main pros and cons are presented. 1 Introduction None of the existing theories concerning the Information Society (IS) has solved any of the two following fundamental, connected – and probably insurmountable problems: definitional and measuring. There is no satisfying definition of the IS (Webster 2006). It entails a subsequent problem – how to measure almost an indefinable concept. The paper presents a short analysis of this „Grand Challenge” (Menou, Taylor 2006), focusing on composite indices (CI). 2 Measuring the Information Society The presence of IS issues in public discourse in the last two decades has provoked a rising demand for tools allowing to quantify occurring processes. The main tools of quantitative description of IS are proper indices providing Use, but verify 377 information about different aspects of information and communication technologies (ICT) usage in society and economy. They are necessary in order to plan public and commercial projects and to assess their implementation. They are the essential part of development policies. Indices play a vital role in IS research. They measure, monitor and justify. A definitional function is essential – a specific index value may be used as a turning point, defining the formation of IS – which many critics have demanded for a long time. One should notice that constructing such indices is marked by certain partiality. It depends on the author’s knowledge and intentions. The numerical expression of an indicator creates an impression of raw objectivity but its construction is often marked with subjective beliefs and purposes. Monitoring of IS requires the use of many molecular indicators. It seems that it is the only responsible way to monitor complex IS issues. This method is used by most “official” institutions, such as statistics offices, central government bodies or international organizations (e.g. Eurostat). Such research provides essential and thorough information. However, they also have a drawback of considerable importance. Many indicators in use are only clear to professionals. For others they are too hermetic, difficult and simply boring. Ongoing mediatization of our world has contributed to the popularization of a different research trend – composite indices (CI). 3 Composite Indices in IS Research Composite indices enable a simpler interpretation of data. They substitute a large set of attributes with a single one – a synthetic variable. Transition from a multidimensional set of attributes to a one-dimensional is achieved by variable aggregation. What makes the CI so attractive is the fact that they are easy to interpret – the audience is presented with impressive rankings. CIs have become an essential part of the contemporary debate on social, economic, and political problems; and their popularity is still rising. A 2005 survey analyzed over 130 of such tools, 80% of which were created between years 1991 and 2005. During the 1970s and the 1980s less than 10 were created pro decade, in the 1990s – 40, and between 2000 and 2004 more than 60 (Bandura 2005). The 2008 survey analyzes almost 180 (Bandura 2008). This rising trend can be observed in the number of studies and in the variety of 378 Michał Goliński authors. The scope of research is also constantly expanded, including virtually all contemporary and popular issues. Many of the CIs have played a vital role in putting important issues in the centre of public attention and forcing policy-makers to act. Presently, it is difficult to imagine the discussions on development without the Human Development Index (UN), education without the PISA (OECD), corruption without the Corruption Perceptions Index (TI), competitiveness without the World Competitiveness Index (WEF) or, last but not least, IS without the Networked Readiness Index (also WEF). It seems plausible to put forward a thesis that if the authors stopped at the stage of drafting a large set of indicators and did not continue with the next stage, i.e. aggregation, the popularity of their research would suffer considerably. Moreover, the impact on the public would not have such serious consequences, i.e. people would be less involved and policy-makers wouldn’t be forced to act. CIs have an important political function. They mobilize people who are part of the decision making process and who did not participate in it earlier. According to Porter (2009: 11): “The indicators are objects that are constructed to maximize the aesthetic and exhortative effect of the representation of certain relationships while obscuring others”. There are many arguments for and against using CIs (Bandura 2005: 13–14 and OECD 2008: 13–14). Arguments listed there should make one particularly wary when using CIs in IS analysis. One should bear in mind that the methodology used in creating a CI substantially influences the results and, correspondingly, the countries performance in a ranking1. Table 1 presents selected features of 19 analyzed IS CIs. It shows significant differences in virtually all aspects of the methodology. We can find among them both studies, which are worth to promote (e.g. the ICT Development Index, cf. Goliński 2009), and tools in which the marketing aspect dominates over the substantive value (e.g. Networked Readiness Index, cf. Goliński 2010). Some of these tools have become quite popular and have gained a large group of proponents. However, we believe that this popularity is often undeserved. One can also boldly assume that the IS CIs are in fact superfluous. If one assumes that the well-being of contemporary societies strongly correlates with the information and the ICT, then one also has to assume that the successful countries must have utilized both factors effectively. „Wherefore by 1 OECD (2008: 100 and following) carried out a simulation of changes in the values of Technology Achievement Index. The differences in the positions of 23 first countries in the ranking reached 11 as a result of the various methods of weighting and aggregation. Use, but verify 379 their fruits ye shall know them”– if they are “wealthy”, they must also be “informational”. And in such case one does not need new tools, yet there is the GDP. This risky thesis is based on high correlation levels between IS development (measured by the ICT Development Index – IDI value) and prosperity (measured on the basis of: GDP – r²=0,55 and HDI – r²=0,7) in EU countries. The correlation does not mean that any causality relationship exists, but the problem itself seems to be worth looking into. Table 1: Selected features of analyzed IS composite indices Index Author ICT Development Index ITU 2009 154 3 (3) (4) (5) (6) (7) (8) (9) (10) (11) 0 11 11 0 8 3 Connectivity Scorecard Waverman 2009 50 6 0 28 28 0 28 0 ICT At-a-Glance WB 2006 144 0 0 34 28 6 27 7 ICT Diffusion Index UNCTAD 2006 180 2 0 8 0 6 2 8 ICT Opportunity Index ITU 2007 183 2 2 10 10 0 8 2 Digital Opportunity Index ITU 2007 181 3 0 11 11 0 11 0 eEurope 2005 INSEAD/SAP 2005 28 5 0 39 34 5 39 0 Knowledge Economy Index WB 2008 140 4 0 12 9 3 3 9 Index of Knowledge Socie- UNPAN ties 2005 45 3 0 15 14 1 2 13 Net Readiness Perception Index Goliński 2007 49 4 0 12 0 12 5 7 Digital Access Index ITU 2003 178 5 0 8 8 0 6 2 Infostates Orbicom/ITU 2007 183 2 2 10 10 0 8 2 E-Government Readiness Index UNPAN 2008 182 3 0 8 0 6 2 Networked Readiness Index WEF 2009 127 3 3 68 27 41 29 39 Mobile/Internet Index ITU 2002 206 3 0 26 20 6 26 0 Technology Achievement Index UNDP 2001 72 0 8 0 2 6 E-Readiness Index* EIU/IBM 4 8 8 2008 70 6 0 100 50 50 20 80 Information Society Index IDC 2008 53 4 0 15 13 2 11 4 II Development Level Index 2004 29 0 0 7 0 7 0 Goliński 7 Legend: (3) year of the last research, (4) number of countries in research (5) subindices, (6) subindices, II level, (7) partial indicators, including: (8) hard data, (9) soft data, (10) concerning ICT, (11) other *est. 380 4 Michał Goliński Conclusions CIs are good for making the public opinion aware of the gravity of IS issues. They do it well and in an impressive manner. However, if one is to make political or investment decisions one needs to perform a detailed, multicriteria analysis using a set of numerous indicators. CIs should be considered as points of departure for policy-makers. They promote IS issues, yield arguments and help to shape development policy. Finally, although using these tools to analyse IS often constitutes an attempt to count the uncountable, one cannot dismiss the fact that CIs play a key role in promoting the vision of IS. By using CIs in IS analysis one should heed the old Russian proverb: “Trust, but verify”. References Bandura, R. (2005). Measuring Country Performance and State Behavior: A Survey of Composite Indices. New York: UNDP. Bandura, R. (2008). A Survey of Composite Indices Measuring Country Performance: 2008 Update. New York: UNDP. Goliński, M. (2009). ICT Development Index. in: Babis, H., Buko, J., Czaplewski, R. (eds.): Rynki przesyłu i przetwarzania informacji – stan obecny i perspektywy rozwoju. Szczecin: Uniwersytet Szczeciński. Goliński, M. (2010). Networked Readiness Index, czyli siła marketingu. in: Czaplewski, R. (eds.): Rynek Informacji i Komunikacji. Szczecin: Uniwersytet Szczeciński. Menou, M., J., Taylor, R., D. (2006). A “Grand Challenge”: Measuring Information Societies. in: The Information Society: 22. Abingdon: Taylor & Francis Group. OECD (2008). Handbook on Constructing Composite Indicators – Methodology and User Guide. Paris: OECD. Porter, T. (2009). Making Serious Measures: Numerical National Rankings, Peer Review and Global Governance. New York. http://www.allacademic.com/meta/p312210_index.html (Retrieved 2010-02-13) Webster, F. (2006). Theories of the Information Society. Third edition. London and New York: Routledge. Problems and prospects of implementing knowledge management … 381 Problems and prospects of implementing knowledge management in university libraries: A case study of Banaras Hindu University Library System Mohammad Nazim1, Bhaskar Mukherjee2 Banaras Hindu University Varanasi-221005 (INDIA) 1 Faculty of Law [email protected] 2 Dept. Of Library & Information Science [email protected] Abstract This paper examines the characteristic elements of various organizational factors to identify whether a favorable climate for implementing and sustaining knowledge management existed in Banaras Hindu University Library System (BHULS). The findings of the study show that there are fairly favorable conditions for adopting knowledge management practices in BHULS. Staff in the library that participated in this study seems to be motivated and ready to grasp the challenges. Introduction Knowledge management has been defined in the literature as a process or practice of creating, acquiring, capturing, sharing and re-using organizational knowledge (know-how) to improve performance and achieve goals and objectives of an organization (White, 2004). 382 Mohammad Nazim, Bhaskar Mukherjee Like other business management trends, knowledge management is also a commercial concept, emerging first in the for-profit sector and then entering into the non-profit. Roknuzzaman et al. (2009) argue that a library itself is a knowledge-based organization where collection and maintenance of recorded knowledge by librarians is a practice as old as civilization itself. The basic goal of knowledge management within libraries is to leverage the available knowledge that may help librarians to carry out their tasks more efficiently and effectively (Shanhong, 2000). Knowledge management success in any organization is believed to be dependent upon various factors as they provide a context within which knowledge flows among individuals, whose actions in turn are influenced by their environment (Conley and Zheng, 2009). The existence of a favorable environment for communication, collaboration, knowledge sharing and transfer as well as easy identification of the organization’s knowledge assets is essential for the success of knowledge management. An appropriate organizational environment enables an organization to execute better, learn faster, and change more easily (Hariharan, 2005). Conceptual framework Organizational factors capture the general characteristics of the organization. Several factors are important for the successful implementation of a knowledge management, such as top management and leadership support, organizational culture, organizational structure, technology infrastructure, knowledge process, knowledge sharing and strategy (Choi, 2000; Gold et al., 2001). For this study, we selected five factors which are common in all the frameworks discussed in the literature. These are: (i) organizational culture (ii) organizational structure (iii) technology infrastructure (iv) knowledge sharing, and (v) knowledge process. Problems and prospects of implementing knowledge management … 383 Objectives and Methods In order o gain a better understanding of how some factors are critical for the successful application of knowledge management in university libraries, we chose BHULS with the aim to investigate whether a favorable climate existed for the effective knowledge management process by evaluating the librarians’ perception of: • The organizational culture and values of the organization for creating willingness among staff to share knowledge and professional experience with their colleagues. • The organizational structure that allows reward and incentives for encouraging employees to coordinate and share knowledge. • The availability and use of technology to facilitate knowledge flow in the organization. • The knowledge processes to capture, store, and transform knowledge. • Knowledge sharing. A questionnaire consisting of 15 open-ended and closed questions was designed in order to collect the required data for this study. 50 questionnaires were non-randomly distributed to the library staff of BHULS. Of the fifty respondents, four were deputy librarians, eight were assistant librarians, fourteen were professional assistants and twenty-four were semi-professional assistants. We approached each respondent personally and, therefore, we were able to get a 100% reply rate. Staff completing the questionnaire was aged between 25 and 54 years with the majority (80%) aged between 25 to 45 years old. Their length of service was between 2 years and 27 years with the majority (75%) having between 2 and 18 years of employment in libraries, 75% having a master degree in library and information science, 15% a bachelor degree in library and information science and 10% a doctoral degree in library and information science. Findings When respondents were asked about their organization’s willingness to accept change, the majority of participants (73%) responded positively, giving 384 Mohammad Nazim, Bhaskar Mukherjee examples of continuous improvement of library operations and services, development of information and human resources, and the fast adoption of new technologies. 27% gave answer in negation mentioning that lack of recognition and receptivity for change in their organization are serious obstacles to change. When asked about their work environment and what they think about it, 33% of the participants considered that it was one that encouraged the development of communities of practice and organizational learning, 21% mentioned collaboration, and 13% mentioned communication and 9% teamwork. With respect to the ways that staff performance was encouraged in their organization, the majority of the participants (57%) considered performance was insufficiently rewarded or not encouraged at all. However, 19% of the participants in this study indicated that this was by material reward, 14% by advancement in career, and 10% by just appreciation from senior fellows. Upon the question, whether their organization provided support for professional training courses or workshops, an overwhelming majority (69%) of respondents asserted that their organization encouraged them to participate in professional conferences, workshops and other related events; 17% responded that they participated in such events on their own initiative, and 21% said that their organization sends them to such activities. In addition, 31% noted that their organization initiated their own professional seminars, trainings or other events. These high percentages show that BHULS understands very well the importance of trained staff with up-to-date knowledge. Further, when they were asked to mention the areas where they would like to gain more knowledge in order to overcome future challenges, 21% mentioned knowledge of e-resources, 37% knowledge of library automation and digitization and 19% of metadata. To characterize the nature of the organizational structure of BHULS, respondents were asked to explain in few words the managerial style in their organization; 26% of the participants characterized it as being one that creates a stimulating climate. Phrases and words such as: open for change, dynamic, flexible, democratic, communicative, and competitive climate were used. On the contrary, 49% characterized their managerial style adversely, as being authoritative and used terms such as rigid, dictatorial, bureaucratic, disorganized, non communicative, non transparent, and reticent to change. 25% of the respondents replied to this important issue by choosing “not sure”. These varying perceptions show that no major change has taken place at the management level in BHULS. Regarding the employees’ perception of their library policy concerning the staff and the organizational development, 57% of the participants perceived the Problems and prospects of implementing knowledge management … 385 priority of the library in terms of organizational development to be orientated towards continuous professional development. However, 9% of respondents remarked on the fact that hiring staff with higher education qualifications in the LIS field constitutes one of the priorities for the institutions where they work. Although technology is essential for the success of knowledge management, the literature also reveals that technology alone does not ensure a successful knowledge management. BHULS is equipped with the latest technology to store and disseminate information resources to their users. The library recently installed library software to integrate information and knowledge of the resources and users of different sections. Expert and best practice databases, portals and knowledge repositories have not yet been designed and maintained by BHULS. However, most of the participants (79%) utilize Internet and Web 2.0 tools to share knowledge for keeping themselves abreast with the latest development in their field. Asked about their understanding of the importance of knowledge sharing, 63% of staff mentioned that sharing of knowledge and experiences is important for the organizational as well as personal development. When enquired about the staff’s willingness to share knowledge, the majority of the staff (69%) again responded positively indicating their willingness to share knowledge and professional experience. In response to the question regarding the motivation of knowledge sharing, the following reasons were mentioned by the respondents: professional cooperation (14%), increase of working efficiency (21%), loss of knowledge when a member of staff leaves the organization (31%), exchange of professional experience (25%). Among the respondents not willing to share their knowledge a lack of rewards and incentives, fear of negative consequences, and insecurity about the value of their knowledge were mentioned as reasons. Asked about knowledge processes in their organization, the majority of respondents (65%) was found less sure about knowledge process activities in the library. However, 10% of the respondents mentioned that the structure of their library facilitates exchange or transfer of knowledge, 15% mentioned that the knowledge required for their daily work is easily accessible in the library and 11% mentioned that they apply knowledge learned from experiences. When respondents were asked to indicate the requirement of knowledge in future to perform their work smoothly, 41% of the staff specified the requirement of IT skills, 11% specified their willingness to enhance their knowledge level in routine work and processes assigned to them and 42% specified no requirement to enhance their level of knowledge as they are equipped with the IT skills. 386 Mohammad Nazim, Bhaskar Mukherjee Conclusion Given the critical role that organizational factors play in the success of knowledge management practices, the results of our research show that some of the elements of the organizational factors are existent and there are fairly favorable conditions for adopting knowledge management practices in BHULS. Staff in the library that participated in this study seems to be motivated and ready to grasp the challenges. A knowledge management program, once put in practice, can lead to the improvement of their performances and a secure position for the organization to survive in the highly competitive age. However, this research is limited to BHULS and the findings of this research cannot be used to generalize to other university libraries in India. Future research should encompass a larger sample and examine more concrete issues of organizational factors that are critical to knowledge management success in university libraries. References Choi, Y. S. (2000), An Empirical Study of Factors Affecting Successful Implementation of Knowledge Management, Doctoral dissertation. University of Nebraska. Conley, C. A. and Zheng, W. (2009), “Factors Critical to Knowledge Management Success”, Advances in Developing Human Resources, Vol. 11, pp.334. Gold, A. H., Malhotra, A., and Segars, A. H. (2001), “Knowledge Management: An organizational Capabilities Perspective”, Journal of Management Information systems, Vol.18, No.1, pp. 185–214. Hariharan, A. (2005), “Critical success factors for knowledge management”. Knowledge Management Review, Vol. 8, No.2, pp. 16–19. Roknuzzaman, M., Kanai, H., Umemoto, K. (2009), “Integration of knowledge management process into digital library system: a theoretical perspective”, Library Review, Vol. 58, No .5, pp. 372–386. Shanhong, T. (2000), “Knowledge management in libraries in the twenty-first century”, paper presented at the 66th IFLA Council and General Conference, Jerusalem, August 13–18. Problems and prospects of implementing knowledge management … 387 White, T. (2004), “Knowledge management in an academic library: based on the case study KM within OULS”, paper presented at the 70th IFLA General Conference and Council, Buenos Aires, August 22–27. 388 Daniela Becks, Julia Maria Schulz Domänenübergreifende Phrasenextraktion mithilfe einer lexikonunabhängigen Analysekomponente Daniela Becks, Julia Maria Schulz Universität Hildesheim – Institut für Informations- und Sprachtechnologie Marienburger Platz 22, 31141 Hildesheim [email protected], [email protected] Zusammenfassung Der vorliegende Artikel beschreibt einen neuartigen domänenübergreifenden Ansatz zur Extraktion von Phrasen, der sich mit geringem Aufwand und ohne komplexe Lexika umsetzen und auf andere Domänen übertragen lässt. Dies wird anhand von Kundenrezensionen und Patentschriften getestet. Abstract This paper presents a new approach, which can be easily adapted to different domains without the existence of comprehensive lexica. As test documents customer reviews and patent documents are used. Einleitung Die Extraktion sinntragender Phrasen aus Korpora setzt i.d.R. ein intensives Verständnis der Texte und der betrachteten Domäne voraus. Auch bedarf es in vielen Fällen der Adaption verwendeter Wissensbasen und zugrunde liegender Modelle. Dieser Prozess ist nicht selten zeit- und arbeitsintensiv. Der vorliegende Artikel beschreibt einen neuartigen domänenübergreifenden Ansatz, der Shallow und Deep Parsing kombiniert und sich mit wenig Aufwand und ohne komplexe Lexika realisieren und auf andere Domänen über- Domänenübergreifende Phrasenextraktion ... 389 tragen lässt. Als Beispiel werden zwei sehr unterschiedliche Textdomänen herangezogen: Kundenrezensionen und Patentschriften. Im nächsten Abschnitt wird zunächst auf existierende Ansätze eingegangen, bevor in Kapitel 3 der domänenübergreifende Ansatz beschrieben wird. Es schließt sich eine Beschreibung der Evaluierungsansätze an, bevor das Paper mit einem Ausblick schließt. Verwandte Arbeiten Im Information Retrieval zeigt sich seit einiger Zeit, dass der klassische Bagof-Words-Ansatz sowohl innerhalb der Indexierung als auch im Anfrageprozess zunehmend abgelöst wird. Viele Wissenschaftler vertreten die Meinung, Phrasen seien häufig präziser als einfache Terme (vgl. z.B. Tseng et al. 2007: 1222). So kann bspw. die Bedeutung der beiden Terme „schwarzes Schaf“ nur bei gemeinsamer Betrachtung (als Phrase) erfasst werden. Zu den gängigen Verfahren der Phrasenextraktion zählen regelbasierte Ansätze wie das wörterbuchunabhängige Begrenzerverfahren (vgl. Jaene/ Seelbach 1975). Für die Inhaltserschließung werden hier Phrasen in Form von Mehrwortgruppen, die als mehrere eine syntaktisch-semantische Einheit bildende Wörter definiert werden (vgl. ebd.: 9), aus englischen Fachtexten extrahiert. Dafür werden sogenannte Begrenzerpaare definiert, die als Grenzen für die zu extrahierenden Nominalphrasen fungieren (vgl. ebd.: 7). Diese bestehen aus Kombinationen von Stoppwörtern oder Satzzeichen, die in Listen erfasst sind (vgl. ebd.: 51 ff.). Ein ähnliches Verfahren, das innerhalb der Patentdomäne Anwendung findet, beschreiben Tseng et al. 2007. Sie ermitteln Phrasen bzw. Schlüsselwörter mithilfe einer Stoppwortliste. Die Autoren stellen fest, dass die längsten sich wiederholenden Phrasen häufig besonders gute Kandidaten darstellen (vgl. Tseng et al. 2007: 1223). Ein klassisches linguistisches Verfahren bildet das Dependenzparsing, das die Abhängigkeiten der Satzglieder ermittelt. Im Information Retrieval finden sich Dependenzrelationen häufig als sogenannte Head/Modifier-Relationen wieder. Diese Head/Modifer-Paare setzen sich aus einem Head, welcher den Kern der Phrase darstellt, und einem Modifier zusammen, der der Präzisierung des Heads dient (vgl. Koster 2004: 423), wie das nachfolgende Beispiel zeigt: linguistic (= modifier) approach (= head). 390 Daniela Becks, Julia Maria Schulz Der Vorteil von Head/Modifier-Relationen liegt insbesondere darin, dass diese neben syntaktischen auch semantische Information enthalten (vgl. u.a. Ruge 1989: 9). Daher erfreuen sie sich vor allem im Rahmen des Indexierungsprozesses großer Beliebtheit (vgl. u.a. Koster 2004). In Form von Head/ Modifer-Tripeln (Term-Relation-Term) erweisen sich Dependenzrelationen u.a. für Klassifikationsaufgaben als hilfreich (vgl. Koster/Beney 2009). Domänenübergreifende Phrasenextraktion Die im Folgenden vorgestellte Methode für die Phrasenextraktion vereinigt nun die beiden zuvor genannten Verfahrensansätze. Als Anwendungsbereiche werden Patentschriften und Kundenrezensionen gewählt, die in zwei Projekten mit unterschiedlichen Zielsetzungen verwendet werden (vgl. Kapitel 4). Das Ziel des neuen Extraktionsverfahrens besteht darin, für beide Projekte ein Werkzeug zur Identifikation linguistischer Phrasen bereitzustellen, das sich mit geringem Aufwand für unterschiedliche Domänen adaptieren lässt und auch auf umfangreichen Korpora performant arbeitet. Dabei ist die Semantik der extrahierten Phrasen nicht zu vernachlässigen. Demgemäß wird ein Mischverfahren entwickelt, das auf linguistische Regeln zurückgreift, aber eher die Funktionalität eines Shallow Parsers aufweist. Es wird ein regelbasiertes Verfahren eingesetzt, das sich z. T. auf das Begrenzerverfahren (vgl. Jaene/Seelbach 1975) zurückführen lässt, jedoch mit Ansätzen des Dependenzparsings (vgl. z.B. Ruge 1989) kombiniert wurde. Um ressourcenintensives syntaktisches Parsen zu vermeiden, erfolgt die Phrasenextraktion mithilfe verschiedener Regeln, in denen jeweils Paare von Begrenzern definiert sind. Im Unterschied zu dem oben beschriebenen Begrenzerverfahren werden hier Wortklassen (POS-Tags) statt Stoppwörtern verwendet. Durch deren Einsatz werden bereits bestimmte Phrasentypen vorgegeben. Das POS-Tag DT (Artikel) leitet bspw. ausschließlich Nominalphrasen ein. Die so definierten Phrasentypen sind abstrahiert und können leichter auf andere Sprachen und Domänen übertragen werden, da die Kategorie DT sowohl die deutschen Artikel der, die, das als auch das englische Pendant the umfasst. Diese abstrahierte Version des Begrenzerverfahrens ist daher deutlich flexibler und benötigt keine komplexen Wortlisten. Außerdem wird auf Grundzüge des Dependenzparsings zurückgegriffen. Jede der extra- Domänenübergreifende Phrasenextraktion ... 391 hierten Phrasen verfügt daher über einen Head und einen Modifier (vgl. Koster 2004). Die Beispiele in Abb. 1 verdeutlichen, dass es sich bei den extrahierten Phrasen nicht nur um Head/Modifier-Paare im engeren Sinne handeln muss, sondern auch längere Phrasen abgebildet werden. Begrenzer: a(DT) & with(IN) Begrenzer: a(DT) & ,(,) (EP-1120530-B1) (Hiu&Liu 2004) Abb. 1: Visualisierte Beispielphrasen beider Domänen Evaluierungsansätze Das Ziel im Opinion Mining Projekt ist das Extrahieren von Phrasen, die aus Meinungen bezüglich der rezensierten Produkte und deren Eigenschaften bestehen. Für Evaluierungszwecke liegt im Projekt ein Korpus vor, das auf Satzebene annotierte Produkteigenschaften und die diesbezüglich ausgedrückte Meinung enthält (vgl. Hu/Liu 2004; Ding et al. 2008). Für explizit genannte Produkteigenschaften, wie „picture quality“ in folgendem Satz: „The picture quality is great.“ soll im Rahmen der Evaluierung überprüft werden, ob die jeweilige Phrase die annotierte Produkteigenschaft enthält. Ist dies der Fall, wird die Phrase als Treffer gewertet. Da implizit genannte Produkteigenschaften, wie „size“ im Satz „It fits in every pocket.“, so nicht evaluiert werden können, wird das Korpus um Markierungen der entsprechenden Textstellen, die die Produkteigenschaft aufweisen, erweitert. Für die Evaluierung werden jeweils Recall und Precision ermittelt. Im Patent Retrieval-Projekt liegt der Fokus auf der Evaluierung der Genauigkeit der extrahierten Phrasen. Zu diesem Zweck wird auf einen Ansatz von Verbene et al. 2010 zurückgegriffen. Als Evaluierungsbasis verwenden die Autoren eine manuell annotierte Stichprobe von 100 Sätzen, die als Goldstandard betrachtet werden kann. Ein Abgleich der extrahierten Phrasen mit den intellektuellen Annotationen ermöglicht die Berechnung der Accuracy. In diesem Projekt bietet sich ein solcher Evaluierungsansatz ebenfalls an, da eine Stichprobe manuell annotierter Patentschriften bereits existiert. 392 Daniela Becks, Julia Maria Schulz Ausblick Erste Experimente und manuelle Auswertungen weisen auf eine viel versprechende und Ressourcen sparende Methode zum Extrahieren von Phrasen aus verschiedenen Korpora hin. Im Rahmen der beiden zuvor angesprochenen Projekte sollen im nächsten Schritt die in Kapitel 4 erläuterten Evaluierungsverfahren umgesetzt werden, um auf diese Weise den Eindruck der ersten manuellen Auswertungen empirisch zu stützen. References/Literaturverzeichnis Ding, X.; Liu, B.; Yu, Ph. S. (2008): A holistic lexicon-based approach to opinion mining. In: Proceedings of the international conference on Web search and web data mining. Palo Alto, California, USA: ACM, S. 231–240. Hu, M.; Liu, B. (2004): Mining Opinion Features in Customer Reviews. In: Proceedings of the 19th National Conference on Artifical intelligence. San Jose, California, USA: AAAI Press/The MIT Press, S. 755–760. Jaene, H.; Seelbach, D. (1975): Maschinelle Extraktion von zusammengesetzten Ausdrücken aus englischen Fachtexten. Berlin u.a.: Beuth. Koster, C. H. A. (2004): Head/Modifier Frames for Information Retrieval. In: Proceedings of the 5th Conference on Intelligent Text Processing and Computational Linguistics. Seoul, Korea: Springer (LNCS 2945), S. 420–432. Koster, C. H. A.; Beney, G. Jean (2009): Phrase-Based Document Categorization Revisited. In: Proceedings of the 18th Conference on Information and Knowledge Management. Hong Kong, China: ACM, S. 49–55. Ruge, G. (1989): Generierung semantischer Felder auf der Basis von Frei-Texten. In: LDV Forum 6, H. 2, S. 3–17. Tseng, Y.-H.; Lin, Ch.-J.; Lin, Y.-I. (2007): Text Mining Techniques for Patent Analysis. In: Information Processing and Management 43, H. 5, S. 1216–1247. Verbene, S.; D’hondt, E.; Oostdijk, N. (2010): Quantifying the Challenges in Parsing Patent Claims. In: Proceedings of the 1st International Workshop on Advances in Patent Information Retrieval (AsPIRe’10). Milton Keynes, S. 14–21. Content Analysis in der Mathematik: Erschließung und Retrieval ... 393 Content Analysis in der Mathematik: Erschließung und Retrieval mathematischer Publikationen Wolfram Sperber, Bernd Wegner FIZ Karlsruhe – Zentralblatt MATH Franklinstr. 11, 10587 Berlin [email protected] [email protected] Zusammenfassung Die traditionellen Informationsdienste in den Wissenschaften stehen angesichts der Publikationsflut und der Entwicklung der elektronischen Medien gerade auch in der Mathematik vor großen Herausforderungen. Es müssen neue Konzepte für eine erweiterte qualitativ hochwertige Erschließung entwickelt werden, die weitgehend automatisierbar sind. In dem Beitrag werden die Konzepte zur Texterschließung in der Mathematik analysiert und Methoden entwickelt, die neue Möglichkeiten für das Retrieval eröffnen. Der Beitrag schließt mit einem Ausblick auf die Möglichkeiten zur Formel-Analyse. Abstract The classical scientific information services are confronted with big challenges: the increasing number of publications is calling for a new machinebased concept of content analysis and sophisticated methods for the retrieval. In the paper, a few new concepts for the content analysis and the retrieval of mathematical publications are presented. Moreover, the problem of formula analysis and retrieval is discussed. 394 1 Wolfram Sperber, Bernd Wegner Einleitung Wissenschaftliche Publikationen bilden auch heute noch den Kern des Wissens in der Mathematik und haben eine Schlüsselrolle für das Auffinden und den Zugang zum mathematischen Wissen. Mit dem Übergang in das industrielle Zeitalter und dem damit verbundenen Aufschwung in Forschung und Lehre hatte sich die Anzahl der wissenschaftlichen Publikationen sprunghaft erhöht. Für die Nutzer der Informationen, Wissenschaftler und Anwender, wurde es zunehmend aufwendiger und schwieriger, die zur Lösung eines Problems relevanten Publikationen zu identifizieren bzw. aufzufinden. In der Vergangenheit haben sich daher in verschiedenen wissenschaftlichen Disziplinen spezialisierte Informationsdienste, die Referatejournale, herausgebildet. Ziel der Referatejournale war (und ist es), den Lesern einen Überblick und eine Orientierungshilfe über die Entwicklungen in den Wissenschaften zur Verfügung zu stellen. Die Forderung nach effizienten Werkzeugen für die Suche nach relevanten Informationen ist angesichts des ungebremsten Wachstums wissenschaftlicher Literatur und der Entwicklung der elektronischen Medien aktueller denn je. Insbesondere sind bessere Maschinen-basierte Methoden für die Erschließung der Literatur und die Einordnung der Ergebnisse in den wissenschaftlichen Kontext notwendig. Universelle Suchmaschinen wie Google werden den Anforderungen aus den Wissenschaften nur zum Teil gerecht, da die Anforderungen und Interessen der Wissenschaften aus kommerzieller Sicht nur von untergeordnetem Interesse sind. In dem Beitrag werden für die Mathematik der Stand und die Perspektiven der inhaltlichen Erschließung mathematischer Literatur diskutiert. 2 Die Referatorgane und bibliografischen Datenbanken der Mathematik Im 18. und 19. Jahrhundert stieg die Anzahl der wissenschaftlichen Publikationen immens an. Der erste eigenständige Referatedienst in der Mathematik, das Jahrbuch über die Fortschritte der Mathematik (JFM), wurde 1868 von Mathematikern in Berlin gegründet und umfasste 880 mathematische Publi- Content Analysis in der Mathematik: Erschließung und Retrieval ... 395 kationen. Das JFM enthielt die bibliografischen Daten der Publikationen und häufig auch Besprechungen der Arbeiten, die von anderen Mathematikern auf freiwilliger Basis erstellt wurden. 1931 wurde in Deutschland ein weiterer Referatedienst für die Mathematik, das Zentralblatt für Mathematik (ZfM), gegründet. Es war insofern ein Gegenkonzept zum JFM, als dass die Aktualität absolute Priorität hatte und das Jahrgangsprinzip der JFM, also alle Arbeiten eines Jahres in einem Band zusammenzufassen und aufzubereiten, aufgegeben wurde. Mit Ende des 2. Weltkriegs wurde das JFM eingestellt. Bis in die 70-iger Jahre des 20. Jahrhunderts war sowohl die Produktion als auch das Produkt ZfM ausschließlich an das Papier gebunden. Mit dem Aufkommen der elektronischen Medien wurden zunächst die Produktion und dann auch das Produkt digitalisiert, es entstand die Datenbank ZBMATH, zunächst parallel zur gedruckten Form. 2010 wurde die gedruckte Form des ZfM eingestellt, der Nachweisdienst ZBMATH steht seitdem ausschließlich in elektronischer Form zur Verfügung. Heute ist die Datenbank ZBMATH der weltweit vollständigste und umfassendste Nachweisdienst für mathematische Literatur; für eine ausführliche Darstellung der mathematischen Referatedienste siehe die Artikel von (Wegner, 1998) und (Göbel & Sperber, 2010). 3 Content Analysis in den bibliografischen Datenbanken der Mathematik 3.1 Qualitätsparameter der Referatedienste Die Qualität und Attraktivität der Referatedienste macht sich an mehreren Kriterien fest: • Vollständigkeit der Abdeckung des Gebietes, das durch den Dienst bearbeitet wird • Umfang und Qualität der Erschließung des Materials • Verknüpfung mit verwandten Informationen (Kontextbezug) • Retrieval: Nutzerschnittstellen und Zugang zu den Diensten 396 3.2 Wolfram Sperber, Bernd Wegner Ein Modell für die Erschließung Grob lässt sich die Erschließung wissenschaftlicher Publikationen den folgenden vier Kategorien zuordnen: • Die bibliografischen Metadaten definieren das Minimum an Informationen, das für die Aufnahme in die Datenbank erforderlich ist, dazu gehören insbesondere Autor, Titel und Quelle. • Die referentiellen Metadaten beinhalten die Verweise und Literaturreferenzen einer Publikation bzw. auf eine Publikation, aber auch Verknüpfungen mit anderen Autoren (Autorennetzwerke). • Die Web2.0-Metadaten umfassen im Wesentlichen das Feedback der Community, etwa in Form von Kommentaren oder Diskussionsforen. • Unter semantischen Metadaten werden alle Metadaten zusammengefasst, die Aussagen über den Inhalt oder dessen Einordnung in den wissenschaftlichen Kontext machen, insbesondere sind das der Abstrakt bzw. die Review einer Publikation, Keywords und Klassifikation. Diese Metadaten sind im Wesentlichen textbasiert. Abstrakt/Review, Keywords und Klassifikation haben eine eigenständige Bedeutung und sind komplementär zueinander. Bibliografische, semantische, referentielle und Web2.0-Metadaten überlappen sich. Referentielle Metadaten etwa sind ein wichtiges Werkzeug für die Klassifizierung. Auch bibliografische Metadaten, etwa das Profil einer Zeitschrift, enthalten wichtige Anhaltspunkte über den Inhalt einer Arbeit. Content Analysis in der Mathematik: Erschließung und Retrieval ... 3.3 397 Die Mathematical Subject Classification In den 80er Jahren des 20. Jahrhunderts wurde von der American Mathematical Society (AMS) die AMS Subject Classification entwickelt und unter anderem für den Referatedienst Mathematical Reviews (MR) eingesetzt. Um dieses Schema als modernen Standard in die Mathematik einzuführen und weiter zu entwickeln, wurde Ende der 80er in Kooperation zwischen MR (heute Datenbank MathSciNet) und ZBMATH im Rahmen einer vertraglichen Vereinbarung eine gründliche Revision durchgeführt und diese fortan unter dem Namen Mathematical Subject Classification (MSC) weiterentwickelt. Die MSC ist ein hierarchisches dreistufiges System mit ca. 6.000 Klassen. Neben den hierarchischen Relationen zwischen Klassen existieren zwei weitere Arten von Verweisen zwischen den Klassen: „See also ...“ für Klassen ähnlichen Inhalts und „For .. see ...“ als Verweise auf Klassen, die spezielle Aspekte vertieft behandeln. Für weitere Informationen zur Klassifikation siehe (Göbel & Sperber, 2010). Mit der Aktualisierung der MSC im Jahr 2010 wurde erstmals eine elektronische Master-Version eingeführt. Die Master-Version ist im TeX-Format, aus dem andere Formatierungen, etwa PDF, Word oder ein KWIC Index generiert werden. Die TeX-Version ist im Wesentlichen identisch mit der gedruckten Version. Semantische Aussagen, insbesondere die Relationen, sind nicht in Maschinen-verstehbarer Form dargestellt. Die MSC weist zudem einige Schwächen im Design auf: • Definitionen der Klassen: Die Definition der MSC-Klassen erfolgt ausschließlich über die Benennung der Klassen und deren Einordnung in das Klassifikationsschema. So umfasst etwa die Klasse „34Dxx Stability theory“ alle Publikationen, die sich mit der Stabilität der Objekte der Klasse „34-XX Ordinary differential equations“ befassen, also mit der Stabilität gewöhnlicher Differentialgleichungen. • Unübersichtlichkeit: Die große Anzahl der Klassen der MSC und die teilweise starke inhaltliche Überlappung der Klassen führen dazu, dass die Arbeiten mehreren Klassen zugeordnet werden können. Andererseits ist die MSC – trotz der großen Anzahl von Klassen – für eine spezifische Suche oftmals nicht ausreichend (zu grob). • Ungleiche Wichtung der Klassen: Die Klassen der MSC unterscheiden sich sowohl in Inhalt und Form als auch in der Granularität. Letzteres führt u.a. dazu, dass die Anzahl der Arbeiten, die einer Klasse zugeordnet sind, sehr unterschiedlich ist. 398 • • 3.4 Wolfram Sperber, Bernd Wegner Lokales Design versus globales Design: Die Weiterentwicklung der MSC erfolgt primär nach lokalen Gesichtspunkten, d.h. es finden die Erfordernisse einzelner Gebiete (MSC-Klassen der Top Ebene) Berücksichtigung. Prinzipien für ein einheitliches Design der MSC, etwa Konsistenz in der Strukturierung des Schemas, spielen eine eher untergeordnete Rolle. So werden z.B. Anwendungen in der MSC sehr unterschiedlich gehandhabt, teilweise werden die Anwendungsbereiche direkt benannt, meist sind sie aber unspezifisch. Die Klassen sind verschiedenen Typs: Die Klassen umfassen mathematische Objekte (etwa Gewöhnliche Differentialgleichungen), qualitative Aspekte (etwa Stabilität) oder Lösungsmethoden (etwa Finite Differenzenverfahren), etc. Keywords und kontrolliertes Vokabular Keywords sollen charakteristische Terme der bzw. über die Publikation enthalten, d.h. charakterisieren sowohl den Inhalt als auch ordnen die Publikation in den mathematischen Kontext ein. Bisher gibt es für die Mathematik noch kein kontrolliertes Vokabular. Unter einem kontrollierten Vokabular der Mathematik wird im Folgenden die Menge der verwendeten Terme (Mehrwortphrasen) verstanden, die durch intellektuelle oder maschinelle Methoden aus dem vorhandenen mathematischen Wissen extrahiert wird und die für die Mathematik repräsentativ ist. Das kontrollierte Vokabular ist untrennbar mit der Entwicklung der Mathematik verbunden, durchläuft also einen stetigen Prozess der Veränderung und vergrößert sich ständig. Eine zuverlässige Abschätzung über die Größenordnung des verwendeten Vokabulars gibt es bisher nicht. In einer Voruntersuchung wurden die Keywords der Datenbank ZBMATH untersucht. Die Analyse ergab einige überraschende Befunde, u.a. auch Hinweise auf die zu erwartende Größenordnung: • Durchschnittlich sind jeder Publikation 3 Keywords zugeordnet. • Häufig werden die Labels der MSC Klassen als Keywords verwendet, die Keywords fallen sogar häufig mit den Labels der MSC Klassen zusammen. • Die Anzahl der verschiedenen Keywords für jede der 63 MSC Top-Klassen liegt deutlich über 1.000, d.h. ein kontrolliertes Vokabular für die Mathematik wird mehr als 500.000 Phrasen umfassen. Content Analysis in der Mathematik: Erschließung und Retrieval ... 4 Ansätze für die semantische Erschließung in der Mathematik 4.1 Semantic-Web-Technologien 399 Semantic-Web-Technologien beschäftigen sich mit dem Problem, Informationen so darzustellen, dass deren Bedeutung auch von Maschinen erfasst werden kann. Informationen im Web lassen sich dann automatisch auswerten und verknüpfen, was neuartige Möglichkeiten für die Suche und den Zugang zu den Informationen eröffnet. Mit dem Semantic Web stehen Methoden für eine erweiterte semantische Erschließung von Informationen zur Verfügung: (Resource Description Framework (RDF), 2004) und (RDF Vocabulary Description Schema Language 1.0: RDF Schema, 2004) als allgemeine Ansätze für die semantische Annotation, (Ontology Web Language (OWL), 2009) und (Simple Knowledge Organization System (SKOS), 2009) für die Definition von Ontologien, Klassifikationssystemen und Thesauri. RDF und RDF Schema: RDF ist ein Graphenmodell, das es erlaubt, Aussagen der Form ,Subjekt – Prädikat – Objekt‘ zu formulieren (etwa die Person A ist Autor der Publikation P) und diese zu verknüpfen. Mit RDF Schema wird das Vokabular für die RDF Darstellung der Informationen bereitgestellt. OWL und SKOS: OWL und SKOS setzen auf RDF auf, benutzen also das Graphenmodell von RDF und das Vokabular von RDF Schema. Schon RDF Schema bietet mit dem Klassenkonzept die Möglichkeit, hierarchische Beziehungen abzubilden. OWL und SKOS verfügen darüber hinaus über ein spezielles Vokabular für Thesauri, Klassifikationssysteme und Taxonomien. So lassen sich etwa die Klassen der obersten Ebene eines Klassifikationsschemas auszeichnen oder die Relationen zwischen Klassen präzisieren. Speziell für die Darstellung und Beschreibung mathematischer Inhalte wurden XML-Sprachen entwickelt, die die Möglichkeit bieten, mathematische Formeln und Symbole zu analysieren und suchbar zu machen. Darauf wird in Abschnitt 5 näher eingegangen. 400 4.2 Wolfram Sperber, Bernd Wegner MSC und Semantic-Web-Technologien Die Transformation der MSC in das Semantic Web erfolgt schrittweise. In einem ersten Schritt wurde die MSC mittels des SKOS/RDF-Schema Vokabulars dargestellt. Hierzu gehören die Definition des MSC Schemas, der MSC Klassen sowie der Relationen zwischen den Klassen. Mit einer 1:1Übersetzung der MSC von TeX nach SKOS ist es aber nicht getan. Um die MSC stärker für das Retrieval nutzbar zu machen, soll die MSC in einem zweiten Schritt überarbeitet und um zusätzliche semantische Aussagen über die Klassen der MSC erweitert werden. Insbesondere sind vorgesehen • eine Typisierung der Objekte der Klassen, dafür wird gegenwärtig ein Schema entwickelt • eine Präzisierung der Definitionen der Klassen über den Aufbau eines kontrollierten Vokabulars, siehe dazu den Abschnitt 4.3 • eine Präzisierung der Relationen zwischen den Klassen, etwa der Transitivität der hierarchischen Relationen • die Überarbeitung der Klassenbezeichner, die Einführung alternativer Klassenbezeichner und die Zuweisung multilingualer Labels • die Entwicklung von Konkordanzen, z.B. zur DDC und UDC, die für eine Interoperabilität mit Bibliothekssystemen relevant sind • die Verknüpfung der verschiedenen MSC-Versionen, um die Entwicklung der MSC verfolgen zu können • dieVerlinkung mit anderen Informationsdiensten, etwa Wikipedia, ArXiv 4.3 Kontrolliertes Vokabular Der Aufwand für den intellektuellen Aufbau eines kontrollierten Vokabulars für die Mathematik ist bei der zu erwartenden Größenordnung zu aufwendig. Stattdessen müssen maschinelle Lernverfahren eingesetzt werden, deren Resultate dann allerdings intellektuell ausgewertet und überprüft werden müssen. Als Ausgangspunkt lassen sich das Vokabular der MSC sowie weitere vorhandene kontrollierte Vokabulare in der Mathematik nutzen, etwa die (Encyclopaedia of Mathematics (EoM), 2002). In einem zweiten Schritt sol- Content Analysis in der Mathematik: Erschließung und Retrieval ... 401 len zusätzlich die in der Datenbank ZBMATH vorhandenen Keywords ausgewertet werden. Das führt dann zu einer Anreicherung des Startvokabulars um Keywords, die ebenfalls eine Klassifizierung gemäß MSC haben. Zudem ist durch die Häufigkeit ihres Auftretens eine Wichtung der Terme gegeben. In einem dritten Schritt schließlich soll das Startvokabular zur Extraktion von zusätzlichem Vokabular aus mathematischen Texten eingesetzt werden. Erste Tests zur zusätzlichen Extraktion von Keywords aus Abstracts mathematischer Publikationen wurden zusammen mit W. Gödert, FH Köln für zwei MSC-Klassen (Gewöhnliche Differentialgleichungen und Graphentheorie) mit der Open Source Software Lingo durchgeführt. Neue Begriffe sind zumeist Mehrwortgruppen, die durch Kombinationen aus existierenden Begriffen entstehen. Das geschieht durch Phrasenbildung aus einem gegebenen Vokabular entsprechend vordefinierter Regeln (die aber flexibel angepasst werden können). Die Wortlisten der extrahierten Phrasen müssen anschließend intellektuell gesichtet werden. Die Tests haben zu etwa 30.000 relevanten Phrasen für jede der beiden MSC-Klassen geführt. Von zentraler Bedeutung ist die Zuordnung der Terme des Vokabulars zur MSC. Es lassen sich damit – neben dem kontrollierten Vokabular für die gesamte Mathematik – spezielle Vokabulare für jede MSC Klasse aufbauen. Diese Klassen-spezifischen Vokabulare ermöglichen Aussagen über die Korrelation der Klassen. Zudem können diese Vokabulare für die automatische Klassifizierung eingesetzt werden. In einer Charakterisierung der MSCKlassen durch ein kontrolliertes Vokabular sehen wir einen natürlichen Arbeitsschritt für die automatische Klassifizierung von Publikationen. Den MSC-Klassen werden dabei gewichtete Vektoren von Termen zugeordnet, die die Klassen inhaltlich definieren und als Maß für die Einordnung einer Publikation in eine MSC-Klasse genutzt werden. Übliche Verfahren der Textklassifizierung, siehe dazu etwa den Übersichtsartikel von (Sebastiani, 2002), also der Aufbau von Wortlisten aus Volltexten durch Elimination von Stoppwörtern, Stemming, n-grams, etc., liefern für die Mathematik unbefriedigende Ergebnisse. Ein kontrolliertes Vokabular (also eine Art ,Positiv‘Termliste) ist ein anderer Ansatz zur Ermittlung der relevanten Phrasen für eine automatische Klassifikation. Mit der hier vorgeschlagenen Methode entsteht gleichzeitig ein neues Werkzeug für eine qualitativ bessere Keywordextraktion als auch die automatische Klassifizierung. Das kontrollierte Vokabular bietet zudem die Möglichkeit, Ähnlichkeiten zwischen Publikationen unterhalb der MSC-Ebene zu identifizieren, also ein 402 Wolfram Sperber, Bernd Wegner Clustering der Publikationen vorzunehmen. Das ermöglicht neue Retrievalfunktionalitäten, etwa die Suche nach inhaltlich ähnlichen Dokumenten. Keywords sind heute für das Retrieval wichtiger als Klassifikationssysteme. Das liegt u.a. an der fehlenden Kenntnis der Klassifikationssysteme bei vielen Nutzern, aber auch an den Nutzergewohnheiten, die sich durch die universellen Suchmaschinen wie Google ausgeprägt haben und ohne die (explizite) Nutzung von Klassifikationssystemen auskommen. Ein kontrolliertes Vokabular kann zudem von den Autoren als Werkzeug für die Verschlagwortung seiner Publikationen genutzt werden, etwa indem die Autoren ihre Publikation über eine Schnittstelle eingeben und eine Vorschlagliste für Keywords erhalten. 5 Ein Ausblick in die Zukunft: Formelanalyse Mathematik besteht bekanntlich nicht nur aus Text, sondern auch aus Formeln und Symbolen. Mathematische Symbole und Formeln komprimieren Sachverhalte, die sonst häufig nicht mehr in natürlicher Sprache dargestellt werden können. Symbole und Formeln enthalten in sehr verdichteter Form semantische Informationen. Mathematische Symbole und Formeln können im Abstrakt/Review, den Keywords und auch im Titel auftauchen. Mit der Entwicklung der Rechentechnik ist Software zur Lösung mathematischer Aufgaben entwickelt worden, etwa Computeralgebrasysteme zur Lösung von Gleichungen. Diese Software ist häufig sehr speziell und muss miteinander verknüpft werden, um ein konkretes Problem zu lösen. Es müssen Methoden und Standards entwickelt werden, um Interoperabilität verschiedener Systeme zu erreichen. Im Rahmen von XML wurden Methoden; Standards und Markup-Sprachen entwickelt, etwa (MathML, 2010) oder (OpenMath), mit denen Symbole und Formeln eindeutig und Maschinenverstehbar dargestellt werden können. Mathematische Formeln spielten für das Retrieval in gedruckten Publikationen keine Rolle. Die Schwierigkeiten für das Retrieval von Symbolen und Formeln sind vielfältig. Die mathematische Formelsprache hat ähnliche Schwächen wie die natürliche Sprache, etwa die unterschiedliche Verwendung von Symbolen oder der fehlende semantische Bezug. Mit der Entwicklung spezieller XML Sprachen für die Mathematik wurden die Voraus- Content Analysis in der Mathematik: Erschließung und Retrieval ... 403 setzungen geschaffen, um Methoden und Werkzeuge für die Erschließung von Formeln und deren Retrieval zu entwickeln. Erste Methoden und Konzepte befinden sich in der Diskussion. Literaturverzeichnis FIZ Karlsruhe und American Mathematical Society (2010). Mathematics Subject Classification MSC. http://www.msc2010.org (Retrieved January 15, 2011) Göbel, S., Sperber, W. (2010). Bibliographische Information in der Mathematik – Werkzeug zur inhaltlichen Erschließung und für das Retrieval, Forum der Berliner Mathematischen Gesellschaft, Band 12, 70–99 Hazewinkel, M. (2002). Encyclopaedia of Mathematics, Springer-Verlag: Berlin, Heidelberg, New York. http://eom.springer.de/ (Retrieved January 15 2011) OpenMath Society (2009). Open Math. http://www.openmath.org (Retrieved January 15 2011) Sebastiani, F. (2002) Machine learning in automated text categorization, ACM Computing Surveys 34(1), 1–47 W3C (2004), OWL Web Ontology Language Reference. http://www.w3c.org/TR/owl-ref/ (Retrieved January 15, 2011) W3C (2004). RDF Vocabulary Description Language 1.0: RDF Schema. http.//www.w3c.org/TR/rdf-schema (Retrieved January 15, 2011) W3C (2004). Resource Description Framework (RDF). http://www.w3c.org/RDF/ (Retrieved January 15, 2011) W3C (2010). Mathematical Markup Language (MathML) Version 3.0. http://www.w3c.org/TR/MathML3/ (Retrieved January 15 2011) W3C (2010). SKOS Simple Knowledge Organziation System. http://www.w3c.org/2004/02/skos/ (Retrieved January 15 2011) Wegner, B. (1998). Berlin als Zentrum des Wissenschaftlichen Referatewesens in Begehr, Heinrich: Mathematik in Berlin: Geschichte und Dokumentation, 1. Halbband; Shaker, 607-628 404 Jürgen Reischer Das Konzept der Informativität Eine begriffliche Positionsbestimmung für die Informationswissenschaft Jürgen Reischer Informationswissenschaft – Universität Regensburg D-93040 Regensburg [email protected] Zusammenfassung Der Begriff der Informativität in der Informationswissenschaft wird aus theoretischer und empirischer Perspektive untersucht und in Zusammenhang mit den Begriffen der Relevanz und Informationsqualität gestellt.1 Abstract The notion of informativeness in information science will be analyzed from a theoretical and empirical point of view and related to the concepts of relevance and information quality. 1 Einleitung Innerhalb der Informationswissenschaft spielen vor allem die Konzepte der Information und des Wissens sowie der Relevanz eine bedeutende Rolle (z. B. Kuhlen (1990), Hjørland (2010)). Diese Begriffe können jedoch nicht isoliert betrachtet werden, sondern nur im Zusammenspiel mit den Konzepten der Informativität und Informationsqualität. 1 Eine ausführlichere Version dieses Beitrags findet sich unter www.juergen-reischer.de. Das Konzept der Informativität 2 405 Informativität, Relevanz und Informationsqualität Der Begriff der Informativität findet sich in der Informationswissenschaft in wenigstens zwei Bereichen wieder: explizit beim informativen (vs. indikativen) Summarizing (vgl. Borko & Bernier (1975)) und implizit im Information Retrieval bei der Bestimmung des Informationsgehalts von Termen (tf•idf). Boyce (1982) stellt ferner den Zusammenhang zwischen Relevanz, Topikalität und Informativität in einem 2-stufigen Retrieval-Prozess heraus: Zuerst werden topikalisch relevante Dokumente ermittelt, dann die Dokumente gemäß ihrer Informativität (Verständlichkeit/Neuheit) für den Nutzer sortiert. Die Informativität einer Aussage oder eines Textes kann nun im relationalen oder absoluten Sinne bestimmt werden: • Ein Text oder eine Aussage kann als informativ per se (über ein Thema X) beurteilt werden, wenn keine Relevanzrelation zu einer aktuellen Fragestellung besteht (z. B. ein informatives Summary über X, eine Nachricht mit aktuellen Neuigkeiten über X). Der Text oder die Aussage ist dann als potenzielle Antwort auf eine Frage in einem möglichen Problemkontext zu verstehen. Die Informativität eines Textes stellt ein intrinsisches Qualitätsmerkmal des Textes dar, die ohne Bezug auf die Frage durch rein innertextuelle Faktoren wie Verständlichkeit, Interessantheit, Neuigkeit usw. bestimmt werden kann (s. u.). Der Text ist potenziell geeignet, als Antwort auf eine mögliche Frage zu dienen. • Ein Text oder eine Aussage kann als informativ per te (über ein Thema X) verstanden werden, wenn diese in Relevanzrelation zu einer aktuellen Fragestellung eines Informationssuchenden stehen. Die Aussage oder der Text ist dann als aktuelle Antwort auf eine Frage in einem tatsächlichen Problemkontext zu verstehen. Das im Text oder der Aussage nur potenziell enthaltene Wissen wird im aktuellen Kontext in Bezug zum Problem des Informationssuchenden gesetzt, um dort Erkenntnisgewinn zu bewirken (Erkenntnis als neue und verstandene Information). Die Informativität eines Textes in Bezug auf eine bestimmte Fragestellung kann als extrinsisches Qualitätsmerkmal eines Textes interpretiert werden, das über die intrinsischen Merkmale hinaus auch die Informativität der Antwort auf ein aktuelles Informationsbedürfnis des Nutzers einbezieht. Der Text ist aktuell geeignet, als Antwort auf eine tatsächliche Frage zu dienen. 406 Jürgen Reischer Relevanz im Sinne einer thematischen Passung zwischen Suchanfrage und Antwort ist eine notwendige Bedingung zur Befriedigung eines Informationsbedürfnisses, aber keine hinreichende: Sofern der Rezipient nichts aus der Antwort lernen kann, weil sie redundant, unspezifisch, vage usw. ist, war die Antwort uninformativ. In diesem Sinne ist die Informativität von Texten oder Aussagen ein mindestens so starkes Kriterium wie Relevanz selbst. 3 Empirie zur Informativität Aus der Literatur zum Summarizing ist bereits eine Reihe von Informativitäts-Merkmalen bekannt, die zur Konstruktion automatischer Summaries verwendet werden (z. B. Paice (1990), Kupiec et al. (1995), Strzalkowski et al. (1999), Goldstein et al. (1999); vgl. ausführlich Reischer (2010a–c)). Hierzu rechnen Faktoren wie Novität und Spezifität (Informationsgehalt/Frequenz von Termen), Interessantheit (Bonus-/Malus-Terme), Thematizität (Kohärenz/Deklarativität von Aussagen) sowie Faktizität (Objektivität/Wahrheitstreue von Aussagen). Vorausgesetzt ist die grundsätzliche Verständlichkeit eines Textes als notwendige Bedingung für dessen Informativität. Im Rahmen des EXCERPT-Projekts zum Summarizing und Passagen-Retrieval wurden auch empirische Untersuchungen zum Begriff der Informativität von Texten vorgenommen (Reischer 2010a–c). Dabei wurden je 13 Testpersonen bei insgesamt 10 Informations-Texten verschiedener Textsorten instruiert, die informativsten und interessantesten Sätze zu selektieren. Die Selektionskriterien konnten durch intellektuelle Analyse der linguistischen Eigenschaften jener Sätze ermittelt werden, die von mehr als 50% der Testpersonen als informativ/interessant beurteilt wurden. Daraus resultierte eine Reihe von maschinell ermittelbaren Parametern, die die Leistung des Systems gegenüber herkömmlichen Systemen verbessern konnten (s. u.). Eine sehr gute bis gute Indikatorkraft besitzen dabei vor allem folgende Parameter (für eine ausführliche Beschreibung vgl. Reischer (2010c)): • Selektierte Sätze weisen zwei bis vier Mal so viele Steigerungsformen auf wie nicht-selektierte Sätze. Darüber hinaus finden sich mit einem Anteil von lediglich einem Viertel bis Fünftel deutlich weniger Pronomen der 1. Person in selektierten gegenüber nicht-selektierten Sätzen (1.-Person-Pronomen deuten dabei auf eher subjektive statt objektive Aussagen Das Konzept der Informativität 407 hin). Generell stellen Bonus- und Malusausdrücke („better than“ vs. „by the way“) gute Indikatoren für (nicht) selektierte Sätze dar. Außerdem befanden sich unter den selektierten Sätzen nur deklarative Aussagesätze, d. h. es wurde kein einziger Frage- oder Überschriften-Satz ausgewählt. • Darüber hinaus sind selektierte Sätze aufgrund semantischer Relationen besser mit anderen Sätzen verknüpft und damit kohärenter als nicht-selektierte. Zudem sind Inhaltsterme selektierter Sätze semantisch spezifischer (informationshaltiger) und zugleich möglichst frequent (wichtig, zentral) im Text, wobei das Verhältnis von Funktions- zu Inhaltswörtern zugunsten Letzterer ausfällt. Ferner finden sich selektierte Sätze häufiger in Aufzählungen und am Abschnitts- oder Absatzanfang, wo eine erhöhte Anzahl neu in den Text eingeführter Terme einen Hinweis auf dessen thematische Progression (Informationsstruktur, Neuheitswert) liefert. Die Evaluation des EXCERPT-Systems im Hinblick auf die Summarizingund Passagen-Retrieval-Leistung zeigte, dass die beschriebenen Parameter eine etwa 10 Prozentpunkte höhere Leistung > 60% korrekt ermittelter Sätze erlaubten als bei kommerziellen Summarizern wie Copernic oder Intellexer. 4 Fazit Das rein theoretische Konzept der Informativität lässt sich für praktische Anwendungen im Information Retrieval oder Summarizing operationalisieren und realisieren, indem entsprechende Textparameter als Indikatoren für Informativität verwendet werden. Die Informativität eines Textes ist diejenige Eigenschaft, die ihn geeignet macht zur Schließung einer Wissenslücke (Lernen) oder zur Lösung eines Problems (Erkenntnisgewinn). Konsequenterweise sollte beim Retrieval und Ranking von Text(ausschnitt)en nicht nur deren thematische Relevanz im Zentrum des Interesses stehen, sondern gleichwertig auch deren Informativität. Wenn beim Summarizing der Fokus auf informative Textauszüge gelegt wird, um den Rezipienten möglichst effektiv mit Information zu versorgen, dann muss dies im gleichen Maße auch für Texte aus Textkollektionen gelten. Der Nutzer hat vor allem ein Informationsbedürfnis, kein Thema- oder Relevanzbedürfnis. 408 Jürgen Reischer Literaturverzeichnis Borko, H. & Bernier, C. L. (1975). Abstracting Concepts and Methods. New York u. a.: Academic Press. Boyce, B. (1982). Beyond Topicality. A Two Stage View of Relevance and the Retrieval Process. IP&M, 18(3), S. 105–109. Goldstein, J. & Kantrowitz, M. & Mittal, V. & Carbonell, J. (1999). Summarizing Text Documents: Sentence Selection and Evaluation Metrics. Proc. of SIGIR’99, S. 121–128. Hjørland, B. (2010). The Foundation of the Concept of Relevance. JASIST 61(2), S. 217–237. Kuhlen, R. (1990). Zum Stand pragmatischer Forschung in der Informationswissenschaft. In Herget, J. & Kuhlen, R. (Hrsg.). Pragmatische Aspekte beim Entwurf und Betrieb von Informationssystemen. Proc. der 1. ISI. Konstanz: UVK, S. 13–18. Kupiec, J. & Pederson, J. & Chen, F. (1995). A Trainable Document Summarizer. Proc. of SIGIR’95, S. 68–73. Paice, C. (1990). Constructing Literature Abstracts by Computer: Techniques and Prospects. IP&M, 26(1), S. 171–186. Reischer, J. (2010a). Retrieval und Ranking informativer Textpassagen. Eine theoretische und praktische Integration von informativem Summarizing und WithinDocument-Retrieval. Universität Regensburg: Habilitationsschrift. Reischer, J. (2010b). EXCERPT – Ein integriertes System zum informativen Summarizing und Within-Document-Retrieval. Proc. der KONVENS 2010, S. 77–84. Reischer, J. (2010c). Das EXCERPT-System. Manuskript: Universität Regensburg. http://www.gruenderboom.de/InfoLinguistik/Excerpt.pdf Strzalkowski, T. & Stein, G. & Wang, J. & Wise, B. (1999). A Robust Practical Text Summarizer. In Mani, I. & Maybury, M. T. (Hrsg.). Advances in Automatic Text Summarization. Cambridge/London: MIT Press, S. 137–154. Das Konzept der Informativität Session 10: Information Society 409 410 Joseph Adjei, Peter Tobbin Identification Systems Adoption in Africa; The Case of Ghana Joseph Adjei, Peter Tobbin Center for Communication, Media and Information Technologies [CMI] Aalborg University, Copenhagen Lautrupvang 15, 2750 Ballerup, Denmark [email protected], [email protected] Abstract A number of Identity Management Systems (IdMS) have been implemented in many countries as an attempt to curtail incidences of crime and abuse of privacy, and to give citizens easy and seamless access to services. Despite the numerous perceived benefits, a number of challenges continue to hinder successful implementations and adoption in Africa. Using concepts of technology adoption and fit-viability theory, this paper examines the critical factors affecting (IdMS) adoption. In this paper, a conceptual framework for IdMS implementation and successful adoption is developed and validated with findings from a survey conducted in Ghana. The conceptual framework would offer policy makers the opportunity to determine the critical factors to be considered in (IdMS) implementations. 1 Introduction Identity management projects have lately become a major issue capturing media attention and driving interactions between governments and citizens. The reasons for IdMS implementations have generally been to ensure high levels of security, efficiency, cost-effective provision of services promotion of commercial activity, and ensuring the rights of citizens to informational Identification Systems Adoption in Africa; The Case of Ghana. 411 self-determination (Beynon-Davies, 2007). Incidentally, implementation of IdMS that is capable of achieving these goals can be a very complex process requiring cooperation from a number of stakeholders (Aichholzer & Strauß, 2009). In their paper on understanding complex innovation, Aichholzer & Strauß (2009) argue that critical security and privacy systems architecture can be very challenging. These issues then presents a dilemma to policy makers leading to their preoccupation with technological features of the systems at the expense of analyzing the wider societal implications of the systems (Lips et al., 2009 and Aichholzer & Strauß, 2009). In spite of the numerous researches on IdMS implementation, there is still a dearth of literature on factors affecting IdMS adoption from a developing country’s perspective. In this paper, we analyze the key factors affecting IdMS implementations and develop a conceptual framework for future implementations based on a survey conducted in Ghana. The subsequent section discusses technological development in Africa and IdMS initiatives in Ghana. Section 3 discusses the research methodology and gives a brief description of the Technology Acceptance Model (TAM) and the Fit-Viability Theory. In section 4, we propose a conceptual framework for implementing IdMS from a developing country’s perspective, a description of the survey in Ghana and ending with a discussion of the survey results. In section 5, we present our conclusions and recommendations for IdMS implementation and adoption. 2 Technological Development in Africa Many African countries are technologically lagging behind. This has been attributed to several years of primitive cultural practices, bad governance, chaotic climatic conditions, poverty and illiteracy. Historically, natural disasters, landmark events and tribal body marks have been used as means of identification and reference points. These practices, which in the past served their purposes, have in these last days of rapid technological development proved very slow and unreliable, leading to improper forms of identification and authentication. In Botswana for instance, the findings of Uzoka & Ndzinge (2009) indicated that biometrics usage is at its infancy despite the fact that industries may be aware of its ability to strengthen security and pro- 412 Joseph Adjei, Peter Tobbin ductivity. The emergence of mobile phones and the tremendous growth in cellular networks have made instant and reliable communication a reality in Africa. Cell phone subscription in Africa rose from 54 million in 2003 to 350 million in 2008 with a forecast average cell phone penetration of 80% by 2012 (Comninos et al., 2008). In Ghana, this 80% penetration rate has already been achieved (GBN, 2010). This technological growth is driving a gradual shift in Africa towards implementation of various biometrics based identity management and electronic payment systems. Throughout Africa, governments are moving towards various national IdMS with the enactment of various laws. The Payment Systems Act (ACT662) and National Identification Act (ACT 707), (NIA, 2010) are key examples. These technological developments are however not without challenges. Policy makers, security agencies and the private sector are bedeviled with a particular type of cybercrime popularly known in Ghanaian parlance as “sakawa” (Slater & Kwami, 2005). 419 cybercrimes have already become an international issue in Nigeria (USDoS, 1997). 2.1 Identity & Identity Management Systems Identity has several dimensions. Psychological identity is the distinguishing characteristics of an individual, whilst social identity refers to the positive self-concept of individuals such as organizational membership, religious affiliation, gender and age group (Tajfel & Turner, 1985). In information systems, identity consists of traits, attributes, and preferences, by which one may receive personalized services either online, on mobile devices, at work, or in many other places (Liberty, 2004). Identity consists of both physical and digital identity. In Bhargav-Spantzel et al. (2007), digital identity may be any kind of characteristics associated to an individual and may take the form of user logins, identity attributes (eye colour, date of birth, etc.) and identifiers (account number, vehicle license plate). Identity Management Systems have been used throughout history to establish the basis for trade and governance using different tokens and technologies, seals, coded messages, signatures, and jewelry, etc. (3G_Americas, 2009). Existing literature contains several and sometimes overlapping definitions of IdMS. Depending on the situation and the context, an individual may be represented by different partial identities (Clauß & Köhntopp, 2001). Hence, identity management can mean different things to different people Identification Systems Adoption in Africa; The Case of Ghana. 413 depending on the context (Van Thuan, 2007). In this study, IdMS consists of processes, policies and technologies to manage the complete lifecycle of user identities across a system and to control a user’s access to the system resources (Van Thuan, 2007). A good IdMS can assist users in acquiring better knowledge about individuals, which is essential in building a certain level of trust. Similarly, IdMS can be a reliable means of protecting the privacy of parties to transactions. An effective IdMS ensures real-time identification and authentication to distinguish one person from the other. 2.2 Identity Management Initiatives in Ghana In Ghana, several independent IdMS initiatives are under way. The National Health Insurance Scheme has already rolled out a nationwide registration by issuing identity cards to beneficiaries. Birth and death, voters’ registers, business registrations and social security are other forms of registrations performed by various government agencies in different formats and databases. The government has recently implemented biometric based passports and driver’s and vehicle licenses. These two projects have been very successful concerning user adoption with the only issue being delays in issuance of passports or the driving licenses. To enhance commercial activity and to reduce the unbanked and under-banked population in Ghana, a biometric based payment system (e-zwich card) was also implemented by the Bank of Ghana (Frempong, 2010). According to France & Selormey (2009) GhIPSS opted for biometric technology because of its superior security in terms of user authentication and its ability to combat card cloning. The e-zwich project has however failed to live up to the expectation even though the goals seemed laudable from the government’s point of view (France & Selormey, 2009). National Identification Authority is in the process of rolling out national identity cards. 3 Methodology This is a country study research on IdMS implementation from a developing country’s perspective. The key question addressed in this paper is “What factors influence adoption of Identity Management Systems in developing 414 Joseph Adjei, Peter Tobbin countries?” Empirical data was gathered by consulting related studies on privacy and IdMS implementation, stakeholder interviews and self-administered questionnaires. From the literature review, it became apparent that Davis’ (1989) Technology Acceptance Model (TAM), and the fit-viability theory (Tjan, 2001 and Liang et al., 2007) were relevant to the study since they offered better constructs. Opinions of typical Ghanaian adults were used as the unit of analysis. The questionnaire was designed based on the results of the initial interviews. A multiple-item approach was adopted where each item was measured on a five-point Likert scale, with answers ranging from “strongly disagree” to “strongly agree”. The items in the questionnaire were developed by adapting existing measures validated by other researchers in IdMS, or by converting the definitions of the construct into a questionnaire format. The questionnaire consisted of five main sections. The questions in section 1 were aimed at gathering demographic information such as gender, age group, occupation, educational background and level of income. Section 2 focused on the citizen’s perceptions and understanding of issues like privacy, security and controls in identification systems. Section 3dealt with perceived usefulness and perceived ease of use. Section 5 then focused on economic feasibility and transaction cost. In total, there were 43 questions. The results of the analysis form the basis for the development of the conceptual framework. The research is significant since it addresses identity management issues within the context of developing countries, scarcely represented in the IdMS literature. 3.1 Technology Acceptance Model (TAM) Factors affecting technology adoption and diffusion of innovation have been extensively studied with several theories emanating from it within Information Systems literature. Notable among them are the innovation diffusion theory (Rogers, 1983), technology acceptance model (TAM) (Davis, 1989) and the unified theory of acceptance and use of technology (UTAUT) (Venkatesh & Davis, 2000). In Davis’ (1989) TAM for instance, what causes people to accept or reject information technology has mainly been attributed to its perceived usefulness and perceived ease of use. External pressure to adopt has also been identified as another factor affecting technology adoption (Dass & Pal, 2009). Additional factors include complexities, compatibility and relative advantage. In Davis (1989), perceived usefulness describes the Identification Systems Adoption in Africa; The Case of Ghana. 415 degree to which a person believes that an innovation will boost their performance. Perceived ease of use on the other hand describes the degree to which a person believes that adopting an innovation will be free of effort. Where a system is high in perceived usefulness but it requires a great effort from a user, it is believed that its benefits will be eroded by the efforts required and thereby dissuading users from using it. In effect users are more likely to adopt systems which are easier to use and offer some benefits. Even though they are aimed at deepening understanding of factors affecting adoption these studies have mainly focused on developed countries. Other factors like free riding, connectivity and illiteracy that are peculiar to developing countries will also be covered in this study. 3.2 Fit-Viability Model Liang et al. (2007) adapted Tjan’s (2001) two dimensional fit-viability model for measuring the extent to which a new technology will fit into the core competence, structure, value and culture of organization and how viable it could be. In their model, Liang et al. (2007), defined technology viability as the measure of the extent to which the organizational environment is ready for the application, as well as its economic feasibility, technical infrastructure, and social readiness of the organization. Fit measures the extent to which the technology is capable of meeting the requirement of task. They came to the conclusion that organizations must only pursue applications with good fit and strong organizational viability. Economic feasibility is a key indicator used to measure an organizations’ readiness to implement a technology. The two main criteria for measuring economic feasibility are cost benefit analysis (e.g. net present value) and transaction cost analysis, where reducing costs can increase a customer’s willingness to use a technology (Spraakman, 1997). A high-transaction frequency on the other hand reduces transaction costs and the usage of the application. In effect transaction cost is higher where there is lack of usefulness and ease of use. 416 4 Joseph Adjei, Peter Tobbin IdMS Conceptual Framework TAM has proven to be a very useful tool for understanding and predicting user behavior in information system implementation since it seeks to place administration and control of information directly into the hands of users (Aichholzer & Strauß, 2009). The following constructs are therefore adapted from the theoretical framework and privacy related literature: • Perceived Usefulness is the degree to which a person thinks that using a particular system will enhance his or her performance. In the IdMS adoption, it is concerned with how users believe the system can enhance their daily transactions and interactions. In effect high perceived usefulness will lead to a high intention to accept identification systems. • Perceived Ease of Use is the degree to which a person believes that using a particular system will be free of effort (Davis, 1989). In IdMS implementations, the enrolment process, ability to gain access to different services, training and support ensures ease of use. Other factors include network anonymization tools and minimum disclosure of personal information (Cavoukian, 2008). • External pressure to adopt (Dass & Pal, 2009): Where there is a certain level of force or the system is made mandatory for business transaction, adoption is high. For instance passports are mandatory for international travels and for that matter citizens will be under pressure to adopt a biometric passport • • Privacy is the right of an individual to decide what information about himself should be communicated to others and under what circumstances (Westin, 1970). It is about the right of individuals to choose how they want to live their life, and what things they want to keep private (De Hert, 2008). In effect privacy refers to the claim or right of individuals to exercise a measure of control over the collection, use and disclosure of their personal information (Cavoukian, 2008). Users are more inclined to adopt Identity Management Systems which offer a high level of privacy assurance. Trust is the state of readiness for unguarded interaction with someone or something (Tway, 1993). Trust can be influenced by perceptions of intentions and past experiences. In Ghana for instance many business people perceive that national identification systems can be used for tax purposes or political witch-hunting and will therefore find various means to Identification Systems Adoption in Africa; The Case of Ghana. 417 avoid it. Negative perception on trust can have a direct effect on attitudes towards the system. High reliability and privacy protection policies will lead high level of trust. • Technology Fit (Tjan, 2001): Technology fit issues are qualitative factors that determine to what extent an investment fits into the organizations’ processes, capabilities and culture. Fit issues are therefore ‘internal’ factors that influence the system design. In developing countries, such internal factors are literacy rate, level of political tolerance, infrastructure, cultural norms etc. • Viability issues deal with the expected return the system is able to generate, such as the value-added potential, cost and associated benefits. • Transaction Cost: Many people are reluctant to pay for government services even if they directly affect their livelihood. Therefore any system requiring high transaction costs is bound to fail in developing countries unless there are no alternatives. The diagram below is a summary of the factors which must be considered in IdMS implementation to ensure successful adoption. Privacy and trust issues and technology fit characteristics must affect the four inner boxes. In effect even if the system is very useful and easy to use, negative perception of trust can affect successful adoption by users. Figure 1: IdMS Conceptual Framework. 418 Joseph Adjei, Peter Tobbin 4.1 IdMS Adoption Survey in Ghana In an attempt to determine factors affecting IdMS adoption we conducted a survey using stakeholder interviews and a questionnaire. The objective of the interviews was to acquire better understanding of the issues involved in national IdMS implementation, which will influence the design of the questionnaire. The interview focused on the key officials National Identification project and government’s electronic payment system (e-zwich project). We also interviewed key officials of major commercial banks and trading merchants and two groups of citizens: those who have acquired the e-zwich cards and those who have not. An interview guide was designed to ensure consistency and to ensure that researchers focus on the IdMS related issues. In the case of the questionnaire, a group of executive masters in administration (EMBA), participants of the Ghana Institute of Management and Public Administration (GIMPA) were selected. This group was selected because they represent a typical group of opinion leaders whose views on national IdMS were the unit of analysis. Additionally, we found it to be very cost effective due to budgetary constraints and offered me to explain the rationale behind the various questions to the respondents. 250 questionnaires were administered and 230 responses were received and analysed. The key constructs stated in section 4 above were used to develop the questionnaire. 4.2 Results and Discussion Based on employment positions, 95% of the respondents occupy managerial positions. Even though National Identity (NID) Cards systems encounter a lot of opposition in Western countries, particularly the US and the United Kingdom, 90% of respondents believed that NID cards must be compulsory for all Ghanaians. Another interesting finding was that 80% of respondents prefer that cards be issued to citizens free of charge as a means of achieving universal coverage and forgery prevention. Another interesting finding from the survey was that the respondents were unanimous in their responses to questions on governance, policy and monitoring. For instance, they all believed that their interest would be considered in deciding how identity data is Identification Systems Adoption in Africa; The Case of Ghana. 419 used which is consistent with Davis’ (1989) suggestion that the design characteristics of a system exert immediate effects on perceived usefulness as well as indirect effects via perceived ease of use. Even though security is a major concern in the West, in this survey respondents rather believed that the system will be secure and for that matter their personal data will not be affected even though they believed there are some risks involved due to the lack of competent personnel to manage the databases. Concerning complexity in the use of the cards, the majority of the respondents did not think it would be very difficult to use. A further probe however indicated that this believe stems from the fact that respondents have all used ATM cards and thought the NID cards even in its advanced form may not be anything different. They also believed that the introduction of the identity cards will not have any negative impact on users’ personal information and that they were prepared to trade off some privacy for convenience, security and faster access to public service. Strangely, all the respondents were willing to allow identification authorities to share their personal data with other government agencies and private businesses. The analysis showed that among those who did not want identification systems to reveal their identity 90% were business owners. Where IdMS are required for key business activity to take place, adoption is usually high (e.g. passport and health insurance card). 5 Conclusion and Recommendation This paper has identified factors influencing adoption of IdMS from a developing country’s perspective. It has shown that security issues and anonymity, which are very critical in developed countries, are not the major concerns in developing countries. Rather, connectivity, costs of equipment, taxation and political motives were the key factors. Additionally, even though IdMS are very much welcome in Africa, there is a strong perception that they must be free for all citizens. This has a direct implication on sustainability of such systems unless they are associated with critical services like passports and driving licenses. In effect, to achieve high levels of IdMS adoption, policy makers must go beyond perceived usefulness and ease of use and deal with the key inhibiting factors. 420 Joseph Adjei, Peter Tobbin Acknowledgements We would like to thank Professor Henning Olesen, CMI, Aalborg University for his helpful comments during the development of the paper. References 3G_Americas. (2009). Identity Management; overview of standards & technologies for mobile and fixed internet. 3G America whitepaper. Aichholzer, G. & Strauß, S. (2009). Understanding a Complex Inovation process: Identity Management in Austrian E-Government. The Proceedings of the 10th International Digital Government Research Conference. Aichholzer, G. & Strauß, S. (2009). The Citizens Role in National Electronic Identity Management: A Case-study of Austria. Second international Conference on Advances in Human-Oriented and Personalized Mechanisms, Technologies, and Services. Porto, Portugal. Beynon-Davies, P. (2007). Personal identity management and electronic government; the case of the national identity card in the UK. Journal of Enterprise Information Management , Vol. 20 (No.3), 244–249. Bhargav-Spantzel, A., Camenisch, J., Gross, T. & Sommer, D. (2007). User centricity: a taxonomy and open issues. 15. Cavoukian, A. (2008). The case for privacy-embedded laws of identity in the digital age. Technical report. Clauß, S. & Köhntopp, M. (2001). Identity Management and its support of multilateral security. Computer and Networks, 37, 205–219. Comninos, A., Esselaar, S., Ndiwalana, A. & Stork, C. (2008). Towards Evidencebased ICT Policy and Regulation M-banking the Unbanked. Policy Paper 4, IDRC. Dass, S. & Pal, S. (2009). Feasibility and Sustainability Model for Identity Management. India: IIMA Research and Publications. Davis, F. D. (1989). Perceived Usefulness, Perceived Ease of Use, and User Acceptance of Information Technology. MIS Quarterly, 13(3), 319–340. De Hert, P. (2008). Identity management of e-ID, privacy and security in Europe: A human rights view. Information Security Technical Report (13), 71–75. Identification Systems Adoption in Africa; The Case of Ghana. 421 France, F. & Selormey, D. (July/August 2009). Biometrics improving financial accessibility. Biometric Technology Today, S. 10–11. Frempong, B. (Wed, 28th. April 2010). E-zwich is the dominant money transfer system in Ghana. http://www.citifmonline.com/site/business/news/view/5232/3 GBN (2010). Ghana’s mobile penetration expected to hit 100% in 2013. http://www.ghanabusinessnews.com/2010/06/08 Liang, T., Huang, C., Yeh, Y. & Lin, B. (2007). Adoption of mobile technology in business: a fit-viability model. Industrial management & data systems, 107 (8), 154–169. Liberty. (2004). Whitepaper: Benefits of Federated Identity to Government. Liberty Alliance Project. Lips, A. M., Taylor, J. A. & Organ, J. (2009). Managing Citizen Identity Information in EGovernment Service Relationships in the UK. Public Management Review, 11 (6), 833–856. NIA (2010). National Identification Authority. Editorial; NIA News, 1. Rogers, E. (1983). Diffusion of Innovations (third ed.). New York: The Free Press. Slater, D. & Kwami, J. (2005, June). Embeddedness and escape: Internet and mobile use as poverty reduction strategies in Ghana. Information Society Research Group (ISRG) Working Paper Series. Spraakman, G. (1997). Transaction cost economics: a theory for internal audit? Managerial Auditing Journal, 12 (7), 323–330. Tajfel, H. & Turner, J. C. (1985). The social identity theory of intergroup behavior. In S. W. Austin, Psychology of intergroup relations (2nd Ed., pp. 7–24). Chicago: Nelson-Hall. Tjan, A. (2001). Finally, a way to put your internet portfolio in order. Harvard Business Review, Vol. 79 (No. 2), pp. 76–85. Tway, D. C. (1993). A Construct of Trust, Dissertation. USDoS. (1997). Nigerian Advance Fee Fraud. United States Department of State Bureau of International Narcotics and Law Enforcement Affairs. Uzoka, F.-M. E. & Ndzinge, T. (2009). Empirical analysis of biometric technology adoption and acceptance in Botswana. The Journal of Systems and Software, 82, 1550–1564. Van Thuan, D. (2007). Identity Management Demystified. 3 (4). Venkatesh, V. & Davis, F. (2000). A theoretical extension of the technology acceptance model: four longitudinal field studies. 46 (2), pp. 186–204. Westin, A. (1970). Privacy and Freedom. New York: Atheneum. 422 Alexander Botte, Marc Rittberger, Christoph Schindler Virtuelle Forschungsumgebungen Wissenschaftspolitische Erwartungen, informationswissenschaftliche Forschungsfelder und Herausforderungen Alexander Botte, Marc Rittberger, Christoph Schindler Deutsches Institut für Internationale Pädagogische Forschung Schloßstraße 29, 60486 Frankfurt am Main [email protected] Zusammenfassung Auf die Herausforderung, Forschung stärker kommunikativ, transdisziplinär, kollaborativ und international zu organisieren sowie die Potenziale der Informationstechnologien zu nutzen, reagiert die nationale und europäische Forschungspolitik mit der Förderung von virtuellen Anwendungen zur Unterstützung der Forschungsprozesse. Aber nicht jede dezentral kooperierende Forschungsgruppe gewinnt automatisch an Effizienz, wenn sie den Aufwand des Einsatzes einer umfangreichen Virtuellen Forschungsumgebung wagt. Die Implementierung von Virtuellen Forschungsumgebungen auf breiter Basis bedarf der strategischen Planung und vorausgehender und begleitender informationswissenschaftlicher Forschung. Der Beitrag unternimmt es, vor dem Hintergrund bisheriger Programme und Erfahrungen ein Szenario für informationswissenschaftliche Forschungsfelder zu entwickeln. Abstract To meet the challenge of organising research with a stronger focus on communicative, trans-disciplinary, collaborative and international dimensions and to use the potential of information technology, national and European research politics have promoted virtual applications that support research processes. However, not every de-centrally cooperating research group automatically becomes more efficient once it endeavours the effort of tackling a comprehensive virtual research environment. This contribution draws on existing programmes and experience to develop a scenario for information scientific research in the field. Virtuelle Forschungsumgebungen 423 Wissenschaftspolitische Erwartungen Die Tatsache, dass zunehmend Daten digital zur Verfügung stehen und Prozeduren der Wissenschaft und Forschung durch IT unterstützt werden, eröffnet ein breites Spektrum an Möglichkeiten zur Innovation des Wissenschaftsund Forschungsprozesses. Vor allem die Wissenschaftspolitik und die Forschungsförderung leiten daraus Erwartungen ab und formulieren Programme, die mit übergeordneten strategischen Zielsetzungen verbunden werden. Virtuelle Forschungsumgebungen1 (VFU) lassen sich als digitale Infrastrukturen definieren, die es Forschern erlauben, die Potenziale elektronischer Medien für die Entwicklung neuer Forschungsmethoden und Untersuchung neuer Forschungsgegenstände zu nutzen. Die Vielfalt und Komplexität von VFU bietet neue Möglichkeiten im wissenschaftlichen Arbeitsprozess und stellt zugleich neue Anforderungen an die Kooperationsbereitschaft der Akteure, die Organisation, Finanzierung sowie den Technologieeinsatz. Technisch betrachtet bestehen sie (meist) aus einer Kernarchitektur mit allgemeinen Dienstleistungen und Werkzeugen, an die Umgebungen und Module für einzelne Forschungsgruppen mit spezifischen Konfigurationen und Erweiterungen angeschlossen werden können. VFU können einen kompletten Zyklus von Arbeitsprozessen in der Forschung abdecken und, abhängig von den jeweiligen fachspezifischen und individuellen Charakteristika, strukturell sehr weit ausdifferenziert sein. Seit einigen Jahren sind VFU bzw. ähnliche Konzepte Gegenstand nationaler sowie europäischer Förderprogramme2. Auf europäischer Ebene hatte das 2002 eingesetzte ESFRI-Forum3 Signalwirkung, das auf die Identifizie1 Im englischsprachigen Raum kursieren unterschiedliche Bezeichnungen, die durchaus auch unterschiedliche Schwerpunkte der Zielsetzung signalisieren: e-infrastructures (ERA vision, ESFRI), cyberinfrastructures (USA), collaboratories (SURF). In der deutschen Diskussion überwiegt aber die Bezeichnung Virtuelle Forschungsumgebungen, die eine Übersetzung des britischen Begriffs „Virtual Research Environment“ ist. 2 Im Jahre 2001 startete Großbritannien mit der Gründung des Nationalen e-Science Centers (http://www.nesc.ac.uk/) und dem e-Science-Kern-Programm (http://www.rcuk.ac. uk/escience/default.htm) großangelegte Förderprogramme. Die USA folgte nach der Veröffentlichung des Atkins-Reports im Jahre 2003 mit der Etablierung des Büros für Cyberinfrastructure (http://www.nsf.gov/dir/index.jsp?org=OCI). 3 In deutscher Sprache bietet sich als Ausgangsinformation über ESFRI an: http://www.eubuero.de/arbeitsbereiche/infrastrukturen/esfri 424 Alexander Botte, Marc Rittberger, Christoph Schindler rung und Förderung von Forschungsinfrastrukturen abzielt, zu denen auch sogenannte „e-infrastructures“ gehören. Letztgenannte Thematik wurde 2006 in einer Roadmap und im 7. Rahmenprogramm der Europäischen Kommission aufgegriffen: “Europe is ready to build on the ICT capabilities of existing infrastructures in order to create a new research environment, in which all scientists have an easy-to-use controlled access to unique or distributed scientific facilities, regardless of their type and location in the world.”4 Im Weiteren wird der Begriff “virtual environment” in Zusammenhang mit den Zielsetzungen neuer Arbeits- und Organisationsmodelle sowie der Förderung disziplinübergreifenden Zugriffs auf gemeinsame Ressourcen gebracht. Neben und teilweise im Zuge der europäischen Initiative haben sich auf nationaler Ebene in Europa (z.B. UK, D, NL, SWE), den USA und Australien ähnliche wissenschaftspolitische Zielsetzungen in Förderprogrammen und teilweise auch in institutionalisierten Strukturen niedergeschlagen. In Europa ist das JISC-Programme Virtual Research Environment hervorzuheben,5. Deutschland hatte schon frühzeitig förderpolitische Linien zur Unterstützung der virtuellen Vernetzung von Forschung eingeschlagen. Dazu zählen z. B. die unter dem Begriff Themenorientierte Informationsnetze seit 2000 geförderten Projekte. Das DFG-Positionspapier „Wissenschaftliche Literaturversorgung und Informationssysteme – Schwerpunkte der Förderung bis 2015“ aus dem Jahre 2006 benennt dann „Virtuelle Forschungsumgebungen“ explizit als neuen Schwerpunkt. Diese sollen „als Plattform für netzbasierte kollaborative Arbeitsprozesse neue Formen der Zusammenarbeit sowie einen neuen Umgang mit wissenschaftlichen Daten und Informationen ermöglichen“ (Aktionslinie 13 VFU). Die bisher geförderten Projekte haben schon eine Reihe von Pionierentwicklungen sehr unterschiedlicher disziplinärer Herkunft angestoßen. Ebenso lassen sich einschlägige Förderaktivitäten des BMBF – wie D-Grid und e-Science und vernetztes Wissensmanagement – überwiegend in die Förderprogramme zu VFU einordnen6. Vor dem Hintergrund erster Erfahrungen mit der Förderung der Informationsinfrastruktur für die deutsche Wissenschaft hat sich ein Bedarf an über- 4 ESFRI-Roadmap: http://cordis.europa.eu/fp7/ict/e-infrastructure/overview_en.html 5 JISC Programm unter http://www.jisc.ac.uk/whatwedo/programmes/vre.aspx 6 D-Grid wurde 2005 als Förderprogramm gestartet und hat bisher 30 Projekte gefördert, wovon allerdings nur 11 als Virtuelle Forschungsumgebungen einschlägig sind. Virtuelle Forschungsumgebungen 425 geordneter wissenschaftspolitischer Steuerung dieses Prozesses abgezeichnet, der in zwei parallele Aktivitäten mündete. 2008 gründete sich die Schwerpunktinitiative „Digitale Information“ der Allianz-Partnerorganisationen der deutschen Wissenschaftsorganisationen7. Anfang 2010 hat die Gemeinsame Wissenschaftskonferenz die Kommission Zukunft der Informationsinfrastruktur (KII) eingerichtet, die im Prinzip die gleichen Zielsetzungen verfolgt, allerdings noch stärkere förderungsprogrammatische Bedeutung hat. Lessons Learned: Barrieren und Erfolgsbedingungen Die internationalen Förderprogramme sind zum Teil schon gut dokumentiert und unter einigen Aspekten evaluiert8. Erste Ergebnisse signalisieren, dass die wissenschaftspolitischen Erwartungen erfüllt werden. Aus: [eResearch2020 2010: vi]9 7 Für einen zunächst bis 2012 befristeten Zeitraum haben sich in der Schwerpunktinitiative alle deutschen Wissenschaftsorganisationen zusammengeschlossen, um „Wissenschaftlerinnen und Wissenschaftler mit der bestmöglichen Informationsinfrastruktur auszustatten, die sie für ihre Forschung brauchen“ http://www.allianzinitiative.de/de/. 8 Verwendet wurden vor allem: [Carusi, Reimer 2010], [eResearch2020 2010], [van der Vaart 2010], evaluative Beiträge lieferte auch die „5th International Conference on eSocial Science” (Köln 2009). http://www.merc.ac.uk/?q=node/699 426 Alexander Botte, Marc Rittberger, Christoph Schindler Dass Beteiligte an solch aufwendigen Projekten eine generelle Tendenz zeigen, die Ergebnisse nicht im schlechten Licht darzustellen, kann als ein zu berücksichtigender Faktor (Bias) unterstellt werden, dennoch wird die prinzipielle Wirksamkeit von VFU im Sinne der Zielsetzung auch durch andere Evaluationsstudien bestätigt [Carusi, Reimer 2010, S. 22, Siemens 2010, S. 42]. Die graduelle Wirksamkeit hängt aber unmittelbar von der Gültigkeit bestimmter formaler Rahmenbedingungen ab, zu denen die Studien reichhaltiges und weitgehend konvergentes Erfahrungsmaterial zusammentragen: • Verbesserter Zugang zu Ressourcen: Zentraler Erfolgsfaktor ist „immediate research advantage by virtuality”, womit vor allem der verbesserte Zugriff auf Dokumente, Daten, Hardware und Software gemeint ist. Weitere Motive sind die verteilte zeitsynchrone Bearbeitung, das intelligente integrierte Daten- und Publikationsmanagement sowie die Öffnung für multidisziplinäre Zugänge und Ansätze (Open Science). • Forschungsprozessnahe Entwicklung und generische Nachhaltigkeit: Eine zentrale Erkenntnis früher generischer Fehlentwicklungen ist die Forderung, dass VRE in Orientierung an konkreten Forschungsprozessen entwickelt werden müssen. Gleichzeitig ist im Sinne der Nachnutzbarkeit und Nachhaltigkeit von Infrastrukturen die Einbettung in eine generische Rahmenarchitektur anzustreben: “The frameworks would provide core services (such as authentication and rights management; repositories; project planning, collaboration and communication tools) and allow the development or easy integration of modules for specific uses.” [Carusi, Reimer 2010: 6]. Da die Entwicklung allgemeiner modularer Referenzarchitekturen notwendigerweise die Heterogenität der unterschiedlichen Forschungszusammenhänge einbeziehen muss, wird die Aggregationsfähigkeit als entscheidend betrachtet. Prognostizierte Zukunftsszenarien setzen auf Flexibilität: “… multiple overlapping and intersecting networks rather than monolithic infrastructures; they will be a mixture of monopolies (within certain communities) and duplicate or parallel efforts, of essential tools for everyone within and across certain research communities and tools that are only occasionally used for specific purposes by a narrow subset within or across them, and of permanent but extensible large-scale systems that will provide indefinite and essential support for well-defined 9 Für die Untersuchung eResearch2020 wurden 18 internationale Projekte befragt, die wegen des Förderungsvolumens meist als Großprojekte bezeichnet werden können. Virtuelle Forschungsumgebungen • • • 427 large groups of users, but also light-weight tools without any lasting structure and only ad hoc constituencies …” [Eccles 2009 et al.: 10]. Komplexe Funktionalitäten ohne technologische Hürden: VFU müssen vielseitige Möglichkeiten der Vernetzung offerieren, dürfen aber nicht primär unter dem Aspekt vorangetrieben werden, avancierte ICT-Produkte zu entwickeln. Häufig wird auf die Gefahr hingewiesen, dass rein technische Sichtweisen zu Nutzungsbarrieren werden [vgl. van der Vaart 2010, Siemens 2010]. Einfache Steuerbarkeit der Funktionalitäten ist erforderlich. In den neueren Diskussionen werden daher dezidiert neue Designansätze thematisiert, vom Usability-Engineering über nutzerzentriertes, partizipatives und evolutionäres Design bis hin zu Konzepten der Innovationsforschung bzw. Science and Technology Studies (STS) [bspw. Voss et al. 2007]. Iterative Designzyklen und das Verfahren des Community-Building werden empfohlen [Carusi, Reimer 2010: 5, 24ff.]. Hinzu kommt, dass VFU-Angebote, die auf der gemeinsamen Nutzung von Content basieren, eine Critical Mass of Active Users mit entsprechenden Beteiligungsraten benötigen, um erfolgreich und sinnvoll zu sein (Beispiel MyExperiment, [De Roure 2009]). Nachhaltigkeit und Verlässlichkeit: Nachhaltige Business- und Organisationsmodelle werden durchgängig in allen Studien als Defizit bezeichnet [z. B. eResearch2020 2010: 134]. Gerade Kollaborationen und Förderprojekte, die über nationale Grenzen hinweggreifen, stellen besondere Anforderungen an die Nachhaltigkeit. Entscheidend ist ein auf Gegenseitigkeit beruhendes Organisations- und Beteiligungsmodell, das von nachhaltig geförderten Institutionen getragen wird. Ein wichtiger Erfolgs- und damit auch Risikofaktor ist selbstverständlich die Verlässlichkeit und Zuverlässigkeit der Anwendungen und Services [Carusi, Reimer 2010: 36]. Vereinzelt gibt es auch jetzt schon Beispiele für die nachhaltige Absicherung von e-Infrastrukturen im D-Grid Verbund, z.B. das Hochenergiephysik Community Grid (HEP CG) und das Grid zum Geodaten-Processing für Wissenschaft und Industrie (GDI-Grid)10. Offenheit und ethische Hürden: Ethische Probleme und Aspekte der Sicherheit bilden ebenfalls eine starke Nutzungsbarriere. Forscher fragen, welche Risiken sie eingehen, wenn sie ihre Daten und Ergebnisse frühzeitig kommunizieren. Die Bedrohung der individuellen wissenschaft- 10 http://www.dgrid.de/index.php?id=398&L=1%20and%20user%3D0%20and%201%3D1 428 Alexander Botte, Marc Rittberger, Christoph Schindler lichen Profilierungsmöglichkeiten vor dem Hintergrund von ‚open data‘ ist eine Herausforderung für VFU. Auch unter der Voraussetzung von geschlossenen Plattformen oder authentifizierten Zugängen können rechtliche und ethische Unsicherheiten fortbestehen, wie sie auf der Kölner Konferenz E-social science 200911 vielfach berichtet wurden. Informationswissenschaftliche Forschungsfelder und Herausforderungen Wie erwähnt sind VFU in der Regel integrative Anwendungen und eröffnen in ihrer modularen Architektur eine extrem breite Palette von Funktionen und Services. Damit berühren sie potenziell auch ebenso große Vielfalt an informationswissenschaftlichen Forschungsfeldern. Im Folgenden wollen wir uns auf die wissenschaftlichen Herausforderungen konzentrieren, die spezifisch für die Konzeption und Evaluation von VFU sind: Ausrichtung auf Forschungspraxis: Die als conditio sine qua non eingestufte Optimierung des spezifischen Forschungsprozesses durch VFU eröffnet ein noch wenig beachtetes Forschungsfeld12, das die Informationswissenschaft in eine enge Kooperation und letztlich disziplinübergreifende Forschungszusammenarbeit mit den unterschiedlichen Fachwissenschaften führt. Zwar ist die Wissenschaft und deren Informationsversorgung schon immer ein zentraler Gegenstand der Informationswissenschaft gewesen, aber erst in jüngster Zeit wird auf die zentrale Herausforderung hingewiesen, die gesamte wissenschaftliche Wertschöpfungskette aufzugreifen [Borgman 2007; 2008] und die Forscher selbst in die Konzeption von Infrastrukturen einzubeziehen13. Dies bedeutet auch, dass im Kontext von VFU nicht nur die 11 http://www.merc.ac.uk/?q=node/699; vgl. auch Carusi, Reimer 2010: 36 12 Dies, obwohl die primäre Ausrichtung auf den Forschungsprozess bereits dezidiert in der Gründungszeit der deutschsprachigen Informationswissenschaft als eine zentrale Notwendigkeit formuliert wurde (siehe bspw. [Kunz, Rittel 1970]). 13 Mit dem Forschungsprozess und dessen idealtypischer Verwendung setzen sich [Voss et al. 2009: 178 f.] auseinander, wobei von [Dunn 2009] darauf hingewiesen wird, dass der Arbeitsprozess in den Geisteswissenschaften individueller und weniger formalisierbar gestaltet wird. Neuerdings wird versucht, mit dem Konzept der „scholarly Virtuelle Forschungsumgebungen 429 optimierte Wiederverwendung von Objekten Aufgabe informationswissenschaftlicher Forschung sein sollte, sondern auch konkrete Handlungsfelder einer Forschergruppe14 zu identifizieren und zu modellieren sind. Generalisierung – Spezifizierung: Die Zielsetzung, VFU so zu konzipieren, dass der Anteil generischer, d.h. in anderen Forschungssettings nachnutzbarer Features möglichst hoch ist, steht in einem unumgänglichen Spannungsverhältnis mit der primären Ausrichtung auf konkrete Forschungsprozesse. Lösungskonzepte können im modularen Aufbau von VFU oder in der Verlagerung von sehr spezifischen Anwendungen in „Low-Level“-Ergänzungen liegen. Neben klassischen Studien zum Informationsbedarf und -verhalten (zur Methodologie vgl. [Kunz, Rittel, Schwuchow 1976]) etablierten sich in den letzten Jahren in der internationalen Informationswissenschaft Forschungen zu wissenschaftlichen Informationspraxen, die in ihren Analysen verstärkt auf sozio-kulturelle Ansätze und Konzepte der Science and Technology Studies zurückgreifen [Palmer et al. 2009; Borgman 2007]. Darüber hinaus ist in diesem Kontext das breite Feld der Standardisierung, der Skalierbarkeit und Interoperabilität als Voraussetzung der Modularisierung und Übertragbarkeit in andere Forschungszusammenhänge angesprochen. Auf der Ebene der Gesamtarchitektur stellt sich die übergreifende Forschungsfrage: Wie können komplexe Funktionalitäten angeboten werden bei gleichzeitiger Berücksichtigung von spezifischen Forschungspraxen und unterschiedlichen epistemischen Kulturen? [Knorr-Cetina 1999] Wie können bestehende Informationsinfrastrukturen eingebunden werden? Wie können dabei Usability- und Performance-Standards eingehalten werden? Deutlich wird in diesem Zusammenhang, dass die e-Science-Visionen der ersten Stunde einer postulierten Revolution der Wissenschaft [Atkins 2003; Nentwich 2003] nicht im luftleeren Raum stattfinden [vgl. Dunn 2009]. Welche Wirtschaftlichkeitsmodelle sichern nachhaltige Betriebsfähigkeit von VFU? Unter welchen Bedingungen funktioniert virtuelle Information, Kommunikation und Kollaboration? VFU sollen den qualitativen Sprung zu neuen Möglichkeiten der Forschung eröffnen. Die Erwartungen fokussieren sich primitives“ [Unsworth 2000] diese disziplinäre Heterogenität zu umgehen und die spezifischen Erkenntnisse zusammenzuführen [Palmer, Cragin 2008; Palmer et al. 2009]. 14 In diesem Zusammenhang entsteht gerade am Informationszentrum Bildung des DIPF eine Dissertation zu Informationspraxen in der Bildungsforschung, die mit einem ethnografischen Ansatz fünf Bildungsforschungsprojekte untersucht. 430 Alexander Botte, Marc Rittberger, Christoph Schindler dabei vor allem auf die Ausdehnung der Potenziale (Inanspruchnahme verteilter Ressourcen), aber auch den Qualitätsgewinn durch Mehrperspektivität, Verhaltenserweiterungen (curation) und die Optimierung der Publikationsprozesse. Ob sich diese Erwartungen realisieren, hängt in hohem Maße vom Informations-, Kommunikations- und Kollaborationsverhalten der Forscher ab. Die Informationswissenschaft kann hier einen breiten Fundus von Forschungsergebnissen einbringen, die z.T. auch schon auf die konkreten Anwendungsszenarien in VFU bezogen wurden. Zu nennen sind hier die Kollaborationsforschungen [Olson, Olson 2000; Olson et al. 2008], die das Scheitern von Kollaborationen untersuchen, die Infrastrukturstudien [Edwards et al. 2009; Star, Ruhleder 1996], die die Realisierung und Stabilisierung von Informationsinfrastrukturen erforschen, sowie Forschungen zu eResearch-Projekten [u.a. Barjac et al. 2009; Lin et al. 2008]. Im Hintergrund steht stets die Frage, unter welchen Bedingungen die neuen virtuellen Möglichkeiten genutzt und Teil des Forschungsalltags werden. Zu untersuchen wäre auch, wie sich mittelbare Effekte über das Forschungsverhalten oder die systematische Forschungsdokumentation auch auf Veränderungen der Forschungsmethoden und damit auch der Ergebnisse erstrecken können [vgl. eResearch2020 2010: 132]. Das Feld der interdisziplinären Erweiterungen durch VFU ist noch weitgehend unerforscht15. Dazu gehören auch ungeplante Effekte, die z.B. dadurch entstehen, dass der Blick auf Forschungsdaten (z.B. Hieroglyphen-Tafeln), die bislang vor allem einer Disziplin (der Archäologie) zugänglich waren, nun auch anderen Disziplinen möglich ist (z.B. Sprachwissenschaftler). Unter welchen Bedingungen können VFU solche „transzendierenden“ Erweiterungen besonders begünstigen [vgl. Kertcher 2010]? Ethische Probleme der vernetzten Forschung: Der offene Umgang mit Forschungsprozessen und -ergebnissen erzeugt auch rechtliche und persönliche Konfliktfelder, die durch frühzeitige Berücksichtigung in neu zu konfigurierende Mechanismen der Wahrung aller Interessen überführt werden müssen. Wie können bei möglichst freiem Zugang zu Daten und Publikationen die Sicherung der Urheberrechte, der Rechte auf Datenselbstbestimmung der Untersuchten und des Anspruchs des Wissenschaftlers auf individuelle Profilierung erfolgen? 15 Frühzeitig hat sich [Bowker 2000a, 2000b] mit diesem Thema befasst und sich dezidiert mit Konzepten der Science and Technology Studies (STS) auseinandergesetzt. Virtuelle Forschungsumgebungen 431 Fazit: Zur Bewältigung der oben exemplarisch benannten Herausforderungen werden sehr unterschiedliche Ansätze und Methoden zu integrieren sein [vgl. dazu z.B. die Beiträge in: Anandarajan, Anandarajan 2010]. Trotz des klaren Anwendungsbezugs der VFU-Forschung sind auch Grundlagenforschung (z.B. Informations- und Kommunikationsverhalten in Forschungszusammenhängen) und ihr methodisches Repertoire erforderlich. Die meisten Herausforderungen sind transdisziplinär anzugehen. Basis für diese Forschung bilden vielfältige empirische Befunde, die am besten in breiter Kollaboration erhoben und evaluiert werden können. Literaturverzeichnis Anandarajan, M.; Anandarajan, A. (Hrsg.) (2010). e-Research Collaboration. Theory, Techniques and Challenges. Berlin/Heidelberg: Springer-Verlag. Atkins, D. E. et al. (2003). Revolutionizing Science and Engineering through Cyberinfrastructure. Report of the National Science Foundation Blue-Ribbon Advisory Panel on Cyberinfrastructure. http://www.nsf.gov/od/oci/reports/atkins.pdf (Retrieved November 08, 2010) Barjak, F. et al. (2009). Case Studies of e-Infrastructure Adoption. In: Special Issue on e-Social Science, Social Science Computing Review Journal. 27 Borgman, C. L. (2007). Scholarship in the Digital Age: Information, Infrastructure, and the Internet. Cambridge, Ma/London: MIT Press. Borgman, C. L. (2008). Data, Disciplines, and Scholarly Publishing. In: Learned Publishing. 21. 29–38. Bowker, G. C. (2000a). Biodiversity Datadiversity. In: Social Studies of Science, 30:5, 643–683. Bowker, G. C. (2000b). Mapping Biodiversity. In: International Journal of GIS, 14:8, 739–754. Carusi, A.; Reimer, T. (2010). Virtual Research Environment. Collaborative Landscape Study. A JISC funded project. http://www.jisc.ac.uk/media/documents/publications/vrelandscapereport.pdf (Retrieved Nov. 08, 2010) De Roure, D. et al. (2009). Towards Open Science: The myExperiment approach. In: Concurrency and Computation: Practice and Experience, 9:8. http://eprints.ecs.soton.ac.uk/17270/1/CCPE09v8.pdf (Retrieved Nov. 08, 2010) 432 Alexander Botte, Marc Rittberger, Christoph Schindler Dunn, S. (2009). Dealing with the complexity deluge: Virtual Research Environments in the Arts and Humanities. In: Library Hi Tech, 27: 2, 205–216. Eccles, K. et al. (2009). The Future of e-Research Infrastructures. In: Proceedings of the International Conference on e-Social Science, Köln. http://www.merc.ac.uk/sites/default/files/events/conference//2009/papers/Eccles.pdf (Retrieved November 08, 2010) Edwards, P. N. et al. (2009). Introduction: An Agenda for Infrastructure Studies. In: Journal of the Association for Information Systems, 10: 5. eResearch2020 – The Role of e-Infrastructures in the Creation of Global Virtual Research Communities. European Commission, Directorate General Information Society and Media. Bonn and Brussels. http://www.eresearch2020.eu/eResearch2020 Final Report.pdf (Retrieved November 08, 2010) Kertcher, Z. (2010). Gaps and Bridges in Interdisciplinary Knowledge Integration. In: Anandarajan, M.; Anandarajan, A. (Hrsg.). e-Research Collaboration. Theory, Techniques and Challenges. Berlin/Heidelberg: Springer-Verlag. 49–64 Knorr-Cetina, K. (1999). Epistemic Cultures: How the Sciences make Knowledge. Cambridge, MA: Harvard University Press. Kunz, W.; Rittel, H. (1970). Systemanalyse eines Forschungsprozesses. In: Kunz, W.; Rittel, H. (Hrsg.): Systemanalyse und Informationsverarbeitung in der Forschung. München/Wien: Oldenburg Verlag. Kunz, W.; Rittel, H.; Schwuchow, W. (1976). Methods of Analysis and Evaluation of Information Needs. München: Verlag Dokumentation. Lin, Y. et al. (2008). Ontology building as a social-technical process: A case study. In: The Oxford e-Research Conference 2008. Nentwich, N. (2003). Cyberscience: Research in the Age of the Internet. Wien: Austrian Academy of Sciences Press. Olson, G. M.; Olson, J. S. (2000). Distance Matters. In: Human Computer Interaction, 15, 139–178. Olson, G. M.; Zimmerman, A.; Bos, B. (2008). Scientific Collaboration on the Internet. Cambridge, Ma/London: MIT Press. Palmer, C. L.; Cragin, M. H. (2008). Scholarship and Disciplinary Practices. In: Annual Review of Information Science and Technology. 42: 1, 163–212. Palmer, C. L.; Teffeau, L. C.; Pirmann, C. M. (2009). Scholarly Information Practices in the Online Environment. Themes from the Literature and Implications for Library Service Development. Dublin, OH: OCLC Online Computer Library Center. http://www.oclc.org/research/publications/library/2009/2009-02.pdf (Retrieved November 08, 2010) Virtuelle Forschungsumgebungen 433 Siemens, L. (2010). Time, Place and Cyberspace: Foundations for Successful eResearch Collaboration. In: Anandarajan, M.; Anandarajan, A. (Hrsg.): e-Research Collaboration. Berlin/Heidelberg: Springer-Verlag. Star, S. L.; Ruhleder, K. (1996). Steps Toward an Ecology of Infrastructure: Design and Access for Large Information Spaces. In: Information Systems Research, 7: 1. Unsworth, J. (2000). Scholarly Primitives: what methods do humanities researchers have in common, and how might our tools reflect this? In: symposium Humanities Computing: formal methods, experimental practice, King’s College, London. http://www3.isrl.illinois.edu/~unsworth/Kings.5-00/primitives.html (Retrieved November 08, 2010) van der Vaart, L. (2010). Collaboratories: Connecting Researchers How to facilitate choice, design and uptake of online research collaborations. SURF Foundation. http://www.surffoundation.nl/SiteCollectionDocuments/Collaboratories Connecting Researchers.pdf (Retrieved Nov. 08, 2010) Voss, A. et al. (2007): e-Infrastructure Development and Community Engagement. In: Third International Conference on e-Social Science. Ann Arbor, Michigan, US, 2007. http://www.ncess.ac.uk/events/conference/2007/papers/paper170.pdf (Retrieved November 08, 2010) Voss, A.; Procter, R. (2009). Virtual research environments in scholarly work and communications. Library Hi Tech. 27:2, 2009. 174–190. 434 Rainer Kuhlen Der Streit um die Regelung des Zweitveröffentlichungsrechts im Urheberrecht oder: Was macht Wissenschaftsfreiheit aus? Rainer Kuhlen Prof. emeritus im Fachbereich Informatik und Informationswissenschaft an der Universität Konstanz Albertinkatu 19B #27, 00120 Helsinki [email protected], www.kuhlen.name Zusammenfassung Die Auseinandersetzung um die Verankerung eines Zweitveröffentlichungsrechts im Urheberrecht wird aus den unterschiedlichen Perspektiven der beteiligten Akteure diskutiert. Komplexer wird das Problem dadurch, dass das Zweitveröffentlichungsrecht als Mittel der indirekten oder direkten Begünstigung des Open-Access-Paradigmas gesehen wird. Zwar soll das Zweitveröffentlichungsrecht in erster Linie die informationelle Selbstbestimmung der Autoren fördern. Als Zweitveröffentlichungsverpflichtung zugunsten von Open-Access-Repositories soll jedoch auch dem Interesse der Öffentlichkeit an einem freien Zugriff zu dem mit öffentlichen Mitteln erstelltem Wissen Rechnung getragen werden. Das wird zumindest in Deutschland als Eingriff in Wissenschaftsfreiheit für problematisch gehalten. Wissenschaftsfreiheit hängt jedoch nicht von einer positiven Publikationsfreiheit bei der Zweitveröffentlichung ab. Ein Zweitveröffentlichungsrecht (der Autoren und der sie tragenden Institutionen) könnte als Übergang zu einer vollständig durch das Open-Access-Paradigma bestimmten Wissenschaftskommunikation angesehen werden. Abstract The author’s right to a secondary publication (in addition to a first publication in a commercial journal of the author’s choice) is discussed from the Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 435 perspective of the different actors in scientific publication markets. The challenge for a copyright regulation of this right becomes even more complex because it is seen by many as indirectly, if not directly fostering the open access paradigm. First and foremost, this right strengthens the autonomy of the authors, but it is also understood as an obligation of the authors to have their institutions make these works publicly available, at least those works which have been supported by public funding. Such an institutional mandate is believed by some, at least in Germany, to contradict the freedom of science as guaranteed in the German constitution. The article provides some arguments to the effect that the right to a secondary publication and a concomitant institutional mandate is compatible with freedom of science. Worum geht es beim Zweitveröffentlichungsrecht? Es klingt wie ein abstraktes und marginales Problem: Zweitveröffentlichungsrecht1: Es ist das Recht der Autoren nach einer gewissen Frist (Embargofrist genannt) zur kommerziellen Erstpublikation bei einem Verlag oder sogar zeitgleich zu dieser wieder über ihr Werk verfügen zu können. Ein solches Recht ist mit einer Frist von zwölf Monaten im Prinzip auch schon in § 38 des Urheberrechtsgesetzes (UrhG) vorgesehen. Danach dürfen Autoren ihre Werke wieder selber „vervielfältigen und verbreiten“2, aber nur – und das ist die entscheidende Einschränkung – „wenn nichts anderes ver1 Das Zweitveröffentlichungsrecht wird auch als „Zweitverwertungsrecht“ bezeichnet (zuweilen auch als „Zweitverwendungsrecht“). Um die in der Umgangssprache mitschwingende kommerzielle Bedeutung von „Verwertung“ zu vermeiden, spreche ich im Folgenden nur von „Zweitveröffentlichungsrecht“. Das Urheberrecht spricht „veröffentlichen“ bzw. das Veröffentlichungsrecht nur bei den Persönlichkeitsrechten direkt an (§ 12 UrhG). Mit dem Zweitveröffentlichungsrecht der Autoren sind aber durchaus auch die unter §§ 15ff UrhG angesprochenen Verwertungsrechte gemeint, wie das Vervielfältigungsrecht (§ 16), das Verbreitungsrecht (§ 17) und das Recht der öffentlichen Zugänglichmachung (§ 19a) (worunter das Recht verstanden wird, das Werk über elektronische Netzwerke öffentlich zu machen). 2 Das in § 19a UrhG kodierte Recht der öffentlichen Zugänglichmachung war zum Zeitpunkt der Verabschiedung des Textes von § 38 UrhG noch nicht im Urheberrecht vorhanden. Dieses Recht soll natürlich ebenfalls Bestandteil des Zweitveröffentlichungsrechts, eventuell sogar nur darauf beschränkt sein. Der Gesetzgeber sollte dies klarstellen. 436 Rainer Kuhlen einbart ist“ (§ 38, Abs. 1, Satz 2). Genau das ist aber bei den Verlagsvertragstexten meistens der Fall. Wissenschaftler, vor allem jüngere, sind kaum in der Lage, gegenüber den Verlagen ein Zweitveröffentlichungsrecht durchzusetzen. Sie wollen und müssen in renommierten Zeitschriften publizieren und können wegen der weitgehenden Monopolstruktur auf den wissenschaftlichen Publikationsmärkten nicht einfach ein anderes Journal eines anderen Verlags wählen, wenn das Ansinnen von dem zunächst vorgesehenen Verlag zurückgewiesen wird. Das Recht aus § 38 UrhG wird durch die Vertragspraxis der Verlagswirtschaft faktisch außer Kraft gesetzt3. Es sollte leicht sein, dies zu korrigieren. Aber um dieses Recht und die damit verbundenen Interessen wird schon seit einigen Jahren weltweit gestritten. Aktuell in Deutschland, wo die Politik zum dritten Mal einen Anlauf nimmt, ein zeitgemäßes Urheberrecht zu schaffen. An diesem Problem kann exemplarisch deutlich gemacht werden, wie kompliziert es ist, eine vernünftige Balance zwischen den Interessen der Urheber, der kommerziellen Verwerter und der Nutzer von publizierten Werken zu erzielen. Für diese Interessen werden gewichtige Geschütze in Stellung gebracht. Es geht um Wissenschaftsfreiheit, um den Schutz des geistigen Eigentums, aber auch allgemein um dessen Sozialpflichtigkeit (beides gefordert durch Art. 14 des Grundgesetzes) bzw. insbesondere um das Recht der Öffentlichkeit, zu dem mit öffentlichen Mitteln unterstützt produziertem Wissen freien Zugang zu erhalten und natürlich um die Funktionsfähigkeit der wissenschaftlichen Fachkommunikation und, last not least, um den Bestand der Geschäftsmodelle auf den kommerziellen Informationsmärkten. 3 Bis 1965 hatten Verleger nur einfache Nutzungsrechte an Zeitschriftenbeiträgen. Das wurde 1965 dahingehend korrigiert, dass Verleger/Herausgeber im Zweifel ein ausschließliches Nutzungsrecht erwerben. Die Rückgewinnungsregelung von 1965 kann daher als Kompensation für die Einschränkung der Autorenautonomie interpretiert werden. Aus heutiger Sicht ist diese jedoch unzureichend. Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 437 Der Stand der politischen Auseinandersetzung um das Zweitveröffentlichungsrecht Das Zweitveröffentlichungsrecht ist deshalb erneut auf die politische Tagesordnung gekommen, weil der Bundestag bei der Verabschiedung des Zweiten Korbs der Urheberrechtsreformen im Juli 2007 auf Antrag des Ausschusses des Deutschen Bundestags für Bildung, Forschung und Technikfolgenabschätzung das Bundesjustizministerium (BMJ) aufgefordert hatte, eine „Prüfung eines Zweitverwertungsrechts für Urheber von wissenschaftlichen Beiträgen, die überwiegend im Rahmen einer mit öffentlichen Mitteln finanzierten Lehr- und Forschungstätigkeit entstanden sind (§ 38 UrhG)“, vorzunehmen. Das wird nun im Rahmen der Anhörungen zum Dritten Korb verhandelt. Ein Zweitveröffentlichungsrecht für Urheber hätte der Gesetzgeber schon im Zweiten Korb verankern können. Der Bundesrat hatte 2007 vorgeschlagen, das Gesetz unter anderem dahingehend zu ändern, dass zum einen die Frist, nach der dieses Recht dem Urheber wieder zufällt, in der Regel auf sechs Monate verkürzt wird und dass zum anderen dieses Recht nicht per Vertrag abbedungen werden kann4. Vor allem Letzteres hat heftigen Widerstand der Verlagswelt in Deutschland hervorgerufen. Offensichtlich hatte diese damals (und wie wir sehen werden, auch heute) kein Interesse an der Einsetzung eines verbindlichen Zweitveröffentlichungsrechts5. 4 Der Vorschlag des Bundesrats zur Regelung eines Zweitverwertungsrechts in seiner Stellungnahme zum Regierungsentwurf des Zweiten Korbes (BR-Drs. 257/06): „An wissenschaftlichen Beiträgen, die im Rahmen einer überwiegend mit öffentlichen Mitteln finanzierten Lehr- und Forschungstätigkeit entstanden sind und in Periodika erscheinen, hat der Urheber auch bei Einräumung eines ausschließlichen Nutzungsrechts das Recht, den Inhalt längstens nach Ablauf von sechs Monaten seit Erstveröffentlichung anderweitig öffentlich zugänglich zu machen, soweit dies zur Verfolgung nicht kommerzieller Zwecke gerechtfertigt ist und nicht in der Formatierung der Erstveröffentlichung erfolgt. Dieses Recht kann nicht abbedungen werden.“ 5 Zu unterscheiden ist das verbindliche Zweitveröffentlichungsrecht von der Praxis vieler, auch der großen Zeitschriftenverlage wie Elsevier, Wiley oder Springer, eine Selbstpublikation der Werke ihrer Autoren als Postprint zu erlauben (also die mit der in der Zeitschrift inhaltlich übereinstimmende, aber nicht verlagsformatierte Endversion des Artikels). Einige Verlage bzw. einzelne Zeitschriften (z.B. die von IEEE; vgl. http://bit.ly/9G5xoJ) erlauben dies sogar in der Verlagsversion. Nach der SherpaRomeo-Liste erlauben über 120 Verlage weltweit die Einstellung des Verlags-PDFs 438 Rainer Kuhlen Die damalige Bundesregierung hatte diesen Vorschlag des Bundesrats 2007 zurückgewiesen6 und zwar aus folgenden Gründen: a) Sie hatte zunächst den Vorschlag unter dem Gesichtspunkt einer Verpflichtung der Autoren, ihre Werke bei der Zweitveröffentlichung ihrer Institution anzubieten, geprüft und dagegen verfassungsrechtliche Bedenken (sprich: Verstoß gegen Wissenschaftsfreiheit) geltend gemacht. b) Danach wurde, eher formaljuristisch, zu bedenken gegeben, dass der Vorschlag des Bundesrats möglicherweise als neuer Schrankenvorschlag anzusehen sei und nicht als eine bloße Veränderung im Urhebervertragsrecht (wo ja § 38 angesiedelt ist). Für neue Schrankenvorschläge gibt es aber in nationalen Gesetzen wegen der nach wie vor gültigen EU-Richtlinie von 2001 keinen Spielraum. Die dort angegebene Liste der möglichen Schranken ist abschließend formuliert. c) Und zuletzt sei „zu befürchten, dass der Vorschlag gerade den deutschen Wissenschaftlern mit internationalem Renommee, die ihre Forschungsergebnisse in internationalen Zeitschriften mit hoher Reputation veröffentlichen wollen, Publikationswege verstellen könnte.“ (ebd.) 2010 ist die Bundesregierung eine andere. Aber natürlich musste auch das jetzige BMJ die Forderung des damaligen Bundestags aufgreifen. Bei den Vorbereitungen zum sogenannten Dritten Korb der Urheberrechtsreform hatte das BMJ in einem Prüfkatalog auch einige Fragen zum Thema Zweitveröffentlichungsrecht gestellt. Dieser Fragenkatalog richtete sich an die verschiedenen Interessenvertreter und -verbände. Konkret bat das BMJ in einem ersten Teil um Antworten zu den Fragen, ob die Embargofrist von sechs Monaten angemessen sei7, ob durch eine sol- ohne Restriktionen und zeitgleich mit dem Erscheinen (http://bit.ly/9P3jWp). Stevan Harnad spricht sogar davon, dass “91% of journals have even given author self-archiving their explicit green light” (http://bit.ly/1xpZGX). Strikt gegen ein Zweitveröffentlichungsrecht (vor allem bei kurzen Embargofristen) ist auf internationaler Ebene der Verlegerverband STM (The International Association of Scientific, Technical & Medical Publishers) in der Brussels Declaration on STM Publishing (http://bit.ly/a0YcNn). In Deutschland lehnt auch der Börsenverein des Deutschen Buchhandels ein im Urheberrecht verankertes Zweitveröffentlichungsrecht strikt ab. 6 Gegenäußerung der Bundesregierung zur Stellungnahme des Bundesrates zum Entwurf eines Zweiten Gesetzes zur Regelung des Urheberrechts in der Informationsgesellschaft (BR-Drs. 257/06 – Beschluss) Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 439 che Regelung deutschen Wissenschaftlern Nachteile im internationalen Wettbewerb entstünden und in welchem Format des Werkes das Zweitveröffentlichungsrecht wahrgenommen werden solle (in der publizierten Verlags- oder der letzten Autorenversion). In einem zweiten Teil wurden Stellungnahmen zu Zwangslizenzmodellen erbeten. Durch solche Modelle wird das Zweitveröffentlichungsrecht um die Dimension einer Zweitveröffentlichungsverpflichtung erweitert. Dies wird – nicht überraschend – derzeit noch kontroverser diskutiert. Nach einem Vorschlag8 sollen Rechteinhaber verpflichtet werden, nach einer gewissen Embargozeit (z.B. sechs Monate) jedermann ein unbeschränktes einfaches Nutzungsrecht einzuräumen, aber nur mit dem Recht der öffentlichen Zugänglichmachung (vgl. Anm. 2) und nur für die mit öffentlichen Mitteln finanzierten Werke. Gefragt wurde ergänzend, ob dafür überhaupt eine Änderung im Urheberrecht nötig sei oder ob dies nicht über die Vergabebedingungen für Forschungsmittel geregelt werden könne. Gefragt wurde aber auch nach einem anderen Modell9, nach dem „der an einer Hochschule beschäftigte Urheber verpflichtet ist, ein im Rahmen seiner Lehr- und Forschungstätigkeit entstandenes Werk […] der Hochschule (exklusiv oder nicht exklusiv) zur Veröffentlichung anzubieten. Werde das Werk nicht binnen einer bestimmten Frist von der Hochschule veröffentlicht, sollen dem Urheber die Verwertungsrechte wieder unbeschränkt zustehen.“ Das war und ist den Verfechtern eines strikten Verständnisses von Wissenschaftsfreiheit ein Dorn im Auge. International kommt ein solches „Institutional Mandate“ schon häufiger zur Anwendung. 7 International scheint eine Embargofrist zwischen 6 und 12 Monaten konsensfähig zu sein. Aus der Open-Access-Sicht sollte allerdings „so früh wie möglich“ „zeitlich parallel zur Erstpublikation“ bedeuten. Ob es Sinn macht, mit Disziplinen-spezifischen Fristen zu experimentieren, ist auch eine noch offene Frage. Sowohl die Allianzinitiative als auch die Kulturministerkonferenz (letztere hält eine 6-Monate-Frist für angemessen) schätzen eine Differenzierung bei der Embargofrist als „praktisch nicht durchführbar“ ein. 8 Vgl. Gerd Hansen, GRUR Int. 2005, S. 378 ff. 9 Vgl. Thomas Pflüger/Dietmar Ertmann, ZUM 2004, S. 436 – E-Publishing und Open Access – Konsequenzen für das Urheberrecht im Hochschulbereich 440 Rainer Kuhlen Zweitveröffentlichungsrecht und Zweitveröffentlichungsverpflichtung im Kontext von Open Access Das Autoren-Zweitveröffentlichungsrecht als ein im Urheberrecht zu kodifizierendes Recht ist für sich schon eine höchst umstrittene Angelegenheit. Vor allem von Seiten vieler Verlage wird zu bedenken gegeben, dass dadurch die ökonomische Verwertung der Erstpublikation und damit ihre Geschäftsgrundlage gefährdet werde. Die Debatte verschärft sich dadurch, dass viele Autoren es als eine indirekte oder direkte Verpflichtung ansehen10, ihren wiedergewonnenen Freiraum dazu zu verwenden, ihrer Institution oder einer anderen öffentlichen Einrichtung ihre Werke zu einer weiteren Publikation – in der Regel in einem Open-Access-Repository – anzubieten. Das, so das Argument, verstoße gegen ihre grundgesetzlich garantierte Wissenschaftsfreiheit. Die meisten Wissenschaftsorganisationen in Deutschland halten eine Verpflichtung zur Open-Access-Publikation ebenfalls rechtlich nicht für möglich, auch wenn die Wahlfreiheit für die Erstpublikation erhalten bleibt. Sie halten aber auch eine Zweitveröffentlichungsverpflichtung nicht für erforderlich, weil man davon ausgehen könne, dass Autoren selber die Vorteile von Open-Access-Publikationen erkennen würden, also eine Verpflichtung nicht erforderlich sei. Ein „Institutional Mandate“ wird hingegen mit dem Argument gefordert, dass bislang die Mehrzahl der Autoren nicht die Option der Open-AccessPublikation wahrnehme, sodass der Erwartung (und dem Bedarf) der Öffentlichkeit an freier Verfügbarkeit der von ihr finanzierten Werke nicht in ausreichendem Umfang gerecht würde. 10 Die Debatte um eine indirekte oder direkte Verpflichtung (requested vs required) wurde vor allem in den USA im Zusammenhang der Publikationspolitik des NIH (National Institute of Health) geführt; vgl. http://bit.ly/b9yhdN; zu den internationalen Open-Access-„Request vs. Requirement“-Policies vgl. http://bit.ly/b9yhdN; eine Übersicht dazu in Kapitel 8.5 „Open Access im internationalen Kontext“ in Rainer Kuhlen: Erfolgreiches Scheitern – eine Götterdämmerung des Urheberrechts? Schriften zur Informationswissenschaft; Bd. 48. vwh – Verlag Werner Hülsbusch: Boizenburg 2008; zum lateinamerikanischen Markt der Debatte vgl. SCIELO http://bit.ly/ 203Vvp; vgl. auch Stevan Harnad, Referenz in Anm. 5. Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 441 Die kontroversen Positionen im einzelnen In Einklang mit der systematischen Zielsetzung des Urheberrechts, welches ja ein Recht der Urheber sein soll11, verstärkt ein Zweitveröffentlichungsrecht zunächst einmal die Position der Autoren selbst. Noch allgemeiner formuliert bedeutet dies eine Rückgewinnung der Autonomie der Autoren, verstanden als informationelle Selbstbestimmung über die Verwendung ihrer Werke. Eric W. Steinhauer stellt dieses in Bezug zu dem Recht der Autoren auf Sichtbarkeit ihrer publizierten Werke her: „Der Wissenschaftler sollte für den immer wichtiger werdenden Online-Bereich stets und immer die Möglichkeit haben, seine Publikationen der interessierten Öffentlichkeit zur Kenntnis zu geben“12. Selbstbestimmung in diesem Kontext gilt zunächst für die Erstpublikation, für die die Autoren die uneingeschränkte Entscheidungsfreiheit haben, ob, wann, wie und wo sie publizieren. Diese Freiheit wird derzeit von Niemandem bestritten. Vor allem die DFG, die vor einem Jahr durch den Heidelberger Appell mit dem (haltlosen) Vorwurf angegriffen wurde, wissenschaftliche Autoren zur Open-Access-Publikation zwingen zu wollen13, hat 11 Faktisch ist es sicher so, dass durch die im Urhebervertragsrecht vorgesehene Übertragung der den Autoren explizit zustehenden Verwertungsrechte als Nutzungsrechte an die (i.d.R. kommerziellen) Verwerter das Urheberrecht zu großen Teilen auch den Interessen der Informationswirtschaft entspricht. Nicht zuletzt auf Grund des weltweiten Einflusses des angelsächsischen Copyright verwandelt sich das Urheberrecht in der Gegenwart seit den WTO/TRIPS- und WIPO-Regelungen/Verträgen zunehmend in Richtung eines Verwerter- oder Handelsrechts, auch wenn nach wie vor im EUBereich quasi als ideologischer Unterbau die Rechtegarantie für die persönlichen Urheber gilt. 12 Eric W. Steinhauer: Das Recht auf Sichtbarkeit. Überlegungen zu Open Access und Wissenschaftsfreiheit 2010, 47. Als gedrucktes Buch kann der Text online bestellt werden: http://www.mv-buchshop.de/catalog/index.php/cPath/36_159; frei herunterladbar unter: http://deposit.fernuni-hagen.de/2752/; auch aus dem INFODATA-eDepot der FH Potsdam. 13 In der Öffentlichkeit bekannt gemacht wurde der gegen Google und gegen Open Access gerichtete Heidelberger Appell durch einen Zeitungsartikel von Roland Reuß unter dem Titel „Eine heimliche technokratische Machtergreifung“ in FAZ.NET vom 13.2.2009. Eine kritische Analyse des Appells von Matthias Spielkamp erschien unter dem Titel „Open Excess: Der Heidelberger Appell“ in Perlentaucher.de (http://bit.ly/SRMnd). 442 Rainer Kuhlen bei verschiedenen Gelegenheiten sehr deutlich gemacht, dass es weder bei der Erstpublikation14 noch bei der Zweitpublikation einen Zwang geben dürfe. Dies widerspräche den Grundsätzen der Wissenschaft. Dass das Zweitveröffentlichungsrechterforderlich ist und als Verstärkung der Autonomie der Autoren und damit auch von Wissenschaftsfreiheit anzusehen ist, darauf hat sich auch die Allianz der Wissenschaftsorganisationen in ihrem Katalog zur Neuregelung des Urheberrechts vom 9. Juli 2010 verständigt: „Als zwingende Regelung im Urhebervertragsrecht sollte wissenschaftlichen Autoren nach einer angemessenen Embargofrist ein unabdingbares und formatgleiches Zweitveröffentlichungsrecht für ihre Aufsätze und unselbständig erschienenen Werke eingeräumt werden. Dieses Zweitveröffentlichungsrecht, das für den Wissenschaftler keine Pflicht bedeutet, ist notwendig, um ihn in seiner Verhandlungsposition gegenüber großen wissenschaftlichen Verlagen zu stärken. Der Wissenschaftler erhält durch das Zweitveröffentlichungsrecht die Möglichkeit, selbst über den Grad der Sichtbarkeit seiner Forschungsergebnisse zu entscheiden. Er übt dabei in besonderer Weise das Grundrecht der Wissen- 14 Wenn auch die Erstpublikation bislang überwiegend in kommerziellen Zeitschriften erfolgt, deutet alles darauf hin, dass der Zeitschriftenmarkt in absehbarer Zeit ein Markt der Open-Access-Zeitschriften werden wird und dass der elektronische Buchmarkt in der Wissenschaft folgen wird. SpringerOpen, nachdem Springer PubMed Central (PMC), den größten Open-Access-Anbieter, gekauft hat, ist nur der Frontrunner. Das Open-Geschäftsmodell beruht darauf, dass irgendjemand (wissenschaftliche Gesellschaften, Forschungsinstitute, Fachverbände, private oder öffentliche Wissenschaftsförderorganisationen oder die Länder aus den öffentlichen Haushalten) den Verlagen die Vorleistung der Erstellung ihrer Informationsobjekte finanziert, nicht bloß die Kosten für einen einzelnen Artikel, sondern für die gesamte jeweilige Zeitschrift oder in Zukunft vielleicht sogar für die gesamte wissenschaftliche Verlagsproduktion. Wenn man von etwa 1,5 Millionen Artikeln pro Jahr aus den Peer-reviewed-Zeitschriften und von Kosten für einen Artikel in Höhe von 1000 Euro ausgeht, so könnte die gesamte Jahresproduktion an hochqualitativen Artikeln für 1,5 Milliarden Euro jedermann frei zur Verfügung gestellt werden. Interessant wäre es, diesem Betrag die gegenwärtigen weltweiten Kosten der Bibliotheken für den Kauf oder die Lizenzierung der Zeitschriften gegenüberzustellen (diese Zahlen sind aber nicht verfügbar). Was wäre kostengünstiger für die Öffentlichkeit – die Finanzierung der Bibliotheken (wie derzeit) und damit indirekt der Verlage oder die direkte Subventionierung der Verlage (wie im kommerziellen Open-Modell) oder die Finanzierung der von der Wissenschaft bzw. ihren Organisationen selbst betriebenen Zeitschriften nach dem Gold-Open-Access-Paradigma? Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 443 schaftsfreiheit aus. Durch die Embargofrist wird sichergestellt, dass Verlage wirtschaftlich arbeiten können“ (http://bit.ly/bJJ8Qp). Mit dem Argument der Wissenschaftsfreiheit operiert auch der Deutsche Hochschulverband (DHV), der traditionell eher die Interessen der Wissenschaftler als Autoren, weniger die der Wissenschaftler als Nutzer vertritt. Er kommt zu einem ganz anderen Ergebnis: In einer Pressemitteilung vom 23. März 2010 warnt er „vor einer Relativierung des Urheberrechts“ und vor einer Einschränkung der Wissenschaftsfreiheit: „Den Wissenschaftlerinnen und Wissenschaftlern müsse es als Urhebern vorbehalten bleiben, zu bestimmen, ob, wann, wo und wie sie ihre Werke veröffentlichen“15. Er sieht in dem Einsatz der Allianzorganisationen für ein Zweitverwertungsrecht die Gefahr, dass Wissenschaftler verpflichtet würden, auf eine bestimmte Art und Weise zu publizieren. Dies sei mit der Wissenschaftsfreiheit nicht vereinbar16. Bezeichnend für die konfliktäre Debatte um dieses Thema ist, wie die explizite Positionierung der Allianzinitiative – durch das Zweitveröffentlichungsrecht werde das Grundrecht der Wissenschaftsfreiheit gestärkt – ins Gegenteilverkehrt wird. Warum an dieser offensichtlichen Fehlinterpretation aus dem Umfeld des Heidelberger Appells festgehalten wird, darüber kann nur spekuliert werden17. Ist es die Sorge um die Geschäftsgrundlage mittel15 Diese Pressemitteilung des Deutschen Hochschulverbands ist leider nicht mehr auf dem Server des DHV abrufbar; der ursprüngliche Link geht ins Leere: http://www.hochschulverband.de/cms1/pressemitteilung+M5eacaf755f9.html; vgl. dazu die Stellungnahme im NETETHICS-Blog vom 26. 3. 2010 unter dem Titel „Verteidigen Deutscher Hochschulverband und Börsenverein wirklich Wissenschaftsfreiheit oder geht es nur um obsolete Privilegien?“ – http://bit.ly/bEGuls. 16 Dagegen z.B. Ehmann bei IUWIS.DE: http://bit.ly/d7klvq 17 Der Mit-Initiator des Heidelberger Appells (vgl. Anm. 13), Uwe Jochum, hat sich in der FAZ vom 3.11.2010 mit der Warnung vor dem „digitalen Tod des freien Forschers“ in diese Debatte erneut eingeschaltet und dabei auch die Position der CDUBundestagsfraktion (s. Anm. 22) kritisiert: „Was hier pathetisch gefordert wird, schwächt in Wahrheit die Position des Autors. Denn wenn der Autor einem Verlag, der in seine Publikation investiert, kein zeitlich begrenztes ausschließliches Nutzungsrecht mehr anbieten kann, wird seine Souveränität nicht gestärkt, sondern beschnitten. Er verliert seine Vertragsfreiheit. Das Investitionsrisiko des Verlags wird zu groß und dem Autor wird nur übrig bleiben, seine unlektorierten und unbeworbenen Schriften im ach so überschaubaren Netz allein ,sichtbar‘ zu machen.“ (http://bit.ly/csVpry) (dagegen Kuhlen im NETETHICS-Blog vom 5.11.2010 : http://bit.ly/cM422i). Olaf Gefeller, Direktor des Instituts für Medizininformatik, Biometrie und Epidemiologie 444 Rainer Kuhlen ständischer Verlage in Deutschland, die nach wie vor für die Buchproduktion in den Geisteswissenschaften wichtig sind? Exkurs: Auch Wissenschaftsfreiheit ist von positiven Gesetzen abhängig Der Verweis auf Grundsätze der Wissenschaft und die grundgesetzlich geschützte Wissenschaftsfreiheit sollte prinzipiell nicht dogmatisch strikt und ohne weitere Begründung verwendet werden. Weder sind diese Grundsätze der Wissenschaft, wenn sie denn überhaupt jemals verbindlich formuliert wurden, ein Naturgesetz, noch sind die politischen Entscheidungsinstanzen von der Notwendigkeit befreit, das Ausmaß der Wissenschaftsfreiheit durch gesetzliche Regelungen festzulegen. Wissenschaftsfreiheit, wie auch alle anderen Grundrechte, kann durch positive Gesetzgebung allerdings nur eingeschränkt werden, wenn daran ein allgemeines öffentliches Interesse besteht, etwa zum Zwecke der nationalen Sicherheit, des Daten- oder des Jugendschutzes. Die Sicherstellung der Wissenschaftskommunikation und der Funktionsfähigkeit der Wissenschaftsmärkte liegt sicherlich auch im öffentlichen Interesse. Aber gewiss kann Wissenschaftsfreiheit als Grundrecht nie gänzlich in Frage gestellt werden. Begriffe wie Grundsätze oder Wissenschaftsfreiheit sollten nicht dogmatisch defensiv (zur Abwehr von Eingriffen) verwendet werden. Vielmehr sollte überprüft werden, wie diese Grundsätze der Wissenschaft und Wissenschaftsfreiheit mit dem Interesse der Öffentlichkeit an der freien Verfügbarkeit der Werke, deren Entstehen sie entscheidend über vielfältige Maßnahmen finanziert hat, zusammengehen kann. Darauf zu setzen, dass Autoren, an der Friedrich-Alexander-Universität (ebenfalls in der FAZ vom 1.12.2010), weist die Vorwürfe der Heidelberger gegen die Allianz zurück: „Für mich ist ein wesentliches Element der freien Wissenschaft die freie Wissenschaftskommunikation. Dazu gehört auch die Zugänglichkeit zu wissenschaftlicher Information und wissenschaftlichen Veröffentlichungen. Jede Initiative, die hier Verbesserungen im Sinne eines Abbaus von Hemmnissen des Zugangs schafft, findet daher meine Zustimmung. Ich sehe in den Vorschlägen der Allianzinitiative das aufrichtige Bemühen um Verbesserungen und vernünftige Schritte in die richtige Richtung.“ Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 445 sobald sie das Zweitveröffentlichungsrecht zurückgewonnen hätten, in absehbarer Zeit ihre Werke den entsprechenden Open-Access-Repositories zur Verfügung stellen werden, ist eine sehr vage Hoffnung. Darauf zu warten, kann heute der Öffentlichkeit nicht mehr zugemutet werden. Auch wenn das Urheberrecht schon dem Wortsinn nach das Recht der Urheber ist, gehören doch Schrankenregelungen, die direkt auf die Interessen der Öffentlichkeit, also der Nutzer von publizierten und urheberrechtsgeschützten Werken, Rücksicht nehmen, systematisch dazu. Dies zeigt, dass Prinzipien wie Wissenschaftsfreiheit nicht absolute individuelle Rechte sind, sondern auch über das Urheberrecht (in Grenzen) eingeschränkt werden können. Diese Einschränkungen beziehen sich dabei in erster Linie auf die Genehmigungsfreiheit bei der Nutzung urheberrechtlich geschützter Werke, ohne die Vergütungsverpflichtung in Frage zu stellen. Die Freiheit der Wissenschaft und das Interesse der Wissenschaftler sind kaum an die exklusive individuelle Verfügungsgewalt über das produzierte Wissen gebunden. Ist Freiheit der Wissenschaft nicht in erster Linie das Recht, unabhängig forschen zu dürfen und entscheiden zu dürfen, ob, wie und wann man als Wissenschaftler publizieren will? Und gehört zur Wissenschaftsfreiheit nicht auch das Recht, das publizierte Wissen umfassend nutzen zu können? In Ergänzung zur Rückgewinnung der informationellen Autonomie der Autoren kann eine institutionelle Verpflichtung zur Open-Access-Zweitveröffentlichung dreifach begründet werden: • durch das Interesse und das Recht der Wissenschaftler, die ja immer auch Nutzer sind, auf freien Zugriff zum publizierten Wissen, • durch das Interesse und das Recht der Öffentlichkeit, das mit öffentlichen Mitteln geförderte Wissen frei nutzen zu können, • durch das Interesse und das Recht der die jeweiligen Autoren beschäftigenden öffentlich finanzierten Einrichtungen18, die dort erstellten Werke so breit wie möglich in der Fachöffentlichkeit, aber auch in der allgemeinen Öffentlichkeit bekannt zu machen. 18 Bei privaten Einrichtungen wie Unternehmen der Wirtschaft mag das Interesse nicht unbedingt vorhanden sein, das Wissen, dessen Erstellung mit öffentlichen Mitteln unterstützt wurde, so früh wie möglich allen frei zugänglich zu machen. Aber wenn das Unternehmen sich für eine Erstpublikation entschieden hat, sollte auch hier nichts dagegen sprechen, dass eine Zweitveröffentlichung für jedermann frei zugänglich ist. 446 Rainer Kuhlen Es macht also Sinn, das Zweitveröffentlichungsrecht in ein persönliches der Autoren und in ein institutionelles der die Autoren tragenden Organisationen aufzuteilen und eben beiden das (nicht-kommerzielle) Recht der öffentlichen Zugänglichmachung zuzusprechen. Soll das Urheberrecht die kommerzielle Grundlage der Informationswirtschaft schützen? Dass der Börsenverein des Deutschen Buchhandels (BV), zusammen mit der Arbeitsgemeinschaft wissenschaftlicher Verleger (AwV), diese oben skizzierte Kritik des DHV gerne aufgreift, ist nur zu nachvollziehbar: „Kein Autor“, so der Verleger Vittorio Klostermann, „[…] sollte gedrängt werden, seine Werke der Öffentlichkeit kostenlos zur Verfügung zu stellen […] Solche Forderungen untergraben die Freiheit der Autoren, ihre Werke in der bestmöglichen Form zu publizieren“19. Gemeint ist wohl eher die Bedrohung der „ökonomischen Grundlagen der Wissenschaftsverlage“. Ein Zweitveröffentlichungsrecht, so der Börsenverein, „ließe keinen Raum mehr für privatwirtschaftliche Verlage“. Dies wird vom Börsenverein in einer ausführlichen Replik auf den Vorschlag der Allianzorganisationen weiter ausgeführt20. Der Börsenverein sieht gar keinen Regelungsbedarf für die Einführung eines Zweitveröffentlichungsrecht, schon gar nicht zugunsten von Open Access, da es „jedem Wissenschaftler […] bereits heute frei [steht], seine Forschungsergebnisse Open Access zu veröffentlichen“. Besonders bedroht sieht der Börsenverein die Geschäftsmodelle der Verlage, wenn der Forderung der Allianz entsprochen würde, das Zweitveröffentlichungsrecht im Format des Verlags wahrzunehmen: „Damit würde aber nicht nur dem auf Finanzierung durch Zahlungen von Nutzern angelegten Subskriptionsmodell kommerzieller Verlage der Boden entzogen, sondern zugleich auch den Anbietern originärer open access-Publika19 Beleg in NETETHICS-Blog vgl. Anm. 17 20 Vgl. Kommentar zur Stellungnahme der Allianz der deutschen Wissenschaftsorganisationen „Neuregelung des Urheberrechts: Anliegen und Desiderate für einen Dritten Korb“ – http://bit.ly/b5EQQ3 Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 447 tionen („golden road“) eine ruinöse Konkurrenz erwachsen, die den mit open access verbundenen Veröffentlichungskosten durch Enteignung von Verlagsleistungen ausweicht. […] In Summe würde der Vorschlag Wissenschaftsverlagen, die in die Selektion von, Navigation durch und Qualitätssicherung bei wissenschaftlichen Publikationen in elektronischer oder gedruckter Form investieren, jeden Anreiz für ihre Aktivitäten nehmen.“ (ebd.) Auf diesen sicherlich komplexen Zusammenhang der Auswirkungen eines Zweitveröffentlichungsrechts auf die Verlagswirtschaft kann hier nur knapp eingegangen werden. Es kann aber nicht die Aufgabe des Urheberrechts sein, der Verlagswirtschaft ihre bisherigen Geschäftsmodelle zu sichern – natürlich auch nicht, die kommerzielle Grundlage dieser volkswirtschaftlich zweifellos wichtigen Tätigkeit zu zerstören. Das derzeit gültige Urheberrecht hat über vielfältige Einschränkungen durch die Schrankenregelungen (so z.B. in den §§ 52a und b, 53 und 53a UrhG), die die Nutzung an sich begünstigen, dafür gesorgt, dass die Informationswirtschaft nicht vorschnell, unbillig oder sogar ruinös durch die in elektronischen Umgebungen möglichen Nutzungsformen beeinträchtigt wird. Der Informationswirtschaft wurde ein langer Zeitraum zugestanden, sich um neue, elektronischen Umgebungen angemessene Geschäfts- und Organisationsmodelle für das Publizieren zu kümmern. Diese Schonzeit – ob nun von der Politik bewusst zugestanden oder nur faktisch gegeben, sei dahingestellt – sollte vorbei sein. Es ist an der Zeit, die im Urheberrecht erforderliche Balance wieder stärker auf die Autoren und die Nutzer zu richten. Zu starker Schutz der kommerziellen Interessen der Verlagswirtschaft ist nicht nur für die Ziele des Urheberrechts, sondern auch für die allgemeine produzierende Wirtschaft kontraproduktiv. Wenn es nicht gelingt, profitable Modelle z.B. im Rahmen von Freeconomics zu entwickeln, also einer Wirtschaftsform, bei der die eigentliche Information gebührenfrei nutzbar ist, aber mit anderen Mehrwertleistungen, verdient wird, dann mag die Zeit der kommerziellen Publikationswirtschaft im bisherigen Stil abgelaufen sein. Bildung und Wissenschaft, gleichermaßen Autoren und Nutzer, können nicht länger unbillige Einschränkungen ihrer Rechte an ihren Werken und deren Nutzung hinnehmen. Wissenschaftliches Publizieren sollte auch von der kommerziellen Informationswirtschaft vollständig nach dem Open-Access-Paradigma organisiert sein. 448 Rainer Kuhlen Diversifizierung des Zweitveröffentlichungsrechts — Zwangslizenzen Was folgt aus alldem? Um aus dem Dilemma „Recht oder Verpflichtung“ herauszukommen, empfiehlt sich, wie oben angedeutet, eine Diversifizierung des Zweitveröffentlichungsrechts. Der Autor bekommt dieses Recht als einfaches Verwertungsrecht zugesprochen. Aber auch die Institution des Autors, die die Arbeit finanziert hat, erhält ein einfaches Zweitpublikationsrecht. Systematisch könnte das im Urheberrecht entweder über die Nutzungsrechte im Urhebervertragsrecht oder durch eine neue Schranke geregelt werden. Da auf Grund der Vorgaben der EU-Richtlinie von 2001, in der eine abschließende Liste von möglichen Schrankenregelungen vorgegeben ist, die Einführung einer neuen Schranke für den deutschen Gesetzgeber derzeit nicht möglich ist, kommt wohl nur das Urhebervertragsrecht in Frage. Eine entsprechende Änderung von § 38 UrhG, der in der Diskussion bevorzugt wird, ist mit Blick auf ein institutionelles Zweitveröffentlichungsrecht jedoch schwierig, da bislang dieser Paragraf das Recht des individuellen Autors regelt. Aber es sollte überprüft werden, ob eine Änderung möglich ist. Eine andere Möglichkeit wäre die Einführung einer neuen Zwangslizenz, wie sie im Urheberrecht in § 42a als Zwangslizenz zur Herstellung von Tonträgern vorgesehen ist21. Eine Zwangslizenz, die sich direkt auf das zurückgewonnene Zweitpublikationsrecht der Autoren bezieht, nach der die Autoren im Sinne eines „Institutional Mandate“ veranlasst würden, ihre Werke ihrer Institution zur Aufnahme in ein Open-Access-Repository zu überlassen, wäre eine mögliche und international eher unproblematische Lösung, die allerdings, wie ausgeführt, in Deutschland auf absehbare Zeit auf heftigen Widerstand von vielen Seiten stößt (besonders gewichtig von Seiten der 21 Gerd Hansen hatte alternativ zu einer Änderung von § 38 UrhG zu erwägen gegeben, ob nicht Rechteinhaber verpflichtet werden sollten, nach einer Embargofrist jedermann ein unbeschränktes, einfaches Nutzungsrecht zu gewähren, allerdings nur für Werke, die im Rahmen einer öffentlichen Förderung entstanden sind (in GRUR Int. 2005, S. 378 ff.). Jüngst hat auch Reto Hilty das Mittel der Zwangslizenz wieder ins Spiel gebracht, um Entwicklungen im internationalen Publikationsgeschehen entgegenzusteuern, bei denen „Mechanismen des Wettbewerbes letzten Endes zum Erliegen kommen“ (vgl. Reto M. Hilty: Renaissance der Zwangslizenzen im Urheberrecht? Gedanken zu Ungereimtheiten auf der urheberrechtlichen Wertschöpfungskette. Gewerblicher Rechtsschutz und Urheberrecht (GRUR) 2009, 633–644). Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 449 Deutschen Forschungsgemeinschaft). Alternativ könnte eine Zwangslizenz gegenüber den kommerziellen Rechteinhabern eingeführt werden. Dieser Vorschlag, im Urheberrecht intensiver von Zwangslizenzen Gebrauch zu machen, wenn durch Marktversagen das öffentliche Interesse an einer unproblematischen Nutzung publizierter Werke eingeschränkt ist, ist nicht zuletzt im Münchener Max-Planck-Institut für Geistiges Eigentum, Wettbewerbs- und Steuerrecht entwickelt worden (vgl. Anm. 21). Das Bundesjustizministerium hatte in seinem Fragekatalog zur Vorbereitung des Dritten Korbs gefragt, ob eine solche Regelung Zwangslizenz sinnvoll sei. In der Antwort der Kulturministerkonferenz wurde eine Zwangslizenz als Einschränkung der Rechte des Autors für problematisch gehalten. Hingegen wäre eine Zwangslizenz gegenüber den Verlagen, die ja durch die Erstpublikation Rechteinhaber sind, möglicherweise ein geeignetes Mittel, um „dem monopolisierten Verhalten einiger international agierender Wissenschaftsverlage wirkungsvoll im Sinne der Freiheit von Wissenschaft und Forschung“ entgegen zu wirken. Leider gab es bei der Anhörung des BMJ zum Zweitveröffentlichungsrecht keinen Kommentar zur Frage nach der Möglichkeit einer Zwangslizenz. Die Brisanz dieses Mittels wurde offenbar nicht gesehen. Wie wird, wie sollte die Politik entscheiden? Man darf gespannt sein, zu welchem Vorschlag das BMJ bei dem für 2011 zu erwartenden Referentenentwurf für den Dritten Korb in dieser Sache kommt und wie der Bundestag, zunächst über den Rechtsausschuss, und der Bundesrat darauf reagieren werden. Leider bedeutet es nicht viel, dass bei der Anhörung des BMJ vom 13. Juli 2010 sowohl in der Fachöffentlichkeit als auch quer durch die politischen Parteien22 eine breite Mehrheit darüber zustande kam (entgegen dem skiz22 Z.B. von der CDU-Bundestagsfraktion, Michael Kretschmer und Tankred Schipanski, am 13.7.2010: „Es besteht Gesetzgebungsbedarf, um einerseits Open Access zu fördern und andererseits die Stellung der wissenschaftlichen Urheber rechtlich stärker abzusichern. Ein verbindliches Zweitveröffentlichungsrecht wäre der geeignete Weg, um Open Access zielführend und wissenschaftsfreundlich auszubauen.“ (http://bit.ly/aSF4Md) 450 Rainer Kuhlen zierten heftigen Widerstand der Publikationswirtschaft), dass ein Zweitveröffentlichungsrecht im Gesetz verankert werden soll. In welcher Form und zu welchem Ende, darüber wird allerdings weiter gestritten, vor allem ob dadurch ein Schritt in Richtung einer umfassenden Open-Access-Verfügbarkeit bereits publizierter Werke gemacht werden kann. Das Zweitveröffentlichungsrecht ist ein wichtiger Schritt in Richtung mehr Autorenautonomie und die allgemein freie Verfügbarkeit der mit öffentlichen Mitteln produzierten Werke. Man braucht nicht mehr darüber zu diskutieren, dass Open Access – nicht nur in der Wissenschaft – nicht aufzuhalten ist. Das wissen auch die Verlage, auch wenn sie versuchen so lange wie möglich mit ihren alten Modellen – der Verknappung des Zugriffs und der Nutzung – Geld zu verdienen. Weltweit gibt es eine ständig wachsende Allianz, die es nicht länger akzeptieren will, dass das mit öffentlichen (Steuer-) Mitteln finanzierte Wissen den kommerziellen Verwertungsumweg mit all den in der Warenwirtschaft nötigen Verknappungsformen (über Gebühren, technische und rechtliche Einschränkungen) nehmen soll. Mit dem Zweitveröffentlichungsrecht und der Erweiterung durch ein „Institutional Mandate“ sind sicher nicht alle Probleme für den Umgang mit Konstantin von Notz und Kai Gehring von der Bundestagsfraktion Bündnis 90/Die Grünen am 13.7.2010: „Die heutige Anhörung [des BMJ – RK] hat deutlich gemacht, wie dringend wir eine Reform der Urheberrechtsregelungen zur erleichterten Nutzbarmachung von öffentlich finanzierter Forschung für die Allgemeinheit brauchen. Nur so sind wir in der Lage, künftig dem berechtigten Interesse der Öffentlichkeit nach Nutzung der durch sie finanzierten Forschung entgegenzukommen und die enormen Chancen, die Open Access unserer Gesellschaft für die Vermehrung von Wissen bietet, besser zu nutzen.“ (http://bit.ly/9ydOzm) René Röspel von der SPD-Bundestagsfraktion: „Wir brauchen neue rechtliche Rahmenbedingungen für das wissenschaftliche Publizieren und wir brauchen ein bildungs-, wissenschafts- und forschungsfreundliches Urheberrecht für die Informationsund Wissensgesellschaft. Überaus deutlich wurde der dringende gesetzgeberische Handlungsbedarf, um Open Access im Bereich von Wissenschaft, Forschung und Bildung zu ermöglichen und um die Stellung der wissenschaftlichen Urheber zu stärken. Ein wichtiger erster Schritt wäre die Ermöglichung eines verbindlichen Zweitveröffentlichungsrechts nach einer kurzen ,Embargofrist‘, um Open Access als ergänzendes Publikationsmodell zu ermöglichen und zu fördern.“ (http://bit.ly/8X3oot) Für die Bundestagsfraktionen der FDP und Die Linke gibt es bislang keine verbindlichen Stellungnahmen bezüglich des Zweitveröffentlichungsrechts. Bei der FDP ist Skepsis, bei Die Linke eher Zustimmung zu erwarten, auch bezüglich eines institutionellen Zweitveröffentlichungsrechts. Der Streit um die Regelung des Zweitveröffentlichungsrechts ... 451 Wissen und Information in Bildung und Wissenschaft gelöst. Vor allem besteht dringender Bedarf, die zurzeit kaum noch nachvollziehbaren Ausnahmebestimmungen (Schranken) des Urheberrechts in Bezug auf Bildung und Wissenschaft, die zunehmend die Anwaltskanzleien und die Gerichte beschäftigen, durch eine allgemeine umfassende Wissenschaftsklausel zu ersetzen23. Eine solche Klausel sollte die Nutzung publizierter Werke, für welchen wissenschaftlichen und bildungsbezogenen Zweck auch immer, genehmigungsfrei ermöglichen24. Ein solchermaßen wissenschaftsfreundliches Urheberrecht harmoniert mit den Zielen von Open Access. Die politische Behandlung des Zweitveröffentlichungsrechts (als eines der Autoren und ihrer Institutionen) wird zeigen, wie nah oder wie weit entfernt Deutschland davon ist. 23 Vgl. Rainer Kuhlen: In Richtung einer allgemeinen Wissenschaftsklausel. In: Information – Wissenschaft und Praxis (IWP) 2010, 461–467; Preprint: http://bit.ly/cZyGNW. 24 Vgl. dazu den entsprechenden Vorschlag für einen „European copyright code“, vorgelegt vom Wittem Project, April 2010 – www.copyrightcode.eu 452 Rainer Kuhlen Der Streit um die Regelung des Zweitveröffentlichungsrechts ... Session 11: E-Learning / Social Media Marketing 453 454 Tobias Fries, Sebastian Boosz, Andreas Henrich Integrating industrial partners into e-teaching efforts Using social networks to support the initiation of co-operations Tobias Fries, Sebastian Boosz, Andreas Henrich University of Bamberg, Media Informatics Feldkirchenstraße 21, D-96045 Bamberg [email protected], [email protected], [email protected] Abstract Since 2008 we have been using the existing university-wide learning management system (LMS) “Virtual Campus” (VC) to incorporate industrial partners into e-teaching courses at the University of Bamberg. We have developed different co-operation types and evaluated their appropriateness in pilot co-operations between lecturers of the University of Bamberg and regional industrial partners – respecting legal requirements, too. The vast amount of LMS courses available for students lead to a special co-operation web portal for companies, which we have ported to common social networks using the OpenSocial API. The social network application elevates the convenience for the company users, supports the matching of companies’ interests and co-operation topics and uses the social graph of the project partners to reach potential attendees. In this paper we give a general overview of popular social networks. We describe similarities and differences in target groups, APIs, and also application and data protection policies. We explicate the use cases of our application and explain the process of developing applications based on the OpenSocial API. We also describe the experiences we have made with the application admission procedures of different social networks and give an outlook on how we want to utilize Facebook’s Social Graph API and embed Facebook widgets and features (e.g. recommendation and authorization) into the existing web version of our co-operation portal. Integrating industrial partners into e-teaching efforts 1 455 Background Centrally administered university-wide learning management systems (LMS) – which have evolved out of the former variety of competing LMS used by different faculties or chairs at most universities in recent years (Henrich, Sieber, Wolf 2007) – provide a powerful infrastructure to support cooperations (co-ops) and bi-directional knowledge transfer between universities and companies. They help to overcome obstacles of temporal synchronization and spatial distances in co-ops between different institutions. Lecturers University-wide Learning Management System Students Documents Communication Providing content Providing topics Accessing content Already available To be established Company Management Company Staff Fig. 1: Incorporating companies Fig. 1 describes the usage scenario to incorporate company management and staff into academic teaching. The green arrows symbolize the conventional usage of a university LMS: Lecturers provide topics and content to students and set up discussion forums about course topics. Students mainly access and download provided content. Forums and chats are used for communication between lecturers and students. Our approach incorporates two more parties: company management and staff. Company staff can access course content and – especially in exercise courses or seminars – the man- 456 Tobias Fries, Sebastian Boosz, Andreas Henrich agement can provide topics and content to increase practical relevance of the courses. The students should also be encouraged to upload content and all four parties can discuss topics via the LMS (red arrows). Our approach permits different types of co-ops depending on the kind of course (lecture, seminar or exercise course) and the desired degree of involvement (active/passive) of the companies. At the University of Bamberg we had co-ops ranging from granting company members access to lecture notes, slides, lecture recordings and discussion forums up to courses, where students tested, evaluated or improved company products. Company representatives are not just learners, but contribute knowledge, experience and real-life questions to the courses. LMS4KMU Application Home View Top 3 co‐op offers Canvas View/Profile View Co‐op overview Course overview Lecturer overview Search field Description Office Search options Participate Contact options Pre‐sorted co‐ops Further info To course To lecturer details To co‐op overview Fig. 2: Views of our app When granting company members access to certain courses in a university LMS, privacy, data protection and copyright issues have to be considered, but common LMS offer built-in or additional features to support the legal requirements (Fries, Henrich 2010b). Another critical success factor is minimizing necessary efforts for companies and lecturers to start co-ops. For that purpose we have developed a co-op web portal that provides access to only the courses available for companies (out of over 1,400 courses in the Integrating industrial partners into e-teaching efforts 457 LMS “Virtual Campus”1 (VC) in winter 2010/11). The portal harvests information about courses and lecturers from different IT systems in use at the university and provides them in a target-group specific manner to the companies (Fries, Henrich 2010a). The co-op web portal2 is a convenient tool for the company members to find suitable co-op offers, get contact information about the lecturers and start co-ops. Our industrial project partners experienced no major problems in using the web portal. After the successful pilot phase of our project, we want to invite further companies to co-operate with lecturers and students. The key to this is getting company members to navigate to our co-op portal. The usage of social networks (SNs) like Xing3, LinkedIn4 or Facebook5 (FB) has increased massively and their APIs have become very powerful and standardized (apart from FB almost all SNs provide Google’s OpenSocial (OS) API6). So, integrating our co-op portal into SNs and integrating SN widgets into our web portal may have potential to further increase the convenience for interested companies and to recommend our portal to their contacts. In chapter 2 we give a brief overview of popular SNs. We identify major similarities, show main differences and compare their APIs. Chapter 3 presents use cases (both adapted from our web portal and newly designed ones) of SNs for our purpose including carefully accessing users’ data. In chapter 4 we describe our app prototype and experiences with the networks and APIs. Chapter 5 gives an outlook on future work. 2 Social Networks, APIs and Application Quality With the increasing popularity of SNs, a change in the way of how people search information on the internet may be about to take place. While 1 http://vc.uni-bamberg.de/moodle (checked Jan 17, 2011) 2 http://www.uni-bamberg.de/minf/lms4kmu-portal (checked Jan 17, 2011) 3 http://www.xing.com (checked Jan 17, 2011) 4 http://www.linkedin.com (checked Jan 17, 2011) 5 http://www.facebook.com (checked Jan 17, 2011) 6 http://code.google.com/intl/de-DE/apis/opensocial (checked Jan 17, 2011) 458 Tobias Fries, Sebastian Boosz, Andreas Henrich google.com is still the most visited website with a daily reach of approx. 45% of global internet users, facebook.com has reached the second rank with about 39%7. Instead of using search engines to find information about a more or less clearly defined topic, many people browse information recommended by their friends over SNs. Microsoft and FB seem to believe, that both approaches can be reasonably combined to subjectively increase quality of search results, as Microsoft’s Bing will soon display recommendations of the searcher’s FB contacts among the usual search results (Braun, 2010). With over 500 million registered users, FB is the most popular global SN. Started as a SN for students at the Harvard University in 2004 and extended to other US students in 2006, it is now available in over 80 languages for everyone. In Germany a very similar SN called studiVZ8 (VZ) was started. In the beginning, when no German FB localization existed, VZ was clearly the most popular SN amongst German students. But in recent years, FB has become more and more popular amongst German students. VZ has also opened up for non-students, providing SNs called meinVZ and schülerVZ which are closely connected to VZ. FB and VZ have a clear focus on leisure time and entertainment. For both platforms a vast amount of third party apps (mainly games) exist. Despite the general dominance of FB (over 14 million registered German users9) and the VZ networks (over 17 million users10) niche markets for specialized SNs still exist. For our attempt to initiate co-ops with companies, especially SNs with a more business-oriented focus are worth examining. In Germany, Xing is the most popular amongst these, whereas globally, LinkedIn has the most registered users in this domain (Briegleb, 2010). Both platforms provide third party apps, but in contrast to the thousands of mainly entertainment focused apps available in FB and VZ, Xing and LinkedIn allow only a handful of apps. APIs and third-party apps In May 2007 FB opened the website for third-party apps by launching the so called “FB Platform”. Apps are displayed in a container inside a FB page and 77 http://www.alexa.com/topsites (checked Jan 17, 2011) 78 http://www.studivz.net (checked Jan 17, 2011) 79 http://www.facebakers.com/facebook-statistics/germany (checked Jan 17, 2011) 10 http://www.studivz.net/l/about_us/1 (checked Jan 17, 2011) Integrating industrial partners into e-teaching efforts 459 can include FB widgets (e.g. the Like Button) and access users’ profile data. The app can be implemented as usual JavaScript-enhanced HTML page (iframe) or in the FB Markup Language (FBML) and FB JavaScript (FBJS). To interact with FB’s backend, a REST API is provided and user data can be accessed via the FB Query Language (FQL) (Graham, 2008). In December 2008 “FB Connect” became available, allowing developers to include FB’s widgets into independent websites not running as apps inside FB. In 2010 the REST API was replaced by the more modern Graph API, giving developers three possibilities for interaction with the SN: (1) FB for Websites allows the usage of social plugins and comfortable solutions like a single sign-on procedure on any website. (2) Apps on Facebook.com allows to run web apps in a dedicated iframe on FB, place widgets on users’ profile pages and update a user’s FB stream. (3) Mobile Apps is a collection of services for web apps running on mobile devices (Krutisch 2010). In contrast to the proprietary Social Graph API which is limited to FB, Google released version 0.7 of its counterpart OS API in late 2007 under an Apache 2.0 and Creative Commons license. Most SNs have implemented the OS API so far11. So Google’s aim to provide an API for cross-platform apps seems to be achieved, although different versions of the API are implemented in the SNs (version 1.1 was released in November 2010, but version 0.8 (Wartala 2008) is still very wide-spread). OS can be seen as a container for apps written in HTML, JavaScript and CSS, which can be placed on web pages inside SNs, providing a standardized AJAX request mechanism to contact the app developer’s web server and also standardized access to user data in the SN (Häsel, Iacono 2010). For security and data protection reasons, SN users can define access rules for apps in general or individually when they add an app to their profile page (cf. chapter 4). As Xing is the most popular business network in Germany, we started implementing our app as an OS 0.8 app, focusing on Xing’s requirements. Xing supports three OS views, Home View (HV), Canvas View (CV) and Profile View (PV). The HV is an app container to be included in the user’s personal page with a fixed size of 315 x 180 pixels. It is only available for users who added the app to their accounts. HV can access user data if permitted by the user. CV can be larger than HV and therefore display more content. Like HV it is only accessible for the user himself and can access the same data as HV. PV can be as large as CV and is displayed inside the user’s profile page, 11 http://wiki.opensocial.org/index.php?title=Containers (checked Jan 17, 2011) 460 Tobias Fries, Sebastian Boosz, Andreas Henrich which is available to other users depending on the user’s permissions. Apart from the owner’s data, PV can also access data of the user viewing the app on another user’s profile page (if the viewer permits). 3 Use Cases The prototypical implementation of our app on iGoogle12 demonstrates number 1 to 6 of the use cases described and depicted in fig. 3. The app provides the functionality of our web portal (Fries, Henrich 2010a) and has additional advantages: (1) The project partners (companies and lecturers) are already using Xing to manage their business contacts; our app valorizes the wellknown environment. (2) Accessing users’ interests via OS, co-op offers can be ordered and filtered accordingly. (3) Users’ friends are informed about the app when browsing status updates or visiting profile pages. (4) Users can easily recommend the app within the SN. (5) The SN profile can be used to identify and authorize users for personalized features of the web portal. (6) Lecturers, companies and students can communicate via the SN with others that have added the app. The OS version of our app supports three in most SNs available views (cf. chapter 2). The HV with very limited display size provides the three most appropriate co-op offers for the user. It is placed on the homepage of the user that has installed the app when he logs in to the SN. The CV and PV of the app provide the same functionality as our web portal, but the co-op offers are ordered by relevance for the user who has installed the app (CV) or who views the app (PV). Fig. 2 depicts the relationship between the views. When the user logs in to the network, he finds the HV, containing the three co-op offers that best match his interests. If he clicks on “more co-op offers” the larger CV is displayed, containing all available co-op offers ordered by relevance for his interests, a basic search field and advanced search and filter options. If the user clicks on a co-op offer in HV or CV, a course overview is displayed in CV, giving a description as well as links for participation, further information and the lecturer’s contact data. If the user clicks on a lecturer’s name or picture (HV) or on the “lecturer’s details” link (course over12 http://www.google.de/ig/directory?q=lms4kmu (checked Jan 17, 2011) Integrating industrial partners into e-teaching efforts 461 view in CV), the lecturer’s contact data are displayed in CV. If a user that has not installed the app (yet) finds it on another users profile or gets a recommendation, he can access the PV, which is similar to the CV. Fig. 3 depicts the eight use cases (UC) our OS app is designed for. UCs 1 to 6 have already been implemented in our prototype, UCs 7 and 8 are to be implemented next. UC 1 allows to look for an interesting co-op offer. Having logged in, the user finds the top three co-ops for his interests in the app’s HV on his Xing homepage and can click on an offer to get more information about it or click on “see more offers” to get the full list (in both cases the CV is being displayed). UC 2 starts with a Xing user finding the app (by reading in the status updates that a friend has installed the app or joined a co-op, watching another user’s profile, getting a recommendation from another user or browsing the list of available apps). When he opens the app, the PV is displayed, showing all available offers (ordered by his interests if permitted). He can use most of the features of the portal and install the app to get full access. UC 3 is about searching for co-ops. The user can just type in a keyword to the search field (CV or PV) and the app will display matching co-ops only. He can also use the advanced search where he can define which fields (co-op title, description, information for companies, lecturer name) should be included in the search and which criteria (current semester, co-op type, lecture type) the possible co-ops have to fulfill. UC 4: When the user has found an interesting-looking co-op in any view, he can get more details about it by clicking on the co-op name. When he gets a recommendation, clicking the recommendation link also displays the co-op details (after the user has installed the app). The view changes to CV in any case. UC 5 allows contacting the lecturer for a co-op. It is possible to click on the lecturer’s name next to a co-op offer in any of the three views (HV also provides a clickable picture) or click on “contact data” (course overview in CV or PV). If the lecturer is present at Xing himself, the user is forwarded to his Xing profile page, showing his current contact data. If the lecturer does not have a Xing profile, the app shows the lecturer’s picture, office address, university webpage, email address and telephone number in CV or PV. UC 6: When the user has decided to join a co-op, he can click on the corresponding link (in course overview). If he declares not to have a user account for the university LMS yet, the self-registration page for the LMS opens in a new browser tab. As soon as the user has registered to the LMS, he can enter his user name and password and “auto-enroll”. The app enrolls him to the course and provides a link for direct access to the course page. 462 Tobias Fries, Sebastian Boosz, Andreas Henrich UC 1 User logs in Homepage with app’s Home View appears App sends users interests to server Server sends Top 3 co‐ops for interests UC 2 User finds app or gets recommend. User opens app Display Profile View (by viewer interests) User installs app User opens Canvas View/ Profile View User types keyword in search field User clicks "start search" App sends search request to server User navigates to Canvas View for more co‐ops Look for interesting co‐op Find, try out and install app Matching co‐ops are displayed Search for co‐operations UC 3 UC 4 User found co‐ op in any view User opens advanced search options User changes search settings User clicks on course name Server request Change to Canvas View Course details are displayed Change to Canvas View Display lecturer’s contact data User clicks "register to VC" Display VC page for registration in new tab Get co‐operation details Click lecturer name or picture (Home View) Click lecturer UC 5 name (Canvas/ Profile View) Check if lecturer has Xing profile no yes Click "contact data" (course details) Change to lecturer’s Xing profile User reads course details User clicks "join co‐op" Display participation options App requests Users clicks "automatically enrol" User fills in his VC user name and password Server enrols user to co‐op App displays "enrolment successfull" Users clicks "to course page in VC" Display VC course page in new tab User clicks "offer co‐op" in Home/Canvas App changes to Canvas View Co‐op details form is displayed User inputs data about co‐op idea User clicks submit button Admin approves new co‐op offer System administrator checks data Co‐op data and contact data are saved App sends form data and profile data to server App retrieves user’s profile data from Xing User clicks "recommend" in course overview Display Xing’s form for sending messages Insert recommend. text/co‐op link User chooses reveiver(s) out of his friend list User customi‐ zes recommen‐ dation text Xing checks if friend already installed app Friend clicks on recommen‐ dation link User’s friend gets recommen‐ dation message App sends recommend. to user’s friend(s) User clicks "send recom‐ mendation" Xing displays Home View (friend=owner) App displays recommended co‐op‘s details Friend joins co‐op App displays recommended co‐op‘s details Friend installs app UC 6 enrolment from server User registers to VC UC 7 UC 8 yes no Xing displays Profile View (friend=viewer) Contact lecturer Fig. 3: Use cases of our OpenSocial application Join co‐operation Offer co‐operation [not yet implemented] Recommend co‐operation [not yet implemented] Integrating industrial partners into e-teaching efforts 463 UCs 1 to 6 are derived from the UCs of our web portal and are also available for users/viewers that do not allow the app to access their profile data. UC 7 and 8 explicitly require access to the user’s profile. UC 7: Company members can offer co-op ideas to lecturers by entering their idea and the possible co-op type in a form in CV. The app sends these together with the user’s contact data to our server, where they are checked and added to the available co-ops. Also lecturers can add ideas about future courses, mutually planned with companies, to the portal. UC 8 provides a convenient possibility to recommend co-ops between users of the SN. When a user finds a co-op offer that could be interesting for a friend, he can just click on “recommend” (course overview). The app will then open a standard message sending dialogue of the SN and insert the subject, a default recommendation text and a direct link to the co-op offer to the message. The user can then choose the receiver(s) of the message from his friends list and change the text or subject. The friend(s) receive the message and can click on the link. If the friend has already installed the app, the CV opens, displaying the course overview. If the friend has not installed the app yet, the senders PV of the app displays the course details and the friend can install the app. 4 Implementation and Experiences We have developed an OpenSocial app for Xing first, because its target audience highly resembles ours. As Xing does not allow general access to the developer’s sandbox, we started developing and testing our app using the OS Development Environment13 (OSDE) for Eclipse, based on Apache Shindig14 (Häsel, Rieke 2009). Apart from a required XML file, specifying metadata and views (Grewe, 2009), we have implemented the app completely in JavaScript. Most of the code from the existing web portal could be adopted in a straightforward way. Functions handling AJAX requests had to be adapted to work with OS’s AJAX mechanism. Functions accessing users’ profile data had to be implemented and the app had to meet Xing’s corporate design. Apart from our Shindig server, we also tested our app on iGoogle, where it is 13 http://code.google.com/p/opensocial-development-environment (checked Jan 17, 2011) 14 http://shindig.apache.org (checked Jan 17, 2011) 464 Tobias Fries, Sebastian Boosz, Andreas Henrich still available15. Unfortunately, Xing rejected our concept and app prototype immediately, possibly due to restrictive app permission policies. We then offered our app to LinkedIn, which has a similar target group as Xing, but a more international focus. In contrast to Xing, LinkedIn does not ask for a detailed concept paper, but offers a web form, where one can briefly describe the app idea16. Unfortunately, we have only received an automatic reply, but no decision about acceptance or rejection of our app from LinkedIn so far. At present we concentrate on VZ and FB, which are not as business oriented, but reach a lot of people and have less strict demands for third party apps. On both platforms getting access to the developer’s sandbox is straightforward and allows testing the app directly within the SN. We started developing the FB version as “App on Facebook.com” – rendered on our own server and integrated into FB as iframe. Just entering the URL of our existing web portal was sufficient for the start. Accessing the user’s profile data and integrating FB widgets (“Like” button) are the upcoming targets. On VZ, the previously developed OS version works in principle. VZ, however, supports different views than Xing and has different size restrictions. Also some of our JavaScript DOM manipulations seem to be overwritten by VZ’s CSS styles. Privacy policies The SNs follow different approaches to protect their users’ data. Xing apps can only access data declared to be public by the user and the contact list of the user who installed the app. Data of viewers, not having installed the app, are protected. VZ uses a system of virtual business cards which the users create and allocate to their installed apps. Besides basic information, the app may only access the information given on each vcard or if necessary ask the user to update his vcard. Accessing viewers’ data is not possible. Additionally, Xing and VZ demand links to the general business terms and to the privacy policy of the app provider in each rendered view. On FB all apps can access general information like the user’s and his friends’ names, the profile picture URL and his unique user ID as well as all information with visibility level “Everyone”. Furthermore the user can define privacy settings applying to all apps and different settings for individual apps. FB was recently criti- 15 http://www.google.de/ig/directory?q=lms4kmu (checked Jan 17, 2011) 16 http://developer.linkedin.com/themes/linkedin-home/form-inapps.html (Jan 17, 2011) Integrating industrial partners into e-teaching efforts 465 cized for allowing apps to access viewers’ data by default (Lischka, 2010). To be trustworthy, our app only requests those fields of user data absolutely necessary to provide its functionality and basic features of the app are available for users, who do not allow profile access at all. It will also not send messages to the user’s friends unless he agrees. 5 Outlook SNs provide handy interfaces for third party developers to utilize users’ social graphs and profile data to increase an app’s range and usability. Most SNs provide Google’s OS API, allowing the development of platformindependent apps. The most popular SN FB, however, requires an individual implementation. Business-oriented SNs like Xing and LinkedIn provide a more homogenous and less entertainment-oriented user group than FB and VZ, but have stricter app acceptance policies. Our prototypical OS implementation fulfills its purpose and works fine on iGoogle and in the sandbox of VZ. The existing web portal can be included into FB as iframe. We will enhance it with FB widgets and access to the social graph. This way we will be able to implement two advanced use cases in the OS and FB app version as well as in our web portal version (using “FB for Websites”). To reach new users we also want to provide apps for smartphones. A slightly modified version of our web portal17 already works on Adobe Air18, which has lately been released for Android 2.219. We also plan to implement versions for iOs, Symbian and Windows Phone 7 utilizing the special features of the mobile devices (touch screen etc.) to increase convenience and user experience. 17 http://www.tobiasfries.de/lms4kmu/lms4kmu.air (checked Jan 17, 2011) 18 http://www.adobe.com/de/products/air (checked Jan 17, 2011) 19 http://www.heise.de/newsticker/meldung/Adobe-Air-fuer-Android-verfuegbar1104071.html (published Oct 10, 2010) 466 Tobias Fries, Sebastian Boosz, Andreas Henrich References Braun, H. (2010). Microsoft und Facebook arbeiten gemeinsam an Bing. In: c’t 23/2010: Heise, p. 30. Briegleb, V. (2010). Xing mit bisher bestem Quartalsergebnis. Heise online Newsticker. http://www.heise.de/newsticker/meldung/Xing-mit-bisher-bestem-Quartalsergebnis1054604.html (Retrieved October 14, 2010) Fries, T.; Henrich, A. (2010a). Integrating Industrial Partners into e-Teaching Efforts – a Portal to Support the Initiation of Co-operations. In: IADIS eLearning 2010 (IADIS International Conference e-Learning 2010). Freiburg. Fries, T.; Henrich, A. (2010b). Integrating Industrial Partners into e-Teaching Efforts – legal pitfalls and circumventions. In: Book of Abstracts 2010 (Online EDUCA Berlin 2010). Berlin. Graham, W. (2008). Facebook API Developers Guide. New York: Apress. Grewe, L. (2009). OpenSocial Network Programming. Indianapolis: Wiley Publishing, Inc. Häsel, M.; Iacono, L. (2010). Soziale Netze mit OpenSocial erweitern – Offene Beziehung. In: iX 6/2010: Heise, pp. 134–140. Häsel, M.; Rieke, K. (2009). Aktuelles Schlagwort – OpenSocial. In: Informatik Spektrum 32/3, 2009: pp. 250–254. Henrich, A.; Sieber, S.; Wolf, S. (2007). Integration eines hochschulweiten LMS in die Systemlandschaft einer Hochschule – ein pragmatischer Ansatz. In: Flexibel integrierbares e-Learning – Nahe Zukunft oder Utopie?: Proc. Workshop on e-Learning 2007. Leipzig: Hochschule für Technik, Wirtschaft und Kultur, pp. 57–76. Krutisch, J. (2010). Facebook-Schnittstelle für Entwickler. In: iX 10/2010: Heise, pp. 38–43. Lischka, K. (2010). Facebook-Anwendungen reichen unerlaubt Nutzerdaten weiter. Spiegel Online. http://www.spiegel.de/netzwelt/web/0,1518,723636,00.html (Retrieved October 28, 2010) Wartala, R. (2008). Anwendungen mit der Opensocial-API entwickeln. In: iX 9/2008: Heise, pp. 54–60. E-Learningkurs Globalisierung 467 E-Learningkurs Globalisierung Konzeption und Evaluation eines Beispielkurses Christopher Stehr1, Melanie Hiller2 1 German Graduate School of Management & Law (GGS) Bahnhofstr. 1, 74072 Heilbronn [email protected] 2 Universität Ulm Helmholtzstr. 22, 89081 Ulm [email protected] Zusammenfassung Das Themenfeld Globalisierung steht beispielhaft für komplexe Kursinhalte, die ob ihres Umfanges nicht zur Gänze über e-Learning-Konzepte geschult werden können. Im Vordergrund des vorliegenden Kursdesigns stehen daher die wesentlichen fachlichen und inhaltlichen Dimensionen. Die Entwicklung einer eigenen Position zum Thema Globalisierung im Diskurs mit einer Lerngruppe ist eines der zentralen Lernziele. Im Rahmen dieses Artikels werden die wichtigsten Herausforderungen und die Umsetzungsmöglichkeiten eines solchen e-Learningkonzeptes anhand eines Praxisbeispiels aus der Bildungsarbeit themen- und kontextspezifisch diskutiert. Abstract The subject globalization as an e-learning content seems to be too complex to be thought. The whole matter has to include the specific globalization content and state of the art. Besides, a target of such a course should also be teaching of individual competences and developing critical reflection abilities within an e-learning group. Chosen from a concrete successfully implemented elearning course on globalization, the following article will discuss possibilities, risks and challenges of this course design. 468 1 Christopher Stehr, Melanie Hiller Einleitung und Problembeschreibung E-Learningangebote zum Themenfeld Globalisierung unterliegen besonderen Herausforderungen bei der Wissensvermittlung. Neben einem wertneutralen Zugang zum Inhalt müssen die Lernenden selbständig die Vor- und Nachteile von Globalisierungsprozessen beurteilen können, um die Kompetenz auszubilden, sich selbstgesteuert und reflektiert an Globalisierungsprozessen zu beteiligen. Wie ist es also möglich, einen e-Learning-Kurs zum Thema Globalisierung so zu gestalten und so tutoriell zu begleiten, dass dieses Lernziel erfolgreich erreicht wird? Auf welcher Plattform ist dies am besten umzusetzen? Steht der Entwicklungs- und Betreuungsaufwand in Relation zum (Lern-) Erfolg? Das sind die zentralen Fragen, die in diesem Beitrag bearbeitet und beantwortet werden. Die empirische Grundlage hierzu bietet die Evaluation eines bestehenden Kurses eines Anbieters aus der außerschulischen Erwachsenenbildung. Das tutorengestützte, berufsbegleitende Angebot wurde bis ins Jahr 2010 insgesamt zwölf Mal über einen Zeitraum von vier bis acht (insgesamt 400 Teilnehmer) durchgeführt. Die mit diesen Teilnehmern durchgeführte formative und summative Evaluation, inklusive einer Befragung des Entwickler- und des Tutorenteams (Triangulation), bilden die empirische Basis der nachfolgenden Ausarbeitung. 2 Grundlagen der Konzeption von e-Learning E-Learning als Begriff gehört zu den definitorisch vielseitig verstandenen Termini. Im Folgenden wird e-Learning im weit gefassten Sinne als ein übergeordneter Begriff für softwareunterstütztes Lernen verstanden [Baumgartner et al. 2002]1, das verschiedene Lernformen und Schwerpunktsystematiken zusammengefasst. Diese werden per Informationstechnologie unterstützt [Moser 2010]. Neben reinen Content-Management-Systemen, die nur der Informationsbereitstellung dienen, stehen auch Learning-Communities auf 1 Ein Überblick über technische Systeme findet sich u.a. in [Niegemann et al. 2008]. S. 457 ff. E-Learningkurs Globalisierung 469 Basis des Austauschs mehrerer Lernender [Dietinger 2001] zur Verfügung. Interaktive wie individuelle Lernprozesse werden in Learning-ManagmentSystemen (LMS) abgebildet.2 Ziele eines e-Learning-Einsatzes sind u.a. Kostenreduktion [Moser 2010], zeitliche und örtliche Flexibilität [Leidhold 2001; Mair 2005], die eine berufs- oder tätigkeitsbegleitende Einbindung ermöglicht [Risku, Peschel 2010], und die Nachhaltigkeit [Lehmann 2002; Baume 2009] des Lernprozesses. Zusätzlich können solche e-Learningkomponenten mit Präsenzveranstaltungen gekoppelt werden (Blended Learning) [Back et al. 2001; Euler 2002; Reß 2003]. Für den Erfolg einer e-Learning-Maßnahme werden die Selbstlernfähigkeiten des Lernenden [Eichelberger et al. 2009] und die adäquate technische Umsetzung gefordert [Hagedorn 2002]. Für die Erstellung dieses Kurskonzeptes wurden daher neben den bereits oben genannten vor allem die Faktoren qualifizierte Begleitung [Frankfurth 2010], klar kommunizierte und durchgeführte Organisation von Zeit und Inhalten, engagierte, innovationsfreudige und lerninteressierte Teilnehmer, optimale technische Nutzungsvoraussetzungen sowie attraktiver, abwechslungsreicher Medieneinsatz [Hagedorn 2002] und Orientierung an der Handlungswirklichkeit der Teilnehmer zur Erleichterung des Transfers [Krause 2004] als bestimmend für den Lernerfolg identifiziert. 3 Globalisierung als Lerninhalt Das Thema Globalisierung steht als Synonym für ein komplexes, besetztes3, vom Lernenden inhaltlich nur schwer zu kategorisierendes und zu überblickendes Lernthema,4 dessen Rezeption nur im Austausch mit einem themen2 Unter Interaktivität wird Adaptionsfähigkeit des Systems wie Kommunikation mit Lernenden und Tutoren gleichermaßen verstanden. Vgl.: [Haak 02], S. 128. 3 Als zwei ausgewählte Beispiele aus den Anfängen der in Deutschland z.T. emotional geführten Globalisierungsdebatte: Vgl. Forrester (1997) und Martin/Schumann (1998), neue Ansätze u.a. vgl. Weißeno (2008). 4 Google-Hits (Eingabe Begriff Globalisierung) im Februar 2008: 3,39 Mio., im Januar 2011: 4,55 Mio. Listungsergebnisse. Eingabe des Begriffes Globalisierung bei Amazon: im Juli 1999: 194 Bücher (vgl. Altvater/Mahnkopf (2002), S. 19), im Januar 2011: 27.214 Bücher. 470 Christopher Stehr, Melanie Hiller erfahrenen Lehrenden verwirklicht werden kann. Darüber erfolgt je nach Standpunkt und Betroffenheit eine persönliche wertende Kategorisierung [Debiel et al. 2006]. Das zentrale Problem bei der Stoffreduktion und der Lernzielfestlegung ist also: ,Die Globalisierung‘ wird in der öffentlichen Diskussion und auf der persönlichen Ebene als psychologische Projektionsfläche verwendet.5 Ein Lernangebot zu Globalisierung kann daher nicht nur auf reine Informationsvermittlung beschränkt sein, es muss Möglichkeiten beinhalten, eigene Einstellungen geführt zu hinterfragen und ggf. zu adaptieren, sowie eigenes Handeln kritisch zu überdenken und ggf. verändertes Verhalten vorzubereiten [Eichelberger et al. 2009; Seiler-Schiedt et al. 2006; Andriessen 2010]. Eine Möglichkeit, die umfangreichen Lerninhalte zu reduzieren und an unterschiedliche Zielgruppen und Kenntnisstände anzupassen, ist die Modularisierung des Lernstoffs in verschiedene, voneinander unabhängige inhaltliche Module [Kübler 2008]. Im vorliegenden Beispiel wurde daher eine thematische Unterteilung in ein sogenanntes Grundlagenmodul, sowie sieben weitere themenspezifische Wahlmodule vorgenommen. Jedes dieser Module besteht aus einer inhaltlichen Komponente, die den Schwerpunkt des Bausteins zunächst definitorisch und theoretisch vorstellt und wird auch in Form einer zusammenfassenden Druckversion (ca. 150 Seiten) und als Podcast zur Verfügung gestellt. Innerhalb der Themenbausteine werden zudem neben dem grundlagenbildenden Selbstlernbereich (Inhaltliche Komponente) auch weiterführende Vertiefungsangebote und ein betreutes Forum mit Tages-, Wochen- und Kursaufgaben (Interaktive Komponente) angeboten. Da die Wahl der zu diesem Konzept passenden Lernplattform entscheidenden Einfluss auf Art und Ablauf der späteren Kursgestaltung hat [Baumgartner et al. 2002]6, wurde für den vorliegenden Kurs eine Entscheidung für die OpenSource-Lernplattform Moodle gefällt, da v.a. die kooperativen Lerninstrumente unter Moodle besser unterstützt werden [Leidhold 2001] und da das modulare Kursdesign dieses vorliegenden Kurses weitgehende Übereinstimmungen mit dem didaktischen Konzept der Lernplattform aufweist. Darüber hinaus wurden die Kriterien Systemkompatibilität, Autorentools/Management, Add-Ons, Usability, verfügbare Sprachversionen, sowie Anschaf- 5 Zur öffentlichen Wahrnehmung vs. empirische Datenlage vgl. u.a. Speck (2009). 6 Für einen Überblick über gängige Systeme vgl. [Baumgartner 2002] S. 47–295 sowie [Niegemann et al. 2008]. S. 457 ff. E-Learningkurs Globalisierung 471 fungs- und Unterhaltskosten berücksichtigt [Baumgartner 2002; Niegemann et al. 2008]. 4 Ergebnisse der Kursevaluation Die nachfolgenden Ergebnisse basieren auf einem triangulierten Analyseverfahren im Rahmen der Evaluation von zwölf durchgeführten Kursen (drei Kurse mit Präsenzeinheiten/Blended Learning) mit insgesamt rund 400 Teilnehmern. Die abschließende Evaluation mittels schriftlicher Teilnehmerbefragung fand in zwei Kursen im Rahmen einer Abschlussveranstaltung statt. Die restlichen 10 Kurse füllten die Befragung digital aus und sandten sie online ein. Die schriftliche Befragung umfasst u.a. Kriterien wie Zufriedenheit, subjektiver Lernerfolg, Zeitaufwand und Erfüllung der Erwartungshaltung, sowie offene Rückmeldungsmöglichkeiten zu Tutoren, zur Organisation (Zeitplan und -ablauf, Technik, im speziellen Funktionalität der Lernplattform) sowie zu Lerninhalten und Lernzielen. Darüber hinaus fand eine quantitative Auswertung der Aktivität der Lernenden via Logfileanalyse statt. Im Laufe von vier Wochen Kursdauer erreichen die aktivsten 10% der Teilnehmer ca. 1100 Views7, je nach Durchführung. 5–15% der Teilnehmer brechen den Kurs während der Laufzeit ab oder beginnen ihn erst gar nicht. Die restlichen Teilnehmer tätigen im Durchschnitt 450 Views. Rund 65% der Lernenden beteiligen sich regelmäßig im Forum, je nach Aktivität mit 5–10 Beiträgen pro Woche. Die Ergebnisse der Evaluationen ergaben in allen Kursen eine gleichartig hohe Zufriedenheit mit der tutoriellen Betreuung. Besonders hervorgehoben wurden im Rahmen der qualitativen Rückmeldungen die schnelle und kompetente Bearbeitung organisatorischer und inhaltlicher Rückfragen. Ebenso positiv bewertet wurden die individuellen inhaltlichen und persönlichen Rückmeldungen, sowie auch die Bestärkung durch Lob. Auch die vom Tutor eingebrachten tagesaktuellen Zusatzinformationen und Diskussionen über von Teilnehmern vorgebrachte Inhalte wurden als positiv rückgemeldet. Im Diskussionsforum aktive Teilnehmer meldeten eine höhere Zufriedenheit mit dem Kursverlauf und subjektiv bessere Lernfortschritte zurück. Eine 7 Seitenaufrufe im inhaltlichen Bereich des Kurses. 472 Christopher Stehr, Melanie Hiller qualitative Inhaltsanalyse der Beiträge einzelner Teilnehmer ergab, dass sie einzelne Lerninhalte des Forums später in ihre Argumentationsketten bei der abschließenden Bearbeitung der Kursaufgabe integrierten. Diese Teilnehmer gaben allerdings ebenso an, deutlich mehr als die in der Kursbeschreibung zur Bearbeitung empfohlenen 3–4 Stunden Zeit pro Woche investiert zu haben. Ihre Kursbearbeitungszeit lag bei durchschnittlich 9,5 Stunden in der Woche. Das gebotene Fachwissen innerhalb des gesamten Kurskonzepts wurde von 85% der Teilnehmer als umfangreich bis sehr umfangreich bewertet (sechspolige Lieckertskala). Die qualitativen Rückmeldungen bezeichneten es v.a. als ansprechend und abwechslungsreich. Das verfügbare Angebot hat den Erwartungen der Teilnehmer (53%) entsprochen, sie bei 18% der Befragten sogar übertroffen. Die große Vielfalt und die Aktualität der eingestellten Themen, sowie deren qualitative Aufbereitung wurden in den qualitativen Rückmeldungen besonders oft als positiv genannt. Die Aktualität bzw. Tagesaktualität der Inhalte hat aus Sicht der Teilnehmer einen wesentlichen Beitrag zum Lernerfolg beigesteuert. 55% aller Teilnehmer gaben an, überdurchschnittlich sowie durchschnittlich (36%) zum Themenfeld Globalisierung und zu den inhärent vermittelten ,Globalisierungskompetenzen‘ (u.a. Informationsverarbeitung, Wissensgenerierung) gelernt zu haben. Auffallend zeigte sich auch: Die Zufriedenheit der Teilnehmer in nicht vorher festgelegten Themenkursen, also in Kursen, in denen die Wahlmodule erst nach einer Erwartungsabfrage zusammengestellt wurden, war höher. Diese erhielten signifikant bessere Bewertungen als von vornherein thematisch festgelegte Kurse, die als solche öffentlich ausgeschrieben waren. Von der technischen Seite her wurde die intuitive Handhabung der Lernplattform Moodle von über 67% aller Teilnehmer als Erfolgskriterium für die eigene hohe Lernbereitschaft und als letztendlich ausschlaggebend für den Lernerfolg genannt. 5 Fazit Die dargestellten Besonderheiten in Bezug auf Inhalte und Kursablauf haben signifikante Auswirkungen auf eine Gestaltung von Lehr-Lern-Einheiten zum Thema Globalisierung und lassen Schlussfolgerungen über die Themen- E-Learningkurs Globalisierung 473 bereiche Gestaltung, Konzeption, Lernplattform, Lernerfolg, tutorielle Begleitung und Relation Aufwand zum Ertrag zu: Globalisierung als Inhalt und Stoffreduktion Das Thema Globalisierung in seiner gesamten Fülle und Tagesaktualität ist zu vielschichtig und zu umfangreich. Eine vollständige Vermittlung aller Inhalte ist daher erstrebenswert, allerdings unter der Kosten-Nutzen-Relation schwierig bis gar nicht umzusetzen (Relation Aufwand zum Ertrag). Daher liegt ein besonderer Fokus bei der Konzeption auf der Eingrenzung sowohl der wesentlichen Lerninhalte als auch der Lernziele. Trotz einer inhaltlichen Reduktion ist die schematische Darstellung der Komplexität, aber auch bewertungsrelevanter Kriterien der Chancen und Risiken der Globalisierungsprozesse (Gestaltung) ein wichtiger Bestandteil für den Lernerfolg der Teilnehmer. Die Rückmeldungen der schriftlichen Befragung bewerteten die Lernerfolge in Abhängigkeit zum eigenen Engagement und Vorwissen als gut bis sehr gut, hierbei wurden insbesondere die angebotenen Vertiefungsmöglichkeiten als besonders positiv bewertet. Modularisierter Aufbau und tutorielle Betreuung Aus der letztendlich durchgeführten Beschränkung der Inhalte bei gleichzeitiger größtmöglicher Flexibilität gegenüber dem Lernenden ergibt sich zwangsläufig ein modularer Aufbau. Bei Lerneinheiten ohne vorgeschriebene curriculare Anforderungen bietet sich insbesondere eine Orientierung und Ausrichtung an der Teilnehmererwartung an, was die Teilnehmerzufriedenheit, wie auch in diesem Fall, steigert. Das modulare und flexible Konzept ermöglichte es, die Stofftiefe an die Vorkenntnisse und die Motivation der Teilnehmer anzupassen (Konzeption). Die Evaluation zeigt, dass v.a. die Ausrichtung auf die Teilnehmerinteressen als auch die intensive individualisierte tutorielle Betreuung zu signifikant besser bewerteten Lernerfolgen beitrug. Kompetenz und Auswahl der Tutoren Die inhaltliche und didaktische Qualifikation der Tutoren ist letztendlich ein entscheidendes Moment. Die Tutoren müssen über weitaus mehr als rudimentäres Globalisierungswissen verfügen. Kenntnisse der Standard- und Sekundärliteratur gehören ebenso zur Grundvoraussetzung wie die Bereitschaft zur kontinuierlichen Weiterbildung und zur Lektüre der aktuellen Berichterstattung. Grundsätzlich erforderlich ist eine wertneutrale Vermittlungs- 474 Christopher Stehr, Melanie Hiller bereitschaft zum Themenkomplex Globalisierung, ebenso wie Erfahrung mit den Möglichkeiten der Lernplattformen, sowie mit didaktischen Möglichkeiten des e-Learning. Der menschliche Faktor ist nicht nur auf Tutorenebene entscheidend. Insbesondere die hohe intrinsische Motivation der Teilnehmer spielt neben der Empathie und dem Engagement der Dozenten bzw. Tutoren eine zentrale Rolle (Tutorielle Begleitung). Versäumnisse in diesem Bereich machen sich sofort bemerkbar und einen Erfolg eines solchen e-Learningkurses unmöglich. Allerdings schmälern der hier beschriebene hohe Aufwand bei der Auswahl der Tutoren sowie bei der tutoriellen Begleitung die Relation Aufwand zum monetären Ertrag – aber eben nicht zum ,pädagogischen und didaktischen Wissens-Ertrag‘ (Lernerfolg). Globalisierungskompetenzen entwickeln und stärken Neben Fakten und Informationen spielt bei der Bewertung von Globalisierungsprozessen die individuelle Erfahrung und Positionierung des Lernenden eine wesentliche Rolle. So sollte der Lernende bei gleichzeitiger Ambiguitätstoleranz dennoch die Flexibilität gewinnen, Globalisierung aus anderer Sichtweise heraus zu interpretieren (zentrales Lernziel). Hierzu sind entsprechende Lernmethoden in die – sich in diesem Kurs sehr bewährt habende – Plattform Moodle (Lernplattform) integriert bzw. zu integrieren, wie z.B. Rollenspiele und gezielte Übungen mit Perspektivwechsel. Es zeigte sich bei der quantitativen Auswertung der Teilnehmeraktivität, dass die spielerischen Elemente im betreuten Forum besonders hohe Beteiligungen erzielten. Gleiches gilt für Perspektivwechsel-Tagesaufgaben. Zu Kursbeginn sind die dortigen Beteiligungen deutlich umfangreicher als bei Wissens- oder Rechercheaufgaben. Es ist daher davon auszugehen, dass diese vorwissen-unabhängigen Aufgaben die Hemmschwelle zur aktiven Beteiligung im Forum herabsetzen, was im Verlauf der weiteren Forschung untersucht werden soll. References/Literaturverzeichnis Altvater, E.; Mahnkopf, B. (2002): Grenzen der Globalisierung. 5. Aufl. Münster. Andriessen, F. (2010): Europa. In Bohr-Jankowski, K,; Jankowski, H.-D. (Hrsg.): Europa 2010 – Das Ende der Solidarität? München. S. 15–18. E-Learningkurs Globalisierung 475 Arnold, P; Mayrberger, K.; Merkt, M. (2006): E-Learning als Prozessinnovation zwischen Strategie und Didaktik- am Beispiel des Change Management Projekts „KoOP“ der Hamburger Hochschulen. In Seiler Schiedt, E.; Kälin, S.; Sengstag, C. (Hrsg.): E-Learning – alltagstaugliche Innovation? Münster. S. 27–36. Back, A.; Bendel, O.; Stoller-Schai, D. (2001): E-Learning im Unternehmen. Grundlagen – Strategien – Methoden – Technologien. Zürich. Baume, M. (2009): Computerunterstützte Planspiele für das Informationsmanagement: Realitätsnahe und praxisorientierte Ausbildung in der universitären Lehre am Beispiel der „CIO-Simulation“. Norderstedt. Baumgartner, P.; Häfele, H.; Maier-Häfele, K.(2002): E-Learning Praxishandbuch, Auswahl von Lernplattformen. Marktübersicht – Funktionen – Fachbegriffe. Innsbruck. Beck, U. (1997): Was ist Globalisierung? Frankfurt am Main. Bhagwati, J. (2004): In Defense of Globalization. Oxford. Debiel, T.; Messner, D.; Nuscheler, F. (2006): Globale Trends 2007. Bonn. Dietinger, T. (2001): GENTLE BWT. Der sanfte Einstieg in die virtuelle Hochschule. In Albrecht, R.; Wagner, E. (Hrsg.): Lehren und Lernen mit neuen Medien. Plattformen Modelle Werkzeuge. Münster, New York, München, Berlin. S. 59 bis 68. Dohmen, D.; Michel, L. P. (2003): Marktpotentiale und Geschäftsmodelle für eLearning-Angebote deutscher Hochschulen. Bielefeld. Dörr, G.; Strittmatter, P. (2002): Multimedia aus pädagogischer Sicht. In (Issing, L. J.; Klimsa, P., (Hrsg.): Information und Lernen mit Multimedia und Internet. Lehrbuch für Studium und Praxis. 3. vollständig überarbeitete Auflage. Weinheim. S. 29–44. Eichelberger, H.; Stary, C. et al (2009): Unterrichtsentwicklung via eLearning. München. Euler, D. (2002): From Connectivity to Community. Elektronische Medien als Katalysator einer Kultur des selbstorganisierten Lernens im Team. In Spoun, S.; Wunderlich, W. (Hrsg.): Medienkultur im digitalen Wandel. Prozesse, Potenziale, Perspektiven. Facetten einer Medienkultur. Bd. 2. Bern. S. 205–226. Forrester, V.(1997): Der Terror der Ökonomie. Wien. Frankfurth, A. (2010): e-Learning-Architekturmanagement. Kassel. Haak, J. (2002): Interaktivität als Kennzeichen von Multimedia und Hypermedia. In Issing, L. J.; Klimsa, P. (Hrsg.): Information und Lernen mit Multimedia und Internet. Lehrbuch für Studium und Praxis. 3. vollständig überarbeitete Auflage. Weinheim. 127–138. 476 Christopher Stehr, Melanie Hiller Hagedorn, F. (2002): Wann ist E-Learning erfolgreich? Das netzbasierte Lernen vermittelt nicht nur Kompetenzen, sondern setzt auch welche voraus. In Lehmann, B.; Bloh, E., (Hrsg.): Online-Pädagogik. Hohengehren. S. 201–207. Johannsen, A.; Böhmer, T.; Krcmar, H. (2001): In Hesse, F. W.; Friedrich, H. F. (Hrsg.): Partizipation und Interaktion im virtuellen Seminar. Münster. S. 217 bis 242. Krause, S. (2004): Situiertes Lernen in virtuellen Realitäten – die Didaktik der neuen Medien?. In Rinn, U.; Meister, D. M. (Hrsg.): Didaktik und neue Medien. Konzepte und Anwendungen in der Hochschule. Münster. S. 197–208. Kubler, H.-D. (2008): Mythos Wissensgesellschaft: Gesellschaftlicher Wandel zwischen Information, Medien und Wissen. Eine Einführung. Wiesbaden. Lehmann, B. (2002): Konzeption von und Erfahrung mit netzbasiertem Lehren und Lernen. In: Lehmann B.; Bloh E. (Hrsg.): Online-Pädagogik. Hohengehren. S. 323–340. Leidhold, W. (2001): ILIAS. Entwicklung des Integrierten Lern-, Informations- und ArbeitskooperationsSystems ILIAS – Konzeption und Einsatz. In Albrecht, R.; Wagner, E. (Hrsg.): Lehren und Lernen mit neuen Medien. Plattformen Modelle Werkzeuge. Münster, New York, München, Berlin. S. 27–44. Mair, D. (2005): E-Learning – Das Drehbuch. Handbuch für Medienautoren und Projektleiter. Berlin. Mandl, H.; Gruber, H.; Renkl, A. (2002): Situiertes Lernen in multimedialen Lernumgebungen. In Issing, L. J.; Klimsa, P. (Hrsg.): Information und Lernen mit Multimedia und Internet. Lehrbuch für Studium und Praxis. 3. vollständig überarbeitete Auflage. Weinheim. S. 139–150. Martin, H-P; Schumann, H. (1998): Die Globalisierungsfalle. Der Angriff auf Demokratie und Wohlstand. Reinbeck bei Hamburg. Meister, D.; Tergan, S.-O.; Zentel, P. (2004): Evaluation von eLearning – eine Einführung. In Meister, D.; Tergan, S.-O.; Zentel, P. (Hrsg.): Evaluation von E-Learning: Zielrichtungen, methodologische Aspekte, Zukunftsperspektiven. Münster. S. 7–22. Messner, D. (2009): E-Learning – Vom Nutzen ohne direkten Nutzen: E-Medienkompetenz als Kulturtechnik, In Dittler, U. et al. (Hrsg.): E-Learning: Eine Zwischenbilanz: Kritischer Rückblick als Basis eines Aufbruchs. Münster. S. 233 bis 243. Moser, H. (2010): Einführung in die Medienpädagogik: Aufwachsen im Medienzeitalter. Wiesbaden. Müller, A (2003): Netzgestützte Seminare in der Politikwissenschaft. In Kandzia, P.-T.; Ottmann, T. (Hrsg.): E-Learning für die Hochschule. Erfolgreiche Ansätze für ein flexibles Studium. Münster. S. 201–220. E-Learningkurs Globalisierung 477 Niegemann, H; et al. (2009): Kompendium multimediales Lernen. Berlin. OECD (2003): Bildungspolitische Analyse 2002. Paris. Reß, L. (2003): Live-Online-Lehren. Methoden und Übungen für das virtuelle Seminar. Friedberg. Risku, H.; Peschel, M. (2010): Kognition und Technologie im kooperativen Lernen: Vom Wissenstransfer zur Knowledge Creation. Göttingen. Ritter, M; Zeitler, K. (2000): Armut durch Globalisierung – Reichtum durch Regionalisierung. Graz. Safranski, R. (2003): Wieviel Globalisierung verträgt der Mensch. München. Speck, P. (2009): Employability – Herausforderungen für die strategische Personalentwicklung: Konzepte für eine flexible, innovationsorientierte Arbeitswelt von morgen. Wiesbaden. Stehr, C. (2003a): Ist Globalisierung messbar? In Beschorner, D.; Stehr, C. (Hrsg.): Globalisierung – Chancen und Risiken. Ulm. Stehr, C. (2003b): Globalisierung und Destabilisierungstendenzen innerhalb des Internationalen Systems: eine Indikatorenanalyse für ausgewählte Nationalstaaten. Berlin. Stehr, C. (2005): Brasilien im Zeitalter der Neuen Globalisierung. Eine Indikatorenuntersuchung zur Feststellung des Globalisierungsgrades von Brasilien. In Stehr, C. (Hrsg.): Brasilien und Globalisierung – Handlungsspielräume aktueller brasilianischer Wirtschaftspolitik. Aus der Reihe: Globalisierung – Chancen und Risiken. Ulm. S.203–249. Teusch, U. (2004): Was ist Globalisierung? Ein Überblick. Darmstadt. Varwick, J. (2002): Globalisierung. In Woyke, W. (Hrsg.): Handwörterbuch Internationale Politik. Bonn. S. 136–147. Wedekind, J. (2001): Transfer von Medienkompetenz. In Hesse, F. W.; Friedrich, H. F. (Hrsg.): Partizipation und Interaktion im virtuellen Seminar. Münster. S. 191 bis 208. Weißeno, G. (2008): Politikkompetenz: Was Unterricht zu leisten hat. Wiesbaden. Welge, M. K.; Holtbrügge, D. (2001): Internationales Management. 2. Aufl. Landsberg/Lech. Zürn, M. (1998): Regieren jenseits des Nationalstaats. Frankfurt a.M. 478 M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff Social-Media-Marketing im Hochschulbereich Manuel Burghardt, Markus Heckner, Tim Schneidermeier, Christian Wolff Lehrstuhl für Medieninformatik Institut für Information und Medien, Sprache und Kultur Universität Regensburg, 93040 Regensburg E-Mail: [email protected] Zusammenfassung Ziel dieser Studie ist es, Strategien und Werkzeuge des Social-Media-Marketing für den Bereich der Hochschulen vorzustellen und zu diskutieren. Dabei wird insbesondere auf relevante Zielgruppen und Marketingziele eingegangen. Aktuelle Social Media-Marketingbestrebungen des 2010 neu eingeführten Studiengangs „Medieninformatik“ der Universität Regensburg werden anhand einer Feldstudie diskutiert. Abstract This paper presents social media marketing strategies and methods for the academic area regarding specific target groups and marketing goals. Current social media marketing activities for promoting the newly established chair of media informatics at the University of Regensburg are discussed by analyzing a corresponding field study. 1 Einleitung Facebook und YouTube liegen im Ranking der meistbesuchten Websites weltweit unmittelbar hinter Spitzenreiter Google, die Plattformen Blogger und Twitter folgen dicht danach [vgl. Alexa Internet 2010]. Im Kontext dieser Social Web-Dienste hat sich Social Media-Marketing entwickelt, um die Besonderheiten der Social Media-Plattformen zur Bewerbung von Produkten Social-Media-Marketing im Hochschulbereich 479 und Marken zu nutzen. Aktuelle Studien des Fraunhofer-Instituts für Angewandte Informationstechnik und des Deutschen Instituts für Marketing bestätigen die steigende Verbreitung und Relevanz von Social Media-Marketing in der Geschäftswelt. Über die optimale Nutzung sozialer Medien für wirtschaftliche Zwecke gibt es bereits umfangreiche Literatur [vgl. Brown 2009, Dunay & Krueger 2010, Hettler 2010, Hünnekens 2010, Li & Bernoff 2009, Scott 2010, Tuten 2008 u.v.m]. Obwohl Reformen von Lehre und Studium und der zunehmende Wettbewerb um die klügsten Köpfe von den Hochschulen Profilbildung verlangen [vgl. Lehmkuhl 2008], werden die Möglichkeiten von Social Media-Marketing im Hochschulbereich noch kaum erkannt oder in Unkenntnis der Anforderungen an eine Social Media-Strategie eher halbherzig betrieben.1 Erste Empfehlungen zur Nutzung von Web 2.0-Kommunikationsinstrumenten für das Hochschulmarketing finden sich in Olbrich und Albrecht [2009]. Vor dem Hintergrund der Social Media-Strategie für den 2010 neu geschaffenen Studiengang Medieninformatik an der Universität Regensburg sollen Möglichkeiten der sozialen Onlinemedien für den Hochschulbereich aufgezeigt werden und eine Diskussion der bisherigen Social Media-Strategie der Regensburger Medieninformatik erfolgen. 2 Was ist Social Media? Ein wesentliches Merkmal des Web 2.0 ist die Verfügbarkeit zahlreicher Dienste und Plattformen zum sozialen Identitäts- und Beziehungsmanagement, die sich als Social Web zusammenfassen lassen. Social Web bedeutet eine Fokussierung auf den Nutzer und die Unterstützung und Beförderung der Interaktion zwischen Nutzern über das WWW. Zu diesen Interaktionen zählen der gegenseitige Austausch von Information, das Herstellen und Pflegen von sozialen Kontakten und die Kommunikation mit anderen Mitmenschen [Ebersbach et al. 2008, S. 29]. Zu den bekanntesten Ausprägungen von Social Media gehören neben Blogs, Wikis und Foren soziale Netzwerke wie Facebook und MySpace, multimediale Social Tagging-Plattformen wie YouTube und Flickr sowie seit wenigen Jahren auch Microblogging-Dienste wie 1 Vgl. entsprechende Diskussionen der Mailingliste “http://www.bundesverband- hochschulkommunikation.de/” 480 M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff Twitter. Social Media-Marketing ist der Versuch von Unternehmen und Organisationen, über entsprechende Plattformen Teil dieser User-Interaktion zu werden und Aufmerksamkeit für eine Marke oder ein Produkt zu erzeugen, denn durch Social Media wird „Mundpropaganda schnell zu Weltpropaganda“ [vgl. Qualmann 2010, S. 19ff]. 3 Welche sozialen Medien für welchen Zweck? Das Marketing mithilfe von Social Media kann von der Akquise neuer Kunden und zur Erhöhung der Besucherzahl einer Webseite über die Etablierung oder Bewerbung eines Produkts bis hin zur Produktentwicklung durch die Community unterschiedlichste Zielsetzungen verfolgen. Dabei eignen sich verschiedene soziale Medien für die Erreichung spezifischer Ziele unterschiedlich gut, wie die nachfolgende knappe Merkmalsübersicht deutlich machen soll [vgl. Ebersbach 2008, S. 33ff, Weinberg 2010, S. 4ff]. • Blogs | Blogs eignen sich in ihrer Eigenschaft als digitales „Tagebuch“ sehr gut dazu, z.B. den Fortschritt eines Projekts oder die Entwicklung einer bestimmten Kampagne zu kommunizieren. • Microblogs | Seit 2006 ist der bekannteste Microblogging-Dienst Twitter online. In Analogie zur SMS stehen maximal 140 Zeichen für eine Nachricht zur Verfügung. Mit Microblogs lassen sich hochfrequente, rasche Entwicklungsschritte oder Ereignisse kommunizieren. Die Interaktion unter den Nutzern findet über das Beantworten oder Weiterleiten sogenannter Tweets, oder auch über das Senden von Direktnachrichten an einen einzelnen User statt. • Foren/Newsgroups | Foren widmen sich üblicherweise bestimmten Themen. Die von Nutzern verfassten Diskussionsbeiträge können von jedem beantwortet und kommentiert werden. Daher werden sie vor allem für Informations- und Meinungsaustausch und die Diskussion genutzt. • Soziale Netzwerke | Soziale Netzwerke eignen sich zum Aufbau von Kundennetzwerken und für die Initiierung von viralen Marketingkampagnen. Im Vordergrund dieser Plattformen steht das Knüpfen und Verwalten von Kontakten, die einen Social Graph bilden. Häufig integrieren Social Networks zusätzliche Social Media-Dienste wie z.B. Microblogging und Tagging. Bei der Wahl eines sozialen Netzwerks gilt es, die je- Social-Media-Marketing im Hochschulbereich • • 4 481 weilige Community vorher genau zu analysieren, da sie häufig eine bestimmte Zielgruppe repräsentiert. Social Tagging | Social Tagging ermöglicht es Nutzern, Webseiten oder Dokumente mit Schlagwörtern (Tags) oder einer persönlichen Wertung zu versehen. Getaggte Inhalte werden andern Usern zur Verfügung gestellt und können zu komplexen Taxonomien (Folksonomies) erweitert werden. Ebenso wie ein gutes Ranking bei linkbasierten Suchmaschinen ist im Kontext der Social Search auch eine gute Sichtbarkeit in Folksonomies anzustreben. Media-Sharing | (Multimediale) Inhalte werden mit anderen Nutzern geteilt und können ebenso mit Schlagworten (Tags) versehen werden. Die Reichweite von Diensten wie Flickr und YouTube ist prädestiniert für das Social Media-Marketing. Einige Werbespots werden mittlerweile exklusiv über solche Plattformen vertrieben, da sie hier keinen weiteren Einschränkungen wie etwa Zeitlimits unterliegen [vgl. Puma 2010]. Allgemeine Anforderungen an eine Social Media-Strategie Angesichts der Heterogenität der Social Media-Dienste ist die Zielsetzung für den Einsatz von Social Media als Kommunikations- und Marketinginstrument zu präzisieren [vgl. Biederlack et al. 2009, S. 2]: • Aufbau eines eigenen Netzwerks • Präsentieren und Bereitstellen eigener (multimedialer) Inhalte • Kommunikation und Feedback Häufig überschneiden sich diese Anwendungsbereiche: So ist die Kommunikation aktueller Ereignisse erst dann sinnvoll, wenn bereits ein Netzwerk aufgebaut wurde. Viele Social Media-Dienste wie z.B. Facebook zielen bewusst darauf ab, verschiedene Anwendungsbereiche auf einer integrierten Plattform anzubieten. Aus Social Media-Marketing-Sicht stellt sich die Frage, ob eine parallele bzw. redundante Nutzung von Social Media-Angeboten ein akzeptables Kosten-Nutzen-Verhältnis aufweist. In vielen Fällen ist es jedoch möglich, verschiedene Plattformen zu koppeln, sodass beispielsweise eine Statusmeldung in Facebook automatisch auch auf einem entsprechenden 482 M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff Twitter-Channel publiziert wird [vgl. Twittermash 2010]. Für den Betrieb einer Social Media-Präsenz ist zu beachten, dass Kommunikation in den sozialen Medien nicht steuerbar ist, weil alle Nutzer im Netzwerk potenzielle Sender sind und durch Feedback oder Kommentare die Kommunikationsziele beeinflussen oder grundlegend verändern können: „Das unkontrollierbare Eigenleben der Nutzer kann eine Kampagne unterstützen, aber auch binnen kürzester Zeit das gewünschte Ergebnis ad absurdum führen“ [Postel et al. 2010, S. 2]. Das illustriert auch ein Worst Case-Beispiel aus der jüngeren Vergangenheit des Lebensmittelriesen Nestlé, in dem eine Social MediaKampagne spektakulär scheiterte und die Facebook-Fanpage in kürzester Zeit zu einem „virtuellen Kriegsschauplatz“ wurde [vgl. Imke 2010, Hutter 2010]. Bei der strategischen Planung ist zu berücksichtigen, dass die Präsenz auf einer Social Media-Plattform über den anfänglichen Erstellungsaufwand hinaus ständiger Pflege und Wartung bedarf: Inhalte müssen redaktionell erstellt und aktualisiert werden, Benutzeranfragen in angemessener Zeit bearbeitet, Kontakte gepflegt und implizites Feedback in Form von Kommentaren ausgewertet werden [vgl. Biederlack et al. 2009, S. 3]. 5 Social Media für das Hochschulmarketing Was im angloamerikanischen Raum aufgrund anderer sozioökonomischer Rahmenbedingungen der Finanzierung des Hochschulwesens schon lange praktiziert wird, gewinnt auch an deutschen Hochschulen an Bedeutung: Von Corporate Design-Bestrebungen bis hin zu Fan-Artikeln für Studierende versuchen Hochschulen verstärkt, sich als Marke zu etablieren [vgl. Heimann 2009]. Dass die Bedeutung der sozialen Onlinemedien für diese Profilierungsversuchen zunimmt, kann auf drei Ebenen beobachtet werden: • Universitätsübergreifend z.B. Hochschulinitiative Neue Bundesländer2, • auf Universitätsebene: z.B. RWTH Aachen [vgl. Aperto 2010] oder • auf Studiengangsebene: z.B. Medieninformatik Regensburg (s. u.). Die nachfolgende Tabelle zeigt, wie Marketingziele im Hochschulbereich mit Social Media-Diensten zielgruppenspezifisch umgesetzt werden können. 2 http://www.hochschulinitiative.de/ Social-Media-Marketing im Hochschulbereich 483 Tabelle 1: Marketingziele und deren Umsetzung mithilfe von Social-Media-Diensten. Aufbau eines Netzwerks Studieninteressierte schülerVZ, Facebook Studierende studiVZ, Facebook Alumni Allgemeine Außendarstellung XING, LinkedIn, Facebook Facebook Präsentation von Inhalten YouTube, Flickr, iTunes U YouTube, Flickr, iTunes U YouTube, Flickr YouTube, Flickr, iTunes U Kommunikation Blog, (Twitter), Facebook Blog, Twitter, Facebook, Forum Blog, Facebook Blog, Facebook Vor allem beim Netzwerkaufbau zeigen sich zielgruppenspezifische Unterschiede, die auf den jeweils speziell zugeschnittenen Angeboten basieren. Für die Präsentation und Distribution von Inhalten bieten sich grundsätzlich alle drei genannten Plattformen an. Vorlesungen oder Screencasts, die über iTunes U vertrieben werden, können vor allem den Studieninteressierten als Orientierung und den Studierenden als Unterstützung dienen. Die wichtigste Funktion von Social Media, die Kommunikation, kann durch die Verwendung von Blogs oder Facebook erfüllt werden. Wegen ihrer kurzen Mitteilungen bieten sich für Studierende zudem Microblogs an. Studieninteressierten im Entscheidungsfindungsprozess kann Twitter ebenfalls als Quelle dienen. Als Diskussionsplattform für Studenten kann auf ein zugangsbeschränktes Forum zurückgegriffen werden. Facebook läßt sich wegen seiner Marktdurchdringung und aufgrund der Möglichkeit andere Diensten wie Twitter oder YouTube zu integrieren für beinahe alle Bereiche nutzen. 6 Fallstudie: Social Media-Marketing für den Studiengang Medieninformatik an der Uni Regensburg Der Studiengang Medieninformatik ist zum Wintersemester 2010/11 erstmalig eingeführt worden. Neben bewährten „traditionellen“ Kommunikati- 484 M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff onsmitteln wie Flyern und Informationsveranstaltungen wird dabei insbesondere auf den Einsatz sozialer Medien für das Marketing gesetzt. 6.1 Social Media-Konzept In einem ersten Schritt werden die zu erreichenden Ziele und die zu adressierende Zielgruppe erarbeitet. Das primäre Ziel ist, den neuen Studiengang publik zu machen, einen möglichst hohen Bekanntheitsgrad unter Studieninteressierten zu erlangen und diese als Studierende zu gewinnen. Neben den Charakteristika der Regensburger Medieninformatik gegenüber anderen Standorten3 und Studieninhalten, sollen auch außercurriculare Aktivitäten und die Vorzüge der Stadt kommuniziert werden. Dies dient primär der externen Kommunikation im Gegensatz etwa zur lehrstuhl- oder institutsinternen Kommunikation, die keine marketingrelevante Zielsetzung hat. Für die Regensburger Medieninformatik als neu geschaffenen Studiengang ist die Zielgruppe der Studieninteressierten besonders relevant. Mit einem durchschnittlichen Alter von 21,9 Jahren im ersten Hochschulsemester4 kann diese den sogenannten Digital Natives [vgl. Prensky 2001] zugerechnet werden [vgl. Statistisches Bundesamt Deutschland 2010]. Aktuellen Studien zufolge ist die Gesamtheit aller 14- bis 19-Jährigen (100%) und 98,4% der 20- bis 29-Jährigen Deutschen online. Während die Kommunikation über Foren oder Newsgroups an Bedeutung verliert, gewinnen soziale Netzwerke in den letzten Jahren deutlich an Akzeptanz. Knapp 80% der 14bis 29-Jährigen nutzen regelmäßig soziale Netzwerke und beinahe die Hälfte der deutschen Internetnutzer besitzen ein eigenes Profil in einer privaten oder beruflichen Community.5 Sieht man vom Alter ab, wirkt diese strikte Unterteilung in berufliche und private Kontakte überholt. Auch private Netzwerke ermöglichen neuerdings die Abgrenzung von Informationsinhalten für spezifische Gruppen von Freunden6 [vgl. van Eimeren & Frees 2010]. Ferner konnte der als rein privates Netzwerk gestartete Branchenprimus Facebook 3 Insbesondere die Ansiedelung an einer geistes- und kulturwissenschaftlichen Fakultät und die personelle, inhaltliche und historische Nähe zur Informationswissenschaft. 4 WS 2007/08 und 2008/09. 5 nur 7% bei beruflichen Netzwerken [vgl. Eimeren & Frees 2010] 6 Facebook erlaubt dem Nutzer die Gesamtheit seiner Kontakte in Gruppen mit unterschiedlichen Rechen zu unterteilen. Social-Media-Marketing im Hochschulbereich 485 mit 6,9 Millionen Benutzern in Deutschland seine Mitglieder im vergangenen Jahr beinahe verdoppeln Den größten Anstieg im Bereich der sozialen Medien in Deutschland kann der Microblogging-Dienst Twitter für sich verzeichnen. Das Media Sharing-Portal YouTube stellt mit 13 Millionen Besuchern sowohl Facebook als auch Twitter in den Schatten [vgl. Nielsen Media Research GmbH 2010]. Das Social Media-Marketing der Medieninformatik Regensburg konzentriert sich daher auf diese Plattformen. Gestützt wird diese Entscheidung durch die Integrations- bzw. Synchronisierungsfähigkeit von Facebook und Twitter. Beide Plattformen können so ohne Mehraufwand gepflegt werden. Die Möglichkeit, auf YouTube gehostete Videos zusätzlich auf Facebook einzubinden, unterstützt diesen Workflow zusätzlich. Alle Mitarbeiter der Medieninformatik erhalten die Zugangsdaten, um aktiv am Social Media-Marketing mitwirken zu können. Als interne Maßgabe wird ein mindestens einwöchentlicher Veröffentlichungszyklus definiert, wobei der Fokus auf Qualität und nicht auf der Quantität der Posts liegen soll. Aufgrund des geringen Zeitaufwands hat sich Twitter bereits nach einer kurzen Zeitspanne als passendes Medium für kurze Mitteilungen durchgesetzt. 6.2 Studie zur Überprüfung des Erfolgs des Social Media-Konzepts Mit einem Fragebogen wurde zum Start des WS 2010/2011 überprüft, ob die Annahmen über den Wirkungsgrad des Social Media-Marketings und den zugrunde gelegten Studien verifiziert werden können. Da die Befragung in der ersten Sitzung der Einführungsveranstaltung stattfand, wurde erhoben, welche Social Media-Angebote die Studenten vor Beginn ihres Studiums genutzt haben um sich über den Studiengang zu informieren. Informationen über diese Angebote sind nur auf der Homepage der Medieninformatik vorhanden. Eine gezielte Heranführung an das Thema in Kursen und Seminaren fand nicht statt. Alle Erstsemester wurden gebeten, den dafür entworfenen Fragebogen, der neben demografischen Angaben und Fragen zum Studiengang und dem Onlineverhalten insbesondere das Nutzungsverhalten in Hinblick auf soziale Medien erfasst, auszufüllen. Der Fragebogen wurde mit der Evaluationssoftware EvaSys entworfen und erfasst7. Die Auswertung der 7 http://www.electricpaper.de 486 M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff quantitativen Daten erfolgte zusätzlich mit dem Statistikpaket SPSS8. Von den 118 befragten Studenten sind 66 männlich und 52 weiblich. Der Altersdurchschnitt liegt bei 20,86 Jahren, wobei 18 die kleinste und 30 die größte Ausprägung ist. Bis auf eine Ausnahme kommen alle Studenten aus Bayern und haben je zur Hälfte einen eher ländlichen (Einwohnerzahl < 10.000) bzw. städtischen Hintergrund (Einwohnerzahl > 10.000). 6.3 Ergebnisse Auf die Frage wie sie auf den Studiengang aufmerksam wurden, geben 0,8% der Studierenden Facebook, 2,5% die Fachstudienberatung, 7,6% die Presse, je 9,2% die zentrale Studienberatung und die Informationsveranstaltung am Regensburger Hochschultag, 14,3% den Studiengangsflyer und mit 75,6% die absolute Mehrheit die Webseite der Medieninformatik Regensburg an. Entscheidend für die Studiengangwahl war für 84% der Befragten das Interesse am Fach. Knapp 80% verbringen zwischen zwei und acht Stunden täglich online, ein Zehntel weniger als zwei und 11,4% mehr als acht Stunden. Bei möglichen Mehrfachnennungen führen Dreiviertel der Befragten einen Laptop, etwas mehr als die Hälfte einen Desktoprechner und 41,2% ein Smartphone auf. Netbooks (9,2%) und Tablets (3,4%) haben keine weite Verbreitung. Den Kern der Evaluation bilden die Fragen über die Gewohnheiten und Verhaltensweisen im Social Web.9 Die Plattformen LinkedIn, XING, MySpace und Flickr sowie das Pflegen eines eigenen Blogs werden von weniger als 10% wahrgenommen. 21 der 118 Befragten (17,6%) haben einen Account beim Microblogging-Dienst Twitter, 27 beim sozialen Netzwerk Lokalisten (22,7%) und 79 bei einem der VZ-Dienste (66,4%). Die Media SharingPlattform YouTube wird von 79% der Studenten genutzt, noch überboten durch 89,1% Facebook-Usern. Die mobilen Nutzungsstatistiken10 weichen am stärksten im Hinblick auf die Nutzung der VZ-Dienste (19,6%), YouTube (45,1%) und der Plattform Lokalisten (4%) ab. Twitter und Facebook werden 88 http://www.spss.com/de/ 99 Bei Angaben zur Nutzung von Social Media und zu Kenntnis und Nutzung der Angebote der Regensburger Medieninformatik sind Mehrfachnennungen erlaubt. 10 Nutzung auf dem Smartphone; 41,2% aller Befragten besitzen ein Smartphone und dienen als Grundlage für diese Frage. Social-Media-Marketing im Hochschulbereich 487 mobil von 9,8% beziehungsweise 82,4% genutzt. Über diese rein deskriptiven Statistiken hinaus sind insbesondere Korrelationen verschiedener Parameter interessant. Für die Feststellung potenzieller Zusammenhänge von Variablen bzw. deren Unabhängigkeit wird ein Chi-Quadrat-Test eingesetzt. Als Wert wird die zweiseitige asymptotische Signifikanz angegeben.11 90 80 70 60 50 40 30 20 10 0 Kenntnis Nutzung Facebook Twitter Youtube Abbildung 1: Kenntnis/Nutzung der aktiven Plattform-Nutzer der Medieninformatik-Angebote • • Werden Social Media-Dienste häufiger genutzt, wenn zusätzlich zu einem Computer ein Smartphone vorhanden ist? 22,44% der Smartphone-Nutzer und 14,29% der Befragten ohne ein eigenes Smartphone verwenden Twitter (p=0,252). Vier von elf nutzen den Microblog auch mobil. Facebook wird von 95,92% aller Smartphonenutzer regelmäßig aufgesucht. 83% davon nutzen den Dienst auch unterwegs. Die Nutzungsausprägung bei Befragten ohne Smartphone liegt bei 84,29% (p=0,450). Auch bei YouTube mit 77,6% bzw. 80% kann kein signifikanter Unterschied festgestellt werden (p=0,747). Gibt es geschlechtsspezifische Unterschiede der Social Media-Nutzung? Mit 90,38% der weiblichen und der 87,88% männlichen Medieninformatiker gibt es bei der Nutzung von Facebook keinen signifikanten Unterschied (p=0,666); auch bei Twitter mit 17,31% bzw. 18,18% (p=0,902) und YouTube (78,8% bzw. 80,3%; p=0,845) verhält es sich ähnlich. 11 Der Fokus liegt hier bei den Ergebnissen zu den Diensten Facebook, Twitter und Youtube, da diese auch von der Medieninformatik genutzt werden. 488 • 7 M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff Wie viele der aktiven Nutzer von Facebook, Twitter und YouTube kennen und nutzen die Angebote der Medieninformatik Regensburg? 82 der 106 Facebook-User kennen die Webpräsenz der Medieninformatik, wovon 75,61% auch angeben sie zu nutzen. Der Account MedienInfRgb auf Twitter ist 18 von 21 Twitter-Nutzern geläufig, 14 folgen den Tweets. Die Media Sharing-Plattform YouTube besuchen insgesamt 79% der Befragten. Mehr als der Hälfte davon (52,1%) ist der Kanal der Medieninformatik bekannt. Genutzt wird er von 69,39%. Diskussion und Ausblick Die Tatsache, dass über 75% aller Studienanfänger über die Webseite der Regensburger Medieninformatik auf den Studiengang aufmerksam wurden, zeigt einen deutlichen Trend hin zur Online-Recherche bei der Studiengangswahl. Während damit klar sein dürfte, dass Online-Medien im Sinne des „Web 1.0“ eine entscheidende Rolle für die Außenkommunikation spielen, dürfte die Bedeutung sozialer Medien in Zukunft noch weiter wachsen. Auffällig ist, dass über die Kanäle der sozialen Medien bislang nur etwa 1% der Studienanfänger auf den neuen Studiengang aufmerksam wurde. Berücksichtigt man allerdings, dass Social Media-Marketing vor allem auf virale Effekte und Mundpropaganda innerhalb sozialer Netzwerke setzt, so ist die geringe Wahrnehmung des gerade neu eingeführten Studiengangs nicht weiter verwunderlich. Die hohen Nutzungszahlen der sozialen Medien durch die Studierenden allgemein bestätigen jedoch die Bedeutung der eingeschlagenen Social Media-Strategie. Zur Überwachung und Optimierung der Social Media-Strategie sind für die Zukunft auch weiterhin Befragungen geplant. Zudem konnten durch diese Befragung Charakteristika der Zielgruppe identifiziert werden, die für eine künftige Optimierung der Marketingstrategie, z.B. in Form einer Anpassung für den Bereich Mobile Devices, genutzt werden können. Grundsätzlich ist bei allen Erweiterungen des Social Media-Repertoires auf die Wartbarkeit und Integrierbarkeit der Dienste zu achten. Hier bieten sich Plattformen wie iTunes U an, die als Zweit- oder Drittverwerter von Inhalten angedacht sind. Die starke Präsenz der Zielgruppe im sozialen Netzwerk Facebook erübrigt zumindest zunächst ein zusätzliches Profil auf rein beruflichen Plattformen wie XING oder LinkedIn. Social-Media-Marketing im Hochschulbereich 489 Literaturverzeichnis Alexa Internet (2010). Top Sites. http:www.alexa.com, letzter Zugriff am 07.11.2010 Aperto (2010). Exzellenz im Hochschulmarketing: Aperto modernisiert RWTH Aachen im Web. http://www.aperto.de/start/presse/pressemitteilungen-2010/Aperto-modernisiertRWTH.html, letzter Zugriff am 27.10.2010 Biederlack, C. (2009). Sicherer Einstieg in soziale Netzwerke. 10 Tipps, die Nutzer beachten sollten. Social Media Fachgruppe im BVDW. http://www.bvdw.org/mybvdw/media/download/bvdw-sm-leifaden-sicherereinstieg.pdf?file=1273, letzter Zugriff am 18.9.2010 Brown, R. (2009). Public relations and the social web. How to use social media and Web 2.0 in communications. London: Kogan Page. Dunay, P. & Krueger, R. (2009). Facebook Marketing for Dummies. Hoboken: Wiley Publishing. Ebersbach, A., Glaser, M. & Heigl, R. (2008). Social Web. Konstanz: UKV. Hettler, U. (2010). Social Media-Marketing. Marketing mit Blogs, sozialen Netzwerken und weiteren Anwendungen des Web 2.0. München: Oldenbourg. Heimann, A. (2009). Die Uni als Marke. Studenten werden zu Fans der eigenen Universität. http://www.welt.de/lifestyle/article4229837/Studenten-werden-zu-Fans-der-eigenenUniversitaet.html, letzter Zugriff am 01.11.2010 Hochschulinitiative Neue Bundesländer (2010). http://www.hochschulinitiative.de/, letzter Zugriff am 02.11.2010 Hutter, T. (2010). Blogpost am 21.3.2010. Blog zu Social Media. „Facebook: wenn Fanpages zum Kriegsschauplatz werden.“ http://www.thomashutter.com/index.php/2010/03/facebook-wenn-fanpageskriegsschauplatz-werden/, letzter Zugriff am 22.10.2010 Hünnekens, W. (2010). Die Ich-Sender. Das Social Media-Prinzip: Twitter, Facebook & Communities erfolgreich einsetzen. 2. Aufl. Göttingen: Business-Village. Imke, H. (2010). Nestlé: Social Media Desaster. Oder: Wenn Werbung plötzlich ins Gegenteil umschlägt. http://www.beyond-print.de/2010/03/21/nestle-social-media-desaster-2/, letzter Zugriff am 22.10.2010 Lehmkuhl, U. (2008). Begrüßung. In: K. Siebenhaar (Hrsg.). Unternehmen Universität. Wissenschaft und Wirtschaft im Dialog. Wiesbaden: VS Verlag für Sozialwissenschaften. Li, C. (2009). Marketing in the Groundswell. Boston: Harvard Business Press. 490 M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff Nelles, D. (2009). Der Blick in die Social Media Kristallkugel – Was passiert 2010. http://digital-conversation.de/2009/12/08/der-blick-in-die-social-media-kristallkugelwas-passiert-2010/, letzter Zugriff am 26.10.2010 Nielsen Media Research GmbH (2010). Facebook, Youtube und Wikipedia sind die beliebtesten Social Media Seiten in Europa und den USA. http://de.nielsen.com/news/NielsenPressemeldung02.02.2010SocialMediaSites.shtml, letzter Zugriff am 06.11.2010 Olbrich, R. & Albrecht, P. (2009). Hochschulmarketing – Aufgabenfelder und Institutionalisierung im Zeitalter des Medienbruchs. (18) Hagen: Berichte aus dem Lehrstuhl für Betriebswirtschaftslehre, insb. Marketing. http://www.fernuni-hagen.de/marketing/download/forschungsberichte/fb18_web.pdf, letzter Zugriff am 07.11.2010 Postel, Matthias et al. (2010). BVDW Leitfaden „Messbarer Erfolg im Social Media Marketing – 10 Tipps für den Einstieg“. Social Media Fachgruppe im BVDW. http://www.bvdw.org/mybvdw/media/download/bvdw-sm-leifaden-smmarketing.pdf?file=1438, letzter Zugriff am 18.9.2010 Prensky, M. (2001). Digital natives, digital immigrants. On the Horizon, 9(5), 1–2. http://www.marcprensky.com/writing/Prensky%20-%20Digital%20Natives,%20Digital%20Immigrants%20-%20Part1.pdf, letzter Zugriff am 11.10.2010 Puma (2010). Puma Youtube-Channel. www.pumahardchorus.com, letzter Zugriff am 01. November 2010 Qualman, E. (2010): Socialnomics. Wie Social Media Wirtschaft und Gesellschaft verändern. 1. Aufl. Heidelberg: mitp (IT-fachportal.de). Schmidt, H. (2010). Deutschland klettert auf Rang 3 der Social Media Weltrangliste. http://faz-community.faz.net/blogs/netzkonom/archive/2010/08/30/deutschland-aufrang-3-der-social-media-weltrangliste.aspx , letzter Zugriff am 30.10.2010 Scott, David Meerman (2010): Die neuen Marketing- und PR-Regeln im Web 2.0. Heidelberg: mitp. Tuten, Tracy L. (2008): Advertising 2.0: Social Media Marketing in a Web 2.0 world. Westport: Praeger. Statisches Bundesamt Deutschland (2010). Studienanfänger/-innen. http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Content/Statisti ken/BildungForschungKultur/Hochschulen/Tabellen/Content50/StudierendeErstesHS Bundeslaender,templateId=renderPrint.psml, letzter Zugriff am 26.10.2010 Twittersmash (2010). Blogpost, am 26.3.2010. Twitter mit Facebook verbinden. http://twittersmash.com/facebook-mit-twitter-verbinden, letzter Zugriff am 17.10.2010 van Eimeren, B. & Frees, B. (2010). Fast 50 Millionen Deutsche online – Multimedia für alle? Ergebnisse der ARD/ZDF-Onlinestudie 2010. Social-Media-Marketing im Hochschulbereich 491 http://www.ard-zdf-onlinestudie.de/fileadmin/Online10/07-082010_van_Eimeren.pdf, letzter Zugriff am 02.11.2010 Weinberg, T. & Heymann-Reder, D. & Lange, C. (2010): Social Media Marketing. Strategien für Twitter, Facebook & Co. Beijing: O’Reilly. 492 M. Burghardt, M. Heckner, T. Schneidermeier, C. Wolff Social-Media-Marketing im Hochschulbereich Posterpräsentationen 493 494 Peter Böhm, Marc Rittberger Nutzungsanalyse des Deutschen Bildungsservers und Konzeption eines Personalisierungsangebots Peter Böhm, Marc Rittberger Deutsches Institut für Internationale Pädagogische Forschung Schloßstraße 29, 60486 Frankfurt am Main {boehm | rittberger}@dipf.de Zusammenfassung Das Poster beschreibt Ergebnisse einer Nutzungsanalyse des Deutschen Bildungsservers und einer Onlineumfrage im Hinblick auf eine Neuentwicklung des Personalisierungsangebots. Abstract The poster shows results of a usage analysis of the German Education Server and of an online survey regarding the redevelopment of its personalization feature. Nutzungsanalyse Unter Verwendung der mittels der quelloffenen Webanalysesoftware Piwik vom 01.07. bis 30.11.2009 beim Deutschen Bildungsserver (DBS) erhobenen Daten sollte der Frage nachgegangen werden, ob sich Unterschiede in der DBS-Nutzung hinsichtlich der drei Einstiegsarten Direkteinstieg, Suchmaschineneinstieg und Einstieg über eine Verweisseite feststellen lassen. 19,9% der Sitzungen entfallen auf Direkteinstiege, 68,7% auf Suchmaschineneinstiege und 11,4% auf Einstiege über sonstige Verweisseiten. Die durchschnittliche Anzahl von Aktionen je Sitzung unterscheidet sich kaum nach Einstiegsart. Bei Direkt- und bei Suchmaschineneinstiegen finden im Nutzungsanalyse des Deutschen Bildungsservers und Konzeption ... 495 Schnitt 3,4 Aktionen statt, verglichen mit 3,9 Aktionen bei Einstiegen über sonstige Verweisseiten. Der Anteil von Besuchern, die den DBS nach dem Ende einer Sitzung erneut aufrufen, liegt bei Direkteinstiegen bei 47,5% und damit deutlich höher als bei Suchmaschineneinstiegen (16%), sonstigen Verweisen (14,9%) und auch dem Gesamtwert (22,2%). Dieser hohe Anteil wiederkehrender Besucher bei Direkteinstiegen ist ein starkes Indiz dafür, dass jene Besucher als Stammnutzer angesehen werden können. Personalisierung Unterschieden wird zwischen einer expliziten und impliziten Personalisierung. Bei der expliziten Personalisierung macht der Nutzer aktiv und bewusst Angaben zu seinen Interessen (beispielsweise in Form eines Profils), bewertet Inhalte des Webangebots oder passt eine Internetseite interaktiv seinen Wünschen an. Bei der impliziten Personalisierung wird die Anpassung automatisch vorgenommen. Ziel einer primär expliziten Personalisierung ist eine Stärkung der Loyalität der vorhandenen Stammnutzer und die Bindung von Gelegenheitsnutzern. Grundsätzlich lassen sich verschiedene Personalisierungsfunktionen unterscheiden, darunter Dashboards mit Widgets, personalisierbare RSS-Reader, ein veränderbares Layout, eine persönliche Startseite, persönliche Empfehlungen und gespeicherte Suchlisten. Gemäß einer beim DBS durchgeführten Online-Umfrage wünschen sich die Teilnehmer unter den vorgeschlagenen Personalisierungsfunktionen am häufigsten eine persönliche Startseite, gefolgt von persönlichen Empfehlungen, gespeicherten Suchlisten, Tagging und einem veränderbaren Layout. Auf Grundlage dieser Umfrageergebnisse wurde ein Prototyp entwickelt (http://www.bildungsserver.de/demo/personalisierung/demo.html). Aufgrund der geringen Nachfrage nach Interaktivität wurde ein vom Nutzer nicht beeinflussbarer Bereich mit zielgruppenspezifischen Neuigkeiten aus dem DBS geschaffen. Der Protoyp wurde mittels einer Expertenevaluation überprüft und wird derzeit auf Grundlage deren Ergebnisse weiterentwickelt. 496 Andreas Bohne-Lang, Elke Lang A landmark in biomedical information: many ways are leading to PubMed MediaWiki tags open remote literature access to PubMed Andreas Bohne-Lang1, Elke Lang2 1 Heidelberg University – Medical Faculty Mannheim Ludolf-Krehl-Straße 13–17, D-68167 Mannheim [email protected] 2 Darmstadt University of Appl. Sci. – Media Faculty Haardtring 100, D-64295 Darmstadt [email protected] Abstract Entrez PubMed (http://www.ncbi.nlm.nih.gov) is a central biomedical information hub. Its comprehensiveness, reliability and availability policy make it a primary information resource for many specialized portals concer–ning theme-focused information. NCBI offers programming tools for inclu–ding automated information access into external applications. We present our plug-in (http://www.mediawiki.org/wiki/Extension:Pubmed) for remote access and presentation of PubMed literature data (single hits and result sets) within a MediaWiki page. PubMed Extension Implementation Up to now, PubMed literature data could not be included automatically into a MediaWiki page. The described PubMed extension [http://www.mediawiki. org/wiki/Extension:Pubmed] uses hooks and tag-function associations in the wiki software part. It is based on a PHP SOAP class and contains methods to connect to the PubMed API functions listed in [http://www.ncbi.nlm.nih.gov /entrez/query/static/esoap_help.html]. Programming details can be found in A landmark in biomedical information: many ways are leading to PubMed 497 [Bohne 2008]. The extension is invoked by the <pubmed> tag and transmits a query to PubMed using the described method. The result set consists of the PubMed article IDs related to the query. A PubMed request causes the server to send the answer as a large data set in a XML record. In the next step, the algorithm extracts the necessary parts by mapping the related fields. This step is necessary, as some attribute names unfortunately are not unique, like the ‘Forename’ or the ‘Firstname’ attribute in the author definition. The following step is the layout process building the HTML code from the map–ped data using a HTML template file. In addition to the primary literature data, some links are generated and included. At the moment there are three default links: A link back to the PubMed page by the PMID, a link to the journal on Worldcat.org by ISSN and a link to the full text at the publisher’s page, if DOI information is available. Thus the MediaWiki plug-in provides a new tag within the markup language. The <Pubmed> tag establishes a po–werful connection to PubMed by submitting the value between opening and closing tag as a query string to PubMed. The <Pubmed> tag can possess three attributes influencing the result set layout. The attribute ‘limit’ controls the number of result records returned by the layout generator. The limit set by the NCBI utilities is 500 result records per query. The limit parameter should be used with complex queries – e.g. to present the first 20 hits. The attributes ‘layoutfile’ and ‘layoutlinks’ can set the current layout to temp–lates different from the default mode. Two other pieces of information about publication status are added in brackets – information about the publication medium and status (P for paper, I for Internet) and information about pub–lication status (p for published, a for ahead of print, and e for epublished). The MediaWiki plug-in is an easy-to-use tool for users not familiar with programming. Using the <PubMed> tag helps them to integrate literature reference data and links into their own wiki pages, opening access to free or subscribed related sources like full text or Worldcat data. Reference Bohne-Lang, A.; Lang, E. (2008). Application Note: A MediaWiki extension to open remote access to literature data from Pubmed. Biomedical Digital Libraries, Vol 5, No 1. 498 Ina Blümel, René Berndt 3D-Modelle in bibliothekarischen Angeboten Ina Blümel1, René Berndt2 1 TIB Hannover Welfengarten 1B, D-30167 Hannover [email protected] 2 TU Graz Inffeldgasse 16c, A-8010 Graz [email protected] Zusammenfassung Dieser Beitrag umreißt semi-automatische Inhaltserschließung und visuell-interaktive Suche in 3D-Modellen im Forschungsprojekt PROBADO. Abstract This paper describes semi-automatic, content-based indexing and visual-interactive searching of 3D models within the PROBADO project. PROBADO 3D PROBADO 3D ist Teilbereich des Forschungsprojekts PROBADO, das den prototypischen Aufbau und Betrieb einer verteilten digitalen Bibliothek für heterogene, multimediale Dokumente zum Ziel hat. Dabei werden alle Schritte der bibliothekarischen Verarbeitungskette vom Bestandsaufbau über semi-automatische Inhaltserschließung bis hin zu visuell-interaktiver Suche und Präsentation sowie Betriebsaspekten betrachtet. Partner innerhalb von PROBADO 3D sind die Universität Bonn, TU Darmstadt, TU Graz und TIB Hannover. PROBADO wird von der Deutschen Forschungsgemeinschaft DFG im LIS-Programm als Leistungszentrum für Forschungsinformation 3D-Modelle in bibliothekarischen Angeboten 499 gefördert und ist bis 7/2011 ausgelegt. Weitere Informationen siehe www.probado.de. Zur Evaluation der Suchfunktionalität, zu Demonstrationszwecken und zur Sammlung von Erfahrung mit Digitalisierungs- und Datenintegrationsarbeiten wurde an der TIB Hannover ein umfangreicher 3D-Testdatenbestand aufgebaut, vornehmlich mit Modellen von Gebäuden und Einrichtungsgegenständen. Das Einstellen neuer Daten veranlasst die Ausführung eines entsprechend vorkonfigurierten Workflows (Berndt 2010): Vor der inhaltsbasierten Erschließung werden technische Metadaten extrahiert, in ein einheitliches Format für die verschiedenen inhaltsbasierten Indexer konvertiert und Vorschaudateien erzeugt. Zur Modellverwaltung wird eine Datenbanklösung mit integriertem Webfrontend benutzt, das verteilten Zugriff und ein feinstufiges Benutzer- und Gruppenmanagement bietet. Einer Studie unter Architekten zufolge (Blümel 2009) sind Benutzer sowohl an der gewohnten textbasierten Suche als auch am Content Based Retrieval interessiert. PROBADO 3D bietet sowohl die Suche in Metadaten als auch modellvergleichende sowie 2D- und 3D-Skizziersuchen an (Berndt 2009). Dafür werden globale sowie lokale 3D-Formdeskriptoren sowie ein weiterer zur Erkennung von sog. Raumstrukturgraphen verwendet (Wessel 2008). Außerdem werden Techniken wie maschinelles Lernen und Benchmarking eingesetzt, um die Modelle automatisch mit Metadaten anzureichern und so textbasierte Suche zu ermöglichen. Hierzu wurde ein Benchmark für Objektmodelle aus dem Fachbereich Architektur entwickelt (Wessel 2009). References/Literaturverzeichnis Berndt, R., Blümel, I., Wessel, R. (2010). PROBADO3D – Towards an Automatic Multimedia Indexing Workflow for Architectural 3D Models. Proceedings of ELPUB 2010. Berndt, R. et al. (2009). Demonstration of User Interfaces for Querying in 3D Architectural Content in PROBADO3D. Proceedings of ECDL 2009. Blümel, I., Sens, I. (2009). Das PROBADO-Projekt: Integration von nichttextuellen Dokumenten am Beispiel von 3D Objekten in das Dienstleistungsangebot von Bibliotheken. ZfBB, Heft 2, 2009, Klostermann. 500 Ina Blümel, René Berndt Wessel, R. Blümel, I., Klein, R. (2009). A 3D Shape Benchmark for Retrieval and Automatic Classification of Architectural Data. Proceedings of Eurographics 2009 Workshop on 3D Object Retrieval. Wessel, R., Blümel, I., Klein, R (2008). The room connectivity graph: Shape retrieval in the architectural domain. Proceedings of WSCG 2008. First Aid for Information Chaos in Wikis 501 First Aid for Information Chaos in Wikis Collaborative Information Management Enhanced Through Language Technology Nicolai Erbs, Daniel Bär, Iryna Gurevych, Torsten Zesch UKP Lab, Technische Universität Darmstadt http://www.ukp.tu-darmstadt.de Abstract We present a system to prevent information chaos in wikis as one example of an information management system. The system utilizes Natural Language Processing techniques to support users with respect to the typical tasks of adding, organizing, and finding content. First Aid for Information Chaos in Wikis In recent years, the Web has turned into a ubiquitous information space and a collaborative information management system. Wikis are one of the most popular tools for managing unstructured textual information. While wikis have become widely adopted in corporate and private settings (Buffa, 2006), they suffer from a number of disadvantages resulting from their distributed and collaborative way of construction. Over time, this leads to significant usability limitations which make it more difficult to contribute (Désilets et al., 2005). In this poster, we show how these issues can be targeted utilizing Natural Language Processing (NLP) techniques, such as keyphrase extraction, topic segmentation, text summarization, or link discovery. Gurevych and Zesch (2008) introduce the overall idea of supporting wiki users utilizing NLP techniques, while Hoffart et al. (2009) describe the actual system architecture of the enhanced wiki. 502 Nicolai Erbs, Daniel Bär, Iryna Gurevych, Torsten Zesch The poster presents the Wikulu system and highlights the major enhancements of collaborative information management in wikis. It describes our approach to link discovery in more detail as one particular example of an NLP technique utilized by the Wikulu system. Finally, selected results of the user study as well as some future research directions are discussed. While wikis represent an excellent and particularly interesting application area of collaborative information management, the presented NLP techniques could be applied to any means of unstructured information management, e.g. in scientific information management for research papers. Acknowledgements The Wikulu project has been supported by the Klaus Tschira Foundation under grant No. 00.133.2008. The utilized NLP techniques have been supported by the Volkswagen Foundation as part of the Lichtenberg-Professorship Program under grant No. I/82806. Literature Buffa, M. (2006). Intranet Wikis. In Proceedings of the IntraWebs Workshop 2006 at the 15th International World Wide Web Conference, Edinburgh, Scotland. Désilets, A., Paquet, S., and Vinson, N. G. (2005). Are wikis usable? WikiSym ’05: In Proceedings of the 2005 international symposium on Wikis, pages 3–15, San Diego, California, USA. Gurevych, I. and Zesch, T. (2008). Selbstorganisierende Wikis. In Proceedings of KnowTech, BITKOM, pages 317–324, Frankfurt, Germany. Hoffart, J., Zesch, T., and Gurevych, I. (2009). An Architecture to Support Intelligent User Interfaces for Wikis by Means of Natural Language Processing. WikiSym ’09: In Proceedings of the 5th International Symposium on Wikis and Open Collaboration, pages 1–10, Orlando, Florida, USA. Multilingual Interface Usage 503 Multilingual Interface Usage Maria Gäde, Juliane Stiller Berlin School of Library and Information Science – Humboldt-Universität 10117 Berlin {maria.gaede, juliane.stiller}@ibi.hu-berlin.de Zusammenfassung Zu der elementaren Ebene des mehrsprachigen Zugangs zu Informationen im Web gehört die Benutzeroberfläche. Das Poster beschreibt am Beispiel der Europeana1 die tatsächliche Nutzung der mehrsprachigen Benutzeroberfläche des Portals. Mittels einer Log-Dateien-Analyse werden Sessions in denen die Sprache der Benutzeroberfläche gewechselt wurde bestimmt und die vorrangig genutzten Sprachen identifiziert. Abstract The most elementary level of multilingual information access is the user interface. Using the example of Europeana1 this poster describes the usage of the multilingual interface. Through a log file analysis we determined the occurrence of sessions with an interface language change, including the most frequently selected languages. Multilingual Interface Usage The change of the interface language of an information system is an active intervention of the user, indicating preferences for favored languages. The Europeana portal integrates digital objects from Europe’s cultural institutions such as libraries, audio-visual archives, museums and archives and displays all static interface pages in 27 European languages. In line with a user survey 1 http://www.europeana.eu/portal/ 504 Maria Gäde, Juliane Stiller on multilingual information access, the majority of the participants expressed their preference for manually switching the user interface to their native language [EuropeanaConnect 09]. Currently the Europeana portal provides two different options for language change: either the user selects the interface language by a drop-downmenu or the language is selected automatically based on the language a user determined before (via cookie). Another option is that the user clicks on a link requesting the local Europeana version from a referrer page such as search engine results. The Europeana Clickstream Logger, which logs and gathers extended information on user behavior, records the interface language and the change of the interface language for each session [Gäde 10]. The analysis of ca. 350.000 sessions from July to December 2010, excluding bots, showed that roughly a third contained another interface language than the default one in English. For those sessions that included a different interface language than English the appropriate languages were extracted. The results give indications about the actual usage, preferred languages and options for language determination of the multilingual interface within a digital library. References EuropeanaConnect (2009). D 2.1.1 Multilingual Information Access in Digital Libraries: Report on User Preferences and Information Retrieval Scenarios for Multilingual Access in Europeana. http://www.europeanaconnect.eu/documents/D2.1.1_eConnect_Report_UserPreferen ces_MLIA_v1.0_20091222.zip Gäde, M., Petras, V., Stiller, J. (2010). Which Log for Which Information? Gathering Multilingual Data from Different Log File Types. In: Multilingual and Multimodal Information Access Evaluation, Vol. 6360 (2010), pp. 70–81. Fassettierte Suche in Benutzeroberflächen von digitalen Bibliotheken 505 Fassettierte Suche in Benutzeroberflächen von digitalen Bibliotheken Jasmin Hügi, Rahel Birri Blezon, René Schneider Haute Ecole de Gestion – Informationswissenschaft 7, route de Drize, CH-1227 Carouge, Genf E-Mail: {jasmin.hugi | rahel.birri-blezon | rene.schneider}@hesge.ch Zusammenfassung Das Poster stellt die Ergebnisse zweier qualitativer, komparativer Benutzerakzeptanztests mit dem Schwerpunkt der Fassettierung vor. Dabei wurde das System Swissbib (www.swissbib.ch) der fassettierten Suche von SIRIS (http://collections.si.edu/search) gegenübergestellt, während das Projekt e-codices.ch (www.e-codices.ch) mit der digitalen Handschriftensammlung Penn in Hand (http://dla.library.upenn.edu/dla/medren/index.html) verglichen wurde. Aus den jeweiligen Resultaten wurden allgemeine Empfehlungen abgeleitet, welche ebenfalls mit dem Poster präsentiert werden. Abstract The poster presents the results of two qualitative and comparative user acceptance tests with the focus on faceted search. For this test the system Swissbib (www.swissbib.ch) has been confronted with the faceted search of SIRIS (http://collections.si.edu/search), whereas the project e-codices.ch (www.ecodices.ch) was compared with the digital manuscript collection Penn in Hand (http://dla.library.upenn.edu/dla/medren/index.html). General recommendations were derived from the respective results and are described on the poster. 506 Jasmin Hügi, Rahel Birri Blezon, René Schneider Thesen Nachstehende Thesen sind das Resultat zweier komparativer Usability-Tests zum fassettierten Suchen. Dafür wurde das System Swissbib (www.swissbib.ch) der fassettierten Suche von SIRIS (http://collections.si.edu/search) gegenübergestellt, welches sich durch komplexere Funktionalitäten auszeichnet. Das Projekt e-codices.ch (www.e-codices.ch) wurde mit der digitalen Handschriftensammlung Penn in Hand (http://dla.library.upenn.edu/dla/medren/index.html) verglichen. Verallgemeinernd können aufgrund der Testergebnisse folgende Rückschlüsse gezogen werden, die nachstehend wiedergegeben werden. • Fassetten sind zu Beginn jeder neuen Suche, die im Suchschlitz durchgeführt wird, auf Null zurückzusetzen und Bildschirmelemente zum Wegklicken von Fassetten sind prominent zu platzieren. • Faceted Breadcrumbs sind zur Darstellung von benutzten Filtern zu vermeiden. • Sowohl die Auswahl der Fassetten als auch die ausgewählten Fassetten sind am linken Bildschirmrand zu platzieren. • Fehler in der Sacherschließung müssen vermieden werden. Fassetten mit inkonsistenter Sacherschließung sollen nicht angeboten werden. • Eine äußerst differenzierte Fassettierung erscheint wenig angebracht. Der Vorzug ist den eindeutig verständlichen Fassetten zu geben. • Die Verknüpfungsmöglichkeiten einzelner Fassetten sind als möglichst einfach und visuell nachvollziehbar zu gestalten. Die Benutzeroberfläche soll Fehlschlüsse minimieren. Die Darstellung einer ODER-Verknüpfung durch eine Checkbox und eine UND-Verknüpfung durch einen Link reicht nicht aus. Grundsätzlich gilt für die Realisierung von Interaktionswerkzeugen zum fassettierten Suchen: „Keep it simple“. Jede komplexe Erweiterung, die über die Grundfunktionalität einer Fassette als Filter hinausführt, sollte getestet werden. Eine komplexe Ausgestaltung darf den kognitiven Ballast nicht vergrößern und soll von einem erwiesenen Nutzen für die Benutzer sein. Ordnung im Weltwissen 507 Ordnung im Weltwissen Hanna Knäusl Institut für Information und Medien, Sprache und Kultur Universität Regensburg 93040Regensburg [email protected] Zusammenfassung Um die Verteilung der Inhalte auf die verschiedenen Sach- und Fachgebiete einer Enzyklopädie zu untersuchen, wurde dafür ein Ordnungssystem entwickelt. Abstract To explore how the content of miscellaneous encyclopedic works is spread over the different subject areas it was necessary to develop a classification system. 1 Einleitung Um die Verteilung der Artikel einer Enzyklopädie auf die verschiedenen Fach- und Sachgebiete zu untersuchen und untereinander zu vergleichen, benötigt man ein Ordnungssystem, um die Artikel zu kategorisieren. Die in Enzyklopädien vorhandenen Ordnungssystematiken wie etwa die alphabetische Sortierung oder das Kategoriensystem der Wikipedia sind aus verschiedenen Gründen dazu nicht geeignet, da sie entweder keinen Aufschluss über die Inhalte geben oder aber zu detailliert und damit zu groß sind [Ha08]. 508 2 Hanna Knäusl Forschungsziel Besonders interessant ist die Verteilung der Inhalte in der deutschsprachigen Wikipedia im Vergleich zu einer traditionellen Enzyklopädie wie zum Beispiel der Brockhaus Enzyklopädie in der 21. Auflage. Aufgrund von Stichproben (6 Stichproben à ca. 100 Lemmata wurden auf Vorhandensein in beiden Werken untersucht, Deckungsgleichheit zwischen 11% und 23%) wurde die Annahme getroffen, dass die Verteilung der Inhalte unterschiedlich ausfällt. Um diese Vermutung empirisch zu überprüfen, wurde speziell dafür ein Ordnungssystem entwickelt. 3 Anforderungen an das Ordnungssystem Ähnlich einer Top-Level Ontologie soll das Ordnungssystem nur relativ allgemeine Merkmale erfassen, da es einerseits für alle Wissensdomänen anwendbar sein soll, aber andererseits überschaubar und fest begrenzt sein muss, um eine sinnvolle Aussage über die Verteilungen machen zu können. Auch Mehrfachzuordnungen und Überschneidungen dürfen nicht zulässig sein. 4 Das Ordnungssystem Das entwickelte System erfasst fünf Aspekte eines Enzyklopädieartikels: Typ, Sachbereich, Zeitraum, regionale Zugehörigkeit und Relevanz des Lemmas für eine Enzyklopädie. Für die Sortierung gibt es eindeutige Zuweisungsregeln. Damit soll trotz des Verzichts auf Details die Zuordnung bei den verschiedenen Enzyklopädien so konsistent wie möglich gehalten werden. Literaturverzeichnis [Ha08]: Hammwöhner, Rainer; Kattenbeck, Markus; Köstlbacher, Anton (2008): Das Kategoriensystem der Wikipedia. In Druck; Vortrag im Rahmen der ISKO 2008. Die European Psychology Publication Platform 509 Die European Psychology Publication Platform Eine Publikationsinfrastruktur für die europäische Psychologie und ihre Nachbardisziplinen Isabel Nündel, Erich Weichselgartner, Günter Krampen Leibniz-Zentrum für Psychologische Information und Dokumentation Universitätsring 15, D-54286 Trier E-Mail: [email protected] Zusammenfassung Um die europäische psychologische Forschung sichtbarer, leichter zugänglich und effektiver zu machen, entwickelt das Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) mit weiteren Kooperationspartnern die European Psychology Publication Platform. Diese OpenAccess-Publikationsinfrastruktur ist als Knotenpunkt für die wissenschaftliche Gemeinschaft gedacht und wird durch ihre Vielfalt an Sprachen, Publikationsvarianten und Mehrwertdiensten die Qualität der Informationsversorgung sowie die internationale Zusammenarbeit auf dem Feld der Psychologie und ihrer Nachbardisziplinen positiv befördern. Abstract In order to make European psychological research more visible, easier accessible and more effective the Leibniz-Institute for Psychology Information (ZPID) and its cooperation partners are developing the European Psychology Publication Platform. This open access publication infrastructure shall become a junction for the scientific community and will, based on its diversity of languages, publication types and value-added services, foster the quality of information supply as well as the international cooperation on the field of Psychology and its related disciplines. 510 Isabel Nündel, Erich Weichselgartner, Günter Krampen Die European Psychology Publication Platform In 2008 hat das ZPID eine umfangreiche Analyse der europäischen Publikationssituation für die Psychologie vorgenommen [Uhl & Weichselgartner, 2009] und dabei den Bedarf für eine effektive Publikationsplattform erkannt. Daher entwickelt das ZPID gemeinsam mit zahlreichen internationalen Kooperationspartnern die European Psychology Publication Platform, einen multilingualen Knotenpunkt für Wissenschaftler und Praktiker, um Informationen aus der Psychologie und ihren Nachbardisziplinen sowohl zu veröffentlichen als auch zu beziehen. Dadurch wird die Vernetzung unter europäischen Wissenschaftlern vereinfacht und der effektive Austausch von Informationen auf internationaler Ebene gefördert. Gleichzeitig bleibt die Sprachenvielfalt Europas erhalten und die europäische psychologische Forschung wird sichtbarer und leichter zugänglich. Die Plattform wird verschiedensten Publikationsvarianten von Artikeln und Monografien über Forschungsberichte und Konferenzbeiträge bis hin zu Postern offenstehen. Des Weiteren sollen auch Primärdaten, Tests und multimediale Formate aufgenommen werden. Peer-Review gewährleistet die Einhaltung höchster Qualitätsstandards. Zudem sollen Zusatzfunktionen wie beispielsweise mehrsprachige Metadaten, Verlinkung von Zitaten, „lebende Artikel“ und Kommentare möglich sein. Die Konzeption der European Psychology Publication Platform ist ein Gemeinschaftsprojekt unter der Beteiligung von Einrichtungen aus zwölf europäischen Ländern. Aufbauend auf diesen vorbereitenden Arbeiten wird in 2011 am ZPID mit der Realisierung der Plattform begonnen. Literaturverzeichnis Uhl, M. & Weichselgartner, E. (2009). Aufbau einer innovativen Publikations-Infrastruktur für die europäische Psychologie. Information: Droge, Ware oder Commons? Wertschöpfungs- und Transformationsprozesse auf den Informationsmärkten. Proceedings des 11. Internationalen Symposiums für Informationswissenschaft (ISI 2009), 105–114. IUWIS (Infrastruktur Urheberrecht in Wissenschaft und Bildung) 511 IUWIS (Infrastruktur Urheberrecht in Wissenschaft und Bildung): Urheberrecht zwischen Fakten und Diskursen Projektteam IUWIS Institut für Bibliotheks- und Informationswissenschaft Humboldt-Universität zu Berlin Unter den Linden 6, D-10099 Berlin [email protected] Zusammenfassung Die Web-Plattform IUWIS bietet WissenschaftlerInnen und RechtsexpertInnen die Möglichkeit zum Austausch über das Thema Urheberrecht in Wissenschaft und Bildung. Diese sind eingeladen, sich aktiv mit Fragen oder Diskursbeiträgen einzubringen. Derzeit entsteht auf IUWIS eine semantisch erschlossene Sammlung von Dokumenten zum Thema, die die im Internet verstreuten Veröffentlichungen an einem Ort versammelt und nutzbar macht. Abstract The web platform IUWIS offers information on copyright in research and education setting up an infrastructure where researchers, scientists and legal professionals can discuss their problems. Additionally IUWIS assembles a database of available publications on the topic of German copyright. The texts are indexed based on a comprehensive semantic system in order to make the publication activity more accessible for the scientific communities. Stimmen zum Urheberrecht aus der Wissenschaft Mit IUWIS entsteht eine webbasierte Infrastruktur zum Thema Urheberrecht für Wissenschaft und Bildung, die die Orientierung in dem komplexen Feld Urheberrecht erleichtern soll. In Wissenschaft und Bildung beeinflussen ur- 512 Projektteam IUWIS heberrechtliche Fragen grundsätzlich die Arbeitsbedingungen für Lehrende, Forschende und Studierende. Jedoch sind viele Regelungen des Urheberrechts für juristische Laien unverständlich, wodurch Unsicherheiten bei der Anwendung entstehen. IUWIS folgt dem Web 2.0-Paradigma und nutzt dort entwickelte Methoden der Interaktion durch Foren, nutzergenerierte Inhalte und Verschlagwortung (Tags), um seinen NutzerInnen niedrigschwellige Interaktionsformen zu bieten. IUWIS versteht sich also als sozialer Dienst, in dem die NutzerInnen ihr Wissen mit anderen teilen und gemeinsam Lösungsvorschläge für Probleme erarbeiten. Die Redaktion fungiert dabei in erster Linie als Informationbroker, der Antworten und Kontakte vermittelt, und bietet nur in eingeschränktem Maß eigene Inhalte an. Durch eine Art „Wiki-Prinzip“ werden perspektivisch die von den Nutzern erstellten Inhalte von anderen Nutzern überprüft und korrigiert. Ein Mehrwert von IUWIS ist die Erfassung und Zugänglichmachung der im Netz existierenden Inhalte im Infopool. In den Dossiers können dann die Diskussionsstränge, die im Internet derzeit häufig ins Leere laufen, gebündelt abgerufen werden. IUWIS ist über diverse persönliche und institutionelle Verbindungen in der Szene aktiv (Aktionsbündnis für Urheberrecht und Bildung, iRights.info, verschiedene rechtswissenschaftliche Institute) und bindet dadurch Experten ein. IUWIS bündelt die Informations- und Diskursangebote mit dem Ziel, den Bedürfnissen heterogener Zielgruppen gerecht zu werden und auch gegensätzlichen Meinungen – zum Beispiel in Hinblick auf die Reform des Urheberrechtsgesetzes – Raum zu geben. Ausgehend von der Diversität der NutzerInnen entsteht mit IUWIS ein virtueller Diskursraum, der je nach Bedarf und Intention von allen AkteurInnen genutzt werden kann. Dabei konzentriert sich IUWIS auf die Entwicklungen in Deutschland. Durch den nutzerzentrierten Ansatz ist es jedoch jederzeit möglich, dass etwa Nutzer aus Österreich und der Schweiz vermehrt Dokumente und Diskurse aus den dortigen Rechtsräumen auf die Webplattform bringen. Auch gibt es enge Verbindungen mit verschiedenen europäischen Initiativen, die eine Erweiterung des Angebots in Zukunft möglich machen. Mehr Info auf der IUWIS-Website: www.iuwis.de Die Kulturgüterdatenbank der Region Trier 513 Die Kulturgüterdatenbank der Region Trier Ein multimedialer und mobiler Onlineführer Helge Klaus Rieder FH Trier, FB Wirtschaft Schneidershof, D-54208 Trier E-Mail: [email protected] Zusammenfassung Die Kulturgüterdatenbank mit Einträgen von Kulturdenkmälern, Naturdenkmälern und historischen Plätzen in der Region Trier hat das Ziel, Interessenten – Touristen wie Einheimischen – das kulturelle Erbe der Region von über 17.000 Denkmälern auf dem derzeitigen Stand der Internettechnologie nahe zu bringen. Abstract The Cultural Heritage Database covers the territory of the City of Trier and the surrounding municipalities. It contains information on 17,000 buildings, monuments and places of cultural and historical interest as well as on interesting elements of the countryside such as natural and wildlife preserves. 1 Ziel des Projekts Die Datenbank der Kulturgüter in der Region Trier ist ein gemeinsames Projekt der Planungsgemeinschaft Region Trier, der FH Trier, des Freilichtmuseums Roscheider Hof und der NETGis, Trier. Viele Einträge und Bilder wurden von Benutzern der Kulturgüterdatenbank erstellt. Aufgrund der vielen sensiblen Kulturdenkmäler (jüdische Friedhöfe, Nazi-Bauten etc.) werden sie vor der Veröffentlichung redaktionell geprüft. Die komplette Neuimplementierung des Projekts mit PHP und PostgreSQL hatte das Ziel, die kom- 514 Helge Klaus Rieder plett georeferenzierte Datenbank in Kartenserver einbinden zu können, und die Bedienung für stationäre und verschiedene mobile Anwendungen zu optimieren. Siehe http://www.RoscheiderHof.de/kulturdb. 2 Kulturgüter für zu Hause und für unterwegs Vorrangiges Ziel des Projekts ist es, Kultur- und Naturgüter bekannt und auffindbar zu machen und sie durch das dadurch entstehende öffentliche Interesse zu schützen. Ziel ist es, durch eine XML-Schicht die Kulturgüterdatenbank in verschiedenste Anwendungen einbinden zu können. Zu jeder Seite – auch zu den Navigationsseiten – ist eine XML-Seite hinterlegt. Dadurch ist es möglich, verschiedene Layouts für verschiedene Endgeräte zu produzieren. Die XML-Schicht ist auch öffentlich zugänglich und in der Dokumentation beschrieben. Damit ist es Dritten möglich, diese Informationen in ihr eigenes Angebot zu integrieren. Für die Planung von Ausflügen und Exkursionen können Benutzer Listen von Kulturdenkmälern erstellen und diese dann mit mobilen Endgeräten und Routenplanern unterwegs aufrufen. Bei mobilen Anwendungen ist die Darstellung auf kleinen Bildschirmen von Smartphones von der Einbindung der Daten in Routenplaner zu unterscheiden. Bei ersterem geht es um die Anpassung der Darstellung und der Navigation an kleinere Bildschirme. Die Informationen wurden dabei auf die im mobilen Einsatz sinnvollen Inhalte beschränkt und die Navigation etwas vereinfacht. Die Daten der Kulturdenkmäler können in Navigationsgeräte (PKW), GPS-Geräte (handhelds wie Garmin etc.) wie auch für Routenplaner auf Smartphones und PCs durch den Download entsprechender Konfigurationsdateien (derzeit im Wesentlichen gpx-Dateien) integriert und dort weiterverarbeitet werden. 3 Navigation und Geo-Anwendungen Bei der Suche nach Sehenswürdigkeiten kann über eine Menüstruktur nach verschiedensten Kriterien (Kategorien, Ortsteile, etc.) und über eine Stringsuche gesucht werden. Vom aktuellen eigenen Standort oder von einem gefundenen Objekt aus kann und in einer selbst gewählten Entfernung um das Die Kulturgüterdatenbank der Region Trier 515 Objekt nach der gleichen Kategorie, dem gleichen Ortsteil etc. gesucht werden. Alle Objekte und alle Suchergebnisse (mit mehreren bzw. vielen Sehenswürdigkeiten) können auf einer Karte dargestellt und weiterverarbeitet werden. Derzeit werden Umgebungskarten um den Standort des Benutzers mit relevanten Kulturgütern entwickelt. 516 Karl Voit, Keith Andrews, Wolfgang Wintersteller, Wolfgang Slany TagTree: Exploring Tag-Based Navigational Structures Karl Voit1, Keith Andrews2, Wolfgang Wintersteller3, Wolfgang Slany4 1 Institute for Software Technology (IST) – Graz University of Technology [email protected] 2 Institute for Information Systems and Computer Media (IICM) Graz University of Technology [email protected] 3 4 Graz University of Technology [email protected] Institute for Software Technology (IST) – Graz University of Technology [email protected] Abstract This poster describes a new concept of storing files and folders in and retrieving from TagTrees using tagging and automatically maintained navigational hierarchies. Although desktop search engines are now widely available on the computers of typical users, navigation through folder hierarchies is still the dominant mode of information access. Most users still prefer to store and search for their information within a strict hierarchy of folders. TagTrees are compatible with all currently prevalent software environments. A prototype implementation called tagstore provides a flexible framework for experimentation and a testbed for both usability studies and longer term field tests. (Voit 2011) From the early file storage systems of the last century until modern desktop computer systems, the method of storing files into a hierarchy of folders has not changed. The amount of information has increased dramatically TagTree: Exploring Tag-Based Navigational Structures 517 within the last fifty years. Therefore advanced methods of accessing information in local files are an important issue. Tagging seems to be a promising approach for handling a large number of items. Within the last thirty years a variety of personal information management tools were developed with little or no influence on the average computer desktop as Voit et al. (2009) summarizes. 518 Karl Voit, Keith Andrews, Wolfgang Wintersteller, Wolfgang Slany Storing files in TagTrees provides multi-path navigation to the same information. Users are able to browse to files using associative tags. This kind of navigation does not rely on a mental model of the folder hierarchy system. Therefore, within a large set of files, navigation performance in TagTrees is able to provide better performance than browsing in strict folder hierarchies. Ongoing user studies show that users are able to adopt this new way of browsing their file system very fast. Subjective impression of test users is very positive. References Voit, Karl (2011). tagstore. http://www.tagstore.org/ (Accessed 2011-01-17) Voit, Karl, Keith Andrews, and Wolfgang Slany (2009). Why Personal Information Management (PIM) Technologies Are Not Widespread. Link server aggregation with BEACON 519 Link server aggregation with BEACON Jakob Voß1, Mathias Schindler2, Christian Thiele 1 Verbundzentrale des GBV (VZG) Platz der Göttinger Sieben 1, 37073 Göttingen 2 Wikimedia Germany Eisenacher Strasse 2, 10777 Berlin Abstract We demonstrate BEACON, the simplest possible file format to exchange links. It is successfully used by more than 50 institutions to provide links to be aggregated by Wikipedia and other projects. Link servers and aggregation Although links are its most powerful feature, the WWW is primarily build of documents. The limitation to embedded, outgoing hyperlinks, instead of links as first class objects, has been criticized regularly. Dedicated link servers allow links to be created, managed, and reused in context (Signer et al. 2009; Michaelides 2001). But link server standards such as the Fundamental Open Hypermedia Model have not been widely adopted, and link servers such as SFX (Robertson et al 2009) remain closed data silos. With SeeAlso we have developed a simple link server protocol based on OpenSearch Suggestions and unAPI (Voß 2008). SeeAlso is used for catalog enrichment in German libraries, and implemented as open source. However, the protocol is not designed for aggregating large amounts of links from many different data providers. Neither the OAI harvesting protocol seems to provide an adequate way to exchange simple sets of links, especially for small data providers with limited technical skills. A possible solution for aggregating links is providing them as Linked Open Data in RDF. However, with multiple serialization 520 Jakob Voß, Mathias Schindler, Christian Thiele formats and ontologies, RDF adds more complexity than needed. For this reason we created the BEACON file format as the simplest thing that could possibly work. The main design goal was ease of creation: files can be generated manually or with simple tools, such as spreadsheets, provided by any transport mechanism (HTTP, OA, …). Later they can be converted to RDF.1 BEACON format and its usage The UTF-8 encoded format starts with a set of meta fields, followed by an unordered list of links, one per line. Each link is build of an identifier as source, a target URI, and an optional label and/or description. The following excerpt contains links from German name authority records (PND) to lists of appropriate holdings of the Bavarian State library, with the number of hits: #FORMAT: PND-BEACON #PREFIX: http://d-nb.info/gnd/ #TARGET: http://opacplus.bsb-muenchen.de/search?pnd={ID} 118584596|5819 11850553X|4151 Its condensed form (the first link is from http://d-nb.info/gnd/118584596 to http://opacplus.bsb-muenchen.de/search?pnd=118584596, annotated with ‘5819’ hits) allows storing one million such links uncompressed with a size of 12.5 MB (3.35 MB compressed). Links in BEACON format are already provided by more than 50 institutions and harvested BEACON files are used in projects such as Wikipedia-Personensuche,2 Bayerisches Musiker-Lexikon Online,3 and ‘Linked History’ at University of Leipzig.4 1 See detailed description of BEACON at http://meta.wikimedia.org/wiki/BEACON and its applications at http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON (German). 2 See Wikipedia People Search at http://toolserver.org/~apper/pd/ (German). 3 See http://www.bmlo.lmu.de/ (German). 4 See http://aksw.org/Projects/LinkedHistory/pnd/ (not limited to BEACON format). Link server aggregation with BEACON 521 References Michaelides, D., Millard, D., Weal, M., Roure, D. (2001). Auld Leaky: A Contextual Open Hypermedia Link Server. Proc. of the ACM Conference on Hypertext and Hypermedia, Springer, LNCS 2266, p. 59–70. Robertson, W., Soderdahl, P. (2004). Everything you always wanted to know about SFX but were afraid to ask. The Serials Librarian 47:1/2, p. 129–138. Signer, B., de Spindler, A., Norrie, M. (2009). A Framework for Link Sharing in Cooperative Cross-Media Information Spaces. Proc. of CDVE ’09, Springer, LNCS 5738, p. 185–192. Voß, J. (2008). SeeAlso: A Simple Linkserver Protocol. Ariadne Issue 57, October 30th. http://www.ariadne.ac.uk/issue57/voss/. 522 Jakob Voß, Mathias Schindler, Christian Thiele Wissenschaft trifft Praxis 523 Praxis-Tracks 524 Matthias Görtz Wissenschaft trifft Praxis Der 1. ISI-Praxis-Track als Plattform für den Austausch zwischen informationswissenschaftlicher Forschung und Erfahrungen der Informationsarbeit in der Praxis Matthias Görtz Institut für Informationswissenschaft und Sprachtechnologie Universität Hildesheim E-Mail: [email protected] Zusammenfassung Neben den wissenschaftlichen Beiträgen werden auf dem 12. Internationalen Symposium der Informationswissenschaft (ISI) des Hochschulverbands Informationswissenschaft (HI) auch Erfahrungsberichte aus der Praxis in das Vortragsprogramm integriert. Der 1. ISI-Praxis-Track bietet so die Gelegenheit, Erfahrungen aus der Anwendung, Evaluation und Weiterentwicklung informationswissenschaftlicher Konzepte in öffentlichen und privatwirtschaftlichen Institutionen in den Wissenschaftsbetrieb zurückzuspielen. Ein derartiger Austausch zwischen Theorie und Praxis könnte zu einer festen Institution der ISI-Tagungsreihe werden. Abstract In addition to scientific contributions to the 12th International Symposium of Information Science (ISI) of the German Higher Education Association for Information Science (HI) practical experience is included in the conference program in the form of field reports and case studies from information professionals. The 1st ISI Corporate Track thus offers a platform for the reflection of concepts of Information Science in the application, evaluation and advancement in public and commercial institutions. Such an exchange between theory and practice may be established as valuable addition to the regular ISI conference series. Wissenschaft trifft Praxis 525 Praxis Track 1 — Information in der Praxis Peter Schäuble (Eurospider Information Technology AG) berichtet vom Transfer des Name Matching aus der Theorie in die Praxis der Bankenbranche. Nationale und internationale Vorschriften weisen Banken und andere Finanzintermediäre an, riskante und verbotene Kundenbeziehungen zu erkennen. Die hierfür eingesetzte Name Matching Software muss unter anderem ein spezifisches Information Retrieval Problem lösen: Es müssen zum Kunden Informationen gesucht werden, um diesen zu identifizieren und schließlich das Risiko einzuschätzen. Spezielle Kategorisierungsmethoden und Entitäten-Erkennungen unterstützen diese Aufgabe. Im Rahmen des Beitrags wird auch gezeigt, dass aus einer Verbesserung der Qualität der Treffer direkt eine Aufwandsreduktion resultiert. Christian Dirschl (Wolters Kluwer) argumentiert, dass das Semantic Web sehr viele Probleme zu adressieren vermag, mit denen sich aktuell Informationsdienstleister wie Wolters Kluwer in der Informationsakquisition, -anreicherung und -nutzung beschäftigen. Um Herausforderungen wie u.a. Information Overload, fehlenden Möglichkeiten zur inhaltlichen Annotierung und mangelnder Informationsqualität zu begegnen, hat Wolters Kluwer beschlossen, als Industriepartner in einem von der EU geförderten Projekt http://lod2.eu teilzunehmen, damit das Semantic Web sich in eine Richtung weiterentwickelt, die Informationsdienstleistern wie Wolters Kluwer und seinen Kunden hilft. Yasan Budak (VICO Research & Consulting GmbH) erörtert, ob Social Media mehr als nur ein Kommunikationskanal ist. Anhand von Praxisbeispielen und Studienergebnissen wird unter Einsatz informationswissenschaftlicher bzw. computerlinguistischer Methoden aufgezeigt, welchen Einfluss das Social Web auf das Verhalten der Konsumenten hat bzw. wie man mittels Einsatz von eigenen Aktionen im Social Web das Verhalten der Konsumenten beeinflussen kann. Zum Abschluss des Vortrags wird anhand von Praxisbeispielen aufgezeigt, welche Vorzüge sich aus einem Social Media Monitoring ergeben und welche Möglichkeiten sich für Unternehmen dadurch eröffnen. 526 Matthias Görtz Robert Strötgen (Georg-Eckert-Institut für internationale Schulbuchforschung) präsentiert Erfahrungen aus der Implementierung einer community-basierten virtuellen Forschungsumgebung für die internationale Bildungsmedienforschung. Diese stellen Informationsanbieter vor die Herausforderung, über die bisherigen Funktionen (vor allem bei der Informationsbeschaffung) hinaus im Forschungsprozess Unterstützung zu leisten. Das Georg-Eckert-Institut entwickelt und erprobt derzeit im Rahmen einer DFGProjektförderung innerhalb seines Informations- und Kommunikationsportals Edumeres.net eine virtuelle Arbeits- und Forschungsumgebung (VRE). Dabei wird sowohl auf heuristische und benutzerzentrierte Usability-Studien als auch auf die praktischen Erfahrungen mit den Demonstrationsprojekten eingegangen. Insbesondere wird die Notwendigkeit der Unterstützung von Forschern und damit die Veränderung von Rollen in der Digitalen Bibliothek diskutiert. Praxis Track 2 — Usability in der Praxis Martin Beschnitt und Andrea Struckmeier (eResult Gmbh) erläutern, warum „gutes Aussehen“ nicht immer von Vorteil ist. Diese Erkenntnis bezieht sich auf Überlegungen zum Einfluss der optischen Gestaltung von Prototypen auf das Nutzerverhalten im Usability-Test. Die Ergebnisse einer Studie der eResult GmbH implizieren, dass Prototypen geringer visueller Verfeinerung mindestens ebenso für die Systemevaluation geeignet sind wie Prototypen von hoher visueller Verfeinerung. Sofern nicht explizit das Design eines Systems getestet werden soll, empfiehlt es sich sogar, auch in späteren Designphasen noch mit Prototypen von geringer visueller Verfeinerung zu arbeiten, da diese häufig mehr funktionale Probleme zu Tage fördern als visuell stark ausgereifte Prototypen und im Hinblick auf die Usability-Bewertung weniger anfällig sind für den Einfluss der optischen Erscheinung des Prototyps. Nadine Wacker und Steffen Weichert (usability.de / qualitylabs) präsentieren die benutzerzentrierte Neuentwicklung einer Industrieverband-Website und was passiert, wenn User-Centered-Design auf Unternehmenskultur trifft. Dabei gehen sie insbesondere darauf ein, wie typische Usability-Methoden in Wissenschaft trifft Praxis 527 der Praxis eingesetzt werden und welche Herausforderungen und Lösungsansätze bestehen. Im Kontext eines abgeschlossenen Projekts wurde der Einfluss der Unternehmens- bzw. Verbandskultur auf den Projektverlauf und den Einsatz von User-Research-Methoden deutlich. Auf Basis dieser Erfahrungen zeigen die Autoren auf, wie agile Vorgehensmodelle (Scrum, Agile User Experience Design etc.) an die Unternehmenskultur angepasst werden müssen, um zielführend zu bleiben. Alexander Friedel (macio GmbH) und Stefanie Zürn (s.c.z. kommunikationsdesign) berichten von den Herausforderungen des User Interface Designs für Hersteller von Geräten und Maschinen bei der Internationalisierung von Software. Zum einen sollten dabei – in der geringsten Anforderung – Textelemente lesbar und in das User Interface passend in die relevante Landessprache überführt werden können. Zum anderen erfolgt die visuelle und inhaltliche Anpassung der Bedienanwendung an die kulturellen Eigenheiten und Gepflogenheiten des jeweiligen Zielmarktes. Diese Internationalisierung bedeutet neben der Berücksichtigung im Design immer auch einen Eingriff in das Software Engineering. Anhand eines realen Projektes stellen die Autoren ein für den weltweiten Markt entwickeltes User Interface vor. Klaus Tochtermann und Tamara Pianos (ZBW Leibniz-Informationszentrum Wirtschaft) stellen ihre Arbeit zur Ermöglichung wirtschaftswissenschaftlicher Recherche unter Berücksichtigung von Kundenwünschen vor. Dabei bewegen sie sich laut eigenen Aussagen zwischen der Forderung „Don’t make me think“ und dem Bedürfnis nach komplexen Suchoptionen. Ihr Fachportal für die Wirtschaftswissenschaften, EconBiz, will die Komplexität im Hintergrund verarbeiten, um die Suche bequem zu gestalten. Dabei wird versucht, möglichst viele (u.a. auch ortsbasierte) Services und Optionen anzubieten, ohne das Portal zu komplex zu gestalten. Um dies bestmöglich zu erreichen, wird die Community über Web 2.0-Funktionen (z.B. Open Innovation Ideenwettbewerbe) sowie einen gezielt von der ZBW eingestellten Community Manager immer mehr in die Weiterentwicklung und Anpassungen einbezogen. 528 Matthias Görtz Mittendrin statt nur dabei Studierendenprogramm 529 530 Katrin Geist Mittendrin statt nur dabei Informationswissenschaftliche Forschungsarbeiten und -projekte von Studierenden Katrin Geist Institut für Informationswissenschaft und Sprachtechnologie Universität Hildesheim E-Mail: [email protected] Zusammenfassung Das studentische Programm bietet Studierenden der Informationswissenschaft Gelegenheit, ihre Projekte und Arbeiten vorzustellen und so ein größeres wissenschaftliches Publikum zu erreichen. Es hat sich als fester Bestandteil des Internationalen Symposiums der Informationswissenschaft (ISI) etabliert. Als Plattform für den Austausch zwischen den Studierenden verschiedener Standorte und als Brücke zur informationswissenschaftlichen Forschung, versammelt das diesjährige Programm Beiträge von Studierenden aus Abo (Finnland), Berlin, Chur (Schweiz), Hildesheim, Potsdam und Regensburg. Abstract The student program offers a unique opportunity for students of Information Science to present their work at the 12th International Symposium of Information Science (ISI). It has become a valued regular event at the ISI conference series and is a platform for exchange between students and scholars from different universities, which also connects their work with the scientific community. This year it brings together presentations of students from Abo (Finland), Berlin, Chur (Switzerland), Hildesheim, Potsdam and Regensburg. Mittendrin statt nur dabei 531 Nadja Böller (HTW Chur) beschreibt ihre Annäherung an die Frage, inwiefern Informationskompetenz im Weiterbildungsangebot der Hochschuldidaktik berücksichtigt wird. Ausgehend von den heutigen Anforderungen an eine arbeitsmarktorientierte Hochschulausbildung und der damit verbundenen optimalen Kompetenzförderung durch die Hochschulen wird angenommen, dass Hochschullehrende selbst über Informationskompetenz verfügen müssen, um diese auch bei ihren Studierenden fördern zu können. Das methodische Vorgehen und die Ergebnisse ihrer Experteninterviews werden diskutiert. Elena di Rosa (Humboldt-Universität Berlin) beschäftigt sich in ihrer Masterarbeit mit den Auswirkungen von Creative-Commons-Lizenzen auf den wissenschaftlichen Publikationsprozess. Anhand von Interviews mit WissenschaftlerInnen, ExpertInnen und Tätigen aus dem Verlagswesen werden Antworten gesucht, wie sich die Zusammenhänge von Creative-Commons-Lizenzen und der Wissenschaft derzeit gestalten und sich in Zukunft entwickeln könnten. Feng Gu (Department of Information Studies, Åbo Akademi, Finland) thematisiert wissenschaftliches Informationsverhalten im Internet. Anhand einer Online-Befragung und Interviews an chinesischen und finnischen Universitäten und Forschungsinstitutionen findet eine Annäherung an Informationsverhalten von Wissenschaftlern in Social Media statt. Es wird versucht wissenschaftliche Kommunikation in Social Media in einem Modell abzubilden und Informationskompetenz zu evaluieren. Dirk Eichel (FH-Potsdam) präsentiert die Ergebnisse eines Projekts zur ökologischen Nachhaltigkeit von Bibliotheken. Das Projekt wurde gemeinsam mit Anastasia Schadt, Anja Skudlarek und Anja Wagner durchgeführt. Die Bibliothek ist ein Ort, an dem Menschen kollaborativ und transdisziplinär mit Unterstützung modernster Informationssysteme an innovativen Problemlösungen arbeiten können. Die Beachtung von ökologischen Kriterien sollte ein selbstverständlicher und integraler Bestandteil der Nachhaltigkeitsstrategie einer jeden Bibliothek sein. Konstantin Baierer (Humboldt-Universität Berlin) stellt ein System vor, mit dem sich halbstrukturierte bibliographische Referenzen parsen lassen. Das Parsing von bibliographischen Referenzen, wie sie in Fußnoten und Lite- 532 Katrin Geist raturverzeichnissen wissenschaftlicher Arbeiten verwendet werden, ist ein höchst komplexes Problem, für das verschiedene Softwarelösungen existieren. Ein neu entwickeltes System (Citation::Multi::Parser) wird vorgestellt, das verschiedene etablierte Verfahren kombiniert und die Ergebnisse durch heuristische Verfahren und Datenbankabfragen verschmilzt, korrigiert und anreichert. Die Software ist noch ein Prototyp, kann aber schon genutzt werden. Gabriele Pätsch (Universität Hildesheim) stellt Ansätze für den Einsatz von Mobile Learning in Entwicklungsländern vor und regt zur Auseinandersetzung mit der Frage an, welche Potentiale Mobile Learning in diesem Kontext birgt. Sie verdeutlicht dies am Beispiel des Projekts I-Call der österreichischen Firma common sense – eLearning & training consultants GmbH, welches interaktive Audio-Geschichten in Subsahara-Afrika einsetzen wird. Isabella Hastreiter (Uni Regensburg) präsentiert die Entwicklung einer mobilen Anwendung für die Elektronische Zeitschriften Bibliothek im Rahmen eines Seminars zu Softwareergonomie und User Experience. Die einzelnen Etappen vom Problemszenario über die Anforderungsanalyse bis zum fertigen Papier-Prototypen werden ebenso thematisiert, wie die spezielle Umsetzung theoretischer Usability Konzepte in der Praxis. Oliver Schönbett (Universität Hildesheim) berichtet von den Ergebnissen seiner Magisterarbeit zur Verwendung von standortbezogenen Informationen für die Spracherkennung. Er erläutert inwiefern Kontextinformationen zugänglich sind und wie sie in einem Dialogsystem eingesetzt werden können. Nach einer Diskussion der Bedeutung von Kontext für Dialogsysteme wird abschließend ein Demonstrationsprogramm vorgestellt, das einen solchen Ansatz implementiert. Wissam Tawileh (Universität Hildesheim) berichtet von den Ergebnissen der Auseinandersetzung mit der vergleichenden Evaluierung von Websuchmaschinen in arabischer Sprache im Rahmen seiner Masterarbeit. Das Design von Retrievaltests muss in diesem Kontext nicht nur den besonderen Anforderungen des Internets genügen, sondern auch interkulturelle Besonderheiten arabischer Nutzer berücksichtigen. Mittendrin statt nur dabei 533 534 Sachregister Weitere Titel aus dem vwh-Verlagsprogramm Reihe „E-Learning“ E. Abfalterer: Foren, Wikis, Weblogs und Chats im Unterricht 2007, 24,90 €, ISBN 978-3-9802643-3-4 K. Himpsl: Wikis im Blended Learning 2007, 26,90 €, ISBN 978-3-9802643-5-8 M. Hornbostel: E-Learning und Didaktik 2007, 24,90 €, ISBN 978-3-940317-00-1 T. Bernhardt/M. Kirchner: E-Learning 2.0 im Einsatz 2007, 31,90 €, ISBN 978-3-940317-16-2 A. Schett: Selbstgesteuertes Lernen (Auszug) Reihe „Typo | Druck“ C. Bouchon: Infografiken 2007, 27,90 €, ISBN 978-3-940317-07-0 M. Liebig: Browser-Typografie 2008, 35,90 €, ISBN 978-3-940317-09-4 U. Franzki: Identität durch Schrift – Schrift durch Identität Studien zum Kommunikationspotenzial von Schrift Erscheint 3/2011, ISBN 978-3-940317-87-2 Reihe „Game Studies“ S. Schwingeler: Die Raummaschine 2008, 28,90 €, ISBN 978-3-940317-24-7 T. Rittmann: MMORPGs als virtuelle Welten 2008, 26,50 €, 978-3-940317-20-9 S. Dreer: E-Learning an berufsbildenden Schulen 2008, 32,90 €, 978-3-940317-28-5 B. Rapp: Selbstreflexivität im Computerspiel H. Ernst: Mobiles Lernen in der Praxis 2008, 32,90 €, ISBN 978-3-940317-35-3 2008, 27,50 €, ISBN 978-3-940317-25-4 2008, 27,50 €, ISBN 978-3-940317-30-8 E. Kaliva: Personal Learning Environments in der Hochschullehre 2009, 25,90 €, ISBN 978-3-940317-40-7 S. Graf: Identity Management und EPortfolios 2009, 33,50 €, 978-3-940317-55-1 S. Panke: Informationsdesign von Bildungsportalen 2009, 32,90 €, ISBN 978-3-940317-59-9 A. S. Nikolopoulos: Sicherung der Nachhaltigkeit von E-LearningAngeboten an Hochschulen 2010, 32,50 €, ISBN 978-3-940317-60-5 U. Höbarth: Konstruktivistisches Lernen mit Moodle - 2. Aufl. - R. Seda: Interactive Storytelling im Computerspiel 2008, 35,90 €, ISBN 978-3-940317-33-9 M. Mosel (Hg.): Gefangen im Flow? 2009, 29,90 €, ISBN 978-3-940317-37-7 A. Stoll: „Killerspiele“ oder E-Sport? 2009, 28,90 €, ISBN 978-3-940317-42-1 J. Sieck/M. A. Herzog (Hg.): Kultur und Informatik: Serious Games (14./15. Mai 2009, Berlin, Tagungsband) 2009, 30,90 €, ISBN 978-3-940317-47-6 R. T. Inderst: Vergemeinschaftung in MMORPGs 2009, 34,90 €, ISBN: 978-3-940317-50-6 A. Beyer/G. Kreuzberger (Hg.): Digitale Spiele – Herausforderung und J. Drummer: E-Learning im Unterricht Chance 2009, 32,50 €, 978-3-940317-04-9 Ein Leitfaden zum Einsatz von LernplattforM. Mayer: Warum leben, wenn man men in der Schule stattdessen spielen kann? 2011, 22,90 €, ISBN 978-3-940317-84-1 2010, 31,50 €, ISBN 978-3-940317-77-3 M. Krüger: Selbstgesteuertes und kooperatives Lernen mit Vorlesungsaufzeichnungen 2011, 31,90 €, ISBN 978-3-940317-88-9 D. Ammer: Die Umwelt des World Wide Web Bildung für nachhaltige Entwicklung im Medium World Wide Web aus pädagogischer und systemtheoretischer Perspektive 2011, 31,90 €, ISBN 978-3-940317-86-5 2009, 36,90 €, ISBN 978-3-940317-54-4 D. Pietschmann: Das Erleben virtueller Welten 2009, 28,90 €, ISBN 978-3-940317-44-5 R. T. Inderst/D. Wüllner: 10 Fragen zu Videospielen 2009, 22,90 €, ISBN 978-3-940317-56-8 A. Tolino: Gaming 2.0 – Computerspiele und Kulturproduktion 2010, 44,90 €, ISBN 978-3-940317-66-7 Sachregister 535 K.-M. Behr: Kreativer Umgang mit Computerspielen 2010, 31,50 €, ISBN 978-3-940317-75-9 G. Werdenich: PC bang, E-Sport und der Zauber von StarCraft 2010, 25,90 €, ISBN 978-3-940317-74-2 R. T. Inderst/P. Just (Hg.): Contact · Conflict · Combat Zur Tradition des Konfliktes in digitalen Spielen 2011, 29,90 €, ISBN 978-3-940317-89-6 Reihe „Web 2.0“ C. Mörl/M. Groß: Soziale Netzwerke im Internet Analyse der Monetarisierungsmöglichkeiten und Entwicklung eines integrierten Geschäftsmodells 2008, 28,90 €, ISBN 978-3-940317-22-3 T. Seeber: Weblogs – die 5. Gewalt? 2008, 25,50 €, ISBN 978-3-940317-23-0 R. Bauer: Die digitale Bibliothek von Babel Über den Umgang mit Wissensressourcen im Web 2.0 2010, 26,90 €, ISBN 978-3-940317-71-1 Reihe „Medienwirtschaft“ K. Huemer: Die Zukunft des Buchmarktes Verlage und Buchhandlungen im digitalen Zeitalter 2010, 24,90 €, ISBN 978-3-940317-73-5 J.-F. Schrape: Gutenberg-Galaxis Reloaded? Der Wandel des deutschen Buchhandels durch Internet, E-Books und Mobile Devices 2011, 17,90 €, 978-3-940317-85-8 Reihe „E-Business“ J. S. Günther: Erfolgreiches Onlinemarketing mit Google 2008, 43,90 €, ISBN 978-3-940317-26-1 S. Sobczak/M. Groß: Crowdsourcing 2010, 24,90 €, ISBN 978-3-940317-61-2 Reihe „E-Humanities“ J. Moskaliuk (Hg.): Konstruktion und Russ: Online Crowds MassenphänoKommunikation von Wissen mit Wikis C. mene und kollektives Verhalten im Internet 2008, 27,50 €, ISBN 978-3-940317-29-2 J. L. Brinning: Persönliches Publizieren im Web 2.0 2008, 27,50 €, ISBN 978-3-940317-32-2 F.-R. Habbel/A. Huber (Hg.): Web 2.0 für Kommunen und Kommunalpolitik 2010, 31,50 €, ISBN 978-3-940317-67-4 Reihe „Multimedia“ J. Sieck (Hg.): Interaktive Systeme 6./7. Mai 2010, Berlin, Tagungsband 2010, 31,50 €, ISBN 978-3-940317-72-8 Reihe „Medientheorie“ H. Hillgärtner: Das Medium als Werkzeug 2008, 30,90 €, ISBN 978-3-940317-31-5 A. Hutter: Watchblogs: Medienkritik 2.0? Eine inhaltsanalytische Untersuchung W. Drucker: Von Sputnik zu Google journalistischer Qualität in medienkritischen Earth Über den Perspektivenwechsel hin 2008, 27,50 €, ISBN 978-3-940317-36-0 Weblogs 2009, 27,90 €, 978-3-940317-12-4 zu einer ökologischen Weltsicht 2011, 25,90 €, ISBN 978-3-940317-82-7 M. Mara: Narziss im Cyberspace 2009, 27,90 €, ISBN 978-3-940317-46-9 Kleine Schriften M. Pankow: In kurzen Sätzen zur weiten Welt Eine funktionale Analyse des R. Stephan: Cyber-Bullying in sozialen Netzwerken Phänomens Twitter [Softcover] 2010, 20,90 €, ISBN 978-3-940317-64-3 2010, 12,80 €, ISBN 978-3-940317-65-0 F.-R. Habbel/A. Huber (Hg.): Wirtschaftsförderung 2.0 Varia nestor Handbuch Eine kleine Enzyklo- pädie der digitalen Langzeitarchivierung 2010, 29,90 €, ISBN 978-3-940317-68-1 2009, 24,90 €, ISBN 978-3-940317-48-3 H. Frohner: Social Tagging Grundlagen, Anwendungen, Auswirkungen auf Wissens- Reihe „Schriften organisation und soziale Strukturen der User zur Informationswissenschaft“ 2010, 26,90 €, ISBN 978-3-940317-03-2 siehe ausführlich folgende Seite Aktuelle Ankündigungen, Inhaltsverzeichnisse und Rezensionen finden sie im vwh-Blog unter www.vwh-verlag.de. Das komplette Verlagsprogramm mit Buchbeschreibungen sowie eine direkte Bestellmöglichkeit im vwh-Shop finden Sie unter www.vwh-verlag-shop.de. 536 Sachregister Weitere Bände aus der Reihe „Schriften zur Informationswissenschaft“ Alexander Warta: Kollaboratives Wissensmanagement in Unternehmen Indikatoren für Erfolg und Akzeptanz am Beispiel von Wikis (Bd. 57 ; 2011) Boizenburg : vwh, 300 S., ISBN 978-3-940317-90-2, 30,90 € Marco Prestipino: Die virtuelle Gemeinschaft als Informationssystem Informationsqualität nutzergenerierter Inhalte in der Domäne Tourismus (Bd. 56 ; 2010) Boizenburg : vwh, 304 S., ISBN 978-3-940317-69-8, 30,90 € Andreas Ratzka: Patternbasiertes User Interface Design für multimodale Interaktion Identifikation und Validierung von Patterns auf Basis einer Analyse der Forschungsliteratur und explorativer Benutzertests an Systemprototypen (Bd. 55; 2010) Boizenburg: vwh, 400 S., ISBN 978-3-940317-62-9, 33,90 € Thomas Memmel: User Interface Specification for Interactive Software Systems (Bd. 54; 2009) Boizenburg: vwh, 362 S., ISBN 978-3-940317-53-7, 33,90 € Joachim Griesbaum: Mehrwerte des kollaborativen Wissensmanagements in der Hochschullehre Integration asynchroner netzwerkbasierter Szenarien des CSCL in der Ausbildung der Informationswissenschaft im Rahmen des K3-Projekts (Bd. 53; 2009) Boizenburg: vwh, 480 S., ISBN 978-3-940317-52-0, 35,90 € Monika Maßun: Collaborative Information Management in Enterprises (Bd. 52; 2009) Boizenburg: vwh, 222 S., ISBN 978-3-940317-49-0, 28,90 € Susanne Mühlbacher: Information Literacy in Enterprises (Bd. 51; 2009) Boizenburg: vwh, 342 S., ISBN 978-3-940317-45-2, 32,90 € Rainer Kuhlen (Hg.): Information: Droge, Ware oder Commons? Wertschöpfungs- und Transformationsprozesse auf den Informationsmärkten Proc. des 11. Internationalen Symposiums für Informationswissenschaft (ISI 2009) (Bd. 50; 2009) Boizenburg: vwh, 578 S., ISBN 978-3-940317-43-8, 38,90 € Markus Heckner: Tagging, Rating, Posting Studying Forms of User Contribution for Web-based Information Management and Information Retrieval (Bd. 49; 2009) Boizenburg: vwh, 244 S., ISBN 978-3-940317-39-1, 27,90 € Rainer Kuhlen: Erfolgreiches Scheitern – eine Götterdämmerung des Urheberrechts? (Bd. 48; 2008) Boizenburg: vwh, ISBN 978-3-940317-21-6, 644 S., 39,90 € Ralph Kölle: Java lernen in virtuellen Teams Kompensation defizitärer Rollen durch Simulation (47; 2007) Boizenburg: vwh, 978-3-940317-17-9, 284 S., 29,90 € A. Oßwald, M. Stempfhuber, C. Wolff (Hg.): Open Innovation Beiträge des 10. Intern. Symposiums für Informationswissenschaft, Köln (ISI 2007) (Bd. 46; 2007) Konstanz: UVK, ISBN 978-3-86764-020-6, XI, 518 S., 54,00 € T. Mandl, C. Womser-Hacker (Hrsg.): Effektive Information Retrieval Verfahren in Theorie und Praxis Beiträge HIER 2005 (Bd. 45; 2006) Konstanz: UVK, ISBN 978-3-89669-561-1, VIII, 244 S., 34,00 € Die Bände 41 und 43 ff. sind über den vwh-Online-Buchshop unter www.vwh-verlag-shop.de oder per Mail an [email protected] zu beziehen.