Georg Braungart – Karl Eibl – Fotis Jannidis (Hg.)
Transcription
Georg Braungart – Karl Eibl – Fotis Jannidis (Hg.)
Georg Braungart – Karl Eibl – Fotis Jannidis (Hg.) [Rückseite Deckblatt 1] Georg Braungart – Karl Eibl – Fotis Jannidis (Hg.) JAHRBUCH FÜR COMPUTERPHILOLOGIE 5 mentis PADERBORN Redaktion: Uta Klein Jahrbuch für Computerphilologie Ludwig-Maximilians-Universität München Institut für Deutsche Philologie Schellingstr. 3/RG D-80799 München [email protected] http://computerphilologie.uni-muenchen.de Inhalt Vorwort ................................................................................................... 7 Aufsätze Roland Baier/Gesa Frömming/Burkhard Heise/Claudius Sittig: Literarisches Leben. Datenbank zu den deutschsprachigen Ländern 1945-2000. Projektbericht <www.literarischesleben.uni-goettingen.de>.............................. 9 Michael Meier: Autoren als Verleger: Die Zukunft der wissenschaftlichen Kommunikation? ........................................... 23 Walter Morgenthaler: Gottfried Kellers Studienbücher – elektronisch ediert ........................................................................ 41 Andrea Opitz: Document Type Definitions zur Erschließung von Gattungen des Barock im Internet. Ein Projekt an der Herzog August Bibliothek Wolfenbüttel ..................................... 55 Till Schicketanz/Kay Heiligenhaus: »Inseln im Meer des Beliebigen«. Architektur und Implementierung eines Internetportals Deutsch-jüdische Periodika................................. 65 Margrit Schreier: Pseudo-Dokumentationen: Zum Verschwimmen der Grenze zwischen Realität und Fiktion in den Medien............................................................. 95 Beiträge zur Tagung »The State of the Art in Humanities Computing« vom 12. Dezember 2003 Peter Robinson: Where We Are with Electronic Scholarly Editions, and Where We Want to Be.......................... 123 Norbert Fuhr: Information Retrieval Methods for Literary Texts ............................................................................. 145 David S. Miall: Reading Hypertext. Theoretical Ambitions and Empirical Studies...................................................................... 159 HyperNietzsche: – Paolo D'Iorio: Cognitive Models of HyperNietzsche. Dynamic Ontology and Hyper-Learning ..................................... 177 – Harald Saller: HNML - HyperNietzsche Markup Language ....... 183 – Michele Barbera/Riccardo Giomi: The Pearl-Diver Model. The HyperNietzsche Data Model and its Caching System ....... 191 Thomas Rommel: »Of what is past, or passing, or to come«. Electronic Analysis of Literary Texts............................................ 201 Claus Huitfeldt: Scholarly Text Processing and Future Markup Systems .................................................................. 217 Abstracts zu Buch- und CD-ROM-Rezensionen Sebastian Donat: »Es klang aber fast wie deine Lieder…« – Die russischen Nachdichtungen aus Goethes West-östlichem Divan, Göttingen: Wallstein 2002 (= Münchener komparatistische Studien, Bd. 1), [Buch + CD-ROM]. (Bernard Franco) ............ 235 Dieter Daniels: Vom Readymade zum Cyberspace. Kunst/Medien/Interferenzen. Ostfildern-Ruit: Hatje Cantz 2003. (Roberto Simanowski).................................... 236 Rainer Baasner/Kristina Koebe: wozu. was. wie. Literaturrecherche und Internet. Stuttgart: Reclam 2000. – Georg Rückriem/Joachim Stary: Techniken wissenschaftlichen Arbeitens. Berlin: Cornelsen 2001. (Dietmar Till) ................................................................................... 236 Vorwort Der größere Teil der folgenden Beiträge geht auf eine Konferenz zurück, die im Dezember 2003 anläßlich des fünfjährigen Bestehens des Jahrbuchs für Computerphilologie stattfand und vom Jahrbuch für Computerphilologie und dem Promotionsstudiengang Literaturwissenschaft der Ludwig-Maximilians-Universität München ausgerichtet wurde. Der etwas unbescheidene Titel der Konferenz lautete The State of the Art in Humanities Computing. Ziel der Konferenz war es nicht, einen Überblick über das jeweilige Forschungsfeld zu geben, sondern aus ihrer jeweiligen Perspektive die Forschungsfront zu bezeichnen. Was ist in allerletzter Zeit an neuen Ergebnissen erbracht worden und welche aktuellen Trends oder welche aktuellen Forschungsprobleme können die Beiträger jeweils ausmachen? Wir möchten uns hier noch einmal ganz ausdrücklich für die großzügige finanzielle Unterstützung durch den Promotionsstudiengang Literaturwissenschaft bedanken, die die Konferenz erst möglich gemacht hat. Ein Alter von fünf Jahren ist eigentlich noch kein Anlaß, zurück zu blicken, aber es sei hier doch zumindest an einige wichtige Stationen der letzten Jahre erinnert. Die Idee zu einer Internet-Publikation entstand 1996 und zwar, wie wohl die meisten akademischen Ideen, während eines kurzen Gesprächs auf dem Gang zwischen den Büros. Das Projekt startete als Website mit einer ausführlichen Linksammlung und Informationen zu dem, was im Englischen als ›Humanities Computing‹ bezeichnet wird, konzentrierte sich aber von Anfang an auf die literaturwissenschaftlichen Aspekte und ließ Computerlinguistik, quantitative Methoden in der Geschichtswissenschaft und anderes beiseite. Ziel war es, die Literaturwissenschaft um ein neues Forschungsfeld zu ergänzen und auch ein wenig herauszufordern. Außerdem interessierte es uns, mit den Möglichkeiten des Online-Publizierens zu experimentieren. Den nächsten Schritt machte das Projekt mit dem Entschluss, dass ein Teil der dort publizierten Texte auch im Druck erscheinen sollte. Wir hatten vor allem zwei Gründe für diesen Entschluss: Wir wollten unseren zumeist jüngeren Kollegen, die im Jahrbuch publizierten, etwas in die Hand geben können, das auch in den Augen der älteren Kollegen, die über ihren Berufsweg entschieden, Substanz hatte. Außerdem war zu diesem Zeitpunkt das Problem der Langzeitarchivierung nicht wirklich gelöst. 8 Vorwort Wir hatten das große Glück, Michael Kienecker als Verleger gewinnen zu können, der eben seinen eigenen Verlag mentis gegründet hatte und der, vorausschauender als viele in seiner Branche, die neuen Möglichkeiten und Probleme der digitalen Welt sah. Er ermöglichte uns die Publikation des Jahrbuchs ohne externe Finanzierung und hat uns in vielfältiger Weise unterstützt. Das Jahrbuch 2 brachte einen Wechsel in der Herausgeberschaft mit sich: Volker Deubel verließ uns und Georg Braungart kam hinzu. Auch die Website änderte sich. Anfangs hatte sie noch einen großen Serviceteil enthalten, der sich an Literaturwissenschaftler im allgemeinen richtete – nicht zuletzt, um unsere Kollegen zu diesem neuen Forschungsfeld zu locken. Das erwies sich als ausgesprochen erfolgreich, aber auf Dauer konnten wir schon aus Zeitgründen diesen allgemeinen Teil nicht weiter aufrechterhalten und seine Funktion ist schon längst durch spezialisierte Projekte von anderen übernommen worden. Das Jahrbuch hat stets versucht auch inhaltlich, den allgemein interessierten Literaturwissenschaftler anzusprechen und neben den vor allem an den Insider gerichteten Fachartikeln auch Überblicksdarstellungen zu bringen. Dazu zählen auch Serviceleistungen im Forum Computerphilologie, wie etwa die CD-ROM-Liste, die alle CDs mit digitalen Editionen verzeichnet. Den größeren Anteil haben aber sicherlich die fachwissenschaftlichen Beiträge zu allen möglichen Aspekten der Computerphilologie, sei es nun der klassische Schwerpunkt des elektronischen Edierens, sei es das E-Learning für Literaturwissenschaftler oder auch so für viele noch ungewöhnliche Themen wie Computerspielanalyse und die Rekonstruktion von alten Theatern in virtuellen Welten. All den Beiträgern der letzten Jahre besten Dank. Bereits nach fünf Jahren kann man feststellen, dass viele der Themen und Fragestellungen, die anfangs exotisch waren, heute sehr viel selbstverständlicher geworden sind, und wir hoffen daher, dass unser Wunsch, den einschlägig interessierten Wissenschaftlern ein Diskussionsforum zu bieten, auch in Zukunft in Erfüllung gehen kann. Ein besonderer Dank für ihre unermüdliche Mitarbeit am Projekt, an der Website und dem Jahrbuch geht – wie jedes Jahr – an Dr. des. Uta Klein und für die umsichtige Besorgung der Erstkorrekturen in diesem Band an Frau Claudia Pichlmayr. Georg Braungart/Karl Eibl/Fotis Jannidis Roland Baier/Gesa Frömming/Burkhard Heise/Claudius Sittig Literarisches Leben. Datenbank zu den deutschsprachigen Ländern 1945-2000. Projektbericht <www.literarischesleben.uni-goettingen.de> Abstract The Internet-database Literary Life reflects the growing interest in interdependencies between literary production, reception and communication in relation to other fields and discourses. It aims to encourage occupation with and research on all aspects of literary life in the Germanspeaking countries from 1945 up to the present time. Provided is information on a variety of subjects such as literary prizes and exhibitions, literary debates and scandals, forms and aspects of political engagement of writers or the activities of institutions of the literary field. The form of presentation refrains from giving information bound in narrative structures, thus enabling the user to organize, combine and select materials according to the requirements of the particular question asked. The article gives further insight into problems and advantages of the database's design as well as its technical realization. Welche Prozesse, in denen die Berufung auf ›Kunstfreiheit‹ eine Rolle gespielt hat, hat es in der Bundesrepublik Deutschland gegeben? Wie nimmt sich demgegenüber die Geschichte der Zensur und der Restriktionen aus? In welchen literarischen Debatten der Nachkriegszeit hat der Antisemitismusvorwurf eine Rolle gespielt? In welchen Bereichen haben Schriftsteller sich in den 80er und 90er Jahren politisch engagiert, und inwiefern ändern sich Form und Anspruch dieses Engagements? Ist Hans Werner Richters Zeitschriftenprojekt Skorpion 1947 nur aus politischen Gründen gescheitert, oder könnte auch die Papierknappheit nach dem Krieg eine Rolle gespielt haben? Mit welchen anderen Literaturzeitschriften hätte es konkurrieren müssen? Wie unterscheidet sich die Literaturförderung in den deutschsprachigen Ländern, und lassen sich Niederschläge dieser unterschiedlichen Förderungspraxis in der literarischen Produktion dingfest machen? Fragen wie diese stehen nur selten im Mittelpunkt des literaturwissenschaftlichen Interesses. Sie zielen auf etwas, das mit einem zunächst umgangssprachlichen Begriff als ›literarisches Leben‹ bezeichnet werden 10 Baier/Frömming/Heise/Sittig kann. Im Zuge des hier vorgestellten Projekts werden darunter jene Strukturen und Prozesse verstanden, die in komplexen Gesellschaften literarische Kommunikation ermöglichen und beschränken. Mögliche Fragestellungen nach dieser Bestimmung zielen vornehmlich auf die ›Rahmenbedingungen‹, die sozialgeschichtlichen Kontexte von Literatur, auf Phänomene wie Literaturkritik, Literaturförderung und Literaturpreise, auf die Geschichte von Schriftstellervereinigungen, die Arbeit von literarischen Gesellschaften und Literaturarchiven, aber auch auf Phänomene der benachbarten gesellschaftlichen Felder, die mit dem literarischen Feld in Wechselwirkung stehen. Wenn sie von der Literaturwissenschaft als einer Textwissenschaft in den Blick genommen werden, erscheinen diese ›Rahmenbedingungen‹ oft nur als unverbindlicher ›Hintergrund‹, von dem die Texte sich schließlich durch ihre Literarizität abheben. Doch sind auch die literarischen Texte als privilegierte Objekte der literaturwissenschaftlichen Aufmerksamkeit stets eingebunden in eine Vielzahl situativer Kontexte und können je nach Perspektive auf die ausdifferenzierten gesellschaftlichen Teilsysteme, verschiedenen Felder und Diskurse verschieden gelesen werden.1 Zudem ist ihre Semantik abhängig von der jeweiligen historischen und lokalen Situierung. Die prominente Frage nach der Zahl der deutschsprachigen Literaturen zum Beispiel lässt sich allein aus den literarischen Texten heraus kaum beantworten. Ein Blick auf die jeweiligen nationalen Kontexte zeigt, dass den Nationen als eingegrenzten »imagined communities«2 in vielerlei Hinsicht als einem kommunikativen Rahmen für literarische Äußerungen mehr Bedeutung zukommt, als im ›postnationalen‹ Zeitalter und in Zeiten der Verlagskonzentration angenommen werden könnte. Zu beobachten sind zum Beispiel unterschiedliche nationale »Sprachen der Vergangenheiten«3, unterschiedliche Grenzen der gesellschaftlichen Toleranz für Provokationen und unterschiedliche quasi-rituelle Reaktionen auf entsprechende Grenzüberschreitungen. Auch wird, wer etwa nach politischem Engagement von Literaten 1968 in Österreich sucht, dort andere Formen des Protests finden als in der BRD. Mit Blick auf die Verlagssituati1 2 3 Vgl. Niklas Luhmannn: Die Kunst der Gesellschaft. Frankfurt a. M.: Suhrkamp 1995; Pierre Bourdieu: Die Regeln der Kunst. Genese und Struktur des literarischen Feldes. Frankfurt. M.: Suhrkamp 1999; Michel Foucault: Die Ordnung des Diskurses. Inauguralvorlesung am Collège de France, 2. Dezember 1970. Frankfurt a. M.: Suhrkamp 1977. Vgl. Benedict Anderson: Imagined Communities. Reflections on the Origin and Spread of Nationalism. London: Verso 1983. Vgl. Ruth Wodak u.a. (Hg.): Die Sprachen der Vergangenheiten. Öffentliches Gedenken in österreichischen und deutschen Medien. Frankfurt a. M.: Suhrkamp 1994. Literarisches Leben 11 on lassen sich zudem in Österreich und der Schweiz je verschiedene (und verschieden erfolgreiche) Bemühungen beobachten, eigene Literaturverlage für die eigene Literatur zu gründen.4 Eine grundsätzliche ökonomische Konzentrationsbewegung im Verlagswesen lässt sich nicht von der Hand weisen, doch führt diese Monopolisierung – wie ein Blick auf die österreichischen und deutschen Bestsellerlisten zeigt – nicht notwendig auch zum selben Leseverhalten. Ohne Zweifel ist das Interesse an der Kontextualisierung literarischer Texte seit längerem im Steigen begriffen.5 Der allerdings immer noch zu konstatierende Mangel an Arbeiten zu Phänomenen des deutschsprachigen Literarischen Lebens nach 1945 ließe sich zumindest teilweise auf Vorbehalte der Fachdisziplin gegenüber der Gegenwartsliteratur zurückführen. Auch scheinen die Entstehungskontexte von Literatur nach 1945 nicht im selben Maße wie diejenigen älterer Texte erklärungsbedürftig. Zudem aber, so eine Vermutung, fehlt ein Arbeitsinstrument, das die Zusammenhänge in ihrer Komplexität veranschaulichen und einen ersten Zugang zu entsprechenden Daten ermöglichen würde. Fragt man beispielsweise, etwa mit Blick auf Rolf Hochhuths Stellvertreter, nach literarischen Provokationen im kulturellen Feld, die religiöses Empfinden verletzen, ließe sich einerseits vermuten, dass deren Zahl und Intensität über die Jahre abnimmt, aber auch, dass dieser Prozess in verschiedenen Ländern von verschiedenen Punkten seinen Ausgang genommen hat. Wo aber könnte eine Recherche, die dieser Frage nachgehen wollte, ihren Ausgang nehmen? Seit dem Jahr 2000 wird – finanziert durch die StiftungNiedersachsen und die KulturStiftung der Länder – an der Universität Göttingen in Zusammenarbeit mit der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen6 eine Internet-Datenbank für die akademische wie nichtakademische Nutzung entwickelt, die ein entsprechendes Arbeitsinstrument zur Entwicklung solcher Fragestellungen und ein erster Ausgangs- 4 5 6 Vgl. Michael Klein (Hg.): Österreichische Literatur von außen. Personalbibliographie zur Rezeption der österreichischen Literatur in deutschen und schweizerischen Tagesund Wochenzeitungen 1975-1994. Innsbruck: Innsbrkcer Zeitungsarchiv 1994 (Innsbrucker Veröffentlichungen zur Alltagsrezeption 1). Vgl. z.B. das Projekt des New Historicism (zuletzt Catherine Gallagher/Stephen Greenblatt: Practicing New Historicism. Chicago: University of Chicago Press 2000; Jürg Glauser/Annegret Heitmann (Hg.): Verhandlungen mit dem New Historicism. Das Text-Kontext-Problem in der Literaturwissenschaft. Würzburg: Königshausen & Neumann 1999). <www.gwdg.de> (22.1.2004). 12 Baier/Frömming/Heise/Sittig punkt für die Forschungen zu ihrer Beantwortung sein soll.7 Die Leitung des Projekts liegt bei Professor Wilfried Barner. Entstanden ist es in einem pragmatischen Zusammenhang: Im 12. Band der Geschichte der deutschen Literatur im Verlag C.H. Beck gelten ausführliche Kapitel dem ›literarischen Leben‹ nach 1945.8 Bei der Suche nach entsprechenden Vorarbeiten zeigte sich, dass nur punktuell auf ausführlichere Studien und Materialsammlungen zurückgegriffen werden konnte.9 Insbesondere eine breite Sammlung von Daten, die einen Ausgangspunkt für die eigene Arbeit bieten konnte, war nicht greifbar, sondern musste erst aus disparaten Quellen kompiliert werden. Bei den Planungen im Vorfeld des Projekts war zunächst an einen konventionellen Ergänzungsband zur Literaturgeschichte gedacht. Bald war jedoch klar, dass die wünschenswerte Datenfülle zwischen zwei Buchdeckeln kaum angemessen Platz finden würde (gegenwärtig rund 16.600 kalendarische Einträge, 8.300 Publikationen, 3.100 Preisverleihungen, 13.100 Personen). Vor allem wäre sie durch kein denkbares Register ähnlich handhabbar geworden wie durch die Erfassung in einer Datenbank, die einer 7 8 9 <www.literarischesleben.uni-goettingen.de> (22.1.2004). Zu den jetzigen und früheren Mitarbeitern des Projekts zählen und zählten Anna Maria Ahsbahs, Katrin Angrick, Jutta Arzberger, Henning Bobzin, Désirée Bourger, Annabel Falkenhagen, Gesa Frömming, Julia Berenike Herrmann, Gerrit Hoche, Ingo Kieslich, Michael Kruhöffer, Silke Schomaker, Anne-Kathrin Schmucker, Claudius Sittig, Isabelle Sprang, Anne Valk und Insa Wilke. Von Seiten der GWDG arbeiten und arbeiteten an dem Projekt Roland Baier, Anne-Katrin Hillebrand und Torsten Unruh. Wir danken der Stiftung Niedersachsen und der Kulturstiftung der Länder sowie dem Seminar für Deutsche Philologie und der Universität Göttingen für ihre Unterstützung. Vgl. Wilfried Barner (Hg.): Geschichte der deutschen Literatur von 1945 bis zur Gegenwart. München: Beck 1994 (Geschichte der deutschen Literatur von den Anfängen bis zur Gegenwart, Bd. XII), dort im Vorwort S. XVIIIf. [Zweite, aktualisierte Auflage in Vorbereitung]. Vgl. z.B. Sammelbände zu Literaturstreiten wie etwa Thomas Anz (Hg.): »Es geht nicht um Christa Wolf«. Der Literaturstreit im vereinten Deutschland. München: Edition Spangenberg 1991; Oskar Negt (Hg.): Der Fall Fonty. Ein weites Feld von Günter Grass im Spiegel der Kritik. Göttingen: Steide 1996; vgl. auch Heinz Ludwig Arnold (Hg.): Literarisches Leben in der Bundesrepublik. Stuttgart: Reclam 1974; ders. (Hg.): Literaturbetrieb in der Bundesrepublik Deutschland. Ein kritisches Handbuch. München: Text & Kritik 21981; die drei Bände Dokumente zur Kunst-, Literatur- und Kulturpolitik der. (1946-1970 hg. v. Elimar Schubbe, Stuttgart 1972; 1971-1974 hg. v. Gisela Rüß, Stuttgart 1976; 1975-1980 hg. v. Peter Lübbe, Stuttgart 1984). Zu nennen wäre natürlich auch die wachsende Zahl an Monographien zu einzelnen Literaturpreisen oder an Dokumentationsbänden zur Geschichte einzelner Institutionen und Verbände. Literarisches Leben 13 größtmöglichen Vielfalt potentieller Benutzerinteressen Rechnung tragen kann.10 Die Datenbank baut auf dem damals gesammelten, inzwischen aber erheblich erweiterten Datenmaterial auf. Somit enthält sie Einträge zu den Institutionen und Praktiken des literarischen Feldes, Informationen zu Buchmarkt, Zensurwesen, Literaturkritik, Preisen und Literaturförderung, Aktivitäten von Schriftstellervereinigungen, internationalen Literaturbeziehungen, Literaturstreiten und -skandalen sowie zu literarischen Trends und Moden, aber auch zu öffentlichen Debatten sowie Daten des politischen und des ökonomischen Feldes, die in Wechselwirkung mit dem literarischen Feld stehen. Die Einträge sollen Orientierung auch jenseits bisher kanonisierter Ereignisse bieten und möglichst unterschiedliche Kontextualisierungen anregen. Der Perspektive auf das literarische Leben im oben genannten Sinn entsprechend, aber auch aus Gründen der Praktikabilität werden jedoch keine Inhalte der Publikationen indiziert. Repräsentiert sind die Themen literarischer Texte allerdings bisweilen in Einträgen zu öffentlichen Diskussionen, die durch sie ausgelöst wurden. Gearbeitet wird mit Quellen, die sich als Beobachtungsinstanzen verschiedener Ordnung qualifizieren lassen. Zeitgenössisch stehen Quellen wie Manifeste neben Zeitungsberichten, daneben werden aber auch Chroniken und literaturgeschichtliche Studien ausgewertet. Neben Ereignissen, die von den Zeitgenossen für bedeutsam gehalten wurden, stehen damit auch Informationen, die erst in der Retrospektive als bedeutsam wahrgenommen werden. Unterschiedslos werden darum Ereignisse in die Datenbank aufgenommen, die bei den Zeitgenossen oder Nachgeborenen Aufmerksamkeit erregt haben, oder denen zumindest für denkbare Fragestellungen ein Potential an Bedeutsamkeit zugeschrieben wird. Die einzelnen Einträge werden möglichst neutral formuliert, da sie von einer Einbindung in bereits interpretierte Kausalzusammenhänge frei gehalten werden sollen. Eine weitere Recherche wird durch das Material der Datenbank leider für diejenigen nicht obsolet, die an zitierfähigen Informationen interessiert sind. Denn in vielen Fällen müssen die Informationen der Datenbank aus verschiedenen Quellen kompiliert werden. Zu einem Ereignis werden neben Ort und Datum – so weit es die Quellenlage ermöglicht – Informationen über beteiligte Personen, Themen der Diskussionen oder die mit dem Ereignis verbundenen Debatten und Ähnliches gesammelt. Oft findet sich in den Quellen aber auch nicht mehr als eine Informati10 Zu den entwickelten Suchabfragen und zu den Nutzungsmöglichkeiten siehe weiter unten. 14 Baier/Frömming/Heise/Sittig on, die das Potential hat, eine Spur zu werden. So ist die Datenbank ein erster Ausgangspunkt zur Orientierung und für Recherchen. Ausführlichere Bibliographien zu den benutzten Quellen werden jedoch im weiteren Verlauf der Arbeit auf die Seite gestellt. Darüber hinaus wird die Datenbank auch eine breite Auswahl bibliographischer Angaben zur zeitgenössischen literarischen Produktion zugänglich machen. Bereits seit August 2000 sind Daten im Internet ohne Zugangsbeschränkung kostenlos abrufbar; die Zugriffsstatistiken (derzeit circa 240 Anfragen pro Tag) sind Ausweis für das Interesse an dem Projekt. Seit November 2003 ist ein breiter Datenbestand für die Jahre 1945 bis 2000 erfasst und die technische Realisierung weit gehend abgeschlossen. Seitdem wird das bisher erarbeitete Datenmaterial für die Jahre bis 2000 vertieft und zu bestimmten Themenkomplexen – wie etwa zur Rezeption der Migrationsliteratur, zu Preisverleihungen oder literarischen Debatten – systematisch ergänzt, zunächst mit Hilfe der Bestände der Göttinger Dokumantationsstelle zur deutschsprachigen Literatur nach 1945 (Leitung: Professorin Irmela von der Lühe), dann aber auch auf der Basis der Bestände der Autorendokumentation der Stadt- und Landesbibliothek Dortmund, deren bis in die unmittelbaren Nachkriegsjahre zurückreichender reicher Bestand an Zeitungsartikeln zu unterschiedlichsten Bereichen des Literarischen Lebens dem Projekt zugänglich sein wird, sowie unter Auswertung digitalisierter Zeitungsbestände, die von der Staats- und Universitätsbibliothek Göttingen zur Verfügung gestellt werden. Nach und nach sollen dann auch im Zuge dieser Arbeitsgänge erstellte, themenspezifische Bibliographien von Zeitungsartikeln auf der Homepage des Literarischen Lebens abgerufen werden können. Außerdem soll die Datenbank um aktuelle Daten ab 2001 fortlaufend erweitert werden. Dem Medium angemessen sowie für Benutzer wünschenswert wäre sicherlich die Einbindung von Ton- und Bildzeugnissen sowie von ausgewählten Texten; dazu müssten allerdings Antworten auf urheberrechtliche und finanzielle Fragen gefunden werden. Technische Realisierung der Datenbank Dem Entwurf der Datenbank ist das gegenwärtig dominierende relationale Datenmodell11 zu Grunde gelegt, das von den meisten freien und kommerziellen Datenbankmanagementsystemen unterstützt wird. Die 11 Edgar F. Codd: A Relational Model for Large Shared Data Banks. In: Communications of the Association for Computing Machinery, Vol. 13, No. 6, June, S. 377-387; Chris J. Date: An Introduction to Database Systems. New York: Addison-Wesley 2003. Literarisches Leben 15 Datenmodellierung zur Festlegung der Relationen (Tabellen), Attribute (Felder) und Verknüpfungen (Beziehungen) resultierte in einem Set von 45 Tabellen. Diese können grob in vier Stammtabellen – entsprechend den vier inhaltlichen Schwerpunkten »Ereignisse«, »Personen«, »Publikationen« und »Literaturpreise« – sowie 41 Auxiliartabellen unterschieden werden. Die große Zahl an Tabellen rührt vornehmlich daher, dass die Normalisierung12 der Relationen konsequent durchgeführt wurde. Dadurch werden Redundanzen vermieden und die damit verbundene Gefahr von inkonsistenten Daten minimiert. Ein Nachteil besteht darin, dass auf Grund der Verteilung der Daten auf eine größere Anzahl Tabellen der Aufwand bei der Datensuche höher und die Performanz schlechter sein kann. Die Datenstruktur wurde zunächst unter Microsoft Access implementiert. Access bietet sich an, weil es weit verbreitet und unkompliziert zu bedienen ist, vor allem aber, weil die Möglichkeit der Verwendung bedienerfreundlicher Formulare zur Datenerfassung besteht. Bei der Eingabe beispielsweise eines kalendarischen Eintrags werden die unterschiedlichen dazugehörigen Informationen in unterschiedlichen Tabellen-Feldern erfasst: Neben einem ausformulierten Texteintrag, der das Vorkommnis beschreibt, werden in anderen Tabellenfeldern angelegte Orte, Staaten, der Zeitpunkt, beteiligte Personen und Schlagworte mit diesem Texteintrag verknüpft. Mit einem Access-Formular lässt sich diese Dateneingabe bequem über eine einheitliche Bedienoberfläche vornehmen, ohne dass die komplexe Tabellenstruktur von den Bedienern vollständig erfasst werden müsste: Die Verteilung der eingegebenen Daten auf die zutreffenden Tabellen besorgen im Formular integrierte Programme. Zu jeder der oben genannten Stammtabellen wurde ein spezielles Eingabeformular entwickelt, sowie weitere Formulare für Kontrolle und Verifikation. Um die Handhabung der Formulare möglichst komfortabel, aber auch sicher gegen Fehlbedienung zu machen, wurden dafür umfangreiche Visual Basic Programme (Visual Basic for Applications) geschrieben. Damit mehrere Personen gleichzeitig an der Datenbank arbeiten können, wurde von der Access-Datenbank eine Reihe von Replikaten hergestellt, deren Daten in regelmäßigen Zeitabständen in eine zentrale Instanz, den »Design-Master«, eingelesen und miteinander synchronisiert werden. 12 Chris J. Date: An Introduction to Database Systems, Chapter 10 (Fußnote 7). 16 Baier/Frömming/Heise/Sittig Formular Die Datenbank im Internet Wenn auch die Access-Datenbank bei der Datenerfassung große Vorteile bietet, stellt sie für die langfristige Datenhaltung und die Veröffentlichung der Daten im Internet keine optimale Lösung dar. Als Plattform für das »Deployment in the Web« ist ein High-End Datenbanksystem, wie es mit Oracle in der GWDG zur Verfügung steht, die bessere Wahl. Es zeichnet sich durch hohe Zuverlässigkeit und Datensicherheit aus. Darüber hinaus sichern bei der GWDG bewährte Backup-Verfahren mehrstufig die Oracle-Datenbankinhalte in die räumlich entfernt stehende Library eines Magnetband-Roboters. Mit »PL/SQL« besitzt Oracle zudem eine mächtige und gleichwohl relativ leicht zu erlernende Programmiersprache, die für die Entwicklung Web-basierter Datenbankabfragen hervorragend geeignet ist. Abgesehen von Unterschieden in den Feldtypen entspricht die Tabellenstruktur dieses Projektes unter Oracle derjenigen in Access. Die Daten lassen sich problemlos über die ODBC-Schnittstelle13 von Access in die Oracle-Tabellen übertragen. Diese Übertragung wird in regelmäßigen Abständen vorgenommen, sobald eine wesentliche Menge neuer Daten mit Access erfasst und validiert ist. Der Vorgang, der das Leeren aller Oracle-Tabellen, den Transfer der Daten von Access nach Oracle, und 13 Open Database Connectivity (ODCB) repräsentiert einen herstellerunabhängigen Mechanismus für den Datenzugriff auf eine Vielzahl von Datenquellen. Literarisches Leben 17 die Erstellung der Suchindices in Oracle umfasst, bringt es mit sich, dass die Datenbank für eine bestimmte Zeitspanne (circa eine Stunde) nicht beziehungsweise nur eingeschränkt online zur Verfügung steht. Da dies nur in größeren zeitlichen Abständen geschieht, ist dieses Manko sicher akzeptabel. Die html-Seiten für den Zugriff auf die Oracle-Datenbank Literarisches Leben sind durchweg dynamisch, das heißt sie werden von Computerprogrammen (in diesem Fall PL/SQL-Programmen) jeweils ad hoc generiert. Dies trifft nicht nur auf die Anzeige der Suchergebnisse zu, sondern auch auf die Suchformulare. Deren Inhalt wirkt zwar meist durchaus statisch, er muss aber im Bedarfsfall, zum Beispiel zur Ausgabe von Fehlermeldungen, flexibel modifizierbar sein. In den meisten Suchmasken kommt JavaScript (zur Erweiterung der html-Funktionalität) zum Einsatz; Datenbankbenutzer müssen folglich einen JavaScript-fähigen Web-Browser verwenden. Mit Hilfe von JavaScript werden zum Beispiel die Sucheingaben der Benutzer noch vor dem Absenden der Suchanfrage auf formale Fehler überprüft und gegebenenfalls Fehlermeldungen ausgegeben. JavaScript dient ferner dazu, verschiedentlich Fenster mit Auswahllisten einzublenden; bei der Schlagwortsuche ist es unverzichtbar zur Realisierung einer hierarchischen Auswahlliste der verfügbaren Schlagworte. Schlagwortsuche Der Datenbankbenutzer ruft schließlich in seinem Web-Browser die Webseite mit der Suchmaske auf, das heißt, er startet auf dem Datenbankserver das Programm zur Erzeugung der Suchmaske. Such- 18 Baier/Frömming/Heise/Sittig Abfragen werden vom Webserver, genauer vom Oracle Internet Application Server (iAS), der auf einem eigenen UNIX-Rechner läuft, entgegengenommen und als Anfrage an die Oracle Datenbank weitergeleitet. Hier wird je nach Suchansatz das jeweilige PL/SQL-Programm (Stored Procedure) angestoßen, welches sich seinerseits die gewünschten Informationen aus den Datenbanktabellen beschafft. Die Ergebnisse stellt das PL/SQL-Programm in Form von html-Code zusammen und liefert es über den Webserver an den anfragenden Client aus. Einige Aspekte der Programmierung Während der Entwicklung der PL/SQL-Programme für die Datenbanksuche zeigte sich, dass manche der erfassten Daten unzweckmäßig für eine effiziente Datensuche sind, zum Beispiel bei der Datierung von Ereignissen. Hierzu können je nach Quellenlage oder der zeitlichen Ausdehnung des Ereignisses Angaben beliebiger Bestimmtheit in der Datenbank gespeichert werden, von der exakten Datumsangabe mit Tag, Monat und Jahr für Beginn und Ende eines Ereignisses bis zu einer bloßen Jahresangabe. Dies erschwert die Programmierung einer »ZeitraumSuche« (Suche nach Ereignissen in einem bestimmten Zeitraum) erheblich. Die Lösung besteht hier darin, alle ›unvollständigen‹ Datumsangaben in sinnvoller Weise zu komplettieren. Aus einer Datierung wie zum Beispiel »Mai 1960« wird der Zeitraum 1.5.1960 - 31.5.1960 abgeleitet, aus »1946« wird 1.1.1946 - 31.12.1946. Diese abgeleiteten Datumsangaben werden in zusätzlichen Tabellenfeldern der Datenbank gespeichert und ermöglichen nun eine elegante und effiziente Datenbanksuche nach Ereignissen innerhalb frei gewählter Zeiträume. Wenn bei einer Suchabfrage viele Tabellen einbezogen werden müssen, besteht die Gefahr, dass die Programme für die Datenbanksuche komplex und ineffektiv werden. Das gilt insbesondere für die Kombinierten Suchen. Hier wurde so verfahren, dass die relevanten Daten aus verschiedenen Tabellen(feldern) in einer eigens angelegten zusätzlichen Tabelle zusammengeführt wurden, so dass Suchvorgänge nur noch in dieser einen Tabelle stattfinden müssen. Die Suchprogramme können deshalb kompakter ausfallen und ihre Ablaufgeschwindigkeit ist höher. Erkauft wird dieser Vorteil damit, dass nun ein Teil der Daten redundant gehalten wird. Ein wichtiger Gesichtspunkt bei der Entwicklung der Suchverfahren betrifft die Frage des Sucherfolgs. Der Benutzer sollte die Möglichkeit haben, eine ›unscharfe‹ Suche mit nicht exakt festgelegten Suchbegriffen vorzunehmen. Dies wird erreicht, indem zum einen Jokerzeichen (›Wild- Literarisches Leben 19 cards‹) in Suchbegriffen zugelassen sind. Zum anderen wird durch den Einsatz des Oracle-Tools Intermedia Textsuche eine beträchtliche Erweiterung der Suchmöglichkeit erreicht. So spielt, um nur einige Vorteile zu nennen, die Groß-/Kleinschreibung des Suchbegriffs oder die Schreibweise von Umlauten (zum Beispiel ›ä‹ beziehungsweise ›ae‹) keine Rolle mehr. Ferner erlauben Suchoperatoren wie »AND«, »OR« oder »NOT« die logische Kombination von mehreren Suchbegriffen, und mit dem Operator »?« kann die Suche auf ähnlich lautende Worte ausgedehnt werden. Mögliche Abfragen Die dargestellte Aufarbeitung der Daten ermöglicht es, mit Hilfe verschiedener Suchmasken das Material nach ganz spezifischen Gesichtspunkten zu durchsuchen. Die Datenbank ermöglicht dabei bei einfacher Bedienung eine außergewöhnlich komfortable Bereitstellung von Informationen zu recht konkreten Interessengebieten, aktuelle Daten und notwendige Korrekturen können dabei jederzeit eingefügt werden. Die ›einfachen Suchen‹ liefern Ergebnisse unterschiedlicher Kategorien (zum Beispiel Buchtitel, kalendarische Ereignisse oder Preisverleihungen), gefiltert nach jeweils einem Einschränkungskriterium. Kalendarische Ereignisse lassen sich abfragen nach einem spezifischen Zeitraum, wobei zwischen einer integrierten Ausgabe und einer nach Ländern getrennten Ausgabe unterschieden werden kann (Suche nach Ereignissen in einem Jahr, beziehungweise nach Ereignissen in einem frei gewählten Zeitraum), oder nach beliebigen in einem Kalendariumseintrag enthaltenen Begriffen (Volltextsuche). Außerdem können mit Hilfe einer hierarchischen Schlagwortliste Einträge abgefragt werden, so zum Beispiel alle Einträge zu »Schriftstellervereinigungen«, einschränkend alle Einträge zu institutionalisierten »Schriftstellerverbänden«, bis hin zur genauen Ausgabe aller Daten zum Beispiel zum »Verband deutscher Schriftsteller (VS)« (Schlagwortsuche). Mit der Personensuche können alle in der Datenbank enthaltenen Einträge zu einer bestimmten Person (Ereignisse, an denen sie beteiligt war, Preise, die sie erhalten hat, Publikationen, an denen sie beteiligt ist) abgefragt werden. Die Publikationssuche ermöglicht es, durch Eingabe des Titels einer Publikation Informationen zu Büchern, Zeitschriften, Literaturverfilmungen et cetera abzufragen. Schließlich können noch Preisverleihungen in einem Jahr und Informationen zu Vergabekriterien, Stiftungsdatum, Dotierung et cetera zu einem bestimmten Literaturpreis abgefragt werden. 20 Baier/Frömming/Heise/Sittig Die Formulierung komplexerer Fragestellungen wird vor allem durch die ›kombinierten Suchen‹ möglich, in denen das eigentliche Potential der Datenbank liegt. Hier können die Nutzenden die unterschiedlichsten Einschränkungskriterien miteinander kombinieren und somit eine Fülle spezifischer Anfragen stellen. So lassen sich – natürlich mit Blick auf die unumgänglichen Einschränkungen in Hinblick auf Vollständigkeit und Repräsentativität der in die Datenbank aufgenommenen Ereignisse – zum Beispiel Hinweise auf all jene Literaturstreite abrufen, in denen der Antisemitismusvorwurf eine Rolle spielte; gesucht werden kann auch nach Bestsellern in einem bestimmten Zeitraum, nach Ausstellungen zu bestimmten Dichtern, nach Preisen, die eine bestimmte Publikation erhalten hat, nach Engagement von Schriftstellerinnen im Zuge der Debatte um die Stationierung von Mittelstreckenwaffen in der BRD oder nach den deutsch-deutschen Literaturbeziehungen in den 70er Jahren. Konsequenzen der Darstellungsform Durch die dargestellte Aufarbeitung des Datenmaterials stehen die Einträge – ähnlich wie in annalistischer Geschichtsschreibung14 – als freie Elemente zur Verfügung, die je nach Zusammenhang, in den sie gestellt werden, Bedeutung erlangen können. Mit einer derart frei operationalisierbaren Menge von Daten, deren Zusammenhang (etwa nach nationalen, personalen oder städtespezifischen Gesichtspunkten) durch Suchabfragen variabel generiert werden, können bestimmte Darstellungsprobleme, die bei linearen Texten oder Hypertexten mit begrenzten Lektürewegen entstehen, umgangen werden. So sahen sich etwa die Herausgeber des entsprechenden Bandes der Sozialgeschichte der deutschen Literatur15 im Hanser-Verlag genötigt, der Darstellung der österreichischen und schweizerischen Literatur zwei eigene angehängte Kapitel zu widmen, die nun gesondert neben den sonst sachlich geordneten Abschnitten zu den beiden deutschen Literaturen (in die freilich die prominenten Schriftsteller Österreichs und der Schweiz aufgenommen wurden) stehen. Für die Datenbank stellt sich dieses Problem nicht: Die Abfragen können sehr wohl das Kriterium der Nationalität berücksichtigen oder 14 15 Vgl. Lucian Hölscher: Neue Annalistik. Umrisse einer Theorie der Geschichte. Göttingen: Wallstein 2003 (Göttinger Gespräche zur Geschichtswissenschaft 17); Conrad Wiedemann: Annalistik als Möglichkeit der Literaturgeschichtsschreibung. In: Jahrbuch für Internationale Germanistik 2/1 (1970), S. 61-69. Vgl. Klaus Briegleb/Rolf Grimminger (Hg.): Gegenwartsliteratur seit 1968. München u.a.: dtv 1992 (Hansers Sozialgeschichte der deutschen Literatur vom 16. Jahrhundert bis zur Gegenwart, Bd. 12). Literarisches Leben 21 mit kulturtopographischen Vorstellungen operieren, aber sie sind nicht darauf festgelegt, sondern können je nach Bedarf etwa auch zeitraumoder personenspezifisch gestellt werden. Ein (im Gegensatz zum Hypertext allerdings explizites) Angebot zur Gliederung des Datenmaterials durch die Bearbeiter erfolgt gleichwohl, etwa durch die bereits dargestellte Verknüpfung der Einträge mit – hierarchisch geordneten – Schlagworten. Bei eindeutigen Ereignisfolgen verweisen die Einträge zum Teil im Text auch explizit auf andere Einträge in der Datenbank. Die Aufbereitung des Materials in einer Datenbank gewährt dem Benutzer somit Freiheiten in der Wahl der Lektürewege, die jene hypertextueller Repräsentationsformen noch übersteigen könnten.16 Dass die explizite mediale Verdeutlichung von Kausalitäten und Wirkungsrelationen zwischen einzelnen Ereignissen dabei zwangsläufig in den Hintergrund tritt – einerseits im Interesse der freien Kontextualisierbarkeit, andererseits aber auch mit Blick darauf, dass die Datenbank weniger Wirkungszusammenhänge in Forschungshypothesen präsentieren, als der Orientierung und Entwicklung neuer Fragestellungen dienen will – sollte dadurch aufgewogen werden. Natürlich wäre es dennoch illusorisch, davon auszugehen, die Aufbereitung des Materials im Medium Datenbank böte einen ›autorfreien‹ Text. Das Prinzip der inhaltlichen Verschlagwortung von Ereignissen und die damit verbundenen unausweichlichen Unschärfen, sowie die zwangsläufig wertende Darstellung etwa von Debatten und Skandalen fallen bei der Frage nach der allein schon durch das Medium suggerierten ›Objektivität‹ des Dargestellten ins Gewicht. Und auch bei Vermeidung der wertenden Darstellung von Ereignissen ist doch allein die Auswahl der aufgenommenen Ereignisse ein interpretativer Akt. Nutzer der Datenbank werden zum Beispiel schnell feststellen, dass sich das Datenmaterial vor allem auf die mittels der Institutionen und Praktiken des Feldes als ›hohe Literatur‹ kanonisierte Texte und Autoren bezieht – ein Blick auf die Bestsellerlisten verdeutlicht die zur Genüge bekannten Unterschiede zwischen dem in der Literaturkritik, dem im akademischen Diskurs und dem in seiner breiten Rezeption durch Bestsellerlisten dokumentierten Textkorpus. Enttäuscht werden muss die vielleicht schon durch das Medium entstehende Suggestion, die Abfrageergebnisse könnten (zum Beispiel stati16 Vgl. dazu das verwandte Projekt Romantic Chronology <http://english.ucsb.edu: 591/rchrono/> (22.1.2004), das von Laura Mandell und Alan Liu an der University of California in Santa Barbara seit 1995 aufgebaut worden ist, besonders das Statement Philosophy of this Site (7.9.1995) <http://english.ucsb.edu:591/rchrono/philosophy. htm> (22.1.2004). 22 Baier/Frömming/Heise/Sittig stische) Repräsentativität für bestimmte Teilbereiche (etwa das Ausstellungswesen) beanspruchen. Der zu Grunde gelegte weit gefasste Begriff des ›Literarischen Lebens‹ bringt es mit sich, dass so disparate Ereignisse wie kulturpolitische Entscheidungen, Theaterskandale, Phänomene des akademischen Betriebs oder literarische Ausstellungen in Stadtbibliotheken in den Blick rücken. Einer wie auch immer gearteten Vollständigkeit steht damit – ganz abgesehen vom Problem der beschränkten Arbeitskapazität – die übergroße Menge von Material entgegen, das je nach (auch zukünftigen) Fragestellungen zu Phänomenen des literarischen Lebens Relevanz gewinnen kann. Hinzu kommt in vielen Bereichen die problematische Quellenlage. Auf Grund der disparaten Informationen in einzelnen Bereichen und zu einzelnen Ereignissen muss das Datenmaterial notwendig heterogen, teilweise auch unvollständig bleiben. Das Projekt bescheidet sich damit, die Existenz bestimmter Debatten und Ähnliches anzuzeigen, kann aber weder Vollständigkeit noch auch nur annähernd erschöpfende Tiefenschärfe der dargestellten Ereignisse erreichen. Die Datenbank hat jedoch ihren Zweck erfüllt, wenn über eine erste Orientierung hinaus auf Grund der Informationen ein Interesse geweckt wird beziehungsweise der Impuls zu weiteren Nachforschungen entsteht.17 Ein Projekt wie dieses ist in besonderem Maße auf die Mitarbeit der Nutzenden angewiesen – Korrekturen und Ergänzungen, Anregungen und Kritik sind daher jederzeit willkommen. Sie können per e-mail an die Bearbeiter gerichtet, beziehungsweise auch im neuerdings eingerichteten »Forum« diskutiert werden. Wir danken allen, die bereits per E-Mail durch Fragen, Ergänzungen und Anregungen zur Verbesserung des Projekts beigetragen haben. 17 Vgl. auch die ähnliche Beobachtung in der Rezension zu Steins Kulturfahrplan auf CD-Rom (Benno Schlindwein: Rezension von Werner Stein: Chronik der Weltgeschichte. Der Neue Kulturfahrplan. 18.10.1999. <http://hsozkult.geschichte.hu-berlin. de/rezensio/digital/cdrom/multimed/scbe1099.htm> (22.1.2004). Michael Meier Autoren als Verleger: Die Zukunft der wissenschaftlichen Kommunikation? Abstract Journals are still the principal means by which new scientific knowledge is disseminated. The recent high and fast-rising cost of journals has had a devastating effect on the flow of scientific communication, the research community, and library collections. The following article provides an overview of the forces in the scientific communication market focusing on the particularly difficult situation for journals in the scientific, technical and medical (STM) fields. The impact of rising journal prices is aggravated by the availability of new media – such as Web editions of existing journals. Researchers – whose work is paid for by the university or the federal government – increasingly give away their research to commercial journals, which then charge universities high subscription fees in order to buy it back. The papers that appear in STM journals are typically provided free by academic researchers and are subject to peer review by academic referees and editors, who also receive little if any remuneration. To alleviate this difficult situation, numerous projects that represent a direct and strong competitive alternative to existing high-priced titles in important established STM fields have been launched. This article describes the far reaching transformation of the STM publishing market under way which will also change other scientific professions such as the humanities. 1. Einführung Bislang kommt Fachzeitschriften gegenüber Büchern infolge ihrer vergleichsweise kurzen Produktionszeit eine besondere Bedeutung im wissenschaftlichen Kommunikationssystem zu. Mit Hilfe weltweiter Datennetze wird die Kommunikation neuester Forschungsergebnisse innerhalb einer Forschergemeinschaft mehr und mehr in elektronischer Form abgewickelt. Die Entwicklung hin zum internetgestützten Medienverbund nimmt die Dimension eines Paradigmenwechsels an, der das Publikationssystem der STM-Fächer nachhaltig verändern wird. Aber auch die geisteswissenschaftlichen Fächer stehen vor einem profunden Umbruch 24 Michael Meier ihrer Publikationsgepflogenheiten, der sich bereits am Horizont abzeichnet. Denn durch den Abschied von Gutenberg und der Migration des wissenschaftlichen Publikationssystems ins Internet tritt ein Strukturkonflikt des Verlagswesens zu Tage, der sich um die Frage dreht, ob in Zukunft wissenschaftliche Informationen, vor allem im STM-Bereich,1 die mit den Mitteln des Steuerzahlers in öffentlichen Institutionen oder auf Grund staatlicher Projektförderung erlangt wurden, ein freies Gut darstellen oder auch künftig kostenpflichtig sein werden. Auslöser für die kritische Überprüfung des scientific beziehungsweise scholarly publishing ist eine für Bibliotheken und Wissenschaftler ungünstige Marktentwicklung, die gemeinhin als ›Zeitschriftenkrise‹ bezeichnet wird: Vor etwa zwanzig Jahren begannen Forschungsbibliotheken in den USA massiv über das wachsende Missverhältnis zwischen wissenschaftlichem Output und den zur Verfügung stehenden Ressourcen der Verlage und Bibliotheken zu klagen.2 Die wissenschaftliche Literatur insgesamt wächst exponentiell. Hinzu kommt, dass viele kommerzielle Verlage ihre Abonnementpreise für Printabonnements in den vergangenen Jahren drastisch erhöht haben. Wie die amerikanische Association of Research Libraries (ARL) feststellte, stieg der Durchschnittspreis pro Zeitschrift zwischen 1986 und 2000 um 226 Prozent – viermal so stark wie die Inflationsrate.3 Die der ARL angeschlossenen 122 Bibliotheken mussten im Jahr 2000 für einen um sieben Prozent geschrumpften Bestand an Titeln 124 Prozent mehr an Abonnementkosten aufbringen. Während US-amerikanische Forschungsbibliotheken zwischen 1986 und 1999 um 207 Prozent höhere Anschaffungskosten für Zeitschriften hatten, stieg die Zahl der begutachteten elektronischen 1 2 3 Entsprechend dem englischen Akronym für scientific, technical and medical [journals] werden naturwissenschaftliche, technische und medizinische Zeitschriften häufig als »STM-Zeitschriften« bezeichnet. Allerdings stellt die Beschwerde über exzessive Preise von Einzelabonnements ein bekanntes Topos seit den fünfziger Jahren dar. Eine detaillierte Übersicht des STMFachzeitschriftenmarkts und seiner Ausprägungen findet sich in Michael Meier: Returning Science to the Scientists. Der Umbruch im STM-Fachzeitschriftenmarkt durch Electronic Publishing. München: Peniope 2002, der Grundlage dieses Artikels. Weitere Informationen unter <http://www.peniope.de/titel_meier.htm> (17.2.2004). Die Association of Research Libraries (ARL) ist ein Zusammenschluss von 120 nationalen Universitäten und Bibliotheken zu einer nichtkommerziellen Mitgliederorganisation, darunter u.a. die Universitäten von California, Columbia, Cornell, Harvard, Indiana, MIT, Stanford, Yale, Pennsylvania State University, die New York Public Library und die Library of Congress. Die ARL ist zugleich Sponsor verschiedener Projekte und veröffentlicht regelmäßig ausführliche Statistiken zur Preisentwicklung bei wissenschaftlichen Zeitschriften. Autoren als Verleger 25 Journals zwischen 1991 und 2000 um 570 Prozent.4 Welch bedeutender Wirtschaftsfaktor hieraus entstanden ist, verdeutlicht das Volumen des STM-Fachinformationsmarktes von circa 9,5 Milliarden US-Dollar im Jahr 2000.5 Nicht nur in den USA ist der Handlungsbedarf unabweisbar, denn weltweit stehen die wissenschaftlichen Bibliotheken mit dem Rücken zur Wand. Deutsche Bibliotheken verlieren seit etwa zehn Jahren pro Jahr circa zehn Prozent ihres Bestellvolumens, so Elmar Mittler, Vorstandssprecher der Deutschen Initiative für Netzwerkinformation (DINI).6 Die Zeitschriftenabbestellungen durch Bibliotheken und Einzelpersonen stellen nicht nur die Öffentlichkeit von Wissenschaft in Frage, sondern bedrohen inzwischen auch die konkreten Arbeitsmöglichkeiten aller Forscher, da nicht nur weniger STM-Zeitschriften abonniert werden können, sondern die Anschaffung von Monographien in allen universitären Fächern durch den Kostendruck der STM-Journals drastisch zurückgeht. Die Zeitschriftenkrise im STM-Bereich hat also unmittelbare Auswirkungen auf die gesamte Literaturversorgung der Universitäten und Forschungseinrichtungen. 2. Theoretischer Überblick: Der STM-Zeitschriftenmarkt als Informationsvermittlungssystem Voraussetzung für jeden gelungenen Kommunikationsprozess ist die Selektion von Informationen, die durch eine Auswahl relevanter Informationen und deren Speicherung in einen differenzierten Informationsträger wie Sprache oder Verbreitungsmedien zur Aufrechterhaltung der Kommunikation führt. Seit der Erfindung des Buchdrucks dient das gedruckte Wort als Wissensspeicher. Die Entwicklung netzgestützter Kommunikationsmedien wie das Internet und elektronische Texte erweitert die verfügbaren Wissensspeicher und führt so zu einer Ausdifferen4 5 6 Drei Gruppen elektronischer Zeitschriften lassen sich unterscheiden: Die erste Gruppe der Preprints umfasst Veröffentlichungen, die eigentlich keine Zeitschrift bilden, aber im Kontext der Veröffentlichung als Zeitschriftenaufsatz stehen. Daneben gibt es die eigentlichen elektronischen Zeitschriften, die nur in dieser Fassung existieren, sowie die elektronische Parallelausgabe von weiterhin konventionell erscheinenden Zeitschriften, wobei die letzte Gruppe bislang den größten Anteil am Gesamtkomplex der elektronischen Zeitschriften ausmacht. Vgl. den Bericht Industry Trends, Size and Players in the Scientific, Technical & Medical (STM) Market. [o. A.] Burlingame, Ca: Outsell 2000. Siehe unter <http://www.dini.de> (17.2.2004) und Christiane Schulzki-Haddouti: Verlage treiben Hochschulbibliotheken in die Krise. In: Telepolis (29. Januar 2002), <http://www.heise.de/tp/deutsch/inhalt/on/11691/1.html> (17.2.2004). 26 Michael Meier zierung von Interaktionsmitteln der Wissenschaft. Das System Wissenschaft, dessen Leistung an die Gesellschaft in der Zurverfügungstellung neuen Wissens besteht, hat verschiedene Medienformen entwickelt, um situationsgemäß die optimale Form der Informationsübertragung sicherzustellen, darunter die wissenschaftliche Zeitschrift. Das System STMZeitschriftenmarkt ist ein Subsystem des wirtschaftlichen Systems Buchhandel, das wiederum mit bestimmten, fachlich differenzierten Subsystemen des wissenschaftlichen Systems (Science, Technology, Medicine,...) in Interdependenz steht. Diese Medien fungieren als Vernetzungsinstanz in der wissenschaftlichen Kommunikation, sie dienen als Informationsträger, die zur Selektierung von relevanten Informationen herangezogen werden. Für die Wissenschaft haben Teile des Wirtschaftssystems in Form von Verlagen, Agenturen und Bibliotheken die Produktion und Distribution dieser Medien übernommen.7 Ablaufdiagramm STM-Zeitschriftenmarkt Der wissenschaftliche Buchhandel in seiner Ausdifferenzierung als STMZeitschriftenmarkt entwickelte sich durch eine »Interpenetration zweier 7 In seinem Aufsatz von 1990 hat Georg Jäger die Entwicklung des wissenschaftlichen Buchhandels herausgearbeitet und in den Kontext der Systemtheorie eingeordnet. Die buchwissenschaftliche Literatur bezeichnet dieses Teilsystem als wissenschaftlichen Buchhandel (herstellend und vertreibend), während in dieser Arbeit der Begriff insbesondere auf den STM-Zeitschriftenmarkt bezogen wird, siehe Georg Jäger: Buchhandel und Wissenschaft. Zur Ausdifferenzierung des wissenschaftlichen Buchhandels. In: LUMIS-Schriften 26 (1990). Autoren als Verleger 27 sozialer Systeme, der Wissenschaft und des Buchhandels«8 im Zuge eines Ausdifferenzierungsprozesses zu einem autopoietischen Subsystem. STM-Zeitschriften sind Koprodukte des STM-Zeitschriftenmarktes und der Wissenschaft, deren Steuerung auf den jeweiligen Kommunikationsmedien Geld und Wahrheit beruht. Die Beschränkung des Wissenschaftssystems auf die Ermöglichung wahrheitsfähiger Kommunikationen wird unter anderem weiter beschränkt durch Theorien und Methoden als selektive Programme für die Zuweisung von Wahrheitswerten. Die Erprobung und Selektion der ›wahren‹ Theorien und Methoden geschieht im STM-Zeitschriftenmarkt durch das ›Peer Review-Verfahren‹. So greift das System STM-Zeitschriftenmarkt durch die Wissensakzeptanz und -ablehnung in das Wissenschaftssystem ein, denn das ›Peer Review-Verfahren‹ fungiert als Umweltselektion, das dem System Wissenschaft bei der Differenzierung wahr/unwahr und dem System STMZeitschriftenmarkt bei der Knappheitsregulierung dient. Daneben fungiert das System STM-Zeitschriftenmarkt als ›Wechselbörse‹ von gemeinsamen Nebencodes wie Ansehen, Einfluss, Macht, et cetera.9 Eine spezifische Funktion der Wissenschaft besteht in der Gewinnung neuer Erkenntnisse, die durch Zuweisung der Werte ›wahr‹ oder ›unwahr‹ an Sachverhalte und in Form von Wissen an die Gesellschaft weitergegeben werden.10 Alle wissenschaftlichen Operationen verfolgen dabei die Produktion wahrer Aussagen. Über Beobachtung kommt es zur Beschreibung mit Hilfe des Mediums Sprache, in das die Erkenntnisse als selektierendes Kommunikationsangebot in den wissenschaftlichen Diskurs eingebracht werden. Zu Wissen werden die Erkenntnisse durch Zuweisung des Labels ›wahr‹ und der Aufnahme in einen allgemein anerkannten Kanon an Speichermedien. Frank Holl teilt die im Prozess wissenschaftlicher Evolution dem Vergleich ausgesetzten Kommunikationsangebote in zwei Kategorien ein, die sich wesentlich durch die Unterscheidung »neue« versus »gesicherte« Erkenntnis auszeichnen.11 Auf dem STM-Zeitschriftenmarkt wird grundsätzlich zwischen begutachteten Beiträgen, die das Peer Review-Verfahren durchlaufen haben, 8 9 10 11 Georg Jäger: Buchhandel und Buchwissenschaft, S. 27. (Fußnote 7). Ebd., S. 28f. Vgl. Niklas Luhmann: Die Wissenschaft der Gesellschaft. Frankfurt a. M.: Suhrkamp 1990, S. 355. Unter ›Erkenntnis‹ ist stets ein Ereignis oder eine Ereignissequenz, unter ›Wissen‹ das Gesamtresultat struktureller Kopplungen des Gesellschaftssystems in Form eines aufgezeichneten Bestandes zu verstehen, vgl. ebd., S. 123 und 163. Frank Holl: Produktion und Distribution wissenschaftlicher Literatur: Der Physiker Max Born und sein Verleger Ferdinand Springer 1913-1970. In: Archiv für Geschichte des Buchwesens 45 (1996), S. 1-225. Hier S. 14. 28 Michael Meier und so genannten Preprints unterschieden.12 In beiden Fällen wird davon ausgegangen, dass der Produzent der Erkenntnisse diese für wahr hält. In der darauf folgenden Kommunikation innerhalb des wissenschaftlichen Systems wird ein Konsens über die Vergabe der – diesmal allgemein anerkannten − Kategorien ›wahr‹ und ›nicht wahr‹ im Rahmen einer binären Kodierung hergestellt. Luhmann spricht in diesem Zusammenhang von einer Kommunikation »in passabler Form«,13 die stilistische und inhaltliche Komponente ebenso wie Präsentationsform und Art des Mediums umfasst. Der unter dem Kode wahr/unwahr dominante Wahrheitswert der Wissenschaft, den das System STMZeitschriftenmarkt gewinnt, stellt die bestimmende Struktur der wissenschaftlichen Kommunikation dar, denn das Forschungsergebnis ist das konstituierende Element des Systems Wissenschaft. STM-Zeitschriften verfolgen dessen Kritik und stellen sie dar. So durchläuft jede Erkenntnis und jedes Wissen einen ständigen Überprüfungsprozess, der nach Kuhn auf der Kategorie der Wahrheit beruht.14 Jedoch ist die Prüfung der neu gewonnenen Erkenntnisse auf dem Hintergrund des bereits gesammelten Wissens nur möglich, wenn diese allen Wissenschaftlern der ›scientific community‹ zugänglich gemacht werden.15 Luhmann nennt als Selektionsmechanismus die wissenschaftliche Publikation in gedruckter Form, jedoch nehmen mittlerweile auch elektronische Medien diese Funktion wahr. Nach Luhmann sind 12 13 14 15 Der Ausdruck ›Preprint‹ hat verschiedene Bedeutungen. Einerseits bezieht er sich grundsätzlich auf ein begutachtetes Manuskript, das auf die Veröffentlichung in einem traditionellen Journal wartet. Andererseits beinhaltet der Begriff auch Paper, die zwar bei einem Journal eingereicht wurden, für die jedoch noch keine Publikationsentscheidung vorliegt, oder Paper, die auf elektronischem Wege veröffentlicht wurden und im Rahmen der Peer Group einer Wissenschaft kommentiert werden sollten. Daher können Preprints auch Dokumente beinhalten, die bei keinem Journal eingereicht wurden und für die dies auch nicht vorgesehen ist. Unter einem Eprint versteht man ein vom Autor selbst publiziertes und archiviertes Dokument, das laut der American Physical Society außerhalb des bisherigen traditionellen Publikationsmarktes veröffentlicht wird. Die Grenzen zwischen Preprint und Eprint verwischen derzeit. Eprints können von den Autoren jederzeit aktualisiert werden. Niklas Luhmann: Die Wissenschaft der Gesellschaft, S. 575. (Fußnote 10). Thomas Kuhn: Die Struktur wissenschaftlicher Revolutionen. 2. rev. Auflage. Frankfurt am Main: Suhrkamp 1976, S. 175. Erst eine Publikation mit fixiertem Erscheinungsdatum ermöglicht die Unterscheidung, ob die enthaltenen Erkenntnisse neu sind. Davon unabhängig ist, ob jemand bereits zu einem früheren Zeitpunkt - womöglich unpubliziert - eine gleichwertige Wissenserweiterung erreicht hat, vgl. Niklas Luhmann: Die Wissenschaft der Gesellschaft, S. 296. (Fußnote 10). Autoren als Verleger 29 Publikationen [...] gleichsam das Zahlungsmittel der Wissenschaft, das operative Medium ihrer Autopoiesis. Publikationsmöglichkeit ist eine der wichtigsten und einschneidensten Beschränkungen dessen, was erfolgreich mitgeteilt und dadurch wissenschaftliche Existenz gewinnen kann.16 Wissenschaftliche Resultate werden nur durch Publikation für andere Wissenschaftler nutzbar und nützlich gemacht. Die Doppelfunktion von Leser und Autor, die dem wissenschaftlichen Publizieren eigentümlich ist, nennt Luhmann eine »faktisch eingespielte Rollendifferenzierung«,17 die Autor und Leser in Kritik und Wahrheitsfindung verbindet. Die Doppelrolle eines Wissenschaftlers als Autor und Leser ist nach Luhmann auch symptomatisch für das rekursive Netzwerk der wissenschaftlichen Kommunikation. In dieser Doppelfunktion bilden Wissenschaftler die zentralen Handlungsrollen als Selektor und Prozessor, die sich in den Anschlussstellen des Systems Wissenschaft an dem System STMZeitschriftenmarkt widerspiegeln. Ökonomisch betrachtet ist Wissen ein Kapitalgut: ein seinerseits produziertes Produktionsmittel. Die wichtigste Industrie der Wissensproduktion ist der Forschungsbetrieb der Wissenschaft, der zugleich den wichtigsten Abnehmer vorproduzierten Wissens darstellt. Unter Zugabe lebendiger Aufmerksamkeit stellt die Wissenschaft aus vorgefertigtem Wissen neues Wissen her.18 Der wichtigste Markt für Wissen heißt wissenschaftliche Kommunikation. Auf ihm wird Wissen in der Form von Publikationen angeboten. Dieses Angebot trifft auf die zahlungsbereite Nachfrage derer, die an Inputs für die eigene Produktion interessiert sind. Die Publikation ist die Form, in welcher der Output der Wissensproduktion in den Input der Weiterverarbeitung übergeht.19 Das System des STM-Zeitschriftenmarktes bietet mit seinen Verlagsprodukten nicht nur die Grundlage der wissenschaftlichen Kommunikation im Sinne der Wahrheitsfindung, sondern diese Wahrheitsfindung wird Grundvoraussetzung für die wirtschaftliche Existenz des STM-Zeitschriftensystems. Mit wissenschaftlichen Innovationen lässt sich im STMZeitschriftenmarkt nur dann wirtschaftlich erfolgreich handeln, sofern ihr Wahrheitswert positiv ist, sie also wahr sind. Das Wechselspiel beider Systeme unterstützt somit deren Fortbestand. 16 17 18 19 Ebd., S. 432. Ebd., S. 319. Georg Franck: Ökonomie der Aufmerksamkeit. München/Wien: Hanser 1998, S. 38. Die Publikation hat dabei einen doppelten Effekt. Erstens erscheint das Wissen als Angebot auf dem einschlägigen Markt. Zweitens entsteht mit der Publikation geistiges Eigentum an diesem Wissen. 30 Michael Meier Doch der Forschungsbetrieb dreht sich nicht nur um die organisierte Suche nach Wahrheit. Das Streben nach Erstpublikation und exklusiver Autorenschaft zeigt, dass die Motivation des Wissenschaftlers über den rationalen Horizont der Wissenserweiterung hinausgeht. Das theoretische Bild der Wissenschaft komplettiert sich erst, wenn der organisierte Kampf um die Aufmerksamkeit mit einbezogen wird. Als Medium für den Transport der Aufmerksamkeit dienen nicht zuletzt wissenschaftliche Fachzeitschriften. Das Gratifikationssystem der Reputation ist das notwendige Komplement zur Logik der Forschung. Georg Franck stellt fest, dass die Kosten des Wissenschaftsbetriebs alleine mit Geld und Privilegien nicht finanzierbar wären.20 Der Forschungsbetrieb nutzt daher die Aufmerksamkeit, die einem Forscher entgegenkommt, nicht nur zu dessen Motivation, sondern auch zur Erledigung des operativen Geschäfts, indem die Widmung der Aufmerksamkeit für die Rezeption und Prüfung der Produktion anderer Wissenschaftler instrumentalisiert wird. Aufmerksamkeit hält somit in doppelter Funktion den Forschungsbetrieb in ständiger Selbstkontrolle und Selbstanalyse. Mit der Koordinierung innerwissenschaftlicher Information nimmt der STM-Zeitschriftenmarkt die primäre Funktion war, den Informationstransfer innerhalb der ›scientific community‹ zu regeln. Aufgabe des STM-Marktes ist es, im Rahmen verschiedener Publikationsformen wissenschaftliche Erkenntnisse auf die schnellste und effizienteste Art zu übermitteln. Als Teil des gesamtwirtschaftlichen Systems gelten im STMZeitschriftenmarkt marktwirtschaftliche Prinzipien wie Angebot und Nachfrage. Medien, die wissenschaftliche Informationen enthalten, besitzen einen ökonomischen Wert entsprechend ihrer jeweiligen Qualität. Zwei Perspektiven des Systems STM-Zeitschriftenmarkt werden unterschieden: die Handlungsperspektive (Autoren, Verlage, Zwischenhändler, Käufer, Leser) und die Medienperspektive (Printjournal, Ejournal, Preprints et cetera).21 Im Zuge einer Neustrukturierung der Wertschöpfungskette STM-Journal erfahren die Handlungsrollen eine Differenzierung, die die bisherigen Rollenmodelle teilweise drastisch verändert. Ebenso differenzieren sich Medien und Medienformen durch die Überwindung des gutenbergschen Druckverfahrens und die Auflösung des Mediums Papier. Im Zuge eines allmählichen Prozesses entwickelte sich die Ausdifferenzierung des STM-Zeitschriftenmarktes als Teilbereich des Systems des wissenschaftlichen Buchhandels. Nur wenige begutachtete Fachzeit20 21 Georg Franck: Ökonomie der Aufmerksamkeit, S. 48. (Fußnote 18). Siehe hierzu auch Georg Jäger: Buchhandel und Buchwissenschaft, S. 27 und 29. (Fußnote 7). Autoren als Verleger 31 schriften konnten sich bislang fächerübergreifend als Leitmedien für die Wissenschaft etablieren, so etwa Science oder Nature. Die oben skizzierte Entwicklungsgeschichte der Wissenschaftsgebiete hat vielmehr in paralleler Weise zu einer Ausdifferenzierung der zugehörigen Zeitschriften in kleinste Subsegmente geführt. In jüngster Zeit bilden sich durch die Verfügbarkeit elektronischer Medien neue Verbreitungskanäle wissenschaftlicher Informationen. Neben den traditionellen, gedruckten Journalen sind dies elektronische Zeitschriften im WWW sowie Vorveröffentlichungen in Form von Preprints. In der Medienperspektive entwickeln sich daher, unterstützt durch technologischen Fortschritt, neue Kommunikationsmittel, die sich durch spezifische Anwendungsformen unterscheiden.22 So bilden sich als Bündelung der unterschiedlichen Kommunikationskanäle weltweite elektronische Communities, in denen Wissenschaftler eines Fachgebiets untereinander kommunizieren. Diese Kommunikationsformen stellen eine Ausweitung bereits bestehender Kanäle in andere Medien dar und differenzieren sich in ihrer Funktionalität für den wissenschaftlichen Diskurs: Preprints dienen der raschen Information der Fachkollegen, gedruckte Zeitschriften der qualitativen Selektion und Vergabe von wahr-/unwahrKategorien. Zur informellen und schnellen Kommunikation wird E-Mail genutzt. Die fortschreitende thematische Ausdifferenzierung in Subkategorien sorgt somit für eine Erweiterung der wissenschaftlichen Disziplinen in diversen Publikationskanälen. 3. Strukturelle Gründe für Veränderungen im STM-Publikationssystem Unbestritten erfuhr das STM-Publikationssystem während der vergangenen Jahre umfassende Veränderungen, deren Gründe in strukturellen Verwerfungen der angeschlossenen Subsysteme liegen. Die Expansion des Systems Wissenschaft führte zu einer exponentiellen Steigerung der Zahl der Wissenschaftler in universitären und anderen Forschungseinrichtungen. Ihre Zahl wird aller Voraussicht nach weiter steigen. Die wachsende Wissenschaftlerschar erhöht den Bedarf an neuen Fachzeitschriften mit immer speziellerem Themenfokus. Dies fordern sowohl Kunden als auch potentielle Autoren: Wissenschaftler sind gezwungen, sich stets über die aktuellsten Entwicklungen in ihrer individuellen Sub-Spezialisierung auf dem Laufenden zu halten. Durch ihre zeitlich beschränkte Aufnahmekapazität konzentrieren sie sich daher auf Publikationen, die in ihrem Spezialgebiet erscheinen. Für wissenschaftli22 In dieser Arbeit unberücksichtigt bleibt das weite Feld der E-Mail-Korrespondenz. 32 Michael Meier che Autoren steigt außerdem in einem immer härter umkämpften Arbeitsumfeld die Notwendigkeit, in qualitativ hochwertigen und angesehenen Zeitschriften zu publizieren. Bei der Einreichung von Artikeln kommt es daher zu einem Abwägen zwischen dem Qualitätsranking der Zeitschrift und der Wahrscheinlichkeit, den Peer Review zu überstehen. Auch die Spezialisierungstendenzen der wissenschaftlichen Teildisziplinen führt zur Ausdifferenzierung neuer Subdisziplinen und multidisziplinären Forschungsinitiativen. Oft werden diese Entwicklungen von Neugründungen wissenschaftlicher Zeitschriften begleitet, die einer spezialisierten, sich neu konstituierenden ›scientific community‹ als Sprachrohr dienen. Wissenschaftler sehen sich darüber hinaus einem starken Publikationsdruck ausgesetzt, der allgemein mit dem Stichwort ›publish or perish‹ charakterisiert wird. Gerade Universitäten und Wissenschaftskollegen fordern von ihren Peers den stetigen Nachweis wissenschaftlicher Leistung, um scheinbar objektive Bewertungskriterien zu erhalten. Als Nebeneffekt der immer größeren Zahl wissenschaftlicher Artikel führt das langwierige Peer Review-Verfahren bis zur eigentlichen Veröffentlichung zu einer signifikanten Verzögerung des Publikationsprozesses. Zeitspannen von bis zu einem Jahr zwischen der ersten Einreichung eines Papers und der Drucklegung gelten in vielen Wissenschaftsdisziplinen als Standard. Zweifellos lässt sich diese Zeitspanne durch die Dauer des Drucklegungsprozesses erklären. Auch steht in Printzeitschriften häufig eine unzureichende Seitenkapazität zur Verfügung, so dass schlichtweg auf freie Artikelplätze gewartet werden muss. Denn die Unwägbarkeiten des Begutachtungsprozesses gelten als Ursache dafür, dass jedes Printjournal einen Artikelvorrat auflaufen lässt, der monatelang auf Abruf bereit liegt. Diese Zeitverzögerung erschwert die schnelle Interaktion und blockiert nicht nur fachliche Diskussionen zwischen Autor und Leser, sondern letztlich den reibungslosen wissenschaftlichen Diskurs. Die seit Jahren stagnierenden oder sinkenden Bibliotheksetats bilden einen weiteren exogenen Faktor, der vor allem im Hinblick auf die exponentiell wachsende Zahl der Wissenschaftler situationsverschärfend wirkt. Denn die weiter steigende Zahl wissenschaftlicher Journale bedeutet höhere Abonnementkosten und Arbeitsbelastung für die Bibliotheken. Auch der Anteil der Bibliothekskosten an den Gesamtausgaben für universitäre Ausbildung insgesamt sinkt weiter. Während der größten Wachstumsphase zwischen 1960 und 1971 steigerten die USamerikanischen Bibliotheken ihren Anteil am Erziehungshaushalt von unter drei Prozent auf fast vier Prozent. Während der siebziger Jahre Autoren als Verleger 33 blieb der Anteil konstant. Seit 1980 fällt der Ausgabeanteil für Bibliotheken nahezu jedes Jahr. Direkte Konsequenz der sinkenden Bibliotheksetats sind Veränderungen im Abonnementverhalten. Denn wenn Bibliotheken und Einzelabonnenten ihre Subskriptionen kündigen, bleibt Verlagen als Reaktion nur die Kundenneuwerbung oder eine allgemeine Preiserhöhung. Um die Auswirkungen der Abonnementkürzungen auf ortsansässige Wissenschaftler zu minimieren, gehen Bibliotheken nach klaren KostenNutzen-Erwägungen vor. So werden an der Yale University nur diejenigen Zeitschriftenabonnements storniert, die im Verlauf eines festgelegten Zeitraums keine oder nur minimale Nutzung erfahren haben.23 Die Preissteigerungen der Verlage haben verschiedene Ursachen. Zum einen spielt der Teufelskreis von sinkenden Abonnementzahlen und daraus notwendigen Subskriptionspreis-Anpassungen eine Rolle. Vor allem der drastische Rückgang der Einzelabonnements führte zu einer überproportionalen Preiserhöhung bei institutionellen Subskribenten wie etwa Bibliotheken.24 Zum anderen sehen sich zahlreiche Verlage seit Mitte der neunziger Jahre mit hohen Investitionen in elektronische Publikationssysteme konfrontiert. Die Preissteigerungen stehen allerdings in keinem unmittelbaren Zusammenhang mit den elektronischen Publikationsmedien, da sie erst ab 1997 von den großen Verlagen flächendeckend eingeführt wurden. Das Phänomen der Preissteigerungen hingegen ist bereits deutlich früher zu beobachten. Sie sind nicht die Ursache, sondern nur eine Facette der Zeitschriftenkrise. Daneben spielen auch marktwirtschaftliche Gewinnmaximierungsstrategien eine Rolle. Die zu beobachtenden Monopolisierungstendenzen in der Verlagslandschaft fördern diese Tendenz und geben den Verlagen mehr und mehr Marktmacht. Verlage selbst geben als Begründung für Preiserhöhungen häufig Umfangserweiterungen oder steigende Kosten des Peer Review-Prozesses an.25 Doch sind Umfangsvergrößerungen kein valider Grund für die zu beobachtenden Preiserhöhungen: Obwohl sich insgesamt gesehen die durchschnittliche Größe der Journale (das heißt die Anzahl der Seiten 23 24 25 Sehr instruktiv sind die Darstellungen der Initiativen an der Yale-Universität unter <http://www.library.yale.edu/scilib/jrnlstop.html> (17.2.2004). Carol Tenopir/Donald W. King: Towards Electronic Journals. Realities for Scientists, Librarians, and Publishers. Washington D.C.: SLA Publishing 2000, S. 32 sprechen von einem Rückgang um über 50 Prozent während der letzten 20 Jahre. So stieg laut Dr. Manfred Antoni, dem Geschäftsführer von Wiley-VCH, die Ablehnungsquote der Zeitschrift Angewandte Chemie von 53 Prozent im Jahr 2000 auf 68 Prozent im Jahr 2001, da deutlich mehr Artikel zur Veröffentlichung eingereicht wurden. 34 Michael Meier pro Ausgabe und die Anzahl der jährlichen Ausgaben pro Journal) erhöht hat, würden bereits weniger als die Hälfte der realen Preissteigerungen die daraus resultierenden Produktionskosten kompensieren. Beachtenswert ist auch, dass Abonnements aus kommerziellen Verlagen im Vergleich zu den meisten wissenschaftlichen Gesellschaften deutlich teurer sind.26 4. Lösungsmöglichkeiten für die Zeitschriftenkrise Aus dieser Übersicht wird deutlich, dass Verlage den Dreh- und Angelpunkt der Zeitschriftenkrise darstellen. Ihre Preispolitik führt zu den wissenschaftsschädigenden Umverteilungen in den Budgets der Bibliotheken. Alle Reformversuche zielen daher auf ein Aufbrechen des Preisdiktats der kommerziellen Verlage. Doch deren Marktstellung wird nicht zuletzt durch die imagebildende Wirkung etablierter Journale gestützt, deren Auswirkungen immer noch die starke Anziehungskraft der Printzeitschriften ausmacht. 4.1 Neuverteilung der Verwertungsrechte Die Übertragung der Verwertungsrechte stellt den Kernpunkt aller Strategieüberlegungen dar. Deren Besitz ermöglicht die Verfügung über das wesentliche Gut des STM-Zeitschriftenmarktes: neues Wissen. Die bisher übliche Übertragung der Verwertungsrechte vom Autor an den Verlag bildet die geschäftliche Grundlage des derzeitigen Verlagssystems.27 Bis zur Einführung des Electronic Publishing war es für wissenschaftliche Autoren kaum ökonomisch oder in Karrierehinsicht von Vorteil, das Verwertungsrecht an ihrer Arbeit für sich zu behalten. Derzeit bezahlen Autoren die Verlagsdienstleistung durch das uneingeschränkte Verwertungsrecht an ihren wissenschaftlichen Erkenntnissen. Verlage übernehmen dafür die weitere Aufbereitung und Distribution und erzielen im Verkauf der fertigen Artikel einen Gewinn. Sie können mit der uneingeschränkten Kontrolle dieser Informationen deren Distribution monopolisieren. 26 27 Siehe Tenopir/King: Towards Electronic Publishing, Tabelle 61 und 62. (Fußnote 24). Häufig wird von Verlagsseite auf das unternehmerische Risiko hingewiesen, das der Verlag in Auftrag des Autors eingeht und durch die Zurverfügungstellung der gesamten Verwertungsrechte kompensiert wird. Wie gezeigt, ist dieses Risiko auf dem STMZeitschriftenmarkt sehr gering. Autoren als Verleger 35 Die bisherigen Geschäftsstrategien der Verlage beruhen auf der Kontrolle exklusiver Verwertungsrechte an primären wissenschaftlichen Informationen, die zur gezielten Markenbildung von Journals verwendet werden und so die Grundlage der wirtschaftlichen Existenz von Verlagen darstellen. Eine grundlegende Marktveränderung wird nur mit einem veränderten Vergabemodus dieser Verwertungsrechte einhergehen. Denn auch wettbewerbsrechtlich ist die vollständige Verfügung über öffentlich finanzierte Informationsgüter, wie sie Verlage für sich in Anspruch nehmen, zumindest prüfenswert. Die bisherigen Übertragungswege des Verwertungsrechtes stehen darüber hinaus im Widerspruch zu den berechtigten Ansprüchen der Wissenschaftler auf freie Dissemination ihrer primären Forschungsergebnisse. Indem das Verwertungsrecht bei den Autoren bleibt, können diese auf einem sich neu formierenden STM-Zeitschriftenmarkt für die für sie optimale Publikationsvariante optieren. Verlagen wird damit die Möglichkeit genommen, extrem überhöhte Zeitschriftenpreise festzulegen, die Distribution erfolgt in ihrem maximalen Umfang durch elektronische Medien. Eine solche fundamentale Änderung des Marktsetups bedingt ein ebenso radikales Redesign des Marktes, das sich nur in mehreren Schritten realisieren lässt. Ein erster Schritt wäre die Redistribution der öffentlichen Mittel, die für die Aufrechterhaltung des STM-Zeitschriftenmarktes derzeit fließen.28 4.2 Redistribution öffentlicher Mittel Die oben angedeutete Neuverteilung des Autorenverwertungsrechtes geht einher mit der Redistribution öffentlicher Mittel für die Erstellung und den Erwerb von STM-Informationen. Sie bedarf einer grundlegenden Neuordnung. In der derzeitigen Konstellation kommen die Bibliotheken, das heißt die öffentliche Hand für alle Folgekosten der wissenschaftlichen Publikation auf. Dem Autor entstehen keine Kosten. Wäre dieser selbst mit einer finanziellen Aufwendung an den Verlag beteiligt, und behielte gleichzeitig zumindest teilweise die Rechte an seinem Werk, wäre das finanzielle Verteilungssystem des STM-Zeitschriftenmarktes nachhaltig verändert. Letztendlich wird die Universität als Arbeitgeber 28 Eine Lösung für die Zeitschriftenkrise lässt sich u.U. auch durch ein weniger radikales Redesign des STM-Zeitschriftenmarktes erreichen. Allerdings bleibt m.E. für eine langsame Evolution des Marktes unter den gegebenen Bedingungen nicht ausreichend Zeit. 36 Michael Meier der wissenschaftlichen Autoren für die Publikation der primären wissenschaftlichen Literatur in finanzieller Hinsicht aufkommen. Wie der Autor selbst in den finanziellen Kreislauf eingebunden werden kann, führen bereits einige Verlage in beispielhafter Weise vor. Der BioMedCentral-Geschäftsführer Jan Velterop umschreibt seine Geschäftsphilosophie mit dem Schlagwort »Author Charges are the Future«.29 Autorengebühren bergen das Potential, das System des wissenschaftlichen Publizierens nachhaltig zu verändern. Wissenschaftler erwarten vom STM-Publikationssystem, dass ihre Ergebnisse in ein Archivierungssystem eingebracht werden und weitestgehende Verbreitung finden. Optimale Wissenszirkulation kann allerdings das derzeitige Veröffentlichungswesen nicht leisten. Noch unterliegt offener und öffentlicher Zugang zu wissenschaftlichen Forschungsergebnissen Restriktionen. Die Finanzierung der wissenschaftlichen Veröffentlichung über die Universität des Autors beziehungsweise der Konsumenten unter Ausschaltung der Bibliotheken (die jedoch nach wie vor dem Archivierungsauftrag nachzukommen haben) und garantiertem freien Zugang für alle Interessierten, nicht nur einer kleinen Gruppe von Abonnenten. Das BioMedCentral-Modell ermöglicht den Verlagen, ihre Kosten für die Veröffentlichung der wissenschaftlichen Information unabhängig von Abonnements zu decken. Noch sind die strukturellen Auswirkungen dieses neuen Geschäftsmodells nicht absehbar; die Reaktionen der relevanten Bibliothekscommunity waren jedoch insgesamt sehr positiv.30 Steuert der Autor mit einer Zahlung an den Verlag selbst die Verbreitung seiner Forschungsergebnisse, werden damit wesentliche Verbesserungen des Informationsaustausches mit der Konsequenz einer deutlich verbesserten Verbreitung wissenschaftlicher Informationen erreicht: Denn nicht nur durch Verlage, sondern auch über andere, elektronische Kanäle wie Preprint-Server oder wissenschaftliche Communities werden Forschungsergebnisse verbreitet. Verlage wären unter diesen Marktumständen gezwungen, um die besten wissenschaftlichen Artikel zu konkurrieren, denn die Autoren wägen die Einreichung ihrer Artikeln nach ökonomischen und renommeebezogenen Gesichtspunkten ab, da sie mit ihrem eigenen Budget an der Veröffentlichung beteiligt sind. Der Autor ist damit unmittelbar an einer 29 30 Vgl. <http://www.biomedcentral.com> (17.2.2004). Bei allem Optimismus über die innovativen Geschäftsmodelle, die BioMedCentral entwickelt, darf nicht übersehen werden, dass ein Hauptziel von BioMedCentral in der Schaffung von veräußerbaren unternehmerischen Werten liegt (auch das innovative Portal BioMedNet wurde von der Current Science Group entwickelt und anschließend an ElsevierScience veräußert). Autoren als Verleger 37 schnellen und breiten Distribution seines Werkes interessiert und kann diese selbst steuern. Die Auswahl der Zeitschriftenlabels und die Menge der eingereichten Artikel verändern sich als Folge des neuen Finanzierungsstroms nachhaltig. Wettbewerb und Innovation in der Autorenbetreuung und Informationsverbreitung werden so gesteigert. Mit Aufgabe des restriktiven und exklusiven Verwertungsrechtes in der Hand einer einzigen Institution würden auch die Markteintrittsbarrieren in den STMZeitschriftenmarkt deutlich sinken. Damit könnte sich auch der Distributionsmarkt effizienter ausdifferenzieren. Grundsätzlich liegt die Zukunft nicht im überkommenen, seriellen Zeitschriftenkonzept, sondern in einem evolutionär wachsenden Artikelarchiv. Der Wettbewerbsvorteil der Verlage beziehungsweise Contentdienstleister wird mehr und mehr durch die Fähigkeit definiert, eine kritische Masse an attraktiver wissenschaftlicher Information durch eine einzige, nutzerfreundliche Schnittstelle bereitstellen zu können. Peer Review wird aller Wahrscheinlichkeit nach die akzeptierte und geforderte Qualitätskontrolle bleiben, auch wenn mit interaktiven Leserentscheiden experimentiert wird. Realistischerweise ist kurzfristig keine schnelle Veränderung des Fachzeitschriftenmarktes zu erwarten. Nur wenn die Einkaufsbudgets der Universitäten den einzelnen Departments zugeordnet würden, könnten diese ein alternatives Publikationssystem in Erwägung ziehen. Ohne eine solche Veränderung wird die Entwicklung von Portalen für bestimmte wissenschaftliche Themen zunehmen. Dabei wird ein Mix an kostenlosen und kostenpflichtigen wissenschaftlichen Informationen entstehen, die insgesamt kommerzielle beziehungsweise staatliche Unternehmen kontrollieren. Möglicherweise werden diese Journals von Wissenschaftlern selbst veröffentlicht, allerdings unter der wirtschaftlichen Verantwortung kommerzieller Häusern, die ihre Branding- und Marketingkompetenz einbringen. Am Ende der Entwicklung steht ein diversifizierter Contentmarkt, der sich durch freie Verfügbarkeit der wissenschaftlichen Informationen und eine Reihe kommerzieller Dienstleistungsunternehmen auszeichnet, die für die Interessen der Wissenschaftler tätig sind. 5. Ausblick Die Verbreitung von verlässlichen Forschungsergebnissen im STMBereich ist ein komplexes und vor allem oftmals hochprofitables Geschäft. Derzeit wird der STM-Zeitschriftenmarkt größtenteils durch Verlagskonzerne bestimmt, obwohl auch kleinere, unabhängige Verlagshäuser und wissenschaftliche Gesellschaften einen nennenswerten Anteil am 38 Michael Meier Gesamtgeschäftsvolumen haben. Die Anzahl frei zugänglicher Ejournals, die von Wissenschaftlern ohne finanzielle Unterstützung unterhalten werden, ist zwar gewachsen, jedoch nicht in dem Ausmaß, wie dies noch vor etwa fünf Jahren vorhergesagt wurde. Gleichzeitig digitalisierten kommerzielle und nichtkommerzielle Verlage ihren wissenschaftlichen Content in verhältnismäßig großem Umfang. Dies führte zu einer erneuten Vormachtstellung der etablierten Verlage im neuen Medium Internet. Große Verlagshäuser, die den Markt des gedruckten Journals dominieren, dehnen diese Kontrolle auch auf die elektronischen Zeitschriften aus. Hierzu bedienen sie sich neu aufgebauter Zugangsrestriktionen, vor allem der Kontrolle von Verwertungsrechten in allen Medienformen. Das (amerikanische) Copyright, ursprünglich für den Schutz der Autorenkreativität gedacht, bildet mittlerweile die Basis der Geschäftsmodelle kommerzieller Verlage und die Grundlage nahezu aller ökonomischen Aktivitäten auf dem STM-Zeitschriftenmarkt. Im elektronischen Zeitalter ermöglicht die Kontrolle der Verwertungsrechte den kommerziellen Verlagen nahezu unbeschränkte Flexibilität in der Bündelung hochspezialisierter Zeitschriften mit geringem Journal Impact Faktor – eine Strategie, die ihre Marktmacht noch mehr vergrößert. In der andauernden Debatte über die Zukunft des wissenschaftlichen Publizierens wurde den Verlagen vielfach eine gewisse Kontrolle über die Verwertungsrechte an primären wissenschaftlichen Forschungsergebnissen zugestanden. Bislang besteht die wesentliche Einnahmequelle der Verlage in Subskriptionen und den daraus realisierten Gewinnen. Sowohl kommerzielle als auch nichtkommerzielle Verlage erachten Verwertungsrechte als essentiell für ihre Geschäftsmodelle und ihren wirtschaftlichen Erfolg. Daher haben alle Vorschläge, die an dieser grundsätzlichen Verteilung der Verwertungsrechte tief greifende Modifikationen vorschlugen, mit die hitzigsten Debatten ausgelöst, so etwa die Diskussion um die Public Library of Science.31 In der Printära waren zeitlich unbegrenzte Nutzungsrechte von Verlagen unproblematisch. Das elektronische Medium ändert dies, da neue und kostengünstige Distributionskanäle den Wissenschaftlern als Alternative zur Verfügung stehen. Sobald die gedruckten Parallelausgaben verschwinden, werden die Kosten für das Bibliothekssystem deutlich sinken. Dies muss nicht zu Lasten der Verlagsgewinne gehen, da externe Kosten wie Erwerbungen nur etwa ein Drittel der Bibliotheksausgaben ausmachen. Es sind die hohen internen Kosten der Bibliotheken, die 31 Vgl. <http://www.publiclibraryofscience.org> (17.2.2004). Autoren als Verleger 39 durch einen Wechsel zum rein elektronischen Publikationsparadigma nachhaltig gesenkt werden können. Die bislang vorherrschende Ausdifferenzierung des Zeitschriftenmarktes in thematische Subsegmente kann durch übergreifende Archive aufgebrochen werden, da die Grenzen zwischen den unzähligen Subdisziplinen wegfallen. Doch noch fehlt vielen innovativen Zeitschriftenprojekten die notwendige kritische Masse an wissenschaftlichen Informationen, um auf dem Markt wahrgenommen zu werden. Dies gilt auch für zahlreiche Datenbankprojekte. Um effektiv zu sein, müssen diese Datenbanken eine ausreichende Masse an relevanter Literatur sowohl des kommerziellen als auch des nichtkommerziellen Spektrums umfassen. Um gegen die derzeit vermarkteten Online-Projekte großer Verlagshäuser bestehen zu können, benötigen öffentliche Archive ebenfalls größere Zeitschriftenportfolios, die nur durch entsprechende Zusammenschlüsse erreichbar sind. Doch kommerzielle Verlage beharren auf ihren OnlineVerwertungsrechten, da sie in Zukunft über eigene, vertikale Themenportale dauerhafte, neue Geschäftsmodelle im Internet realisieren wollen. Die schnellste Weise, diesen Wechsel zu finanzieren, besteht in der Redistribution der Forschungsmittel vom bisherigen Abonnementsystem hin zu den Autoren selbst, die damit ihre Publikation mit freiem Zugang finanzieren könnten. Das gesamte Potential des elektronischen Publizierens lässt sich nur voll ausschöpfen, wenn die wissenschaftliche Gemeinschaft ihren Einfluss geltend macht. Wie in der Hochenergiephysik durch den ArXiv-Server müssen Verlage gezwungen werden, aus schierem Systemdruck heraus die freie Verfügbarkeit wissenschaftlicher Informationen zu akzeptieren. Denn es ist illusorisch zu erwarten, die Wissenschaft werde sich mit Selbsthilfe-Projekten wie SPARC langfristig gegen die Verlage stemmen können. Wissenschaftler wollen zwar keine Datenbankbetreiber, sondern wissenschaftlich tätig sein. Dennoch liegt das Schicksal von barrierefreien, öffentlichen Archiven zum großen Teil in der Hand der wissenschaftlichen Community. Obwohl sich bislang das grundsätzliche Format der wissenschaftlichen Zeitschrift verhältnismäßig langsam wandelt, sind drastische Umbrüche innerhalb der kommenden fünf bis zehn Jahre zu erwarten. Denn die Bedeutung traditioneller Journals in der wissenschaftlichen Kommunikation sinkt rapide zu Gunsten einer Ausweitung alternativer Distributionskanäle. Das Internet ermöglicht eine ganze Reihe neuer, deutlich flexiblerer und schnellerer Kommunikationsformen. E-Mail-Korrespondenz und Preprint-Server breiten sich rasch in vielen wissenschaftlichen Communities aus und ersetzen vielfach traditionelle Zeitschriften. Mit der Einführung allgemein anerkannter Qualitätssiegel wird sich diese 40 Michael Meier Entwicklung noch beschleunigen. Auch in Wissenschaften, die jetzt noch in hohem Maße auf ältere wissenschaftliche Informationen zurückgreifen müssen, werden diese zukünftig als digitale Dokumente zur Verfügung stehen. Walter Morgenthaler Gottfried Kellers Studienbücher – elektronisch ediert Abstract Handwritten documents like Gottfried Keller's ›Studien- und Notizbücher‹ (›study and note books‹) demand an edition, which accounts for the special character of text witnesses. It is not the task to transfer the records into ›edited texts‹ only, but to make them visible inside their topographic embedding. The Historisch-Kritische Gottfried KellerAusgabe (Historical-Critical Gottfried Keller Edition) complies with these requirements owing to the complete reproduction of the text witnesses and the complement of each hand written page with a diplomatic transcription. The computer edition on CD-ROM, issued with the book, intends to implement appropriately the interaction of hand writing and transcription as well within the electronic media. This specification includes, aside from a word by word parallelisation, also a search option for character strings, which spans the entire corpus of the text witnesses. Thus, the limitation to sole textual and graphic display, which still rules today's electronic media, is overcome. Im Herbst 2001 sind im Rahmen der Historisch-Kritischen Gottfried Keller-Ausgabe (HKKA)1 die Bände 16.1 und 16.2 mit Kellers Studienund Notizbüchern erschienen.2 Mit diesen Bänden war für die HKKA 1 2 Gottfried Keller. Sämtliche Werke. Historisch-Kritische Ausgabe. Hg. unter der Leitung von Walter Morgenthaler im Auftrag der Stiftung Historisch-Kritische Gottfried Keller-Ausgabe. Basel/Frankfurt a. M./Zürich: Stroemfeld-Verlag/Verlag Neue Zürcher Zeitung 1996ff. HKKA, Bd. 16.1 Studienbücher (2001), Bd. 16.2 Notizbücher (2001), Bd. 29 Studienund Notizbücher. Apparat zu Bd. 16.1 und 16.2 (2002), alle hg. von Walter Morgenthaler/Thomas Binder/Peter Villwock/Peter Stocker/Karl Grob unter Mitarbeit von Dominik Müller. – Die HKKA gliedert sich in vier Abteilungen. Abteilung A (HKKA 1-10) entspricht Kellers Ausgabe letzter Hand, den Gesammelten Werken von 1889; Abteilung B (HKKA 11-15) enthält die publizierten Werke (und Werkfassungen), die Keller nicht in die Gesammelten Werke aufnahm, z.B. die erste Fassung des Grünen Heinrich oder die frühen Gedichtbändchen; Abteilung C (HKKA 16-18) dagegen umfasst die Nachlass-Schriften, also etwa Kellers Tagebuch und Traumbuch, die Dramenfragmente oder die Studien- und Notizbücher. Abteilung D (HKKA 19-32) enthält die Apparatbände mit Entstehungsgeschichte, Textzeugenbeschreibung, Variantenverzeichnis, Dokumenten zur Entstehung und Überlieferung. Den Apparatbänden ist eine 42 Walter Morgenthaler eine neue Situation gegeben: Zum ersten Mal ging es nicht – wie bei den vorher edierten großen Novellenzyklen – vorrangig um Probleme der Textentstehung, der Variantenverzeichnung oder der Überlieferungsgeschichte, sondern um die Frage, wie mit ausschließlich handschriftlich überlieferten Nachlasstexten umzugehen sei. Und insbesondere: Wie Textzeugen zu behandeln seien, welche – wie die Studien- und Notizbücher – die unterschiedlichsten Eintragungen versammeln, deren Nebenund Nacheinander allein schon (diesseits jeder Werkintention) einen Zusammenhang sui generis bilden. Diese Fragen waren sowohl für die Buchausgabe wie für die sie begleitende und ergänzende elektronische Edition (Computeredition) zu beantworten. Die folgenden Ausführungen greifen die Fragen auf und diskutieren die gewählten Lösungsverfahren in gedrängter Form anhand eines einzelnen Textzeugen. Die Textzeugen Das Studienbuch Ms. GK 13, von dem hier einzig die Rede sein soll, enthält Eintragungen aus der Zeit von 1835 bis 1838, die 1841, während Kellers Studienaufenthalt in München, durch weitere ergänzt wurden. Während es sich bei den Münchner Eintragungen vor allem um erzählerische Entwürfe für das (vermutlich als Unikat hergestellte, aber nicht erhaltene) Wochenblatt der Schweizergesellschaft handelte, dessen zeitweiliger Redakteur Keller war, so sind es davor so unterschiedliche Dinge wie Gedichtexzerpte, Räubergeschichten, Briefentwürfe, Reflexionen über Kunst und Leben oder ein dreißigseitiger Dramenentwurf; dazu kommen aber vor allem auch Zeichnungen, die – bei umgedrehtem Buch – vorwiegend den hinteren Teil belegen. Nichts von alledem ist später in Kellers Werk eingegangen, und doch kündigt sich darin vieles an, was das spätere Schaffen ausmacht. Wird an den Exzerpten augenscheinlich, wie sich über dem Abschreiben fremder Texte allmählich das eigene Schreiben zu formieren beginnt, so zeigt sich andererseits am Wechsel von Bild und Schrift Kellers frühe Unentschiedenheit zwischen Malerund Dichtertum. Die »Texte« mit ihren weitgehend kontextunabhängigen Bedeutungsstrukturen bilden nur die eine Ebene dieses Textzeugen. Ebenso bedeutsam sind – ganz abgesehen von den Skizzen und Zeich- 3 CD-ROM mit der Computeredition beigelegt, die den jeweils aktualisierten, gesamten bisher edierten Bestand umfasst. Die Studien- und Notizbücher werden in der Zentralbibliothek Zürich unter den Signaturen Ms. GK 1 und 2 (Studienbücher), Ms. GK 66-76 (Notizbücher) aufbewahrt. – Zur Typologie vgl. HKKA 29, S. 64f. Gottfried Kellers Studienbücher – elektronisch ediert 43 nungen – all die Phänomene, die nicht als solche in die »Texte« eingehen, vielmehr diese gerade an den einmaligen Textzeugen zurückbinden: die Anordnung der Eintragungen, der Seitenumbruch, die Positionierung innerhalb einer Seite, die Leerräume, die Streichungen oder der abrupt ändernde Schriftzug. Ein Beispiel: Die Seite 83 des Studienbuches ist ganz Kellers Geburtstag vorbehalten. Es sei hier die Wiedergabe eingerückt, wie sie sich als konstituierter Text in Band 7 der Keller-Ausgabe des Deutschen Klassiker Verlags (DKV) findet: Den 19. Juli 1837 Heute ist mein 18ter Geburtstag; von heute an über 2 Jahre gelob ich mir, einigen Ruf zu gewinnen, wo nicht, so werf’ ich die Kunst zum Teufel und lerne das Schusterhandwerk. den 19. Juli 1838 Heute ist mein 19ter Geburtstag und sehe ein, daß es dummes Zeug war, was ich vor einem Jahre geschrieben. den 20ten Juli O! Unabhängigkeit! wie bist du so schön!4 Die Wiedergabe lässt erkennen, dass die beiden ersten Eintragungen um genau ein Jahr auseinanderliegen, wobei die zweite das Gelöbnis der ersten widerruft. Unklar ist, wie sich die dritte, euphorisch gestimmte, zu den beiden andern verhält. 4 Gottfried Keller. Sämtliche Werke in sieben Bänden. Hg. v. Thomas Böning u. a. Frankfurt a. M.: Deutscher Klassiker Verlag 1985-1996 (= DKV). Bd. 7: Aufsätze Dramen Tagebücher. Hg. v. Dominik Müller (1996), S. 587. – Die Wiedergabe des DKVs löst den originalen Zeilenumbruch auf, beschränkt sich auf die ›entzifferbaren‹ Partien, verzichtet auf die Korrekturvarianten und auf die Kennzeichnung grafischer Phänomene. 44 Walter Morgenthaler Bild 1 Was nur die Handschrift (siehe das folgende Bild 1) unmittelbar verrät, ist der Befund, dass der Widerruf von 1838 nachträglich in dunklerer Tinte und mit breiterer Feder dazwischengeschoben wurde und dass die Unabhängigkeits-Emphase die gleiche Schrift und Tinte aufweist wie die erste Eintragung und demzufolge dem Jahr 1837 (nicht 1838) zuzurechnen ist. Dazu kommt nun, noch zur ersten Eintragung gehörend, ein weiterer halb verwischter oder ausradierter, nur durch Interpolation vollständig entzifferbarer Satz, durch den die Eindeutigkeit der Aussagen und Zuordnungen etwas ins Wanken gerät: Heute sah ich ein Mädchen, das mir gefällt; ich werde es kennen lernen; von heute an über 2 Jahre will ich wissen ob wir zueinander gehören od. nicht. Auch wenn der Satz – zu unbestimmbarem Zeitpunkt – getilgt wurde, geschah dies nur unvollständig und keineswegs bis zur völligen Unlesbarkeit, dadurch aber gerade zu insistenterem Hinsehen aufrufend.5 Nicht entscheiden lässt sich, ob die Widerrufung der zweiten und die 5 Wie die Abbildung in HKKA 16.1, S. 173 zeigt, kann der radierte Satz – entgegen den bisherigen, ihn meidenden Ausgaben – durch verstärkte Kontrastierung bis zur weit gehenden Entzifferbarkeit sichtbar gemacht werden. Gottfried Kellers Studienbücher – elektronisch ediert 45 Euphorie der dritten Eintragung sich auf den getilgten Teil der ersten Eintragung oder nur auf deren Anfang oder auf beides zugleich beziehen. Erstaunlich genug bleiben die Konstellation insgesamt und die Tatsache, dass Keller ein Jahr nach der Eintragung des Gelöbnisses genau an dieser Stelle des Studienbuches den Widerruf – für wessen Auge? – eingepasst hat. Dabei nimmt die ursprüngliche tildenförmige Abschlusslinie unter der ersten Eintragung unversehens die Gestalt einer Verbindungsschleife an, welche wie eine versöhnende Geste die spätere Widerrufung an das frühere Gelöbnis heranholt. – All diese vorrangig topografischen Phänomene lassen sich nicht in einen ›edierten Text‹ überführen oder in einem Kommentar zur Anschauung bringen. Wie aber können sie angemessen dargestellt werden? Die Edition der Studien- und Notizbücher Noch unberührt von solchen Fragestellungen sind die zwischen 1926 und 1949 von Jonas Fränkel und Carl Helbling herausgegebenen Sämtlichen Werke (SW),6 die zum ersten Mal auch Kellers Nachlassschriften in größerem Umfang erschlossen haben. Entsprechend der werkteleologischen Grundausrichtung dieser Edition wird den Studien- und Notizbüchern nur Beachtung geschenkt, soweit sie als Materialsammlung für die Entstehungsgeschichte publizierter Werke (zum Beispiel des Grünen Heinrich) dienen können, eine authentische dichterische Schaffenskraft erahnen lassen (SW 20) oder etwa die Extrapolation allgemein gültiger »Reflexionen« (SW 22, S. 325ff.) erlauben. Erst im Rahmen der Keller-Ausgabe des Deutschen Klassiker Verlags (DKV)7 wurde erstmals versucht, wenigstens die beiden frühen Studienbücher im Zusammenhang wiederzugeben: allerdings in der Gestalt bereinigter Fließtexte, ohne Berücksichtigung der Korrekturvorgänge, der Zeilen- und Seitenumbrüche und sonstiger topografischer Besonderheiten sowie unter Weglassung der Exzerpte und der Zeichnungen – entsprechend der Einheitsdoktrin des Gesamtunternehmens DKV, der gemäß alles nicht nur möglichst gleich behandelt wird sondern auch noch gleich aussehen soll. Dass dadurch der eigentliche Reiz der Studienbücher gerade verloren geht, ist die eine Sache; die andere, dass durch die 6 7 Gottfried Keller. Sämtliche Werke. Hg. v. Jonas Fränkel (1926-1939)/Carl Helbling (1942-1949). Erlenbach-Zürich/München: Rentsch 1926-1927; Bern/Leipzig: Benteli 1931-1944; Bern: Benteli 1945-1949. Vgl. Fußnote 4. 46 Walter Morgenthaler nicht markierten Weglassungen irreführende Textnachbarschaften8 und durch das Fehlen topografischer Hinweise sogar grobe Missverständnisse entstehen können.9 Dem vermögen einzig die im Kommentar untergebrachte Übersichtsliste (S. 1079ff.) und die ebendort zu findenden Stellenerläuterungen einigermaßen entgegenzuwirken – vorausgesetzt, der Benutzer macht wirklich davon Gebrauch. Da die HKKA im Gegensatz zu allen sonstigen Keller-Ausgaben davon ausgeht, dass die topografischen Eigenheiten den handschriftlichen Textzeugen nicht bloß äußerlich sind, sondern ihren Charakter zutiefst mitprägen, wurde ein editorisches Verfahren gesucht, das die entsprechenden Befunde auf möglichst einfache Art umzusetzen vermag. Die nahe liegendste Lösung bestand darin, die Textzeugen vollständig abzubilden und dabei den (von Keller oder von anderer Hand) beschriebenen Seiten eine diplomatische Umschrift gegenüberzustellen, unter Verzicht auf die Konstituierung eines wie auch immer bereinigten ›edierten Textes‹. Als Modell diente die von Roland Reuß und Peter Staengle im Stroemfeld Verlag herausgegebene Franz Kafka-Edition,10 in der Handschrift und diplomatische Umschrift sich gegenseitig ergänzen, ohne dass dabei die Transkription das Bild der Handschrift verdrängen würde. In vergleichbarer Weise werden Kellers Studien- und Notizbücher in der HKKA Seite für Seite – inklusive Zeichnungen und Exzerpte – abgebildet und auf der jeweils gegenüberliegenden Seite durch eine Umschrift begleitet, die natürlich sämtliche Korrekturvarianten mitumfasst und in problematischen Fällen durch Anmerkungen und Stellenkommentare ergänzt wird. Maßgebende Einheit für die handschriftennahe Darstellungsweise sind die Seiten, im optimalen Falle die Doppelseiten des Ori8 9 10 So erweckt z.B. das direkte Nacheinander der Gedichte Das Grab am Zürichsee und Nachruf an Curti (S. 595) den Eindruck, als ob sie, im Gegensatz zu den umgebenden Prosatexten, zusammengehören würden, während doch das erste ganz der inneren Erfahrungswelt von 1838 zugehört und das zweite das Burschenleben von Kellers Münchner Jahren zelebriert. Vgl. das obige Beispiel mit den Geburtstags-Eintragungen und Fußnote 4. – Unmittelbar auf die obigen Geburtstags-Eintragungen folgt in der DKV-Darstellung (S. 587) eine Eintragung vom 30. Januar 1838. Dadurch erscheint die UnabhängigkeitsApostrophe vom 30. Juli (1837) als integraler Bestandteil einer 1838-Serie, und niemand käme auf den Gedanken, dass (zeitlich) ein halbes Jahr dazwischenliegt und (räumlich) zwei ganzseitige Zeichnungen das eine vom andern fern halten. Franz Kafka. Historisch-Kritische Ausgabe sämtlicher Handschriften, Drucke und Typoskripte. Hg. v. Roland Reuß/Peter Staengle. Frankfurt a. M.: Stroemfeld Verlag 1995ff. – Diese Edition geht von einer radikalen Differenz zwischen kontextunabhängigem gedrucktem Text und topografisch fixierter Handschrift aus, wie sie die HKKA etwa bei den Druckmanuskripten für Kellers Werke nicht in gleicher Absolutheit voraussetzt, weshalb hier auch in der Abteilung A anders verfahren wird. Gottfried Kellers Studienbücher – elektronisch ediert 47 ginals. Sie bestimmen auch die Positionierungen und den Zeilenfall der Transkription, die natürlich nach wie vor bis zu einem starken Grade schematisierend verfährt und auf einem Kompromiss zwischen den Anforderungen des Originals und den technischen Möglichkeiten der Wiedergabe beruht. – Wozu nun aber noch eine buchbegleitende Computeredition? Computereditionen Der zweifellos größte Vorteil einer Computeredition gegenüber der Buchedition sind die Recherchiermöglichkeiten über große Textmassen hinweg, und sei dies durch einfache Zeichenfolgensuche. Demgegenüber wurden – mitbedingt durch die Unterschiedlichkeit der Plattformen und Ausgabemedien – andere Erfordernisse wie eine flexible Variantendarstellung oder die Einbindung von Handschriften bei bisherigen elektronischen Editionen in erstaunlichem Maße vernachlässigt; Mängel, die sich zu Zeiten wachsender Apparate und sich zunehmend Anerkennung verschaffender Faksimile-Editionen besonders bemerkbar machen. Dass eine begleitende Computeredition auch darstellungsmäßig nicht allzu weit hinter den Stand der Buchedition zurückfallen sollte, scheint zwar selbstverständlich; nur selten werden daraus aber auch die entsprechenden Konsequenzen gezogen. Noch ganz auf einfache Textwiedergabe und darauf applizierte Suchfunktionen beschränken sich die von Chadwyck Healey (ProQuest) produzierten elektronischen Klassiker-Editionen.11 Es handelt sich um eine bloße Umsetzung der entsprechenden DKV-Studienausgaben, die zwar eine hilfreiche Volltextrecherche ermöglicht, darüber hinaus aber wenig technische Phantasie verrät. Dagegen werden (zumindest im Falle Kellers) nicht nur sämtliche Schwächen der Buchausgabe (inklusive die Druck- und Transkriptionsfehler) übernommen, sondern diese noch erheblich potenziert, begonnen bei der Festschreibung der Referenzierung 11 Digitale Bibliothek Deutscher Klassiker auf CD-ROM. CD-ROM 2. Frankfurt a. M.: Deutscher Klassiker Verlag 2001. – Interessanter, wenn auch auf Grund technischer Bedingungen inhaltlich noch problematischer, ist die Internet-Version Digitale Bibliothek Deutscher Klassiker im WWW. – Beiden Versionen ist bisher zueigen, dass sie auf Grund horrender Preise an zahlungswillige Institute gebunden sind und dadurch den Charakter der Studienausgabe, dem sie verpflichtet bleiben, bedenklich strapazieren. 48 Walter Morgenthaler auf die Zufälligkeiten des Buch-Fließ-Satzes und endend bei der konsternierend schlechten Handhabbarkeit des Kommentars.12 Demgegenüber bietet das mit der HKKA auf CD-ROM ausgelieferte Datenbankprogramm einen ungleich größeren Funktionsumfang und erfüllt auch die für eine historisch-kritische Ausgabe unabdingbaren Erfordernisse einer komplexen Variantendarstellung. Mit dem vor mehr als zwölf Jahren eigens für die HKKA entwickelten DOS-Programm kann man alle edierten Texte (inklusive die Studien- und Notizbücher) mit ihren Varianten, editorischen Stellenkommentaren, Sachwörtern und Querverweisen anzeigen und nach Zeichenfolgen absuchen, auch Variantentexte generieren, definierbare Informationen ausfiltern und Quellentexte oder Briefdokumente einblenden. Aber die (aus historischen Gründen zu erklärende) Bindung an eine nichtgrafische Oberfläche erlaubt es – abgesehen von der inzwischen veralteten Bedienungsweise – nicht, Handschriften wiederzugeben noch auch nur diplomatische Umschriften (mit genauen Positionierungen, Streichungen, Schriftwechseln und so weiter) darzustellen.13 Für die Edition der Nachlass-Schriften musste deshalb nach einer neuen Lösung gesucht werden.14 Die (längst bekannte) Schwierigkeit bestand darin, dass es kaum überzeugende praktikable, das bloße Versuchsstadium überschreitende Modelle für die Zusammenführung von Text beziehungsweise Transkription und Handschriften-Reproduktion zu geben schien,15 so dass am Ende die Einfach- und Schnellvariante der bloßen Buchsatzwiedergabe im pdfFormat, wie sie etwa die Franz Kafka-Ausgabe verwendet, sich als einzige überlegenswerte Möglichkeit erwies. Sie bietet – bei minimalem Er12 13 14 15 Stellenkommentare müssen (zumindest im Falle der Keller-Edition) auf so kompliziertem Umweg angegangen werden, dass die Lust daran sehr schnell verloren geht. Mag dies im Fall der Wort- und Sacherläuterungen oft verschmerzbar sein, so doch sicher nicht dort, wo auf editorische Befunde (wie die oben beschriebenen) hingewiesen wird, ohne deren Kenntnis die edierten Texte gar nicht verständlich sind. Vgl. dazu Walter Morgenthaler: Gottfried Keller – elektronisch ediert. In: Jahrbuch für Computerphilologie, 1 (1999), S. 91-100. Inzwischen wird auch an einer neuen, grafikfähigen und nicht auf Windows beschränkten Version des Datenbankprogramms gearbeitet, welche den heutigen Benutzerbedürfnissen Rechnung tragen und das Auseinanderklaffen von Datenbank- und Handschriften-Programm verringern soll. Auf die Flexibilität relationaler Datenstrukturen (etwa zu Gunsten bloßer Textauszeichnungen) soll dabei nicht verzichtet werden. Eine Ausnahme macht das Projekt HyperNietzsche, das die handschriftlichen Dokumente mit verschiedenen Arten von Transkriptionen verknüpft, darüber hinaus aber alles überhaupt irgendwie Nietzsche Betreffende in einem Universum von Vernetzungen unterbringen möchte. – Vgl. dazu Paolo D’Iorio: HyperNietzsche. Paris: Presses Universitaires de France 2000. Gottfried Kellers Studienbücher – elektronisch ediert 49 stellungsaufwand – plattformübergreifend Satzqualität am Bildschirm mit der Möglichkeit stufenweiser Vergrößerung und Verkleinerung und der Suche nach Zeichenfolgen in der Transkription, was allerdings bei Sonderzeichen wie etwa dem langen ›s‹ oder bei verschachtelten Korrekturen und unterbrechenden diakritischen Zeichen zu Problemen führen kann. Das Hauptproblem ist aber die fehlende direkte Verbindung zwischen Handschrift und Transkription innerhalb einer Seite.16 Außerdem zeigen sich gerade hier, bei größtmöglicher Nähe zwischen Buch und Bildschirm, die Nachteile des letzteren besonders stark: Das relativ langsame ›Umblättern‹, das umständliche Verkleinern, Vergrößern und Nachpositionieren, das ständige Ziehen und Stoßen mit dem Zeigehändchen bei generell schlechter Orientierungsmöglichkeit vermag niemals die einfache Eleganz des schnellen Durchsehens, des Umblätterns und Überschlagens der Seiten eines Buches wettzumachen. Solche grundlegenden Defizite haben die Herausgeber der HKKA dazu veranlasst, von der pdf-Variante abzusehen und eine eigene Softwarelösung zu entwickeln, welche die Stärken des elektronischen Mediums auszunützen versucht, ohne ständig an das erinnern zu müssen, was das Buch dennoch besser kann. Das Programm, das schon versuchsweise bei der Edition der Sieben Legenden und der Züricher Novellen eingesetzt wurde,17 ermöglicht nun den Zugang zu sämtlichen Studien- und Notizbüchern (inzwischen auch zur Nachlassprosa und zu den Dramenfragmenten, HKKA 18). Es basiert auf der direkten Verknüpfung von Handschrift und Transkription mittels Bildkoordinaten und Wortlisten und erlaubt dadurch dem Benutzer das Suchen nach Zeichenfolgen in der Handschrift ohne den Umweg über die Transkription.18 – Wie dies in der Anwendung aussieht, soll im Folgenden anhand der Studien- und Notizbücher etwas umrissen werden. 16 17 18 Es bleibt dem Benutzer überlassen, beim Lesen der Transkription die entsprechende Stelle in der Handschriften-Abbildung zu finden; ein Verfahren, das sich bei leicht lesbaren Handschriften wie im Fall Kafkas ohne allzugroße Mühe anwenden lässt, aber etwa bei Entwürfen des späten Nietzsche oder bei Robert Walsers Mikrogrammen kaum mehr zumutbar ist. Dies betrifft die erste Niederschrift (H1) der Sieben Legenden (vgl. HKKA 23.2) und das Druckmanuskript für das Fähnlein der sieben Aufrechten (vgl. HKKA 22). Die Applikation wurde in Visual Basic programmiert und ist vorläufig auf WindowsSysteme beschränkt. Die Textdaten wurden größtenteils aus der DOS-Textdatenbank und aus den Satzvorlagen importiert, die Wortpositionen mit Unterstützung durch spezielle Zusatzroutinen manuell bestimmt. 50 Walter Morgenthaler Studien- und Notizbücher, elektronisch ediert Den Ausgangs- und Referenzpunkt für die elektronische Darstellung bilden die über Inhaltsverzeichnisse oder Icons wählbaren handschriftlichen Textzeugen (hier die einzelnen Studien- und Notizbücher). Diese können Seite für Seite durchgeblättert, auf einer bestimmten Seite oder bei einer gewünschten Eintragung ›aufgeschlagen‹ oder nach einer bestimmten Zeichenfolge abgesucht werden. Als Darstellungs- und Bezugseinheit gilt die Handschriftenseite (bei Kleinformaten eine Doppelseite), von der ein möglichst umfangreicher Ausschnitt so angezeigt wird, dass die abgebildete Schrift bezüglich Größe und Kontrast gut lesbar ist. Die Wahl des Bildausschnittes (der sich auch auf Bildschirmbreite vergrößern lässt) wird mittels eines kleinen Seitenübersichts-Fensters (Navigator) gesteuert, das zugleich die Orientierung innerhalb der Seite erleichtert. Beim Überfahren eines Wortes mit der Maus wird dessen Transkription ohne spürbare zeitliche Verzögerung in einem Textfeld am oberen Rand angezeigt, so dass der Benutzer die Handschrift gewünschtenfalls Wort für Wort entziffernd durchgehen kann. Durch Anklicken mit der rechten Maustaste wird die Worttranskription direkt in das Bild übertragen.19 Das Umkehrverfahren zur Transkription ist die Zeichenfolgensuche. Ein im Textfeld unterhalb des Navigators eingegebenes Wort (oder ein Wortteil) wird auf Befehl gesucht und, wenn auf der aktuellen Handschriftenseite vorhanden, mit einem roten Rahmen umrandet. Nach dem gleichen Ausdruck kann aber auch im ganzen Textzeugen (nach vorn oder hinten) weitergesucht und die jeweils nächste Fundstelle angezeigt werden.20 Alternativ dazu lässt sich eine Liste mit sämtlichen Fundstellen aller Studien- und Notizbücher einblenden, was im Übrigen auch ein leichtes Navigieren zwischen den verschiedenen Textzeugen erlaubt. 19 20 Die Worttranskriptionen gleichen dem Beschriften einer Geländekarte mit geografischen Namen. Dass sie sich auch für didaktische Zwecke, z.B. das Einüben in das Lesen einer Handschrift, anwenden lassen, ist ein willkommener Nebeneffekt dieses Verfahrens, das letztlich nicht dem Zweck dient, die Handschrift in einen Text zu überführen, sondern sie als solche wahrzunehmen und entzifferbar zu machen. Die Suche nach einem Wort oder Wortteil wird übrigens durch Sonderzeichen und diakritische Zeichen u. ä. nicht behindert, da solche Zeichen automatisch ausgefiltert oder aufgelöst werden. – Korrekturakte wurden für die Textdatenbank, für die Worttranskriptionen und die Zeichenfolgensuche wort- und nicht zeichenorientiert (auch genetisch statt topografisch) erfasst. Was in der diplomatischen Umschrift der Computer- wie der Buchedition als »Ele[me]nd`es« erscheint (»me« wird durch »nd« überschrieben), wird für die Worttranskription als »[Eleme]¬ Elendes« codiert (¬ bezeichnet eine Sofortkorrektur), was es einzig ermöglicht, sowohl nach »Eleme« wie nach »Elendes« zu suchen. – Zur diplomatischen Umschrift vgl. die folgende Fußnote 21. Gottfried Kellers Studienbücher – elektronisch ediert 51 Bild 2 Bild 3 Neben die Wortranskription (Bild 2) tritt die integrale Transkription. Sie wiedergibt den ›Text‹ des gesamten Textzeugen – analog zur Buchediti- 52 Walter Morgenthaler on21 – in diplomatischer Umschrift und kann in einem frei beweglichen Fenster von beliebiger Größe eingeblendet werden. Auch hier ist die direkte Parallelisierung von Handschrift und Transkription bis hinunter auf die Wortebene möglich (Bild 3): Ein in der Umschrift angeklicktes Wort wird vom Programm (wie bei der Zeichenfolgensuche) in der Handschrift rot umrahmt angezeigt; umgekehrt wird eine im Handschriften-Ausschnitt angeklickte Stelle automatisch in der Umschrift durch Einfärbung hervorgehoben. Erwähnt sei noch die Möglichkeit, Handschriftenstellen (als ›Photos‹) in kleine Felder unterhalb des angezeigten Ausschnittes zu kopieren (Bild 4). Dadurch lassen sich einzelne Handschriftenstellen, zum Beispiel zu Datierungszwecken, direkt miteinander vergleichen.22 Bild 4 21 22 Die integrale Transkription verwendet bei den Nachlassdokumenten eine zur Buchedition analoge diplomatische Umschrift: mit Unterstreichungen, Durchstreichungen, Unterscheidung von deutscher und lateinischer Schrift durch Typen mit bzw. ohne Serifen. Allerdings wurden (wegen der Suchfunktionen) die langen ›s‹-Formen und die Geminationsstriche aufgelöst, abweichende Schreibrichtungen normalisiert und mehrzeilige Schräg- und Kreuzstreichungen durch diakritische Zeichen (Eckklammern) ersetzt. Die beiden unteren ›Photo‹-Felder in Bild 4 enthalten den Schriftzug »Geburtstag« der angezeigten Studienbuchseite (Eintragung von 1837 und 1838; vgl. oben), das Feld darüber zeigt den späteren Beleg in einem Kalender von 1879. Gottfried Kellers Studienbücher – elektronisch ediert 53 Die Kopierfelder speichern auch die Herkunftsadressen der angezeigten ›Photos‹, so dass durch deren Anklicken direkt an die entsprechende Stelle gesprungen werden kann. Obwohl die Handschriften-Edition technisch unabhängig von der DOS-Texdatenbank ist, lässt sich diese dennoch – kontextbezogen – in einem Fenster einblenden. Damit steht dem Benutzer jederzeit auch das Datenbankkorpus mit allen Texten, Varianten, Kommentaren und Querverweisen, mit Quellentexten und Briefdokumenten zur Verfügung. Logischerweise müsste der Spieß wohl umgedreht und die Darstellung der Handschriften zu einem Unterbereich des Gesamtkorpus, eines umfassenden ›HyperKeller‹ werden. Dass dies bisher nicht einmal in konzeptioneller Hinsicht geschehen ist, hat vorwiegend pragmatische Gründe und hängt mit dem Verlauf der praktischen editorischen Arbeit und der Entstehungsweise der Programme zusammen.23 Vermutlich wird sich das in den nächsten Jahren zum Bessern ändern. Allerdings werden selbst die optimalsten Möglichkeiten, vom einen zum andern zu gelangen und alles mit allem zu verbinden, den Benutzer nicht davon entlasten, die am Buch geschulte Tugend philologischer Bedachtsamkeit auch im elektronischen Medium zu üben. 23 Der Editionsplan verlangt die kontinuierliche Publikation von Bänden (mit jeweiliger Parallel-Auslieferung von Textband, Apparatband und CD-ROM); die Planung der Datenstrukturen und die Entwicklung der Programme lief dagegen seit Anbeginn (1991) mehr oder weniger nebenher und richtete sich meistens nach den jeweils aktuellen Erfordernissen. Andrea Opitz Document Type Definitions zur Erschließung von Gattungen des Barock im Internet. Ein Projekt an der Herzog August Bibliothek Wolfenbüttel1 Abstract With the help of specialists in the relevant fields the Herzog August Bibliothek is engaged in a pilot project concentrating on five genres characteristic of the 17th century – pamphlets, emblem books, almanacs, prayer books and books on the plague and other contagions – in order to develop document type definitions accessible via the internet. These DTDs can be employed in the future as worldwide standardisation tools for the publication and retrieval of the genres concerned. They will be developed on an empirical basis and demonstrated by using a large and representative sample of titles from each genre. We use the Text Encoding Initiative (TEI) and XML to encode text and metadata. The source XML-data is transformed into static HTML by an XSLT-script and thus offered to the public via the internet. The project is supported by the Deutsche Forschungsgemeinschaft (DFG) Seit Januar 2001 arbeitet die Herzog August Bibliothek an dem mit Mitteln der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt Barock DTDs – Document Type Definitions zur Erschließung barocktypischer Gattungen im Internet. Mit Hilfe von Fachwissenschaftlern sollen fünf für das 17. Jahrhundert charakteristische Textgattungen mit Blick auf ihre gattungstypischen Eigenschaften bearbeitet und prototypische Document Type Definitions (DTDs) für die Erstellung von XMLDokumenten entwickelt werden. 1 Die nachfolgende Darstellung basiert auf einem Vortrag, der von mir am 22.2.2002 im Rahmen der Internationalen Arbeitstagung der Arbeitsgemeinschaft für Germanistische Edition, der Arbeitsgemeinschaft philosophischer Editionen und der Fachgruppe Freie Forschungsinstitute in der Gesellschaft für Musikforschung Autor, Autorisation, Authentizität in Aachen gehalten wurde. 56 Andrea Opitz 1. Die Herzog August Bibliothek als Schwerpunktbibliothek des 17. Jahrhunderts Document Type Definition, Internet und Barock, auf den ersten Blick gehören diese drei Begriffe nicht zusammen. Dennoch bilden sie das Gerüst für die Bemühungen der Herzog August Bibliothek, das alte Buch, speziell die Drucke des Barock, mit neuer Technik zu öffnen. Die Herzog August Bibliothek Wolfenbüttel versteht sich als Schwerpunktbibliothek und zentrale Anlaufstelle für die internationale Barockforschung: Ihre Mitarbeit an dem nationalbibliographischen Verzeichnis deutscher Drucke des 17. Jahrhunderts (VD17), die Mitarbeit in der Arbeitsgemeinschaft der Sammlung Deutscher Drucke für das Zeitsegment 1601-1700, das der Bibliothek assoziierte Editionsprojekt zur Fruchtbringenden Gesellschaft und nicht zuletzt die mehr als 150.000 in der Bibliothek vorhandenen Drucke des 17. Jahrhunderts zeigen diese Schwerpunktbildung deutlich. Zu den Aufgaben der Bibliothek gehört nicht nur das Sammeln und das Bewahren der Bestände, sondern auch das Erschließen und das Bereitstellen der historischen Quellen. Mit der Möglichkeit, alte Drucke in nahezu Faksimilequalität zu digitalisieren, können den Benutzern jetzt neue Zugangswege zu den Quellen eröffnet werden. Im Zeitalter des Internet ist es möglich, nicht mehr nur bibliographische Daten weltweit anzubieten, sondern auch die Quellen selbst in digitalisierter Form. In der Wolfenbütteler Digitalen Bibliothek stellt die Herzog August Bibliothek daher besonders forschungsrelevante, besonders seltene, herausragende oder häufig genutzte und nachgefragte Teile ihres Altbestandes über das Internet zur Verfügung. 2. Historische Drucke im Internet Anspruch und Grenzen der retrospektiven Digitalisierung von Druckwerken und ihrer computergestützten Editionen sind in den letzten Jahren mit wachsendem Interesse diskutiert worden. Angesichts der vielen isolierten Digitalisierungsprojekte2 – auch im Bereich des alten Buches – stellt sich die Frage nach einheitlichen Erschließungsstandards. Imagesequenzen allein reichen nicht aus, um einen Druck im Internet verfügbar zu machen. Die Diskussion dreht sich um die geeignete Form der Erschließung, um Metadaten, um die Frage, wie globale oder spezielle 2 Eine Übersicht der DFG-geförderten Digitalisierungsprojekte ist zu finden unter: <http://gdz.sub.uni-goettingen.de/de/index.html> (28.1.2004). Document Type Definition zur Erschließung von Gattungen des Barock 57 Suchmaschinen Dokumente im Netz zu finden vermögen, wie Daten über digitalisierte alte Drucke optimal verwaltet, ausgetauscht oder auch präsentiert werden können. Konsens besteht darüber, dass ein besonderer Gewinn bei elektronischen Publikationen in der Erschließung liegt. Über die Bereitstellung der reinen Imagesequenz hinaus soll dem Benutzer das elektronische Buch inhaltlich geöffnet werden, um im neuen Medium einen Mehrwert gegenüber der gedruckten Form zu erzielen. In dem von der DFG geförderten Projekt Barock DTDs – Document Type Definitions zur Erschließung barocktypischer Gattungen im Internet will die Herzog August Bibliothek daher, über die bibliothekarische Formal- und Sacherschließung, die in jedem Online-Katalog zu finden ist, hinaus projektbezogen weitergehende Recherchemöglichkeiten anbieten. Für fünf Textgattungen des Barock soll eine terminologische und strukturelle Grundlage geschaffen werden für die zukünftige netzbasierte digitale Publikation von Drucken des 17. Jahrhunderts. Voraussetzung für die Präsentation von alten Drucken im Internet ist zunächst einmal ihre buchschonende Digitalisierung. Wir digitalisieren die Drucke in Farbe. So wird über den Text hinaus mit der möglichst originalgetreuen Farbkopie auch ein angemessener Eindruck von der Materialität des Druckes vermittelt. Hergestellt werden Images, also Bilder der Buchseiten. Eine Volltexterschließung ist im Rahmen unseres Projektes nicht vorgesehen. Die Voraussetzung hierfür wäre eine manuelle Volltexterfassung, denn die elektronische Texterkennung mittels OCR ist bei Drucken des 17. Jahrhunderts nicht möglich. Bei der anvisierten Größenordnung von circa 30.000 digitalisierten Seiten ist eine solche Erfassung nicht zu leisten. Im Netz zu sehen ist eine Imagesequenz der einzelnen Buchseiten des Originaldrucks. Wir stellen also ein elektronisches Faksimile des Buches im Internet bereit, das mit Hilfe eines Dokumentenmanagementsystems zum Blättern geöffnet und Seite für Seite durchgeblättert werden kann. 3. Verwendung von Standards Der Mehrwert der elektronischen Publikation gegenüber dem Original liegt nicht nur in ihrer weltweiten Zugänglichkeit, darüber hinaus soll der Druck auch inhaltlich erschlossen werden. Da die für elektronische Medien spezifische Volltextsuche für unsere Dokumente nicht in Frage kommen kann, bieten sich hierbei neue Formen der intellektuellen Erschließung an. Auf der Grundlage der Auszeichnungssprache Standard Generalized Markup Language (SGML) und davon abgeleitet eXtensible 58 Andrea Opitz Markup Language (XML) sind internationale Standards und Quasistandards zur Strukturierung, Beschreibung und Erschließung von elektronischen Dokumenten entstanden, die wir nutzen. In unserem Projekt arbeiten wir mit der vom World Wide Web Consortium (W3C) empfohlenen Standardauszeichnungssprache XML.3 Mit der Festlegung auf XML ist zunächst die formale Grundlage für eine netzbasierte Interoperabilität gewonnen. Die Standardisierung von Dokumentenstrukturen, die eine einheitliche Recherche und Präsentation inhaltlicher Aspekte erlaubt, setzt neben der Verständigung auf eine formale Auszeichnungssprache die Entwicklung von Regelwerken für diese Sprache, sprich fach- beziehungsweise gattungstypische DTDs (Document Type Definitions) voraus. DTDs beschreiben in formaler Notation die logische Struktur eines bestimmten Dokumententyps, sind also das Regelwerk für XMLStrukturen. Erst mit solchen DTDs lässt sich die Homogenität sicherstellen, die ein einheitliches Retrieval und ein netzbasiertes Arbeiten ermöglichen. DTDs ermöglichen das automatische Validieren von Dokumenten, die Bildung von Standards, einheitliche Recherche und die Nutzung auch dezentral erfasster Daten über das Internet. Erfolgreiche Ansätze Fach-DTDs herzustellen hat es bisher insbesondere im Bereich der Naturwissenschaften gegeben.4 Auch für den Bereich der Geisteswissenschaften gab es Bemühungen, eine Syntax zur Repräsentation geisteswissenschaftlicher Texte, differenziert nach literaturwissenschaftlichen Textsorten, zu konzipieren. Besonders hervorzuheben ist hier die Text Encoding Initiative (TEI),5 die ursprünglich auf SGML aufbauend, jetzt auch ein XML-Vokabular für das Auszeichnen von Texten in den Geisteswissenschaften anbietet. Obwohl die TEI in erster Linie darauf abzielt, Text auszuzeichnen, erlauben die TEIGuidelines auch das Beschreiben und Indexieren von Images. Inzwischen hat sich TEI auf internationaler Ebene in vielen Projekten6 als Standard etabliert, da sie sowohl plattform- wie medienunabhängigen Zugriff auf elektronisch bereitgestellte Dokumente ermöglicht. Für spezifische Textsorten des 17. Jahrhunderts stehen aber bislang keine DTDs zur Verfügung. In unserem Projekt wollen wir daher in Zusammenarbeit mit Fachwissenschaftlern fünf für das 17. Jahrhundert charakteristische Textgattungen mit Blick auf ihre gattungstypischen Eigenschaften bearbeiten und prototypische Document Type Definitions 3 4 5 6 <http://www.w3c.org/XML/> (28.1.2004). Siehe z.B. MathML: <http://www.w3.org/Math/DTD/> (28.1.2004). <http://www.tei-c.org/> (28.1.2004). Als ein Beispiel sei hier das Emblem Project Utrecht genannt. Siehe dazu folgende Adresse: <http://emblems.let.uu.nl/emblems/html/index.html> (28.1.2004). Document Type Definition zur Erschließung von Gattungen des Barock 59 auf Grundlage der TEI-DTD erstellen. Ein großer Vorteil der TEI-DTD besteht in ihrer Offenheit, die eine flexible Erzeugung beziehungsweise Wiedergabe von strukturierten Inhalten ermöglicht. Durch Spezifikation der Verwendung einzelner Elemente und die Festlegung bestimmter Attributwerte der TEI-DTD haben wir Strukturvorgaben nach den Anforderungen der von uns bearbeiteten Gattungen entwickelt. Damit soll die strukturelle Eigenart der Quelle berücksichtigt werden und zugleich der Vorteil des internationalen Standards genutzt werden. Ausgewählt wurden hierzu die Gattungen Illustrierte Flugblätter, Emblembücher, Kalender und Prognostiken, Gebet- und Gesangbücher und Pest- und Seuchenschriften. Diese Gattungen wurden zum einen deshalb ausgewählt, weil es sich um von der Frühneuzeitforschung besonders nachgefragte Literatur handelt. Zum anderen sollten die einzelnen Gattungen relativ einheitlich fassbar und beschreibbar sein und unter den Neuerwerbungen der Herzog August Bibliothek repräsentativ vertreten sein, das heisst in gewisser Quantität, aber auch mit einzelnen herausragenden Stücken, die für die Forschung relevant sind. Wir hoffen mit der Entwicklung standardisierter Schnittstellen auf der Basis akzeptierter formaler Standards wie XML und TEI wichtige Impulse für eine netzbasierte Erschließung dieser Textgattungen zu geben. So könnten mit Hilfe dieser DTDs verteilt erstellte XML-Daten sowohl unmittelbar als auch in einer in HTML konvertierten und mit Meta-Tags versehenen Form Grundlage für Internet Suchmaschinen werden. 4. Barock-DTDs – Das Arbeitskonzept Wie stellt sich die Erschließungsarbeit nun konkret dar? Am Beispiel von zwei der fünf Gattungen soll das Arbeitskonzept erläutert werden. Die illustrierten Flugblätter und die Emblembücher mit ihren komplexen Text-Bildbeziehungen scheinen hierzu besonders geeignet. Beide geben dem kulturhistorisch Interessierten und dem Fachwissenschaftler vielfältige Zugänge zum Verständnis der Epoche. Die Erschließung und einfache Zugänglichkeit dieser Quellen ist die Voraussetzung für ihre intensive Nutzung. Nach der Digitalisierung der Drucke werden die Digital-Master zur Präsentation im Internet von circa 20 MB auf rund 150 KB als JPG komprimiert. Die Zugänglichkeit der Drucke im Internet wird von der Herzog August Bibliothek garantiert, ebenso die beständigen URLs. Damit wird die Zitierbarkeit der elektronischen Gesamtdokumente und 60 Andrea Opitz der einzelnen Images sichergestellt. Eine wichtige Voraussetzung, um mit der elektronischen Publikation arbeiten zu können. Wenn die Images vorliegen, erfolgt die Inhaltserschließung anhand der zuvor erstellten gattungsspezifischen DTD. Dabei setzt sich jede DTD aus drei Bereichen zusammen: 1. Metadaten 2. Gattungsspezifische Bestandteile 3. Inhaltliche Erschließung 1. Metadaten: Für das Retrieval und die Identifikation von Quellen im Netz sowie für deren langfristige Archivierung sind Metadaten7 nach internationalen Standards von besonderer Bedeutung. Auf der Grundlage der Richtlinien der TEI wurden im Projekt die bibliographischen Metadaten-Elemente für die elektronischen Dokumente ausgewählt. Sie berücksichtigen die Katalogisierungsdaten im Bibliothekssystem PICA,8 die im Onlinekatalog benutzt werden. Diese Metadaten sind hierarchisch strukturierter Inhalt des TEI-Elements TEI-Header. Ein eigens hierfür entwickeltes Script konvertiert die relevanten Katalogisierungsdaten und fügt sie ein in TEI-konforme XML-Dokumente, die es zugleich nach der DTD erzeugt. Eine Ergänzung um Dublin Core Elemente9 wird bei der Transformation nach HTML vorgenommen. 2. Gattungsspezifische DTD-Bestandteile: Die Metadaten zum elektronischen Dokument haben unabhängig von der jeweiligen Gattung der Quelle eine einheitliche Struktur in der DTD. Die Bestandteile zur Erfassung und zur inhaltlichen Erschließung der zu Grunde liegenden Quelle differieren dagegen nach deren Gattungszugehörigkeit. Das bedeutet, dass zuerst für jede Gattung eine grundsätzliche Dokumentenanalyse durchgeführt werden muss, in der die Gattungsmerkmale definiert und zu DTD-Bestandteilen formalisiert werden. 3. Inhaltliche Erschließung: Zur inhaltlichen Erschließung benutzen wir im Wesentlichen das TEIElement <index>. Dieses Element kann flexibel auch zur Markierung 7 8 9 Metadaten enthalten Anweisungen für Web-Server, Web-Browser und Suchprogramme im Internet, sie können Angaben zum Verfasser oder zum Inhalt der Datei enthalten. <http://www.gbv.de/> (28.1.2004). Dublin Core ist ein von einer internationalen Expertengruppe definiertes ElementeSystem für Metaangaben: <http://dublincore.org/> (28.1.2004). Document Type Definition zur Erschließung von Gattungen des Barock 61 von Bereichen benutzt werden, die hierarchische Kapselungen überlagern. Diese Eigenschaft ist innerhalb von Dokumenten mit seiten- beziehungsweise bildorientierter Struktur von großer Bedeutung. Gattungsspezifischen Erfordernissen trägt es durch seine Einbettung in entsprechend qualifizierten Elementen und durch Attribute Rechnung. Letztere ermöglichen auch eine Zuordnung zu unterschiedlichen Indices, die vielfältig spezialisierte Retrievalfunktionen zulassen. 5. Erschließung der Flugblätter Am Beispiel der Flugblätter sollen die einzelnen Arbeitsschritte kurz erläutert werden. Zunächst erfolgt die Dokumentenanalyse. Das illustrierte Flugblatt besteht in der Regel aus drei Teilen: Überschrift, Bildsegment und Textsegment. Diese drei Bestandteile spiegeln sich in der DTDStruktur wieder, bilden das gattungsspezifische Gerüst. Für jedes Dokument werden in den TEI-Header die bibliographischen Daten aus den vorhandenen Katalogaufnahmen des OnlineKataloges übernommen und die technischen Angaben zum elektronischen Dokument hinzugefügt. Damit sind Angaben wie Erscheinungsort und -jahr, Autor, Titel et cetera zur Recherche verfügbar. Dieser Bereich der Metadaten ist für alle Gattungen gleich. Zu diesen Angaben fügen wir eine systematische Einteilung in Anlehnung an die zeitgenössische Fächerhierarchie Theologica, Ethica, Politica, Physica, Casualia hinzu.10 Wenn inhaltlich mehrere Bereiche berührt sind, kann die Zuordnung auch zu mehreren systematischen Gruppen erfolgen. Das Flugblatt wird über Schlagwörter erschlossen, die die Gesamttendenz des Blattes beschreiben sollen, zum Beispiel Dreißigjähriger Krieg. Die Beschreibung des Bildteils erfolgt durch die Vergabe von Bildschlagwörtern (Beutel, Kugel und so weiter). Sofern im Bild auch Text vorhanden ist, wird dieser in Bildstichwörtern aufgenommen. Die Erfassung der Bildelemente mittels Iconclass11 ist vorgesehen, muss aber nicht ausgefüllt sein. Obwohl die Verwendung von Iconclass nicht nur Fürsprecher findet, bietet es doch das zurZeit beste verfügbare, kontrollierte Vokabular, um visuelle Aspekte zu klassifizieren und zu indexieren. 10 11 Vgl. hierzu Wolfgang Harms (Hg.): Deutsche illustrierte Flugblätter des 16. und 17. Jahrhunderts. Tübingen: Niemeyer, 1980. Iconclass ist ein Klassifikationssystem mit ca. 28.000 Definitionen und einem alphabetischen Index zur Bilderschließung, das vielfach angewendet wird. Siehe dazu folgende Adresse: <http://www.iconclass.nl> (28.1.2004). 62 Andrea Opitz Im dritten Arbeitsschritt erfolgt die Erschließung des Textsegmentes. Bei der Texterschließung werden die Leitbegriffe in heutiger Orthographie (level1) und in der originären Schreibweise (level2) als Stichworte aufgenommen. Daneben bietet die DTD jedoch auch die Möglichkeit, Volltext (zum Beispiel ausgewählte Textteile) einzugeben. Die Dokumentenerschließung erfolgt wie erläutert in XML. Dabei werden die XML-Editoren Xmetal und XML Spy eingesetzt. Ist die Dokumentenerschließung abgeschlossen und als XML-Struktur nach der DTD erfasst, ist ein weiterer Arbeitsschritt nötig, um die Ergebnisse auch dem Internet-Benutzer zugänglich zu machen. Die XMLStrukturdaten müssen bearbeitet werden, um das XML-Dokument in eine Webseite, in ein HTML-Dokument zu transformieren. Dies geschieht mittels XSLT, eXtensible Stylesheet Language-Transformations (auch ein XML-Format), das es ermöglicht, entweder ein neues XMLDokument oder ein HTML-Dokument für die Internetpräsentation zu erstellen. Auf diesem Weg wird das Dokument mit Dublin CoreMetadaten angereichert und kann für die Recherche (Indexierung XMLInstanzen) in eine MySQL-Datenbank eingebracht werden. 6. Die Erschließung der Emblembücher Die Arbeitsschritte für die Emblembücher sehen entsprechend aus. Auch hier steht an erster Stelle die Dokumentenanalyse: Die Embleme bestehen in der Regel aus drei Teilen: dem themaandeutenden Motto, der gegenstandsdarstellenden Pictura und der auslegenden Subscriptio, die auf einer Buchseite zu finden sind. Hinzu kommen die Erläuterungen oder anderer Text zwischen den Emblemseiten. Nicht jedes Emblembuch folgt jedoch dieser Einteilung. Es gibt ebenso Emblembücher mit mehreren Picturae auf einer Buchseite. Motto und die Subscriptio zu den einzelnen Emblemen sind auf andere Seiten verteilt. Auch diese Fälle müssen in der DTD berücksichtigt werden, damit bei der Datenbankrecherche und in der HTML-Darstellung korrekte Ergebnisse erzielt werden können. Die Abweichung vom dreigliedrigen Idealtypus stellt für die DTD-Spezifikation eine Herausforderung dar. Nach der Analyse zahlreicher Emblembücher haben wir uns entschieden, die Strukturierung der XML-Dokumente in erster Linie an der Form des jeweiligen Buches nicht an der des Einzelemblems auszurichten. Die Zugehörigkeit der einzelnen Teile werden bei getrennter Verteilung durch verweisende Attributwerte gekennzeichnet. Man soll die Embleme in ihrem originären Kontext wie auch isoliert betrachten können. Bei der Bearbeitung der Document Type Definition zur Erschließung von Gattungen des Barock 63 Emblembücher haben wir verschiedene Erschließungstiefen vorgesehen und ausprobiert. Abhängig von den beabsichtigten Arbeitsergebnissen, von den zur Verfügung stehenden finanziellen und personellen Ressourcen können so unterschiedliche Erfassungs- und Erschließungsstrategien angewendet werden. Einige Überlegungen seien hier kurz skizziert: Das Motto wird immer vollständig aufgenommen, die Pictura durch Bildschlagwörter, angelehnt an Iconclass, erschlossen. Die Subscriptio kann, muss aber nicht erfasst werden. Bei mehrsprachigen Emblembüchern, bei denen Motto und Subscriptio in mehreren Sprachen vorliegen, kann gewählt werden, ob nur eine Sprache, alle oder nur einige der vorliegenden Sprachen aufgenommen werden sollen. Ob und inwieweit der Text zwischen den Emblemseiten berücksichtigt werden soll, kann ebenso ausgewählt werden. 7. Ausblick Mit dem Ziel, die terminologische und strukturelle Basis für eine netzbasierte digitale Publikation von Drucken aus dem 17. Jahrhundert zu schaffen, ist unter Berücksichtigung internationaler Standards wie XML und TEI ein Konzept entstanden, das es erlaubt, im Internet eine aus Images bestehende Faksimile-Edition auf der Grundlage der eher textbeziehungsweise semantikorientierten TEI-DTD zu erstellen. Dabei bildet die DTD die unmittelbare Voraussetzung dafür, die Konsistenz nicht nur lokal, sondern auch dezentral erfasster Daten mittels Validierung zu gewährleisten und sie in einem zentralen Datenbanksystem zusammenfassen zu können. Dem Nutzer sollen möglichst vielfältige Zugangswege zum Dokument eröffnet werden. So sind die digitalisierten Drucke nicht nur über das Internet (Suchmaschinen) und über die Datenbank erreichbar, sondern auch über den OPAC der Bibliothek und die VD17-Datenbank. In einer Signaturen-Linkliste12 werden alle im Projekt digitalisierten Titel zusammengeführt. Hier kann man sich einen Überblick verschaffen, welche Titel bereits elektronisch vorliegen. Zum Abschluss sei ein Blick auf die erreichten Arbeitsergebnisse gestattet. Bisher haben wir 200 Drucke mit circa 30.000 Images digitalisiert. Wir haben ein Konzept für die Verbindung von Text und Images entwickelt. Ein PICA-TEI-Header Konverter und eine XMLDatenbankschnittstelle sind programmiert worden. Es wurden XSLTTransformationsscripts für die einzelnen Gattungen geschrieben. Wir 12 <http://www.hab.de/bibliothek/wdb/barockdtd/siglist.htm> (28.1.2004). 64 Andrea Opitz haben für 30 Flugblätter die Dokumentenanalyse und die Erschließung fertig gestellt. Die Dokumentenanalyse für die Emblembücher, für Kalender und Prognostiken sowie für die Pest- und Seuchenschriften und die Gebet- und Gesangbücher ist abgeschlossen. Erschlossen wurden bisher zehn Emblembücher, zwölf Kalender, zehn Pest- und Seuchenschriften und vier Gebet- und Gesangbücher. Die Entwicklung der Datenbank ist so weit fortgeschritten, dass wir zum Projektende das Ergebnis vorstellen können.13 Unser Ziel ist es, prototypische DTDs für einzelne barockspezifische Gattungen auszuformulieren. Für die fünf Gattungen Flugblatt, Emblembuch, Kalender, Gebetbuch und Seuchenschrift werden wir am Ende des Projekts eine solche prototypische Ausformulierung vorlegen können. Mit der Verwendung von Standards wie TEI und XML sind die Grundlagen für Interoperabilität geschaffen. So soll es möglich sein, dass zukünftig TEI-basierte, inhaltlich gleichartige digitale Sammlungen auch zusammengeschlossen werden können, nicht nur auf bibliographischer, sondern auch auf inhaltlicher Ebene. 13 Der aktuelle Arbeitsstand ist auf unserer Internet-Projektseite zu ersehen: <http:// www.hab.de/bibliothek/wdb/barockdtd/index.htm> (28.1.2004). Till Schicketanz/Kay Heiligenhaus »Inseln im Meer des Beliebigen«. Architektur und Implementierung eines Internetportals Deutsch-jüdische Periodika Hans Otto Horch zum 60. Geburtstag Abstract Historical newspapers and journals are invaluable sources for the study of the past. Especially, Jewish periodicals provide a detailed impression of the cultural development of Jewry and shed a quite different light on German history. Yet, it is tremendously difficult to obtain and to investigate these sources: Besides ›normal‹ losses (paper destruction et cetera), a great stock of Jewish newspapers was destroyed under the Nazi regime or are scattered all over the world – a fact, that forces a researcher to expensive stays in different libraries or archives and compels librarians to an extra burden of work. Within the funding program Scientific Library Services and Information Systems of the Deutsche Forschungsgemeinschaft the Aachen Chair of German-Jewish Literary History, the Cologne library Germania Judaica and the Town and University Library Frankfurt/Main carry out a digitization project, which already provides more than twenty representative periodicals, containing about 300.000 images in the WWW. The essay emphasizes the implications and the broad range of problems as well as their solutions in the process of digitizing periodicals. A discussion of the project's technological goals demonstrates the single strategies und procedures to publish large amounts of images, text and bibliographical data in an economic and structured way. 1. Das Informationszeitalter begrüßt den Philologen, so will es scheinen, jeden Tag mit einer Überraschung – zumindest, was die Unterstützung seiner Arbeit durch Informations- und Kommunikationstechnologien betrifft. Die Pionierleistungen der Computerphilologie – an deutschen Universitäten etwa erste, seit den späten 1960er Jahren mit Großrechnern und Lochkarten erstellte Textanalysen, Indices und Editionen – lie- 66 Schicketanz/Heiligenhaus ferten die Ausgangsbasis einer technologischen Entwicklung, deren Dimension erst allmählich deutlich wird. Personal Computer, preiswerte Speicher- und Distributionsmedien, zunehmend nutzeradäquate Software, schließlich die ubiquitäre Verfügbarkeit des Internets schufen die Rahmenbedingungen eines heute kaum mehr überschaubaren Arsenals an technologischen Verfahren und Applikationen zur Informationserfassung und -distribution. Dabei erlebt der Philologe den Anbruch dieser neuen Ära am denkbar bequemsten Ort – an seinem individuellen Computerarbeitsplatz: In zunehmendem Maß konkurrieren virtuelle Kataloge mit Bibliotheken vor Ort. Dokumentenlieferdienste versenden beliebige Texte per Mail. Exzerpte und Bibliographien verwaltet das persönliche Dokumentenmanagementsystem, und dank automatischer Texterkennungssoftware können auch umfangreichste Corpora nach Schlüsselbegriffen durchsucht werden. Last not least bietet das World Wide Web eine exponentiell wachsende Informationsbasis, die den Gang in ›reale‹ Bibliotheken irgendwann vollends zu erübrigen scheint. Kaum ein Bereich veranschaulicht die Technisierung und Globalisierung der Philologie so schlagend wie die weltweiten Initiativen zum Aufbau virtueller Bibliotheken. Die Perspektive ist in der Tat atemberaubend: Allein von der Deutschen Forschungsgemeinschaft wurden in den letzten Jahren circa 90 philologisch-bibliothekarische Digitalisierungsprojekte ins Leben gerufen, mit deren Hilfe langfristig die wissenschaftliche Literaturversorgung verbessert und zugleich der stetig ansteigende, aber immer schwerer zu finanzierende Arbeitsaufwand der Bibliotheken verringert werden kann. Ein Schwerpunkt der geförderten Vorhaben liegt dabei auf der ›retrospektiven‹ Digitalisierung, die vorrangig ältere, urheberrechtsfreie Bibliotheksbestände aufbereitet und im Internet zur Verfügung stellt.1 Das Spektrum ist denkbar breit und reicht von Turfan1 Im Rahmen des »Förderprogramms Retrospektive Digitalisierung von Bibliotheksbeständen« <http://www.dfg.de/forschungsfoerderung/wissenschaftliche_infrastruktur /lis/informationen_antragsteller/verteilte_digitale_forschungsbibliothek/retrospekt_ digitalisierung.html> (22.1.2004). – Vgl. Jürgen Bunzel: Die Verteilte Digitale Forschungsbibliothek als Infrastrukturförderung der Deutschen Forschungsgemeinschaft. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken. Neue Zugangsmöglichkeiten und Nutzungsqualitäten. Stuttgart: Kohlhammer 2000 (Werkhefte der Staatlichen Archivverwaltung Baden-Württemberg, Serie A: Landesarchivdirektion, 15), S. 67-82; Ewald Brahms: Digital Library Initiatives of the Deutsche Forschungsgemeinschaft. In: D-Lib Magazine 7 (Mai 2001), Nr. 7. <http://www.dlib.org/dlib/ may01/brahms/05brahms.html> (22.1.2004); Sigrun Eckelmann: Förderschwerpunkte der DFG im Bereich digitaler Bibliotheken. Vortrag anlässlich der Sun Summit Bibliotheken und Museen, 25.9.2002, Frankfurt a. M. <http://www.sun.de/Downloads /Praesentationen/2002/Summit-Bibliotheken/pdf/eckelmann.pdf> (22.1.2004). »Inseln im Meer des Beliebigen« 67 handschriften und tibetanischen Archivbeständen über Braille-MusikMatrizen, Tonaufnahmen semitischer Sprachen und neulateinische Dichtungen bis zum Grimm'schen Wörterbuch. Ein Dutzend Vorhaben widmet sich Zeitschriften und Jahrbüchern beziehungsweise periodisch erschienenem Schrifttum.2 Alle Projekte gehen im Konzept der Verteilten Digitalen Forschungsbibliothek auf und leisten heute bereits unschätzbare Dienste, wo es gilt, weltweit verstreute oder entlegene Bestände virtuell zusammenzuführen und den mit ihnen befassten Disziplinen einen ungehinderten Zugriff auf das Material zu bieten. Vergleicht man die deutsche Digitalisierungslandschaft mit Angeboten aus den USA,3 ist freilich festzustellen, dass der Aufbau digitaler Fachbibliotheken hierzulande gerade erst das Anfangsstadium hinter sich gelassen hat. Dies betrifft nicht die Auswahl teilweise recht exotischer Textcorpora oder das Faktum, dass der Bestand von fachübergreifend einschlägigen und vielgenutzten Quellen nur langsam wächst. Vielmehr sei, summiert die DFG die Entwicklung der letzten Jahre, die »Verteilte digitale Forschungsbibliothek [...] zunächst unstrukturiert gewachsen« und setzt als ›Gegenmaßnahme‹ derzeit auf die »Einrichtung eines Portals ›Sammlung digitaler Drucke‹, mit dem Ziel, retrodigitalisierte Dokumente leichter auffindbar zu machen«:4 Erkennbare Defizite bestehen [...] gegenwärtig noch bei der Einbindung digitaler Angebote in vorhandene Informationssysteme, insbesondere einer über die jeweilige Besitzbibliothek hinausgehenden Erschließung der digitalisierten Bestände und einer aktiven Bekanntmachung der verfügbaren Materialien.5 Der »Eindruck einer Vielfalt unterschiedlicher Ressourcen« gipfelt in der »Unübersichtlichkeit des vorhandenen Angebots«, das »auf der Ebene 2 3 4 5 Vgl. die »Projektübersicht für das Programm ›Retrospektive Digitalisierung von Bibliotheksbeständen‹«: <http://www.dfg.de/forschungsfoerderung/wissenschaftliche_ infrastruktur/lis/gefoerderte_projekte/download/programm_retrospektive_ digitalisierung_von_bibliotheksbestaenden.pdf> (22.1.2004). – Links zu den Einzelprojekten bieten die Digitalisierungszentren München und Göttingen: <http://www. bsb-muenchen.de/mdz/proj2.htm> und <http://gdz.sub.uni-goettingen.de/de/index .html> (22.1.2004). Vgl. für Digitalisierungsprojekte z.B. in den USA die »Digital Initiatives Database« der Association of Research Libraries: <http://www.arl.org/did/> (22.1.2004). Sigrun Eckelmann: Förderschwerpunkte der DFG im Bereich digitaler Bibliotheken, S. 9 und 14. (Fußnote 1). Die Erschließung und Bereitstellung digitalisierter Drucke. Vorschläge des Unterausschusses für Kulturelle Überlieferung. Durch den Bibliotheksausschuss der Deutschen Forschungsgemeinschaft im Oktober 2002 verabschiedet, S. 6 <http://www.dfg.de/ forschungsfoerderung/wissenschaftliche_infrastruktur/lis/aktuelles/download/ konzept_digitale_drucke.pdf> (22.1.2004). 68 Schicketanz/Heiligenhaus der überlokalen Informationssysteme dann völlig undurchdringbar« wird, »wenn [...] eine unsystematische und weitgehend vom Zufall abhängige Auswahl der jeweils nachgewiesenen Digitalisierungsaktivitäten hinzutritt«.6 Unter praktischem Gesichtspunkt hat es darüber hinaus oft noch den Anschein, dass viele Projekte technologisch bedingte Inkonsistenzen aufweisen beziehungsweise in summa keiner homogenen Architektur folgen. Ebenso scheint bislang nur wenig Einigkeit über allgemeine Produktionskriterien und -verfahren zu bestehen, die eine ökonomische, ressourcensparende Verarbeitung umfangreicher Corpora gewährleisten.7 Die unter funktionalen und ergonomischen Aspekten sehr unterschiedlich gestalteten Websites deutscher Digitalisierungsprojekte lassen den Nutzer erahnen, welche Schwierigkeiten die Ermittlung und Umsetzung produktions- und designtechnischer Standards derzeit noch bereiten.8 2. Ungeachtet dieser Problematik, auf die im Folgenden näher eingegangen werden soll, hat sich das Konzept der internetgestützten Informationsversorgung als integraler Bestandteil und richtungsweisender Imperativ deutscher Bibliotheks- und Bildungspolitik etabliert – allen kulturpessimistischen Unkenrufen zum Trotz, eine »zur Cyberscience hochgerüstete Wissenschaft« würde letztlich »nichts weniger als ihre Wissenschaftlichkeit ein[büßen]«.9 Gehörte es vor knapp zehn Jahren fast noch zum guten Ton, die ›Technisierung‹ der Geisteswissenschaft rundheraus abzu6 7 8 9 A.a.O. Vgl. ebd., S. 8f. sowie Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken, S. 103-112, bes. S. 103. (Fußnote 1). Die Digitalisierungszentren Göttingen und München (siehe Fußnote 2) sollen in dieser Hinsicht Abhilfe schaffen. Das Kompetenzzentrum an der Universität Trier widmet sich speziell Fragen elektronischer Erschließungs- und Publikationsverfahren in den Geisteswissenschaften. Siehe folgende Adresse: <http://www.kompetenzzentrum.unitrier.de/index.html> (22.1.2004). – Einen ›Katalog‹ technischer Richtlinien hat die Landesarchivdirektion Baden-Württemberg im Zuge zweier Digitalisierungsprojekte auf der Basis entsprechender DFG-Empfehlungen (siehe Fußnote 20) zusammengestellt: »Digitalisierung von Archiv- und Bibliotheksgut« <http://www.ladbw.de/digpro/index.htm> sowie »Workflow und Werkzeuge zur digitalen Bereitstellung größerer Mengen von Archivgut« <http://www.lad-bw.de/workflow/index. htm> (22.1.2004). Uwe Jochum/Gerhard Wagner: Cyberscience oder vom Nutzen und Nachteil der neuen Informationstechnologie für die Wissenschaft. In: Zeitschrift für Bibliothekswesen und Bibliographie 43 (1996), H. 6 (November/Dezember), S. 579-593. <http://www. klostermann.de/verlegen/jochu_02.htm> (22.1.2004). »Inseln im Meer des Beliebigen« 69 lehnen, ist der »Außenseiterstatus« der die Zeichen der Zeit verkennenden »Verächter und Verweigerer« längst evident geworden.10 Kein Wissenschaftler, der die Effizienz von Personal Computer und World Wide Web erkannt hat, will fortan auf diese Arbeitshilfen verzichten. Nur die letzten standhaften Verteidiger einer überkommenen Buchdruckromantik leugnen heute noch das Faktum, dass auch Gutenbergs revolutionärer Quantensprung in erster Linie eine technologische Leistung darstellte, deren Ergebnis – zunächst als Teufelswerk verschrien – innerhalb kurzer Zeit fest in den frühneuzeitlichen Wissenschaftsalltag integriert wurde, diesen gar allererst konstituiert hat.11 Die Grundsatzdebatte kann angesichts jüngerer bildungs- und forschungspolitischer Entscheidungen, die sich frühen DFG-Empfehlungen anschließen und auf den nachhaltigen Ausbau der digitalen Informationsversorgung drängen, als beendet gelten.12 In Anbetracht der voll im Gange befindlichen »Umgestaltung der wissenschaftlichen Informationslandschaft«,13 die – wie Eli M. Noam 1995 prophezeite – die klassischen Strukturen der universitären Wissensvermittlung tief greifend wandeln wird,14 gewinnt die oft als ›Technophobie‹ getadelte Skepsis der Geisteswissenschaftler allerdings neuerlichen Auftrieb. Der Ursprung dieser pessimistisch-misstrauischen Haltung ist genauer zu lokalisieren: Als ›Angst vor dem Unbekannten‹ oder »mangelnde Informationskompetenz bei den Nutzern«15 ist diese aus Unsicherheit und Unkenntnis resultierende 10 11 12 13 14 15 Rainer Baasner: Digitalisierung – Geisteswissenschaften – Medienwechsel? Hypertext als fachgerechte Publikationsform. In: Jahrbuch für Computerphilologie 1 (1999). <http://computerphilologie.uni-muenchen.de/jahrbuch/jb1/baasner.html> (22.1.2004). Vgl. hierzu ausführlich Michael Giesecke: Der Buchdruck in der frühen Neuzeit. Eine historische Fallstudie über die Durchsetzung neuer Informations- und Kommunikationstechnologien. Mit einem Nachwort zur Taschenbuchausgabe 1998. Frankfurt a. M.: Suhrkamp 1998 (Suhrkamp Taschenbuch Wissenschaft, 1357). Vgl. das DFG-Memorandum zur »Weiterentwicklung der überregionalen Literaturversorgung« <http://www.dfg.de/aktuelles_presse/reden_stellungnahmen/download/ memo.pdf> (22.1.2004) und die »Empfehlungen zur digitalen Informationsversorgung durch Hochschulbibliotheken« des Wissenschaftsrats vom 13. Juli 2001 <http://www. wissenschaftsrat.de/texte/4935-01.pdf> (22.1.2004) sowie das Positionspapier »Information vernetzen – Wissen vernetzen« des Bundesministeriums für Bildung und Forschung vom September 2002 <http://www.bmbf.de/pub/information_vernetzenwissen_aktivieren.pdf> (22.1.2004). Sigrun Eckelmann: Förderschwerpunkte der DFG im Bereich digitaler Bibliotheken, S. 24. (Fußnote 1). Vgl. Eli M. Noam: Electronics and the Dim Future of the University. In: Science 270 (Oktober 1995), S. 247-249. <http://www.uta.fi/FAST/JH/noam.html> (22.1.2004). BMBF-Studie zur Zukunft der wissenschaftlichen Information. Pressemitteilung des Bundesministeriums für Bildung und Forschung vom 16.9.2002 anlässlich der Vorstel- 70 Schicketanz/Heiligenhaus Befangenheit gegenüber neuen Technologien ein nicht zu unterschätzender Faktor, der schon im Vorfeld über Wohl und Wehe jeder Digitalisierungsinitiative entscheidet.16 Doch wer ist der ›Nutzer‹? Im Zeitalter des ›analogen‹ Informationsaustausches, in der Ära der klassischen Bibliothek, lag die Antwort auf der Hand: der ›Leser‹, im universitären Bereich also vor allem Wissenschaftler und Studierende. In der Epoche der hybriden Bibliotheken und Archive,17 die neben Schrifttum in Buch- oder Microform alle erdenkbaren Arten und Formate von digitalisierten Materialien bereitstellen müssen, wird der Bibliothekar beziehungsweise Archivar zunächst selbst zum Nutzer – an erster Stelle zum ›User‹ technischer Apparaturen, Computeranwendungen sowie Format- und Auszeichnungssprachen zur Erfassung, Indizierung und Verbreitung von Informationen. Zwar soll nicht unterstellt werden, dass das Bibliotheks- und Archivpersonal bislang einen Bogen um den Computer gemacht hätte. Die Anforderungen, die heute an den Bibliothekar und Archivar gestellt werden, unterscheiden sich jedoch immens von Fertigkeiten, wie sie seit den 1970er Jahren hinsichtlich der EDV-gestützten Katalogisierung und Datendistribution verlangt wurden. Nicht allein der neue Medientypus, vor allem die technische Peripherie zwingt zur grundlegenden Neuorientierung: Nicht nur die Andersartigkeit der Medien, auch die gleichzeitig veränderte Welt der Informationstechnik, die schnellen Netze, die hohe Speicherdichte und die Diversifikation der Informationsmärkte stellen unsere Vorstellungen radikal in Frage.18 Amerikanische Digitalisierungsspezialisten insistieren daher zurecht darauf, dass jeder Initiative die selbstkritische Bewertung der eigenen technischen Kompetenz vorausgehen muss: The impulse to embrace things digital is strong, but too often infrastructure – costs, personnel, systems, and preservation – gets insufficient thought and delivery falls short of the promise. Information professionals can little afford to make mistakes in initiating and maintaining digital programs. They must assess care- 16 17 18 lung des Positionspapiers »Information vernetzen – Wissen vernetzen«. <http://www. bmbf.de/presse01/720.html> (22.1.2004). Vgl. Fußnote 12. Vgl. Hermann Leskien: Der Einfluss digitaler Medien auf die bibliothekarischen Tätigkeiten. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken, S. 51-63. Hier S. 63. (Fußnote 1). Zur ›Hybriden Bibliothek‹ vgl. Chris Rusbridge: Towards the Hybrid Library. In: DLib Magazine, Juli/August 1998. <http://www.dlib.org/dlib/july98/rusbridge/07 rusbridge.html> (22.1.2004). Hermann Leskien: Der Einfluss digitaler Medien auf die bibliothekarischen Tätigkeiten, S. 51. (Fußnote 16). »Inseln im Meer des Beliebigen« 71 fully the pros an cons of technology choices in a cultural context. The best way to ensure good decisions is to became a knowledgeable consumer of the technology.19 Der ›vernetzte‹ Bibliothekar muss über Erfahrungen im Projektmanagement verfügen, vor allem aber technisches Wissen und Urteilsvermögen mitbringen. Der Erwerb dieser Fertigkeiten bleibt allerdings mangels längerfristiger, flächendeckender Erfahrungen im Digitalisierungsbereich heute noch meist seiner Eigeninitiative überlassen. Entsprechende Ausbildungsmaßnahmen, die normative, technische Infrastrukturen und Standards voraussetzten, stellen bislang ebenso eine Ausnahme dar wie allgemein gültige Übereinkünfte, die die praktische Durchführung von Digitalisierungsprojekten zu regeln hätten. Technisch-inhaltliche Empfehlungen, vereinzelte Projektdokumentationen oder Sammelwerke sowie neue Diskussionsforen zeigen,20 dass auf zahlreiche drängende Fragen noch keine verbindlichen Antworten gefunden wurden. Abhilfe könnte eine repräsentative, didaktisch eingängige Bündelung des erreichten Kenntnisstandes nach Vorbild amerikanischer Standardwerke schaffen,21 die den betroffenen Bibliothekaren, Archivaren und Wissenschaft- 19 20 21 Anne R. Kenney/Oya Y. Rieger (Hg.): Moving Theory into Practice. Digital Imaging for Libraries and Archives. Mountain View, CA: Research Libraries Group 2000, Introduction, S. 3. Vgl. die »Empfehlungen zur inhaltlichen Auswahl von Bibliotheksmaterialien für die retrospektive Digitalisierung« der Facharbeitsgruppe ›Inhalt‹ und den Bericht der Facharbeitsgruppe ›Technik‹ im Förderbereich »Verteilte Digitale Forschungsbibliothek« <http://www.sub.uni-goettingen.de/ebene_2/vdf/empfehl.pdf> bzw. <http://www. sub.uni-goettingen.de/ebene_2/vdf/endfas.pdf> (22.1.2004). – Einen vorbildlichen, in technischen Fragen freilich nicht mehr ganz aktuellen Werkstattbericht lieferten Stefan Aumann/Hans-Heinrich Ebeling/Hans-Reinhard Fricke/Manfred Thaller: Innovative Forschung in Duderstadt. Das digitale Archiv. Begleitheft zur Ausstellung in der Sparkasse Duderstadt, 5.-16. Mai 1997. Mit einer Beständeübersicht. Duderstadt: Mekke 1997. Vgl. folgende Adresse: <http://www.archive.geschichte.mpg.de/duderstadt/ dud.htm> (22.1.2004). – Einen fundierten Einstieg in den Gesamtkomplex bietet der Sammelband Digitale Archive und Bibliotheken von Hartmut Weber/Gerald Maier (siehe Fußnote 1). – Vgl. ferner das »Digital Library Forum« der Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. <http://www.dl-forum.de> (22.1.2004). Anne R. Kenney/Stephen Chapman: Digital Imaging for Libraries and Archives. Ithaca: Cornell University Library 1996; Anne R. Kenney/Oya Y. Rieger (Hg.): Moving Theory into Practice (siehe Fußnote 19); weitere Literaturhinweise, ebd., S. 9. – Eine ausgezeichnete Einführung bietet das »Digital Imaging Tutorial« des Library and Research Departments der Cornell University: <http://www.library.cornell.edu/ preservation/tutorial/tutorial_English.pdf> (22.1.2004). 72 Schicketanz/Heiligenhaus lern als richtungsweisender Ratgeber zu dienen hätte.22 Der Gewinn einer zunehmenden ›Technosensibilisierung‹ liegt auf der Hand: [...] digital projects are usually experimental and permit a rare and precious let'stry-it-and-see attitude. This early period of technological innovation turns you and your staff into valuable assets for your community. You have an expertise that has been dearly bought by your institution, and its investment in you and the conversion projects you manage means that you have its attention.23 Die technologischen und praktischen Widerstände wiegen desto schwerer, als die Forderung nach dem Auf- und Ausbau digitaler Archive und Bibliotheken aus Gründen der zeitgemäßen Informationserhaltung, -verwaltung und -versorgung immer lauter erhoben wird. Zwar ist zu erwarten, dass das »learning-by-doing« viele Defizite allmählich kompensiert, institutionelle Schwierigkeiten überwunden werden und sich im Zuge nationaler und internationaler Kooperationen – so genannte »Collaboratories« – einheitliche Standards etablieren.24 Gegenwärtig sind die Planer jedes Digitalisierungsprojekts aber bereits im Vorfeld ihrer Anstrengungen mit einer Reihe weitreichender Fragestellungen konfrontiert, die im technischen und distributiven Bereich spezielle Design- und Produktionsstrategien nach sich ziehen. 3. Die Crux jedes Projekts ist selbstverständlich die Finanzierung eines solchen Vorhabens, wobei die Aussichten seit Start des DFG-Förderprogramms zur ›Retrospektiven Digitalisierung von Bibliotheksbeständen‹ weniger trübe als in anderen Wissenschaftsbereichen sind.25 Dennoch bleibt festzuhalten: Digitalisierungsprojekte sind sehr kostenintensiv, wobei oft übersehen wird, dass gerade der zur Realisierung der Pläne unverzichtbare technische Unter- und Überbau erhebliche finanzielle Inve22 23 24 25 Vgl. Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten, S. 103. (Fußnote 7). Abby Smith: Real-Life Choices. In: Anne R. Kenney/Oya Y. Rieger (Hg.): Moving Theory into Practice, S. 2-3. Hier S. 3. (Fußnote 19). – Gleichlautend erklärt die DFG den »[k]onzentrierte[n] Aufbau des entsprechenden spezialisierten technischen und organisatorischen Wissens« zu einem der Hauptziele ihrer jüngsten Förderinitiativen. Vgl. Sigrun Eckelmann: Förderschwerpunkte der DFG im Bereich digitaler Bibliotheken, S. 24. (Fußnote 1). Vgl. Elmar Mittler: Collaboratories – auf dem Weg zu neuen Formen der technisch unterstützten Kooperation. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken, S. 95-100. (Fußnote 1). Vgl. Fußnote 1. »Inseln im Meer des Beliebigen« 73 stitionen erfordert. Dies betrifft zum einen die Herstellung der so genannten Digitalisate, zum anderen die Finanzierung leistungsstarker Hardware. Weitaus kostenintensiver ist jedoch der Investitionsaufwand im Softwarebereich: Selbst wenn ein geeignetes Dokumentenmanagementsystem gefunden wurde, mit dem alle Arbeitsschritte von der Erfassung bis zur Präsentation der Quellen durchgeführt werden können, verursachen Software-Anpassungen stets weiteren Finanzierungsbedarf. Inwiefern die gewählte Software die anstehenden Aufgaben allerdings tatsächlich zu bewältigen vermag, erfordert wiederum technische Urteilsfähigkeit. Spitzentechnologie – hier sollten keine Zugeständnisse gemacht werden – ist teuer und erfordert professionelle Kenntnisse. Die Verwendung veralteter Systeme oder die Entscheidung, den Auf- oder Ausbau der technischen Infrastruktur ›Hobbyprogrammierern‹ zu überlassen, heißt, im sensibelsten Bereich des Projekts eine Zeitbombe zu plazieren. Die Auswahl des Corpus, das digitalisiert werden soll, hat sich einerseits technischen Design- und Produktionsmöglichkeiten zu beugen: Da der finanzielle Aufwand erheblich ist, wird jeder Projektträger früh Anschlussvorhaben ins Auge fassen und nur in Verfahren investieren, von denen Folgeprojekte profitieren können. Andererseits müssen verfahrenstechnische Strategiekonzepte die ökonomischen und inhaltlichen Auswahlkriterien berücksichtigen, wobei es grundsätzlich zwischen ›guten‹ und ›schlechten‹ Entscheidungsparametern zu unterscheiden gilt:26 Ob die Digitalisierung zur Sicherung gefährdeter Bibliotheksbestände beiträgt und langfristig die herkömmliche Microverfilmung ablöst, spielt in diesem Zusammenhang eine nachgeordnete Rolle: Digitalisierung macht die Aufbewahrung der Originale nicht überflüssig; sie löst auch nicht die konservatorischen Probleme der Bibliotheken. Aber sie erleichtert die Benutzung historischer Texte in entscheidender Weise und ist geeignet, neue Fragestellungen anzuregen.27 Entscheidend ist vielmehr, dass Projekte dieser Art unter dem Primat stehen, »durch den Einsatz digitaler Technik die wissenschaftliche Literaturversorgung zu verbessern«; sie gewährleisten den »Direktzugriff auf für die Forschung und Lehre wichtige Bestände« sowie den »Mehrfachzugriff auf vielgenutzte Literatur« und haben »die digitale Bereitstellung schwer zugänglicher Bestände« wie auch »die erweiterte Nutzung bisher nur wenig bekannter Materialien« zu sichern.28 26 27 28 Vgl. z.B. den Überblick von Abby Smith: Real-Life Choices. (siehe Fußnote 19). Die Erschließung und Bereitstellung digitalisierter Drucke, S. 3. (Fußnote 5). Empfehlungen zur inhaltlichen Auswahl von Bibliotheksmaterialien für die retrospektive Digitalisierung, S. 2. (Fußnote 20). 74 Schicketanz/Heiligenhaus Die praktischen Konsequenzen, die diese DFG-Prämissen für die Corpus-Auswahl nach sich ziehen, liegen auf der Hand und fordern spezielle design- und produktionstechnische Vorentscheidungen. Folgende Faktoren sind hier von ausschlaggebender Bedeutung: → Quantität – Die Stärke von Hard- und Softwaresystemen besteht darin, große Datenmengen erfassen, verwalten und aufbereiten zu können. Auf Grund des finanziellen und organisatorischen Aufwands sowie der anzustrebenden, möglichst hohen Nutzerfrequenz sollte bei der Auswahl zu digitalisierender Materialien bewusst auf ›Masse‹ gesetzt und Corpora bereitgestellt werden, die wenigstens einige zehn- oder hunderttausend Seiten umfassen. Die technische Infrastruktur muss die problemlose Erfassung und Wiedergabe großer, dabei in der Regel heterogener Datenmengen garantieren, wobei stets das oft eingeschränkte, technische Know-how der Bearbeiter zu berücksichtigen ist. → Simultaneität – Es ist keine übertriebene Schätzung, dass mit Beginn der Förderung eines Digitalisierungsprojekts bis zur Präsentation erster Ergebnisse einige Jahre vergehen – ein Umstand, der weder die Projektträger noch die Nutzer befriedigt. Der technische Produktionsweg sollte daher zwei kategoriale Bedingungen erfüllen: Erstens sind die einzelnen Produktionsschritte zu modularisieren, so dass sukzessiv autarke Ergebnisse zur Verfügung gestellt werden können. Zweitens darf zwischen der primären Erfassung der Daten und ihrer Bereitstellung im Internet möglichst kein Zeitverlust entstehen. Konkret bedeutet dies einerseits, dass ein aus diversen Gründen jederzeit möglicher Projektabbruch der Trägerinstitution keinen allzu großen Schaden zufügt. Andererseits ist technisch zu gewährleisten, dass das Ergebnis jeder Aktion der Bearbeiter sofort dem Endnutzer bereitgestellt wird. → Ubiquität – Selbstverständlich müssen die digitalisierten Bestände global verfügbar sein, in gleicher Qualität und Quantität wie am Erfassungsort, unabhängig von individuell genutzten Hard- oder Softwareplattformen. Im Netzwerk der verteilten digitalen Bibliothek, die überregionale oder internationale Kooperationen anstrebt, ist ferner technisch zu gewährleisten, dass die Datenerfassung ohne größeren Aufwand von jedem beliebigen Standort aus durchgeführt werden kann. Dies impliziert, dass die Datenbasis migrationsfähig zu sein hat: Sie muss – nicht nur aus Gründen der Langzeitsicherung – in andere standardisierte Formate und Speichermedien überführbar sein; alle »Inseln im Meer des Beliebigen« 75 ›eigenen‹ Daten müssen, zum Beispiel zum Zweck der Verbundrecherche, verlustfrei in ›fremde‹ Systeme überspielt werden können wie umgekehrt die Integration von Fremddaten ins lokale System gesichert sein muss. 4. Der Aufbau einer effizienten Produktionslinie, die große, heterogene Datenmengen ohne Zeitverzug zur ubiquitären Nutzung im Internet aufbereitet, bildet den technologischen Fokus des DFG-Kooperationsprojekts »Retrospektive Digitalisierung jüdischer Periodika im deutschsprachigen Raum« (www.compactmemory.de), das seit Frühjahr 2000 vom Aachener Lehr- und Forschungsgebiet Deutsch-jüdische Literaturgeschichte, dem Sondersammelgebiet Judentum der Frankfurter Stadtund Universitätsbibliothek sowie der Kölner Bibliothek Germania Judaica durchgeführt wird. Im Verlauf von sechs Jahren soll der Großteil der seit Ende des 18. Jahrhunderts im deutschen Sprachraum erschienenen jüdischen Zeitschriften, Zeitungen und Jahrbücher erschlossen und bereitgestellt werden. Das Vorhaben schließt eine gravierende Lücke, die bislang die Arbeit der Jüdischen Studien maßgeblich erschwerte: Einerseits bilden die rund 5.000 jüdischen Periodika, die seit dem 17. Jahrhundert weltweit erschienen, ein gewaltiges, gar nicht zu überschätzendes Quellenreservoir der jüdischen Geschichte und Kultur.29 Über drei Jahrhunderte versuchten jüdische Periodika alle wissenschaftlichen, beruflichen, literarischen, pädagogisch-didaktischen beziehungsweise geistigen Bedürfnisse ihrer Leser zu befriedigen, wodurch sie zu einem kulturhistorisch einmaligen ›Archiv‹ wurden, das sämtliche religiösen, politischen, sozialen und kulturellen Richtungen innerhalb des Judentums dokumentiert.30 Andererseits sind die erhaltenen Bestände, vor 29 30 Vgl. G[eorg] H[erlit]z/M[endel] P[robst]: Presse, jüdische. In: Georg Herlitz/Bruno Kirschner (Hg.): Jüdisches Lexikon. Ein enzyklopädisches Handbuch des jüdischen Wissens in vier Bänden. Berlin: Jüdischer Verlag 1927-1930, Bd. IV/1, Sp. 1102-1110 <http://www.compactmemory.de/project/doku02_link.html> (22.1.2004) und David Flinker/Shalom Rosenfeld/Mordechai Tsanim (Hg.): The Jewish Press That Was. Accounts, Evaluations and Memories of Jewish Papers in Pre-Holocaust Europe. Jerusalem: Jerusalem Post Press 1980. Zum historisch-wissenschaftlichen Stellenwert jüdischer Periodika vgl. Hans Otto Horch/Till Schicketanz: »Ein getreues Abbild des jüdischen Lebens«. Compact Memory – Ein DFG-Projekt zur retrospektiven Digitalisierung jüdischer Periodika im deutschsprachigen Raum. In: Menora. Jahrbuch für jüdische Geschichte 12 (2001), S. 387-405; dies.: Compact Memory – Ein Projekt zur retrospektiven Digitalisierung jüdischer Periodika im deutschsprachigen Raum. In: Michael Nagel (Hg.): Zwischen 76 Schicketanz/Heiligenhaus allem infolge der Verluste im Zweiten Weltkrieg und der systematischen Zerstörungen der Nazis, in alle Himmelsrichtungen zerstreut und vollständige Jahrgänge nur an wenigen Bibliotheken erhalten. Wegen ihres schlechten Erhaltungszustandes gelangt das Gros der Originale längst nicht mehr in den Leihverkehr, so dass interessierte Forscher und Laien zu häufigen und kostspieligen Bibliotheksreisen gezwungen sind, was angesichts der hohen Nutzungsfrequenz jüdischer Periodika auch für das Bibliothekspersonal einen erheblichen zusätzlichen Arbeits- und Zeitaufwand bedeutet. Die erste Forderung bestand folglich darin, die gemäß ihrer historischen Bedeutung, heutigen Nutzungsfrequenz und technischen Tauglichkeit ausgewählten Periodika dem Nutzer per Internet am individuellen Arbeitsplatz zur Verfügung zu stellen. Die Präsentation des insgesamt rund 700.000 Seiten umfassenden Corpus sollte einen zugleich ökonomischen, ergonomisch sinnvollen und intuitiven Zugriff gestatten – Kriterien mithin, die in Anbetracht der enormen Menge zu digitalisierender Analogdaten selbstverständlich auch für die bibliothekarische Erfassung der Daten gelten.31 Zudem war zu garantieren, dass dem User erste Ergebnisse ohne Zeitverzug in Form eines strukturierten Archivs navigier- beziehungsweise skalierbarer Grafiksammlungen bereitgestellt werden können. 31 Selbstbehauptung und Verfolgung. Deutsch-jüdische Zeitungen und Zeitschriften von der Aufklärung bis zum Nationalsozialismus. Hildesheim u.a.: Olms 2002 (Haskala, 25), S. 351-359. Die Auswahl umfasst u.a. folgende Periodika: Allgemeine Zeitung des Judenthums (1837-1922), Altneuland (1904-1906), Berliner Vereinsbote (1895-1901), C.V.-Zeitung (1922-1938), Der Israelit (1860-1938), Der Jude (1832-1833), Der Jude (1916/171924), Der Morgen (1925/26-1938), Der Orient (1840-1851), Die Freistatt (1913/14), Die Welt (1897-1914), Esra (1919/1920), Im deutschen Reich (1895-1922), Israelitische Rundschau (1901-1902), Jahrbuch für jüdische Geschichte und Literatur (18981931, 1936-1938), Jeschurun (1854/55-1869/70; 1883-1888; 1914-1930), Jüdische Rundschau (1902-1938), Menorah (1923-1932), Mitteilungen des Gesamtarchivs der Deutschen Juden (1908/09-1914/15, 1926), Monatsschrift für Geschichte und Wissenschaft des Judentums (1851/52-1887; 1893-1939), Neue jüdische Monatshefte (1916/17-1919/20), Ost und West (1901-1923), Palästina (1902-1938), Sulamith (1806/08-1845/48), Wissenschaftliche Zeitschrift für jüdische Theologie (1835-1847), Zeitschrift für Demographie und Statistik der Juden (1905-1923; 1924-1931), Zeitschrift für die Geschichte der Juden in Deutschland (1887–1892; 1929/30-1937). – Bis 2006 sollen insgesamt 120 Periodika zugänglich gemacht werden. »Inseln im Meer des Beliebigen« 77 Abb. 1: Auswahl und Anzeige eines Zeitschriftenheftes Wie in einer ›realen‹ Bibliothek wählt der Besucher zunächst das Periodikum über einen Navigationsbaum aus, um über den gewünschten Jahrgang zur gesuchten Nummer zu gelangen (siehe Abb. 1). Die Anzeige der Images, in denen man wie im papierenen Original ›blättern‹ kann, erfolgt in den gängigen Grafikformaten; separate Optionen dienen der Thumbnailansicht, der Vergrößerung beziehungsweise Verkleinerung sowie dem Druck oder Download der Images. Die Bereitstellung der Grafiken erfolgt mit dem spezifisch auf den Bedarf von Digitalisierungsprojekten zugeschnittenen Produkt Visual Library der Firma semantics. Diese Softwareplattform ermöglicht mit den Modulen Library Manager und Library Scout die strukturierte Erfassung, Indizierung, Volltexterkennung, Bearbeitung und Bereitstellung beliebiger grafischer und textueller Materialien im Internet.32 Dabei setzt der Library Manager als zentrales Arbeitswerkzeug das Digitalisierungsteam in den Stand, große Mengen von Grafiken übersichtlich und schnell auf einen lokalen Datenbankserver zu überspielen (circa 1.000 Images pro Stunde). Ein Vorschaufenster zeigt wahlweise den Inhalt des Quellverzeichnisses an, aus dem Images per Drag-and-Drop ins Zielverzeichnis kopiert werden. Im integrierten Grafikbetrachter werden die Images einzeln oder in Form von Thumbnails aufgerufen und in einem Arbeitsgang von Schattierungen oder Verschmutzungen gereinigt. Über einen Navigationsbaum, der die serverinterne Zielverzeichnisstruktur 32 Nähere Angaben zum Funktionsumfang der Visual Library unter <http://www. semantics.de/produkte/visual_library/> (22.1.2004). 78 Schicketanz/Heiligenhaus abbildet, legt der Bearbeiter neue, annotierbare Zeitschriftentitel, Jahrgänge oder Hefte an, wobei jedes Image zudem typisierbar ist (Titelblatt, Inhaltsverzeichnis, Artikel und so weiter). Mit diesen Arbeitsschritten stehen die erschlossenen Materialien unmittelbar unter Verwendung des Library Scouts in Form dynamisch generierter Webseiten zu Recherchezwecken zur Verfügung. Abb. 2: Library Manager – Einspeisung der Images ins lokale Verzeichnissystem Abb. 3: Library Manager – Imageansicht »Inseln im Meer des Beliebigen« 79 Ein Vorteil dieses ersten Produktionsschritts besteht darin, große Mengen digitalen Quellenmaterials ohne Umschweife im Internet zur Verfügung zu stellen. Die Datenerfassung folgt ergonomischen und ökonomischen Prinzipien und setzt keine besonderen technischen Kenntnisse voraus. Darüber hinaus ist diese Phase der Produktion vollkommen autark: Mit geringem Aufwand lassen sich auch weltweit verstreute Materialien in Form virtueller Gesamtbestände zentralisieren, auf die fortan global zugegriffen werden kann. Der Umstand, dass in diesem Stadium keine digitalen Volltexte angeboten werden und das Archiv erst oberflächlich strukturiert ist – im Fall von Periodika gemäß ihrer ›natürlichen‹ Hierarchie (Titel, Jahrgang, Einzelheft) –, erweist sich nur auf den ersten Blick als Nachteil: Waren zuvor aufwändige, oft erfolglose Bibliotheksreisen, Archivaufenthalte oder Bestellvorgänge nötig, wird der Nutzer die bloße Verfügbarkeit bislang schwer zugänglicher Corpora – und sei die Erschließungstiefe vorläufig noch so gering – als ungemeine Arbeitserleichterung begrüßen. Bibliotheken und Archive wiederum werden es zu schätzen wissen, knappe Personalressourcen schonen und die bedrohten Originale schützen zu können. Diese einfache Bereitstellungsform, die als erster, selbstständiger Produktionsschritt angestrebt werden sollte, mag in manchen Fällen bereits vollkommen genügen – sie stellt jedenfalls ein vergleichsweise einfach, günstig und schnell zu erzielendes Arbeitsergebnis dar, das Nutzer und Anbieter gleichermaßen entlastet. Die geringe Komplexität dieses Verfahrens, das sich leicht auf andere Publikationstypen oder Überlieferungsformen applizieren lässt, mag ferner ein Argument für Institutionen darstellen, die bislang keine Erfahrungen im digitalen Bereich gesammelt haben, dieses Segment jedoch aus Gründen der ›Selbsterhaltung‹ rasch besetzen sollen: Es steht den Geisteswissenschaften nicht mehr frei, sich aus den wandlungsintensiven Bedingungen der Kommunikation herauszuhalten. Und wenn dies [...] im Stillen oder lautstark gefordert wird, dann um den Preis der Selbstmarginalisierung. [...] Was jetzt im Internet als Wissensbestand und Geltungsanspruch nicht angemessen markiert wird, kann mittelfristig bereits von der Weltkarte der geläufigen Kenntnisse verschwunden sein. Es gerät, wenn es für eine computergestützte Benutzung nicht in mediengerechter Form zur Verfügung steht, an den Rand jenes Feldes, das als Raum des allgemein Wissenswerten betrachtet werden kann.33 33 Rainer Baasner: Digitalisierung – Geisteswissenschaften – Medienwechsel? (Fußnote 10). 80 Schicketanz/Heiligenhaus Sofern das Corpus eine tiefere Erschließungsebene erfordert oder die entsprechende Nachfrage besteht, sollten sich Digitalisierungsvorhaben nicht darauf beschränken, Quellen als ›Loseblattsammlungen‹ anzubieten. Eine wichtige Vorgabe, die die Attraktivität eines Digitalisierungsprojekts sichert, besteht bekanntlich darin, dass die Effizienz des Zugriffs auf das Textcorpus die hergebrachten Möglichkeiten des Buchs oder der Mircoform übersteigen sollte. Dies betrifft vor allem die Recherchemöglichkeiten. 5. Keinesfalls wollen die Nutzer bei jeder neuen Fragestellung immer wieder eine Unzahl von Grafiken nach den gesuchten Materialien durchsuchen – eine mühsame und zeitraubende Prozedur, die schon die Arbeit mit Microfilmen oder papierenen Vorlagen erschwerte. Die Minimalerwartung der Benutzer besteht selbstverständlich darin, die den analogen ›Originalen‹ entsprechenden digitalen ›Kopien‹ einsehen zu können. Darüber hinaus will der User direkt auf zugehörige bibliographische Kerndaten zugreifen sowie in den digitalen Volltexten recherchieren. Als separater Produktionsschritt, der von der Einspeisung der Grafiken ebenso wie von der Erfassung der Volltexte getrennt werden sollte, mag die Erschließung der bibliographischen Daten relativ unaufwändig und unproblematisch sein – allerdings nur, sofern es sich um Monographien handelt: Hinter einem eindrucksvollen Archiv von abertausend Seiten verbergen sich oft nur einige Hundert Titelaufnahmen, die eventuell längst erfasst wurden oder kurzfristig katalogisiert werden können.34 Die normkonforme Katalogisierung unselbstständig erschienener Literatur erfordert hingegen einen weitaus höheren Arbeitsaufwand, den angesichts chronischer Ressourcenverknappung kaum noch eine Bibliothek aufzubringen im Stande ist. Möglicherweise wird man in Zukunft wenigstens die Titel des laufend in Fachzeitschriften, Jahrbüchern und Sammelwerken erscheinenden Schrifttums digital erfassen können – unter 34 Vgl. das ›Schwesterprojekt‹ von Compact Memory, das digitale Archiv Jiddische Drukke der Stadt- und Universitätsbibliothek Frankfurt a. M. unter der folgenden Adresse: <http://www.literatur-des-judentums.de> (22.1.2004) sowie die Dokumentation von Rachel Heuberger: Die Bestände der Judaica-Sammlung auf dem Weg ins Internet. Zwei Digitalisierungsprojekte an der Stadt- und Universitätsbibliothek Frankfurt a. M. In: Tribüne 39/154 (2000); vgl. folgende Adresse <http://www.stub.uni-frankfurt.de/ publikationen/tribuene.htm> (22.1.2004). »Inseln im Meer des Beliebigen« 81 dem Kriterium der »Realität des Leistbaren«35 kann diese Aufgabe retrospektiv wohl auch langfristig nur im Ausnahmefall erbracht werden. Das statistische Verhältnis zwischen selbst- und unselbstständigen Publikationen verdeutlicht das Problem: Repräsentiert die Titelaufnahme einer Monographie ungefähr 200 bis 300 Seiten, umfasst – gemäß den Erfahrungen von Compact Memory – ein Beitrag aus einem historischen Periodikum durchschnittlich kaum vier bis fünf Seiten Text. Ein Zeitschriftencorpus von circa 500.000 Seiten würde demnach die Erfassung von mehr als 100.000 Artikeln erforderlich machen, während im Fall von Monographien nur rund 2.000 Einträge anfielen. Stellt die Erfassung unselbstständigen Schrifttums, die einem Standard wie zum Beispiel den »Regeln für die alphabetische Katalogisierung in wissenschaftlichen Bibliotheken« (RAK-WB) beziehungsweise den bislang nur als Entwurf vorliegenden »Regeln für die alphabetische Katalogisierung unselbstständiger Werke« (RAK-UW) folgen sollte, nicht eine herkulische Leistung dar? Ist es unter ökonomischen Gesichtspunkten überhaupt zu rechtfertigen, dass sich ein Bibliotheksteam über Jahre dieser Aufgabe widmet – wohl wissend, dass das Ergebnis nur einen Tropfen auf dem heißen Stein ausmacht? Lange vor Anbruch des digitalen Informationszeitalters wurde die Forderung laut, dass verstärkt auch unselbstständiges Schrifttum katalogisiert werden müsse. In den vergangenen Jahrzehnten übernahmen teilweise Fachbibliographien diese Aufgabe. Mitte der 1990er Jahre folgten entsprechende Internetangebote, die sich aus nahe liegenden Gründen zumeist auf die laufend neuerscheinenden, hauptsächlich naturwissenschaftlich-technischen Fachzeitschriften konzentrieren.36 Die retrospektive Katalogisierung historischer Bestände ist hingegen sicher nicht grundlos immer wieder aufgeschoben oder nur im Einzelfall angegangen worden. In diesem Zusammenhang lautet die zentrale Frage vor allem, ob sich die Mühe in Zeiten der zunehmend effizienter arbeitenden Texterkennungsprogramme überhaupt lohnt: Ohne Zutun eines Bibliothekars könnte ein umfangreiches Corpus von Grafiken automatisch texterkannt und in digitalen, das heißt recherchierbaren Volltext umgewandelt werden. Im Ergebnis differenzierte das System zwar nicht zwischen distinkten, bibliographischen Einheiten wie ›Autor‹, ›Titel‹ und so weiter, was 35 36 Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten, S. 106. (Fußnote 7). Vgl. Initiativen einzelner Bibliotheken bzw. Bibliotheksverbünde vor allem das Kooperationsprojekt JADE, das die Recherche nach ca. 24.000.000 Aufsätzen aus rund 42.000 Fachzeitschriften ermöglicht, die über den kostenpflichtigen Dokumentlieferdienst JASON bestellt werden können. 82 Schicketanz/Heiligenhaus eine – wiederum aufwändige – Nachindizierung der Texte voraussetzte. Der Nutzer wäre aber dennoch in der Lage, nach bestimmten Zeichenfolgen zu recherchieren – eben auch solchen, die zum Beispiel einen Autornamen oder den Titel eines gesuchten Beitrags repräsentieren. Die Entscheidung, bibliographische Kerndaten manuell zu katalogisieren, bleibt unter wirtschaftlichen beziehungsweise technischen Gesichtspunkten stets anfechtbar. Man kann darüber spekulieren, ob künftig neue Technologien die klassische Form der Katalogisierung obsolet machen werden. Von dieser Entwicklung, die keinesfalls eine Zukunftsvision darstellt, einmal abgesehen, sind die neuen, hochinformativen Möglichkeiten jedoch an einem traditionellen Kriterium zu messen: Demzufolge basiert der ›Wert‹ eines digitalen Archivs nicht ausschließlich auf der Zweckmäßigkeit, die ein solches Angebot für einen bestimmten Nutzerkreis besitzt, wie im Übrigen ja auch die Bedeutung einer traditionellen Bibliothek keinesfalls nur in der Literaturversorgung besteht. Gerade die »Erschließung alter und wertvoller Bestände«, die »von gesamtstaatlicher oder überregionaler Bedeutung« sind,37 gilt zurecht als maßgebendes Förderkriterium, sofern dadurch der eigentliche Mehrwert jedes Einzelarchivs innerhalb der Verteilten Digitalen Forschungsbibliothek konstituiert wird. Den aus Einzelprojekten resultierenden Datenbanken ist folglich ein bleibender kulturhistorischer Stellenwert zu Eigen, der nicht unterschätzt werden kann: Wie ein Buch, das unkatalogisiert in eine Bibliothek eingestellt wurde, für den Nutzer schlichtweg nicht existiert, stellt erst die distinkte Titelaufnahme eines Zeitschriftenbeitrags die initiale Materialisierungsstufe seines potentiellen Informationsgehalts dar. Die Summe aller Titelaufnahmen bildet die Voraussetzung der optimalen Informationsvermittlung; der Zweck der Katalogisierung besteht indessen ebenso in der reinen Informationserhaltung. – Das Zukunftsszenario mag erschrecken, unrealistisch ist es keineswegs: Wenn die Originale eines Tages zu Staub zerfallen sind und einige Jahrzehnte oder Jahrhunderte später die archivierten Microfilme ausgebleicht sein werden, geben beizeiten konvertierte Datenbanken wenigstens darüber Auskunft, welche Informationen der Menschheit verloren gingen. In den weltweit aktiven Jüdischen Studien muss die Titeldatenbank von Compact Memory zudem das Kriterium erfüllen, auch vom Grafikbeziehungsweise Volltextangebot unabhängige Recherchen zu ermöglichen. Als digitales ›Quellenverzeichnis‹ schließt die Datenbank die große Lücke zwischen biographischen Nachschlagewerken, Fachbibliographien 37 Sigrun Eckelmann: Förderschwerpunkte der DFG im Bereich digitaler Bibliotheken, S. 7. (Fußnote 1). »Inseln im Meer des Beliebigen« 83 sowie einschlägigen Lexika und Enzyklopädien, wobei der Vorteil darin besteht, dass die Daten online verfügbar sind – nötigenfalls auch auf anderen Plattformen, in fremden Informationsverbünden oder auch als Referenzorgan in Buchform. Dies setzt voraus, dass die bibliothekarischen Kerndaten standardisiert und vollständig katalogisiert werden, wobei die Dateneingabe – um die Masse halbwegs zu bewältigen – überregional erfolgen sollte und keine Redundanzen aufweisen darf. Abb. 4: Produktionsschema zur Erfassung bibliographischer Kerndaten 84 Schicketanz/Heiligenhaus Die Erfassung der bibliographischen Kerndaten sieht laut Schema (siehe Abb. 4) drei aufeinander folgende Produktionsstufen vor, die mittels eines im Projekt entwickelten, webbasierten Eingabeinterfaces durchlaufen werden: Der Aufnahme des Periodikums folgt zunächst die Erfassung beziehungsweise Auswahl des Jahrganges und des Einzelheftes, dessen Beiträge katalogisiert werden sollen (siehe Abb. 5). Dem Eintrag dieser gestaffelten Quellenvermerke, die nur einmal vorgenommen werden müssen, um an allen Arbeitsstandorten abrufbar zu sein, schließt sich als zweiter Schritt die RAK-konforme Aufnahme der an der Publikation beteiligten Personen oder Körperschaften an. Abb. 5: Erfassung eines Zeitschriftenheftes Die technische Realisation dieses Schritts stellte eine der komplexesten Aufgaben dar (siehe Abb. 6): Neben anonymen, nur mit Initialen versehenen oder von Körperschaften autorisierten Beiträgen müssen vor allem die im osteuropäischen Bereich häufig variierenden Namensschreibweisen berücksichtigt werden, ohne redundante Mehrfacheinträge für dieselbe Person zu erzeugen, welche die Homogenität des Datenmodells beeinträchtigen. In verschärfter Form tritt diese Problematik bei Pseudonymen zu Tage, die als solche vom Bibliothekspersonal oft nicht oder nur zufällig zu erkennen sind. Führt die ›Ansetzungsform‹ in der Regel den Geburtsnamen auf, geben die zugeordneten ›Verweisungsformen‹ die Pseudonyme oder wechselnden Namensschreibungen des Beiträgers wieder, wobei man die Angaben jederzeit separat erweitern oder Zuordnungen revidieren kann. Der Bearbeiter muss ferner zur Aufnahme eines neuen Beiträgers alle bereits erfassten Ansetzungsformen sowie die zugehörigen Verweisungsformen durchsuchen können. Im Gegenzug galt es sicherzustellen, dass auch der Nutzer bei der Autorenrecherche eine vollständige Ergebnis- »Inseln im Meer des Beliebigen« 85 menge der zugewiesenen Publikationen erhält – also auch diejenigen Artikel, die der Autor unter Pseudonym oder variierender Schreibweise seines Namens veröffentlichte. Da zudem zwei oder mehr Autoren beziehungsweise Körperschaften für einen Beitrag verantwortlich zeichnen können, muss die Personenerfassung beliebig oft wiederholbar sein, wobei es sich als sinnvoll erwies, den eventuell unterschiedlichen ›Status‹ der Urheber zu verzeichnen (Verfasser, Illustrator, Übersetzer und so weiter). Der Datenbankserver, auf den die Clients zugreifen, verhindert auch bei diesem Arbeitsschritt redundante Doppel- oder Mehrfacherfassungen, da sämtliche Aufnahmen oder Änderungen unmittelbar allen beteiligten Standorten zur Verfügung stehen. Abb. 6: Erfassung eines Zeitschriftenbeiträgers Die Titelaufnahme schließt als dritter und letzter Produktionsschritt die Erfassung ab (siehe Abb. 7). Neben den Angaben zum Hauptsachtitel, zum Ansetzungstitel, einem eventuellen Ersatztitel oder diversen Titelzusätzen beziehungsweise obligatorischen Hinweisen zur Fundstelle (Rubrik, Seitenangaben) erschien es praktisch, die betreffenden Beiträge wenigstens ansatzweise zu verschlagworten: So werden im Fall von Rezensionen die besprochenen Werke in Kurzform verzeichnet; ebenso zentral für wissenschaftliche Recherchen, zum Beispiel für Fragen der Kanonbildung, ist die Möglichkeit, in Sammelbeiträgen enthaltene Werke, zum Beispiel Gedichte verschiedener Verfasser in einer Zeitschriftenanthologie, erfassen zu können. Die Treffermenge lässt sich darüber hinaus mit Hilfe des Publikationstyps (Beitrag, Rezension, Nachricht, Illustration und so weiter) oder der bereits zugewiesenen Rubrik (Leitarti- 86 Schicketanz/Heiligenhaus kel, Gemeindenachrichten, Feuilleton und so weiter) eingrenzen. Angaben zu Tabellen, Karten, Abbildungen, Notenbeispielen und so weiter liefern weitere Hinweise. Abb. 7: Titelaufnahme Bei der Entwicklung von Arbeitsoberflächen dieser Form und Funktionalität sind drei Überlegungen von entscheidender Bedeutung: (1) In Anbetracht der großen Datenmengen müssen während der Katalogisierung jeglicher Zeitverlust vermieden und redundante Tätigkeiten neutralisiert werden. (2) Die Arbeiten dürfen an die Clients keine speziellen Hard- oder Softwareanforderungen stellen beziehungsweise den bibliothekarischen Nutzern keine tieferen technischen Kenntnisse abverlangen und müssen simultan von verteilten, das heißt letztlich beliebigen Standorten aus durchgeführt werden können. (3) Die erfassten bibliothekarischen Kerndaten sind dem Nutzer unmittelbar nach jeder einzelnen Titelaufnahme in strukturierter Form im Internet zur Verfügung zu stellen. Wie angedeutet, wurde aus ökonomischen Gründen besonders das Prinzip der ›Rekursivität‹ berücksichtigt: Da das Bibliothekspersonal die Katalogisierung – von Nachträgen oder Korrekturen abgesehen – gemäß der Druckreihenfolge der Einzelbeiträge durchführt, ›merkt‹ sich das System das zuletzt aufgerufene Einzelheft, den übergeordneten Jahrgang sowie das zugehörige Periodikum. Der erste Produktionsschritt – die Erfassung des Periodikums, Jahrganges und Einzelheftes – ist gestaffelt, wodurch der Arbeitsaufwand minimiert wird: Die rekursiven Quellenan- »Inseln im Meer des Beliebigen« 87 gaben sind erst zu aktualisieren, wenn der Bearbeiter in ein neues Heft, einen neuen Jahrgang oder ein neues Periodikum wechselt. Die zentrale Verwaltung aller personen- und körperschaftsbezogenen Angaben, die nach einmaliger Erfassung an allen Standorten in Form von Auswahllisten zur Verfügung stehen, optimiert die Ergonomie und Effizienz des Produktionsverfahrens. Zugleich wird auf diesem Weg die einheitliche Datenerfassung und die Homogenität des Datenbestands gesichert – ein Faktor, dem vor allem in einem Projekt mit verteilten Standorten immense Bedeutung zukommt. Insgesamt konnten auf diese Weise innerhalb von knapp drei Jahren circa 60.000 Einzelbeiträge beziehungsweise rund 6.000 Personen- und Körperschaftsangaben katalogisiert und zur Recherche freigegeben werden (Stand: Januar 2004). Ein webbasiertes Eingabeinterface mag im Vergleich zu einer fest am individuellen Arbeitsplatz installierten Softwarelösung einige Nachteile aufweisen. So sind zum Beispiel der technische Funktionsumfang und die ergonomischen Möglichkeiten eines lokalen Erfassungstools weniger limitiert, als dies bei einer Eingabeplattform der Fall ist, die über einen Internet-Browser angesteuert wird. Unter Umständen spricht jedoch gerade diese Alternative für ein Web-Interface: Die Datenbank kann nicht nur an jedem Ort der Welt genutzt werden – dies leistet auch jede moderne Erfassungssoftware –, die beteiligten Personen und Institutionen können vor allem ohne jedwede Anpassung ihres lokalen Systems arbeiten. Ein Wechsel des Rechnertyps, den eine Software eventuell voraussetzt, ist ebenso unnötig wie etwaige Umstellungen oder Aktualisierungen der individuellen Betriebssysteme. Die retrospektive Katalogisierung von Bibliotheks- und Archivbeständen kann mit Hilfe internetbasierter Eingabeinterfaces quasi voraussetzungslos von verteilten Standorten aufgenommen werden, wobei auch der anfallende Entwicklungs- und laufende Wartungsaufwand vergleichsweise gering wäre und keine Lizenzgebühren anfielen. Der Preis, der im Zuge einer solchen Entscheidung zu entrichten ist, besteht im Verzicht, alle in einem Projekt anfallenden Aufgaben auf einer integralen Plattform zu lösen. Grafiken und Volltexte mit einem Tool, bibliographische Kerndaten hingegen mittels einer Internetmaske in die Datenbank einzuspeisen, bedeutet, dass im Ergebnis kongruente Arbeitsabläufe separiert werden. Die später erforderliche Synthese der verschiedenen Datenmengen ist unter verfahrenstechnischen Aspekten selten ohne Reibungsverluste zu bewerkstelligen, wobei der vielleicht nur geringfügig höhere Arbeitsaufwand weniger schwer wiegt als die Preisgabe der technischen Homogenität und Effizienz. 88 Schicketanz/Heiligenhaus Die Diskussion der Vor- und Nachteile, die eine konkrete technologische Fragestellung nach sich zieht, verdeutlicht einen entscheidenden Punkt: Digitalisierungsinitiativen stecken ein Terrain ab, auf dem gegenwärtig noch intensiv ›experimentiert‹ werden muss, um effiziente und verbindliche Produktionskonzepte zu entwickeln.38 Digitalisierungsprojekte entwerfen, erproben und evaluieren Design- beziehungsweise Produktionsstrategien, um ihre Erfahrungen in einem langfristigen, nachhaltigen Digitalisierungsprogramm aufgehen zu lassen, welches den sukzessiven Aufbau »digitale[r] themenorientierte[r] Informationsnetze«39 forciert und somit das Rückgrat des geplanten DFG-Portals »Sammlung digitalisierter Drucke« darstellen könnte. Dieses Experimentierfeld wurde in Compact Memory bewusst abgeschritten – die Entscheidung indessen, welche technische Alternative gewählt wird, basiert im Kern auf der Kompetenz und Bereitschaft der beteiligten Institutionen, neue, prototypische Technologien in bestehende Systeme zu integrieren, um dadurch den Aufbau benutzerorientierter Informations-Infrastrukturen voranzutreiben. Welche Produktionsvariante im skizzierten Fall letzten Endes bevorzugt wird, hängt einerseits von den ins Auge gefassten Projektzielen, von den verfügbaren Ressourcen und nicht zuletzt von der technologischen Kompetenz des Mitarbeiterstabs ab. Andererseits verdeutlichen die Ausführungen zur bibliothekarischen Datenerfassung, dass die gewählte Lösung dem Gebot der Ökonomie zu folgen hat und die Datenbasis migrationstauglich sein muss, um weltweit in Form überregionaler, internationaler Gateways einen standardisierten Zugang zu ermöglichen.40 38 39 40 So auch das Fazit von Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten, S. 110 (Fußnote 7): »Digitalisierungsprojekte sind eine neue Aufgabe der Bibliotheken und Archive, vor allem handelt es sich – und das wird oft unterschätzt – um eine sehr komplexe Aufgabe. Damit sind Fehler unvermeidbar und vermutlich muss eine Reihe von Fehler gemacht werden, bis auch die deutschen Bibliotheken und Archive praktikable Checklisten für Digitalisierungsprojekte aufstellen können.« Sigrun Eckelmann: Förderschwerpunkte der DFG im Bereich digitaler Bibliotheken, S. 19. (Fußnote 1). Vgl. im Zusammenhang der retrospektiven Zeitschriftendigitalisierung das Projekt Dieper (Digitised European Periodicals) der Niedersächsischen Staats- und Universitätsbibliothek Göttingen, in dessen Rahmen ein standardisierter Zugriff auf digitale Zeitschriftenbestände innerhalb und außerhalb Europas ermöglicht werden soll. <http://gdz.sub.uni-goettingen.de/dieper/> (22.1.2004). »Inseln im Meer des Beliebigen« 89 6. Im Allgemeinen interessiert es den Nutzer nicht, auf welche Weise Daten in eine Datenbank gelangen – entscheidend ist für ihn, wie das erfasste Material aufbereitet und im Internet zur Verfügung gestellt wird. Dabei erweist sich der Grad, in dem das Corpus in formaler und inhaltlicher Hinsicht erschlossen wurde, als ebenso zentraler Faktor wie die ergonomische und taktile Funktionalität der Zugriffsmöglichkeiten. Die Attraktivität eines digitalen Archivs steigt folglich in dem Maß, wie es den individuellen Arbeitsgewohnheiten seiner Nutzer entgegenkommt und traditionelle Wege der Informations- und Literaturbeschaffung erleichtert. Von der Volltextsuche abgesehen, sind es im Fall der bibliographischen Recherche in einem digitalen Zeitschriftencorpus im Wesentlichen drei typische Suchstrategien, welche die Anbieter berücksichtigen müssen: In der Regel will der Nutzer über gängige Suchoptionen gezielt und ohne Verzug bestimmte Materialien aufrufen, deren Quellenangaben ganz oder teilweise bekannt sind (Simple Search). Will man Suchergebnisse einschränken oder liegen nur rudimentäre Hinweise vor, müssen mittels kombinierter Suchmöglichkeiten hierarchisch organisierte Trefferlisten generiert werden können (Advanced Search). Zuletzt darf nicht ignoriert werden, dass viele Nutzer im Bestand ›stöbern‹ möchten: Wie der Besucher einer realen Bibliothek mal zu diesem, mal zu jenem Band greift, klickt der Nutzer eines digitalen Archivs mal diesen, mal jenen Link an, um sich von Zufallsfunden überraschen zu lassen oder in bekannten Kontexten gezielt zu lesen. Es empfiehlt sich daher grundsätzlich, dass ein digitales Archiv seinen gesamten Datenbestand in strukturierter Form visualisiert – vor allem um den Nutzern einen Überblick über den Umfang, die Vollständigkeit und die Erschließungstiefe des Textcorpus zu vermitteln. Endloslisten, die bibliographische Daten nach singulären Kriterien aufführen, erweisen sich als unpraktisch und unübersichtlich. Dagegen wird der Einstieg zweifellos erleichtert, wenn das Vorwissen der Nutzer bezüglich des Umgangs mit bestimmten Textcorpora berücksichtigt wird und die Präsentation des digitalen Bestands der analogen ›Urform‹ des Mediums folgt: Aus Erfahrung ›weiß‹ der Nutzer, dass er in einer Bibliothek zunächst ein Periodikum auswählt und dann zu einem bestimmten Jahrgang greift. Er hat ›gelernt‹, dass ein Jahrgang eventuell ein Inhaltsverzeichnis enthält, auf jeden Fall aber eine beliebige, prinzipiell chronologisch geordnete Anzahl Einzelhefte umfasst; erst in den Heften erwartet der Nutzer, auf ›Text‹ in Form einzelner Artikel zu stoßen. 90 Schicketanz/Heiligenhaus Der Medienwechsel muss nicht notwendigerweise eine Umstellung internalisierter Gewohnheiten beziehungsweise praxiserprobter Strukturierungsformen bedeuten: Ein digitales Archiv sollte dieses erworbene Vorwissen vielmehr kreativ umsetzen und dem Nutzer – neben diversen Suchfunktionen – stets auch den intuitiven, sozusagen ›plastischen‹ Zugriff auf das Textcorpus ermöglichen. Dementsprechend wurde in Compact Memory eine Präsentationslösung angestrebt, die die Recherche, Navigation und Orientierung im Corpus erleichtert, indem alle Daten mit Hilfe des Library Scouts bis in die Einzelhefte hinein visualisiert werden (siehe Abb. 8). Abb. 8: Anzeige des Inhalts eines Einzelheftes Gegenüber der Titelrecherche bildet die Volltextsuche einen logisch und arbeitsteilig weitgehend eigenständigen Aufgabenbereich, der im Anschluss an die Präsentation der Digitalisate und die Erfassung bibliographischer Kerndaten die dritte, separate Produktionsstufe darstellt. Die Problematik ist allgemein bekannt: Nur in seltenen Fällen lässt sich vom Titel eines Beitrags auf dessen Inhalt oder historischen Stellenwert schließen; bedeutende Beiträge tragen ausdrucksschwache Überschriften oder können von mehr oder minder unbekannten Verfassern stammen. Fördert die Suche nach Titelschlagworten also stets ein Konglomerat relevanter und peripherer Angaben zu Tage, vermag erst die Volltextrecherche die Spreu vom Weizen zu trennen, indem die Textinhalte nach bestimmten Zeichenfolgen durchsucht und statistisch aufbereitete Trefferlisten generiert werden. »Inseln im Meer des Beliebigen« 91 Die Umwandlung der Grafiken in Volltexte bedeutet einen erheblichen Mehraufwand, auch wenn dieser Arbeitsschritt mit Hilfe automatisierter OCR-Software durchgeführt wird. Zwar sind Texterkennungsprogramme heute deutlich leistungsstärker, leichter zu handhaben und preiswerter als vor einigen Jahren. In einem für die retrospektive Digitalisierung zentralen Punkt stoßen aber auch beste OCR-Programme an ihre Grenzen: Kann Schrift in Antiqua, gute Vorlagenqualität vorausgesetzt, in der Regel mit Trefferquoten von annähernd 100 Prozent erkannt werden, erfordert die bis in die 1920er Jahre im deutschen Sprachraum weit verbreitete Frakturschrift bislang einen beträchtlichen manuellen Trainingsaufwand, um halbwegs zufrieden stellende Ergebnisse zu erzielen. Die fortschreitende OCR-Entwicklung wird hier über kurz oder lang Abhilfe schaffen, vor allem sobald die Softwareindustrie dieses Marktsegment entdecken sollte. Bis dahin wird jedes Digitalisierungsprojekt individuell zu entscheiden haben, ob der zu erbringende Aufwand in einem vertretbaren Verhältnis zum Nutzen steht, wodurch letztlich immer auch die Corpusauswahl betroffen ist. So zentral wie die Frage nach der erzielbaren Qualität der Volltexte ist das Problem, wie man die enorme Quantität an Text auf ökonomische Weise bewältigt. Allein aus Gründen der Ergonomie und Übersichtlichkeit können mehrere zehn- oder hunderttausend Seiten nicht einfach einem separat arbeitenden OCR-Programm zugeführt und im Anschluss manuell in eine Datenbank überführt werden. Die Einspeisung der Grafiken in das hierarchisch strukturierte Verzeichnissystem und die Zuweisung der seitenweise erzeugten Volltexte sind vielmehr als logisch parallel laufende Produktionsstufen zu organisieren. Zur Vermeidung von Reibungsverlusten sollte es demnach möglich sein, die Erfassung der Grafiken und die Erzeugung beziehungsweise Verknüpfung der zugehörigen Volltexte nicht von getrennt arbeitenden Programmen, sondern auf einer integralen Plattform durchzuführen. Der in Compact Memory eingesetzte Library Manager wurde zu diesem Zweck um ein OCR-Modul erweitert,41 das einen auszuwählenden Bestand von Grafiken – komplette Periodika, bestimmte Jahrgänge, einzelne Hefte oder Seiten – in Stapelverarbeitung in digitalen Text überführt. Die resultierenden Textdateien werden in der Datenbank automatisch den entsprechenden Grafiken zugeordnet und stehen unmittelbar 41 Genutzt wird derzeit die FineReader 6.0 Engine des ABBYY Software House. Vgl. die URL: <http://www.abbyy.com/developer_toolkits.asp?param=2395> (22.1.2004). – Die Ende 2003 releaste Betaversion 7.0 soll standardmäßig auch Frakturschrift erkennen können. Bis Redaktionschluß konnten keine Tests durchgeführt werden. 92 Schicketanz/Heiligenhaus der Volltextrecherche zur Verfügung. Der Library Manager bietet ferner alle zentralen Funktionen des OCR-Programms, darunter die Möglichkeit, besondere Zeichensätze wie Fraktur zu trainieren. Mit Hilfe des integrierten Editors können die vorliegenden Texte darüber hinaus nach Bedarf redigiert sowie TEI-konform im XML-Format ausgezeichnet werden.42 7. Der vorliegende Werkstattbericht versuchte anhand konkreter Erfahrungen und Fragestellungen, die im Zuge der digitalen Zeitschriftenreformatierung auftreten, ein Produktionskonzept zu skizzieren, dessen Schwerpunkt in der verzugsfreien, halbautomatisierten und standardisierten Massendigitalisierung historischer Drucke besteht. Vor allem der souveräne Umgang mit heute verfügbaren Technologien zur Massendigitalisierung bildet die Voraussetzung, eine Zukunftsvision zu verwirklichen, die auch verantwortliche Institutionen nicht mehr hinter vorgehaltener Hand diskutieren: Der insgesamt – auch international – erreichte Stand der retrospektiven Digitalisierung lässt jedoch heute die Vision realistisch erscheinen, dass in einer oder zwei Generationen die gesamten historischen Buchbestände des Landes, ergänzt durch entsprechende Digitalisate handschriftlicher, bzw. nichtschriftlicher Teile des kulturellen Erbes über eine einheitliche Oberfläche vom Schreibtisch jedes und jeder Interessierten direkt und ohne nennenswerte Zeitverzögerung zugänglich sein könnten. Auch eine konservative Hochrechnung technischer Entwicklungen lässt erwarten, dass ein derartiges Ziel in einigen Jahrzehnten erreicht werden kann.43 Ausländische Großinitiativen,44 aber auch viele prototypische Lösungen deutscher Einzelprojekte demonstrieren, dass dieser gleichsam enzyklo- 42 43 44 Zu TEI, dem standardisierten Auszeichnungssystem der Text Encoding Initiative auf Basis der Extensible Markup Language (XML) vgl. vor allem die TEI-Homepage <http://wwwtei-c.org/> (22.1.2004). Eine Einführung bietet Fotis Jannidis: TEI in der Praxis. In: editio 11 (1997), S. 152-177. <http://computerphilologie.uni-muenchen .de/praxis/teiprax.html> (22.1.2004). Die Erschließung und Bereitstellung digitalisierter Drucke, S. 18. (Fußnote 5); unsere Hervorhebung, T.Sch./K.H. Vgl. z.B. das Gallica-Projekt der Bibliothèque National (<http://gallica.bnf.fr/> (22.1.2004)), das Cervantes-Projekt spanischer und lateinamerikanischer Bibliotheken (<http://cervantesvirtual.com/proyectoEN/BIMICESA.shtml> (22.1.2004)), die Kordic Digital Newspaper Library Tiden (<(http://tiden.kb.se> (22.1.2004)) oder das »Inseln im Meer des Beliebigen« 93 pädische Auftrag heute bereits zu bewältigen ist. Die Hürden, die im Verbund deutscher Bibliotheken, Archive und Universitäten noch genommen werden müssen, sind weniger technischen als organisatorischen Ursprungs. Drei Aspekte stehen dabei im Vordergrund: (1) Schaffung eines zentralen Internet-Portals, das einen fachübergreifenden Zugriff auf vorhandene digitale Drucke ermöglicht; (2) Synchronisation und Evaluation laufender beziehungsweise zukünftiger Digitalisierungsprojekte auf Basis eines zu erstellenden, verbindlichen ›Kriterienkatalogs‹; (3) Planung und Prioritätensetzung der Digitalisierung historischer Bibliotheksund Archivbestände im Rahmen eines nationalen Gesamtkonzepts.45 In Erweiterung der so genannten Sondersammelgebiete stellt das Konzept der Virtuellen Fachbibliothek zweifellos die wichtigste Alternative dar, potentielle Nutzer mittels »qualitätsgesicherte[r] Erschließungsund Zugangssysteme« über einschlägige Ressourcen wie digitale Sammlungen zu informieren.46 Angesichts der zunehmenden Spezialisierung der Einzelwissenschaften ist vor allem die Virtuelle Fachbibliothek das probate Mittel, »dem Benutzer einen einigermaßen umfassenden Nachweis der in Deutschland verfügbaren digitalen Bestände geben und ihm den Zugriff darauf ermöglichen« zu können.47 Ebenso unerlässlich wie die einheitliche Anwendung technischer und methodischer Standards, welche die nachhaltige Nutzung solcher Gesamtsysteme garantieren, erfordert der Aufbau Virtueller Fachbibliotheken die Synthese von bibliothekarischer, fachwissenschaftlicher und technologischer Kompetenz. Allein die aktive Zusammenarbeit zwischen Informationsanbietern, Nutzern und Systemkonstrukteuren kann ein Angebot schaffen, das die Interessen aller Beteiligten zu berücksichtigen vermag. Dem weltweit aktiven Forschungszweig ›Jüdische Studien‹ würde eine nationale wie internationale Initiativen synchronisierende Fachbibliothek unschätzbare Dienste leisten. Eine solche Virtuelle Forschungsbibliothek wäre in der Lage, sämtliche Zeugnisse jüdischer Tradition in sich zu vereinen – historische, literarische und wissenschaftliche Primärtexte, musikalische oder grafische Quellen sowie Nachlässe jedweder Provenienz. Darüber hinaus könnten Enzyklopädien, Nachschlagewerke, Bibliographien, Kataloge und Verzeichnisse, aber auch Wörterbücher und Periodika zur Verfügung gestellt werden. Die hierzu erforderlichen, interna- 45 46 47 American Heritage Project der Library of Congress (<http://sunsite.berkeley.edu/ amher/> (22.1.2004). Die Erschließung und Bereitstellung digitalisierter Drucke, S. 2, 5 u.ö. (Fußnote 5). Ebd., S. 6. Vgl. die Hompage der Virtuellen Fachbibliothek <http://www.virtuelle fachbibliothek.de/> (22.1.2004). Die Erschließung und Bereitstellung digitalisierter Drucke, S. 8. (Fußnote 5). 94 Schicketanz/Heiligenhaus tional kooperierenden Initiativen besäßen in der Forschungsbibliothek aber nicht nur einen virtuellen ›Lesesaal‹. Sie bildeten eine globale Plattform, die einerseits der Erfassung und Verbreitung von benötigten Textcorpora dient. Andererseits entstünde ein Forum zur Präsentation von Forschungserträgen und -initiativen, das weitaus aktueller als herkömmliche Printmedien sein könnte. Margrit Schreier Pseudo-Dokumentationen: Zum Verschwimmen der Grenze zwischen Realität und Fiktion in den Medien1 Abstract This contribution focuses on pseudo-documentaries on the internet which are regarded as the most recent example of the present-day media trend towards an increasing blurring of the line between fact and fiction. After outlining the tradition of especially audiovisual hybrid media products in which pseudo-documentaries can be seen to stand, various approaches for [distinguishing between fact and fiction are discussed and a three-pronged model for evaluating the reality status of media products is presented. On the basis of this model, pseudo-documentaries are reconstructed as a type of fiction that lacks any clear paratextual signals as to its fictional status; instead, the impression is created (as part of the plot) that product actually constitutes fact. This impression is further supported by a highly realistic production mode that is achieved by presenting a large amount of seemingly authentic material. With respect to content, however, most pseudo-documentaries contain highly implausible as well as topical elements which in turn can function as signals pointing recipients to the fictional status of these products. Content analysis of a random sample of e-mails from internet newsgroups about the pseudo-documentary horror film The Blair Witch Project shows, however, that approximately one third of these recipients are somewhat confused concerning the reality status of the film, basing their evaluation for the most part on information obtained from other media products. Even those recipients who correctly consider the film to be fiction or a hybrid hardly ever make use of the strongest signals to that effect contained in the product, but rely on mediated information instead. These results are supported by a comparison with two companion studies. 1 Dieser Beitrag entstand im Rahmen des DFG-Projekts ›Realitäts-Fiktions-Unterscheidung(en)‹, Az. SCHR 594/1 (Leitung: Margrit Schreier und Norbert Groeben); ich danke der Deutschen Forschungsgemeinschaft für ihre Unterstützung. 96 Margrit Schreier 0. Einleitung »Who killed William Henry Gates III and why?«, so lautet die Überschrift auf der Internet-Einstiegsseite der Citizens for Truth, einer, so scheint es, US-amerikanischen Bürgerrechtsbewegung. Bill Gates tot?2 Wer sich, von dieser Schlagzeile verführt, die Mühe macht, der Sache genauer nachzugehen, erfährt Folgendes: Am 2. Dezember 1999 wurde Bill Gates, der Gründer und Firmenchef von Microsoft, vom Dach des Park Plaza Hotel in Los Angeles erschossen, während er im MacArthur Park an einer Wohltätigkeitsveranstaltung teilnahm. Unmittelbar im Anschluss an die Tat gelang es der Polizei, den Täter zu identifizieren: den 24jährigen Afro-Amerikaner Alek Hidell, der seinen Schuss als den Auftakt zu einem amerikanischen Bürgerkrieg von Arm gegen Reich verstanden sehen wollte. Zu einer Festnahme kam es jedoch nicht, denn Hidell beging in der Tiefgarage des Park Plaza mit seiner Pistole Selbstmord. So lautet zumindest die offizielle polizeiliche Version der Ereignisse – die jedoch erheblichen Raum für Zweifel lässt: Warum wurden am Tatort zwei Schüsse gehört, und wer feuerte den zweiten Schuss ab? Wer war der Unbekannte, den eine Zeugin wenige Minuten nach dem Mord vom Tatort wegrennen sah? Und hatte der Zeuge, dessen Aussage zur versuchten Festnahme Hidells führte, auf dem Dach des Park Plaza wirklich einen Menschen mit dunkler Hautfarbe gesehen – oder lediglich eine dunkle Silhouette gegen das Sonnenlicht? Um solchen Ungereimtheiten nachzugehen, wird wenige Tage nach dem Attentat Citizens for Truth gegründet. Citizens for Truth setzen sich für die Einrichtung einer unabhängigen Untersuchungskommission ein, sie nehmen Einsicht in die Untersuchungsakten, re-analysieren die vorliegenden Zeugenaussagen, führen auf eigene Faust weitere Befragungen durch und so weiter. Ihr Logo: die zerbrochenen Brillengläser von Gates. Allerdings sind die Webseiten der Citizens for Truth sowie einige wenige assoziierte Webseiten die einzigen Medien(produkte), in denen über die angebliche Ermordung von Bill Gates berichtet wird (ein Gesichtspunkt, der in den Produkten selbst übrigens keine Erwähnung findet).3 Vor diesem Hintergrund liegt die Vermutung nahe, dass es sich bei dem Webauftritt der Citizens for Truth nicht um den Versuch eines Häuf2 3 Citizens for Truth (2000 – 2002). <http://www.citizensfortruth.org> (31.1.2004). Zum Beispiel: Jack Perdue: Bill Gates is dead (2000 – 2002). <http://www. billgatesisdead.com> (31.1.2004); Unsharp Mask: Nothing so strange (2000 – 2001). <http://www.nothingsostrange.com> (31.1.2004). Pseudo-Dokumentationen 97 leins Gerechter handelt, sich gegen eine weltweite Verschwörung zur Wehr zu setzen, sondern lediglich um eine Variante eines Medientrends, der sich in den vergangenen Jahren immer weiter verstärkt hat: des Trends zur Hybridisierung, zur Vermischung von Dokumentarischem und Fiktionalem, zum Überschreiten der Grenze zwischen Realität und Fiktion.4 Im Folgenden soll zunächst genauer auf die Tradition solcher hybriden Medienprodukte insbesondere im Bereich der audiovisuellen Medien eingegangen werden, die als Vorläufer von Pseudo-Dokumentationen im Internet gelten können (1.) Mit der Rede von Hybridprodukten wird zugleich die traditionelle Dichotomie zwischen ›Fiction‹ und ›Non-Fiction‹ in Frage gestellt. Entsprechend wird im nächsten Schritt aufgezeigt, dass es im Rahmen der Fiktionalitätstheorie bisher nicht gelungen ist, eindeutige Definitionsmerkmale von ›Fiktion‹ und ›Fiktionalität‹ zu entwickeln (2.1). Ausgehend von pragmatischen Fiktionalitätstheorien wird als Alternative ein Drei-Perspektiven-Modell von Fiktionalität dargestellt, das es gerade erlaubt, Übergänge zwischen ›Fiction‹ und ›Non-Fiction‹ zu modellieren (2.2) und das daher für die Rekonstruktion von Hybridprodukten wie den Pseudo-Dokumentationen besonders geeignet erscheint. Auf der Grundlage einer solchen Rekonstruktion für zwei ausgewählte Pseudo-Dokumentationen (Blair Witch Project und Citizens for Truth: 3.1) werden zentrale Merkmale des Genres der Pseudo-Dokumentation herausgearbeitet (3.2). Auf Grund des Spiels mit ›Realität‹ und ›Fiktion‹, wie es sich in diesen Merkmalen manifestiert, stellt sich die Frage, wie Mediennutzer(innen) mit solchen Mischformen zwischen Fiktion und Dokumentation umgehen, ob und gegebenenfalls inwieweit sie durch die neuen Formate verunsichert werden oder das Spiel mit Realität und Fiktion im Gegenteil durchaus zu genießen in der Lage sind. Dieser Frage wird abschließend am Beispiel einer Rezeptionsstudie genauer nachgegangen (4.), deren Ergebnisse auch durch andere, derzeit noch laufende Untersuchungen bestätigt werden (5.). 1. Pseudo-Dokumentationen: Die Tradition der Hybridprodukte In unserer Gesellschaft kann die Trennung zwischen ›Fakten‹ und ›Fiktionen‹, zwischen einem alltäglichen und einem ästhetischen Handlungsund Kommunikationssystem als konventional etabliert gelten, wobei diese Trennung zugleich mit unterschiedlichen Ansprüchen und Erwartun4 Vgl. z.B. Jane Roscoe/Craig Hight: Faking it. Mock-documentary and the subversion of factuality. Manchester, New York: Manchester University Press 2001. 98 Margrit Schreier gen an die jeweiligen Medienprodukte einhergeht: Von faktischen, dokumentarischen Medienprodukten erwarten wir – grob gesprochen – dass diese etwas über Sachverhalte in der ›realen Welt‹ aussagen; tun sie dies nicht, so können Rezipient(inn)en (wie etwa im Fall der angeblichen Hitler-Tagebücher) den fehlenden Wirklichkeitsbezug einklagen. Fiktionen werden dagegen nicht nach den Kriterien der Wahrheit oder der Nützlichkeit bewertet; hier werden vielmehr andere, ästhetische Gesichtspunkte relevant, wie beispielsweise Gefallen, innovativer Charakter und anderes mehr (ausführlich unten 2.1).5 Vor dem Hintergrund dieser basalen Unterscheidung haben sich jedoch vielfältige Überlappungsbereiche zwischen dem Faktischen und dem Fiktionalen herausgebildet. Der historische Roman, Biographie und Autobiographie, die Reiseerzählung lassen sich sämtlich als Mischformen auffassen, die zu je unterschiedlichen Anteilen fiktive und dokumentarische Elemente enthalten. Auch die Urban Legends, wie etwa haarsträubende Erzählungen von Tarantelfamilien, die sich in der geschenkten Yucca-Palme eingenistet haben, bewegen sich im Sinne einer modernen Folklore in der Grauzone zwischen dem Faktischen und dem Fiktionalen.6 Dies gilt ebenso für die Bekenntnisliteratur, die den Umgang mit schwierigen Lebenssituationen und Schicksalsschlägen in den Mittelpunkt stellt (wie etwa Betty Mahmodys Bestseller Nicht ohne meine Tochter). Als bekanntestes Beispiel eines Hybridprodukts aus dem Hörfunkbereich kann sicherlich Orson Welles' Adaptation des Romans War of the Worlds von H. G. Wells gelten (Invasion from Mars), das am Abend des 30. Oktober 1938 in den USA als Hörspiel ausgestrahlt und (trotz des Sendedatums, nämlich am Abend von Halloween) zumindest von einigen Hörerinnen und Hörern als Nachrichtensendung missverstanden wurde.7 Auch im filmischen Bereich existiert eine lange Tradition von Hybridprodukten, die von der Parodie (wie etwa This is Spinal Tap, der angeblichen Dokumentation über eine musikalisch gänzlich unbegabte Heavy Metal Band) über die Kritik am Wahrheitsanspruch des dokumentarischen Projekts (etwa in The Falls, einer Pseudo-Dokumentation von Peter Greenaway über 92 Personen, deren Namen mit den Buchstaben 5 6 7 Siegfried J. Schmidt: Grundriss der empirischen Literaturwissenschaft. Braunschweig u.a.: Vieweg 1980. Rolf Wilhelm Brednich: Die Spinne in der Yucca-Palme. Sagenhafte Geschichten von heute. München: Beck 2002, S. 102ff. Norbert Groeben/Margrit Schreier: Die Grenze zwischen (fiktionaler) Konstruktion und (faktueller) Wirklichkeit: mehr als eine Konstruktion? In: Guido Zurstiege (Hg.): Festschrift für die Wirklichkeit. Opladen: Westdeutscher Verlag 2000, S. 165-184. Pseudo-Dokumentationen 99 FALL beginnen und die sämtlich dem VUE, dem Violent Unknown Event, ausgesetzt waren) bis hin zum missverständlich-sophistizierten Spiel mit den Codes und Konventionen des Dokumentarischen reicht (beispielsweise in Forgotten Silver, einer australischen TV-PseudoDokumentation über die Wiederentdeckung des Outback-Filmemachers John Silver, die von den Zuschauer(inne)n vielfach als tatsächliche Dokumentarsendung rezipiert wurde).8 Diese Hybridprodukte aus dem AVBereich weisen mehrheitlich bereits das zentrale Charakteristikum der Pseudo-Dokumentationen auf: Es handelt sich in der Regel um fiktionale Produkte, für die jedoch ein Wirklichkeitsanspruch erhoben wird, wie er für non-fiktionale Produkte charakteristisch ist. Während gerade die filmischen Pseudo-Dokumentationen über lange Zeit weitgehend ein Nischendasein führten, hat in den letzten Jahren eine erhebliche Popularisierung des Genres stattgefunden. Dazu hat zum einen die Entwicklung von TV-Sendeformaten wie etwa der Doku-Soap, des Reality-TV, der Reality-Soap und so weiter beigetragen (etwa im Stil von Big Brother, Inselduell, Die Fahrschule und so weiter). Zum anderen hat sich hier der – gänzlich unerwartete – Publikumserfolg des pseudodokumentarischen Horrorfilms The Blair Witch Project ausgewirkt: Der Film erzählt die Geschichte dreier Studierender der Filmwissenschaft, die im Rahmen eines Studienprojekts einen Dokumentarfilm über die legendäre Hexe von Blair, die Blair Witch, drehen wollen. Im Rahmen der Dreharbeiten planen sie, unter anderem drei Tage und Nächte in den Wäldern um das Städtchen Burkittsville, vormals Blair, zu verbringen, wo die Hexe noch immer ihr Unwesen treiben soll. Von diesem Unternehmen kehrten sie jedoch niemals zurück; ein Jahr später werden allerdings Teile ihres Filmmaterials, ihrer Ausrüstung sowie das Tagebuch von Heather, einer der Beteiligten, gefunden.9 Mit diesen neueren, populären Formen der Pseudo-Dokumentationen verlagert sich das Genre zugleich ins Internet. So bildet die gerade geschilderte Inhaltsbeschreibung den Ausgangspunkt der Werbung für The Blair Witch Project, die fast ausschließlich im World Wide Web stattfand. Dort heißt es: »In October of 1994, three student filmmakers disappeared in the woods near Burkittsville, Maryland, while shooting a documentary... A year later, their footage was found«; der Film selbst, so wird es den Zuschauern und Zuschauerinnen suggeriert, stelle einen Zusammenschnitt dieses dokumentarischen Materials der drei Studierenden 8 9 Jane Roscoe/Craig Hight: Faking it. (Fußnote 4). Norbert Groeben/Margrit Schreier: Die Grenze zwischen (fiktionaler) Konstruktion und (faktueller) Wirklichkeit. (Fußnote 7). 100 Margrit Schreier dar. Darüber hinaus wird der Film durch eine ausführliche Homepage ergänzt, die diesen dokumentarischen Charakter noch weiter unterstreicht (siehe ausführlich unten 3.1).10 Im Internet haben sich Pseudo-Dokumentationen in zwei Richtungen weiterentwickelt. Die erste Richtung ist durch einen Produkttyp charakterisiert, der hier als partizipativ-immersive Internet-Fiktion bezeichnet werden soll. Der Grundgedanke des Genres besteht darin, die Wirklichkeiten fiktiver und realer Personen zu vermischen, reale Personen durch ihre Kommunikation mit fiktiven Charakteren an der Fiktion teilhaben, die Fiktion für die Teilnehmer(innen) somit Wirklichkeit werden zu lassen. Interaktivität wird hier im Sinne von Social Presence als wechselseitiger Bezug von realen und fiktionalen Personen realisiert, wobei es sich bei der vermeintlich sozialen Interaktion in der Tat um eine zweiseitige Form der Mensch-Maschine-Kommunikation handelt, die (je nach Produkt) synchron oder asynchron erfolgen kann.11 Eine solche partizipativ-immersive Fiktion stellt beispielsweise die Online-Soap OnlineCaroline dar.12 Die Homepage von OnlineCaroline ist aufgebaut wie eine typische private Homepage, komplett mit Bildern von Carolines Freund David, der sich gerade auf Forschungsreise befindet, und einer Webcam. Caroline ist auf der Suche nach OnlineFreundschaften: Wenn jemand sich auf der Seite anmeldet, schickt sie ihr oder ihm täglich eine E-Mail; zugleich ›erwartet‹ Caroline von den Nutzer(inne)n aber auch, dass sie im Rahmen von Fragebögen Auskunft über sich selbst geben: Sind sie männlich oder weiblich, wie alt, und was halten sie von Treue in der Partnerschaft? Die Antworten werden dazu verwendet, die E-Mails von Caroline zu personalisieren; jede Nutzerin und jeder Nutzer erlebt also ihre oder seine persönliche Version der ›Freundschaft‹ mit Caroline. Die Handlung selbst entfaltet sich jedoch unabhängig von der Person der Rezipient(inn)en: Carolines Freund David entpuppt sich als wahnsinniger Wissenschaftler, der Caroline nach 10 11 12 The Blair Witch Project, <http://www.blairwitch.com> (31.1.2004). Zu Konzeptionen von Interaktivität in Computerumgebungen vgl.: Sally McMillan: A four-part model of cyber-interactivity. In: New Media and Society 4 (2002), S. 271-291; Peter Vorderer: Interactive entertainment and beyond. In: Dolf Zillmann/ders. (Hg.): Media entertainment. The psychology of its appeal. Mahwah: Erlbaum 2000, S. 21-36; zum Konzept der Social Presence s.: Gary Bente/Anita Petersen/Nicole Krämer: Virtuelle Realität als Gegenstand und Methode in der Psychologie. In: dies. (Hg.): Virtuelle Realitäten. Göttingen u.a.: Hogrefe 2002, S. 1-32. XPT Ltd.: Online Caroline, <http://www.onlinecaroline.com> (31.1.2004). Eine vergleichbar konzipierte partizipativ-immersive Online-Soap derselben Firma, Planet Jemma, wurde vor kurzem ins Netz gestellt: XPT Ltd.: Planet Jemma (2003), <http://www.planetjemma.com> (31.1.2004). Pseudo-Dokumentationen 101 der Rückkehr von seiner Forschungsreise zunehmend von der Außenwelt isoliert und schließlich – mit tödlichem Ausgang? – mit einem Messer über sie herfällt. Bei der zweiten Variante von Hybridprodukten im Internet handelt es sich um die Weiterentwicklung der bereits beschriebenen PseudoDokumentationen, wie sie bereits in anderen Medien (insbesondere den AV-Medien) existieren – um Fiktionen also, für die jedoch (je nach konkretem Produkt mehr oder weniger offen oder verdeckt) ein Wirklichkeitsanspruch erhoben wird. Zugleich ergeben sich mit der Verlagerung ins Internet jedoch neue Gestaltungsmöglichkeiten und etablieren sich neue Konventionen (siehe ausführlich unten 3.). Als typische Beispiele für solche Pseudo-Dokumentationen, die im Internet realisiert sind, können etwa die eingangs erwähnte Homepage der Citizens for Truth oder auch die Website zum Film The Blair Witch Project gelten. Solche Internet-basierten Pseudo-Dokumentationen sollen im Folgenden im Vordergrund stehen. 2. Die Unterscheidung zwischen Fiction und Non-Fiction Mit der Charakterisierung von Pseudo-Dokumentationen als Fiktionen, die mit dem Anspruch eines Non-Fiction-Produkts auftreten, stellt sich zwangsläufig die Frage, was genau unter ›Fiction‹ zu verstehen ist und wie sie sich gegenüber dem Bereich der Non-Fiction abgrenzen lässt. In der literaturwissenschaftlichen Diskussion lassen sich im Wesentlichen drei Ansätze beziehungsweise Traditionen der Konzeptualisierung von Fiktion unterscheiden, die hier als darstellungsbezogen-formale, semantische und pragmatische Fiktionalitätstheorien bezeichnet werden.13 Diese Ansätze werden im Folgenden diskutiert; anschließend wird ein pragmatisch orientiertes Modell zur Konzeptualisierung von Unterschieden und Übergängen zwischen ›Fiction‹ und ›Non-Fiction‹ dargestellt. 2.1 Fiktionalitätstheoretische Ansätze Im Rahmen darstellungsbezogener Fiktionalitätstheorien wird versucht, unter Rückgriff auf formale Textmerkmale zu einer eindeutigen Bestimmung von Fiktionalität zu gelangen. Dieser Tradition ist beispielsweise 13 Im Überblick: Irmgard Nickel-Bacon/Norbert Groeben/Margrit Schreier: Fiktionssignale pragmatisch. Ein medienübergreifendes Modell zur Unterscheidung von Fiktion(en) und Realität(en). In: Poetica 32 (2000), S. 267-299. 102 Margrit Schreier die Postulierung der Differenz zwischen schreibender und erzählender Person (sensu Käte Hamburger) als Merkmal fiktionaler Texte zuzuordnen, wie sie sich unter anderem im epischen Präteritum oder in Verben der inneren Vorgänge und in Verben manifestiert,14 ebenso narratologische Ansätze, die die Differenz zwischen Autor(in) und Erzählinstanz als »signposts of fictionality« in den Mittelpunkt stellen.15 Allerdings ist eine Bestimmung der Erzählerrolle meist nur mittels Vergleich zwischen Informationen zur Erzähler(innen)figur einerseits und zum Autor beziehungsweise der Autorin andererseits möglich – wobei letztere eben nicht mehr als textintern konzipiert werden können, sondern Aspekte des Produktionskontextes und mithin die pragmatische Ebene tangieren. Die Erzähler(innen)rolle ist somit rein textintern letztlich nicht bestimmbar. Auch erweisen sich Merkmale von Literarizität oder Poetizität, wie sie im Rahmen formaler Ansätze zur Charakterisierung von Fiktionalität herangezogen werden,16 nicht als eindeutiges Merkmal fiktionaler Texte: Aspekte von Literarizität finden durchaus auch in anderen als fiktionalen Texten Verwendung, und fiktionale Texte insbesondere der zweiten Hälfte des zwanzigsten Jahrhunderts sind nicht selten der Alltagssprache angenähert. Entsprechend hat sich zunehmend die Auffassung eines Kontinuums zwischen literarischer und non-literarischer Sprache durchgesetzt.17 Im Rahmen semantischer Fiktionalitätstheorien wird – komplementär zum darstellungsbezogen-formalen Ansatz – versucht, unter Rückgriff auf inhaltliche Texteigenschaften zu einer eindeutigen Bestimmung von Fiktionalität zu gelangen. Fiktionale Texte werden, etwa mit Gottfried Gabriel, aufgefasst als eine Form des Als-Ob-Sprechens unter Suspen- 14 15 16 17 Käte Hamburger: Die Logik der Dichtung. Stuttgart: Klett Cotta 1977³, S. 59-78. Zum Beispiel: Dorritt Cohn: Signposts of fictionality: A narratological perspective. In: Poetics Today 11 (1990), S. 775-804; Karlheinz Stierle: Was heißt Rezeption bei fiktionalen Texten? In: Poetica 7 (1975), S. 345-387. Zum Beispiel: Jürgen H. Petersen: Fiktionalität als Redestatus. Ein Beitrag zur literaturwissenschaftlichen Grundlagenforschung. In: Sprachkunst 26 (1995), S. 139-163; Heinz Schlaffer: Poesie und Wissen. Die Entstehung des ästhetischen Bewusstseins und der philologischen Erkenntnis. Frankfurt a. M.: Suhrkamp 1990, hier S. 144. Vgl. z.B. Andereggs Bezeichnung einer poetischen bzw. einer instrumentellen Sprachverwendung als »Welt der Übergänge«: Johannes Anderegg: Das Fiktionale und das Ästhetische. In: Dieter Henrich/Wolfgang Iser (Hg.): Funktionen des Fiktiven. München: Fink 1983, S. 153-172, hier S. 172. Ebenso formuliert Searle die These der Kontinuität zwischen dem Literarischen und dem Non-Literarischen: John R. Searle: The logical status of fictional discourse. In: New Literary History 6 (1975), S. 319-332, hier S. 319f. Pseudo-Dokumentationen 103 dierung der Referentialisierungsregel.18 Fiktionale Texte enthalten ›leere Extensionen‹ beziehungsweise ›nicht-erfüllte Prädikatoren‹, beziehen sich dieser Auffassung zu Folge also nicht auf Personen oder Gegenstände in der realen Welt.19 Auch fiktive Elemente in diesem Sinne erweisen sich jedoch weder als hinreichend noch als notwenig zur Charakterisierung von Fiktionalität. Denn zum einen bauen fiktionale Texte durchaus auf der realen Welt auf, enthalten mehr oder weniger realitätsadäquate oder auch referentialisierbare Elemente (das Venedig der Donna Leon beispielsweise existiert durchaus). Zum anderen können auch non-fiktionale Texte (wie beispielsweise Mathematikaufgaben) durchaus fiktive Elemente beinhalten.20 Auch im Rahmen einer semantischen Betrachtungsweise löst sich somit die Dichotomie zwischen Fiktion und Nicht-Fiktion tendenziell auf. Pragmatische Fiktionalitätstheorien sind schließlich dadurch gekennzeichnet, dass hier nicht mehr versucht wird, Fiktionalität ausschließlich textintern zu modellieren. Statt dessen wird Fiktionalität als eine pragmatische Kategorie aufgefasst.21 Texte sind demnach nicht fiktional, sondern Texte werden gegebenenfalls fiktional verwendet beziehungsweise, unter Verwendung autor(innen)seitiger Fiktionalisierungsoperationen, als fiktional (oder als faktisch) gesetzt.22 Eine solche Setzung erfolgt in erster Linie mittels paratextueller Informationen (also etwa durch Genrebenennung, Klappentext, Waschzettel und so weiter), wobei die paratextuelle Charakterisierung eines Textes als vergleichsweise eindeutigster 18 19 20 21 22 Gottfried Gabriel: Fiktion und Wahrheit. Eine semantische Theorie der Literatur. Stuttgart: Frommann Holzboog 1975. Ebd.; vgl. auch: Donatus Thürnau: Gedichtete Versionen der Welt. Nelson Goodmans Semantik fiktionaler Literatur. Paderborn u.a.: Schöningh 1994, hier S. 50f., 70ff. Achim Barsch: Fiktion/Fiktionalität. In: Ansgar Nünning (Hg.): Metzler Lexikon Literatur- und Kulturtheorie. Ansätze – Personen – Grundbegriffe. Stuttgart: Metzler 1998, S. 149f. Pragmatische Ansätze werden z.B. vertreten von: Umberto Eco: Im Wald der Fiktionen. Sechs Streifzüge durch die Literatur (Norton-Lectures 1992-1993). München, Wien: Hanser 1994; Wiklef Hoops: Fiktionalität als pragmatische Kategorie. In: Poetica 11 (1979), S. 281-317; Jürgen Landwehr: Text und Fiktion. Zu einigen literaturwissenschaftlichen und kommunikationstheoretischen Grundbegriffen. München: Fink 1975; Siegfried J. Schmidt: Ist Fiktionalität eine linguistische oder eine texttheoretische Kategorie? In: Elisabeth Gülich/Wolfgang Raible (Hg.): Textsorten: Differenzierungskriterien aus linguistischer Sicht. Frankfurt a. M.: Athenäum 1972, S. 59-80. Zur autor(inn)enseitigen Setzung von Texten als fiktional vgl. Wolfgang Iser: Das Fiktive und das Imaginäre. Perspektiven literarischer Anthropologie. Frankfurt a. M.: Suhrkamp 1993; siehe auch Gebhard Rusch: Fiktionalisierung als Element von Medienhandlungsstrategien. In: Studia Poetica 10 (1997), S. 123-138. 104 Margrit Schreier Hinweis auf die Werkkategorie angesetzt wird.23 Darüber hinaus rekurrieren autor(innen)seitige Fiktionalisierungs- (oder Faktualisierungs-) Operationen allerdings durchaus auch auf ›Orientierungssignale‹, wie sie im Rahmen darstellungsbezogen-formaler sowie semantischer Ansätze postuliert werden. Zumindest aus pragmatischer Sicht schließen sich die drei Ansätze zur Charakterisierung von Fiktionalität somit keineswegs aus. Allerdings entfalten darstellungsbezogene und semantische Fiktionalitätssignale nach der pragmatischen Auffassung ihre Wirkung immer erst innerhalb eines Rahmens, wie er autor(innen)seitig durch den Paratext gesetzt wird; für sich genommen sind die Signale dagegen für eine Bestimmung von Fiktionalität meist nicht hinreichend (weder im Allgemeinen noch bezogen auf einen konkreten Text).24 Wenn dem pragmatischen Ansatz zu Folge Fiktionalität auch nicht mehr als Texteigenschaft konzipiert wird, so ist dies doch keineswegs gleich bedeutend damit, dass Werkkategorien und der Umgang mit ihnen beliebig wären. Vielmehr wird in pragmatischen Ansätzen davon ausgegangen, dass der Umgang mit den verschiedenen Werkkategorien beziehungsweise Texttypen konventional geregelt ist. So differenziert Siegfried Schmidt zwischen den Kommunikationssystemen alltäglicher und ästhetischer Handlungen. Während Kommunikation im alltäglichen Handlungssystem durch die Tatsachen- und die Monovalenzkonvention geregelt ist, sind diese Konventionen innerhalb des ästhetischliterarischen Handlungssystems gerade suspendiert: Äußerungen werden hier nicht im Hinblick auf ihre Wahrheit und Nützlichkeit beurteilt, wie dies der Tatsachenkonvention entsprechen würde, sondern (in Übereinstimmung mit der Ästhetikkonvention: siehe oben 1.) nach Kriterien wie beispielsweise Neuheit, Gefallen und so weiter. Texte werden im Rahmen dieses Ansatzes aufgefasst als »eine Menge von Instruktionen an Kommunikationspartner«.25 Komplementär fokussiert Umberto Eco die Rezeptionsseite der Konvention, wenn er von einem »Fiktionsvertrag« zwischen Autor(in) und Leser(in) ausgeht, dem zu Folge sich Leser(innen) bei der Rezeption eines Textes als fiktional darüber im Klaren sind, dass mit dem Text kein unmittelbarer Wirklichkeitsanspruch erhoben, der Text nicht als referen- 23 24 25 Umberto Eco: Im Wald der Fiktionen, S. 166. (Fußnote 21); Gérard Genette: Paratexte. Frankfurt a. M./New York: Campus 1992. Vgl. ausführlich: Irmgard Nickel-Bacon/Norbert Groeben/Margrit Schreier: Fiktionssignale pragmatisch. (Fußnote 13). Siegfried J. Schmidt: Grundriss. (Fußnote 5); Ders.: Ist Fiktionalität eine linguistische oder eine texttheoretische Kategorie, S. 63. (Fußnote 21). Pseudo-Dokumentationen 105 tialisierbare Aussage über die reale Welt zu rezipieren ist.26 Eine solche übereinstimmende Setzung eines Textes als fiktional sowohl durch den/die Autor(in) als auch durch die Leser(innen) wird von Jürgen Landwehr auch als »ko-intentionale« Form der Rezeption bezeichnet.27 Damit wird zugleich auch noch einmal deutlich, dass die Konzeptualisierung von Fiktionalität als pragmatischer Kategorie nicht zuletzt rezeptionsseitig erhebliche Freiräume eröffnet: Ein(e) Rezipient(in) kann beispielsweise einen autor(innen)seitig als faktisch gesetzten Text (zum Beispiel einen Reisebericht) in ko-intentionaler Weise als Aussage über die Wirklichkeit rezipieren – muss einen solchen Wirklichkeitsbezug jedoch keineswegs notwendig herstellen, sondern kann den Text beispielsweise auch unabhängig von jedem Wirklichkeitsbezug unter ästhetischen Gesichtspunkten als ›gute Geschichte‹ goutieren. 2.2 Ein Drei-Perspektiven-Modell von Realitäts-FiktionsUnterscheidungen Unter Rückgriff insbesondere auf die pragmatischen Ansätze haben Irmgard Nickel-Bacon, Norbert Groeben und Margr_it Schreier ein DreiPerspektiven-Modell von Realitäts-Fiktions-Unterscheidungen entwikkelt, das es ermöglichen soll, die traditionelle Dichotomie von ›Fiction‹ und ›Non-Fiction‹ zu Gunsten einer Rekonstruktion unterschiedlicher Aspekte des Realitäts- beziehungsweise Fiktionalitätsstatus von Medienprodukten zu überwinden.28 Innerhalb des Modells werden die drei Theorieansätze als drei Perspektiven rekonstruiert, die bei der Beurteilung des Realitätsstatus eines Medienprodukts zum Tragen kommen können. Dies ist erstens die pragmatische Perspektive der Werkkategorie, wobei die Autor(inn)en neben den traditionellen Werkkategorien Fiction und Non-Fiction als dritte Kategorie das Hybridprodukt einführen, das sich keinem der beiden Pole eindeutig zuordnen lässt. Zweitens wird eine semantisch-inhaltliche Perspektive angesetzt; unter diesem Gesichtspunkt enthalten Medienprodukte mehr oder weniger reale und irreale, plausible und unplausible und entsprechend mehr oder weniger wirklichkeitsnahe beziehungsweise -ferne Inhaltskomponenten. Die Beurteilung der Wirklichkeitsnähe oder -ferne des Inhalts von Medienprodukten wird 26 27 28 Umberto Eco: Im Wald der Fiktionen, S. 103. (Fußnote 21). Jürgen Landwehr: Fiktion oder Nichtfiktion. Zum zweifelhaften Ort der Literatur zwischen Lüge, Schein und Wahrheit. In: Helmut Brackert/Jörn Stückrath (Hg.): Literaturwissenschaft. Ein Grundkurs. Reinbek: Rowohlt, S. 491-504. Irmgard Nickel-Bacon/Norbert Groeben/Margrit Schreier: Fiktionssignale pragmatisch. (Fußnote 13). 106 Margrit Schreier dabei stets als subjektives Urteil vor dem Hintergrund des je individuellen Weltwissens von Autor(inn)en auf der einen und Rezipient(inn)en auf der anderen Seite konzipiert. Als dritte Perspektive setzen NickelBacon et alii unter Rückbezug auf darstellungsbezogen-formale Ansätze den Produkt- beziehungsweise den Rezeptionsmodus an. Auf der Produktseite ist damit beispielsweise die Frage thematisch, welche Sinneskanäle durch das Medium angesprochen werden, in dem das Produkt realisiert ist; auch die Gestaltung des Medienprodukts, die Verwendung stilistischer Mittel, sprachlicher Register und so weiter sind dieser Perspektive zuzuordnen. Auf der Rezeptionsseite dagegen steht unter der Modusperspektive die Real-Life-Nähe beziehungsweise -Ferne des Rezeptionserlebens im Mittelpunkt, etwa im Sinne der Involviertheit, des Spannungserlebens, des Rezeptionsgenusses. Von den Ansätzen literaturwissenschaftlicher Provenienz unterscheidet sich das Drei-Perspektiven-Modell zunächst darin, dass sein Geltungsbereich nicht auf den textuellen Bereich beschränkt ist; auch eine Fokussierung auf die Werkkategorie der Fiction-Produkte findet nicht statt. Vielmehr wird davon ausgegangen, dass das Modell auf Produkte in unterschiedlichen Medien gleichermaßen anwendbar ist, wobei Medialitätsunterschiede sich in erster Linie unter Rückgriff auf den Produktmodus rekonstruieren lassen. Weiterhin machen die Autor(inn)en die in den literaturwissenschaftlichen Ansätzen meist nur implizit enthaltene Annahme explizit, dass die Zugehörigkeit eines Medienprodukts zu den Werkkategorien Fiction und Non-Fiction gleichermaßen der Signalisierung (beziehungsweise der Aufnahme dieser Signale im Rahmen einer ko-intentionalen Rezeption) bedarf. Nickel-Bacon et alii gehen also davon aus, dass Medienprodukte unter der pragmatischen, der semantischinhaltlichen und der Modus-Perspektive gleichermaßen Signale aufweisen, die rezeptionsseitig in die Beurteilung des Realitätsstatus des Produkts eingehen können. Allerdings – und dies stellt eine weitere zentrale Annahme innerhalb des Modells dar – werden die drei Perspektiven als weitgehend voneinander unabhängig konzipiert. Die Signale unter den verschiedenen Perspektiven können zwar gleichsinnig ausfallen, müssen dies jedoch nicht. Es ist zu vermuten, dass verschiedene Genres durch je spezifische Ausprägungsmuster von Faktizitäts- und Fiktionalitätssignalen unter den drei Perspektiven gekennzeichnet sind. So finden sich beispielsweise im Märchen klare paratextuelle Fiktionalitätssignale (›Es war einmal ...‹) in Kombination mit wirklichkeitsfernen Elementen auf der semantisch-inhaltlichen Ebene (zum Beispiel irreale Entitäten wie Hexen, Zwerge und so weiter) und einem ritualisiert-formelhaften Darstellungsmodus (zum Beispiel Verwendung von Darstellungselementen wie Pseudo-Dokumentationen 107 ›drei Wünsche‹). In einem kontemporären Krimi sind dagegen paratextuelle Fiktionalitätssignale (Genreangabe, juristische Entlastungsformel) gemeinsam mit durchaus wirklichkeitsnahen inhaltlich-semantischen Elementen und, unter der Modusperspektive, mit einer Darstellungsform kombiniert, die zumindest von der Intention her auf ein Real-Life-nahes Rezeptionserleben im Sinne von Spannung ausgerichtet ist. Wissenschaftssendungen wiederum sind paratexuell eindeutig als Non-Fiction gekennzeichnet, können aber durchaus wirklichkeitsferne inhaltliche Elemente enthalten (wie etwa Quarks oder Schwarze Löcher) und gegebenenfalls auch durchaus ›trocken‹ (im Sinne von Real-Life-fern) gestaltet sein. In allen diesen Fällen ist eine ko-intentionale Rezeption der Produkte jedoch vor dem Hintergrund des jeweiligen Paratextes durchaus möglich: Wenn der Krimi noch so involvierend und wirklichkeitsnah ist, so ist er durch den Paratext doch eindeutig als Fiktion ausgewiesen; und die Wissenschaftssendung mag zwar Unglaubliches berichten, erhebt aber qua Paratext einen klaren Wirklichkeitsanspruch. Diese Rekonstruktion je unterschiedlicher Ausrichtungen von Fiktionalitäts- und Faktualitätshinweisen unter den drei Perspektiven verdeutlicht zugleich, dass innerhalb des Modells davon ausgegangen wird, dass zwischen Fictionund Non-Fiction-Produkten fließende Übergänge bestehen. 3. Die Rekonstruktion von Pseudo-Dokumentationen im Rahmen des Drei-Perspektiven-Modells Im Folgenden soll der Hybridstatus der Pseudo-Dokumentationen Blair Witch Project und Citizens for Truth unter Rückgriff auf das DreiPerspektiven-Modell rekonstruiert werden. Auf dieser Grundlage (wie auch im Vergleich mit anderen Internet-basierten PseudoDokumentationen) lassen sich ansatzweise erste Merkmale des Genres der Pseudo-Dokumentation identifizieren. 3.1 Zur Rekonstruktion ausgewählter Pseudo-Dokumentationen Wendet man das Drei-Perspektiven-Modell auf The Blair Witch Project an, so zeigt sich zunächst, dass eben diese klare paratextuelle Verankerung des Produkts fehlt.29 Weder im Kino noch im Internet findet sich ein Hinweis der Art »Die folgenden Personen und Ereignisse sind frei 29 Norbert Groeben/Margrit Schreier: Die Grenze zwischen (fiktionaler) Konstruktion und (faktueller) Wirklichkeit. (Fußnote 7). 108 Margrit Schreier erfunden« oder »The Blair Witch Project – ein Spielfilm«. Der einzige unmittelbar ersichtliche Hinweis auf die Werkkategorie des Produkts ist vielmehr Teil des Plot: Die drei Studierenden sind aufgebrochen, um eine Dokumentation zu drehen; wenn der Film einen Zusammenschnitt des gefundenen Materials darstellt, so legt dies – fälschlicherweise – nahe, dass es sich bei dem Film ebenfalls um eine Dokumentation handelt. Dieser Eindruck wird zusätzlich noch dadurch verstärkt, dass im USamerikanischen Fernsehen kurz vor dem Kinostart des Films die angebliche Dokumentationssendung The Curse of the Blair Witch ausgestrahlt wurde, die weiteres Hintergrundmaterial zu dem Verschwinden der drei Studierenden enthalten sollte – eine Pseudo-Dokumentation zur PseudoDokumentation also. Erst die letzten Zeilen des Nachspanns zum Film enthalten einen indirekten, ironisierenden Indikator dafür, dass dieser Hinweis auf den dokumentarischen Charakter des Films so wörtlich doch nicht zu nehmen ist, wenn es heißt: »Die Fahndung wird unterstützt von DIESEL/ARTHAUS Filmverleih«. Auch unter der Modusperspektive dominieren die Hinweise darauf, dass es sich bei The Blair Witch Project um eine Dokumentation handelt. So findet sich auf der Internet-Seite all das, was man von einer solchen Seite erwarten würde, wenn tatsächlich drei Menschen verschwunden wären: die Fotos der Vermissten, die Interviews mit Freunden und Verwandten, die Fahndungsmeldungen in den Nachrichten. Die Fahndungsmeldungen sind kurz und im Nachrichtenstil abgefasst, die Verwandten und Freunde sind angemessen betroffen, und bei dem gefundenen Material selbst handelt es sich ganz offensichtlich um verwackelte, grobkörnige Amateuraufnahmen auf 16mm-Film sowie auf Video. Dieser hohe Eindruck von Authentizität wird weiter durch die schiere Materialfülle verstärkt, wie sie insbesondere auf der Homepage zum Film realisiert ist. Unter der semantischen Perspektive überwiegen dagegen die Hinweise auf die Fiktionalität von The Blair Witch Project. Im Zentrum des Films und der Webseite steht die Hexe mit ihren Untaten seit dem 18. Jahrhundert – nach unserem allgemeinen Wirklichkeitsverständnis existieren jedoch weder Hexen, noch sind Menschen mehr als 200 Jahre nach ihrem Tod in der Lage, Unheil in der Welt anzurichten. Weiterhin werden die vermeintlichen Opfer der Hexe (wie im Übrigen auch das Filmmaterial der Studierenden selbst) stets an Orten gefunden, an denen sie sich nach menschlichem Ermessen nicht befinden können. Schließlich lässt sich auch das Setting des Films – der nächtliche Wald mit seinen für den Stadtmenschen erschreckenden Geräuschen – als Hinweis auf das Horrorgenre und somit als Fiktionalitätsindikator rekonstruieren. Pseudo-Dokumentationen 109 Der pseudo-dokumentarische Charakter von The Blair Witch Project wird also dadurch erzeugt, dass einerseits ein dokumentarischer Status suggeriert wird, während andererseits direkte paratextuelle Hinweise auf den fiktionalen Werkcharakter des Produkts fehlen. Zugleich stehen die Indikatoren unter der semantischen und der Modusperspektive in Widerspruch zueinander: Während mittels der Darstellungsweise ein Eindruck hoher Authentizität erzeugt wird, sprechen die Inhalte dafür, dass es sich um ein fiktionales Produkt handelt. Noch stärker ist der dokumentarische Eindruck, der durch die Internet-Seiten der Citizens for Truth erzeugt wird. Unter der pragmatischen Perspektive fehlt jeglicher direkte Hinweis, dass es sich um eine fiktive Organisation handelt. In der Tat enthält die Seite nur einen expliziten paratextuellen Indikator, der – wie bereits im Fall von The Blair Witch Project – in die Handlung quasi eingebaut ist: die Erstellung eines Dokumentarfilms über die Aufdeckung der wahren Geschehnisse mit dem Titel Nothing so strange. Folgt man dem Link auf die Internetseite zum Film, wird auch hier die Fiktion einer Dokumentation durchgängig aufrecht erhalten. Mit einer, ausgesprochen indirekten, Ausnahme: Die Filmgesellschaft ist identisch mit der Gesellschaft, die bereits The Blair Witch Project produziert hat. Unter der pragmatischen Perspektive können also nur solche Rezipient(inn)en den geplanten Film – und damit vermutlich auch den Netzauftritt der Citizens for Truth – als Fiktion erkennen, die mit dem Genre der Pseudo-Dokumentation bereits vertraut sind. Unter der Modusperspektive ist die Internet-Seite der Citizens for Truth eindeutig im Stil einer ›echten‹ Bürgerbewegung gestaltet: Die Seite beinhaltet Angaben zu der Organisation selbst und ihren Zielen; die Mitglieder der Exekutive werden vorgestellt; es findet sich dort das Programm der Jahreskonferenz 2000; es kann ein Newsletter abonniert, es können T-Shirts, Spray-Schablonen mit dem Logo der Organisation bestellt werden. Auch die Angaben zur Kontroverse über den Tathergang sind zahlreich: Der Tathergang wird im typischen Presse-Stil rekonstruiert; Ungereimtheiten werden aufgezeigt; es finden sich Protokolle der Interviews mit den Zeug(inn)en und sogar eine Kopie des angeblichen Polizeiberichts. Außerdem werden die Mitglieder der Organisation zu eigenen Aktionen aufgefordert, die auf weiteren Internet-Seiten dokumentiert sind.30 In diesem Zusammenhang stellen die Betreiber der Seite auch zusätzliche, vor allem juristische Informationen zu so genannten 30 Citizens for Truth, <http://www.citizensfortruth.org/gallery/> (31.1.2004). 110 Margrit Schreier Grassroots-Aktivitäten vor – und bei den Internet-Seiten, auf die dabei mittels Links verwiesen wird, handelt es sich um durchaus reale InternetSeiten von ebenso realen Organisationen, wie beispielsweise der Schrittfür-Schritt-Anleitung der American Civil Liberties Union zum Thema: Using the Freedom of Information Act.31 Nicht nur entspricht der Internet-Auftritt der Citizens for Truth somit den Konventionen für die Selbstdarstellung einer solchen Bürgerbewegung, sondern die fiktiven Seiten sind darüber hinaus mit realen Seiten verbunden. Wiederum finden sich die eindeutigsten Hinweise darauf, dass es sich bei den Citizens for Truth um eine fiktive Organisation, bei der Ermordung von Bill Gates um eine Fiktion handelt, unter der semantischen Perspektive. Soweit wir wissen, ist Bill Gates durchaus lebendig, und aufgeregte Berichte über seine Ermordung sind nie durch die Presse gegangen – der Kern der Handlung steht also erstens in eindeutigem Widerspruch zu unserem Weltwissen. Als zweiter Fiktionalitätsindikator lässt sich die Parallelität zwischen der angeblichen Ermordung von Bill Gates und der Ermordung John F. Kennedys rekonstruieren. Diese Parallelität ist nicht nur im Tathergang angelegt, sondern setzt sich auch in den Aufbau des Internet-Auftritts hinein fort; so findet sich etwa im Zusammenhang mit der angeblichen Ermordung von Bill Gates eine Seite mit der Frage an Rezipient(inn)en zu dem Thema: Wo waren Sie, als Bill Gates ermordet wurde? Von diesen beiden Aspekten abgesehen sind die Inhalte der Internet-Seiten jedoch durchaus realistisch und plausibel: die Ermordung einer Person des öffentlichen Lebens, Unstimmigkeiten bezüglich des Tathergangs, Bürgerbewegungen, die versuchen, Licht in das Dunkel etwaiger behördlicher Vertuschungsversuche zu bringen – all dies ist durchaus denkbar. Ein zusätzliches Detail verdient es, erwähnt zu werden: Der angebliche Polizeibericht ist nach dem ermittelnden Staatsanwalt als Garcetti-Report benannt – und »Garcetti« heißt auch der in Los Angeles tatsächlich amtierende Staatsanwalt, der dieser Verwendung seines Namens im Rahmen der Internet-Fiktion zugestimmt haben soll. 3.2 Die Merkmale des Genres der Pseudo-Dokumentation Inzwischen finden sich bereits mehrere Varianten dieses neuen Genres im Internet. Nicht immer ist dabei das Spiel mit den Fiktionalitätsindikatoren unter der pragmatischen Perspektive so subtil und indirekt wie in 31 ACLU Freedom Network: Using the Freedom of Information Act, <http://archive. aclu.org/library/foia.html> (31.1.2004). Pseudo-Dokumentationen 111 den beiden Fällen, wie sie hier dargestellt wurden. Den Seiten For the Love of Julie etwa – dem fiktionalen Tagebuch eines Psychopathen – ist der Hinweis vorangestellt, dass es sich um Fiktion handelt;32 auch die Produktion Ally Farson, bei der die Rezipient(inn)en aufgefordert werden, sich an der Suche nach der Serienmörderin dieses Namens zu beteiligen, enthält einen Hinweis darauf, dass Ally Farson Fiktion ist; dieser ist allerdings im Rahmen der Frequently Asked Questions versteckt und somit keineswegs augenfällig.33 Als ein erstes Merkmal des Genres der Pseudo-Dokumentation lässt sich somit festhalten, dass eine klare und gut sichtbare Rahmung des Produkts als Fiction meist fehlt. Auf den ersten Blick findet sich statt dessen – als Teil des fiktionalen Plot – eine paratextuelle Charakterisierung des Produkts als Non-Fiction (etwa als Dokumentation, als Tagebuch, als Fahndungsaufruf und anderes mehr); die Rahmung als Fiction erfolgt dagegen lediglich indirekt und ist zumindest zum Teil auch nur für solche Personen verständlich, die bereits ein gewisses Genrewissen aufgebaut haben. Unabhängig von solchen mehr oder weniger direkten paratextuellen Hinweisen seitens der Produzent(inn)en der Seiten zeichnen sich jedoch unter der inhaltlich-semantischen Perspektive bereits erste GenreKonventionen ab, die ihrerseits ebenfalls als Fiktionalitätsindikatoren wirksam werden können: So sind die Inhalte von Pseudo-Dokumentationen häufig an den Krimi oder an Detektiv-Spiele angelehnt: In The Blair Witch Project sind drei Personen verschwunden; in Citizens for Truth geht es um die Aufklärung eines Verbrechens sowie die Unzulänglichkeiten der damit befassten polizeilichen Ermittlungen; auf Cassandra's Site bittet eine fiktive Cassandra die Rezipient(inn)en um Unterstützung bei der Suche nach ihrem Freund Paul, der sich in einen gefährlichen Adepten der schwarzen Magie verwandelt hat und so weiter.34 Zu einer zweiten Konvention könnte sich der Verweis auf einen angeblichen Dokumentarfilm entwickeln, der über die Aufklärung der geschilderten Ereignisse gedreht werden soll oder bereits gedreht wurde. Dieses Motiv findet sich beispielsweise bei Blair Witch Project, Citizens for Truth sowie bei Ally Farson. 32 33 34 For the Love of Julie: Bis Ende März war die Seite zugänglich unter: <http://www. creepysites.com/gron/julie> (28.3.2003), wurde dann jedoch aus dem Netz genommen. In der Zwischenzeit ist unter <http://www.fortheloveofjulie.com> (31.1.2004) eine Nachfolgeseite entstanden, die die bisherigen Geschehnisse weiterführt, derzeit jedoch lediglich aus zwei Tagebucheinträgen besteht Ally Farson, <http://www.allyfarson.com> (31.1.2004). Cassandra’s Site, <http://www.creepysites.com/gron/cassandra> (31.1.2004). 112 Margrit Schreier Die erste dieser Konventionen, das heißt die Anlehnung an den Kriminalroman oder -film, hat zudem den Vorteil, dass sie nahtlos die Einbindung der Rezipient(inn)en selbst in die Fiktion ermöglicht: Wenn diese sich mit E-Mails an der Suche nach Ally Farson, Cassandras Freund Paul oder dem Vater von Peter (My Son Peter) beteiligen,35 werden sie selbst zu einem Teil der Fiktion. Diese rudimentäre Form von Interaktivität stellt ein weiteres Charakteristikum einer Subgruppe der PseudoDokumentationen dar, hier unter der Modusperspektive. Auch über dieses Merkmal hinaus ist die Ausgestaltung der entsprechenden InternetSeiten unter der Modusperspektive bestimmend für das Genre der Pseudo-Dokumentation: Es ist die – insbesondere in den hier vorgestellten Beispielen – geradezu perfekte stilistische Imitation von ›echten‹ Internet-Seiten, Fahndungsberichten, Nachrichtensendungen, die Einbindung einer Fülle scheinbar authentischer Details wie etwa Fotomaterial, Tonbandaufnahmen, Tagebuchaufzeichnungen, die Vernetzung der fiktiven mit realen Internet-Seiten, die den Eindruck der Dokumentation erzeugen – der erst durch den Widerspruch zu unserem Weltwissen oder durch mehr oder weniger direkte Hinweise auf den fiktionalen Charakter der Seiten als ›pseudo-dokumentarisch‹ entlarvt wird. 4. Zur Rezeption von Pseudo-Dokumentationen Wie aber reagieren Rezipient(inn)en auf die Entwicklung solcher Hybridprodukte? Sind sie sich beispielsweise darüber im Klaren, dass es sich bei dem Film und den Netzseiten zu The Blair Witch Project oder bei der Suche nach Cassandras Freund Paul um Fiktion handelt – oder hat das Spiel mit Realitäts- und Fiktionsindikatoren im Internet sowie die extrem realistische Machart des Films die Rezipient(inn)en verwirrt, vielleicht sogar dazu geführt, dass der Film in der Tat als Dokumentation wahrgenommen wird? Um möglichst spontane Rezeptionen des Films zu erfassen, wurde als Untersuchungsmaterial auf E-Mails aus solchen Newsgruppen, das heißt aus Diskussionsgruppen im Internet, zurückgegriffen, in denen der Film thematisch war; es handelte sich hier also jeweils um spontane Reaktionen von Rezipient(inn)en. In die Untersuchung wurde eine Zufallsstichprobe von 1.157 sowohl englisch- als auch deutschsprachigen E-Mails aus der Zeit vom Juni 1999, also kurz vor dem Anlaufen des Films in den USA, bis April 2001 einbezogen (aus einer Gesamtanzahl von über 35 My Son Peter, <http://www.mysonpeter.com> (31.1.2004). Pseudo-Dokumentationen 113 27.000 E-Mails, die bei Eingabe des Suchbegriffs »Blair Witch Project« in Google angezeigt wurden). Die Auswertung erfolgte mittels Inhaltsanalyse – einem Verfahren zur systematischen, intersubjektiven Erfassung von Textbedeutungen.36 Dabei werden die relevanten Bedeutungsaspekte mittels eines so genannten Kategoriensystems in Form von Kategorien spezifiziert und expliziert. Im nächsten Schritt ordnen mindestens zwei Personen (die Kodierer(innen)) die zu analysierenden Texte oder Textteile (hier: E-Mails) diesen Kategorien zu. Je mehr die Kodierer(innen) in ihrer Wahrnehmung der Textbedeutungen übereinstimmen, desto eher ist davon auszugehen, dass es gelungen ist, die tatsächlichen Bedeutungen zu erfassen. Im Rahmen der vorliegenden Untersuchung wurden zwei Kategoriensysteme entwickelt. Mit dem ersten Kategoriensystem wurde ermittelt, ob in den E-Mails überhaupt Gesichtspunkte von Realität und Fiktion angesprochen wurden; solche E-Mails, in denen das der Fall war, wurden als relevant, die verbleibenden als irrelevant klassifiziert. Von den 1.157 E-Mails in der Stichprobe erwiesen sich 319 in diesem Sinne als relevant (davon 109 deutsch- und 210 englischsprachige), das heißt 27.3 Prozent.37 In den irrelevanten E-Mails wurden Gesichtspunkte wie beispielsweise das Gefallen des Films im Allgemeinen, die Qualität der Video- oder der DVD-Fassung und anderes mehr angesprochen. Berücksichtigt man zusätzlich den Zeitpunkt, zu dem die E-Mails verfasst wurden, so wird deutlich, dass der Prozentsatz relevanter E-Mails etwa sechs Monate nach dem Kinostart des Films abrupt zurückgeht. In den ersten sechs Monaten nach dem Start sind Gesichtspunkte von Realität und Fiktion in 38.6% der E-Mails thematisch, in den folgenden Monaten nur noch in durchschnittlich 6.7%. In den ersten sechs Monaten machen Gesichtspunkte von ›Realität‹ und ›Fiktion‹ somit einen erheblichen Anteil der Newsgruppen-Kommunikation über The Blair Witch Project aus. Eine Inhaltsanalyse mittels des zweiten Kategoriensystems wurde nur für die 319 relevanten E-Mails durchgeführt. Dabei stand die Frage im Mittelpunkt, welche Aspekte von Realität und Fiktion genau thematisch waren und wie der Realitätsstatus des Films im Einzelnen bewertet wurde. Die Erstellung des Kategoriensystems erfolgte deduktiv-induktiv: Die 36 37 Zur Inhaltsanalyse vgl. z.B. Ruth Rustemeyer: Praktisch-methodische Schritte der Inhaltsanalyse. Eine Einführung. Münster: Aschendorff 1992. Die Übereinstimmung zwischen den Kodierer(inne)n betrug 0.72, was nach J. R. Landis/Gary G. Koch als »sufficient« zu bewerten ist; vgl. J. R. Landis/Gary G. Koch: The measurement of observer agreement for categorical data. In: Biometrics 33 (1977), S. 159-174, hier S. 165. 114 Margrit Schreier Entwicklung der Oberkategorien wurde deduktiv unter Rückgriff auf das oben dargestellte Modell von Realitäts-Fiktions-Unterscheidungen mit den drei Perspektiven – pragmatisch, semantisch, modusbezogen – vorgenommen; diese Oberkategorien wurden im Rahmen von Probekodierungen anhand einer zusätzlichen Stichprobe von E-Mails induktiv weiter konkretisiert. Als zusätzliche induktive Oberkategorien wurden nach einer Sichtung dieses Materials die Kategorien »Scherzhafter Umgang mit Realität und Fiktion« sowie »Sonstiges« eingeführt. Das resultierende Kategoriensystem umfasst insgesamt 52 Kategorien, das heißt 52 verschiedene Aspekte von Realitäts-Fiktions-Unterscheidungen bezogen auf den Film The Blair Witch Project.38 Kategorie Werkkategorie Inhaltsperspektive Modusperspektive Scherzhaftes Spiel Sonstiges N 148 78 191 27 37 Tabelle 1: Nennungshäufigkeiten der Oberkategorien Aus Tabelle 1 geht hervor, dass der Realitätsstatus des Films von den Verfasser(inne)n der E-Mails unter allen drei Modellperspektiven diskutiert wird; auf die Modusperspektive entfallen dabei die meisten Nennungen, gefolgt von der pragmatischen Perspektive der Werkkategorie und, an dritter Stelle, der inhaltlich-semantischen Perspektive. Die Besetzungshäufigkeiten für die beiden induktiv eingeführten Oberkategorien liegen demgegenüber deutlich niedriger. Diese Relationen der Besetzungshäufigkeiten lassen sich als Hinweis darauf auffassen, dass das Drei-Perspektiven-Modell geeignet ist, die zentralen Aspekte der Diskussion des Realitätsstatus von Medienprodukten auch tatsächlich abzubilden. Im Hinblick auf die Diskussion der Werkkategorie des Films wurde mit dem Kategoriensystem zunächst erfasst, ob der Film in den E-Mails 38 Die Übereinstimmung zwischen den Kodierer(inne)n zum Abschluss der Probekodierung lag je nach Kategorie zwischen 0.66 und 0.88 und ist damit nach Landis/Koch als »substantial« bzw. »almost perfect« zu bewerten: Ebd. Zu den Kategoriensystemen und den Untersuchungsergebnissen vgl. auch: Margrit Schreier/Christine Navarra/Norbert Groeben: Das Verschwinden der Grenze zwischen Realität und Fiktion. Eine inhaltsanalytische Untersuchung zur Rezeption des Kinofilms The Blair Witch Project. In: Achim Baum/Siegfried Schmidt (Hg.): Fakten und Fiktionen: Über den Umgang mit Medienwirklichkeiten. Konstanz: UVG, S. 271-282. Pseudo-Dokumentationen 115 als Fiction, Non-Fiction oder als Hybrid wahrgenommen wurde, oder ob eine eindeutige Kategorisierung der Wahrnehmung des Films unter diesem Gesichtspunkt nicht möglich war. Weiterhin wurde ermittelt, ob diese Einschätzung in der Form erfolgte, dass die E-MailVerfasser(innen) den Film mit Sicherheit dieser Werkkategorie zuordneten, ob sie die Zuordnung in Form einer Frage vornahmen, oder ob sie eine Meinungsänderung zum Ausdruck brachten. Fragestellung Feststellung Meinungsänd. Gesamt Non-Fiction 5 2 0 7 Hybrid 1 2 3 Fiction 1 56 7 64 unentschieden 21 21 Tabelle 2: Wahrnehmung der Werkkategorie des Films Wie Tabelle 2 zeigt, wird die Frage der Werkkategorie des Films von insgesamt 95 Personen thematisiert. Darunter sind sich 58 Personen (also 61%) sicher, dass der Film entweder Fiktion oder ein Hybridprodukt darstellt. Auch wird der Film kaum jemals eindeutig als Non-Fiction klassifiziert. Summiert man die Besetzungshäufigkeiten für die verbleibenden Zellen in der Tabelle auf – das entspricht denjenigen Personen, die den Film nicht eindeutig und durchgängig einer bestimmten Werkkategorie zuordnen –, so zeigt sich allerdings, dass weitere 37 Personen (etwa 37%) zumindest zeitweise hinsichtlich der Werkkategorie von The Blair Witch Project unsicher sind. Des Weiteren wurde kodiert, aus welchen Gründen die Rezipient(inn)en den Film einer bestimmten Werkkategorie zuordnen würden. Da die Mehrzahl der Verfasser(innen) der E-Mails den Film als Fiction wahrnehmen, dominieren auch die Begründungen für die Zuordnung des Films zu dieser Werkkategorie. Dafür, dass es sich bei The Blair Witch Project um Fiktion handelt, spricht nach der Auffassung der Mail-Schreiber(innen) am stärksten die Marketing-Strategie, die dem Film zu Grunde liegt; auch Informationen aus anderen Medienprodukten werden genannt. Auffallend ist hier, dass lediglich vier Personen den Paratext am Ende des Films erwähnen; die schiere Unmöglichkeit von Hexerei wird sogar nur in drei Fällen als Grund für die Klassifikation des Films als Fiction angeführt. Unter den E-Mail-Verfasser(inne)n, die The Blair Witch Project zumindest potenziell für ›echt‹ halten, dominiert insbesondere ein Grund, nämlich entsprechende Information aus anderen 116 Margrit Schreier Medienprodukten (insbesondere aus der Internetseite zum Film sowie aus der Pseudo-Dokumentation zur Pseudo-Dokumentation: The Curse of the Blair Witch). Die Begründungen der Diskussionsteilnehmer(innen) für ihre Wahrnehmung der Werkkategorie des Films zeigen somit, dass insbesondere dem Medienwissen sowie medial vermittelten Informationen eine zentrale Rolle zukommt; dies gilt noch einmal in verstärktem Maß für diejenigen Personen, die zumindest zeitweise die Möglichkeit in Betracht ziehen, es könnte sich bei dem Film um eine tatsächliche Dokumentation handeln. Weltwissen und paratextuelles Wissen haben demgegenüber als Begründung für den fiktionalen Status des Films nur geringe Bedeutung. Neben der Diskussion der Werkkategorie kommt vor allem der Thematisierung der Modusperspektive in den Newgsruppen-Diskussionen ein zentraler Stellenwert zu, wobei die Nennungen sich zu gleichen Anteilen über die Produkt- und die Rezeptionsperspektive verteilen (96 beziehungsweise 95 Nennungen). Dabei betonen die Diskussionsteilnehmer(innen) insbesondere den Realismus des Films. Unter der Produktperspektive betrifft dies beispielsweise die Verwendung von Bildmaterial in amateurhafter Qualität (sechzehn Nennungen), die ausgezeichneten Schauspieler(innen) (vierzehn Nennungen) sowie vor allem die Vorgehensweise, die schrecklichen Geschehnisse nicht direkt zu zeigen, sondern weitgehend der Vorstellungskraft der Rezipient(inn)en zu überlassen (26 Nennungen). Unter der Rezeptionsperspektive empfindet weitaus die Mehrheit der Diskussionsteilnehmer(innen) den Film als spannend und angsterregend (80 von 95). Bei 23 Personen hält das Angstempfinden sogar über die Dauer der Filmrezeption hinaus an. Und neunzehn Diskussionsteilnehmer(innen) weisen die anderen darauf hin, dass der Film umso mehr Angst evoziert, je weniger man im Voraus über die Hintergründe seiner Entstehung und insbesondere darüber weiß, dass es sich letztlich um eine Form der Fiktion handelt. Das realistische Erleben des Films unter der Modusperspektive wird hier also gerade von der Unsicherheit hinsichtlich der Werkkategorie des Films abhängig gemacht. Unter der semantischen Perspektive – die gegenüber der Modus- und der pragmatischen Perspektive in den analysierten E-Mails die vergleichsweise geringste Rolle spielt – dominiert die Diskussion um die Frage, inwieweit die Handlungsweise der Protagonist(inn)en in dem Film als plausibel und glaubwürdig gelten kann. Von 62 Personen sind etwa zwei Drittel (n = 42) der Ansicht, dass die Handlung als eher unplausibel gelten muss. Unplausibel erscheint es den Diskussionsteilnehmer(inne)n beispielsweise, dass die Protagonist(inn)en nicht wussten, wie man einen Pseudo-Dokumentationen 117 Kompass verwendet, dass sie nicht einfach dem Verlauf des Flusses gefolgt waren oder dass sie trotz ihrer Angst weiter gefilmt haben sollten. Handlungselemente, die zu unserem Weltwissen in klarem Widerspruch stehen (wie beispielsweise die Existenz von Hexen), werden dagegen von den Diskussionsteilnehmer(inne)n in diesem Zusammenhang kaum genannt. Zusammenfassend ist festzuhalten, dass The Blair Witch Project unter der pragmatischen Perspektive zwar mehrheitlich als Fiction eingestuft wird, dass ein nicht unerheblicher Teil der E-Mail-Verfasser(innen) jedoch zumindest vorübergehend hinsichtlich der Werkkategorie des Films verunsichert ist. Unter der Inhaltsperspektive wird der Film eindeutig als unplausibel, unter der Modusperspektive schließlich ebenso eindeutig als realistisch wahrgenommen. 5. Ausblick Im vorliegenden Zusammenhang ist insbesondere die Bewertung von The Blair Witch Project unter der pragmatischen Perspektive von Interesse. Dass die Machart des Films als realistisch wahrgenommen wird, dass es die Zuschauer(innen) gruselt, auch nachdem sie das Kino wieder verlassen haben – das sind Formen der Überschneidung von Realität und Fiktion, wie man sie auch in Folge der Rezeption traditioneller Medienprodukte findet: So mögen sich manche Zuschauer(innen) von The Blair Witch Project dazu entschlossen haben, den nächsten Urlaub besser nicht mit Camping zu verbringen. Ebenso sollen Rezipient(inn)en des Films Der weiße Hai noch Jahre später gezögert haben, im Meer zu schwimmen, und die Reaktionen der Zuschauerinnen auf die Duschszene in Hitchcocks Psycho sind hinlänglich bekannt.39 Dennoch würde vermutlich niemand so schnell auf den Gedanken kommen, dass Der weiße Hai oder Psycho eine Dokumentation darstellt. Hier ist den Zuschauer(inne)n vielmehr durchaus bewusst, dass es sich um gänzlich fiktionale Horrorfilme handelt, um Psycho-Thriller – und eben diese Sicherheit ist es, die zumindest bei etwa einem Drittel der Verfasser(innen) der hier analysierten E-Mails fehlt: Bei Mischprodukten, bei DokuFiction(s) wie The Blair Witch Project existieren – bisher – kaum feste Genre-Konventionen, und diese Unsicherheit kann dazu führen, dass für 39 Zu anhaltenden Angstreaktionen in Folge von Filmrezeptionen vgl.: Joanne Cantor: Fright reactions to mass media. In: Jennings Bryant/Dolf Zillmann (Hg.): Media Effects. Advances in Theory and Research. Mahwah, NJ: Erlbaum 2002, S. 287-306. 118 Margrit Schreier manche Rezipient(inn)en wenigstens zeitweise die Grenze zwischen Realität und Fiktion verschwimmt. Gegen diese Befunde ließe sich einwenden, dass sie anhand einer Stichprobe von Personen gewonnen wurden, die sich spontan an Diskussionen über den Film im Internet beteiligt haben. So ist beispielsweise nicht auszuschließen, dass es sich hier um einen Kreis von Personen handelt, die hinsichtlich ihrer Rezeption des Films von vornherein in höherem Maß verunsichert waren, als dies für die Zuschauer(innen) des Films im Allgemeinen gilt. Gegen diesen Einwand sprechen jedoch die Befunde zweier weiterer Studien, die sich derzeit in der Auswertungsphase befinden. In einer ersten Studie wurde ein Vergleich der Diskussion von The Blair Witch Project in Internet-Diskussionsgruppen mit der Internet-Diskussion eines anderen Horrorfilms vorgenommen, der etwa zur selben Zeit in die Kinos kam und ebenfalls einen Überraschungserfolg darstellte: The Sixth Sense. Auch aus den Diskussionen um diesen Film wurde eine Zufallsstichprobe gezogen, und für diese Stichprobe wurde ebenfalls eine zweischrittige inhaltsanalytische Auswertung im Hinblick auf die Thematisierung von Realitäts- und Fiktions-Aspekten vorgenommen. Wenn die Auswertung auch noch nicht abgeschlossen ist, so zeichnet sich doch ein Befund bereits zum jetzigen Zeitpunkt deutlich ab: Eine Diskussion der Werkkategorie von The Sixth Sense findet praktisch nicht statt; sofern die Werkkategorie überhaupt angesprochen wird, handelt es sich meist um eine Diskussion der Frage, inwieweit der Film dem Genre des Horrorfilms oder eher dem des Supernatural Thriller zuzuordnen ist. Dieses Ergebnis zeigt, dass die Werkkategorie bei eindeutig fiktionalen Medienprodukten eine solche Selbstverständlichkeit darstellt, dass sie gar nicht erst zum Diskussionsgegenstand wird. Komplementär wird an dem Vergleich der Diskussionen um die beiden Filme auch deutlich, dass alleine die Thematisierung einer Zuordnung von The Blair Witch Project zur Werkkategorie der Fiktion als Ausdruck einer gewissen Unsicherheit seitens der Rezipient(inn)en anzusehen ist: Dass der Film überhaupt explizit einer Werkkategorie zugeordnet wird – auch wenn es sich dabei um die Werkkategorie der Fiction handelt – ist bereits Ausdruck rezeptionsseitiger Verunsicherung. Weiterhin lassen sich die Befunde zu The Blair Witch Project mit den Ergebnissen einer Interviewstudie zur Rezeption der ausschließlich internetbasierten Pseudo-Dokumentation Ally Farson vergleichen (n = 28).40 Auf der Website werden die Rezipient(inn)en aufgerufen, sich an der Fahndung nach der angeblichen Serienmörderin Ally Farson zu be40 Ally Farson. (Fußnote 33). Pseudo-Dokumentationen 119 teiligen; die Seite enthält eine ausführliche Biographie der Täterin, Abschriften von Zeugenbefragungen der Polizei, angeblich sogar Videos der Morde, die Ally Farson einer Filmgesellschaft hat zukommen lassen. Auch hier zeigt sich, dass das Medienprodukt mehrheitlich durchaus korrekt als Fiction wahrgenommen wird, dass jedoch etwa ein Drittel der Befragten mit Verunsicherung reagiert, was den Realitätsstatus der Website betrifft: Obwohl die Befragten im Verlauf des Interviews mit Anhaltspunkten für den fiktionalen Status des Medienprodukts konfrontiert werden (unter anderem mit dem paratextuellen Hinweis, dass eine Person namens Ally Farson nie existiert hat), sind ein Drittel sich weiterhin unsicher, ob es sich bei der Website nicht doch um einen echten Fahndungsaufruf handeln könnte. Dieses Ergebnis bestätigt den Befund der Inhaltsanalyse von E-Mails zu The Blair Witch Project, dass Hybridprodukte zwar mehrheitlich als fiktional erkannt werden, dass es aber offensichtlich auch Personen gibt, die in Bezug auf den Realitätsstatus solcher Produkte verunsichert reagieren. Zugleich scheint die Verunsicherung in Bezug auf Ally Farson jedoch größer zu sein als hinsichtlich The Blair Witch Project: Während die entsprechenden Rezipient(inn)en von Blair Witch Project mehrheitlich lediglich Unsicherheit darüber zum Ausdruck bringen, ob es sich bei dem Film tatsächlich um Fiction handelt, ziehen die unsicheren Rezipient(inn)en von Ally Farson durchaus die Möglichkeit in Erwägung, dass das Produkt eine tatsächliche Fahndungsseite darstellen könnte; außerdem halten sie an dieser Möglichkeit auch fest, nachdem sie mit konkreten Argumenten für den fiktionalen Status des Produkts konfrontiert wurden. Wenn man einmal davon ausgeht, dass die Anzahl solcher PseudoDokumentationen insbesondere im Internet in Zukunft eher noch zunehmen wird, so stellt sich die Frage, woran Rezipient(inn)en sich bei ihrer Beurteilung des Realitätsstatus dieser Produkte orientieren; dies betrifft insbesondere die Frage, ob solche Rezipient(inn)en, die zumindest die Möglichkeit in Erwägung ziehen, dass es sich bei einer PseudoDokumentation um ein faktisches Produkt handeln könnte, sich an anderen Informationen orientieren als diejenigen Personen, die das Produkt eindeutig als fiktional erkennen. Die Ergebnisse der Untersuchung zu The Blair Witch Project lassen vermuten, dass hier vor allem zwei Gesichtspunkte eine Rolle spielen: Dies sind erstens Informationen aus anderen Medienprodukten; auf solche Informationen wird in den hier analysierten E-Mails vor allem dann verwiesen, wenn es darum geht, die Rezeption des Films als Non-Fiction, als eine Form der Realitätsdarstellung, zu stützen. Zweitens wird auf Wissen um die Vermarktungsstrategie zurückgegriffen, also auf Wissen um das Spiel mit Realität und Fikti- 120 Margrit Schreier on, wie es auf der Internetseite zum Film realisiert wird; es handelt sich hier also um eine spezielle Form der Information über andere Medien, die vor allem dann zum Tragen kommt, wenn es darum geht, die Rezeption des Films als Fiktion zu begründen. Der Paratext sowie Gesichtspunkte des Weltwissens spielen demgegenüber in der Diskussion um den Realitätsstatus des Films praktisch keine Rolle; auch Hinweise darauf, dass es zumindest nach unserem derzeit geltenden Wirklichkeitsverständnis keine Hexen gibt, der Film also schon auf Grund seines Inhalts als Fiktion einzustufen wäre, finden sich kaum. Im Rahmen der Rezeptionsstudie zu Ally Farson wiederholt sich zunächst der Befund, dass die Rezipient(inn)en sich bei der Beurteilung des Realitätsstatus dieses Medienprodukts kaum am Paratext orientieren; dies gilt unabhängig davon, welcher Werkkategorie die Rezipient(inn)en das Produkt schlussendlich zuordnen. Bei den Personen, die der Ansicht sind, dass Ally Farson einen tatsächlichen Fahndungsaufruf darstellen könnte, fällt in ihren Begründungen weiterhin eine große Unsicherheit auf – und zwar Unsicherheit sowohl, was die Möglichkeiten und Konventionen des Internet betrifft, als auch Unsicherheit im Hinblick auf die amerikanische Kultur, in der Ally Farson entstanden ist. Diese Rezipient(inn)en bringen zum Ausdruck, dass ihnen die Maßstäbe für eine Beurteilung dessen fehlen, was vor allem im US-amerikanischen Internet als glaubhaft gelten kann und was nicht. Bei den Begründungen der Untersuchungsteilnehmer(innen), die Ally Farson eindeutig für fiktional halten, fällt demgegenüber auf, dass sie sich besonders häufig auf ihre Kenntnis vergleichbarer Medienprodukte stützen, und zwar in erster Linie auf ihre Kenntnis von The Blair Witch Project. Diese Begründung findet sich im Übrigen auch im Rahmen von Internet-Diskussionen der Rezipient(inn)en anderer pseudo-dokumentarischer Internet-Produkte. Als beispielsweise ein verwirrter Besucher der Bill-Gates-Seiten die Frage stellt, ob Gates tatsächlich tot sei, erhält er von einem anderen Diskussionsteilnehmer den Hinweis darauf, dass es sich um eine PseudoDokumentation nach demselben Muster wie The Blair Witch Project handele. Und auch im Rahmen von Cassandra's Site wird auf die Internet-Vermarktung dieses Films verwiesen, wenn eine Diskussionsteilnehmerin – in freier Übersetzung – schreibt, dass auf diese Seite ja wohl niemand hereinfallen könne – sie sei nichts als ein zweitklassiger Abklatsch von The Blair Witch Project. 41 The Blair Witch Project erweist sich hier somit als Prototyp des neuen Genres der Pseudo-Dokumentation im Internet und zugleich als Grund41 Cassandra's Site. (Fußnote 34). Pseudo-Dokumentationen 121 lage für den Aufbau genrebezogenen Wissens durch die Rezipient(inn)en. Angewandt auf Nachfolgeprodukte im Internet, ermöglicht dieses Wissen die Klassifikation der entsprechenden Produkte als Hybride beziehungsweise als Fiktionen, die lediglich den Anschein erwecken, eine Dokumentation darzustellen. Zugleich fällt jedoch auf, dass die Teilnehmer(innen) an den dargestellten Untersuchungen sich bei ihrer Rezeption der Pseudo-Dokumentationen allenfalls in geringem Maß auf Wissen über den Paratext oder auf Weltwissen stützen; bei der Beurteilung des Realitätsstatus der fraglichen Medienprodukte wird vielmehr in erster Linie Wissen aus anderen Medien herangezogen – Wissen, das im Kontext anderer Kulturen oder neuer Medien wie etwa dem Internet auch von einigen Rezipient(inn)en selbst nicht als hinreichende Beurteilungsgrundlage empfunden wird. Wesentliche produktseitige Fiktionssignale, die die Werkkategorie dieser Hybridprodukte anzeigen, bleiben auf diese Weise rezeptionsseitig ungenutzt. Der Frage, warum dies der Fall sein sollte – ob Rezipient(inn)en sich beispielsweise über die Bedeutung entsprechender Signale nicht im Klaren sind oder es in der Mediengesellschaft quasi verlernt haben, das eigene Weltwissen als Beurteilungsgrundlage heranzuziehen –, wird in weiteren Untersuchungen nachzugehen sein. Peter Robinson Where We Are with Electronic Scholarly Editions, and Where We Want to Be Abstract Scholarly electronic editions up to 2003 have rarely extended beyond the model of print technology, either in terms of product (the materials included and the ways they are accessed) or process (the means by which they are made and by which they may be manipulated). However, some edition projects are beginning to explore the possibility of the electronic medium, and others may follow their lead as the basic tools for their making become more widely distributed. Yet this may only be a prelude to a much greater challenge: the making of what may be called fluid, cooperative and distributed editions. These editions will not be made or maintained by one person or by one group, but by a community of scholars and readers working together: they will be the work of many and the property of all. This approach will strain currently deployed data and organizational models, and will demand rethinking of some of the fundamental practices of the academy. However, the potential benefits to all involved, as readers, editors, commentators and critics engage together in the making and use of these, are considerable. There has been around ten years of activity, sometimes frenetic, in the making of electronic scholarly editions.1 One could mark the beginnings of this process by three events: the beginnings of the world wide web around 1992; the formulation of the Text Encoding Initiative (TEI) guidelines about the same period, culminating in the publication of the ›P3‹ version in 1994; and Jerome McGann's essay The rationale of hypertext which was drafted around this period.2 Together, these provided 1 2 This essay, and the last half especially, has been greatly influenced by a series of conversations with Peter Shillingsburg (and, all too briefly, Paul Eggert) in the period September to December 2003. As with all such conversations, neither of us could now be sure who thought of what. Another version of these ideas will appear in Shillingsburg's Script Acts: From Gutenburg to Google, and readers may correct my misunderstanding of his ideas from this. For the beginnings of the web, see A Little History of the World Wide Web at <http://www.w3.org/History.html> (3.2.2004): the first webserver outside Europe came online in December 1991; there were 26 servers in November 1992; by Septem- 124 Peter Robinson three elements necessary for electronic scholarly editions: a cheap and efficient means of distribution; a set of encodings to underpin their making; and a theoretical imprimatur from a leading textual critic. Over the same period, the rise of digital imaging and the increasing holdings of images of primary textual materials in electronic libraries have added the possibility of large-scale inclusion of image materials in electronic editions. The effect of all these is that it is now probably impossible to find a single large-scale editorial project in western Europe or America which does not have already have, or is not actively preparing, a digital dimension. There are, of course, many differences among the electronic scholarly editions which have so far appeared, and much discussion concerning their precise contents and emphases. Should they simply present images, or be centred around images, as in the model proposed by Kevin Kiernan?3 If an edition includes many texts, should it include collations of all these; should it include also an edited text, and if so, how should this be constructed? Should it include commentary materials, and if so, what kinds of commentary and how should these be linked? Should we be making editions at all, with the implication that there is an editor whose opinions and interpretations might intrude, or should we satisfy ourselves with making archives, where an impersonal presentation might warrant readerly freedom? These discussions reflect debates which have been proceding in the editorial community for several decades now, and 3 ber 1993 webservers registered 1% of all internet traffic, and the rest is history. The ›P3‹ TEI guidelines were formally presented at the 1994 joint Association for Literary and Linguistic Computing/Association for Computers in the Humanities conference, 19-23 April, in Paris, now revised and published as C. Michael Sperberg-McQueen/ Lou Burnard (Eds.): TEI P4: Guidelines for Electronic Text Encoding and Interchange. Text Encoding Initiative Consortium. XML Version: Oxford/Providence/ Charlottesville/Bergen 2002. Jerome McGann's The Rationale of Hypertext has its own interesting textual history: as of 19 December 2003, a version of this existed at <http://www.iath.virginia.edu/public/jjm2f/rationale.html> (3.2.2004) dated 6 May 1995. However, the essay was written over a few months during the US academic year of 1994-5 (email from Jerome McGann, 8 January 2004) and was circulating and being discussed before this date, further version was published in Kathryn Sutherland (Ed.): Electronic Text : Investigations in Method and Theory. Oxford: Clarendon Press 1997, pp. 19-46; and yet another version in his adiant Textuality: Literature After the World Wide Web, New York: Palgrave, 2001. Naturally, there is an element of caprice about choosing the period around 1993 as the starting point of this narrative, and about the choice of these three avatars: one could for example parallel many (and probably all) the ideas in Jerome McGann's superbly-timed and cunningly-titled essay in other writers at the time (e.g. George Landow). But these will serve. See <http://www.uky.edu/~kiernan/eBeowulf/main.htm> (3.2.2004): ›The Electronic Beowulf is an image-based edition of Beowulf‹. Electronic Scholarly Editions 125 which now continue in the framework of the new medium.4 Indeed, the continuation of these discussions in the electronic medium itself is a marker of the success of the new forms, as editors who up to ten years ago would not have considered using computers to make and distribute editions have adapted to the digital world, and translated their own methods and editorial theories to it. Necessarily, much of the work of this first ten years has been experimental, and concerned with practicalities: what software, what hardware, exactly what encodings, should be used? Should these editions be distributed on CD-ROM, or on the internet? Recently, the rise of XML (Extensible Markup Language) and the development of a constellation of associated software tools have provided answers to many of these questions. The effect of all these is that we can declare that there are solutions to the immediate technical problems which vexed us in the last decade, of how electronic editions should be made and how they should be distributed. We may now make, with reasonable efficiency and at reasonable cost, editions of texts, from manuscripts and print editions, according to our own critical perspective. The expertise to do this is still too narrowly held, and we need more examples of good practice to guide those who are beginning this work, but this is coming. Briefly, this is where we are now, and this is how we got to this point. We might assume that this is the end of the matter: that we have solved all the problems, that we have put in place a variety of comprehensive models, that all we have to do now until the end of time is choose our model and make our edition accordingly. Most emphatically, I do not think this is at all the case. The electronic scholarly editions we have been making so far do not represent any kind of endpoint. Indeed, I think they do not even amount to much of a beginning. In the rest of this paper I would like to sketch out why I think this, what kinds of scholarly edition we will find ourselves wishing to make in the next years, and what yet needs to be done to permit us to make these. First, let us observe two things missing from almost all electronic scholarly editions made to this point. The first missing aspect is that up to now, almost without exception, no scholarly electronic edition has presented material which could not have been presented in book form, nor indeed presented this material in a manner significantly different from that which could have been managed in print. Many electronic 4 For example: in Peter L. Shillingsburg: Scholarly Editing in the Computer Age: Theory and Practice. 3rd Edition. Ann Arbor: University of Michigan Press 1996; A Critique of Modern Textual Criticism. Chicago: University of Chicago Press 1983; reprinted Charlottesville: University of Virginia Press 1992. 126 Peter Robinson scholarly editions present facsimile images. But print editions have included reproductions of manuscripts or other sources, in some form or other, for centuries. Some electronic editions present the images alongside transcripts; but print editions have long done this. Some electronic editions include commentaries and other editorial matter; there is hardly a print edition which has not done this. As for hypertext: even before print, scribes created manuscript pages which surrounded the text with all kinds of extra-textual material – commentaries, variant readings, indices, cross-references, glosses, pointers to every kind of matter.5 Almost all we have done, in the first ten years of electronic scholarly editions, is find ways of mimicking on screen elements long present in print and manuscript. Indeed, in some respects electronic editions are actually a backwards step. Consider the presentation of variant texts. Traditionally, print editions showed variation in the form of a collation apparatus, showing at various points of a ›base text‹ the different readings of different witnesses. Instead of this, most electronic editions just show the different texts themselves, and leave it to the reader to discover where the variants are. Even where the variants are presented, they are usually presented in the same list form as they are in printed editions. Certainly, we can include much more in electronic editions, and certainly we can make it much easier to move between related points. But this hardly amounts to a revolution. At their best, so far, most electronic editions do the same as book editions: they just do more of it, perhaps with marginally more convenience. In essence, their product is not significantly different qualitatively to that of print editions. The second missing aspect of most electronic scholarly editions relates to their failure to use new computer methodologies to explore the texts which they present: to be different in terms of process. The only tool many editions add is text searching – and many do not even provide that. Very often too computerized tools are not used in the preparation of the editions: a database might sometimes be used for gathering some data, but that is all. This is particularly surprising when one considers developments in other fields of knowledge. In the last decades, immense advances have been made in the sciences in the development of sophisticated methods for finding patterns in large quantities of disparate data. There are obvious opportunities for the application of such methods to 5 See, for example, Malcolm B. Parkes: Folia Librorium Quaerere: Medieval Experience of the Problems of Hypertext and the Index. In: Claudio Leonardi/Marcello Morelli/Francesco Santi (Eds.): Fabula in Tabula: Una Storia degli Indici dal Manoscritto al Testo Electronico. Claudio Leonardi, Marcello Morelli, and Francesco Santi Spoleto: Centro Italiano di Studi Sull'Alto Medioevo 1994 pp. 23-41. Electronic Scholarly Editions 127 data gathered by scholarly editors, on the agreements and differences at every level among the witnesses to a text. But very few scholarly edition projects have made any attempt to use these methods, and even fewer have attempted to make these available to others. Clearly, the electronic edition of the future – that is, electronic editions which really exploit their medium, as fully as the best print editions since Aldus have exploited the printed page – must attend to these two fundamental deficiencies, of product and process. As to product: we can see that the electronic medium permits possibilities of dynamic interactivity which we have scarcely begun to explore. Some editions have already shown how the editor can provide different views on the one text, so that the reader can choose how to see a text: in a diplomatic transcription, in a normalized spelling and orthography; interlineated with variants from other texts, and so on. We can expect to see these models developed so that this is no longer an occasional feature, with some alternatives presented at some points, but becomes the fundamental guiding principle of the whole edition. That is: the reader can reshape the whole edition, from the very first view right through to every individual element. For example: an edition of a text in many versions would permit the reader to select the ›base text‹, or not have any base text at all; to select which different versions will be shown; to choose how each version appears, in what configuration of the version in its relation to other versions, and in what configuration of edited text against captured image. Some of this we have already seen, and we can expect more and more editions to take advantage of these facilities. This extension of dynamic interactivity will change the relationship of the reader to the text he or she is reading. These will be ›lean-forward‹ editions, demanding our interaction.6 This opens the way to these editions becoming closer to the immersive environments one finds in computer gaming. Indeed, the ideal reader of an ideal edition would behave much as does a computer game player: seeing puzzles in the materials presented, rearranging them to seek ways into the puzzle, trying out different solutions – what difference does it make if I read the text this way, with this variant – seeing the results, using what is learnt to frame yet further hypotheses, to create yet further readings. Neil Fraistat and Stephen Jones's MOOzymandias, and and Johanna Drucker's Ivanhoe Game are both experime_ntal moves in this direction. There are obvious 6 The phrase is from a speech by Elisabeth Murdoch 29 August 1998 at the Edinburgh Festival, reported <http://news.bbc.co.uk/1/hi/entertainment/edinburgh_festival/ 160971.stm> (3.2.2004) in which she contrasts ›lean-back leisure‹ (as in TV) with ›leanforward‹ interaction (as in computer use). 128 Peter Robinson pedagogical opportunities here.7 For generations textual scholars have complained that nobody reads their editions. Through the imaginative use of this technology, scholarly editions could be taken from the rarefied world of the research library right into the classroom, right to the computer on the student's desk. This will require scholarly editors to think and work in unfamiliar ways, and will require many experiments, at least some of which will appear quite bizarre to those brought up on traditional norms of ›historisch-kritische Ausgabe‹ and its equivalents. At the least, this will blur the traditional sharp distinction between ›scholarly‹ editions and ›reader‹ editions, while the incorporation of textual scholarly matter in the kind of interactive pedagogical environments looked forward to by the experiments cited above will set different challenges. But the potential prizes are huge. To achieve this, we will need to do more than add hypertext connectivity to existing models of the presentation of editorial data. We will need to find new means of visualization and presentation. Take the case of an edition of a work in many versions. Editors have traditionally used four means of visualizing the data: 1. Presenting text with apparatus of variants, with the apparatus usually presented in list form 2. Presenting texts in parallel, with or without some system of marking variant places 3. Presenting views of version relationships in some kind of tabular form: a ›stemma‹ 4. Presenting images of the original witnesses, alongside forms of edited text Even without moving beyond this four-fold frame, we can use the power of the computer just to present each of these four views more vividly, more accessibly, than is possible in print. Through these means, we might not only help scholars use scholarly editions but also make them accessible to a much wider range of readers. In what follows, I give examples from three editions in which I am currently involved, of Geoffrey Chaucer's The Miller's Tale; of the Greek New Testament being pre- 7 See the discussion of these and other initiatives by Susan Schreibman: Next Generation Student Resources: A Speculative Primer. In: Electronic Book Review, posted to <http://www.electronicbookreview.com> 8 November 2003, modified 13 November. Accessed on <http://www.electronicbookreview.com/v3/servlet/ebr?command= view_essay&essay_id=schreibmanaltx> (3.2.2004). Electronic Scholarly Editions 129 pared by the Institute for New Testament Textual Research at Münster; of the Commedia of Dante Alighieri.8 For the first point, presenting text with apparatus of variants: in these three editions we are experimenting with having the variants at each word or phrase in any text ›float‹ above the word or phrase, and with having the variants appear in a separate panel as the mouse moves over the word. Thus, in our edition of the Miller's Tale: at line 73 of Link 1 in the Hengwrt manuscript, passing the mouse over the words ›eek and‹ shows this: In the Münster Greek New Testament, we have the variants appear dynamically in a separate panel as the mouse moves over rather than in this pop-up. Naturally, in the Chaucer instance above one wants to know what the ›14 mss‹, ›28 mss‹ are, and also the different contexts in which this variant occurs. Clicking on the ›eek and‹ in the panel above has this information appear in another panel: 8 Peter Robinson (Ed.): The Miller's Tale on CD-ROM. Leicester: Scholarly Digital Editions forthcoming CD-ROM; the Münster New Testament can be seen at <http://nestlealand.uni-muenster.de> (3.2.2004), Prue Shaw/Peter Robinson (Eds.): The Commedia of Dante Alighieri. Florence/Leicester: Sismel and Scholarly Digital Editions, forthcoming. 130 Peter Robinson The top part of this view shows all the variants in this line stacked one above another: that is, there are no variants on the words ›So‹ and ›the Reve‹. In a variant of this, we have the chosen base appear down a left column, with variants interspersed in a different colour, while lists of versions appear to the right. Here, we see this for the variants on line 10 of »Paradiso 1« in the Commedia: This can be varied yet more by changing the base, or changing the selection of versions shown, and varied once more so as to show the original spelling of each word in each manuscript: For the second visualisation, showing texts in parallel: we have developed means of showing any number of texts in lineated form, with the differences in each text coloured so that one can see exactly how and where they differ. Thus, for line 73 of Link 1 in the Chaucer: As a variant of this, one can choose any two texts to be presented in parallel, once more with all variants marked. This view shows the comparison of lines 73-76 of the Hengwrt and Ellesmere manuscripts in Link 1: Electronic Scholarly Editions 131 The selection of variants is under the editor's control, so that (as here) only those variants judged as significant may be shown. For the third visualisation, presenting views of relationships: we may present relationships more as growths, or networks, and less as rigidly directed trees. For the fourth visualisation, presenting images: it is a commonplace that high-quality digital images may give a far superior quality of reproduction than that normally available in print editions. In print form, one cannot do more than present each of these visualisations separately, at best consecutively or adjacent, and leave it to the reader to trace the connections between the distinct views. There is potential to do much better in the electronic medium: to combine any of these visualisations, to help understand the many texts and their relations. We could link the first and fourth views to present image and text linked dynamically, so that when one moves the mouse over a word in the image, the transcription of that word appears above. Then, we could reverse this: move the mouse over a word in the transcription and the image of that word might appear. As a step beyond this: one could carry out a search on the text and have the ›hits‹ appear either as highlighted in the image, or the hits are extracted from the image (together with arbitrary context) and presented in tabular form, as a series of images. One could extend this by having variant texts at each word in the image appear over the image.9 Similarly, one could present the second and fourth views simultaneously, so that parallel alternative texts could be presented in image form as well as in transcribed form. In the Canterbury Tales Project we have been experimenting too with linking the first and third views also, so that the pattern of variants at any one point is mapped on the table of relationships we have deduced for the witnesses. Consider the readings at line 73 of Link 1 from The Miller's Tale again. It is difficult to make any sense of the bare statistics: 9 This has been implemented in the BAMBI workstation: see Sylvie Calabretto/Andrea Bozzi: The Philological Workstation BAMBI (Better Access to Manuscripts and Browsing of Images). In: Journal of Digital Information Volume 1 Issue 3 Article No. 9, 1998-09-18 on the site <http://jodi.ecs.soton.ac.uk/Articles/v01/i03/Calabretto/> (3.2.2004). 132 Peter Robinson ›and‹ 14 witnesses ›eek and‹ 28 witnesses ›and eek‹ 11 witnesses ›also and‹ 1 witnesses Adding the details of just what are the 14 witnesses (actually ›Ad1 Ad3 El En3 Gg Ha4 Ha5 Ht Ii Nl Ox1 Ps Tc1 To1‹) hardly adds to clarity: it is just too much information. But when we relate the distribution of the variants among the manuscripts to the table of relationships we have deduced we see this: The large capital letters show the manuscript family groupings which we have determined with the help of evolutionary biology software. A glance at this table shows the dominance of the ›blue‹ reading, ›eek and‹: this is spread right across the whole tradition, and further is dominant in every group except the B group, which has ›and eek‹: a simple inversion. By contrast, the ›red‹ reading ›and‹ (the reading of the Ellesmere manuscript) is confined to a few of the O manuscripts (effectively, those nearest the presumed archetype) and a scattering of manuscripts elsewhere. It is notably not present in the three distinct groups A C and E. Traditionally, manuscript stemmata were abstract objects, leaving it to the reader to work out as best he or she might how it both explains and is explained by the patterns of variation at any one reading. Through this means we can make concrete the link between the variants at any one point and the overall pattern of variation in all the versions across the whole text. Electronic Scholarly Editions 133 These examples represent our experiments towards finding new ways to show the network of intricate relations which defines a text in many versions. Through these, we aim to make electronic editions which address the first deficiency I noted: they will represent a new kind of scholarly product, and not just a translation of print editions. Similarly, electronic editions may address the second deficiency I noted: they could utilize computer methods far more as process, both in the making of the edition by the editor and in its everyday use by the reader. So much of scholarly editing is a careful tabulation of the differences between texts (collation, that is); recording the differences, analyzing them both to understand and to explain; finding ways to present all this information. There is a compelling argument, that the great strength of the new medium is that this work can be made much more efficient and much more accurate by the use of computers.10 New systems of data analysis might offer ways into all this material, and so permit us to see patterns and relationships always there, but never before accessible. In turn, we could use the explicatory power of the computer to allow readers to discover these, just as we do for ourselves. Thus, an editor need not just transcribe into electronic form, but can use computer programs to compare the transcriptions and create a full record of the agreements and disagreements among the witnesses. There are obvious analogies between this deduction of relationships from data of agreement and disagreement and the practice of evolutionary biology, where powerful computer programs have been developed over the last decades to hypothesize relationships between objects on the basis of the characteristics they share and do not share. Indeed, this is more than analogy: both textual traditions and living beings propagate by ›descent with modification‹, to use Darwin's concise phrase.11 An editor can use methods to explore the tradition: to see the flow of readings across the many versions; to construct a hy10 11 Various articles by myself and others have pointed to this potential: for example, my article Collation, Textual Criticism, Publication and the Computer. (Text 7, 1995), pp. 77-94. A demonstration of these procedures at work, as applied by the Canterbury Tales project, may be seen at this site: <http://www.cta.dmu.ac.uk/projects/ctp/ desc2.html> (3.2.2004). Exploration of this suggestion has been carried forward by the STEMMA project: a collaboration between members of the Canterbury Tales project team at Leicester headed by the author, Linne Mooney of the University of Maine, and members of the Department of Molecular Biology, Cambridge, headed by Christopher Howe. The fundamental methodology of our work was outlined in A. C. Barbrook/N. F. Blake/C. Howe/P. M. W. Robinson: The Phylogeny of The Canterbury Tales. In: Nature 394 (1998), pp. 839. Recent publications by the group are listed at <http://www.cta.dmu. ac.uk/projects/stemma/res.html> (3.2.2004). 134 Peter Robinson pothesis of the history of the text. Such hypotheses can have great explanatory power. The ›variant map‹ I cite above was made by exactly this procedure, and by this we are able in turn to help the reader ›see‹ just what is happening at any point in the text. A well-made electronic scholarly edition will be built on encoding of great complexity and richness. As well as free text searching, efficient search systems can make use of this encoding to enable sophisticated searches, going considerably beyond the standard word and phrase searches. For example: in the three editions here discussed we know exactly what and how many manuscripts have each variant, and we know too what is present in other manuscripts at that variant. Therefore, we can find answers to questions such as ›show me all the variants present in manuscript X, in at least three of this group of manuscripts, and not in manuscript Y‹. Furthermore, one can provide the same tool to the readers, and link this to commentary on each reading, as we did for the General Prologue on CD-ROM and as we are doing for the Miller's Tale on CD-ROM.12 These are tools which might enhance our understanding of the many texts, and how they relate to one another, and which we might also use to help others understand them for themselves. But the vast quantities of digital information generated by digital photography and related technologies open up possibilities for whole new areas of analysis. We may have – indeed, we already do have – full digital image records of complete texts, even complete traditions, showing in full colour and in remarkable detail everything that can be seen on the page, and even things which can not ordinarily be seen on the page. There are many tools for digital pattern recognition (in every optical character reader package, for instance) and obvious opportunities (once more) for application of these to automated analysis of typeface and manuscript hands, analysis of print and manuscript page layout, analysis of decorative and bibliographic detail such as ornamentation and watermarks. Further, advanced mathematical analysis might find patterns in the data and so illuminate the physical processes attending the creation of print and manuscript book, and reveal the links between print and manuscript workshops, between compositor and compositor and scribe and scribe.13 Here too computer 12 13 Elizabeth Solopova (Ed.): The General Prologue on CD-ROM. Cambridge: Cambridge University Press 2000. [CD-ROM]. The HUMI project at Keio University, Tokyo, is collaborating with computer scientists to search out ways of applying pattern recognition algorithms to aid recognition of distinct sorts in incunable founts. An electronic prototype was presented by Satoko Tokunaga and Tomohiro Kishida at the conference New Technologies, Old Texts Electronic Scholarly Editions 135 visualization tools may make these discoveries accessible in dramatic new ways. For long, we have been used to seeing data in list form: lists of variants, lists of manuscripts: essentially, in a single linear dimension. Occasionally, tables of relationships might offer views in two dimensions, of graphs, networks, and trees. But computer displays can already offer us the illusion of a third dimension: imagine how we might see a single text, with the variants from other texts receding into the distance, or coming forward to the reader, with colours and shadings indicating yet further dimensions. We may now make editions such as these: editions which present materials which can be dynamically reshaped and interrogated, which not only accumulate all the data and all the tools used by the editors but offer these to the readers, so that they might explore and remake, so that product and process intertwine to offer new ways of reading. A start has been made towards such editions (notably, the Canterbury Tales Project editions of the General Prologue and Miller’s Tale), but we have still much to learn about tuning the interfaces for the readers who may use them. The tools to make these editions are proven, and are now available to others. While this may be revolution enough for some, I believe electronic editions in the next decades will undergo a still greater revolution than any I have already outlined, a revolution for which there are as yet no examples, and hardly any tools. So far, every electronic edition I know has had this fundamental similarity with the print editions of the last centuries: electronic editions, like print editions, are static objects. There is an act of closure, a publication. At that point the text, all text, all encoding, is frozen, either in the printed pages or in the computer files which compose the edition. Of course, electronic editions as I have been describing them permit an infinity of differing views and manipulations. But these are views onto and manipulations of unchanging data. Certainly, one can change the edition, by altering the underlying computer files and republish, over and over again. In practice, in many instances this does not happen at all: in paid-for publications in particular, electronic publication (like print publication) is usually a once-only affair, with few publications running to a second edition. Further, the cost of making even the smallest change may be disproportionate. Just to change one word, or even only one letter, might mean you have to remake the entire publication – again, as in print publication. Perhaps even more significantly: almost al(Leicester, July 2003). The same group has also employed digital collation, comparing digital images of separate copies of printed editions, to great effect; a presentation was given of this by Mari Tomioka at the July 2001 Early Book Society Conference, Cork. 136 Peter Robinson ways, the only people who can make any such change are those responsible for the initial publication. Usually, too, the full text and encoding is just not available to anyone but the original makers. It is held in some ›back end‹, while the reader is given access only to an interface abstracted from this, and not to the full text itself. Even if you do have access to the full original text and its encoding: changing it, then republishing it all, are delicate operations, usually requiring considerable resources of knowledge, software and hardware. So pervasive is this model that discussion of the long-term viability of these editions has centred on means of preserving these files. Indeed, in the UK an elaborate data infrastructure has been established, through the Arts and Humanities Data Service, exactly to ensure that the masses of computer files which are generated through scholarly projects have a long-term home.14 Similarly, debate on how such files are to be made – what form they should have, how they should be encoded – has been dominated by questions of ›long-term archivability and interoperability‹.15 An unfortunate result of this preoccupation is that sometimes it appears that projects are made more for archives than for users: that it is more important the data be in the ›right format‹ for the archive (usually, TEI encoded XML or SGML) than that the object be usable now. There is a winning simplicity about this model. These computer files are singular and discrete objects, just as books are. So, all we have to do is archive the files in some form of electronic repository, in the same way as we archive books in libraries, and we are done. If we add to these electronic archives a publishing function – since the data will be in standard form, then it can all be published using standard tools – then we appear to have closed the circle. Thus, both STOA and the AHDS service providers permit varying forms of publication direct from their sites. In the last years, massive effort has gone into the making of electronic texts of all kinds. In the UK, many large scholarly projects have received considerable funding for making electronic scholarly materials, and the chief funder of this, the Arts and Humanities Research Board, has made it a condition of funding that these digital products 14 15 See <http://www.ahds.ac.uk> (3.2.2004). The AHDS consists of an executive and five ›service providers‹, covering the whole range of the humanities. For electronic scholarly editions, the relevant service provider is AHDS Literature, Languages and Linguistics, hosted by the Oxford Text Archive. In the US the STOA consortium has a similar aim see <http://www.stoa.org/> (3.2.2004) and there are analogous efforts in many countries. Thus, this statement from the STOA Consortium: its criterion of technical excellence aims ›to help promote good practices (defined as those which enhance long-term archivability and interoperability)‹. <http://www.stoa.org/review> (3.2.2004). Electronic Scholarly Editions 137 must be deposited with the AHDS. We should expect then a flood of these into the AHDS, with many electronic texts being deposited with AHDS Literature, Languages and Linguistics. But this is not what appears to be happening. Consider the AHDS Literature, Languages and Linguistics provider, hosted by the Oxford Text Archive (OTA). The OTA is the oldest electronic text centre for scholarly materials, founded in 1976 by Lou Burnard. It now has close to 2.500 electronic texts. One would expect that most of these would have been deposited in the last few years, as activity in making electronic texts has increased. Yet the reverse is the case. Texts deposited in the OTA are given a sequential identifier, and their dates of deposit recorded in the TEI header prefixed to each, so that one can calculate rates of deposit.16 Text identifier number 1.758 in the Oxford Text Archive is the Aeneid, deposited in March 1993. That is: in the first seventeen years of the OTA, some 1.750 texts were deposited at a rate of around 100 a year. We are now (19 December 2003) up to identifier 2.469. That is: a further 711 texts have been deposited in ten years, a rate of 70 a year. It appears that the rate of deposit has actually fallen in the last ten years. Even more remarkable: not only has the rate fallen, but in the last years it has slowed almost to nothing. Text 2.453 is Fontes Anglosaxonici, deposited in September 2002: in fifteen months since then, only sixteen texts have been deposited. Why is this? A well-resourced and well-run archive has been established, just to receive electronic scholarly texts; a huge number of such texts are being made; but the scholars who make them are not putting them in the archive. Of course, we can see why: many texts (most of the texts in the OTA, in fact) were deposited before the web arrived. As the web has matured, and as the tools for publishing on the web (and in CDROM) have improved, these texts are appearing on the web. This is indeed perfectly reasonable. If you can publish on the web where anyone can find and use your text, why deposit in an archive? This suggests that there is something deficient in the model, of making single discrete computer files whose content is frozen and then de16 In fact, the correspondence between the sequence of identifier numbers in the OTA and the dates given in the TEI header for the accession is not strict, apparently because while the identifier may reflect absolute sequence of accession, the dates appear to reflect dates of cataloguing, not first accession. However, generally the two appear sufficiently close to use the dates and identifier numbers as I have, to indicate rates of accession. If anything, this analysis understates the number of texts submitted before 1993, as it appears that many texts catalogued after 1993 were actually deposited well before this: thus text 2.405 (Euripides' Andromache), catalogued in October 2000, was originally part of text 242, deposited in 1976. 138 Peter Robinson posited in archives. An alternative model is that of the ›digital library‹: these files are accumulated into large digital collections and published together on the web (perhaps with pay-for access). This solves a key difficulty with the archive model: archives typically provide the data but no tools; digital libraries may offer display and search tools for the data. But, the plethora of digital libraries appearing on the web in many different forms has created a new difficulty: each comes with its own encoding, its own tools, its own conventions. Obviously, we want to draw materials from different digital libraries: to combine this material from that digital library with that from this digital library. Hence, the massive current interest in ›interoperability‹ (a Google search for this word on 19 December 2003 turned up over a million hits; searching for ›interoperability digital libraries‹ gave 75.000 hits). Yet really, all we are doing with digital libraries is replicating, on a yet larger scale and in yet more fixed form, the notion of the scholarly object as a closed entity: we may pile it together with other like and unlike objects, we may display it in various ways, we may retrieve it, (hence, the emphasis in ›interoperability‹ studies on search strategies), but in a digital library the object itself is even further from the individual reader. Why does this matter? Consider what a scholar, or any reader, might want to do with an electronic text: for example, with the electronic edition of the Commedia of Dante Alighieri we are making. We are providing transcripts and collations of seven manuscripts and two modern editions, with many tools for searching and viewing these. But we are not providing any commentary or any translation. A reader might want to attach commentary, annotations, or translations to any point of our edition, or indeed throughout. There are many more manuscripts, many more editions: a reader might wish to import these whole into our edition, with all links functioning so that there is no distinction of interface, and all tools work for the new as for the old. We do not, ourselves, offer our own edited text. But the reader may wish to make his or her own edited text, perhaps by taking over an existing edition and substituting his or her own readings at various points. Further, although we have put massive effort into our transcripts and collations, there will be errors within them. It should be possible for the reader to correct these, or supply new readings, but yet to have all the commentaries and translations attached to these points still function (or, if they are rendered out of date, fail gracefully). The reader may want to do much more than just alter text here and there, too. The Commedia contains hundreds of names, of people and places. An obvious task is to encode all these, to enable all kinds of data analysis and linking (with, for example, external Electronic Scholarly Editions 139 exegetical materials). We have done none of this, but a reader may well want to do it, and then build his own work on top of it. In effect, this model suggests that I, as a reader, want to make ›your‹ edition ›my‹ edition; and that I, as an editor, want you to make ›my‹ edition ›your‹ edition. Further: suppose I put all this effort into making ›my‹ edition from ›your‹ edition: correcting many readings, adding whole new layers of encoding, linking commentaries and translations. Then, I may want to publish this. The next reader might then want the choice to strip out all or some of my augmentations, then may choose to add his or her own materials on top of all or some of mine, and then wish to publish this too. This view of what editions might be some time in the future opens up many possibilities. A school-teacher wants to build a lesson about a scene from Hamlet: in a few minutes, he or she could combine different versions of key lines of the text, linked with images of those lines in the Folio and Quarto prints, commentaries, images of performances. The students could take this, and add more to it for themselves, so that each creates a unique window on this part of Hamlet. A scholar preparing a scholarly article similarly could not only attach links to the edition, but could attach his or her own links from the edition to sections of the finished article, which others could follow as they choose. There appear to me to be huge benefits in this approach. Scholarly editing has for centuries distinguished between editors and readers: we, the editors, are gifted with special access to the materials, and we are licensed by the academy to make editions which you, the readers, accept. This approach attacks this distinction. All readers may become editors too, and all editors are readers before they are editors. This does not propose that all readers should become editors all the time: most of us will be content to accept, most of the time, what Gabler tells us about Ulysses, or Werner tells us about Dickinson. But any good reader must sometimes be an editor. Gaps may also appear in other barriers, long present within the academy: that between ›documentary‹ and ›critical‹ editing, that between textual scholarship and literary scholarship. We are all engaged in the business of understanding: distributed editions fashioned collaboratively may become the ground of our mutual enterprise. Another benefit is that this offers the best solution to the question of the long-term usability of editions. The best guarantee that an electronic edition should remain usable is that it should be used. A computer file deposited in an archive where its survival depends entirely on the internal routines of the archive is vulnerable. One break in those routines and the file could go the way of the thirteenth century in the 1975 film Rol- 140 Peter Robinson lerball (where all history has been put on a computer which one of the characters visits in search of information about the thirteenth century, only to discover that due to a computer fault ›We have just lost the entire thirteenth century‹).17 We could put our work on the Canterbury Tales into the Oxford Text Archive, and it would last as long as the archive, which itself will last slightly longer than its public funding. Or, we could put it on the internet in a manner that allows it to be appropriated by others, augmented, corrected, infinitely reshaped. In the first form, in the archive, it would stay exactly as I left it, but rather few people would use it. In the second, after a few years we might hardly recognize our creation – but many would have used it, and the more people who have used it the more it will have changed. The brief history of computing so far is that if something is worth doing, and it can be done, then it will be done, no matter how difficult the task. The success of optical character reading techniques, or digital imaging manipulation software, testifies to this. What I describe here appears worth doing and there is nothing theoretically impossible in this vision. We are dealing only with the manipulation of known data. But it will be difficult, perhaps horrendously so. One thing alone: presently, almost all the textual data on which one would build such co-operative texts is encoded in XML. XML notoriously supports but one hierarchy per document. This was always a bad idea in the humanities, but we have learnt ways of living with it, in our hermetic world of separate documents, each with its own hierarchy and with its own set of workarounds.18 But for this vision to work, we will have to overlay document on document: to infiltrate new encodings from one document into another so that they cut across the fixed hierarchy fixed within it (for example: encoding a metaphor which runs across line and paragraph divisions). We will have to work out methods of inheritance to cope with situations where editor 17 18 See the review at <http://www.dvdtimes.co.uk/reviews/region1/rollerball.html> (3.2.2004). The keeper of the archive is played by Sir Ralph Richardson, and the full line is: »We've just lost the entire thirteenth century. Still, nothing much there apart from Dante and a few corrupt popes.« A large literature of complaint has grown up around this particular deficiency in XML (and, earlier, SGML) software. Papers at the August 2002 Extreme Markup conference by Jeni Tennison, Wendell Piez and Patrick Durusau addressed this (<http://www.extrememarkup.com/extreme/2002/schedule.asp> (3.2.2004)). There is a full discussion of the issue, with references to many papers discussing it, at <http://xml.coverpages.org/hierarchies.html> (3.2.2004). Of particular note is David G. Durand/Steven J. DeRose/Elli Mylonas: What should markup really be? Applying theories of text to the design of markup systems. at <http://xml.coverpages.org/ Durand-markup-abridged.html> (3.2.2004). Electronic Scholarly Editions 141 A attaches commentary to line x; editor B changes a word in line x, or removes it entirely: what happens to the commentary? We will have to work out procedures for labelling exactly who did what to the text and when, and we will have to fold in capacities for reversion: to return to previous versions, to see the text as made by a particular editor at a particular moment. Above all, we will have to work co-operatively, with all this implies for academic practice, for publication and accreditation strategies, and for copyright and authority controls.19 Who authorizes changes? What parts of the edition are held where; who ›owns‹ what? Existing electronic editions, like print editions, are discrete collections of data, which can be physically located in a single place: on a single disc or server. These fluid and co-operative editions will be distributed: every reader may have a different text, and for any screen the text may come from many different places – a manuscript transcription from one site, a layer of commentary from one scholar, textual notes and emendations form another, all on different servers around the globe. In a sentence: these will be fluid, cooperative and distributed editions, the work of many, the property of all. None of this will be easy, and no scholarly edition like this yet exists. The nearest analogy may be the Romantic Circles website, but this does not permit the kinds of collaborative revision of the contents here envisaged – rather, it is a collection of many parts, each separately owned.20 However, there are already systems in place which do some of what I here describe. Content management systems permit cooperative work, albeit (usually) within closely defined communities. Version control systems exist offering reversion capacities such as those I here outline, though I know of none that permit filtering at the level of the individual markup event. Of course, we do have many search systems, but I know of none that will combine text and markup from separate documents 19 20 Just one instance of what must change: transcriptions of the original source documents are fundamental to many electronic editions. In the case of the Canterbury Tales Project, one of the partner institutions has insisted on ownership of transcriptions originated by staff and students working on the project at that institution. This alone could derail the forms of collaboration I here outline. A solution to this has been suggested by the HyperNietzche project, where Paolo D’Iorio has suggested an ›open transcription policy‹ to meet exactly this case. See Paolo D'Iorio: HyperNietzsche. Modèle d'un hypertexte savant sur Internet pour la recherche en sciences humaines. Paris: PUF 2000. A yet closer instance, though as yet less mature, may be the Tibetan and Himalayan Digital Library project, led by David Germano at the University of Virginia. See <http://iris.lib.virginia.edu/tibet/collections/literature/nyingma.html> (3.2.2004) accessed 9 January 2004. 142 Peter Robinson and search on the combination, with each search refashioning itself as the markup and text changes. There is much to do. As yet, we are not even agreed what path to follow towards this goal: should we try to create a single architecture, which all must use? Or, should we fashion something like a tool set, an infrastructure which may be used to make what editions we please? Or do we need something yet more anarchic: what Michael Sperberg-McQueen describes as a ›coral reef of cooperating programs‹, where scattered individuals and projects working ›in a chaotic environment of experimentation and communication‹ yet manage to produce materials which work seamlessly together. Unlikely as it sounds, and untidy as it may seem to those used to ordered programs of software and data development, with the neat schedules of workpackages so admired by grant agencies, this last may be our best hope. This model has certainly worked in the software world, where open source software developed in the last years under these conditions drives large sections of the community.21 21 Sperberg-McQueen's comments come from his ›Trip report‹ on the Text Analysis Software Planning Meeting‹ held at Princeton, 17-19 May 1996, at <http://tigger. uic.edu/~cmsmcq/trips/ceth9505.html> (3.2.2004). The paragraphs containing the ›coral reef‹ analogy are worth quoting in full: »I realized … that I no longer felt a systematic top-down definition of architecture was realistic, or even necessarily desirable. If it delays experimentation with new modules, it is emphatically undesirable. What is needed is a commitment to cooperative work among developers in a chaotic environment of experimentation and communication. If we were building a closed, monolithic system, planning and prior agreement about everything would be as desirable as they always are in software engineering. But the one point on which everyone seems agreed is that we need an open, extensible system, to work with texts we have not read yet, on machines that have not been built yet, performing analyses we have not invented yet. This is not a system for which we can plan the details in advance; its architecture, if we insist on calling it that, will be an emergent property of its development, not an a priori specification. We are not building a building; blueprints will get us nowhere. We are trying to cultivate a coral reef; all we can do is try to give the polyps something to attach themselves to, and watch over their growth. – In practice, I think this means that what is needed is regular communication among developers writing software for textual analysis who are willing to make a shared commitment to cooperation, reuse and sharing of code, and interoperability among their programs. The goal should be to grow a coral reef of cooperating programs, not to attempt to decide in advance what scholars will need and how software should meet those needs. Improvisation and social pressure to Do the Right Thing are important, as are the programmer's cardinal virtues of laziness, impatience, and hubris (which can, properly channeled and supported by communication, lead to effective reuse and improvement of modules). Not all developers will be willing or able to do this, though I think enough are to make it worth while.« I owe this reference to Peter Shillingsburg (who should also have the last word in this paper). Electronic Scholarly Editions 143 Will this, then, be the end of our quest? Sometimes it seems that we are explorers moving towards an ever-receding horizon. In the mid-80s we thought that what we needed was a scheme for encoding, and systems for digital capture both of text and images. By the mid-90s we had those, and we then began to think that we needed better interfaces and better tools. Now, we have those, and now I think we need to be able to make fluid, co-operative and distributed editions. When we have those, perhaps we will need something more – perhaps there will always be something more. Norbert Fuhr Information Retrieval Methods for Literary Texts Abstract Information retrieval focuses on content-based searching in text documents. For this purpose, first text content must be represented, by using a representation language (like thesauri or classification schemes) or by performing free-text search. The latter approach uses either string-based or computer-linguistic methods (stemming, dictionary lookup, syntax analysis). For retrieval, weighting and ranking methods give better results than Boolean retrieval, and some of them also allow for relevance feedback. Retrieval of XML documents requires new methods for support weighting and ranking, specificity-oriented search, data types with vague predicates and vague structural conditions. 1. Introduction Information Retrieval (IR) deals with vagueness and uncertainty in information systems. The most important application of this concept is content-based retrieval of texts. In this paper, we will give an introduction into the state of the art of text retrieval. Text retrieval consists of two major tasks: 1. Content representation: In order to allow an IR system to perform retrieval, first the content of the text documents must be represented in some form (e.g., as a set of words). 2. Indexing and retrieval: Given the representations of documents, the system retrieves documents by comparing their representations with the query (given e.g., as a Boolean combination of words). The following two sections deal with these two steps. In section 4, we describe the extension of these concepts for the case of XML retrieval. 2. Text Representation In principle, there are two basic approaches for representing the content of texts: Either the system searches directly in the natural language texts 146 Norbert Fuhr (so-called ›free text search‹), or a specific representation language is introduced, onto which documents and queries have to be mapped. Examples of representation language approach are classical schemes like classification and thesauri, as well as new languages developed in the context of the ›Semantic Web‹, like e.g. RDF [Miller 98]. Although representation languages may be able to overcome some of the limitations of the free text approach, there are two major drawbacks: • The mapping problem: Creating the representation of a document still has to be performed manually in most cases (for classifications, there are good automatic methods, but they need at least training samples of reasonable size). • Handling of uncertainty and vagueness: especially for the new representation languages, appropriate methods are not available yet, and so these approaches still struggle with the well-known problems of Boolean retrieval (see also next section). In this paper, we will focus on free text search. Retrieval problems in this area are caused by inflected and derived forms of words, synonyms, homonyms, compound words and noun phrases. Most of today’s systems (e.g. Web search engines) still use a string processing approach: First the text is split into a sequence of words (delimited by blanks or punctuation symbols). Besides searching directly for these words, there are truncation and context operators: The former apply string matching on single words, in order to deal with inflected and derived forms (e.g. ›comput*‹ would search for all words starting with the letters ›comput‹, like computer, computing). Context operators consider the sequence of words and allow for specification of word distance or word order, in order to handle noun phrases (e.g. ›computer adj(2) systems‹ would allow for up to two words occurring between ›computer‹ and ›systems‹). The computer linguistic approach applies linguistic methods at the morphological and syntactical level of texts. Morphology deals with inflected and derived forms of words. Here stemming methods aim at reducing words to their non-inflected form or to their word stem. For many languages, the corresponding algorithms are string-based, like the popular Porter stemmer for English [Porter 80]* or the GERTWOL system for German [Haapalainen & Majorin 94] (e.g. a stemmer for English might contain the rule ›ing‹ → « for reducing verbs to their infinitive). However, for heavily inflected languages like e.g. German or Finnish, dictionary-based methods may be more appropriate; in this case, the dictionary contains e.g. the reduced word form and a reference to the rule Information Retrieval Methods for Literary Texts 147 set for generating the inflected forms (like e.g. the MORPHIX system for German [Finkler & Neumann 86]). Dictionaries are also used for disambiguation of homonyms. For English, the WordNet system1 has been used by several researchers in order to solve this problem. However, none of them has been able to show that this approach improves retrieval quality (partly due to the uncertainty with which this disambiguation can be performed). So word sense disambiguation still is an open issue. At the syntactical level, methods from computer linguistics are used for analyzing noun phrases, i.e. deciding whether a noun phrase from the query occurs in the text (e.g. in the text passage ›...storing images and text retrieval‹, the phrase ›image retrieval‹ would be located by context operators, but not by a syntactic method). So far, work in this area has not produced convincing results, thus the most effective retrieval methods still do not consider phrases at all. So state-of-the-art retrieval systems mainly use stemming methods for transforming a text into a sequence of words in reduced form. This sequence, in turn, is regarded either as a set or a multi-set (with multiple occurrences of elements) of so-called terms, which forms the input to the indexing step. Below, we give an example of this procedure. Assume that we have a document with the following text: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Here we have underlined the so-called stop words. Since they do not carry any meaning, but make up roughly 50 % of the text, they are usually excluded from the further processing: experiments indexing methods analysis indexing algorithms produced consistent retrieval performance best indexing technique retrieving documents known. The derivative endings are underlined here, which are removed by the stemming algorithm, thus yielding: experiment index method analys index algorithm produc consistent retriev perform best index techni retriev document. 1 <http://www.cogsci.princeton.edu/~wn/> (22.1.2004). Norbert Fuhr 148 Transforming this result into a multi-set, we finally get [(algorithm,1), (analys,1), (best,1), (consistent,1), (document,1), (experiment,1), (index,2), (method,1), (perform,1), (produc,1), (retriev,2), (techni,1)] 3. Indexing and Retrieval Given a document representation as described above, indexing deals with the problem of assigning weights to the terms in the representation. These weights, in turn, are used by the retrieval method for computing a retrieval status value (RSV) for a document with respect to a given query. Then documents are ranked according to ascending RSVs. In binary indexing (e.g. used in Boolean retrieval), each term in the representation is assigned a weight of 1, and all other terms get a zero weight. However, this method does not distinguish between ›important‹ words of a document and those that occur just by chance. For many years, heuristic methods for document indexing have been developed. Most of them are based on the following general ideas: 1. The less frequent a term occurs in a document collection, the more significant it is. 2. The more frequent a term occurs in a document, the more important it is for this document. 3. Since longer documents contain more (and more frequent) terms, these terms should be given lower weights than in shorter documents. Based on these concepts, different variants of the so-called weighting formula have been developed. Here we give a typical example. Let denote a term and a document, then we define the following parameters: set of terms occurring in , length of document , average length of a document in the collection, document frequency of (number of documents containing ), within-document frequency of term in document , number of documents in the collection. Information Retrieval Methods for Literary Texts 149 Now the significance of term in a collection can be measured by the inverse document frequency, which is defined as follows The normalized term frequency measures the relative importance of term in the document : Then the document indexing weight of term in document as the product of these two parameters: is defined Once the documents are indexed, retrieval can performed. Classical retrieval systems are using Boolean retrieval for this purpose, but formulation of Boolean queries is very difficult for inexperienced users; moreover, the resulting retrieval quality is rather poor. For this reason, most current retrieval methods use linear query formulations, where a query is just a set of terms. The most popular retrieval model is still the vector space model [Salton 71], based on a geometric interpretation where documents and queries are points in a vector space spanned by the terms of the collection. (see Figure 1). Figure 1: Query and document vectors in the vector space model Norbert Fuhr 150 Let denote the set of terms occurring in the collection, , where is the then a document is represented as a vector indexing weight for the term , as given by the indexing function described above. In a similar way, a query is usually represented as a vector ; here the weights denote the number of occurrences of the term in the query formulation given by the user. Based on these specifications of document and query vectors, the retrieval function computing the RSV for a query-document pair can be defined as a vector similarity measure. Figure 1 shows an example where document is obviously more similar to the query than document (e.g. measured by the angle between query and document vector). In most cases, the scalar product is used as similarity measure: term information retrieval literary text 1 1 1 1 0.3 0 0.3 0.1 0.3 0 0.2 0 0.3 0.5 0.4 0.1 0 0 0.5 0.2 0.3 0.1 0.2 0.8 Table 1: Retrieval example for the scalar product retrieval function Table 1 shows an example with the query ›information retrieval literary text‹ and four documents. Figure 2: Relevance feedback in the vector space model Information Retrieval Methods for Literary Texts 151 In general, this method gives already a very high retrieval quality. Further improvements are possible by applying relevance feedback. This method assumes that the user first submits a query and then judges the relevance of some of the answer documents. Based on these judgments, it modifies the query term weights and performs another retrieval run, which typically leads to a significantly higher retrieval quality. In the vector space model, the system computes the centroid of the relevant documents as ( ) denote the set well as the one of the irrelevant documents. Let of relevant (irrelevant) Documents, then the two centroids can be computed as Theoretically, the optimum query vector now is defined as the connect. Figure 2 shows an examing vector of these centroids, i.e. ple, where relevant documents are marked as ›+‹ and irrelevant ones as › – ‹; all documents on the dashed line (which is perpendicular to the optimum query vector) are given the same RSV (note that the optimum vector in our example does not achieve a perfect separation of relevant and nonrelevant documents). However, the optimum query vector does not yield good results when applied to the remaining documents in the collection (which is the major purpose of relevance feedback). This effect is due to overfitting to the (usually small) training sample of judged documents. In order to avoid this problem, a heuristic combination of this optimum vector and the original query vector is computed, where also relevant and irrelevant documents are given different influence. Let denote the original query vector, then the improved query vector is computed as Here and are heuristic constants, which have to be set according to the type of the collection and the number of documents actually judged (e.g. and ). 4. XML Retrieval Since a few years, documents in XML format are available. This document format allows for logical markup of texts both at the macro level and at the micro level, where the former describes the overall logical Norbert Fuhr 152 structure of the document down to the paragraph level (e.g. chapter, section, paragraph) and the latter is used for marking one or multiple tokens/terms for describing their special semantics (e.g. linguistic categories of words or phrases). Thus, there is the need for retrieval methods that take this structure into account, by allowing for query conditions referring to the content of specific elements or specifying the type of the result elements. For describing the XML retrieval concepts, we use an example XML document along with its visualization as a tree structure shown in Figure 3, where elements are shown as ellipses and the content of leaf nodes (the document text itself) is depicted as rectangular boxes with round corners. <book> <author>John Smith</author> <title>XML Retrieval</title> <chapter> <heading>Introduction</heading> This text explains all about XML and IR. </chapter> <chapter> <heading> XML Query Language XQL </heading> <section> <heading>Examples</heading> </section> <section> <heading>Syntax</heading> Now we describe the XQL syntax. </section> </chapter> </book> book chapter chapter author title John Smith heading XML Retrieval Introduction This. . . heading section section XML Query Language XQL heading heading Examples Syntax We describe syntax of XSL Figure 3: Example XML document tree As a basic query language, the World Wide Web Consortium (W3C) has defined XPath [?], which we explain briefly in the following. XPath retrieves elements (i.e., subtrees) of the XML document fulfilling the speci- Information Retrieval Methods for Literary Texts 153 fied condition. The simplest kind of query specifies elements by giving their names, for instance, the query heading retrieves the four different heading elements from our example document. Context can be considered by means of the child operator ›/‹ between two element names, so section/heading retrieves only headings occurring as children of sections, or by the descendant operator (›//‹), so that book//heading finds headings which are descendants of a book element. Wildcards can be used for element names, as in chapter/*/heading. A ›/‹ at the beginning of a query refers to the root node of documents (e.g. the query /book/title specifies that the book element should be the root element of the document). The filter operator (denoted with square brackets) filters the set of nodes to its left. For example, //chapter[heading] retrieves all chapters which have a heading. (In contrast, //chapter/heading retrieves the heading elements of these chapters.) Explicit reference to the context node is possible by means of the dot (.): //chapter[.//heading] searches for a chapter containing a heading element as descendant. Square brackets are also used for subscripts indicating the position of children within an element, with separate counters for each element type; for example //chapter/section[2] refers to the second section in a chapter (which is the third child of the second chapter in our example document). In order to pose restrictions on the content of elements and the value of attributes, comparisons can be formulated. For example, /book[author = »John Smith«] refers to the value of the element author. For considering the sequence of elements, the operators before and after can be used, as in //chapter[section/heading = »Examples« before section/heading = »Syntax«]. These features of XPath allow for flexible formulation of conditions with respect to the structure and the content of XML documents. The result is always a set of elements from the original document(s). From an information retrieval point of view, however, XPath lacks a number of features in order to support vagueness and uncertainty in this area: • • • • weighting and ranking, specificity-oriented search, data types with vague predicates, structural relativism. 154 Norbert Fuhr We have developed the query language XIRQL and the retrieval engine HyREX2 which extend XPath by these features. Below, we describe each of these issues. Weighting and ranking. As discussed before, document term weighting as well as query term weighting are necessary tools for effective retrieval in textual documents. So query conditions referring to the text of elements should consider index term weights. Furthermore, linear query formulations with query term weighting (as in the vector space model described above) should also be possible, by introducing a weighted sum operator (e.g. 0.6 »XML« + 0.4 »retrieval«). These weights should be used for computing an overall retrieval score for the elements retrieved, thus resulting in a ranked list of elements. The basic idea for assigning indexing weights to document terms is that the weight of a term depends on its context. So we split up a document into disjoint contexts which we call index nodes; based on the DTD, index nodes are specified by giving the names of those elements that form the roots of important and ›semantically coherent‹ subtrees of XML documents. Figure 3 shows an example where index nodes are marked as dashed boxes. For each term in such a context, the indexing weight is computed by using standard weighting functions like e.g. . Specificity-oriented search. The query language should also support traditional IR queries, where only the requested content is specified, but not the type of elements to be retrieved. In this case, the IR system should be able to retrieve the most relevant elements, which are typically the most specific elements that satisfy the query. In the presence of weighted index terms, the tradeoff between these weights and the specifity of an answer has to be considered, e.g. by an appropriate weighting scheme. For this purpose, we introduce the concept of augmentation. The index weights of the most specific index nodes are given directly. For retrieval of the higher-level objects, we have to combine the weights of the different text units contained. When propagating indexing weights to the higher-level objects, they are down-weighted (multiplied by an augmentation weight), such that, in general, more specific results get higher retrieval weights. In addition, since not all elements of a document may be reasonable answers for specificity-oriented queries, we restrict the set of possible answers to the roots of index nodes. For example, consider the specificity-oriented query ›syntax example‹. In the document shown in Fig2 <http://www.is.informatik.uni-duisburg.de/projects/hyrex/index.html> (22.1.2004). Information Retrieval Methods for Literary Texts 155 ure 3, there is no single index node matching this query; however, the rightmost chapter satisfies all conditions, when we propagate the weights of the two query terms up to this level. In contrast, a query for ›XSL‹ would yield the highest weight for the last section, whereas the comprising chapter would be returned with a lower weight. Data types and vague predicates. The standard IR approach for weighting supports vague searches on plain text only. XML allows for a fine grained markup of elements, and thus, there should be the possibility to use special search predicates for different types of elements. For example, for an element containing person names, similarity search for proper names should be offered; in technical documents, elements containing measurement values should be searchable by means of the comparison predicates and operating on floating point numbers. Thus, there should be the possibility of having elements of different data types, where each data type comes with a set of specific search predicates. In order to support the intrinsic vagueness of IR, most of these predicates should be vague (e.g. search for measurements that were taken at about 20 C). We characterize data types by their sets of vague predicates (such as phonetic similarity of names, English versus French stemming). In principle, data types with vague predicates generalize text indexing methods for all kinds of data. Thus, the considerations regarding the probabilistic interpretation of weights apply here as well. Structural relativism. In order to allow for vagueness in connection with structural query conditions, we include methods for supporting structural relativism. For example, a user may wish to search for a value of a specific data type in a document (e.g. a person name), without bothering about the element names; based on our notion of datatypes, we allow for searches covering all elements of a specific data type. As a more general approach, we are considering semantic relationships between element names. Specifically, hierarchies over elements can be modeled. For example, consider a query with a similarity search condition region »India« . Here region is an element name that needs to be matched, with the additional condition that the element content contains the term »India«. The unary similarity operator denotes that the element name does not need to occur literally but should rather be matched ›semantically‹. Assuming that region is a sub-property of the more general element named geographic-area, which in turn has additional sub-properties continent and country, we would expand the origi- 156 Norbert Fuhr nal element name region into the disjunction region nent. country conti- 5. Summary and Conclusion In this paper, we have given a brief survey over current IR methods. By taking into account the intrinsic uncertainty and vagueness of IR, simple representation schemes and statistical indexing and retrieval methods yield a good retrieval quality and outperform more ambitious approaches. For retrieval of XML documents, appropriate methods have been developed recently. Both for retrieval of unstructured text (TREC3) as well as of XML documents (INEX4), there are evaluation initiatives where dozens of research groups apply their retrieval methods on the same test collections, thus yielding valid statements about the quality of the different approaches. For more details about the methods mentioned in this article (and alternative approaches not described here), the reader should consult a standard IR textbook like e.g. [Baeza-Yates & Ribeiro-Neto 99], [Belew 00], and [Ferber 03]. References Baeza-Yates, R./Ribeiro-Neto, B.: Modern Information Retrieval. Addison Wesley 1999. Belew, R.: Finding Out About. A Cognitive Perspective on Search Engine Technology and the WWW. Cambridge, UK: Cambridge University Press 2000. Boag, S./Chamberlin, D./Fernandez, M.-F./Florescu, D./Robie, J./Simeon, J.: XQuery 1.0: An XML Query Language. Technical report, World Wide Web Consortium. <http://www.w3.org/TR/xquery/> 2002. Buxton, S./Rys, M.: XQuery and XPath Full-Text Requirements. Technical report, World Wide Web Consortium. <http://www.w3.org/TR/xmlquery-fulltext-requirements/> 2003. Clark, J./DeRose, S.: XML Path Language (XPath) Version 1.0. Technical report, World Wide Web Consortium. <http://www.w3.org/TR/xpath20/> 1999. 3 4 <http://trec.nist.gov/> (22.1.2004). <http://www.is.informatik.uni-duisburg.de/projects/inex/index.html> (22.1.2004). Information Retrieval Methods for Literary Texts 157 Ferber, R.: Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg 2003. Finkler, W./Neumann, G.: Ein hochportabler Lemmatisierungsmodul für das Deutsche. Saarbrücken: Forschungsbericht 8, Universität des Saarlandes, FB Informatik 1986. Haapalainen, M./Majorin, A.: GERTWOL: Ein System zur automatischen Wortformerkennung Deutscher Wörter. Technical report, Lingsoft Inc. <http://www.ifi.unizh.ch/CL/volk/LexMorphVorl/Lexikon04.Gertwol.html> 1994. Miller, E.: An Introduction to the Resource Description Framework.In: D-Lib Magazine 4/5 1998. Porter, M. F.: An Algorithm for Suffix Stripping.In: Program 14 (1980), pp. 130137. Salton, G.: (Ed.): The SMART Retrieval System – Experiments in Automatic Document Processing. Englewood Cliffs, New Jersey: Prentice Hall 1971. David S. Miall Reading Hypertext. Theoretical Ambitions and Empirical Studies Abstract Recent discussions of hypertext fictions have at times suggested that conventional print literature is now superseded, that a computational approach to understanding is required, or that the principal source of influence on the reader is the material embodiment of the literary text whether its medium is print or digital. Such arguments overlook the sophisticated array of reading processes that help direct a reader's engagement with any fiction text. Empirical and theoretical studies of reading show that these include narrative expectations about character, plot, and setting, and four types of feelings: evaluative feelings, feelings about narrative aspects, aesthetic feelings, and self-modifying feelings. Yet readings of hyperfictions so far have been limited mainly to aspects of plot. In an analysis of one section of Caitlin Fisher's hyperfiction Waves of Girls, the effect of the design of links, graphics, sounds, and other elements on reader's feelings and narrative expectations is examined. This analysis suggests that readers of hyperfictions can be both immersed and interactive, but that a better understanding of the reading processes that facilitate this is required. In the Electronic Book Review two years ago, Marku Eskelinen referred to »the dead ends of hypertext theory and its posthuman derivatives«, echoing a common assumption that earlier debates about the problems of literary hypertext are now irrelevant. The founding arguments of authors such as George Landow, J. David Bolter, and Michael Joyce have been superseded. Eskelinen's own mandate is to demonstrate the combinatorial properties of cybertext. This, he claims, will show »how the textual medium works«. He will achieve »this goal by approaching computers as computers, and not [...] as something completely different, be that theatre, cinema, comics or (poorly read) continental philosophy«.1 1 Marku Eskelinen: Cybertext Theory and Literary Studies. A User's Manual. In: ebr 12 (Fall 2001). <http://www.altx.com/ebr/ebr12/eskel.htm> (23.1.2004). Nick Montfort, in agreement with Eskelinen, will show how an »analogy to the theory of computation demonstrates this«: Cybertext Killed the Hypertext Star. In: ebr 11 (2000/01) 160 David S. Miall While it is true that earlier attempts to situate hypertext in relation to poststructuralist text theorists such as Barthes or Derrida now seem misplaced, even naïve, I will suggest that the questions these accounts raised about the status of hypertext have not been superseded so much as abandoned. Hypertext fiction, or hyperfiction as I will call it, continues to be written, with numerous websites devoted to either fictions or critical discussion; it has even broached the pages of the Norton anthology of postmodern American fiction (with excerpts from Michael Joyce and J. Yellowlees Douglas). Whether this signals its arrival on the stage of mainstream literature remains in doubt. As Stuart Moulthrop has recently complained, »Why does no corporate publisher offer a line of hypertexts? [...] Electronic texts have indeed been marginalized, excluded, and misrepresented by leading institutions of print culture.«2 Yet the active and energetic presence of hyperfiction poses a challenge to our conceptions of what text is and how we might relate to it. In particular, it provides a significant new perspective on narrative techniques that have long been familiar to us from traditional literature: hyperfiction defamiliarizes questions about narrator, focalization, temporal and spatial setting, and other elements. Thus the surprise for me, contemplating the critical literature on hyperfiction, is how few systematic accounts have been provided of the experience of reading it.3 By reading, I don't mean proposals such as those of Jim Rosenberg, who elaborates a valuable 2 3 <http://www.altx.com/ebr/ebr11/11mon/index.html> (23.1.2004). See also N. Katherine Hayles: Writing Machines. Cambridge, MA: MIT Press 2002, pp. 27-28. Stuart Moulthrop: Electronic Books? In: ebr (2003). <http://www.electronicbook review.com/v3/servlet/ebr?command=view_essay&essay_id=moulthroprip> (23.1.2004). Readings of Michael Joyce's Afternoon (Watertown, MA: Eastgate Systems 1987) are provided by J. Yellowlees Douglas: The End of Books – Or Books without End? Ann Arbor: University of Michigan Press 2000; by Silvio Gaggi: From Text to Hypertext. Decentering the Subject in Fiction, Film, the Visual Arts, and Electronic Media. Philadelphia: University of Pennsylvania Press 1997; and by Jill Walker: Piecing Together and Tearing Apart. Finding the Story in Afternoon. In: Hypertext (1999). New York: ACM 1999. <http://cmc.uib.no/jill/txt/afternoon.html> (23.1.2004). Anja Rau in Wreader's Digest: How To Appreciate Hyperfiction. In: Journal of Digital Information 1.7 (2000). <http://jodi.ecs.soton.ac.uk/Articles/v01/i07/Rau/> (23.1.2004) writes about John McDaid's Uncle Buddy and Sarah Smith's King of Space; Marie-Laure Ryan reads Joyce's Twelve Blue in Narrative as Virtual Reality. Immersion and Interactivity in Literature and Electronic Media. Baltimore: Johns Hopkins University Press 2001. Reading Hypertext 161 theoretical description of readerly functions,4 but phenomenological accounts of the flows and disruptions of reading as these unfold in relation to a specific hyperfiction. This seems a central issue if we are to resolve some of the outstanding questions about hyperfiction. But we are unlikely to find any help in Eskelinen's approach, where two typical strategies forestall attention to reading. First, he confines text to a set of formal operations: he urges us »to see a text as a concrete (and not metaphorical) machine consisting of the medium, the operator, and the strings of signs«.5 Katherine Hayles remarks, in a comment on Eskelinen's paper, that in this approach »cybertext theory elides materiality in order to create a template based on function, generally casting a blind eye to how these functions are instantiated in particular media«.6 Second, Eskelinen disparages the texts of traditional or ›linear‹ literature, which he characterizes as »literary objects that are static, intransient, determinate, impersonal, random access, solely interpretative and without links«.7 In these respects, Eskelinen's version of cybertext theory imposes a theoretical, computer-derived grid on its objects of study; moreover, it sacrifices the contribution that study of the actual richness, indeterminacy, and personal variability of literary reading would provide. Like a modern-day Plato shaping his digital Republic in the image of the computer, literary experience as we have previously known it is to be banished. He is not alone: Friedrich Kittler also engages in the argument that literature as we have formerly known it is superseded. Electronic media, he remarks, ensure that »the hallucinatory power of reading and writing has become obsolete«.8 But cutting hyperfiction off from the literary tradition seems shortsighted: as Hayles remarks, »To think of hypertexts [...] as depending primarily on computation for their effects is to render them virtually unintelligible as works capable of making readers care about the stories they tell.« What we require now, Hayles adds, is a 4 5 6 7 8 Jim Rosenberg: The Structure of Hypertext Activity. In: Hypertext (1996). New York: ACM 1996. See also <http://www.cs.unc.edu/~barman/HT96/P17/SHA_out.html> (23.1.2004). Eskelinen: Cybertext Theory. (footnote 1). This approach is seconded by Montford, who chides Landow et al., for their »non-computational perspective«: Eskelinen: Cybertext. (footnote 1). N. Katherine Hayles: What Cybertext Theory Can't Do. In: ebr 12 (Fall 2001). <http://www.altx.com/ebr/riposte/rip12/rip12hay.htm> (23.1.2004). I will suggest below that Hayles' own focus on materiality, in Hayles: Writing Machines. (footnote 1), is also misleading. Eskelinen: Cybertext Theory. (footnote 1). Friedrich A. Kittler: Literature, Media, Information Systems. John Johnston (Ed.): Amsterdam: G + B Arts International 1997. 162 David S. Miall way of understanding »how computational operations work together with linking structures and literary devices to create richly textured works that are something like computer games and something like literature«.9 Hayles's own more sophisticated approach, however, elides the specifically literary components of reading in favour of a theory that foregrounds materiality as the basis of reading. For her, »the physical form of the literary artifact always affects what the words (and other semiotic components) mean«.10 It is clear that the material or technical media of hyperfictions play a significant role since, unlike the incidental process of turning the pages of a linear narrative in a printed book, the reader must interact deliberately with the medium itself in order to continue reading. But hyperfictions, whatever computational or game-like processes they contain, are also narratives. Whatever the medium, readers bring to narrative a range of expectations and capacities drawn from their experience with the various forms of narrative (plot, character, focalization et cetera), as well as experience of their own stories in life.11 They are also likely to bring a rich understanding of poetic language ranging from early childhood verbal play to the work of Dickens. It seems unlikely that this experience is left behind when the reader enters the hyperfictional world. But Hayles's move to privilege the material basis of textuality forecloses the possibility that reading processes may operate independently of »the materiality of inscription« (p. 130), providing a separate source of influence on how readers respond to and construe the texts they read. Thus my topic in this chapter will be how hyperfiction engages the reader's narrative and poetic capacities, how far the hypertext machinery modifies them, and what effects this has on the processes of reading. These issues are best raised not in the abstract, but in relation to a specific hyperfiction, hence the importance of stories of reading.12 9 10 11 12 N. Katherine Hayles. Cyberliterature and Multicourses. Rescuing Electronic Literature from Infanticide. In: ebr 11 (2000/01) <http://www.altx.com/ebr/riposte/rip11/ rip11hay.htm> (23.1.2004). Hayles: Writing Machines, p. 25. (footnote 1). Italics in original. A valuable recent overview of empirical work in this area is provided by Marisa Bortolussi/Peter Dixon: Psychonarratology. Foundations for the Empirical Study of Literary Response. Cambridge: Cambridge University Press 2003. Best of all would be empirical studies with readers of hyperfiction, but so far these are almost non-existent: for two examples see David S. Miall/Teresa Dobson: Reading hypertext and the experience of literature. In: Journal of Digital Information 2.1 (2001). <http://jodi.ecs.soton.ac.uk/Articles/v02/i01/Miall/" \t "_top> (23.1.2004); and Ed Tan/Sarita Dev: Bypassing the Author. Two Examples of Reading Interactive Stories. In: Dick Schram/Gerard Steen (Eds.): The Psychology and Sociology of Literature. In Honor of Elrud Ibsch. Amsterdam/Philadelphia: John Benjamins, 2001 pp. 289-313. Reading Hypertext 163 While many kinds of reading will be required, those currently available focus mainly on story events and the machinery by which they are assembled. For example, in the readings of Joyce's Afternoon, Jill Walker (Piecing) focuses much of her attention on the characters, their relationships, and reconstructions of what may have occurred;13 J. Yellowlees Douglas, in the most extensive account available, focuses principally on how her four readings eventually enabled her to reach closure on the main questions raised by the plot.14 While it may be true, as J. David Bolter puts it, that in hyperfiction the reader's struggle is »to make the story happen and to make sense of what happens« (p. 126),15 the storydriven reading is only one of several possible approaches to narrative. A reader can also read for the pleasure of the language of the text itself, its sensory and imagistic qualities; she can read for the insights the text might offer into her personal situation or the culture she inhabits; or read for signs of intertextuality, the presence of quotations and allusions to other works of literature or media. Whichever perspective is taken there are specific pleasures and frustrations involved in reading narrative, thus one productive way of situating story-driven reading and going beyond it is to consider the affective dimensions of reading. What kinds of affective response are invoked and what are their implications? A preliminary proposal in this respect has recently been made by J. Yellowlees Douglas and Andrew Hargadon in a paper that foregrounds two affective states, immersion and engagement.16 These states are broadly similar to the immersion and interactivity discussed by MarieLaure Ryan.17 Douglas and Hargadon anticipate that hyperfiction, or »interactives«, may eventually enable what Csikszentmihalyi calls »flow«, »a condition where self-consciousness disappears« (p. 163). For Ryan, on the other hand, immersion and interactivity remain irreconcilable. The problem is the hypertext link, she argues, »because every time the reader is asked to make a choice she assumes an external perspective on the worlds of the textual universe« (p. 20). Thus Ryan's discussion of feeling is limited to states of immersion, where she suggests that we experience suspense, defined as »the reader's desire for the knowledge that awaits 13 14 15 16 17 Walker: Piercing. (footnote 3). Douglas: The End of Books. (footnote 3). Jay David Bolter: Writing Space: The Computer, Hypertext, and the History of Writing. Hillsdale, NJ: Erlbaum 1992, p. 126. Yellowlees Douglas/Andrew Hargadon: The Pleasure of Immersion and Engagement Schemas, Scripts, and the Fifth Business. In: Digital Creativity 12/3 (2001), pp. 153166. See <http://www.nwe.ufl.edu/~jdouglas/dc12303-Douglas.pdf> (23.1.2004). Ryan: Narrative as Virtual Reality. (footnote 3). 164 David S. Miall her at the end of narrative time« (p. 140). She notes that it is (paradoxically) possible for us to experience real emotions during our reading about fictional characters and events. In the multiple worlds of hyperfiction, however, the offering of alternative fates to characters militates against the experience of real emotion: »Emotional immersion requires a sense of the inexorable character of fate« (p. 263). Douglas and Hargadon, in contrast, appeal to schema theory to help explain the feelings of the hyperfiction reader. They suggest that »the predictability afforded by genre schemas makes them ideal fodder for the trance-like reading [that] is the hallmark of the immersive reading experience«; in contrast, the disruption of schemas obliges the reader »to assume an extra-textual perspective on the text itself, as well as on the schemas that have shaped it and the scripts operating within it« (p. 156). In other words, reader's feelings are contingent on the instantiation or interruption of schemas during reading. The engaged reader is said to represent a development of earlier modernist practices, for example, the reader who follows up the footnotes to T. S. Eliot's The Wasteland, or turns to a critical explanation of Joyce's Ulysses. »Readers of hypertext fiction«, they suggest, »like Joyce's and Eliot's audiences, are more likely to seek out secondary sources to supplement their array of schemas for understanding the text« (p. 161). To read in this multiple, critically aware way would appear to preclude the single-minded, absorbed state of immersion. The reliance of Douglas and Hargadon on schema theory points to a difficulty in their account. Schema theory has not been successful in explaining feeling during reading. As Rand Spiro argued some time ago, schema theory provides an inadequate basis for understanding experiential (feeling-based) responses to texts.18 First, as Spiro showed in the case of a short story by James Joyce, we can understand a story (experiential understanding) without knowing what it is about (schema-based understanding). Secondly, during reading the informational, situational aspects of a text can become ›overlearned‹ and relegated to the background; what captures attention is our feelings about the text. Spiro's account implies that schemas and feelings are thus separate sources of meaning. He proposes that reading involves two levels: first, the comprehension process of assigning events to types, second, the invocation of personal meaning (p. 82);19 the two levels may often occur concurrently, a suggestion that would allow us to infer that feeling as well as schemas contributes to tex18 19 Rand Spiro: Long-Term Comprehension. Schema-Based Versus Experiential and evaluative understanding. In: Poetics 11 (1982), pp. 77-86. Spiro: Long-Term, p. 82. Reading Hypertext 165 tual coherence. In fact, the relation of feelings and schemas may often be the reverse of that proposed by Douglas and Hargadon. The Russian critic Victor Shklovsky argued with the view of Herbert Spencer, who saw style as organized to make reading efficient – what one might see as the smooth instantiation and unfolding of schemata. On the contrary, said Shklovsky, in literature style is designed to create a special, unusual perception of an object. It works to deautomate perception, that one may recover the sensation of life; it exists to make one feel things, to make the stone stony. The purpose of art is to impart the sensation of things as they are perceived and not as they are known. The technique of art is to make objects ›unfamiliar‹, to make forms difficult, to increase the difficulty and length of perception because the process of perception is an aesthetic end in itself and must be prolonged.20 Shklovsky insisted that literature makes »one feel things«; stylistic devices in literary texts »emphasize the emotional effect of an expression«.21 This has largely been overlooked in discussions of the literary ›devices‹ that he analysed. His account is consistent with an earlier generation of British romantic writers. For example, in praising Wordsworth's poetry Coleridge referred to the poet's ability »to combine the child's sense of wonder and novelty with the appearances, which every day for perhaps forty years had rendered familiar«.22 The textual devices that achieve such effects were described as »foregrounding« by Czech theorist Mukarovský:23 they include such features as metre, assonance, ellipsis, metaphor, and irony. In this perspective, foregrounding arouses feeling in the reader, and has the power to subvert schemas. This suggests, indeed, that one of the aims of literature is to challenge our familiar schemas.24 As our research 20 21 22 23 24 Victor Shklovsky: Art as Technique. In: Lee T. Lemon/Marion J. Reis (Eds. and Trans.): Russian Formalist Criticism. Four Essays. Lincoln, NE: University of Nebraska Press 1965, pp. 3-24. (Original work published 1917.) p. 12. Shklovsky: Art as Technique, p. 9. Samuel Taylor Coleridge: Biographia Literaria, 2 vols. James Engell/Walter J. Bate (Eds.). London: Routledge & Kegan Paul 1983. (Original work published 1817.) vol. 1, p. 81. Jan Mukarovský: Standard Language and Poetic Language. In Paul L. Garvin (Ed.): A Prague School Reader on Esthetics, Literary Structure, and Style. Washington, DC: Georgetown University Press 1964, pp. 17-30. (Original work published 1932.) This is worked out in greater detail in David S. Miall: Beyond the Schema Given. Affective Comprehension of Literary Narratives. In: Cognition and Emotion 3 (1989), pp. 55-78; and David S. Miall/Don Kuiken: Foregrounding, Defamiliarization, and Affect. Response to Literary Stories. In: Poetics 22 (1994), pp. 389-407. 166 David S. Miall with readers has shown, response to foregrounding calls into question the positing of a divide between immersion and interactivity and the ways this has preoccupied hyperfiction critics. Readers of literary texts are capable of both immersion and self-awareness as readers: they both respond with feeling to a significant detail of a text, yet at the same time they can savour the power of the language or consider its implications for themselves.25 We have found this, for example, in some of the responses we collected to Coleridge's narrative poem The Rime of the Ancient Mariner, when readers were asked to think aloud about passages they had found particularly striking (Kuiken, Miall, and Sikora, in press).26 If interactive reading means adopting, in the words of Douglas and Hargadon, »an extra-textual perspective on the text«, then our readers were, at such moments, considering multiple perspectives on the same text – although not through the agency of alternatives provided through links to other lexias; and when foregrounding challenges or disables existing schemas, it is the emergence of alternative perspectives that, in particular characterizes literary reading. We can understand such reading as interactive, although the reader is thoroughly absorbed by the multiple perspectives in question. Considering the role of feeling in reading traditional literary narratives can give us a better purchase on what may be distinctive in reading hyperfiction. Feeling is at issue in more than one way, however, not only in response to foregrounding. Following earlier work by Kneepens and Zwaan (1994),27 we have recently proposed a four level typology of feelings in literary response.28 First, evaluative feelings towards the text: the pleasure or frustration experienced during reading, or felt in retrospect towards the text as a whole. Readers often turn to the same genre time after time (e.g. romance fictions) because they anticipate the kind of feeling that reading another text will induce. It seems 25 26 27 28 Ryan, in accord with this finding, suggests that vividness (immersivity) and stylistic felicity are compatible; we can experience both a sense of presence and a wonder at the artistry with which it is achieved; we can simultaneously »enjoy the imaginative presence of a fictional world and admire the virtuosity of the stylistic performance that produces the sense of presence«. Language »may be spectrally present« to the reader. Ryan: Narrative as Virtual Reality, p. 351. (footnote 3). Don Kuiken/David S. Miall/Shelley Sikora: Forms of self-implication in literary reading. In: Poetics Today, in press. E. W. E. M. Kneepkens/Rolf A. Zwaan: Emotions and Literary Text Comprehension. In: Poetics 23 (1994), pp. 125-38. David S. Miall/Don Kuiken: A Feeling for Fiction: Becoming What We Behold. In: Poetics 30 (2002), pp. 221-241. Reading Hypertext 167 likely that readers of literary narratives or hyperfictions, which vary so much one from another, are less likely to be in search of a standard feeling or set of feelings, but readers undoubtedly evaluate hyperfictions in the light of their expectations and whatever satisfactions they experience. Second, narrative feelings in response to specific aspects of the fictional events, such as empathy with a character, intrigue over a turn in the plot, or resonance with the mood of a setting. The basis of such feeling lies in our social skills, our everyday experience in understanding and situating the lives of others. In reading fiction we play out a simulation, as Keith Oatley has put it,29 running the action plans of the characters on our own planning mechanism, and experiencing the feelings consequent on their actions. We may need to distinguish feelings that occur in response to a character (e.g., pity) from feelings that the reader shares with a character (e.g., disliking another character). Since hyperfictions are narratives, a dependency on narrative feelings is inevitable, although a hyperfiction may be designed to subvert or undercut them. Third, aesthetic feelings of the kind outlined above in the response to foregrounding, that is, feelings evoked by stylistic moments that are unusual or striking. These are moments that may challenge reader's assumptions (or schemas), leading them to revise their framework for interpretation, sometimes with consequent implications for their understanding beyond the text – which touches on the fourth level. Fourth, what we have termed self-modifying feelings that restructure the reader's interpretation, prompting the reader to new insights into herself or her world. Some transformation in understanding is brought about, through feeling, in the self of the reader. Here is where readers may become simultaneously immersed and interactive. Whether this is likely to occur in the context of reading a hyperfiction is a matter for empirical study. If Hayles's proposal30 that hyperfictions are part literature part 29 30 Keith Oatley: Emotions and the Story Worlds of Fiction. In: Melanie C. Green/Jefferey J. Strange/Timothy C. Brock (Eds.): Narrative Impact. Social and Cognitive Foundations. Mahwah, NJ: Lawrence Erlbaum 2002, pp. 39-69. Hayles: Cyberliterature. (footnote 9). Hyperfictions, in her words, are »richly textured works that are something like computer games and something like literature«. 168 David S. Miall gaming is correct, the satisfactions of solving a game may be incompatible with self-modifying feelings. Empirical study of readers underlines the inadequacy of Eskelinen's characterization of literary texts as »static, intransient, determinate«31: readers show not only considerable variation between their readings (pointing to the indeterminacy of the literary text), but also much flexibility within readings in the perspectives taken from one episode to the next. The multivariate nature of literary reading can, of course, be captured only very partially by such a typology of feelings. But, as noted earlier, we need not suppose that the processes of reading change fundamentally when directed towards hyperfiction. Thus we can propose that these four sources of feeling will be present during hyperfiction reading. If there is a significant departure from this range of occasions for feeling, that in itself may provide us with an indication of what distinguishes hyperfiction from traditional reading. »If there is a defining flaw of the cybertext debate,« Scott Rettberg has noted, »it is a failure to take into account the ›non-trivial effort‹ of ›mere‹ interpretation that even lowly works of linear literature require.«32 The difficulty in understanding hyperfiction lies in the additional complications that the digital medium places on the work of interpretation. While these may not constitute »constraints«, as Rettberg puts it, they represent additional sources for feeling beyond the textual ones outlined above. They may include not only the much-discussed link as well as other navigational features, but also the inability of the reader to judge the size of the textual collection she is reading and her place within it, the often idiosyncratic role of images and such graphic elements as changes in type font and size, machine-driven changes or choices, the role of sound, and the use of multiple windows. To give the discussion a concrete form, I turn now to an analysis of one specific hyperfiction. I will consider both the narrative features it presents and the complications of the hypertext medium in relation to the typology of feelings outlined above. I focus on These Waves of Girls by Caitlin Fisher, a web-based hyperfiction33 which received the fiction prize in the Electronic Literature Organization's 2001 awards. In comparison with some other entries on the shortlist, Waves is not technically 31 32 33 Eskelinen: Cybertext Theory. (footnote 1). Scott Rettberg: The Pleasure (and Pain) of Link Poetics. In: ebr 12 (Fall 2001). See also <http://www.altx.com/ebr/riposte/rip12/rip12ret.htm> (23.1.2004). Caitlin Fisher: These Waves of Girls 2001. <http://www.yorku.ca/caitlin/waves/> (23.1.2004) [online hyperfiction]. Reading Hypertext 169 sophisticated; it employs the hypertext structure of lexia and links familiar from the earliest hyperfictions, such as Michael Joyce's Afternoon (1987).34 Included within it, however, on almost every screen, are a range of graphics that surround the text or provide a background for it, intimating by their proximity a certain timbre to the text, or a comment on it that may support or cut across its apparent meaning. Fisher also provides a number of sound files: beginning with the sound of girls' laughter that accompanies the opening screen, other files provide occasional sound effects, or offer an oral reading of the text currently on screen in (I assume) Fisher's own voice. The author herself describes her work as a hypermedia novella exploring memory, girlhoods, cruelty, childhood play and sexuality. The piece is composed as a series of small stories, artifacts, interconnections and meditations from the point of view of a four year old, a ten-year old, a twenty year old.35 Larry McCaffery, the fiction judge, whose comments are provided on the ELO website, refers explicitly to the feelings that Waves arouses. Its elements, he says, are »[l]inked in often surprising ways that establish hidden connections that often seem to be operating on the basis of emotional, associational logic«; it »is by turns, tender, terrifying, erotic, lyrical, witty, surprising«.36 No single narrative lies behind the numerous lexias, although thematically many of the lexias are related by explorations of the lesbian feelings of the characters. It offers a highly varied set of narrative fragments illustrating the lives of girls, involving a wide cast of characters and a range of different settings and incidents. The narrative voice may be that of a single character, whose identity from childhood to adulthood is revealed in a series of snapshots; we hear a participant narrator in every lexia. The work is organized into eight sections; each section provides its own menu of links in a column on the left. Within lexias links vary in direction: some continue a narrative thread across several lexias; others jump the reader to a quite different scene, both temporally and spatially. Most lexias provide several text-based links (usually signalled by the familiar underlined blue font of the standard web browser); links from graphics also occur, although these are unpredictable, since on a given screen 34 35 36 Joyce, Afternoon (footnote 3). Fisher: Website <http://www.eliterature.org/Awards2001/fiction-FisherCaitlin.php> (23.1.2004). Larry McCaffery: Comments on Fiction Award. The 2001 Electronic Literature Awards. See also <http://www.eliterature.org/Awards2001/comments-fiction.php> (23.1.2004). 170 David S. Miall some graphics will provide links while some will not. A few lexias consist only of a graphic with one forward link. Overall, the design avoids the reader traps set by Joyce's use of Storyspace in Afternoon, in which the reader periodically becomes stuck in a loop. After reading for a while, however, links return to lexias seen before, and as this occurs with increasing frequency there is a sense of eddying around the same set of preoccupations. The texts of the lexias vary considerably in length. The shorter lexias consist of just a few words. The longest appears to be waves/mr_ anderson.htm,37 which consists of nearly 1700 words – as long as some complete short stories – which requires repeated scrolling down the screen. It describes three years of high school, the narrator's interest in the science teacher Mr. Anderson, and a sexual fantasy she has about him some years later after she learns that he is dead – her fantasy is poetically mirrored by the spacing of the text on screen and the graphics. To consider the feelings invoked by Fisher's work, I will focus on just a few lexias and their settings within the network of lexias that surround them. I will, of course, be unable to do justice to the graphics that the work contains. Here is one short lexia, showing the links as underlined text (waves/farmsky.htm): In a two-pice bathing suit tickled by heat I look at my sky from the field, clouds turning to fierce animals in the distance. The text is embedded between two graphics: below is an indistinct black and white image including a square shape that appears to be a box; above is the Flash-based image of a blue and grey moving sky repeated (in smaller form) from the opening screen; the sound of girls' laughter which accompanied the opening screen also plays, which may indicate that this lexia is intended to be central in some way. I have approached this lexia along a pathway of three related lexias describing memories of a five-year old girl on a farm (falling out of an apple tree »one hot July day«; the cows; eating asparagus;38 note that it is possible to arrive at this lexia via other pathways; I will not consider the effects these create in the present discussion). Each prior lexia instantiates the schema of a small girl playing on a farm, her attention being caught first by one thing then another; no narrative line is developed, as 37 38 Specific lexia will be referenced in the text in this way, by the last part of their URL. Readers wishing to follow this sequence should start at <farm_scar.htm>, and follow the arrow links at the foot of each lexia. Reading Hypertext 171 no causal relations are developed between the successive lexia. But the farm setting for the current lexia has been established: no shift in schema or conflict of schemata is at issue when we read it. The reader's attention is thus likely to fall on the sensory qualities of the lexia, which is a frequent feature of Fisher's writing – that lyrical quality mentioned by McCaffery. I will single out three foregrounded features: (a) the physical pricking of the heat is emphasised by the /t/ alliteration in the first few words; (b) the unexpected deictic implications of »my sky« and »the field«, since no previous referents have prepared for the assumptions made here; and (c) the enactive metaphor of »clouds turning to fierce animals«. Each has a specific affective charge, enlivening our sense of this five-year old girl's situation: her bodily awareness, her appropriation of the environment above and around her, and her propensity for fantasy. As our previous research with readers has shown,39 and in support of Shklovsky's argument, foregrounded passages are defamiliarizing, calling into question the adequacy of the reader's current schemata while, at the moment of reading, not offering an alternative (this may emerge later40); thus feeling forms a significant component of the reader's response at such moments. The issue here, then, is to understand what role feelings in response to foregrounding are likely to play: what influence will they have on the reader's perspective and understanding, and, more specifically, in what ways does the hypertext medium interact with such feelings? First, if we consider the lexia itself, the role of the graphics is unclear: the moving sky above the text contains clouds (layers of stratus forms), but these are not amenable to being seen as »fierce animals«, so this cannot illustrate the sky seen by the girl in the text. The lower graphic seems unrelated to the scene. The sounds of laughter also seem unrelated to the girl's situation, at least at a first reading: she is alone in the field, yet there is a chorus of girls laughing. Possibly the multiple or fractured selves of the girl are represented in this way, the self throughout this hyperfiction, especially in lexia depicting young girls, often being a conflux of mismatched desires and fantasies. Here I can reason with myself that, by wearing a two-piece bathing suit the girl is mimicking the appearance of older girls, yet her behaviour in fantasizing about the clouds is that of a young girl. This, however, is a reading that I make on intellectual rather 39 40 Miall/Kuiken: Foregrounding. (footnote 23). David S. Miall/Don Kuiken: Shifting Perspectives. Readers' Feelings and Literary Response. In: Willie van Peer/Seymour Chatman (Eds.): New Perspectives on Narrative Perspective. Albany, NY: State University of New York Press 2001, pp. 289-301. 172 David S. Miall than sensory grounds: on the face of it, the sounds of laughter are unconnected with the sensory resonance of the text before me; it has no direct connection with the three foregrounded features I have identified. Second, since several links are provided, we must ask whether the affective charge of the foregrounded passages is developed in subsequent lexia. We might infer, since the links are visible in the text, that Fisher has in mind a reader pressing (as it were) on words that »yield«, following the approach of Michael Joyce in Afternoon (to quote the information leaflet accompanying his software): two of the three foregrounded passages provide links. If immersion is to become a possibility for the reader, it is here that we should expect it, with a subsequent lexia that takes up the affective implications of the word or words in the first lexia that provides the link. Considered in this light, however, the effects are inconsistent. There are five links. Tabulated in order, the opening texts of the subsequent lexia are: 1. a two-piece bathing suit links to: »Summer of '76 covered in baby oil, a bit of bikini, wet cotton swabs over my closed eyelids.« 2. my sky links to: »I am growing up but not out of my grandmother's bed. As a small child, I breathe with difficulty and in the middle of the night the utter silence in the room wakens my grandmother.« 3. the field links to: graphic of woodland, text at foot: »At night the fireflies come out.« 4. lower graphic, links to the same lexia as #1: »Summer of '76 covered in baby oil, a bit of bikini.« 5. the arrow links to: »Hot hand on my stomach, it's easy to bridge this distance. Days like this I still smell apple trees.« In the first, the effects of the tickling heat are dissipated by the smooth baby oil, and the image which then supersedes it of the cotton swabs over the eyes soaked by blood instead of oil. The narrator in this lexia also seems more knowing, suggesting that she may be several years older than the five-year old of the previous lexia. The second link from »my sky« seems unrelated, other than focusing (as usual) on the memory of a young girl. Similarly, the third link jumps us from the field to an unrelated memory of woodland and fireflies. The fourth link, from the lower graphic, calls up the same lexia as #1; no logical or poetic rationale seems evident to justify this. The only link that clearly demonstrates continuity is, oddly, the last, which is offered by the arrow at the foot of the screen: this, »Hot hand on my stomach,« seems to be a memory in the present, evoked by bodily experience similar to the one we saw in the Reading Hypertext 173 first foregrounded passage, and it reminds us of the first lexia in the chain in which the narrator fell out of an apple tree. This lexia, on the face of it, would have been more effective if linked to the opening phrase <http://www.yorku.ca/caitlin/waves/summer_of_76.htm>; in its first few words it even echoes the /t/ alliteration. It should also be noticed that the implications of the third foregrounded passage, »clouds turning to fierce animals in the distance«, are not taken up in any of the four lexias (unless the false echo of »it's easy to bridge this distance« is to count). Thus the links from this lexia, except in one case, cut across the affective responses of the reader elicited by its foregrounding. How, then, are these links to be justified? It is evident that a reader must set aside the affective implications that have been evoked in order to respond fully to the next lexia. We can then retrospectively attempt to construct a relationship between the present and the previous lexia. In the case of my sky, for example, the young child's appropriation of the sky seems an instance of omnipotence of thought,41 and is reflected in the games and stories of the grandmother and the child described in the remainder of this lexia. I can similarly construct relationships between the other lexias and the phrases that link to them, but this is a rational not an affective exercise. The power of the foregrounded passages is that their affective resonance is anticipatory, preparing us to experience relationships that we have not seen before. This is the immersive experience, quite different from the interactive role that we play (or that is forced upon us) when we reason out such relationships retrospectively. In the light of this analysis of the links provided in one lexia, we are now in a position to evaluate the effectiveness of this portion of the hyperfiction in relation to the different types of feeling experienced in narrative. The four types, it will be recalled, are evaluative, narrative, aesthetic, and self-modifying. First, the evaluative feelings of satisfaction, pleasure, or frustration, will depend in part on readers' specific expectations as they embark on a given text, thus experienced readers of hyperfiction will be prepared for the formal leaps and disjunctions that the linking structure provides. The satisfactions this affords, however, are likely to be interactive rather than immersive; readers will take pleasure in puzzling out a relationship between successive lexias, and inferring retrospectively what themes (such as childhood omnipotence of thought) are addressed. 41 Freud's term. See Sigmund Freud: The Uncanny. In: James Strachey (Trans.): Standard Edition. 22 vols. London: Hogarth Press 1953-1974, vol. 17, pp. 217-256. (p. 240). 174 David S. Miall Second, narrative feelings are likely to be short-lived. Linked sequences of lexias provide only a brief focus on a given character or setting. This affords little time for the reader's feelings to become committed to any particular stance towards the narrative – such as the point of view of the five-year old girl or a resonance with the apples trees, fields, and cows of her farm. Fisher partly overcomes this limitation by offering several longer lexia: the narrative of Mr. Anderson, for example, provides a rich and coherent narrative extending over a number of years, and this has the benefit of providing a context for otherwise less explicable short narrative passages in other lexia. But in general narrative feelings are frustrated by the disconnection that often obtains between one lexia and the next in terms of characters, settings, and other narrative constituents. Third, aesthetic feelings are undoubtedly aroused by Fisher's lyrical writing, as we have suggested in the case of the short lexia with three foregrounded features. But the feelings are in most cases balked by the jump to a subsequent lexia that fails to develop their implications. The risk here, then, is that readers will cease to invest their feelings in the text being read, since the result of reading one lexia after another is a kaleidoscope of aesthetic feelings rather than an emerging and meaningful pattern. As Ryan suggests, commenting on her reading of Joyce's Twelve Blue,42 »The effect is that of an amnesic mind that desperately tries to grasp some chains of association but cannot hold on to them long enough to recapture a coherent picture of the past.«43 Fourth, self-modifying feelings in the hyperfiction context are thus, necessarily, unlikely. The inability of the reader to sustain a particular focus, to experience a modification of feelings over a series of lexia, suggests that any transformation in understanding beyond the superficial is unlikely to occur. Fisher herself has told us that »writing for a cyber universe has a whole new kind of grammar«.44 But, as I have tried to show, the expectations we have of narrative and the implications of the different types of feelings called up in us during reading, suggest that a new grammar confronts an array of inherent and deeply influential psychological processes. Hyperfiction is misconceived to the extent that it ignores or confounds these processes. Avant garde pronouncements of the kind I cited from Eskelinen omit considering in what ways the proc- 42 43 44 Michael Joyce: Twelve Blue [digital fiction]. Eastgate. <http://www.eastgate.com/ TwelveBlue/Twelve_Blue.html> (23.1.2004). Ryan: Narrative as Virtual Reality, p. 229. (footnote 3). Caitlin Fisher: Cited in »E-novella Charts New Territory in Storytelling«. Edmonton Journal January 10 2002, p. C4. Reading Hypertext 175 esses of reading are not computational, and that reading is not a function like operating a machine. Whether hyperfiction has a future outside the small domain of enthusiasts and academic followers seems quite uncertain. Fisher's work contains much writing that is suggestive, lyrical, and evocative; yet it is, I would suggest, only partly successful, because the structure in which it is embedded often dissipates its power to affect us and impose its own perspectives on us. As a reader I remain outside its small narrative circles, witnesses to fragments of experience and apparently random shifts in focus. Yet Fisher's work can also show the way, I believe, to a more effective use of the medium. In the short lexia I examined, where the arrow link provided access to an aesthetically related lexia, we jump a gap not only in the hypertext machinery but also in narrative time, yet in a way that satisfies the feelings that have been evoked. This is by no means the only example available in Fisher's hyperfiction where a linked lexia is both unexpected in some respect, yet aesthetically satisfying. My argument in this paper, then, resolves onto this final point: in order to understand hyperfiction and what it may promise, writers and critics should be attentive to the empirical literature on reading. The processes of reading have a structure and a resilience that hyperfiction does not put into abeyance, and that will confound the effectiveness of hyperfiction as readily as they will support it. Hyperfiction can very likely be both immersive and interactive, as Douglas and Harnadon have imagined, but this depends on hyperfiction writers knowing better what reading processes underlie the experience of being immersed and interactive. Paolo D'Iorio Cognitive Models of HyperNietzsche. Dynamic Ontology and Hyper-Learning Abstract HyperNietzsche is a research infrastructure that enables a delocalized community of specialists to work in a cooperative and cumulative manner and to publish the results of their work on the Internet. HyperNietzsche is not merely a library of well-indexed and searchable electronic texts and studies made available on line, nor an electronic edition made available to the public as a finished product. Rather, it is a kind of electronic research matrix that creates a virtual workspace with public access to original sources for Nietzsche research, including works, manuscripts, letters and biographical documents. Beyond these original sources, HyperNietzsche contains an ever-increasing collection of scholarly essays that have been vetted for publication by an editorial board of leading Nietzsche specialists.1 From a methodological point of view, this enterprise transposes the concepts of Open Source from computer science to the Humanities. But science is by definition an open source enterprise to the extent that it is an open, public discussion on accessible objects, carried out according to verifiable procedures. In the Humanities, working in Open Source means on the one hand being able to access the digital version of objects of study: books, manuscripts, archaeological objects, images, sounds, film sequences et cetera, (what that we call Public Archives) and on the other hand providing free access to the results of research work (Open Publishing). And the Internet is the medium best able to guarantee public access to cultural heritage and research work.2 HyperNietzsche consists of three logically distinguished Teams. Realising the IT infrastructure is the task of the Hyper-Teams (see the article of Michele Barbera and Riccardo Giomi about Pearl-Diver Model in this volume). Filling this platform with contents is the job of the Nietzsche1 2 <http://www.hypernietzsche.org> (21.2.2004). We have developed this thematic during a conference organised in 2002 at the École Normale Supérieure in Paris: L’Open Source dans les Sciences Humaines Modèles ouverts de recherche et de publication sur Internet. See the programme at the addressee <http://www.hypernietzsche.org/events/os/> (21.2.2004). Paolo D'Iorio 178 Teams and of the Nietzsche scholars of the whole world (the article of Harald Salles will present what the Munich Nietzsche Team is currently doing). Establishing the ontology, the legal and academic framework is the work of the HyperNietzsche-Team. I will write a few words about ontology and e-learning issues in the name of the Hyper-NietzscheTeam. Dynamic Ontology From a cognitive point of view, HyperNietzsche can be understood as an example of an ›Dynamic Ontology‹. Everybody knows what a descriptive or static ontology is. It is something such as a photograph, which represents the objects of a field of study and their relations at a given moment. A good example of this is the Institute of Formal Ontology and Medical Information Science at Leipzig University (and at the Department of Philosophy at the State University of New York). According to its director, Barry Schmit: One major problem of information science today is the large number of different information sources and the equally large number of different classification systems in terms of which such information is expressed and manipulated. Ontology seeks solutions to this problem in the form of standardized terminology and classification systems, which will enable information from different sources to be manipulated within a common framework.3 The problem is that science has this strange characteristic, that it growths. Now, what I call dynamic ontology is able to create a ›standardized terminology and classification system‹, but it is also capable of expressing the changes which the objects of study and their relations undergo due to the growth of knowledge. That which is for a formal ontology a final achievement, is merely the point of departure for a dynamic ontology. In HyperNietzsche, we begin with a ›digitale Erschließung‹ (›digital classification‹) that creates a map of our field of study by giving each object a name (siglum) and a short definition, and by drawing a collection of standard relations of inclusion and succession between the objects. A siglum can represent for example one of Nietzsche's aphorisms or a page from one of his notebooks (in other disciplines a siglum can be the name of a gene or a protein). The hierarchical level to which the siglum be3 <http://ifomis.de/>, <http://ontology.buffalo.edu/> (both 21.2.2004). Cognitive Models of HyperNietzsche 179 longs and its place inside a sequence is expressed by the granularity: for example, a notebook comprises several pages, a page several notes, each page of a notebook refers back to the previous and forward to the following page, and so on. Beginning with this base structure, scholarly contributions can transform the properties of the objects and their reciprocal relations by using two functions of the system: paths and dynamic contextualisation. Paths enable the user to order the objects in sequences according to genetic, chronological or thematic criteria. They allow, for example, the tracing of a genetic sequence which follows the stages of the writing process for a particular aphorism, from the first outline in a notebook, through its copy in a book, corrections in proof copy and finally to the printed version; or the establishment of a thematic route consisting of several aphorisms on the free spirit in Nietzsche's works. Dynamic contextualisation is one key innovation developed by HyperNietzsche. While the user navigates the site, moving from one page to another, this feature makes available precisely those scientific contributions that are relevant to the siglum presently being viewed. For example, if the user selects the siglum of a manuscript page, the system immediately makes accessible, without the need for additional complicated searches, all the facsimiles, transcriptions and translations available for the page, as well as all the relevant text-genetic paths and critical essays that refer to the page. This material is presented in the form of an easily navigable list of hyperlinks. Likewise, if the user selects a critical essay, the contextualisation mask will present a list of hyperlinks to all the Nietzsche texts and manuscripts cited by the author of the essay and all the contributions that are cited in, or that cite the essay being viewed. However, the growth of the contributions concerning a certain object actually represents a progressive transformation of this object, insofar as each essay discovers hitherto unknown properties. To know that an aphorism is thematically and genetically related to other texts and manuscripts of Nietzsche can radically change our comprehension of this object of study: It is as if one has identified a gene on the basis of a certain number of characteristics and then 10 scientific articles discover unknown properties and unsuspected relations with other genes, thus appreciably transforming the ontology of the field of study. Scientific objects always result from a process of construction of meaning within a research community. Elements are recognized as being worthy of interest within an influential paradigm and function as a point of convergence of all successive research, including that research which will transform their definition. For this reason, an IT infrastructure ca- 180 Paolo D'Iorio pable of coming to terms with scientific development must be thought of as a dynamic ontology. Hyper-Learning versus LEGO-Learning This cognitive model seems to us to be particularly effective for the requirements of scientific research. It takes on a revolutionary aspect when applied to e-learning. In effect, the dominant e-learning model, as expressed in the standard technologies such as SCORM, IMS, IEEE LOM4 is quite poor in cognitive and pedagogical terms and in any case largely insufficient for the necessities of tertiary education. It is based on the existence of content producers on the one hand, normally companies selling prefabricated information packages (the assets, which are like little LEGO bricks) and on the other hand teachers who build courses according to the instructions incorporated into the assets. The students, for their part, have the task of being force-fed as much contents as possible. This procedure works well enough if it is a case of training employees in the use of certain conceptual instruments or techniques, or knowledge transmission on a medium or low level, but it has not been successful at the university level. Incidentally, the adoption of this model in a university context would have the effect of blocking the development of knowledge in precisely the place devoted to its evolution and transformation. In an era in which conceptual buildings change rapidly, it is not important to memorize the conceptual bricks of which they are constructed, but rather to master the methods which allow orientation within knowledge, the organisation of knowledge and the creation of new knowledge. The single brick represents an isolated notion, or, in the best case, a static ontology. Let us suppose a student learns the definition of properties of a gene by using an e-learning system. He or she can use this concept only until science discovers other properties of this gene or new relationships this gene maintains with other genes or phenotypes. Suddenly, the e-learning system becomes obsolete and the student must update his little conceptual brick (and also the ensemble of relationships binding it to other parts of its ontology). This is very practical for enterprises marketing contents for e-learning systems. However, if one wishes to follow a different logic, that of a free community of researchers, it 4 See <http://www.adlnet.org/>, <http://www.imsglobal.org/specifications.cfm> and <http://ltsc.ieee.org/wg12/index.html> (all 21.2.2004). Cognitive Models of HyperNietzsche 181 would be important that e-learning forms part of a system capable of automatically following the evolution of knowledge. What would be the point of an IT standard making bricks of information interoperable, if they are not at the same time automatically linked to research developments? The Learning Objects are the legacy of didactics which must now be considered out of date. Above all they produce the paradoxical effect that, in using the most modern technologies, the student acquires concepts which are pre-programmed to expire. The slogan of LEGOLearning might well be: Learning Electronic, Going Obsolete. In contrast to the American model of LEGO-Learning, the e-learning part of the HyperNietzsche project intends to propose a new methodology and set a new technological standard: the Research Objects for Learning (ROLs). In our dynamic ontology the elements are not conceptual bricks but a network of pointers: the pearls. The pearls contain a minimum of information which is their siglum (page 3 of notebook N IV 2, aphorism 27 of The Gay Science), but their characteristic is that of being pointers in a universe of relationships, not so much in the sense that they point towards something (certainly, they point towards an object or towards a property of the external world), but rather in the sense that successive researchers will point to them, since they represent objects which have been recognised by a scientific community as being scientifically interesting.5 If we construct an IT research and e-learning system which, by virtue of dynamic contextualisation, allows the user, when selecting the siglum of an object, to see all the articles which cite it, the researcher or student has at his disposal a constantly up-to-date dynamic definition, and they can follow in real time the scientific construction of the object, which thanks to paths also includes all its ›valences‹, that is the context which it shares with other objects from the same field of study. To sum up: in our model of e-learning the student receives first a map of his field of study and must master a collection of concepts which enable him to orient himself in the network of relationships between the objects in progressive transformation. Immersed in a virtual research and learning community, he or she learns to navigate by using various conceptual grids touching the same pearls, to use the methodology which allows the construction of relationships between the pearls and, finally, to create new knowledge in an autonomous fashion. 5 In computer science a pointer is an address, from the point of view of a programming language. The terms ›pointer‹ and ›reference‹ are generally interchangeable although particular programming languages often differentiate these two in subtle ways. 182 Paolo D'Iorio From a technical point of view, the specifications of Research Objects for Learning (ROLs), which we will put forward as a standard, are a way of bringing research and education into dialogue in our system and guarantee interoperability with all systems using our standard. But that is not all: thanks to the compatibility with the Open Archives standard on the document repositories side and thanks to compatibility with the Learning Objects standards on the Learning Management Systems side, the ROLs play the role of a metastandard capable of putting the world of Open Access in communication with that of e-learning. It is a paradox, then, that the researchers practising auto-archiving and free dispersal of results of scientific research have not yet been successful in establishing a stable connection with e-learning systems; vice-versa, the developers of e-learning systems have not yet come up with a technical way of using the enormous deposits of freely available contents in periodicals which have resulted from the politics of Open Access. Harald Saller HNML - HyperNietzsche Markup Language Abstract The technical and organisational structure of HyperNietzsche developed in such a way that creating an appropriate markup language proved necessary. Derived from the established standard TEI P4, it enables the Munich Nietzsche Team to encode transcriptions of Nietzsche manuscripts, new editions of Nietzsche works, and essays submitted by Nietzsche scholars. Its main characteristics are: extensibility, mainly realized by avoiding the storage of textual data in attributes; a strong distinction between the description of manuscript features and editorial interventions and comments; an easily applicable facility for linking a document to related documents. Introduction: HyperNietzsche and the Munich Nietzsche Team A short survey of the tasks of the Munich HyperNietzsche Team1 will help describe the situation, from which the need for a new markup language resulted. The text corpus envisioned in the current phase of HyperNietzsche is the Philosophy of the Free Spirit (Philosophie des Freigeists), which covers the following works: Menschliches, Allzumenschliches (1879), including the later additions Vermischte Meinungen und Sprüche (1879) and Der Wanderer und sein Schatten (1880); furthermore Morgenröthe (1881) and Die fröhliche Wissenschaft (1882) – and all the corresponding ›Vorstufen‹ (preliminary stages) in the extant manuscripts. 1) Digitization in colour and in high resolution of around 30.000 pages of primary sources: manuscripts, letters, first editions, photos and other biographical documents: for example receipts for book purchases. However, HyperNietzsche had to cope with some legal issues first. Unlike most philological/humanist projects, the HyperNietzsche project also employs jurists. An agreement between the Stiftung Weimarer Klassik and the Association HyperNietzsche had to be made up before the 1 The past and present team members are listed at <http://www.hypernietzsche.org/ doc/committee/> (17.2.2004). 184 Harald Saller mass digitalisation and publishing could begin. The most important point is that the Association HyperNietzsche is permitted to publish the digitized material freely on the internet for research purposes. 2) Digital classification, retouching and publication of around 6.000 facsimiles of original Nietzsche manuscripts: This represents the complete genetic dossier of Der Wanderer und sein Schatten and Morgenröthe, beginning with the note books, going on to fair copy and printers copy, and finally to the first edition. Once published, the digital facsimiles constitute an ›open source‹ for any kind of further transformation, for example a printed facsimile edition of Nietzsche manuscripts. Within the digital medium, facsimile editions are already available, of course. 3) HNML-encoded transcription of 3.000 manuscript notes, of which around 1.000 have already been published in HyperNietzsche. 4) New editions of ten of Nietzsche's works are in progress. The new edition of Der Wanderer und sein Schatten will be published in April 2004, as part of version 0.5 of HyperNietzsche. Additionally, the Munich Team did editorial work on some philosophical and/or philological essays which were published in HyperNietzsche. Within this area, legal aspects are also of major importance: The rights of the author have to be preserved, and at the same time, free access within the frame of scientific use has to be granted. The OpenKnowledge license, which has been made up for HyperNietzsche, in principle works as follows: Every user who downloads data (i.e. a contribution by a HyperNietzsche author) from HyperNietzsche, implicitly accepts the OpenKnowledge license. Within ten years after the download, he has the right to copy and distribute the work on any data carrier, as long as he uses it for scholarly/scientific purposes. The user, too, may allow others to copy and disseminate the data for scientific purposes. For all other cases, especially the commercial use of his works, the author keeps the right to permit or prohibit further copying and dissemination. In those cases, the Association HyperNietzsche is not involved. For contributions to be published in HyperNietzsche, there is a choice of data formats, which are all open and freely accessible: PDF, HTML, JPEG, and, basically, any XML-based format, like HNML. Development and Scope of HNML HNML – HyperNietzsche Markup Language – is an XML format designed by the Munich Nietzsche Team in order to fill the gap between HyperNietzsche Markup Language 185 the relational organisation of documents, which is realized by our database, and the need for encoding the structure of the documents. HNML is derived from TEI-XML. Initially, we planned to apply the TEI P42 guidelines. However, we soon faced the problem that the possibilities of encoding manuscripts provided by TEI P4 did not meet all our requirements. Deviations from the TEI guidelines were inevitable, but nevertheless, we decided to remain as close to the TEI elements and structure as feasible. One feature of HNML is its ›scalability‹ regarding the depth of structure within a document: as one doesn't know how complicated Nietzsche's manuscripts can get, until one has analyzed – if not encoded – them all, the encoding scheme must provide enough extensibility. As one basic consequence, the storage of manuscript data in attributes of XML elements had to be avoided, because one may face the need for inserting additional meta-information to such data,3 which is not possible with attributes. Thus, HNML contains more elements and less attributes, and no HNML attribute contains manuscript data. Another reason for designing a new markup language was the fact that there were no tagsets available for some manuscript features, like the overwriting of one letter by another. Moreover, HNML makes a sharp distinction between the description of manuscript features and any correction and comment by the editor. However, as standardization is important for interchangeability, we will provide a TEI version of all our HNML documents. Of course, there will be loss of information for the time being, as not every HNML tag/tagset can be translated into TEI P4, but as the TEI guidelines are in constant development, this problem might be solved in the future. Initially designed for encoding manuscripts, we soon extended the scope of HNML: we also use it for encoding our new editions of Nietzsche's works and for publishing essays. 2 3 I.e. the fourth edition of the encoding guidelines by the Text Encoding Initiative <http://www.tei-c.org/P4X/> (17.2.2004). For example, if a word that has been corrected, is also underlined, and the correction itself is not underlined and written with a different ink: <corr sic="<hi rend= "underlined">rong</hi>"><hand ink="blue">wrong</hand></corr>. If there was only one feature in which the corrected and the original word diverge, it would have been possible, e.g. if only the ink was different: <corr sic="rong"> <hand ink="blue">wrong</hand></corr>, or if the only difference was the underlining: <sic corr="wrong"><hi rend="underlined">rong</hi> </sic>. 186 Harald Saller HNML for Transcriptions As a matter of fact, every HNML-encoding of Nietzsche's manuscript writing generates at least two transcriptions: a ›diplomatic transcription‹ and a ›serialized transcription‹ (both in HTML format) are generated from the HNML document on request by the user.4 The third kind of transcription, the ›ultra-diplomatic transcription‹, requires some human intervention, as it represents very detailed physical features in an ›iconic‹ way, which can hardly be encoded by markup and displayed in HTML: the exact positioning of words, passages and graphics on the paper, the exact font size and the like. Finally, there is a fourth kind of transcription. The ›interactive transcription‹ provides the user with a clicksensitive digital facsimile of a manuscript page: when the user clicks on a word, its transcription becomes visible. The descriptive features of HNML for transcriptions can be grouped into the following subsets: 1. writing hand: Nietzsche, Peter Gast or unknown; handwriting: German, Latin, Greek; writing implement: pencils and ink in various colours; 2. spatial order and interrelations of words or phrases: page breaks; paragraphs; line breaks and hyphenation; 3. revisions, markup and instructions by the author/writer: additions; deletions; overwriting; underlining; repetition of words in order to assemble spatially diverse portions of text; 4. writing layers or levels: grouping of acts of revision which constitute one stage of the writing process; 5. editorial interventions, and optional comments by the transcriber: these are needed for the serialised transcription, which is a corrected rendition of the manuscript text in its final state; 6. unreadable or unresolved letters, words or phrases; 7. special characters which are represented by empty elements to facilitate the processing. Feature no. 4 is a very recent development. The idea is to give a grouped order of the actions described in the third group (revisions, markup and instructions) – and, as a consequence, in the fifth group (editorial interventions): for every writing layer, there will be a diplomatic transcription as well as a serialized transcription. Of course, a distinction of writing layers is only possible in some of Nietzsche's notes. Additionally, it im4 This task is done by XSLT style sheets, see <http://www.w3.org/Style/XSL/> (17.2.2004). HyperNietzsche Markup Language 187 plies much more interpretation, and therefore subjectivity, than all the other encoded features. The result tends towards a genetic edition. However, the user can always decide whether the writing layers are displayed or not. If not, only the results of all writing processes, i.e. the physical appearance of the manuscript is presented. On the technical side, the encoding of writing layers by HNML is quite simple. The information about the writing layer is stored in an attribute within the element that describes the action of revision itself. For example, an addition which took place in writing layer 1 would be encoded like this: <add lay="1">ADDED_TEXT</add>. Display in HTML The possibilities of representing a two-dimensional object and additional non-spatial information by means of a two-dimensional display are limited: the writing layers (which are of temporal nature) have to share the means of representation with the spatial information. Consequently, a conventional schematization is necessary, and the visualization becomes somewhat hybrid. For example, we use superscript (and a smaller font) to indicate an interlinear addition, which only resembles the physical appearance in the manuscript, but cannot imitate it. A phrase printed in superscript takes all the horizontal space, as if it was not printed in superscript. Additions that belong to different writing layers are displayed in a cascading way: with every new writing layer that has been entered, the superscript appears a little higher, so the nesting of the different layers becomes quite obvious. The following example shows how writing layers are encoded and displayed: HNML Example <N> If I had written all my works with <sepia> <str lay="1"><black>coloured pencils </black></str></sepia><editor lay="1"><sic><red> <str lay="2"><add lay="1"><sepia>typewriter</sepia> </add></str></red></sic><corr>a typewriter</corr> <enote></enote></editor><editor lay="2"><sic> <add lay="2"><red>computer</red></add> </sic><corr>a computer</corr></editor>, would things be simpler? </N> 188 Harald Saller Screenshots In the first screenshot, only the basic writing layer (= layer 0) is presented; there are no alterations yet. In the second and third screenshot, the layers 1 and 2 are selected. HyperNietzsche Markup Language 189 HNML for Works HNML also turned out to be useful for the new editions of Nietzsche works which will be provided by the Munich Team. Identical or similar tags are used with transcriptions, works, and essays. There are the following groups of features: 1. 2. 3. 4. spatial order: page breaks; paragraphs; line breaks and hyphenation; markup (highlighting) by the author; editorial interventions by the editor; special characters which are represented by empty elements to facilitate the processing; 5. footnotes by the author. Every editorial intervention is made transparent to the reader by a critical apparatus. In the apparatus, the corresponding reading of every extant ›Vorstufe‹, i.e. note in a manuscript that is a predecessor of the work text, is given. The following tagset was designed for the encoding of editorial interventions/apparatus: <editor> <sic>ORIGINAL</sic> <corr>CORRECTED</corr> <enote> <rdg sig="SIGEL" type="TYPE_OF_WITNESS" hand="WRITING_HAND">VARIANT</rdg> OPTIONAL_REMARKS </enote> </editor> (The number of <rdg> tags within one editor tagset varies from 2 to 5, depending on how many manuscripts are extant). HNML for Essays There are two text formats that can be used for the publication of essays: HTML and XML (that is, any XML-based document format). For those essays which are edited by the Munich Team, HNML is used. Besides, every contributor is encouraged to encode his/her essay in HNML, too; a specially configured XML editor5 will be freely available soon. By the use of HNML, it is assured that the formatting of the essays is uniform, 5 The editor, with some standard configurations, is available at <http://sourceforge.net /projects/jaxe/> (17.2.2004). 190 Harald Saller and that there is a logical/structural markup that may be used for information retrieval. For example, the paragraphs of an essay are numbered automatically, thereby providing a granularity for referencing and processing which should be quite appropriate for digital documents: the division by page breaks mostly used in paper documents has the disadvantage of not corresponding to the logical structure of a document. But the most important feature of HNML regarding essays surely is its support of dynamic contextualization. HNML and Dynamic Contextualization The basic elements of the HyperNietzsche infrastructure are signatures; if an object has a siglum, it exists in the eyes of HyperNietzsche, and can be referred to and processed. The dynamic contextualization uses the signatures by gathering everything (document, or, in Pearl Diver Model terminology: ›pearl‹, see Michele Barbera/Riccardo Giomi The PearlDiver Model. The HyperNietzsche Data Model and its Caching System in this volume6) that contains a certain siglum. There are three HNML tags, which refer to three categories of HyperNietzsche entities: authors, contributions, material. For example, if an essay cites a certain note in a notebook: N IV 4,23[2] (note no. 2 on page 23 of notebook N IV 4), a link to all the other contributions relating to that note is generated. An HNML example: »Nietzsche wrote down in simplification of Epicur on <material sig="N-IV-4,23[2]">page 23 of N IV 4</material> that metaphysics were of no use.« Obviously, the task of the tag is to connect the author's arbitrary way of citing, which is addressed to the reader, to the canonical signature, which is adressed to the system. The contextualization tags are available in all three types of HNMLencoded contributions: transcriptions, text editions, and essays. But also HTML-encoded contributions, like commentaries or reviews (for which there are currently no HNML schemes available) may contain contextualization tags, as there are HTML versions of these tags, too. 6 See also <http://computerphilologie.uni-muenchen.de/jg03/barbera-giomi.html> (20.2.2004). Michele Barbera/Riccardo Giomi The Pearl-Diver Model. The HyperNietzsche Data Model and its Caching System Abstract During its early stages in the first months of 2002, HyperNietzsche was a conventional web application, using a script language to generate dynamic web pages ›on the fly‹ through a relational database. When Net71 joined the project, in April 2002, we faced a rapidly growing database, a user interface that changed frequently and, most noticeably, a very complex mechanism of visualizing relations among contents called ›dynamic contextualization‹. The main concern was not the quality of code but rather the inadequacy of the architectural model. So, during 2002, we developed a new model called Pearl-Diver Model (PDM). This document contains a short and accessible description of the architectural changes that have taken place during the transition to the new architecture. For a more detailed formal analysis see the HyperNietzsche developers website at <http://www.hndevelopers.org> (19.2.2004). 1. The Old Architecture: A Conventional Web Site with Dynamic Page Generation To handle the complexity of the project we adopted our own terminology: we use the term pearl instead of the usual Computer Science term ›object‹. HyperNietzsche is a project that deals with pearls and their relations. Pearl is the abstract term to designate all the elements that together make up Friedrich Nietzsche's work: papers and books, manuscripts and letters, Nietzsche's private library and biographical documents. With the term pearl we also indicate every contribution that other authors wrote about Nietzsche (critical essays, translations, but also transcriptions of manuscripts and critical editions). The ›pearls‹ HyperNietzsche deals with are divided into ›sub-pearls‹, and each ›sub-pearl‹ is a pearl in itself. The ›sub-pearls‹ can be divided themselves and so forth as long as each pearl can be studied in itself. The HyperNietzsche Team calls this structure »granularity«. The granularity tree can be seen as a yardstick that mea1 <http://www.netseven.it> (19.2.2004). 192 Barbera/Giomi sures the deepness of a pearl. Each pearl is related to other ›pearls‹ and these relations can be of different types. Relations are called »structural« when they symbolize that one pearl is physically part of another, like a page is part of a notebook. Structural relations are used to represent granularity trees. Relations are called logical when they represent abstract links between ›pearls‹. Logical relations are the basis the of dynamic contextualization relies on. They are links that can be followed in both directions. If you examine a traditional HTML link you see that it contains information concerning its target. But think about what happens when you follow the link and reach the target: you have lost all the information about your starting point. The dynamic contextualization obviates this behavior. Handling these structures increases the complexity and the sheer amount of data the HyperNietzsche Project has to deal with. It suffices to imagine how much material Nietzsche has written and how many sub-parts this material may contain to have an idea of how complex all this can be. Let us add to the count all the contributions that have been and will be written about Nietzsche's materials. Of course it is possible to design a system that is able to store and process this amount of information by developing a conventional web application. It was just what the first team of computer scientists of HyperNietzsche began to do. They built HyperNietzsche as a dynamic Hypertext. This meant that the content of the pages shown by the browser was not statically stored on the server's The Pearl-Diver Model 193 filesystem (as HTML files), but was built on the fly querying a relational Database, which was constantly updated. During the development of the first version of HyperNietzsche, it became clear that such a system would be quite clumsy and unable to respond quickly enough to users' requests. To explain this point it is necessary to explore the technical structure of the system in more details. Information about ›pearls‹ is stored in the database tables. ›Pearls‹ that share similar characteristics are stored in the same table. When the information about one pearl, say page 3 of Nietzsche's manuscript N IV 2, is requested by the user, the system searches the manuscripts' table to locate manuscript N IV 2, then follows the relation »manuscript-page« to find the right pearl. The process does not end here, as the contextualization information must be retrieved. The context of a pearl is the set of contributions that refers to the pearl itself as the object of study. To retrieve the contextualization information we need to follow the »contribution-material relations« from our pearl up to each contribution. Meanwhile, we search for the authors of each contribution, which are contained in the »contribution-author« relation table. However, this architecture reaches its limits when the structure of the relations amongst the data becomes particularly complex. Considering that the data structure used for representing the dynamic contextualization is an oriented multigraph, a lot of queries to be executed have a high level of complexity2. This is unacceptable for a web application, because 2 For a formal description of computable queries see: Ashok K. Chandra/David Harel: Computable Queries for Relational Data Bases. In: Journal of Computer and System Sciences 21 (1980), pp. 156-178. 194 Barbera/Giomi in certain cases a user will have to wait too long before being able to access the required page. 2. The New Architecture: The Pearl-Diver Model In order to solve this problem we have developed a new architecture: The Pearl-Diver Model (PDM) that exploits the low volatility of our data. As disk space is cheap and computational time is the scarce resource, we choose to adopt a model that privileges efficiency instead of saving disk space. It is, in fact, a caching mechanism based on XML. The considerations that gave birth to this concept are: • Many elements of HyperNietzsche are static: they do not change in time. In the old architecture, even static object information was recalculated every time it was requested. This led to a great loss of time. If an element is static we need to process the information just once and then store it somewhere, ready to be delivered to the user. But our elements are not always static. They change when a new contribution is submitted, deleted or modified by an author. When this happens, the contextualization of the referred pearl must include the new contribution, and the information related to the pearl must be processed again. Pre-calculated units of information are called »Presentation«. They are the way that pearls ›present themselves‹ to the outside world. The Pearl-Diver Model 195 • Another characteristic of HyperNietzsche is that submitted contributions are not immediately accepted by the system. They must pass the Peer Review scrutiny and wait at least fifteen days to be published. Once accepted, they can be published; this means that their information will be processed. Thus, we can choose a time of the day, usually with low user traffic, and compute every change at once. • We wanted to retain data security, integrity and consistency from the old system. And we needed to maintain the internal system data structure used to elaborate changes. • Static, pre calculated information about pearls must be stored somehow. This gave us the occasion to use the XML standard in our project, giving the possibility to export HyperNietzsche pearls to other systems or to expose their metadata in standard formats to be compliant to different specifications. 2.1 The Main Sub-System The new architecture consists of three logical sub-systems: The Main Sub-System contains all the information about HyperNietzsche's pearls and relations. All data is stored in a PostgreSQL database following all database data normalization rules. The table's structure and control functions guarantee that data insertion, deletion or update operations are executed without errors or data integrity losses. The Main Sub-System's database is called the Main Database and is physically isolated. It does not serve the user directly but it is used to create Presentations whenever required. This system communicates with the Presentations Sub-system via a module of the Administration Sub-System called Pearl-Diver, as it ›fishes pearls‹ from the Main Database. The process of computing new Presentations is, as in the old architecture, quite time-consuming, but is done only once for every update and not at every user request. Additionally, computation is limited to those pearls directly involved in the update. 2.2 The Presentation Sub-System The Presentation Sub-System stores Presentations built by the Main SubSystem and provides XML output. The Presentation's XML follows worldwide open-access specifications, hence the platform is usable as an open database or as a stand-alone Internet application. All the Presenta- 196 Barbera/Giomi tion's data are stored in the Presentation's database, which also contains the »Functions« used to generate the final XML. This database doesn't handle data consistency or redundancy. The Main Sub-System handles these issues. Data is stored to make the retrieval of information as fast as possible. To fulfill user requests this database searches just one table. In the most complex cases it searches two tables. XML presentations can be read by any system and attached to different graphical interfaces. Our platform provides of course its own user interface that is realized using an open-source XSL transformer (Sablotron), which generates HTML pages from XML and XSLT files. The XSLT style sheets contain the instructions about how the XML has to be transformed. Between the Presentation's XML and the user interface, there is the Navigation Module. This module receives the user's request, asks for the corresponding XML to the Presentation's database, and then passes it bundled with the chosen XSL style sheet to Sablotron to build the final HTML page. Another task that has been assigned to this sub-system is the handling of translations. HyperNietzsche is designed to be accessed by users from anywhere in the world. Each interface page is written in an internal language made of ›identifiers‹. A user entering HyperNietzsche must choose a language. If, for any reason, this is not done, the system reverts to German as default language. Once a navigation language is chosen, identifiers are substituted by words in the chosen language. The identifiers are written in an internal language similar to English, and they will remain invisible to the end-user. Identifiers are used as placeholders. They have meaningful names solely to make it easier for the HyperNietzsche Team to handle them. Translators determine, for every language, which word must substitute each identifier. A specialized navigation interface is available for translators to translate words while navigating HyperNietzsche, in this way they have a clearer idea of the context in which a word appears. This feature is called »Contextual Translation«. The Translation Dictionary is stored in tables within the Presentation's database. These tables are used when pages are created, thus it is faster to have the Translation Dictionary and Presentation in ›the same place‹. The Pearl-Diver Model 197 2.3 The Administration Sub-System Apart from the Pearl-Diver Module described in 2.1, the Administration Sub-System handles the submission procedures of contribution and Peer Review and provides a Control Panel usable by the project leader and by the system administrators to set system parameters. The Peer Review Module has the task of supervising the policy of contribution acceptance. It includes an interface used to examine submitted contributions, to vote on them and to write reports. The system checks once or more times a day if a contribution fulfills the publication requirements. Every contribution that passes this check is ›handed over‹ to the Main Sub-System where the necessary Presentations are processed. To submit a contribution there is a dedicated interface that allows the user to send to HyperNietzsche all the required data in a simple, user-friendly way. This interface is also part of the Administration SubSystem. Its task is to save the contribution that will be processed by the Peer Review Module. Contributions are submitted anonymously to guarantee fairness during voting. 198 Barbera/Giomi 2.4 From Submission to Visualization: A Simple Example Let us assume that a user submits a new contribution. After the approval of the Peer Review, all the pearls cited by this example contribution are scheduled for re-elaboration. Why do we have to re-elaborate all the pearls? Let us suppose that this contribution is an essay about page 3 and 4 of the N IV 2 notebook. The Presentations of the pearls that represent the two pages have, as part of their information, the list of the contributions that cite those two pages. This information is now going to be incorrect because we are adding a new contribution to the list. Every pearl that has to be modified is called ›dirty‹, and is scheduled in the Main Database for its Presentation's re-elaboration. Once a day, the Administration Sub-System calls for the Pearl-Diver Module of the Main SubSystem, which substitutes all the old Presentations marked as ›dirty‹ with their new Presentations, as processed by one of the Main Database internal functions. Every operation in the Main Database relies on a database feature called Transaction. This feature enables a set of operations to be either entirely completed or entirely failed3. Transactions assures that there 3 A transaction has as set of properties known as ACID that stands for Atomicity, Consistency, Isolation, Durability. The ACID concept is described in ISO/IEC 100261:1992 Section 4. The Pearl-Diver Model 199 cannot ever be incongruou information in the Presentation's database. Transactions are used for every query on this database. Now the Presentation's database contains the Presentation of the new contribution. Presentations are stored in a hybrid format composed of a mixture of XML and raw data, which cannot yet be used by external applications, but allows efficient internal operations. If a user asks HyperNietzsche's interface to show him a contribution, the request is handled by the Navigation Module of the Presentation's Sub-System. After this step the module asks for the information in XML format. The requested valid XML is built out of the Hybrid-formatted data. This process is done by the Presentation's database internal functions. Finally, the interface page about the contribution is shown on the user's browser. Please note that the most time consuming operations are automatically done by the system before any user request. The user has to wait only for the Presentation's database to provide pre-calculated information, which is a very small amount of time. 2.5 Some Advantages of this Model The Pearl-Diver Model is faster and more efficient than the old conventional architecture. It assures data security, consistency and integrity while at the same time storing enough information to represent all the complex relations between pearls. It also features a built-in interoperability with other applications. This is the direct result of being able to use the XML as a channel between data and interface. Another important advantage that this new design offers is that the core system is clearly separated by its interface. It means that the core system provides an easy and compatible access to its data from outside applications. The raw data obtained from the core system could be used by another interface or as an input for other applications. In this way it is possible to build a metahyper able to act as an abstraction layer over platforms dedicated to different authors and also in compliance with protocols like OAI-PMH4. 4 The Open Archives Initiative Protocol for Metadata Harvesting <http://www.open archives.org/OAI/openarchivesprotocol.html> (19.2.2004). 200 Barbera/Giomi Thomas Rommel »Of what is past, or passing, or to come«. Electronic Analysis of Literary Texts Abstract This essay looks at the way computer-assisted studies of literature have been received in the past. It analyses some of the fundamental assumptions about text and the way critics perceive text and textuality, and it discusses the way in which electronic procedures can be used for the study of literature. The example of ›author gender‹ is presented as a challenging new study that may bring mainstream and specialized scholarship together in literary studies. Finally, three possible developments in computer-assisted literary studies are outlined. Every reader dreams of a reliable memory and unlimited time: »The Biblical three-score years and ten no longer suffice to read more than a selection of the great writers in what can be called the Western tradition, let alone in all the world's traditions. Who reads must choose, since there is literally not enough time to read everything, even if one does nothing but read.«1 But in an ideal world the canon does not matter, and there is enough time to read – and even to re-read – all the texts deemed relevant from a given perspective. In addition, all these texts can subsequently be interlinked on various levels, and any intertextual connection between a virtually unlimited number of texts can be established. These texts are constantly present in the reader's mind and they form a vast archive accessible any time, with no limitations.2 In this ideal world the reader remembers perfectly well every subplot, every character, even every single phrase of every text ever read. Literary criticism, acutely aware of the problems of both canon and memory, therefore operates selectively. The limitation and the problem of exclusion is accepted as an integral aspect of traditional approaches to texts, and for this reason most literary critics deal with representative tex1 2 Harold Bloom: The Western Canon. The Books and Schools of the Ages. New York: Riverhead 1994, p. 15. On ›archive‹ cf. Kathryn Sutherland: Introduction. In: Kathryn Sutherland (Ed.): The Electronic Text. Investigations in Method and Theory. Oxford: Oxford University Press 1997, p.1-18. Here p. 9. 202 Thomas Rommel tual phenomena when they talk about surface features of a text. Human memory is extended and externalised through written notes and references, and the limitations of the human mind both in respect to time and capacity have become an accepted part of the conceptual and methodological framework of literary studies. The frequent textual echoes that link chapters in books, the verbal subtleties of language on the stage, and the intricate sound patters employed in poetry constitute a small fraction only of literary phenomena that can be observed ›on the surface‹ of texts. The myriads of details that come with every reading of a text are filtered by the reader who has to prioritise – what to keep in mind, what to memorize, what to discard. Very often surface phenomena are dealt with in a cursory fashion, as scholars shy away from the tedious task of systematically collecting, analysing and interpreting all relevant passages. Conveniently, a substantial number of these features are deemed dispensable material that can be used if necessary, but that do not in their totality contribute to the understanding of a text. John Burrows criticises this type of eclectic analysis: »It is a truth not generally acknowledged that, in most discussions of works of English fiction, we proceed as if a third, two-fifths, a half of our material were not really there.«3 But literary works do depend on the totality of text, on every single textual item found in the work: »We in literature consider the text to be the result of the artistic intention of the author, not as a linguistic document. The text studied for its literary value contains nothing that can be ascribed to chance. The probability of finding a given word in a certain place in a text is thus one if it is there, and zero if it isn't.«4 Stylistics, both traditional and computational, agrees, and it is in the field of textual exegesis based on textual evidence that the electronic analysis of literary texts is most dominant and successful. When monks in the middle ages produced the first concordances of the Bible, they kept tab manually, compiling endless word lists and indices that would allow the reader to locate passages where human memory proved inadequate. Computer-assisted analysis follows the same pattern and employs similar strategies. The difference, however, can be seen in the flexibility of sampling and testing that comes with electronic procedures. A search for specific textual phenomena can be refined, even changed, should it become necessary. Texts can be analysed in their en3 4 John F. Burrows: A Computation Into Criticism. A Study of Jane Austen's Novels and an Experiment in Method. Oxford: Oxford University Press 1987, p. 1. Paul Fortier: Babies, Bathwater and the Study of Literature. In: Computers and the Humanities 27 (1993), p. 375-385. Here 376. »Of what ist past, or passing, or to come« 203 tirety, and sufficient time and man power for any given analysis is no longer problematic. While medieval monks spent years in isolation compiling word lists, the modern scholar can modify search patterns within seconds, or he or she can think of expanding the corpus by adding more texts. While the methodology of this type of analysis has not changed over the centuries, the introduction of computer-assisted work has led to a fundamental change in the way data is produced. Computer-assisted studies, sometimes referred to as ›computer-based‹ depending on the amount of data processing involved, thus constitute a continuation of stylistic analysis that originates from textual exegesis. The procedures focus on a thorough combing of the text, and the tools and techniques required for this kind of work are basic, because much can be achieved with judicious use of simple tools. The computer is best viewed as an aid to scholarship, a machine which can help with many repetitive tasks and which can assist with detailed investigations or help to provide an overall picture which would be impossible to obtain by other means. Many humanities electronic text projects which are more than simply putting material on the Web have been based, in one way or another, on word searching, frequency lists, and concordances. These have been used as a basis for further interpretation of textual material, for comparative work, for lexicography, for the preparation of scholarly editions, and for the analysis of different linguistic features.5 Close attention to surface features of a text provides the basis for the ensuing analysis, and with this focus on complete sets of data extracted from the text a number of theoretical issues need to be discussed. Sometimes this attention to the text in its entirety and with a particular emphasis on minute analysis of isolated stylistic features is described as a return to the theoretical position of New Criticism and its theoretical and methodological tenets. If this is indeed the case, then the computerassisted analysis of texts does not in itself constitute a new ›method‹, but provides sophisticated tools only that work within an existing set-up. In addition, as New Criticism is widely regarded as a dated, if not inadequate approach to texts and their location in a literary or cultural context, the continuation of such methods proves difficult and invites criticism. »One might argue that the computer is simply amplifying the critic's powers of perception and recall in concert with conventional perspectives. This is true, and some applications of the concept can be viewed as 5 Susan Hockey: Electronic Texts in the Humanities. Principles and Practice. Oxford: Oxford University Press 2000, p. 6. 204 Thomas Rommel a lateral extension of Formalism, New Criticism, Structuralism, and so forth.«6 In the light of recent developments in computer-assisted studies of literary texts it remains to be seen in how far this assessment is still adequate. It has become apparent, however, that most studies that use electronic means of text analysis are aware of the theoretical implications of their approach. It remains open to debate whether a truly naive, positivistic reading of a text in computer-assisted studies was ever published in reviewed journals such as Literary and Linguistic Computing or Computers and the Humanities. If literary critics were happy to use the computer for its own sake, then the fault lies not with the tool, but with the methodology. In a widely noted assessment of the field, published 1991 in Literary and Linguistic Computing, Thomas Corns comments on the disappointing achievements of computer-assisted studies in mainstream literary studies. He writes that literary studies have split up into increasing aggressive and intolerant theoretical camps, for the most part mutually suspicious and marked by sharply differentiated critical vocabularies, idioms, objectives and values, though there have been elements of hybridization. We advocates of computer applications do not figure significantly within that complex configuration. In so far as we are regarded, traditionalists still observe us with suspicion – we murder to dissect. Post-structuralists regard us as engaged in an inherently foolish enterprise, mistaking the modality of the text, absurdly unaware of the inadequacy of our categories, of all categories; feminists regard us as involved in the fetishizing of the machine, the toys for the boys critique; marxists disclose the political implications of the seemingly apolitical nature of our analysis.7 The debate, however, continues, and at nearly every conference on humanities computing the failure of computer-assisted studies to be perceived in mainstream literary criticism is commented on.8 Given the high degree of critical awareness of their own methodological position in humanities computing it seems unlikely that theoretical or methodological criteria are responsible for the low rate of acceptance. If one follows 6 7 8 John B. Smith: Computer Criticism. In: Roseanne G. Potter (Ed.).: Literary Computing and Literary Criticism. Theoretical and Practical Essays on Theme and Rhetoric. Philadelphia: University of Pennsylvania Press 1989, 13-44. Here p. 14. Thomas Corns: Computers in the Humanities. Methods and Applications in the Study of English Literature. In: Literary and Linguistic Computing 6/2 (1991), pp. 127-130. Here p. 129. Compare, for instance, the essays in a recent issue of Literary and Linguistic Computing on text analysis and text analysis tools. Literary and Linguistic Computing 18/2 (2003). »Of what ist past, or passing, or to come« 205 Hans-Walter Gabler's reasoning, the problem remains as much with the community of book-trained scholars as with those well versed in using electronic procedures: The established present use of the computer in the humanities is to enhance the properties and quality of the book. With the book electronically stored, book contents and book knowledge can be accessed fast and very flexibly [...]. [...] In the face of the forces of habit, the question arises how clearly the bookconditioned and book-trained humanities scholar and researcher is capable of discerning the unique otherness of the electronic medium and both explore and exploit its potential.9 Gabler's argument is convincing, but the ›otherness of the electronic medium‹ needs to be communicated to the world of mainstream academia. Especially the question of contextualization and a critical reevaluation of the seemingly obsolete techniques of close reading in literary studies stimulate discussions that question methodology and fundamental notions of the relationship between author, text, and reader. In this respect most contributions to literary and cultural analysis that originate from computer-assisted studies are highly aware of the theoretical implications of their approach. As a result one finds that in nearly all cases the question of the status of the text and related problems of textuality are dealt with in great detail. In the most useful studies, researchers have used the computer to find features of interest and then examined these instances individually, discarding those that are not relevant, and perhaps refining the search terms in order to find more instances. They have also situated their project within the broader sphere of criticism on their author or texts, and reflected critically on the methodology used to interpret the results, avoiding the ›black-box‹ tendency of some projects to produce tables of numbers without any serious assessment of what those numbers might mean.10 It is from this theoretical awareness that sophisticated studies take their analytical strength, because »as hardware has become tremendously powerful, most people have come to realize that the limitations of computerassisted textual analysis are methodological rather than technological. At the moment we have all the computing power we could possibly need 9 10 Hans-Walter Gabler: There is Virtue in Virtuality. Future potentials of electronic humanities scholarship. In: ALLC/ACH 2002. New Directions in Humanities Computing. Conference Abstracts. Tübingen: Zentrum für Datenverarbeitung ZDV 2002, pp. 40-41. Here p. 40. Susan Hockey: Electronic Texts in the Humanities, p. 84. (footnote 5). 206 Thomas Rommel [...].«11 The authors of the best computer-assisted studies maintain that the computer can be considered useful for the process of data collection only. In studies of literature computers »are no more able to ›decode‹ rich imaginative texts than human beings are. What they can be made to do, however, is expose textual features that lie outside the usual purview of human readers.«12 Here the computer is seen as a tool that facilitates certain repeated procedures, and this tool greatly enhances the scope of texts or the range of sampling that provides data for the ensuing analysis. But it is in the nature of a tool to be guided by human intuition and experience. A tool is designed and constructed specifically to enhance human work. In this context the computer as a tool is regarded as the extension of human abilities and skills, and in the nature of this extension lies its greatest potential and, at the same time, its fundamental limitation. If tedious procedures that require repeated, identical processes that rely on precisely defined formal properties of text can be committed to the computer, then human resources, freed from the constraints of numbing work, can be used productively: the textual material compiled by the tool in a first step will, in a second step, be analyzed, contextualized and finally in a third step be interpreted by the human critic. Seen in this light the computer constitutes a tool perfectly suited for some types of literary analysis. Every approach that depends on access to a limited, but precisely defined textual features is greatly helped. If the criteria for sampling need to be re-defined, new search routines and sampling procedures can be implemented seamlessly based on the formalisms initially established, and in this the scope and breadth of computer-assisted textual analysis is unprecedented. As Susan Hockey writes in her book on Electronic Texts in the Humanities. Principles and Practice, the computer is best at finding features or patterns within a literary work and counting occurrences of those features. If the features which interest a scholar can be identified by computer programs, the computer will provide an overall picture which would be impossible to derive accurately by manual methods. It can also pinpoint specific features within a text or collection of texts and lead the researcher 11 12 Thomas Rommel: The Internet Survey for English Studies. In: Doris Feldmann/FritzWilhelm Neumann/Thomas Rommel (Eds.): Anglistik im Internet. Proceedings of the 1996 Erfurt Conference on Computing in the Humanities. Heidelberg: Carl Winter 1997, pp. 101-112. Here p. 112. Jerome J. McGann: Radiant Textuality. Literature After the World Wide Web. New York: Palgrave 2001, p. 190-191. »Of what ist past, or passing, or to come« 207 to further areas of enquiry. It is often best treated as an adjunct to other research methods.13 The success of this type of analysis depends on the way the text is perceived by the critic. If textual features that can be formalized form the basis of the analysis, then the precise and unambiguous definitions of the phenomena to be identified have to be provided. This precision in describing textual properties determines the quality of the analysis, and it is crucial that at this point decisions be made about what properties to include and what to exclude. It is from a thorough knowledge of the text that any assumption about some of its properties can be made, and at this initial stage of the analysis there exists no methodological difference between a critic who is planning to conduct a stylistic investigation into textual properties in a traditional way and a critic who is planning to use electronic procedures. Ideally, even the process of sampling, i.e. of identifying, locating and extracting textual features is identical in both types of studies. The crucial difference, however, is the fact that any ›manual‹ sampling will take much more time than the same process conducted with electronic means. If the criteria according to which the textual phenomena are identified remain unchanged throughout the entire process, then the computer – with unerring accuracy, super-human speed and an unfailing memory – will by far outperform any manual approach to the same text. Given that the criteria for searches can be changed and that multiple searches can be conducted on the same material without any time constraints, then it becomes obvious why computer-assisted procedures are vastly superior to manual approaches. The central advantage can be seen in patternmatching routines, i.e. the search for Zeichenketten [strings], also nach beliebigen Kombinationen von Buchstaben, Zahlen oder Satzzeichen. Dabei können zumeist auch Platzhalter für beliebige Zeichen eingesetzt werden. Eine abstrakte Form dieser Verwendung von Platzhaltern ist der Einsatz von ›regulären Ausdrücken‹, womit Zeichenmuster beschrieben werden können. Einzelne Zeichenketten können durch die Verwendung von Booleschen Operatoren zu komplexen Abfragen kombiniert werden.14 The complexity of search procedures, the possibility of virtually endless variations of patterns that can be identified constitute a major advantage of computer-assisted studies. 13 14 Susan Hockey: Electronic Texts in the Humanities, p. 66. (footnote 5). Fotis Jannidis: Computerphilologie. In: Ansgar Nünning (Ed.): Metzler Lexikon Literatur- und Kulturtheorie. Stuttgart/Weimar: Metzler 1998, pp. 70-72. Here p. 70. 208 Thomas Rommel These striking advantages, however, remain limited to a rather narrow area of stylistic study, and within this field the »discussion of the history of literary computing shows that only a limited number of textual phenomena can be analysed profitably in the context of a qualitative, computer-assisted analysis of style. These phenomena have to have some surface features that can be identified by electronic means.«15 No hermeneutic procedures that change the reader's perception of the text find their way into an electronic analysis. Every modification of a search, every subtle re-arrangement of sampling procedures needs to be fed into the system at a stage when the data suggests a modification. This is typically the case after a complete scan of a text or a set of texts has been performed, and while a reader of a text will in the process of reading re-adjust his or her criteria, computer-generated data will – each and every time – provide precisely what has been defined as the result of a search. This, in itself, is a great advantage, but it requires a more stringent and formalized approach to a text than is commonly preferred in mainstream literary criticism. Even stylistics as the discipline most interested in textual properties usually associated with surface features does not always recognize the potential of a rigid, formalized approach. Much more so for the general field of humanities education and scholarship; this »will not take the use of digital technology seriously until one demonstrates how its tools improve the ways we explore and explain aesthetic works – until, that is, they expand our interpretational procedures«.16 Some of the most rewarding computer-assisted studies of electronic texts focus on the identification of specific textual features. These features are usually repeated strings of characters – letters, syllables, individual words, word combinations and phrases – and their repeated occurrence can be traced by electronic means. Patterns of distribution can be generated, presences and absences can be mapped, and the results of computer-assisted procedures generate a complete survey of all phenomena found in the text. Two principles and methodical procedures are characteristic of this kind of analysis: a precise definition of the features to be analysed has to be produced prior to the analysis. This definition is by itself based on an examination of the text with a view to the scope of features found in the text, and in a next step stringent criteria need to be established for the 15 16 Thomas Rommel: »And trace it in this poem every line.« Methoden und Verfahren computerunterstützter Textanalyse am Beispiel von Lord Byrons Don Juan. (Tübinger Beiträge zur Anglistik; 15). Tübingen: Narr 1995, p. 384. Jerome J. McGann: Radiant Textuality, p. XII. (footnote 12). »Of what ist past, or passing, or to come« 209 identification of patterns. The precise definition of features and criteria for inclusion in or exclusion from the analysis is one of the central requirements. Exceptions and possible variant readings need to be defined, and in this procedure of a minute description a computer-assisted study by far exceeds the rigour of a traditional stylistic analysis. The human reader will decide according to a set of rules whether to include or exclude phenomena, and these rules are applied stringently across the entire text with a view to the aim of the analysis, and »as error-prone manual sampling becomes obsolete, textual analysis as well as the ensuing interpretation of a text as a whole can be based on a complete survey of all passages meeting predefined patterns or criteria«.17 The computer needs to rely on a complete set of highly specific rules for the analysis. These rules will have to accommodate all possible findings that are of relevance to the analysis, and they will have to put in such a way as to identify rather more than less phenomena, because »you don't know what you are missing«, as Catherine Ball has it.18 The fundamental difference between computer-assisted studies of literature and those that rely on a human reader only are that the sets of findings are complete and accurate when compiled by the computer. While a human reader may arrive at the same result, every sampling is more error-prone when factors such as memory, attention, and the stringent application of pre-defined criteria are taken into consideration. It is indeed possible to compile complete sets of data from literary works by human readers – the medieval monks who manually produced the first concordances of the Bible are perfect examples of dedicated work that continued for months, uninterrupted. The notion that minute details in a text, such as repeated stylistic devices or function words that form the bulk of every text, do indeed influence the reader and reflect on the author of the text, is one of the fundamental assumptions of stylistics. In these cases, electronic procedures are most usefully employed. Stylometric analysis of authorship in attribution studies19 has shown that some textual characteristics can be analysed fruitfully, and one of the most important computer-based studies of li- 17 18 19 Thomas Rommel: »And trace it in this poem every line.« Methoden und Verfahren computerunterstützter Textanalyse, p. 384. (footnote 15). Cf. Catherine N. Ball: Automated Text Analysis. Cautionary Tales. In: Literary and Linguistic Computing 9 (1994), pp. 293-302. Cf. David I. Holmes: The Evolution of Stylometry in Humanities Scholarship. In: Literary and Linguistic Computing 13/3 (1998), pp. 111-117. 210 Thomas Rommel terature, John Burrows' Computation into Criticism, employs similar techniques.20 It is in this area of text analysis that a new study challenges established views and promises to engage both computer-assisted work and mainstream literary criticism in a new debate. In the summer of 2003 an inconspicuous headline caught the attention of literary critics: »Computer program detects author gender.«21 The somewhat more catchy subtitle, Simple algorithm suggests words and syntax bear sex and genre stamp explains to the non-specialist that certain textual properties can be identified by electronic means, and that these textual properties can be used to identify some characteristics of the author. Interestingly, sex and gender are taken as synonymous descriptive terms by the author of nature's ›scienceupdate‹. The article on which these and similar news reports are based was published by Moshe Koppel et alii as »Automatically Categorizing Written Texts by Author Gender« in Literary and Linguistic Computing.22 Koppel uses automated text categorization techniques and, by focussing on a specific set of lexical and syntactic features, manages to infer the gender of the author with about 80% accuracy. His team of computer scientists used automated text classification, and by relying on relatively small numbers of content-independent textual features such as function words they could observe »a difference in male and female writing styles in modern English books and articles«.23 For non-computing literary criticism the chapter »1.3 Gender« is most interesting. Here the strategies used in the analysis of English documents from the BNC are outlined: The object of this paper is to explore the possibility of automatically classifying formal written texts according to author gender. This problem differs from the typical text categorization problem which focuses on categorization according to topic. It also differs from the typical stylometric problem which focuses on au- 20 21 22 23 Cf. John F. Burrows: A Computation Into Criticism. A Study of Jane Austen's Novels and an Experiment in Method. Oxford: Oxford University Press 1987. Nature <http://www.nature.com/nsu/030714/030714-13.html> (27.1.2004). Moshe Koppel et al.: Automatically Categorizing Written Texts by Author Gender. In: Literary and Linguistic Computing 17/4 (2002), pp. 401-412. Also <http://www.cs. biu.ac.il/~koppel/male-female-llc-final.pdf> (27.1.2004). M. Koppel et al.: Automatically Categorizing Written Texts by Author Gender. (footnote 22). <http://www.cs.biu.ac.il/~koppel/male-female-llc-final.pdf> (27.1.2004) »8. Conclusions«. »Of what ist past, or passing, or to come« 211 thorship attribution – individual authors are more likely to exhibit consistent habits of style than large classes of authors.24 The problems described here highlights why attempts at identifying male or female authorship by electronic means – and by focussing on decontextualized text only – are difficult. And as there is little documented material to draw on, Koppel continues that »there has been scant evidence thus far that differences between male and female writing are pronounced enough that they could be parlayed into an algorithm for categorizing all unseen text as being authored by a male or by a female«.25 In 1975 Robin Lakoff maintained that »›Women's language‹ shows up in all levels of the grammar of English. We find differences in the choice and frequency of lexical items; in the situations in which certain syntactic rules are performed; in intonational and other supersegmental patterns.«26 Jennifer A. Simkins-Bullock and Beth G. Wildman are more reluctant to accept this view; in 1991 they state that there is an a-priori »lack of agreement about whether males and females use language differently«.27 But precisely this evidence of a noticeable (or measurable) difference is produced by the procedures of sampling and filtering described in the paper, and if the findings can be corroborated by others then this paper will probably be considered a major contribution to humanities computing. The implications of this analysis are far-reaching and of particular relevance to mainstream literary criticism. Here the problems of authorship, of writing, of sex and gender, and of the difference between author and narrator are central concerns. In his essay What is an author Michel Foucault maintains that »in a novel narrated in the first person, neither the first person pronoun, nor the present indicative refer exactly either to the writer or to the moment in which he writes, but rather to an alter ego whose distance from the author varies, often changing in the course of the work«.28 How can this statement be aligned with Koppel's findings that something of the author, some historical/biographical/personal information, can be detected in the text no matter how much the author 24 25 26 27 28 Ibid., »1.3 Gender«. Ibid. Robin Lakoff: Language and Woman’s Place. New York/London: Harper Collins 1975, p. 8. Jennifer A. Simkins-Bullock/Beth G. Wildman: An Investigation into the Relationship Between Gender and Language. In: Sex Roles, 24, 3/4 (1991), pp. 149-160. Here p. 149. Michel Foucault: What is an Author? In: David Lodge (Ed.): Modern Criticism and Theory. A Reader. London/New York: Longman 1988, pp. 197-210. Here p. 205. 212 Thomas Rommel tries to disguise it? If it can be shown that not every aspect of the text is under the control of the author, then the question arises how the artistic autonomy of the author is to evaluated. And it would be most promising to see if this is detected by the reader. Literary criticism maintains that everything that is in the text contributes to the overall impression of the text, that nothing is ›superfluous‹, that every textual feature in some way influences the reader. If the author's control over his or her text is limited in such a way as to reveal some important biographical facts about the author unintentionally, then some fundamental assumptions about control and textual features have to be questioned. If a text gives away the gender of its author, is it still possible for a female author to assume the persona of a male narrator (or vice versa) in a text? Can an author not get away from the tell-tale stylistic indicators that label him or her?29 Does this not mean that the author has far less control over the text, how it is perceived by the outside world – be this man or machine – and does this not severely impinge on what is commonly perceived as a mark of competence, that an author can assume any identity without giving away his or her true self? What about some of the most interesting narrative procedures in literature – simulation and parody – is it not possible for an author to camouflage fundamentals about his/her language?30 And, finally, are there no ›unmarked‹ texts, or would not it be possible to disguise the gender of an author? What about misclassified authors – why is Antonia S. Byatt's novel Possession the only text by a female author amongst the six misclassified fiction samples? If what Koppel and his co-authors have found is true, then no author, no matter how much he or she tries, can portray in a convincing way another person in a fictional text. No male author is then in a position to convey the views of a female character, no female author can assume the perspective and voice of a male character convincingly, because the language of the text will give away the gender of the author speaking through the narrator.31 And if this can be shown by means of an analysis 29 30 31 See the entry »Feminist Poetics«. In: Alex Preminger/Terry V. F. Brogan (Eds.): The New Princeton Encyclopedia of Poetry and Poetics. Princeton, NJ: Princeton University Press 1993, p. 404-407. Compare in this context the notion of »parodic practices« that »disrupt the categories of the body, sex, gender and sexuality«. Judith Butler: Gender Trouble. Feminism and the Subversion of Identity. London: Routledge 1990, p. XII. The related question of who uses whose language in the context of debates on sex and gender is discussed in Alicia Ostriker: The Thieves of Language. Women Poets and Revisionist Mythmaking. In: Elaine Showalter (Ed.): The New Feminist Criticism. Essays on Women, Literature, and Theory. New York: Pantheon 1985, pp. 314-338. »Of what ist past, or passing, or to come« 213 of textual properties, then, surely, it must have an effect on the reader. One may not be aware of gendered language right away, and in most cases readers do know something about the author anyway, because a look at the cover of the book one is reading quickly establishes the identity of the author – or the persona as whom he or she would like to be perceived. Koppel's contribution to automated text categorization techniques raises a number of questions about fictional texts that aim at the very basis of modern concepts of reader, text, and author. It remains to be seen if mainstream literary criticism perceives the potential of this study, and in how far some the implicationsof ›80% accuracy‹ will be dealt with by scholars not used to statistics.32 Automatically Categorizing Written Texts by Author Gender is a paper that has the potential to once again engage the marginal discipline of computer-based literary studies on the one hand and mainstream scholarship on the other in a fruitful debate. It is telling, however, that the impulse for this engagement should come from computer science, from ›the other‹. An evaluation of computer-assisted studies today of literature suggests a number of different developments that seem possible in the near future. It seems likely that with studies such as Koppel's on ›author gender‹ a controversial but fruitful debate between mainstream literary criticism, computer science, and computer-assisted literary criticism will evolve. Here a continuation of previous work will certainly contribute to a better understanding of what has already been achieved, and it is possible that through a re-evaluation of tested techniques the potential of computerassisted work will become apparent to a wider audience. Related to this is what David Robey sees as the interdisciplinary aspect of computer-related studies: »A decade ago we knew enough to relate common techniques to the various disciplines: we first suspected, then partly knew that humanities computing was concerned with a methodological common ground within which disciplinary boundaries did not apply.«33 This view of the nature of humanities computing has to be extended in the present situation. Specialists from the different disciplines, and this does not alone apply to literary studies, are asked to utilize the potential of interdisciplinary work: 32 33 A reduced list of features and/or criteria for example is central in this respect; cf. »10. Discussion« in Richard S. Forsyth/David Holmes: Feature-Finding for Text Classification. In: Literary and Linguistic Computing 11/4 (1996), pp. 163-174. Here p. 170 ff. David Robey: Round Table on New Directions in Humanities Computing. In: ALLC/ ACH 2002: New Directions in Humanities Computing. Conference Abstracts. Tübingen: ZDV 2002, pp. 106-109. Here p. 109. Thomas Rommel 214 The emergence of this multidisciplinary digital library has served not to fragment the methodological common ground but to emphasize its centrality and extend its breadth. The future directions for humanities computing therefore involve systematic exploration of this common ground to ensure that developments are coherent, cohesive and responsible to its cultural inheritance. Humanities computing specialists thus have a vital role as interdisciplinary and interprofessional mediators. The old model of support services is no longer valid: research should he seen us a common enterprise between ›technologists‹ and ›scholars‹.34 And finally a different view of what can be done with text analysis tools and literary texts is presented by Geoffrey Rockwell and others whose view of text and textuality enables new possibilities in humanities computing, particularly in computer-assisted literary studies. Geoffrey Rockwell argues that tools for text analysis themselves produce new texts that are generated through search processes. The idea is that the analysis of texts is by no means limited to the scanning for surface features, but that the potential of computer applications in the humanities, and more precisely in literary/textual studies, lies in opening up new views of text. According to Rockwell the concept of textuality itself and what scholars can do with those ›new‹ texts needs to be reconsidered.35 In this humanities computing faces great challenges, but it promises to bring out in computer-assisted literary studies the potential of what is past, or passing, or to come. Bibliography Ball, Catherine N.: Automated Text Analysis. Cautionary Tales. In: Literary and Linguistic Computing 9 (1994), pp. 293-302. Bloom, Harold: The Western Canon. The Books and Schools of the Ages. New York: Riverhead 1994. Burrows, John F.: A Computation Into Criticism. A Study of Jane Austen's Novels and an Experiment in Method. Oxford: Oxford University Press 1987. Butler, Judith: Gender Trouble. Feminism and the Subversion of Identity. London: Routledge 1990. Corns, Thomas: Computers in the Humanities: Methods and Applications in the Study of English Literature. In: Literary and Linguistic Computing 6/2 (1991), pp. 127-130. 34 35 Ibid. Cf. Geoffrey Rockwell: What is Text Analysis, Really? In: Literary and Linguistic Computing 18/2 (2003), pp. 209-219. »Of what ist past, or passing, or to come« 215 Forsyth, Richard S./David Holmes: Feature-Finding for Text Classification. In: Literary and Linguistic Computing 11/4 (1996), pp. 163-174. Fortier, Paul: Babies, Bathwater and the Study of Literature. In: Computers and the Humanities 27 (1993), p. 375-385. Foucault, Michel: What is an Author? In: David Lodge (Ed.): Modern Criticism and Theory. A Reader. London/New York: Longman 1988, pp. 197-210. Gabler, Hans-Walter: There is Virtue in Virtuality. Future potentials of electronic humanities scholarship. In: ALLC/ACH 2002. New Directions in Humanities Computing. Conference Abstracts. Tübingen: Zentrum für Datenverarbeitung ZDV 2002, pp. 40-41. Hockey, Susan: Electronic Texts in the Humanities. Principles and Practice. Oxford: Oxford University Press 2000. Holmes, David I.: The Evolution of Stylometry in Humanities Scholarship. In: Literary and Linguistic Computing 13/3 (1998), pp. 111-117. Jannidis, Fotis: Computerphilologie. In: Ansgar Nünning (Ed.): Metzler Lexikon Literatur- und Kulturtheorie. Stuttgart/Weimar: Metzler 1998, pp. 70-72. Koppel, Moshe et al.: Automatically Categorizing Written Texts by Author Gender. In: Literary and Linguistic Computing 17/4 (2002), pp. 401-412. Lakoff, Robin: Language and Woman's Place. New York/London: Harper Collins 1975. McGann, Jerome J.: Radiant Textuality. Literature After the World Wide Web. New York: Palgrave 2001. Ostriker, Alicia: The Thieves of Language. Women Poets and Revisionist Mythmaking. In: Elaine Showalter (Ed.): The New Feminist Criticism. Essays on Women, Literature, and Theory. New York: Pantheon 1985, pp. 314-338. Preminger, Alex/Terry V. F. Brogan (Eds.): The New Princeton Encyclopedia of Poetry and Poetics. Princeton, NJ: Princeton University Press 1993. Robey, David: Round Table on New Directions in Humanities Computing. In: ALLC/ACH 2002. New Directions in Humanities Computing. Conference Abstracts. Tübingen: ZDV 2002, pp. 106-109. Rockwell, Geoffrey: What is Text Analysis, Really? In: Literary and Linguistic Computing 18/2 (2003), pp. 209-219. Rommel, Thomas: »And trace it in this poem every line.« Methoden und Verfahren computerunterstützter Textanalyse am Beispiel von Lord Byrons Don Juan. (Tübinger Beiträge zur Anglistik; 15). Tübingen: Narr 1995. 216 Thomas Rommel Rommel, Thomas: The Internet Survey for English Studies. In: Doris Feldmann/Fritz-Wilhelm Neumann/Thomas Rommel (Eds.): Anglistik im Internet. Proceedings of the 1996 Erfurt Conference on Computing in the Humanities. Heidelberg: Carl Winter 1997, pp. 101-112. Simkins-Bullock, Jennifer A./Wildman, Beth G.: An Investigation into the Relationship Between Gender and Language. In: Sex Roles, 24, 3/4 (1991), pp. 149160. Smith, J. B.: Computer Criticism. In: Roseanne G. Potter (Ed.): Literary Computing and Literary Criticism. Theoretical and Practical Essays on Theme and Rhetoric. Philadelphia: University of Pennsylvania Press 1989, p. 13-44. Sutherland, Kathryn: Introduction. In: Kathryn Sutherland (Ed.): The Electronic Text. Investigations in Method and Theory. Oxford: Oxford University Press 1997, p. 1-18. Claus Huitfeldt Scholarly Text Processing and Future Markup Systems Abstract This paper gives a brief overview of the background and development of markup systems for text processing, concentrates on certain basic features of current markup systems and makes an attempt to discern tendencies that seem to be reaching into the future. It aims to show that markup technology is important for the humanities, but equally that the humanities disciplines are also important for markup technology. They have already contributed a great deal to the development of markup theory and markup systems, and future technological development may therefore benefit considerably from further contributions from the humanities. 1. Introduction The use of generic markup has become pervasive in nearly all kinds of document processing, and the number and diversity of systems, tools and applications for document markup has grown rapidly in recent years. The present account will concentrate on certain basic features of current markup systems and make an attempt to discern tendencies that seem to be reaching into the future.1 It aims to show that markup technology is important for the humanities, but equally that the humanities disciplines are also important for markup technology. They have already contributed a great deal to the 1 Needless to say, this account is constrained by the perspective and the limited knowledge of the author. My knowledge of markup is based primarily on experience from the work of the Text Encoding Initiative <http://www.tei-c.org/> (22.1.2004), the Wittgenstein archives <http://www.aksis.uib.no/projects/wab> (22.1.2004), and research on problems concerning markup of complex documents <http://www. aksis.uib.no/projects/mlcd> (22.1.2004). – Many thanks to Michael SperbergMcQueen (World Wide Web Consortium), Sebastian Rahtz (Oxford University), Ralph Jewell (University of Bergen and Tone Merete Bruvik (Aksis, Bergen) for their comments and advice during my work with this article, the shortcomings of which they are of course in no way responsible. 218 Claus Huitfeldt development of markup theory and markup systems, and future technological development may therefore benefit considerably from further contributions from the humanities. 2. The Rise and Growth of Generic Markup What is markup, and why is markup relevant to the concerns of scholarly text processing? According to one view, all texts, i.e. not only electronic documents, are marked up. On such a view the reason why humanities scholars should care about markup is simply that markup reflects the structures of texts,– whether in the form of electronic, printed, manuscript or other written documents.2 But another view has it that markup simply consists of the codes or reserved character strings which are inserted into the stream of characters of electronic text files in order to denote or signal features of the document which cannot readily be conveyed by characters directly representing its verbal content. In other words, markup consists of character strings carrying information about other character strings. Also on this view it may firmly be maintained that virtually all electronic texts are marked up. In the early days of text processing, the lack of a universally accepted standard for document representation posed a serious problem. Software manufacturers employed their own separate encoding systems in the form of proprietary file formats, and for a long time they seemed to regard these systems as a strategic means of holding on to their customers. In any case they did usually not make documentation of their systems publicly available. Unfortunately this made it difficult not only for competitors, but also for users to understand these encodings. The lack of publicly available documentation and the corresponding lack of standards made the exchange and reuse of electronic texts as well as software for text processing difficult and costly in terms of resources. Furthermore, most encoding systems were directed towards capturing and controlling the visual appearance of documents rather than their intellectual structure and contents. This kind of encoding merely replicated the functionality of print technology without taking advantage of new possibilities provided by the digital media. Documents with such proce2 This is the view expressed in one of the most influential articles written on markup theory, an article to which also the title of the present text alludes: James H. Coombs/Allen H. Renear/Steven J. DeRose: Markup Systems and the Future of Scholarly Text Processing. In: Communications of the ACM 30/11 (1987), pp. 933947. Scholarly Text Processing and Future Markup Systems 219 dural or presentational3 markup were well suited for publication, but less well for computer-assisted retrieval, linguistic analysis and other uses which are peculiar to digital texts. The result of this was considerable expense and inconvenience for users in general, but quite possibly an even greater problem in the humanities than elsewhere. Whereas other disciplines use texts primarily as a medium for the transmission of information about some object of study, in the humanities the object of study is often the text itself. In other settings texts tend to be of relevance for only limited periods of time, yet in the humanities scholars work with texts that are transmitted over hundreds or even thousands of years. Moreover, any text is a potential object of future historical interest. For humanities research it is therefore important not just to facilitate the exchange and reuse of the texts that record the results of research, but also to ensure that texts produced in very different contexts can be preserved in a form that will make them accessible also to research in the future. In addition, humanities research often has to rely on software specially developed by those who work in the respective research environments. On top of the expense of developing this software there were the costs of maintaining it and ensuring that it can be used on texts stored in various and ever-changing formats. Scholars, and the institutions responsible for conserving source materials, such as archives and libraries, were among the first to encourage standardization of the formats used in text representation. Internationally, considerable effort was (and still is) invested in the development of common standards for text encoding. Major players in the computer industry itself threw their support behind these developments, the principal aim of which can be described as improved efficiency in the production and distribution of electronic texts and the relevant software. One outcome of these efforts was the adoption of Standard Generalized Markup Language (SGML) as an ISO standard in 1986.4 In its simplest forms, SGML markup lends itself to a straightforward model for markup interpretation and processing: the features of a docu3 4 This use of the term ›presentational‹ is not strictly in accordance with the taxonomy given in J. H. Coombs et al., where the visual layout itself is what is considered ›presentational markup‹. It has become customary, however, to use ›presentational markup‹ to refer to markup which records (or ›is about‹) visual layout. SGML: Information Processing – Text and Office Systems – Standard Generalized Markup Language (SGML), ISO 8879-1986, Geneva: International Organization for Standardization 1986. 220 Claus Huitfeldt ment are represented by SGML elements, which nest within each other and which normally contain character strings representing the verbal contents of the document. An SGML document therefore has a natural representation as a tree whose nodes represent elements and whose leaves represent the characters of the document. The structure of the elements, i.e. the legal forms of the document tree, may be restricted using a Document Type Definition (DTD), which provides a form of context-free grammar. The document structure may thus be checked by a validating SGML parser. SGML is a flexible and powerful tool. Its power consists above all in its ability to give users control over the document structure by designing DTDs against which documents can be validated. Its flexibility consists in providing users the possibility to design their own DTDs with tag vocabularies suited to their individual needs, instead of a pre-defined and fixed tag set. Although in principle SGML can be used also for other purposes, the SGML community has strongly recommended so-called descriptive markup, as opposed to presentational or procedural markup. Users should in general not mark up their documents' visual appearance, but rather features ›underlying‹ the typography of conventional printed documents.5 Work on the Text Encoding Initiative (TEI) began in 1987, just one year after SGML had been approved as an ISO standard. The TEI Guidelines for Electronic Text Encoding and Interchange,6 the result of a collaborative effort by a hundred or so researchers from a variety of humanities backgrounds, was published in 1994. The TEI Guidelines describes one of the most comprehensive and advanced text markup systems ever devised. The TEI Guidelines provide not a single DTD but a set of DTD fragments and an environment for creating customized DTDs. One such customization, known as TEILite, has become particularly popular. However a number of circumstances slowed down SGML's adoption and success during its first decade. The most important reason probably was the complexity of the standard itself. SGML incorporates many complicated optional features. Due to abbreviation options element boundaries cannot be reliably determined without reference to the document grammar. Thus, even a non-validating parse of a document is 5 6 Cf. J. H. Coombs et.al.: Markup Systems. (footnote 2). TEI P3:C. Michael Sperberg-McQueen/Lou Burnard (Eds.): TEI P3: Guidelines for Electronic Text Encoding and Interchange. Chicago/Oxford/Providence/Charlottesville/Bergen: ACH-ACL-ALLC 1994. Scholarly Text Processing and Future Markup Systems 221 not possible without processing the DTD. In addition, SGML includes several other features which makes it difficult to write parsing routines. Consequently, SGML software development proceeded slowly. Since 1993, the propagation of SGML received a considerable boost from the explosive rate of growth of the World Wide Web. The document standard used on the web, known as HTML (HyperText Markup Language), is based on SGML, allowing us to claim that the incredible popularity of the Web also represents a success for SGML. Even though HTML is an SGML-based standard, it has a number of peculiar characteristics that conflict with many of the fundamental ideas underlying SGML. Firstly, the user cannot alter the DTD, which means that HTML is essentially static. Secondly, HTML is far more appearance oriented than content oriented. Thirdly, the opportunities for automatic validation are only minimally exploited.7 These drawbacks of HTML led many people, not least in academic circles, to start looking for alternative ways to transfer SGML documents via the web. It was against this background that work was begun on XML (Extensible Markup Language). The aim was to combine the simplicity of HTML with the expressive power and flexibility of SGML. The World Wide Web Consortium published XML as a W3C Recommendation on February 10, 1998.8 XML has retained important features of SGML, such as the simple notation lending itself to a data model representing a document as a tree structure, the possibility of constraining document structure by means of a DTD, and the freedom of the user to define his own tag sets with their associated DTDs. The basic difference to SGML is that markup abbreviation has been eliminated so that a document can be parsed without access to its DTD. Many other, less used, but complicating mechanisms of SGML have also been eliminated. Compared to SGML, software development for XML is consequently much easier. Like HTML, XML has enjoyed considerable success, albeit of a different kind. XML documents can easily be converted to HTML. It has become common practice to prepare and exchange documents in XML, and then to generate HTML for the visual presentation of those documents on the web. Great quantities of web content therefore use HTML 7 8 A. H. Renear/David Dubin/C. Michael Sperberg-McQueen/Claus Huitfeldt: XML Semantics and Digital Libraries. In: Catherine C. Marshall/Geneva Henry/Lois Delcambre (Eds.): Proceedings of the ACM/IEEE-CS Joint Conference on Digital Libraries. Houston, May./New York: Association for Computing Machinery 2003, pp. 303-305. The World Wide Web Consortium <http://www.w3.org/XML/> (22.1.2004). 222 Claus Huitfeldt exclusively as a presentation format, with XML as the underlying primary format. Much SGML and HTML-based data and many associated applications have been or are in the process of being converted to XML. For example, HTML itself is now available in an XML-based version: XHTML.9 Moreover, whereas TEI P3 (the version of the TEI Guidelines published in 1994) was based on SGML, TEI P4 (the follow-on version published in 2002)10 is simply an XML-based version of the same system. 3. Current Markup Technologies Although proprietary formats (like PostScript, PDF, RTF et cetera) are still widely in use, it is fair to say that XML is gaining ground at such a rapidly increasing pace that perhaps it is the predominant format for encoding and exchange of text documents already today, or at least it will be so in the near future. While part of the attractiveness of XML lies in its simplicity, a huge and potentially bewildering variety of related standards, technologies, applications and tools has emerged alongside XML, partly based on it and partly augmenting its capabilities. In this presentation, I limit myself to a brief mention of developments which seem particularly relevant to humanities computing (although none of them have been designed with humanities applications as their main object, and they all have other application areas as well). XSL (Extensible Stylesheet Language)11 is a set of specifications used primarily for transformation of XML documents to other forms of XML or to non-XML formats. XSL uses XSLT (XSL Transformations) for transforming documents; XPath (XML Path Language) to access or refer to specific parts of a document; and XSL-FO (XSL Formatting Objects) to specify document formatting. XML is suited for the representation not only of text documents, but also for database data. XQuery12 provides a query language similar to those known from relational database systems to XML data. XQuery is based partly on XPath, but provides additional functionality such as con9 10 11 12 The World Wide Web Consortium <http://www.w3.org/MarkUp/> (22.1.2004). TEI P4: C. Michael Sperberg-McQueen,/Lou Burnard (Eds.): TEI P4: Guidelines for Electronic Text Encoding and Interchange. Text Encoding Initiative Consortium. XML Version: Oxford/Providence/Charlottesville/Bergen. The World Wide Web Consortium <http://www.w3.org/Style/XSL/> (22.1.2004). The World Wide Web Consortium <http://www.w3.org/XML/Query> (22.1.2004). Scholarly Text Processing and Future Markup Systems 223 struction of new XML elements and attributes, reordering and suppression of selected data, data typing et cetera. XLink (XML Linking Language)13 provides mechanisms for creating and describing links in XML documents in familiar ways known from the unidirectional links of HTML, as well as more sophisticated hyperlinks. XPointer provides an addressing language – i.e. a language for specifying locations in XML documents – which is a superset of XPath. XLink can use XPointer expressions to specify the locations of link ends. XForms,14 one of the most recent additions to the wealth of W3C recommendations, replicates and greatly enhances the functionality of HTML forms for XML. In particular, XForms separates handling of data content from its presentation, and offers strong data typing. XML defines the structure of markup, but provides limited means of constraining element content and attribute values. W3C XML Schema15 allows DTD designers to define elements that respect complex data types, such as are found in high-level programming languages. Other schema languages for defining XML vocabularies are also in use; the two best known, after W3C XML Schema, are probably Relax NG and Schematron. Different XML markup languages often provide different vocabulary and grammar for semantically equivalent structures. The ISO HyTime specification Architectural forms16 allow DTD designers to design reusable modules and to define element types as synonyms or subtypes of other well-known element types. SMIL (Synchronized Multimedia Integration Language)17 is an XMLbased language that allows for the creation of streaming multimedia presentations of text, sound, still and moving images. Semantic Web18 refers to a number of interrelated XML-based research and standardization efforts which lie at the intersection of markup technology and knowledge representation. One of these enterprises is 13 14 15 16 17 18 The World Wide Web Consortium <http://www.w3.org/XML/Linking> (22.12004). The World Wide Web Consortium. See <http://www.w3.org/MarkUp/Forms/> (22.1.2004). The World Wide Web Consortium <http://www.w3.org/XML/Schema> (22.1.2204). Gary F. Simons: Using architectural forms to map TEI data into an object-oriented database. In: Computers and the Humanities 33/1-2 (1999), pp. 85-101 and ISO/IEC 10744:1997: Information processing – Hypermedia/Time-based Structuring Language (HyTime), 2nd ed. International Organization for Standardization, Geneva, May 1997, appendix A.3 Architectural Form Definition Requirements. The World Wide Web Consortium <http://www.w3.org/AudioVideo/> (22.1.2004). Tim Berners-Lee,/ James Hendler/ Ora Lassila: The semantic web. In: Scientific American 284, 5 (May 2001), pp. 35-43. 224 Claus Huitfeldt W3C's Resource Description Framework (RDF),19 another is the ISO Topic Maps standard.20 There also is a need to allow programs and scripts written in other languages than XSL to access and update the content, structure and style of XML documents. SAX (Simple API for XML) and W3C's DOM (Document Object Model)21 satisfy this requirement by means of an API (Application Program Interface) to the data structure that results from parsing an XML document. But how, more precisely, does all of this relate to the needs of the humanities? In general, and as explained above, use of openly specified non-proprietary formats, such as XML, in order to represent humanities research material, whether it is source material (literary or historical texts, databases et cetera) or the results of the research itself (monographs, articles et cetera), ensures that the documents are readable and exchangeable without loss or distortion of information independently of particular hardware and software platforms used. Because of the widespread use of XML-based technology in public as well as private sectors, hosts of software is available for processing of XML documents. Furthermore, XML allows projects or individual scholars to create and adapt XML-based tools and applications for their own purposes, without having to rely on the industry to provide such tools for them, while still being assured that what they do can be accessed and reused, as it is based on firm international standards.22 In order to give some more specific indication of what XML and related technologies may mean to the humanities, let us take a closer look at a typical kind of humanities project, e.g. the creation of a critical edition on the basis of some set of source manuscripts. One of the first requirements for such a project is to design or select a DTD appropriate for the purpose. Some projects will find that they can simply apply an existing DTD, such as e.g. TEI. Others will find that they need to customize an existing DTD or build one from scratch, and they may find that they want to exert stricter control over element and attribute content than XML itself allows. In the latter case, XML Schema may be of help. 19 20 21 22 The World Wide Web Consortium <http://www.w3.org/RDF/> (22.1.2004). Michel Biezunski/Martin Bryan/Steven R. Newcomb (Eds.): ISO/IEC 13250: 2000 Information technology – SGML Applications – Topic Maps. Geneva: International Organization for Standardization 2000. The World Wide Web Consortium <http://www.w3.org/DOM/> (22.1.2004). In practice XML and XML-based technologies such as XSL, XQuery etc. may be regarded as de facto industry standards. It should be noted, however, that they are socalled W3C ›recommendations‹ and not ISO standards. Scholarly Text Processing and Future Markup Systems 225 Once the DTD has been set up, source texts can be entered using virtually any text processing tool. Some editors will require markup to be typed into the texts manually, other, XML-aware editors, allow markup to be selected using graphical interface elements such as menus and toolbars. Some XML editors offer WYSIWYG options, employing XSL stylesheets to format the screen presentation of the text being edited. Transcriptions are validated either continuously during input, or manually at selected intervals, thus ensuring that the result of the transcription process is always a valid XML document. In projects like this, transcriptions are usually edited in several cycles. For example, after the first entering of the text by transcribers, others may go over the transcription adding markup for names and dates, for dramatic, metrical or thematic features etc cetera. There is often then a danger of inadvertently corrupting some of the transcription while editing other parts of it. The newly adopted XForms standard promises a solution to such problems. It allows projects relatively easily to create their own, specialized XML editors for editing selected elements while leaving others unaffected. XSL stylesheets will typically be designed for alternative presentations of the texts in varying degree of detail and according to project-designed specifications. By means of these stylesheets output files can be created in PDF, PostScript or other formats for the production of high-quality print, or in HTML for presentation on the Web. Web presentations can be enriched with RDF metadata for easier retrieval and cataloguing of the resource. RDF or topic maps can also be used for storing and linking the text resource with hypertextual and richly structured presentations of bibliographic or biographic data, which may in their turn be stored in and extracted from relational databases by means of XML interfaces based on e.g. XQuery. Associated material in the form of still or moving images and sound can be integrated into such presentations by use of SMIL or similar XML-based standards. Thus, nearly all aspects of traditional text-critical work as well as the traditional printed or hypertextual presentation of such material in combination with multimedial presentations of additional material may be done entirely within a framework of XML-based standards and technologies. And in the case that a project like this should find a need to develop its own software, the XML format is made accessible to most major programming languages by means of the DOM and SAX APIs. 226 Claus Huitfeldt 4. Recent Trends and Developments 4.1 XML Technologies Compared to the situation before the advent of SGML, it is fair to say that the currently widespread use of generic markup represents a victory over the proprietary formats that have been dominant earlier. Even the most popular word processing systems still based on such proprietary formats are now appearing in versions which include at least some support for XML (MicroSoft Office 2003, StarOffice, Word-Perfect). As already mentioned, however, proprietary formats like RTF or page description languages like PostScript and PDF are also still widely in use. It is not very likely that these formats will be completely replaced by generic markup. Quite on the contrary, we have seen that tools have been and are being developed for conversion of XML documents to such formats for purposes of visual presentation. On the other hand, while it is relatively easy to generate Postscript, PDF, RTF et cetera from XML, it is hard to do a conversion the other way around. Since documents stored in XML lend themselves to a number of other uses than just visual presentation, it is therefore likely that XML will replace the others as the most commonly used primary representational format for documents. That is not to say, of course, that XML itself will necessarily remain unchanged. In particular, the surrounding technology is rapidly changing and developing. As mentioned, one of the strengths of XML compared to SGML is its simplicity. Because of this simplicity, it was easy to develop extensions in the form of XML-based technologies and applications. In the five years that have gone by since XML went public, the number and variety of such extensions (some of which were mentioned in the previous section) have grown so high that it is hardly within the scope of any individual to be in command of all aspects of these technologies. Developing software to parse an XML document was and is within the reach of a few day's work for a skilled programmer, whereas developing software complying with and keeping up to date with the ongoing changes and developments in the various surrounding technologies requires quite considerable resources. At least two scenarios seem possible: Either, XML remains a narrowly defined core standard surrounded by increasingly complex related and XML-based standards and technologies, or XML itself is extended and modified to include parts of the currently surrounding technology. The first scenario carries with it a danger that the surrounding technologies Scholarly Text Processing and Future Markup Systems 227 will develop in incompatible and confusing ways; the second that XML loses its simplicity and itself becomes increasingly complex. In either case, it should be clear that what happens to XML-related technology in the future is of utmost importance to anyone who tries to keep up to date with document processing technology. 4.2 The Text Encoding Initiative The TEI Guidelines have found wide acceptance in the humanities community and are by now regarded as a major reference and used by a great number of projects within the humanities. As already mentioned, the first public version of the TEI Guidelines was published in 1994. In December 2000, a non-profit corporation called the TEI Consortium23 was set up to maintain and develop the TEI standard. The Consortium has executive offices in Bergen, Norway, and hosts at the University of Bergen, Brown University, Oxford University, and the University of Virginia. The Consortium is managed by a Board of Directors, and its technical work is overseen by an elected Council. One of the first actions of the TEI Consortium was to prepare and publish (in June 2002) an XML version of the Guidelines, called P4. Apart from ensuring that documents produced to earlier TEI SGMLbased specifications remain usable with the new XML-based version, P4 restricted itself to error correction only. The next version, P5, is already well under way and will contain more substantial extensions and improvements to the current version. A number of TEI work groups and task forces24 are currently working on proposals for inclusion in P5. The Character Encoding Workgroup is adapting the TEI's handling of character sets and languages to Unicode/ISO 10646 and providing users with advice on how they may migrate to Unicode. In the current version of the TEI Guidelines, documentation of character sets and languages are handled by the so-called Writing System Declaration. With Unicode/ISO 10646, which is required by the XML recommendation, the Writing System Declaration will become obsolete. Even so, there will still be a need to declare languages and writing systems independently of each other. The Work Group's recommendations will cater for this need. Another Work Group is charged with stand-off markup and linking issues. Stand-off markup, i.e. markup which is placed outside of the text it is meant to tag, has become increasingly widespread in recent years, 23 24 TEI Consortium: <http://www.tei-c.org> (22.1.2004). TEI Consortium: <http://www.tei-c.org/Activities/> (22.1.2004). 228 Claus Huitfeldt particularly in linguistics applications. It has proved useful for markup of multiple hierarchies as well as in situations when the target text cannot for some reason or other itself be modified. Links which go beyond the simple linking mechanisms of HTML are desirable in many of the same situations. The current TEI Guidelines already include methods for stand-off markup. The Guidelines also contain advanced mechanisms for linking, the so-called TEI Extended Pointers, which have provided an important part of the basis for the XML XPointer draft. The TEI Stand-off and Linking Work Group attempts to modify and extend the TEI Guidelines to answer to the needs of linguistic communities, as well as synchronizing the next version of the TEI Extended Pointers with the evolving XML XPointer standard. The TEI Guidelines contain mechanisms for the encoding of linguistic annotations using feature structure formalisms. This proposal is now generally recognized as covering many needs in the field of linguistics. Natural Language Processing (NLP) based on this proposal have further increased interest in this aspect of the TEI within the linguistics community. As the proposal is tightly integrated with the rest of the TEI scheme, its adoption offers the prospect of opening up the application of NLP techniques to a very wide community of users, while at the same time offering the NLP community access to a real-world range of different text types and applications. The Joint ISO-TEI activity on Feature Structures works in cooperation with the International Standards Organization (ISO TC37/SC4) in order to synchronize efforts to the effect that the P5 revised TEI encoding for Features Structures will at the same time be an ISO standard. The TEI Metalanguage Markup Workgroup may be said to deal with the conceptual as well as the logistic basics of the TEI. The TEI Guidelines are an example of literate programming, in which the documentation and the information required to build DTDs are combined in a single document. The web and print versions of the Guidelines, and the DTD modules, are all generated using a set of transformations. The Metalanguage Work Group works to simplify, document, and extend this internal literate programming language and replace existing dependencies on SGML or the DTD language. XML schema languages are being used within the markup to document markup constraints. In consideration of the large amount of text that has been prepared according to the SGML-based TEI P3 recommendation of 1994, the TEI Consortium recognizes a responsibility for facilitating effortless transition of these documents to later XML-based TEI versions. The TEI Migration Work Group collects case studies, provides examples and Scholarly Text Processing and Future Markup Systems 229 gives recommendations concerning strategies as well as software and best practice on conversion of TEI documents from SGML to XML. The above work group activities will result in proposals all or most of which will probably be included in P5, which is planned for publication in the course of 2004. P5 will also include other substantial and general changes compared to earlier versions. For example, the document grammar will be expressed in an XML Schema language (Relax NG), as well as an XML DTD. The Guidelines will define a TEI namespace, facilitating inclusion of elements from other XML standards in TEI documents, and vice versa. The methods for combining various TEI DTD fragments will make use of newer and simpler mechanisms than the traditional parameter entity-based methods. Last, but not least: The TEI root element will be changed from TEI.2 to TEI.25 In addition to the Work Groups mentioned so far, the TEI also organizes Special Interest Groups (SIGs). SIGs reflect user community interests not yet implemented in the form of work groups, and may as such be considered candidate work groups. Therefore, a quick overview of the current TEI SIGs may also give some indication in which way the consortium may be drifting in the years to come. SIGs have been established on subjects as diverse as Manuscript transcription and description; Human Language Technologies; Training TEI Trainers; Graphics and Text; Overlapping Markup; Multilingual markup; Presentation Issues; Authoring Issues; User Interface Issues; Digital Libraries. 4.3 Beyond XML With what has been said so far, it might seem as if generic markup today is all about XML. Even so, a number of alternative technologies have been proposed, or are under development.26 Many of these have been developed or proposed in response to what is seen by some as weaknesses of XML. However, before going into such purported weaknesses, let us remind ourselves of the particular strengths of XML. Considering the fact that SGML was around for more than a decade without having anywhere near the success of XML, which experienced such tremendous success 25 26 One immediate effect is that the downward compatibility between different versions will be broken – any P4 (or earlier) TEI document will ipso facto be invalid in P5. However the TEI will continue to maintain P4 for any foreseeable future, and provide help and guidance in converting documents from earlier to later versions. See e.g., Steven J. Murdoch: Markup Language Survey <http://www.cl.cam.ac.uk/ users/sjm217/projects/markup/survey/> (22.1.2004). 230 Claus Huitfeldt almost immediately after its release, it is tempting to ask what it was that XML added to SGML. One answer is that XML added nothing to SGML: As mentioned, XML is a proper subset of SGML. Another answer is that what XML added was simplicity, by taking away many of the specialized features which admittedly make SGML in many ways both more expressive and more flexible, but also more complex and difficult to use than XML. The full answer, thus, is that XML not only removed some bells and whistles, but also managed to retain what constitutes the most basic and important features of XML. So the strengths of XML are those of SGML, i.e. the tight integration and mutual support of a simple linear form (the angle bracket notation), a natural interpretation in the form of a well-known data structure (the document trees), and a powerful constraint language (the DTD).27 Now, to the weaknesses. Common complaints about XML is that it provides poor support for interactive, multi-medial or multi-modal documents, that it does not have a well-defined semantics (or no semantics at all), and that it does not support the encoding of overlapping hierarchies and other complex structures.28 The first complaint, that XML provides poor support for interactive, multi-medial or multi-modal documents was to a large extent justified not so long ago, when e.g. Macromedia Flash provided better support for interactive and multi-medial streaming data. With the latest developments within XML-based technologies and standards such as e.g. SVG, SMIL and EMMA,29 however, this objection becomes increasingly irrelevant. The second complaint, that XML is a purely syntactic specification and has no semantics,30 is often countered with the claim that being a 27 28 29 30 C. Michael Sperberg-McQueen: »What matters?« Extreme Markup Languages 2002. Montreal/Canada, August <http://www.w3.org/People/cmsmcq/2002/whatmatters. html> (22.1.2004). By ›complex structures‹ I refer to such structural phenomena as overlapping elements, overlapping hierarchies, discontinuous elements, multiple alternative ordering of elements, structured attributes etc. – in short ›complex structure‹ is here admittedly defined simply as any structure not straightforwardly representable in SGML/XML. Cf. <http://www.aksis.uib.no/projects/mlcd> (22.1.2004). The World Wide Web Consortium <http://www.w3.org/Graphics/SVG/>, <http:// www.w3.org/AudioVideo/> and also <http://www.w3.org/TR/EMMAreqs/> (each 22.1.2004). This may seem confusing in relation to another claim which is also often made, namely that XML is semantic markup. Unfortunately, the term ›semantic‹ in such contexts seems to have been confused with the more appropriate terms ›descriptive‹ or ›declarative‹. The point is that XML provides syntax, but no vocabulary, and thus no seman- Scholarly Text Processing and Future Markup Systems 231 purely syntactic standard is precisely one of the strengths of XML.31 Even so, a generally applicable formal method of expressing the semantics of particular XML-based markup systems would be of great advantage to markup translation, document authenticity verification and a number of other common tasks. Considerable progress has been made in attempts to develop a formal semantics for XML markup,32 but much work remains to be done in this area. Many projects have addressed the third complaint, i.e. the problem that XML does not support complex document structures. It should be noted that this problem is easily explained by the tight integration between linear form, data structure and constraint language just mentioned. XML is based on a context-free grammar, which presupposes exactly the hierarchical structures we find imposed by XML. If one were to let go of the hierarchical nesting of elements in XML documents, there would be no known way of retaining the tight control over document structure provided by the DTD mechanism as we know it.33 Among complex structures, overlapping hierarchies are the ones which have received most attention. Overlap is ubiquitous in documents – pages, columns and lines often overlap chapters, paragraphs and sentences in printed material, verse lines often overlap metrical lines in dramatic poetry, hypertext links and anchors overlap in hypertexts et cetera. The original SGML specification actually does have a mechanism which allows for the encoding of documents as overlapping hierarchies, i.e. CONCUR.34 Unfortunately, this feature suffers from certain technical complications, it has only very rarely been implemented in SGML software, and it has been entirely removed from XML. 31 32 33 34 tics. – Another source of confusion is that XML is sometimes used to represent semantics, e.g., in RDF, TopicMaps and other XML-based semantic web activities. In these cases, however, XML is used as a tool to represent the semantics of some subject matter other than XML. The various semantic web activities do not in general try to provide XML itself with a semantics. See e.g., Tim Bray,: On Semantics and Markup <http://www.tbray.org/ongoing/ When/200x/2003/04/09/SemanticMarkup> (22.1.2004). See for example, the BECHAMEL project: David Dubin/C. Michael SperbergMcQueen/Allen Renear/Claus Huitfeldt: A logic programming environment for document semantics and inference. In: Literary and LinguisticComputing, 18/2 (2003), pp. 225-233. (This is a corrected version of an article that appeared in 18/1 pp. 39-47). – At the risk of making confusion complete, it should still be mentioned that this formal semantics may in turn be represented in e.g., RDF or TopicMaps, although the BECHAMEL project currently uses other forms of representation. C. Michael Sperberg-McQueen: »What matters?« (footnote 27). C. Michael Sperberg-McQueen/Claus Huitfeldt: Concurrent document hierarchies in MECS and SGML. In: Literary and Linguistic Computing 14/1 (1999), pp. 29-42. 232 Claus Huitfeldt TEI has given a lot of attention to overlapping hierarchies, and provides a number of mechanisms to deal with them, such as milestone elements, so-called virtual elements and stand-off markup.35 These are the methods most commonly used to represent overlapping hierarchies in XML today. A general drawback with these methods is that they presuppose customized processing in order to be effective. An example of a more radical proposal is the ›Just-In-Time-Trees‹ .36 According to this proposal, documents may still be stored using XML, but the XML representation is processed in non-standard ways and may be mapped on to different data structures than those known from XML. Other and yet more radical proposals, which also attempt to solve problems with complex structures beyond overlap (i.e. including discontinuous elements, alternate ordering et cetera), offer alternatives to the basic XML linear form as well as its data model and processing model. One such approach is the MLCD project with its TexMECS notation and GODDAG data structure,37 another is the LMNL project, also with an alternative notation and a data structure based on Core Range Algebra.38 Both proposals claim downward compatibility with XML. However, none of these proposals provide constraint languages anywhere near the strength of the XML DTD mechanism for their proposed solutions to markup systems dealing with complex structures.39 As long as this problem remains unsolved, it is unlikely that these proposals will be considered serious alternatives to XML, at least by the larger community. 5. Conclusion While there is no reason to believe that XML is forever, there is every reason to believe that generic markup has come to stay with us for a long while. In a broader perspective, a curious fact about XML should not go unmentioned: XML came from the document world, soon bridged the 35 36 37 38 39 David Barnard, et al.: Hierarchical Encoding of Text: Technical Problems and SGML Solutions. In: Computers and the Humanities 29/3 (1995), pp. 211-231. Patrick Durusay: Just-In-Time-Trees (JITTs), see e.g., <http://sbl-site2.org/Extreme 2002/> (22.1.2004). C. Michael Sperberg-McQueen/Claus Huitfeldt: Markup Languages for Complex Documents, see <http://www.aksis.uib.no/projects/mlcd> (22.1.2004). Jeni Tennisson/Wendell Piez: The Layered Markup and Annotation Language (LMNL) <http://xml.coverpages.org/LMNL-Abstract.html> (22.1.2004). XML Schema allows for the expression of some context-sensitive constraints on XML documents. However providing a general constraint language for complex structures is another and more demanding task. Scholarly Text Processing and Future Markup Systems 233 gap to the database world, and is now used for representation also of non-textual material as diverse as e.g. graphics, mathematical and chemical notation, and music.40 Thus, generic markup seems to be turning into a general tool for what might be called knowledge representation, in fields widely different from textual studies and document management. It is to be expected that these other fields will contribute considerably to solutions to known problems, as well as presenting generic markup systems with entirely new problems to tackle. In other words, the humanities is far from the only field which has a role to play in this development. It is worth noting, however, that the humanities have already made important contributions to the development of markup systems. In this situation it is a deplorable fact that many humanities scholars still regard markup as a product of computing technology and thus a purely technical tool of no interest or concern to humanities scholarship. The experience and expertise of textual scholars may turn out to be essential, and they have a correspondingly high responsibility to make their methods available and adopt them for use in a digital environment. Textual scholars should not relate to markup technology as passive recipients of products from the computing industry, but rather be actively involved in the development and in setting the agenda, as they possess insight which is essential to a successful shaping of digital text technology. 40 For graphics, see e.g., SVG <http://www.w3.org/Graphics/SVG/> (22.1.2004), for mathematical notation MathML <http://www.w3.org/Math/> (22.1.2004), for Chemical markup language <http://xml.coverpages.org/cml.html> (22.1.2004), for music <http://xml.coverpages.org/xmlMusic.html> (22.1.2004). Abstracts zu Buch- und CD-ROM-Rezensionen Sebastian Donat: »Es klang aber fast wie deine Lieder…« – Die russischen Nachdichtungen aus Goethes West-östlichem Divan, Göttingen: Wallstein 2002 (= Münchener komparatistische Studien, Bd. 1). 504 S., [Buch + CD-ROM, Preis: 74,- Eur]. Abstract This research is centered on the russian translations and imitations of Goethe's late lyric work, the West-östlichen Divan from 1817 until 2000. The corpus is represented by the 800 adaptations of Goethe's poetical work which is itself composed of 320 pieces. The critical method includes a historical point of view and a more theoretical approach. On one hand the historical context is used as an explanation of the singularities of each translation. On the other hand, this study leads to a more general reflection on the poetics of translation and on the problem of the theory of lyric genders. The structure of this book presents two main parts. The first of which studies the different periods in the imitations of Goethe's work. From a historical point of view, it also analyses the successive russian conceptions of translation . The second one is a poetical study of the translations and imitations. It lays out the problem of lyric genders. The outside presentation of the book offers an original advantage: its cover includes a CD-ROM. Not only does it present the text of the book but also many documents (for instance a presentation of the poems and translations). The hypertext allows many uses of the text and documents, especially thanks to the ›search‹ or ›cut and paste‹ functions. For all these reasons, this book represents a very complete research on an important field of russian lyrics. It is a very original and new study on the poetics of translation: it finally leads to the issue of the frontiers between translation and creation, between both translated and national characters of poetry. It makes use of the specific methods of general and comparative literature at different levels. Rezensionstext siehe unter: <http://computerphilologie.uni-muenchen. de/jg03/franco.html>. Bernard Franco (Paris) 236 Abstracts zu Buch- und CD-ROM-Rezensionen Dieter Daniels: Vom Readymade zum Cyberspace. Kunst/Medien/Interferenzen. Ostfildern-Ruit: Hatje Cantz Verlag 2003. [Preis: 25,Eur]. Abstract Dieter Daniels, professor for history of art and media theory at the HGB (Hochschule für Grafik und Buchkunst; academy of visual arts) Leipzig, has put together four essays published between 1997 and 2001 to an insightful and inspiring book about the history and future of interactive media art. The book introduces to the alliance of art and media since Dada, compares avant-garde art (Readymade) with phenomena in mainstream media (Big Brother), it shows how ideas of avant-garde art has been perverted in mass media (the concept of interactivity), it finally discusses the deeper relationship between Duchamp's Large Glass and Turing's Black Box. In this book beginners will find many useful information. Those familiar with the subject will encounter some well-known arguments (including their shortcomings) as well as interesting perspectives worth further discussion. Rezensionstext siehe unter: <http://computerphilologie.uni-muenchen. de/jg03/simanowski3.html>. Roberto Simanwoski (Providence) Rainer Baasner/Kristina Koebe: wozu. was. wie. Literaturrecherche und Internet. Stuttgart: Reclam 2000, [CD-ROM], [Preis: 19,90 Eur]. Georg Rückriem/Joachim Stary: Techniken wissenschaftlichen Arbeitens. Berlin: Cornelsen 2001, [CD-ROM], [Preis: 19,95 Eur]. Abstract The review focuses on two recently published CD-ROMs that are intended for freshmen students. Rainer Bassner's and Kristines Koebe's hypertext-based introductory course covers important topics like the use of library catalogues and bibliographies but is limited to online sources. Rückriem's and Stary's e-learning course is programmed in Macromedia's Authorware and uses a pleasing mindmap-style user interface. The CD Abstracts vonBuch- und CD-ROM-Rezensionen 237 wants to serve as an introduction to writing research papers, but also covers oral reports. Rezensionstext siehe unter: <http://computerphilologie.uni-muenchen. de/jg03/till.html>. Dietmar Till (Tübingen)