Georg Braungart – Karl Eibl – Fotis Jannidis (Hg.)

Transcription

[Rückseite Deckblatt 1]
JAHRBUCH
FÜR
COMPUTERPHILOLOGIE
5
mentis
PADERBORN
Redaktion: Uta Klein
Jahrbuch für Computerphilologie
Ludwig-Maximilians-Universität München
Institut für Deutsche Philologie
Schellingstr. 3/RG
D-80799 München
[email protected]
http://computerphilologie.uni-muenchen.de
Inhalt
Vorwort ...................................................................................................
7
Aufsätze
Roland Baier/Gesa Frömming/Burkhard Heise/Claudius Sittig:
Literarisches Leben. Datenbank zu den deutschsprachigen
Ländern 1945-2000. Projektbericht
<www.literarischesleben.uni-goettingen.de>..............................
9
Michael Meier: Autoren als Verleger: Die Zukunft der
wissenschaftlichen Kommunikation? ...........................................
23
Walter Morgenthaler: Gottfried Kellers Studienbücher
– elektronisch ediert ........................................................................
41
Andrea Opitz: Document Type Definitions zur Erschließung
von Gattungen des Barock im Internet. Ein Projekt an der
Herzog August Bibliothek Wolfenbüttel .....................................
55
Till Schicketanz/Kay Heiligenhaus: »Inseln im Meer
des Beliebigen«. Architektur und Implementierung eines
Internetportals Deutsch-jüdische Periodika.................................
65
Margrit Schreier: Pseudo-Dokumentationen:
Zum Verschwimmen der Grenze zwischen Realität
und Fiktion in den Medien.............................................................
95
Beiträge zur Tagung »The State of the Art in Humanities Computing«
vom 12. Dezember 2003
Peter Robinson: Where We Are with Electronic
Scholarly Editions, and Where We Want to Be.......................... 123
Norbert Fuhr: Information Retrieval Methods
for Literary Texts ............................................................................. 145
David S. Miall: Reading Hypertext. Theoretical Ambitions
and Empirical Studies...................................................................... 159
HyperNietzsche:
– Paolo D'Iorio: Cognitive Models of HyperNietzsche.
Dynamic Ontology and Hyper-Learning ..................................... 177
– Harald Saller: HNML - HyperNietzsche Markup Language ....... 183
– Michele Barbera/Riccardo Giomi: The Pearl-Diver Model.
The HyperNietzsche Data Model and its Caching System ....... 191
Thomas Rommel: »Of what is past, or passing, or to come«.
Electronic Analysis of Literary Texts............................................ 201
Claus Huitfeldt: Scholarly Text Processing and
Future Markup Systems .................................................................. 217
Abstracts zu Buch- und CD-ROM-Rezensionen
Sebastian Donat: »Es klang aber fast wie deine Lieder…« – Die
russischen Nachdichtungen aus Goethes West-östlichem Divan,
Göttingen: Wallstein 2002 (= Münchener komparatistische
Studien, Bd. 1), [Buch + CD-ROM]. (Bernard Franco) ............ 235
Dieter Daniels: Vom Readymade zum Cyberspace.
Kunst/Medien/Interferenzen. Ostfildern-Ruit:
Hatje Cantz 2003. (Roberto Simanowski).................................... 236
Rainer Baasner/Kristina Koebe: wozu. was. wie. Literaturrecherche und Internet. Stuttgart: Reclam 2000. –
Georg Rückriem/Joachim Stary: Techniken
wissenschaftlichen Arbeitens. Berlin: Cornelsen 2001.
(Dietmar Till) ................................................................................... 236
Vorwort
Der größere Teil der folgenden Beiträge geht auf eine Konferenz zurück,
die im Dezember 2003 anläßlich des fünfjährigen Bestehens des Jahrbuchs für Computerphilologie stattfand und vom Jahrbuch für Computerphilologie und dem Promotionsstudiengang Literaturwissenschaft der
Ludwig-Maximilians-Universität München ausgerichtet wurde. Der etwas
unbescheidene Titel der Konferenz lautete The State of the Art in Humanities Computing. Ziel der Konferenz war es nicht, einen Überblick
über das jeweilige Forschungsfeld zu geben, sondern aus ihrer jeweiligen
Perspektive die Forschungsfront zu bezeichnen. Was ist in allerletzter
Zeit an neuen Ergebnissen erbracht worden und welche aktuellen
Trends oder welche aktuellen Forschungsprobleme können die Beiträger
jeweils ausmachen? Wir möchten uns hier noch einmal ganz ausdrücklich
für die großzügige finanzielle Unterstützung durch den Promotionsstudiengang Literaturwissenschaft bedanken, die die Konferenz erst möglich gemacht hat.
Ein Alter von fünf Jahren ist eigentlich noch kein Anlaß, zurück zu
blicken, aber es sei hier doch zumindest an einige wichtige Stationen der
letzten Jahre erinnert. Die Idee zu einer Internet-Publikation entstand
1996 und zwar, wie wohl die meisten akademischen Ideen, während eines kurzen Gesprächs auf dem Gang zwischen den Büros. Das Projekt
startete als Website mit einer ausführlichen Linksammlung und Informationen zu dem, was im Englischen als ›Humanities Computing‹ bezeichnet wird, konzentrierte sich aber von Anfang an auf die literaturwissenschaftlichen Aspekte und ließ Computerlinguistik, quantitative Methoden
in der Geschichtswissenschaft und anderes beiseite. Ziel war es, die Literaturwissenschaft um ein neues Forschungsfeld zu ergänzen und auch
ein wenig herauszufordern. Außerdem interessierte es uns, mit den Möglichkeiten des Online-Publizierens zu experimentieren.
Den nächsten Schritt machte das Projekt mit dem Entschluss, dass ein
Teil der dort publizierten Texte auch im Druck erscheinen sollte. Wir
hatten vor allem zwei Gründe für diesen Entschluss: Wir wollten unseren zumeist jüngeren Kollegen, die im Jahrbuch publizierten, etwas in die
Hand geben können, das auch in den Augen der älteren Kollegen, die
über ihren Berufsweg entschieden, Substanz hatte. Außerdem war zu
diesem Zeitpunkt das Problem der Langzeitarchivierung nicht wirklich
gelöst.
8
Vorwort
Wir hatten das große Glück, Michael Kienecker als Verleger gewinnen
zu können, der eben seinen eigenen Verlag mentis gegründet hatte und
der, vorausschauender als viele in seiner Branche, die neuen Möglichkeiten und Probleme der digitalen Welt sah. Er ermöglichte uns die Publikation des Jahrbuchs ohne externe Finanzierung und hat uns in vielfältiger
Weise unterstützt.
Das Jahrbuch 2 brachte einen Wechsel in der Herausgeberschaft mit
sich: Volker Deubel verließ uns und Georg Braungart kam hinzu. Auch
die Website änderte sich. Anfangs hatte sie noch einen großen Serviceteil
enthalten, der sich an Literaturwissenschaftler im allgemeinen richtete –
nicht zuletzt, um unsere Kollegen zu diesem neuen Forschungsfeld zu
locken. Das erwies sich als ausgesprochen erfolgreich, aber auf Dauer
konnten wir schon aus Zeitgründen diesen allgemeinen Teil nicht weiter
aufrechterhalten und seine Funktion ist schon längst durch spezialisierte
Projekte von anderen übernommen worden.
Das Jahrbuch hat stets versucht auch inhaltlich, den allgemein interessierten Literaturwissenschaftler anzusprechen und neben den vor allem
an den Insider gerichteten Fachartikeln auch Überblicksdarstellungen zu
bringen. Dazu zählen auch Serviceleistungen im Forum Computerphilologie, wie etwa die CD-ROM-Liste, die alle CDs mit digitalen Editionen
verzeichnet. Den größeren Anteil haben aber sicherlich die fachwissenschaftlichen Beiträge zu allen möglichen Aspekten der Computerphilologie, sei es nun der klassische Schwerpunkt des elektronischen Edierens,
sei es das E-Learning für Literaturwissenschaftler oder auch so für viele
noch ungewöhnliche Themen wie Computerspielanalyse und die Rekonstruktion von alten Theatern in virtuellen Welten. All den Beiträgern der
letzten Jahre besten Dank.
Bereits nach fünf Jahren kann man feststellen, dass viele der Themen
und Fragestellungen, die anfangs exotisch waren, heute sehr viel selbstverständlicher geworden sind, und wir hoffen daher, dass unser Wunsch,
den einschlägig interessierten Wissenschaftlern ein Diskussionsforum zu
bieten, auch in Zukunft in Erfüllung gehen kann.
Ein besonderer Dank für ihre unermüdliche Mitarbeit am Projekt, an
der Website und dem Jahrbuch geht – wie jedes Jahr – an Dr. des. Uta
Klein und für die umsichtige Besorgung der Erstkorrekturen in diesem
Band an Frau Claudia Pichlmayr.
Georg Braungart/Karl Eibl/Fotis Jannidis
Roland Baier/Gesa Frömming/Burkhard Heise/Claudius Sittig
Literarisches Leben. Datenbank
zu den deutschsprachigen Ländern 1945-2000.
Projektbericht <www.literarischesleben.uni-goettingen.de>
Abstract
The Internet-database Literary Life reflects the growing interest in interdependencies between literary production, reception and communication
in relation to other fields and discourses. It aims to encourage occupation with and research on all aspects of literary life in the Germanspeaking countries from 1945 up to the present time. Provided is information on a variety of subjects such as literary prizes and exhibitions, literary debates and scandals, forms and aspects of political engagement of
writers or the activities of institutions of the literary field. The form of
presentation refrains from giving information bound in narrative structures, thus enabling the user to organize, combine and select materials
according to the requirements of the particular question asked. The article gives further insight into problems and advantages of the database's
design as well as its technical realization.
Welche Prozesse, in denen die Berufung auf ›Kunstfreiheit‹ eine Rolle
gespielt hat, hat es in der Bundesrepublik Deutschland gegeben? Wie
nimmt sich demgegenüber die Geschichte der Zensur und der Restriktionen aus? In welchen literarischen Debatten der Nachkriegszeit hat der
Antisemitismusvorwurf eine Rolle gespielt? In welchen Bereichen haben
Schriftsteller sich in den 80er und 90er Jahren politisch engagiert, und
inwiefern ändern sich Form und Anspruch dieses Engagements? Ist
Hans Werner Richters Zeitschriftenprojekt Skorpion 1947 nur aus politischen Gründen gescheitert, oder könnte auch die Papierknappheit nach
dem Krieg eine Rolle gespielt haben? Mit welchen anderen Literaturzeitschriften hätte es konkurrieren müssen? Wie unterscheidet sich die Literaturförderung in den deutschsprachigen Ländern, und lassen sich Niederschläge dieser unterschiedlichen Förderungspraxis in der literarischen
Produktion dingfest machen?
Fragen wie diese stehen nur selten im Mittelpunkt des literaturwissenschaftlichen Interesses. Sie zielen auf etwas, das mit einem zunächst umgangssprachlichen Begriff als ›literarisches Leben‹ bezeichnet werden
10
Baier/Frömming/Heise/Sittig
kann. Im Zuge des hier vorgestellten Projekts werden darunter jene
Strukturen und Prozesse verstanden, die in komplexen Gesellschaften literarische Kommunikation ermöglichen und beschränken. Mögliche
Fragestellungen nach dieser Bestimmung zielen vornehmlich auf die
›Rahmenbedingungen‹, die sozialgeschichtlichen Kontexte von Literatur,
auf Phänomene wie Literaturkritik, Literaturförderung und Literaturpreise, auf die Geschichte von Schriftstellervereinigungen, die Arbeit von literarischen Gesellschaften und Literaturarchiven, aber auch auf Phänomene der benachbarten gesellschaftlichen Felder, die mit dem literarischen Feld in Wechselwirkung stehen. Wenn sie von der Literaturwissenschaft als einer Textwissenschaft in den Blick genommen werden, erscheinen diese ›Rahmenbedingungen‹ oft nur als unverbindlicher ›Hintergrund‹, von dem die Texte sich schließlich durch ihre Literarizität abheben.
Doch sind auch die literarischen Texte als privilegierte Objekte der literaturwissenschaftlichen Aufmerksamkeit stets eingebunden in eine
Vielzahl situativer Kontexte und können je nach Perspektive auf die ausdifferenzierten gesellschaftlichen Teilsysteme, verschiedenen Felder und
Diskurse verschieden gelesen werden.1 Zudem ist ihre Semantik abhängig von der jeweiligen historischen und lokalen Situierung. Die prominente Frage nach der Zahl der deutschsprachigen Literaturen zum Beispiel lässt sich allein aus den literarischen Texten heraus kaum beantworten. Ein Blick auf die jeweiligen nationalen Kontexte zeigt, dass den Nationen als eingegrenzten »imagined communities«2 in vielerlei Hinsicht
als einem kommunikativen Rahmen für literarische Äußerungen mehr
Bedeutung zukommt, als im ›postnationalen‹ Zeitalter und in Zeiten der
Verlagskonzentration angenommen werden könnte. Zu beobachten sind
zum Beispiel unterschiedliche nationale »Sprachen der Vergangenheiten«3, unterschiedliche Grenzen der gesellschaftlichen Toleranz für Provokationen und unterschiedliche quasi-rituelle Reaktionen auf entsprechende Grenzüberschreitungen. Auch wird, wer etwa nach politischem
Engagement von Literaten 1968 in Österreich sucht, dort andere Formen des Protests finden als in der BRD. Mit Blick auf die Verlagssituati1
2
3
Vgl. Niklas Luhmannn: Die Kunst der Gesellschaft. Frankfurt a. M.: Suhrkamp 1995;
Pierre Bourdieu: Die Regeln der Kunst. Genese und Struktur des literarischen Feldes.
Frankfurt. M.: Suhrkamp 1999; Michel Foucault: Die Ordnung des Diskurses. Inauguralvorlesung am Collège de France, 2. Dezember 1970. Frankfurt a. M.: Suhrkamp
1977.
Vgl. Benedict Anderson: Imagined Communities. Reflections on the Origin and
Spread of Nationalism. London: Verso 1983.
Vgl. Ruth Wodak u.a. (Hg.): Die Sprachen der Vergangenheiten. Öffentliches Gedenken in österreichischen und deutschen Medien. Frankfurt a. M.: Suhrkamp 1994.
Literarisches Leben
11
on lassen sich zudem in Österreich und der Schweiz je verschiedene
(und verschieden erfolgreiche) Bemühungen beobachten, eigene Literaturverlage für die eigene Literatur zu gründen.4 Eine grundsätzliche ökonomische Konzentrationsbewegung im Verlagswesen lässt sich nicht von
der Hand weisen, doch führt diese Monopolisierung – wie ein Blick auf
die österreichischen und deutschen Bestsellerlisten zeigt – nicht notwendig auch zum selben Leseverhalten.
Ohne Zweifel ist das Interesse an der Kontextualisierung literarischer
Texte seit längerem im Steigen begriffen.5 Der allerdings immer noch zu
konstatierende Mangel an Arbeiten zu Phänomenen des deutschsprachigen Literarischen Lebens nach 1945 ließe sich zumindest teilweise auf
Vorbehalte der Fachdisziplin gegenüber der Gegenwartsliteratur zurückführen. Auch scheinen die Entstehungskontexte von Literatur nach 1945
nicht im selben Maße wie diejenigen älterer Texte erklärungsbedürftig.
Zudem aber, so eine Vermutung, fehlt ein Arbeitsinstrument, das die
Zusammenhänge in ihrer Komplexität veranschaulichen und einen ersten Zugang zu entsprechenden Daten ermöglichen würde. Fragt man
beispielsweise, etwa mit Blick auf Rolf Hochhuths Stellvertreter, nach literarischen Provokationen im kulturellen Feld, die religiöses Empfinden
verletzen, ließe sich einerseits vermuten, dass deren Zahl und Intensität
über die Jahre abnimmt, aber auch, dass dieser Prozess in verschiedenen
Ländern von verschiedenen Punkten seinen Ausgang genommen hat.
Wo aber könnte eine Recherche, die dieser Frage nachgehen wollte, ihren Ausgang nehmen?
Seit dem Jahr 2000 wird – finanziert durch die StiftungNiedersachsen
und die KulturStiftung der Länder – an der Universität Göttingen in Zusammenarbeit mit der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen6 eine Internet-Datenbank für die akademische wie nichtakademische Nutzung entwickelt, die ein entsprechendes Arbeitsinstrument zur Entwicklung solcher Fragestellungen und ein erster Ausgangs-
4
5
6
Vgl. Michael Klein (Hg.): Österreichische Literatur von außen. Personalbibliographie
zur Rezeption der österreichischen Literatur in deutschen und schweizerischen Tagesund Wochenzeitungen 1975-1994. Innsbruck: Innsbrkcer Zeitungsarchiv 1994 (Innsbrucker Veröffentlichungen zur Alltagsrezeption 1).
Vgl. z.B. das Projekt des New Historicism (zuletzt Catherine Gallagher/Stephen
Greenblatt: Practicing New Historicism. Chicago: University of Chicago Press 2000;
Jürg Glauser/Annegret Heitmann (Hg.): Verhandlungen mit dem New Historicism.
Das Text-Kontext-Problem in der Literaturwissenschaft. Würzburg: Königshausen &
Neumann 1999).
<www.gwdg.de> (22.1.2004).
12
punkt für die Forschungen zu ihrer Beantwortung sein soll.7 Die Leitung
des Projekts liegt bei Professor Wilfried Barner.
Entstanden ist es in einem pragmatischen Zusammenhang: Im 12.
Band der Geschichte der deutschen Literatur im Verlag C.H. Beck gelten
ausführliche Kapitel dem ›literarischen Leben‹ nach 1945.8 Bei der Suche
nach entsprechenden Vorarbeiten zeigte sich, dass nur punktuell auf ausführlichere Studien und Materialsammlungen zurückgegriffen werden
konnte.9 Insbesondere eine breite Sammlung von Daten, die einen Ausgangspunkt für die eigene Arbeit bieten konnte, war nicht greifbar, sondern musste erst aus disparaten Quellen kompiliert werden. Bei den Planungen im Vorfeld des Projekts war zunächst an einen konventionellen
Ergänzungsband zur Literaturgeschichte gedacht. Bald war jedoch klar,
dass die wünschenswerte Datenfülle zwischen zwei Buchdeckeln kaum
angemessen Platz finden würde (gegenwärtig rund 16.600 kalendarische
Einträge, 8.300 Publikationen, 3.100 Preisverleihungen, 13.100 Personen). Vor allem wäre sie durch kein denkbares Register ähnlich handhabbar geworden wie durch die Erfassung in einer Datenbank, die einer
7
8
9
<www.literarischesleben.uni-goettingen.de> (22.1.2004). Zu den jetzigen und früheren
Mitarbeitern des Projekts zählen und zählten Anna Maria Ahsbahs, Katrin Angrick,
Jutta Arzberger, Henning Bobzin, Désirée Bourger, Annabel Falkenhagen, Gesa
Frömming, Julia Berenike Herrmann, Gerrit Hoche, Ingo Kieslich, Michael Kruhöffer,
Silke Schomaker, Anne-Kathrin Schmucker, Claudius Sittig, Isabelle Sprang, Anne
Valk und Insa Wilke. Von Seiten der GWDG arbeiten und arbeiteten an dem Projekt
Roland Baier, Anne-Katrin Hillebrand und Torsten Unruh. Wir danken der Stiftung
Niedersachsen und der Kulturstiftung der Länder sowie dem Seminar für Deutsche
Philologie und der Universität Göttingen für ihre Unterstützung.
Vgl. Wilfried Barner (Hg.): Geschichte der deutschen Literatur von 1945 bis zur Gegenwart. München: Beck 1994 (Geschichte der deutschen Literatur von den Anfängen
bis zur Gegenwart, Bd. XII), dort im Vorwort S. XVIIIf. [Zweite, aktualisierte Auflage
in Vorbereitung].
Vgl. z.B. Sammelbände zu Literaturstreiten wie etwa Thomas Anz (Hg.): »Es geht
nicht um Christa Wolf«. Der Literaturstreit im vereinten Deutschland. München: Edition Spangenberg 1991; Oskar Negt (Hg.): Der Fall Fonty. Ein weites Feld von Günter
Grass im Spiegel der Kritik. Göttingen: Steide 1996; vgl. auch Heinz Ludwig Arnold
(Hg.): Literarisches Leben in der Bundesrepublik. Stuttgart: Reclam 1974; ders. (Hg.):
Literaturbetrieb in der Bundesrepublik Deutschland. Ein kritisches Handbuch. München: Text & Kritik 21981; die drei Bände Dokumente zur Kunst-, Literatur- und Kulturpolitik der. (1946-1970 hg. v. Elimar Schubbe, Stuttgart 1972; 1971-1974 hg. v. Gisela Rüß, Stuttgart 1976; 1975-1980 hg. v. Peter Lübbe, Stuttgart 1984). Zu nennen
wäre natürlich auch die wachsende Zahl an Monographien zu einzelnen Literaturpreisen oder an Dokumentationsbänden zur Geschichte einzelner Institutionen und Verbände.
Literarisches Leben
13
größtmöglichen Vielfalt potentieller Benutzerinteressen Rechnung tragen
kann.10
Die Datenbank baut auf dem damals gesammelten, inzwischen aber
erheblich erweiterten Datenmaterial auf. Somit enthält sie Einträge zu
den Institutionen und Praktiken des literarischen Feldes, Informationen
zu Buchmarkt, Zensurwesen, Literaturkritik, Preisen und Literaturförderung, Aktivitäten von Schriftstellervereinigungen, internationalen Literaturbeziehungen, Literaturstreiten und -skandalen sowie zu literarischen
Trends und Moden, aber auch zu öffentlichen Debatten sowie Daten des
politischen und des ökonomischen Feldes, die in Wechselwirkung mit
dem literarischen Feld stehen. Die Einträge sollen Orientierung auch
jenseits bisher kanonisierter Ereignisse bieten und möglichst unterschiedliche Kontextualisierungen anregen. Der Perspektive auf das literarische Leben im oben genannten Sinn entsprechend, aber auch aus
Gründen der Praktikabilität werden jedoch keine Inhalte der Publikationen indiziert. Repräsentiert sind die Themen literarischer Texte allerdings
bisweilen in Einträgen zu öffentlichen Diskussionen, die durch sie ausgelöst wurden.
Gearbeitet wird mit Quellen, die sich als Beobachtungsinstanzen verschiedener Ordnung qualifizieren lassen. Zeitgenössisch stehen Quellen
wie Manifeste neben Zeitungsberichten, daneben werden aber auch
Chroniken und literaturgeschichtliche Studien ausgewertet. Neben Ereignissen, die von den Zeitgenossen für bedeutsam gehalten wurden,
stehen damit auch Informationen, die erst in der Retrospektive als bedeutsam wahrgenommen werden. Unterschiedslos werden darum Ereignisse in die Datenbank aufgenommen, die bei den Zeitgenossen oder
Nachgeborenen Aufmerksamkeit erregt haben, oder denen zumindest
für denkbare Fragestellungen ein Potential an Bedeutsamkeit zugeschrieben wird. Die einzelnen Einträge werden möglichst neutral formuliert,
da sie von einer Einbindung in bereits interpretierte Kausalzusammenhänge frei gehalten werden sollen.
Eine weitere Recherche wird durch das Material der Datenbank leider
für diejenigen nicht obsolet, die an zitierfähigen Informationen interessiert sind. Denn in vielen Fällen müssen die Informationen der Datenbank aus verschiedenen Quellen kompiliert werden. Zu einem Ereignis
werden neben Ort und Datum – so weit es die Quellenlage ermöglicht –
Informationen über beteiligte Personen, Themen der Diskussionen oder
die mit dem Ereignis verbundenen Debatten und Ähnliches gesammelt.
Oft findet sich in den Quellen aber auch nicht mehr als eine Informati10
Zu den entwickelten Suchabfragen und zu den Nutzungsmöglichkeiten siehe weiter
unten.
14
on, die das Potential hat, eine Spur zu werden. So ist die Datenbank ein
erster Ausgangspunkt zur Orientierung und für Recherchen. Ausführlichere Bibliographien zu den benutzten Quellen werden jedoch im weiteren Verlauf der Arbeit auf die Seite gestellt.
Darüber hinaus wird die Datenbank auch eine breite Auswahl bibliographischer Angaben zur zeitgenössischen literarischen Produktion zugänglich machen. Bereits seit August 2000 sind Daten im Internet ohne
Zugangsbeschränkung kostenlos abrufbar; die Zugriffsstatistiken (derzeit
circa 240 Anfragen pro Tag) sind Ausweis für das Interesse an dem Projekt. Seit November 2003 ist ein breiter Datenbestand für die Jahre 1945
bis 2000 erfasst und die technische Realisierung weit gehend abgeschlossen. Seitdem wird das bisher erarbeitete Datenmaterial für die Jahre bis
2000 vertieft und zu bestimmten Themenkomplexen – wie etwa zur Rezeption der Migrationsliteratur, zu Preisverleihungen oder literarischen
Debatten – systematisch ergänzt, zunächst mit Hilfe der Bestände der
Göttinger Dokumantationsstelle zur deutschsprachigen Literatur nach
1945 (Leitung: Professorin Irmela von der Lühe), dann aber auch auf der
Basis der Bestände der Autorendokumentation der Stadt- und Landesbibliothek Dortmund, deren bis in die unmittelbaren Nachkriegsjahre
zurückreichender reicher Bestand an Zeitungsartikeln zu unterschiedlichsten Bereichen des Literarischen Lebens dem Projekt zugänglich sein
wird, sowie unter Auswertung digitalisierter Zeitungsbestände, die von
der Staats- und Universitätsbibliothek Göttingen zur Verfügung gestellt
werden. Nach und nach sollen dann auch im Zuge dieser Arbeitsgänge
erstellte, themenspezifische Bibliographien von Zeitungsartikeln auf der
Homepage des Literarischen Lebens abgerufen werden können. Außerdem soll die Datenbank um aktuelle Daten ab 2001 fortlaufend erweitert
werden. Dem Medium angemessen sowie für Benutzer wünschenswert
wäre sicherlich die Einbindung von Ton- und Bildzeugnissen sowie von
ausgewählten Texten; dazu müssten allerdings Antworten auf urheberrechtliche und finanzielle Fragen gefunden werden.
Technische Realisierung der Datenbank
Dem Entwurf der Datenbank ist das gegenwärtig dominierende relationale Datenmodell11 zu Grunde gelegt, das von den meisten freien und
kommerziellen Datenbankmanagementsystemen unterstützt wird. Die
11
Edgar F. Codd: A Relational Model for Large Shared Data Banks. In: Communications
of the Association for Computing Machinery, Vol. 13, No. 6, June, S. 377-387; Chris J.
Date: An Introduction to Database Systems. New York: Addison-Wesley 2003.
Literarisches Leben
15
Datenmodellierung zur Festlegung der Relationen (Tabellen), Attribute
(Felder) und Verknüpfungen (Beziehungen) resultierte in einem Set von
45 Tabellen. Diese können grob in vier Stammtabellen – entsprechend
den vier inhaltlichen Schwerpunkten »Ereignisse«, »Personen«, »Publikationen« und »Literaturpreise« – sowie 41 Auxiliartabellen unterschieden
werden. Die große Zahl an Tabellen rührt vornehmlich daher, dass die
Normalisierung12 der Relationen konsequent durchgeführt wurde. Dadurch werden Redundanzen vermieden und die damit verbundene Gefahr von inkonsistenten Daten minimiert. Ein Nachteil besteht darin,
dass auf Grund der Verteilung der Daten auf eine größere Anzahl Tabellen der Aufwand bei der Datensuche höher und die Performanz schlechter sein kann.
Die Datenstruktur wurde zunächst unter Microsoft Access implementiert. Access bietet sich an, weil es weit verbreitet und unkompliziert zu
bedienen ist, vor allem aber, weil die Möglichkeit der Verwendung bedienerfreundlicher Formulare zur Datenerfassung besteht. Bei der Eingabe beispielsweise eines kalendarischen Eintrags werden die unterschiedlichen dazugehörigen Informationen in unterschiedlichen Tabellen-Feldern erfasst: Neben einem ausformulierten Texteintrag, der das
Vorkommnis beschreibt, werden in anderen Tabellenfeldern angelegte
Orte, Staaten, der Zeitpunkt, beteiligte Personen und Schlagworte mit
diesem Texteintrag verknüpft. Mit einem Access-Formular lässt sich diese Dateneingabe bequem über eine einheitliche Bedienoberfläche vornehmen, ohne dass die komplexe Tabellenstruktur von den Bedienern
vollständig erfasst werden müsste: Die Verteilung der eingegebenen Daten auf die zutreffenden Tabellen besorgen im Formular integrierte Programme. Zu jeder der oben genannten Stammtabellen wurde ein spezielles Eingabeformular entwickelt, sowie weitere Formulare für Kontrolle
und Verifikation. Um die Handhabung der Formulare möglichst komfortabel, aber auch sicher gegen Fehlbedienung zu machen, wurden dafür
umfangreiche Visual Basic Programme (Visual Basic for Applications)
geschrieben.
Damit mehrere Personen gleichzeitig an der Datenbank arbeiten können, wurde von der Access-Datenbank eine Reihe von Replikaten hergestellt, deren Daten in regelmäßigen Zeitabständen in eine zentrale Instanz, den »Design-Master«, eingelesen und miteinander synchronisiert
werden.
12
Chris J. Date: An Introduction to Database Systems, Chapter 10 (Fußnote 7).
16
Formular
Die Datenbank im Internet
Wenn auch die Access-Datenbank bei der Datenerfassung große Vorteile
bietet, stellt sie für die langfristige Datenhaltung und die Veröffentlichung der Daten im Internet keine optimale Lösung dar. Als Plattform
für das »Deployment in the Web« ist ein High-End Datenbanksystem,
wie es mit Oracle in der GWDG zur Verfügung steht, die bessere Wahl.
Es zeichnet sich durch hohe Zuverlässigkeit und Datensicherheit aus.
Darüber hinaus sichern bei der GWDG bewährte Backup-Verfahren
mehrstufig die Oracle-Datenbankinhalte in die räumlich entfernt stehende Library eines Magnetband-Roboters. Mit »PL/SQL« besitzt Oracle
zudem eine mächtige und gleichwohl relativ leicht zu erlernende Programmiersprache, die für die Entwicklung Web-basierter Datenbankabfragen hervorragend geeignet ist.
Abgesehen von Unterschieden in den Feldtypen entspricht die Tabellenstruktur dieses Projektes unter Oracle derjenigen in Access. Die Daten lassen sich problemlos über die ODBC-Schnittstelle13 von Access in
die Oracle-Tabellen übertragen. Diese Übertragung wird in regelmäßigen
Abständen vorgenommen, sobald eine wesentliche Menge neuer Daten
mit Access erfasst und validiert ist. Der Vorgang, der das Leeren aller
Oracle-Tabellen, den Transfer der Daten von Access nach Oracle, und
13
Open Database Connectivity (ODCB) repräsentiert einen herstellerunabhängigen Mechanismus für den Datenzugriff auf eine Vielzahl von Datenquellen.
Literarisches Leben
17
die Erstellung der Suchindices in Oracle umfasst, bringt es mit sich, dass
die Datenbank für eine bestimmte Zeitspanne (circa eine Stunde) nicht
beziehungsweise nur eingeschränkt online zur Verfügung steht. Da dies
nur in größeren zeitlichen Abständen geschieht, ist dieses Manko sicher
akzeptabel.
Die html-Seiten für den Zugriff auf die Oracle-Datenbank Literarisches Leben sind durchweg dynamisch, das heißt sie werden von Computerprogrammen (in diesem Fall PL/SQL-Programmen) jeweils ad hoc
generiert. Dies trifft nicht nur auf die Anzeige der Suchergebnisse zu,
sondern auch auf die Suchformulare. Deren Inhalt wirkt zwar meist
durchaus statisch, er muss aber im Bedarfsfall, zum Beispiel zur Ausgabe
von Fehlermeldungen, flexibel modifizierbar sein.
In den meisten Suchmasken kommt JavaScript (zur Erweiterung der
html-Funktionalität) zum Einsatz; Datenbankbenutzer müssen folglich
einen JavaScript-fähigen Web-Browser verwenden. Mit Hilfe von JavaScript werden zum Beispiel die Sucheingaben der Benutzer noch vor
dem Absenden der Suchanfrage auf formale Fehler überprüft und gegebenenfalls Fehlermeldungen ausgegeben. JavaScript dient ferner dazu,
verschiedentlich Fenster mit Auswahllisten einzublenden; bei der
Schlagwortsuche ist es unverzichtbar zur Realisierung einer hierarchischen Auswahlliste der verfügbaren Schlagworte.
Schlagwortsuche
Der Datenbankbenutzer ruft schließlich in seinem Web-Browser die
Webseite mit der Suchmaske auf, das heißt, er startet auf dem Datenbankserver das Programm zur Erzeugung der Suchmaske. Such-
18
Abfragen werden vom Webserver, genauer vom Oracle Internet Application Server (iAS), der auf einem eigenen UNIX-Rechner läuft, entgegengenommen und als Anfrage an die Oracle Datenbank weitergeleitet.
Hier wird je nach Suchansatz das jeweilige PL/SQL-Programm (Stored
Procedure) angestoßen, welches sich seinerseits die gewünschten Informationen aus den Datenbanktabellen beschafft. Die Ergebnisse stellt das
PL/SQL-Programm in Form von html-Code zusammen und liefert es
über den Webserver an den anfragenden Client aus.
Einige Aspekte der Programmierung
Während der Entwicklung der PL/SQL-Programme für die Datenbanksuche zeigte sich, dass manche der erfassten Daten unzweckmäßig für
eine effiziente Datensuche sind, zum Beispiel bei der Datierung von Ereignissen. Hierzu können je nach Quellenlage oder der zeitlichen Ausdehnung des Ereignisses Angaben beliebiger Bestimmtheit in der Datenbank gespeichert werden, von der exakten Datumsangabe mit Tag, Monat und Jahr für Beginn und Ende eines Ereignisses bis zu einer bloßen
Jahresangabe. Dies erschwert die Programmierung einer »ZeitraumSuche« (Suche nach Ereignissen in einem bestimmten Zeitraum) erheblich. Die Lösung besteht hier darin, alle ›unvollständigen‹ Datumsangaben in sinnvoller Weise zu komplettieren. Aus einer Datierung wie zum
Beispiel »Mai 1960« wird der Zeitraum 1.5.1960 - 31.5.1960 abgeleitet,
aus »1946« wird 1.1.1946 - 31.12.1946. Diese abgeleiteten Datumsangaben werden in zusätzlichen Tabellenfeldern der Datenbank gespeichert
und ermöglichen nun eine elegante und effiziente Datenbanksuche nach
Ereignissen innerhalb frei gewählter Zeiträume.
Wenn bei einer Suchabfrage viele Tabellen einbezogen werden müssen, besteht die Gefahr, dass die Programme für die Datenbanksuche
komplex und ineffektiv werden. Das gilt insbesondere für die Kombinierten Suchen. Hier wurde so verfahren, dass die relevanten Daten aus
verschiedenen Tabellen(feldern) in einer eigens angelegten zusätzlichen
Tabelle zusammengeführt wurden, so dass Suchvorgänge nur noch in
dieser einen Tabelle stattfinden müssen. Die Suchprogramme können
deshalb kompakter ausfallen und ihre Ablaufgeschwindigkeit ist höher.
Erkauft wird dieser Vorteil damit, dass nun ein Teil der Daten redundant
gehalten wird.
Ein wichtiger Gesichtspunkt bei der Entwicklung der Suchverfahren
betrifft die Frage des Sucherfolgs. Der Benutzer sollte die Möglichkeit
haben, eine ›unscharfe‹ Suche mit nicht exakt festgelegten Suchbegriffen
vorzunehmen. Dies wird erreicht, indem zum einen Jokerzeichen (›Wild-
Literarisches Leben
19
cards‹) in Suchbegriffen zugelassen sind. Zum anderen wird durch den
Einsatz des Oracle-Tools Intermedia Textsuche eine beträchtliche Erweiterung der Suchmöglichkeit erreicht. So spielt, um nur einige Vorteile
zu nennen, die Groß-/Kleinschreibung des Suchbegriffs oder die
Schreibweise von Umlauten (zum Beispiel ›ä‹ beziehungsweise ›ae‹) keine
Rolle mehr. Ferner erlauben Suchoperatoren wie »AND«, »OR« oder
»NOT« die logische Kombination von mehreren Suchbegriffen, und mit
dem Operator »?« kann die Suche auf ähnlich lautende Worte ausgedehnt
werden.
Mögliche Abfragen
Die dargestellte Aufarbeitung der Daten ermöglicht es, mit Hilfe verschiedener Suchmasken das Material nach ganz spezifischen Gesichtspunkten zu durchsuchen. Die Datenbank ermöglicht dabei bei einfacher
Bedienung eine außergewöhnlich komfortable Bereitstellung von Informationen zu recht konkreten Interessengebieten, aktuelle Daten und
notwendige Korrekturen können dabei jederzeit eingefügt werden.
Die ›einfachen Suchen‹ liefern Ergebnisse unterschiedlicher Kategorien (zum Beispiel Buchtitel, kalendarische Ereignisse oder Preisverleihungen), gefiltert nach jeweils einem Einschränkungskriterium. Kalendarische Ereignisse lassen sich abfragen nach einem spezifischen Zeitraum,
wobei zwischen einer integrierten Ausgabe und einer nach Ländern getrennten Ausgabe unterschieden werden kann (Suche nach Ereignissen
in einem Jahr, beziehungweise nach Ereignissen in einem frei gewählten
Zeitraum), oder nach beliebigen in einem Kalendariumseintrag enthaltenen Begriffen (Volltextsuche). Außerdem können mit Hilfe einer hierarchischen Schlagwortliste Einträge abgefragt werden, so zum Beispiel alle
Einträge zu »Schriftstellervereinigungen«, einschränkend alle Einträge zu
institutionalisierten »Schriftstellerverbänden«, bis hin zur genauen Ausgabe aller Daten zum Beispiel zum »Verband deutscher Schriftsteller
(VS)« (Schlagwortsuche). Mit der Personensuche können alle in der Datenbank enthaltenen Einträge zu einer bestimmten Person (Ereignisse,
an denen sie beteiligt war, Preise, die sie erhalten hat, Publikationen, an
denen sie beteiligt ist) abgefragt werden. Die Publikationssuche ermöglicht es, durch Eingabe des Titels einer Publikation Informationen zu
Büchern, Zeitschriften, Literaturverfilmungen et cetera abzufragen.
Schließlich können noch Preisverleihungen in einem Jahr und Informationen zu Vergabekriterien, Stiftungsdatum, Dotierung et cetera zu einem bestimmten Literaturpreis abgefragt werden.
20
Die Formulierung komplexerer Fragestellungen wird vor allem durch
die ›kombinierten Suchen‹ möglich, in denen das eigentliche Potential der
Datenbank liegt. Hier können die Nutzenden die unterschiedlichsten
Einschränkungskriterien miteinander kombinieren und somit eine Fülle
spezifischer Anfragen stellen. So lassen sich – natürlich mit Blick auf die
unumgänglichen Einschränkungen in Hinblick auf Vollständigkeit und
Repräsentativität der in die Datenbank aufgenommenen Ereignisse –
zum Beispiel Hinweise auf all jene Literaturstreite abrufen, in denen der
Antisemitismusvorwurf eine Rolle spielte; gesucht werden kann auch
nach Bestsellern in einem bestimmten Zeitraum, nach Ausstellungen zu
bestimmten Dichtern, nach Preisen, die eine bestimmte Publikation erhalten hat, nach Engagement von Schriftstellerinnen im Zuge der Debatte um die Stationierung von Mittelstreckenwaffen in der BRD oder nach
den deutsch-deutschen Literaturbeziehungen in den 70er Jahren.
Konsequenzen der Darstellungsform
Durch die dargestellte Aufarbeitung des Datenmaterials stehen die Einträge – ähnlich wie in annalistischer Geschichtsschreibung14 – als freie
Elemente zur Verfügung, die je nach Zusammenhang, in den sie gestellt
werden, Bedeutung erlangen können. Mit einer derart frei operationalisierbaren Menge von Daten, deren Zusammenhang (etwa nach nationalen, personalen oder städtespezifischen Gesichtspunkten) durch Suchabfragen variabel generiert werden, können bestimmte Darstellungsprobleme, die bei linearen Texten oder Hypertexten mit begrenzten Lektürewegen entstehen, umgangen werden. So sahen sich etwa die Herausgeber des entsprechenden Bandes der Sozialgeschichte der deutschen Literatur15 im Hanser-Verlag genötigt, der Darstellung der österreichischen
und schweizerischen Literatur zwei eigene angehängte Kapitel zu widmen, die nun gesondert neben den sonst sachlich geordneten Abschnitten zu den beiden deutschen Literaturen (in die freilich die prominenten
Schriftsteller Österreichs und der Schweiz aufgenommen wurden) stehen. Für die Datenbank stellt sich dieses Problem nicht: Die Abfragen
können sehr wohl das Kriterium der Nationalität berücksichtigen oder
14
15
Vgl. Lucian Hölscher: Neue Annalistik. Umrisse einer Theorie der Geschichte. Göttingen: Wallstein 2003 (Göttinger Gespräche zur Geschichtswissenschaft 17); Conrad
Wiedemann: Annalistik als Möglichkeit der Literaturgeschichtsschreibung. In: Jahrbuch für Internationale Germanistik 2/1 (1970), S. 61-69.
Vgl. Klaus Briegleb/Rolf Grimminger (Hg.): Gegenwartsliteratur seit 1968. München
u.a.: dtv 1992 (Hansers Sozialgeschichte der deutschen Literatur vom 16. Jahrhundert
bis zur Gegenwart, Bd. 12).
Literarisches Leben
21
mit kulturtopographischen Vorstellungen operieren, aber sie sind nicht
darauf festgelegt, sondern können je nach Bedarf etwa auch zeitraumoder personenspezifisch gestellt werden. Ein (im Gegensatz zum Hypertext allerdings explizites) Angebot zur Gliederung des Datenmaterials
durch die Bearbeiter erfolgt gleichwohl, etwa durch die bereits dargestellte Verknüpfung der Einträge mit – hierarchisch geordneten – Schlagworten. Bei eindeutigen Ereignisfolgen verweisen die Einträge zum Teil im
Text auch explizit auf andere Einträge in der Datenbank. Die Aufbereitung des Materials in einer Datenbank gewährt dem Benutzer somit
Freiheiten in der Wahl der Lektürewege, die jene hypertextueller Repräsentationsformen noch übersteigen könnten.16 Dass die explizite mediale
Verdeutlichung von Kausalitäten und Wirkungsrelationen zwischen einzelnen Ereignissen dabei zwangsläufig in den Hintergrund tritt – einerseits im Interesse der freien Kontextualisierbarkeit, andererseits aber
auch mit Blick darauf, dass die Datenbank weniger Wirkungszusammenhänge in Forschungshypothesen präsentieren, als der Orientierung und
Entwicklung neuer Fragestellungen dienen will – sollte dadurch aufgewogen werden.
Natürlich wäre es dennoch illusorisch, davon auszugehen, die Aufbereitung des Materials im Medium Datenbank böte einen ›autorfreien‹
Text. Das Prinzip der inhaltlichen Verschlagwortung von Ereignissen
und die damit verbundenen unausweichlichen Unschärfen, sowie die
zwangsläufig wertende Darstellung etwa von Debatten und Skandalen
fallen bei der Frage nach der allein schon durch das Medium suggerierten
›Objektivität‹ des Dargestellten ins Gewicht. Und auch bei Vermeidung
der wertenden Darstellung von Ereignissen ist doch allein die Auswahl
der aufgenommenen Ereignisse ein interpretativer Akt. Nutzer der Datenbank werden zum Beispiel schnell feststellen, dass sich das Datenmaterial vor allem auf die mittels der Institutionen und Praktiken des Feldes
als ›hohe Literatur‹ kanonisierte Texte und Autoren bezieht – ein Blick
auf die Bestsellerlisten verdeutlicht die zur Genüge bekannten Unterschiede zwischen dem in der Literaturkritik, dem im akademischen Diskurs und dem in seiner breiten Rezeption durch Bestsellerlisten dokumentierten Textkorpus.
Enttäuscht werden muss die vielleicht schon durch das Medium entstehende Suggestion, die Abfrageergebnisse könnten (zum Beispiel stati16
Vgl. dazu das verwandte Projekt Romantic Chronology <http://english.ucsb.edu:
591/rchrono/> (22.1.2004), das von Laura Mandell und Alan Liu an der University of
California in Santa Barbara seit 1995 aufgebaut worden ist, besonders das Statement
Philosophy of this Site (7.9.1995) <http://english.ucsb.edu:591/rchrono/philosophy.
htm> (22.1.2004).
22
stische) Repräsentativität für bestimmte Teilbereiche (etwa das Ausstellungswesen) beanspruchen. Der zu Grunde gelegte weit gefasste Begriff
des ›Literarischen Lebens‹ bringt es mit sich, dass so disparate Ereignisse
wie kulturpolitische Entscheidungen, Theaterskandale, Phänomene des
akademischen Betriebs oder literarische Ausstellungen in Stadtbibliotheken in den Blick rücken. Einer wie auch immer gearteten Vollständigkeit
steht damit – ganz abgesehen vom Problem der beschränkten Arbeitskapazität – die übergroße Menge von Material entgegen, das je nach (auch
zukünftigen) Fragestellungen zu Phänomenen des literarischen Lebens
Relevanz gewinnen kann. Hinzu kommt in vielen Bereichen die problematische Quellenlage. Auf Grund der disparaten Informationen in einzelnen Bereichen und zu einzelnen Ereignissen muss das Datenmaterial
notwendig heterogen, teilweise auch unvollständig bleiben. Das Projekt
bescheidet sich damit, die Existenz bestimmter Debatten und Ähnliches
anzuzeigen, kann aber weder Vollständigkeit noch auch nur annähernd
erschöpfende Tiefenschärfe der dargestellten Ereignisse erreichen. Die
Datenbank hat jedoch ihren Zweck erfüllt, wenn über eine erste Orientierung hinaus auf Grund der Informationen ein Interesse geweckt wird
beziehungsweise der Impuls zu weiteren Nachforschungen entsteht.17
Ein Projekt wie dieses ist in besonderem Maße auf die Mitarbeit der
Nutzenden angewiesen – Korrekturen und Ergänzungen, Anregungen
und Kritik sind daher jederzeit willkommen. Sie können per e-mail an die
Bearbeiter gerichtet, beziehungsweise auch im neuerdings eingerichteten
»Forum« diskutiert werden. Wir danken allen, die bereits per E-Mail
durch Fragen, Ergänzungen und Anregungen zur Verbesserung des Projekts beigetragen haben.
17
Vgl. auch die ähnliche Beobachtung in der Rezension zu Steins Kulturfahrplan auf
CD-Rom (Benno Schlindwein: Rezension von Werner Stein: Chronik der Weltgeschichte. Der Neue Kulturfahrplan. 18.10.1999. <http://hsozkult.geschichte.hu-berlin.
de/rezensio/digital/cdrom/multimed/scbe1099.htm> (22.1.2004).
Michael Meier
Autoren als Verleger:
Die Zukunft der wissenschaftlichen Kommunikation?
Abstract
Journals are still the principal means by which new scientific knowledge
is disseminated. The recent high and fast-rising cost of journals has had a
devastating effect on the flow of scientific communication, the research
community, and library collections. The following article provides an
overview of the forces in the scientific communication market focusing
on the particularly difficult situation for journals in the scientific, technical and medical (STM) fields. The impact of rising journal prices is aggravated by the availability of new media – such as Web editions of existing journals. Researchers – whose work is paid for by the university or
the federal government – increasingly give away their research to commercial journals, which then charge universities high subscription fees in
order to buy it back. The papers that appear in STM journals are typically
provided free by academic researchers and are subject to peer review by
academic referees and editors, who also receive little if any remuneration.
To alleviate this difficult situation, numerous projects that represent a direct and strong competitive alternative to existing high-priced titles in
important established STM fields have been launched. This article describes the far reaching transformation of the STM publishing market
under way which will also change other scientific professions such as the
humanities.
1. Einführung
Bislang kommt Fachzeitschriften gegenüber Büchern infolge ihrer vergleichsweise kurzen Produktionszeit eine besondere Bedeutung im wissenschaftlichen Kommunikationssystem zu. Mit Hilfe weltweiter Datennetze wird die Kommunikation neuester Forschungsergebnisse innerhalb
einer Forschergemeinschaft mehr und mehr in elektronischer Form abgewickelt. Die Entwicklung hin zum internetgestützten Medienverbund
nimmt die Dimension eines Paradigmenwechsels an, der das Publikationssystem der STM-Fächer nachhaltig verändern wird. Aber auch die
geisteswissenschaftlichen Fächer stehen vor einem profunden Umbruch
24
Michael Meier
ihrer Publikationsgepflogenheiten, der sich bereits am Horizont abzeichnet. Denn durch den Abschied von Gutenberg und der Migration des
wissenschaftlichen Publikationssystems ins Internet tritt ein Strukturkonflikt des Verlagswesens zu Tage, der sich um die Frage dreht, ob in Zukunft wissenschaftliche Informationen, vor allem im STM-Bereich,1 die
mit den Mitteln des Steuerzahlers in öffentlichen Institutionen oder auf
Grund staatlicher Projektförderung erlangt wurden, ein freies Gut darstellen oder auch künftig kostenpflichtig sein werden.
Auslöser für die kritische Überprüfung des scientific beziehungsweise
scholarly publishing ist eine für Bibliotheken und Wissenschaftler ungünstige Marktentwicklung, die gemeinhin als ›Zeitschriftenkrise‹ bezeichnet wird: Vor etwa zwanzig Jahren begannen Forschungsbibliotheken in den USA massiv über das wachsende Missverhältnis zwischen
wissenschaftlichem Output und den zur Verfügung stehenden Ressourcen der Verlage und Bibliotheken zu klagen.2 Die wissenschaftliche Literatur insgesamt wächst exponentiell. Hinzu kommt, dass viele kommerzielle Verlage ihre Abonnementpreise für Printabonnements in den vergangenen Jahren drastisch erhöht haben. Wie die amerikanische Association of Research Libraries (ARL) feststellte, stieg der Durchschnittspreis pro Zeitschrift zwischen 1986 und 2000 um 226 Prozent – viermal
so stark wie die Inflationsrate.3 Die der ARL angeschlossenen 122 Bibliotheken mussten im Jahr 2000 für einen um sieben Prozent geschrumpften Bestand an Titeln 124 Prozent mehr an Abonnementkosten
aufbringen. Während US-amerikanische Forschungsbibliotheken zwischen 1986 und 1999 um 207 Prozent höhere Anschaffungskosten für
Zeitschriften hatten, stieg die Zahl der begutachteten elektronischen
1
2
3
Entsprechend dem englischen Akronym für scientific, technical and medical [journals]
werden naturwissenschaftliche, technische und medizinische Zeitschriften häufig als
»STM-Zeitschriften« bezeichnet.
Allerdings stellt die Beschwerde über exzessive Preise von Einzelabonnements ein bekanntes Topos seit den fünfziger Jahren dar. Eine detaillierte Übersicht des STMFachzeitschriftenmarkts und seiner Ausprägungen findet sich in Michael Meier: Returning Science to the Scientists. Der Umbruch im STM-Fachzeitschriftenmarkt durch
Electronic Publishing. München: Peniope 2002, der Grundlage dieses Artikels. Weitere
Informationen unter <http://www.peniope.de/titel_meier.htm> (17.2.2004).
Die Association of Research Libraries (ARL) ist ein Zusammenschluss von 120 nationalen Universitäten und Bibliotheken zu einer nichtkommerziellen Mitgliederorganisation, darunter u.a. die Universitäten von California, Columbia, Cornell, Harvard, Indiana, MIT, Stanford, Yale, Pennsylvania State University, die New York Public Library und die Library of Congress. Die ARL ist zugleich Sponsor verschiedener Projekte
und veröffentlicht regelmäßig ausführliche Statistiken zur Preisentwicklung bei wissenschaftlichen Zeitschriften.
Autoren als Verleger
25
Journals zwischen 1991 und 2000 um 570 Prozent.4 Welch bedeutender
Wirtschaftsfaktor hieraus entstanden ist, verdeutlicht das Volumen des
STM-Fachinformationsmarktes von circa 9,5 Milliarden US-Dollar im
Jahr 2000.5
Nicht nur in den USA ist der Handlungsbedarf unabweisbar, denn
weltweit stehen die wissenschaftlichen Bibliotheken mit dem Rücken zur
Wand. Deutsche Bibliotheken verlieren seit etwa zehn Jahren pro Jahr
circa zehn Prozent ihres Bestellvolumens, so Elmar Mittler, Vorstandssprecher der Deutschen Initiative für Netzwerkinformation (DINI).6 Die
Zeitschriftenabbestellungen durch Bibliotheken und Einzelpersonen stellen nicht nur die Öffentlichkeit von Wissenschaft in Frage, sondern bedrohen inzwischen auch die konkreten Arbeitsmöglichkeiten aller Forscher, da nicht nur weniger STM-Zeitschriften abonniert werden können, sondern die Anschaffung von Monographien in allen universitären
Fächern durch den Kostendruck der STM-Journals drastisch zurückgeht.
Die Zeitschriftenkrise im STM-Bereich hat also unmittelbare Auswirkungen auf die gesamte Literaturversorgung der Universitäten und Forschungseinrichtungen.
2. Theoretischer Überblick: Der STM-Zeitschriftenmarkt als Informationsvermittlungssystem
Voraussetzung für jeden gelungenen Kommunikationsprozess ist die Selektion von Informationen, die durch eine Auswahl relevanter Informationen und deren Speicherung in einen differenzierten Informationsträger wie Sprache oder Verbreitungsmedien zur Aufrechterhaltung der
Kommunikation führt. Seit der Erfindung des Buchdrucks dient das gedruckte Wort als Wissensspeicher. Die Entwicklung netzgestützter
Kommunikationsmedien wie das Internet und elektronische Texte erweitert die verfügbaren Wissensspeicher und führt so zu einer Ausdifferen4
5
6
Drei Gruppen elektronischer Zeitschriften lassen sich unterscheiden: Die erste Gruppe
der Preprints umfasst Veröffentlichungen, die eigentlich keine Zeitschrift bilden, aber
im Kontext der Veröffentlichung als Zeitschriftenaufsatz stehen. Daneben gibt es die
eigentlichen elektronischen Zeitschriften, die nur in dieser Fassung existieren, sowie
die elektronische Parallelausgabe von weiterhin konventionell erscheinenden Zeitschriften, wobei die letzte Gruppe bislang den größten Anteil am Gesamtkomplex der
elektronischen Zeitschriften ausmacht.
Vgl. den Bericht Industry Trends, Size and Players in the Scientific, Technical &
Medical (STM) Market. [o. A.] Burlingame, Ca: Outsell 2000.
Siehe unter <http://www.dini.de> (17.2.2004) und Christiane Schulzki-Haddouti:
Verlage treiben Hochschulbibliotheken in die Krise. In: Telepolis (29. Januar 2002),
<http://www.heise.de/tp/deutsch/inhalt/on/11691/1.html> (17.2.2004).
26
Michael Meier
zierung von Interaktionsmitteln der Wissenschaft. Das System Wissenschaft, dessen Leistung an die Gesellschaft in der Zurverfügungstellung
neuen Wissens besteht, hat verschiedene Medienformen entwickelt, um
situationsgemäß die optimale Form der Informationsübertragung sicherzustellen, darunter die wissenschaftliche Zeitschrift. Das System STMZeitschriftenmarkt ist ein Subsystem des wirtschaftlichen Systems Buchhandel, das wiederum mit bestimmten, fachlich differenzierten Subsystemen des wissenschaftlichen Systems (Science, Technology, Medicine,...) in Interdependenz steht. Diese Medien fungieren als Vernetzungsinstanz in der wissenschaftlichen Kommunikation, sie dienen als Informationsträger, die zur Selektierung von relevanten Informationen herangezogen werden. Für die Wissenschaft haben Teile des Wirtschaftssystems in Form von Verlagen, Agenturen und Bibliotheken die Produktion und Distribution dieser Medien übernommen.7
Ablaufdiagramm STM-Zeitschriftenmarkt
Der wissenschaftliche Buchhandel in seiner Ausdifferenzierung als STMZeitschriftenmarkt entwickelte sich durch eine »Interpenetration zweier
7
In seinem Aufsatz von 1990 hat Georg Jäger die Entwicklung des wissenschaftlichen
Buchhandels herausgearbeitet und in den Kontext der Systemtheorie eingeordnet. Die
buchwissenschaftliche Literatur bezeichnet dieses Teilsystem als wissenschaftlichen
Buchhandel (herstellend und vertreibend), während in dieser Arbeit der Begriff insbesondere auf den STM-Zeitschriftenmarkt bezogen wird, siehe Georg Jäger: Buchhandel und Wissenschaft. Zur Ausdifferenzierung des wissenschaftlichen Buchhandels. In:
LUMIS-Schriften 26 (1990).
27
sozialer Systeme, der Wissenschaft und des Buchhandels«8 im Zuge eines
Ausdifferenzierungsprozesses zu einem autopoietischen Subsystem.
STM-Zeitschriften sind Koprodukte des STM-Zeitschriftenmarktes und
der Wissenschaft, deren Steuerung auf den jeweiligen Kommunikationsmedien Geld und Wahrheit beruht. Die Beschränkung des Wissenschaftssystems auf die Ermöglichung wahrheitsfähiger Kommunikationen wird unter anderem weiter beschränkt durch Theorien und Methoden als selektive Programme für die Zuweisung von Wahrheitswerten.
Die Erprobung und Selektion der ›wahren‹ Theorien und Methoden geschieht im STM-Zeitschriftenmarkt durch das ›Peer Review-Verfahren‹.
So greift das System STM-Zeitschriftenmarkt durch die Wissensakzeptanz und -ablehnung in das Wissenschaftssystem ein, denn das ›Peer Review-Verfahren‹ fungiert als Umweltselektion, das dem System Wissenschaft bei der Differenzierung wahr/unwahr und dem System STMZeitschriftenmarkt bei der Knappheitsregulierung dient. Daneben fungiert das System STM-Zeitschriftenmarkt als ›Wechselbörse‹ von gemeinsamen Nebencodes wie Ansehen, Einfluss, Macht, et cetera.9
Eine spezifische Funktion der Wissenschaft besteht in der Gewinnung
neuer Erkenntnisse, die durch Zuweisung der Werte ›wahr‹ oder ›unwahr‹ an Sachverhalte und in Form von Wissen an die Gesellschaft weitergegeben werden.10 Alle wissenschaftlichen Operationen verfolgen dabei die Produktion wahrer Aussagen. Über Beobachtung kommt es zur
Beschreibung mit Hilfe des Mediums Sprache, in das die Erkenntnisse
als selektierendes Kommunikationsangebot in den wissenschaftlichen
Diskurs eingebracht werden. Zu Wissen werden die Erkenntnisse durch
Zuweisung des Labels ›wahr‹ und der Aufnahme in einen allgemein anerkannten Kanon an Speichermedien. Frank Holl teilt die im Prozess wissenschaftlicher Evolution dem Vergleich ausgesetzten Kommunikationsangebote in zwei Kategorien ein, die sich wesentlich durch die Unterscheidung »neue« versus »gesicherte« Erkenntnis auszeichnen.11
Auf dem STM-Zeitschriftenmarkt wird grundsätzlich zwischen begutachteten Beiträgen, die das Peer Review-Verfahren durchlaufen haben,
8
9
10
11
Georg Jäger: Buchhandel und Buchwissenschaft, S. 27. (Fußnote 7).
Ebd., S. 28f.
Vgl. Niklas Luhmann: Die Wissenschaft der Gesellschaft. Frankfurt a. M.: Suhrkamp
1990, S. 355. Unter ›Erkenntnis‹ ist stets ein Ereignis oder eine Ereignissequenz, unter
›Wissen‹ das Gesamtresultat struktureller Kopplungen des Gesellschaftssystems in
Form eines aufgezeichneten Bestandes zu verstehen, vgl. ebd., S. 123 und 163.
Frank Holl: Produktion und Distribution wissenschaftlicher Literatur: Der Physiker
Max Born und sein Verleger Ferdinand Springer 1913-1970. In: Archiv für Geschichte
des Buchwesens 45 (1996), S. 1-225. Hier S. 14.
28
Michael Meier
und so genannten Preprints unterschieden.12 In beiden Fällen wird davon ausgegangen, dass der Produzent der Erkenntnisse diese für wahr
hält. In der darauf folgenden Kommunikation innerhalb des wissenschaftlichen Systems wird ein Konsens über die Vergabe der – diesmal
allgemein anerkannten − Kategorien ›wahr‹ und ›nicht wahr‹ im Rahmen
einer binären Kodierung hergestellt. Luhmann spricht in diesem Zusammenhang von einer Kommunikation »in passabler Form«,13 die stilistische und inhaltliche Komponente ebenso wie Präsentationsform und
Art des Mediums umfasst. Der unter dem Kode wahr/unwahr dominante Wahrheitswert der Wissenschaft, den das System STMZeitschriftenmarkt gewinnt, stellt die bestimmende Struktur der wissenschaftlichen Kommunikation dar, denn das Forschungsergebnis ist das
konstituierende Element des Systems Wissenschaft. STM-Zeitschriften
verfolgen dessen Kritik und stellen sie dar. So durchläuft jede Erkenntnis
und jedes Wissen einen ständigen Überprüfungsprozess, der nach Kuhn
auf der Kategorie der Wahrheit beruht.14 Jedoch ist die Prüfung der neu
gewonnenen Erkenntnisse auf dem Hintergrund des bereits gesammelten Wissens nur möglich, wenn diese allen Wissenschaftlern der ›scientific community‹ zugänglich gemacht werden.15 Luhmann nennt als Selektionsmechanismus die wissenschaftliche Publikation in gedruckter Form,
jedoch nehmen mittlerweile auch elektronische Medien diese Funktion
wahr. Nach Luhmann sind
12
13
14
15
Der Ausdruck ›Preprint‹ hat verschiedene Bedeutungen. Einerseits bezieht er sich
grundsätzlich auf ein begutachtetes Manuskript, das auf die Veröffentlichung in einem
traditionellen Journal wartet. Andererseits beinhaltet der Begriff auch Paper, die zwar
bei einem Journal eingereicht wurden, für die jedoch noch keine Publikationsentscheidung vorliegt, oder Paper, die auf elektronischem Wege veröffentlicht wurden und im
Rahmen der Peer Group einer Wissenschaft kommentiert werden sollten. Daher können Preprints auch Dokumente beinhalten, die bei keinem Journal eingereicht wurden
und für die dies auch nicht vorgesehen ist. Unter einem Eprint versteht man ein vom
Autor selbst publiziertes und archiviertes Dokument, das laut der American Physical
Society außerhalb des bisherigen traditionellen Publikationsmarktes veröffentlicht
wird. Die Grenzen zwischen Preprint und Eprint verwischen derzeit. Eprints können
von den Autoren jederzeit aktualisiert werden.
Niklas Luhmann: Die Wissenschaft der Gesellschaft, S. 575. (Fußnote 10).
Thomas Kuhn: Die Struktur wissenschaftlicher Revolutionen. 2. rev. Auflage. Frankfurt am Main: Suhrkamp 1976, S. 175.
Erst eine Publikation mit fixiertem Erscheinungsdatum ermöglicht die Unterscheidung, ob die enthaltenen Erkenntnisse neu sind. Davon unabhängig ist, ob jemand bereits zu einem früheren Zeitpunkt - womöglich unpubliziert - eine gleichwertige Wissenserweiterung erreicht hat, vgl. Niklas Luhmann: Die Wissenschaft der Gesellschaft,
S. 296. (Fußnote 10).
29
Publikationen [...] gleichsam das Zahlungsmittel der Wissenschaft, das operative
Medium ihrer Autopoiesis. Publikationsmöglichkeit ist eine der wichtigsten und
einschneidensten Beschränkungen dessen, was erfolgreich mitgeteilt und dadurch
wissenschaftliche Existenz gewinnen kann.16
Wissenschaftliche Resultate werden nur durch Publikation für andere
Wissenschaftler nutzbar und nützlich gemacht. Die Doppelfunktion von
Leser und Autor, die dem wissenschaftlichen Publizieren eigentümlich
ist, nennt Luhmann eine »faktisch eingespielte Rollendifferenzierung«,17
die Autor und Leser in Kritik und Wahrheitsfindung verbindet. Die
Doppelrolle eines Wissenschaftlers als Autor und Leser ist nach Luhmann auch symptomatisch für das rekursive Netzwerk der wissenschaftlichen Kommunikation. In dieser Doppelfunktion bilden Wissenschaftler
die zentralen Handlungsrollen als Selektor und Prozessor, die sich in den
Anschlussstellen des Systems Wissenschaft an dem System STMZeitschriftenmarkt widerspiegeln.
Ökonomisch betrachtet ist Wissen ein Kapitalgut: ein seinerseits produziertes Produktionsmittel. Die wichtigste Industrie der Wissensproduktion ist der Forschungsbetrieb der Wissenschaft, der zugleich den
wichtigsten Abnehmer vorproduzierten Wissens darstellt. Unter Zugabe
lebendiger Aufmerksamkeit stellt die Wissenschaft aus vorgefertigtem
Wissen neues Wissen her.18 Der wichtigste Markt für Wissen heißt wissenschaftliche Kommunikation. Auf ihm wird Wissen in der Form von
Publikationen angeboten. Dieses Angebot trifft auf die zahlungsbereite
Nachfrage derer, die an Inputs für die eigene Produktion interessiert
sind. Die Publikation ist die Form, in welcher der Output der Wissensproduktion in den Input der Weiterverarbeitung übergeht.19 Das System
des STM-Zeitschriftenmarktes bietet mit seinen Verlagsprodukten nicht
nur die Grundlage der wissenschaftlichen Kommunikation im Sinne der
Wahrheitsfindung, sondern diese Wahrheitsfindung wird Grundvoraussetzung für die wirtschaftliche Existenz des STM-Zeitschriftensystems.
Mit wissenschaftlichen Innovationen lässt sich im STMZeitschriftenmarkt nur dann wirtschaftlich erfolgreich handeln, sofern
ihr Wahrheitswert positiv ist, sie also wahr sind. Das Wechselspiel beider
Systeme unterstützt somit deren Fortbestand.
16
17
18
19
Ebd., S. 432.
Ebd., S. 319.
Georg Franck: Ökonomie der Aufmerksamkeit. München/Wien: Hanser 1998, S. 38.
Die Publikation hat dabei einen doppelten Effekt. Erstens erscheint das Wissen als
Angebot auf dem einschlägigen Markt. Zweitens entsteht mit der Publikation geistiges
Eigentum an diesem Wissen.
30
Michael Meier
Doch der Forschungsbetrieb dreht sich nicht nur um die organisierte
Suche nach Wahrheit. Das Streben nach Erstpublikation und exklusiver
Autorenschaft zeigt, dass die Motivation des Wissenschaftlers über den
rationalen Horizont der Wissenserweiterung hinausgeht. Das theoretische Bild der Wissenschaft komplettiert sich erst, wenn der organisierte
Kampf um die Aufmerksamkeit mit einbezogen wird. Als Medium für
den Transport der Aufmerksamkeit dienen nicht zuletzt wissenschaftliche Fachzeitschriften. Das Gratifikationssystem der Reputation ist das
notwendige Komplement zur Logik der Forschung. Georg Franck stellt
fest, dass die Kosten des Wissenschaftsbetriebs alleine mit Geld und Privilegien nicht finanzierbar wären.20 Der Forschungsbetrieb nutzt daher
die Aufmerksamkeit, die einem Forscher entgegenkommt, nicht nur zu
dessen Motivation, sondern auch zur Erledigung des operativen Geschäfts, indem die Widmung der Aufmerksamkeit für die Rezeption und
Prüfung der Produktion anderer Wissenschaftler instrumentalisiert wird.
Aufmerksamkeit hält somit in doppelter Funktion den Forschungsbetrieb in ständiger Selbstkontrolle und Selbstanalyse.
Mit der Koordinierung innerwissenschaftlicher Information nimmt
der STM-Zeitschriftenmarkt die primäre Funktion war, den Informationstransfer innerhalb der ›scientific community‹ zu regeln. Aufgabe des
STM-Marktes ist es, im Rahmen verschiedener Publikationsformen wissenschaftliche Erkenntnisse auf die schnellste und effizienteste Art zu
übermitteln. Als Teil des gesamtwirtschaftlichen Systems gelten im STMZeitschriftenmarkt marktwirtschaftliche Prinzipien wie Angebot und
Nachfrage. Medien, die wissenschaftliche Informationen enthalten, besitzen einen ökonomischen Wert entsprechend ihrer jeweiligen Qualität.
Zwei Perspektiven des Systems STM-Zeitschriftenmarkt werden unterschieden: die Handlungsperspektive (Autoren, Verlage, Zwischenhändler, Käufer, Leser) und die Medienperspektive (Printjournal, Ejournal, Preprints et cetera).21 Im Zuge einer Neustrukturierung der Wertschöpfungskette STM-Journal erfahren die Handlungsrollen eine Differenzierung, die die bisherigen Rollenmodelle teilweise drastisch verändert. Ebenso differenzieren sich Medien und Medienformen durch die
Überwindung des gutenbergschen Druckverfahrens und die Auflösung
des Mediums Papier.
Im Zuge eines allmählichen Prozesses entwickelte sich die Ausdifferenzierung des STM-Zeitschriftenmarktes als Teilbereich des Systems
des wissenschaftlichen Buchhandels. Nur wenige begutachtete Fachzeit20
21
Georg Franck: Ökonomie der Aufmerksamkeit, S. 48. (Fußnote 18).
Siehe hierzu auch Georg Jäger: Buchhandel und Buchwissenschaft, S. 27 und 29. (Fußnote 7).
31
schriften konnten sich bislang fächerübergreifend als Leitmedien für die
Wissenschaft etablieren, so etwa Science oder Nature. Die oben skizzierte Entwicklungsgeschichte der Wissenschaftsgebiete hat vielmehr in paralleler Weise zu einer Ausdifferenzierung der zugehörigen Zeitschriften
in kleinste Subsegmente geführt.
In jüngster Zeit bilden sich durch die Verfügbarkeit elektronischer
Medien neue Verbreitungskanäle wissenschaftlicher Informationen. Neben den traditionellen, gedruckten Journalen sind dies elektronische
Zeitschriften im WWW sowie Vorveröffentlichungen in Form von Preprints. In der Medienperspektive entwickeln sich daher, unterstützt
durch technologischen Fortschritt, neue Kommunikationsmittel, die sich
durch spezifische Anwendungsformen unterscheiden.22 So bilden sich als
Bündelung der unterschiedlichen Kommunikationskanäle weltweite elektronische Communities, in denen Wissenschaftler eines Fachgebiets untereinander kommunizieren. Diese Kommunikationsformen stellen eine
Ausweitung bereits bestehender Kanäle in andere Medien dar und differenzieren sich in ihrer Funktionalität für den wissenschaftlichen Diskurs:
Preprints dienen der raschen Information der Fachkollegen, gedruckte
Zeitschriften der qualitativen Selektion und Vergabe von wahr-/unwahrKategorien. Zur informellen und schnellen Kommunikation wird E-Mail
genutzt. Die fortschreitende thematische Ausdifferenzierung in Subkategorien sorgt somit für eine Erweiterung der wissenschaftlichen Disziplinen in diversen Publikationskanälen.
3. Strukturelle Gründe für Veränderungen im STM-Publikationssystem
Unbestritten erfuhr das STM-Publikationssystem während der vergangenen Jahre umfassende Veränderungen, deren Gründe in strukturellen
Verwerfungen der angeschlossenen Subsysteme liegen.
Die Expansion des Systems Wissenschaft führte zu einer exponentiellen Steigerung der Zahl der Wissenschaftler in universitären und anderen
Forschungseinrichtungen. Ihre Zahl wird aller Voraussicht nach weiter
steigen. Die wachsende Wissenschaftlerschar erhöht den Bedarf an neuen Fachzeitschriften mit immer speziellerem Themenfokus. Dies fordern
sowohl Kunden als auch potentielle Autoren: Wissenschaftler sind gezwungen, sich stets über die aktuellsten Entwicklungen in ihrer individuellen Sub-Spezialisierung auf dem Laufenden zu halten. Durch ihre zeitlich beschränkte Aufnahmekapazität konzentrieren sie sich daher auf
Publikationen, die in ihrem Spezialgebiet erscheinen. Für wissenschaftli22
In dieser Arbeit unberücksichtigt bleibt das weite Feld der E-Mail-Korrespondenz.
32
Michael Meier
che Autoren steigt außerdem in einem immer härter umkämpften Arbeitsumfeld die Notwendigkeit, in qualitativ hochwertigen und angesehenen Zeitschriften zu publizieren. Bei der Einreichung von Artikeln
kommt es daher zu einem Abwägen zwischen dem Qualitätsranking der
Zeitschrift und der Wahrscheinlichkeit, den Peer Review zu überstehen.
Auch die Spezialisierungstendenzen der wissenschaftlichen Teildisziplinen führt zur Ausdifferenzierung neuer Subdisziplinen und multidisziplinären Forschungsinitiativen. Oft werden diese Entwicklungen von
Neugründungen wissenschaftlicher Zeitschriften begleitet, die einer spezialisierten, sich neu konstituierenden ›scientific community‹ als Sprachrohr dienen.
Wissenschaftler sehen sich darüber hinaus einem starken Publikationsdruck ausgesetzt, der allgemein mit dem Stichwort ›publish or perish‹
charakterisiert wird. Gerade Universitäten und Wissenschaftskollegen
fordern von ihren Peers den stetigen Nachweis wissenschaftlicher Leistung, um scheinbar objektive Bewertungskriterien zu erhalten.
Als Nebeneffekt der immer größeren Zahl wissenschaftlicher Artikel
führt das langwierige Peer Review-Verfahren bis zur eigentlichen Veröffentlichung zu einer signifikanten Verzögerung des Publikationsprozesses. Zeitspannen von bis zu einem Jahr zwischen der ersten Einreichung
eines Papers und der Drucklegung gelten in vielen Wissenschaftsdisziplinen als Standard. Zweifellos lässt sich diese Zeitspanne durch die Dauer
des Drucklegungsprozesses erklären. Auch steht in Printzeitschriften
häufig eine unzureichende Seitenkapazität zur Verfügung, so dass
schlichtweg auf freie Artikelplätze gewartet werden muss. Denn die Unwägbarkeiten des Begutachtungsprozesses gelten als Ursache dafür, dass
jedes Printjournal einen Artikelvorrat auflaufen lässt, der monatelang auf
Abruf bereit liegt. Diese Zeitverzögerung erschwert die schnelle Interaktion und blockiert nicht nur fachliche Diskussionen zwischen Autor und
Leser, sondern letztlich den reibungslosen wissenschaftlichen Diskurs.
Die seit Jahren stagnierenden oder sinkenden Bibliotheksetats bilden
einen weiteren exogenen Faktor, der vor allem im Hinblick auf die exponentiell wachsende Zahl der Wissenschaftler situationsverschärfend
wirkt. Denn die weiter steigende Zahl wissenschaftlicher Journale bedeutet höhere Abonnementkosten und Arbeitsbelastung für die Bibliotheken.
Auch der Anteil der Bibliothekskosten an den Gesamtausgaben für
universitäre Ausbildung insgesamt sinkt weiter. Während der größten
Wachstumsphase zwischen 1960 und 1971 steigerten die USamerikanischen Bibliotheken ihren Anteil am Erziehungshaushalt von
unter drei Prozent auf fast vier Prozent. Während der siebziger Jahre
33
blieb der Anteil konstant. Seit 1980 fällt der Ausgabeanteil für Bibliotheken nahezu jedes Jahr.
Direkte Konsequenz der sinkenden Bibliotheksetats sind Veränderungen im Abonnementverhalten. Denn wenn Bibliotheken und Einzelabonnenten ihre Subskriptionen kündigen, bleibt Verlagen als Reaktion
nur die Kundenneuwerbung oder eine allgemeine Preiserhöhung. Um die
Auswirkungen der Abonnementkürzungen auf ortsansässige Wissenschaftler zu minimieren, gehen Bibliotheken nach klaren KostenNutzen-Erwägungen vor. So werden an der Yale University nur diejenigen Zeitschriftenabonnements storniert, die im Verlauf eines festgelegten Zeitraums keine oder nur minimale Nutzung erfahren haben.23
Die Preissteigerungen der Verlage haben verschiedene Ursachen. Zum
einen spielt der Teufelskreis von sinkenden Abonnementzahlen und daraus notwendigen Subskriptionspreis-Anpassungen eine Rolle. Vor allem
der drastische Rückgang der Einzelabonnements führte zu einer überproportionalen Preiserhöhung bei institutionellen Subskribenten wie etwa Bibliotheken.24 Zum anderen sehen sich zahlreiche Verlage seit Mitte
der neunziger Jahre mit hohen Investitionen in elektronische Publikationssysteme konfrontiert. Die Preissteigerungen stehen allerdings in keinem unmittelbaren Zusammenhang mit den elektronischen Publikationsmedien, da sie erst ab 1997 von den großen Verlagen flächendeckend
eingeführt wurden. Das Phänomen der Preissteigerungen hingegen ist
bereits deutlich früher zu beobachten. Sie sind nicht die Ursache, sondern nur eine Facette der Zeitschriftenkrise. Daneben spielen auch
marktwirtschaftliche Gewinnmaximierungsstrategien eine Rolle. Die zu
beobachtenden Monopolisierungstendenzen in der Verlagslandschaft
fördern diese Tendenz und geben den Verlagen mehr und mehr Marktmacht.
Verlage selbst geben als Begründung für Preiserhöhungen häufig Umfangserweiterungen oder steigende Kosten des Peer Review-Prozesses
an.25 Doch sind Umfangsvergrößerungen kein valider Grund für die zu
beobachtenden Preiserhöhungen: Obwohl sich insgesamt gesehen die
durchschnittliche Größe der Journale (das heißt die Anzahl der Seiten
23
24
25
Sehr instruktiv sind die Darstellungen der Initiativen an der Yale-Universität unter
<http://www.library.yale.edu/scilib/jrnlstop.html> (17.2.2004).
Carol Tenopir/Donald W. King: Towards Electronic Journals. Realities for Scientists,
Librarians, and Publishers. Washington D.C.: SLA Publishing 2000, S. 32 sprechen
von einem Rückgang um über 50 Prozent während der letzten 20 Jahre.
So stieg laut Dr. Manfred Antoni, dem Geschäftsführer von Wiley-VCH, die Ablehnungsquote der Zeitschrift Angewandte Chemie von 53 Prozent im Jahr 2000 auf 68
Prozent im Jahr 2001, da deutlich mehr Artikel zur Veröffentlichung eingereicht wurden.
34
Michael Meier
pro Ausgabe und die Anzahl der jährlichen Ausgaben pro Journal) erhöht hat, würden bereits weniger als die Hälfte der realen Preissteigerungen die daraus resultierenden Produktionskosten kompensieren. Beachtenswert ist auch, dass Abonnements aus kommerziellen Verlagen im
Vergleich zu den meisten wissenschaftlichen Gesellschaften deutlich teurer sind.26
4. Lösungsmöglichkeiten für die Zeitschriftenkrise
Aus dieser Übersicht wird deutlich, dass Verlage den Dreh- und Angelpunkt der Zeitschriftenkrise darstellen. Ihre Preispolitik führt zu den
wissenschaftsschädigenden Umverteilungen in den Budgets der Bibliotheken. Alle Reformversuche zielen daher auf ein Aufbrechen des Preisdiktats der kommerziellen Verlage. Doch deren Marktstellung wird nicht
zuletzt durch die imagebildende Wirkung etablierter Journale gestützt,
deren Auswirkungen immer noch die starke Anziehungskraft der Printzeitschriften ausmacht.
4.1 Neuverteilung der Verwertungsrechte
Die Übertragung der Verwertungsrechte stellt den Kernpunkt aller Strategieüberlegungen dar. Deren Besitz ermöglicht die Verfügung über das
wesentliche Gut des STM-Zeitschriftenmarktes: neues Wissen. Die bisher übliche Übertragung der Verwertungsrechte vom Autor an den Verlag bildet die geschäftliche Grundlage des derzeitigen Verlagssystems.27
Bis zur Einführung des Electronic Publishing war es für wissenschaftliche Autoren kaum ökonomisch oder in Karrierehinsicht von Vorteil, das
Verwertungsrecht an ihrer Arbeit für sich zu behalten. Derzeit bezahlen
Autoren die Verlagsdienstleistung durch das uneingeschränkte Verwertungsrecht an ihren wissenschaftlichen Erkenntnissen. Verlage übernehmen dafür die weitere Aufbereitung und Distribution und erzielen im
Verkauf der fertigen Artikel einen Gewinn. Sie können mit der uneingeschränkten Kontrolle dieser Informationen deren Distribution monopolisieren.
26
27
Siehe Tenopir/King: Towards Electronic Publishing, Tabelle 61 und 62. (Fußnote 24).
Häufig wird von Verlagsseite auf das unternehmerische Risiko hingewiesen, das der
Verlag in Auftrag des Autors eingeht und durch die Zurverfügungstellung der gesamten Verwertungsrechte kompensiert wird. Wie gezeigt, ist dieses Risiko auf dem STMZeitschriftenmarkt sehr gering.
35
Die bisherigen Geschäftsstrategien der Verlage beruhen auf der Kontrolle exklusiver Verwertungsrechte an primären wissenschaftlichen Informationen, die zur gezielten Markenbildung von Journals verwendet
werden und so die Grundlage der wirtschaftlichen Existenz von Verlagen darstellen. Eine grundlegende Marktveränderung wird nur mit einem
veränderten Vergabemodus dieser Verwertungsrechte einhergehen.
Denn auch wettbewerbsrechtlich ist die vollständige Verfügung über öffentlich finanzierte Informationsgüter, wie sie Verlage für sich in Anspruch nehmen, zumindest prüfenswert.
Die bisherigen Übertragungswege des Verwertungsrechtes stehen
darüber hinaus im Widerspruch zu den berechtigten Ansprüchen der
Wissenschaftler auf freie Dissemination ihrer primären Forschungsergebnisse. Indem das Verwertungsrecht bei den Autoren bleibt, können
diese auf einem sich neu formierenden STM-Zeitschriftenmarkt für die
für sie optimale Publikationsvariante optieren. Verlagen wird damit die
Möglichkeit genommen, extrem überhöhte Zeitschriftenpreise festzulegen, die Distribution erfolgt in ihrem maximalen Umfang durch elektronische Medien.
Eine solche fundamentale Änderung des Marktsetups bedingt ein
ebenso radikales Redesign des Marktes, das sich nur in mehreren Schritten realisieren lässt. Ein erster Schritt wäre die Redistribution der öffentlichen Mittel, die für die Aufrechterhaltung des STM-Zeitschriftenmarktes derzeit fließen.28
4.2 Redistribution öffentlicher Mittel
Die oben angedeutete Neuverteilung des Autorenverwertungsrechtes
geht einher mit der Redistribution öffentlicher Mittel für die Erstellung
und den Erwerb von STM-Informationen. Sie bedarf einer grundlegenden Neuordnung. In der derzeitigen Konstellation kommen die Bibliotheken, das heißt die öffentliche Hand für alle Folgekosten der wissenschaftlichen Publikation auf. Dem Autor entstehen keine Kosten. Wäre
dieser selbst mit einer finanziellen Aufwendung an den Verlag beteiligt,
und behielte gleichzeitig zumindest teilweise die Rechte an seinem Werk,
wäre das finanzielle Verteilungssystem des STM-Zeitschriftenmarktes
nachhaltig verändert. Letztendlich wird die Universität als Arbeitgeber
28
Eine Lösung für die Zeitschriftenkrise lässt sich u.U. auch durch ein weniger radikales
Redesign des STM-Zeitschriftenmarktes erreichen. Allerdings bleibt m.E. für eine
langsame Evolution des Marktes unter den gegebenen Bedingungen nicht ausreichend
Zeit.
36
Michael Meier
der wissenschaftlichen Autoren für die Publikation der primären wissenschaftlichen Literatur in finanzieller Hinsicht aufkommen.
Wie der Autor selbst in den finanziellen Kreislauf eingebunden werden kann, führen bereits einige Verlage in beispielhafter Weise vor. Der
BioMedCentral-Geschäftsführer Jan Velterop umschreibt seine Geschäftsphilosophie mit dem Schlagwort »Author Charges are the Future«.29 Autorengebühren bergen das Potential, das System des wissenschaftlichen Publizierens nachhaltig zu verändern. Wissenschaftler erwarten vom STM-Publikationssystem, dass ihre Ergebnisse in ein Archivierungssystem eingebracht werden und weitestgehende Verbreitung finden. Optimale Wissenszirkulation kann allerdings das derzeitige Veröffentlichungswesen nicht leisten. Noch unterliegt offener und öffentlicher
Zugang zu wissenschaftlichen Forschungsergebnissen Restriktionen. Die
Finanzierung der wissenschaftlichen Veröffentlichung über die Universität des Autors beziehungsweise der Konsumenten unter Ausschaltung
der Bibliotheken (die jedoch nach wie vor dem Archivierungsauftrag
nachzukommen haben) und garantiertem freien Zugang für alle Interessierten, nicht nur einer kleinen Gruppe von Abonnenten. Das BioMedCentral-Modell ermöglicht den Verlagen, ihre Kosten für die Veröffentlichung der wissenschaftlichen Information unabhängig von Abonnements zu decken. Noch sind die strukturellen Auswirkungen dieses neuen Geschäftsmodells nicht absehbar; die Reaktionen der relevanten Bibliothekscommunity waren jedoch insgesamt sehr positiv.30
Steuert der Autor mit einer Zahlung an den Verlag selbst die Verbreitung seiner Forschungsergebnisse, werden damit wesentliche Verbesserungen des Informationsaustausches mit der Konsequenz einer deutlich
verbesserten Verbreitung wissenschaftlicher Informationen erreicht:
Denn nicht nur durch Verlage, sondern auch über andere, elektronische
Kanäle wie Preprint-Server oder wissenschaftliche Communities werden
Forschungsergebnisse verbreitet.
Verlage wären unter diesen Marktumständen gezwungen, um die besten wissenschaftlichen Artikel zu konkurrieren, denn die Autoren wägen
die Einreichung ihrer Artikeln nach ökonomischen und renommeebezogenen Gesichtspunkten ab, da sie mit ihrem eigenen Budget an der Veröffentlichung beteiligt sind. Der Autor ist damit unmittelbar an einer
29
30
Vgl. <http://www.biomedcentral.com> (17.2.2004).
Bei allem Optimismus über die innovativen Geschäftsmodelle, die BioMedCentral
entwickelt, darf nicht übersehen werden, dass ein Hauptziel von BioMedCentral in der
Schaffung von veräußerbaren unternehmerischen Werten liegt (auch das innovative
Portal BioMedNet wurde von der Current Science Group entwickelt und anschließend
an ElsevierScience veräußert).
37
schnellen und breiten Distribution seines Werkes interessiert und kann
diese selbst steuern. Die Auswahl der Zeitschriftenlabels und die Menge
der eingereichten Artikel verändern sich als Folge des neuen Finanzierungsstroms nachhaltig. Wettbewerb und Innovation in der Autorenbetreuung und Informationsverbreitung werden so gesteigert. Mit Aufgabe
des restriktiven und exklusiven Verwertungsrechtes in der Hand einer
einzigen Institution würden auch die Markteintrittsbarrieren in den STMZeitschriftenmarkt deutlich sinken. Damit könnte sich auch der Distributionsmarkt effizienter ausdifferenzieren.
Grundsätzlich liegt die Zukunft nicht im überkommenen, seriellen
Zeitschriftenkonzept, sondern in einem evolutionär wachsenden Artikelarchiv. Der Wettbewerbsvorteil der Verlage beziehungsweise Contentdienstleister wird mehr und mehr durch die Fähigkeit definiert, eine kritische Masse an attraktiver wissenschaftlicher Information durch eine einzige, nutzerfreundliche Schnittstelle bereitstellen zu können. Peer Review
wird aller Wahrscheinlichkeit nach die akzeptierte und geforderte Qualitätskontrolle bleiben, auch wenn mit interaktiven Leserentscheiden experimentiert wird. Realistischerweise ist kurzfristig keine schnelle Veränderung des Fachzeitschriftenmarktes zu erwarten. Nur wenn die Einkaufsbudgets der Universitäten den einzelnen Departments zugeordnet würden, könnten diese ein alternatives Publikationssystem in Erwägung ziehen. Ohne eine solche Veränderung wird die Entwicklung von Portalen
für bestimmte wissenschaftliche Themen zunehmen. Dabei wird ein Mix
an kostenlosen und kostenpflichtigen wissenschaftlichen Informationen
entstehen, die insgesamt kommerzielle beziehungsweise staatliche Unternehmen kontrollieren. Möglicherweise werden diese Journals von
Wissenschaftlern selbst veröffentlicht, allerdings unter der wirtschaftlichen Verantwortung kommerzieller Häusern, die ihre Branding- und
Marketingkompetenz einbringen. Am Ende der Entwicklung steht ein
diversifizierter Contentmarkt, der sich durch freie Verfügbarkeit der wissenschaftlichen Informationen und eine Reihe kommerzieller Dienstleistungsunternehmen auszeichnet, die für die Interessen der Wissenschaftler tätig sind.
5. Ausblick
Die Verbreitung von verlässlichen Forschungsergebnissen im STMBereich ist ein komplexes und vor allem oftmals hochprofitables Geschäft. Derzeit wird der STM-Zeitschriftenmarkt größtenteils durch Verlagskonzerne bestimmt, obwohl auch kleinere, unabhängige Verlagshäuser und wissenschaftliche Gesellschaften einen nennenswerten Anteil am
38
Michael Meier
Gesamtgeschäftsvolumen haben. Die Anzahl frei zugänglicher Ejournals,
die von Wissenschaftlern ohne finanzielle Unterstützung unterhalten
werden, ist zwar gewachsen, jedoch nicht in dem Ausmaß, wie dies noch
vor etwa fünf Jahren vorhergesagt wurde. Gleichzeitig digitalisierten
kommerzielle und nichtkommerzielle Verlage ihren wissenschaftlichen
Content in verhältnismäßig großem Umfang. Dies führte zu einer erneuten Vormachtstellung der etablierten Verlage im neuen Medium Internet.
Große Verlagshäuser, die den Markt des gedruckten Journals dominieren, dehnen diese Kontrolle auch auf die elektronischen Zeitschriften
aus. Hierzu bedienen sie sich neu aufgebauter Zugangsrestriktionen, vor
allem der Kontrolle von Verwertungsrechten in allen Medienformen.
Das (amerikanische) Copyright, ursprünglich für den Schutz der Autorenkreativität gedacht, bildet mittlerweile die Basis der Geschäftsmodelle
kommerzieller Verlage und die Grundlage nahezu aller ökonomischen
Aktivitäten auf dem STM-Zeitschriftenmarkt. Im elektronischen Zeitalter ermöglicht die Kontrolle der Verwertungsrechte den kommerziellen
Verlagen nahezu unbeschränkte Flexibilität in der Bündelung hochspezialisierter Zeitschriften mit geringem Journal Impact Faktor – eine Strategie, die ihre Marktmacht noch mehr vergrößert.
In der andauernden Debatte über die Zukunft des wissenschaftlichen
Publizierens wurde den Verlagen vielfach eine gewisse Kontrolle über
die Verwertungsrechte an primären wissenschaftlichen Forschungsergebnissen zugestanden. Bislang besteht die wesentliche Einnahmequelle
der Verlage in Subskriptionen und den daraus realisierten Gewinnen.
Sowohl kommerzielle als auch nichtkommerzielle Verlage erachten Verwertungsrechte als essentiell für ihre Geschäftsmodelle und ihren wirtschaftlichen Erfolg. Daher haben alle Vorschläge, die an dieser grundsätzlichen Verteilung der Verwertungsrechte tief greifende Modifikationen vorschlugen, mit die hitzigsten Debatten ausgelöst, so etwa die Diskussion um die Public Library of Science.31
In der Printära waren zeitlich unbegrenzte Nutzungsrechte von Verlagen unproblematisch. Das elektronische Medium ändert dies, da neue
und kostengünstige Distributionskanäle den Wissenschaftlern als Alternative zur Verfügung stehen. Sobald die gedruckten Parallelausgaben
verschwinden, werden die Kosten für das Bibliothekssystem deutlich
sinken. Dies muss nicht zu Lasten der Verlagsgewinne gehen, da externe
Kosten wie Erwerbungen nur etwa ein Drittel der Bibliotheksausgaben
ausmachen. Es sind die hohen internen Kosten der Bibliotheken, die
31
Vgl. <http://www.publiclibraryofscience.org> (17.2.2004).
39
durch einen Wechsel zum rein elektronischen Publikationsparadigma
nachhaltig gesenkt werden können.
Die bislang vorherrschende Ausdifferenzierung des Zeitschriftenmarktes in thematische Subsegmente kann durch übergreifende Archive
aufgebrochen werden, da die Grenzen zwischen den unzähligen Subdisziplinen wegfallen. Doch noch fehlt vielen innovativen Zeitschriftenprojekten die notwendige kritische Masse an wissenschaftlichen Informationen, um auf dem Markt wahrgenommen zu werden. Dies gilt auch für
zahlreiche Datenbankprojekte. Um effektiv zu sein, müssen diese Datenbanken eine ausreichende Masse an relevanter Literatur sowohl des
kommerziellen als auch des nichtkommerziellen Spektrums umfassen.
Um gegen die derzeit vermarkteten Online-Projekte großer Verlagshäuser bestehen zu können, benötigen öffentliche Archive ebenfalls größere
Zeitschriftenportfolios, die nur durch entsprechende Zusammenschlüsse
erreichbar sind. Doch kommerzielle Verlage beharren auf ihren OnlineVerwertungsrechten, da sie in Zukunft über eigene, vertikale Themenportale dauerhafte, neue Geschäftsmodelle im Internet realisieren wollen.
Die schnellste Weise, diesen Wechsel zu finanzieren, besteht in der
Redistribution der Forschungsmittel vom bisherigen Abonnementsystem
hin zu den Autoren selbst, die damit ihre Publikation mit freiem Zugang
finanzieren könnten. Das gesamte Potential des elektronischen Publizierens lässt sich nur voll ausschöpfen, wenn die wissenschaftliche Gemeinschaft ihren Einfluss geltend macht. Wie in der Hochenergiephysik
durch den ArXiv-Server müssen Verlage gezwungen werden, aus schierem Systemdruck heraus die freie Verfügbarkeit wissenschaftlicher Informationen zu akzeptieren. Denn es ist illusorisch zu erwarten, die Wissenschaft werde sich mit Selbsthilfe-Projekten wie SPARC langfristig gegen die Verlage stemmen können. Wissenschaftler wollen zwar keine
Datenbankbetreiber, sondern wissenschaftlich tätig sein. Dennoch liegt
das Schicksal von barrierefreien, öffentlichen Archiven zum großen Teil
in der Hand der wissenschaftlichen Community.
Obwohl sich bislang das grundsätzliche Format der wissenschaftlichen Zeitschrift verhältnismäßig langsam wandelt, sind drastische Umbrüche innerhalb der kommenden fünf bis zehn Jahre zu erwarten. Denn
die Bedeutung traditioneller Journals in der wissenschaftlichen Kommunikation sinkt rapide zu Gunsten einer Ausweitung alternativer Distributionskanäle. Das Internet ermöglicht eine ganze Reihe neuer, deutlich
flexiblerer und schnellerer Kommunikationsformen. E-Mail-Korrespondenz und Preprint-Server breiten sich rasch in vielen wissenschaftlichen
Communities aus und ersetzen vielfach traditionelle Zeitschriften. Mit
der Einführung allgemein anerkannter Qualitätssiegel wird sich diese
40
Michael Meier
Entwicklung noch beschleunigen. Auch in Wissenschaften, die jetzt
noch in hohem Maße auf ältere wissenschaftliche Informationen zurückgreifen müssen, werden diese zukünftig als digitale Dokumente zur Verfügung stehen.
Walter Morgenthaler
Gottfried Kellers Studienbücher – elektronisch ediert
Abstract
Handwritten documents like Gottfried Keller's ›Studien- und Notizbücher‹ (›study and note books‹) demand an edition, which accounts for
the special character of text witnesses. It is not the task to transfer the
records into ›edited texts‹ only, but to make them visible inside their topographic embedding. The Historisch-Kritische Gottfried KellerAusgabe (Historical-Critical Gottfried Keller Edition) complies with
these requirements owing to the complete reproduction of the text witnesses and the complement of each hand written page with a diplomatic
transcription. The computer edition on CD-ROM, issued with the book,
intends to implement appropriately the interaction of hand writing and
transcription as well within the electronic media. This specification includes, aside from a word by word parallelisation, also a search option
for character strings, which spans the entire corpus of the text witnesses.
Thus, the limitation to sole textual and graphic display, which still rules
today's electronic media, is overcome.
Im Herbst 2001 sind im Rahmen der Historisch-Kritischen Gottfried
Keller-Ausgabe (HKKA)1 die Bände 16.1 und 16.2 mit Kellers Studienund Notizbüchern erschienen.2 Mit diesen Bänden war für die HKKA
1
2
Gottfried Keller. Sämtliche Werke. Historisch-Kritische Ausgabe. Hg. unter der Leitung von Walter Morgenthaler im Auftrag der Stiftung Historisch-Kritische Gottfried
Keller-Ausgabe. Basel/Frankfurt a. M./Zürich: Stroemfeld-Verlag/Verlag Neue Zürcher Zeitung 1996ff.
HKKA, Bd. 16.1 Studienbücher (2001), Bd. 16.2 Notizbücher (2001), Bd. 29 Studienund Notizbücher. Apparat zu Bd. 16.1 und 16.2 (2002), alle hg. von Walter Morgenthaler/Thomas Binder/Peter Villwock/Peter Stocker/Karl Grob unter Mitarbeit von
Dominik Müller. – Die HKKA gliedert sich in vier Abteilungen. Abteilung A (HKKA
1-10) entspricht Kellers Ausgabe letzter Hand, den Gesammelten Werken von 1889;
Abteilung B (HKKA 11-15) enthält die publizierten Werke (und Werkfassungen), die
Keller nicht in die Gesammelten Werke aufnahm, z.B. die erste Fassung des Grünen
Heinrich oder die frühen Gedichtbändchen; Abteilung C (HKKA 16-18) dagegen umfasst die Nachlass-Schriften, also etwa Kellers Tagebuch und Traumbuch, die Dramenfragmente oder die Studien- und Notizbücher. Abteilung D (HKKA 19-32) enthält die
Apparatbände mit Entstehungsgeschichte, Textzeugenbeschreibung, Variantenverzeichnis, Dokumenten zur Entstehung und Überlieferung. Den Apparatbänden ist eine
42
Walter Morgenthaler
eine neue Situation gegeben: Zum ersten Mal ging es nicht – wie bei den
vorher edierten großen Novellenzyklen – vorrangig um Probleme der
Textentstehung, der Variantenverzeichnung oder der Überlieferungsgeschichte, sondern um die Frage, wie mit ausschließlich handschriftlich
überlieferten Nachlasstexten umzugehen sei. Und insbesondere: Wie
Textzeugen zu behandeln seien, welche – wie die Studien- und Notizbücher – die unterschiedlichsten Eintragungen versammeln, deren Nebenund Nacheinander allein schon (diesseits jeder Werkintention) einen Zusammenhang sui generis bilden. Diese Fragen waren sowohl für die
Buchausgabe wie für die sie begleitende und ergänzende elektronische
Edition (Computeredition) zu beantworten. Die folgenden Ausführungen greifen die Fragen auf und diskutieren die gewählten Lösungsverfahren in gedrängter Form anhand eines einzelnen Textzeugen.
Die Textzeugen
Das Studienbuch Ms. GK 13, von dem hier einzig die Rede sein soll,
enthält Eintragungen aus der Zeit von 1835 bis 1838, die 1841, während
Kellers Studienaufenthalt in München, durch weitere ergänzt wurden.
Während es sich bei den Münchner Eintragungen vor allem um erzählerische Entwürfe für das (vermutlich als Unikat hergestellte, aber nicht
erhaltene) Wochenblatt der Schweizergesellschaft handelte, dessen zeitweiliger Redakteur Keller war, so sind es davor so unterschiedliche Dinge wie Gedichtexzerpte, Räubergeschichten, Briefentwürfe, Reflexionen
über Kunst und Leben oder ein dreißigseitiger Dramenentwurf; dazu
kommen aber vor allem auch Zeichnungen, die – bei umgedrehtem Buch
– vorwiegend den hinteren Teil belegen. Nichts von alledem ist später in
Kellers Werk eingegangen, und doch kündigt sich darin vieles an, was
das spätere Schaffen ausmacht. Wird an den Exzerpten augenscheinlich,
wie sich über dem Abschreiben fremder Texte allmählich das eigene
Schreiben zu formieren beginnt, so zeigt sich andererseits am Wechsel
von Bild und Schrift Kellers frühe Unentschiedenheit zwischen Malerund Dichtertum. Die »Texte« mit ihren weitgehend kontextunabhängigen Bedeutungsstrukturen bilden nur die eine Ebene dieses Textzeugen.
Ebenso bedeutsam sind – ganz abgesehen von den Skizzen und Zeich-
3
CD-ROM mit der Computeredition beigelegt, die den jeweils aktualisierten, gesamten
bisher edierten Bestand umfasst.
Die Studien- und Notizbücher werden in der Zentralbibliothek Zürich unter den Signaturen Ms. GK 1 und 2 (Studienbücher), Ms. GK 66-76 (Notizbücher) aufbewahrt. –
Zur Typologie vgl. HKKA 29, S. 64f.
43
nungen – all die Phänomene, die nicht als solche in die »Texte« eingehen,
vielmehr diese gerade an den einmaligen Textzeugen zurückbinden: die
Anordnung der Eintragungen, der Seitenumbruch, die Positionierung innerhalb einer Seite, die Leerräume, die Streichungen oder der abrupt ändernde Schriftzug.
Ein Beispiel: Die Seite 83 des Studienbuches ist ganz Kellers Geburtstag vorbehalten. Es sei hier die Wiedergabe eingerückt, wie sie sich als
konstituierter Text in Band 7 der Keller-Ausgabe des Deutschen Klassiker Verlags (DKV) findet:
Den 19. Juli 1837
Heute ist mein 18ter Geburtstag; von heute an über 2 Jahre gelob ich mir, einigen Ruf zu gewinnen, wo nicht, so werf’ ich die Kunst zum Teufel und lerne das
Schusterhandwerk.
den 19. Juli 1838
Heute ist mein 19ter Geburtstag und sehe ein, daß es dummes Zeug war, was
ich vor einem Jahre geschrieben.
den 20ten Juli
O! Unabhängigkeit! wie bist du so schön!4
Die Wiedergabe lässt erkennen, dass die beiden ersten Eintragungen um
genau ein Jahr auseinanderliegen, wobei die zweite das Gelöbnis der ersten widerruft. Unklar ist, wie sich die dritte, euphorisch gestimmte, zu
den beiden andern verhält.
4
Gottfried Keller. Sämtliche Werke in sieben Bänden. Hg. v. Thomas Böning u. a.
Frankfurt a. M.: Deutscher Klassiker Verlag 1985-1996 (= DKV). Bd. 7: Aufsätze
Dramen Tagebücher. Hg. v. Dominik Müller (1996), S. 587. – Die Wiedergabe des
DKVs löst den originalen Zeilenumbruch auf, beschränkt sich auf die ›entzifferbaren‹
Partien, verzichtet auf die Korrekturvarianten und auf die Kennzeichnung grafischer
Phänomene.
44
Walter Morgenthaler
Bild 1
Was nur die Handschrift (siehe das folgende Bild 1) unmittelbar verrät,
ist der Befund, dass der Widerruf von 1838 nachträglich in dunklerer
Tinte und mit breiterer Feder dazwischengeschoben wurde und dass die
Unabhängigkeits-Emphase die gleiche Schrift und Tinte aufweist wie die
erste Eintragung und demzufolge dem Jahr 1837 (nicht 1838) zuzurechnen ist. Dazu kommt nun, noch zur ersten Eintragung gehörend, ein
weiterer halb verwischter oder ausradierter, nur durch Interpolation vollständig entzifferbarer Satz, durch den die Eindeutigkeit der Aussagen
und Zuordnungen etwas ins Wanken gerät:
Heute sah ich ein Mädchen,
das mir gefällt; ich werde es kennen lernen; von heute an über 2 Jahre will ich
wissen ob wir zueinander gehören od. nicht.
Auch wenn der Satz – zu unbestimmbarem Zeitpunkt – getilgt wurde,
geschah dies nur unvollständig und keineswegs bis zur völligen Unlesbarkeit, dadurch aber gerade zu insistenterem Hinsehen aufrufend.5
Nicht entscheiden lässt sich, ob die Widerrufung der zweiten und die
5
Wie die Abbildung in HKKA 16.1, S. 173 zeigt, kann der radierte Satz – entgegen den
bisherigen, ihn meidenden Ausgaben – durch verstärkte Kontrastierung bis zur weit
gehenden Entzifferbarkeit sichtbar gemacht werden.
45
Euphorie der dritten Eintragung sich auf den getilgten Teil der ersten
Eintragung oder nur auf deren Anfang oder auf beides zugleich beziehen. Erstaunlich genug bleiben die Konstellation insgesamt und die Tatsache, dass Keller ein Jahr nach der Eintragung des Gelöbnisses genau
an dieser Stelle des Studienbuches den Widerruf – für wessen Auge? –
eingepasst hat. Dabei nimmt die ursprüngliche tildenförmige Abschlusslinie unter der ersten Eintragung unversehens die Gestalt einer Verbindungsschleife an, welche wie eine versöhnende Geste die spätere Widerrufung an das frühere Gelöbnis heranholt. – All diese vorrangig topografischen Phänomene lassen sich nicht in einen ›edierten Text‹ überführen
oder in einem Kommentar zur Anschauung bringen. Wie aber können
sie angemessen dargestellt werden?
Die Edition der Studien- und Notizbücher
Noch unberührt von solchen Fragestellungen sind die zwischen 1926
und 1949 von Jonas Fränkel und Carl Helbling herausgegebenen Sämtlichen Werke (SW),6 die zum ersten Mal auch Kellers Nachlassschriften in
größerem Umfang erschlossen haben. Entsprechend der werkteleologischen Grundausrichtung dieser Edition wird den Studien- und Notizbüchern nur Beachtung geschenkt, soweit sie als Materialsammlung für die
Entstehungsgeschichte publizierter Werke (zum Beispiel des Grünen
Heinrich) dienen können, eine authentische dichterische Schaffenskraft
erahnen lassen (SW 20) oder etwa die Extrapolation allgemein gültiger
»Reflexionen« (SW 22, S. 325ff.) erlauben.
Erst im Rahmen der Keller-Ausgabe des Deutschen Klassiker Verlags
(DKV)7 wurde erstmals versucht, wenigstens die beiden frühen Studienbücher im Zusammenhang wiederzugeben: allerdings in der Gestalt bereinigter Fließtexte, ohne Berücksichtigung der Korrekturvorgänge, der
Zeilen- und Seitenumbrüche und sonstiger topografischer Besonderheiten sowie unter Weglassung der Exzerpte und der Zeichnungen – entsprechend der Einheitsdoktrin des Gesamtunternehmens DKV, der gemäß alles nicht nur möglichst gleich behandelt wird sondern auch noch
gleich aussehen soll. Dass dadurch der eigentliche Reiz der Studienbücher gerade verloren geht, ist die eine Sache; die andere, dass durch die
6
7
Gottfried Keller. Sämtliche Werke. Hg. v. Jonas Fränkel (1926-1939)/Carl Helbling
(1942-1949). Erlenbach-Zürich/München: Rentsch 1926-1927; Bern/Leipzig: Benteli
1931-1944; Bern: Benteli 1945-1949.
Vgl. Fußnote 4.
46
Walter Morgenthaler
nicht markierten Weglassungen irreführende Textnachbarschaften8 und
durch das Fehlen topografischer Hinweise sogar grobe Missverständnisse entstehen können.9 Dem vermögen einzig die im Kommentar untergebrachte Übersichtsliste (S. 1079ff.) und die ebendort zu findenden
Stellenerläuterungen einigermaßen entgegenzuwirken – vorausgesetzt,
der Benutzer macht wirklich davon Gebrauch.
Da die HKKA im Gegensatz zu allen sonstigen Keller-Ausgaben davon ausgeht, dass die topografischen Eigenheiten den handschriftlichen
Textzeugen nicht bloß äußerlich sind, sondern ihren Charakter zutiefst
mitprägen, wurde ein editorisches Verfahren gesucht, das die entsprechenden Befunde auf möglichst einfache Art umzusetzen vermag. Die
nahe liegendste Lösung bestand darin, die Textzeugen vollständig abzubilden und dabei den (von Keller oder von anderer Hand) beschriebenen
Seiten eine diplomatische Umschrift gegenüberzustellen, unter Verzicht
auf die Konstituierung eines wie auch immer bereinigten ›edierten Textes‹. Als Modell diente die von Roland Reuß und Peter Staengle im
Stroemfeld Verlag herausgegebene Franz Kafka-Edition,10 in der Handschrift und diplomatische Umschrift sich gegenseitig ergänzen, ohne dass
dabei die Transkription das Bild der Handschrift verdrängen würde. In
vergleichbarer Weise werden Kellers Studien- und Notizbücher in der
HKKA Seite für Seite – inklusive Zeichnungen und Exzerpte – abgebildet und auf der jeweils gegenüberliegenden Seite durch eine Umschrift
begleitet, die natürlich sämtliche Korrekturvarianten mitumfasst und in
problematischen Fällen durch Anmerkungen und Stellenkommentare ergänzt wird. Maßgebende Einheit für die handschriftennahe Darstellungsweise sind die Seiten, im optimalen Falle die Doppelseiten des Ori8
9
10
So erweckt z.B. das direkte Nacheinander der Gedichte Das Grab am Zürichsee und
Nachruf an Curti (S. 595) den Eindruck, als ob sie, im Gegensatz zu den umgebenden
Prosatexten, zusammengehören würden, während doch das erste ganz der inneren Erfahrungswelt von 1838 zugehört und das zweite das Burschenleben von Kellers
Münchner Jahren zelebriert.
Vgl. das obige Beispiel mit den Geburtstags-Eintragungen und Fußnote 4. – Unmittelbar auf die obigen Geburtstags-Eintragungen folgt in der DKV-Darstellung (S. 587)
eine Eintragung vom 30. Januar 1838. Dadurch erscheint die UnabhängigkeitsApostrophe vom 30. Juli (1837) als integraler Bestandteil einer 1838-Serie, und niemand käme auf den Gedanken, dass (zeitlich) ein halbes Jahr dazwischenliegt und
(räumlich) zwei ganzseitige Zeichnungen das eine vom andern fern halten.
Franz Kafka. Historisch-Kritische Ausgabe sämtlicher Handschriften, Drucke und Typoskripte. Hg. v. Roland Reuß/Peter Staengle. Frankfurt a. M.: Stroemfeld Verlag
1995ff. – Diese Edition geht von einer radikalen Differenz zwischen kontextunabhängigem gedrucktem Text und topografisch fixierter Handschrift aus, wie sie die
HKKA etwa bei den Druckmanuskripten für Kellers Werke nicht in gleicher Absolutheit voraussetzt, weshalb hier auch in der Abteilung A anders verfahren wird.
47
ginals. Sie bestimmen auch die Positionierungen und den Zeilenfall der
Transkription, die natürlich nach wie vor bis zu einem starken Grade
schematisierend verfährt und auf einem Kompromiss zwischen den Anforderungen des Originals und den technischen Möglichkeiten der Wiedergabe beruht. – Wozu nun aber noch eine buchbegleitende Computeredition?
Computereditionen
Der zweifellos größte Vorteil einer Computeredition gegenüber der
Buchedition sind die Recherchiermöglichkeiten über große Textmassen
hinweg, und sei dies durch einfache Zeichenfolgensuche. Demgegenüber
wurden – mitbedingt durch die Unterschiedlichkeit der Plattformen und
Ausgabemedien – andere Erfordernisse wie eine flexible Variantendarstellung oder die Einbindung von Handschriften bei bisherigen elektronischen Editionen in erstaunlichem Maße vernachlässigt; Mängel, die
sich zu Zeiten wachsender Apparate und sich zunehmend Anerkennung
verschaffender Faksimile-Editionen besonders bemerkbar machen. Dass
eine begleitende Computeredition auch darstellungsmäßig nicht allzu
weit hinter den Stand der Buchedition zurückfallen sollte, scheint zwar
selbstverständlich; nur selten werden daraus aber auch die entsprechenden Konsequenzen gezogen.
Noch ganz auf einfache Textwiedergabe und darauf applizierte Suchfunktionen beschränken sich die von Chadwyck Healey (ProQuest) produzierten elektronischen Klassiker-Editionen.11 Es handelt sich um eine
bloße Umsetzung der entsprechenden DKV-Studienausgaben, die zwar
eine hilfreiche Volltextrecherche ermöglicht, darüber hinaus aber wenig
technische Phantasie verrät. Dagegen werden (zumindest im Falle Kellers) nicht nur sämtliche Schwächen der Buchausgabe (inklusive die
Druck- und Transkriptionsfehler) übernommen, sondern diese noch erheblich potenziert, begonnen bei der Festschreibung der Referenzierung
11
Digitale Bibliothek Deutscher Klassiker auf CD-ROM. CD-ROM 2. Frankfurt a. M.:
Deutscher Klassiker Verlag 2001. – Interessanter, wenn auch auf Grund technischer
Bedingungen inhaltlich noch problematischer, ist die Internet-Version Digitale Bibliothek Deutscher Klassiker im WWW. – Beiden Versionen ist bisher zueigen, dass sie
auf Grund horrender Preise an zahlungswillige Institute gebunden sind und dadurch
den Charakter der Studienausgabe, dem sie verpflichtet bleiben, bedenklich strapazieren.
48
Walter Morgenthaler
auf die Zufälligkeiten des Buch-Fließ-Satzes und endend bei der konsternierend schlechten Handhabbarkeit des Kommentars.12
Demgegenüber bietet das mit der HKKA auf CD-ROM ausgelieferte
Datenbankprogramm einen ungleich größeren Funktionsumfang und erfüllt auch die für eine historisch-kritische Ausgabe unabdingbaren Erfordernisse einer komplexen Variantendarstellung. Mit dem vor mehr als
zwölf Jahren eigens für die HKKA entwickelten DOS-Programm kann
man alle edierten Texte (inklusive die Studien- und Notizbücher) mit ihren Varianten, editorischen Stellenkommentaren, Sachwörtern und
Querverweisen anzeigen und nach Zeichenfolgen absuchen, auch Variantentexte generieren, definierbare Informationen ausfiltern und Quellentexte oder Briefdokumente einblenden. Aber die (aus historischen
Gründen zu erklärende) Bindung an eine nichtgrafische Oberfläche erlaubt es – abgesehen von der inzwischen veralteten Bedienungsweise –
nicht, Handschriften wiederzugeben noch auch nur diplomatische Umschriften (mit genauen Positionierungen, Streichungen, Schriftwechseln
und so weiter) darzustellen.13 Für die Edition der Nachlass-Schriften
musste deshalb nach einer neuen Lösung gesucht werden.14
Die (längst bekannte) Schwierigkeit bestand darin, dass es kaum überzeugende praktikable, das bloße Versuchsstadium überschreitende Modelle für die Zusammenführung von Text beziehungsweise Transkription
und Handschriften-Reproduktion zu geben schien,15 so dass am Ende
die Einfach- und Schnellvariante der bloßen Buchsatzwiedergabe im pdfFormat, wie sie etwa die Franz Kafka-Ausgabe verwendet, sich als einzige überlegenswerte Möglichkeit erwies. Sie bietet – bei minimalem Er12
13
14
15
Stellenkommentare müssen (zumindest im Falle der Keller-Edition) auf so kompliziertem Umweg angegangen werden, dass die Lust daran sehr schnell verloren geht. Mag
dies im Fall der Wort- und Sacherläuterungen oft verschmerzbar sein, so doch sicher
nicht dort, wo auf editorische Befunde (wie die oben beschriebenen) hingewiesen wird,
ohne deren Kenntnis die edierten Texte gar nicht verständlich sind.
Vgl. dazu Walter Morgenthaler: Gottfried Keller – elektronisch ediert. In: Jahrbuch für
Computerphilologie, 1 (1999), S. 91-100.
Inzwischen wird auch an einer neuen, grafikfähigen und nicht auf Windows beschränkten Version des Datenbankprogramms gearbeitet, welche den heutigen Benutzerbedürfnissen Rechnung tragen und das Auseinanderklaffen von Datenbank- und
Handschriften-Programm verringern soll. Auf die Flexibilität relationaler Datenstrukturen (etwa zu Gunsten bloßer Textauszeichnungen) soll dabei nicht verzichtet werden.
Eine Ausnahme macht das Projekt HyperNietzsche, das die handschriftlichen Dokumente mit verschiedenen Arten von Transkriptionen verknüpft, darüber hinaus aber
alles überhaupt irgendwie Nietzsche Betreffende in einem Universum von Vernetzungen unterbringen möchte. – Vgl. dazu Paolo D’Iorio: HyperNietzsche. Paris: Presses
Universitaires de France 2000.
49
stellungsaufwand – plattformübergreifend Satzqualität am Bildschirm mit
der Möglichkeit stufenweiser Vergrößerung und Verkleinerung und der
Suche nach Zeichenfolgen in der Transkription, was allerdings bei Sonderzeichen wie etwa dem langen ›s‹ oder bei verschachtelten Korrekturen
und unterbrechenden diakritischen Zeichen zu Problemen führen kann.
Das Hauptproblem ist aber die fehlende direkte Verbindung zwischen
Handschrift und Transkription innerhalb einer Seite.16 Außerdem zeigen
sich gerade hier, bei größtmöglicher Nähe zwischen Buch und Bildschirm, die Nachteile des letzteren besonders stark: Das relativ langsame
›Umblättern‹, das umständliche Verkleinern, Vergrößern und Nachpositionieren, das ständige Ziehen und Stoßen mit dem Zeigehändchen bei
generell schlechter Orientierungsmöglichkeit vermag niemals die einfache Eleganz des schnellen Durchsehens, des Umblätterns und Überschlagens der Seiten eines Buches wettzumachen.
Solche grundlegenden Defizite haben die Herausgeber der HKKA dazu veranlasst, von der pdf-Variante abzusehen und eine eigene Softwarelösung zu entwickeln, welche die Stärken des elektronischen Mediums
auszunützen versucht, ohne ständig an das erinnern zu müssen, was das
Buch dennoch besser kann. Das Programm, das schon versuchsweise bei
der Edition der Sieben Legenden und der Züricher Novellen eingesetzt
wurde,17 ermöglicht nun den Zugang zu sämtlichen Studien- und Notizbüchern (inzwischen auch zur Nachlassprosa und zu den Dramenfragmenten, HKKA 18). Es basiert auf der direkten Verknüpfung von
Handschrift und Transkription mittels Bildkoordinaten und Wortlisten
und erlaubt dadurch dem Benutzer das Suchen nach Zeichenfolgen in
der Handschrift ohne den Umweg über die Transkription.18 – Wie dies in
der Anwendung aussieht, soll im Folgenden anhand der Studien- und
Notizbücher etwas umrissen werden.
16
17
18
Es bleibt dem Benutzer überlassen, beim Lesen der Transkription die entsprechende
Stelle in der Handschriften-Abbildung zu finden; ein Verfahren, das sich bei leicht lesbaren Handschriften wie im Fall Kafkas ohne allzugroße Mühe anwenden lässt, aber
etwa bei Entwürfen des späten Nietzsche oder bei Robert Walsers Mikrogrammen
kaum mehr zumutbar ist.
Dies betrifft die erste Niederschrift (H1) der Sieben Legenden (vgl. HKKA 23.2) und
das Druckmanuskript für das Fähnlein der sieben Aufrechten (vgl. HKKA 22).
Die Applikation wurde in Visual Basic programmiert und ist vorläufig auf WindowsSysteme beschränkt. Die Textdaten wurden größtenteils aus der DOS-Textdatenbank
und aus den Satzvorlagen importiert, die Wortpositionen mit Unterstützung durch
spezielle Zusatzroutinen manuell bestimmt.
50
Walter Morgenthaler
Studien- und Notizbücher, elektronisch ediert
Den Ausgangs- und Referenzpunkt für die elektronische Darstellung bilden die über Inhaltsverzeichnisse oder Icons wählbaren handschriftlichen Textzeugen (hier die einzelnen Studien- und Notizbücher). Diese
können Seite für Seite durchgeblättert, auf einer bestimmten Seite oder
bei einer gewünschten Eintragung ›aufgeschlagen‹ oder nach einer bestimmten Zeichenfolge abgesucht werden. Als Darstellungs- und Bezugseinheit gilt die Handschriftenseite (bei Kleinformaten eine Doppelseite), von der ein möglichst umfangreicher Ausschnitt so angezeigt wird,
dass die abgebildete Schrift bezüglich Größe und Kontrast gut lesbar ist.
Die Wahl des Bildausschnittes (der sich auch auf Bildschirmbreite vergrößern lässt) wird mittels eines kleinen Seitenübersichts-Fensters (Navigator) gesteuert, das zugleich die Orientierung innerhalb der Seite erleichtert. Beim Überfahren eines Wortes mit der Maus wird dessen
Transkription ohne spürbare zeitliche Verzögerung in einem Textfeld am
oberen Rand angezeigt, so dass der Benutzer die Handschrift gewünschtenfalls Wort für Wort entziffernd durchgehen kann. Durch Anklicken
mit der rechten Maustaste wird die Worttranskription direkt in das Bild
übertragen.19
Das Umkehrverfahren zur Transkription ist die Zeichenfolgensuche.
Ein im Textfeld unterhalb des Navigators eingegebenes Wort (oder ein
Wortteil) wird auf Befehl gesucht und, wenn auf der aktuellen Handschriftenseite vorhanden, mit einem roten Rahmen umrandet. Nach dem
gleichen Ausdruck kann aber auch im ganzen Textzeugen (nach vorn
oder hinten) weitergesucht und die jeweils nächste Fundstelle angezeigt
werden.20 Alternativ dazu lässt sich eine Liste mit sämtlichen Fundstellen
aller Studien- und Notizbücher einblenden, was im Übrigen auch ein
leichtes Navigieren zwischen den verschiedenen Textzeugen erlaubt.
19
20
Die Worttranskriptionen gleichen dem Beschriften einer Geländekarte mit geografischen Namen. Dass sie sich auch für didaktische Zwecke, z.B. das Einüben in das Lesen einer Handschrift, anwenden lassen, ist ein willkommener Nebeneffekt dieses Verfahrens, das letztlich nicht dem Zweck dient, die Handschrift in einen Text zu überführen, sondern sie als solche wahrzunehmen und entzifferbar zu machen.
Die Suche nach einem Wort oder Wortteil wird übrigens durch Sonderzeichen und
diakritische Zeichen u. ä. nicht behindert, da solche Zeichen automatisch ausgefiltert
oder aufgelöst werden. – Korrekturakte wurden für die Textdatenbank, für die Worttranskriptionen und die Zeichenfolgensuche wort- und nicht zeichenorientiert (auch
genetisch statt topografisch) erfasst. Was in der diplomatischen Umschrift der Computer- wie der Buchedition als »Ele[me]nd`es« erscheint (»me« wird durch »nd« überschrieben), wird für die Worttranskription als »[Eleme]¬ Elendes« codiert (¬ bezeichnet eine Sofortkorrektur), was es einzig ermöglicht, sowohl nach »Eleme« wie nach
»Elendes« zu suchen. – Zur diplomatischen Umschrift vgl. die folgende Fußnote 21.
51
Bild 2
Bild 3
Neben die Wortranskription (Bild 2) tritt die integrale Transkription. Sie
wiedergibt den ›Text‹ des gesamten Textzeugen – analog zur Buchediti-
52
Walter Morgenthaler
on21 – in diplomatischer Umschrift und kann in einem frei beweglichen
Fenster von beliebiger Größe eingeblendet werden.
Auch hier ist die direkte Parallelisierung von Handschrift und Transkription bis hinunter auf die Wortebene möglich (Bild 3): Ein in der Umschrift angeklicktes Wort wird vom Programm (wie bei der Zeichenfolgensuche) in der Handschrift rot umrahmt angezeigt; umgekehrt wird eine im Handschriften-Ausschnitt angeklickte Stelle automatisch in der
Umschrift durch Einfärbung hervorgehoben.
Erwähnt sei noch die Möglichkeit, Handschriftenstellen (als ›Photos‹)
in kleine Felder unterhalb des angezeigten Ausschnittes zu kopieren
(Bild 4). Dadurch lassen sich einzelne Handschriftenstellen, zum Beispiel
zu Datierungszwecken, direkt miteinander vergleichen.22
Bild 4
21
22
Die integrale Transkription verwendet bei den Nachlassdokumenten eine zur Buchedition analoge diplomatische Umschrift: mit Unterstreichungen, Durchstreichungen,
Unterscheidung von deutscher und lateinischer Schrift durch Typen mit bzw. ohne Serifen. Allerdings wurden (wegen der Suchfunktionen) die langen ›s‹-Formen und die
Geminationsstriche aufgelöst, abweichende Schreibrichtungen normalisiert und mehrzeilige Schräg- und Kreuzstreichungen durch diakritische Zeichen (Eckklammern) ersetzt.
Die beiden unteren ›Photo‹-Felder in Bild 4 enthalten den Schriftzug »Geburtstag« der
angezeigten Studienbuchseite (Eintragung von 1837 und 1838; vgl. oben), das Feld
darüber zeigt den späteren Beleg in einem Kalender von 1879.
53
Die Kopierfelder speichern auch die Herkunftsadressen der angezeigten
›Photos‹, so dass durch deren Anklicken direkt an die entsprechende
Stelle gesprungen werden kann.
Obwohl die Handschriften-Edition technisch unabhängig von der
DOS-Texdatenbank ist, lässt sich diese dennoch – kontextbezogen – in
einem Fenster einblenden. Damit steht dem Benutzer jederzeit auch das
Datenbankkorpus mit allen Texten, Varianten, Kommentaren und
Querverweisen, mit Quellentexten und Briefdokumenten zur Verfügung.
Logischerweise müsste der Spieß wohl umgedreht und die Darstellung
der Handschriften zu einem Unterbereich des Gesamtkorpus, eines umfassenden ›HyperKeller‹ werden. Dass dies bisher nicht einmal in konzeptioneller Hinsicht geschehen ist, hat vorwiegend pragmatische Gründe und hängt mit dem Verlauf der praktischen editorischen Arbeit und
der Entstehungsweise der Programme zusammen.23 Vermutlich wird sich
das in den nächsten Jahren zum Bessern ändern. Allerdings werden
selbst die optimalsten Möglichkeiten, vom einen zum andern zu gelangen
und alles mit allem zu verbinden, den Benutzer nicht davon entlasten,
die am Buch geschulte Tugend philologischer Bedachtsamkeit auch im
elektronischen Medium zu üben.
23
Der Editionsplan verlangt die kontinuierliche Publikation von Bänden (mit jeweiliger
Parallel-Auslieferung von Textband, Apparatband und CD-ROM); die Planung der
Datenstrukturen und die Entwicklung der Programme lief dagegen seit Anbeginn
(1991) mehr oder weniger nebenher und richtete sich meistens nach den jeweils aktuellen Erfordernissen.
Andrea Opitz
Document Type Definitions zur Erschließung von
Gattungen des Barock im Internet. Ein Projekt
an der Herzog August Bibliothek Wolfenbüttel1
Abstract
With the help of specialists in the relevant fields the Herzog August Bibliothek is engaged in a pilot project concentrating on five genres characteristic of the 17th century – pamphlets, emblem books, almanacs, prayer
books and books on the plague and other contagions – in order to develop document type definitions accessible via the internet. These DTDs
can be employed in the future as worldwide standardisation tools for the
publication and retrieval of the genres concerned. They will be developed on an empirical basis and demonstrated by using a large and representative sample of titles from each genre. We use the Text Encoding Initiative (TEI) and XML to encode text and metadata. The source XML-data
is transformed into static HTML by an XSLT-script and thus offered to
the public via the internet. The project is supported by the Deutsche
Forschungsgemeinschaft (DFG)
Seit Januar 2001 arbeitet die Herzog August Bibliothek an dem mit Mitteln der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt
Barock DTDs – Document Type Definitions zur Erschließung barocktypischer Gattungen im Internet. Mit Hilfe von Fachwissenschaftlern sollen fünf für das 17. Jahrhundert charakteristische Textgattungen mit
Blick auf ihre gattungstypischen Eigenschaften bearbeitet und prototypische Document Type Definitions (DTDs) für die Erstellung von XMLDokumenten entwickelt werden.
1
Die nachfolgende Darstellung basiert auf einem Vortrag, der von mir am 22.2.2002 im
Rahmen der Internationalen Arbeitstagung der Arbeitsgemeinschaft für Germanistische Edition, der Arbeitsgemeinschaft philosophischer Editionen und der Fachgruppe
Freie Forschungsinstitute in der Gesellschaft für Musikforschung Autor, Autorisation,
Authentizität in Aachen gehalten wurde.
56
Andrea Opitz
1. Die Herzog August Bibliothek als Schwerpunktbibliothek des
17. Jahrhunderts
Document Type Definition, Internet und Barock, auf den ersten Blick
gehören diese drei Begriffe nicht zusammen. Dennoch bilden sie das Gerüst für die Bemühungen der Herzog August Bibliothek, das alte Buch,
speziell die Drucke des Barock, mit neuer Technik zu öffnen.
Die Herzog August Bibliothek Wolfenbüttel versteht sich als Schwerpunktbibliothek und zentrale Anlaufstelle für die internationale Barockforschung: Ihre Mitarbeit an dem nationalbibliographischen Verzeichnis
deutscher Drucke des 17. Jahrhunderts (VD17), die Mitarbeit in der Arbeitsgemeinschaft der Sammlung Deutscher Drucke für das Zeitsegment
1601-1700, das der Bibliothek assoziierte Editionsprojekt zur Fruchtbringenden Gesellschaft und nicht zuletzt die mehr als 150.000 in der
Bibliothek vorhandenen Drucke des 17. Jahrhunderts zeigen diese
Schwerpunktbildung deutlich.
Zu den Aufgaben der Bibliothek gehört nicht nur das Sammeln und
das Bewahren der Bestände, sondern auch das Erschließen und das Bereitstellen der historischen Quellen. Mit der Möglichkeit, alte Drucke in
nahezu Faksimilequalität zu digitalisieren, können den Benutzern jetzt
neue Zugangswege zu den Quellen eröffnet werden. Im Zeitalter des Internet ist es möglich, nicht mehr nur bibliographische Daten weltweit
anzubieten, sondern auch die Quellen selbst in digitalisierter Form. In
der Wolfenbütteler Digitalen Bibliothek stellt die Herzog August Bibliothek daher besonders forschungsrelevante, besonders seltene, herausragende oder häufig genutzte und nachgefragte Teile ihres Altbestandes
über das Internet zur Verfügung.
2. Historische Drucke im Internet
Anspruch und Grenzen der retrospektiven Digitalisierung von Druckwerken und ihrer computergestützten Editionen sind in den letzten Jahren mit wachsendem Interesse diskutiert worden. Angesichts der vielen
isolierten Digitalisierungsprojekte2 – auch im Bereich des alten Buches –
stellt sich die Frage nach einheitlichen Erschließungsstandards. Imagesequenzen allein reichen nicht aus, um einen Druck im Internet verfügbar
zu machen. Die Diskussion dreht sich um die geeignete Form der Erschließung, um Metadaten, um die Frage, wie globale oder spezielle
2
Eine Übersicht der DFG-geförderten Digitalisierungsprojekte ist zu finden unter:
<http://gdz.sub.uni-goettingen.de/de/index.html> (28.1.2004).
Document Type Definition zur Erschließung von Gattungen des Barock
57
Suchmaschinen Dokumente im Netz zu finden vermögen, wie Daten
über digitalisierte alte Drucke optimal verwaltet, ausgetauscht oder auch
präsentiert werden können. Konsens besteht darüber, dass ein besonderer Gewinn bei elektronischen Publikationen in der Erschließung liegt.
Über die Bereitstellung der reinen Imagesequenz hinaus soll dem Benutzer das elektronische Buch inhaltlich geöffnet werden, um im neuen Medium einen Mehrwert gegenüber der gedruckten Form zu erzielen.
In dem von der DFG geförderten Projekt Barock DTDs – Document
Type Definitions zur Erschließung barocktypischer Gattungen im Internet will die Herzog August Bibliothek daher, über die bibliothekarische Formal- und Sacherschließung, die in jedem Online-Katalog zu finden ist, hinaus projektbezogen weitergehende Recherchemöglichkeiten
anbieten. Für fünf Textgattungen des Barock soll eine terminologische
und strukturelle Grundlage geschaffen werden für die zukünftige netzbasierte digitale Publikation von Drucken des 17. Jahrhunderts.
Voraussetzung für die Präsentation von alten Drucken im Internet ist
zunächst einmal ihre buchschonende Digitalisierung. Wir digitalisieren
die Drucke in Farbe. So wird über den Text hinaus mit der möglichst
originalgetreuen Farbkopie auch ein angemessener Eindruck von der
Materialität des Druckes vermittelt. Hergestellt werden Images, also Bilder der Buchseiten. Eine Volltexterschließung ist im Rahmen unseres
Projektes nicht vorgesehen. Die Voraussetzung hierfür wäre eine manuelle Volltexterfassung, denn die elektronische Texterkennung mittels
OCR ist bei Drucken des 17. Jahrhunderts nicht möglich. Bei der anvisierten Größenordnung von circa 30.000 digitalisierten Seiten ist eine
solche Erfassung nicht zu leisten. Im Netz zu sehen ist eine Imagesequenz der einzelnen Buchseiten des Originaldrucks. Wir stellen also ein
elektronisches Faksimile des Buches im Internet bereit, das mit Hilfe eines Dokumentenmanagementsystems zum Blättern geöffnet und Seite
für Seite durchgeblättert werden kann.
3. Verwendung von Standards
Der Mehrwert der elektronischen Publikation gegenüber dem Original
liegt nicht nur in ihrer weltweiten Zugänglichkeit, darüber hinaus soll der
Druck auch inhaltlich erschlossen werden. Da die für elektronische Medien spezifische Volltextsuche für unsere Dokumente nicht in Frage
kommen kann, bieten sich hierbei neue Formen der intellektuellen Erschließung an. Auf der Grundlage der Auszeichnungssprache Standard
Generalized Markup Language (SGML) und davon abgeleitet eXtensible
58
Andrea Opitz
Markup Language (XML) sind internationale Standards und Quasistandards zur Strukturierung, Beschreibung und Erschließung von elektronischen Dokumenten entstanden, die wir nutzen. In unserem Projekt arbeiten wir mit der vom World Wide Web Consortium (W3C) empfohlenen Standardauszeichnungssprache XML.3 Mit der Festlegung auf XML
ist zunächst die formale Grundlage für eine netzbasierte Interoperabilität
gewonnen. Die Standardisierung von Dokumentenstrukturen, die eine
einheitliche Recherche und Präsentation inhaltlicher Aspekte erlaubt,
setzt neben der Verständigung auf eine formale Auszeichnungssprache
die Entwicklung von Regelwerken für diese Sprache, sprich fach- beziehungsweise gattungstypische DTDs (Document Type Definitions) voraus. DTDs beschreiben in formaler Notation die logische Struktur eines
bestimmten Dokumententyps, sind also das Regelwerk für XMLStrukturen. Erst mit solchen DTDs lässt sich die Homogenität sicherstellen, die ein einheitliches Retrieval und ein netzbasiertes Arbeiten ermöglichen. DTDs ermöglichen das automatische Validieren von Dokumenten, die Bildung von Standards, einheitliche Recherche und die Nutzung
auch dezentral erfasster Daten über das Internet.
Erfolgreiche Ansätze Fach-DTDs herzustellen hat es bisher insbesondere im Bereich der Naturwissenschaften gegeben.4 Auch für den Bereich der Geisteswissenschaften gab es Bemühungen, eine Syntax zur
Repräsentation geisteswissenschaftlicher Texte, differenziert nach literaturwissenschaftlichen Textsorten, zu konzipieren. Besonders hervorzuheben ist hier die Text Encoding Initiative (TEI),5 die ursprünglich auf
SGML aufbauend, jetzt auch ein XML-Vokabular für das Auszeichnen
von Texten in den Geisteswissenschaften anbietet. Obwohl die TEI in
erster Linie darauf abzielt, Text auszuzeichnen, erlauben die TEIGuidelines auch das Beschreiben und Indexieren von Images. Inzwischen hat sich TEI auf internationaler Ebene in vielen Projekten6 als
Standard etabliert, da sie sowohl plattform- wie medienunabhängigen
Zugriff auf elektronisch bereitgestellte Dokumente ermöglicht.
Für spezifische Textsorten des 17. Jahrhunderts stehen aber bislang
keine DTDs zur Verfügung. In unserem Projekt wollen wir daher in Zusammenarbeit mit Fachwissenschaftlern fünf für das 17. Jahrhundert
charakteristische Textgattungen mit Blick auf ihre gattungstypischen Eigenschaften bearbeiten und prototypische Document Type Definitions
3
4
5
6
<http://www.w3c.org/XML/> (28.1.2004).
Siehe z.B. MathML: <http://www.w3.org/Math/DTD/> (28.1.2004).
<http://www.tei-c.org/> (28.1.2004).
Als ein Beispiel sei hier das Emblem Project Utrecht genannt. Siehe dazu folgende
Adresse: <http://emblems.let.uu.nl/emblems/html/index.html> (28.1.2004).
59
auf Grundlage der TEI-DTD erstellen. Ein großer Vorteil der TEI-DTD
besteht in ihrer Offenheit, die eine flexible Erzeugung beziehungsweise
Wiedergabe von strukturierten Inhalten ermöglicht. Durch Spezifikation
der Verwendung einzelner Elemente und die Festlegung bestimmter Attributwerte der TEI-DTD haben wir Strukturvorgaben nach den Anforderungen der von uns bearbeiteten Gattungen entwickelt. Damit soll die
strukturelle Eigenart der Quelle berücksichtigt werden und zugleich der
Vorteil des internationalen Standards genutzt werden.
Ausgewählt wurden hierzu die Gattungen Illustrierte Flugblätter,
Emblembücher, Kalender und Prognostiken, Gebet- und Gesangbücher
und Pest- und Seuchenschriften. Diese Gattungen wurden zum einen
deshalb ausgewählt, weil es sich um von der Frühneuzeitforschung besonders nachgefragte Literatur handelt. Zum anderen sollten die einzelnen Gattungen relativ einheitlich fassbar und beschreibbar sein und unter den Neuerwerbungen der Herzog August Bibliothek repräsentativ
vertreten sein, das heisst in gewisser Quantität, aber auch mit einzelnen
herausragenden Stücken, die für die Forschung relevant sind. Wir hoffen
mit der Entwicklung standardisierter Schnittstellen auf der Basis akzeptierter formaler Standards wie XML und TEI wichtige Impulse für eine
netzbasierte Erschließung dieser Textgattungen zu geben. So könnten
mit Hilfe dieser DTDs verteilt erstellte XML-Daten sowohl unmittelbar
als auch in einer in HTML konvertierten und mit Meta-Tags versehenen
Form Grundlage für Internet Suchmaschinen werden.
4. Barock-DTDs – Das Arbeitskonzept
Wie stellt sich die Erschließungsarbeit nun konkret dar? Am Beispiel von
zwei der fünf Gattungen soll das Arbeitskonzept erläutert werden. Die illustrierten Flugblätter und die Emblembücher mit ihren komplexen
Text-Bildbeziehungen scheinen hierzu besonders geeignet. Beide geben
dem kulturhistorisch Interessierten und dem Fachwissenschaftler vielfältige Zugänge zum Verständnis der Epoche. Die Erschließung und einfache Zugänglichkeit dieser Quellen ist die Voraussetzung für ihre intensive Nutzung.
Nach der Digitalisierung der Drucke werden die Digital-Master zur
Präsentation im Internet von circa 20 MB auf rund 150 KB als JPG
komprimiert. Die Zugänglichkeit der Drucke im Internet wird von der
Herzog August Bibliothek garantiert, ebenso die beständigen URLs.
Damit wird die Zitierbarkeit der elektronischen Gesamtdokumente und
60
Andrea Opitz
der einzelnen Images sichergestellt. Eine wichtige Voraussetzung, um
mit der elektronischen Publikation arbeiten zu können.
Wenn die Images vorliegen, erfolgt die Inhaltserschließung anhand
der zuvor erstellten gattungsspezifischen DTD. Dabei setzt sich jede
DTD aus drei Bereichen zusammen:
1. Metadaten
2. Gattungsspezifische Bestandteile
3. Inhaltliche Erschließung
1. Metadaten:
Für das Retrieval und die Identifikation von Quellen im Netz sowie für
deren langfristige Archivierung sind Metadaten7 nach internationalen
Standards von besonderer Bedeutung. Auf der Grundlage der Richtlinien
der TEI wurden im Projekt die bibliographischen Metadaten-Elemente
für die elektronischen Dokumente ausgewählt. Sie berücksichtigen die
Katalogisierungsdaten im Bibliothekssystem PICA,8 die im Onlinekatalog benutzt werden. Diese Metadaten sind hierarchisch strukturierter Inhalt des TEI-Elements TEI-Header. Ein eigens hierfür entwickeltes
Script konvertiert die relevanten Katalogisierungsdaten und fügt sie ein
in TEI-konforme XML-Dokumente, die es zugleich nach der DTD erzeugt. Eine Ergänzung um Dublin Core Elemente9 wird bei der Transformation nach HTML vorgenommen.
2. Gattungsspezifische DTD-Bestandteile:
Die Metadaten zum elektronischen Dokument haben unabhängig von
der jeweiligen Gattung der Quelle eine einheitliche Struktur in der DTD.
Die Bestandteile zur Erfassung und zur inhaltlichen Erschließung der zu
Grunde liegenden Quelle differieren dagegen nach deren Gattungszugehörigkeit. Das bedeutet, dass zuerst für jede Gattung eine grundsätzliche
Dokumentenanalyse durchgeführt werden muss, in der die Gattungsmerkmale definiert und zu DTD-Bestandteilen formalisiert werden.
3. Inhaltliche Erschließung:
Zur inhaltlichen Erschließung benutzen wir im Wesentlichen das TEIElement <index>. Dieses Element kann flexibel auch zur Markierung
7
8
9
Metadaten enthalten Anweisungen für Web-Server, Web-Browser und Suchprogramme im Internet, sie können Angaben zum Verfasser oder zum Inhalt der Datei enthalten.
<http://www.gbv.de/> (28.1.2004).
Dublin Core ist ein von einer internationalen Expertengruppe definiertes ElementeSystem für Metaangaben: <http://dublincore.org/> (28.1.2004).
61
von Bereichen benutzt werden, die hierarchische Kapselungen überlagern. Diese Eigenschaft ist innerhalb von Dokumenten mit seiten- beziehungsweise bildorientierter Struktur von großer Bedeutung. Gattungsspezifischen Erfordernissen trägt es durch seine Einbettung in entsprechend qualifizierten Elementen und durch Attribute Rechnung. Letztere
ermöglichen auch eine Zuordnung zu unterschiedlichen Indices, die vielfältig spezialisierte Retrievalfunktionen zulassen.
5. Erschließung der Flugblätter
Am Beispiel der Flugblätter sollen die einzelnen Arbeitsschritte kurz erläutert werden. Zunächst erfolgt die Dokumentenanalyse. Das illustrierte
Flugblatt besteht in der Regel aus drei Teilen: Überschrift, Bildsegment
und Textsegment. Diese drei Bestandteile spiegeln sich in der DTDStruktur wieder, bilden das gattungsspezifische Gerüst.
Für jedes Dokument werden in den TEI-Header die bibliographischen Daten aus den vorhandenen Katalogaufnahmen des OnlineKataloges übernommen und die technischen Angaben zum elektronischen Dokument hinzugefügt. Damit sind Angaben wie Erscheinungsort
und -jahr, Autor, Titel et cetera zur Recherche verfügbar. Dieser Bereich
der Metadaten ist für alle Gattungen gleich.
Zu diesen Angaben fügen wir eine systematische Einteilung in Anlehnung an die zeitgenössische Fächerhierarchie Theologica, Ethica, Politica, Physica, Casualia hinzu.10 Wenn inhaltlich mehrere Bereiche berührt
sind, kann die Zuordnung auch zu mehreren systematischen Gruppen
erfolgen.
Das Flugblatt wird über Schlagwörter erschlossen, die die Gesamttendenz des Blattes beschreiben sollen, zum Beispiel Dreißigjähriger Krieg.
Die Beschreibung des Bildteils erfolgt durch die Vergabe von Bildschlagwörtern (Beutel, Kugel und so weiter). Sofern im Bild auch Text
vorhanden ist, wird dieser in Bildstichwörtern aufgenommen. Die Erfassung der Bildelemente mittels Iconclass11 ist vorgesehen, muss aber nicht
ausgefüllt sein. Obwohl die Verwendung von Iconclass nicht nur Fürsprecher findet, bietet es doch das zurZeit beste verfügbare, kontrollierte
Vokabular, um visuelle Aspekte zu klassifizieren und zu indexieren.
10
11
Vgl. hierzu Wolfgang Harms (Hg.): Deutsche illustrierte Flugblätter des 16. und 17.
Jahrhunderts. Tübingen: Niemeyer, 1980.
Iconclass ist ein Klassifikationssystem mit ca. 28.000 Definitionen und einem alphabetischen Index zur Bilderschließung, das vielfach angewendet wird. Siehe dazu folgende
Adresse: <http://www.iconclass.nl> (28.1.2004).
62
Andrea Opitz
Im dritten Arbeitsschritt erfolgt die Erschließung des Textsegmentes.
Bei der Texterschließung werden die Leitbegriffe in heutiger Orthographie (level1) und in der originären Schreibweise (level2) als Stichworte
aufgenommen. Daneben bietet die DTD jedoch auch die Möglichkeit,
Volltext (zum Beispiel ausgewählte Textteile) einzugeben.
Die Dokumentenerschließung erfolgt wie erläutert in XML. Dabei
werden die XML-Editoren Xmetal und XML Spy eingesetzt.
Ist die Dokumentenerschließung abgeschlossen und als XML-Struktur
nach der DTD erfasst, ist ein weiterer Arbeitsschritt nötig, um die Ergebnisse auch dem Internet-Benutzer zugänglich zu machen. Die XMLStrukturdaten müssen bearbeitet werden, um das XML-Dokument in eine Webseite, in ein HTML-Dokument zu transformieren. Dies geschieht
mittels XSLT, eXtensible Stylesheet Language-Transformations (auch
ein XML-Format), das es ermöglicht, entweder ein neues XMLDokument oder ein HTML-Dokument für die Internetpräsentation zu
erstellen. Auf diesem Weg wird das Dokument mit Dublin CoreMetadaten angereichert und kann für die Recherche (Indexierung XMLInstanzen) in eine MySQL-Datenbank eingebracht werden.
6. Die Erschließung der Emblembücher
Die Arbeitsschritte für die Emblembücher sehen entsprechend aus.
Auch hier steht an erster Stelle die Dokumentenanalyse: Die Embleme
bestehen in der Regel aus drei Teilen: dem themaandeutenden Motto, der
gegenstandsdarstellenden Pictura und der auslegenden Subscriptio, die
auf einer Buchseite zu finden sind. Hinzu kommen die Erläuterungen
oder anderer Text zwischen den Emblemseiten. Nicht jedes Emblembuch folgt jedoch dieser Einteilung. Es gibt ebenso Emblembücher mit
mehreren Picturae auf einer Buchseite. Motto und die Subscriptio zu den
einzelnen Emblemen sind auf andere Seiten verteilt. Auch diese Fälle
müssen in der DTD berücksichtigt werden, damit bei der Datenbankrecherche und in der HTML-Darstellung korrekte Ergebnisse erzielt werden können. Die Abweichung vom dreigliedrigen Idealtypus stellt für die
DTD-Spezifikation eine Herausforderung dar. Nach der Analyse zahlreicher Emblembücher haben wir uns entschieden, die Strukturierung der
XML-Dokumente in erster Linie an der Form des jeweiligen Buches
nicht an der des Einzelemblems auszurichten. Die Zugehörigkeit der
einzelnen Teile werden bei getrennter Verteilung durch verweisende Attributwerte gekennzeichnet. Man soll die Embleme in ihrem originären
Kontext wie auch isoliert betrachten können. Bei der Bearbeitung der
63
Emblembücher haben wir verschiedene Erschließungstiefen vorgesehen
und ausprobiert. Abhängig von den beabsichtigten Arbeitsergebnissen,
von den zur Verfügung stehenden finanziellen und personellen Ressourcen können so unterschiedliche Erfassungs- und Erschließungsstrategien
angewendet werden. Einige Überlegungen seien hier kurz skizziert: Das
Motto wird immer vollständig aufgenommen, die Pictura durch Bildschlagwörter, angelehnt an Iconclass, erschlossen. Die Subscriptio kann,
muss aber nicht erfasst werden. Bei mehrsprachigen Emblembüchern,
bei denen Motto und Subscriptio in mehreren Sprachen vorliegen, kann
gewählt werden, ob nur eine Sprache, alle oder nur einige der vorliegenden Sprachen aufgenommen werden sollen. Ob und inwieweit der Text
zwischen den Emblemseiten berücksichtigt werden soll, kann ebenso
ausgewählt werden.
7. Ausblick
Mit dem Ziel, die terminologische und strukturelle Basis für eine netzbasierte digitale Publikation von Drucken aus dem 17. Jahrhundert zu
schaffen, ist unter Berücksichtigung internationaler Standards wie XML
und TEI ein Konzept entstanden, das es erlaubt, im Internet eine aus
Images bestehende Faksimile-Edition auf der Grundlage der eher textbeziehungsweise semantikorientierten TEI-DTD zu erstellen. Dabei bildet die DTD die unmittelbare Voraussetzung dafür, die Konsistenz nicht
nur lokal, sondern auch dezentral erfasster Daten mittels Validierung zu
gewährleisten und sie in einem zentralen Datenbanksystem zusammenfassen zu können.
Dem Nutzer sollen möglichst vielfältige Zugangswege zum Dokument eröffnet werden. So sind die digitalisierten Drucke nicht nur über
das Internet (Suchmaschinen) und über die Datenbank erreichbar, sondern auch über den OPAC der Bibliothek und die VD17-Datenbank. In
einer Signaturen-Linkliste12 werden alle im Projekt digitalisierten Titel
zusammengeführt. Hier kann man sich einen Überblick verschaffen,
welche Titel bereits elektronisch vorliegen.
Zum Abschluss sei ein Blick auf die erreichten Arbeitsergebnisse gestattet. Bisher haben wir 200 Drucke mit circa 30.000 Images digitalisiert.
Wir haben ein Konzept für die Verbindung von Text und Images entwickelt. Ein PICA-TEI-Header Konverter und eine XMLDatenbankschnittstelle sind programmiert worden. Es wurden XSLTTransformationsscripts für die einzelnen Gattungen geschrieben. Wir
12
<http://www.hab.de/bibliothek/wdb/barockdtd/siglist.htm> (28.1.2004).
64
Andrea Opitz
haben für 30 Flugblätter die Dokumentenanalyse und die Erschließung
fertig gestellt. Die Dokumentenanalyse für die Emblembücher, für Kalender und Prognostiken sowie für die Pest- und Seuchenschriften und
die Gebet- und Gesangbücher ist abgeschlossen. Erschlossen wurden
bisher zehn Emblembücher, zwölf Kalender, zehn Pest- und Seuchenschriften und vier Gebet- und Gesangbücher. Die Entwicklung der Datenbank ist so weit fortgeschritten, dass wir zum Projektende das Ergebnis vorstellen können.13
Unser Ziel ist es, prototypische DTDs für einzelne barockspezifische
Gattungen auszuformulieren. Für die fünf Gattungen Flugblatt, Emblembuch, Kalender, Gebetbuch und Seuchenschrift werden wir am Ende des Projekts eine solche prototypische Ausformulierung vorlegen
können. Mit der Verwendung von Standards wie TEI und XML sind die
Grundlagen für Interoperabilität geschaffen. So soll es möglich sein, dass
zukünftig TEI-basierte, inhaltlich gleichartige digitale Sammlungen auch
zusammengeschlossen werden können, nicht nur auf bibliographischer,
sondern auch auf inhaltlicher Ebene.
13
Der aktuelle Arbeitsstand ist auf unserer Internet-Projektseite zu ersehen: <http://
www.hab.de/bibliothek/wdb/barockdtd/index.htm> (28.1.2004).
Till Schicketanz/Kay Heiligenhaus
»Inseln im Meer des Beliebigen«.
Architektur und Implementierung eines Internetportals
Deutsch-jüdische Periodika
Hans Otto Horch zum 60. Geburtstag
Abstract
Historical newspapers and journals are invaluable sources for the study
of the past. Especially, Jewish periodicals provide a detailed impression
of the cultural development of Jewry and shed a quite different light on
German history. Yet, it is tremendously difficult to obtain and to investigate these sources: Besides ›normal‹ losses (paper destruction et cetera), a
great stock of Jewish newspapers was destroyed under the Nazi regime
or are scattered all over the world – a fact, that forces a researcher to expensive stays in different libraries or archives and compels librarians to
an extra burden of work. Within the funding program Scientific Library
Services and Information Systems of the Deutsche Forschungsgemeinschaft the Aachen Chair of German-Jewish Literary History, the Cologne
library Germania Judaica and the Town and University Library Frankfurt/Main carry out a digitization project, which already provides more
than twenty representative periodicals, containing about 300.000 images
in the WWW.
The essay emphasizes the implications and the broad range of problems as well as their solutions in the process of digitizing periodicals. A
discussion of the project's technological goals demonstrates the single
strategies und procedures to publish large amounts of images, text and
bibliographical data in an economic and structured way.
1.
Das Informationszeitalter begrüßt den Philologen, so will es scheinen,
jeden Tag mit einer Überraschung – zumindest, was die Unterstützung
seiner Arbeit durch Informations- und Kommunikationstechnologien
betrifft. Die Pionierleistungen der Computerphilologie – an deutschen
Universitäten etwa erste, seit den späten 1960er Jahren mit Großrechnern und Lochkarten erstellte Textanalysen, Indices und Editionen – lie-
66
Schicketanz/Heiligenhaus
ferten die Ausgangsbasis einer technologischen Entwicklung, deren Dimension erst allmählich deutlich wird. Personal Computer, preiswerte
Speicher- und Distributionsmedien, zunehmend nutzeradäquate Software, schließlich die ubiquitäre Verfügbarkeit des Internets schufen die
Rahmenbedingungen eines heute kaum mehr überschaubaren Arsenals
an technologischen Verfahren und Applikationen zur Informationserfassung und -distribution.
Dabei erlebt der Philologe den Anbruch dieser neuen Ära am denkbar
bequemsten Ort – an seinem individuellen Computerarbeitsplatz: In zunehmendem Maß konkurrieren virtuelle Kataloge mit Bibliotheken vor
Ort. Dokumentenlieferdienste versenden beliebige Texte per Mail. Exzerpte und Bibliographien verwaltet das persönliche Dokumentenmanagementsystem, und dank automatischer Texterkennungssoftware können
auch umfangreichste Corpora nach Schlüsselbegriffen durchsucht werden. Last not least bietet das World Wide Web eine exponentiell wachsende Informationsbasis, die den Gang in ›reale‹ Bibliotheken irgendwann vollends zu erübrigen scheint.
Kaum ein Bereich veranschaulicht die Technisierung und Globalisierung der Philologie so schlagend wie die weltweiten Initiativen zum Aufbau virtueller Bibliotheken. Die Perspektive ist in der Tat atemberaubend: Allein von der Deutschen Forschungsgemeinschaft wurden in den
letzten Jahren circa 90 philologisch-bibliothekarische Digitalisierungsprojekte ins Leben gerufen, mit deren Hilfe langfristig die wissenschaftliche
Literaturversorgung verbessert und zugleich der stetig ansteigende, aber
immer schwerer zu finanzierende Arbeitsaufwand der Bibliotheken verringert werden kann. Ein Schwerpunkt der geförderten Vorhaben liegt
dabei auf der ›retrospektiven‹ Digitalisierung, die vorrangig ältere, urheberrechtsfreie Bibliotheksbestände aufbereitet und im Internet zur Verfügung stellt.1 Das Spektrum ist denkbar breit und reicht von Turfan1
Im Rahmen des »Förderprogramms Retrospektive Digitalisierung von Bibliotheksbeständen« <http://www.dfg.de/forschungsfoerderung/wissenschaftliche_infrastruktur
/lis/informationen_antragsteller/verteilte_digitale_forschungsbibliothek/retrospekt_
digitalisierung.html> (22.1.2004). – Vgl. Jürgen Bunzel: Die Verteilte Digitale Forschungsbibliothek als Infrastrukturförderung der Deutschen Forschungsgemeinschaft.
In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken. Neue Zugangsmöglichkeiten und Nutzungsqualitäten. Stuttgart: Kohlhammer 2000 (Werkhefte
der Staatlichen Archivverwaltung Baden-Württemberg, Serie A: Landesarchivdirektion,
15), S. 67-82; Ewald Brahms: Digital Library Initiatives of the Deutsche Forschungsgemeinschaft. In: D-Lib Magazine 7 (Mai 2001), Nr. 7. <http://www.dlib.org/dlib/
may01/brahms/05brahms.html> (22.1.2004); Sigrun Eckelmann: Förderschwerpunkte
der DFG im Bereich digitaler Bibliotheken. Vortrag anlässlich der Sun Summit Bibliotheken und Museen, 25.9.2002, Frankfurt a. M. <http://www.sun.de/Downloads
/Praesentationen/2002/Summit-Bibliotheken/pdf/eckelmann.pdf> (22.1.2004).
»Inseln im Meer des Beliebigen«
67
handschriften und tibetanischen Archivbeständen über Braille-MusikMatrizen, Tonaufnahmen semitischer Sprachen und neulateinische Dichtungen bis zum Grimm'schen Wörterbuch. Ein Dutzend Vorhaben
widmet sich Zeitschriften und Jahrbüchern beziehungsweise periodisch
erschienenem Schrifttum.2 Alle Projekte gehen im Konzept der Verteilten Digitalen Forschungsbibliothek auf und leisten heute bereits unschätzbare Dienste, wo es gilt, weltweit verstreute oder entlegene Bestände virtuell zusammenzuführen und den mit ihnen befassten Disziplinen einen ungehinderten Zugriff auf das Material zu bieten.
Vergleicht man die deutsche Digitalisierungslandschaft mit Angeboten
aus den USA,3 ist freilich festzustellen, dass der Aufbau digitaler Fachbibliotheken hierzulande gerade erst das Anfangsstadium hinter sich gelassen hat. Dies betrifft nicht die Auswahl teilweise recht exotischer
Textcorpora oder das Faktum, dass der Bestand von fachübergreifend
einschlägigen und vielgenutzten Quellen nur langsam wächst. Vielmehr
sei, summiert die DFG die Entwicklung der letzten Jahre, die »Verteilte
digitale Forschungsbibliothek [...] zunächst unstrukturiert gewachsen«
und setzt als ›Gegenmaßnahme‹ derzeit auf die »Einrichtung eines Portals ›Sammlung digitaler Drucke‹, mit dem Ziel, retrodigitalisierte Dokumente leichter auffindbar zu machen«:4
Erkennbare Defizite bestehen [...] gegenwärtig noch bei der Einbindung digitaler
Angebote in vorhandene Informationssysteme, insbesondere einer über die jeweilige Besitzbibliothek hinausgehenden Erschließung der digitalisierten Bestände und einer aktiven Bekanntmachung der verfügbaren Materialien.5
Der »Eindruck einer Vielfalt unterschiedlicher Ressourcen« gipfelt in der
»Unübersichtlichkeit des vorhandenen Angebots«, das »auf der Ebene
2
3
4
5
Vgl. die »Projektübersicht für das Programm ›Retrospektive Digitalisierung von Bibliotheksbeständen‹«:
<http://www.dfg.de/forschungsfoerderung/wissenschaftliche_
infrastruktur/lis/gefoerderte_projekte/download/programm_retrospektive_
digitalisierung_von_bibliotheksbestaenden.pdf> (22.1.2004). – Links zu den Einzelprojekten bieten die Digitalisierungszentren München und Göttingen: <http://www.
bsb-muenchen.de/mdz/proj2.htm> und <http://gdz.sub.uni-goettingen.de/de/index
.html> (22.1.2004).
Vgl. für Digitalisierungsprojekte z.B. in den USA die »Digital Initiatives Database« der
Association of Research Libraries: <http://www.arl.org/did/> (22.1.2004).
Sigrun Eckelmann: Förderschwerpunkte der DFG im Bereich digitaler Bibliotheken,
S. 9 und 14. (Fußnote 1).
Die Erschließung und Bereitstellung digitalisierter Drucke. Vorschläge des Unterausschusses für Kulturelle Überlieferung. Durch den Bibliotheksausschuss der Deutschen
Forschungsgemeinschaft im Oktober 2002 verabschiedet, S. 6 <http://www.dfg.de/
forschungsfoerderung/wissenschaftliche_infrastruktur/lis/aktuelles/download/
konzept_digitale_drucke.pdf> (22.1.2004).
68
der überlokalen Informationssysteme dann völlig undurchdringbar« wird,
»wenn [...] eine unsystematische und weitgehend vom Zufall abhängige
Auswahl der jeweils nachgewiesenen Digitalisierungsaktivitäten hinzutritt«.6 Unter praktischem Gesichtspunkt hat es darüber hinaus oft noch
den Anschein, dass viele Projekte technologisch bedingte Inkonsistenzen
aufweisen beziehungsweise in summa keiner homogenen Architektur
folgen. Ebenso scheint bislang nur wenig Einigkeit über allgemeine Produktionskriterien und -verfahren zu bestehen, die eine ökonomische, ressourcensparende Verarbeitung umfangreicher Corpora gewährleisten.7
Die unter funktionalen und ergonomischen Aspekten sehr unterschiedlich gestalteten Websites deutscher Digitalisierungsprojekte lassen den
Nutzer erahnen, welche Schwierigkeiten die Ermittlung und Umsetzung
produktions- und designtechnischer Standards derzeit noch bereiten.8
2.
Ungeachtet dieser Problematik, auf die im Folgenden näher eingegangen
werden soll, hat sich das Konzept der internetgestützten Informationsversorgung als integraler Bestandteil und richtungsweisender Imperativ
deutscher Bibliotheks- und Bildungspolitik etabliert – allen kulturpessimistischen Unkenrufen zum Trotz, eine »zur Cyberscience hochgerüstete
Wissenschaft« würde letztlich »nichts weniger als ihre Wissenschaftlichkeit ein[büßen]«.9 Gehörte es vor knapp zehn Jahren fast noch zum guten Ton, die ›Technisierung‹ der Geisteswissenschaft rundheraus abzu6
7
8
9
A.a.O.
Vgl. ebd., S. 8f. sowie Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken, S. 103-112, bes. S. 103. (Fußnote 1).
Die Digitalisierungszentren Göttingen und München (siehe Fußnote 2) sollen in dieser
Hinsicht Abhilfe schaffen. Das Kompetenzzentrum an der Universität Trier widmet
sich speziell Fragen elektronischer Erschließungs- und Publikationsverfahren in den
Geisteswissenschaften. Siehe folgende Adresse: <http://www.kompetenzzentrum.unitrier.de/index.html> (22.1.2004). – Einen ›Katalog‹ technischer Richtlinien hat die
Landesarchivdirektion Baden-Württemberg im Zuge zweier Digitalisierungsprojekte
auf der Basis entsprechender DFG-Empfehlungen (siehe Fußnote 20) zusammengestellt: »Digitalisierung von Archiv- und Bibliotheksgut« <http://www.ladbw.de/digpro/index.htm> sowie »Workflow und Werkzeuge zur digitalen Bereitstellung größerer Mengen von Archivgut« <http://www.lad-bw.de/workflow/index.
htm> (22.1.2004).
Uwe Jochum/Gerhard Wagner: Cyberscience oder vom Nutzen und Nachteil der neuen Informationstechnologie für die Wissenschaft. In: Zeitschrift für Bibliothekswesen
und Bibliographie 43 (1996), H. 6 (November/Dezember), S. 579-593. <http://www.
klostermann.de/verlegen/jochu_02.htm> (22.1.2004).
69
lehnen, ist der »Außenseiterstatus« der die Zeichen der Zeit verkennenden »Verächter und Verweigerer« längst evident geworden.10 Kein Wissenschaftler, der die Effizienz von Personal Computer und World Wide
Web erkannt hat, will fortan auf diese Arbeitshilfen verzichten. Nur die
letzten standhaften Verteidiger einer überkommenen Buchdruckromantik leugnen heute noch das Faktum, dass auch Gutenbergs revolutionärer
Quantensprung in erster Linie eine technologische Leistung darstellte, deren Ergebnis – zunächst als Teufelswerk verschrien – innerhalb kurzer
Zeit fest in den frühneuzeitlichen Wissenschaftsalltag integriert wurde,
diesen gar allererst konstituiert hat.11
Die Grundsatzdebatte kann angesichts jüngerer bildungs- und forschungspolitischer Entscheidungen, die sich frühen DFG-Empfehlungen
anschließen und auf den nachhaltigen Ausbau der digitalen Informationsversorgung drängen, als beendet gelten.12 In Anbetracht der voll im
Gange befindlichen »Umgestaltung der wissenschaftlichen Informationslandschaft«,13 die – wie Eli M. Noam 1995 prophezeite – die klassischen
Strukturen der universitären Wissensvermittlung tief greifend wandeln
wird,14 gewinnt die oft als ›Technophobie‹ getadelte Skepsis der Geisteswissenschaftler allerdings neuerlichen Auftrieb. Der Ursprung dieser pessimistisch-misstrauischen Haltung ist genauer zu lokalisieren: Als ›Angst
vor dem Unbekannten‹ oder »mangelnde Informationskompetenz bei
den Nutzern«15 ist diese aus Unsicherheit und Unkenntnis resultierende
10
11
12
13
14
15
Rainer Baasner: Digitalisierung – Geisteswissenschaften – Medienwechsel? Hypertext
als fachgerechte Publikationsform. In: Jahrbuch für Computerphilologie 1 (1999).
<http://computerphilologie.uni-muenchen.de/jahrbuch/jb1/baasner.html>
(22.1.2004).
Vgl. hierzu ausführlich Michael Giesecke: Der Buchdruck in der frühen Neuzeit. Eine
historische Fallstudie über die Durchsetzung neuer Informations- und Kommunikationstechnologien. Mit einem Nachwort zur Taschenbuchausgabe 1998. Frankfurt a. M.:
Suhrkamp 1998 (Suhrkamp Taschenbuch Wissenschaft, 1357).
Vgl. das DFG-Memorandum zur »Weiterentwicklung der überregionalen Literaturversorgung« <http://www.dfg.de/aktuelles_presse/reden_stellungnahmen/download/
memo.pdf> (22.1.2004) und die »Empfehlungen zur digitalen Informationsversorgung
durch Hochschulbibliotheken« des Wissenschaftsrats vom 13. Juli 2001 <http://www.
wissenschaftsrat.de/texte/4935-01.pdf> (22.1.2004) sowie das Positionspapier »Information vernetzen – Wissen vernetzen« des Bundesministeriums für Bildung und Forschung vom September 2002 <http://www.bmbf.de/pub/information_vernetzenwissen_aktivieren.pdf> (22.1.2004).
S. 24. (Fußnote 1).
Vgl. Eli M. Noam: Electronics and the Dim Future of the University. In: Science 270
(Oktober 1995), S. 247-249. <http://www.uta.fi/FAST/JH/noam.html> (22.1.2004).
BMBF-Studie zur Zukunft der wissenschaftlichen Information. Pressemitteilung des
Bundesministeriums für Bildung und Forschung vom 16.9.2002 anlässlich der Vorstel-
70
Befangenheit gegenüber neuen Technologien ein nicht zu unterschätzender Faktor, der schon im Vorfeld über Wohl und Wehe jeder Digitalisierungsinitiative entscheidet.16
Doch wer ist der ›Nutzer‹? Im Zeitalter des ›analogen‹ Informationsaustausches, in der Ära der klassischen Bibliothek, lag die Antwort auf
der Hand: der ›Leser‹, im universitären Bereich also vor allem Wissenschaftler und Studierende. In der Epoche der hybriden Bibliotheken und
Archive,17 die neben Schrifttum in Buch- oder Microform alle erdenkbaren Arten und Formate von digitalisierten Materialien bereitstellen müssen, wird der Bibliothekar beziehungsweise Archivar zunächst selbst zum
Nutzer – an erster Stelle zum ›User‹ technischer Apparaturen, Computeranwendungen sowie Format- und Auszeichnungssprachen zur Erfassung, Indizierung und Verbreitung von Informationen. Zwar soll nicht
unterstellt werden, dass das Bibliotheks- und Archivpersonal bislang einen Bogen um den Computer gemacht hätte. Die Anforderungen, die
heute an den Bibliothekar und Archivar gestellt werden, unterscheiden
sich jedoch immens von Fertigkeiten, wie sie seit den 1970er Jahren hinsichtlich der EDV-gestützten Katalogisierung und Datendistribution verlangt wurden. Nicht allein der neue Medientypus, vor allem die technische Peripherie zwingt zur grundlegenden Neuorientierung:
Nicht nur die Andersartigkeit der Medien, auch die gleichzeitig veränderte Welt
der Informationstechnik, die schnellen Netze, die hohe Speicherdichte und die
Diversifikation der Informationsmärkte stellen unsere Vorstellungen radikal in
Frage.18
Amerikanische Digitalisierungsspezialisten insistieren daher zurecht darauf, dass jeder Initiative die selbstkritische Bewertung der eigenen technischen Kompetenz vorausgehen muss:
The impulse to embrace things digital is strong, but too often infrastructure –
costs, personnel, systems, and preservation – gets insufficient thought and delivery falls short of the promise. Information professionals can little afford to make
mistakes in initiating and maintaining digital programs. They must assess care-
16
17
18
lung des Positionspapiers »Information vernetzen – Wissen vernetzen«. <http://www.
bmbf.de/presse01/720.html> (22.1.2004). Vgl. Fußnote 12.
Vgl. Hermann Leskien: Der Einfluss digitaler Medien auf die bibliothekarischen Tätigkeiten. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken,
S. 51-63. Hier S. 63. (Fußnote 1).
Zur ›Hybriden Bibliothek‹ vgl. Chris Rusbridge: Towards the Hybrid Library. In: DLib Magazine, Juli/August 1998. <http://www.dlib.org/dlib/july98/rusbridge/07
rusbridge.html> (22.1.2004).
Hermann Leskien: Der Einfluss digitaler Medien auf die bibliothekarischen Tätigkeiten, S. 51. (Fußnote 16).
71
fully the pros an cons of technology choices in a cultural context. The best way
to ensure good decisions is to became a knowledgeable consumer of the technology.19
Der ›vernetzte‹ Bibliothekar muss über Erfahrungen im Projektmanagement verfügen, vor allem aber technisches Wissen und Urteilsvermögen
mitbringen. Der Erwerb dieser Fertigkeiten bleibt allerdings mangels
längerfristiger, flächendeckender Erfahrungen im Digitalisierungsbereich
heute noch meist seiner Eigeninitiative überlassen. Entsprechende Ausbildungsmaßnahmen, die normative, technische Infrastrukturen und
Standards voraussetzten, stellen bislang ebenso eine Ausnahme dar wie
allgemein gültige Übereinkünfte, die die praktische Durchführung von
Digitalisierungsprojekten zu regeln hätten. Technisch-inhaltliche Empfehlungen, vereinzelte Projektdokumentationen oder Sammelwerke sowie neue Diskussionsforen zeigen,20 dass auf zahlreiche drängende Fragen noch keine verbindlichen Antworten gefunden wurden. Abhilfe
könnte eine repräsentative, didaktisch eingängige Bündelung des erreichten Kenntnisstandes nach Vorbild amerikanischer Standardwerke schaffen,21 die den betroffenen Bibliothekaren, Archivaren und Wissenschaft-
19
20
21
Anne R. Kenney/Oya Y. Rieger (Hg.): Moving Theory into Practice. Digital Imaging
for Libraries and Archives. Mountain View, CA: Research Libraries Group 2000, Introduction, S. 3.
Vgl. die »Empfehlungen zur inhaltlichen Auswahl von Bibliotheksmaterialien für die
retrospektive Digitalisierung« der Facharbeitsgruppe ›Inhalt‹ und den Bericht der Facharbeitsgruppe ›Technik‹ im Förderbereich »Verteilte Digitale Forschungsbibliothek«
<http://www.sub.uni-goettingen.de/ebene_2/vdf/empfehl.pdf> bzw. <http://www.
sub.uni-goettingen.de/ebene_2/vdf/endfas.pdf> (22.1.2004). – Einen vorbildlichen,
in technischen Fragen freilich nicht mehr ganz aktuellen Werkstattbericht lieferten Stefan Aumann/Hans-Heinrich Ebeling/Hans-Reinhard Fricke/Manfred Thaller: Innovative Forschung in Duderstadt. Das digitale Archiv. Begleitheft zur Ausstellung in der
Sparkasse Duderstadt, 5.-16. Mai 1997. Mit einer Beständeübersicht. Duderstadt: Mekke 1997. Vgl. folgende Adresse: <http://www.archive.geschichte.mpg.de/duderstadt/
dud.htm> (22.1.2004). – Einen fundierten Einstieg in den Gesamtkomplex bietet der
Sammelband Digitale Archive und Bibliotheken von Hartmut Weber/Gerald Maier
(siehe Fußnote 1). – Vgl. ferner das »Digital Library Forum« der Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. <http://www.dl-forum.de>
(22.1.2004).
Anne R. Kenney/Stephen Chapman: Digital Imaging for Libraries and Archives.
Ithaca: Cornell University Library 1996; Anne R. Kenney/Oya Y. Rieger (Hg.): Moving Theory into Practice (siehe Fußnote 19); weitere Literaturhinweise, ebd., S. 9. –
Eine ausgezeichnete Einführung bietet das »Digital Imaging Tutorial« des Library and
Research Departments der Cornell University: <http://www.library.cornell.edu/
preservation/tutorial/tutorial_English.pdf> (22.1.2004).
72
lern als richtungsweisender Ratgeber zu dienen hätte.22 Der Gewinn einer zunehmenden ›Technosensibilisierung‹ liegt auf der Hand:
[...] digital projects are usually experimental and permit a rare and precious let'stry-it-and-see attitude. This early period of technological innovation turns you
and your staff into valuable assets for your community. You have an expertise
that has been dearly bought by your institution, and its investment in you and the
conversion projects you manage means that you have its attention.23
Die technologischen und praktischen Widerstände wiegen desto schwerer, als die Forderung nach dem Auf- und Ausbau digitaler Archive und
Bibliotheken aus Gründen der zeitgemäßen Informationserhaltung, -verwaltung und -versorgung immer lauter erhoben wird. Zwar ist zu erwarten, dass das »learning-by-doing« viele Defizite allmählich kompensiert,
institutionelle Schwierigkeiten überwunden werden und sich im Zuge nationaler und internationaler Kooperationen – so genannte »Collaboratories« – einheitliche Standards etablieren.24 Gegenwärtig sind die Planer
jedes Digitalisierungsprojekts aber bereits im Vorfeld ihrer Anstrengungen mit einer Reihe weitreichender Fragestellungen konfrontiert, die im
technischen und distributiven Bereich spezielle Design- und Produktionsstrategien nach sich ziehen.
3.
Die Crux jedes Projekts ist selbstverständlich die Finanzierung eines solchen Vorhabens, wobei die Aussichten seit Start des DFG-Förderprogramms zur ›Retrospektiven Digitalisierung von Bibliotheksbeständen‹
weniger trübe als in anderen Wissenschaftsbereichen sind.25 Dennoch
bleibt festzuhalten: Digitalisierungsprojekte sind sehr kostenintensiv,
wobei oft übersehen wird, dass gerade der zur Realisierung der Pläne unverzichtbare technische Unter- und Überbau erhebliche finanzielle Inve22
23
24
25
Vgl. Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten, S. 103.
(Fußnote 7).
Abby Smith: Real-Life Choices. In: Anne R. Kenney/Oya Y. Rieger (Hg.): Moving
Theory into Practice, S. 2-3. Hier S. 3. (Fußnote 19). – Gleichlautend erklärt die DFG
den »[k]onzentrierte[n] Aufbau des entsprechenden spezialisierten technischen und organisatorischen Wissens« zu einem der Hauptziele ihrer jüngsten Förderinitiativen.
Vgl. Sigrun Eckelmann: Förderschwerpunkte der DFG im Bereich digitaler Bibliotheken, S. 24. (Fußnote 1).
Vgl. Elmar Mittler: Collaboratories – auf dem Weg zu neuen Formen der technisch
unterstützten Kooperation. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive
und Bibliotheken, S. 95-100. (Fußnote 1).
Vgl. Fußnote 1.
73
stitionen erfordert. Dies betrifft zum einen die Herstellung der so genannten Digitalisate, zum anderen die Finanzierung leistungsstarker
Hardware. Weitaus kostenintensiver ist jedoch der Investitionsaufwand
im Softwarebereich: Selbst wenn ein geeignetes Dokumentenmanagementsystem gefunden wurde, mit dem alle Arbeitsschritte von der Erfassung bis zur Präsentation der Quellen durchgeführt werden können, verursachen Software-Anpassungen stets weiteren Finanzierungsbedarf. Inwiefern die gewählte Software die anstehenden Aufgaben allerdings tatsächlich zu bewältigen vermag, erfordert wiederum technische Urteilsfähigkeit. Spitzentechnologie – hier sollten keine Zugeständnisse gemacht
werden – ist teuer und erfordert professionelle Kenntnisse. Die Verwendung veralteter Systeme oder die Entscheidung, den Auf- oder Ausbau
der technischen Infrastruktur ›Hobbyprogrammierern‹ zu überlassen,
heißt, im sensibelsten Bereich des Projekts eine Zeitbombe zu plazieren.
Die Auswahl des Corpus, das digitalisiert werden soll, hat sich einerseits technischen Design- und Produktionsmöglichkeiten zu beugen: Da
der finanzielle Aufwand erheblich ist, wird jeder Projektträger früh Anschlussvorhaben ins Auge fassen und nur in Verfahren investieren, von
denen Folgeprojekte profitieren können. Andererseits müssen verfahrenstechnische Strategiekonzepte die ökonomischen und inhaltlichen
Auswahlkriterien berücksichtigen, wobei es grundsätzlich zwischen ›guten‹ und ›schlechten‹ Entscheidungsparametern zu unterscheiden gilt:26
Ob die Digitalisierung zur Sicherung gefährdeter Bibliotheksbestände
beiträgt und langfristig die herkömmliche Microverfilmung ablöst, spielt
in diesem Zusammenhang eine nachgeordnete Rolle:
Digitalisierung macht die Aufbewahrung der Originale nicht überflüssig; sie löst
auch nicht die konservatorischen Probleme der Bibliotheken. Aber sie erleichtert
die Benutzung historischer Texte in entscheidender Weise und ist geeignet, neue
Fragestellungen anzuregen.27
Entscheidend ist vielmehr, dass Projekte dieser Art unter dem Primat
stehen, »durch den Einsatz digitaler Technik die wissenschaftliche Literaturversorgung zu verbessern«; sie gewährleisten den »Direktzugriff auf
für die Forschung und Lehre wichtige Bestände« sowie den »Mehrfachzugriff auf vielgenutzte Literatur« und haben »die digitale Bereitstellung
schwer zugänglicher Bestände« wie auch »die erweiterte Nutzung bisher
nur wenig bekannter Materialien« zu sichern.28
26
27
28
Vgl. z.B. den Überblick von Abby Smith: Real-Life Choices. (siehe Fußnote 19).
Die Erschließung und Bereitstellung digitalisierter Drucke, S. 3. (Fußnote 5).
Empfehlungen zur inhaltlichen Auswahl von Bibliotheksmaterialien für die retrospektive Digitalisierung, S. 2. (Fußnote 20).
74
Die praktischen Konsequenzen, die diese DFG-Prämissen für die
Corpus-Auswahl nach sich ziehen, liegen auf der Hand und fordern spezielle design- und produktionstechnische Vorentscheidungen. Folgende
Faktoren sind hier von ausschlaggebender Bedeutung:
→ Quantität – Die Stärke von Hard- und Softwaresystemen besteht
darin, große Datenmengen erfassen, verwalten und aufbereiten zu
können. Auf Grund des finanziellen und organisatorischen Aufwands
sowie der anzustrebenden, möglichst hohen Nutzerfrequenz sollte
bei der Auswahl zu digitalisierender Materialien bewusst auf ›Masse‹
gesetzt und Corpora bereitgestellt werden, die wenigstens einige
zehn- oder hunderttausend Seiten umfassen. Die technische Infrastruktur muss die problemlose Erfassung und Wiedergabe großer,
dabei in der Regel heterogener Datenmengen garantieren, wobei stets
das oft eingeschränkte, technische Know-how der Bearbeiter zu berücksichtigen ist.
→ Simultaneität – Es ist keine übertriebene Schätzung, dass mit Beginn
der Förderung eines Digitalisierungsprojekts bis zur Präsentation erster Ergebnisse einige Jahre vergehen – ein Umstand, der weder die
Projektträger noch die Nutzer befriedigt. Der technische Produktionsweg sollte daher zwei kategoriale Bedingungen erfüllen: Erstens
sind die einzelnen Produktionsschritte zu modularisieren, so dass
sukzessiv autarke Ergebnisse zur Verfügung gestellt werden können.
Zweitens darf zwischen der primären Erfassung der Daten und ihrer
Bereitstellung im Internet möglichst kein Zeitverlust entstehen. Konkret bedeutet dies einerseits, dass ein aus diversen Gründen jederzeit
möglicher Projektabbruch der Trägerinstitution keinen allzu großen
Schaden zufügt. Andererseits ist technisch zu gewährleisten, dass das
Ergebnis jeder Aktion der Bearbeiter sofort dem Endnutzer bereitgestellt wird.
→ Ubiquität – Selbstverständlich müssen die digitalisierten Bestände
global verfügbar sein, in gleicher Qualität und Quantität wie am Erfassungsort, unabhängig von individuell genutzten Hard- oder Softwareplattformen. Im Netzwerk der verteilten digitalen Bibliothek, die
überregionale oder internationale Kooperationen anstrebt, ist ferner
technisch zu gewährleisten, dass die Datenerfassung ohne größeren
Aufwand von jedem beliebigen Standort aus durchgeführt werden
kann. Dies impliziert, dass die Datenbasis migrationsfähig zu sein hat:
Sie muss – nicht nur aus Gründen der Langzeitsicherung – in andere
standardisierte Formate und Speichermedien überführbar sein; alle
75
›eigenen‹ Daten müssen, zum Beispiel zum Zweck der Verbundrecherche, verlustfrei in ›fremde‹ Systeme überspielt werden können
wie umgekehrt die Integration von Fremddaten ins lokale System gesichert sein muss.
4.
Der Aufbau einer effizienten Produktionslinie, die große, heterogene
Datenmengen ohne Zeitverzug zur ubiquitären Nutzung im Internet
aufbereitet, bildet den technologischen Fokus des DFG-Kooperationsprojekts »Retrospektive Digitalisierung jüdischer Periodika im deutschsprachigen Raum« (www.compactmemory.de), das seit Frühjahr 2000
vom Aachener Lehr- und Forschungsgebiet Deutsch-jüdische Literaturgeschichte, dem Sondersammelgebiet Judentum der Frankfurter Stadtund Universitätsbibliothek sowie der Kölner Bibliothek Germania Judaica durchgeführt wird. Im Verlauf von sechs Jahren soll der Großteil der
seit Ende des 18. Jahrhunderts im deutschen Sprachraum erschienenen
jüdischen Zeitschriften, Zeitungen und Jahrbücher erschlossen und bereitgestellt werden. Das Vorhaben schließt eine gravierende Lücke, die
bislang die Arbeit der Jüdischen Studien maßgeblich erschwerte: Einerseits bilden die rund 5.000 jüdischen Periodika, die seit dem
17. Jahrhundert weltweit erschienen, ein gewaltiges, gar nicht zu überschätzendes Quellenreservoir der jüdischen Geschichte und Kultur.29
Über drei Jahrhunderte versuchten jüdische Periodika alle wissenschaftlichen, beruflichen, literarischen, pädagogisch-didaktischen beziehungsweise geistigen Bedürfnisse ihrer Leser zu befriedigen, wodurch sie zu
einem kulturhistorisch einmaligen ›Archiv‹ wurden, das sämtliche religiösen, politischen, sozialen und kulturellen Richtungen innerhalb des Judentums dokumentiert.30 Andererseits sind die erhaltenen Bestände, vor
29
30
Vgl. G[eorg] H[erlit]z/M[endel] P[robst]: Presse, jüdische. In: Georg Herlitz/Bruno
Kirschner (Hg.): Jüdisches Lexikon. Ein enzyklopädisches Handbuch des jüdischen
Wissens in vier Bänden. Berlin: Jüdischer Verlag 1927-1930, Bd. IV/1, Sp. 1102-1110
<http://www.compactmemory.de/project/doku02_link.html> (22.1.2004) und David
Flinker/Shalom Rosenfeld/Mordechai Tsanim (Hg.): The Jewish Press That Was. Accounts, Evaluations and Memories of Jewish Papers in Pre-Holocaust Europe. Jerusalem: Jerusalem Post Press 1980.
Zum historisch-wissenschaftlichen Stellenwert jüdischer Periodika vgl. Hans Otto
Horch/Till Schicketanz: »Ein getreues Abbild des jüdischen Lebens«. Compact Memory – Ein DFG-Projekt zur retrospektiven Digitalisierung jüdischer Periodika im
deutschsprachigen Raum. In: Menora. Jahrbuch für jüdische Geschichte 12 (2001),
S. 387-405; dies.: Compact Memory – Ein Projekt zur retrospektiven Digitalisierung
jüdischer Periodika im deutschsprachigen Raum. In: Michael Nagel (Hg.): Zwischen
76
allem infolge der Verluste im Zweiten Weltkrieg und der systematischen
Zerstörungen der Nazis, in alle Himmelsrichtungen zerstreut und vollständige Jahrgänge nur an wenigen Bibliotheken erhalten. Wegen ihres
schlechten Erhaltungszustandes gelangt das Gros der Originale längst
nicht mehr in den Leihverkehr, so dass interessierte Forscher und Laien
zu häufigen und kostspieligen Bibliotheksreisen gezwungen sind, was angesichts der hohen Nutzungsfrequenz jüdischer Periodika auch für das
Bibliothekspersonal einen erheblichen zusätzlichen Arbeits- und Zeitaufwand bedeutet.
Die erste Forderung bestand folglich darin, die gemäß ihrer historischen Bedeutung, heutigen Nutzungsfrequenz und technischen Tauglichkeit ausgewählten Periodika dem Nutzer per Internet am individuellen Arbeitsplatz zur Verfügung zu stellen. Die Präsentation des insgesamt rund 700.000 Seiten umfassenden Corpus sollte einen zugleich
ökonomischen, ergonomisch sinnvollen und intuitiven Zugriff gestatten
– Kriterien mithin, die in Anbetracht der enormen Menge zu digitalisierender Analogdaten selbstverständlich auch für die bibliothekarische Erfassung der Daten gelten.31 Zudem war zu garantieren, dass dem User
erste Ergebnisse ohne Zeitverzug in Form eines strukturierten Archivs
navigier- beziehungsweise skalierbarer Grafiksammlungen bereitgestellt
werden können.
31
Selbstbehauptung und Verfolgung. Deutsch-jüdische Zeitungen und Zeitschriften von
der Aufklärung bis zum Nationalsozialismus. Hildesheim u.a.: Olms 2002 (Haskala,
25), S. 351-359.
Die Auswahl umfasst u.a. folgende Periodika: Allgemeine Zeitung des Judenthums
(1837-1922), Altneuland (1904-1906), Berliner Vereinsbote (1895-1901), C.V.-Zeitung
(1922-1938), Der Israelit (1860-1938), Der Jude (1832-1833), Der Jude (1916/171924), Der Morgen (1925/26-1938), Der Orient (1840-1851), Die Freistatt (1913/14),
Die Welt (1897-1914), Esra (1919/1920), Im deutschen Reich (1895-1922), Israelitische Rundschau (1901-1902), Jahrbuch für jüdische Geschichte und Literatur (18981931, 1936-1938), Jeschurun (1854/55-1869/70; 1883-1888; 1914-1930), Jüdische
Rundschau (1902-1938), Menorah (1923-1932), Mitteilungen des Gesamtarchivs der
Deutschen Juden (1908/09-1914/15, 1926), Monatsschrift für Geschichte und Wissenschaft des Judentums (1851/52-1887; 1893-1939), Neue jüdische Monatshefte
(1916/17-1919/20), Ost und West (1901-1923), Palästina (1902-1938), Sulamith
(1806/08-1845/48), Wissenschaftliche Zeitschrift für jüdische Theologie (1835-1847),
Zeitschrift für Demographie und Statistik der Juden (1905-1923; 1924-1931), Zeitschrift für die Geschichte der Juden in Deutschland (1887–1892; 1929/30-1937). – Bis
2006 sollen insgesamt 120 Periodika zugänglich gemacht werden.
77
Abb. 1: Auswahl und Anzeige eines Zeitschriftenheftes
Wie in einer ›realen‹ Bibliothek wählt der Besucher zunächst das Periodikum über einen Navigationsbaum aus, um über den gewünschten Jahrgang zur gesuchten Nummer zu gelangen (siehe Abb. 1). Die Anzeige
der Images, in denen man wie im papierenen Original ›blättern‹ kann, erfolgt in den gängigen Grafikformaten; separate Optionen dienen der
Thumbnailansicht, der Vergrößerung beziehungsweise Verkleinerung
sowie dem Druck oder Download der Images.
Die Bereitstellung der Grafiken erfolgt mit dem spezifisch auf den
Bedarf von Digitalisierungsprojekten zugeschnittenen Produkt Visual
Library der Firma semantics. Diese Softwareplattform ermöglicht mit
den Modulen Library Manager und Library Scout die strukturierte Erfassung, Indizierung, Volltexterkennung, Bearbeitung und Bereitstellung
beliebiger grafischer und textueller Materialien im Internet.32 Dabei setzt
der Library Manager als zentrales Arbeitswerkzeug das Digitalisierungsteam in den Stand, große Mengen von Grafiken übersichtlich und
schnell auf einen lokalen Datenbankserver zu überspielen (circa 1.000
Images pro Stunde). Ein Vorschaufenster zeigt wahlweise den Inhalt des
Quellverzeichnisses an, aus dem Images per Drag-and-Drop ins Zielverzeichnis kopiert werden. Im integrierten Grafikbetrachter werden die
Images einzeln oder in Form von Thumbnails aufgerufen und in einem
Arbeitsgang von Schattierungen oder Verschmutzungen gereinigt. Über
einen Navigationsbaum, der die serverinterne Zielverzeichnisstruktur
32
Nähere Angaben zum Funktionsumfang der Visual Library unter <http://www.
semantics.de/produkte/visual_library/> (22.1.2004).
78
abbildet, legt der Bearbeiter neue, annotierbare Zeitschriftentitel, Jahrgänge oder Hefte an, wobei jedes Image zudem typisierbar ist (Titelblatt,
Inhaltsverzeichnis, Artikel und so weiter). Mit diesen Arbeitsschritten
stehen die erschlossenen Materialien unmittelbar unter Verwendung des
Library Scouts in Form dynamisch generierter Webseiten zu Recherchezwecken zur Verfügung.
Abb. 2: Library Manager – Einspeisung der Images ins lokale Verzeichnissystem
Abb. 3: Library Manager – Imageansicht
79
Ein Vorteil dieses ersten Produktionsschritts besteht darin, große Mengen digitalen Quellenmaterials ohne Umschweife im Internet zur Verfügung zu stellen. Die Datenerfassung folgt ergonomischen und ökonomischen Prinzipien und setzt keine besonderen technischen Kenntnisse
voraus. Darüber hinaus ist diese Phase der Produktion vollkommen autark: Mit geringem Aufwand lassen sich auch weltweit verstreute Materialien in Form virtueller Gesamtbestände zentralisieren, auf die fortan
global zugegriffen werden kann. Der Umstand, dass in diesem Stadium
keine digitalen Volltexte angeboten werden und das Archiv erst oberflächlich strukturiert ist – im Fall von Periodika gemäß ihrer ›natürlichen‹
Hierarchie (Titel, Jahrgang, Einzelheft) –, erweist sich nur auf den ersten
Blick als Nachteil: Waren zuvor aufwändige, oft erfolglose Bibliotheksreisen, Archivaufenthalte oder Bestellvorgänge nötig, wird der Nutzer die
bloße Verfügbarkeit bislang schwer zugänglicher Corpora – und sei die
Erschließungstiefe vorläufig noch so gering – als ungemeine Arbeitserleichterung begrüßen. Bibliotheken und Archive wiederum werden es zu
schätzen wissen, knappe Personalressourcen schonen und die bedrohten
Originale schützen zu können.
Diese einfache Bereitstellungsform, die als erster, selbstständiger Produktionsschritt angestrebt werden sollte, mag in manchen Fällen bereits
vollkommen genügen – sie stellt jedenfalls ein vergleichsweise einfach,
günstig und schnell zu erzielendes Arbeitsergebnis dar, das Nutzer und
Anbieter gleichermaßen entlastet. Die geringe Komplexität dieses Verfahrens, das sich leicht auf andere Publikationstypen oder Überlieferungsformen applizieren lässt, mag ferner ein Argument für Institutionen
darstellen, die bislang keine Erfahrungen im digitalen Bereich gesammelt
haben, dieses Segment jedoch aus Gründen der ›Selbsterhaltung‹ rasch
besetzen sollen:
Es steht den Geisteswissenschaften nicht mehr frei, sich aus den wandlungsintensiven Bedingungen der Kommunikation herauszuhalten. Und wenn dies [...]
im Stillen oder lautstark gefordert wird, dann um den Preis der Selbstmarginalisierung. [...] Was jetzt im Internet als Wissensbestand und Geltungsanspruch
nicht angemessen markiert wird, kann mittelfristig bereits von der Weltkarte der
geläufigen Kenntnisse verschwunden sein. Es gerät, wenn es für eine computergestützte Benutzung nicht in mediengerechter Form zur Verfügung steht, an den
Rand jenes Feldes, das als Raum des allgemein Wissenswerten betrachtet werden
kann.33
33
Rainer Baasner: Digitalisierung – Geisteswissenschaften – Medienwechsel? (Fußnote 10).
80
Sofern das Corpus eine tiefere Erschließungsebene erfordert oder die
entsprechende Nachfrage besteht, sollten sich Digitalisierungsvorhaben
nicht darauf beschränken, Quellen als ›Loseblattsammlungen‹ anzubieten. Eine wichtige Vorgabe, die die Attraktivität eines Digitalisierungsprojekts sichert, besteht bekanntlich darin, dass die Effizienz des
Zugriffs auf das Textcorpus die hergebrachten Möglichkeiten des Buchs
oder der Mircoform übersteigen sollte. Dies betrifft vor allem die Recherchemöglichkeiten.
5.
Keinesfalls wollen die Nutzer bei jeder neuen Fragestellung immer wieder eine Unzahl von Grafiken nach den gesuchten Materialien durchsuchen – eine mühsame und zeitraubende Prozedur, die schon die Arbeit
mit Microfilmen oder papierenen Vorlagen erschwerte. Die Minimalerwartung der Benutzer besteht selbstverständlich darin, die den analogen
›Originalen‹ entsprechenden digitalen ›Kopien‹ einsehen zu können.
Darüber hinaus will der User direkt auf zugehörige bibliographische
Kerndaten zugreifen sowie in den digitalen Volltexten recherchieren. Als
separater Produktionsschritt, der von der Einspeisung der Grafiken
ebenso wie von der Erfassung der Volltexte getrennt werden sollte, mag
die Erschließung der bibliographischen Daten relativ unaufwändig und
unproblematisch sein – allerdings nur, sofern es sich um Monographien
handelt: Hinter einem eindrucksvollen Archiv von abertausend Seiten
verbergen sich oft nur einige Hundert Titelaufnahmen, die eventuell
längst erfasst wurden oder kurzfristig katalogisiert werden können.34 Die
normkonforme Katalogisierung unselbstständig erschienener Literatur
erfordert hingegen einen weitaus höheren Arbeitsaufwand, den angesichts chronischer Ressourcenverknappung kaum noch eine Bibliothek
aufzubringen im Stande ist. Möglicherweise wird man in Zukunft wenigstens die Titel des laufend in Fachzeitschriften, Jahrbüchern und Sammelwerken erscheinenden Schrifttums digital erfassen können – unter
34
Vgl. das ›Schwesterprojekt‹ von Compact Memory, das digitale Archiv Jiddische Drukke der Stadt- und Universitätsbibliothek Frankfurt a. M. unter der folgenden Adresse:
<http://www.literatur-des-judentums.de> (22.1.2004) sowie die Dokumentation von
Rachel Heuberger: Die Bestände der Judaica-Sammlung auf dem Weg ins Internet.
Zwei Digitalisierungsprojekte an der Stadt- und Universitätsbibliothek Frankfurt a. M.
In: Tribüne 39/154 (2000); vgl. folgende Adresse <http://www.stub.uni-frankfurt.de/
publikationen/tribuene.htm> (22.1.2004).
81
dem Kriterium der »Realität des Leistbaren«35 kann diese Aufgabe retrospektiv wohl auch langfristig nur im Ausnahmefall erbracht werden. Das
statistische Verhältnis zwischen selbst- und unselbstständigen Publikationen verdeutlicht das Problem: Repräsentiert die Titelaufnahme einer
Monographie ungefähr 200 bis 300 Seiten, umfasst – gemäß den Erfahrungen von Compact Memory – ein Beitrag aus einem historischen Periodikum durchschnittlich kaum vier bis fünf Seiten Text. Ein Zeitschriftencorpus von circa 500.000 Seiten würde demnach die Erfassung von
mehr als 100.000 Artikeln erforderlich machen, während im Fall von
Monographien nur rund 2.000 Einträge anfielen.
Stellt die Erfassung unselbstständigen Schrifttums, die einem Standard
wie zum Beispiel den »Regeln für die alphabetische Katalogisierung in
wissenschaftlichen Bibliotheken« (RAK-WB) beziehungsweise den bislang nur als Entwurf vorliegenden »Regeln für die alphabetische Katalogisierung unselbstständiger Werke« (RAK-UW) folgen sollte, nicht eine
herkulische Leistung dar? Ist es unter ökonomischen Gesichtspunkten
überhaupt zu rechtfertigen, dass sich ein Bibliotheksteam über Jahre dieser Aufgabe widmet – wohl wissend, dass das Ergebnis nur einen Tropfen auf dem heißen Stein ausmacht? Lange vor Anbruch des digitalen Informationszeitalters wurde die Forderung laut, dass verstärkt auch unselbstständiges Schrifttum katalogisiert werden müsse. In den vergangenen Jahrzehnten übernahmen teilweise Fachbibliographien diese Aufgabe. Mitte der 1990er Jahre folgten entsprechende Internetangebote, die
sich aus nahe liegenden Gründen zumeist auf die laufend neuerscheinenden, hauptsächlich naturwissenschaftlich-technischen Fachzeitschriften konzentrieren.36 Die retrospektive Katalogisierung historischer Bestände ist hingegen sicher nicht grundlos immer wieder aufgeschoben
oder nur im Einzelfall angegangen worden.
In diesem Zusammenhang lautet die zentrale Frage vor allem, ob sich
die Mühe in Zeiten der zunehmend effizienter arbeitenden Texterkennungsprogramme überhaupt lohnt: Ohne Zutun eines Bibliothekars
könnte ein umfangreiches Corpus von Grafiken automatisch texterkannt
und in digitalen, das heißt recherchierbaren Volltext umgewandelt werden. Im Ergebnis differenzierte das System zwar nicht zwischen distinkten, bibliographischen Einheiten wie ›Autor‹, ›Titel‹ und so weiter, was
35
36
Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten, S. 106.
(Fußnote 7).
Vgl. Initiativen einzelner Bibliotheken bzw. Bibliotheksverbünde vor allem das Kooperationsprojekt JADE, das die Recherche nach ca. 24.000.000 Aufsätzen aus rund
42.000 Fachzeitschriften ermöglicht, die über den kostenpflichtigen Dokumentlieferdienst JASON bestellt werden können.
82
eine – wiederum aufwändige – Nachindizierung der Texte voraussetzte.
Der Nutzer wäre aber dennoch in der Lage, nach bestimmten Zeichenfolgen zu recherchieren – eben auch solchen, die zum Beispiel einen Autornamen oder den Titel eines gesuchten Beitrags repräsentieren.
Die Entscheidung, bibliographische Kerndaten manuell zu katalogisieren, bleibt unter wirtschaftlichen beziehungsweise technischen Gesichtspunkten stets anfechtbar. Man kann darüber spekulieren, ob künftig
neue Technologien die klassische Form der Katalogisierung obsolet machen werden. Von dieser Entwicklung, die keinesfalls eine Zukunftsvision darstellt, einmal abgesehen, sind die neuen, hochinformativen Möglichkeiten jedoch an einem traditionellen Kriterium zu messen: Demzufolge basiert der ›Wert‹ eines digitalen Archivs nicht ausschließlich auf
der Zweckmäßigkeit, die ein solches Angebot für einen bestimmten
Nutzerkreis besitzt, wie im Übrigen ja auch die Bedeutung einer traditionellen Bibliothek keinesfalls nur in der Literaturversorgung besteht. Gerade die »Erschließung alter und wertvoller Bestände«, die »von gesamtstaatlicher oder überregionaler Bedeutung« sind,37 gilt zurecht als maßgebendes Förderkriterium, sofern dadurch der eigentliche Mehrwert jedes
Einzelarchivs innerhalb der Verteilten Digitalen Forschungsbibliothek
konstituiert wird. Den aus Einzelprojekten resultierenden Datenbanken
ist folglich ein bleibender kulturhistorischer Stellenwert zu Eigen, der
nicht unterschätzt werden kann: Wie ein Buch, das unkatalogisiert in eine
Bibliothek eingestellt wurde, für den Nutzer schlichtweg nicht existiert,
stellt erst die distinkte Titelaufnahme eines Zeitschriftenbeitrags die initiale Materialisierungsstufe seines potentiellen Informationsgehalts dar.
Die Summe aller Titelaufnahmen bildet die Voraussetzung der optimalen
Informationsvermittlung; der Zweck der Katalogisierung besteht indessen ebenso in der reinen Informationserhaltung. – Das Zukunftsszenario mag erschrecken, unrealistisch ist es keineswegs: Wenn die Originale
eines Tages zu Staub zerfallen sind und einige Jahrzehnte oder Jahrhunderte später die archivierten Microfilme ausgebleicht sein werden, geben
beizeiten konvertierte Datenbanken wenigstens darüber Auskunft, welche Informationen der Menschheit verloren gingen.
In den weltweit aktiven Jüdischen Studien muss die Titeldatenbank
von Compact Memory zudem das Kriterium erfüllen, auch vom Grafikbeziehungsweise Volltextangebot unabhängige Recherchen zu ermöglichen. Als digitales ›Quellenverzeichnis‹ schließt die Datenbank die große
Lücke zwischen biographischen Nachschlagewerken, Fachbibliographien
37
S. 7. (Fußnote 1).
83
sowie einschlägigen Lexika und Enzyklopädien, wobei der Vorteil darin
besteht, dass die Daten online verfügbar sind – nötigenfalls auch auf anderen Plattformen, in fremden Informationsverbünden oder auch als Referenzorgan in Buchform. Dies setzt voraus, dass die bibliothekarischen
Kerndaten standardisiert und vollständig katalogisiert werden, wobei die
Dateneingabe – um die Masse halbwegs zu bewältigen – überregional
erfolgen sollte und keine Redundanzen aufweisen darf.
Abb. 4: Produktionsschema zur Erfassung bibliographischer Kerndaten
84
Die Erfassung der bibliographischen Kerndaten sieht laut Schema (siehe
Abb. 4) drei aufeinander folgende Produktionsstufen vor, die mittels eines im Projekt entwickelten, webbasierten Eingabeinterfaces durchlaufen
werden: Der Aufnahme des Periodikums folgt zunächst die Erfassung
beziehungsweise Auswahl des Jahrganges und des Einzelheftes, dessen
Beiträge katalogisiert werden sollen (siehe Abb. 5). Dem Eintrag dieser
gestaffelten Quellenvermerke, die nur einmal vorgenommen werden
müssen, um an allen Arbeitsstandorten abrufbar zu sein, schließt sich als
zweiter Schritt die RAK-konforme Aufnahme der an der Publikation beteiligten Personen oder Körperschaften an.
Abb. 5: Erfassung eines Zeitschriftenheftes
Die technische Realisation dieses Schritts stellte eine der komplexesten
Aufgaben dar (siehe Abb. 6): Neben anonymen, nur mit Initialen versehenen oder von Körperschaften autorisierten Beiträgen müssen vor allem die im osteuropäischen Bereich häufig variierenden Namensschreibweisen berücksichtigt werden, ohne redundante Mehrfacheinträge
für dieselbe Person zu erzeugen, welche die Homogenität des Datenmodells beeinträchtigen. In verschärfter Form tritt diese Problematik bei
Pseudonymen zu Tage, die als solche vom Bibliothekspersonal oft nicht
oder nur zufällig zu erkennen sind. Führt die ›Ansetzungsform‹ in der
Regel den Geburtsnamen auf, geben die zugeordneten ›Verweisungsformen‹ die Pseudonyme oder wechselnden Namensschreibungen des Beiträgers wieder, wobei man die Angaben jederzeit separat erweitern oder
Zuordnungen revidieren kann.
Der Bearbeiter muss ferner zur Aufnahme eines neuen Beiträgers alle
bereits erfassten Ansetzungsformen sowie die zugehörigen Verweisungsformen durchsuchen können. Im Gegenzug galt es sicherzustellen, dass
auch der Nutzer bei der Autorenrecherche eine vollständige Ergebnis-
85
menge der zugewiesenen Publikationen erhält – also auch diejenigen Artikel, die der Autor unter Pseudonym oder variierender Schreibweise seines Namens veröffentlichte. Da zudem zwei oder mehr Autoren beziehungsweise Körperschaften für einen Beitrag verantwortlich zeichnen
können, muss die Personenerfassung beliebig oft wiederholbar sein, wobei es sich als sinnvoll erwies, den eventuell unterschiedlichen ›Status‹ der
Urheber zu verzeichnen (Verfasser, Illustrator, Übersetzer und so weiter). Der Datenbankserver, auf den die Clients zugreifen, verhindert auch
bei diesem Arbeitsschritt redundante Doppel- oder Mehrfacherfassungen, da sämtliche Aufnahmen oder Änderungen unmittelbar allen beteiligten Standorten zur Verfügung stehen.
Abb. 6: Erfassung eines Zeitschriftenbeiträgers
Die Titelaufnahme schließt als dritter und letzter Produktionsschritt die
Erfassung ab (siehe Abb. 7). Neben den Angaben zum Hauptsachtitel,
zum Ansetzungstitel, einem eventuellen Ersatztitel oder diversen Titelzusätzen beziehungsweise obligatorischen Hinweisen zur Fundstelle
(Rubrik, Seitenangaben) erschien es praktisch, die betreffenden Beiträge
wenigstens ansatzweise zu verschlagworten: So werden im Fall von Rezensionen die besprochenen Werke in Kurzform verzeichnet; ebenso
zentral für wissenschaftliche Recherchen, zum Beispiel für Fragen der
Kanonbildung, ist die Möglichkeit, in Sammelbeiträgen enthaltene Werke, zum Beispiel Gedichte verschiedener Verfasser in einer Zeitschriftenanthologie, erfassen zu können. Die Treffermenge lässt sich darüber
hinaus mit Hilfe des Publikationstyps (Beitrag, Rezension, Nachricht, Illustration und so weiter) oder der bereits zugewiesenen Rubrik (Leitarti-
86
kel, Gemeindenachrichten, Feuilleton und so weiter) eingrenzen. Angaben zu Tabellen, Karten, Abbildungen, Notenbeispielen und so weiter
liefern weitere Hinweise.
Abb. 7: Titelaufnahme
Bei der Entwicklung von Arbeitsoberflächen dieser Form und Funktionalität sind drei Überlegungen von entscheidender Bedeutung: (1) In
Anbetracht der großen Datenmengen müssen während der Katalogisierung jeglicher Zeitverlust vermieden und redundante Tätigkeiten neutralisiert werden. (2) Die Arbeiten dürfen an die Clients keine speziellen
Hard- oder Softwareanforderungen stellen beziehungsweise den bibliothekarischen Nutzern keine tieferen technischen Kenntnisse abverlangen
und müssen simultan von verteilten, das heißt letztlich beliebigen Standorten aus durchgeführt werden können. (3) Die erfassten bibliothekarischen Kerndaten sind dem Nutzer unmittelbar nach jeder einzelnen Titelaufnahme in strukturierter Form im Internet zur Verfügung zu stellen.
Wie angedeutet, wurde aus ökonomischen Gründen besonders das
Prinzip der ›Rekursivität‹ berücksichtigt: Da das Bibliothekspersonal die
Katalogisierung – von Nachträgen oder Korrekturen abgesehen – gemäß
der Druckreihenfolge der Einzelbeiträge durchführt, ›merkt‹ sich das System das zuletzt aufgerufene Einzelheft, den übergeordneten Jahrgang
sowie das zugehörige Periodikum. Der erste Produktionsschritt – die Erfassung des Periodikums, Jahrganges und Einzelheftes – ist gestaffelt,
wodurch der Arbeitsaufwand minimiert wird: Die rekursiven Quellenan-
87
gaben sind erst zu aktualisieren, wenn der Bearbeiter in ein neues Heft,
einen neuen Jahrgang oder ein neues Periodikum wechselt. Die zentrale
Verwaltung aller personen- und körperschaftsbezogenen Angaben, die
nach einmaliger Erfassung an allen Standorten in Form von Auswahllisten zur Verfügung stehen, optimiert die Ergonomie und Effizienz des
Produktionsverfahrens. Zugleich wird auf diesem Weg die einheitliche
Datenerfassung und die Homogenität des Datenbestands gesichert – ein
Faktor, dem vor allem in einem Projekt mit verteilten Standorten immense Bedeutung zukommt. Insgesamt konnten auf diese Weise innerhalb von knapp drei Jahren circa 60.000 Einzelbeiträge beziehungsweise
rund 6.000 Personen- und Körperschaftsangaben katalogisiert und zur
Recherche freigegeben werden (Stand: Januar 2004).
Ein webbasiertes Eingabeinterface mag im Vergleich zu einer fest am
individuellen Arbeitsplatz installierten Softwarelösung einige Nachteile
aufweisen. So sind zum Beispiel der technische Funktionsumfang und
die ergonomischen Möglichkeiten eines lokalen Erfassungstools weniger
limitiert, als dies bei einer Eingabeplattform der Fall ist, die über einen
Internet-Browser angesteuert wird. Unter Umständen spricht jedoch gerade diese Alternative für ein Web-Interface: Die Datenbank kann nicht
nur an jedem Ort der Welt genutzt werden – dies leistet auch jede moderne Erfassungssoftware –, die beteiligten Personen und Institutionen
können vor allem ohne jedwede Anpassung ihres lokalen Systems arbeiten. Ein Wechsel des Rechnertyps, den eine Software eventuell voraussetzt, ist ebenso unnötig wie etwaige Umstellungen oder Aktualisierungen der individuellen Betriebssysteme. Die retrospektive Katalogisierung
von Bibliotheks- und Archivbeständen kann mit Hilfe internetbasierter
Eingabeinterfaces quasi voraussetzungslos von verteilten Standorten
aufgenommen werden, wobei auch der anfallende Entwicklungs- und
laufende Wartungsaufwand vergleichsweise gering wäre und keine Lizenzgebühren anfielen. Der Preis, der im Zuge einer solchen Entscheidung zu entrichten ist, besteht im Verzicht, alle in einem Projekt anfallenden Aufgaben auf einer integralen Plattform zu lösen. Grafiken und
Volltexte mit einem Tool, bibliographische Kerndaten hingegen mittels
einer Internetmaske in die Datenbank einzuspeisen, bedeutet, dass im
Ergebnis kongruente Arbeitsabläufe separiert werden. Die später erforderliche Synthese der verschiedenen Datenmengen ist unter verfahrenstechnischen Aspekten selten ohne Reibungsverluste zu bewerkstelligen,
wobei der vielleicht nur geringfügig höhere Arbeitsaufwand weniger
schwer wiegt als die Preisgabe der technischen Homogenität und Effizienz.
88
Die Diskussion der Vor- und Nachteile, die eine konkrete technologische Fragestellung nach sich zieht, verdeutlicht einen entscheidenden
Punkt: Digitalisierungsinitiativen stecken ein Terrain ab, auf dem gegenwärtig noch intensiv ›experimentiert‹ werden muss, um effiziente und
verbindliche Produktionskonzepte zu entwickeln.38 Digitalisierungsprojekte entwerfen, erproben und evaluieren Design- beziehungsweise Produktionsstrategien, um ihre Erfahrungen in einem langfristigen, nachhaltigen Digitalisierungsprogramm aufgehen zu lassen, welches den sukzessiven Aufbau »digitale[r] themenorientierte[r] Informationsnetze«39 forciert und somit das Rückgrat des geplanten DFG-Portals »Sammlung digitalisierter Drucke« darstellen könnte. Dieses Experimentierfeld wurde
in Compact Memory bewusst abgeschritten – die Entscheidung indessen,
welche technische Alternative gewählt wird, basiert im Kern auf der
Kompetenz und Bereitschaft der beteiligten Institutionen, neue, prototypische Technologien in bestehende Systeme zu integrieren, um dadurch
den Aufbau benutzerorientierter Informations-Infrastrukturen voranzutreiben.
Welche Produktionsvariante im skizzierten Fall letzten Endes bevorzugt wird, hängt einerseits von den ins Auge gefassten Projektzielen, von
den verfügbaren Ressourcen und nicht zuletzt von der technologischen
Kompetenz des Mitarbeiterstabs ab. Andererseits verdeutlichen die Ausführungen zur bibliothekarischen Datenerfassung, dass die gewählte Lösung dem Gebot der Ökonomie zu folgen hat und die Datenbasis migrationstauglich sein muss, um weltweit in Form überregionaler, internationaler Gateways einen standardisierten Zugang zu ermöglichen.40
38
39
40
So auch das Fazit von Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten, S. 110 (Fußnote 7): »Digitalisierungsprojekte sind eine neue Aufgabe
der Bibliotheken und Archive, vor allem handelt es sich – und das wird oft unterschätzt – um eine sehr komplexe Aufgabe. Damit sind Fehler unvermeidbar und vermutlich muss eine Reihe von Fehler gemacht werden, bis auch die deutschen Bibliotheken und Archive praktikable Checklisten für Digitalisierungsprojekte aufstellen
können.«
S. 19. (Fußnote 1).
Vgl. im Zusammenhang der retrospektiven Zeitschriftendigitalisierung das Projekt
Dieper (Digitised European Periodicals) der Niedersächsischen Staats- und Universitätsbibliothek Göttingen, in dessen Rahmen ein standardisierter Zugriff auf digitale
Zeitschriftenbestände innerhalb und außerhalb Europas ermöglicht werden soll.
<http://gdz.sub.uni-goettingen.de/dieper/> (22.1.2004).
89
6.
Im Allgemeinen interessiert es den Nutzer nicht, auf welche Weise Daten in eine Datenbank gelangen – entscheidend ist für ihn, wie das erfasste Material aufbereitet und im Internet zur Verfügung gestellt wird.
Dabei erweist sich der Grad, in dem das Corpus in formaler und inhaltlicher Hinsicht erschlossen wurde, als ebenso zentraler Faktor wie die ergonomische und taktile Funktionalität der Zugriffsmöglichkeiten. Die
Attraktivität eines digitalen Archivs steigt folglich in dem Maß, wie es
den individuellen Arbeitsgewohnheiten seiner Nutzer entgegenkommt
und traditionelle Wege der Informations- und Literaturbeschaffung erleichtert.
Von der Volltextsuche abgesehen, sind es im Fall der bibliographischen Recherche in einem digitalen Zeitschriftencorpus im Wesentlichen
drei typische Suchstrategien, welche die Anbieter berücksichtigen müssen: In der Regel will der Nutzer über gängige Suchoptionen gezielt und
ohne Verzug bestimmte Materialien aufrufen, deren Quellenangaben
ganz oder teilweise bekannt sind (Simple Search). Will man Suchergebnisse einschränken oder liegen nur rudimentäre Hinweise vor, müssen
mittels kombinierter Suchmöglichkeiten hierarchisch organisierte Trefferlisten generiert werden können (Advanced Search). Zuletzt darf nicht
ignoriert werden, dass viele Nutzer im Bestand ›stöbern‹ möchten: Wie
der Besucher einer realen Bibliothek mal zu diesem, mal zu jenem Band
greift, klickt der Nutzer eines digitalen Archivs mal diesen, mal jenen
Link an, um sich von Zufallsfunden überraschen zu lassen oder in bekannten Kontexten gezielt zu lesen.
Es empfiehlt sich daher grundsätzlich, dass ein digitales Archiv seinen
gesamten Datenbestand in strukturierter Form visualisiert – vor allem
um den Nutzern einen Überblick über den Umfang, die Vollständigkeit
und die Erschließungstiefe des Textcorpus zu vermitteln. Endloslisten,
die bibliographische Daten nach singulären Kriterien aufführen, erweisen
sich als unpraktisch und unübersichtlich. Dagegen wird der Einstieg
zweifellos erleichtert, wenn das Vorwissen der Nutzer bezüglich des
Umgangs mit bestimmten Textcorpora berücksichtigt wird und die Präsentation des digitalen Bestands der analogen ›Urform‹ des Mediums
folgt: Aus Erfahrung ›weiß‹ der Nutzer, dass er in einer Bibliothek zunächst ein Periodikum auswählt und dann zu einem bestimmten Jahrgang greift. Er hat ›gelernt‹, dass ein Jahrgang eventuell ein Inhaltsverzeichnis enthält, auf jeden Fall aber eine beliebige, prinzipiell chronologisch geordnete Anzahl Einzelhefte umfasst; erst in den Heften erwartet
der Nutzer, auf ›Text‹ in Form einzelner Artikel zu stoßen.
90
Der Medienwechsel muss nicht notwendigerweise eine Umstellung internalisierter Gewohnheiten beziehungsweise praxiserprobter Strukturierungsformen bedeuten: Ein digitales Archiv sollte dieses erworbene
Vorwissen vielmehr kreativ umsetzen und dem Nutzer – neben diversen
Suchfunktionen – stets auch den intuitiven, sozusagen ›plastischen‹
Zugriff auf das Textcorpus ermöglichen. Dementsprechend wurde in
Compact Memory eine Präsentationslösung angestrebt, die die Recherche, Navigation und Orientierung im Corpus erleichtert, indem alle Daten mit Hilfe des Library Scouts bis in die Einzelhefte hinein visualisiert
werden (siehe Abb. 8).
Abb. 8: Anzeige des Inhalts eines Einzelheftes
Gegenüber der Titelrecherche bildet die Volltextsuche einen logisch und
arbeitsteilig weitgehend eigenständigen Aufgabenbereich, der im Anschluss an die Präsentation der Digitalisate und die Erfassung bibliographischer Kerndaten die dritte, separate Produktionsstufe darstellt. Die
Problematik ist allgemein bekannt: Nur in seltenen Fällen lässt sich vom
Titel eines Beitrags auf dessen Inhalt oder historischen Stellenwert
schließen; bedeutende Beiträge tragen ausdrucksschwache Überschriften
oder können von mehr oder minder unbekannten Verfassern stammen.
Fördert die Suche nach Titelschlagworten also stets ein Konglomerat relevanter und peripherer Angaben zu Tage, vermag erst die Volltextrecherche die Spreu vom Weizen zu trennen, indem die Textinhalte nach
bestimmten Zeichenfolgen durchsucht und statistisch aufbereitete Trefferlisten generiert werden.
91
Die Umwandlung der Grafiken in Volltexte bedeutet einen erheblichen Mehraufwand, auch wenn dieser Arbeitsschritt mit Hilfe automatisierter OCR-Software durchgeführt wird. Zwar sind Texterkennungsprogramme heute deutlich leistungsstärker, leichter zu handhaben und
preiswerter als vor einigen Jahren. In einem für die retrospektive Digitalisierung zentralen Punkt stoßen aber auch beste OCR-Programme an ihre Grenzen: Kann Schrift in Antiqua, gute Vorlagenqualität vorausgesetzt, in der Regel mit Trefferquoten von annähernd 100 Prozent erkannt werden, erfordert die bis in die 1920er Jahre im deutschen Sprachraum weit verbreitete Frakturschrift bislang einen beträchtlichen manuellen Trainingsaufwand, um halbwegs zufrieden stellende Ergebnisse zu
erzielen. Die fortschreitende OCR-Entwicklung wird hier über kurz oder
lang Abhilfe schaffen, vor allem sobald die Softwareindustrie dieses
Marktsegment entdecken sollte. Bis dahin wird jedes Digitalisierungsprojekt individuell zu entscheiden haben, ob der zu erbringende Aufwand in
einem vertretbaren Verhältnis zum Nutzen steht, wodurch letztlich immer auch die Corpusauswahl betroffen ist.
So zentral wie die Frage nach der erzielbaren Qualität der Volltexte
ist das Problem, wie man die enorme Quantität an Text auf ökonomische Weise bewältigt. Allein aus Gründen der Ergonomie und Übersichtlichkeit können mehrere zehn- oder hunderttausend Seiten nicht einfach
einem separat arbeitenden OCR-Programm zugeführt und im Anschluss
manuell in eine Datenbank überführt werden. Die Einspeisung der Grafiken in das hierarchisch strukturierte Verzeichnissystem und die Zuweisung der seitenweise erzeugten Volltexte sind vielmehr als logisch parallel laufende Produktionsstufen zu organisieren. Zur Vermeidung von
Reibungsverlusten sollte es demnach möglich sein, die Erfassung der
Grafiken und die Erzeugung beziehungsweise Verknüpfung der zugehörigen Volltexte nicht von getrennt arbeitenden Programmen, sondern auf
einer integralen Plattform durchzuführen.
Der in Compact Memory eingesetzte Library Manager wurde zu diesem Zweck um ein OCR-Modul erweitert,41 das einen auszuwählenden
Bestand von Grafiken – komplette Periodika, bestimmte Jahrgänge, einzelne Hefte oder Seiten – in Stapelverarbeitung in digitalen Text überführt. Die resultierenden Textdateien werden in der Datenbank automatisch den entsprechenden Grafiken zugeordnet und stehen unmittelbar
41
Genutzt wird derzeit die FineReader 6.0 Engine des ABBYY Software House. Vgl. die
URL: <http://www.abbyy.com/developer_toolkits.asp?param=2395> (22.1.2004). –
Die Ende 2003 releaste Betaversion 7.0 soll standardmäßig auch Frakturschrift erkennen können. Bis Redaktionschluß konnten keine Tests durchgeführt werden.
92
der Volltextrecherche zur Verfügung. Der Library Manager bietet ferner
alle zentralen Funktionen des OCR-Programms, darunter die Möglichkeit, besondere Zeichensätze wie Fraktur zu trainieren. Mit Hilfe des integrierten Editors können die vorliegenden Texte darüber hinaus nach
Bedarf redigiert sowie TEI-konform im XML-Format ausgezeichnet
werden.42
7.
Der vorliegende Werkstattbericht versuchte anhand konkreter Erfahrungen und Fragestellungen, die im Zuge der digitalen Zeitschriftenreformatierung auftreten, ein Produktionskonzept zu skizzieren, dessen Schwerpunkt in der verzugsfreien, halbautomatisierten und standardisierten
Massendigitalisierung historischer Drucke besteht. Vor allem der souveräne Umgang mit heute verfügbaren Technologien zur Massendigitalisierung bildet die Voraussetzung, eine Zukunftsvision zu verwirklichen, die
auch verantwortliche Institutionen nicht mehr hinter vorgehaltener
Hand diskutieren:
Der insgesamt – auch international – erreichte Stand der retrospektiven Digitalisierung lässt jedoch heute die Vision realistisch erscheinen, dass in einer oder
zwei Generationen die gesamten historischen Buchbestände des Landes, ergänzt
durch entsprechende Digitalisate handschriftlicher, bzw. nichtschriftlicher Teile
des kulturellen Erbes über eine einheitliche Oberfläche vom Schreibtisch jedes
und jeder Interessierten direkt und ohne nennenswerte Zeitverzögerung zugänglich sein könnten. Auch eine konservative Hochrechnung technischer Entwicklungen lässt erwarten, dass ein derartiges Ziel in einigen Jahrzehnten erreicht
werden kann.43
Ausländische Großinitiativen,44 aber auch viele prototypische Lösungen
deutscher Einzelprojekte demonstrieren, dass dieser gleichsam enzyklo-
42
43
44
Zu TEI, dem standardisierten Auszeichnungssystem der Text Encoding Initiative auf
Basis der Extensible Markup Language (XML) vgl. vor allem die TEI-Homepage
<http://wwwtei-c.org/> (22.1.2004). Eine Einführung bietet Fotis Jannidis: TEI in
der Praxis. In: editio 11 (1997), S. 152-177. <http://computerphilologie.uni-muenchen
.de/praxis/teiprax.html> (22.1.2004).
Die Erschließung und Bereitstellung digitalisierter Drucke, S. 18. (Fußnote 5); unsere
Hervorhebung, T.Sch./K.H.
Vgl. z.B. das Gallica-Projekt der Bibliothèque National (<http://gallica.bnf.fr/>
(22.1.2004)), das Cervantes-Projekt spanischer und lateinamerikanischer Bibliotheken
(<http://cervantesvirtual.com/proyectoEN/BIMICESA.shtml> (22.1.2004)), die
Kordic Digital Newspaper Library Tiden (<(http://tiden.kb.se> (22.1.2004)) oder das
93
pädische Auftrag heute bereits zu bewältigen ist. Die Hürden, die im
Verbund deutscher Bibliotheken, Archive und Universitäten noch genommen werden müssen, sind weniger technischen als organisatorischen
Ursprungs. Drei Aspekte stehen dabei im Vordergrund: (1) Schaffung
eines zentralen Internet-Portals, das einen fachübergreifenden Zugriff
auf vorhandene digitale Drucke ermöglicht; (2) Synchronisation und Evaluation laufender beziehungsweise zukünftiger Digitalisierungsprojekte
auf Basis eines zu erstellenden, verbindlichen ›Kriterienkatalogs‹; (3) Planung und Prioritätensetzung der Digitalisierung historischer Bibliotheksund Archivbestände im Rahmen eines nationalen Gesamtkonzepts.45
In Erweiterung der so genannten Sondersammelgebiete stellt das
Konzept der Virtuellen Fachbibliothek zweifellos die wichtigste Alternative dar, potentielle Nutzer mittels »qualitätsgesicherte[r] Erschließungsund Zugangssysteme« über einschlägige Ressourcen wie digitale Sammlungen zu informieren.46 Angesichts der zunehmenden Spezialisierung
der Einzelwissenschaften ist vor allem die Virtuelle Fachbibliothek das
probate Mittel, »dem Benutzer einen einigermaßen umfassenden Nachweis der in Deutschland verfügbaren digitalen Bestände geben und ihm
den Zugriff darauf ermöglichen« zu können.47 Ebenso unerlässlich wie
die einheitliche Anwendung technischer und methodischer Standards,
welche die nachhaltige Nutzung solcher Gesamtsysteme garantieren, erfordert der Aufbau Virtueller Fachbibliotheken die Synthese von bibliothekarischer, fachwissenschaftlicher und technologischer Kompetenz.
Allein die aktive Zusammenarbeit zwischen Informationsanbietern, Nutzern und Systemkonstrukteuren kann ein Angebot schaffen, das die Interessen aller Beteiligten zu berücksichtigen vermag.
Dem weltweit aktiven Forschungszweig ›Jüdische Studien‹ würde eine
nationale wie internationale Initiativen synchronisierende Fachbibliothek
unschätzbare Dienste leisten. Eine solche Virtuelle Forschungsbibliothek
wäre in der Lage, sämtliche Zeugnisse jüdischer Tradition in sich zu vereinen – historische, literarische und wissenschaftliche Primärtexte, musikalische oder grafische Quellen sowie Nachlässe jedweder Provenienz.
Darüber hinaus könnten Enzyklopädien, Nachschlagewerke, Bibliographien, Kataloge und Verzeichnisse, aber auch Wörterbücher und Periodika zur Verfügung gestellt werden. Die hierzu erforderlichen, interna-
45
46
47
American Heritage Project der Library of Congress (<http://sunsite.berkeley.edu/
amher/> (22.1.2004).
Die Erschließung und Bereitstellung digitalisierter Drucke, S. 2, 5 u.ö. (Fußnote 5).
Ebd., S. 6. Vgl. die Hompage der Virtuellen Fachbibliothek <http://www.virtuelle
fachbibliothek.de/> (22.1.2004).
Die Erschließung und Bereitstellung digitalisierter Drucke, S. 8. (Fußnote 5).
94
tional kooperierenden Initiativen besäßen in der Forschungsbibliothek
aber nicht nur einen virtuellen ›Lesesaal‹. Sie bildeten eine globale Plattform, die einerseits der Erfassung und Verbreitung von benötigten Textcorpora dient. Andererseits entstünde ein Forum zur Präsentation von
Forschungserträgen und -initiativen, das weitaus aktueller als herkömmliche Printmedien sein könnte.
Margrit Schreier
Pseudo-Dokumentationen:
Zum Verschwimmen der Grenze
zwischen Realität und Fiktion in den Medien1
Abstract
This contribution focuses on pseudo-documentaries on the internet
which are regarded as the most recent example of the present-day media
trend towards an increasing blurring of the line between fact and fiction.
After outlining the tradition of especially audiovisual hybrid media products in which pseudo-documentaries can be seen to stand, various approaches for [distinguishing between fact and fiction are discussed and a
three-pronged model for evaluating the reality status of media products
is presented. On the basis of this model, pseudo-documentaries are reconstructed as a type of fiction that lacks any clear paratextual signals as
to its fictional status; instead, the impression is created (as part of the
plot) that product actually constitutes fact. This impression is further
supported by a highly realistic production mode that is achieved by presenting a large amount of seemingly authentic material. With respect to
content, however, most pseudo-documentaries contain highly implausible as well as topical elements which in turn can function as signals
pointing recipients to the fictional status of these products. Content
analysis of a random sample of e-mails from internet newsgroups about
the pseudo-documentary horror film The Blair Witch Project shows,
however, that approximately one third of these recipients are somewhat
confused concerning the reality status of the film, basing their evaluation
for the most part on information obtained from other media products.
Even those recipients who correctly consider the film to be fiction or a
hybrid hardly ever make use of the strongest signals to that effect contained in the product, but rely on mediated information instead. These
results are supported by a comparison with two companion studies.
1
Dieser Beitrag entstand im Rahmen des DFG-Projekts ›Realitäts-Fiktions-Unterscheidung(en)‹, Az. SCHR 594/1 (Leitung: Margrit Schreier und Norbert Groeben);
ich danke der Deutschen Forschungsgemeinschaft für ihre Unterstützung.
96
Margrit Schreier
0. Einleitung
»Who killed William Henry Gates III and why?«, so lautet die Überschrift
auf der Internet-Einstiegsseite der Citizens for Truth, einer, so scheint
es, US-amerikanischen Bürgerrechtsbewegung. Bill Gates tot?2 Wer sich,
von dieser Schlagzeile verführt, die Mühe macht, der Sache genauer
nachzugehen, erfährt Folgendes: Am 2. Dezember 1999 wurde Bill Gates, der Gründer und Firmenchef von Microsoft, vom Dach des Park
Plaza Hotel in Los Angeles erschossen, während er im MacArthur Park
an einer Wohltätigkeitsveranstaltung teilnahm. Unmittelbar im Anschluss
an die Tat gelang es der Polizei, den Täter zu identifizieren: den
24jährigen Afro-Amerikaner Alek Hidell, der seinen Schuss als den Auftakt zu einem amerikanischen Bürgerkrieg von Arm gegen Reich verstanden sehen wollte. Zu einer Festnahme kam es jedoch nicht, denn
Hidell beging in der Tiefgarage des Park Plaza mit seiner Pistole Selbstmord.
So lautet zumindest die offizielle polizeiliche Version der Ereignisse –
die jedoch erheblichen Raum für Zweifel lässt: Warum wurden am Tatort zwei Schüsse gehört, und wer feuerte den zweiten Schuss ab? Wer
war der Unbekannte, den eine Zeugin wenige Minuten nach dem Mord
vom Tatort wegrennen sah? Und hatte der Zeuge, dessen Aussage zur
versuchten Festnahme Hidells führte, auf dem Dach des Park Plaza
wirklich einen Menschen mit dunkler Hautfarbe gesehen – oder lediglich
eine dunkle Silhouette gegen das Sonnenlicht?
Um solchen Ungereimtheiten nachzugehen, wird wenige Tage nach
dem Attentat Citizens for Truth gegründet. Citizens for Truth setzen
sich für die Einrichtung einer unabhängigen Untersuchungskommission
ein, sie nehmen Einsicht in die Untersuchungsakten, re-analysieren die
vorliegenden Zeugenaussagen, führen auf eigene Faust weitere Befragungen durch und so weiter. Ihr Logo: die zerbrochenen Brillengläser
von Gates.
Allerdings sind die Webseiten der Citizens for Truth sowie einige wenige assoziierte Webseiten die einzigen Medien(produkte), in denen über
die angebliche Ermordung von Bill Gates berichtet wird (ein Gesichtspunkt, der in den Produkten selbst übrigens keine Erwähnung findet).3
Vor diesem Hintergrund liegt die Vermutung nahe, dass es sich bei dem
Webauftritt der Citizens for Truth nicht um den Versuch eines Häuf2
3
Citizens for Truth (2000 – 2002). <http://www.citizensfortruth.org> (31.1.2004).
Zum Beispiel: Jack Perdue: Bill Gates is dead (2000 – 2002). <http://www.
billgatesisdead.com> (31.1.2004); Unsharp Mask: Nothing so strange (2000 – 2001).
<http://www.nothingsostrange.com> (31.1.2004).
Pseudo-Dokumentationen
97
leins Gerechter handelt, sich gegen eine weltweite Verschwörung zur
Wehr zu setzen, sondern lediglich um eine Variante eines Medientrends,
der sich in den vergangenen Jahren immer weiter verstärkt hat: des
Trends zur Hybridisierung, zur Vermischung von Dokumentarischem
und Fiktionalem, zum Überschreiten der Grenze zwischen Realität und
Fiktion.4
Im Folgenden soll zunächst genauer auf die Tradition solcher hybriden Medienprodukte insbesondere im Bereich der audiovisuellen Medien
eingegangen werden, die als Vorläufer von Pseudo-Dokumentationen im
Internet gelten können (1.) Mit der Rede von Hybridprodukten wird zugleich die traditionelle Dichotomie zwischen ›Fiction‹ und ›Non-Fiction‹
in Frage gestellt. Entsprechend wird im nächsten Schritt aufgezeigt, dass
es im Rahmen der Fiktionalitätstheorie bisher nicht gelungen ist, eindeutige Definitionsmerkmale von ›Fiktion‹ und ›Fiktionalität‹ zu entwickeln
(2.1). Ausgehend von pragmatischen Fiktionalitätstheorien wird als Alternative ein Drei-Perspektiven-Modell von Fiktionalität dargestellt, das
es gerade erlaubt, Übergänge zwischen ›Fiction‹ und ›Non-Fiction‹ zu
modellieren (2.2) und das daher für die Rekonstruktion von Hybridprodukten wie den Pseudo-Dokumentationen besonders geeignet erscheint.
Auf der Grundlage einer solchen Rekonstruktion für zwei ausgewählte
Pseudo-Dokumentationen (Blair Witch Project und Citizens for Truth:
3.1) werden zentrale Merkmale des Genres der Pseudo-Dokumentation
herausgearbeitet (3.2). Auf Grund des Spiels mit ›Realität‹ und ›Fiktion‹,
wie es sich in diesen Merkmalen manifestiert, stellt sich die Frage, wie
Mediennutzer(innen) mit solchen Mischformen zwischen Fiktion und
Dokumentation umgehen, ob und gegebenenfalls inwieweit sie durch die
neuen Formate verunsichert werden oder das Spiel mit Realität und Fiktion im Gegenteil durchaus zu genießen in der Lage sind. Dieser Frage
wird abschließend am Beispiel einer Rezeptionsstudie genauer nachgegangen (4.), deren Ergebnisse auch durch andere, derzeit noch laufende
Untersuchungen bestätigt werden (5.).
1. Pseudo-Dokumentationen: Die Tradition der Hybridprodukte
In unserer Gesellschaft kann die Trennung zwischen ›Fakten‹ und ›Fiktionen‹, zwischen einem alltäglichen und einem ästhetischen Handlungsund Kommunikationssystem als konventional etabliert gelten, wobei diese Trennung zugleich mit unterschiedlichen Ansprüchen und Erwartun4
Vgl. z.B. Jane Roscoe/Craig Hight: Faking it. Mock-documentary and the subversion
of factuality. Manchester, New York: Manchester University Press 2001.
98
Margrit Schreier
gen an die jeweiligen Medienprodukte einhergeht: Von faktischen, dokumentarischen Medienprodukten erwarten wir – grob gesprochen –
dass diese etwas über Sachverhalte in der ›realen Welt‹ aussagen; tun sie
dies nicht, so können Rezipient(inn)en (wie etwa im Fall der angeblichen
Hitler-Tagebücher) den fehlenden Wirklichkeitsbezug einklagen. Fiktionen werden dagegen nicht nach den Kriterien der Wahrheit oder der
Nützlichkeit bewertet; hier werden vielmehr andere, ästhetische Gesichtspunkte relevant, wie beispielsweise Gefallen, innovativer Charakter
und anderes mehr (ausführlich unten 2.1).5
Vor dem Hintergrund dieser basalen Unterscheidung haben sich jedoch vielfältige Überlappungsbereiche zwischen dem Faktischen und
dem Fiktionalen herausgebildet. Der historische Roman, Biographie und
Autobiographie, die Reiseerzählung lassen sich sämtlich als Mischformen
auffassen, die zu je unterschiedlichen Anteilen fiktive und dokumentarische Elemente enthalten. Auch die Urban Legends, wie etwa haarsträubende Erzählungen von Tarantelfamilien, die sich in der geschenkten
Yucca-Palme eingenistet haben, bewegen sich im Sinne einer modernen
Folklore in der Grauzone zwischen dem Faktischen und dem Fiktionalen.6 Dies gilt ebenso für die Bekenntnisliteratur, die den Umgang mit
schwierigen Lebenssituationen und Schicksalsschlägen in den Mittelpunkt stellt (wie etwa Betty Mahmodys Bestseller Nicht ohne meine
Tochter).
Als bekanntestes Beispiel eines Hybridprodukts aus dem Hörfunkbereich kann sicherlich Orson Welles' Adaptation des Romans War of the
Worlds von H. G. Wells gelten (Invasion from Mars), das am Abend des
30. Oktober 1938 in den USA als Hörspiel ausgestrahlt und (trotz des
Sendedatums, nämlich am Abend von Halloween) zumindest von einigen Hörerinnen und Hörern als Nachrichtensendung missverstanden
wurde.7 Auch im filmischen Bereich existiert eine lange Tradition von
Hybridprodukten, die von der Parodie (wie etwa This is Spinal Tap, der
angeblichen Dokumentation über eine musikalisch gänzlich unbegabte
Heavy Metal Band) über die Kritik am Wahrheitsanspruch des dokumentarischen Projekts (etwa in The Falls, einer Pseudo-Dokumentation von
Peter Greenaway über 92 Personen, deren Namen mit den Buchstaben
5
6
7
Siegfried J. Schmidt: Grundriss der empirischen Literaturwissenschaft. Braunschweig
u.a.: Vieweg 1980.
Rolf Wilhelm Brednich: Die Spinne in der Yucca-Palme. Sagenhafte Geschichten von
heute. München: Beck 2002, S. 102ff.
Norbert Groeben/Margrit Schreier: Die Grenze zwischen (fiktionaler) Konstruktion
und (faktueller) Wirklichkeit: mehr als eine Konstruktion? In: Guido Zurstiege (Hg.):
Festschrift für die Wirklichkeit. Opladen: Westdeutscher Verlag 2000, S. 165-184.
99
FALL beginnen und die sämtlich dem VUE, dem Violent Unknown
Event, ausgesetzt waren) bis hin zum missverständlich-sophistizierten
Spiel mit den Codes und Konventionen des Dokumentarischen reicht
(beispielsweise in Forgotten Silver, einer australischen TV-PseudoDokumentation über die Wiederentdeckung des Outback-Filmemachers
John Silver, die von den Zuschauer(inne)n vielfach als tatsächliche Dokumentarsendung rezipiert wurde).8 Diese Hybridprodukte aus dem AVBereich weisen mehrheitlich bereits das zentrale Charakteristikum der
Pseudo-Dokumentationen auf: Es handelt sich in der Regel um fiktionale Produkte, für die jedoch ein Wirklichkeitsanspruch erhoben wird, wie
er für non-fiktionale Produkte charakteristisch ist.
Während gerade die filmischen Pseudo-Dokumentationen über lange
Zeit weitgehend ein Nischendasein führten, hat in den letzten Jahren eine erhebliche Popularisierung des Genres stattgefunden. Dazu hat zum
einen die Entwicklung von TV-Sendeformaten wie etwa der Doku-Soap,
des Reality-TV, der Reality-Soap und so weiter beigetragen (etwa im Stil
von Big Brother, Inselduell, Die Fahrschule und so weiter). Zum anderen
hat sich hier der – gänzlich unerwartete – Publikumserfolg des pseudodokumentarischen Horrorfilms The Blair Witch Project ausgewirkt: Der
Film erzählt die Geschichte dreier Studierender der Filmwissenschaft, die
im Rahmen eines Studienprojekts einen Dokumentarfilm über die legendäre Hexe von Blair, die Blair Witch, drehen wollen. Im Rahmen der
Dreharbeiten planen sie, unter anderem drei Tage und Nächte in den
Wäldern um das Städtchen Burkittsville, vormals Blair, zu verbringen,
wo die Hexe noch immer ihr Unwesen treiben soll. Von diesem Unternehmen kehrten sie jedoch niemals zurück; ein Jahr später werden allerdings Teile ihres Filmmaterials, ihrer Ausrüstung sowie das Tagebuch
von Heather, einer der Beteiligten, gefunden.9
Mit diesen neueren, populären Formen der Pseudo-Dokumentationen
verlagert sich das Genre zugleich ins Internet. So bildet die gerade geschilderte Inhaltsbeschreibung den Ausgangspunkt der Werbung für The
Blair Witch Project, die fast ausschließlich im World Wide Web stattfand. Dort heißt es: »In October of 1994, three student filmmakers disappeared in the woods near Burkittsville, Maryland, while shooting a
documentary... A year later, their footage was found«; der Film selbst, so
wird es den Zuschauern und Zuschauerinnen suggeriert, stelle einen Zusammenschnitt dieses dokumentarischen Materials der drei Studierenden
8
9
Jane Roscoe/Craig Hight: Faking it. (Fußnote 4).
und (faktueller) Wirklichkeit. (Fußnote 7).
100
Margrit Schreier
dar. Darüber hinaus wird der Film durch eine ausführliche Homepage
ergänzt, die diesen dokumentarischen Charakter noch weiter unterstreicht (siehe ausführlich unten 3.1).10
Im Internet haben sich Pseudo-Dokumentationen in zwei Richtungen
weiterentwickelt. Die erste Richtung ist durch einen Produkttyp charakterisiert, der hier als partizipativ-immersive Internet-Fiktion bezeichnet
werden soll. Der Grundgedanke des Genres besteht darin, die Wirklichkeiten fiktiver und realer Personen zu vermischen, reale Personen durch
ihre Kommunikation mit fiktiven Charakteren an der Fiktion teilhaben,
die Fiktion für die Teilnehmer(innen) somit Wirklichkeit werden zu lassen. Interaktivität wird hier im Sinne von Social Presence als wechselseitiger Bezug von realen und fiktionalen Personen realisiert, wobei es sich
bei der vermeintlich sozialen Interaktion in der Tat um eine zweiseitige
Form der Mensch-Maschine-Kommunikation handelt, die (je nach Produkt) synchron oder asynchron erfolgen kann.11
Eine solche partizipativ-immersive Fiktion stellt beispielsweise die
Online-Soap OnlineCaroline dar.12 Die Homepage von OnlineCaroline
ist aufgebaut wie eine typische private Homepage, komplett mit Bildern
von Carolines Freund David, der sich gerade auf Forschungsreise befindet, und einer Webcam. Caroline ist auf der Suche nach OnlineFreundschaften: Wenn jemand sich auf der Seite anmeldet, schickt sie ihr
oder ihm täglich eine E-Mail; zugleich ›erwartet‹ Caroline von den Nutzer(inne)n aber auch, dass sie im Rahmen von Fragebögen Auskunft
über sich selbst geben: Sind sie männlich oder weiblich, wie alt, und was
halten sie von Treue in der Partnerschaft? Die Antworten werden dazu
verwendet, die E-Mails von Caroline zu personalisieren; jede Nutzerin
und jeder Nutzer erlebt also ihre oder seine persönliche Version der
›Freundschaft‹ mit Caroline. Die Handlung selbst entfaltet sich jedoch
unabhängig von der Person der Rezipient(inn)en: Carolines Freund David entpuppt sich als wahnsinniger Wissenschaftler, der Caroline nach
10
11
12
The Blair Witch Project, <http://www.blairwitch.com> (31.1.2004).
Zu Konzeptionen von Interaktivität in Computerumgebungen vgl.: Sally McMillan: A
four-part model of cyber-interactivity. In: New Media and Society 4 (2002), S. 271-291;
Peter Vorderer: Interactive entertainment and beyond. In: Dolf Zillmann/ders. (Hg.):
Media entertainment. The psychology of its appeal. Mahwah: Erlbaum 2000, S. 21-36;
zum Konzept der Social Presence s.: Gary Bente/Anita Petersen/Nicole Krämer: Virtuelle Realität als Gegenstand und Methode in der Psychologie. In: dies. (Hg.): Virtuelle Realitäten. Göttingen u.a.: Hogrefe 2002, S. 1-32.
XPT Ltd.: Online Caroline, <http://www.onlinecaroline.com> (31.1.2004). Eine vergleichbar konzipierte partizipativ-immersive Online-Soap derselben Firma, Planet
Jemma, wurde vor kurzem ins Netz gestellt: XPT Ltd.: Planet Jemma (2003),
<http://www.planetjemma.com> (31.1.2004).
101
der Rückkehr von seiner Forschungsreise zunehmend von der Außenwelt isoliert und schließlich – mit tödlichem Ausgang? – mit einem Messer über sie herfällt.
Bei der zweiten Variante von Hybridprodukten im Internet handelt es
sich um die Weiterentwicklung der bereits beschriebenen PseudoDokumentationen, wie sie bereits in anderen Medien (insbesondere den
AV-Medien) existieren – um Fiktionen also, für die jedoch (je nach konkretem Produkt mehr oder weniger offen oder verdeckt) ein Wirklichkeitsanspruch erhoben wird. Zugleich ergeben sich mit der Verlagerung
ins Internet jedoch neue Gestaltungsmöglichkeiten und etablieren sich
neue Konventionen (siehe ausführlich unten 3.). Als typische Beispiele
für solche Pseudo-Dokumentationen, die im Internet realisiert sind,
können etwa die eingangs erwähnte Homepage der Citizens for Truth
oder auch die Website zum Film The Blair Witch Project gelten. Solche
Internet-basierten Pseudo-Dokumentationen sollen im Folgenden im
Vordergrund stehen.
2. Die Unterscheidung zwischen Fiction und Non-Fiction
Mit der Charakterisierung von Pseudo-Dokumentationen als Fiktionen,
die mit dem Anspruch eines Non-Fiction-Produkts auftreten, stellt sich
zwangsläufig die Frage, was genau unter ›Fiction‹ zu verstehen ist und
wie sie sich gegenüber dem Bereich der Non-Fiction abgrenzen lässt. In
der literaturwissenschaftlichen Diskussion lassen sich im Wesentlichen
drei Ansätze beziehungsweise Traditionen der Konzeptualisierung von
Fiktion unterscheiden, die hier als darstellungsbezogen-formale, semantische und pragmatische Fiktionalitätstheorien bezeichnet werden.13 Diese
Ansätze werden im Folgenden diskutiert; anschließend wird ein pragmatisch orientiertes Modell zur Konzeptualisierung von Unterschieden und
Übergängen zwischen ›Fiction‹ und ›Non-Fiction‹ dargestellt.
2.1 Fiktionalitätstheoretische Ansätze
Im Rahmen darstellungsbezogener Fiktionalitätstheorien wird versucht,
unter Rückgriff auf formale Textmerkmale zu einer eindeutigen Bestimmung von Fiktionalität zu gelangen. Dieser Tradition ist beispielsweise
13
Im Überblick: Irmgard Nickel-Bacon/Norbert Groeben/Margrit Schreier: Fiktionssignale pragmatisch. Ein medienübergreifendes Modell zur Unterscheidung von Fiktion(en) und Realität(en). In: Poetica 32 (2000), S. 267-299.
102
Margrit Schreier
die Postulierung der Differenz zwischen schreibender und erzählender
Person (sensu Käte Hamburger) als Merkmal fiktionaler Texte zuzuordnen, wie sie sich unter anderem im epischen Präteritum oder in Verben
der inneren Vorgänge und in Verben manifestiert,14 ebenso narratologische Ansätze, die die Differenz zwischen Autor(in) und Erzählinstanz als
»signposts of fictionality« in den Mittelpunkt stellen.15 Allerdings ist eine
Bestimmung der Erzählerrolle meist nur mittels Vergleich zwischen Informationen zur Erzähler(innen)figur einerseits und zum Autor beziehungsweise der Autorin andererseits möglich – wobei letztere eben nicht
mehr als textintern konzipiert werden können, sondern Aspekte des
Produktionskontextes und mithin die pragmatische Ebene tangieren. Die
Erzähler(innen)rolle ist somit rein textintern letztlich nicht bestimmbar.
Auch erweisen sich Merkmale von Literarizität oder Poetizität, wie sie im
Rahmen formaler Ansätze zur Charakterisierung von Fiktionalität herangezogen werden,16 nicht als eindeutiges Merkmal fiktionaler Texte:
Aspekte von Literarizität finden durchaus auch in anderen als fiktionalen
Texten Verwendung, und fiktionale Texte insbesondere der zweiten
Hälfte des zwanzigsten Jahrhunderts sind nicht selten der Alltagssprache
angenähert. Entsprechend hat sich zunehmend die Auffassung eines
Kontinuums zwischen literarischer und non-literarischer Sprache durchgesetzt.17
Im Rahmen semantischer Fiktionalitätstheorien wird – komplementär
zum darstellungsbezogen-formalen Ansatz – versucht, unter Rückgriff
auf inhaltliche Texteigenschaften zu einer eindeutigen Bestimmung von
Fiktionalität zu gelangen. Fiktionale Texte werden, etwa mit Gottfried
Gabriel, aufgefasst als eine Form des Als-Ob-Sprechens unter Suspen-
14
15
16
17
Käte Hamburger: Die Logik der Dichtung. Stuttgart: Klett Cotta 1977³, S. 59-78.
Zum Beispiel: Dorritt Cohn: Signposts of fictionality: A narratological perspective. In:
Poetics Today 11 (1990), S. 775-804; Karlheinz Stierle: Was heißt Rezeption bei fiktionalen Texten? In: Poetica 7 (1975), S. 345-387.
Zum Beispiel: Jürgen H. Petersen: Fiktionalität als Redestatus. Ein Beitrag zur literaturwissenschaftlichen Grundlagenforschung. In: Sprachkunst 26 (1995), S. 139-163;
Heinz Schlaffer: Poesie und Wissen. Die Entstehung des ästhetischen Bewusstseins
und der philologischen Erkenntnis. Frankfurt a. M.: Suhrkamp 1990, hier S. 144.
Vgl. z.B. Andereggs Bezeichnung einer poetischen bzw. einer instrumentellen Sprachverwendung als »Welt der Übergänge«: Johannes Anderegg: Das Fiktionale und das
Ästhetische. In: Dieter Henrich/Wolfgang Iser (Hg.): Funktionen des Fiktiven. München: Fink 1983, S. 153-172, hier S. 172. Ebenso formuliert Searle die These der Kontinuität zwischen dem Literarischen und dem Non-Literarischen: John R. Searle: The
logical status of fictional discourse. In: New Literary History 6 (1975), S. 319-332, hier
S. 319f.
103
dierung der Referentialisierungsregel.18 Fiktionale Texte enthalten ›leere
Extensionen‹ beziehungsweise ›nicht-erfüllte Prädikatoren‹, beziehen sich
dieser Auffassung zu Folge also nicht auf Personen oder Gegenstände in
der realen Welt.19 Auch fiktive Elemente in diesem Sinne erweisen sich
jedoch weder als hinreichend noch als notwenig zur Charakterisierung
von Fiktionalität. Denn zum einen bauen fiktionale Texte durchaus auf
der realen Welt auf, enthalten mehr oder weniger realitätsadäquate oder
auch referentialisierbare Elemente (das Venedig der Donna Leon beispielsweise existiert durchaus). Zum anderen können auch non-fiktionale
Texte (wie beispielsweise Mathematikaufgaben) durchaus fiktive Elemente beinhalten.20 Auch im Rahmen einer semantischen Betrachtungsweise
löst sich somit die Dichotomie zwischen Fiktion und Nicht-Fiktion tendenziell auf.
Pragmatische Fiktionalitätstheorien sind schließlich dadurch gekennzeichnet, dass hier nicht mehr versucht wird, Fiktionalität ausschließlich
textintern zu modellieren. Statt dessen wird Fiktionalität als eine pragmatische Kategorie aufgefasst.21 Texte sind demnach nicht fiktional, sondern Texte werden gegebenenfalls fiktional verwendet beziehungsweise,
unter Verwendung autor(innen)seitiger Fiktionalisierungsoperationen, als
fiktional (oder als faktisch) gesetzt.22 Eine solche Setzung erfolgt in erster
Linie mittels paratextueller Informationen (also etwa durch Genrebenennung, Klappentext, Waschzettel und so weiter), wobei die paratextuelle Charakterisierung eines Textes als vergleichsweise eindeutigster
18
19
20
21
22
Gottfried Gabriel: Fiktion und Wahrheit. Eine semantische Theorie der Literatur.
Stuttgart: Frommann Holzboog 1975.
Ebd.; vgl. auch: Donatus Thürnau: Gedichtete Versionen der Welt. Nelson Goodmans
Semantik fiktionaler Literatur. Paderborn u.a.: Schöningh 1994, hier S. 50f., 70ff.
Achim Barsch: Fiktion/Fiktionalität. In: Ansgar Nünning (Hg.): Metzler Lexikon Literatur- und Kulturtheorie. Ansätze – Personen – Grundbegriffe. Stuttgart: Metzler
1998, S. 149f.
Pragmatische Ansätze werden z.B. vertreten von: Umberto Eco: Im Wald der Fiktionen. Sechs Streifzüge durch die Literatur (Norton-Lectures 1992-1993). München,
Wien: Hanser 1994; Wiklef Hoops: Fiktionalität als pragmatische Kategorie. In: Poetica 11 (1979), S. 281-317; Jürgen Landwehr: Text und Fiktion. Zu einigen literaturwissenschaftlichen und kommunikationstheoretischen Grundbegriffen. München: Fink
1975; Siegfried J. Schmidt: Ist Fiktionalität eine linguistische oder eine texttheoretische
Kategorie? In: Elisabeth Gülich/Wolfgang Raible (Hg.): Textsorten: Differenzierungskriterien aus linguistischer Sicht. Frankfurt a. M.: Athenäum 1972, S. 59-80.
Zur autor(inn)enseitigen Setzung von Texten als fiktional vgl. Wolfgang Iser: Das Fiktive und das Imaginäre. Perspektiven literarischer Anthropologie. Frankfurt a. M.:
Suhrkamp 1993; siehe auch Gebhard Rusch: Fiktionalisierung als Element von Medienhandlungsstrategien. In: Studia Poetica 10 (1997), S. 123-138.
104
Margrit Schreier
Hinweis auf die Werkkategorie angesetzt wird.23 Darüber hinaus rekurrieren autor(innen)seitige Fiktionalisierungs- (oder Faktualisierungs-) Operationen allerdings durchaus auch auf ›Orientierungssignale‹, wie sie im
Rahmen darstellungsbezogen-formaler sowie semantischer Ansätze postuliert werden. Zumindest aus pragmatischer Sicht schließen sich die
drei Ansätze zur Charakterisierung von Fiktionalität somit keineswegs
aus. Allerdings entfalten darstellungsbezogene und semantische Fiktionalitätssignale nach der pragmatischen Auffassung ihre Wirkung immer erst
innerhalb eines Rahmens, wie er autor(innen)seitig durch den Paratext
gesetzt wird; für sich genommen sind die Signale dagegen für eine Bestimmung von Fiktionalität meist nicht hinreichend (weder im Allgemeinen noch bezogen auf einen konkreten Text).24
Wenn dem pragmatischen Ansatz zu Folge Fiktionalität auch nicht
mehr als Texteigenschaft konzipiert wird, so ist dies doch keineswegs
gleich bedeutend damit, dass Werkkategorien und der Umgang mit ihnen
beliebig wären. Vielmehr wird in pragmatischen Ansätzen davon ausgegangen, dass der Umgang mit den verschiedenen Werkkategorien beziehungsweise Texttypen konventional geregelt ist. So differenziert Siegfried Schmidt zwischen den Kommunikationssystemen alltäglicher und
ästhetischer Handlungen. Während Kommunikation im alltäglichen
Handlungssystem durch die Tatsachen- und die Monovalenzkonvention
geregelt ist, sind diese Konventionen innerhalb des ästhetischliterarischen Handlungssystems gerade suspendiert: Äußerungen werden
hier nicht im Hinblick auf ihre Wahrheit und Nützlichkeit beurteilt, wie
dies der Tatsachenkonvention entsprechen würde, sondern (in Übereinstimmung mit der Ästhetikkonvention: siehe oben 1.) nach Kriterien wie
beispielsweise Neuheit, Gefallen und so weiter. Texte werden im Rahmen dieses Ansatzes aufgefasst als »eine Menge von Instruktionen an
Kommunikationspartner«.25
Komplementär fokussiert Umberto Eco die Rezeptionsseite der Konvention, wenn er von einem »Fiktionsvertrag« zwischen Autor(in) und
Leser(in) ausgeht, dem zu Folge sich Leser(innen) bei der Rezeption eines Textes als fiktional darüber im Klaren sind, dass mit dem Text kein
unmittelbarer Wirklichkeitsanspruch erhoben, der Text nicht als referen-
23
24
25
Umberto Eco: Im Wald der Fiktionen, S. 166. (Fußnote 21); Gérard Genette: Paratexte. Frankfurt a. M./New York: Campus 1992.
Vgl. ausführlich: Irmgard Nickel-Bacon/Norbert Groeben/Margrit Schreier: Fiktionssignale pragmatisch. (Fußnote 13).
Siegfried J. Schmidt: Grundriss. (Fußnote 5); Ders.: Ist Fiktionalität eine linguistische
oder eine texttheoretische Kategorie, S. 63. (Fußnote 21).
105
tialisierbare Aussage über die reale Welt zu rezipieren ist.26 Eine solche
übereinstimmende Setzung eines Textes als fiktional sowohl durch
den/die Autor(in) als auch durch die Leser(innen) wird von Jürgen
Landwehr auch als »ko-intentionale« Form der Rezeption bezeichnet.27
Damit wird zugleich auch noch einmal deutlich, dass die Konzeptualisierung von Fiktionalität als pragmatischer Kategorie nicht zuletzt rezeptionsseitig erhebliche Freiräume eröffnet: Ein(e) Rezipient(in) kann beispielsweise einen autor(innen)seitig als faktisch gesetzten Text (zum Beispiel einen Reisebericht) in ko-intentionaler Weise als Aussage über die
Wirklichkeit rezipieren – muss einen solchen Wirklichkeitsbezug jedoch
keineswegs notwendig herstellen, sondern kann den Text beispielsweise
auch unabhängig von jedem Wirklichkeitsbezug unter ästhetischen Gesichtspunkten als ›gute Geschichte‹ goutieren.
2.2 Ein Drei-Perspektiven-Modell von Realitäts-FiktionsUnterscheidungen
Unter Rückgriff insbesondere auf die pragmatischen Ansätze haben Irmgard Nickel-Bacon, Norbert Groeben und Margr_it Schreier ein DreiPerspektiven-Modell von Realitäts-Fiktions-Unterscheidungen entwikkelt, das es ermöglichen soll, die traditionelle Dichotomie von ›Fiction‹
und ›Non-Fiction‹ zu Gunsten einer Rekonstruktion unterschiedlicher
Aspekte des Realitäts- beziehungsweise Fiktionalitätsstatus von Medienprodukten zu überwinden.28 Innerhalb des Modells werden die drei
Theorieansätze als drei Perspektiven rekonstruiert, die bei der Beurteilung des Realitätsstatus eines Medienprodukts zum Tragen kommen
können. Dies ist erstens die pragmatische Perspektive der Werkkategorie,
wobei die Autor(inn)en neben den traditionellen Werkkategorien Fiction
und Non-Fiction als dritte Kategorie das Hybridprodukt einführen, das
sich keinem der beiden Pole eindeutig zuordnen lässt. Zweitens wird eine
semantisch-inhaltliche Perspektive angesetzt; unter diesem Gesichtspunkt enthalten Medienprodukte mehr oder weniger reale und irreale,
plausible und unplausible und entsprechend mehr oder weniger wirklichkeitsnahe beziehungsweise -ferne Inhaltskomponenten. Die Beurteilung
der Wirklichkeitsnähe oder -ferne des Inhalts von Medienprodukten wird
26
27
28
Umberto Eco: Im Wald der Fiktionen, S. 103. (Fußnote 21).
Jürgen Landwehr: Fiktion oder Nichtfiktion. Zum zweifelhaften Ort der Literatur zwischen Lüge, Schein und Wahrheit. In: Helmut Brackert/Jörn Stückrath (Hg.): Literaturwissenschaft. Ein Grundkurs. Reinbek: Rowohlt, S. 491-504.
Irmgard Nickel-Bacon/Norbert Groeben/Margrit Schreier: Fiktionssignale pragmatisch. (Fußnote 13).
106
Margrit Schreier
dabei stets als subjektives Urteil vor dem Hintergrund des je individuellen Weltwissens von Autor(inn)en auf der einen und Rezipient(inn)en
auf der anderen Seite konzipiert. Als dritte Perspektive setzen NickelBacon et alii unter Rückbezug auf darstellungsbezogen-formale Ansätze
den Produkt- beziehungsweise den Rezeptionsmodus an. Auf der Produktseite ist damit beispielsweise die Frage thematisch, welche Sinneskanäle durch das Medium angesprochen werden, in dem das Produkt realisiert ist; auch die Gestaltung des Medienprodukts, die Verwendung stilistischer Mittel, sprachlicher Register und so weiter sind dieser Perspektive zuzuordnen. Auf der Rezeptionsseite dagegen steht unter der Modusperspektive die Real-Life-Nähe beziehungsweise -Ferne des Rezeptionserlebens im Mittelpunkt, etwa im Sinne der Involviertheit, des Spannungserlebens, des Rezeptionsgenusses.
Von den Ansätzen literaturwissenschaftlicher Provenienz unterscheidet sich das Drei-Perspektiven-Modell zunächst darin, dass sein Geltungsbereich nicht auf den textuellen Bereich beschränkt ist; auch eine
Fokussierung auf die Werkkategorie der Fiction-Produkte findet nicht
statt. Vielmehr wird davon ausgegangen, dass das Modell auf Produkte in
unterschiedlichen Medien gleichermaßen anwendbar ist, wobei Medialitätsunterschiede sich in erster Linie unter Rückgriff auf den Produktmodus rekonstruieren lassen. Weiterhin machen die Autor(inn)en die in den
literaturwissenschaftlichen Ansätzen meist nur implizit enthaltene Annahme explizit, dass die Zugehörigkeit eines Medienprodukts zu den
Werkkategorien Fiction und Non-Fiction gleichermaßen der Signalisierung (beziehungsweise der Aufnahme dieser Signale im Rahmen einer
ko-intentionalen Rezeption) bedarf. Nickel-Bacon et alii gehen also davon aus, dass Medienprodukte unter der pragmatischen, der semantischinhaltlichen und der Modus-Perspektive gleichermaßen Signale aufweisen, die rezeptionsseitig in die Beurteilung des Realitätsstatus des Produkts eingehen können. Allerdings – und dies stellt eine weitere zentrale
Annahme innerhalb des Modells dar – werden die drei Perspektiven als
weitgehend voneinander unabhängig konzipiert. Die Signale unter den
verschiedenen Perspektiven können zwar gleichsinnig ausfallen, müssen
dies jedoch nicht. Es ist zu vermuten, dass verschiedene Genres durch je
spezifische Ausprägungsmuster von Faktizitäts- und Fiktionalitätssignalen unter den drei Perspektiven gekennzeichnet sind. So finden sich beispielsweise im Märchen klare paratextuelle Fiktionalitätssignale (›Es war
einmal ...‹) in Kombination mit wirklichkeitsfernen Elementen auf der
semantisch-inhaltlichen Ebene (zum Beispiel irreale Entitäten wie Hexen, Zwerge und so weiter) und einem ritualisiert-formelhaften Darstellungsmodus (zum Beispiel Verwendung von Darstellungselementen wie
107
›drei Wünsche‹). In einem kontemporären Krimi sind dagegen paratextuelle Fiktionalitätssignale (Genreangabe, juristische Entlastungsformel)
gemeinsam mit durchaus wirklichkeitsnahen inhaltlich-semantischen
Elementen und, unter der Modusperspektive, mit einer Darstellungsform
kombiniert, die zumindest von der Intention her auf ein Real-Life-nahes
Rezeptionserleben im Sinne von Spannung ausgerichtet ist. Wissenschaftssendungen wiederum sind paratexuell eindeutig als Non-Fiction
gekennzeichnet, können aber durchaus wirklichkeitsferne inhaltliche
Elemente enthalten (wie etwa Quarks oder Schwarze Löcher) und gegebenenfalls auch durchaus ›trocken‹ (im Sinne von Real-Life-fern) gestaltet sein. In allen diesen Fällen ist eine ko-intentionale Rezeption der Produkte jedoch vor dem Hintergrund des jeweiligen Paratextes durchaus
möglich: Wenn der Krimi noch so involvierend und wirklichkeitsnah ist,
so ist er durch den Paratext doch eindeutig als Fiktion ausgewiesen; und
die Wissenschaftssendung mag zwar Unglaubliches berichten, erhebt
aber qua Paratext einen klaren Wirklichkeitsanspruch. Diese Rekonstruktion je unterschiedlicher Ausrichtungen von Fiktionalitäts- und Faktualitätshinweisen unter den drei Perspektiven verdeutlicht zugleich, dass innerhalb des Modells davon ausgegangen wird, dass zwischen Fictionund Non-Fiction-Produkten fließende Übergänge bestehen.
3. Die Rekonstruktion von Pseudo-Dokumentationen im Rahmen des
Drei-Perspektiven-Modells
Im Folgenden soll der Hybridstatus der Pseudo-Dokumentationen Blair
Witch Project und Citizens for Truth unter Rückgriff auf das DreiPerspektiven-Modell rekonstruiert werden. Auf dieser Grundlage (wie
auch im Vergleich mit anderen Internet-basierten PseudoDokumentationen) lassen sich ansatzweise erste Merkmale des Genres
der Pseudo-Dokumentation identifizieren.
3.1 Zur Rekonstruktion ausgewählter Pseudo-Dokumentationen
Wendet man das Drei-Perspektiven-Modell auf The Blair Witch Project
an, so zeigt sich zunächst, dass eben diese klare paratextuelle Verankerung des Produkts fehlt.29 Weder im Kino noch im Internet findet sich
ein Hinweis der Art »Die folgenden Personen und Ereignisse sind frei
29
und (faktueller) Wirklichkeit. (Fußnote 7).
108
Margrit Schreier
erfunden« oder »The Blair Witch Project – ein Spielfilm«. Der einzige
unmittelbar ersichtliche Hinweis auf die Werkkategorie des Produkts ist
vielmehr Teil des Plot: Die drei Studierenden sind aufgebrochen, um eine Dokumentation zu drehen; wenn der Film einen Zusammenschnitt
des gefundenen Materials darstellt, so legt dies – fälschlicherweise – nahe, dass es sich bei dem Film ebenfalls um eine Dokumentation handelt.
Dieser Eindruck wird zusätzlich noch dadurch verstärkt, dass im USamerikanischen Fernsehen kurz vor dem Kinostart des Films die angebliche Dokumentationssendung The Curse of the Blair Witch ausgestrahlt
wurde, die weiteres Hintergrundmaterial zu dem Verschwinden der drei
Studierenden enthalten sollte – eine Pseudo-Dokumentation zur PseudoDokumentation also. Erst die letzten Zeilen des Nachspanns zum Film
enthalten einen indirekten, ironisierenden Indikator dafür, dass dieser
Hinweis auf den dokumentarischen Charakter des Films so wörtlich
doch nicht zu nehmen ist, wenn es heißt: »Die Fahndung wird unterstützt von DIESEL/ARTHAUS Filmverleih«.
Auch unter der Modusperspektive dominieren die Hinweise darauf,
dass es sich bei The Blair Witch Project um eine Dokumentation handelt. So findet sich auf der Internet-Seite all das, was man von einer solchen Seite erwarten würde, wenn tatsächlich drei Menschen verschwunden wären: die Fotos der Vermissten, die Interviews mit Freunden und
Verwandten, die Fahndungsmeldungen in den Nachrichten. Die Fahndungsmeldungen sind kurz und im Nachrichtenstil abgefasst, die Verwandten und Freunde sind angemessen betroffen, und bei dem gefundenen Material selbst handelt es sich ganz offensichtlich um verwackelte,
grobkörnige Amateuraufnahmen auf 16mm-Film sowie auf Video. Dieser hohe Eindruck von Authentizität wird weiter durch die schiere Materialfülle verstärkt, wie sie insbesondere auf der Homepage zum Film realisiert ist.
Unter der semantischen Perspektive überwiegen dagegen die Hinweise
auf die Fiktionalität von The Blair Witch Project. Im Zentrum des Films
und der Webseite steht die Hexe mit ihren Untaten seit dem 18. Jahrhundert – nach unserem allgemeinen Wirklichkeitsverständnis existieren
jedoch weder Hexen, noch sind Menschen mehr als 200 Jahre nach ihrem Tod in der Lage, Unheil in der Welt anzurichten. Weiterhin werden
die vermeintlichen Opfer der Hexe (wie im Übrigen auch das Filmmaterial der Studierenden selbst) stets an Orten gefunden, an denen sie sich
nach menschlichem Ermessen nicht befinden können. Schließlich lässt
sich auch das Setting des Films – der nächtliche Wald mit seinen für den
Stadtmenschen erschreckenden Geräuschen – als Hinweis auf das Horrorgenre und somit als Fiktionalitätsindikator rekonstruieren.
109
Der pseudo-dokumentarische Charakter von The Blair Witch Project
wird also dadurch erzeugt, dass einerseits ein dokumentarischer Status
suggeriert wird, während andererseits direkte paratextuelle Hinweise auf
den fiktionalen Werkcharakter des Produkts fehlen. Zugleich stehen die
Indikatoren unter der semantischen und der Modusperspektive in Widerspruch zueinander: Während mittels der Darstellungsweise ein Eindruck hoher Authentizität erzeugt wird, sprechen die Inhalte dafür, dass
es sich um ein fiktionales Produkt handelt.
Noch stärker ist der dokumentarische Eindruck, der durch die Internet-Seiten der Citizens for Truth erzeugt wird. Unter der pragmatischen
Perspektive fehlt jeglicher direkte Hinweis, dass es sich um eine fiktive
Organisation handelt. In der Tat enthält die Seite nur einen expliziten paratextuellen Indikator, der – wie bereits im Fall von The Blair Witch Project – in die Handlung quasi eingebaut ist: die Erstellung eines Dokumentarfilms über die Aufdeckung der wahren Geschehnisse mit dem Titel Nothing so strange. Folgt man dem Link auf die Internetseite zum
Film, wird auch hier die Fiktion einer Dokumentation durchgängig aufrecht erhalten. Mit einer, ausgesprochen indirekten, Ausnahme: Die
Filmgesellschaft ist identisch mit der Gesellschaft, die bereits The Blair
Witch Project produziert hat. Unter der pragmatischen Perspektive können also nur solche Rezipient(inn)en den geplanten Film – und damit
vermutlich auch den Netzauftritt der Citizens for Truth – als Fiktion erkennen, die mit dem Genre der Pseudo-Dokumentation bereits vertraut
sind.
Unter der Modusperspektive ist die Internet-Seite der Citizens for
Truth eindeutig im Stil einer ›echten‹ Bürgerbewegung gestaltet: Die Seite
beinhaltet Angaben zu der Organisation selbst und ihren Zielen; die Mitglieder der Exekutive werden vorgestellt; es findet sich dort das Programm der Jahreskonferenz 2000; es kann ein Newsletter abonniert, es
können T-Shirts, Spray-Schablonen mit dem Logo der Organisation bestellt werden. Auch die Angaben zur Kontroverse über den Tathergang
sind zahlreich: Der Tathergang wird im typischen Presse-Stil rekonstruiert; Ungereimtheiten werden aufgezeigt; es finden sich Protokolle der
Interviews mit den Zeug(inn)en und sogar eine Kopie des angeblichen
Polizeiberichts. Außerdem werden die Mitglieder der Organisation zu eigenen Aktionen aufgefordert, die auf weiteren Internet-Seiten dokumentiert sind.30 In diesem Zusammenhang stellen die Betreiber der Seite
auch zusätzliche, vor allem juristische Informationen zu so genannten
30
Citizens for Truth, <http://www.citizensfortruth.org/gallery/> (31.1.2004).
110
Margrit Schreier
Grassroots-Aktivitäten vor – und bei den Internet-Seiten, auf die dabei
mittels Links verwiesen wird, handelt es sich um durchaus reale InternetSeiten von ebenso realen Organisationen, wie beispielsweise der Schrittfür-Schritt-Anleitung der American Civil Liberties Union zum Thema:
Using the Freedom of Information Act.31 Nicht nur entspricht der Internet-Auftritt der Citizens for Truth somit den Konventionen für die
Selbstdarstellung einer solchen Bürgerbewegung, sondern die fiktiven
Seiten sind darüber hinaus mit realen Seiten verbunden.
Wiederum finden sich die eindeutigsten Hinweise darauf, dass es sich
bei den Citizens for Truth um eine fiktive Organisation, bei der Ermordung von Bill Gates um eine Fiktion handelt, unter der semantischen
Perspektive. Soweit wir wissen, ist Bill Gates durchaus lebendig, und
aufgeregte Berichte über seine Ermordung sind nie durch die Presse gegangen – der Kern der Handlung steht also erstens in eindeutigem Widerspruch zu unserem Weltwissen. Als zweiter Fiktionalitätsindikator
lässt sich die Parallelität zwischen der angeblichen Ermordung von Bill
Gates und der Ermordung John F. Kennedys rekonstruieren. Diese Parallelität ist nicht nur im Tathergang angelegt, sondern setzt sich auch in
den Aufbau des Internet-Auftritts hinein fort; so findet sich etwa im Zusammenhang mit der angeblichen Ermordung von Bill Gates eine Seite
mit der Frage an Rezipient(inn)en zu dem Thema: Wo waren Sie, als Bill
Gates ermordet wurde? Von diesen beiden Aspekten abgesehen sind die
Inhalte der Internet-Seiten jedoch durchaus realistisch und plausibel: die
Ermordung einer Person des öffentlichen Lebens, Unstimmigkeiten bezüglich des Tathergangs, Bürgerbewegungen, die versuchen, Licht in das
Dunkel etwaiger behördlicher Vertuschungsversuche zu bringen – all
dies ist durchaus denkbar. Ein zusätzliches Detail verdient es, erwähnt zu
werden: Der angebliche Polizeibericht ist nach dem ermittelnden Staatsanwalt als Garcetti-Report benannt – und »Garcetti« heißt auch der in
Los Angeles tatsächlich amtierende Staatsanwalt, der dieser Verwendung
seines Namens im Rahmen der Internet-Fiktion zugestimmt haben soll.
3.2 Die Merkmale des Genres der Pseudo-Dokumentation
Inzwischen finden sich bereits mehrere Varianten dieses neuen Genres
im Internet. Nicht immer ist dabei das Spiel mit den Fiktionalitätsindikatoren unter der pragmatischen Perspektive so subtil und indirekt wie in
31
ACLU Freedom Network: Using the Freedom of Information Act, <http://archive.
aclu.org/library/foia.html> (31.1.2004).
111
den beiden Fällen, wie sie hier dargestellt wurden. Den Seiten For the
Love of Julie etwa – dem fiktionalen Tagebuch eines Psychopathen – ist
der Hinweis vorangestellt, dass es sich um Fiktion handelt;32 auch die
Produktion Ally Farson, bei der die Rezipient(inn)en aufgefordert werden, sich an der Suche nach der Serienmörderin dieses Namens zu beteiligen, enthält einen Hinweis darauf, dass Ally Farson Fiktion ist; dieser
ist allerdings im Rahmen der Frequently Asked Questions versteckt und
somit keineswegs augenfällig.33 Als ein erstes Merkmal des Genres der
Pseudo-Dokumentation lässt sich somit festhalten, dass eine klare und
gut sichtbare Rahmung des Produkts als Fiction meist fehlt. Auf den ersten Blick findet sich statt dessen – als Teil des fiktionalen Plot – eine
paratextuelle Charakterisierung des Produkts als Non-Fiction (etwa als
Dokumentation, als Tagebuch, als Fahndungsaufruf und anderes mehr);
die Rahmung als Fiction erfolgt dagegen lediglich indirekt und ist zumindest zum Teil auch nur für solche Personen verständlich, die bereits
ein gewisses Genrewissen aufgebaut haben.
Unabhängig von solchen mehr oder weniger direkten paratextuellen
Hinweisen seitens der Produzent(inn)en der Seiten zeichnen sich jedoch
unter der inhaltlich-semantischen Perspektive bereits erste GenreKonventionen ab, die ihrerseits ebenfalls als Fiktionalitätsindikatoren
wirksam werden können: So sind die Inhalte von Pseudo-Dokumentationen häufig an den Krimi oder an Detektiv-Spiele angelehnt: In The
Blair Witch Project sind drei Personen verschwunden; in Citizens for
Truth geht es um die Aufklärung eines Verbrechens sowie die Unzulänglichkeiten der damit befassten polizeilichen Ermittlungen; auf Cassandra's Site bittet eine fiktive Cassandra die Rezipient(inn)en um Unterstützung bei der Suche nach ihrem Freund Paul, der sich in einen gefährlichen Adepten der schwarzen Magie verwandelt hat und so weiter.34 Zu
einer zweiten Konvention könnte sich der Verweis auf einen angeblichen
Dokumentarfilm entwickeln, der über die Aufklärung der geschilderten
Ereignisse gedreht werden soll oder bereits gedreht wurde. Dieses Motiv
findet sich beispielsweise bei Blair Witch Project, Citizens for Truth sowie bei Ally Farson.
32
33
34
For the Love of Julie: Bis Ende März war die Seite zugänglich unter: <http://www.
creepysites.com/gron/julie> (28.3.2003), wurde dann jedoch aus dem Netz genommen. In der Zwischenzeit ist unter <http://www.fortheloveofjulie.com> (31.1.2004)
eine Nachfolgeseite entstanden, die die bisherigen Geschehnisse weiterführt, derzeit
jedoch lediglich aus zwei Tagebucheinträgen besteht
Ally Farson, <http://www.allyfarson.com> (31.1.2004).
Cassandra’s Site, <http://www.creepysites.com/gron/cassandra> (31.1.2004).
112
Margrit Schreier
Die erste dieser Konventionen, das heißt die Anlehnung an den Kriminalroman oder -film, hat zudem den Vorteil, dass sie nahtlos die Einbindung der Rezipient(inn)en selbst in die Fiktion ermöglicht: Wenn diese sich mit E-Mails an der Suche nach Ally Farson, Cassandras Freund
Paul oder dem Vater von Peter (My Son Peter) beteiligen,35 werden sie
selbst zu einem Teil der Fiktion. Diese rudimentäre Form von Interaktivität stellt ein weiteres Charakteristikum einer Subgruppe der PseudoDokumentationen dar, hier unter der Modusperspektive. Auch über dieses Merkmal hinaus ist die Ausgestaltung der entsprechenden InternetSeiten unter der Modusperspektive bestimmend für das Genre der Pseudo-Dokumentation: Es ist die – insbesondere in den hier vorgestellten
Beispielen – geradezu perfekte stilistische Imitation von ›echten‹ Internet-Seiten, Fahndungsberichten, Nachrichtensendungen, die Einbindung
einer Fülle scheinbar authentischer Details wie etwa Fotomaterial, Tonbandaufnahmen, Tagebuchaufzeichnungen, die Vernetzung der fiktiven
mit realen Internet-Seiten, die den Eindruck der Dokumentation erzeugen – der erst durch den Widerspruch zu unserem Weltwissen oder
durch mehr oder weniger direkte Hinweise auf den fiktionalen Charakter
der Seiten als ›pseudo-dokumentarisch‹ entlarvt wird.
4. Zur Rezeption von Pseudo-Dokumentationen
Wie aber reagieren Rezipient(inn)en auf die Entwicklung solcher Hybridprodukte? Sind sie sich beispielsweise darüber im Klaren, dass es
sich bei dem Film und den Netzseiten zu The Blair Witch Project oder
bei der Suche nach Cassandras Freund Paul um Fiktion handelt – oder
hat das Spiel mit Realitäts- und Fiktionsindikatoren im Internet sowie die
extrem realistische Machart des Films die Rezipient(inn)en verwirrt, vielleicht sogar dazu geführt, dass der Film in der Tat als Dokumentation
wahrgenommen wird?
Um möglichst spontane Rezeptionen des Films zu erfassen, wurde als
Untersuchungsmaterial auf E-Mails aus solchen Newsgruppen, das heißt
aus Diskussionsgruppen im Internet, zurückgegriffen, in denen der Film
thematisch war; es handelte sich hier also jeweils um spontane Reaktionen von Rezipient(inn)en. In die Untersuchung wurde eine Zufallsstichprobe von 1.157 sowohl englisch- als auch deutschsprachigen E-Mails
aus der Zeit vom Juni 1999, also kurz vor dem Anlaufen des Films in
den USA, bis April 2001 einbezogen (aus einer Gesamtanzahl von über
35
My Son Peter, <http://www.mysonpeter.com> (31.1.2004).
113
27.000 E-Mails, die bei Eingabe des Suchbegriffs »Blair Witch Project« in
Google angezeigt wurden).
Die Auswertung erfolgte mittels Inhaltsanalyse – einem Verfahren zur
systematischen, intersubjektiven Erfassung von Textbedeutungen.36 Dabei werden die relevanten Bedeutungsaspekte mittels eines so genannten
Kategoriensystems in Form von Kategorien spezifiziert und expliziert.
Im nächsten Schritt ordnen mindestens zwei Personen (die Kodierer(innen)) die zu analysierenden Texte oder Textteile (hier: E-Mails) diesen Kategorien zu. Je mehr die Kodierer(innen) in ihrer Wahrnehmung
der Textbedeutungen übereinstimmen, desto eher ist davon auszugehen,
dass es gelungen ist, die tatsächlichen Bedeutungen zu erfassen.
Im Rahmen der vorliegenden Untersuchung wurden zwei Kategoriensysteme entwickelt. Mit dem ersten Kategoriensystem wurde ermittelt,
ob in den E-Mails überhaupt Gesichtspunkte von Realität und Fiktion
angesprochen wurden; solche E-Mails, in denen das der Fall war, wurden
als relevant, die verbleibenden als irrelevant klassifiziert. Von den 1.157
E-Mails in der Stichprobe erwiesen sich 319 in diesem Sinne als relevant
(davon 109 deutsch- und 210 englischsprachige), das heißt 27.3 Prozent.37 In den irrelevanten E-Mails wurden Gesichtspunkte wie beispielsweise das Gefallen des Films im Allgemeinen, die Qualität der Video- oder der DVD-Fassung und anderes mehr angesprochen. Berücksichtigt man zusätzlich den Zeitpunkt, zu dem die E-Mails verfasst wurden, so wird deutlich, dass der Prozentsatz relevanter E-Mails etwa sechs
Monate nach dem Kinostart des Films abrupt zurückgeht. In den ersten
sechs Monaten nach dem Start sind Gesichtspunkte von Realität und
Fiktion in 38.6% der E-Mails thematisch, in den folgenden Monaten nur
noch in durchschnittlich 6.7%. In den ersten sechs Monaten machen
Gesichtspunkte von ›Realität‹ und ›Fiktion‹ somit einen erheblichen Anteil der Newsgruppen-Kommunikation über The Blair Witch Project
aus.
Eine Inhaltsanalyse mittels des zweiten Kategoriensystems wurde nur
für die 319 relevanten E-Mails durchgeführt. Dabei stand die Frage im
Mittelpunkt, welche Aspekte von Realität und Fiktion genau thematisch
waren und wie der Realitätsstatus des Films im Einzelnen bewertet wurde. Die Erstellung des Kategoriensystems erfolgte deduktiv-induktiv: Die
36
37
Zur Inhaltsanalyse vgl. z.B. Ruth Rustemeyer: Praktisch-methodische Schritte der Inhaltsanalyse. Eine Einführung. Münster: Aschendorff 1992.
Die Übereinstimmung zwischen den Kodierer(inne)n betrug 0.72, was nach J. R. Landis/Gary G. Koch als »sufficient« zu bewerten ist; vgl. J. R. Landis/Gary G. Koch:
The measurement of observer agreement for categorical data. In: Biometrics 33 (1977),
S. 159-174, hier S. 165.
114
Margrit Schreier
Entwicklung der Oberkategorien wurde deduktiv unter Rückgriff auf das
oben dargestellte Modell von Realitäts-Fiktions-Unterscheidungen mit
den drei Perspektiven – pragmatisch, semantisch, modusbezogen – vorgenommen; diese Oberkategorien wurden im Rahmen von Probekodierungen anhand einer zusätzlichen Stichprobe von E-Mails induktiv weiter konkretisiert. Als zusätzliche induktive Oberkategorien wurden nach
einer Sichtung dieses Materials die Kategorien »Scherzhafter Umgang mit
Realität und Fiktion« sowie »Sonstiges« eingeführt. Das resultierende Kategoriensystem umfasst insgesamt 52 Kategorien, das heißt 52 verschiedene Aspekte von Realitäts-Fiktions-Unterscheidungen bezogen auf den
Film The Blair Witch Project.38
Kategorie
Werkkategorie
Inhaltsperspektive
Modusperspektive
Scherzhaftes Spiel
Sonstiges
N
148
78
191
27
37
Tabelle 1: Nennungshäufigkeiten der Oberkategorien
Aus Tabelle 1 geht hervor, dass der Realitätsstatus des Films von den
Verfasser(inne)n der E-Mails unter allen drei Modellperspektiven diskutiert wird; auf die Modusperspektive entfallen dabei die meisten Nennungen, gefolgt von der pragmatischen Perspektive der Werkkategorie
und, an dritter Stelle, der inhaltlich-semantischen Perspektive. Die Besetzungshäufigkeiten für die beiden induktiv eingeführten Oberkategorien
liegen demgegenüber deutlich niedriger. Diese Relationen der Besetzungshäufigkeiten lassen sich als Hinweis darauf auffassen, dass das
Drei-Perspektiven-Modell geeignet ist, die zentralen Aspekte der Diskussion des Realitätsstatus von Medienprodukten auch tatsächlich abzubilden.
Im Hinblick auf die Diskussion der Werkkategorie des Films wurde
mit dem Kategoriensystem zunächst erfasst, ob der Film in den E-Mails
38
Die Übereinstimmung zwischen den Kodierer(inne)n zum Abschluss der Probekodierung lag je nach Kategorie zwischen 0.66 und 0.88 und ist damit nach Landis/Koch als
»substantial« bzw. »almost perfect« zu bewerten: Ebd. Zu den Kategoriensystemen und
den Untersuchungsergebnissen vgl. auch: Margrit Schreier/Christine Navarra/Norbert
Groeben: Das Verschwinden der Grenze zwischen Realität und Fiktion. Eine inhaltsanalytische Untersuchung zur Rezeption des Kinofilms The Blair Witch Project. In:
Achim Baum/Siegfried Schmidt (Hg.): Fakten und Fiktionen: Über den Umgang mit
Medienwirklichkeiten. Konstanz: UVG, S. 271-282.
115
als Fiction, Non-Fiction oder als Hybrid wahrgenommen wurde, oder ob
eine eindeutige Kategorisierung der Wahrnehmung des Films unter diesem Gesichtspunkt nicht möglich war. Weiterhin wurde ermittelt, ob
diese Einschätzung in der Form erfolgte, dass die E-MailVerfasser(innen) den Film mit Sicherheit dieser Werkkategorie zuordneten, ob sie die Zuordnung in Form einer Frage vornahmen, oder ob sie
eine Meinungsänderung zum Ausdruck brachten.
Fragestellung
Feststellung
Meinungsänd.
Gesamt
Non-Fiction
5
2
0
7
Hybrid
1
2
3
Fiction
1
56
7
64
unentschieden
21
21
Tabelle 2: Wahrnehmung der Werkkategorie des Films
Wie Tabelle 2 zeigt, wird die Frage der Werkkategorie des Films von insgesamt 95 Personen thematisiert. Darunter sind sich 58 Personen (also
61%) sicher, dass der Film entweder Fiktion oder ein Hybridprodukt
darstellt. Auch wird der Film kaum jemals eindeutig als Non-Fiction
klassifiziert. Summiert man die Besetzungshäufigkeiten für die verbleibenden Zellen in der Tabelle auf – das entspricht denjenigen Personen,
die den Film nicht eindeutig und durchgängig einer bestimmten Werkkategorie zuordnen –, so zeigt sich allerdings, dass weitere 37 Personen
(etwa 37%) zumindest zeitweise hinsichtlich der Werkkategorie von The
Blair Witch Project unsicher sind.
Des Weiteren wurde kodiert, aus welchen Gründen die Rezipient(inn)en den Film einer bestimmten Werkkategorie zuordnen würden. Da die Mehrzahl der Verfasser(innen) der E-Mails den Film als Fiction wahrnehmen, dominieren auch die Begründungen für die Zuordnung des Films zu dieser Werkkategorie. Dafür, dass es sich bei The
Blair Witch Project um Fiktion handelt, spricht nach der Auffassung der
Mail-Schreiber(innen) am stärksten die Marketing-Strategie, die dem Film
zu Grunde liegt; auch Informationen aus anderen Medienprodukten
werden genannt. Auffallend ist hier, dass lediglich vier Personen den Paratext am Ende des Films erwähnen; die schiere Unmöglichkeit von Hexerei wird sogar nur in drei Fällen als Grund für die Klassifikation des
Films als Fiction angeführt. Unter den E-Mail-Verfasser(inne)n, die The
Blair Witch Project zumindest potenziell für ›echt‹ halten, dominiert insbesondere ein Grund, nämlich entsprechende Information aus anderen
116
Margrit Schreier
Medienprodukten (insbesondere aus der Internetseite zum Film sowie
aus der Pseudo-Dokumentation zur Pseudo-Dokumentation: The Curse
of the Blair Witch). Die Begründungen der Diskussionsteilnehmer(innen) für ihre Wahrnehmung der Werkkategorie des Films zeigen somit,
dass insbesondere dem Medienwissen sowie medial vermittelten Informationen eine zentrale Rolle zukommt; dies gilt noch einmal in verstärktem Maß für diejenigen Personen, die zumindest zeitweise die Möglichkeit in Betracht ziehen, es könnte sich bei dem Film um eine tatsächliche
Dokumentation handeln. Weltwissen und paratextuelles Wissen haben
demgegenüber als Begründung für den fiktionalen Status des Films nur
geringe Bedeutung.
Neben der Diskussion der Werkkategorie kommt vor allem der Thematisierung der Modusperspektive in den Newgsruppen-Diskussionen
ein zentraler Stellenwert zu, wobei die Nennungen sich zu gleichen Anteilen über die Produkt- und die Rezeptionsperspektive verteilen (96 beziehungsweise 95 Nennungen). Dabei betonen die Diskussionsteilnehmer(innen) insbesondere den Realismus des Films. Unter der Produktperspektive betrifft dies beispielsweise die Verwendung von Bildmaterial
in amateurhafter Qualität (sechzehn Nennungen), die ausgezeichneten
Schauspieler(innen) (vierzehn Nennungen) sowie vor allem die Vorgehensweise, die schrecklichen Geschehnisse nicht direkt zu zeigen, sondern weitgehend der Vorstellungskraft der Rezipient(inn)en zu überlassen (26 Nennungen). Unter der Rezeptionsperspektive empfindet weitaus die Mehrheit der Diskussionsteilnehmer(innen) den Film als spannend und angsterregend (80 von 95). Bei 23 Personen hält das Angstempfinden sogar über die Dauer der Filmrezeption hinaus an. Und
neunzehn Diskussionsteilnehmer(innen) weisen die anderen darauf hin,
dass der Film umso mehr Angst evoziert, je weniger man im Voraus über
die Hintergründe seiner Entstehung und insbesondere darüber weiß,
dass es sich letztlich um eine Form der Fiktion handelt. Das realistische
Erleben des Films unter der Modusperspektive wird hier also gerade von
der Unsicherheit hinsichtlich der Werkkategorie des Films abhängig gemacht.
Unter der semantischen Perspektive – die gegenüber der Modus- und
der pragmatischen Perspektive in den analysierten E-Mails die vergleichsweise geringste Rolle spielt – dominiert die Diskussion um die
Frage, inwieweit die Handlungsweise der Protagonist(inn)en in dem Film
als plausibel und glaubwürdig gelten kann. Von 62 Personen sind etwa
zwei Drittel (n = 42) der Ansicht, dass die Handlung als eher unplausibel
gelten muss. Unplausibel erscheint es den Diskussionsteilnehmer(inne)n
beispielsweise, dass die Protagonist(inn)en nicht wussten, wie man einen
117
Kompass verwendet, dass sie nicht einfach dem Verlauf des Flusses gefolgt waren oder dass sie trotz ihrer Angst weiter gefilmt haben sollten.
Handlungselemente, die zu unserem Weltwissen in klarem Widerspruch
stehen (wie beispielsweise die Existenz von Hexen), werden dagegen von
den Diskussionsteilnehmer(inne)n in diesem Zusammenhang kaum genannt.
Zusammenfassend ist festzuhalten, dass The Blair Witch Project unter
der pragmatischen Perspektive zwar mehrheitlich als Fiction eingestuft
wird, dass ein nicht unerheblicher Teil der E-Mail-Verfasser(innen) jedoch zumindest vorübergehend hinsichtlich der Werkkategorie des Films
verunsichert ist. Unter der Inhaltsperspektive wird der Film eindeutig als
unplausibel, unter der Modusperspektive schließlich ebenso eindeutig als
realistisch wahrgenommen.
5. Ausblick
Im vorliegenden Zusammenhang ist insbesondere die Bewertung von
The Blair Witch Project unter der pragmatischen Perspektive von Interesse. Dass die Machart des Films als realistisch wahrgenommen wird,
dass es die Zuschauer(innen) gruselt, auch nachdem sie das Kino wieder
verlassen haben – das sind Formen der Überschneidung von Realität und
Fiktion, wie man sie auch in Folge der Rezeption traditioneller Medienprodukte findet: So mögen sich manche Zuschauer(innen) von The Blair
Witch Project dazu entschlossen haben, den nächsten Urlaub besser
nicht mit Camping zu verbringen. Ebenso sollen Rezipient(inn)en des
Films Der weiße Hai noch Jahre später gezögert haben, im Meer zu
schwimmen, und die Reaktionen der Zuschauerinnen auf die Duschszene in Hitchcocks Psycho sind hinlänglich bekannt.39 Dennoch würde
vermutlich niemand so schnell auf den Gedanken kommen, dass Der
weiße Hai oder Psycho eine Dokumentation darstellt. Hier ist den Zuschauer(inne)n vielmehr durchaus bewusst, dass es sich um gänzlich fiktionale Horrorfilme handelt, um Psycho-Thriller – und eben diese Sicherheit ist es, die zumindest bei etwa einem Drittel der Verfasser(innen)
der hier analysierten E-Mails fehlt: Bei Mischprodukten, bei DokuFiction(s) wie The Blair Witch Project existieren – bisher – kaum feste
Genre-Konventionen, und diese Unsicherheit kann dazu führen, dass für
39
Zu anhaltenden Angstreaktionen in Folge von Filmrezeptionen vgl.: Joanne Cantor:
Fright reactions to mass media. In: Jennings Bryant/Dolf Zillmann (Hg.): Media Effects. Advances in Theory and Research. Mahwah, NJ: Erlbaum 2002, S. 287-306.
118
Margrit Schreier
manche Rezipient(inn)en wenigstens zeitweise die Grenze zwischen Realität und Fiktion verschwimmt.
Gegen diese Befunde ließe sich einwenden, dass sie anhand einer
Stichprobe von Personen gewonnen wurden, die sich spontan an Diskussionen über den Film im Internet beteiligt haben. So ist beispielsweise
nicht auszuschließen, dass es sich hier um einen Kreis von Personen
handelt, die hinsichtlich ihrer Rezeption des Films von vornherein in
höherem Maß verunsichert waren, als dies für die Zuschauer(innen) des
Films im Allgemeinen gilt. Gegen diesen Einwand sprechen jedoch die
Befunde zweier weiterer Studien, die sich derzeit in der Auswertungsphase befinden. In einer ersten Studie wurde ein Vergleich der Diskussion von The Blair Witch Project in Internet-Diskussionsgruppen mit der
Internet-Diskussion eines anderen Horrorfilms vorgenommen, der etwa
zur selben Zeit in die Kinos kam und ebenfalls einen Überraschungserfolg darstellte: The Sixth Sense. Auch aus den Diskussionen um diesen
Film wurde eine Zufallsstichprobe gezogen, und für diese Stichprobe
wurde ebenfalls eine zweischrittige inhaltsanalytische Auswertung im
Hinblick auf die Thematisierung von Realitäts- und Fiktions-Aspekten
vorgenommen. Wenn die Auswertung auch noch nicht abgeschlossen ist,
so zeichnet sich doch ein Befund bereits zum jetzigen Zeitpunkt deutlich
ab: Eine Diskussion der Werkkategorie von The Sixth Sense findet praktisch nicht statt; sofern die Werkkategorie überhaupt angesprochen wird,
handelt es sich meist um eine Diskussion der Frage, inwieweit der Film
dem Genre des Horrorfilms oder eher dem des Supernatural Thriller zuzuordnen ist. Dieses Ergebnis zeigt, dass die Werkkategorie bei eindeutig
fiktionalen Medienprodukten eine solche Selbstverständlichkeit darstellt,
dass sie gar nicht erst zum Diskussionsgegenstand wird. Komplementär
wird an dem Vergleich der Diskussionen um die beiden Filme auch deutlich, dass alleine die Thematisierung einer Zuordnung von The Blair
Witch Project zur Werkkategorie der Fiktion als Ausdruck einer gewissen
Unsicherheit seitens der Rezipient(inn)en anzusehen ist: Dass der Film
überhaupt explizit einer Werkkategorie zugeordnet wird – auch wenn es
sich dabei um die Werkkategorie der Fiction handelt – ist bereits Ausdruck rezeptionsseitiger Verunsicherung.
Weiterhin lassen sich die Befunde zu The Blair Witch Project mit den
Ergebnissen einer Interviewstudie zur Rezeption der ausschließlich internetbasierten Pseudo-Dokumentation Ally Farson vergleichen (n =
28).40 Auf der Website werden die Rezipient(inn)en aufgerufen, sich an
der Fahndung nach der angeblichen Serienmörderin Ally Farson zu be40
Ally Farson. (Fußnote 33).
119
teiligen; die Seite enthält eine ausführliche Biographie der Täterin, Abschriften von Zeugenbefragungen der Polizei, angeblich sogar Videos
der Morde, die Ally Farson einer Filmgesellschaft hat zukommen lassen.
Auch hier zeigt sich, dass das Medienprodukt mehrheitlich durchaus korrekt als Fiction wahrgenommen wird, dass jedoch etwa ein Drittel der
Befragten mit Verunsicherung reagiert, was den Realitätsstatus der Website betrifft: Obwohl die Befragten im Verlauf des Interviews mit Anhaltspunkten für den fiktionalen Status des Medienprodukts konfrontiert
werden (unter anderem mit dem paratextuellen Hinweis, dass eine Person namens Ally Farson nie existiert hat), sind ein Drittel sich weiterhin
unsicher, ob es sich bei der Website nicht doch um einen echten Fahndungsaufruf handeln könnte. Dieses Ergebnis bestätigt den Befund der
Inhaltsanalyse von E-Mails zu The Blair Witch Project, dass Hybridprodukte zwar mehrheitlich als fiktional erkannt werden, dass es aber offensichtlich auch Personen gibt, die in Bezug auf den Realitätsstatus solcher
Produkte verunsichert reagieren. Zugleich scheint die Verunsicherung in
Bezug auf Ally Farson jedoch größer zu sein als hinsichtlich The Blair
Witch Project: Während die entsprechenden Rezipient(inn)en von Blair
Witch Project mehrheitlich lediglich Unsicherheit darüber zum Ausdruck
bringen, ob es sich bei dem Film tatsächlich um Fiction handelt, ziehen
die unsicheren Rezipient(inn)en von Ally Farson durchaus die Möglichkeit in Erwägung, dass das Produkt eine tatsächliche Fahndungsseite darstellen könnte; außerdem halten sie an dieser Möglichkeit auch fest,
nachdem sie mit konkreten Argumenten für den fiktionalen Status des
Produkts konfrontiert wurden.
Wenn man einmal davon ausgeht, dass die Anzahl solcher PseudoDokumentationen insbesondere im Internet in Zukunft eher noch zunehmen wird, so stellt sich die Frage, woran Rezipient(inn)en sich bei ihrer Beurteilung des Realitätsstatus dieser Produkte orientieren; dies betrifft insbesondere die Frage, ob solche Rezipient(inn)en, die zumindest
die Möglichkeit in Erwägung ziehen, dass es sich bei einer PseudoDokumentation um ein faktisches Produkt handeln könnte, sich an anderen Informationen orientieren als diejenigen Personen, die das Produkt eindeutig als fiktional erkennen. Die Ergebnisse der Untersuchung
zu The Blair Witch Project lassen vermuten, dass hier vor allem zwei
Gesichtspunkte eine Rolle spielen: Dies sind erstens Informationen aus
anderen Medienprodukten; auf solche Informationen wird in den hier
analysierten E-Mails vor allem dann verwiesen, wenn es darum geht, die
Rezeption des Films als Non-Fiction, als eine Form der Realitätsdarstellung, zu stützen. Zweitens wird auf Wissen um die Vermarktungsstrategie zurückgegriffen, also auf Wissen um das Spiel mit Realität und Fikti-
120
Margrit Schreier
on, wie es auf der Internetseite zum Film realisiert wird; es handelt sich
hier also um eine spezielle Form der Information über andere Medien,
die vor allem dann zum Tragen kommt, wenn es darum geht, die Rezeption des Films als Fiktion zu begründen. Der Paratext sowie Gesichtspunkte des Weltwissens spielen demgegenüber in der Diskussion um den
Realitätsstatus des Films praktisch keine Rolle; auch Hinweise darauf,
dass es zumindest nach unserem derzeit geltenden Wirklichkeitsverständnis keine Hexen gibt, der Film also schon auf Grund seines Inhalts
als Fiktion einzustufen wäre, finden sich kaum.
Im Rahmen der Rezeptionsstudie zu Ally Farson wiederholt sich zunächst der Befund, dass die Rezipient(inn)en sich bei der Beurteilung des
Realitätsstatus dieses Medienprodukts kaum am Paratext orientieren; dies
gilt unabhängig davon, welcher Werkkategorie die Rezipient(inn)en das
Produkt schlussendlich zuordnen. Bei den Personen, die der Ansicht
sind, dass Ally Farson einen tatsächlichen Fahndungsaufruf darstellen
könnte, fällt in ihren Begründungen weiterhin eine große Unsicherheit
auf – und zwar Unsicherheit sowohl, was die Möglichkeiten und Konventionen des Internet betrifft, als auch Unsicherheit im Hinblick auf die
amerikanische Kultur, in der Ally Farson entstanden ist. Diese Rezipient(inn)en bringen zum Ausdruck, dass ihnen die Maßstäbe für eine
Beurteilung dessen fehlen, was vor allem im US-amerikanischen Internet
als glaubhaft gelten kann und was nicht. Bei den Begründungen der Untersuchungsteilnehmer(innen), die Ally Farson eindeutig für fiktional halten, fällt demgegenüber auf, dass sie sich besonders häufig auf ihre
Kenntnis vergleichbarer Medienprodukte stützen, und zwar in erster Linie auf ihre Kenntnis von The Blair Witch Project. Diese Begründung
findet sich im Übrigen auch im Rahmen von Internet-Diskussionen der
Rezipient(inn)en anderer pseudo-dokumentarischer Internet-Produkte.
Als beispielsweise ein verwirrter Besucher der Bill-Gates-Seiten die Frage
stellt, ob Gates tatsächlich tot sei, erhält er von einem anderen Diskussionsteilnehmer den Hinweis darauf, dass es sich um eine PseudoDokumentation nach demselben Muster wie The Blair Witch Project
handele. Und auch im Rahmen von Cassandra's Site wird auf die Internet-Vermarktung dieses Films verwiesen, wenn eine Diskussionsteilnehmerin – in freier Übersetzung – schreibt, dass auf diese Seite ja wohl
niemand hereinfallen könne – sie sei nichts als ein zweitklassiger Abklatsch von The Blair Witch Project. 41
The Blair Witch Project erweist sich hier somit als Prototyp des neuen
Genres der Pseudo-Dokumentation im Internet und zugleich als Grund41
Cassandra's Site. (Fußnote 34).
121
lage für den Aufbau genrebezogenen Wissens durch die Rezipient(inn)en. Angewandt auf Nachfolgeprodukte im Internet, ermöglicht dieses
Wissen die Klassifikation der entsprechenden Produkte als Hybride beziehungsweise als Fiktionen, die lediglich den Anschein erwecken, eine
Dokumentation darzustellen. Zugleich fällt jedoch auf, dass die Teilnehmer(innen) an den dargestellten Untersuchungen sich bei ihrer Rezeption der Pseudo-Dokumentationen allenfalls in geringem Maß auf
Wissen über den Paratext oder auf Weltwissen stützen; bei der Beurteilung des Realitätsstatus der fraglichen Medienprodukte wird vielmehr in
erster Linie Wissen aus anderen Medien herangezogen – Wissen, das im
Kontext anderer Kulturen oder neuer Medien wie etwa dem Internet
auch von einigen Rezipient(inn)en selbst nicht als hinreichende Beurteilungsgrundlage empfunden wird. Wesentliche produktseitige Fiktionssignale, die die Werkkategorie dieser Hybridprodukte anzeigen, bleiben auf
diese Weise rezeptionsseitig ungenutzt. Der Frage, warum dies der Fall
sein sollte – ob Rezipient(inn)en sich beispielsweise über die Bedeutung
entsprechender Signale nicht im Klaren sind oder es in der Mediengesellschaft quasi verlernt haben, das eigene Weltwissen als Beurteilungsgrundlage heranzuziehen –, wird in weiteren Untersuchungen nachzugehen sein.
Peter Robinson
Where We Are with Electronic Scholarly Editions,
and Where We Want to Be
Abstract
Scholarly electronic editions up to 2003 have rarely extended beyond the
model of print technology, either in terms of product (the materials included and the ways they are accessed) or process (the means by which
they are made and by which they may be manipulated). However, some
edition projects are beginning to explore the possibility of the electronic
medium, and others may follow their lead as the basic tools for their
making become more widely distributed. Yet this may only be a prelude
to a much greater challenge: the making of what may be called fluid, cooperative and distributed editions. These editions will not be made or
maintained by one person or by one group, but by a community of
scholars and readers working together: they will be the work of many
and the property of all. This approach will strain currently deployed data
and organizational models, and will demand rethinking of some of the
fundamental practices of the academy. However, the potential benefits
to all involved, as readers, editors, commentators and critics engage together in the making and use of these, are considerable.
There has been around ten years of activity, sometimes frenetic, in the
making of electronic scholarly editions.1 One could mark the beginnings
of this process by three events: the beginnings of the world wide web
around 1992; the formulation of the Text Encoding Initiative (TEI)
guidelines about the same period, culminating in the publication of the
›P3‹ version in 1994; and Jerome McGann's essay The rationale of hypertext which was drafted around this period.2 Together, these provided
1
2
This essay, and the last half especially, has been greatly influenced by a series of conversations with Peter Shillingsburg (and, all too briefly, Paul Eggert) in the period September to December 2003. As with all such conversations, neither of us could now be
sure who thought of what. Another version of these ideas will appear in Shillingsburg's
Script Acts: From Gutenburg to Google, and readers may correct my misunderstanding of his ideas from this.
For the beginnings of the web, see A Little History of the World Wide Web at
<http://www.w3.org/History.html> (3.2.2004): the first webserver outside Europe
came online in December 1991; there were 26 servers in November 1992; by Septem-
124
Peter Robinson
three elements necessary for electronic scholarly editions: a cheap and efficient means of distribution; a set of encodings to underpin their making; and a theoretical imprimatur from a leading textual critic. Over the
same period, the rise of digital imaging and the increasing holdings of
images of primary textual materials in electronic libraries have added the
possibility of large-scale inclusion of image materials in electronic editions. The effect of all these is that it is now probably impossible to find
a single large-scale editorial project in western Europe or America which
does not have already have, or is not actively preparing, a digital dimension.
There are, of course, many differences among the electronic scholarly
editions which have so far appeared, and much discussion concerning
their precise contents and emphases. Should they simply present images,
or be centred around images, as in the model proposed by Kevin Kiernan?3 If an edition includes many texts, should it include collations of all
these; should it include also an edited text, and if so, how should this be
constructed? Should it include commentary materials, and if so, what
kinds of commentary and how should these be linked? Should we be
making editions at all, with the implication that there is an editor whose
opinions and interpretations might intrude, or should we satisfy ourselves with making archives, where an impersonal presentation might
warrant readerly freedom? These discussions reflect debates which have
been proceding in the editorial community for several decades now, and
3
ber 1993 webservers registered 1% of all internet traffic, and the rest is history. The
›P3‹ TEI guidelines were formally presented at the 1994 joint Association for Literary
and Linguistic Computing/Association for Computers in the Humanities conference,
19-23 April, in Paris, now revised and published as C. Michael Sperberg-McQueen/
Lou Burnard (Eds.): TEI P4: Guidelines for Electronic Text Encoding and Interchange. Text Encoding Initiative Consortium. XML Version: Oxford/Providence/
Charlottesville/Bergen 2002. Jerome McGann's The Rationale of Hypertext has its
own interesting textual history: as of 19 December 2003, a version of this existed at
<http://www.iath.virginia.edu/public/jjm2f/rationale.html> (3.2.2004) dated 6 May
1995. However, the essay was written over a few months during the US academic year
of 1994-5 (email from Jerome McGann, 8 January 2004) and was circulating and being
discussed before this date, further version was published in Kathryn Sutherland (Ed.):
Electronic Text : Investigations in Method and Theory. Oxford: Clarendon Press
1997, pp. 19-46; and yet another version in his adiant Textuality: Literature After the
World Wide Web, New York: Palgrave, 2001. Naturally, there is an element of caprice
about choosing the period around 1993 as the starting point of this narrative, and
about the choice of these three avatars: one could for example parallel many (and
probably all) the ideas in Jerome McGann's superbly-timed and cunningly-titled essay
in other writers at the time (e.g. George Landow). But these will serve.
See <http://www.uky.edu/~kiernan/eBeowulf/main.htm> (3.2.2004): ›The Electronic Beowulf is an image-based edition of Beowulf‹.
Electronic Scholarly Editions
125
which now continue in the framework of the new medium.4 Indeed, the
continuation of these discussions in the electronic medium itself is a
marker of the success of the new forms, as editors who up to ten years
ago would not have considered using computers to make and distribute
editions have adapted to the digital world, and translated their own
methods and editorial theories to it.
Necessarily, much of the work of this first ten years has been experimental, and concerned with practicalities: what software, what hardware,
exactly what encodings, should be used? Should these editions be distributed on CD-ROM, or on the internet? Recently, the rise of XML
(Extensible Markup Language) and the development of a constellation of
associated software tools have provided answers to many of these questions. The effect of all these is that we can declare that there are solutions to the immediate technical problems which vexed us in the last
decade, of how electronic editions should be made and how they should
be distributed. We may now make, with reasonable efficiency and at reasonable cost, editions of texts, from manuscripts and print editions, according to our own critical perspective. The expertise to do this is still
too narrowly held, and we need more examples of good practice to guide
those who are beginning this work, but this is coming.
Briefly, this is where we are now, and this is how we got to this point.
We might assume that this is the end of the matter: that we have solved
all the problems, that we have put in place a variety of comprehensive
models, that all we have to do now until the end of time is choose our
model and make our edition accordingly. Most emphatically, I do not
think this is at all the case. The electronic scholarly editions we have
been making so far do not represent any kind of endpoint. Indeed, I
think they do not even amount to much of a beginning. In the rest of
this paper I would like to sketch out why I think this, what kinds of
scholarly edition we will find ourselves wishing to make in the next years,
and what yet needs to be done to permit us to make these.
First, let us observe two things missing from almost all electronic
scholarly editions made to this point. The first missing aspect is that up
to now, almost without exception, no scholarly electronic edition has
presented material which could not have been presented in book form,
nor indeed presented this material in a manner significantly different
from that which could have been managed in print. Many electronic
4
For example: in Peter L. Shillingsburg: Scholarly Editing in the Computer Age: Theory
and Practice. 3rd Edition. Ann Arbor: University of Michigan Press 1996; A Critique of
Modern Textual Criticism. Chicago: University of Chicago Press 1983; reprinted Charlottesville: University of Virginia Press 1992.
126
Peter Robinson
scholarly editions present facsimile images. But print editions have included reproductions of manuscripts or other sources, in some form or
other, for centuries. Some electronic editions present the images alongside transcripts; but print editions have long done this. Some electronic
editions include commentaries and other editorial matter; there is hardly
a print edition which has not done this. As for hypertext: even before
print, scribes created manuscript pages which surrounded the text with
all kinds of extra-textual material – commentaries, variant readings, indices, cross-references, glosses, pointers to every kind of matter.5 Almost
all we have done, in the first ten years of electronic scholarly editions, is
find ways of mimicking on screen elements long present in print and
manuscript. Indeed, in some respects electronic editions are actually a
backwards step. Consider the presentation of variant texts. Traditionally,
print editions showed variation in the form of a collation apparatus,
showing at various points of a ›base text‹ the different readings of different witnesses. Instead of this, most electronic editions just show the different texts themselves, and leave it to the reader to discover where the
variants are. Even where the variants are presented, they are usually presented in the same list form as they are in printed editions. Certainly, we
can include much more in electronic editions, and certainly we can make
it much easier to move between related points. But this hardly amounts
to a revolution. At their best, so far, most electronic editions do the same
as book editions: they just do more of it, perhaps with marginally more
convenience. In essence, their product is not significantly different qualitatively to that of print editions.
The second missing aspect of most electronic scholarly editions relates
to their failure to use new computer methodologies to explore the texts
which they present: to be different in terms of process. The only tool
many editions add is text searching – and many do not even provide that.
Very often too computerized tools are not used in the preparation of the
editions: a database might sometimes be used for gathering some data,
but that is all. This is particularly surprising when one considers developments in other fields of knowledge. In the last decades, immense advances have been made in the sciences in the development of sophisticated methods for finding patterns in large quantities of disparate data.
There are obvious opportunities for the application of such methods to
5
See, for example, Malcolm B. Parkes: Folia Librorium Quaerere: Medieval Experience
of the Problems of Hypertext and the Index. In: Claudio Leonardi/Marcello Morelli/Francesco Santi (Eds.): Fabula in Tabula: Una Storia degli Indici dal Manoscritto al
Testo Electronico. Claudio Leonardi, Marcello Morelli, and Francesco Santi Spoleto:
Centro Italiano di Studi Sull'Alto Medioevo 1994 pp. 23-41.
127
data gathered by scholarly editors, on the agreements and differences at
every level among the witnesses to a text. But very few scholarly edition
projects have made any attempt to use these methods, and even fewer
have attempted to make these available to others.
Clearly, the electronic edition of the future – that is, electronic editions which really exploit their medium, as fully as the best print editions
since Aldus have exploited the printed page – must attend to these two
fundamental deficiencies, of product and process. As to product: we can
see that the electronic medium permits possibilities of dynamic interactivity which we have scarcely begun to explore. Some editions have already shown how the editor can provide different views on the one text,
so that the reader can choose how to see a text: in a diplomatic transcription, in a normalized spelling and orthography; interlineated with variants
from other texts, and so on. We can expect to see these models developed so that this is no longer an occasional feature, with some alternatives presented at some points, but becomes the fundamental guiding
principle of the whole edition. That is: the reader can reshape the whole
edition, from the very first view right through to every individual element. For example: an edition of a text in many versions would permit
the reader to select the ›base text‹, or not have any base text at all; to select which different versions will be shown; to choose how each version
appears, in what configuration of the version in its relation to other versions, and in what configuration of edited text against captured image.
Some of this we have already seen, and we can expect more and more
editions to take advantage of these facilities.
This extension of dynamic interactivity will change the relationship of
the reader to the text he or she is reading. These will be ›lean-forward‹
editions, demanding our interaction.6 This opens the way to these editions becoming closer to the immersive environments one finds in computer gaming. Indeed, the ideal reader of an ideal edition would behave
much as does a computer game player: seeing puzzles in the materials
presented, rearranging them to seek ways into the puzzle, trying out different solutions – what difference does it make if I read the text this way,
with this variant – seeing the results, using what is learnt to frame yet
further hypotheses, to create yet further readings. Neil Fraistat and
Stephen Jones's MOOzymandias, and and Johanna Drucker's Ivanhoe
Game are both experime_ntal moves in this direction. There are obvious
6
The phrase is from a speech by Elisabeth Murdoch 29 August 1998 at the Edinburgh
Festival, reported <http://news.bbc.co.uk/1/hi/entertainment/edinburgh_festival/
160971.stm> (3.2.2004) in which she contrasts ›lean-back leisure‹ (as in TV) with ›leanforward‹ interaction (as in computer use).
128
Peter Robinson
pedagogical opportunities here.7 For generations textual scholars have
complained that nobody reads their editions. Through the imaginative
use of this technology, scholarly editions could be taken from the rarefied world of the research library right into the classroom, right to the
computer on the student's desk. This will require scholarly editors to
think and work in unfamiliar ways, and will require many experiments, at
least some of which will appear quite bizarre to those brought up on traditional norms of ›historisch-kritische Ausgabe‹ and its equivalents. At
the least, this will blur the traditional sharp distinction between ›scholarly‹ editions and ›reader‹ editions, while the incorporation of textual
scholarly matter in the kind of interactive pedagogical environments
looked forward to by the experiments cited above will set different challenges. But the potential prizes are huge.
To achieve this, we will need to do more than add hypertext connectivity to existing models of the presentation of editorial data. We will
need to find new means of visualization and presentation. Take the case
of an edition of a work in many versions. Editors have traditionally used
four means of visualizing the data:
1. Presenting text with apparatus of variants, with the apparatus usually
presented in list form
2. Presenting texts in parallel, with or without some system of marking
variant places
3. Presenting views of version relationships in some kind of tabular
form: a ›stemma‹
4. Presenting images of the original witnesses, alongside forms of edited text
Even without moving beyond this four-fold frame, we can use the power
of the computer just to present each of these four views more vividly,
more accessibly, than is possible in print. Through these means, we
might not only help scholars use scholarly editions but also make them
accessible to a much wider range of readers. In what follows, I give examples from three editions in which I am currently involved, of Geoffrey
Chaucer's The Miller's Tale; of the Greek New Testament being pre-
7
See the discussion of these and other initiatives by Susan Schreibman: Next Generation Student Resources: A Speculative Primer. In: Electronic Book Review, posted to
<http://www.electronicbookreview.com> 8 November 2003, modified 13 November.
Accessed on <http://www.electronicbookreview.com/v3/servlet/ebr?command=
view_essay&essay_id=schreibmanaltx> (3.2.2004).
129
pared by the Institute for New Testament Textual Research at Münster;
of the Commedia of Dante Alighieri.8
For the first point, presenting text with apparatus of variants: in these
three editions we are experimenting with having the variants at each
word or phrase in any text ›float‹ above the word or phrase, and with
having the variants appear in a separate panel as the mouse moves over
the word. Thus, in our edition of the Miller's Tale: at line 73 of Link 1 in
the Hengwrt manuscript, passing the mouse over the words ›eek and‹
shows this:
In the Münster Greek New Testament, we have the variants appear dynamically in a separate panel as the mouse moves over rather than in this
pop-up. Naturally, in the Chaucer instance above one wants to know
what the ›14 mss‹, ›28 mss‹ are, and also the different contexts in which
this variant occurs. Clicking on the ›eek and‹ in the panel above has this
information appear in another panel:
8
Peter Robinson (Ed.): The Miller's Tale on CD-ROM. Leicester: Scholarly Digital Editions forthcoming CD-ROM; the Münster New Testament can be seen at
<http://nestlealand.uni-muenster.de> (3.2.2004), Prue Shaw/Peter Robinson (Eds.):
The Commedia of Dante Alighieri. Florence/Leicester: Sismel and Scholarly Digital
Editions, forthcoming.
130
Peter Robinson
The top part of this view shows all the variants in this line stacked one
above another: that is, there are no variants on the words ›So‹ and ›the
Reve‹.
In a variant of this, we have the chosen base appear down a left column, with variants interspersed in a different colour, while lists of versions appear to the right. Here, we see this for the variants on line 10 of
»Paradiso 1« in the Commedia:
This can be varied yet more by changing the base, or changing the selection of versions shown, and varied once more so as to show the original
spelling of each word in each manuscript:
For the second visualisation, showing texts in parallel: we have developed means of showing any number of texts in lineated form, with the
differences in each text coloured so that one can see exactly how and
where they differ. Thus, for line 73 of Link 1 in the Chaucer:
As a variant of this, one can choose any two texts to be presented in parallel, once more with all variants marked. This view shows the comparison of lines 73-76 of the Hengwrt and Ellesmere manuscripts in Link 1:
131
The selection of variants is under the editor's control, so that (as here)
only those variants judged as significant may be shown. For the third
visualisation, presenting views of relationships: we may present relationships more as growths, or networks, and less as rigidly directed trees. For
the fourth visualisation, presenting images: it is a commonplace that
high-quality digital images may give a far superior quality of reproduction
than that normally available in print editions.
In print form, one cannot do more than present each of these visualisations separately, at best consecutively or adjacent, and leave it to the
reader to trace the connections between the distinct views. There is potential to do much better in the electronic medium: to combine any of
these visualisations, to help understand the many texts and their relations. We could link the first and fourth views to present image and text
linked dynamically, so that when one moves the mouse over a word in
the image, the transcription of that word appears above. Then, we could
reverse this: move the mouse over a word in the transcription and the
image of that word might appear. As a step beyond this: one could carry
out a search on the text and have the ›hits‹ appear either as highlighted in
the image, or the hits are extracted from the image (together with arbitrary context) and presented in tabular form, as a series of images. One
could extend this by having variant texts at each word in the image appear over the image.9 Similarly, one could present the second and fourth
views simultaneously, so that parallel alternative texts could be presented
in image form as well as in transcribed form.
In the Canterbury Tales Project we have been experimenting too with
linking the first and third views also, so that the pattern of variants at any
one point is mapped on the table of relationships we have deduced for
the witnesses. Consider the readings at line 73 of Link 1 from The
Miller's Tale again. It is difficult to make any sense of the bare statistics:
9
This has been implemented in the BAMBI workstation: see Sylvie Calabretto/Andrea
Bozzi: The Philological Workstation BAMBI (Better Access to Manuscripts and
Browsing of Images). In: Journal of Digital Information Volume 1 Issue 3 Article No.
9, 1998-09-18 on the site <http://jodi.ecs.soton.ac.uk/Articles/v01/i03/Calabretto/>
(3.2.2004).
132
Peter Robinson
›and‹ 14 witnesses
›eek and‹ 28 witnesses
›and eek‹ 11 witnesses
›also and‹ 1 witnesses
Adding the details of just what are the 14 witnesses (actually ›Ad1 Ad3 El
En3 Gg Ha4 Ha5 Ht Ii Nl Ox1 Ps Tc1 To1‹) hardly adds to clarity: it is
just too much information. But when we relate the distribution of the
variants among the manuscripts to the table of relationships we have deduced we see this:
The large capital letters show the manuscript family groupings which we
have determined with the help of evolutionary biology software. A
glance at this table shows the dominance of the ›blue‹ reading, ›eek and‹:
this is spread right across the whole tradition, and further is dominant in
every group except the B group, which has ›and eek‹: a simple inversion.
By contrast, the ›red‹ reading ›and‹ (the reading of the Ellesmere manuscript) is confined to a few of the O manuscripts (effectively, those nearest the presumed archetype) and a scattering of manuscripts elsewhere. It
is notably not present in the three distinct groups A C and E. Traditionally, manuscript stemmata were abstract objects, leaving it to the reader
to work out as best he or she might how it both explains and is explained
by the patterns of variation at any one reading. Through this means we
can make concrete the link between the variants at any one point and the
overall pattern of variation in all the versions across the whole text.
133
These examples represent our experiments towards finding new ways
to show the network of intricate relations which defines a text in many
versions. Through these, we aim to make electronic editions which address the first deficiency I noted: they will represent a new kind of scholarly product, and not just a translation of print editions. Similarly, electronic editions may address the second deficiency I noted: they could
utilize computer methods far more as process, both in the making of the
edition by the editor and in its everyday use by the reader. So much of
scholarly editing is a careful tabulation of the differences between texts
(collation, that is); recording the differences, analyzing them both to understand and to explain; finding ways to present all this information.
There is a compelling argument, that the great strength of the new medium is that this work can be made much more efficient and much more
accurate by the use of computers.10 New systems of data analysis might
offer ways into all this material, and so permit us to see patterns and relationships always there, but never before accessible. In turn, we could use
the explicatory power of the computer to allow readers to discover these,
just as we do for ourselves. Thus, an editor need not just transcribe into
electronic form, but can use computer programs to compare the transcriptions and create a full record of the agreements and disagreements
among the witnesses. There are obvious analogies between this deduction of relationships from data of agreement and disagreement and the
practice of evolutionary biology, where powerful computer programs
have been developed over the last decades to hypothesize relationships
between objects on the basis of the characteristics they share and do not
share. Indeed, this is more than analogy: both textual traditions and living beings propagate by ›descent with modification‹, to use Darwin's
concise phrase.11 An editor can use methods to explore the tradition: to
see the flow of readings across the many versions; to construct a hy10
11
Various articles by myself and others have pointed to this potential: for example, my
article Collation, Textual Criticism, Publication and the Computer. (Text 7, 1995),
pp. 77-94. A demonstration of these procedures at work, as applied by the Canterbury
Tales project, may be seen at this site: <http://www.cta.dmu.ac.uk/projects/ctp/
desc2.html> (3.2.2004).
Exploration of this suggestion has been carried forward by the STEMMA project: a
collaboration between members of the Canterbury Tales project team at Leicester
headed by the author, Linne Mooney of the University of Maine, and members of the
Department of Molecular Biology, Cambridge, headed by Christopher Howe. The
fundamental methodology of our work was outlined in A. C. Barbrook/N. F. Blake/C.
Howe/P. M. W. Robinson: The Phylogeny of The Canterbury Tales. In: Nature 394
(1998), pp. 839. Recent publications by the group are listed at <http://www.cta.dmu.
ac.uk/projects/stemma/res.html> (3.2.2004).
134
Peter Robinson
pothesis of the history of the text. Such hypotheses can have great explanatory power. The ›variant map‹ I cite above was made by exactly this
procedure, and by this we are able in turn to help the reader ›see‹ just
what is happening at any point in the text.
A well-made electronic scholarly edition will be built on encoding of
great complexity and richness. As well as free text searching, efficient
search systems can make use of this encoding to enable sophisticated
searches, going considerably beyond the standard word and phrase
searches. For example: in the three editions here discussed we know exactly what and how many manuscripts have each variant, and we know
too what is present in other manuscripts at that variant. Therefore, we
can find answers to questions such as ›show me all the variants present in
manuscript X, in at least three of this group of manuscripts, and not in
manuscript Y‹. Furthermore, one can provide the same tool to the readers, and link this to commentary on each reading, as we did for the General Prologue on CD-ROM and as we are doing for the Miller's Tale on
CD-ROM.12
These are tools which might enhance our understanding of the many
texts, and how they relate to one another, and which we might also use
to help others understand them for themselves. But the vast quantities of
digital information generated by digital photography and related technologies open up possibilities for whole new areas of analysis. We may
have – indeed, we already do have – full digital image records of complete texts, even complete traditions, showing in full colour and in remarkable detail everything that can be seen on the page, and even things
which can not ordinarily be seen on the page. There are many tools for
digital pattern recognition (in every optical character reader package, for
instance) and obvious opportunities (once more) for application of these
to automated analysis of typeface and manuscript hands, analysis of print
and manuscript page layout, analysis of decorative and bibliographic detail such as ornamentation and watermarks. Further, advanced mathematical analysis might find patterns in the data and so illuminate the
physical processes attending the creation of print and manuscript book,
and reveal the links between print and manuscript workshops, between
compositor and compositor and scribe and scribe.13 Here too computer
12
13
Elizabeth Solopova (Ed.): The General Prologue on CD-ROM. Cambridge: Cambridge University Press 2000. [CD-ROM].
The HUMI project at Keio University, Tokyo, is collaborating with computer scientists to search out ways of applying pattern recognition algorithms to aid recognition
of distinct sorts in incunable founts. An electronic prototype was presented by Satoko
Tokunaga and Tomohiro Kishida at the conference New Technologies, Old Texts
135
visualization tools may make these discoveries accessible in dramatic new
ways. For long, we have been used to seeing data in list form: lists of
variants, lists of manuscripts: essentially, in a single linear dimension.
Occasionally, tables of relationships might offer views in two dimensions, of graphs, networks, and trees. But computer displays can already
offer us the illusion of a third dimension: imagine how we might see a
single text, with the variants from other texts receding into the distance,
or coming forward to the reader, with colours and shadings indicating
yet further dimensions.
We may now make editions such as these: editions which present materials which can be dynamically reshaped and interrogated, which not
only accumulate all the data and all the tools used by the editors but offer these to the readers, so that they might explore and remake, so that
product and process intertwine to offer new ways of reading. A start has
been made towards such editions (notably, the Canterbury Tales Project
editions of the General Prologue and Miller’s Tale), but we have still
much to learn about tuning the interfaces for the readers who may use
them. The tools to make these editions are proven, and are now available
to others.
While this may be revolution enough for some, I believe electronic
editions in the next decades will undergo a still greater revolution than
any I have already outlined, a revolution for which there are as yet no examples, and hardly any tools. So far, every electronic edition I know has
had this fundamental similarity with the print editions of the last centuries: electronic editions, like print editions, are static objects. There is an
act of closure, a publication. At that point the text, all text, all encoding,
is frozen, either in the printed pages or in the computer files which compose the edition. Of course, electronic editions as I have been describing
them permit an infinity of differing views and manipulations. But these
are views onto and manipulations of unchanging data. Certainly, one can
change the edition, by altering the underlying computer files and republish, over and over again. In practice, in many instances this does not
happen at all: in paid-for publications in particular, electronic publication
(like print publication) is usually a once-only affair, with few publications
running to a second edition. Further, the cost of making even the smallest change may be disproportionate. Just to change one word, or even
only one letter, might mean you have to remake the entire publication –
again, as in print publication. Perhaps even more significantly: almost al(Leicester, July 2003). The same group has also employed digital collation, comparing
digital images of separate copies of printed editions, to great effect; a presentation was
given of this by Mari Tomioka at the July 2001 Early Book Society Conference, Cork.
136
Peter Robinson
ways, the only people who can make any such change are those responsible for the initial publication. Usually, too, the full text and encoding is
just not available to anyone but the original makers. It is held in some
›back end‹, while the reader is given access only to an interface abstracted
from this, and not to the full text itself. Even if you do have access to the
full original text and its encoding: changing it, then republishing it all, are
delicate operations, usually requiring considerable resources of knowledge, software and hardware.
So pervasive is this model that discussion of the long-term viability of
these editions has centred on means of preserving these files. Indeed, in
the UK an elaborate data infrastructure has been established, through the
Arts and Humanities Data Service, exactly to ensure that the masses of
computer files which are generated through scholarly projects have a
long-term home.14 Similarly, debate on how such files are to be made –
what form they should have, how they should be encoded – has been
dominated by questions of ›long-term archivability and interoperability‹.15
An unfortunate result of this preoccupation is that sometimes it appears
that projects are made more for archives than for users: that it is more
important the data be in the ›right format‹ for the archive (usually, TEI
encoded XML or SGML) than that the object be usable now. There is a
winning simplicity about this model. These computer files are singular
and discrete objects, just as books are. So, all we have to do is archive the
files in some form of electronic repository, in the same way as we archive
books in libraries, and we are done.
If we add to these electronic archives a publishing function – since the
data will be in standard form, then it can all be published using standard
tools – then we appear to have closed the circle. Thus, both STOA and
the AHDS service providers permit varying forms of publication direct
from their sites. In the last years, massive effort has gone into the making of electronic texts of all kinds. In the UK, many large scholarly projects have received considerable funding for making electronic scholarly
materials, and the chief funder of this, the Arts and Humanities Research
Board, has made it a condition of funding that these digital products
14
15
See <http://www.ahds.ac.uk> (3.2.2004). The AHDS consists of an executive and
five ›service providers‹, covering the whole range of the humanities. For electronic
scholarly editions, the relevant service provider is AHDS Literature, Languages and
Linguistics, hosted by the Oxford Text Archive. In the US the STOA consortium has
a similar aim see <http://www.stoa.org/> (3.2.2004) and there are analogous efforts
in many countries.
Thus, this statement from the STOA Consortium: its criterion of technical excellence
aims ›to help promote good practices (defined as those which enhance long-term archivability and interoperability)‹. <http://www.stoa.org/review> (3.2.2004).
137
must be deposited with the AHDS. We should expect then a flood of
these into the AHDS, with many electronic texts being deposited with
AHDS Literature, Languages and Linguistics.
But this is not what appears to be happening. Consider the AHDS
Literature, Languages and Linguistics provider, hosted by the Oxford
Text Archive (OTA). The OTA is the oldest electronic text centre for
scholarly materials, founded in 1976 by Lou Burnard. It now has close to
2.500 electronic texts. One would expect that most of these would have
been deposited in the last few years, as activity in making electronic texts
has increased. Yet the reverse is the case. Texts deposited in the OTA
are given a sequential identifier, and their dates of deposit recorded in
the TEI header prefixed to each, so that one can calculate rates of deposit.16 Text identifier number 1.758 in the Oxford Text Archive is the
Aeneid, deposited in March 1993. That is: in the first seventeen years of
the OTA, some 1.750 texts were deposited at a rate of around 100 a year.
We are now (19 December 2003) up to identifier 2.469. That is: a further
711 texts have been deposited in ten years, a rate of 70 a year. It appears
that the rate of deposit has actually fallen in the last ten years. Even more
remarkable: not only has the rate fallen, but in the last years it has slowed
almost to nothing. Text 2.453 is Fontes Anglosaxonici, deposited in September 2002: in fifteen months since then, only sixteen texts have been
deposited.
Why is this? A well-resourced and well-run archive has been established, just to receive electronic scholarly texts; a huge number of such
texts are being made; but the scholars who make them are not putting
them in the archive. Of course, we can see why: many texts (most of the
texts in the OTA, in fact) were deposited before the web arrived. As the
web has matured, and as the tools for publishing on the web (and in CDROM) have improved, these texts are appearing on the web. This is indeed perfectly reasonable. If you can publish on the web where anyone
can find and use your text, why deposit in an archive?
This suggests that there is something deficient in the model, of making single discrete computer files whose content is frozen and then de16
In fact, the correspondence between the sequence of identifier numbers in the OTA
and the dates given in the TEI header for the accession is not strict, apparently because while the identifier may reflect absolute sequence of accession, the dates appear
to reflect dates of cataloguing, not first accession. However, generally the two appear
sufficiently close to use the dates and identifier numbers as I have, to indicate rates of
accession. If anything, this analysis understates the number of texts submitted before
1993, as it appears that many texts catalogued after 1993 were actually deposited well
before this: thus text 2.405 (Euripides' Andromache), catalogued in October 2000, was
originally part of text 242, deposited in 1976.
138
Peter Robinson
posited in archives. An alternative model is that of the ›digital library‹:
these files are accumulated into large digital collections and published together on the web (perhaps with pay-for access). This solves a key difficulty with the archive model: archives typically provide the data but no
tools; digital libraries may offer display and search tools for the data. But,
the plethora of digital libraries appearing on the web in many different
forms has created a new difficulty: each comes with its own encoding, its
own tools, its own conventions. Obviously, we want to draw materials
from different digital libraries: to combine this material from that digital
library with that from this digital library. Hence, the massive current interest in ›interoperability‹ (a Google search for this word on 19 December 2003 turned up over a million hits; searching for ›interoperability
digital libraries‹ gave 75.000 hits). Yet really, all we are doing with digital
libraries is replicating, on a yet larger scale and in yet more fixed form,
the notion of the scholarly object as a closed entity: we may pile it together with other like and unlike objects, we may display it in various
ways, we may retrieve it, (hence, the emphasis in ›interoperability‹ studies
on search strategies), but in a digital library the object itself is even further from the individual reader.
Why does this matter? Consider what a scholar, or any reader, might
want to do with an electronic text: for example, with the electronic edition of the Commedia of Dante Alighieri we are making. We are providing transcripts and collations of seven manuscripts and two modern editions, with many tools for searching and viewing these. But we are not
providing any commentary or any translation. A reader might want to attach commentary, annotations, or translations to any point of our edition, or indeed throughout. There are many more manuscripts, many
more editions: a reader might wish to import these whole into our edition, with all links functioning so that there is no distinction of interface,
and all tools work for the new as for the old. We do not, ourselves, offer
our own edited text. But the reader may wish to make his or her own edited text, perhaps by taking over an existing edition and substituting his
or her own readings at various points. Further, although we have put
massive effort into our transcripts and collations, there will be errors
within them. It should be possible for the reader to correct these, or
supply new readings, but yet to have all the commentaries and translations attached to these points still function (or, if they are rendered out
of date, fail gracefully). The reader may want to do much more than just
alter text here and there, too. The Commedia contains hundreds of
names, of people and places. An obvious task is to encode all these, to
enable all kinds of data analysis and linking (with, for example, external
139
exegetical materials). We have done none of this, but a reader may well
want to do it, and then build his own work on top of it.
In effect, this model suggests that I, as a reader, want to make ›your‹
edition ›my‹ edition; and that I, as an editor, want you to make ›my‹ edition ›your‹ edition. Further: suppose I put all this effort into making ›my‹
edition from ›your‹ edition: correcting many readings, adding whole new
layers of encoding, linking commentaries and translations. Then, I may
want to publish this. The next reader might then want the choice to strip
out all or some of my augmentations, then may choose to add his or her
own materials on top of all or some of mine, and then wish to publish
this too.
This view of what editions might be some time in the future opens up
many possibilities. A school-teacher wants to build a lesson about a
scene from Hamlet: in a few minutes, he or she could combine different
versions of key lines of the text, linked with images of those lines in the
Folio and Quarto prints, commentaries, images of performances. The
students could take this, and add more to it for themselves, so that each
creates a unique window on this part of Hamlet. A scholar preparing a
scholarly article similarly could not only attach links to the edition, but
could attach his or her own links from the edition to sections of the finished article, which others could follow as they choose.
There appear to me to be huge benefits in this approach. Scholarly editing has for centuries distinguished between editors and readers: we, the
editors, are gifted with special access to the materials, and we are licensed
by the academy to make editions which you, the readers, accept. This
approach attacks this distinction. All readers may become editors too,
and all editors are readers before they are editors. This does not propose
that all readers should become editors all the time: most of us will be
content to accept, most of the time, what Gabler tells us about Ulysses,
or Werner tells us about Dickinson. But any good reader must sometimes be an editor. Gaps may also appear in other barriers, long present
within the academy: that between ›documentary‹ and ›critical‹ editing,
that between textual scholarship and literary scholarship. We are all engaged in the business of understanding: distributed editions fashioned
collaboratively may become the ground of our mutual enterprise.
Another benefit is that this offers the best solution to the question of
the long-term usability of editions. The best guarantee that an electronic
edition should remain usable is that it should be used. A computer file
deposited in an archive where its survival depends entirely on the internal routines of the archive is vulnerable. One break in those routines and
the file could go the way of the thirteenth century in the 1975 film Rol-
140
Peter Robinson
lerball (where all history has been put on a computer which one of the
characters visits in search of information about the thirteenth century,
only to discover that due to a computer fault ›We have just lost the entire
thirteenth century‹).17 We could put our work on the Canterbury Tales
into the Oxford Text Archive, and it would last as long as the archive,
which itself will last slightly longer than its public funding. Or, we could
put it on the internet in a manner that allows it to be appropriated by
others, augmented, corrected, infinitely reshaped. In the first form, in the
archive, it would stay exactly as I left it, but rather few people would use
it. In the second, after a few years we might hardly recognize our creation – but many would have used it, and the more people who have used
it the more it will have changed.
The brief history of computing so far is that if something is worth doing, and it can be done, then it will be done, no matter how difficult the
task. The success of optical character reading techniques, or digital imaging manipulation software, testifies to this. What I describe here appears
worth doing and there is nothing theoretically impossible in this vision.
We are dealing only with the manipulation of known data. But it will be
difficult, perhaps horrendously so. One thing alone: presently, almost all
the textual data on which one would build such co-operative texts is encoded in XML. XML notoriously supports but one hierarchy per document. This was always a bad idea in the humanities, but we have learnt
ways of living with it, in our hermetic world of separate documents, each
with its own hierarchy and with its own set of workarounds.18 But for
this vision to work, we will have to overlay document on document: to
infiltrate new encodings from one document into another so that they
cut across the fixed hierarchy fixed within it (for example: encoding a
metaphor which runs across line and paragraph divisions). We will have
to work out methods of inheritance to cope with situations where editor
17
18
See the review at <http://www.dvdtimes.co.uk/reviews/region1/rollerball.html>
(3.2.2004). The keeper of the archive is played by Sir Ralph Richardson, and the full
line is: »We've just lost the entire thirteenth century. Still, nothing much there apart
from Dante and a few corrupt popes.«
A large literature of complaint has grown up around this particular deficiency in XML
(and, earlier, SGML) software. Papers at the August 2002 Extreme Markup conference
by Jeni Tennison, Wendell Piez and Patrick Durusau addressed this
(<http://www.extrememarkup.com/extreme/2002/schedule.asp> (3.2.2004)). There
is a full discussion of the issue, with references to many papers discussing it, at
<http://xml.coverpages.org/hierarchies.html> (3.2.2004). Of particular note is David
G. Durand/Steven J. DeRose/Elli Mylonas: What should markup really be? Applying
theories of text to the design of markup systems. at <http://xml.coverpages.org/
Durand-markup-abridged.html> (3.2.2004).
141
A attaches commentary to line x; editor B changes a word in line x, or
removes it entirely: what happens to the commentary? We will have to
work out procedures for labelling exactly who did what to the text and
when, and we will have to fold in capacities for reversion: to return to
previous versions, to see the text as made by a particular editor at a particular moment.
Above all, we will have to work co-operatively, with all this implies for
academic practice, for publication and accreditation strategies, and for
copyright and authority controls.19 Who authorizes changes? What parts
of the edition are held where; who ›owns‹ what? Existing electronic editions, like print editions, are discrete collections of data, which can be
physically located in a single place: on a single disc or server. These fluid
and co-operative editions will be distributed: every reader may have a different text, and for any screen the text may come from many different
places – a manuscript transcription from one site, a layer of commentary
from one scholar, textual notes and emendations form another, all on
different servers around the globe. In a sentence: these will be fluid, cooperative and distributed editions, the work of many, the property of all.
None of this will be easy, and no scholarly edition like this yet exists.
The nearest analogy may be the Romantic Circles website, but this does
not permit the kinds of collaborative revision of the contents here envisaged – rather, it is a collection of many parts, each separately owned.20
However, there are already systems in place which do some of what I
here describe. Content management systems permit cooperative work,
albeit (usually) within closely defined communities. Version control systems exist offering reversion capacities such as those I here outline,
though I know of none that permit filtering at the level of the individual
markup event. Of course, we do have many search systems, but I know
of none that will combine text and markup from separate documents
19
20
Just one instance of what must change: transcriptions of the original source documents
are fundamental to many electronic editions. In the case of the Canterbury Tales Project, one of the partner institutions has insisted on ownership of transcriptions originated by staff and students working on the project at that institution. This alone could
derail the forms of collaboration I here outline. A solution to this has been suggested
by the HyperNietzche project, where Paolo D’Iorio has suggested an ›open transcription policy‹ to meet exactly this case. See Paolo D'Iorio: HyperNietzsche. Modèle d'un
hypertexte savant sur Internet pour la recherche en sciences humaines. Paris: PUF
2000.
A yet closer instance, though as yet less mature, may be the Tibetan and Himalayan
Digital Library project, led by David Germano at the University of Virginia. See
<http://iris.lib.virginia.edu/tibet/collections/literature/nyingma.html> (3.2.2004) accessed 9 January 2004.
142
Peter Robinson
and search on the combination, with each search refashioning itself as
the markup and text changes. There is much to do. As yet, we are not
even agreed what path to follow towards this goal: should we try to create a single architecture, which all must use? Or, should we fashion
something like a tool set, an infrastructure which may be used to make
what editions we please? Or do we need something yet more anarchic:
what Michael Sperberg-McQueen describes as a ›coral reef of cooperating programs‹, where scattered individuals and projects working ›in a
chaotic environment of experimentation and communication‹ yet manage to produce materials which work seamlessly together. Unlikely as it
sounds, and untidy as it may seem to those used to ordered programs of
software and data development, with the neat schedules of workpackages so admired by grant agencies, this last may be our best hope.
This model has certainly worked in the software world, where open
source software developed in the last years under these conditions drives
large sections of the community.21
21
Sperberg-McQueen's comments come from his ›Trip report‹ on the Text Analysis
Software Planning Meeting‹ held at Princeton, 17-19 May 1996, at <http://tigger.
uic.edu/~cmsmcq/trips/ceth9505.html> (3.2.2004). The paragraphs containing the
›coral reef‹ analogy are worth quoting in full: »I realized … that I no longer felt a systematic top-down definition of architecture was realistic, or even necessarily desirable.
If it delays experimentation with new modules, it is emphatically undesirable. What is
needed is a commitment to cooperative work among developers in a chaotic environment of experimentation and communication. If we were building a closed, monolithic
system, planning and prior agreement about everything would be as desirable as they
always are in software engineering. But the one point on which everyone seems agreed
is that we need an open, extensible system, to work with texts we have not read yet, on
machines that have not been built yet, performing analyses we have not invented yet.
This is not a system for which we can plan the details in advance; its architecture, if we
insist on calling it that, will be an emergent property of its development, not an a priori
specification. We are not building a building; blueprints will get us nowhere. We are
trying to cultivate a coral reef; all we can do is try to give the polyps something to attach themselves to, and watch over their growth. – In practice, I think this means that
what is needed is regular communication among developers writing software for textual analysis who are willing to make a shared commitment to cooperation, reuse and
sharing of code, and interoperability among their programs. The goal should be to
grow a coral reef of cooperating programs, not to attempt to decide in advance what
scholars will need and how software should meet those needs. Improvisation and social pressure to Do the Right Thing are important, as are the programmer's cardinal
virtues of laziness, impatience, and hubris (which can, properly channeled and supported by communication, lead to effective reuse and improvement of modules). Not
all developers will be willing or able to do this, though I think enough are to make it
worth while.« I owe this reference to Peter Shillingsburg (who should also have the last
word in this paper).
143
Will this, then, be the end of our quest? Sometimes it seems that we
are explorers moving towards an ever-receding horizon. In the mid-80s
we thought that what we needed was a scheme for encoding, and systems for digital capture both of text and images. By the mid-90s we had
those, and we then began to think that we needed better interfaces and
better tools. Now, we have those, and now I think we need to be able to
make fluid, co-operative and distributed editions. When we have those,
perhaps we will need something more – perhaps there will always be
something more.
Norbert Fuhr
Information Retrieval Methods for Literary Texts
Abstract
Information retrieval focuses on content-based searching in text documents. For this purpose, first text content must be represented, by using
a representation language (like thesauri or classification schemes) or by
performing free-text search. The latter approach uses either string-based
or computer-linguistic methods (stemming, dictionary lookup, syntax
analysis). For retrieval, weighting and ranking methods give better results
than Boolean retrieval, and some of them also allow for relevance feedback. Retrieval of XML documents requires new methods for support
weighting and ranking, specificity-oriented search, data types with vague
predicates and vague structural conditions.
1. Introduction
Information Retrieval (IR) deals with vagueness and uncertainty in information systems. The most important application of this concept is
content-based retrieval of texts. In this paper, we will give an introduction into the state of the art of text retrieval.
Text retrieval consists of two major tasks:
1. Content representation: In order to allow an IR system to perform
retrieval, first the content of the text documents must be represented
in some form (e.g., as a set of words).
2. Indexing and retrieval: Given the representations of documents, the
system retrieves documents by comparing their representations with
the query (given e.g., as a Boolean combination of words).
The following two sections deal with these two steps. In section 4, we
describe the extension of these concepts for the case of XML retrieval.
2. Text Representation
In principle, there are two basic approaches for representing the content
of texts: Either the system searches directly in the natural language texts
146
Norbert Fuhr
(so-called ›free text search‹), or a specific representation language is introduced, onto which documents and queries have to be mapped.
Examples of representation language approach are classical schemes
like classification and thesauri, as well as new languages developed in the
context of the ›Semantic Web‹, like e.g. RDF [Miller 98]. Although representation languages may be able to overcome some of the limitations of
the free text approach, there are two major drawbacks:
• The mapping problem: Creating the representation of a document
still has to be performed manually in most cases (for classifications,
there are good automatic methods, but they need at least training
samples of reasonable size).
• Handling of uncertainty and vagueness: especially for the new representation languages, appropriate methods are not available yet, and so
these approaches still struggle with the well-known problems of Boolean retrieval (see also next section).
In this paper, we will focus on free text search. Retrieval problems in this
area are caused by inflected and derived forms of words, synonyms,
homonyms, compound words and noun phrases.
Most of today’s systems (e.g. Web search engines) still use a string
processing approach: First the text is split into a sequence of words (delimited by blanks or punctuation symbols). Besides searching directly for
these words, there are truncation and context operators: The former apply string matching on single words, in order to deal with inflected and
derived forms (e.g. ›comput*‹ would search for all words starting with
the letters ›comput‹, like computer, computing). Context operators consider the sequence of words and allow for specification of word distance
or word order, in order to handle noun phrases (e.g. ›computer adj(2)
systems‹ would allow for up to two words occurring between ›computer‹
and ›systems‹).
The computer linguistic approach applies linguistic methods at the
morphological and syntactical level of texts. Morphology deals with inflected and derived forms of words. Here stemming methods aim at reducing words to their non-inflected form or to their word stem. For
many languages, the corresponding algorithms are string-based, like the
popular Porter stemmer for English [Porter 80]* or the GERTWOL system for German [Haapalainen & Majorin 94] (e.g. a stemmer for English
might contain the rule ›ing‹ → « for reducing verbs to their infinitive).
However, for heavily inflected languages like e.g. German or Finnish,
dictionary-based methods may be more appropriate; in this case, the dictionary contains e.g. the reduced word form and a reference to the rule
147
set for generating the inflected forms (like e.g. the MORPHIX system
for German [Finkler & Neumann 86]).
Dictionaries are also used for disambiguation of homonyms. For
English, the WordNet system1 has been used by several researchers in
order to solve this problem. However, none of them has been able to
show that this approach improves retrieval quality (partly due to the uncertainty with which this disambiguation can be performed). So word
sense disambiguation still is an open issue.
At the syntactical level, methods from computer linguistics are used
for analyzing noun phrases, i.e. deciding whether a noun phrase from the
query occurs in the text (e.g. in the text passage ›...storing images and text
retrieval‹, the phrase ›image retrieval‹ would be located by context operators, but not by a syntactic method). So far, work in this area has not
produced convincing results, thus the most effective retrieval methods
still do not consider phrases at all.
So state-of-the-art retrieval systems mainly use stemming methods for
transforming a text into a sequence of words in reduced form. This sequence, in turn, is regarded either as a set or a multi-set (with multiple
occurrences of elements) of so-called terms, which forms the input to
the indexing step.
Below, we give an example of this procedure. Assume that we have a
document with the following text:
Experiments with Indexing Methods.
The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known.
Here we have underlined the so-called stop words. Since they do not
carry any meaning, but make up roughly 50 % of the text, they are usually excluded from the further processing:
experiments indexing methods analysis indexing algorithms produced consistent retrieval performance best indexing technique
retrieving documents known.
The derivative endings are underlined here, which are removed by the
stemming algorithm, thus yielding:
experiment index method analys index algorithm produc consistent retriev perform best index techni retriev document.
1
<http://www.cogsci.princeton.edu/~wn/> (22.1.2004).
Norbert Fuhr
148
Transforming this result into a multi-set, we finally get
[(algorithm,1), (analys,1), (best,1), (consistent,1), (document,1),
(experiment,1), (index,2), (method,1), (perform,1), (produc,1),
(retriev,2), (techni,1)]
3. Indexing and Retrieval
Given a document representation as described above, indexing deals
with the problem of assigning weights to the terms in the representation.
These weights, in turn, are used by the retrieval method for computing a
retrieval status value (RSV) for a document with respect to a given
query. Then documents are ranked according to ascending RSVs.
In binary indexing (e.g. used in Boolean retrieval), each term in the
representation is assigned a weight of 1, and all other terms get a zero
weight. However, this method does not distinguish between ›important‹
words of a document and those that occur just by chance.
For many years, heuristic methods for document indexing have been
developed. Most of them are based on the following general ideas:
1. The less frequent a term occurs in a document collection, the more
significant it is.
2. The more frequent a term occurs in a document, the more important it is for this document.
3. Since longer documents contain more (and more frequent) terms,
these terms should be given lower weights than in shorter documents.
Based on these concepts, different variants of the so-called
weighting formula have been developed. Here we give a typical example. Let
denote a term and a document, then we define the following parameters:
set of terms occurring in ,
length of document ,
average length of a document in the collection,
document frequency of (number of documents containing ),
within-document frequency of term in document ,
number of documents in the collection.
149
Now the significance of term in a collection can be measured by the inverse document frequency, which is defined as follows
The normalized term frequency measures the relative importance of
term in the document :
Then the document indexing weight of term in document
as the product of these two parameters:
is defined
Once the documents are indexed, retrieval can performed. Classical retrieval systems are using Boolean retrieval for this purpose, but formulation of Boolean queries is very difficult for inexperienced users; moreover, the resulting retrieval quality is rather poor. For this reason, most
current retrieval methods use linear query formulations, where a query is
just a set of terms.
The most popular retrieval model is still the vector space model [Salton 71], based on a geometric interpretation where documents and queries are points in a vector space spanned by the terms of the collection.
(see Figure 1).
Figure 1: Query and document vectors in the vector space model
Norbert Fuhr
150
Let
denote the set of terms occurring in the collection,
, where is the
then a document is represented as a vector
indexing weight for the term , as given by the indexing function described above. In a similar way, a query is usually represented as a vector
; here the weights denote the number of occurrences of
the term in the query formulation given by the user.
Based on these specifications of document and query vectors, the retrieval function computing the RSV for a query-document pair can be
defined as a vector similarity measure. Figure 1 shows an example where
document is obviously more similar to the query than document
(e.g. measured by the angle between query and document vector). In
most cases, the scalar product is used as similarity measure:
term
information
retrieval
literary
text
1
1
1
1
0.3
0
0.3
0.1
0.3
0
0.2
0
0.3
0.5
0.4
0.1
0
0
0.5
0.2
0.3
0.1
0.2
0.8
Table 1: Retrieval example for the scalar product retrieval function
Table 1 shows an example with the query ›information retrieval literary
text‹ and four documents.
Figure 2: Relevance feedback in the vector space model
151
In general, this method gives already a very high retrieval quality. Further
improvements are possible by applying relevance feedback. This method
assumes that the user first submits a query and then judges the relevance
of some of the answer documents. Based on these judgments, it modifies
the query term weights and performs another retrieval run, which typically leads to a significantly higher retrieval quality. In the vector space
model, the system computes the centroid of the relevant documents as
( ) denote the set
well as the one of the irrelevant documents. Let
of relevant (irrelevant) Documents, then the two centroids can be computed as
Theoretically, the optimum query vector now is defined as the connect. Figure 2 shows an examing vector of these centroids, i.e.
ple, where relevant documents are marked as ›+‹ and irrelevant ones as ›
– ‹; all documents on the dashed line (which is perpendicular to the optimum query vector) are given the same RSV (note that the optimum
vector in our example does not achieve a perfect separation of relevant
and nonrelevant documents). However, the optimum query vector does
not yield good results when applied to the remaining documents in the
collection (which is the major purpose of relevance feedback). This effect is due to overfitting to the (usually small) training sample of judged
documents. In order to avoid this problem, a heuristic combination of
this optimum vector and the original query vector is computed, where
also relevant and irrelevant documents are given different influence. Let
denote the original query vector, then the improved query vector is
computed as
Here and are heuristic constants, which have to be set according to
the type of the collection and the number of documents actually judged
(e.g.
and
).
4. XML Retrieval
Since a few years, documents in XML format are available. This document format allows for logical markup of texts both at the macro level
and at the micro level, where the former describes the overall logical
Norbert Fuhr
152
structure of the document down to the paragraph level (e.g. chapter, section, paragraph) and the latter is used for marking one or multiple tokens/terms for describing their special semantics (e.g. linguistic categories of words or phrases).
Thus, there is the need for retrieval methods that take this structure
into account, by allowing for query conditions referring to the content of
specific elements or specifying the type of the result elements.
For describing the XML retrieval concepts, we use an example XML
document along with its visualization as a tree structure shown in Figure 3, where elements are shown as ellipses and the content of leaf nodes
(the document text itself) is depicted as rectangular boxes with round
corners.
<book>
<author>John Smith</author>
<title>XML Retrieval</title>
<chapter>
<heading>Introduction</heading>
This text explains all about XML and IR.
</chapter>
<chapter>
<heading>
XML Query Language XQL
</heading>
<section>
<heading>Examples</heading>
</section>
<section>
<heading>Syntax</heading>
Now we describe the XQL syntax.
</section>
</chapter>
</book>
book
chapter
chapter
author
title
John Smith
heading
XML Retrieval
Introduction
This. . .
heading
section
section
XML Query
Language XQL
heading
heading
Examples
Syntax
We describe
syntax of XSL
Figure 3: Example XML document tree
As a basic query language, the World Wide Web Consortium (W3C) has
defined XPath [?], which we explain briefly in the following. XPath retrieves elements (i.e., subtrees) of the XML document fulfilling the speci-
153
fied condition. The simplest kind of query specifies elements by giving
their names, for instance, the query heading retrieves the four different
heading elements from our example document. Context can be considered by means of the child operator ›/‹ between two element names,
so section/heading retrieves only headings occurring as children of
sections, or by the descendant operator (›//‹), so that book//heading
finds headings which are descendants of a book element. Wildcards can
be used for element names, as in chapter/*/heading. A ›/‹ at the beginning of a query refers to the root node of documents (e.g. the query
/book/title specifies that the book element should be the root element of the document).
The filter operator (denoted with square brackets) filters the set of
nodes to its left. For example, //chapter[heading] retrieves all chapters which have a heading. (In contrast, //chapter/heading retrieves
the heading elements of these chapters.) Explicit reference to the context
node is possible by means of the dot (.): //chapter[.//heading]
searches for a chapter containing a heading element as descendant.
Square brackets are also used for subscripts indicating the position of
children within an element, with separate counters for each element type;
for example //chapter/section[2] refers to the second section in a
chapter (which is the third child of the second chapter in our example
document). In order to pose restrictions on the content of elements and
the value of attributes, comparisons can be formulated. For example,
/book[author = »John Smith«] refers to the value of the element
author. For considering the sequence of elements, the operators before
and after can be used, as in //chapter[section/heading =
»Examples« before section/heading = »Syntax«].
These features of XPath allow for flexible formulation of conditions
with respect to the structure and the content of XML documents. The
result is always a set of elements from the original document(s).
From an information retrieval point of view, however, XPath lacks a
number of features in order to support vagueness and uncertainty in this
area:
•
•
•
•
weighting and ranking,
specificity-oriented search,
data types with vague predicates,
structural relativism.
154
Norbert Fuhr
We have developed the query language XIRQL and the retrieval engine
HyREX2 which extend XPath by these features. Below, we describe each
of these issues.
Weighting and ranking. As discussed before, document term weighting
as well as query term weighting are necessary tools for effective retrieval
in textual documents. So query conditions referring to the text of elements should consider index term weights. Furthermore, linear query
formulations with query term weighting (as in the vector space model
described above) should also be possible, by introducing a weighted sum
operator (e.g. 0.6 »XML« + 0.4 »retrieval«). These weights should be
used for computing an overall retrieval score for the elements retrieved,
thus resulting in a ranked list of elements.
The basic idea for assigning indexing weights to document terms is
that the weight of a term depends on its context. So we split up a document into disjoint contexts which we call index nodes; based on the
DTD, index nodes are specified by giving the names of those elements
that form the roots of important and ›semantically coherent‹ subtrees of
XML documents. Figure 3 shows an example where index nodes are
marked as dashed boxes. For each term in such a context, the indexing
weight is computed by using standard weighting functions like e.g.
.
Specificity-oriented search. The query language should also support traditional IR queries, where only the requested content is specified, but not
the type of elements to be retrieved. In this case, the IR system should
be able to retrieve the most relevant elements, which are typically the
most specific elements that satisfy the query. In the presence of weighted
index terms, the tradeoff between these weights and the specifity of an
answer has to be considered, e.g. by an appropriate weighting scheme.
For this purpose, we introduce the concept of augmentation. The index weights of the most specific index nodes are given directly. For retrieval of the higher-level objects, we have to combine the weights of the
different text units contained. When propagating indexing weights to the
higher-level objects, they are down-weighted (multiplied by an augmentation weight), such that, in general, more specific results get higher retrieval weights.
In addition, since not all elements of a document may be reasonable
answers for specificity-oriented queries, we restrict the set of possible
answers to the roots of index nodes. For example, consider the specificity-oriented query ›syntax example‹. In the document shown in Fig2
<http://www.is.informatik.uni-duisburg.de/projects/hyrex/index.html> (22.1.2004).
155
ure 3, there is no single index node matching this query; however, the
rightmost chapter satisfies all conditions, when we propagate the weights
of the two query terms up to this level. In contrast, a query for ›XSL‹
would yield the highest weight for the last section, whereas the comprising chapter would be returned with a lower weight.
Data types and vague predicates. The standard IR approach for weighting supports vague searches on plain text only. XML allows for a fine
grained markup of elements, and thus, there should be the possibility to
use special search predicates for different types of elements. For example, for an element containing person names, similarity search for proper
names should be offered; in technical documents, elements containing
measurement values should be searchable by means of the comparison
predicates and operating on floating point numbers. Thus, there
should be the possibility of having elements of different data types,
where each data type comes with a set of specific search predicates. In
order to support the intrinsic vagueness of IR, most of these predicates
should be vague (e.g. search for measurements that were taken at about
20 C).
We characterize data types by their sets of vague predicates (such as
phonetic similarity of names, English versus French stemming). In principle, data types with vague predicates generalize text indexing methods
for all kinds of data. Thus, the considerations regarding the probabilistic
interpretation of weights apply here as well.
Structural relativism. In order to allow for vagueness in connection
with structural query conditions, we include methods for supporting
structural relativism. For example, a user may wish to search for a value
of a specific data type in a document (e.g. a person name), without bothering about the element names; based on our notion of datatypes, we allow for searches covering all elements of a specific data type.
As a more general approach, we are considering semantic relationships between element names. Specifically, hierarchies over elements can
be modeled. For example, consider a query with a similarity search condition region »India« . Here region is an element name that needs to
be matched, with the additional condition that the element content contains the term »India«. The unary similarity operator denotes that the
element name does not need to occur literally but should rather be
matched ›semantically‹. Assuming that region is a sub-property of the
more general element named geographic-area, which in turn has additional sub-properties continent and country, we would expand the origi-
156
Norbert Fuhr
nal element name region into the disjunction region
nent.
country
conti-
5. Summary and Conclusion
In this paper, we have given a brief survey over current IR methods. By
taking into account the intrinsic uncertainty and vagueness of IR, simple
representation schemes and statistical indexing and retrieval methods
yield a good retrieval quality and outperform more ambitious approaches. For retrieval of XML documents, appropriate methods have
been developed recently.
Both for retrieval of unstructured text (TREC3) as well as of XML
documents (INEX4), there are evaluation initiatives where dozens of research groups apply their retrieval methods on the same test collections,
thus yielding valid statements about the quality of the different approaches.
For more details about the methods mentioned in this article (and alternative approaches not described here), the reader should consult a
standard IR textbook like e.g. [Baeza-Yates & Ribeiro-Neto 99], [Belew
00], and [Ferber 03].
References
Baeza-Yates, R./Ribeiro-Neto, B.: Modern Information Retrieval. Addison
Wesley 1999.
Belew, R.: Finding Out About. A Cognitive Perspective on Search Engine
Technology and the WWW. Cambridge, UK: Cambridge University Press 2000.
Boag, S./Chamberlin, D./Fernandez, M.-F./Florescu, D./Robie, J./Simeon, J.:
XQuery 1.0: An XML Query Language. Technical report, World Wide Web
Consortium. <http://www.w3.org/TR/xquery/> 2002.
Buxton, S./Rys, M.: XQuery and XPath Full-Text Requirements. Technical report, World Wide Web Consortium. <http://www.w3.org/TR/xmlquery-fulltext-requirements/> 2003.
Clark, J./DeRose, S.: XML Path Language (XPath) Version 1.0. Technical report, World Wide Web Consortium. <http://www.w3.org/TR/xpath20/>
1999.
3
4
<http://trec.nist.gov/> (22.1.2004).
<http://www.is.informatik.uni-duisburg.de/projects/inex/index.html> (22.1.2004).
157
Ferber, R.: Information Retrieval. Suchmodelle und Data-Mining-Verfahren für
Textsammlungen und das Web. Heidelberg 2003.
Finkler, W./Neumann, G.: Ein hochportabler Lemmatisierungsmodul für das
Deutsche. Saarbrücken: Forschungsbericht 8, Universität des Saarlandes, FB Informatik 1986.
Haapalainen, M./Majorin, A.: GERTWOL: Ein System zur automatischen
Wortformerkennung Deutscher Wörter. Technical report, Lingsoft Inc.
<http://www.ifi.unizh.ch/CL/volk/LexMorphVorl/Lexikon04.Gertwol.html>
1994.
Miller, E.: An Introduction to the Resource Description Framework.In: D-Lib
Magazine 4/5 1998.
Porter, M. F.: An Algorithm for Suffix Stripping.In: Program 14 (1980), pp. 130137.
Salton, G.: (Ed.): The SMART Retrieval System – Experiments in Automatic
Document Processing. Englewood Cliffs, New Jersey: Prentice Hall 1971.
David S. Miall
Reading Hypertext.
Theoretical Ambitions and Empirical Studies
Abstract
Recent discussions of hypertext fictions have at times suggested that
conventional print literature is now superseded, that a computational approach to understanding is required, or that the principal source of influence on the reader is the material embodiment of the literary text
whether its medium is print or digital. Such arguments overlook the sophisticated array of reading processes that help direct a reader's engagement with any fiction text. Empirical and theoretical studies of reading
show that these include narrative expectations about character, plot, and
setting, and four types of feelings: evaluative feelings, feelings about narrative aspects, aesthetic feelings, and self-modifying feelings. Yet readings of hyperfictions so far have been limited mainly to aspects of plot.
In an analysis of one section of Caitlin Fisher's hyperfiction Waves of
Girls, the effect of the design of links, graphics, sounds, and other elements on reader's feelings and narrative expectations is examined. This
analysis suggests that readers of hyperfictions can be both immersed and
interactive, but that a better understanding of the reading processes that
facilitate this is required.
In the Electronic Book Review two years ago, Marku Eskelinen referred
to »the dead ends of hypertext theory and its posthuman derivatives«,
echoing a common assumption that earlier debates about the problems
of literary hypertext are now irrelevant. The founding arguments of authors such as George Landow, J. David Bolter, and Michael Joyce have
been superseded. Eskelinen's own mandate is to demonstrate the combinatorial properties of cybertext. This, he claims, will show »how the textual medium works«. He will achieve »this goal by approaching computers as computers, and not [...] as something completely different, be
that theatre, cinema, comics or (poorly read) continental philosophy«.1
1
Marku Eskelinen: Cybertext Theory and Literary Studies. A User's Manual. In: ebr 12
(Fall 2001). <http://www.altx.com/ebr/ebr12/eskel.htm> (23.1.2004). Nick Montfort, in agreement with Eskelinen, will show how an »analogy to the theory of computation demonstrates this«: Cybertext Killed the Hypertext Star. In: ebr 11 (2000/01)
160
David S. Miall
While it is true that earlier attempts to situate hypertext in relation to
poststructuralist text theorists such as Barthes or Derrida now seem misplaced, even naïve, I will suggest that the questions these accounts raised
about the status of hypertext have not been superseded so much as
abandoned.
Hypertext fiction, or hyperfiction as I will call it, continues to be written, with numerous websites devoted to either fictions or critical discussion; it has even broached the pages of the Norton anthology of postmodern American fiction (with excerpts from Michael Joyce and J. Yellowlees Douglas). Whether this signals its arrival on the stage of mainstream literature remains in doubt. As Stuart Moulthrop has recently
complained, »Why does no corporate publisher offer a line of hypertexts? [...] Electronic texts have indeed been marginalized, excluded, and
misrepresented by leading institutions of print culture.«2 Yet the active
and energetic presence of hyperfiction poses a challenge to our conceptions of what text is and how we might relate to it. In particular, it provides a significant new perspective on narrative techniques that have
long been familiar to us from traditional literature: hyperfiction defamiliarizes questions about narrator, focalization, temporal and spatial setting, and other elements. Thus the surprise for me, contemplating the
critical literature on hyperfiction, is how few systematic accounts have
been provided of the experience of reading it.3 By reading, I don't mean
proposals such as those of Jim Rosenberg, who elaborates a valuable
2
3
<http://www.altx.com/ebr/ebr11/11mon/index.html> (23.1.2004). See also N.
Katherine Hayles: Writing Machines. Cambridge, MA: MIT Press 2002, pp. 27-28.
Stuart Moulthrop: Electronic Books? In: ebr (2003). <http://www.electronicbook
review.com/v3/servlet/ebr?command=view_essay&essay_id=moulthroprip>
(23.1.2004).
Readings of Michael Joyce's Afternoon (Watertown, MA: Eastgate Systems 1987) are
provided by J. Yellowlees Douglas: The End of Books – Or Books without End? Ann
Arbor: University of Michigan Press 2000; by Silvio Gaggi: From Text to Hypertext.
Decentering the Subject in Fiction, Film, the Visual Arts, and Electronic Media. Philadelphia: University of Pennsylvania Press 1997; and by Jill Walker: Piecing Together
and Tearing Apart. Finding the Story in Afternoon. In: Hypertext (1999). New York:
ACM 1999. <http://cmc.uib.no/jill/txt/afternoon.html> (23.1.2004). Anja Rau in
Wreader's Digest: How To Appreciate Hyperfiction. In: Journal of Digital Information
1.7 (2000). <http://jodi.ecs.soton.ac.uk/Articles/v01/i07/Rau/> (23.1.2004) writes
about John McDaid's Uncle Buddy and Sarah Smith's King of Space; Marie-Laure
Ryan reads Joyce's Twelve Blue in Narrative as Virtual Reality. Immersion and Interactivity in Literature and Electronic Media. Baltimore: Johns Hopkins University Press
2001.
Reading Hypertext
161
theoretical description of readerly functions,4 but phenomenological accounts of the flows and disruptions of reading as these unfold in relation
to a specific hyperfiction.
This seems a central issue if we are to resolve some of the outstanding
questions about hyperfiction. But we are unlikely to find any help in Eskelinen's approach, where two typical strategies forestall attention to
reading. First, he confines text to a set of formal operations: he urges us
»to see a text as a concrete (and not metaphorical) machine consisting of
the medium, the operator, and the strings of signs«.5 Katherine Hayles
remarks, in a comment on Eskelinen's paper, that in this approach »cybertext theory elides materiality in order to create a template based on
function, generally casting a blind eye to how these functions are instantiated in particular media«.6
Second, Eskelinen disparages the texts of traditional or ›linear‹ literature, which he characterizes as »literary objects that are static, intransient,
determinate, impersonal, random access, solely interpretative and without links«.7 In these respects, Eskelinen's version of cybertext theory imposes a theoretical, computer-derived grid on its objects of study; moreover, it sacrifices the contribution that study of the actual richness, indeterminacy, and personal variability of literary reading would provide. Like
a modern-day Plato shaping his digital Republic in the image of the
computer, literary experience as we have previously known it is to be
banished. He is not alone: Friedrich Kittler also engages in the argument
that literature as we have formerly known it is superseded. Electronic
media, he remarks, ensure that »the hallucinatory power of reading and
writing has become obsolete«.8 But cutting hyperfiction off from the literary tradition seems shortsighted: as Hayles remarks, »To think of hypertexts [...] as depending primarily on computation for their effects is to
render them virtually unintelligible as works capable of making readers
care about the stories they tell.« What we require now, Hayles adds, is a
4
5
6
7
8
Jim Rosenberg: The Structure of Hypertext Activity. In: Hypertext (1996). New York:
ACM 1996. See also <http://www.cs.unc.edu/~barman/HT96/P17/SHA_out.html>
(23.1.2004).
Eskelinen: Cybertext Theory. (footnote 1). This approach is seconded by Montford,
who chides Landow et al., for their »non-computational perspective«: Eskelinen: Cybertext. (footnote 1).
N. Katherine Hayles: What Cybertext Theory Can't Do. In: ebr 12 (Fall 2001).
<http://www.altx.com/ebr/riposte/rip12/rip12hay.htm> (23.1.2004). I will suggest
below that Hayles' own focus on materiality, in Hayles: Writing Machines. (footnote 1),
is also misleading.
Eskelinen: Cybertext Theory. (footnote 1).
Friedrich A. Kittler: Literature, Media, Information Systems. John Johnston (Ed.):
Amsterdam: G + B Arts International 1997.
162
David S. Miall
way of understanding »how computational operations work together
with linking structures and literary devices to create richly textured works
that are something like computer games and something like literature«.9
Hayles's own more sophisticated approach, however, elides the specifically literary components of reading in favour of a theory that foregrounds materiality as the basis of reading. For her, »the physical form of
the literary artifact always affects what the words (and other semiotic
components) mean«.10 It is clear that the material or technical media of
hyperfictions play a significant role since, unlike the incidental process of
turning the pages of a linear narrative in a printed book, the reader must
interact deliberately with the medium itself in order to continue reading.
But hyperfictions, whatever computational or game-like processes they
contain, are also narratives. Whatever the medium, readers bring to narrative a range of expectations and capacities drawn from their experience
with the various forms of narrative (plot, character, focalization et cetera), as well as experience of their own stories in life.11 They are also
likely to bring a rich understanding of poetic language ranging from early
childhood verbal play to the work of Dickens. It seems unlikely that this
experience is left behind when the reader enters the hyperfictional world.
But Hayles's move to privilege the material basis of textuality forecloses
the possibility that reading processes may operate independently of »the
materiality of inscription« (p. 130), providing a separate source of influence on how readers respond to and construe the texts they read. Thus
my topic in this chapter will be how hyperfiction engages the reader's
narrative and poetic capacities, how far the hypertext machinery modifies
them, and what effects this has on the processes of reading. These issues
are best raised not in the abstract, but in relation to a specific hyperfiction, hence the importance of stories of reading.12
9
10
11
12
N. Katherine Hayles. Cyberliterature and Multicourses. Rescuing Electronic Literature
from Infanticide. In: ebr 11 (2000/01) <http://www.altx.com/ebr/riposte/rip11/
rip11hay.htm> (23.1.2004).
Hayles: Writing Machines, p. 25. (footnote 1). Italics in original.
A valuable recent overview of empirical work in this area is provided by Marisa Bortolussi/Peter Dixon: Psychonarratology. Foundations for the Empirical Study of Literary Response. Cambridge: Cambridge University Press 2003.
Best of all would be empirical studies with readers of hyperfiction, but so far these are
almost non-existent: for two examples see David S. Miall/Teresa Dobson: Reading
hypertext and the experience of literature. In: Journal of Digital Information 2.1
(2001). <http://jodi.ecs.soton.ac.uk/Articles/v02/i01/Miall/" \t "_top> (23.1.2004);
and Ed Tan/Sarita Dev: Bypassing the Author. Two Examples of Reading Interactive
Stories. In: Dick Schram/Gerard Steen (Eds.): The Psychology and Sociology of Literature. In Honor of Elrud Ibsch. Amsterdam/Philadelphia: John Benjamins, 2001 pp.
289-313.
Reading Hypertext
163
While many kinds of reading will be required, those currently available
focus mainly on story events and the machinery by which they are assembled. For example, in the readings of Joyce's Afternoon, Jill Walker
(Piecing) focuses much of her attention on the characters, their relationships, and reconstructions of what may have occurred;13 J. Yellowlees
Douglas, in the most extensive account available, focuses principally on
how her four readings eventually enabled her to reach closure on the
main questions raised by the plot.14 While it may be true, as J. David
Bolter puts it, that in hyperfiction the reader's struggle is »to make the
story happen and to make sense of what happens« (p. 126),15 the storydriven reading is only one of several possible approaches to narrative. A
reader can also read for the pleasure of the language of the text itself, its
sensory and imagistic qualities; she can read for the insights the text
might offer into her personal situation or the culture she inhabits; or
read for signs of intertextuality, the presence of quotations and allusions
to other works of literature or media. Whichever perspective is taken
there are specific pleasures and frustrations involved in reading narrative,
thus one productive way of situating story-driven reading and going beyond it is to consider the affective dimensions of reading. What kinds of
affective response are invoked and what are their implications?
A preliminary proposal in this respect has recently been made by
J. Yellowlees Douglas and Andrew Hargadon in a paper that foregrounds two affective states, immersion and engagement.16 These states
are broadly similar to the immersion and interactivity discussed by MarieLaure Ryan.17 Douglas and Hargadon anticipate that hyperfiction, or »interactives«, may eventually enable what Csikszentmihalyi calls »flow«, »a
condition where self-consciousness disappears« (p. 163). For Ryan, on
the other hand, immersion and interactivity remain irreconcilable. The
problem is the hypertext link, she argues, »because every time the reader
is asked to make a choice she assumes an external perspective on the
worlds of the textual universe« (p. 20). Thus Ryan's discussion of feeling
is limited to states of immersion, where she suggests that we experience
suspense, defined as »the reader's desire for the knowledge that awaits
13
14
15
16
17
Walker: Piercing. (footnote 3).
Douglas: The End of Books. (footnote 3).
Jay David Bolter: Writing Space: The Computer, Hypertext, and the History of Writing. Hillsdale, NJ: Erlbaum 1992, p. 126.
Yellowlees Douglas/Andrew Hargadon: The Pleasure of Immersion and Engagement
Schemas, Scripts, and the Fifth Business. In: Digital Creativity 12/3 (2001), pp. 153166. See <http://www.nwe.ufl.edu/~jdouglas/dc12303-Douglas.pdf> (23.1.2004).
Ryan: Narrative as Virtual Reality. (footnote 3).
164
David S. Miall
her at the end of narrative time« (p. 140). She notes that it is (paradoxically) possible for us to experience real emotions during our reading
about fictional characters and events. In the multiple worlds of hyperfiction, however, the offering of alternative fates to characters militates
against the experience of real emotion: »Emotional immersion requires a
sense of the inexorable character of fate« (p. 263).
Douglas and Hargadon, in contrast, appeal to schema theory to help
explain the feelings of the hyperfiction reader. They suggest that »the
predictability afforded by genre schemas makes them ideal fodder for the
trance-like reading [that] is the hallmark of the immersive reading experience«; in contrast, the disruption of schemas obliges the reader »to assume an extra-textual perspective on the text itself, as well as on the
schemas that have shaped it and the scripts operating within it« (p. 156).
In other words, reader's feelings are contingent on the instantiation or
interruption of schemas during reading. The engaged reader is said to
represent a development of earlier modernist practices, for example, the
reader who follows up the footnotes to T. S. Eliot's The Wasteland, or
turns to a critical explanation of Joyce's Ulysses. »Readers of hypertext
fiction«, they suggest, »like Joyce's and Eliot's audiences, are more likely
to seek out secondary sources to supplement their array of schemas for
understanding the text« (p. 161). To read in this multiple, critically aware
way would appear to preclude the single-minded, absorbed state of immersion.
The reliance of Douglas and Hargadon on schema theory points to a
difficulty in their account. Schema theory has not been successful in explaining feeling during reading. As Rand Spiro argued some time ago,
schema theory provides an inadequate basis for understanding experiential (feeling-based) responses to texts.18 First, as Spiro showed in the case
of a short story by James Joyce, we can understand a story (experiential
understanding) without knowing what it is about (schema-based understanding). Secondly, during reading the informational, situational aspects
of a text can become ›overlearned‹ and relegated to the background; what
captures attention is our feelings about the text. Spiro's account implies
that schemas and feelings are thus separate sources of meaning. He proposes that reading involves two levels: first, the comprehension process
of assigning events to types, second, the invocation of personal meaning
(p. 82);19 the two levels may often occur concurrently, a suggestion that
would allow us to infer that feeling as well as schemas contributes to tex18
19
Rand Spiro: Long-Term Comprehension. Schema-Based Versus Experiential and
evaluative understanding. In: Poetics 11 (1982), pp. 77-86.
Spiro: Long-Term, p. 82.
Reading Hypertext
165
tual coherence. In fact, the relation of feelings and schemas may often be
the reverse of that proposed by Douglas and Hargadon.
The Russian critic Victor Shklovsky argued with the view of Herbert
Spencer, who saw style as organized to make reading efficient – what
one might see as the smooth instantiation and unfolding of schemata.
On the contrary, said Shklovsky, in literature style is designed to create a
special, unusual perception of an object. It works to deautomate perception,
that one may recover the sensation of life; it exists to make one feel things, to
make the stone stony. The purpose of art is to impart the sensation of things as
they are perceived and not as they are known. The technique of art is to make
objects ›unfamiliar‹, to make forms difficult, to increase the difficulty and length
of perception because the process of perception is an aesthetic end in itself and
must be prolonged.20
Shklovsky insisted that literature makes »one feel things«; stylistic devices
in literary texts »emphasize the emotional effect of an expression«.21 This
has largely been overlooked in discussions of the literary ›devices‹ that he
analysed. His account is consistent with an earlier generation of British
romantic writers. For example, in praising Wordsworth's poetry Coleridge referred to the poet's ability »to combine the child's sense of wonder and novelty with the appearances, which every day for perhaps forty
years had rendered familiar«.22 The textual devices that achieve such effects were described as »foregrounding« by Czech theorist Mukarovský:23
they include such features as metre, assonance, ellipsis, metaphor, and
irony.
In this perspective, foregrounding arouses feeling in the reader, and
has the power to subvert schemas. This suggests, indeed, that one of the
aims of literature is to challenge our familiar schemas.24 As our research
20
21
22
23
24
Victor Shklovsky: Art as Technique. In: Lee T. Lemon/Marion J. Reis (Eds. and
Trans.): Russian Formalist Criticism. Four Essays. Lincoln, NE: University of Nebraska Press 1965, pp. 3-24. (Original work published 1917.) p. 12.
Shklovsky: Art as Technique, p. 9.
Samuel Taylor Coleridge: Biographia Literaria, 2 vols. James Engell/Walter J. Bate
(Eds.). London: Routledge & Kegan Paul 1983. (Original work published 1817.) vol. 1,
p. 81.
Jan Mukarovský: Standard Language and Poetic Language. In Paul L. Garvin (Ed.): A
Prague School Reader on Esthetics, Literary Structure, and Style. Washington, DC:
Georgetown University Press 1964, pp. 17-30. (Original work published 1932.)
This is worked out in greater detail in David S. Miall: Beyond the Schema Given. Affective Comprehension of Literary Narratives. In: Cognition and Emotion 3 (1989),
pp. 55-78; and David S. Miall/Don Kuiken: Foregrounding, Defamiliarization, and Affect. Response to Literary Stories. In: Poetics 22 (1994), pp. 389-407.
166
David S. Miall
with readers has shown, response to foregrounding calls into question
the positing of a divide between immersion and interactivity and the
ways this has preoccupied hyperfiction critics. Readers of literary texts
are capable of both immersion and self-awareness as readers: they both
respond with feeling to a significant detail of a text, yet at the same time
they can savour the power of the language or consider its implications
for themselves.25 We have found this, for example, in some of the responses we collected to Coleridge's narrative poem The Rime of the Ancient Mariner, when readers were asked to think aloud about passages
they had found particularly striking (Kuiken, Miall, and Sikora, in
press).26 If interactive reading means adopting, in the words of Douglas
and Hargadon, »an extra-textual perspective on the text«, then our readers were, at such moments, considering multiple perspectives on the
same text – although not through the agency of alternatives provided
through links to other lexias; and when foregrounding challenges or disables existing schemas, it is the emergence of alternative perspectives
that, in particular characterizes literary reading. We can understand such
reading as interactive, although the reader is thoroughly absorbed by the
multiple perspectives in question.
Considering the role of feeling in reading traditional literary narratives
can give us a better purchase on what may be distinctive in reading hyperfiction. Feeling is at issue in more than one way, however, not only in
response to foregrounding. Following earlier work by Kneepens and
Zwaan (1994),27 we have recently proposed a four level typology of feelings in literary response.28
First, evaluative feelings towards the text: the pleasure or frustration experienced during reading, or felt in retrospect towards
the text as a whole. Readers often turn to the same genre time
after time (e.g. romance fictions) because they anticipate the
kind of feeling that reading another text will induce. It seems
25
26
27
28
Ryan, in accord with this finding, suggests that vividness (immersivity) and stylistic felicity are compatible; we can experience both a sense of presence and a wonder at the
artistry with which it is achieved; we can simultaneously »enjoy the imaginative presence of a fictional world and admire the virtuosity of the stylistic performance that
produces the sense of presence«. Language »may be spectrally present« to the reader.
Ryan: Narrative as Virtual Reality, p. 351. (footnote 3).
Don Kuiken/David S. Miall/Shelley Sikora: Forms of self-implication in literary reading. In: Poetics Today, in press.
E. W. E. M. Kneepkens/Rolf A. Zwaan: Emotions and Literary Text Comprehension.
In: Poetics 23 (1994), pp. 125-38.
David S. Miall/Don Kuiken: A Feeling for Fiction: Becoming What We Behold. In:
Poetics 30 (2002), pp. 221-241.
Reading Hypertext
167
likely that readers of literary narratives or hyperfictions, which
vary so much one from another, are less likely to be in search of
a standard feeling or set of feelings, but readers undoubtedly
evaluate hyperfictions in the light of their expectations and
whatever satisfactions they experience.
Second, narrative feelings in response to specific aspects of the
fictional events, such as empathy with a character, intrigue over
a turn in the plot, or resonance with the mood of a setting. The
basis of such feeling lies in our social skills, our everyday experience in understanding and situating the lives of others. In reading fiction we play out a simulation, as Keith Oatley has put it,29
running the action plans of the characters on our own planning
mechanism, and experiencing the feelings consequent on their
actions. We may need to distinguish feelings that occur in response to a character (e.g., pity) from feelings that the reader
shares with a character (e.g., disliking another character). Since
hyperfictions are narratives, a dependency on narrative feelings
is inevitable, although a hyperfiction may be designed to subvert
or undercut them.
Third, aesthetic feelings of the kind outlined above in the response to foregrounding, that is, feelings evoked by stylistic
moments that are unusual or striking. These are moments that
may challenge reader's assumptions (or schemas), leading them
to revise their framework for interpretation, sometimes with
consequent implications for their understanding beyond the text
– which touches on the fourth level.
Fourth, what we have termed self-modifying feelings that restructure the reader's interpretation, prompting the reader to
new insights into herself or her world. Some transformation in
understanding is brought about, through feeling, in the self of
the reader. Here is where readers may become simultaneously
immersed and interactive. Whether this is likely to occur in the
context of reading a hyperfiction is a matter for empirical study.
If Hayles's proposal30 that hyperfictions are part literature part
29
30
Keith Oatley: Emotions and the Story Worlds of Fiction. In: Melanie C.
Green/Jefferey J. Strange/Timothy C. Brock (Eds.): Narrative Impact. Social and
Cognitive Foundations. Mahwah, NJ: Lawrence Erlbaum 2002, pp. 39-69.
Hayles: Cyberliterature. (footnote 9). Hyperfictions, in her words, are »richly textured
works that are something like computer games and something like literature«.
168
David S. Miall
gaming is correct, the satisfactions of solving a game may be incompatible with self-modifying feelings.
Empirical study of readers underlines the inadequacy of Eskelinen's
characterization of literary texts as »static, intransient, determinate«31:
readers show not only considerable variation between their readings
(pointing to the indeterminacy of the literary text), but also much flexibility within readings in the perspectives taken from one episode to the
next. The multivariate nature of literary reading can, of course, be captured only very partially by such a typology of feelings. But, as noted earlier, we need not suppose that the processes of reading change fundamentally when directed towards hyperfiction. Thus we can propose that
these four sources of feeling will be present during hyperfiction reading.
If there is a significant departure from this range of occasions for feeling,
that in itself may provide us with an indication of what distinguishes hyperfiction from traditional reading. »If there is a defining flaw of the cybertext debate,« Scott Rettberg has noted, »it is a failure to take into account the ›non-trivial effort‹ of ›mere‹ interpretation that even lowly
works of linear literature require.«32 The difficulty in understanding hyperfiction lies in the additional complications that the digital medium
places on the work of interpretation. While these may not constitute
»constraints«, as Rettberg puts it, they represent additional sources for
feeling beyond the textual ones outlined above. They may include not
only the much-discussed link as well as other navigational features, but
also the inability of the reader to judge the size of the textual collection
she is reading and her place within it, the often idiosyncratic role of images and such graphic elements as changes in type font and size, machine-driven changes or choices, the role of sound, and the use of multiple windows.
To give the discussion a concrete form, I turn now to an analysis of
one specific hyperfiction. I will consider both the narrative features it
presents and the complications of the hypertext medium in relation to
the typology of feelings outlined above. I focus on These Waves of Girls
by Caitlin Fisher, a web-based hyperfiction33 which received the fiction
prize in the Electronic Literature Organization's 2001 awards. In comparison with some other entries on the shortlist, Waves is not technically
31
32
33
Eskelinen: Cybertext Theory. (footnote 1).
Scott Rettberg: The Pleasure (and Pain) of Link Poetics. In: ebr 12 (Fall 2001). See also
<http://www.altx.com/ebr/riposte/rip12/rip12ret.htm> (23.1.2004).
Caitlin Fisher: These Waves of Girls 2001. <http://www.yorku.ca/caitlin/waves/>
(23.1.2004) [online hyperfiction].
Reading Hypertext
169
sophisticated; it employs the hypertext structure of lexia and links familiar from the earliest hyperfictions, such as Michael Joyce's Afternoon
(1987).34 Included within it, however, on almost every screen, are a range
of graphics that surround the text or provide a background for it, intimating by their proximity a certain timbre to the text, or a comment on
it that may support or cut across its apparent meaning. Fisher also provides a number of sound files: beginning with the sound of girls' laughter
that accompanies the opening screen, other files provide occasional
sound effects, or offer an oral reading of the text currently on screen in
(I assume) Fisher's own voice. The author herself describes her work as
a hypermedia novella exploring memory, girlhoods, cruelty, childhood play and
sexuality. The piece is composed as a series of small stories, artifacts, interconnections and meditations from the point of view of a four year old, a ten-year
old, a twenty year old.35
Larry McCaffery, the fiction judge, whose comments are provided on the
ELO website, refers explicitly to the feelings that Waves arouses. Its
elements, he says, are »[l]inked in often surprising ways that establish
hidden connections that often seem to be operating on the basis of emotional, associational logic«; it »is by turns, tender, terrifying, erotic, lyrical,
witty, surprising«.36
No single narrative lies behind the numerous lexias, although thematically many of the lexias are related by explorations of the lesbian feelings
of the characters. It offers a highly varied set of narrative fragments illustrating the lives of girls, involving a wide cast of characters and a range
of different settings and incidents. The narrative voice may be that of a
single character, whose identity from childhood to adulthood is revealed
in a series of snapshots; we hear a participant narrator in every lexia. The
work is organized into eight sections; each section provides its own
menu of links in a column on the left. Within lexias links vary in direction: some continue a narrative thread across several lexias; others jump
the reader to a quite different scene, both temporally and spatially. Most
lexias provide several text-based links (usually signalled by the familiar
underlined blue font of the standard web browser); links from graphics
also occur, although these are unpredictable, since on a given screen
34
35
36
Joyce, Afternoon (footnote 3).
Fisher: Website <http://www.eliterature.org/Awards2001/fiction-FisherCaitlin.php>
(23.1.2004).
Larry McCaffery: Comments on Fiction Award. The 2001 Electronic Literature
Awards. See also <http://www.eliterature.org/Awards2001/comments-fiction.php>
(23.1.2004).
170
David S. Miall
some graphics will provide links while some will not. A few lexias consist
only of a graphic with one forward link. Overall, the design avoids the
reader traps set by Joyce's use of Storyspace in Afternoon, in which the
reader periodically becomes stuck in a loop. After reading for a while,
however, links return to lexias seen before, and as this occurs with increasing frequency there is a sense of eddying around the same set of
preoccupations. The texts of the lexias vary considerably in length. The
shorter lexias consist of just a few words. The longest appears to be
waves/mr_
anderson.htm,37 which consists of nearly 1700 words – as long as some
complete short stories – which requires repeated scrolling down the
screen. It describes three years of high school, the narrator's interest in
the science teacher Mr. Anderson, and a sexual fantasy she has about
him some years later after she learns that he is dead – her fantasy is poetically mirrored by the spacing of the text on screen and the graphics.
To consider the feelings invoked by Fisher's work, I will focus on just
a few lexias and their settings within the network of lexias that surround
them. I will, of course, be unable to do justice to the graphics that the
work contains. Here is one short lexia, showing the links as underlined
text (waves/farmsky.htm):
In a two-pice bathing suit tickled by
heat I look at my sky from the field,
clouds turning to fierce animals in the
distance.
The text is embedded between two graphics: below is an indistinct black
and white image including a square shape that appears to be a box; above
is the Flash-based image of a blue and grey moving sky repeated (in
smaller form) from the opening screen; the sound of girls' laughter
which accompanied the opening screen also plays, which may indicate
that this lexia is intended to be central in some way.
I have approached this lexia along a pathway of three related lexias describing memories of a five-year old girl on a farm (falling out of an apple tree »one hot July day«; the cows; eating asparagus;38 note that it is
possible to arrive at this lexia via other pathways; I will not consider the
effects these create in the present discussion). Each prior lexia instantiates the schema of a small girl playing on a farm, her attention being
caught first by one thing then another; no narrative line is developed, as
37
38
Specific lexia will be referenced in the text in this way, by the last part of their URL.
Readers wishing to follow this sequence should start at <farm_scar.htm>, and follow
the arrow links at the foot of each lexia.
Reading Hypertext
171
no causal relations are developed between the successive lexia. But the
farm setting for the current lexia has been established: no shift in schema
or conflict of schemata is at issue when we read it. The reader's attention
is thus likely to fall on the sensory qualities of the lexia, which is a frequent feature of Fisher's writing – that lyrical quality mentioned by
McCaffery. I will single out three foregrounded features: (a) the physical
pricking of the heat is emphasised by the /t/ alliteration in the first few
words; (b) the unexpected deictic implications of »my sky« and »the
field«, since no previous referents have prepared for the assumptions
made here; and (c) the enactive metaphor of »clouds turning to fierce
animals«. Each has a specific affective charge, enlivening our sense of
this five-year old girl's situation: her bodily awareness, her appropriation
of the environment above and around her, and her propensity for fantasy.
As our previous research with readers has shown,39 and in support of
Shklovsky's argument, foregrounded passages are defamiliarizing, calling
into question the adequacy of the reader's current schemata while, at the
moment of reading, not offering an alternative (this may emerge later40);
thus feeling forms a significant component of the reader's response at
such moments. The issue here, then, is to understand what role feelings
in response to foregrounding are likely to play: what influence will they
have on the reader's perspective and understanding, and, more specifically, in what ways does the hypertext medium interact with such feelings?
First, if we consider the lexia itself, the role of the graphics is unclear:
the moving sky above the text contains clouds (layers of stratus forms),
but these are not amenable to being seen as »fierce animals«, so this cannot illustrate the sky seen by the girl in the text. The lower graphic seems
unrelated to the scene. The sounds of laughter also seem unrelated to the
girl's situation, at least at a first reading: she is alone in the field, yet there
is a chorus of girls laughing. Possibly the multiple or fractured selves of
the girl are represented in this way, the self throughout this hyperfiction,
especially in lexia depicting young girls, often being a conflux of mismatched desires and fantasies. Here I can reason with myself that, by
wearing a two-piece bathing suit the girl is mimicking the appearance of
older girls, yet her behaviour in fantasizing about the clouds is that of a
young girl. This, however, is a reading that I make on intellectual rather
39
40
Miall/Kuiken: Foregrounding. (footnote 23).
David S. Miall/Don Kuiken: Shifting Perspectives. Readers' Feelings and Literary Response. In: Willie van Peer/Seymour Chatman (Eds.): New Perspectives on Narrative
Perspective. Albany, NY: State University of New York Press 2001, pp. 289-301.
172
David S. Miall
than sensory grounds: on the face of it, the sounds of laughter are unconnected with the sensory resonance of the text before me; it has no direct connection with the three foregrounded features I have identified.
Second, since several links are provided, we must ask whether the affective charge of the foregrounded passages is developed in subsequent
lexia. We might infer, since the links are visible in the text, that Fisher
has in mind a reader pressing (as it were) on words that »yield«, following
the approach of Michael Joyce in Afternoon (to quote the information
leaflet accompanying his software): two of the three foregrounded passages provide links. If immersion is to become a possibility for the
reader, it is here that we should expect it, with a subsequent lexia that
takes up the affective implications of the word or words in the first lexia
that provides the link. Considered in this light, however, the effects are
inconsistent.
There are five links. Tabulated in order, the opening texts of the subsequent lexia are:
1. a two-piece bathing suit links to: »Summer of '76 covered in baby oil,
a bit of bikini, wet cotton swabs over my closed eyelids.«
2. my sky links to: »I am growing up but not out of my grandmother's
bed. As a small child, I breathe with difficulty and in the middle of
the night the utter silence in the room wakens my grandmother.«
3. the field links to: graphic of woodland, text at foot: »At night the
fireflies come out.«
4. lower graphic, links to the same lexia as #1: »Summer of '76 covered
in baby oil, a bit of bikini.«
5. the arrow links to: »Hot hand on my stomach, it's easy to bridge this
distance. Days like this I still smell apple trees.«
In the first, the effects of the tickling heat are dissipated by the smooth
baby oil, and the image which then supersedes it of the cotton swabs
over the eyes soaked by blood instead of oil. The narrator in this lexia
also seems more knowing, suggesting that she may be several years older
than the five-year old of the previous lexia. The second link from »my
sky« seems unrelated, other than focusing (as usual) on the memory of a
young girl. Similarly, the third link jumps us from the field to an unrelated memory of woodland and fireflies. The fourth link, from the lower
graphic, calls up the same lexia as #1; no logical or poetic rationale
seems evident to justify this. The only link that clearly demonstrates continuity is, oddly, the last, which is offered by the arrow at the foot of the
screen: this, »Hot hand on my stomach,« seems to be a memory in the
present, evoked by bodily experience similar to the one we saw in the
Reading Hypertext
173
first foregrounded passage, and it reminds us of the first lexia in the
chain in which the narrator fell out of an apple tree. This lexia, on the
face of it, would have been more effective if linked to the opening
phrase <http://www.yorku.ca/caitlin/waves/summer_of_76.htm>; in
its first few words it even echoes the /t/ alliteration. It should also be
noticed that the implications of the third foregrounded passage, »clouds
turning to fierce animals in the distance«, are not taken up in any of the
four lexias (unless the false echo of »it's easy to bridge this distance« is to
count).
Thus the links from this lexia, except in one case, cut across the affective responses of the reader elicited by its foregrounding. How, then, are
these links to be justified? It is evident that a reader must set aside the affective implications that have been evoked in order to respond fully to
the next lexia. We can then retrospectively attempt to construct a relationship between the present and the previous lexia. In the case of my
sky, for example, the young child's appropriation of the sky seems an instance of omnipotence of thought,41 and is reflected in the games and
stories of the grandmother and the child described in the remainder of
this lexia. I can similarly construct relationships between the other lexias
and the phrases that link to them, but this is a rational not an affective
exercise. The power of the foregrounded passages is that their affective
resonance is anticipatory, preparing us to experience relationships that
we have not seen before. This is the immersive experience, quite different from the interactive role that we play (or that is forced upon us)
when we reason out such relationships retrospectively.
In the light of this analysis of the links provided in one lexia, we are
now in a position to evaluate the effectiveness of this portion of the hyperfiction in relation to the different types of feeling experienced in narrative. The four types, it will be recalled, are evaluative, narrative, aesthetic, and self-modifying. First, the evaluative feelings of satisfaction,
pleasure, or frustration, will depend in part on readers' specific expectations as they embark on a given text, thus experienced readers of hyperfiction will be prepared for the formal leaps and disjunctions that the
linking structure provides. The satisfactions this affords, however, are
likely to be interactive rather than immersive; readers will take pleasure in
puzzling out a relationship between successive lexias, and inferring retrospectively what themes (such as childhood omnipotence of thought) are
addressed.
41
Freud's term. See Sigmund Freud: The Uncanny. In: James Strachey (Trans.): Standard
Edition. 22 vols. London: Hogarth Press 1953-1974, vol. 17, pp. 217-256. (p. 240).
174
David S. Miall
Second, narrative feelings are likely to be short-lived. Linked sequences of lexias provide only a brief focus on a given character or setting.
This affords little time for the reader's feelings to become committed to
any particular stance towards the narrative – such as the point of view of
the five-year old girl or a resonance with the apples trees, fields, and
cows of her farm. Fisher partly overcomes this limitation by offering
several longer lexia: the narrative of Mr. Anderson, for example, provides
a rich and coherent narrative extending over a number of years, and this
has the benefit of providing a context for otherwise less explicable short
narrative passages in other lexia. But in general narrative feelings are
frustrated by the disconnection that often obtains between one lexia and
the next in terms of characters, settings, and other narrative constituents.
Third, aesthetic feelings are undoubtedly aroused by Fisher's lyrical
writing, as we have suggested in the case of the short lexia with three
foregrounded features. But the feelings are in most cases balked by the
jump to a subsequent lexia that fails to develop their implications. The
risk here, then, is that readers will cease to invest their feelings in the text
being read, since the result of reading one lexia after another is a kaleidoscope of aesthetic feelings rather than an emerging and meaningful pattern. As Ryan suggests, commenting on her reading of Joyce's Twelve
Blue,42 »The effect is that of an amnesic mind that desperately tries to
grasp some chains of association but cannot hold on to them long
enough to recapture a coherent picture of the past.«43
Fourth, self-modifying feelings in the hyperfiction context are thus,
necessarily, unlikely. The inability of the reader to sustain a particular focus, to experience a modification of feelings over a series of lexia, suggests that any transformation in understanding beyond the superficial is
unlikely to occur. Fisher herself has told us that »writing for a cyber universe has a whole new kind of grammar«.44 But, as I have tried to show,
the expectations we have of narrative and the implications of the different types of feelings called up in us during reading, suggest that a new
grammar confronts an array of inherent and deeply influential psychological processes. Hyperfiction is misconceived to the extent that it ignores or confounds these processes. Avant garde pronouncements of
the kind I cited from Eskelinen omit considering in what ways the proc-
42
43
44
Michael Joyce: Twelve Blue [digital fiction]. Eastgate. <http://www.eastgate.com/
TwelveBlue/Twelve_Blue.html> (23.1.2004).
Ryan: Narrative as Virtual Reality, p. 229. (footnote 3).
Caitlin Fisher: Cited in »E-novella Charts New Territory in Storytelling«. Edmonton
Journal January 10 2002, p. C4.
Reading Hypertext
175
esses of reading are not computational, and that reading is not a function
like operating a machine.
Whether hyperfiction has a future outside the small domain of enthusiasts and academic followers seems quite uncertain. Fisher's work contains much writing that is suggestive, lyrical, and evocative; yet it is, I
would suggest, only partly successful, because the structure in which it is
embedded often dissipates its power to affect us and impose its own perspectives on us. As a reader I remain outside its small narrative circles,
witnesses to fragments of experience and apparently random shifts in focus. Yet Fisher's work can also show the way, I believe, to a more effective use of the medium. In the short lexia I examined, where the arrow
link provided access to an aesthetically related lexia, we jump a gap not
only in the hypertext machinery but also in narrative time, yet in a way
that satisfies the feelings that have been evoked. This is by no means the
only example available in Fisher's hyperfiction where a linked lexia is
both unexpected in some respect, yet aesthetically satisfying. My argument in this paper, then, resolves onto this final point: in order to understand hyperfiction and what it may promise, writers and critics should be
attentive to the empirical literature on reading. The processes of reading
have a structure and a resilience that hyperfiction does not put into abeyance, and that will confound the effectiveness of hyperfiction as readily
as they will support it. Hyperfiction can very likely be both immersive
and interactive, as Douglas and Harnadon have imagined, but this depends on hyperfiction writers knowing better what reading processes
underlie the experience of being immersed and interactive.
Paolo D'Iorio
Cognitive Models of HyperNietzsche.
Dynamic Ontology and Hyper-Learning
Abstract
HyperNietzsche is a research infrastructure that enables a delocalized
community of specialists to work in a cooperative and cumulative manner and to publish the results of their work on the Internet. HyperNietzsche is not merely a library of well-indexed and searchable electronic texts and studies made available on line, nor an electronic edition
made available to the public as a finished product. Rather, it is a kind of
electronic research matrix that creates a virtual workspace with public
access to original sources for Nietzsche research, including works, manuscripts, letters and biographical documents. Beyond these original
sources, HyperNietzsche contains an ever-increasing collection of scholarly essays that have been vetted for publication by an editorial board of
leading Nietzsche specialists.1
From a methodological point of view, this enterprise transposes the
concepts of Open Source from computer science to the Humanities. But
science is by definition an open source enterprise to the extent that it is
an open, public discussion on accessible objects, carried out according to
verifiable procedures. In the Humanities, working in Open Source means
on the one hand being able to access the digital version of objects of
study: books, manuscripts, archaeological objects, images, sounds, film
sequences et cetera, (what that we call Public Archives) and on the other
hand providing free access to the results of research work (Open Publishing). And the Internet is the medium best able to guarantee public
access to cultural heritage and research work.2
HyperNietzsche consists of three logically distinguished Teams. Realising the IT infrastructure is the task of the Hyper-Teams (see the article
of Michele Barbera and Riccardo Giomi about Pearl-Diver Model in this
volume). Filling this platform with contents is the job of the Nietzsche1
2
<http://www.hypernietzsche.org> (21.2.2004).
We have developed this thematic during a conference organised in 2002 at the École
Normale Supérieure in Paris: L’Open Source dans les Sciences Humaines Modèles ouverts de recherche et de publication sur Internet. See the programme at the addressee
<http://www.hypernietzsche.org/events/os/> (21.2.2004).
Paolo D'Iorio
178
Teams and of the Nietzsche scholars of the whole world (the article of
Harald Salles will present what the Munich Nietzsche Team is currently
doing). Establishing the ontology, the legal and academic framework is
the work of the HyperNietzsche-Team. I will write a few words about
ontology and e-learning issues in the name of the Hyper-NietzscheTeam.
Dynamic Ontology
From a cognitive point of view, HyperNietzsche can be understood as
an example of an ›Dynamic Ontology‹. Everybody knows what a descriptive or static ontology is. It is something such as a photograph, which
represents the objects of a field of study and their relations at a given
moment. A good example of this is the Institute of Formal Ontology
and Medical Information Science at Leipzig University (and at the Department of Philosophy at the State University of New York). According
to its director, Barry Schmit:
One major problem of information science today is the large number of different
information sources and the equally large number of different classification systems in terms of which such information is expressed and manipulated. Ontology seeks solutions to this problem in the form of standardized terminology and
classification systems, which will enable information from different sources to be
manipulated within a common framework.3
The problem is that science has this strange characteristic, that it
growths. Now, what I call dynamic ontology is able to create a ›standardized terminology and classification system‹, but it is also capable of expressing the changes which the objects of study and their relations undergo due to the growth of knowledge. That which is for a formal ontology a final achievement, is merely the point of departure for a dynamic
ontology.
In HyperNietzsche, we begin with a ›digitale Erschließung‹ (›digital
classification‹) that creates a map of our field of study by giving each object a name (siglum) and a short definition, and by drawing a collection
of standard relations of inclusion and succession between the objects. A
siglum can represent for example one of Nietzsche's aphorisms or a page
from one of his notebooks (in other disciplines a siglum can be the name
of a gene or a protein). The hierarchical level to which the siglum be3
<http://ifomis.de/>, <http://ontology.buffalo.edu/> (both 21.2.2004).
Cognitive Models of HyperNietzsche
179
longs and its place inside a sequence is expressed by the granularity: for
example, a notebook comprises several pages, a page several notes, each
page of a notebook refers back to the previous and forward to the following page, and so on. Beginning with this base structure, scholarly
contributions can transform the properties of the objects and their reciprocal relations by using two functions of the system: paths and dynamic
contextualisation.
Paths enable the user to order the objects in sequences according to
genetic, chronological or thematic criteria. They allow, for example, the
tracing of a genetic sequence which follows the stages of the writing
process for a particular aphorism, from the first outline in a notebook,
through its copy in a book, corrections in proof copy and finally to the
printed version; or the establishment of a thematic route consisting of
several aphorisms on the free spirit in Nietzsche's works.
Dynamic contextualisation is one key innovation developed by HyperNietzsche. While the user navigates the site, moving from one page to
another, this feature makes available precisely those scientific contributions that are relevant to the siglum presently being viewed. For example,
if the user selects the siglum of a manuscript page, the system immediately makes accessible, without the need for additional complicated
searches, all the facsimiles, transcriptions and translations available for
the page, as well as all the relevant text-genetic paths and critical essays
that refer to the page. This material is presented in the form of an easily
navigable list of hyperlinks. Likewise, if the user selects a critical essay,
the contextualisation mask will present a list of hyperlinks to all the
Nietzsche texts and manuscripts cited by the author of the essay and all
the contributions that are cited in, or that cite the essay being viewed.
However, the growth of the contributions concerning a certain object
actually represents a progressive transformation of this object, insofar as
each essay discovers hitherto unknown properties. To know that an
aphorism is thematically and genetically related to other texts and manuscripts of Nietzsche can radically change our comprehension of this object of study: It is as if one has identified a gene on the basis of a certain
number of characteristics and then 10 scientific articles discover unknown properties and unsuspected relations with other genes, thus appreciably transforming the ontology of the field of study.
Scientific objects always result from a process of construction of
meaning within a research community. Elements are recognized as being
worthy of interest within an influential paradigm and function as a point
of convergence of all successive research, including that research which
will transform their definition. For this reason, an IT infrastructure ca-
180
Paolo D'Iorio
pable of coming to terms with scientific development must be thought
of as a dynamic ontology.
Hyper-Learning versus LEGO-Learning
This cognitive model seems to us to be particularly effective for the requirements of scientific research. It takes on a revolutionary aspect when
applied to e-learning.
In effect, the dominant e-learning model, as expressed in the standard
technologies such as SCORM, IMS, IEEE LOM4 is quite poor in cognitive and pedagogical terms and in any case largely insufficient for the necessities of tertiary education. It is based on the existence of content
producers on the one hand, normally companies selling prefabricated information packages (the assets, which are like little LEGO bricks) and
on the other hand teachers who build courses according to the instructions incorporated into the assets. The students, for their part, have the
task of being force-fed as much contents as possible. This procedure
works well enough if it is a case of training employees in the use of certain conceptual instruments or techniques, or knowledge transmission on
a medium or low level, but it has not been successful at the university
level. Incidentally, the adoption of this model in a university context
would have the effect of blocking the development of knowledge in precisely the place devoted to its evolution and transformation.
In an era in which conceptual buildings change rapidly, it is not important to memorize the conceptual bricks of which they are constructed, but rather to master the methods which allow orientation
within knowledge, the organisation of knowledge and the creation of
new knowledge.
The single brick represents an isolated notion, or, in the best case, a
static ontology. Let us suppose a student learns the definition of properties of a gene by using an e-learning system. He or she can use this concept only until science discovers other properties of this gene or new relationships this gene maintains with other genes or phenotypes. Suddenly, the e-learning system becomes obsolete and the student must update his little conceptual brick (and also the ensemble of relationships
binding it to other parts of its ontology). This is very practical for enterprises marketing contents for e-learning systems. However, if one wishes
to follow a different logic, that of a free community of researchers, it
4
See <http://www.adlnet.org/>, <http://www.imsglobal.org/specifications.cfm> and
<http://ltsc.ieee.org/wg12/index.html> (all 21.2.2004).
Cognitive Models of HyperNietzsche
181
would be important that e-learning forms part of a system capable of
automatically following the evolution of knowledge. What would be the
point of an IT standard making bricks of information interoperable, if
they are not at the same time automatically linked to research developments? The Learning Objects are the legacy of didactics which must now
be considered out of date. Above all they produce the paradoxical effect
that, in using the most modern technologies, the student acquires concepts which are pre-programmed to expire. The slogan of LEGOLearning might well be: Learning Electronic, Going Obsolete.
In contrast to the American model of LEGO-Learning, the e-learning
part of the HyperNietzsche project intends to propose a new methodology and set a new technological standard: the Research Objects for
Learning (ROLs).
In our dynamic ontology the elements are not conceptual bricks but a
network of pointers: the pearls. The pearls contain a minimum of information which is their siglum (page 3 of notebook N IV 2, aphorism 27
of The Gay Science), but their characteristic is that of being pointers in a
universe of relationships, not so much in the sense that they point towards something (certainly, they point towards an object or towards a
property of the external world), but rather in the sense that successive
researchers will point to them, since they represent objects which have
been recognised by a scientific community as being scientifically interesting.5 If we construct an IT research and e-learning system which, by virtue of dynamic contextualisation, allows the user, when selecting the
siglum of an object, to see all the articles which cite it, the researcher or
student has at his disposal a constantly up-to-date dynamic definition,
and they can follow in real time the scientific construction of the object,
which thanks to paths also includes all its ›valences‹, that is the context
which it shares with other objects from the same field of study.
To sum up: in our model of e-learning the student receives first a map
of his field of study and must master a collection of concepts which enable him to orient himself in the network of relationships between the
objects in progressive transformation. Immersed in a virtual research and
learning community, he or she learns to navigate by using various conceptual grids touching the same pearls, to use the methodology which allows the construction of relationships between the pearls and, finally, to
create new knowledge in an autonomous fashion.
5
In computer science a pointer is an address, from the point of view of a programming
language. The terms ›pointer‹ and ›reference‹ are generally interchangeable although
particular programming languages often differentiate these two in subtle ways.
182
Paolo D'Iorio
From a technical point of view, the specifications of Research Objects for
Learning (ROLs), which we will put forward as a standard, are a way of
bringing research and education into dialogue in our system and guarantee interoperability with all systems using our standard. But that is not all:
thanks to the compatibility with the Open Archives standard on the
document repositories side and thanks to compatibility with the Learning Objects standards on the Learning Management Systems side, the
ROLs play the role of a metastandard capable of putting the world of
Open Access in communication with that of e-learning. It is a paradox,
then, that the researchers practising auto-archiving and free dispersal of
results of scientific research have not yet been successful in establishing a
stable connection with e-learning systems; vice-versa, the developers of
e-learning systems have not yet come up with a technical way of using
the enormous deposits of freely available contents in periodicals which
have resulted from the politics of Open Access.
Harald Saller
HNML - HyperNietzsche Markup Language
Abstract
The technical and organisational structure of HyperNietzsche developed
in such a way that creating an appropriate markup language proved necessary. Derived from the established standard TEI P4, it enables the
Munich Nietzsche Team to encode transcriptions of Nietzsche manuscripts, new editions of Nietzsche works, and essays submitted by
Nietzsche scholars. Its main characteristics are: extensibility, mainly realized by avoiding the storage of textual data in attributes; a strong distinction between the description of manuscript features and editorial interventions and comments; an easily applicable facility for linking a document to related documents.
Introduction: HyperNietzsche and the Munich Nietzsche Team
A short survey of the tasks of the Munich HyperNietzsche Team1 will
help describe the situation, from which the need for a new markup language resulted. The text corpus envisioned in the current phase of HyperNietzsche is the Philosophy of the Free Spirit (Philosophie des
Freigeists), which covers the following works: Menschliches, Allzumenschliches (1879), including the later additions Vermischte Meinungen und Sprüche (1879) and Der Wanderer und sein Schatten (1880);
furthermore Morgenröthe (1881) and Die fröhliche Wissenschaft (1882) –
and all the corresponding ›Vorstufen‹ (preliminary stages) in the extant
manuscripts.
1) Digitization in colour and in high resolution of around 30.000
pages of primary sources: manuscripts, letters, first editions, photos and
other biographical documents: for example receipts for book purchases.
However, HyperNietzsche had to cope with some legal issues first.
Unlike most philological/humanist projects, the HyperNietzsche project
also employs jurists. An agreement between the Stiftung Weimarer Klassik and the Association HyperNietzsche had to be made up before the
1
The past and present team members are listed at <http://www.hypernietzsche.org/
doc/committee/> (17.2.2004).
184
Harald Saller
mass digitalisation and publishing could begin. The most important point
is that the Association HyperNietzsche is permitted to publish the digitized material freely on the internet for research purposes.
2) Digital classification, retouching and publication of around 6.000
facsimiles of original Nietzsche manuscripts: This represents the complete genetic dossier of Der Wanderer und sein Schatten and Morgenröthe, beginning with the note books, going on to fair copy and printers
copy, and finally to the first edition. Once published, the digital facsimiles constitute an ›open source‹ for any kind of further transformation, for
example a printed facsimile edition of Nietzsche manuscripts. Within the
digital medium, facsimile editions are already available, of course.
3) HNML-encoded transcription of 3.000 manuscript notes, of which
around 1.000 have already been published in HyperNietzsche.
4) New editions of ten of Nietzsche's works are in progress. The new
edition of Der Wanderer und sein Schatten will be published in April
2004, as part of version 0.5 of HyperNietzsche.
Additionally, the Munich Team did editorial work on some philosophical and/or philological essays which were published in HyperNietzsche. Within this area, legal aspects are also of major importance: The rights of the author have to be preserved, and at the same
time, free access within the frame of scientific use has to be granted. The
OpenKnowledge license, which has been made up for HyperNietzsche,
in principle works as follows: Every user who downloads data (i.e. a contribution by a HyperNietzsche author) from HyperNietzsche, implicitly
accepts the OpenKnowledge license. Within ten years after the
download, he has the right to copy and distribute the work on any data
carrier, as long as he uses it for scholarly/scientific purposes. The user,
too, may allow others to copy and disseminate the data for scientific
purposes. For all other cases, especially the commercial use of his works,
the author keeps the right to permit or prohibit further copying and dissemination. In those cases, the Association HyperNietzsche is not involved.
For contributions to be published in HyperNietzsche, there is a choice
of data formats, which are all open and freely accessible: PDF, HTML,
JPEG, and, basically, any XML-based format, like HNML.
Development and Scope of HNML
HNML – HyperNietzsche Markup Language – is an XML format designed by the Munich Nietzsche Team in order to fill the gap between
HyperNietzsche Markup Language
185
the relational organisation of documents, which is realized by our database, and the need for encoding the structure of the documents.
HNML is derived from TEI-XML. Initially, we planned to apply the
TEI P42 guidelines. However, we soon faced the problem that the possibilities of encoding manuscripts provided by TEI P4 did not meet all our
requirements. Deviations from the TEI guidelines were inevitable, but
nevertheless, we decided to remain as close to the TEI elements and
structure as feasible. One feature of HNML is its ›scalability‹ regarding
the depth of structure within a document: as one doesn't know how
complicated Nietzsche's manuscripts can get, until one has analyzed – if
not encoded – them all, the encoding scheme must provide enough extensibility.
As one basic consequence, the storage of manuscript data in attributes
of XML elements had to be avoided, because one may face the need for
inserting additional meta-information to such data,3 which is not possible
with attributes. Thus, HNML contains more elements and less attributes,
and no HNML attribute contains manuscript data. Another reason for
designing a new markup language was the fact that there were no tagsets
available for some manuscript features, like the overwriting of one letter
by another. Moreover, HNML makes a sharp distinction between the
description of manuscript features and any correction and comment by
the editor.
However, as standardization is important for interchangeability, we
will provide a TEI version of all our HNML documents. Of course,
there will be loss of information for the time being, as not every HNML
tag/tagset can be translated into TEI P4, but as the TEI guidelines are in
constant development, this problem might be solved in the future.
Initially designed for encoding manuscripts, we soon extended the
scope of HNML: we also use it for encoding our new editions of
Nietzsche's works and for publishing essays.
2
3
I.e. the fourth edition of the encoding guidelines by the Text Encoding Initiative
<http://www.tei-c.org/P4X/> (17.2.2004).
For example, if a word that has been corrected, is also underlined, and the correction
itself is not underlined and written with a different ink: <corr sic="<hi rend=
"underlined">rong</hi>"><hand ink="blue">wrong</hand></corr>. If
there was only one feature in which the corrected and the original word diverge, it
would have been possible, e.g. if only the ink was different: <corr sic="rong">
<hand ink="blue">wrong</hand></corr>, or if the only difference was the
underlining: <sic corr="wrong"><hi rend="underlined">rong</hi>
</sic>.
186
Harald Saller
HNML for Transcriptions
As a matter of fact, every HNML-encoding of Nietzsche's manuscript
writing generates at least two transcriptions: a ›diplomatic transcription‹
and a ›serialized transcription‹ (both in HTML format) are generated
from the HNML document on request by the user.4 The third kind of
transcription, the ›ultra-diplomatic transcription‹, requires some human
intervention, as it represents very detailed physical features in an ›iconic‹
way, which can hardly be encoded by markup and displayed in HTML:
the exact positioning of words, passages and graphics on the paper, the
exact font size and the like. Finally, there is a fourth kind of transcription. The ›interactive transcription‹ provides the user with a clicksensitive digital facsimile of a manuscript page: when the user clicks on a
word, its transcription becomes visible.
The descriptive features of HNML for transcriptions can be grouped
into the following subsets:
1. writing hand: Nietzsche, Peter Gast or unknown; handwriting: German, Latin, Greek; writing implement: pencils and ink in various
colours;
2. spatial order and interrelations of words or phrases: page breaks;
paragraphs; line breaks and hyphenation;
3. revisions, markup and instructions by the author/writer: additions;
deletions; overwriting; underlining; repetition of words in order to
assemble spatially diverse portions of text;
4. writing layers or levels: grouping of acts of revision which constitute
one stage of the writing process;
5. editorial interventions, and optional comments by the transcriber:
these are needed for the serialised transcription, which is a corrected
rendition of the manuscript text in its final state;
6. unreadable or unresolved letters, words or phrases;
7. special characters which are represented by empty elements to facilitate the processing.
Feature no. 4 is a very recent development. The idea is to give a grouped
order of the actions described in the third group (revisions, markup and
instructions) – and, as a consequence, in the fifth group (editorial interventions): for every writing layer, there will be a diplomatic transcription
as well as a serialized transcription. Of course, a distinction of writing
layers is only possible in some of Nietzsche's notes. Additionally, it im4
This task is done by XSLT style sheets, see <http://www.w3.org/Style/XSL/>
(17.2.2004).
187
plies much more interpretation, and therefore subjectivity, than all the
other encoded features. The result tends towards a genetic edition. However, the user can always decide whether the writing layers are displayed
or not. If not, only the results of all writing processes, i.e. the physical
appearance of the manuscript is presented. On the technical side, the encoding of writing layers by HNML is quite simple. The information
about the writing layer is stored in an attribute within the element that
describes the action of revision itself. For example, an addition which
took place in writing layer 1 would be encoded like this: <add
lay="1">ADDED_TEXT</add>.
Display in HTML
The possibilities of representing a two-dimensional object and additional
non-spatial information by means of a two-dimensional display are limited: the writing layers (which are of temporal nature) have to share the
means of representation with the spatial information. Consequently, a
conventional schematization is necessary, and the visualization becomes
somewhat hybrid. For example, we use superscript (and a smaller font)
to indicate an interlinear addition, which only resembles the physical appearance in the manuscript, but cannot imitate it. A phrase printed in superscript takes all the horizontal space, as if it was not printed in superscript. Additions that belong to different writing layers are displayed in a
cascading way: with every new writing layer that has been entered, the
superscript appears a little higher, so the nesting of the different layers
becomes quite obvious. The following example shows how writing layers
are encoded and displayed:
HNML Example
<N>
If I had written all my works with <sepia>
<str lay="1"><black>coloured pencils
</black></str></sepia><editor lay="1"><sic><red>
<str lay="2"><add lay="1"><sepia>typewriter</sepia>
</add></str></red></sic><corr>a typewriter</corr>
<enote></enote></editor><editor lay="2"><sic>
<add lay="2"><red>computer</red></add>
</sic><corr>a computer</corr></editor>, would
things be simpler?
</N>
188
Harald Saller
Screenshots
In the first screenshot, only the basic writing layer (= layer 0) is presented; there are no alterations yet. In the second and third screenshot,
the layers 1 and 2 are selected.
189
HNML for Works
HNML also turned out to be useful for the new editions of Nietzsche
works which will be provided by the Munich Team. Identical or similar
tags are used with transcriptions, works, and essays. There are the following groups of features:
1.
2.
3.
4.
spatial order: page breaks; paragraphs; line breaks and hyphenation;
markup (highlighting) by the author;
editorial interventions by the editor;
special characters which are represented by empty elements to facilitate the processing;
5. footnotes by the author.
Every editorial intervention is made transparent to the reader by a critical
apparatus. In the apparatus, the corresponding reading of every extant
›Vorstufe‹, i.e. note in a manuscript that is a predecessor of the work text,
is given. The following tagset was designed for the encoding of editorial
interventions/apparatus:
<editor>
<sic>ORIGINAL</sic>
<corr>CORRECTED</corr>
<enote>
<rdg sig="SIGEL" type="TYPE_OF_WITNESS"
hand="WRITING_HAND">VARIANT</rdg>
OPTIONAL_REMARKS
</enote>
</editor>
(The number of <rdg> tags within one editor tagset varies from 2 to 5,
depending on how many manuscripts are extant).
HNML for Essays
There are two text formats that can be used for the publication of essays:
HTML and XML (that is, any XML-based document format). For those
essays which are edited by the Munich Team, HNML is used. Besides,
every contributor is encouraged to encode his/her essay in HNML, too;
a specially configured XML editor5 will be freely available soon. By the
use of HNML, it is assured that the formatting of the essays is uniform,
5
The editor, with some standard configurations, is available at <http://sourceforge.net
/projects/jaxe/> (17.2.2004).
190
Harald Saller
and that there is a logical/structural markup that may be used for information retrieval. For example, the paragraphs of an essay are numbered
automatically, thereby providing a granularity for referencing and processing which should be quite appropriate for digital documents: the division by page breaks mostly used in paper documents has the disadvantage of not corresponding to the logical structure of a document. But the
most important feature of HNML regarding essays surely is its support
of dynamic contextualization.
HNML and Dynamic Contextualization
The basic elements of the HyperNietzsche infrastructure are signatures;
if an object has a siglum, it exists in the eyes of HyperNietzsche, and can
be referred to and processed. The dynamic contextualization uses the
signatures by gathering everything (document, or, in Pearl Diver Model
terminology: ›pearl‹, see Michele Barbera/Riccardo Giomi The PearlDiver Model. The HyperNietzsche Data Model and its Caching System
in this volume6) that contains a certain siglum. There are three HNML
tags, which refer to three categories of HyperNietzsche entities: authors,
contributions, material. For example, if an essay cites a certain note in a
notebook: N IV 4,23[2] (note no. 2 on page 23 of notebook N IV 4), a
link to all the other contributions relating to that note is generated. An
HNML example: »Nietzsche wrote down in simplification
of Epicur on <material sig="N-IV-4,23[2]">page 23
of N IV 4</material> that metaphysics were of no
use.« Obviously, the task of the tag is to connect the author's arbitrary
way of citing, which is addressed to the reader, to the canonical signature, which is adressed to the system.
The contextualization tags are available in all three types of HNMLencoded contributions: transcriptions, text editions, and essays. But also
HTML-encoded contributions, like commentaries or reviews (for which
there are currently no HNML schemes available) may contain contextualization tags, as there are HTML versions of these tags, too.
6
See also <http://computerphilologie.uni-muenchen.de/jg03/barbera-giomi.html>
(20.2.2004).
Michele Barbera/Riccardo Giomi
The Pearl-Diver Model.
The HyperNietzsche Data Model and its Caching System
Abstract
During its early stages in the first months of 2002, HyperNietzsche was a
conventional web application, using a script language to generate dynamic web pages ›on the fly‹ through a relational database. When Net71
joined the project, in April 2002, we faced a rapidly growing database, a
user interface that changed frequently and, most noticeably, a very complex mechanism of visualizing relations among contents called ›dynamic
contextualization‹. The main concern was not the quality of code but
rather the inadequacy of the architectural model. So, during 2002, we developed a new model called Pearl-Diver Model (PDM). This document
contains a short and accessible description of the architectural changes
that have taken place during the transition to the new architecture. For a
more detailed formal analysis see the HyperNietzsche developers website
at <http://www.hndevelopers.org> (19.2.2004).
1. The Old Architecture: A Conventional Web Site with Dynamic Page
Generation
To handle the complexity of the project we adopted our own terminology: we use the term pearl instead of the usual Computer Science term
›object‹. HyperNietzsche is a project that deals with pearls and their relations. Pearl is the abstract term to designate all the elements that together
make up Friedrich Nietzsche's work: papers and books, manuscripts and
letters, Nietzsche's private library and biographical documents. With the
term pearl we also indicate every contribution that other authors wrote
about Nietzsche (critical essays, translations, but also transcriptions of
manuscripts and critical editions). The ›pearls‹ HyperNietzsche deals with
are divided into ›sub-pearls‹, and each ›sub-pearl‹ is a pearl in itself. The
›sub-pearls‹ can be divided themselves and so forth as long as each pearl
can be studied in itself. The HyperNietzsche Team calls this structure
»granularity«. The granularity tree can be seen as a yardstick that mea1
<http://www.netseven.it> (19.2.2004).
192
Barbera/Giomi
sures the deepness of a pearl. Each pearl is related to other ›pearls‹ and
these relations can be of different types. Relations are called »structural«
when they symbolize that one pearl is physically part of another, like a
page is part of a notebook. Structural relations are used to represent
granularity trees. Relations are called logical when they represent abstract
links between ›pearls‹. Logical relations are the basis the of dynamic contextualization relies on. They are links that can be followed in both directions. If you examine a traditional HTML link you see that it contains information concerning its target. But think about what happens when you
follow the link and reach the target: you have lost all the information
about your starting point. The dynamic contextualization obviates this
behavior.
Handling these structures increases the complexity and the sheer amount
of data the HyperNietzsche Project has to deal with. It suffices to imagine how much material Nietzsche has written and how many sub-parts
this material may contain to have an idea of how complex all this can be.
Let us add to the count all the contributions that have been and will be
written about Nietzsche's materials. Of course it is possible to design a
system that is able to store and process this amount of information by
developing a conventional web application. It was just what the first
team of computer scientists of HyperNietzsche began to do. They built
HyperNietzsche as a dynamic Hypertext. This meant that the content of
the pages shown by the browser was not statically stored on the server's
The Pearl-Diver Model
193
filesystem (as HTML files), but was built on the fly querying a relational
Database, which was constantly updated.
During the development of the first version of HyperNietzsche, it became clear that such a system would be quite clumsy and unable to respond quickly enough to users' requests. To explain this point it is necessary to explore the technical structure of the system in more details. Information about ›pearls‹ is stored in the database tables. ›Pearls‹ that
share similar characteristics are stored in the same table. When the information about one pearl, say page 3 of Nietzsche's manuscript N IV 2,
is requested by the user, the system searches the manuscripts' table to locate manuscript N IV 2, then follows the relation »manuscript-page« to
find the right pearl. The process does not end here, as the contextualization information must be retrieved. The context of a pearl is the set of
contributions that refers to the pearl itself as the object of study. To retrieve the contextualization information we need to follow the »contribution-material relations« from our pearl up to each contribution. Meanwhile, we search for the authors of each contribution, which are contained in the »contribution-author« relation table.
However, this architecture reaches its limits when the structure of the
relations amongst the data becomes particularly complex. Considering
that the data structure used for representing the dynamic contextualization is an oriented multigraph, a lot of queries to be executed have a high
level of complexity2. This is unacceptable for a web application, because
2
For a formal description of computable queries see: Ashok K. Chandra/David Harel:
Computable Queries for Relational Data Bases. In: Journal of Computer and System
Sciences 21 (1980), pp. 156-178.
194
Barbera/Giomi
in certain cases a user will have to wait too long before being able to access the required page.
2. The New Architecture: The Pearl-Diver Model
In order to solve this problem we have developed a new architecture:
The Pearl-Diver Model (PDM) that exploits the low volatility of our
data. As disk space is cheap and computational time is the scarce resource, we choose to adopt a model that privileges efficiency instead of
saving disk space. It is, in fact, a caching mechanism based on XML. The
considerations that gave birth to this concept are:
• Many elements of HyperNietzsche are static: they do not change in
time. In the old architecture, even static object information was recalculated every time it was requested. This led to a great loss of time. If
an element is static we need to process the information just once and
then store it somewhere, ready to be delivered to the user. But our
elements are not always static. They change when a new contribution
is submitted, deleted or modified by an author. When this happens,
the contextualization of the referred pearl must include the new contribution, and the information related to the pearl must be processed
again. Pre-calculated units of information are called »Presentation«.
They are the way that pearls ›present themselves‹ to the outside
world.
195
• Another characteristic of HyperNietzsche is that submitted contributions are not immediately accepted by the system. They must pass the
Peer Review scrutiny and wait at least fifteen days to be published.
Once accepted, they can be published; this means that their information will be processed. Thus, we can choose a time of the day, usually
with low user traffic, and compute every change at once.
• We wanted to retain data security, integrity and consistency from the
old system. And we needed to maintain the internal system data
structure used to elaborate changes.
• Static, pre calculated information about pearls must be stored somehow. This gave us the occasion to use the XML standard in our project, giving the possibility to export HyperNietzsche pearls to other
systems or to expose their metadata in standard formats to be compliant to different specifications.
2.1 The Main Sub-System
The new architecture consists of three logical sub-systems: The Main
Sub-System contains all the information about HyperNietzsche's pearls
and relations. All data is stored in a PostgreSQL database following all
database data normalization rules. The table's structure and control functions guarantee that data insertion, deletion or update operations are
executed without errors or data integrity losses. The Main Sub-System's
database is called the Main Database and is physically isolated. It does
not serve the user directly but it is used to create Presentations whenever
required. This system communicates with the Presentations Sub-system
via a module of the Administration Sub-System called Pearl-Diver, as it
›fishes pearls‹ from the Main Database. The process of computing new
Presentations is, as in the old architecture, quite time-consuming, but is
done only once for every update and not at every user request. Additionally, computation is limited to those pearls directly involved in the update.
2.2 The Presentation Sub-System
The Presentation Sub-System stores Presentations built by the Main SubSystem and provides XML output. The Presentation's XML follows
worldwide open-access specifications, hence the platform is usable as an
open database or as a stand-alone Internet application. All the Presenta-
196
Barbera/Giomi
tion's data are stored in the Presentation's database, which also contains
the »Functions« used to generate the final XML. This database doesn't
handle data consistency or redundancy. The Main Sub-System handles
these issues. Data is stored to make the retrieval of information as fast as
possible. To fulfill user requests this database searches just one table. In
the most complex cases it searches two tables.
XML presentations can be read by any system and attached to different graphical interfaces. Our platform provides of course its own user interface that is realized using an open-source XSL transformer
(Sablotron), which generates HTML pages from XML and XSLT files.
The XSLT style sheets contain the instructions about how the XML has
to be transformed. Between the Presentation's XML and the user interface, there is the Navigation Module. This module receives the user's request, asks for the corresponding XML to the Presentation's database,
and then passes it bundled with the chosen XSL style sheet to Sablotron
to build the final HTML page.
Another task that has been assigned to this sub-system is the handling
of translations. HyperNietzsche is designed to be accessed by users from
anywhere in the world. Each interface page is written in an internal language made of ›identifiers‹. A user entering HyperNietzsche must choose
a language. If, for any reason, this is not done, the system reverts to
German as default language. Once a navigation language is chosen, identifiers are substituted by words in the chosen language. The identifiers
are written in an internal language similar to English, and they will remain invisible to the end-user. Identifiers are used as placeholders. They
have meaningful names solely to make it easier for the HyperNietzsche
Team to handle them. Translators determine, for every language, which
word must substitute each identifier. A specialized navigation interface is
available for translators to translate words while navigating HyperNietzsche, in this way they have a clearer idea of the context in which
a word appears. This feature is called »Contextual Translation«. The
Translation Dictionary is stored in tables within the Presentation's database. These tables are used when pages are created, thus it is faster to
have the Translation Dictionary and Presentation in ›the same place‹.
197
2.3 The Administration Sub-System
Apart from the Pearl-Diver Module described in 2.1, the Administration
Sub-System handles the submission procedures of contribution and Peer
Review and provides a Control Panel usable by the project leader and by
the system administrators to set system parameters.
The Peer Review Module has the task of supervising the policy of
contribution acceptance. It includes an interface used to examine submitted contributions, to vote on them and to write reports. The system
checks once or more times a day if a contribution fulfills the publication
requirements. Every contribution that passes this check is ›handed over‹
to the Main Sub-System where the necessary Presentations are processed. To submit a contribution there is a dedicated interface that allows
the user to send to HyperNietzsche all the required data in a simple,
user-friendly way. This interface is also part of the Administration SubSystem. Its task is to save the contribution that will be processed by the
Peer Review Module. Contributions are submitted anonymously to guarantee fairness during voting.
198
Barbera/Giomi
2.4 From Submission to Visualization: A Simple Example
Let us assume that a user submits a new contribution. After the approval
of the Peer Review, all the pearls cited by this example contribution are
scheduled for re-elaboration. Why do we have to re-elaborate all the
pearls? Let us suppose that this contribution is an essay about page 3 and
4 of the N IV 2 notebook. The Presentations of the pearls that represent
the two pages have, as part of their information, the list of the contributions that cite those two pages. This information is now going to be incorrect because we are adding a new contribution to the list. Every pearl
that has to be modified is called ›dirty‹, and is scheduled in the Main Database for its Presentation's re-elaboration. Once a day, the Administration Sub-System calls for the Pearl-Diver Module of the Main SubSystem, which substitutes all the old Presentations marked as ›dirty‹ with
their new Presentations, as processed by one of the Main Database internal functions.
Every operation in the Main Database relies on a database feature
called Transaction. This feature enables a set of operations to be either
entirely completed or entirely failed3. Transactions assures that there
3
A transaction has as set of properties known as ACID that stands for Atomicity, Consistency, Isolation, Durability. The ACID concept is described in ISO/IEC 100261:1992 Section 4.
199
cannot ever be incongruou information in the Presentation's database.
Transactions are used for every query on this database.
Now the Presentation's database contains the Presentation of the new
contribution. Presentations are stored in a hybrid format composed of a
mixture of XML and raw data, which cannot yet be used by external applications, but allows efficient internal operations. If a user asks HyperNietzsche's interface to show him a contribution, the request is handled by the Navigation Module of the Presentation's Sub-System. After
this step the module asks for the information in XML format. The requested valid XML is built out of the Hybrid-formatted data. This process is done by the Presentation's database internal functions. Finally, the
interface page about the contribution is shown on the user's browser.
Please note that the most time consuming operations are automatically
done by the system before any user request. The user has to wait only for
the Presentation's database to provide pre-calculated information, which
is a very small amount of time.
2.5 Some Advantages of this Model
The Pearl-Diver Model is faster and more efficient than the old conventional architecture. It assures data security, consistency and integrity
while at the same time storing enough information to represent all the
complex relations between pearls. It also features a built-in interoperability with other applications. This is the direct result of being able to use
the XML as a channel between data and interface. Another important
advantage that this new design offers is that the core system is clearly
separated by its interface. It means that the core system provides an easy
and compatible access to its data from outside applications. The raw data
obtained from the core system could be used by another interface or as
an input for other applications. In this way it is possible to build a metahyper able to act as an abstraction layer over platforms dedicated to different authors and also in compliance with protocols like OAI-PMH4.
4
The Open Archives Initiative Protocol for Metadata Harvesting <http://www.open
archives.org/OAI/openarchivesprotocol.html> (19.2.2004).
200
Barbera/Giomi
Thomas Rommel
»Of what is past, or passing, or to come«.
Electronic Analysis of Literary Texts
Abstract
This essay looks at the way computer-assisted studies of literature have
been received in the past. It analyses some of the fundamental assumptions about text and the way critics perceive text and textuality, and it
discusses the way in which electronic procedures can be used for the
study of literature. The example of ›author gender‹ is presented as a challenging new study that may bring mainstream and specialized scholarship
together in literary studies. Finally, three possible developments in computer-assisted literary studies are outlined.
Every reader dreams of a reliable memory and unlimited time: »The Biblical three-score years and ten no longer suffice to read more than a selection of the great writers in what can be called the Western tradition,
let alone in all the world's traditions. Who reads must choose, since there
is literally not enough time to read everything, even if one does nothing
but read.«1 But in an ideal world the canon does not matter, and there is
enough time to read – and even to re-read – all the texts deemed relevant
from a given perspective. In addition, all these texts can subsequently be
interlinked on various levels, and any intertextual connection between a
virtually unlimited number of texts can be established. These texts are
constantly present in the reader's mind and they form a vast archive accessible any time, with no limitations.2 In this ideal world the reader remembers perfectly well every subplot, every character, even every single
phrase of every text ever read.
Literary criticism, acutely aware of the problems of both canon and
memory, therefore operates selectively. The limitation and the problem
of exclusion is accepted as an integral aspect of traditional approaches to
texts, and for this reason most literary critics deal with representative tex1
2
Harold Bloom: The Western Canon. The Books and Schools of the Ages. New York:
Riverhead 1994, p. 15.
On ›archive‹ cf. Kathryn Sutherland: Introduction. In: Kathryn Sutherland (Ed.): The
Electronic Text. Investigations in Method and Theory. Oxford: Oxford University
Press 1997, p.1-18. Here p. 9.
202
Thomas Rommel
tual phenomena when they talk about surface features of a text. Human
memory is extended and externalised through written notes and references, and the limitations of the human mind both in respect to time
and capacity have become an accepted part of the conceptual and methodological framework of literary studies.
The frequent textual echoes that link chapters in books, the verbal
subtleties of language on the stage, and the intricate sound patters employed in poetry constitute a small fraction only of literary phenomena
that can be observed ›on the surface‹ of texts. The myriads of details that
come with every reading of a text are filtered by the reader who has to
prioritise – what to keep in mind, what to memorize, what to discard.
Very often surface phenomena are dealt with in a cursory fashion, as
scholars shy away from the tedious task of systematically collecting, analysing and interpreting all relevant passages. Conveniently, a substantial
number of these features are deemed dispensable material that can be
used if necessary, but that do not in their totality contribute to the understanding of a text. John Burrows criticises this type of eclectic analysis: »It is a truth not generally acknowledged that, in most discussions of
works of English fiction, we proceed as if a third, two-fifths, a half of
our material were not really there.«3
But literary works do depend on the totality of text, on every single
textual item found in the work: »We in literature consider the text to be
the result of the artistic intention of the author, not as a linguistic document. The text studied for its literary value contains nothing that can be
ascribed to chance. The probability of finding a given word in a certain
place in a text is thus one if it is there, and zero if it isn't.«4 Stylistics,
both traditional and computational, agrees, and it is in the field of textual
exegesis based on textual evidence that the electronic analysis of literary
texts is most dominant and successful.
When monks in the middle ages produced the first concordances of
the Bible, they kept tab manually, compiling endless word lists and indices that would allow the reader to locate passages where human memory
proved inadequate. Computer-assisted analysis follows the same pattern
and employs similar strategies. The difference, however, can be seen in
the flexibility of sampling and testing that comes with electronic procedures. A search for specific textual phenomena can be refined, even
changed, should it become necessary. Texts can be analysed in their en3
4
John F. Burrows: A Computation Into Criticism. A Study of Jane Austen's Novels and
an Experiment in Method. Oxford: Oxford University Press 1987, p. 1.
Paul Fortier: Babies, Bathwater and the Study of Literature. In: Computers
and the Humanities 27 (1993), p. 375-385. Here 376.
»Of what ist past, or passing, or to come«
203
tirety, and sufficient time and man power for any given analysis is no
longer problematic. While medieval monks spent years in isolation compiling word lists, the modern scholar can modify search patterns within
seconds, or he or she can think of expanding the corpus by adding more
texts. While the methodology of this type of analysis has not changed
over the centuries, the introduction of computer-assisted work has led to
a fundamental change in the way data is produced.
Computer-assisted studies, sometimes referred to as ›computer-based‹
depending on the amount of data processing involved, thus constitute a
continuation of stylistic analysis that originates from textual exegesis.
The procedures focus on a thorough combing of the text, and the tools
and techniques required for this kind of work are basic, because
much can be achieved with judicious use of simple tools. The computer is best
viewed as an aid to scholarship, a machine which can help with many repetitive
tasks and which can assist with detailed investigations or help to provide an
overall picture which would be impossible to obtain by other means. Many humanities electronic text projects which are more than simply putting material on
the Web have been based, in one way or another, on word searching, frequency
lists, and concordances. These have been used as a basis for further interpretation of textual material, for comparative work, for lexicography, for the preparation of scholarly editions, and for the analysis of different linguistic features.5
Close attention to surface features of a text provides the basis for the ensuing analysis, and with this focus on complete sets of data extracted
from the text a number of theoretical issues need to be discussed. Sometimes this attention to the text in its entirety and with a particular emphasis on minute analysis of isolated stylistic features is described as a return
to the theoretical position of New Criticism and its theoretical and
methodological tenets. If this is indeed the case, then the computerassisted analysis of texts does not in itself constitute a new ›method‹, but
provides sophisticated tools only that work within an existing set-up. In
addition, as New Criticism is widely regarded as a dated, if not inadequate approach to texts and their location in a literary or cultural context,
the continuation of such methods proves difficult and invites criticism.
»One might argue that the computer is simply amplifying the critic's
powers of perception and recall in concert with conventional perspectives. This is true, and some applications of the concept can be viewed as
5
Susan Hockey: Electronic Texts in the Humanities. Principles and Practice. Oxford:
Oxford University Press 2000, p. 6.
204
Thomas Rommel
a lateral extension of Formalism, New Criticism, Structuralism, and so
forth.«6
In the light of recent developments in computer-assisted studies of literary texts it remains to be seen in how far this assessment is still adequate. It has become apparent, however, that most studies that use electronic means of text analysis are aware of the theoretical implications of
their approach. It remains open to debate whether a truly naive, positivistic reading of a text in computer-assisted studies was ever published in
reviewed journals such as Literary and Linguistic Computing or Computers and the Humanities. If literary critics were happy to use the computer for its own sake, then the fault lies not with the tool, but with the
methodology.
In a widely noted assessment of the field, published 1991 in Literary
and Linguistic Computing, Thomas Corns comments on the disappointing achievements of computer-assisted studies in mainstream literary studies. He writes that literary studies have split up into
increasing aggressive and intolerant theoretical camps, for the most part mutually
suspicious and marked by sharply differentiated critical vocabularies, idioms, objectives and values, though there have been elements of hybridization. We advocates of computer applications do not figure significantly within that complex
configuration. In so far as we are regarded, traditionalists still observe us with
suspicion – we murder to dissect. Post-structuralists regard us as engaged in an
inherently foolish enterprise, mistaking the modality of the text, absurdly unaware of the inadequacy of our categories, of all categories; feminists regard us as
involved in the fetishizing of the machine, the toys for the boys critique; marxists
disclose the political implications of the seemingly apolitical nature of our analysis.7
The debate, however, continues, and at nearly every conference on humanities computing the failure of computer-assisted studies to be perceived in mainstream literary criticism is commented on.8 Given the high
degree of critical awareness of their own methodological position in humanities computing it seems unlikely that theoretical or methodological
criteria are responsible for the low rate of acceptance. If one follows
6
7
8
John B. Smith: Computer Criticism. In: Roseanne G. Potter (Ed.).: Literary Computing
and Literary Criticism. Theoretical and Practical Essays on Theme and Rhetoric. Philadelphia: University of Pennsylvania Press 1989, 13-44. Here p. 14.
Thomas Corns: Computers in the Humanities. Methods and Applications in the Study
of English Literature. In: Literary and Linguistic Computing 6/2 (1991), pp. 127-130.
Here p. 129.
Compare, for instance, the essays in a recent issue of Literary and Linguistic Computing on text analysis and text analysis tools. Literary and Linguistic Computing 18/2
(2003).
205
Hans-Walter Gabler's reasoning, the problem remains as much with the
community of book-trained scholars as with those well versed in using
electronic procedures:
The established present use of the computer in the humanities is to enhance the
properties and quality of the book. With the book electronically stored, book
contents and book knowledge can be accessed fast and very flexibly [...]. [...] In
the face of the forces of habit, the question arises how clearly the bookconditioned and book-trained humanities scholar and researcher is capable of
discerning the unique otherness of the electronic medium and both explore and
exploit its potential.9
Gabler's argument is convincing, but the ›otherness of the electronic
medium‹ needs to be communicated to the world of mainstream academia. Especially the question of contextualization and a critical reevaluation of the seemingly obsolete techniques of close reading in literary studies stimulate discussions that question methodology and fundamental notions of the relationship between author, text, and reader. In
this respect most contributions to literary and cultural analysis that originate from computer-assisted studies are highly aware of the theoretical
implications of their approach. As a result one finds that in nearly all
cases the question of the status of the text and related problems of textuality are dealt with in great detail.
In the most useful studies, researchers have used the computer to find features
of interest and then examined these instances individually, discarding those that
are not relevant, and perhaps refining the search terms in order to find more instances. They have also situated their project within the broader sphere of criticism on their author or texts, and reflected critically on the methodology used to
interpret the results, avoiding the ›black-box‹ tendency of some projects to produce tables of numbers without any serious assessment of what those numbers
might mean.10
It is from this theoretical awareness that sophisticated studies take their
analytical strength, because »as hardware has become tremendously powerful, most people have come to realize that the limitations of computerassisted textual analysis are methodological rather than technological. At
the moment we have all the computing power we could possibly need
9
10
Hans-Walter Gabler: There is Virtue in Virtuality. Future potentials of electronic humanities scholarship. In: ALLC/ACH 2002. New Directions in Humanities Computing. Conference Abstracts. Tübingen: Zentrum für Datenverarbeitung ZDV 2002, pp.
40-41. Here p. 40.
Susan Hockey: Electronic Texts in the Humanities, p. 84. (footnote 5).
206
Thomas Rommel
[...].«11 The authors of the best computer-assisted studies maintain that
the computer can be considered useful for the process of data collection
only. In studies of literature computers »are no more able to ›decode‹
rich imaginative texts than human beings are. What they can be made to
do, however, is expose textual features that lie outside the usual purview
of human readers.«12
Here the computer is seen as a tool that facilitates certain repeated
procedures, and this tool greatly enhances the scope of texts or the range
of sampling that provides data for the ensuing analysis. But it is in the
nature of a tool to be guided by human intuition and experience. A tool
is designed and constructed specifically to enhance human work. In this
context the computer as a tool is regarded as the extension of human
abilities and skills, and in the nature of this extension lies its greatest potential and, at the same time, its fundamental limitation.
If tedious procedures that require repeated, identical processes that
rely on precisely defined formal properties of text can be committed to
the computer, then human resources, freed from the constraints of
numbing work, can be used productively: the textual material compiled
by the tool in a first step will, in a second step, be analyzed, contextualized and finally in a third step be interpreted by the human critic. Seen in
this light the computer constitutes a tool perfectly suited for some types
of literary analysis. Every approach that depends on access to a limited,
but precisely defined textual features is greatly helped. If the criteria for
sampling need to be re-defined, new search routines and sampling procedures can be implemented seamlessly based on the formalisms initially
established, and in this the scope and breadth of computer-assisted textual analysis is unprecedented.
As Susan Hockey writes in her book on Electronic Texts in the Humanities. Principles and Practice, the computer
is best at finding features or patterns within a literary work and counting occurrences of those features. If the features which interest a scholar can be identified
by computer programs, the computer will provide an overall picture which
would be impossible to derive accurately by manual methods. It can also pinpoint specific features within a text or collection of texts and lead the researcher
11
12
Thomas Rommel: The Internet Survey for English Studies. In: Doris Feldmann/FritzWilhelm Neumann/Thomas Rommel (Eds.): Anglistik im Internet. Proceedings of the
1996 Erfurt Conference on Computing in the Humanities. Heidelberg: Carl Winter
1997, pp. 101-112. Here p. 112.
Jerome J. McGann: Radiant Textuality. Literature After the World Wide Web. New
York: Palgrave 2001, p. 190-191.
207
to further areas of enquiry. It is often best treated as an adjunct to other research
methods.13
The success of this type of analysis depends on the way the text is perceived by the critic. If textual features that can be formalized form the
basis of the analysis, then the precise and unambiguous definitions of the
phenomena to be identified have to be provided. This precision in describing textual properties determines the quality of the analysis, and it is
crucial that at this point decisions be made about what properties to include and what to exclude. It is from a thorough knowledge of the text
that any assumption about some of its properties can be made, and at
this initial stage of the analysis there exists no methodological difference
between a critic who is planning to conduct a stylistic investigation into
textual properties in a traditional way and a critic who is planning to use
electronic procedures.
Ideally, even the process of sampling, i.e. of identifying, locating and
extracting textual features is identical in both types of studies. The crucial
difference, however, is the fact that any ›manual‹ sampling will take much
more time than the same process conducted with electronic means. If
the criteria according to which the textual phenomena are identified remain unchanged throughout the entire process, then the computer –
with unerring accuracy, super-human speed and an unfailing memory –
will by far outperform any manual approach to the same text. Given that
the criteria for searches can be changed and that multiple searches can be
conducted on the same material without any time constraints, then it becomes obvious why computer-assisted procedures are vastly superior to
manual approaches. The central advantage can be seen in patternmatching routines, i.e. the search for
Zeichenketten [strings], also nach beliebigen Kombinationen von Buchstaben,
Zahlen oder Satzzeichen. Dabei können zumeist auch Platzhalter für beliebige
Zeichen eingesetzt werden. Eine abstrakte Form dieser Verwendung von Platzhaltern ist der Einsatz von ›regulären Ausdrücken‹, womit Zeichenmuster beschrieben werden können. Einzelne Zeichenketten können durch die Verwendung von Booleschen Operatoren zu komplexen Abfragen kombiniert werden.14
The complexity of search procedures, the possibility of virtually endless
variations of patterns that can be identified constitute a major advantage
of computer-assisted studies.
13
14
Susan Hockey: Electronic Texts in the Humanities, p. 66. (footnote 5).
Fotis Jannidis: Computerphilologie. In: Ansgar Nünning (Ed.): Metzler Lexikon Literatur- und Kulturtheorie. Stuttgart/Weimar: Metzler 1998, pp. 70-72. Here p. 70.
208
Thomas Rommel
These striking advantages, however, remain limited to a rather narrow
area of stylistic study, and within this field the »discussion of the history
of literary computing shows that only a limited number of textual phenomena can be analysed profitably in the context of a qualitative, computer-assisted analysis of style. These phenomena have to have some
surface features that can be identified by electronic means.«15
No hermeneutic procedures that change the reader's perception of the
text find their way into an electronic analysis. Every modification of a
search, every subtle re-arrangement of sampling procedures needs to be
fed into the system at a stage when the data suggests a modification. This
is typically the case after a complete scan of a text or a set of texts has
been performed, and while a reader of a text will in the process of reading re-adjust his or her criteria, computer-generated data will – each and
every time – provide precisely what has been defined as the result of a
search.
This, in itself, is a great advantage, but it requires a more stringent and
formalized approach to a text than is commonly preferred in mainstream
literary criticism. Even stylistics as the discipline most interested in textual properties usually associated with surface features does not always
recognize the potential of a rigid, formalized approach. Much more so
for the general field of humanities education and scholarship; this »will
not take the use of digital technology seriously until one demonstrates
how its tools improve the ways we explore and explain aesthetic works –
until, that is, they expand our interpretational procedures«.16
Some of the most rewarding computer-assisted studies of electronic
texts focus on the identification of specific textual features. These features are usually repeated strings of characters – letters, syllables, individual words, word combinations and phrases – and their repeated occurrence can be traced by electronic means. Patterns of distribution can be
generated, presences and absences can be mapped, and the results of
computer-assisted procedures generate a complete survey of all phenomena found in the text.
Two principles and methodical procedures are characteristic of this
kind of analysis: a precise definition of the features to be analysed has to
be produced prior to the analysis. This definition is by itself based on an
examination of the text with a view to the scope of features found in the
text, and in a next step stringent criteria need to be established for the
15
16
Thomas Rommel: »And trace it in this poem every line.« Methoden und Verfahren
computerunterstützter Textanalyse am Beispiel von Lord Byrons Don Juan. (Tübinger
Beiträge zur Anglistik; 15). Tübingen: Narr 1995, p. 384.
Jerome J. McGann: Radiant Textuality, p. XII. (footnote 12).
209
identification of patterns. The precise definition of features and criteria
for inclusion in or exclusion from the analysis is one of the central requirements. Exceptions and possible variant readings need to be defined,
and in this procedure of a minute description a computer-assisted study
by far exceeds the rigour of a traditional stylistic analysis. The human
reader will decide according to a set of rules whether to include or exclude phenomena, and these rules are applied stringently across the entire text with a view to the aim of the analysis, and »as error-prone manual sampling becomes obsolete, textual analysis as well as the ensuing interpretation of a text as a whole can be based on a complete survey of all
passages meeting predefined patterns or criteria«.17 The computer needs
to rely on a complete set of highly specific rules for the analysis. These
rules will have to accommodate all possible findings that are of relevance
to the analysis, and they will have to put in such a way as to identify
rather more than less phenomena, because »you don't know what you are
missing«, as Catherine Ball has it.18
The fundamental difference between computer-assisted studies of literature and those that rely on a human reader only are that the sets of
findings are complete and accurate when compiled by the computer.
While a human reader may arrive at the same result, every sampling is
more error-prone when factors such as memory, attention, and the stringent application of pre-defined criteria are taken into consideration. It is
indeed possible to compile complete sets of data from literary works by
human readers – the medieval monks who manually produced the first
concordances of the Bible are perfect examples of dedicated work that
continued for months, uninterrupted.
The notion that minute details in a text, such as repeated stylistic devices or function words that form the bulk of every text, do indeed influence the reader and reflect on the author of the text, is one of the fundamental assumptions of stylistics. In these cases, electronic procedures
are most usefully employed. Stylometric analysis of authorship in attribution studies19 has shown that some textual characteristics can be analysed
fruitfully, and one of the most important computer-based studies of li-
17
18
19
Thomas Rommel: »And trace it in this poem every line.« Methoden und Verfahren
computerunterstützter Textanalyse, p. 384. (footnote 15).
Cf. Catherine N. Ball: Automated Text Analysis. Cautionary Tales. In: Literary and
Linguistic Computing 9 (1994), pp. 293-302.
Cf. David I. Holmes: The Evolution of Stylometry in Humanities Scholarship. In: Literary and Linguistic Computing 13/3 (1998), pp. 111-117.
210
Thomas Rommel
terature, John Burrows' Computation into Criticism, employs similar
techniques.20
It is in this area of text analysis that a new study challenges established
views and promises to engage both computer-assisted work and mainstream literary criticism in a new debate. In the summer of 2003 an inconspicuous headline caught the attention of literary critics: »Computer
program detects author gender.«21 The somewhat more catchy subtitle,
Simple algorithm suggests words and syntax bear sex and genre stamp
explains to the non-specialist that certain textual properties can be identified by electronic means, and that these textual properties can be used to
identify some characteristics of the author. Interestingly, sex and gender
are taken as synonymous descriptive terms by the author of nature's
›scienceupdate‹.
The article on which these and similar news reports are based was
published by Moshe Koppel et alii as »Automatically Categorizing Written Texts by Author Gender« in Literary and Linguistic Computing.22
Koppel uses automated text categorization techniques and, by focussing on a specific set of lexical and syntactic features, manages to infer
the gender of the author with about 80% accuracy. His team of computer scientists used automated text classification, and by relying on relatively small numbers of content-independent textual features such as
function words they could observe »a difference in male and female writing styles in modern English books and articles«.23 For non-computing
literary criticism the chapter »1.3 Gender« is most interesting. Here the
strategies used in the analysis of English documents from the BNC are
outlined:
The object of this paper is to explore the possibility of automatically classifying
formal written texts according to author gender. This problem differs from the
typical text categorization problem which focuses on categorization according to
topic. It also differs from the typical stylometric problem which focuses on au-
20
21
22
23
Cf. John F. Burrows: A Computation Into Criticism. A Study of Jane Austen's Novels
and an Experiment in Method. Oxford: Oxford University Press 1987.
Nature <http://www.nature.com/nsu/030714/030714-13.html> (27.1.2004).
Moshe Koppel et al.: Automatically Categorizing Written Texts by Author Gender. In:
Literary and Linguistic Computing 17/4 (2002), pp. 401-412. Also <http://www.cs.
biu.ac.il/~koppel/male-female-llc-final.pdf> (27.1.2004).
M. Koppel et al.: Automatically Categorizing Written Texts by Author Gender. (footnote 22). <http://www.cs.biu.ac.il/~koppel/male-female-llc-final.pdf> (27.1.2004)
»8. Conclusions«.
211
thorship attribution – individual authors are more likely to exhibit consistent
habits of style than large classes of authors.24
The problems described here highlights why attempts at identifying male
or female authorship by electronic means – and by focussing on decontextualized text only – are difficult. And as there is little documented
material to draw on, Koppel continues that »there has been scant evidence thus far that differences between male and female writing are pronounced enough that they could be parlayed into an algorithm for categorizing all unseen text as being authored by a male or by a female«.25 In
1975 Robin Lakoff maintained that »›Women's language‹ shows up in all
levels of the grammar of English. We find differences in the choice and
frequency of lexical items; in the situations in which certain syntactic
rules are performed; in intonational and other supersegmental patterns.«26 Jennifer A. Simkins-Bullock and Beth G. Wildman are more reluctant to accept this view; in 1991 they state that there is an a-priori
»lack of agreement about whether males and females use language differently«.27 But precisely this evidence of a noticeable (or measurable) difference is produced by the procedures of sampling and filtering described in the paper, and if the findings can be corroborated by others
then this paper will probably be considered a major contribution to humanities computing.
The implications of this analysis are far-reaching and of particular
relevance to mainstream literary criticism. Here the problems of authorship, of writing, of sex and gender, and of the difference between author
and narrator are central concerns. In his essay What is an author Michel
Foucault maintains that »in a novel narrated in the first person, neither
the first person pronoun, nor the present indicative refer exactly either to
the writer or to the moment in which he writes, but rather to an alter ego
whose distance from the author varies, often changing in the course of
the work«.28 How can this statement be aligned with Koppel's findings
that something of the author, some historical/biographical/personal information, can be detected in the text no matter how much the author
24
25
26
27
28
Ibid., »1.3 Gender«.
Ibid.
Robin Lakoff: Language and Woman’s Place. New York/London: Harper Collins
1975, p. 8.
Jennifer A. Simkins-Bullock/Beth G. Wildman: An Investigation into the Relationship
Between Gender and Language. In: Sex Roles, 24, 3/4 (1991), pp. 149-160. Here
p. 149.
Michel Foucault: What is an Author? In: David Lodge (Ed.): Modern Criticism and
Theory. A Reader. London/New York: Longman 1988, pp. 197-210. Here p. 205.
212
Thomas Rommel
tries to disguise it? If it can be shown that not every aspect of the text is
under the control of the author, then the question arises how the artistic
autonomy of the author is to evaluated. And it would be most promising
to see if this is detected by the reader.
Literary criticism maintains that everything that is in the text contributes to the overall impression of the text, that nothing is ›superfluous‹,
that every textual feature in some way influences the reader. If the author's control over his or her text is limited in such a way as to reveal
some important biographical facts about the author unintentionally, then
some fundamental assumptions about control and textual features have
to be questioned. If a text gives away the gender of its author, is it still
possible for a female author to assume the persona of a male narrator (or
vice versa) in a text? Can an author not get away from the tell-tale stylistic indicators that label him or her?29 Does this not mean that the author
has far less control over the text, how it is perceived by the outside world
– be this man or machine – and does this not severely impinge on what
is commonly perceived as a mark of competence, that an author can assume any identity without giving away his or her true self? What about
some of the most interesting narrative procedures in literature – simulation and parody – is it not possible for an author to camouflage fundamentals about his/her language?30 And, finally, are there no ›unmarked‹
texts, or would not it be possible to disguise the gender of an author?
What about misclassified authors – why is Antonia S. Byatt's novel Possession the only text by a female author amongst the six misclassified fiction samples?
If what Koppel and his co-authors have found is true, then no author,
no matter how much he or she tries, can portray in a convincing way another person in a fictional text. No male author is then in a position to
convey the views of a female character, no female author can assume the
perspective and voice of a male character convincingly, because the language of the text will give away the gender of the author speaking
through the narrator.31 And if this can be shown by means of an analysis
29
30
31
See the entry »Feminist Poetics«. In: Alex Preminger/Terry V. F. Brogan (Eds.): The
New Princeton Encyclopedia of Poetry and Poetics. Princeton, NJ: Princeton University Press 1993, p. 404-407.
Compare in this context the notion of »parodic practices« that »disrupt the categories
of the body, sex, gender and sexuality«. Judith Butler: Gender Trouble. Feminism and
the Subversion of Identity. London: Routledge 1990, p. XII.
The related question of who uses whose language in the context of debates on sex and
gender is discussed in Alicia Ostriker: The Thieves of Language. Women Poets and
Revisionist Mythmaking. In: Elaine Showalter (Ed.): The New Feminist Criticism. Essays on Women, Literature, and Theory. New York: Pantheon 1985, pp. 314-338.
213
of textual properties, then, surely, it must have an effect on the reader.
One may not be aware of gendered language right away, and in most
cases readers do know something about the author anyway, because a
look at the cover of the book one is reading quickly establishes the identity of the author – or the persona as whom he or she would like to be
perceived.
Koppel's contribution to automated text categorization techniques
raises a number of questions about fictional texts that aim at the very basis of modern concepts of reader, text, and author. It remains to be seen
if mainstream literary criticism perceives the potential of this study, and
in how far some the implicationsof ›80% accuracy‹ will be dealt with by
scholars not used to statistics.32 Automatically Categorizing Written
Texts by Author Gender is a paper that has the potential to once again
engage the marginal discipline of computer-based literary studies on the
one hand and mainstream scholarship on the other in a fruitful debate. It
is telling, however, that the impulse for this engagement should come
from computer science, from ›the other‹.
An evaluation of computer-assisted studies today of literature suggests
a number of different developments that seem possible in the near future. It seems likely that with studies such as Koppel's on ›author gender‹
a controversial but fruitful debate between mainstream literary criticism,
computer science, and computer-assisted literary criticism will evolve.
Here a continuation of previous work will certainly contribute to a better
understanding of what has already been achieved, and it is possible that
through a re-evaluation of tested techniques the potential of computerassisted work will become apparent to a wider audience.
Related to this is what David Robey sees as the interdisciplinary aspect
of computer-related studies: »A decade ago we knew enough to relate
common techniques to the various disciplines: we first suspected, then
partly knew that humanities computing was concerned with a methodological common ground within which disciplinary boundaries did not
apply.«33 This view of the nature of humanities computing has to be extended in the present situation. Specialists from the different disciplines,
and this does not alone apply to literary studies, are asked to utilize the
potential of interdisciplinary work:
32
33
A reduced list of features and/or criteria for example is central in this respect; cf. »10.
Discussion« in Richard S. Forsyth/David Holmes: Feature-Finding for Text Classification. In: Literary and Linguistic Computing 11/4 (1996), pp. 163-174. Here p. 170 ff.
David Robey: Round Table on New Directions in Humanities Computing. In: ALLC/
ACH 2002: New Directions in Humanities Computing. Conference Abstracts. Tübingen: ZDV 2002, pp. 106-109. Here p. 109.
Thomas Rommel
214
The emergence of this multidisciplinary digital library has served not to fragment
the methodological common ground but to emphasize its centrality and extend
its breadth. The future directions for humanities computing therefore involve
systematic exploration of this common ground to ensure that developments are
coherent, cohesive and responsible to its cultural inheritance. Humanities computing specialists thus have a vital role as interdisciplinary and interprofessional
mediators. The old model of support services is no longer valid: research should
he seen us a common enterprise between ›technologists‹ and ›scholars‹.34
And finally a different view of what can be done with text analysis tools
and literary texts is presented by Geoffrey Rockwell and others whose
view of text and textuality enables new possibilities in humanities computing, particularly in computer-assisted literary studies. Geoffrey Rockwell argues that tools for text analysis themselves produce new texts that
are generated through search processes. The idea is that the analysis of
texts is by no means limited to the scanning for surface features, but that
the potential of computer applications in the humanities, and more precisely in literary/textual studies, lies in opening up new views of text. According to Rockwell the concept of textuality itself and what scholars can
do with those ›new‹ texts needs to be reconsidered.35
In this humanities computing faces great challenges, but it promises to
bring out in computer-assisted literary studies the potential of what is
past, or passing, or to come.
Bibliography
Ball, Catherine N.: Automated Text Analysis. Cautionary Tales. In: Literary and
Linguistic Computing 9 (1994), pp. 293-302.
Bloom, Harold: The Western Canon. The Books and Schools of the Ages. New
York: Riverhead 1994.
Burrows, John F.: A Computation Into Criticism. A Study of Jane Austen's
Novels and an Experiment in Method. Oxford: Oxford University Press 1987.
Butler, Judith: Gender Trouble. Feminism and the Subversion of Identity. London: Routledge 1990.
Corns, Thomas: Computers in the Humanities: Methods and Applications in the
Study of English Literature. In: Literary and Linguistic Computing 6/2 (1991),
pp. 127-130.
34
35
Ibid.
Cf. Geoffrey Rockwell: What is Text Analysis, Really? In: Literary and Linguistic
Computing 18/2 (2003), pp. 209-219.
215
Forsyth, Richard S./David Holmes: Feature-Finding for Text Classification. In:
Literary and Linguistic Computing 11/4 (1996), pp. 163-174.
Fortier, Paul: Babies, Bathwater and the Study of Literature. In: Computers and
the Humanities 27 (1993), p. 375-385.
Foucault, Michel: What is an Author? In: David Lodge (Ed.): Modern Criticism
and Theory. A Reader. London/New York: Longman 1988, pp. 197-210.
Gabler, Hans-Walter: There is Virtue in Virtuality. Future potentials of electronic humanities scholarship. In: ALLC/ACH 2002. New Directions in Humanities Computing. Conference Abstracts. Tübingen: Zentrum für Datenverarbeitung ZDV 2002, pp. 40-41.
Hockey, Susan: Electronic Texts in the Humanities. Principles and Practice. Oxford: Oxford University Press 2000.
Holmes, David I.: The Evolution of Stylometry in Humanities Scholarship. In:
Literary and Linguistic Computing 13/3 (1998), pp. 111-117.
Jannidis, Fotis: Computerphilologie. In: Ansgar Nünning (Ed.): Metzler Lexikon
Literatur- und Kulturtheorie. Stuttgart/Weimar: Metzler 1998, pp. 70-72.
Koppel, Moshe et al.: Automatically Categorizing Written Texts by Author
Gender. In: Literary and Linguistic Computing 17/4 (2002), pp. 401-412.
Lakoff, Robin: Language and Woman's Place. New York/London: Harper
Collins 1975.
McGann, Jerome J.: Radiant Textuality. Literature After the World Wide Web.
New York: Palgrave 2001.
Ostriker, Alicia: The Thieves of Language. Women Poets and Revisionist
Mythmaking. In: Elaine Showalter (Ed.): The New Feminist Criticism. Essays
on Women, Literature, and Theory. New York: Pantheon 1985, pp. 314-338.
Preminger, Alex/Terry V. F. Brogan (Eds.): The New Princeton Encyclopedia
of Poetry and Poetics. Princeton, NJ: Princeton University Press 1993.
Robey, David: Round Table on New Directions in Humanities Computing. In:
ALLC/ACH 2002. New Directions in Humanities Computing. Conference Abstracts. Tübingen: ZDV 2002, pp. 106-109.
Rockwell, Geoffrey: What is Text Analysis, Really? In: Literary and Linguistic
Computing 18/2 (2003), pp. 209-219.
Rommel, Thomas: »And trace it in this poem every line.« Methoden und Verfahren computerunterstützter Textanalyse am Beispiel von Lord Byrons Don
Juan. (Tübinger Beiträge zur Anglistik; 15). Tübingen: Narr 1995.
216
Thomas Rommel
Rommel, Thomas: The Internet Survey for English Studies. In: Doris Feldmann/Fritz-Wilhelm Neumann/Thomas Rommel (Eds.): Anglistik im Internet.
Proceedings of the 1996 Erfurt Conference on Computing in the Humanities.
Heidelberg: Carl Winter 1997, pp. 101-112.
Simkins-Bullock, Jennifer A./Wildman, Beth G.: An Investigation into the Relationship Between Gender and Language. In: Sex Roles, 24, 3/4 (1991), pp. 149160.
Smith, J. B.: Computer Criticism. In: Roseanne G. Potter (Ed.): Literary Computing and Literary Criticism. Theoretical and Practical Essays on Theme and
Rhetoric. Philadelphia: University of Pennsylvania Press 1989, p. 13-44.
Sutherland, Kathryn: Introduction. In: Kathryn Sutherland (Ed.): The Electronic
Text. Investigations in Method and Theory. Oxford: Oxford University Press
1997, p. 1-18.
Claus Huitfeldt
Scholarly Text Processing
and Future Markup Systems
Abstract
This paper gives a brief overview of the background and development of
markup systems for text processing, concentrates on certain basic features of current markup systems and makes an attempt to discern tendencies that seem to be reaching into the future. It aims to show that
markup technology is important for the humanities, but equally that the
humanities disciplines are also important for markup technology. They
have already contributed a great deal to the development of markup theory and markup systems, and future technological development may
therefore benefit considerably from further contributions from the humanities.
1. Introduction
The use of generic markup has become pervasive in nearly all kinds of
document processing, and the number and diversity of systems, tools
and applications for document markup has grown rapidly in recent years.
The present account will concentrate on certain basic features of current
markup systems and make an attempt to discern tendencies that seem to
be reaching into the future.1
It aims to show that markup technology is important for the humanities, but equally that the humanities disciplines are also important for
markup technology. They have already contributed a great deal to the
1
Needless to say, this account is constrained by the perspective and the limited knowledge of the author. My knowledge of markup is based primarily on experience from
the work of the Text Encoding Initiative <http://www.tei-c.org/> (22.1.2004), the
Wittgenstein archives <http://www.aksis.uib.no/projects/wab> (22.1.2004), and research on problems concerning markup of complex documents <http://www.
aksis.uib.no/projects/mlcd> (22.1.2004). – Many thanks to Michael SperbergMcQueen (World Wide Web Consortium), Sebastian Rahtz (Oxford University), Ralph
Jewell (University of Bergen and Tone Merete Bruvik (Aksis, Bergen) for their comments and advice during my work with this article, the shortcomings of which they are
of course in no way responsible.
218
Claus Huitfeldt
development of markup theory and markup systems, and future technological development may therefore benefit considerably from further
contributions from the humanities.
2. The Rise and Growth of Generic Markup
What is markup, and why is markup relevant to the concerns of scholarly
text processing? According to one view, all texts, i.e. not only electronic
documents, are marked up. On such a view the reason why humanities
scholars should care about markup is simply that markup reflects the
structures of texts,– whether in the form of electronic, printed, manuscript or other written documents.2 But another view has it that markup
simply consists of the codes or reserved character strings which are inserted into the stream of characters of electronic text files in order to denote or signal features of the document which cannot readily be conveyed by characters directly representing its verbal content. In other
words, markup consists of character strings carrying information about
other character strings. Also on this view it may firmly be maintained
that virtually all electronic texts are marked up.
In the early days of text processing, the lack of a universally accepted
standard for document representation posed a serious problem. Software
manufacturers employed their own separate encoding systems in the
form of proprietary file formats, and for a long time they seemed to regard these systems as a strategic means of holding on to their customers.
In any case they did usually not make documentation of their systems
publicly available. Unfortunately this made it difficult not only for competitors, but also for users to understand these encodings. The lack of
publicly available documentation and the corresponding lack of standards made the exchange and reuse of electronic texts as well as software
for text processing difficult and costly in terms of resources.
Furthermore, most encoding systems were directed towards capturing
and controlling the visual appearance of documents rather than their intellectual structure and contents. This kind of encoding merely replicated
the functionality of print technology without taking advantage of new
possibilities provided by the digital media. Documents with such proce2
This is the view expressed in one of the most influential articles written on markup
theory, an article to which also the title of the present text alludes: James H.
Coombs/Allen H. Renear/Steven J. DeRose: Markup Systems and the Future of
Scholarly Text Processing. In: Communications of the ACM 30/11 (1987), pp. 933947.
Scholarly Text Processing and Future Markup Systems
219
dural or presentational3 markup were well suited for publication, but less
well for computer-assisted retrieval, linguistic analysis and other uses
which are peculiar to digital texts.
The result of this was considerable expense and inconvenience for users in general, but quite possibly an even greater problem in the humanities than elsewhere. Whereas other disciplines use texts primarily as a
medium for the transmission of information about some object of study,
in the humanities the object of study is often the text itself. In other settings texts tend to be of relevance for only limited periods of time, yet in
the humanities scholars work with texts that are transmitted over hundreds or even thousands of years. Moreover, any text is a potential object
of future historical interest. For humanities research it is therefore important not just to facilitate the exchange and reuse of the texts that record the results of research, but also to ensure that texts produced in
very different contexts can be preserved in a form that will make them
accessible also to research in the future.
In addition, humanities research often has to rely on software specially
developed by those who work in the respective research environments.
On top of the expense of developing this software there were the costs
of maintaining it and ensuring that it can be used on texts stored in various and ever-changing formats. Scholars, and the institutions responsible
for conserving source materials, such as archives and libraries, were
among the first to encourage standardization of the formats used in text
representation.
Internationally, considerable effort was (and still is) invested in the
development of common standards for text encoding. Major players in
the computer industry itself threw their support behind these developments, the principal aim of which can be described as improved efficiency in the production and distribution of electronic texts and the relevant software. One outcome of these efforts was the adoption of Standard Generalized Markup Language (SGML) as an ISO standard in
1986.4
In its simplest forms, SGML markup lends itself to a straightforward
model for markup interpretation and processing: the features of a docu3
4
This use of the term ›presentational‹ is not strictly in accordance with the taxonomy
given in J. H. Coombs et al., where the visual layout itself is what is considered ›presentational markup‹. It has become customary, however, to use ›presentational markup‹ to
refer to markup which records (or ›is about‹) visual layout.
SGML: Information Processing – Text and Office Systems – Standard Generalized
Markup Language (SGML), ISO 8879-1986, Geneva: International Organization for
Standardization 1986.
220
Claus Huitfeldt
ment are represented by SGML elements, which nest within each other
and which normally contain character strings representing the verbal
contents of the document. An SGML document therefore has a natural
representation as a tree whose nodes represent elements and whose
leaves represent the characters of the document. The structure of the
elements, i.e. the legal forms of the document tree, may be restricted using a Document Type Definition (DTD), which provides a form of context-free grammar. The document structure may thus be checked by a
validating SGML parser.
SGML is a flexible and powerful tool. Its power consists above all in
its ability to give users control over the document structure by designing
DTDs against which documents can be validated. Its flexibility consists
in providing users the possibility to design their own DTDs with tag vocabularies suited to their individual needs, instead of a pre-defined and
fixed tag set. Although in principle SGML can be used also for other
purposes, the SGML community has strongly recommended so-called
descriptive markup, as opposed to presentational or procedural markup.
Users should in general not mark up their documents' visual appearance,
but rather features ›underlying‹ the typography of conventional printed
documents.5
Work on the Text Encoding Initiative (TEI) began in 1987, just one
year after SGML had been approved as an ISO standard. The TEI
Guidelines for Electronic Text Encoding and Interchange,6 the result of
a collaborative effort by a hundred or so researchers from a variety of
humanities backgrounds, was published in 1994. The TEI Guidelines describes one of the most comprehensive and advanced text markup systems ever devised. The TEI Guidelines provide not a single DTD but a
set of DTD fragments and an environment for creating customized
DTDs. One such customization, known as TEILite, has become particularly popular.
However a number of circumstances slowed down SGML's adoption
and success during its first decade. The most important reason probably
was the complexity of the standard itself. SGML incorporates many
complicated optional features. Due to abbreviation options element
boundaries cannot be reliably determined without reference to the
document grammar. Thus, even a non-validating parse of a document is
5
6
Cf. J. H. Coombs et.al.: Markup Systems. (footnote 2).
TEI P3:C. Michael Sperberg-McQueen/Lou Burnard (Eds.): TEI P3: Guidelines for
Electronic Text Encoding and Interchange. Chicago/Oxford/Providence/Charlottesville/Bergen: ACH-ACL-ALLC 1994.
221
not possible without processing the DTD. In addition, SGML includes
several other features which makes it difficult to write parsing routines.
Consequently, SGML software development proceeded slowly.
Since 1993, the propagation of SGML received a considerable boost
from the explosive rate of growth of the World Wide Web. The document standard used on the web, known as HTML (HyperText Markup
Language), is based on SGML, allowing us to claim that the incredible
popularity of the Web also represents a success for SGML.
Even though HTML is an SGML-based standard, it has a number of
peculiar characteristics that conflict with many of the fundamental ideas
underlying SGML. Firstly, the user cannot alter the DTD, which means
that HTML is essentially static. Secondly, HTML is far more appearance
oriented than content oriented. Thirdly, the opportunities for automatic
validation are only minimally exploited.7
These drawbacks of HTML led many people, not least in academic
circles, to start looking for alternative ways to transfer SGML documents
via the web. It was against this background that work was begun on
XML (Extensible Markup Language). The aim was to combine the simplicity of HTML with the expressive power and flexibility of SGML. The
World Wide Web Consortium published XML as a W3C Recommendation on February 10, 1998.8
XML has retained important features of SGML, such as the simple
notation lending itself to a data model representing a document as a tree
structure, the possibility of constraining document structure by means of
a DTD, and the freedom of the user to define his own tag sets with their
associated DTDs. The basic difference to SGML is that markup abbreviation has been eliminated so that a document can be parsed without
access to its DTD. Many other, less used, but complicating mechanisms
of SGML have also been eliminated. Compared to SGML, software development for XML is consequently much easier.
Like HTML, XML has enjoyed considerable success, albeit of a different kind. XML documents can easily be converted to HTML. It has
become common practice to prepare and exchange documents in XML,
and then to generate HTML for the visual presentation of those documents on the web. Great quantities of web content therefore use HTML
7
8
A. H. Renear/David Dubin/C. Michael Sperberg-McQueen/Claus Huitfeldt: XML
Semantics and Digital Libraries. In: Catherine C. Marshall/Geneva Henry/Lois Delcambre (Eds.): Proceedings of the ACM/IEEE-CS Joint Conference on Digital Libraries. Houston, May./New York: Association for Computing Machinery 2003,
pp. 303-305.
The World Wide Web Consortium <http://www.w3.org/XML/> (22.1.2004).
222
Claus Huitfeldt
exclusively as a presentation format, with XML as the underlying primary
format.
Much SGML and HTML-based data and many associated applications
have been or are in the process of being converted to XML. For example, HTML itself is now available in an XML-based version: XHTML.9
Moreover, whereas TEI P3 (the version of the TEI Guidelines published
in 1994) was based on SGML, TEI P4 (the follow-on version published
in 2002)10 is simply an XML-based version of the same system.
3. Current Markup Technologies
Although proprietary formats (like PostScript, PDF, RTF et cetera) are
still widely in use, it is fair to say that XML is gaining ground at such a
rapidly increasing pace that perhaps it is the predominant format for encoding and exchange of text documents already today, or at least it will
be so in the near future.
While part of the attractiveness of XML lies in its simplicity, a huge
and potentially bewildering variety of related standards, technologies, applications and tools has emerged alongside XML, partly based on it and
partly augmenting its capabilities. In this presentation, I limit myself to a
brief mention of developments which seem particularly relevant to humanities computing (although none of them have been designed with
humanities applications as their main object, and they all have other application areas as well).
XSL (Extensible Stylesheet Language)11 is a set of specifications used
primarily for transformation of XML documents to other forms of XML
or to non-XML formats. XSL uses XSLT (XSL Transformations) for
transforming documents; XPath (XML Path Language) to access or refer
to specific parts of a document; and XSL-FO (XSL Formatting Objects)
to specify document formatting.
XML is suited for the representation not only of text documents, but
also for database data. XQuery12 provides a query language similar to
those known from relational database systems to XML data. XQuery is
based partly on XPath, but provides additional functionality such as con9
10
11
12
The World Wide Web Consortium <http://www.w3.org/MarkUp/> (22.1.2004).
TEI P4: C. Michael Sperberg-McQueen,/Lou Burnard (Eds.): TEI P4: Guidelines for
Electronic Text Encoding and Interchange. Text Encoding Initiative Consortium.
XML Version: Oxford/Providence/Charlottesville/Bergen.
The World Wide Web Consortium <http://www.w3.org/Style/XSL/> (22.1.2004).
The World Wide Web Consortium <http://www.w3.org/XML/Query> (22.1.2004).
223
struction of new XML elements and attributes, reordering and suppression of selected data, data typing et cetera.
XLink (XML Linking Language)13 provides mechanisms for creating
and describing links in XML documents in familiar ways known from
the unidirectional links of HTML, as well as more sophisticated hyperlinks. XPointer provides an addressing language – i.e. a language for
specifying locations in XML documents – which is a superset of XPath.
XLink can use XPointer expressions to specify the locations of link ends.
XForms,14 one of the most recent additions to the wealth of W3C
recommendations, replicates and greatly enhances the functionality of
HTML forms for XML. In particular, XForms separates handling of data
content from its presentation, and offers strong data typing.
XML defines the structure of markup, but provides limited means of
constraining element content and attribute values. W3C XML Schema15
allows DTD designers to define elements that respect complex data
types, such as are found in high-level programming languages. Other
schema languages for defining XML vocabularies are also in use; the two
best known, after W3C XML Schema, are probably Relax NG and
Schematron.
Different XML markup languages often provide different vocabulary
and grammar for semantically equivalent structures. The ISO HyTime
specification Architectural forms16 allow DTD designers to design reusable modules and to define element types as synonyms or subtypes of
other well-known element types.
SMIL (Synchronized Multimedia Integration Language)17 is an XMLbased language that allows for the creation of streaming multimedia
presentations of text, sound, still and moving images.
Semantic Web18 refers to a number of interrelated XML-based research and standardization efforts which lie at the intersection of markup
technology and knowledge representation. One of these enterprises is
13
14
15
16
17
18
The World Wide Web Consortium <http://www.w3.org/XML/Linking> (22.12004).
The World Wide Web Consortium. See <http://www.w3.org/MarkUp/Forms/>
(22.1.2004).
The World Wide Web Consortium <http://www.w3.org/XML/Schema> (22.1.2204).
Gary F. Simons: Using architectural forms to map TEI data into an object-oriented database. In: Computers and the Humanities 33/1-2 (1999), pp. 85-101 and ISO/IEC
10744:1997: Information processing – Hypermedia/Time-based Structuring Language
(HyTime), 2nd ed. International Organization for Standardization, Geneva, May 1997,
appendix A.3 Architectural Form Definition Requirements.
The World Wide Web Consortium <http://www.w3.org/AudioVideo/> (22.1.2004).
Tim Berners-Lee,/ James Hendler/ Ora Lassila: The semantic web. In: Scientific
American 284, 5 (May 2001), pp. 35-43.
224
Claus Huitfeldt
W3C's Resource Description Framework (RDF),19 another is the ISO
Topic Maps standard.20
There also is a need to allow programs and scripts written in other
languages than XSL to access and update the content, structure and style
of XML documents. SAX (Simple API for XML) and W3C's DOM
(Document Object Model)21 satisfy this requirement by means of an API
(Application Program Interface) to the data structure that results from
parsing an XML document.
But how, more precisely, does all of this relate to the needs of the
humanities? In general, and as explained above, use of openly specified
non-proprietary formats, such as XML, in order to represent humanities
research material, whether it is source material (literary or historical texts,
databases et cetera) or the results of the research itself (monographs, articles et cetera), ensures that the documents are readable and exchangeable without loss or distortion of information independently of particular
hardware and software platforms used.
Because of the widespread use of XML-based technology in public as
well as private sectors, hosts of software is available for processing of
XML documents. Furthermore, XML allows projects or individual
scholars to create and adapt XML-based tools and applications for their
own purposes, without having to rely on the industry to provide such
tools for them, while still being assured that what they do can be accessed and reused, as it is based on firm international standards.22
In order to give some more specific indication of what XML and related technologies may mean to the humanities, let us take a closer look
at a typical kind of humanities project, e.g. the creation of a critical edition on the basis of some set of source manuscripts. One of the first requirements for such a project is to design or select a DTD appropriate
for the purpose. Some projects will find that they can simply apply an existing DTD, such as e.g. TEI. Others will find that they need to customize an existing DTD or build one from scratch, and they may find that
they want to exert stricter control over element and attribute content
than XML itself allows. In the latter case, XML Schema may be of help.
19
20
21
22
The World Wide Web Consortium <http://www.w3.org/RDF/> (22.1.2004).
Michel Biezunski/Martin Bryan/Steven R. Newcomb (Eds.): ISO/IEC 13250: 2000
Information technology – SGML Applications – Topic Maps. Geneva: International
Organization for Standardization 2000.
The World Wide Web Consortium <http://www.w3.org/DOM/> (22.1.2004).
In practice XML and XML-based technologies such as XSL, XQuery etc. may be regarded as de facto industry standards. It should be noted, however, that they are socalled W3C ›recommendations‹ and not ISO standards.
225
Once the DTD has been set up, source texts can be entered using virtually any text processing tool. Some editors will require markup to be
typed into the texts manually, other, XML-aware editors, allow markup
to be selected using graphical interface elements such as menus and
toolbars. Some XML editors offer WYSIWYG options, employing XSL
stylesheets to format the screen presentation of the text being edited.
Transcriptions are validated either continuously during input, or manually at selected intervals, thus ensuring that the result of the transcription
process is always a valid XML document.
In projects like this, transcriptions are usually edited in several cycles.
For example, after the first entering of the text by transcribers, others
may go over the transcription adding markup for names and dates, for
dramatic, metrical or thematic features etc cetera. There is often then a
danger of inadvertently corrupting some of the transcription while editing other parts of it. The newly adopted XForms standard promises a solution to such problems. It allows projects relatively easily to create their
own, specialized XML editors for editing selected elements while leaving
others unaffected.
XSL stylesheets will typically be designed for alternative presentations
of the texts in varying degree of detail and according to project-designed
specifications. By means of these stylesheets output files can be created
in PDF, PostScript or other formats for the production of high-quality
print, or in HTML for presentation on the Web. Web presentations can
be enriched with RDF metadata for easier retrieval and cataloguing of
the resource.
RDF or topic maps can also be used for storing and linking the text
resource with hypertextual and richly structured presentations of bibliographic or biographic data, which may in their turn be stored in and extracted from relational databases by means of XML interfaces based on
e.g. XQuery. Associated material in the form of still or moving images
and sound can be integrated into such presentations by use of SMIL or
similar XML-based standards.
Thus, nearly all aspects of traditional text-critical work as well as the
traditional printed or hypertextual presentation of such material in combination with multimedial presentations of additional material may be
done entirely within a framework of XML-based standards and technologies. And in the case that a project like this should find a need to
develop its own software, the XML format is made accessible to most
major programming languages by means of the DOM and SAX APIs.
226
Claus Huitfeldt
4. Recent Trends and Developments
4.1 XML Technologies
Compared to the situation before the advent of SGML, it is fair to say
that the currently widespread use of generic markup represents a victory
over the proprietary formats that have been dominant earlier. Even the
most popular word processing systems still based on such proprietary
formats are now appearing in versions which include at least some support for XML (MicroSoft Office 2003, StarOffice, Word-Perfect).
As already mentioned, however, proprietary formats like RTF or page
description languages like PostScript and PDF are also still widely in use.
It is not very likely that these formats will be completely replaced by generic markup. Quite on the contrary, we have seen that tools have been
and are being developed for conversion of XML documents to such
formats for purposes of visual presentation. On the other hand, while it
is relatively easy to generate Postscript, PDF, RTF et cetera from XML,
it is hard to do a conversion the other way around. Since documents
stored in XML lend themselves to a number of other uses than just visual presentation, it is therefore likely that XML will replace the others as
the most commonly used primary representational format for documents.
That is not to say, of course, that XML itself will necessarily remain
unchanged. In particular, the surrounding technology is rapidly changing
and developing. As mentioned, one of the strengths of XML compared
to SGML is its simplicity. Because of this simplicity, it was easy to develop extensions in the form of XML-based technologies and applications. In the five years that have gone by since XML went public, the
number and variety of such extensions (some of which were mentioned
in the previous section) have grown so high that it is hardly within the
scope of any individual to be in command of all aspects of these technologies. Developing software to parse an XML document was and is
within the reach of a few day's work for a skilled programmer, whereas
developing software complying with and keeping up to date with the ongoing changes and developments in the various surrounding technologies requires quite considerable resources.
At least two scenarios seem possible: Either, XML remains a narrowly
defined core standard surrounded by increasingly complex related and
XML-based standards and technologies, or XML itself is extended and
modified to include parts of the currently surrounding technology. The
first scenario carries with it a danger that the surrounding technologies
227
will develop in incompatible and confusing ways; the second that XML
loses its simplicity and itself becomes increasingly complex.
In either case, it should be clear that what happens to XML-related
technology in the future is of utmost importance to anyone who tries to
keep up to date with document processing technology.
4.2 The Text Encoding Initiative
The TEI Guidelines have found wide acceptance in the humanities
community and are by now regarded as a major reference and used by a
great number of projects within the humanities. As already mentioned,
the first public version of the TEI Guidelines was published in 1994. In
December 2000, a non-profit corporation called the TEI Consortium23
was set up to maintain and develop the TEI standard. The Consortium
has executive offices in Bergen, Norway, and hosts at the University of
Bergen, Brown University, Oxford University, and the University of Virginia. The Consortium is managed by a Board of Directors, and its technical work is overseen by an elected Council.
One of the first actions of the TEI Consortium was to prepare and
publish (in June 2002) an XML version of the Guidelines, called P4.
Apart from ensuring that documents produced to earlier TEI SGMLbased specifications remain usable with the new XML-based version, P4
restricted itself to error correction only. The next version, P5, is already
well under way and will contain more substantial extensions and improvements to the current version. A number of TEI work groups and
task forces24 are currently working on proposals for inclusion in P5.
The Character Encoding Workgroup is adapting the TEI's handling of
character sets and languages to Unicode/ISO 10646 and providing users
with advice on how they may migrate to Unicode. In the current version
of the TEI Guidelines, documentation of character sets and languages
are handled by the so-called Writing System Declaration. With Unicode/ISO 10646, which is required by the XML recommendation, the
Writing System Declaration will become obsolete. Even so, there will
still be a need to declare languages and writing systems independently of
each other. The Work Group's recommendations will cater for this need.
Another Work Group is charged with stand-off markup and linking
issues. Stand-off markup, i.e. markup which is placed outside of the text
it is meant to tag, has become increasingly widespread in recent years,
23
24
TEI Consortium: <http://www.tei-c.org> (22.1.2004).
TEI Consortium: <http://www.tei-c.org/Activities/> (22.1.2004).
228
Claus Huitfeldt
particularly in linguistics applications. It has proved useful for markup of
multiple hierarchies as well as in situations when the target text cannot
for some reason or other itself be modified. Links which go beyond the
simple linking mechanisms of HTML are desirable in many of the same
situations. The current TEI Guidelines already include methods for
stand-off markup. The Guidelines also contain advanced mechanisms
for linking, the so-called TEI Extended Pointers, which have provided
an important part of the basis for the XML XPointer draft. The TEI
Stand-off and Linking Work Group attempts to modify and extend the
TEI Guidelines to answer to the needs of linguistic communities, as well
as synchronizing the next version of the TEI Extended Pointers with the
evolving XML XPointer standard.
The TEI Guidelines contain mechanisms for the encoding of linguistic annotations using feature structure formalisms. This proposal is now
generally recognized as covering many needs in the field of linguistics.
Natural Language Processing (NLP) based on this proposal have further
increased interest in this aspect of the TEI within the linguistics community. As the proposal is tightly integrated with the rest of the TEI
scheme, its adoption offers the prospect of opening up the application of
NLP techniques to a very wide community of users, while at the same
time offering the NLP community access to a real-world range of different text types and applications. The Joint ISO-TEI activity on Feature
Structures works in cooperation with the International Standards Organization (ISO TC37/SC4) in order to synchronize efforts to the effect
that the P5 revised TEI encoding for Features Structures will at the same
time be an ISO standard.
The TEI Metalanguage Markup Workgroup may be said to deal with
the conceptual as well as the logistic basics of the TEI. The TEI Guidelines are an example of literate programming, in which the documentation and the information required to build DTDs are combined in a single document. The web and print versions of the Guidelines, and the
DTD modules, are all generated using a set of transformations. The
Metalanguage Work Group works to simplify, document, and extend this
internal literate programming language and replace existing dependencies
on SGML or the DTD language. XML schema languages are being used
within the markup to document markup constraints.
In consideration of the large amount of text that has been prepared
according to the SGML-based TEI P3 recommendation of 1994, the
TEI Consortium recognizes a responsibility for facilitating effortless
transition of these documents to later XML-based TEI versions. The
TEI Migration Work Group collects case studies, provides examples and
229
gives recommendations concerning strategies as well as software and
best practice on conversion of TEI documents from SGML to XML.
The above work group activities will result in proposals all or most of
which will probably be included in P5, which is planned for publication
in the course of 2004. P5 will also include other substantial and general
changes compared to earlier versions. For example, the document
grammar will be expressed in an XML Schema language (Relax NG), as
well as an XML DTD. The Guidelines will define a TEI namespace, facilitating inclusion of elements from other XML standards in TEI
documents, and vice versa. The methods for combining various TEI
DTD fragments will make use of newer and simpler mechanisms than
the traditional parameter entity-based methods. Last, but not least: The
TEI root element will be changed from TEI.2 to TEI.25
In addition to the Work Groups mentioned so far, the TEI also organizes Special Interest Groups (SIGs). SIGs reflect user community interests not yet implemented in the form of work groups, and may as
such be considered candidate work groups. Therefore, a quick overview
of the current TEI SIGs may also give some indication in which way the
consortium may be drifting in the years to come. SIGs have been established on subjects as diverse as Manuscript transcription and description;
Human Language Technologies; Training TEI Trainers; Graphics and
Text; Overlapping Markup; Multilingual markup; Presentation Issues;
Authoring Issues; User Interface Issues; Digital Libraries.
4.3 Beyond XML
With what has been said so far, it might seem as if generic markup today
is all about XML. Even so, a number of alternative technologies have
been proposed, or are under development.26 Many of these have been
developed or proposed in response to what is seen by some as weaknesses of XML.
However, before going into such purported weaknesses, let us remind
ourselves of the particular strengths of XML. Considering the fact that
SGML was around for more than a decade without having anywhere
near the success of XML, which experienced such tremendous success
25
26
One immediate effect is that the downward compatibility between different versions
will be broken – any P4 (or earlier) TEI document will ipso facto be invalid in P5.
However the TEI will continue to maintain P4 for any foreseeable future, and provide
help and guidance in converting documents from earlier to later versions.
See e.g., Steven J. Murdoch: Markup Language Survey <http://www.cl.cam.ac.uk/
users/sjm217/projects/markup/survey/> (22.1.2004).
230
Claus Huitfeldt
almost immediately after its release, it is tempting to ask what it was that
XML added to SGML.
One answer is that XML added nothing to SGML: As mentioned,
XML is a proper subset of SGML. Another answer is that what XML
added was simplicity, by taking away many of the specialized features
which admittedly make SGML in many ways both more expressive and
more flexible, but also more complex and difficult to use than XML.
The full answer, thus, is that XML not only removed some bells and
whistles, but also managed to retain what constitutes the most basic and
important features of XML. So the strengths of XML are those of
SGML, i.e. the tight integration and mutual support of a simple linear
form (the angle bracket notation), a natural interpretation in the form of
a well-known data structure (the document trees), and a powerful constraint language (the DTD).27
Now, to the weaknesses. Common complaints about XML is that it
provides poor support for interactive, multi-medial or multi-modal
documents, that it does not have a well-defined semantics (or no semantics at all), and that it does not support the encoding of overlapping hierarchies and other complex structures.28
The first complaint, that XML provides poor support for interactive,
multi-medial or multi-modal documents was to a large extent justified
not so long ago, when e.g. Macromedia Flash provided better support
for interactive and multi-medial streaming data. With the latest developments within XML-based technologies and standards such as e.g. SVG,
SMIL and EMMA,29 however, this objection becomes increasingly irrelevant.
The second complaint, that XML is a purely syntactic specification
and has no semantics,30 is often countered with the claim that being a
27
28
29
30
C. Michael Sperberg-McQueen: »What matters?« Extreme Markup Languages 2002.
Montreal/Canada, August <http://www.w3.org/People/cmsmcq/2002/whatmatters.
html> (22.1.2004).
By ›complex structures‹ I refer to such structural phenomena as overlapping elements,
overlapping hierarchies, discontinuous elements, multiple alternative ordering of elements, structured attributes etc. – in short ›complex structure‹ is here admittedly defined simply as any structure not straightforwardly representable in SGML/XML. Cf.
<http://www.aksis.uib.no/projects/mlcd> (22.1.2004).
The World Wide Web Consortium <http://www.w3.org/Graphics/SVG/>, <http://
www.w3.org/AudioVideo/> and also <http://www.w3.org/TR/EMMAreqs/> (each
22.1.2004).
This may seem confusing in relation to another claim which is also often made, namely
that XML is semantic markup. Unfortunately, the term ›semantic‹ in such contexts
seems to have been confused with the more appropriate terms ›descriptive‹ or ›declarative‹. The point is that XML provides syntax, but no vocabulary, and thus no seman-
231
purely syntactic standard is precisely one of the strengths of XML.31
Even so, a generally applicable formal method of expressing the semantics of particular XML-based markup systems would be of great advantage to markup translation, document authenticity verification and a
number of other common tasks. Considerable progress has been made in
attempts to develop a formal semantics for XML markup,32 but much
work remains to be done in this area.
Many projects have addressed the third complaint, i.e. the problem
that XML does not support complex document structures. It should be
noted that this problem is easily explained by the tight integration between linear form, data structure and constraint language just mentioned.
XML is based on a context-free grammar, which presupposes exactly the
hierarchical structures we find imposed by XML. If one were to let go of
the hierarchical nesting of elements in XML documents, there would be
no known way of retaining the tight control over document structure
provided by the DTD mechanism as we know it.33
Among complex structures, overlapping hierarchies are the ones
which have received most attention. Overlap is ubiquitous in documents
– pages, columns and lines often overlap chapters, paragraphs and sentences in printed material, verse lines often overlap metrical lines in dramatic poetry, hypertext links and anchors overlap in hypertexts et cetera.
The original SGML specification actually does have a mechanism
which allows for the encoding of documents as overlapping hierarchies,
i.e. CONCUR.34 Unfortunately, this feature suffers from certain technical complications, it has only very rarely been implemented in SGML
software, and it has been entirely removed from XML.
31
32
33
34
tics. – Another source of confusion is that XML is sometimes used to represent semantics, e.g., in RDF, TopicMaps and other XML-based semantic web activities. In
these cases, however, XML is used as a tool to represent the semantics of some subject
matter other than XML. The various semantic web activities do not in general try to
provide XML itself with a semantics.
See e.g., Tim Bray,: On Semantics and Markup <http://www.tbray.org/ongoing/
When/200x/2003/04/09/SemanticMarkup> (22.1.2004).
See for example, the BECHAMEL project: David Dubin/C. Michael SperbergMcQueen/Allen Renear/Claus Huitfeldt: A logic programming environment for
document semantics and inference. In: Literary and LinguisticComputing, 18/2 (2003),
pp. 225-233. (This is a corrected version of an article that appeared in 18/1 pp. 39-47).
– At the risk of making confusion complete, it should still be mentioned that this formal semantics may in turn be represented in e.g., RDF or TopicMaps, although the
BECHAMEL project currently uses other forms of representation.
C. Michael Sperberg-McQueen: »What matters?« (footnote 27).
C. Michael Sperberg-McQueen/Claus Huitfeldt: Concurrent document hierarchies in
MECS and SGML. In: Literary and Linguistic Computing 14/1 (1999), pp. 29-42.
232
Claus Huitfeldt
TEI has given a lot of attention to overlapping hierarchies, and provides a number of mechanisms to deal with them, such as milestone
elements, so-called virtual elements and stand-off markup.35 These are
the methods most commonly used to represent overlapping hierarchies
in XML today. A general drawback with these methods is that they presuppose customized processing in order to be effective.
An example of a more radical proposal is the ›Just-In-Time-Trees‹ .36
According to this proposal, documents may still be stored using XML,
but the XML representation is processed in non-standard ways and may
be mapped on to different data structures than those known from XML.
Other and yet more radical proposals, which also attempt to solve
problems with complex structures beyond overlap (i.e. including discontinuous elements, alternate ordering et cetera), offer alternatives to the
basic XML linear form as well as its data model and processing model.
One such approach is the MLCD project with its TexMECS notation
and GODDAG data structure,37 another is the LMNL project, also with
an alternative notation and a data structure based on Core Range Algebra.38 Both proposals claim downward compatibility with XML.
However, none of these proposals provide constraint languages anywhere near the strength of the XML DTD mechanism for their proposed solutions to markup systems dealing with complex structures.39 As
long as this problem remains unsolved, it is unlikely that these proposals
will be considered serious alternatives to XML, at least by the larger
community.
5. Conclusion
While there is no reason to believe that XML is forever, there is every
reason to believe that generic markup has come to stay with us for a long
while. In a broader perspective, a curious fact about XML should not go
unmentioned: XML came from the document world, soon bridged the
35
36
37
38
39
David Barnard, et al.: Hierarchical Encoding of Text: Technical Problems and SGML
Solutions. In: Computers and the Humanities 29/3 (1995), pp. 211-231.
Patrick Durusay: Just-In-Time-Trees (JITTs), see e.g., <http://sbl-site2.org/Extreme
2002/> (22.1.2004).
C. Michael Sperberg-McQueen/Claus Huitfeldt: Markup Languages for Complex
Documents, see <http://www.aksis.uib.no/projects/mlcd> (22.1.2004).
Jeni Tennisson/Wendell Piez: The Layered Markup and Annotation Language
(LMNL) <http://xml.coverpages.org/LMNL-Abstract.html> (22.1.2004).
XML Schema allows for the expression of some context-sensitive constraints on XML
documents. However providing a general constraint language for complex structures is
another and more demanding task.
233
gap to the database world, and is now used for representation also of
non-textual material as diverse as e.g. graphics, mathematical and chemical notation, and music.40
Thus, generic markup seems to be turning into a general tool for what
might be called knowledge representation, in fields widely different from
textual studies and document management. It is to be expected that
these other fields will contribute considerably to solutions to known
problems, as well as presenting generic markup systems with entirely
new problems to tackle.
In other words, the humanities is far from the only field which has a
role to play in this development. It is worth noting, however, that the
humanities have already made important contributions to the development of markup systems. In this situation it is a deplorable fact that
many humanities scholars still regard markup as a product of computing
technology and thus a purely technical tool of no interest or concern to
humanities scholarship.
The experience and expertise of textual scholars may turn out to be
essential, and they have a correspondingly high responsibility to make
their methods available and adopt them for use in a digital environment.
Textual scholars should not relate to markup technology as passive recipients of products from the computing industry, but rather be actively
involved in the development and in setting the agenda, as they possess
insight which is essential to a successful shaping of digital text technology.
40
For graphics, see e.g., SVG <http://www.w3.org/Graphics/SVG/> (22.1.2004), for
mathematical notation MathML <http://www.w3.org/Math/> (22.1.2004), for
Chemical markup language <http://xml.coverpages.org/cml.html> (22.1.2004), for
music <http://xml.coverpages.org/xmlMusic.html> (22.1.2004).
Sebastian Donat: »Es klang aber fast wie deine Lieder…« – Die russischen Nachdichtungen aus Goethes West-östlichem Divan, Göttingen: Wallstein 2002 (= Münchener komparatistische Studien,
Bd. 1). 504 S., [Buch + CD-ROM, Preis: 74,- Eur].
Abstract
This research is centered on the russian translations and imitations of
Goethe's late lyric work, the West-östlichen Divan from 1817 until 2000.
The corpus is represented by the 800 adaptations of Goethe's poetical
work which is itself composed of 320 pieces. The critical method includes a historical point of view and a more theoretical approach. On
one hand the historical context is used as an explanation of the singularities of each translation. On the other hand, this study leads to a more
general reflection on the poetics of translation and on the problem of the
theory of lyric genders. The structure of this book presents two main
parts. The first of which studies the different periods in the imitations of
Goethe's work. From a historical point of view, it also analyses the successive russian conceptions of translation . The second one is a poetical
study of the translations and imitations. It lays out the problem of lyric
genders. The outside presentation of the book offers an original advantage: its cover includes a CD-ROM. Not only does it present the text of
the book but also many documents (for instance a presentation of the
poems and translations). The hypertext allows many uses of the text and
documents, especially thanks to the ›search‹ or ›cut and paste‹ functions.
For all these reasons, this book represents a very complete research on
an important field of russian lyrics. It is a very original and new study on
the poetics of translation: it finally leads to the issue of the frontiers between translation and creation, between both translated and national
characters of poetry. It makes use of the specific methods of general and
comparative literature at different levels.
Rezensionstext siehe unter: <http://computerphilologie.uni-muenchen.
de/jg03/franco.html>.
Bernard Franco (Paris)
236
Dieter Daniels: Vom Readymade zum Cyberspace. Kunst/Medien/Interferenzen. Ostfildern-Ruit: Hatje Cantz Verlag 2003. [Preis: 25,Eur].
Abstract
Dieter Daniels, professor for history of art and media theory at the HGB
(Hochschule für Grafik und Buchkunst; academy of visual arts) Leipzig,
has put together four essays published between 1997 and 2001 to an insightful and inspiring book about the history and future of interactive
media art. The book introduces to the alliance of art and media since
Dada, compares avant-garde art (Readymade) with phenomena in mainstream media (Big Brother), it shows how ideas of avant-garde art has
been perverted in mass media (the concept of interactivity), it finally discusses the deeper relationship between Duchamp's Large Glass and Turing's Black Box. In this book beginners will find many useful information. Those familiar with the subject will encounter some well-known arguments (including their shortcomings) as well as interesting perspectives
worth further discussion.
de/jg03/simanowski3.html>.
Roberto Simanwoski (Providence)
Rainer Baasner/Kristina Koebe: wozu. was. wie. Literaturrecherche und
Internet. Stuttgart: Reclam 2000, [CD-ROM], [Preis: 19,90 Eur].
Georg Rückriem/Joachim Stary: Techniken wissenschaftlichen Arbeitens. Berlin: Cornelsen 2001, [CD-ROM], [Preis: 19,95 Eur].
Abstract
The review focuses on two recently published CD-ROMs that are intended for freshmen students. Rainer Bassner's and Kristines Koebe's
hypertext-based introductory course covers important topics like the use
of library catalogues and bibliographies but is limited to online sources.
Rückriem's and Stary's e-learning course is programmed in Macromedia's
Authorware and uses a pleasing mindmap-style user interface. The CD
Abstracts vonBuch- und CD-ROM-Rezensionen
237
wants to serve as an introduction to writing research papers, but also
covers oral reports.
de/jg03/till.html>.
Dietmar Till (Tübingen)

Georg Braungart – Karl Eibl – Fotis Jannidis (Hg.)

Transcription

Similar documents

JAXB 2.0 JAXB 2.0 How How How to

willem dafoe willem dafoe

Atmung - biologieunterricht.info

Ellbogendysplasie

Königlich Preußische Militär

Zehn kleine Negerlein

Umspannwerk - BEG Remstal

Druckguss

Benutzeradaptive Web-Informationssysteme

14 - Baudisch Electronic GmbH