Sprach- und Literaturwissenschaften AAC – Austrian Academy Corpus

Transcription

Sprach- und Literaturwissenschaften AAC – Austrian Academy Corpus
107
Sprach- und Literaturwissenschaften
AAC – Austrian Academy Corpus
Leiterin: Evelyn Breiteneder
Ziele und Aufgaben
Die Basis des AAC-Austrian Academy Corpus ist eine
umfangreiche und komplex strukturierte Sammlung von
elektronischen Volltexten zur deutschen Sprache und
Literatur zwischen 1848 und 1989, von der Märzrevolution bis zum Fall der Berliner Mauer, die im „AACCAustrian Academy Corpus Container“ systematisch aufbereitet und annotiert werden. Die texttechnologische
Corpusforschung ist Programm, das heißt, dass das AAC
eine Verbindung geisteswissenschaftlicher Prinzipien
(philologische Genauigkeit, Textstrukturierung, Annotierung, Editionstechnik, Indizierung, Kommentierung
u. a.) mit IKT-Anwendungen verfolgt.
Mit dem Start des AAC wurde im März 2001 in Wien
eine gemeinsame öffentliche Erklärung dreier Akademien
der deutschsprachigen Länder Österreich – Deutschland
– Schweiz verabschiedet, die die Notwendigkeit betont,
Abb. 1:
AAC-Lecture:
Gastforscher Dimitrij
O. Dobrovol’skij
(Foto: Daniela
Vavrova).
„die deutsche Sprache in ihrer kulturellen Entwicklung
in unterschiedlichen staatlichen Kontexten zu erforschen
und ihre vielfältigen Lexikon- und Textqualitäten mittels
informationstechnologischer Verfahren für die Nachwelt
aufzubereiten und zu erhalten, sowie die Vorteile einer
grenzüberschreitenden Arbeitsweise zu nutzen, um gemeinsam das Interesse an der deutschen Sprache international zu fördern und wissenschaftlich zu unterstützen.“
Arbeitsergebnisse der Jahre 2004–2005
Textumfang, Textqualität und Strukturierungsdichte
sind die wichtigsten Beschreibungsgrößen für den Aufbau elektronischer Textcorpora. Linguistische Anwendungen, etwa statistische Untersuchungen im lexikalischen und morphologischen Bereich, können sinnvoll
erst ab einer gewissen Corpusgröße („kritische Masse“)
durchgeführt werden, die im dreistelligen Millionen-
108
AAC – Austrian Academy Corpus
bereich der Textwörter (Running Words) angesiedelt ist.
Das AAC hat von Beginn an die Textqualität in das Zentrum des Forschungsprogramms gestellt: Die Texte im
AAC sind (im Gegensatz zu den häufig ausschließlich
für linguistische Zwecke angelegten Corpora) vollständig relativ zur Publikationseinheit (d.h. beispielsweise
eine vollständige Nummer einer Zeitung ist im AAC
erfasst und nicht nur einzelne Zeitungsausschnitte),
sämtliche Texte für das AAC-Kerncorpus werden zeichenkorrigiert, die Auswahl der Texte erfolgt nach wissenschaftlichen Prinzipien und Inhalten (und nicht opportunistisch), die Annotierung der Texte im AAC ist
aufwändig und ermöglicht es, experimentelle Forschung
und verschiedene Anwendungen zu verfolgen.
In der ersten Phase, AAC-StartUp [2001–2005], wurde
für das XML annotierte und korrigierte Kerncorpus ein
Umfang von rund 100 Millionen Running Words erzielt,
darüber hinaus wurden weitere 50 Millionen Running
Words XML annotiert. Insgesamt konnten bis Ende
2005 rund 200 Millionen Running Words digital im
AAC erfasst werden. Allein im Jahr 2005 wurden über
200.000 Images (Scans) erzeugt und rund 160.000 Textseiten bearbeitet. Schwerpunkte bei der Auswahl und
Bearbeitung der Texte für das Kerncorpus waren im Berichtszeitraum literarische und kulturpolitische Zeitschriften („Der Brenner“, „Die Schaubühne“, „Die Weltbühne“, „Die Fackel“, „Die Aktion“ u.a.), literarische
Genera sowie die Textsorten Tagebuch, Brief, Rede;
Abb. 2:
AAC-Poster
(Foto: Hanno Biber).
AAC – Austrian Academy Corpus
ferner Zeitungen und Werbetexte, Gebrauchstexte
(Rechtssprache, Wissenschaftssprache).
Zu den ältesten wissenschaftlichen Praktiken zählen
Sammeln, Analysieren, Systematisieren, Kategorisieren
und Auswerten von großen Datenmengen: So hat die
Botanik in der Antike bereits gearbeitet und so arbeitet
die Gentechnologie im 21. Jahrhundert, naturgemäß
theoretisch und methodisch effizienter, aber grundsätzlich doch verwandt. Auch die Textwissenschaft im digitalen Medium bedient sich dieser wissenschaftlichen
Praxis. Und so ist es auch nicht verwunderlich, dass beispielsweise bei Terminologiekongressen in der EDV
keine Grenzen bestehen zwischen den Fächern und Wissenschaftsdisziplinen, denn alle Daten müssen systematisch benannt werden, um sie international identifizieren
und vergleichen zu können. Im AAC-Container (AACC)
werden sämtliche Textobjekte, die digitalisiert und als
elektronische Volltexte durchsuchbar gemacht wurden,
gesammelt, analysiert, systematisch aufbereitet und kategorisiert. An der Entwicklung der komplexen ContainerStruktur wird seit 2005 gearbeitet. Ferner konnten bereits einige Anwendungen im Bereich der Corpusforschung begonnen und erprobt werden, so u.a. Parallele
Corpora, Namensdatenbanken, digitale Mustereditionen, multimediale Anwendungen.
109
Abb. 3: AAC-Logo (Graphic Design: Anne Burdich).
Vorschau auf die Jahre 2006–2007
Die stufenweise Erweiterung des AAC-Containers auf
einen Textumfang mit wenigstens 500 Millionen Running Words ist nach Maßgabe der budgetären Voraussetzungen geplant: Eine halbe Milliarde Textwörter als
Digital-Content-Basis für die von 2007 bis 2011 projektierte Application-Development-Phase. Wie können
große elektronische Volltextcorpora künftig von möglichst vielen Nutzern gewinnbringend verwendet werden? Es gilt, überzeugende Antworten auf diese Frage zu
geben. Die Entscheidung des AAC im Jahr 2000, nicht
ausschließlich in rein linguistische Corpusanwendungen
zu investieren, hat sich heute als richtig erwiesen, mittlerweile versuchen alle größeren internationalen Corpusprogramme diese Strategie aufzunehmen und zu verfolgen.