Sprach- und Literaturwissenschaften AAC – Austrian Academy Corpus
Transcription
Sprach- und Literaturwissenschaften AAC – Austrian Academy Corpus
107 Sprach- und Literaturwissenschaften AAC – Austrian Academy Corpus Leiterin: Evelyn Breiteneder Ziele und Aufgaben Die Basis des AAC-Austrian Academy Corpus ist eine umfangreiche und komplex strukturierte Sammlung von elektronischen Volltexten zur deutschen Sprache und Literatur zwischen 1848 und 1989, von der Märzrevolution bis zum Fall der Berliner Mauer, die im „AACCAustrian Academy Corpus Container“ systematisch aufbereitet und annotiert werden. Die texttechnologische Corpusforschung ist Programm, das heißt, dass das AAC eine Verbindung geisteswissenschaftlicher Prinzipien (philologische Genauigkeit, Textstrukturierung, Annotierung, Editionstechnik, Indizierung, Kommentierung u. a.) mit IKT-Anwendungen verfolgt. Mit dem Start des AAC wurde im März 2001 in Wien eine gemeinsame öffentliche Erklärung dreier Akademien der deutschsprachigen Länder Österreich – Deutschland – Schweiz verabschiedet, die die Notwendigkeit betont, Abb. 1: AAC-Lecture: Gastforscher Dimitrij O. Dobrovol’skij (Foto: Daniela Vavrova). „die deutsche Sprache in ihrer kulturellen Entwicklung in unterschiedlichen staatlichen Kontexten zu erforschen und ihre vielfältigen Lexikon- und Textqualitäten mittels informationstechnologischer Verfahren für die Nachwelt aufzubereiten und zu erhalten, sowie die Vorteile einer grenzüberschreitenden Arbeitsweise zu nutzen, um gemeinsam das Interesse an der deutschen Sprache international zu fördern und wissenschaftlich zu unterstützen.“ Arbeitsergebnisse der Jahre 2004–2005 Textumfang, Textqualität und Strukturierungsdichte sind die wichtigsten Beschreibungsgrößen für den Aufbau elektronischer Textcorpora. Linguistische Anwendungen, etwa statistische Untersuchungen im lexikalischen und morphologischen Bereich, können sinnvoll erst ab einer gewissen Corpusgröße („kritische Masse“) durchgeführt werden, die im dreistelligen Millionen- 108 AAC – Austrian Academy Corpus bereich der Textwörter (Running Words) angesiedelt ist. Das AAC hat von Beginn an die Textqualität in das Zentrum des Forschungsprogramms gestellt: Die Texte im AAC sind (im Gegensatz zu den häufig ausschließlich für linguistische Zwecke angelegten Corpora) vollständig relativ zur Publikationseinheit (d.h. beispielsweise eine vollständige Nummer einer Zeitung ist im AAC erfasst und nicht nur einzelne Zeitungsausschnitte), sämtliche Texte für das AAC-Kerncorpus werden zeichenkorrigiert, die Auswahl der Texte erfolgt nach wissenschaftlichen Prinzipien und Inhalten (und nicht opportunistisch), die Annotierung der Texte im AAC ist aufwändig und ermöglicht es, experimentelle Forschung und verschiedene Anwendungen zu verfolgen. In der ersten Phase, AAC-StartUp [2001–2005], wurde für das XML annotierte und korrigierte Kerncorpus ein Umfang von rund 100 Millionen Running Words erzielt, darüber hinaus wurden weitere 50 Millionen Running Words XML annotiert. Insgesamt konnten bis Ende 2005 rund 200 Millionen Running Words digital im AAC erfasst werden. Allein im Jahr 2005 wurden über 200.000 Images (Scans) erzeugt und rund 160.000 Textseiten bearbeitet. Schwerpunkte bei der Auswahl und Bearbeitung der Texte für das Kerncorpus waren im Berichtszeitraum literarische und kulturpolitische Zeitschriften („Der Brenner“, „Die Schaubühne“, „Die Weltbühne“, „Die Fackel“, „Die Aktion“ u.a.), literarische Genera sowie die Textsorten Tagebuch, Brief, Rede; Abb. 2: AAC-Poster (Foto: Hanno Biber). AAC – Austrian Academy Corpus ferner Zeitungen und Werbetexte, Gebrauchstexte (Rechtssprache, Wissenschaftssprache). Zu den ältesten wissenschaftlichen Praktiken zählen Sammeln, Analysieren, Systematisieren, Kategorisieren und Auswerten von großen Datenmengen: So hat die Botanik in der Antike bereits gearbeitet und so arbeitet die Gentechnologie im 21. Jahrhundert, naturgemäß theoretisch und methodisch effizienter, aber grundsätzlich doch verwandt. Auch die Textwissenschaft im digitalen Medium bedient sich dieser wissenschaftlichen Praxis. Und so ist es auch nicht verwunderlich, dass beispielsweise bei Terminologiekongressen in der EDV keine Grenzen bestehen zwischen den Fächern und Wissenschaftsdisziplinen, denn alle Daten müssen systematisch benannt werden, um sie international identifizieren und vergleichen zu können. Im AAC-Container (AACC) werden sämtliche Textobjekte, die digitalisiert und als elektronische Volltexte durchsuchbar gemacht wurden, gesammelt, analysiert, systematisch aufbereitet und kategorisiert. An der Entwicklung der komplexen ContainerStruktur wird seit 2005 gearbeitet. Ferner konnten bereits einige Anwendungen im Bereich der Corpusforschung begonnen und erprobt werden, so u.a. Parallele Corpora, Namensdatenbanken, digitale Mustereditionen, multimediale Anwendungen. 109 Abb. 3: AAC-Logo (Graphic Design: Anne Burdich). Vorschau auf die Jahre 2006–2007 Die stufenweise Erweiterung des AAC-Containers auf einen Textumfang mit wenigstens 500 Millionen Running Words ist nach Maßgabe der budgetären Voraussetzungen geplant: Eine halbe Milliarde Textwörter als Digital-Content-Basis für die von 2007 bis 2011 projektierte Application-Development-Phase. Wie können große elektronische Volltextcorpora künftig von möglichst vielen Nutzern gewinnbringend verwendet werden? Es gilt, überzeugende Antworten auf diese Frage zu geben. Die Entscheidung des AAC im Jahr 2000, nicht ausschließlich in rein linguistische Corpusanwendungen zu investieren, hat sich heute als richtig erwiesen, mittlerweile versuchen alle größeren internationalen Corpusprogramme diese Strategie aufzunehmen und zu verfolgen.