Korpuslinguistik - Institut für Deutsche Sprache
Transcription
Korpuslinguistik - Institut für Deutsche Sprache
Ringvorlesung “Methoden”, HS 2009 Korpuslinguistik Stefan Engelberg (Institut für Deutsche Sprache & Universität Mannheim) Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 1] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 1 Textkorpora 1.1 Was sind Textkorpora? Textkorpus: Ein Textkorpus ist eine Sammlung von sprachlichen Äußerungen, die als Grundlage empirischer linguistischer Untersuchungen dient. (Im heutigen Gebrauch meist Textkorpus = elektronisches Textkorpus) Elektronisches Textkorpus: Ein elektronisches Textkorpus ist ein Textkorpus als digitale Ressource, die mithilfe von Software (Korpusrecherchesoftware) auf sprachliche Muster hin untersucht werden kann. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 2] 1 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Typen von Korpora Sprachmedium: Korpora geschriebener / gesprochener Sprache Geltungsbereich: Referenzkorpora (für eine Sprache in ihrer Gesamtheit) / Spezialkorpora Sprecherkompetenz: Lernerkorpora / Korpora zum Erstspracherwerb, … Korpusaufbereitung: (grammatisch) annotierte vs. nicht-annotierte Korpora Sprachstadium: historische Korpora / Korpora der Gegenwartssprache Sprachenanzahl: einsprachige Korpora / Parallelkorpora, Vergleichskorpora Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 3] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Deutsches Referenzkorpus (Institut für Deutsche Sprache): fast 4.000 Mio. Textwörter; Zeitungen, Belletristik, Sachtexte, …, ab 1950 enthaltene Einzelkorpora (Ausschnitt) Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 4] 2 1 Definitionen 1.1 1.2 1.3 2 Begriffe 2.1 2.2 2.3 3 Forschungsablauf 3.1 3.2 3.3 4 Datentypen 5 Fallstricke 4.1 4.2 5.1 5.2 5.3 5.4 Konkordanz zu dem Lexem Zylinder https://cosmas2.ids-mannheim.de/cosmas2-web Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 5] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 DWDS-Kernkorpus (Berlin-Brandenburgische Akademie): 100 Mio. Textwörter; Zeitungen, Belletristik, Fachtexte, gesprochene Sprache; Texte ab 1900 Kookkurrenzanalyse zu blond http://www.dwds.de Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 6] 3 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Dortmunder CHATKorpus: Korpus aus 140.000 Chat-Beiträgen mit ca. 1 Mio. Textwörtern. Korpuszusammensetzung (Ausschnitt) http://www.chatkorpus.tu-dortmund.de/ Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 7] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 TiGer-Korpus (Potsdam, Stuttgart, Saarbrücken); 0,9 Mio. Textwörter; Sätze mit grammatischen Strukturbeschreibungen (Treebank / Baumbank). Darstellung einer Satzstruktur im TiGer-Korpus unter TiGer-Search Aus: Noah Bubenhöfer: Einführung in die Korpuslinguistik, <http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=weitere_tiger.html> Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 8] 4 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 FALKO (Humboldt-Univ. Berlin): fehlerannotiertes Lernerkorpus DaF. Beispiel für Fehlerannotation http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 9] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 … und noch einige (zumindest in Teilen) frei verfügbare Korpora des Deutschen Historisches Korpus am IDS: ca. 60 Mio. Textwörter (wachsend), Zeitungen, Bellestristik, Sachtexte, …, 17.-20. Jh. ZEIT-Korpus (Berlin-Brandenburgische Akademie); 448 Mio. Textwörter; Texte aus der ZEIT seit 1946. Archiv für Gesprochenes Deutsch (Institut für Deutsche Sprache); gesprochene Sprache ca. 8000 Interaktionen, Interviews, Monologe, Erzählungen, Beratungsgespräche, Diskussionen. Schweizer Textkorpus (Universität Basel): 20 Mio. Textwörter, Zeitungsartikel, Werbung, Formulare, Anleitungen, Ratgeber, populäre Fachliteratur, Jugend- und Trivialliteratur, Belletristik etc. Vgl. auch die Übersichten in: Lemnitzer, Lothar, and Heike Zinsmeister. Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2006. / Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 10] 5 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 1 Textkorpora 1.2 Wo werden Textkorpora eingesetzt? Korpora werden bei verschiedenen sprachwissenschaftlichen Aufgaben verwendet: Theoretische Linguistik: von der Überprüfung von Hypothesen bis zur automatischen Ermittlung grammatischer Regularitäten. • • • • • • Ermittlung von Wortstellungsregularitäten Berechnung der Produktivität von Wortbildungsmorphemen Überprüfung der formalen und inhaltlichen Varianz von „festen“ Wendungen Untersuchung der Praxis der Getrennt- und Zusammenschreibung Ermittlung der Valenzvarianz von Verben … Grammatikographie: korpusbasierte Erstellung von deskriptiven und Lernergrammatiken einer Sprache. • Anführung von Korpusbelegen für grammatische Strukturen • Ermittlung der Häufigkeit und Verteilung von grammatischen Strukturen • … Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 11] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Lexikographie: korpusbasierte Erstellung von Wörterbüchern. • • • • • • • Ermittlung von Worthäufigkeiten Bestimmung von festen Wortverbindungen Ermittlung typischer Verwendungskontexten Sammlung authentischer Korpusbelege Ermittlung von Neologismen, Archaismen und Wortgebrauchsverläufen Einbindung von Korpora in elektronische Wörterbücher als Textressource … Computerlinguistik: Unterstützung computerlinguistischer Verfahren und Unterstützung der Korpuslinguistik durch computerlinguistische Verfahren. • • • • • • automatisches Textverstehen Ressource für Information Retrieval automatische Annotation Named-entity-Erkennung Regellernen auf Trainingskorpora … Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 12] 6 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Fremdsprachenunterricht: „Authentifizierung“ und Relevanzgesteuertheit von Lehrmaterialien. • • • • • Analyse von Lernerfehlern Ermittlung gebrauchshäufiger Phänomene authentische Belege für Sprachverwendung Korpora im Klassenraum … Übersetzung: übersetzungswissenschaftliche Untersuchungen. • Überprüfung von Übersetzungsstrategien in Parallelkorpora • Ermittlung von Übersetzungsäquivalenten • … Scherer, Carmen (2006): Korpuslinguistik. Heidelberg: Winter, 2006. Lemnitzer, Lothar & Heike Zinsmeister (2006): Korpuslinguistik. Eine Einführung. Tübingen: Narr. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 13] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 1 Textkorpora 1.3 Warum benutzt man Textkorpora? Grund 1: Authentizität Textkorpora spiegeln natürliche Sprache in einer natürlichen (nicht metasprachlichen) Äußerungssituation wider. Probleme mit Beispielen, die von Linguisten / Lexikographen / Lehrwerkproduzenten selbst erzeugt und/oder beurteilt werden: • Was in metasprachlichen Betrachtungen als unakzeptabel beurteilt wird, spiegelt nicht die tatsächlichen Gebrauchspräferenzen wider. a) Ich war die Unterlagen am Durchsehen. • Dialektale oder soziolektale Aspekte des eigenen Sprachgebrauchs werden oft nicht erkannt. b) Ich trink mir mal ein Bier. • Bei Beispielen, die die eigene Theorie stützen, ist der Linguist oft großzügig mit seinem Grammatikalitätsurteil. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 14] 7 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 3 Debatten 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Grund 2: Varianz Textkorpora dokumentieren die Varianz und Vielfalt sprachlicher Phänomene. Grube: ... wer andern eine ~ gräbt, fällt selbst hinein (Sprichw.) … Wahrig, Gerhard: Deutsches Wörterbuch. Gütersloh, München: Bertelsmann 1975. a) Er, der normalerweise anderen eine Grube gräbt, wurde nun selbst voll erwischt. Bei der Moderation zur neuen SAT.1-Naturreihe "Weltgeschichte des Tierfilms" (Start im November) am Originalschauplatz in Zaire wurde Fritz Egner plötzlich von einem riesigen Gorilla-Mann attackiert. b) Und Fairneß wird auf dem Fairway großgeschrieben. Wer andern ein Loch gräbt, fällt selbst hinein. Diese Warnung wiederholt Golflehrer Claes Fellbom, der auf dem Landestheatergrün Regie führt, oft. c) Elfriede Jelinek würdigte einen bedeutenden Dichter, der von genau den Leuten angegriffen werde, die in 1000 Jahren von der deutschen Sprache nicht das verstehen würden, was Artmann im kleinen Finger habe. Gerhard Rühm ließ in einer Grußbotschaft wissen "Wer Artmann eine Grube gräbt, fällt selbst hinein". d) Nun, die Ruhe vor dem Sturm gibt es ja in ihrer speziellen Form nur dann, wenn die entsprechend genommene Rache tatsächlich süß ist, im gleichen Moment der rollende Stein kein Moos ansetzt, die Blinde im Bett wirklich der Taube auf dem Dach vorgezogen wird und man anschließend einer anderen Person eine Grube gräbt, letztendlich jedoch selbst das Schwein ist! https://cosmas2.ids-mannheim.de/cosmas2-web Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 15] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Grund 3: Maschinenlesbarkeit Die Maschinenlesbarkeit ermöglicht eine Ausweitung und Ökonomisierung umfangreicher Datenanalysen. • Bearbeitung großer Textmengen in kurzer Zeit • Vielfältige Such- und Analysemöglichkeiten • Sortierung und Klassifikation großer Datenmengen <Online am 3.11.2009: http://www.idsmannheim.de/kl/projekte/korpora/archiv.html#Umfang> Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 16] 8 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Grund 4: Berechenbarkeit Die maschinelle Bearbeitung in Verknüpfung mit geeigneten Korpusanalyseverfahren erlaubt es, quantiative Verfahren der Datenerhebung auf einem großen Datenbestand durchzuführen. • • • • • • Lexikalische Frequenzanalysen Zeitverlaufsanalysen des Sprachgebrauchs Kookkurrenzanalysen Produktivitätsberechnungen Analysen regionaler Verteilung von Phänomenen … Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 17] 1 Textkorpora 1.1 1.2 1.3 Wortformen -typ 2 Geschichtliches 2.1 2.2 2.3 zugehörige Wortformen prozentualer Anteil 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Beispiel 1: Wortfrequenzen DSAv = Deutsches Spracharchiv des Instituts für Deutsche Sprache (Korpora gesprochener Sprache). <Online am 3.11.2009 http://dsav-wiss.idsmannheim.de/DSAv/WFTOP100.HTM>. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 18] 9 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Beispiel 2: Zeitverlaufsgraphiken Veränderungen in der Gebrauchshäufigkeit des Wortes Frack von 1900-2000 (im DWDS-Kernkorpus) <Online am 3.11.2009 http: www.dwds.de>. Veränderungen in der Gebrauchshäufigkeit des Wortes Spam von 1990-2009 (im Deutschen Referenzkorpus) <Online am 3.11.2009 http: www.owid.de/Neologismen/index.html>. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 19] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Beispiel 3: Kookkurrenzanalyse Kookkurrenzanalyse: Feststellung von Vorkommenskorrelation en, insbesondere, ob ein Wort A mit einem Wort B häufiger zusammen vorkommt als es eine Zufallsverteilung von A und B erwarten ließe. Kookkurrenzanalyse zu schwarz (im DWDS-Kernkorpus) <Online am 3.11.2009 http: www.dwds.de>. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 20] 10 1 Definitionen 1.1 1.2 1.3 2 Begriffe 3 Forschungsablauf 2.1 2.2 2.3 3.1 3.2 3.3 4 Datentypen 5 Fallstricke 4.1 4.2 5.1 5.2 5.3 5.4 Kookkurrenzanalyse zu abziehen Typische syntagmatische Muster, in denen die Verbindungen vorkommen, z. B. vom Einkommen abziehen Sekundäre Kookkurrenzpartner zu abziehen + Einkommen (hier: steuerpflichtigen, steuerbaren, versteuernden) Primäre Kookkurrenzpartner zu abziehen (hier: Einkommen) Stärke der Verbindung zwischen den beiden Wörtern (hier: 796) Belica, Cyril (2008): Kookkurrenzdatenbank CCDB - V3.2. <http://corpora.idsmann-heim.de/ccdb/>. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 21] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 2 Highlights aus der Geschichte der Korpuslinguistik 2.1 Prä-elektronische Korpora • 4. Jh. v. Chr.: Vedisches Korpus als Grundlage der Sanskrit-Grammatik Pāņinis. • spätes 16. Jh.: Erster Gebrauch von authentischen Belegen in Wörterbüchern (vgl. Meyer 2008). • 1775: Popularisierung von authentischen Belegen durch Johnsons „Dictionary of the English Language“ (150.000 angeführte Belege; Zusammensetzung des Korpus nicht bekannt). • Mitte 19. Jahrhundert: Vorarbeiten zum Deutschen Wörterbuch; Sammlung von 600.000 Belegen. • ab spätem 19. Jh.: Erste Auflage des Oxord English Dictionary (publ. 1928), basierend auf einer Sammlung von 4 Mio. Belegen (vgl. Meyer 2008). Grimm, Jacob & Wilhelm Grimm (1854). Deutsches Wörterbuch. Bd. 1.: A – Biermolke. Leipzig: Hirzel. Jespersen, Otto (1909-1949), A Modern English Grammar on Historical Principles. London: George. Johnson, Samuel (1755): A Dictionary of the English Language. 2 vol. London: Strahan. Meyer, Charles F. 2008. Pre-electronic corpora. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An International Handbook. Teilband 1. Berlin, New York: de Gruyter, 1-14. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 22] 11 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 • frühes 20. Jh.: Jespersens korpusbasierte englische Grammatik: „With regard to my quotations, which I have collected during many years of both systematic and desultory reading, I think that they will be found in many ways more satisfactory than even the best made-up examples, for instance those in Sweet’s chapters on syntax.“ • 1930er Jahre: englischsprachiges Korpus (18 Mio. Textwörter) als Grundlage für Unterrichtsmaterialien (Thorndike & Lorge 1944). • 1950er Jahre: Korpus von Transkriptionen gesprochener Äußerungen (0,25 Mio. Textwörter) als Grundlage einer Grammatik (Fries 1952). • frühe 1960er Jahre: Erstellung eines bezüglich Textsorten und Medium (gesprochen, geschrieben) ausgewogenen Korpus als Grundlage des „Survey of English Usage “ (1 Mio. Textwörter, ergänzt durch Erhebungen von Sprecherurteilen; vgl. Quirk 1974). Fries, Charles Carpenter (1952), The Structure of English. New York: Harcourt Brace. Jespersen, Otto (1909-1949), A Modern English Grammar on Historical Principles. London: George. Quirk, Randolph (1974), The Linguist and the English Language. London: Edward Arnold. Thorndike, Edward L. and Lorge, Irving (1944): The Teacher's Word Book of 30,000 Words. Teachers College, Columbia University, New York. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 23] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 2 Highlights aus der Geschichte der Korpuslinguistik 2.2 Elektronische Korpora • 1961: Brown Corpus (1 Mio. Textwörter; geschriebenes amerikanisches Englisch, verschiedene Textsorten; vgl. Johansson 2008). • 1967: Mannheimer Korpus I als Grundlage des Deutschen Referenzkorpus (IDS, 2,2 Mio. Textwörter; vgl. Kupietz & Keibel 2008). • frühe 1970er: LIMAS-Korpus (gut 1 Mio. Textwörter; Bonn, Regensburg; geschriebenes Deutsch). • 1970er: Lancaster-Oslo-Bergen-Corpus (1 Mio. Textwörter; geschriebenes britisches Englisch). • 1970er: Wortart-Tagging des Brown-Korpus (vgl. Johansson 2008). Johansson, Stig 2008. Some aspects of the development of corpus linguistics in the 1970s and 1980s. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An International Handbook. Teilband 1. Berlin, New York: de Gruyter, 33-53. Kupietz, Marc & Holger Keibel 2008. The German Reference Corpus (DeReKo) as a basis for empirical linguistic research. Working Papers in Corpus-based Linguistics and Language Education (Tokyo University of Foreign Studies) 3. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 24] 12 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 • frühe 1980er: Birmingham-Korpus (20 Mio. Textwörter, geschrieben & gesprochen); führt im Rahmen des Collins-Cobuild-Projekts zum ersten strikt auf einem spezifischen elektronischen Korpus basierenden Wörterbuch (Sinclair 1987; vgl. Renouf 2007). • 1991: das WWW als dynamisches, ungesteuertes, durchsuchbares Textrepositorium (seit den späten 1990ern für linguistische Zwecke genutzt). • 2000: Deutsches Referenzkorpus (IDS; über 1.000 Mio. Textwörter; größtenteils Schirftsprache). • 2003: DWDS-Kernkorpus (100 Mio. Textwörter; Wortarten-Tagging; verteilt über Textsorten und die 10 Dekaden des 20. Jhs.; vgl. Geyken 2007). • 2010: Deutsches Referenzkorpus (IDS); über 4.000 Mio. Textwörter ? Geyken, Alexander 2007. The DWDS corpus: A reference corpus for the German language of the 20th century In: C. Fellbaum (ed.), Idioms and Collocations: Corpus-based Linguistic and Lexicographic Studies (Research in Corpus and Discourse). London, New York: Continuum, 23-40. Renouf, Antoinette 2007. Corpus Development 25 Years on: from Super-Corpus to Cyber-Corpus. In: R. Facchinetti (ed.), Corpus Linguistics 25 Years on. Amsterdam, New York: Rodopi, 27-49. Sinclair, John (Hg.): Collins COBUILD English Language Dictionary. London, Glasgow: Collins, 1987. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 25] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 2 Highlights aus der Geschichte der Korpuslinguistik 2.3 Korpusanalyseverfahren Konkordanzen • 13. Jh.: Indizes und Konkordanzen zur Bibel seit dem 13. Jahrhundert (Hugo von St. Charo, vgl. Meyer 2008). • 18. Jh.: Hervorhebung des Nutzens von Konkordanzen für semantische Studien; sie werden genutzt „to compar[e] the several significations of the same word“ (Cruden 1737); Ayscoughs Shakespeare-Index bezweckte ebenfalls „to point out the different meanings to which the words are applied“ (vgl. Stubbs 2009). • 1950er Jahre: elektronische KWICs zur Darstellung von Konkordanzen werden entwickelt (vgl. Stubbs 1990:18). Ayscough, S. (1790): An Index to the Remarkable Passages and Words Made Use of by Shakespeare; Calculated to Point out the Different Meanings to Which the Words are Applied. Lodnon: Stockdale. Cruden, A. (1737): A Complete Concordance to the Holy Scriptures. Londin: Tegg. Stubbs, Michael (2009): Technology and phraeology. With notes on the history of corpus linguistics. In: U. Römer & R. Schulze (eds.). Exploring the Lexis-Grammar Interface. Amsterdam, Philadelphia: Benjamins, 15-31. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 26] 13 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Frequenzanalysen • 1890er Jahre: Große Erhebung zu Wortfrequenzen des Deutschen mit dem Ziel der Entwicklung einer verbesserten Kurzschrift (Korpus aus über 300 Büchern mit 11 Mio. Textwörtern; Frequenzwörterbuch; Kaeding 1897/1898, vgl. auch Aichele 2005). • 1952: Gebrauch von korpusbasierten Frequenzinformationen bei der Grammatikschreibung (Fries 1952). • 1975: erstes auf elektronischen Korpora basierendes Frequenzwörterbuch (Allén et al. 1975). Aichele, Dieter: Quantitative Linguistik in Deutschland und Österreich. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, S. 16-23 Allén, Sture et al.: Nusvensk frekvensordbok. Stockholm: Almqvist & Wiksell. Kaeding, Friedrich Wilhelm (1897/1898Hrsg.): Häufigkeitswörterbuch der deutschen Sprache 1, 2. Selbstverlag, Berlin-Steglitz 1897/98. (Teilreprint in: Grundlagenstudien aus Kybernetik und Geisteswissenschaft 4/ 1963. Beiheft) Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 27] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Kookkurrenzen • Ende der 1950er: an Auftretenswahrscheinlichkeiten geknüpftes Kollokationsverständnis: „You shall know a word by the company it keeps. […] The habitual collocations in which words […] appear are quite simply the mere word accompaniment […]. The collocation of a word [… is …] mutual expectancy. […] Collocations are actual words in habitual company.“ (Firth 1957: 11ff, vgl. Stubbs 2009). • Um 1970: erste korpusbasierte Kollokationsstudien durch John Sinclair (veröffentlicht als Sinclair 2004). • 1970er: Entwicklung von Maßen zur Berechnung des Kolloktionsverhaltens von Wörtern (Allén et al. 1975). • 1995: öffentlicher, internetbasierter Zugriff auf die Kookkurrenzanalyse des IDS. Firth, J. R. (1957): A synopsis of linguistic theory 1930-1955. Transactions of the Philological Sociaty. Special Volume: Studies in Linguistic Analysis, 1-32. Sinclair, John (2004): New evidence, new priorities, new attitudes. J. Sinclair (ed.): How to Use Corpora in Language Teaching. Amsterdam, Benjamins, 271-299. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 28] 14 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 3 Debatten um … 3.1 … Repräsentativität Häufiger Wunsch: »Das Textkorpus soll repräsentativ sein. Nur dann sind Generalisierungen von den Ergebnissen einer Korpusstudie auf die Sprache insgesamt möglich.« Verbreitete Auffassung von Textkorpora (nach McEnery, Xiao & Tono 2006): „[…] a corpus is a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.“ Was ist Repräsentativität? Eine Datenerhebung (z.B. eine Korpuszusammenstellung) ist repräsentativ, wenn sie Aussagen über die Grundgesamtheit zulässt. McEnery, Tony, Richard Xiao & Yuko Tono (2006): Corpus-Based Language Studies. An Advanced Resource Book. Milton Park: Routledge. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 29] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Repräsentativität muss bestimmt werden • hinsichtlich der Grundgesamtheit, über die Aussagen gemacht werden sollen. • hinsichtlich des Merkmals, für das die Datenerhebung repräsentativ sein soll. Beispiel: Ist diese Gruppe junger deutscher Mitglieder der Verfahrenspflegestelle RASYS (als Stichprobe) repräsentativ für die deutsche Bevölkerung hinsichtlich des Merkmals Geschlecht? NEIN Verteilung des Merkmals in der Stichprobe: 22,2/77,8 Verteilung des Merkmals in der Grundgesamtheit: 51,1/48,9 ♀/♂ ♂ ♀/♂ ♂ Bildquelle: <Online am 3.11.2009: http://www.fhr.nrw.de/informationstechnik/rasys/index.php> Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 30] 15 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Noch ein Beispiel: Ist die Verteilung von Korpustexten im DWDSKernkorpus repräsentativ für die Verteilung von Textsorten in „der deutschen Sprache“? ??? DWDS-Kernkorpus: • ein „nach Textsorten ausgewogenes Corpus des gesamten 20. Jahrhunderts “ • 100 Millionen Textwörter (tokens) in 79.830 Dokumenten Verteilung von Textsortenmerkmalen im DWDS-Kernkorpus (der Stichprobe): Schöne Literatur Journalistische Prosa Fachprosa Gebrauchstexte (Transkribierte) Texte gesprochener Sprache ca. ca. ca. ca. ca. 26% 27% 22% 20% 5% Verteilung von Textsortenmerkmalen in der Grundgesamtheit: A B … ca. ?% ca. ?% ca. ?% <Online am 3.11.2009: http://www.dwds.de/textbasis/kerncorpus> Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 31] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Was tun? Option 1: Das große, vielfältige Korpus (Kupietz & Keibel 2009) • große Menge an Texten (plus Stratifizierungsstrategien) • keine spezifische (auf „Repräsentativität“ abzielende) Verteilung • Optionen für den Nutzer, eigene (seinen Vorstellungen von „Repräsentativität“ entsprechende) Subkorpora daraus zusammenzustellen Option 2: Das „ausbalancierte“ Korpus (McEnery, Xiao & Tono 2006) • Texte möglichst vieler verschiedener Genres (Reportage, Kochrezept, Streitgespräch, Roman, …) • innerhalb eines Genres Texte aus möglichst verschiedenen Quellen • Texte mit möglichst vielen verschiedenen Themen (Sport, Religion, Natur, Kunst) • gesprochene und geschriebene Äußerungen • mediale Vielfalt (Bücher, Zeitschriften, Gespräche, Internettexte, …) Kupietz, Marc & Holger Keibel (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for empirical linguistic research. In: Working Papers in Corpus-based Linguistics and Language Education, No. 3 (pp. 53-59). Tokyo: Tokyo University of Foreign Studies (TUFS). <Online am 3.11.2009: http://www.ids-mannheim.de/kl/projekte/korpora/> McEnery, Tony, Richard Xiao & Yuko Tono (2006): Corpus-Based Language Studies. An Advanced Resource Book. Milton Park: Routledge. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 32] 16 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 3 Debatten um … 3.2 … Annotationen Metadaten (Daten über Daten): Daten zum Korpustext (z. B. Autor, Entstehungsdatum, Titel, Publikationsort, …) Annotationen: linguistische Beschreibungen von Ausdrücken in Korpora (z. B. Wortartmarkierungen an allen Wörtern) Pro Annotationen • (je nach Art der Annotation) Suche nach bestimmten lexikalischen Typen möglich • (je nach Art der Annotation) Suche nach abstrakten syntaktischen Mustern möglich • … Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 33] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Beispiel 1: Annotationen in einem historischen Korpus (GerManC) Kodierter Korpustext (im XML-Format) aus GerManC (deutsches Zeitungskorpus 1650-1800) Annotationsbeispiel: <s> Satz </s> <foreign> Fremdwort </foreign> <rs> Name </rs> Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 34] 17 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Beispiel 2: Wortartenannotation in den DWDS-Korpora • Abfrage: "üben #5 aus with $p=PTKVZ" • Gesucht werden: alle Sätze, die eine Abfolge von üben plus Verbpartikel aus im Abstand von bis zu fünf Wörtern enthalten • Beispielergebnis: ... übt er ein Wahlamt aus ... • Abfrage:"$p=ADJA $p=NN " • Gesucht werden: alle Sätze, die ein attributives Adjektiv gefolgt von einem Nomen enthalten • Beispielergebnis: … großes Haus … Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 35] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Beispiel 3: Annotationen in einer Baumbank (TiGer-Korpus) • Abfrage: (#n:[cat"S"] > [pos"PTKVZ"]) & (#n > [pos"VVFIN"]) • Gesucht werden: alle Sätze, in denen ein S-Knoten ein finites Verb (VVFIN) und eine Verbpartikel (PTKVZ) dominiert • Beispielergebnis: ... übt er ein Wahlamt aus ... Aus: Noah Bubenhöfer: Einführung in die Korpuslinguistik. <Online am 3.11.2009, http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=weitere_tiger.html> Meurers, W. Detmar & Stefan Müller (2009): Corpora and syntax. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An International Handbook. Teilband 2. Berlin, New York: Mouton de Gruyter, 920-933. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 36] 18 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Kontra Annotationen: • Die automatischen, halbautomatischen oder manuellen Annotationen sind oft fehlerhaft (= entsprechen nicht den Annotationsvorschriften). • Die dem Annotationsschemata zugrundeliegenden linguistischen Annahmen sind selten unstrittig. [Was ist eine „Verbpartikel“?] • Annotationsfehler oder Schwächen des Annotationssystems konzentrieren sich im Bereich schwieriger (und deswegen besonders untersuchungswürdiger) Phänomene. • Die Annotation „verunreinigt“ die Daten: Die Theorie, die wir durch die empirische Analyse erst gewinnen wollen, ist bereits durch die in den Annotationen manifesten linguistischen Vorannahmen präjudiziert. Meurers, W. Detmar & Stefan Müller (2009): Corpora and syntax. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An International Handbook. Teilband 2. Berlin, New York: Mouton de Gruyter, 920-933. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 37] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 3 Debatten um … 3.3 … Korpusgesteuertheit Korpusbasierte Linguistik (corpus-based linguistics): Korpusdaten werden genutzt, um linguistische Theorien zu testen, zu widerlegen oder zu exemplifizieren. Korpusgesteuerte Linguistik (corpus-driven linguistics): Linguistische Theorien werden unter Vermeidung theoretischer Vorannahmen unmittelbar aus den Daten gewonnen. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 38] 19 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Parameter zur Unterscheidung von Korpusbasiertheit und Korpusgestütztheit corpus-driven corpus-based stark induktiv eher deduktiv Wissenschaftsmethodik groß, unbalanciert, unannotiert Korpora sprachliche Muster unabhängig von Sprachebenen Forschungsfokus spezifische Phänomene in Syntax, Semantik, etc. Status Korpuslinguistik als Methode / empirisches Verfahren Korpuslinguistik als Disziplin (bzw. Paradigmenwechsel) balanciert, annotiert McEnery, Tony, Richard Xiao & Yuko Tono (2006): Corpus-Based Language Studies. An Advanced Resource Book. Milton Park: Routledge. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 39] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 3 Debatten um … 3.4 … Web als Korpus Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 40] 20 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Verhältnis Korpus - WWW (A) Web als Korpus (i) Verwendung einer Suchmaschine (z. B. Google, AltaVista) (ii) Verwendung einer Web-als-Korpus-Analysesoftware (z. B. WebCorp, KWICFinder); basiert auf Suchmaschinen (B) Web im Korpus (i) Automatischer Download von WWW-Seiten mit anschließender Bereinigung und Aufbereitung der Daten und Überführung in ein Korpus-Textformat (ii) Selektive, kriteriengeleitete Erstellung eines Korpus aus WWW-Seiten Lüdeling, Anke, Stefan Evert & Marco Baroni 2007. Using Web Data for Linguistic Purposes. In: M. Hundt, N. Nesselhauf & C. Biewer (eds.). Corpus Linguistics and the Web. Amsterdam,. New York: Rodopi, 7-24. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 41] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Pro WebAlsKorpus: • Das WWW ist die größte und aktuellste Sammlung sprachlicher Äußerungen in elektronischer Form. • Aufgrund der Größe des WWW finden sich auch für seltene Phänomene hinreichend viele Belege. • Im WWW sind Textgenres, Sprachstile, Sprachvarianten und Themenbereiche vertreten, die in bestehenden Korpora kaum repräsentiert sind. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 42] 21 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Abfrage mithilfe von KWICFinder: Konkordanz zu abziehen auf der Basis von Webseiten, die im Titel das Word „Chat“ enthalten. Ziel: Aufspüren von Wortverwendung, die lexikographisch schlecht erfasst sind. KWICFinder: <http://www.kwicfinder.com/KWiCFinder.html> Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 43] 1 Definitionen 1.1 1.2 1.3 2 Begriffe 2.1 2.2 2.3 3 Forschungsablauf 3.1 3.2 3.3 4 Datentypen 5 Fallstricke 4.1 4.2 5.1 5.2 5.3 5.4 Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 44] 22 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Beispielsätze aus der Konkordanz a. Ich bin und bleibe stolzer Tokio Hotel Fan wer damit ein problem hat der soll abziehen. b. Die Leute die mich kennen, wissen, daß ich eigentlich eine ganz Friedfertige und Versöhnliche bin. Aber was hier einige Leute abziehen ... echt therapiebedürftig!!! c. Das Leben geht weiter und dein Schwarm wird nie erfahren, dass du ihn hier eingetragen hast. Andere Eltern haben auch hübsche Kinder, und du kannst bei uns so viele Schwärme eintragen, wie du möchtest. Ist das nicht toll - du musst keine Show abziehen, du riskierst keinen Korb, du trägst einfach nur deinen Schwarm ein und wartest ab! d. Leider kannst so'n Scheiß ja nich wirklich abziehen weil der Scheiß überall in deine Unterlagen kommt... e. Die Suppe mit Salz abschmecken, mit verquirltem Eigelb abziehen und die Spargelstückchen hineingeben. f. ich finde auch den preis etwas niedrig und der ebayer hat auch nur 2 bewertungen,habe deshalb ihn gefragt,ob wir das geschäft über den treuhandservice abwickeln können.jetzt warte ich auf seine antwort.nicht das der mich abziehen will,nur weil vielleicht zu wenig für das board geboten wurde.nicht mein problem. g. Soll der Lüfter kühle Luft da rein pusten (ich weis nicht ob sich die Luft dann staut), oder die heiße Luft abziehen? h. Bieretiketten kann mein einfach von der Flasche abziehen. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 45] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Kontra WebAlsKorpus: • Quantitative Analysen im Web sind problematisch, weil die Zusammensetzung des Web nicht bekannt ist. • Im Web ist oft eine große Anzahl von Duplikaten eines Dokuments vorhanden. • Die ständige Veränderung des Webs macht eine Replizierbarkeit von Abfrageergebnissen schwierig. • Einzelbelege als Evidenz für ein Phänomen sind problematisch; sie könnten von Nichtmuttersprachler sein, ein unbeabsichtigter Fehler eines Muttersprachlers sein, eine automatisch generierte Äußerung sein (Schütze 2009). • Der Anteil an unbeabsichtigten Fehlern ist im Web besonders hoch. (Wie oft muss ein Phänomen im WWW belegt sein, um schließen zu können, dass es ein Phänomen des Deutschen ist?) Schütze, Carson T. 2009. Web searches should supplement judgments, not supplant them. Zeitschrift für Sprachwissenschaft 28(1): 151-156. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 46] 23 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Google-Abfrage: >brahcte< 8990 Treffer Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 47] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Forderungen: • Die Anführung von Einzelbelegen aus dem WWW als Evidenz für ein Phänomen muss immer mit muttersprachlichen Sprecherurteilen abgesichert werden (Schütze 2009). • Quantitative Analysen im WWW (z.B. Google-Trefferangaben) sind zu heuristischen Zwecken nutzbar. Für argumentationsrelevante Daten greift man besser auf WebImKorpus-Korpora zurück. Schütze, Carson T. 2009. Web searches should supplement judgments, not supplant them. Zeitschrift für Sprachwissenschaft 28(1): 151-156. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 48] 24 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 3 Debatten um … 3.5 … Evidenz Das Problem mit der negativen Evidenz: Korpora liefern keine negative Evidenz. Aus dem Nichtvorkommen eines Phänomens in einem gegebenen Korpus kann nicht auf das Nichtvorkommen des Phänomens in der Sprache insgesamt geschlossen werden. • Traditionell basieren linguistische Argumentationen stark auf dem Gegenüberstellen des „Grammatischen“ und des „Ungrammatischen“. Das wird durch Korpora nicht unterstützt. • Korpora erlauben es dagegen, das Gebräuchliche vom Ungebräuchlichen zu unterscheiden. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 49] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Das Problem mit der positiven Evidenz: Korpora liefern auch keine eindeutige positive Evidenz. Aus dem Vorkommen eines Phänomens im Korpus kann nicht ohne weitere Überprüfung auf das Vorkommen in der Sprache geschlossen werden. Seltene Phänomene: Was bedeutet es , wenn Phänomene „relativ selten“ in Korpora vorkommen? Möglichkeit 1 (Fehler): Das seltene Auftreten eines Phänomens kann darauf zurückzuführen sein, dass es sich um einen Fehler handelt. • • • • • Rechtschreibfehler Versprecher Druckfehler unbemerkter Satzplanungsfehler unbemerkter Wortauslassungsfehler Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 50] 25 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 3 Debatten 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Möglichkeit 2 (Varietätenspezifik): Das seltene Auftreten eines Phänomens kann darauf zurückzuführen sein, dass das Genre / die Varietät / die mediale Variante, dem das Phänomen zuzuordnen ist, im Korpus nicht / kaum vertreten ist. Frequenz von Redewendungen im Deutschen Referenzkorpus: einen „Bären aufbinden“ „auf Draht“ sein auf die „Pauke hauen“ einen „Krebs fangen“ 175 611 484 4 a) Manuel Morbitzer dagegen hatte Pech. Er führte sicher bis kurz vor dem Ziel, fing dann jedoch einen kapitalen Krebs. "Einen Krebs fangen" nennt man es, wenn sich das Ruderblatt zu früh dreht und so statt aus dem Wasser herauszukommen schlagartig in die Tiefe gezogen wird. Morbitzer kenterte zwar nicht, musste sich so aber mit Platz zwei begnügen. b) Der Hochschulsport setzt erstmals 17 sogenannte Trimmis ein, die es auch Anfängern ermöglichen, auf einem der länglichen Boote mit Rollsitz zu rudern, ohne bei einem Fehler ins Wasser zu fallen. Die Boote sind breiter als gewöhnlich und kentern nicht, wenn ein Ruderblatt unabsichtlich im Wasser abtaucht - auf RuderFachchinesich nennt man das "einen Krebs fangen". Die Wendung einen Krebs fangen ist fachsprachlich. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 51] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Möglichkeit 3 (Sprachwandel): Das seltene Auftreten eines Phänomens kann darauf zurückzuführen sein, dass ein aktueller Sprachwandelprozesses vorliegt (Aufkommen oder Verschwinden des Phänomens). Vorkommen von Rektionsvarianten von trotz im DWDS-Kernkorpus: trotz mit Genitiv (z.B. trotz des Geschreis): ca. 91% der Korpusbelege trotz mit Dativ (z.B. trotz dem Geschrei): ca. 9% der Korpusbelege „trotz dem“ „trotz des“ Die Dativrektion bei trotz ist seit dem ersten Drittel des 20. Jhs. im Rückgang begriffen (s. Verlaufsgraphik). Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 52] 26 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 3 Debatten 2.1 2.2 2.3 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Möglichkeit 4 (Übergeneralisierung): Das seltene Auftreten eines Phänomens kann darauf zurückzuführen sein, dass eine (nicht ganz regelkonforme ?) Übergeneralisierung vorliegt. Vorkommen von Rektionsvarianten von gemäß im DWDS-Kernkorpus: gemäß mit Dativ (z.B. gemäß dem Prinzip): ca. 98% der Korpusbelege gemäß mit Genitiv (z.B. gemäß des Prinzips): ca. 2% der Korpusbelege „gemäß des“ „gemäß dem“ Vermutung: Anpassung durch Übergeneralisierung an eine als stilistisch „feiner“ empfundene Genitivrektion. Ein Sprachwandelphänomen liegt nicht vor (s. Verlaufsgraphik). Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 53] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Möglichkeit 5 (?): Manche Konstruktionen „sind einfach selten“ (vielleicht aus stilistischen / kontextuellen / referentiellen Gründen). reden intransitiv reden resultativ-reflexiv a) … solange er redet … d) … er redet sich um Kopf und Kragen … b) … er weiß, wovon er redet … e) … wenn er sich in Rage redet … c) … er redet nicht darüber … f) … er redet sich selbst stark … Vorkommen von Konstruktionsvarianten von reden im Deutschen Referenzkorpus: intransitiver Gebrauch von reden: ca. 99% der Korpusbelege resultativ-reflexiver Gebrauch von reden: ca. 1% der Korpusbelege Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 54] 27 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 3 Debatten 2.1 2.2 2.3 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 4 Suche nach bestimmten sprachlichen Mustern 4.1 Precison & Recall Suche nach Belegen für ein bestimmtes sprachliches Phänomen Formulierung einer Suchabfrage im Rahmen der Syntax der verwendeten Suchabfragesprache Überprüfung der Treffermenge nach den Kritierien „Precison“ & „Recall“ Precison: Anteil der Treffer einer Korpusabfrage, die dem gesuchten sprachlichen Phänomen entsprechen (= true positives), an allen Treffern der Abfrage (= true & false positives). & Recall: Anteil der Treffer einer Korpusabfrage, die dem gesuchten sprachlichen Phänomen entsprechen, an allen Belegen für das sprachliche Phänomen im Korpus. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 55] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Beispiel: 1) Suche nach allen Belegen in Kafkas Kurzprosa, die ein Wort mit dem Morphem herz enthalten. 2) Suche nach allen Belegen in Kafkas Kurzprosa, die ein Wort mit dem Morphem lunge enthalten. Abfrage: Korpusanalyseprogramm AntConc; Verwendung von regulären Ausdrücken. Abfrage1: *herz* Abfrage2: *lunge* Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 56] 28 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 *herz* true positives: 31 false positives: 15 Precision: 67% (31/46) Recall: wahrsch. 100% (46/46) Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 57] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 *lunge* true positives: 8 false positives: 49 Precision: 14% (8/57) Recall: wahrsch. 100% (8/8) Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 58] 29 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 3 Debatten 2.1 2.2 2.3 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 4 Suche nach bestimmten sprachlichen Mustern 4.2 Linearisierung hierarchischer Strukturen Komplexe sprachliche Ausdrücke haben gewöhnlich eine hierarchische Struktur Die Syntax von Suchabfragesprachen erlaubt (meist nur) die Suche nach linearen Mustern. Operationalisierung des hierarchischen Musters als Ausdruckssequenz mit dem Ziel: hohe Precision & hoher Recall. Beispiel: Für eine Untersuchung zur Valenz von Adjektiven soll korpusbasiert überprüft werden, ob Adjektive in attributiver, pränominaler Position ihr präpositionales Komplement links vom Adjektiv realisieren. (1) das auf ihren Hund stolze Mädchen (2) dem auf seine Erfolge stolzen Sportler (3) den auf ihre Performance stolzen Tänzern Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 59] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 3 Debatten 2.1 2.2 2.3 4 Abfragen 3.1 3.2 3.3 3.4 3.5 Gesucht werden also Strukturen wie: 4.1 4.2 4.3 DP NP AP PPauf NPAkk Det das Pauf/NPAkk auf A/PPauf seinen Hund N stolze Mädchen Kasus- / Numerus- / Genus-Kongruenz Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 60] 30 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Problem: Das verwendete Korpus (Zeit-Korpus; www.dwds.de) … • hat Wortarten-Tags • kat keine Kasus-Tags • hat keine Phrasenstrukturannotationen (ist also keine Treebank) Behelfsoperationalisierung: • Wortarten-Tags nutzen • Phrasenstruktur durch linearen Ausdruck „behelfsoperationalisieren“ Suchausdruck: "auf #4 $p=NN #0 stolz #0 $p=NN" Abfolge ("") von auf (auf), gefolgt im Abstand von bis zu vier Wörtern (#4) von einem Substantiv ($p=NN), unmittelbar gefolgt (#0) von einer Flexionsform von stolz (stolz), unmittelbar gefolgt (#0) von einem Substantiv ($p=NN). Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 61] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 Die ersten sechs Belege: + + + – + + 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 "auf #4 $p=NN #0 stolz #0 $p=NN" 1954 -- Das Angeln gefällt auch Wolodja, und so gewinnt der Agent schnell das Vertrauen des schwatzhaften und *auf* seinen berühmten *Vater* *stolzen* *Knaben*. 1955 -- Hier stellt sich offenbar die Frage, ob wir lieber Sozialversicherte oder innerlich selbständige (und *auf* ihre *Errungenschaften* *stolze*) *Eigentümer* haben wollen. 1958 -- Er will damit sagen, daß selbst der *auf* die Exaktheit seiner *Disziplin* *stolze* *Naturwissenschaftler* heute nicht mehr um die Einsicht herumkommt, daß er es bei seinen Beobachtungen und Experimenten im strengen Sinne nicht mehr mit der Natur, sondern mit der der menschlichen Fragestellung ausgesetzten Natur" zu tun hat, daß also die vom Menschen beobachtete Natur nicht zu trennen ist von dem Standort des Beobachters und von den Apparaten und Methoden, die er dabei einsetzt. 1959 -- Nach langen Mühen fand der geplagte Beamte zwei Anwärter, die beide *auf* *Nachfrage* *stolz* *Kopien* ihrer Diplome von Kairos berühmter Lehr- und Pflegestätte des muselmanischen Glaubens einsandten. 1965 -- Viele *auf* ihre *Kultur* *stolze* *Musikfreunde* dürften es Kempff hoch anrechnen, daß er Liszt verfehlt. 1965 -- Immerhin durften wir feststellen und das konnte den Behörden ja nicht unangenehm sein, daß das chinesische Volk nicht nur unbestritten das an Menschen reichste und fleißigste, sondern heute das sauberste, zuchtvollste und wohl auch *auf* seine *Leistungen* *stolzeste* *Volk* ist. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 62] 31 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 3 Debatten 2.1 2.2 2.3 S Syntaktische Struktur des False Positive 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 "auf #4 $p=NN #0 stolz #0 $p=NN" VP V' V' PP NP die AdvP auf Nachfrage stolz NP Kopien V/NP einsandten Person- / Numerus-Kongruenz Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 63] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 4 Suche nach bestimmten sprachlichen Mustern 4.3 Precision versus Recall Problem 1: In den meisten Fällen können wir den Recall nicht prozentual bestimmen, weil wir nicht wissen, wieviele Belege für ein sprachliches Phänomen im Korpus sind. Problem 2: In den meisten Fällen führt eine Erhöhung der Precision zu einer Minderung des Recall und eine Erhöhung des Recall zu einer Minderung der Precision. Beispiel: Ermittlung geeigneter Suchabfragen durch Berechnung von Precision und Recall als Vorarbeit einer größeren Korpusstudie. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 64] 32 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 4 Abfragen 3.1 3.2 3.3 3.4 3.5 am-Progressiv Sie ist am Essen. beim-Konstruktion Sie ist beim Essen. Absentiv Sie ist essen. 4.1 4.2 4.3 „Verlaufsformen“ im Deutschen Ich bekahm um viertel nach 10 ne SMS mit guten Morgen, ob ich gut geschlafen hätte etc. Ich rief Ihn dann an und er war am essen. [Online, 20.5.2009, <http://bfriends.brigitte.de/foren/uber-treue-und-luegen-inder-liebe/105192-ich-hasse-ihn.html>] Doch am allertollsten war es, als wir Cristiano Ronaldo gesehen haben. Wir standen unten vorm «Plaza», als wir ihn plötzlich hinter der Scheibe entdeckt haben. Er war beim Essen, aber irgendwann hat er sich umgedreht und uns zugewinkt. Ganz lange. [Online, 20.5.2009, <http://www.kinderbuerobasel.ch/content/was_macht/lobby_oeffentlichkeitsarbeit/documents/eur okids2.pdf>] Er meinte er war essen, und habe die Printausgabe für morgen gelesen! [Online, 20.5.2009, <http://forum.express.de/showthread.php?p=96120>] Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 65] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 2.1 2.2 2.3 3 Debatten 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Planung Aufgabe: 1) Es sollen so viele Verben wie möglich gefunden werden, die den amProgressiv (z. B., ist am Schreiben, war am Essen, wäre am Lesen), die beim-Konstruktion und/oder den Absentiv erlauben. 2) Es sollen möglichst viele Belege zu jedem einzelnen Verb ermittelt werden. Vorgehen: 1) Ausprobieren verschiedener Abfragen (COSMAS II, „Deutsches Referenzkorpus“). 2) Ermittlung der Abfrage, die das beste Verhältnis von Precision zu Recall ergibt. 3) Abschätzung des Aufwands für eine exhaustive Korpusrecherche. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 66] 33 1 Definitionen 1.1 1.2 1.3 2 Begriffe 2.1 2.2 2.3 3 Forschungsablauf 3.1 3.2 3.3 Suchausdruck, hier: &sein am A*en 4 Datentypen 5 Fallstricke 4.1 4.2 5.1 5.2 5.3 5.4 Stichprobe: wahre Positive: 60% falsche Positive: 40% Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 67] 1 Definitionen 1.1 1.2 1.3 2 Begriffe 2.1 2.2 2.3 3 Forschungsablauf 3.1 3.2 3.3 Suchausdruck, hier: &sein am E*en 4 Datentypen 5 Fallstricke 4.1 4.2 Stichprobe: 5.1 5.2 5.3 5.4 wahre Positive: 43% falsche Positive: 57% Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 68] 34 1 Definitionen 1.1 1.2 1.3 2 Begriffe 2.1 2.2 2.3 3 Forschungsablauf 3.1 3.2 3.3 Suchausdruck, hier: &sein am S*en 4 Datentypen 5 Fallstricke 4.1Stichprobe: 4.2 5.1 5.2 5.3 5.4 wahre Positive: 7% falsche Positive: 93% Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 69] 1 Definitionen 1.1 1.2 1.3 2 Begriffe 2.1 2.2 2.3 3 Forschungsablauf 3.1 3.2 3.3 Suchausdruck, hier: &sein am V*en 4 Datentypen 5 Fallstricke 4.1 4.2 5.1 5.2 5.3 5.4 Stichprobe: wahre Positive: 68% falsche Positive: 32% Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 70] 35 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 3 Debatten 2.1 2.2 2.3 4 Abfragen 3.1 3.2 3.3 3.4 3.5 A (35 Lexeme / 129 Treffern, 27 Lexeme pro 100 Positive) E (20 Lexeme aus 72 Treffern, 28 Lexeme pro 100 Positive) V (21 Lexeme aus 71 Treffern, 30 Lexeme pro 100 Positive) S (22 Lexeme aus 493 Treffern, 5 Lexeme pro 100 Positive) abbauen abfahren abflauen abklären abklingen abkühlen abnehmen abrollen abrüsten absterben abtreten analysieren anlaufen arbeiten aufarbeiten aufbrechen aufholen aufräumen aufsteigen aufstocken ausarbeiten ausbluten ausbreiten auseinander -fallen ausgehen ausklingen auslaufen ausloten ausprobieren ausrasten ausräumen ausscheiden ausschneiden aussterben ausziehen … einblasen einfahren einkaufen einreichen einrichten einschlafen einstimmen entstehen erblühen erfrieren erheben erlöschen erodieren errichten ersticken erwachen erzählen essen evaluieren explodieren … säen schaffen schimpfen schlagen schließen schmelzen schreiben schrumpfen schütten schweißen schwinden setzen sich-selbst -zersetzen sichten siechen sieden singen sinken sitzen skaten sondieren sortieren … verblassen verblühen verbluten verdauen verdursten verebben verenden verfallen vergolden verlieren verlöschen verlumpen verrosten 4.1 4.2 4.3 Verblexeme im amProgressiv verrotten verschwimmen verschwinden versiegen versinken verteilen verwelken vorbereiten … Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 71] 1 Definitionen 1.1 1.2 1.3 2 Begriffe 2.1 2.2 2.3 3 Forschungsablauf 3.1 3.2 3.3 Das Netz enger knüpfen: Variante 1 4 Datentypen 5 Fallstricke 4.1 4.2 5.1 5.2 5.3 5.4 Precision: ca 20% Recall: ca. 1300 von x Suchausdruck, hier: am A*en Daneben bin ich am Ausprobieren Die Grippewelle sei offensichtlich am Abklingen … da das spätromantische Oratorium am Aussterben war … Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 72] 36 1 Definitionen 2 Begriffe 1.1 1.2 1.3 3 Forschungsablauf 2.1 2.2 2.3 4 Datentypen 3.1 3.2 3.3 5 Fallstricke 4.1 4.2 Das Netz enger knüpfen: Variante 2 5.1 5.2 5.3 5.4 Precision: ca 50% Recall: ca. 900 von x Suchausdruck, hier: &sein /w5 (am A*en) Techno war gerade am Aufkommen Noch am Abklären sei sie, ob … … wenn man am Arbeiten oder unterwegs ist Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 73] 1 Textkorpora 2 Geschichtliches 1.1 1.2 1.3 3 Debatten 2.1 2.2 2.3 4 Abfragen 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 Vergleich der Ergebnisse der verschiedenen Abfragen Suchausdruck Precision Recall (absolut) Treffer gesamt &sein am A*en 60% 78 130 am A*en 20% 1300 6500 &sein /w5 (am A*en) 50% 900 1800 müssen manuell bearbeitet werden Ergebnis • Manuelle Bearbeitung ist sehr aufwändig. Darum wurde Option 3 ausgeschlossen (zu geringe Precision). Option 1 erbrachte quantitativ ungenügende Belege (zu geringer Recall). Darum wurde nach Option 2 verfahren. • Wir schätzten, dass die Korpussuche plus manuelle Bearbeitung etwa ein bis zwei Personenmonate benötigen würde. (Das hat sich bestätigt.) Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 74] 37 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 3 Debatten 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Der Versuch einer exhaustiven Ausschöpfung eines Korpus ist oft mit einem Dilemma konfrontiert. Strategie „Enges Netz“ Strategie „Weites Netz“ • Suche: nicht restriktiv • Absolute Anzahl wahrer Positive (Recall): hoch • Anteil wahrer Positive (Precision): niedrig • Repräsentativität der Stichprobe: hoch • Arbeitsaufwand: hoch • Suche: sehr restriktiv • Absolute Anzahl wahrer Positive (Recall): niedrig • Anteil wahrer Positive (Precision): hoch • Repräsentativität der Stichprobe: niedrig • Arbeitaufwand: gering Das Dilemma: Eine tendenziell positive Korrelation zwischen der absoluten Menge wahrer Positive und dem Arbeitsaufwand bei der Durchsicht der Treffermenge. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 75] 1 Textkorpora 1.1 1.2 1.3 2 Geschichtliches 3 Debatten 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 4 Abfragen 4.1 4.2 4.3 Ein „Recall“-Problem: Ist das absolute Vorkommen eines sprachlichen Phänomens im Korpus nicht bekannt oder der Recall unter 100%, ist unklar, ob die Recall-Menge repräsentativ für die Gesamtmenge. Beispiel: &sein am A*en Der Suchausdruck kann keine Verlaufsformen mit direktem Objekt finden. Er ist seine Reise am Planen. Sollte es solche Konstruktionen im Korpus geben, ist die RecallMenge nicht repräsentativ für die Syntax des Progressivs in den Korpustexten. Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 76] 38