Korpuslinguistik - Institut für Deutsche Sprache

Transcription

Ringvorlesung “Methoden”, HS 2009
Korpuslinguistik
Stefan Engelberg
(Institut für Deutsche Sprache & Universität Mannheim)‫‏‬
Stefan Engelberg (IDS Mannheim), Mannheim, 4. November 2009 [Folie 1]
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
1 Textkorpora
1.1 Was sind Textkorpora?
Textkorpus: Ein Textkorpus ist eine Sammlung von sprachlichen Äußerungen,
die als Grundlage empirischer linguistischer Untersuchungen dient.
(Im heutigen Gebrauch meist Textkorpus = elektronisches Textkorpus)
Elektronisches Textkorpus: Ein elektronisches Textkorpus ist ein Textkorpus
als digitale Ressource, die mithilfe von Software (Korpusrecherchesoftware) auf
sprachliche Muster hin untersucht werden kann.
1
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Typen von Korpora
Sprachmedium: Korpora geschriebener / gesprochener Sprache
Geltungsbereich: Referenzkorpora (für eine Sprache in ihrer Gesamtheit) /
Spezialkorpora
Sprecherkompetenz: Lernerkorpora / Korpora zum Erstspracherwerb, …
Korpusaufbereitung: (grammatisch) annotierte vs. nicht-annotierte
Korpora
Sprachstadium: historische Korpora / Korpora der Gegenwartssprache
Sprachenanzahl: einsprachige Korpora / Parallelkorpora, Vergleichskorpora
Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Deutsches Referenzkorpus (Institut für Deutsche Sprache): fast 4.000
Mio. Textwörter; Zeitungen, Belletristik, Sachtexte, …, ab 1950
enthaltene
Einzelkorpora
(Ausschnitt)
2
1 Definitionen
1.1 1.2 1.3
2 Begriffe
2.1 2.2 2.3
3 Forschungsablauf
3.1 3.2 3.3
4 Datentypen
5 Fallstricke
4.1 4.2
5.1 5.2 5.3 5.4
Konkordanz zu dem
Lexem Zylinder
https://cosmas2.ids-mannheim.de/cosmas2-web
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
DWDS-Kernkorpus
(Berlin-Brandenburgische
Akademie): 100 Mio.
Textwörter; Zeitungen,
Belletristik, Fachtexte,
gesprochene Sprache;
Texte ab 1900
Kookkurrenzanalyse zu
blond
http://www.dwds.de
3
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Dortmunder CHATKorpus: Korpus aus
140.000 Chat-Beiträgen
mit ca. 1 Mio. Textwörtern.
Korpuszusammensetzung
(Ausschnitt)
http://www.chatkorpus.tu-dortmund.de/
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
TiGer-Korpus (Potsdam,
Stuttgart, Saarbrücken); 0,9
Mio. Textwörter; Sätze mit
grammatischen Strukturbeschreibungen (Treebank /
Baumbank).
Darstellung einer
Satzstruktur im TiGer-Korpus
unter TiGer-Search
Aus: Noah Bubenhöfer: Einführung in die Korpuslinguistik,
<http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=weitere_tiger.html>
4
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
FALKO (Humboldt-Univ. Berlin):
fehlerannotiertes Lernerkorpus DaF.
Beispiel für Fehlerannotation
http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
… und noch einige (zumindest in Teilen) frei verfügbare Korpora
des Deutschen
Historisches Korpus am IDS: ca. 60 Mio. Textwörter (wachsend),
Zeitungen, Bellestristik, Sachtexte, …, 17.-20. Jh.
ZEIT-Korpus (Berlin-Brandenburgische Akademie); 448 Mio. Textwörter;
Texte aus der ZEIT seit 1946.
Archiv für Gesprochenes Deutsch (Institut für Deutsche Sprache);
gesprochene Sprache ca. 8000 Interaktionen, Interviews, Monologe,
Erzählungen, Beratungsgespräche, Diskussionen.
Schweizer Textkorpus (Universität Basel): 20 Mio. Textwörter,
Zeitungsartikel, Werbung, Formulare, Anleitungen, Ratgeber, populäre
Fachliteratur, Jugend- und Trivialliteratur, Belletristik etc.
Vgl. auch die Übersichten in: Lemnitzer, Lothar, and Heike Zinsmeister. Korpuslinguistik. Eine
Einführung. Tübingen: Narr, 2006. / Scherer, Carmen: Korpuslinguistik. Heidelberg: Winter, 2006.
5
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
1 Textkorpora
1.2 Wo werden Textkorpora eingesetzt?
Korpora werden bei verschiedenen sprachwissenschaftlichen Aufgaben verwendet:
Theoretische Linguistik: von der Überprüfung von Hypothesen bis zur
automatischen Ermittlung grammatischer Regularitäten.
•
•
•
•
•
•
Ermittlung von Wortstellungsregularitäten
Berechnung der Produktivität von Wortbildungsmorphemen
Überprüfung der formalen und inhaltlichen Varianz von „festen“ Wendungen
Untersuchung der Praxis der Getrennt- und Zusammenschreibung
Ermittlung der Valenzvarianz von Verben
…
Grammatikographie: korpusbasierte Erstellung von deskriptiven und
Lernergrammatiken einer Sprache.
• Anführung von Korpusbelegen für grammatische Strukturen
• Ermittlung der Häufigkeit und Verteilung von grammatischen Strukturen
• …
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Lexikographie: korpusbasierte Erstellung von Wörterbüchern.
•
•
•
•
•
•
•
Ermittlung von Worthäufigkeiten
Bestimmung von festen Wortverbindungen
Ermittlung typischer Verwendungskontexten
Sammlung authentischer Korpusbelege
Ermittlung von Neologismen, Archaismen und Wortgebrauchsverläufen
Einbindung von Korpora in elektronische Wörterbücher als Textressource
…
Computerlinguistik: Unterstützung computerlinguistischer Verfahren und
Unterstützung der Korpuslinguistik durch computerlinguistische Verfahren.
•
•
•
•
•
•
automatisches Textverstehen
Ressource für Information Retrieval
automatische Annotation
Named-entity-Erkennung
Regellernen auf Trainingskorpora
…
6
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Fremdsprachenunterricht: „Authentifizierung“ und Relevanzgesteuertheit
von Lehrmaterialien.
•
•
•
•
•
Analyse von Lernerfehlern
Ermittlung gebrauchshäufiger Phänomene
authentische Belege für Sprachverwendung
Korpora im Klassenraum
…
Übersetzung: übersetzungswissenschaftliche Untersuchungen.
• Überprüfung von Übersetzungsstrategien in Parallelkorpora
• Ermittlung von Übersetzungsäquivalenten
• …
Scherer, Carmen (2006): Korpuslinguistik. Heidelberg: Winter, 2006.
Lemnitzer, Lothar & Heike Zinsmeister (2006): Korpuslinguistik. Eine Einführung. Tübingen: Narr.
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
1 Textkorpora
1.3 Warum benutzt man Textkorpora?
Grund 1: Authentizität
Textkorpora spiegeln natürliche Sprache in einer natürlichen (nicht
metasprachlichen) Äußerungssituation wider.
Probleme mit Beispielen, die von Linguisten / Lexikographen /
Lehrwerkproduzenten selbst erzeugt und/oder beurteilt werden:
• Was in metasprachlichen Betrachtungen als
unakzeptabel beurteilt wird, spiegelt nicht die
tatsächlichen Gebrauchspräferenzen wider.
a) Ich war die Unterlagen am
Durchsehen.
• Dialektale oder soziolektale Aspekte des
eigenen Sprachgebrauchs werden oft nicht
erkannt.
b) Ich trink mir mal ein Bier.
• Bei Beispielen, die die eigene Theorie stützen,
ist der Linguist oft großzügig mit seinem
Grammatikalitätsurteil.
7
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
3 Debatten
2.1 2.2 2.3
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Grund 2: Varianz
Textkorpora dokumentieren die Varianz und Vielfalt sprachlicher Phänomene.
Grube: ... wer andern eine ~ gräbt,
fällt selbst hinein (Sprichw.) …
Wahrig, Gerhard: Deutsches Wörterbuch. Gütersloh,
München: Bertelsmann 1975.
a) Er, der normalerweise anderen eine Grube gräbt, wurde nun selbst voll erwischt.
Bei der Moderation zur neuen SAT.1-Naturreihe "Weltgeschichte des Tierfilms" (Start
im November) am Originalschauplatz in Zaire wurde Fritz Egner plötzlich von einem
riesigen Gorilla-Mann attackiert.
b) Und Fairneß wird auf dem Fairway großgeschrieben. Wer andern ein Loch gräbt,
fällt selbst hinein. Diese Warnung wiederholt Golflehrer Claes Fellbom, der auf dem
Landestheatergrün Regie führt, oft.
c) Elfriede Jelinek würdigte einen bedeutenden Dichter, der von genau den Leuten
angegriffen werde, die in 1000 Jahren von der deutschen Sprache nicht das verstehen
würden, was Artmann im kleinen Finger habe. Gerhard Rühm ließ in einer
Grußbotschaft wissen "Wer Artmann eine Grube gräbt, fällt selbst hinein".
d) Nun, die Ruhe vor dem Sturm gibt es ja in ihrer speziellen Form nur dann, wenn die
entsprechend genommene Rache tatsächlich süß ist, im gleichen Moment der rollende
Stein kein Moos ansetzt, die Blinde im Bett wirklich der Taube auf dem Dach
vorgezogen wird und man anschließend einer anderen Person eine Grube
gräbt, letztendlich jedoch selbst das Schwein ist!
https://cosmas2.ids-mannheim.de/cosmas2-web
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Grund 3: Maschinenlesbarkeit
Die Maschinenlesbarkeit ermöglicht eine Ausweitung und Ökonomisierung
umfangreicher Datenanalysen.
• Bearbeitung großer Textmengen in kurzer Zeit
• Vielfältige Such- und Analysemöglichkeiten
• Sortierung und Klassifikation großer Datenmengen
<Online am 3.11.2009: http://www.idsmannheim.de/kl/projekte/korpora/archiv.html#Umfang>
8
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Grund 4: Berechenbarkeit
Die maschinelle Bearbeitung in Verknüpfung mit geeigneten
Korpusanalyseverfahren erlaubt es, quantiative Verfahren der Datenerhebung
auf einem großen Datenbestand durchzuführen.
•
•
•
•
•
•
Lexikalische Frequenzanalysen
Zeitverlaufsanalysen des Sprachgebrauchs
Kookkurrenzanalysen
Produktivitätsberechnungen
Analysen regionaler Verteilung von Phänomenen
…
1 Textkorpora
1.1 1.2 1.3
Wortformen
-typ
2 Geschichtliches
2.1 2.2 2.3
zugehörige
Wortformen
prozentualer
Anteil
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Beispiel 1: Wortfrequenzen
DSAv = Deutsches Spracharchiv des
Instituts für Deutsche Sprache (Korpora
gesprochener Sprache). <Online am
3.11.2009 http://dsav-wiss.idsmannheim.de/DSAv/WFTOP100.HTM>.
9
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Beispiel 2: Zeitverlaufsgraphiken
Veränderungen in der Gebrauchshäufigkeit des Wortes Frack von
1900-2000 (im DWDS-Kernkorpus)
<Online am 3.11.2009 http: www.dwds.de>.
Veränderungen in der Gebrauchshäufigkeit
des Wortes Spam von 1990-2009 (im
Deutschen Referenzkorpus)
<Online am 3.11.2009 http:
www.owid.de/Neologismen/index.html>.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Beispiel 3: Kookkurrenzanalyse
Kookkurrenzanalyse:
Feststellung von
Vorkommenskorrelation
en, insbesondere, ob ein
Wort A mit einem Wort
B häufiger zusammen
vorkommt als es eine
Zufallsverteilung von A
und B erwarten ließe.
Kookkurrenzanalyse zu schwarz
(im DWDS-Kernkorpus)
<Online am 3.11.2009 http: www.dwds.de>.
10
1 Definitionen
1.1 1.2 1.3
2 Begriffe
3 Forschungsablauf
2.1 2.2 2.3
3.1 3.2 3.3
4 Datentypen
5 Fallstricke
4.1 4.2
5.1 5.2 5.3 5.4
Kookkurrenzanalyse zu abziehen
Typische syntagmatische Muster, in denen die Verbindungen vorkommen, z. B. vom Einkommen abziehen
Sekundäre Kookkurrenzpartner zu
abziehen + Einkommen (hier: steuerpflichtigen, steuerbaren, versteuernden)
Primäre Kookkurrenzpartner
zu abziehen (hier: Einkommen)
Stärke der Verbindung
zwischen den beiden
Wörtern (hier: 796)
Belica, Cyril (2008): Kookkurrenzdatenbank
CCDB - V3.2. <http://corpora.idsmann-heim.de/ccdb/>.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
2 Highlights aus der Geschichte der Korpuslinguistik
2.1 Prä-elektronische Korpora
• 4. Jh. v. Chr.: Vedisches Korpus als Grundlage der Sanskrit-Grammatik
Pāņinis.
• spätes 16. Jh.: Erster Gebrauch von authentischen Belegen in Wörterbüchern
(vgl. Meyer 2008).
• 1775: Popularisierung von authentischen Belegen durch Johnsons „Dictionary
of the English Language“ (150.000 angeführte Belege; Zusammensetzung des
Korpus nicht bekannt).
• Mitte 19. Jahrhundert: Vorarbeiten zum Deutschen Wörterbuch; Sammlung
von 600.000 Belegen.
• ab spätem 19. Jh.: Erste Auflage des Oxord English Dictionary (publ. 1928),
basierend auf einer Sammlung von 4 Mio. Belegen (vgl. Meyer 2008).
Grimm, Jacob & Wilhelm Grimm (1854). Deutsches Wörterbuch. Bd. 1.: A – Biermolke. Leipzig: Hirzel.
Jespersen, Otto (1909-1949), A Modern English Grammar on Historical Principles. London: George.
Johnson, Samuel (1755): A Dictionary of the English Language. 2 vol. London: Strahan.
Meyer, Charles F. 2008. Pre-electronic corpora. In: A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An
International Handbook. Teilband 1. Berlin, New York: de Gruyter, 1-14.
11
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
• frühes 20. Jh.: Jespersens korpusbasierte englische Grammatik: „With
regard to my quotations, which I have collected during many years of both
systematic and desultory reading, I think that they will be found in many
ways more satisfactory than even the best made-up examples, for instance
those in Sweet’s chapters on syntax.“
• 1930er Jahre: englischsprachiges Korpus (18 Mio. Textwörter) als
Grundlage für Unterrichtsmaterialien (Thorndike & Lorge 1944).
• 1950er Jahre: Korpus von Transkriptionen gesprochener Äußerungen (0,25
Mio. Textwörter) als Grundlage einer Grammatik (Fries 1952).
• frühe 1960er Jahre: Erstellung eines bezüglich Textsorten und Medium
(gesprochen, geschrieben) ausgewogenen Korpus als Grundlage des „Survey
of English Usage “ (1 Mio. Textwörter, ergänzt durch Erhebungen von
Sprecherurteilen; vgl. Quirk 1974).
Fries, Charles Carpenter (1952), The Structure of English. New York: Harcourt Brace.
Jespersen, Otto (1909-1949), A Modern English Grammar on Historical Principles. London: George.
Quirk, Randolph (1974), The Linguist and the English Language. London: Edward Arnold.
Thorndike, Edward L. and Lorge, Irving (1944): The Teacher's Word Book of 30,000 Words. Teachers
College, Columbia University, New York.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
2.2 Elektronische Korpora
• 1961: Brown Corpus (1 Mio. Textwörter; geschriebenes amerikanisches
Englisch, verschiedene Textsorten; vgl. Johansson 2008).
• 1967: Mannheimer Korpus I als Grundlage des Deutschen Referenzkorpus
(IDS, 2,2 Mio. Textwörter; vgl. Kupietz & Keibel 2008).
• frühe 1970er: LIMAS-Korpus (gut 1 Mio. Textwörter; Bonn, Regensburg;
geschriebenes Deutsch).
• 1970er: Lancaster-Oslo-Bergen-Corpus (1 Mio. Textwörter; geschriebenes
britisches Englisch).
• 1970er: Wortart-Tagging des Brown-Korpus (vgl. Johansson 2008).
Johansson, Stig 2008. Some aspects of the development of corpus linguistics in the 1970s and 1980s. In:
A. Lüdeling & M. Kytö (eds.). Corpus Linguistics. An International Handbook. Teilband 1. Berlin, New
York: de Gruyter, 33-53.
Kupietz, Marc & Holger Keibel 2008. The German Reference Corpus (DeReKo) as a basis for empirical
linguistic research. Working Papers in Corpus-based Linguistics and Language Education (Tokyo
University of Foreign Studies) 3.
12
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
• frühe 1980er: Birmingham-Korpus (20 Mio. Textwörter, geschrieben &
gesprochen); führt im Rahmen des Collins-Cobuild-Projekts zum ersten strikt
auf einem spezifischen elektronischen Korpus basierenden Wörterbuch
(Sinclair 1987; vgl. Renouf 2007).
• 1991: das WWW als dynamisches, ungesteuertes, durchsuchbares
Textrepositorium (seit den späten 1990ern für linguistische Zwecke genutzt).
• 2000: Deutsches Referenzkorpus (IDS; über 1.000 Mio. Textwörter;
größtenteils Schirftsprache).
• 2003: DWDS-Kernkorpus (100 Mio. Textwörter; Wortarten-Tagging; verteilt
über Textsorten und die 10 Dekaden des 20. Jhs.; vgl. Geyken 2007).
• 2010: Deutsches Referenzkorpus (IDS); über 4.000 Mio. Textwörter ?
Geyken, Alexander 2007. The DWDS corpus: A reference corpus for the German language of the 20th
century In: C. Fellbaum (ed.), Idioms and Collocations: Corpus-based Linguistic and Lexicographic
Studies (Research in Corpus and Discourse). London, New York: Continuum, 23-40.
Renouf, Antoinette 2007. Corpus Development 25 Years on: from Super-Corpus to Cyber-Corpus. In: R.
Facchinetti (ed.), Corpus Linguistics 25 Years on. Amsterdam, New York: Rodopi, 27-49.
Sinclair, John (Hg.): Collins COBUILD English Language Dictionary. London, Glasgow: Collins, 1987.
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
2.3 Korpusanalyseverfahren
Konkordanzen
• 13. Jh.: Indizes und Konkordanzen zur Bibel seit dem 13. Jahrhundert (Hugo
von St. Charo, vgl. Meyer 2008).
• 18. Jh.: Hervorhebung des Nutzens von Konkordanzen für semantische
Studien; sie werden genutzt „to compar[e] the several significations of the
same word“ (Cruden 1737); Ayscoughs Shakespeare-Index bezweckte
ebenfalls „to point out the different meanings to which the words are applied“
(vgl. Stubbs 2009).
• 1950er Jahre: elektronische KWICs zur Darstellung von Konkordanzen
werden entwickelt (vgl. Stubbs 1990:18).
Ayscough, S. (1790): An Index to the Remarkable Passages and Words Made Use of by Shakespeare;
Calculated to Point out the Different Meanings to Which the Words are Applied. Lodnon: Stockdale.
Cruden, A. (1737): A Complete Concordance to the Holy Scriptures. Londin: Tegg.
Stubbs, Michael (2009): Technology and phraeology. With notes on the history of corpus linguistics. In: U.
Römer & R. Schulze (eds.). Exploring the Lexis-Grammar Interface. Amsterdam, Philadelphia:
Benjamins, 15-31.
13
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Frequenzanalysen
• 1890er Jahre: Große Erhebung zu Wortfrequenzen des Deutschen mit dem
Ziel der Entwicklung einer verbesserten Kurzschrift (Korpus aus über 300
Büchern mit 11 Mio. Textwörtern; Frequenzwörterbuch; Kaeding 1897/1898,
vgl. auch Aichele 2005).
• 1952: Gebrauch von korpusbasierten Frequenzinformationen bei der
Grammatikschreibung (Fries 1952).
• 1975: erstes auf elektronischen Korpora basierendes Frequenzwörterbuch
(Allén et al. 1975).
Aichele, Dieter: Quantitative Linguistik in Deutschland und Österreich. In: Reinhard Köhler, Gabriel
Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein
internationales Handbuch. de Gruyter, Berlin/ New York 2005, S. 16-23
Allén, Sture et al.: Nusvensk frekvensordbok. Stockholm: Almqvist & Wiksell.
Kaeding, Friedrich Wilhelm (1897/1898Hrsg.): Häufigkeitswörterbuch der deutschen Sprache 1, 2.
Selbstverlag, Berlin-Steglitz 1897/98. (Teilreprint in: Grundlagenstudien aus Kybernetik und
Geisteswissenschaft 4/ 1963. Beiheft)
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Kookkurrenzen
• Ende der 1950er: an Auftretenswahrscheinlichkeiten geknüpftes
Kollokationsverständnis: „You shall know a word by the company it keeps.
[…] The habitual collocations in which words […] appear are quite simply the
mere word accompaniment […]. The collocation of a word [… is …] mutual
expectancy. […] Collocations are actual words in habitual company.“ (Firth
1957: 11ff, vgl. Stubbs 2009).
• Um 1970: erste korpusbasierte Kollokationsstudien durch John Sinclair
(veröffentlicht als Sinclair 2004).
• 1970er: Entwicklung von Maßen zur Berechnung des Kolloktionsverhaltens
von Wörtern (Allén et al. 1975).
• 1995: öffentlicher, internetbasierter Zugriff auf die Kookkurrenzanalyse des
IDS.
Firth, J. R. (1957): A synopsis of linguistic theory 1930-1955. Transactions of the Philological Sociaty.
Special Volume: Studies in Linguistic Analysis, 1-32.
Sinclair, John (2004): New evidence, new priorities, new attitudes. J. Sinclair (ed.): How to Use Corpora in
Language Teaching. Amsterdam, Benjamins, 271-299.
14
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
3 Debatten um …
3.1 … Repräsentativität
Häufiger Wunsch:
»Das Textkorpus soll repräsentativ sein. Nur dann sind Generalisierungen von
den Ergebnissen einer Korpusstudie auf die Sprache insgesamt möglich.«
Verbreitete Auffassung von Textkorpora (nach McEnery, Xiao & Tono 2006):
„[…] a corpus is a collection of (1) machine-readable (2) authentic texts
(including transcripts of spoken data) which is (3) sampled to be (4)
representative of a particular language or language variety.“
Was ist Repräsentativität?
Eine Datenerhebung (z.B. eine Korpuszusammenstellung) ist repräsentativ,
wenn sie Aussagen über die Grundgesamtheit zulässt.
McEnery, Tony, Richard Xiao & Yuko Tono (2006): Corpus-Based Language Studies. An Advanced Resource
Book. Milton Park: Routledge.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Repräsentativität muss bestimmt werden
• hinsichtlich der Grundgesamtheit, über die Aussagen gemacht werden sollen.
• hinsichtlich des Merkmals, für das die Datenerhebung repräsentativ sein soll.
Beispiel: Ist diese Gruppe
junger deutscher Mitglieder
der Verfahrenspflegestelle
RASYS (als Stichprobe)
repräsentativ für die deutsche
Bevölkerung hinsichtlich des
Merkmals Geschlecht?
NEIN
Verteilung des Merkmals in der Stichprobe:
22,2/77,8
Verteilung des Merkmals in der Grundgesamtheit:
51,1/48,9
♀/♂
♂
♀/♂
♂
Bildquelle: <Online am 3.11.2009: http://www.fhr.nrw.de/informationstechnik/rasys/index.php>
15
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Noch ein Beispiel: Ist die Verteilung von Korpustexten im DWDSKernkorpus repräsentativ für die Verteilung von Textsorten in „der
deutschen Sprache“?
???
DWDS-Kernkorpus:
• ein „nach Textsorten ausgewogenes Corpus des gesamten 20. Jahrhunderts “
• 100 Millionen Textwörter (tokens) in 79.830 Dokumenten
Verteilung von Textsortenmerkmalen im DWDS-Kernkorpus (der Stichprobe):
Schöne Literatur
Journalistische Prosa
Fachprosa
Gebrauchstexte
(Transkribierte) Texte gesprochener Sprache
ca.
ca.
ca.
ca.
ca.
26%
27%
22%
20%
5%
Verteilung von Textsortenmerkmalen in der Grundgesamtheit:
A
B
…
ca. ?%
ca. ?%
ca. ?%
<Online am 3.11.2009: http://www.dwds.de/textbasis/kerncorpus>
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Was tun?
Option 1: Das große, vielfältige Korpus (Kupietz & Keibel 2009)
• große Menge an Texten (plus Stratifizierungsstrategien)
• keine spezifische (auf „Repräsentativität“ abzielende) Verteilung
• Optionen für den Nutzer, eigene (seinen Vorstellungen von
„Repräsentativität“ entsprechende) Subkorpora daraus zusammenzustellen
Option 2: Das „ausbalancierte“ Korpus (McEnery, Xiao & Tono 2006)
• Texte möglichst vieler verschiedener Genres (Reportage, Kochrezept,
Streitgespräch, Roman, …)
• innerhalb eines Genres Texte aus möglichst verschiedenen Quellen
• Texte mit möglichst vielen verschiedenen Themen (Sport, Religion, Natur,
Kunst)
• gesprochene und geschriebene Äußerungen
• mediale Vielfalt (Bücher, Zeitschriften, Gespräche, Internettexte, …)
Kupietz, Marc & Holger Keibel (2009): The Mannheim German Reference Corpus (DeReKo) as a basis for
empirical linguistic research. In: Working Papers in Corpus-based Linguistics and Language Education,
No. 3 (pp. 53-59). Tokyo: Tokyo University of Foreign Studies (TUFS). <Online am 3.11.2009:
http://www.ids-mannheim.de/kl/projekte/korpora/>
16
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
3 Debatten um …
3.2 … Annotationen
Metadaten (Daten über Daten): Daten zum Korpustext (z. B. Autor,
Entstehungsdatum, Titel, Publikationsort, …)
Annotationen: linguistische Beschreibungen von Ausdrücken in Korpora (z. B.
Wortartmarkierungen an allen Wörtern)
Pro Annotationen
• (je nach Art der Annotation) Suche nach bestimmten lexikalischen Typen
möglich
• (je nach Art der Annotation) Suche nach abstrakten syntaktischen Mustern
möglich
• …
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Beispiel 1: Annotationen in einem
historischen Korpus (GerManC)
Kodierter Korpustext (im XML-Format) aus GerManC
(deutsches Zeitungskorpus 1650-1800)
Annotationsbeispiel: <s> Satz </s>
<foreign> Fremdwort </foreign>
<rs> Name </rs>
17
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Beispiel 2: Wortartenannotation in den
DWDS-Korpora
• Abfrage: "üben #5 aus
with $p=PTKVZ"
• Gesucht werden: alle
Sätze, die eine Abfolge von
üben plus Verbpartikel aus
im Abstand von bis zu fünf
Wörtern enthalten
• Beispielergebnis: ... übt er
ein Wahlamt aus ...
• Abfrage:"$p=ADJA $p=NN
"
• Gesucht werden: alle
Sätze, die ein attributives
Adjektiv gefolgt von einem
Nomen enthalten
• Beispielergebnis: … großes
Haus …
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Beispiel 3: Annotationen in einer Baumbank (TiGer-Korpus)
• Abfrage: (#n:[cat"S"] > [pos"PTKVZ"]) & (#n > [pos"VVFIN"])
• Gesucht werden: alle Sätze, in denen ein S-Knoten ein finites Verb (VVFIN) und eine
Verbpartikel (PTKVZ) dominiert
• Beispielergebnis: ... übt er ein Wahlamt aus ...
Aus: Noah Bubenhöfer: Einführung in die Korpuslinguistik. <Online am 3.11.2009,
http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=weitere_tiger.html>
Meurers, W. Detmar & Stefan Müller (2009): Corpora and syntax. In: A. Lüdeling & M. Kytö (eds.). Corpus
Linguistics. An International Handbook. Teilband 2. Berlin, New York: Mouton de Gruyter, 920-933.
18
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Kontra Annotationen:
• Die automatischen, halbautomatischen oder manuellen Annotationen sind oft
fehlerhaft (= entsprechen nicht den Annotationsvorschriften).
• Die dem Annotationsschemata zugrundeliegenden linguistischen Annahmen
sind selten unstrittig. [Was ist eine „Verbpartikel“?]
• Annotationsfehler oder Schwächen des Annotationssystems konzentrieren sich
im Bereich schwieriger (und deswegen besonders untersuchungswürdiger)
Phänomene.
• Die Annotation „verunreinigt“ die Daten: Die Theorie, die wir durch die
empirische Analyse erst gewinnen wollen, ist bereits durch die in den
Annotationen manifesten linguistischen Vorannahmen präjudiziert.
Meurers, W. Detmar & Stefan Müller (2009): Corpora and syntax. In: A. Lüdeling & M. Kytö (eds.). Corpus
Linguistics. An International Handbook. Teilband 2. Berlin, New York: Mouton de Gruyter, 920-933.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
3 Debatten um …
3.3 … Korpusgesteuertheit
Korpusbasierte Linguistik (corpus-based
linguistics): Korpusdaten werden genutzt, um
linguistische Theorien zu testen, zu widerlegen oder zu
exemplifizieren.
Korpusgesteuerte Linguistik (corpus-driven
linguistics): Linguistische Theorien werden unter
Vermeidung theoretischer Vorannahmen unmittelbar
aus den Daten gewonnen.
19
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Parameter zur Unterscheidung von
Korpusbasiertheit und Korpusgestütztheit
corpus-driven
corpus-based
stark induktiv
eher deduktiv
Wissenschaftsmethodik
groß, unbalanciert,
unannotiert
Korpora
sprachliche Muster
unabhängig von
Sprachebenen
Forschungsfokus
spezifische Phänomene
in Syntax, Semantik,
etc.
Status
Korpuslinguistik als
Methode / empirisches
Verfahren
Korpuslinguistik als
Disziplin (bzw.
Paradigmenwechsel)
balanciert,
annotiert
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
3 Debatten um …
3.4 … Web als Korpus
20
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Verhältnis Korpus - WWW
(A) Web als Korpus
(i) Verwendung einer Suchmaschine (z. B. Google, AltaVista)
(ii) Verwendung einer Web-als-Korpus-Analysesoftware (z. B. WebCorp,
KWICFinder); basiert auf Suchmaschinen
(B) Web im Korpus
(i) Automatischer Download von WWW-Seiten mit anschließender Bereinigung
und Aufbereitung der Daten und Überführung in ein Korpus-Textformat
(ii) Selektive, kriteriengeleitete Erstellung eines Korpus aus WWW-Seiten
Lüdeling, Anke, Stefan Evert & Marco Baroni 2007. Using Web Data for Linguistic Purposes. In: M.
Hundt, N. Nesselhauf & C. Biewer (eds.). Corpus Linguistics and the Web. Amsterdam,. New York:
Rodopi, 7-24.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Pro WebAlsKorpus:
• Das WWW ist die größte und aktuellste Sammlung sprachlicher
Äußerungen in elektronischer Form.
• Aufgrund der Größe des WWW finden sich auch für seltene Phänomene
hinreichend viele Belege.
• Im WWW sind Textgenres, Sprachstile, Sprachvarianten und
Themenbereiche vertreten, die in bestehenden Korpora kaum repräsentiert
sind.
21
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Abfrage mithilfe von KWICFinder:
Konkordanz zu abziehen auf der
Basis von Webseiten, die im Titel das
Word „Chat“ enthalten.
Ziel: Aufspüren von
Wortverwendung, die lexikographisch
schlecht erfasst sind.
KWICFinder: <http://www.kwicfinder.com/KWiCFinder.html>
1 Definitionen
1.1 1.2 1.3
2 Begriffe
2.1 2.2 2.3
3 Forschungsablauf
3.1 3.2 3.3
4 Datentypen
5 Fallstricke
4.1 4.2
5.1 5.2 5.3 5.4
22
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Beispielsätze aus der Konkordanz
a. Ich bin und bleibe stolzer Tokio Hotel Fan wer damit ein problem hat der soll
abziehen.
b. Die Leute die mich kennen, wissen, daß ich eigentlich eine ganz Friedfertige
und Versöhnliche bin. Aber was hier einige Leute abziehen ... echt
therapiebedürftig!!!
c. Das Leben geht weiter und dein Schwarm wird nie erfahren, dass du ihn hier
eingetragen hast. Andere Eltern haben auch hübsche Kinder, und du kannst
bei uns so viele Schwärme eintragen, wie du möchtest. Ist das nicht toll - du
musst keine Show abziehen, du riskierst keinen Korb, du trägst einfach nur
deinen Schwarm ein und wartest ab!
d. Leider kannst so'n Scheiß ja nich wirklich abziehen weil der Scheiß überall in
deine Unterlagen kommt...
e. Die Suppe mit Salz abschmecken, mit verquirltem Eigelb abziehen und die
Spargelstückchen hineingeben.
f. ich finde auch den preis etwas niedrig und der ebayer hat auch nur 2
bewertungen,habe deshalb ihn gefragt,ob wir das geschäft über den
treuhandservice abwickeln können.jetzt warte ich auf seine antwort.nicht das
der mich abziehen will,nur weil vielleicht zu wenig für das board geboten
wurde.nicht mein problem.
g. Soll der Lüfter kühle Luft da rein pusten (ich weis nicht ob sich die Luft dann
staut), oder die heiße Luft abziehen?
h. Bieretiketten kann mein einfach von der Flasche abziehen.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Kontra WebAlsKorpus:
• Quantitative Analysen im Web sind problematisch, weil die
Zusammensetzung des Web nicht bekannt ist.
• Im Web ist oft eine große Anzahl von Duplikaten eines Dokuments
vorhanden.
• Die ständige Veränderung des Webs macht eine Replizierbarkeit von
Abfrageergebnissen schwierig.
• Einzelbelege als Evidenz für ein Phänomen sind problematisch; sie könnten
von Nichtmuttersprachler sein, ein unbeabsichtigter Fehler eines
Muttersprachlers sein, eine automatisch generierte Äußerung sein (Schütze
2009).
• Der Anteil an unbeabsichtigten Fehlern ist im Web besonders hoch. (Wie
oft muss ein Phänomen im WWW belegt sein, um schließen zu können,
dass es ein Phänomen des Deutschen ist?)
Schütze, Carson T. 2009. Web searches should supplement judgments, not supplant them. Zeitschrift
für Sprachwissenschaft 28(1): 151-156.
23
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Google-Abfrage:
>brahcte<
8990 Treffer
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Forderungen:
• Die Anführung von Einzelbelegen aus dem WWW als Evidenz für ein
Phänomen muss immer mit muttersprachlichen Sprecherurteilen
abgesichert werden (Schütze 2009).
• Quantitative Analysen im WWW (z.B. Google-Trefferangaben) sind zu
heuristischen Zwecken nutzbar. Für argumentationsrelevante Daten greift
man besser auf WebImKorpus-Korpora zurück.
Schütze, Carson T. 2009. Web searches should supplement judgments, not supplant them. Zeitschrift
für Sprachwissenschaft 28(1): 151-156.
24
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
3 Debatten um …
3.5 … Evidenz
Das Problem mit der negativen Evidenz: Korpora liefern keine negative
Evidenz. Aus dem Nichtvorkommen eines Phänomens in einem gegebenen
Korpus kann nicht auf das Nichtvorkommen des Phänomens in der Sprache
insgesamt geschlossen werden.
• Traditionell basieren linguistische Argumentationen stark auf dem
Gegenüberstellen des „Grammatischen“ und des „Ungrammatischen“. Das
wird durch Korpora nicht unterstützt.
• Korpora erlauben es dagegen, das Gebräuchliche vom Ungebräuchlichen zu
unterscheiden.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Das Problem mit der positiven Evidenz: Korpora liefern auch keine
eindeutige positive Evidenz. Aus dem Vorkommen eines Phänomens im
Korpus kann nicht ohne weitere Überprüfung auf das Vorkommen in der
Sprache geschlossen werden.
Seltene Phänomene: Was bedeutet es , wenn Phänomene „relativ selten“ in
Korpora vorkommen?
Möglichkeit 1 (Fehler): Das seltene Auftreten eines Phänomens kann
darauf zurückzuführen sein, dass es sich um einen Fehler handelt.
•
•
•
•
•
Rechtschreibfehler
Versprecher
Druckfehler
unbemerkter Satzplanungsfehler
unbemerkter Wortauslassungsfehler
25
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
3 Debatten
2.1 2.2 2.3
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Möglichkeit 2 (Varietätenspezifik): Das seltene Auftreten eines
Phänomens kann darauf zurückzuführen sein, dass das Genre / die Varietät /
die mediale Variante, dem das Phänomen zuzuordnen ist, im Korpus nicht /
kaum vertreten ist.
Frequenz von Redewendungen im Deutschen Referenzkorpus:
einen „Bären aufbinden“
„auf Draht“ sein
auf die „Pauke hauen“
einen „Krebs fangen“
175
611
484
4
a) Manuel Morbitzer dagegen hatte Pech. Er führte sicher bis kurz vor dem Ziel, fing
dann jedoch einen kapitalen Krebs. "Einen Krebs fangen" nennt man es, wenn sich
das Ruderblatt zu früh dreht und so statt aus dem Wasser herauszukommen
schlagartig in die Tiefe gezogen wird. Morbitzer kenterte zwar nicht, musste sich so
aber mit Platz zwei begnügen.
b) Der Hochschulsport setzt erstmals 17 sogenannte Trimmis ein, die es auch Anfängern
ermöglichen, auf einem der länglichen Boote mit Rollsitz zu rudern, ohne bei einem
Fehler ins Wasser zu fallen. Die Boote sind breiter als gewöhnlich und kentern nicht,
wenn ein Ruderblatt unabsichtlich im Wasser abtaucht - auf RuderFachchinesich
nennt man das "einen Krebs fangen".
Die Wendung einen Krebs fangen ist fachsprachlich.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Möglichkeit 3 (Sprachwandel): Das seltene Auftreten eines Phänomens
kann darauf zurückzuführen sein, dass ein aktueller Sprachwandelprozesses
vorliegt (Aufkommen oder Verschwinden des Phänomens).
Vorkommen von Rektionsvarianten von trotz im DWDS-Kernkorpus:
trotz mit Genitiv (z.B. trotz des Geschreis): ca. 91% der Korpusbelege
trotz mit Dativ (z.B. trotz dem Geschrei): ca. 9% der Korpusbelege
„trotz dem“
„trotz des“
Die Dativrektion bei trotz ist seit dem ersten Drittel des 20. Jhs. im Rückgang
begriffen (s. Verlaufsgraphik).
26
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
3 Debatten
2.1 2.2 2.3
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Möglichkeit 4 (Übergeneralisierung): Das seltene Auftreten eines
Phänomens kann darauf zurückzuführen sein, dass eine (nicht ganz
regelkonforme ?) Übergeneralisierung vorliegt.
Vorkommen von Rektionsvarianten von gemäß im DWDS-Kernkorpus:
gemäß mit Dativ (z.B. gemäß dem Prinzip): ca. 98% der Korpusbelege
gemäß mit Genitiv (z.B. gemäß des Prinzips): ca. 2% der Korpusbelege
„gemäß des“
„gemäß dem“
Vermutung: Anpassung durch Übergeneralisierung an eine als stilistisch „feiner“
empfundene Genitivrektion. Ein Sprachwandelphänomen liegt nicht vor (s.
Verlaufsgraphik).
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Möglichkeit 5 (?): Manche Konstruktionen „sind einfach selten“ (vielleicht
aus stilistischen / kontextuellen / referentiellen Gründen).
reden intransitiv
reden resultativ-reflexiv
a) … solange er redet …
d) … er redet sich um Kopf und Kragen …
b) … er weiß, wovon er redet …
e) … wenn er sich in Rage redet …
c) … er redet nicht darüber …
f) … er redet sich selbst stark …
Vorkommen von Konstruktionsvarianten von reden im Deutschen
Referenzkorpus:
intransitiver Gebrauch von reden: ca. 99% der Korpusbelege
resultativ-reflexiver Gebrauch von reden: ca. 1% der Korpusbelege
27
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
3 Debatten
2.1 2.2 2.3
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
4 Suche nach bestimmten sprachlichen Mustern
4.1 Precison & Recall
Suche nach Belegen für ein
bestimmtes sprachliches Phänomen
Formulierung einer Suchabfrage im Rahmen der
Syntax der verwendeten Suchabfragesprache
Überprüfung der Treffermenge nach
den Kritierien „Precison“ & „Recall“
Precison: Anteil der Treffer einer Korpusabfrage, die dem
gesuchten sprachlichen Phänomen entsprechen (= true positives),
an allen Treffern der Abfrage (= true & false positives).
&
Recall: Anteil der Treffer einer Korpusabfrage, die dem gesuchten
sprachlichen Phänomen entsprechen, an allen Belegen für das
sprachliche Phänomen im Korpus.
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Beispiel:
1) Suche nach allen Belegen in Kafkas Kurzprosa, die ein Wort mit dem
Morphem herz enthalten.
2) Suche nach allen Belegen in Kafkas Kurzprosa, die ein Wort mit dem
Morphem lunge enthalten.
Abfrage: Korpusanalyseprogramm
AntConc; Verwendung von regulären
Ausdrücken.
Abfrage1:
*herz*
Abfrage2:
*lunge*
28
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
*herz*
true positives: 31
false positives: 15
Precision: 67% (31/46)
Recall: wahrsch. 100% (46/46)
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
*lunge*
true positives: 8
false positives: 49
Precision: 14% (8/57)
Recall: wahrsch. 100% (8/8)
29
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
3 Debatten
2.1 2.2 2.3
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
4.2 Linearisierung hierarchischer Strukturen
Komplexe sprachliche
Ausdrücke haben gewöhnlich
eine hierarchische Struktur
Die Syntax von Suchabfragesprachen erlaubt (meist nur) die
Suche nach linearen Mustern.
Operationalisierung des hierarchischen
Musters als Ausdruckssequenz mit dem
Ziel: hohe Precision & hoher Recall.
Beispiel:
Für eine Untersuchung zur Valenz von Adjektiven soll korpusbasiert überprüft
werden, ob Adjektive in attributiver, pränominaler Position ihr präpositionales
Komplement links vom Adjektiv realisieren.
(1) das auf ihren Hund stolze Mädchen
(2) dem auf seine Erfolge stolzen Sportler
(3) den auf ihre Performance stolzen Tänzern
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
3 Debatten
2.1 2.2 2.3
4 Abfragen
3.1 3.2 3.3 3.4 3.5
Gesucht werden also
Strukturen wie:
4.1 4.2 4.3
DP
NP
AP
PPauf
NPAkk
Det
das
Pauf/NPAkk
auf
A/PPauf
seinen Hund
N
stolze Mädchen
Kasus- / Numerus- / Genus-Kongruenz
30
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Problem: Das verwendete Korpus (Zeit-Korpus; www.dwds.de) …
• hat Wortarten-Tags
• kat keine Kasus-Tags
• hat keine Phrasenstrukturannotationen (ist also keine Treebank)
Behelfsoperationalisierung:
• Wortarten-Tags nutzen
• Phrasenstruktur durch linearen Ausdruck „behelfsoperationalisieren“
Suchausdruck:
"auf #4 $p=NN #0 stolz #0 $p=NN"
Abfolge ("") von auf (auf), gefolgt im Abstand von bis zu vier Wörtern (#4) von
einem Substantiv ($p=NN), unmittelbar gefolgt (#0) von einer Flexionsform von
stolz (stolz), unmittelbar gefolgt (#0) von einem Substantiv ($p=NN).
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
Die ersten sechs Belege:
+
+
+
–
+
+
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
1954 -- Das Angeln gefällt auch Wolodja, und so gewinnt der Agent schnell das
Vertrauen des schwatzhaften und *auf* seinen berühmten *Vater* *stolzen*
*Knaben*.
1955 -- Hier stellt sich offenbar die Frage, ob wir lieber Sozialversicherte oder innerlich
selbständige (und *auf* ihre *Errungenschaften* *stolze*) *Eigentümer* haben
wollen.
1958 -- Er will damit sagen, daß selbst der *auf* die Exaktheit seiner *Disziplin*
*stolze* *Naturwissenschaftler* heute nicht mehr um die Einsicht herumkommt,
daß er es bei seinen Beobachtungen und Experimenten im strengen Sinne nicht
mehr mit der Natur, sondern mit der der menschlichen Fragestellung ausgesetzten
Natur" zu tun hat, daß also die vom Menschen beobachtete Natur nicht zu trennen
ist von dem Standort des Beobachters und von den Apparaten und Methoden, die er
dabei einsetzt.
1959 -- Nach langen Mühen fand der geplagte Beamte zwei Anwärter, die beide *auf*
*Nachfrage* *stolz* *Kopien* ihrer Diplome von Kairos berühmter Lehr- und
Pflegestätte des muselmanischen Glaubens einsandten.
1965 -- Viele *auf* ihre *Kultur* *stolze* *Musikfreunde* dürften es Kempff hoch
anrechnen, daß er Liszt verfehlt.
1965 -- Immerhin durften wir feststellen und das konnte den Behörden ja nicht
unangenehm sein, daß das chinesische Volk nicht nur unbestritten das an Menschen
reichste und fleißigste, sondern heute das sauberste, zuchtvollste und wohl auch
*auf* seine *Leistungen* *stolzeste* *Volk* ist.
31
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
3 Debatten
2.1 2.2 2.3
S
Syntaktische Struktur
des False Positive
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
VP
V'
V'
PP
NP
die
AdvP
auf Nachfrage
stolz
NP
Kopien
V/NP
einsandten
Person- / Numerus-Kongruenz
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
4.3 Precision versus Recall
Problem 1: In den meisten Fällen können wir den Recall nicht prozentual
bestimmen, weil wir nicht wissen, wieviele Belege für ein sprachliches
Phänomen im Korpus sind.
Problem 2: In den meisten Fällen führt eine Erhöhung der Precision zu
einer Minderung des Recall und eine Erhöhung des Recall zu einer
Minderung der Precision.
Beispiel: Ermittlung geeigneter Suchabfragen durch Berechnung von
Precision und Recall als Vorarbeit einer größeren Korpusstudie.
32
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
4 Abfragen
3.1 3.2 3.3 3.4 3.5
am-Progressiv
Sie ist am Essen.
beim-Konstruktion
Sie ist beim Essen.
Absentiv
Sie ist essen.
4.1 4.2 4.3
„Verlaufsformen“
im Deutschen
Ich bekahm um viertel nach 10 ne SMS mit guten Morgen, ob ich gut
geschlafen hätte etc. Ich rief Ihn dann an und er war am essen. [Online,
20.5.2009, <http://bfriends.brigitte.de/foren/uber-treue-und-luegen-inder-liebe/105192-ich-hasse-ihn.html>]
Doch am allertollsten war es, als wir Cristiano Ronaldo gesehen haben.
Wir standen unten vorm «Plaza», als wir ihn plötzlich hinter der Scheibe
entdeckt haben. Er war beim Essen, aber irgendwann hat er sich
umgedreht und uns zugewinkt. Ganz lange. [Online, 20.5.2009,
<http://www.kinderbuerobasel.ch/content/was_macht/lobby_oeffentlichkeitsarbeit/documents/eur
okids2.pdf>]
Er meinte er war essen, und habe die Printausgabe für morgen gelesen!
[Online, 20.5.2009,
<http://forum.express.de/showthread.php?p=96120>]
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
2.1 2.2 2.3
3 Debatten
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Planung
Aufgabe:
1) Es sollen so viele Verben wie möglich gefunden werden, die den amProgressiv (z. B., ist am Schreiben, war am Essen, wäre am Lesen), die
beim-Konstruktion und/oder den Absentiv erlauben.
2) Es sollen möglichst viele Belege zu jedem einzelnen Verb ermittelt werden.
Vorgehen:
1) Ausprobieren verschiedener Abfragen (COSMAS II, „Deutsches
Referenzkorpus“).
2) Ermittlung der Abfrage, die das beste Verhältnis von Precision zu Recall
ergibt.
3) Abschätzung des Aufwands für eine exhaustive Korpusrecherche.
33
1 Definitionen
1.1 1.2 1.3
2 Begriffe
2.1 2.2 2.3
3 Forschungsablauf
3.1 3.2 3.3
Suchausdruck, hier:
&sein am A*en
4 Datentypen
5 Fallstricke
4.1 4.2
5.1 5.2 5.3 5.4
Stichprobe:
wahre Positive: 60%
falsche Positive: 40%
1 Definitionen
1.1 1.2 1.3
2 Begriffe
2.1 2.2 2.3
3 Forschungsablauf
3.1 3.2 3.3
Suchausdruck, hier:
&sein am E*en
4 Datentypen
5 Fallstricke
4.1 4.2
Stichprobe:
5.1 5.2 5.3 5.4
wahre Positive: 43%
34
1 Definitionen
1.1 1.2 1.3
2 Begriffe
2.1 2.2 2.3
3 Forschungsablauf
3.1 3.2 3.3
Suchausdruck, hier:
&sein am S*en
4 Datentypen
5 Fallstricke
4.1Stichprobe:
4.2
5.1 5.2 5.3 5.4
wahre Positive: 7%
1 Definitionen
1.1 1.2 1.3
2 Begriffe
2.1 2.2 2.3
3 Forschungsablauf
3.1 3.2 3.3
Suchausdruck, hier:
&sein am V*en
4 Datentypen
5 Fallstricke
4.1 4.2
5.1 5.2 5.3 5.4
Stichprobe:
wahre Positive: 68%
35
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
3 Debatten
2.1 2.2 2.3
4 Abfragen
3.1 3.2 3.3 3.4 3.5
A (35 Lexeme / 129 Treffern, 27 Lexeme pro 100 Positive)
E (20 Lexeme aus 72 Treffern, 28 Lexeme pro 100 Positive)
V (21 Lexeme aus 71 Treffern, 30 Lexeme pro 100 Positive)
S (22 Lexeme aus 493 Treffern, 5 Lexeme pro 100 Positive)
abbauen
abfahren
abflauen
abklären
abklingen
abkühlen
abnehmen
abrollen
abrüsten
absterben
abtreten
analysieren
anlaufen
arbeiten
aufarbeiten
aufbrechen
aufholen
aufräumen
aufsteigen
aufstocken
ausarbeiten
ausbluten
ausbreiten
auseinander
-fallen
ausgehen
ausklingen
auslaufen
ausloten
ausprobieren
ausrasten
ausräumen
ausscheiden
ausschneiden
aussterben
ausziehen
…
einblasen
einfahren
einkaufen
einreichen
einrichten
einschlafen
einstimmen
entstehen
erblühen
erfrieren
erheben
erlöschen
erodieren
errichten
ersticken
erwachen
erzählen
essen
evaluieren
explodieren
…
säen
schaffen
schimpfen
schlagen
schließen
schmelzen
schreiben
schrumpfen
schütten
schweißen
schwinden
setzen
sich-selbst
-zersetzen
sichten
siechen
sieden
singen
sinken
sitzen
skaten
sondieren
sortieren
…
verblassen
verblühen
verbluten
verdauen
verdursten
verebben
verenden
verfallen
vergolden
verlieren
verlöschen
verlumpen
verrosten
4.1 4.2 4.3
Verblexeme
im amProgressiv
verrotten
verschwimmen
verschwinden
versiegen
versinken
verteilen
verwelken
vorbereiten
…
1 Definitionen
1.1 1.2 1.3
2 Begriffe
2.1 2.2 2.3
3 Forschungsablauf
3.1 3.2 3.3
Das Netz enger knüpfen: Variante 1
4 Datentypen
5 Fallstricke
4.1 4.2
5.1 5.2 5.3 5.4
Precision: ca 20%
Recall: ca. 1300 von x
Suchausdruck, hier:
am A*en
Daneben bin ich am Ausprobieren
Die Grippewelle sei offensichtlich am Abklingen
… da das spätromantische Oratorium am Aussterben war …
36
1 Definitionen
2 Begriffe
1.1 1.2 1.3
3 Forschungsablauf
2.1 2.2 2.3
4 Datentypen
3.1 3.2 3.3
5 Fallstricke
4.1 4.2
Das Netz enger knüpfen: Variante 2
5.1 5.2 5.3 5.4
Precision: ca 50%
Recall: ca. 900 von x
Suchausdruck, hier:
&sein /w5 (am A*en)
Techno war gerade am Aufkommen
Noch am Abklären sei sie, ob …
… wenn man am Arbeiten oder unterwegs ist
1 Textkorpora
2 Geschichtliches
1.1 1.2 1.3
3 Debatten
2.1 2.2 2.3
4 Abfragen
3.1 3.2 3.3 3.4 3.5
4.1 4.2 4.3
Vergleich der Ergebnisse der verschiedenen Abfragen
Suchausdruck
Precision
Recall
(absolut)
Treffer
gesamt
&sein am A*en
60%
78
130
am A*en
20%
1300
6500
&sein /w5 (am A*en)
50%
900
1800
müssen
manuell
bearbeitet
werden
Ergebnis
• Manuelle Bearbeitung ist sehr aufwändig. Darum wurde Option 3
ausgeschlossen (zu geringe Precision). Option 1 erbrachte quantitativ
ungenügende Belege (zu geringer Recall). Darum wurde nach Option
2 verfahren.
• Wir schätzten, dass die Korpussuche plus manuelle Bearbeitung etwa
ein bis zwei Personenmonate benötigen würde. (Das hat sich
bestätigt.)
37
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
3 Debatten
2.1 2.2 2.3
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Der Versuch einer exhaustiven Ausschöpfung eines Korpus ist oft mit
einem Dilemma konfrontiert.
Strategie „Enges Netz“
Strategie „Weites Netz“
• Suche: nicht restriktiv
• Absolute Anzahl wahrer
Positive (Recall): hoch
• Anteil wahrer Positive
(Precision): niedrig
• Repräsentativität der
Stichprobe: hoch
• Arbeitsaufwand: hoch
• Suche: sehr restriktiv
• Absolute Anzahl wahrer
Positive (Recall): niedrig
• Anteil wahrer Positive
(Precision): hoch
• Repräsentativität der
Stichprobe: niedrig
• Arbeitaufwand: gering
Das Dilemma: Eine tendenziell positive Korrelation zwischen der absoluten
Menge wahrer Positive und dem Arbeitsaufwand bei der Durchsicht der
Treffermenge.
1 Textkorpora
1.1 1.2 1.3
2 Geschichtliches
3 Debatten
2.1 2.2 2.3
3.1 3.2 3.3 3.4 3.5
4 Abfragen
4.1 4.2 4.3
Ein „Recall“-Problem:
Ist das absolute Vorkommen eines sprachlichen Phänomens im Korpus nicht
bekannt oder der Recall unter 100%, ist unklar, ob die Recall-Menge
repräsentativ für die Gesamtmenge.
Beispiel:
&sein am A*en
Der Suchausdruck kann keine Verlaufsformen mit direktem
Objekt finden.
Er ist seine Reise am Planen.
Sollte es solche Konstruktionen im Korpus geben, ist die RecallMenge nicht repräsentativ für die Syntax des Progressivs in den
Korpustexten.
38

Korpuslinguistik - Institut für Deutsche Sprache

Transcription

Similar documents

Facharbeit Datenschutz und Datensicherheit - ice

Marokko-Rundreise (07.12.2013-31.12.2013, PDF)

Lernerkorpus „KoKo“

1 Korpuslexikographie Korpuslexikographie

German publishers - Center for Research Libraries

Buchmarkt Indien 2015

der am-progressiv im heutigen deutsch.

Erasmus-Bericht Belfast

Schema Matching - Sebastian Hübner

Sprach- und Literaturwissenschaften AAC – Austrian Academy Corpus

Valenz Valenz - Institut für Deutsche Sprache

Frühjahr 2015 - Edition Winkler

Andreas Beck Die sozialwirtschaftliche Branche als qualitatives Ra

Traum der Valenzforscher – ein brauchbares

Ergebnisbericht 2004

Unidirektionaler Sprachwandel - Eine spieltheoretische Analyse

Ausgabe Nr. 11 November 2014

ZUGANG ZU VERTEILTEN KOLLEKTIONEN