1 Korpuslexikographie Korpuslexikographie

Transcription

1 Korpuslexikographie Korpuslexikographie
Korpuslexikographie
Grundlagen
Korpuslexikographie
Korpuslexikographie: Lexikographie, die auf der (partiell) automatischen
Analyse von elektronischen Textkorpora basiert.
Korpusgestützte Lexikographie am IDS: „Korpusgestützte Lexikographie
erarbeitet Wörterbücher auf der Grundlage elektronischer, gezielt
zusammengestellter Textsammlungen, die […] authentische Sprache
repräsentieren sollen und die mithilfe geeigneter Recherche- und
Analysesoftware erschlossen und ausgewertet werden. Alle Daten werden
redaktionell auch unter Einbezug sekundärer und/oder tertiärer Quellen
geprüft und bewertet […].“
Klosa, Annette 2007. Korpusgestützte Lexikographie: besser, schneller, umfangreicher? In: W. Kallmeyer &
G. Zifonun (eds.). Sprachkorpora. Datenmengen und Erkenntnisfortschritt. Berlin, New York: de Gruyter,
105-122.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 1]
Korpuslexikographie
Grundlagen
Drei Typen von Korpuslexikographie
korpusgebunden
korpusgestützt
(I) Das Wörterbuch basiert ausschließlich auf
einem bestimmten Korpus (keine anderen Korpora,
keine anderen Sekundärquellen), aus dem alle
lexikographischen Informationen gewonnen
werden.
(II) Das Wörterbuch basiert auf einem bestimmten
Korpus, aus dem zunächst alle relevanten
lexikographischen Informationen gewonnen
werden, die dann durch Hinzuziehung anderer
Korpora und Sekundärquellen ergänzt werden.
(III) Das Wörterbuch basiert auf einem
bestimmten Korpus, das verwendet wird, um
lexikographische Informationen, die zunächst aus
anderen Quellen gewonnen werden, zu validieren.
korpusgesteuert
korpusvalidierend
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 2]
1
Korpuslexikographie
Grundlagen
Wozu werden Korpusanalyseverfahren benötigt?
Die Anwendungsbereiche im Einzelnen:
• Bestimmung der relevanten Bedeutungsvarianten (durch Überprüfung von
Konkordanzen und Kookkurrenzanalysen)
• Identifikation von Kollokationen und anderen festen Wendungen (durch
Überprüfung von Kookkurrenzanalysen)
• Bestimmung von semantischen Relationen (durch Überprüfung von Konkordanzen
und Kookkurrenzanalysen)
• Auswahl von Beispielen und typischen Gebrauchskontexten (durch Überprüfung
von Clusteranalysen und Kookkurrenzanalysen)
• Überprüfung der Lemmaliste (durch Vergleich der bestehenden Liste mit
Frequenzlisten)
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 3]
Korpuslexikographie
Beispielanalyse: abziehen
Zum Vergleich: ein Artikel aus einem
nicht korpusbasierten Wörterbuch
Artikel für abziehen in Vietzes (1981) DeutschMongolischem Wörterbuch.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 4]
2
Korpuslexikographie
Stichwort: abziehen
Beispielanalyse: abziehen
Konjugation: <32a>
Grammatische Varianten
1: tr
Struktur des Artikels
Übersetzungen
allgemein: татаж авах
spezifisch
1: Fell хуулах, өвчих
2: Flüssigkeit гоожуулах
3: Math хасах (von -аас)
4: Typ хувилах
Beispiele
1: das Rasiermesser ~ тонгорог билүүдэх
2: Rinde ~ холтсы нь хуулах
3: den Schlüssel ~ түлхүүр сугалж авах
2: intr
Übersetzungen
spezifisch
1: sich entfernen холдох, зайлах (von -аас)
2: sich zurückziehen ухрах, хойшоо болох (von -аас)
Beispiele
1: unverrichteterdinge ~ юу ч үтүй od. хоосом явах
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 5]
Korpusrecherchemethoden
Kookkurrenzanalyse für abziehen (CCDB);
Korpusrecherchesystem IV: Corpus Browser
Funktionswörter nicht berücksichtigt.
abgedeckt in Vietze
nicht abgedeckt in Vietze
Truppen abziehen
unverrichteter Dinge wieder abziehen
wurden zwei Punkte
abgezogen
eine Show abziehen
die Haut abziehen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 6]
3
Korpusrecherchemethoden
Korpusrecherchesystem IV: Corpus Browser
vom Einkommen abziehen
den Zündschlüssel
abziehen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 7]
Korpusrecherchemethoden
Korpusrecherchesystem IV: Corpus Browser
aus 20 Metern abziehen
Botschafter (aus …) abziehen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 8]
4
Korpusrecherchemethoden
Korpusrecherchesystem IV: Corpus Browser
Kapital (aus …) abziehen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 9]
Korpusrecherchemethoden
Korpusrecherchesystem IV: Corpus Browser
den Rauch abziehen lassen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 10]
5
Korpuslexikographie
Beispielanalyse: abziehen
Schritt 2: Analyse einer Teilmenge der
KWICs zu abziehen
Ziel der KWIC-Analyse (zu den Kookkurrenzen, aber auch auf Basis
neuer Korpusabfragen):
•
•
•
Ermittlung von Lesarten………………….
Ermittlung der Varianz von Wendungen….
Ermittlung semantischen Relationen………..
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 11]
1 Mongolia / Languages
2 Publishing dictionaries
3 Corpus linguistics
4 Improving dictionaries
5 Outlook
Öffnung der KWICs zu den Kookkurrenzen (COSMAS II)
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 12]
6
1 Mongolia / Languages
2 Publishing dictionaries
3 Corpus linguistics
4 Improving dictionaries
5 Outlook
Öffnung der KWICs zu den Kookkurrenzen (COSMAS II)
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 13]
1 Mongolia / Languages
2 Publishing dictionaries
3 Corpus linguistics
4 Improving dictionaries
5 Outlook
Laden von Korpora
mit COSMAS II
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 14]
7
1 Korpora & Lexikographie
2 Korpusanalyse
Suche (COSMAS II): &von /+w5 abgezogen (alle
Belege mit einer Wortform zu von gefolgt im Abstand
bis zu 5 Wörtern von der Wortform abgezogen)
Beispiel für einer Suche, die Belege für
präpositionale Anschlüsse mit von aufdeckt.
3 Lexikographische Praxis
4 Korpusgesteuerte Wb.
… Tage von der Haft abgezogen werden
… Produktion von Fernsehgeräten wurde von Bremen abgezogen
… daß ihnen ein Gewerkschaftsbeitrag vom Lohn abgezogen wird
… daß die Offensivwaffen von deutschem Boden abgezogen werden
… alle irakischen Truppen sind von iranischem Gebiet abgezogen worden
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 15]
1 Korpora & Lexikographie
Suche (COSMAS II): &abziehen /s0
&aufziehen (alle Belege die innerhalb eines
Satzes eine Wortform zu abziehen und eine zu
aufziehen enthalten)
2 Korpusanalyse
3 Lexikographische Praxis
4 Korpusgesteuerte Wb.
Beispiel für eine Suche, die Belege für semantische
Relationen (hier Gegensatzrelationen) aufdeckt.
… in diesen Wochen des abziehenden Sommers
und des aufziehenden Wahlkampfes
… ihm die Haut abziehen und auf eine plastische Gestalt aufziehen
… ein Naturereignis, … das aufzieht, losbricht und dann wieder … abzieht
… dass bei der Warmfront die Wolken .. aufziehen und bei der Kaltfront .. abziehen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 16]
8
Korpuslexikographie
Beispielanalyse: abziehen
Schritt 3: Heranziehen weiterer Korpusressourcen
Ziel :
•
Entdeckung von Lesarten und Wendungen, die durch die Texte des
Primärkorpus nicht gut abgedeckt werden
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 17]
Korpuslexikographie
KWICFinder
Beispielanalyse: abziehen
KWICFinder Key Word in Context
Research Tool and Concordancer for the Web
• Entwickler: William Fletcher.
• Version: 0.98.22 (Beta Version), 11. Dez. 2006
(Windows).
• Recherche: Online.
• Software: wird lokal installiert.
• Zugang: freier Download des Programms.
• Korpora: Webseiten.
• Sprachen: ca. 20 Sprachen auf Basis der lateinischen
Schrift werden unterstützt.
• URL: http://www.kwicfinder.com/KWiCFinder.html.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 18]
9
Korpuslexikographie
Beispielanalyse: abziehen
• erstellt Konkordanzen auf der Basis von WWW-Seiten
• Suche kann beschränkt werden auf Seiten mit bestimmten
Titeln oder in bestimmten Domains
• kann genutzt werden, um Beispiele aus umgangs- oder
fachsprachlichen Texten zu finden
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 19]
Verwendung von KWICFinder um Konkordanzen zu
umgangssprachlichem Deutsch aus dem Internet zu erstellen
Suchterm eingeben:
abziehen.
Suche in Seiten, die „chat“
im Titel haben.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 20]
10
1 Korpora & Lexikographie
2 Korpusanalyse
3 Lexikographische Praxis
Ergebnisse
4 Korpusgesteuerte Wb.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 21]
Beispielsätze aus der Konkordanz
a. Ich bin und bleibe stolzer Tokio Hotel Fan wer damit ein
problem hat der soll abziehen.
b. Die Leute die mich kennen, wissen, daß ich eigentlich eine ganz
Friedfertige und Versöhnliche bin. Aber was hier einige Leute
abziehen ... echt therapiebedürftig!!!
c. Das Leben geht weiter und dein Schwarm wird nie erfahren, dass du ihn hier eingetragen
hast. Andere Eltern haben auch hübsche Kinder, und du kannst bei uns so viele
Schwärme eintragen, wie du möchtest. Ist das nicht toll - du musst keine Show abziehen,
du riskierst keinen Korb, du trägst einfach nur deinen Schwarm ein und wartest ab!
d. Leider kannst so'n Scheiß ja nich wirklich abziehen weil der Scheiß überall in deine
Unterlagen kommt...
e. Die Suppe mit Salz abschmecken, mit verquirltem Eigelb abziehen und die
Spargelstückchen hineingeben.
f. ich finde auch den preis etwas niedrig und der ebayer hat auch nur 2 bewertungen,habe
deshalb ihn gefragt,ob wir das geschäft über den treuhandservice abwickeln können.jetzt
warte ich auf seine antwort.nicht das der mich abziehen will,nur weil vielleicht zu wenig
für das board geboten wurde.nicht mein problem.
g. Soll der Lüfter kühle Luft da rein pusten (ich weis nicht ob sich die Luft dann staut),
oder die heiße Luft abziehen?
h. Bieretiketten kann mein einfach von der Flasche abziehen.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 22]
11
Varianten, die in Vietze nicht abgedeckt sind
(1) Die Leute die mich kennen, wissen, daß ich eigentlich eine ganz
Friedfertige und Versöhnliche bin. Aber was hier einige Leute
abziehen ... echt therapiebedürftig!!!
abziehen – Was ziehst du hier ab?
(2) Die Suppe mit Salz abschmecken, mit verquirltem Eigelb
abziehen und die Spargelstückchen hineingeben.
‘[…] thicken the soup with beaten egg yolk […]’
abziehen – (gastr.) er zieht die Suppe mit Eigelb ab
Noch einmal:
Rückblick auf das
deutsch-mongolische
Wörterbuch
(3) ich finde auch den preis etwas niedrig und der ebayer hat auch nur 2 bewertungen,habe
deshalb ihn gefragt,ob wir das geschäft über den treuhandservice abwickeln
können.jetzt warte ich auf seine antwort.nicht das der mich abziehen will,nur weil
vielleicht zu wenig für das board geboten wurde.nicht mein problem.
abziehen (ugs.) – er versuchte mich abzuziehen
(4) Bieretiketten kann mein einfach von der Flasche abziehen.
abziehen – sie zog das Etikett von der Bierflasche ab
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 23]
Korpuslexikographie
Beispielanalyse: abziehen
Schritt 4: Heranziehen sekundärer
lexikographischer Ressourcen
Ziel :
•
Entdeckung von Lesarten und Wendungen, die durch die Texte des
Primärkorpus nicht gut abgedeckt werden
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 24]
12
Überprüfung von Neubedeutungen in Neologismenwbs.
(hier IDS-Neologismenwörterbuch:
http://www.owid.de/Neologismen/index.html)
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 25]
1 Mongolia / Languages
Varianten, die in Vietze nicht abgedeckt sind
2 Publishing dictionaries
3 Corpus linguistics
jemandem etwas, besonders teure Markenkleidung,4 Improving dictionaries
5 Outlook
gewaltsam vom Körper reißen und rauben (besonders
unter
Jugendlichen)
Das „Abziehen“ von Jacken oder
Walkmen-Geräten – längst ein
massives Problem an Westberliner
Schulen – wird nun auch aus OstBerlin vermeldet.
(die tageszeitung, 12. Oct. 1990)
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 26]
13
1 Mongolia / Languages
2 Publishing dictionaries
3 Corpus linguistics
4 Improving dictionaries
jemanden räuberisch erpressen (besonders
unter Jugendlichen)
5 Outlook
Mit Erpressung, dem „Abziehen“,
haben fast alle Erfahrung. Da wird
berichtet, dass Jugendliche andere
zwingen, ihnen bei Aldi Zigaretten
„zu besorgen“
(die tageszeitung, 14. Apr. 1998)
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 27]
Korpuslexikographie
Beispielanalyse: abziehen
Varianten, die in Vietze nicht abgedeckt sind
Varianten, die in Vietze abgedeckt sind
Relevant für ein allgemeines zweisprachiges Wörterbuch
intr. (Truppen)
tr. (Truppen,
Botschafter)
tr. (Schlüssel)
intr. (weggehen)
tr. (Kapital)
tr. (Punkte)
Ein letztes Mal:
Rückblick auf das
deutsch-mongolische
Wörterbuch
tr. (ugs.)
(betrügen)
Irrelevant für ein allg. zweispr. Wb.
tr. (math.)
tr. (Fell, Haut)
itr. (Rauch)
itr. (ugs.) (fest
schießen)
tr. (ugs., neg.)
(tun) (Show)
tr. (Rasiermesser)
tr. (typogr.) (Fotos)
tr. (Etikett)
tr. (Rinde)
(jugendspr.)
(erpressen)
tr. (vom
Einkommen)
tr. (jugendspr.)
(runterziehen und
rauben)
(gastr.) (andicken)
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 28]
14
Korpuslexikographie
Korpusgesteuerte Wörterbücher
Was kennzeichnet korpusgesteuerte
Wörterbücher?
• starke Orientierung am Sprachgebrauch, Orientierung am Häufigen und
Üblichen
• authentische Belege
• ausführliche Berücksichtigung des sprachlichen Kontextes
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 29]
Beispiel: Das Wörterbuch elexiko innerhalb von
OWID (Online-Wortschatzinformationssystem
Deutsch) am IDS
1 Korpora & Lexikographie
2 Korpusanalyse
3 Lexikographische Praxis
4 Korpusgesteuerte Wb.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 30]
15
elexiko: lesartenübergreifender
Teil zum Verb verurteilen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 31]
elexiko: lesartenspezifischer
Teil zum Verb verurteilen
(i) Bedeutungserläuterung
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 32]
16
elexiko: lesartenspezifischer
Teil zum Verb verurteilen
(ii) Semantische Umgebung
und lexikalische Mitspieler
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 33]
elexiko: lesartenspezifischer
Teil zum Verb verurteilen
(iii) Typische Verwendungen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 34]
17
elexiko: lesartenspezifischer
Teil zum Verb verurteilen
(iv) Sinnverwandte Wörter
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 35]
elexiko: lesartenspezifischer
Teil zum Verb verurteilen
(v) Besonderheiten
des Gebrauchs
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 36]
18
elexiko: lesartenspezifischer
Teil zum Verb verurteilen
(vi) Grammatik
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 37]
Lexikographie im Internet
Grundlegendes
Lexikalische Ressourcen im Internet
Ein Wörterbuch ist ein Referenzwerk mit lexikographisch
bearbeiteten sprachlichen Informationen zu lexikalischen
Einheiten.
Das heißt: Die Informationen in Wörterbüchern sind keine
Primärdaten, sondern Ergebnisse linguistisch-lexikographischer
Interpretation.
Aber: Viele Wörterbücher im Internet integrieren auch
unbearbeitete, aus Korpora extrahierte Daten.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 38]
19
Lexikographie im Internet
Grundlegendes
Einige lexikographisch relevante Verfahren der automatischen
Extraktion und Analyse von Daten aus Textkorpora
I.
Extraktion von Korpusbeispielen
II. Frequenzanalysen
III. Morphologische Analysen
IV. Kookkurrenzanalysen
V. Analyse semantischer Relationen
VI. Zeitverlaufsanalysen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 39]
Lexikographie im Internet
Belegextraktion
I) Extraktion von Korpusbeispielen
Lexikographische Bearbeitung:
• selektive Anwendung von Konkordanzprogrammen zur
Extraktion aussagekräftiger Belege
• manuelle Auswahl von Belegen für Wörterbücher
Automatische Angaben:
• Zufallsauswahl aus Korpora
• Steuerung der Distribution (elexiko: Belege aus verschiedenen
Quellen und Jahrgängen; keine Überschriften)‫‏‬
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 40]
20
Lexikographie im Internet
Belegextraktion
automatisch extrahierte Belegangaben:
Auszug aus dem Rechercheergebnis
zum Suchterm „Thomas“
Wortschatz-Portal. – Universität Leipzig, Institut für Informatik,
Abteilung Sprachverarbeitung, 1998-2009. Online, 5. Mai 2009,
<http://wortschatz.informatik.uni-leipzig.de/index.html>.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 41]
automatisch extrahierte Belegangaben:
Artikel zum noch nicht lexikographisch
bearbeiteten Artikel zu Alltagspoesie
elexiko – In: OWID – Online Wortschatz-Informationssystem Deutsch, hg. v. Institut für
Deutsche Sprache, Mannheim. Online, 5. Mai 2009, <www.owid.de/elexiko_/index.html>.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 42]
21
Lexikographie im Internet
Belegextraktion
elexiko
automatisch extrahierte
Belege zum Suchterm
„Laster“ in elexiko und
im Wortschatz-Portal
Wortschatz-Portal
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 43]
Lexikographie im Internet
Belegextraktion
Digitales Wörterbuch der deutschen
Sprache. Wortinformationen. – Hg. von der
Berlin-Brandenburgischen Akademie der
Wissenschaften. Online, 5. Mai 2009,
<http://www.dwds.de/>.
automatisch extrahierte Belege
zum Suchterm „Laster“ in den
DWDS-Wortinformationen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 44]
22
Lexikographie im Internet
Belegextraktion
Resumee zu automatisch integrierten Korpusbelegen
• Es kommen noch keine Extraktionsprogramme zum Einsatz, die
Lesarten bei der automatischen Auswahl (ansatzweise) erkennen.
• Den Gebrauchsspielraum eines Lexems wird nur ganz rudimentär
berücksichtigt.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 45]
Lexikographie im Internet
Frequenzanalysen
II) Frequenzanalysen
Lexikographische Bearbeitung:
• kaum in lexikographisch bearbeiteter Form in Internetwörterbüchern
• Nutzung von Frequenzangaben zur Lemmaselektion, etc.
Automatische Angaben:
• entweder in Form absoluter Frequenzangaben, relativer
Frequenzangaben oder durch Einordnung in Frequenzklassen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 46]
23
DWDS-Wortinformationen
Frequenzangabe zu
Semmelmehl durch Einordnung in Frequenzklassen (elexiko, WortschatzPortal), Angabe absoluter
Korpusfrequenz (DWDS)
sowie einer Distributionsangabe (elexiko)‫‏‬
Wortschatz-Portal
elexiko
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 47]
Lexikographie im Internet
Frequenzanalysen
Resumee zu automatisch ermittelter Frequenzangaben
• Die Angaben sind gut zu verwenden. Die Einordnung in
Frequenzklassen in ein übliches Verfahren der korpusbestimmten
Frequenzbeschreibung.‫‏‬
• Frequenzangaben werden nicht mit Angaben zur thematischstilistischen Distribution über bestimmte Texte verknüpft.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 48]
24
Lexikographie im Internet
Morphologische Analysen
III) Morphologische Analyse
Lexikographische Bearbeitung:
• manuelle Korrektur der Ergebnisse automatischer Wortbildungsanalysen
• ansonsten relativ direkte Umsetzung in Angaben
Automatische Angaben:
• Integration morphologischer Strukturanalysen
• Generierung von Flexionsparadimen zu Lemmata
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 49]
Lexikographie im Internet
Morphologische Analysen
Digitales Wörterbuch der deutschen Sprache.
Wortinformationen. – Hg. von der BerlinBrandenburgischen Akademie der
Wissenschaften. Online, 5. Mai 2009,
<http://www.dwds.de/>.
Flexionsangaben und
Wortbildungsanalyse zu
Veranstaltungskalender
in den DWDS-Wortinformationen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 50]
25
Lexikographie im Internet
Morphologische Analysen
automatisch erzeugte
Flexionsparadigmen
zu hänseln in
„Cactus 2000“
Cactus 2000. Konjugationstabellen. – Von Helge Krüger, 2004-2008.
Online, 5. Mai 2009, <http://www.cactus2000.de/de/index.php>.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 51]
Lexikographie im Internet
Morphologische Analysen
Wörterbuch der deutschen Wörterbildung. – In. CanooNet, 2000-2009. Online, 8. Mai
2009, <http://www.canoo.net/services/WordformationDictionary/ueberblick/index.html>.
(vermutlich) automatisch erzeugte und
(vermutlich nicht) manuell überprüfte Wortbildungsanalyse zu Veranstaltungskalender
im canoo-Wortbildungswörterbuch.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 52]
26
Lexikographie im Internet
Morphologische Analysen
Resumee zur Angabe automatischer morphologischer
Analysen
• Der Output flexionsmorphologischer Generatoren ist natürlich nicht
Ergebnis einer empirischen Erhebung.
• Morphologische Parser arbeiten nicht fehlerfrei; Beispiele:
Bleiberecht: blei|be|recht
(Wortschatz-Portal)‫‏‬
Kalender: Kalenden + er
(CanooNet)‫‏‬
• Die automatischen Wortbildungsanalysen sind ohne Kenntnis der
zugrundeliegenden morphologischen Annahmen kaum einzuschätzen;
Beispiele aus dem Wortschatz-Portal:
Ferienoase: feri|en|oas|e
Institutionalisierung: in|stitut|i|on|al|is|ier|ung
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 53]
Lexikographie im Internet
Kookkurrenzanalysen
IV) Kokkurrenzanalysen
Lexikographische Bearbeitung:
• Kookkurrenzanalysen sind (z. B. in elexiko) die Grundlage zur Bestimmung
von Lesarten, semantischen Relationen, Kollokationen und festen
Wendungen.
• Sie werden in überarbeiteter Form in Mitspieler- und Kollokationsangaben
überführt.
Automatische Angaben:
• Kokkurrenzanalysen werden zum Teil automatisch in Angaben zu
Kookkurrenzen, linken und rechten Nachbarn oder in semantische Netze
zur Präsentation im Wörterbuch überführt.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 54]
27
automatisch erzeugte, kookkurrenzbasierte Angaben (Kookkurrenzen,
Mehrwortausdrücke, linke und rechte
Nachbarn, semantisches Netz) zu
Maus im Wortschatz-Portal
Wortschatz-Portal
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 55]
elexiko
lexikographische bearbeitete Angaben zu
typischen Verwendungen einer Lesart
von Mobilisierung in elexiko, basierend
auf Kookkurrenzanalysen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 56]
28
Link zu einer (lexikographisch
unbearbeiteten) Kookkurrenzanalyse
von Mobilisierung aus der CCDB.
Kookkurrenzdatenbank CCDB - V3.2. – Von
Cyril Belica. © 2001-2007, Institut für
Deutsche Sprache, Mannheim.
elexiko
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 57]
Lexikographie im Internet
Kookkurrenzanalysen
Resumee zur automatischen Angabe von Kookkurrenzen
• Die Ergebnisse einer Kookkurrenzanalyse sind in hohem Maße
interpretationsbedürftig; selbst für Lexikographen sind Hintergrund und
Effekt der Variation von statistischem Maß und Analyseparametern nur
eingeschränkt nachvollziehbar.
• Es ist bei diesen Angaben nicht klar aufgrund welcher statistischer
Verfahren und unter welchen Analyseparametern sie zustande
gekommen sind.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 58]
29
• Es ist schwer zu sagen, welche Informationen aus unkommentierten
Kookkurrenzanalysen zu entnehmen sind
Wortschatz-Portal
automatisch berrechnete Angaben zu
Kookkurrenzen und signifikanten
linken Nachbarn zu besprechen im
Wortschatz-Portal
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 59]
Lexikographie im Internet
Analyse semantischer Relationen
V) Analyse semantischer Relationen
Lexikographische Bearbeitung:
• Autmatische Verfahren zur Ermittlung von semantischen Relationen
(Synonymie, Antonymie, Hyponymie, …) werden von Lexikographen
nur selten genutzt. (?)‫‏‬
• Es wird eher auf bestimmte Techniken der Korpusabfrage gesetzt.
Automatische Angaben
• Automatisch analysierte semantische Relationen treten nur selten in
Wörterbüchern auf; ein Beispiel: Wortschatzportal
(Berechnungsgrundlage unklar).
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 60]
30
Lexikographie im Internet
Analyse semantischer Relationen
elexiko
Darstellung lexikographisch bearbeiteter
semantischer Relationen zu Abend in
elexiko, basierend auf Kookkurrenzanalysen
undMannheim
KWUC-Analysen
Stefan Engelberg, Linguistische Methodenlehre,
FS 2009, Uni
[Folie 61]
Lexikographie im Internet
Analyse semantischer Relationen
Automatische gewonnene
semantische Relationen zu
Abend im Wortschatzportal,
basierend auf ???
Wortschatz-Portal
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 62]
31
Lexikographie im Internet
Analyse semantischer Relationen
Resumee zu automatischen Angaben zu semantischen Relationen
• Automatische Angaben zu semantischen Relationen sind in hohem
Maße interpretationsbedürftig.
• Dort, wo sie verwendet werden (Wortschatz-Portal) ist das
linguistische / computerlinguistische Konzept von semantischen
Relationen unklar.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 63]
Lexikographie im Internet
Zeitverlaufsanalysen
F) Zeitverlaufsanalysen
Lexikographische Bearbeitung:
• Zeitverlaufsanalysen werden unter anderem zur Neologismenermittlung
verwendet.
• Sie werden dort z. B. in Beschreibungen von Auftretenszeiten von
Neologismen umgesetzt.
Automatische Angaben
• Selten; zum Beispiel IDS-Neologismenwörterbuch (auch im DWDSKorpus).
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 64]
32
Lexikographie im Internet
Analyse semantischer Relationen
• Phasengröße: 1 Jahr
• Korpusgröße pro Phase: verschieden groß (aber sehr groß)‫‏‬
• Häufigkeitsangabe: relativ zu der Häufigkeit, die erwartbar wäre bei gleicher
Verteilung der Treffer über die gesamte Zeitspanne (0-Linie; dies wiederum
berechnet relativ zur Korpusgröße in jeder Phase)‫‏‬
• Zugänglichkeit:
http://www.owid.de/
Bildschirmschoner
Neologismen/index.
html
Vgl. dazu die Information
in http://www.idsmannheim.de/kl/projekte/
methoden/mdca.html.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 65]
Angabe zum Aufkommen
einer Neubedeutung von
abziehen im IDSNeologismenwörterbuch
Neologismenwörterbuch. –
In: OWID – Online
Wortschatz-Informationssystem Deutsch, hg. v.
Institut für Deutsche Sprache,
Mannheim, 2005ff. Online, 7.
Mai 2009,
<www.owid.de/Neologismen/i
ndex.html>.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 66]
33
Explizte Angabe einer
automatisch ermittelten
Zeitverlaufsgraphik
IDS- Neologismenwörterbuch
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 67]
Lexikographie im Internet
Analyse semantischer Relationen
Resumee zu automatischen Angaben zu Gebrauchsverläufen
• Zeitverlaufgraphiken sind interpretationsbedürftig:
sie sind nicht lesartenspezifisch (z. B. abziehen);
bei einem Zusammenfall eines Wortes mit einem Eigennamen wird
nicht differenziert (z. B. Rafter);
adjektivierte, semantisch eigenständige Partizipien werden von echten
verbalen Partizipien nicht unterschieden (abgezockt).
• Die Grundlage der Berechnung sollte der Internetquelle zu entnehmen
sein.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 68]
34
Lexikographie im Internet
Resumee
Lexikalische Ressourcen im Internet
Nutzt man Daten aus Wörterbüchern für eigene empirische
Untersuchungen, muss man sich Gewissheit verschaffen, ob und in
welchem Maße die Wörterbuchinformationen Gegenstand
lexikographische Interpretation und Beschreibung sind.
Es muss auch aus der Quelle hervorgehen, auf der Basis welcher
Extraktions- und Berechnungsverfahren die Daten gewonnen
wurden..
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 69]
Lexikographie im Internet
Einige interessante Quellen
Resumee
Wortschatz-Portal. Projekt Deutscher Wortschatz. Developed and published by Universität
Leipzig, Institut für Informatik, Abteilung Sprachverarbeitung, 1998-2007. Online, May 4,
2009, <http://wortschatz.informatik.uni-leipzig.de/index.html>.
Das Digitale Wörterbuch der deutschen Sprache des 20. Jh. Published by “BerlinBrandenburgische Akademie der Wissenschaften”. Online, May 4, 2009,
<http://www.dwds.de/>.
Online Wortschatz Informationssystem Deutsch. Published by “Institut für Deutsche Sprache”,
2009ff. Online, May 4, 2009, <www.owid.de>.
WordNet – a Lexical Database for English, Version 2.1/3.0. – Cognitive Science Laboratory
Princeton University, 2008, Online, 8.1.2009, <http://wordnet.princeton.edu>.
Das Wörterbuch-Netz. Published by “Kompetenzzentrum für elektronische Erschließungs- und
Publikationsverfahren in den Geisteswissenschaften“, 2006-2007. Online, May 4, 2009,
<http://germazope.uni-trier.de/Projects/WBB/>.
Canoonet. Deutsche Wörterbücher und Grammatik. Online, 20.4.2009,
<http://www.canoo.net>.
Elektronisches Lernerwörterbuch Deutsch-Italienisch. Dizionario elettronico per apprendenti
Italiano-Tedeso .– Europäische Akademie Bozen, 2002. Online, 9.1.2009,
<http://dev.eurac.edu:8081/MakeEldit1/Eldit.html>.
Die Wortwarte - auf der Suche nach den Neuwörtern von morgen. – Von Lothar Lemnitzer &
Tylman Ule, 2001. Online, 7.1.2009, <http://www.sfs.nphil.uni-tuebingen.de/~lothar/nw/>.
Kicktionary. A multilingual electronic dictionary of football language. – Von Thomas Schmidt,
Hamburg, SFB 538 “Mehrsprachigkeit”, 2005-2009. Online, 9.1.2009,
<http://www.kicktionary.de/}>.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 70]
35
Lexikalische Ressourcen im Internet
(vi) Grammatik
elexiko: lesartenspezifischer
Teil zum Verb verurteilen
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 71]
Lexikographie im Internet
Beispielanalyse: abziehen
Lexikalische Ressourcen im Internet
Ein Wörterbuch ist ein Referenzwerk mit lexikographisch
bearbeiteten sprachlichen Informationen zu lexikalischen
Einheiten.
Das heißt: Die Informationen in Wörterbüchern sind keine
Primärdaten, sondern Ergebnisse linguistisch-lexikographischer
Interpretation.
Aber: Viele Wörterbücher im Internet integrieren auch
unbearbeitete, aus Korpora extrahierte Daten.
Nutzt man Daten aus Wörterbüchern für eigene empirische
Untersuchungen, muss man sich Gewissheit verschaffen, ob und in
welchem Maße die Wörterbuchinformationen Gegenstand
lexikographische Interpretation und Beschreibung sind.
Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 72]
36