Einführung in die Computerlinguistik I

Transcription

Einführung in die Computerlinguistik I
Vorlesungsskript
∗
Einführung in die Computerlinguistik I
Institut für Computerlinguistik
Universität Zürich
http://www.cl.uzh.ch
Interaktive Lerneinheiten zur Vorlesung
http://kitt.cl.uzh.ch/kitt/clab/clabis?vl=ecl1
Simon Clematide
[email protected]
Schriftliche Übungen:
Luzia Roth
Luzia.Roth @ access.uzh.ch
Herbstsemester 2009
Version von 10. Januar 2010
∗
PDF-Version: http://files.ifi.uzh.ch/cl/siclemat/lehre/hs09/ecl1/script/script.pdf
HTML-Version:
http://files.ifi.uzh.ch/cl/siclemat/lehre/hs09/ecl1/script/html/script.html
OLAT-Url:
https://www.olat.uzh.ch/olat/auth/repo/go?rid=1140719618&guest=true&lang=de
Inhaltsverzeichnis
1 Organisatorisches
9
1.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Was ist CL?
2.1 Motivation . . . . . . . . . .
2.2 Fachrichtungen . . . . . . . .
2.2.1 Computerlinguistik . .
2.2.2 Sprachtechnologie . .
2.2.3 Weiteres . . . . . . . .
2.2.4 Anliegen . . . . . . . .
2.3 Nachbardisziplinen . . . . . .
2.3.1 Linguistik . . . . . . .
2.3.2 Kognitionswissenschaft
2.4 Krux . . . . . . . . . . . . . .
2.5 Vertiefung . . . . . . . . . . .
2.5.1 Kontrollfragen . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
12
12
13
13
15
15
16
17
18
18
19
3 Linguistisches Propädeutikum I
3.1 Wort . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Definition . . . . . . . . . . . . . . .
3.1.2 Token . . . . . . . . . . . . . . . . .
3.1.3 Wortform . . . . . . . . . . . . . . .
3.1.4 synt. Wort . . . . . . . . . . . . . .
3.1.5 Lexem . . . . . . . . . . . . . . . . .
3.2 Wortarten . . . . . . . . . . . . . . . . . . .
3.2.1 5 Hauptwortarten nach Glinz . . . .
3.2.2 STTS . . . . . . . . . . . . . . . . .
3.3 Morphologische Merkmale . . . . . . . . . .
3.3.1 Genus . . . . . . . . . . . . . . . . .
3.3.2 Zahl . . . . . . . . . . . . . . . . . .
3.3.3 Kasus . . . . . . . . . . . . . . . . .
3.3.4 Modus . . . . . . . . . . . . . . . . .
3.3.5 Zeit . . . . . . . . . . . . . . . . . .
3.3.6 Person . . . . . . . . . . . . . . . . .
3.3.7 Grad . . . . . . . . . . . . . . . . . .
3.3.8 Flexion . . . . . . . . . . . . . . . .
3.4 Comp. Morph. . . . . . . . . . . . . . . . .
3.4.1 Lemmatisierung/Morphologieanalyse
3.4.2 Morphologiegenerierung . . . . . . .
3.5 Vertiefung . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
20
21
21
22
22
23
23
23
24
25
25
26
26
26
27
27
27
28
28
28
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.5.1
Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4 Linguistisches Propädeutikum II
4.1 Proben . . . . . . . . . . . .
4.1.1 Ersetzen . . . . . . .
4.1.2 Einsetzen . . . . . .
4.1.3 Weglassen . . . . . .
4.1.4 Verschieben . . . . .
4.1.5 Umformen . . . . . .
4.2 Satz . . . . . . . . . . . . .
4.3 Syntaxanalyse . . . . . . . .
4.3.1 Konstituenz . . . . .
4.3.2 Köpfe . . . . . . . .
4.3.3 Dependenz . . . . .
4.3.4 Satzglieder . . . . .
4.4 Baumbanken . . . . . . . .
4.4.1 NEGRA/TIGER . .
4.4.2 TIGERSearch . . . .
4.5 Vertiefung . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
30
30
31
31
32
32
33
33
33
34
35
35
37
37
37
38
5 Tokenisierung
5.1 Tokenisierer . . . . . . . . . .
5.1.1 Grundproblem . . . .
5.1.2 Kodierung . . . . . . .
5.1.3 Markup . . . . . . . .
5.1.4 Programme . . . . . .
5.2 XML . . . . . . . . . . . . . .
5.3 Tokenisierung . . . . . . . . .
5.3.1 Problem . . . . . . . .
5.3.2 Punktdesambiguierung
5.3.3 Normalisierung . . . .
5.3.4 NER . . . . . . . . . .
5.4 Vertiefung . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
39
39
40
40
43
44
44
44
45
46
47
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
49
51
52
53
53
54
54
54
55
56
57
57
6 Flache Satzverarbeitung
6.1 Tagging . . . . . . . . . . . .
6.1.1 Probleme . . . . . . .
6.1.2 Fallstudie TnT-Tagger
6.2 Evaluation . . . . . . . . . . .
6.2.1 Zweck . . . . . . . . .
6.2.2 Accuracy . . . . . . .
6.2.3 Lernkurven . . . . . .
6.2.4 Recall . . . . . . . . .
6.2.5 Precision . . . . . . .
6.2.6 F-Measure . . . . . . .
6.3 Chunking . . . . . . . . . . .
6.3.1 Abney . . . . . . . . .
6.3.2 IOB-Chunk . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6.4
6.5
6.3.3 Verschachtelte Chunks . . . . . . .
Vertiefung . . . . . . . . . . . . . . . . . .
6.4.1 Kontrollfragen . . . . . . . . . . .
Exkurs: Evaluation binärer Klassifikatoren
6.5.1 TP:FP:FN:TN . . . . . . . . . . .
6.5.2 Fehlerparadoxe . . . . . . . . . . .
6.5.3 Unterschiede . . . . . . . . . . . .
6.5.4 Mittelwerte . . . . . . . . . . . . .
6.5.5 Vertiefung . . . . . . . . . . . . . .
7 Volltextsuche und Text Mining
7.1 Informationsflut . . . . . . .
7.1.1 Suchdilemma . . . .
7.2 Volltextsuche . . . . . . . .
7.2.1 Indexieren . . . . . .
7.2.2 Architektur . . . . .
7.2.3 Retrieval . . . . . .
7.2.4 Relevanz . . . . . . .
7.3 Text-Mining . . . . . . . . .
7.4 Vertiefung . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
58
59
59
59
60
60
60
61
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
64
64
66
69
69
72
72
75
76
77
8 Textbasiertes Informationsmanagement
8.1 Zusammenfassung . . . . . . . . . .
8.1.1 Modell . . . . . . . . . . . . .
8.1.2 Terminologie . . . . . . . . .
8.1.3 Ansätze . . . . . . . . . . . .
8.2 IE . . . . . . . . . . . . . . . . . . .
8.2.1 IE vs. IR . . . . . . . . . . .
8.2.2 Klassische IE . . . . . . . . .
8.3 TM/RM . . . . . . . . . . . . . . . .
8.3.1 Syntaxanalyse . . . . . . . .
8.4 QA . . . . . . . . . . . . . . . . . . .
8.4.1 Idee . . . . . . . . . . . . . .
8.4.2 ExtrAns . . . . . . . . . . . .
8.5 Klassifikation . . . . . . . . . . . . .
8.5.1 Kategorisieren . . . . . . . .
8.5.2 Clustering . . . . . . . . . . .
8.6 Vertiefung . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
78
79
79
79
80
81
82
83
84
85
85
85
86
87
87
88
88
.
.
.
.
.
.
.
.
89
89
90
90
95
97
97
98
98
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Sprachsynthese und Spracherkennung
9.1 Sprachsynthese . . . . . . . . . . .
9.1.1 Architektur . . . . . . . . .
9.1.2 Analyseebenen . . . . . . .
9.1.3 Sprachsignalproduktion . .
9.2 Spracherkennung . . . . . . . . . .
9.2.1 Probleme . . . . . . . . . .
9.2.2 Worthypothesengraph . . .
9.2.3 Wortfehlerrate . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
99
99
100
10 Maschinelle Übersetzung I
10.1 Einführung . . . . . . . . . . . .
10.2 MT-Terminologie . . . . . . . . .
10.2.1 MT . . . . . . . . . . . .
10.2.2 CAT . . . . . . . . . . . .
10.2.3 MAHT . . . . . . . . . .
10.2.4 HAMT . . . . . . . . . .
10.2.5 FAHQT . . . . . . . . . .
10.3 Evaluation . . . . . . . . . . . . .
10.4 Ling. Probleme . . . . . . . . . .
10.4.1 Mehrdeutigkeit . . . . . .
10.4.2 Idiome und Kollokationen
10.4.3 Sprachbau . . . . . . . . .
10.5 Vertiefung . . . . . . . . . . . . .
10.6 Exkurs: BLEU-Score . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
101
102
102
103
103
107
109
111
112
112
116
118
119
119
11 (Formale) Sprachen und Grammatiken
11.1 Grammatik . . . . . . . . . . . . .
11.1.1 Konstituentenstruktur . . .
11.1.2 Konstituentenanalyse . . .
11.1.3 Rekursion . . . . . . . . . .
11.2 Formale Sprachen . . . . . . . . . .
11.2.1 Sprache als Menge . . . . .
11.2.2 Konkatenation . . . . . . .
11.3 Formale Grammatiken . . . . . . .
11.3.1 Ableitung . . . . . . . . . .
11.3.2 Grammatiktypen . . . . . .
11.4 Vertiefung . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
123
123
125
127
127
128
128
129
130
131
133
134
.
.
.
.
.
.
.
.
.
.
135
135
135
137
138
140
141
142
142
143
144
9.4
Dialogsysteme . . .
9.3.1 Typen . . .
9.3.2 VoiceXML .
Vertiefung . . . . .
.
.
.
.
12 Merkmalstrukturen
12.1 Merkmalstrukturen .
12.1.1 Motivation .
12.1.2 Rekursiv . . .
12.1.3 Als Graphen
12.2 Pfade und Werte . .
12.2.1 Koreferenz .
12.3 Unifikation . . . . .
12.3.1 Motivation .
12.3.2 Subsumtion .
12.3.3 Unifikation .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13 Unifikationsgrammatiken
145
13.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5
13.2 Unifikationsgrammatik . . . . .
13.2.1 Formalismen . . . . . .
13.2.2 Kongruenz . . . . . . .
13.2.3 Rektion . . . . . . . . .
13.2.4 Syntaktische Funktionen
13.3 Vertiefung . . . . . . . . . . . .
14 Syntax des Hilfsverbkomplexes
14.1 Verbalkomplex . . . . . . .
14.1.1 AUX rekursiv . . . .
14.1.2 IP/VP . . . . . . . .
14.1.3 m-Ebene . . . . . . .
15 Maschinelle Übersetzung
15.1 Ansätze . . . . . . .
15.1.1 Direkt . . . .
15.1.2 Transfer . . .
15.1.3 Interlingua .
15.1.4 Kombination
15.2 Vertiefung . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
147
147
149
150
151
153
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
154
. 154
. 155
. 157
. 158
Reloaded
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
161
161
162
163
164
166
166
16 Literaturverzeichnis
168
Index
174
6
Abbildungsverzeichnis
2.1
Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1
5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1
4.2
4.3
4.4
4.5
Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung
Konstituenz, Dominanz und Präzedenz in Balken-Darstellung .
Syntaktische Funktion in der NEGRA-Darstellung . . . . . . .
Syntaktische Funktionen in Balken-Darstellung . . . . . . . . .
Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
34
36
36
37
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . .
Training, Tagging und Evaluation mit dem TnT-Tagger . . . .
Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . .
Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants .
Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H.
Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H.
F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . .
Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Schmid
Schmid
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
50
51
55
56
56
57
62
63
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
7.10
OCR und Frakturschrift . . . . . . . . . . . . . . . . . . . . .
In PubMed erfasste wiss. Artikel (2008 unvollständig) . . . .
Suchoption für Inhaltsverzeichnis . . . . . . . . . . . . . . . .
Eingescanntes Inhaltsverzeichnis . . . . . . . . . . . . . . . .
Sachbegriff-Indexierung im NEBIS . . . . . . . . . . . . . . .
Sachbegriff und Varianten im NEBIS . . . . . . . . . . . . .
Textuelle Zusatzinformation im NEBIS . . . . . . . . . . . .
Automatisches Indizieren von OPAC-Informationen: Gut . . .
Automatisches Indizieren von OPAC-Informationen: Schlecht
Generelle Architektur von IR-Systemen . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
65
66
67
68
68
69
73
73
74
8.1
8.2
8.3
8.4
8.5
8.6
8.7
Wordle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Grundmodell des inhaltsbasierten Textzusammenfassen . . . . . . . .
Telegraphische Verkürzungstechnik . . . . . . . . . . . . . . . . . . . .
Information-Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . .
Information-Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . .
Beispiel eines typischen IE-Systems . . . . . . . . . . . . . . . . . . . .
Verknüpfung von NER, Hintergrundinformation und Textinformation
www.ontotext.com/kim/ . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
http://
. . . . .
.
.
.
.
.
.
78
79
80
82
83
83
9.1
9.2
9.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 84
Architektur von MARY-TTS-System . . . . . . . . . . . . . . . . . . . . . . . . . 91
IPA-Symbole für Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Satzintonation im Deutschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7
9.4
9.5
9.6
9.7
Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons
Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . .
Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . .
Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . .
10.1 Automatisierungsgrade der Übersetzung . . . . . . . . . . . .
10.2 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . .
10.3 Beispiel: Fuzzy-Match mit 81% Übereinstimmung . . . . . . .
10.4 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . .
10.5 Parametrisierung der Alignierung bei SDL Trados WinAlign .
10.6 Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign
10.7 Export der Alignierung als TM . . . . . . . . . . . . . . . . .
10.8 Terminologie-Verwaltung mit Termbase . . . . . . . . . . . .
10.9 “Rohübersetzung” von erkannter Terminologie . . . . . . . .
10.10Situationen zu “The pen was in the box” . . . . . . . . . . . .
10.11Situationen zu “The box was in the pen” . . . . . . . . . . . .
10.12Korrelation von menschlichen und BLEU-Bewertungen . . . .
2006a])
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
95
98
99
100
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
103
104
105
105
107
108
108
109
110
115
116
122
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11.1 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . . . . . . . . . . 125
11.2 Beispiel für Linksderivation und Parsebaumkonstruktion . . . . . . . . . . . . . . 131
11.3 Teilmengenbeziehungen der Sprachklassen von Chomsky . . . . . . . . . . . . . . 133
12.1
12.2
12.3
12.4
12.5
Merkmalstruktur als gerichteter Baum . . .
Kästchennotation . . . . . . . . . . . . . . .
Koreferente Merkmalstruktur als Matritze .
Koreferente Merkmalstruktur als gerichteter
Koreferente Merkmalstruktur als gerichteter
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
139
141
141
142
15.1
15.2
15.3
15.4
15.5
Transfer-Übersetzung im Bild . . . . . . . . . . . . . . . . . . . .
Transfer-Übersetzung im Detail . . . . . . . . . . . . . . . . . . .
Transfer-Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lexikalische Überschneidungen nach Somers . . . . . . . . . . . .
Verbindung von direkter, Transfer- und Interlingua-Übersetzung
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
164
165
165
166
166
8
. . . .
. . . .
. . . .
Graph
Graph
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 Organisatorisches
1.1 Organisatorisches
Konzept und Inhalt der Vorlesung
• “Einführung in die Computerlinguistik I (+ II)” vermittelt die wichtigsten praktischen
und theoretischen Ziele der Computerlinguistik in .
• Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestimmung, flache Syntaxanalyse), wichtige Anwendungen (Sprachsynthese, Spracherkennung,
Textsuche Text-Mining, Informationsextraktion, Textzusammenfassung, Maschinelle Übersetzung) sowie Methoden und Probleme der automatischen Syntaxanalyse.
• Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammatikalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieft
wird.
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Kurs namens “CL_09_HS_ECL 1”: Merkblatt zum Einstieg in OLAT [Roth 2008]
• https://www.olat.uzh.ch/olat/auth/repo/go?rid=1140719618
• Folienskript im 4-up-Format (farbige und SW-Version) als PDF-Dokument unter “Vorlesungsunterlagen”
• Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index und Ergänzungen http://www.cl.uzh.ch/siclemat/lehre/hs09/ecl1/script/html/script.
html
Unser (3. Auflage leider erst ab November 2009 erhältlich):
• Carstensen et al. Hgg. (2004): Computerlinguistik und Sprachtechnologie: Eine Einführung. Elsevier, München, 2004. ISBN 3-8274-1407-5. → Es werden elektronische Versionen
der relevanten Abschnitte zur Verfügung gestellt. Siehe auch http://www.cl.uzh.ch/CL/
CLBuch/buch.html
Lehren und Lernen
Commitments
• Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten.
• Wir brauchen Ihre Rückmeldung, um suboptimale Elemente unserer Lehrarbeit zu verbessern.
• Sie engagieren sich, die für ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden.
• Sie brauchen unsere Rückmeldung, um suboptimale Elemente Ihrer Lernarbeit und Ihres
Lernerfolgs zu verbessern.
9
12 schriftliche Übungen (SU)
• Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach: 33% der Schlussnote
• (Wahlmöglichkeit bis in 4. Woche) für Lizenziats-Studierende: 33% der Note der Teilakzessprüfung
• -System pro SU
• : 6 (10-12 SU); 5.5 (9 SU); 5 (8 SU); 4.5 (7 SU); 4 (6 SU); 3.5 (5 SU); 3 (4 SU); 2.5 (3
SU); 2 (2 SU); 1.5 (1 SU); 1 (0 SU)
• Keine Musterlösungen, dafür Vor- und Nachbesprechung, in und auf OLAT
• Übungsstunden bei Luzia Roth am Freitag 12.15-13.45 (!) im Raum BIN 0.B.06
• Start in der 2. Semesterwoche
• Abgabe der letztwöchigen Übungen und Ausgabe der neuen Übungen jeweils am Mittwoch
18h.
Hochrechnung zum Workload für 4 ECTS-Punkte
“Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berücksichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14, Abs.
2)
[Universitätsrat 2004]
• 1 ECTS-Punkt der Uni Zürich = 30h geistige Arbeit
• Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung:
2 × 14 × 2h = 56h
• Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvorbereitung:
120h − 56h − 1h
= 4.5h
14
• Mindestens 1h, um uns mitzuteilen, was wir verbessern sollen. . .
E-Learning
CLab
Teile der Vorlesung und Übungen werden durch Lerneinheiten aus unserem interaktiven, webbasierten Computerlinguistik-Laboratorium (CLab) unterstützt. http://www.cl.uzh.ch/clab
Applikationen auf CL-UNIX-Servern
Für einige Übungen oder zur Vertiefung stehen CL-Applikationen auf unseren Servern zur Verfügung. Von den Computern in den Übungsräumen aus sind diese problemlos nutzbar.
Wer die Übungsstunde nicht besuchen kann bzw. von Zuhause aus arbeitet, braucht dazu VPN
(Virtual Private Network), SSH (Secure Shell bzw. Putty) und einen X11-Klienten. Anleitungen
dazu im Kurs „Programmiertechniken der CL“ oder via Anleitungen.
10
Schriftliche Prüfung
• Zeit: Donnerstag, 14.1.2010, von 16.15 - 17.45h
• Dauer: 90 Minuten
• Stoff: Skript, Übungen, Pflichtlektüren
• Bitte das für Sie gültige Infoblatt zur Leistungsüberprüfung genau lesen! [ICL 2007b,
ICL 2007a]
1.2 Kontrollfragen
• Sind Buchungsfristen für Sie relevant? Wenn ja, bis wann können Sie sich noch einschreiben, bzw. das Modul stornieren?
• Wieviele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch auf
eine 5 aufgerundet wird?
• Wieso sollten Sie die Übungsstunde besuchen?
• Welche Hauptthemen werden in dieser Vorlesung besprochen?
11
2 Was ist CL?
Lernziele
• Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie und
Linguistik
• Kenntnis der zentralen Anliegen der modernen Computerlinguistik
• Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welche
mit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind
• Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte
(Pflichtlektüre)
• Kenntnis der Krux der Sprachverarbeitung
2.1 Motivation
CL-haltige Produkte im (Computer-)Alltag
• Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)
• Elektronische Wörterbücher (Thesauri)
• Automatische Übersetzung
• Recherchen im WWW
• Auskunftssysteme (z.B. [Kassensturz 2006])
• ...
2.2 Fachrichtungen
2.2.1 Computerlinguistik
Was ist CL?
Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) ist
eine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sich
mit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt.
Frage
Ist das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendung
von CL?
Frage
Ist die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)
eine frühe Anwendung von CL?
12
Sprachsynthese nach Kempelen
Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibung
einer sprechenden Maschine” (1791) [Traunmüller 1997]
2.2.2 Sprachtechnologie
Was ist Sprachtechnologie?
Definition 2.2.2. Sprachtechnologie beschäftigt sich mit der praxis- und anwendungsbezogenen, ingenieursmässig konzipierten Entwicklung von Sprachsoftware.
2.2.3 Weiteres
Verwandte/Alternative Fachbezeichnungen
Deutsch
Linguistische Datenverarbeitung (LDV)
Maschinelle Sprachverarbeitung
Automatische Sprachverarbeitung (ASV)
Computerphilologie
Sprachtechnologie
Texttechnologie
Korpuslinguistik
Medieninformatik
Linguistische Informatik
Informationslinguistik
Englisch
Linguistic and Literary Computing (LLC)
Natural Language Processing (NLP)
(Natural) Language Engineering (NLE)
Computational Philology
Speech Processing
Human Language Technology (HLT)
Text Technology
Corpus Linguistics
13
QUIZ: Was ist was? [Weisser 2005]
Frage 1: Welche Fachrichtung wird hier beschrieben?
The use and possibly also compilation of computer-based text materials to investigate linguistic phenomena and ways of teaching about language.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 2: Welche Fachrichtung wird hier beschrieben?
The compilation, annotation and use of written and spoken corpora for the investigation of linguistic phenomena, mainly by means of easy to use software.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 3: Welche Fachrichtung wird hier beschrieben?
The automated analysis and modelling of language by means of sophisticated programming techniques.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 4: Welche Fachrichtung wird hier beschrieben?
The creation and application of corpora for use in computer-based systems, such as
speech recognition engines, translation systems, etc.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
14
Schwerpunkte der verwandten Disziplinen
• , logikbasierte vs. , probabilistische Methoden
• - vs.
• als Proof-Of-Concept (“Kann man sowas überhaupt?” vs. effiziente (kommerziell einsetzbare) Systeme
• vs. Forschung
• vs. Sprache (Text)
• Psychologische/Neurologisch vs. ingenieurmässige
2.2.4 Moderne Computerlinguistik
4 zentrale Anliegen der modernen Computerlinguistik
• Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf dem
Computer
• Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grundformen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikalischen Ressourcen (Lexika)
• Entwicklung realistischer und technologisch fortschrittlicher Anwendungen
• Entwicklung und Durchführung von Evaluationen sprachverarbeitender Systeme und Komponenten
2.3 Nachbardisziplinen
Nachbardisziplinen in Übersicht
• : formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpuslinguistik für
empirische Basis
• : praktische und theoretische Informatik (Was lässt sich mit welchem Formalismus wie
effizient berechnen?); Künstliche Intelligenz
•
• und
• : Mengenlehre (Funktionen, Relationen, Graphen) und Statistik
15
2.3.1 Linguistik
Linguistik
Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). Die
Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der
Sprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Semantik und Pragmatik.
Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitäten
und hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest.
Lautlehre: Phonetik und Phonologie
Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasst
die artikulatorische, akustische und auditive Ebene.
Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist die
Lehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaften
Eigenschaften und Beziehungen.
Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung).
1. Dieb /di:p/
2. Diebe /di:b@/
Exkurs: Internationales Phonetisches Alphabet (IPA)
Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schriftliches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. Die
IPA-Notationen für die Laute des Standarddeutschen sind in [Carstensen et al. 2004, 156]
erklärt.
Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alle
Schriftsysteme der Welt wiedergeben können will.
Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- und
Kleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute und
andere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin:
di:b@.
Wortlehre: Morphologie
Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Struktur der Wörter und ihrer Bildung.
Beispiel 2.3.6 (Flexion).
1. Dieb#e Dieb-Plural “Mehr als ein Dieb”.
2. Dieb#e Dieb-Dativ “dem Dieb”
16
Satzlehre: Syntax
Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Aufbau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen.
Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit).
1. Der gewitzte Dieb stahl den Diamanten.
2. *Der Dieb gewitzte stahl den Diamanten.
3. *Den gewitzten Dieb stahl den Diamanten.
Bedeutungslehre: Semantik
Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter
(lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten
(Diskurssemantik).
Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).
1. Die Polizei beschlagnahmte das Diebesgut gestern.
2. Das Diebesgut beschlagnahmte die Polizei gestern.
3. Das Diebesgut wurde gestern von der Polizei beschlagnahmt.
4. Die Beschlagnahmung des Diebesgut durch die Polizei war gestern.
5. [Die Polizeii fasste die Täterin gestern.] Siei beschlagnahmte gleichzeitig das Diebesgut.
Lehre von der Sprachverwendung: Pragmatik
Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungen
von Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation in der
Welt.
Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit).
1. Ist das Fenster auf?
2. Bitte schliessen Sie das Fenster!
2.3.2 Kognitionswissenschaft
Kognitionswissenschaft
Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäre
Erforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguistik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Lernen, Motorik und Sprache gezählt.
Geschichte der Kognitionswissenschaft
Exzellenter Artikel in [Wikipedia 2009]
17
Turing-Test: Können Maschinen denken?
Turing-Test im Original [Turing 1950]
The new form of the problem can be described in terms of a game which we call the ’imitation
game’. It is played with three people, a man (A), a woman (B), and an interrogator (C) who
may be of either sex. The interrogator stays in a room apart front the other two. The object of
the game for the interrogator is to determine which of the other two is the man and which is
the woman. He knows them by labels X and Y, and at the end of the game he says either “X
is A and Y is B” or “X is B and Y is A”. [. . . ]
We now ask the question, “What will happen when a machine takes the part of A in this game?”
Will the interrogator decide wrongly as often when the game is played like this as he does when
the game is played between a man and a woman? These questions replace our original, “Can
machines think?”
Reale Turing-Tests
Seit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welche
den Turing-Test bestehen wollen. Preisträgersysteme lassen sich teilweise im WWW direkt
ausprobieren. [Wikipedia 2006] Das Ziel dieser Test lautet: Kann eine Maschine so antworten
in einem Dialog, dass man sie nicht mehr von einem Menschen unterscheiden kann?
2.4 Die Krux der Mehrdeutigkeit
Mehrdeutigkeit [Jurafsky und Martin 2000, 4]
Beispiel 2.4.1.
I made her duck.
Einige Paraphrasen, d.h.
1. I cooked waterfowl for her.
2. I cooked waterfowl belonging to her.
3. I created the (plaster?) duck she owns.
4. I caused her to quickly lower her head or body.
5. I waved my magic wand and turned her into undifferentiated waterfowl.
Fragen
Welche Einheiten sind mehrdeutig? Auf welcher Ebene der linguistischen Analyse werden die
Mehrdeutigkeiten aufgelöst (desambiguiert) in den Paraphrasen?
2.5 Vertiefung
• Pflichtlektüre [Carstensen et al. 2004, 1–23] http://www.cl.uzh.ch/CLBuch/kap1A2.
pdf
• Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chatterbox Contests 2003)
18
2.5.1 Kontrollfragen
• Welche Disziplinen verbindet die Computerlinguistik? Mit welchen Disziplinen steht sie
in enger Nachbarschaft?
• Geben Sie je ein Beispiel, welches die Analyseebenen der verschiedenen linguistischen
Teildisziplinen illustriert.
• Was ist der Unterschied von Computerlinguistik und Sprachtechnologie?
• Nennen Sie 3 Bezeichnungen für Fachausrichtungen, welche teilweise ähnliche Ziele verfolgen wie die CL oder Sprachtechnologie. Wo können unterschiedliche Schwerpunkte ausgemacht werden? (Recherchieren Sie dafür allenfalls im Web zu den einzelnen Stichworten.)
• Was ist von der modernen Computerlinguistik gefordert?
19
3 Linguistisches Propädeutikum I
Lernziele
• Kenntnis der Begriffe Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma, Lexemverband
• Kenntnis der Wortartenlehre für Deutsch
• Kenntnis der morphologischen Kategorien für Deutsch und Englisch
• Kenntnis und Anwendung des Stuttgart-Tübingen-Tagsets (STTS) mit Hilfe der Referenzkarte
• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von Morphologie und Wortarten
• Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Analyse und Generierung
3.1 Wort
3.1.1 Definition
Wort
Definition 3.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind.
Beispiel 3.1.2 (Was ist ein Wort?).
1. Sie wollte vor allem am 1. Spiel teilnehmen.
2. Sie nahm z.B. an dem 2. Spiel teil.
3. Das gibts doch nicht!
4. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit [. . . ]
Präzisierungsversuche des Wort-Begriffs
Sprachliche Ebenen zur Präzisierung des Wort-Begriffs
• phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oder
Knacklaut theoretisch isolierbares Lautsegment
• orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit
20
• morphologisch: Grundeinheit, welche flektierbar ist
• lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist
• syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes
Gängige Wortauffassungen [Linke et al. 2001]
Wieviele verschiedene Wörter hat dieser Satz?
Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.
Antworten
4
5
6
9
__
3.1.2 Token
Antwort 9: Wort als Vorkommen einer Wortform
Wieviele verschiedene Wörter hat dieser Satz?
Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen6 Fliegen7 Fliegen8 nach9 .
Definition 3.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einem
Text.
Bemerkung
In der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwort
wäre dann . . .
3.1.3 Wortform
Antwort 5: Wort als Wortform
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 .
Definition 3.1.4 (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes.
Beispiel 3.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung).
• Die Fliege war tot.
• Er trug eine samtene Fliege.
• Fliege nicht so schnell!
21
3.1.4 Syntaktisches Wort
Antwort 6: Wort als syntaktisches Wort
Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen5 Fliegen4 Fliegen3 nach6 .
Definition 3.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortform
kombiniert mit ihren morphosyntaktischen Merkmalen.
Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normalerweise zusammengefasst.
Beispiel 3.1.7 (Wortform vs. syntaktisches Wort).
Die Wortform „Fliegen“ kann mindestens 4 syntaktische Wörter repräsentieren: „Fliege“ in
Nominativ, Akkusativ, Dativ oder Genitiv Plural.
3.1.5 Lexem
Antwort 5: Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 .
Definition 3.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syntaktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,
Numerus, Tempus usw.) unterscheiden.
Definition 3.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikographische Standard-Notation für ein Lexem.
Beispiel 3.1.10 (Lexikographische Notationskonventionen im Deutschen).
Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular repräsentiert.
Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert?
Antwort 4: Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 , fliegen3 Fliegen3 Fliegen3 nach4 .
Definition 3.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eine
Menge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivationsstamm) basiert.
Beispiel 3.1.12 (Derivationen von „fliegen“ in Canoo).
Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wortbildungsinformation in http://www.canoo.net illustriert dies schön.
Abstraktionsstufen
• Eine Wortform ist die Menge aller Vorkommen von identischen Token.
• Ein syntaktisches Wort ist eine Menge aller Vorkommen von Token mit denselben morphosyntaktischen und semantischen Eigenschaften.
• Ein Lexem ist eine Menge aller syntaktischen Wörter, welche sich nur in ihren morphosyntaktischen Merkmalen unterscheiden.
• Ein Lexemverband ist eine Menge aller Lexeme, für die eine gemeinsame Wurzel (oder
Derivationsstamm) angenommen wird.
22
3.2 Lehre von den Wortarten
Wortarten nach [Bussmann 2002]
Definition 3.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis der
Klassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder semantischen Kriterien.
Historisches [Gallmann und Sitta 2001]
Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahrhundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemäss
Adelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Pronomen, Artikel, Adverb, Präposition,
Konjunktion, Interjektion, Numerale
Mit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung
durch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwendet.
3.2.1 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 3.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]
Welcher Fachbegriff wäre präziser anstelle von “Wörter” in der Abbildung?
3.2.2 STTS
Stuttgart/Tübingen-Tagset (STTS)
• http://www.cl.uzh.ch/clab/hilfe/stts/
23
• Das Standard-Tagset des Deutschen [Schiller et al. 1999] (vergleichbar mit dem PennTreebank-Tagset für Englisch)
• Wichtige linguistische Korpora wie NEGRA-Korpus oder TIGER-Korpus sind mit STTS
annotiert. III
• Frei verfügbare Werkzeuge zum automatischen Bestimmen von Wortarten (sogenannte
“Tagger”) liefern mit STTS-Tags versehenen Output.
• Eine Notationsvariante von STTS ist als europäischer Standard für Deutsch (EAGLES
ELM-DE) [EAGLES 1996] spezifiziert worden.
• Alternativen: Münsteraner Tagset [Steiner 2003]
Besonderheiten von STTS
• ‘Wortarten’ für satzinterne und -finale Interpunktion ($,, $. . . . )
• Kategorie für fremdsprachliches Material (FM)
• Feine Aufgliederung bei Glinzschen Partikeln: Antwortpartikel (PTKANT), Negationspartikel (PTKNEG) usw.; Konjunktionen, Adverbien usw.
• Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativpronomen (PDS) usw.
• Durchgängige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Pronomen):
“Diese/PDAT Kuh muht.” vs. “Diese/PDS muht.”
• Eigennamen (NE) sind eine semantisch definierte Klasse.
QUIZ zu Wortarten
Wo stecken in den folgenden Sätzen besondere Schwierigkeiten? Wieso?
Er kannte ihn schon als kleines Kind.
Die Wissenschaft selbst ist ein kompliziertes System.
Ich habe noch nie solch eine Geschichte gehört.
Er ist erkrankt.
Auf der einen Seite ist es so, aber ...
Der Mann, von dessen Vater das Buch handelt, ist ...
Er kam plötzlich und ohne anzuklopfen herein.
Er wartete bis um 5 Uhr.
3.3 Morphologische Merkmale
Morphologische Kategorien und ihre Merkmale
Definition 3.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologischen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Numerus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung)
realisiert werden.
24
Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems
• von Verben
• von Nomen, Adjektiven, Artikeln und Pronomen
• von Adjektiven (und wenigen Adverbien)
Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?
Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilung
nicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einige
Adverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten”
. . . ).
Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektive
als Flexion betrachtet.
Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, ist
die Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus und
komparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.
Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sind
oder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann muss
es wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein.
Welche denn?
3.3.1 Genus
Das Genus (engl. gender ): Grammatisches Geschlecht
Fachbegriff
Maskulinum
Femininum
Neutrum
Unterspezifiziert
Deutsch
männlich
weiblich
sächlich
n/a
Englisch
masculine
feminine
neuter
n/a
STTS
Masc
Fem
Neut
*
Beispiel
Elephant
Gazelle
Huhn
Ferien
Tabelle 3.1: Übersicht: Genera
Bemerkung
Der Plural von Genus lautet Genera.
Beispiel 3.3.2 (Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?).
3.3.2 Numerus
Der Numerus (engl. number ): Grammatische Zahl
Bemerkung
Der Plural von Numerus lautet Numeri.
Beispiel 3.3.3 (Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?).
25
Fachbegriff
Singular
Plural
Deutsch
Einzahl
Mehrzahl
Englisch
singular
plural
STTS
Sg
Pl
Beispiel
Huhn
Hühner
Tabelle 3.2: Übersicht: Numeri
3.3.3 Kasus
Der Kasus (engl. case): Fall
Fachbegriff
Nominativ
Genitiv
Dativ
Akkusativ
Deutsch
Werfall
Wesfall
Wemfall
Wenfall
Englisch
nominative
genitive
dative
accusative
STTS
Nom
Gen
Dat
Akk
Beispiel
der Baum
des Baumes
dem Baum
den Baum
Tabelle 3.3: Übersicht: Kasus
Bemerkung
Der Plural von Kasus lautet Kasus.
3.3.4 Modus
Der Modus (engl. mode, mood ): Aussageweise
Fachbegriff
Indikativ
Konjunktiv
Deutsch
Wirklichkeitsform
Möglichkeitsform
Englisch
indicative
subjunctive mood
STTS
Ind
Subj
Beispiel
er geht
er gehe
Tabelle 3.4: Übersicht: Modi
Im STTS steht eigentlich für Konjunktiv das Kürzel Konj. Subj ist eine Modifikation im TIGERModell.
Bemerkungen
Der Plural von Modus lautet Modi.
Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist dies
durch das V.IMP ausgedrückt.
3.3.5 Tempus
Das Tempus (engl. tense): grammatische Zeit, Zeitform
Fachbegriff
Präsens
Präteritum
Deutsch
Gegenwart
Vergangenheit
Englisch
present tense
past tense
STTS
Pres
Past
Tabelle 3.5: Übersicht: Tempora
Bemerkungen
26
Beispiel
er geht
er ging
Der Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien für
Tempus? Im Deutschen gibt’s doch viel mehr Zeiten.
3.3.6 Person
Die Person (engl. person)
Fachbegriff
1. Person
2. Person
3. Person
Deutsch
Sprecher
Angesprochene
Person, Sachverhalt
Englisch
first person
second person
third person
STTS
1
2
3
Beispiel
ich gehe
du gehst
er geht
Tabelle 3.6: Übersicht: Personen
Bemerkungen
Der Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich.
Bei welchen Wortarten ist die Kategorie Person ausgeprägt?
3.3.7 Grad
Der Grad (engl. degree): Steigerung, Komparation
Fachbegriff
Positiv
Komparativ
Superlativ
Deutsch
Normalform
Vergleichsform
Höchststufe
Englisch
positive
comparative
superlative
STTS
Pos
Comp
Sup
Beispiel
schlau
schlauer
schlauste
Tabelle 3.7: Übersicht: Komparation
Bei welchen Wortarten ist die Kategorie Grad ausgeprägt?
3.3.8 Adjektiv-Flexion
Die Adjektiv-Flexion (engl. adjective inflection)
Fachbegriff
Schwache Flexion
Gemischte Flexion
Starke Flexion
Deutsch
mit best. Artikel
mit ein, kein,. . .
ohne Artikel
Englisch
weak
mixed
strong
STTS
Schw
Mix
St
Beispiel
der schlaue Fuchs
keine schlauen Füchse
schlaue Füchse
Tabelle 3.8: Übersicht: Adjektiv-Flexion
Bei welchen Wortarten ist die Kategorie Adjektiv-Flexion ausgeprägt?
27
Beispiel 3.3.4 (Flexion von “schlau”).
Darstellung bei den Canoo-Sprachtools: III
3.4 Computermorphologie
3.4.1 Lemmatisierung/Morphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 3.4.1 (Grundformbestimmung). Die Lemmatisierung ist die Bestimmung der Lemmas, welche einer Wortform zugrunde liegen.
Definition 3.4.2 (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der morphologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lexem.
Lemmatisierung und Morphologieanalyse mit GERTWOL
http://www2.lingsoft.fi/cgi-bin/gertwol
Verbrechens
"Verb#rechen" S MASK SG GEN
"Verb#rech~en" S NEUTR SG GEN
"Ver|brech~en" S NEUTR SG GEN
eine
"ein" ART INDEF SG NOM FEM
"ein" ART INDEF SG AKK FEM
"einer" PRON INDEF SG NOM FEM
"einer" PRON INDEF SG AKK FEM
"ein~en" V IND PRÄS SG1
"ein~en" V KONJ PRÄS SG1
"ein~en" V KONJ PRÄS SG3
"ein~en" V IMP PRÄS SG2
3.4.2 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 3.4.3 (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen von
syntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation.
Beispiel 3.4.4 (Generieren mit STTS-Tags).
gehen + VVFIN:2.Sg.Past.Ind → gingst backen + VVFIN:2.Sg.Past.Subj →
3.5 Vertiefung
• Referenzkarte zu STTS und dem NEGRA-Sprachmodell [Referenzkarte 2009]
• Manuals für das Programm annotate [Plaehn 2000, Plaehn 1998]
• http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminologie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.
28
Pflichtlektüre
Nachschlagen von mindestens 15 Tags im Annotationshandbuch [Schiller et al. 1999] bei Unsicherheit im Annotieren von Wortart und morphologischer Kategorie
3.5.1 Kontrollfragen
Kontrollfragen
• Welche verschiedenen Auffassungen verbergen sich hinter dem Wort „Wort“?
• Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriteriren.
• Worin besteht Morphologieanalyse und -generierung?
• Welche STTS-Tags (inklusive Morphologie) müssten bei den Wörtern der 1. Kontrollfrage
zugeordnet werden?
• Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in Ihrem
Dialekt?
• Was ist der Unterschied zwischen Lemma und Lexem?
29
4 Linguistisches Propädeutikum II
Lernziele
• Anwendung der klassischen syntaktischen Proben
• Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied,
Phrase
• Kenntnis der wichtigsten syntaktischen Funktionen
• Kenntnis und Anwendung des TIGER/NEGRA-Annotationsschemas mit Hilfe der Referenzkarte
• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von syntaktischen Strukturen
• Erfahrungen mit der einfachen Suche von syntaktischen Strukturen in einer Baumbank
4.1 Linguistische Proben
Linguistische Testverfahren
Definition 4.1.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Analyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, um
grammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können.
4.1.1 Ersatzprobe
Ersatzprobe
Definition 4.1.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einen
grammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestes
muss dabei unverändert bleiben.
Beispiel 4.1.3 (Bestimmung des Kasus).
Probe
Baumprobe
Baumprobe
Frageprobe
Frageprobe
Mehrdeutig
Peter ist zornig
Peter ist heiss
Peter ist zornig
Peter ist heiss
Eindeutig
Der Baum ist zornig
Dem Baum ist heiss
Wer ist zornig
Wem ist heiss
Kasus
Nom
Dat
Nom
Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.
Beispiel 4.1.4 (Bestimmung der Wortart von “das”).
30
• Das ist das Angebot, das uns überzeugt hat.
• Dieses ist das Angebot, welches uns überzeugt hat.
• * Welches ist das Angebot, dieses uns überzeugt hat.
• ? Das ist dieses Angebot, welches uns überzeugt hat.
Probleme der Interpretation
• Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Interpretation des Satzes.
• Ob die Interpretation des Satzrestes sich ändert durch den Ersatz, ist nicht immer leicht
zu beurteilen.
4.1.2 Einsetzprobe
Einsetzprobe
Definition 4.1.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext eingesetzt, der ihn grammatisch eindeutig interpretiert.
Beispiel 4.1.6 (Bestimmung der Wortart).
Probe
Attributivprobe
Attributivprobe
Mehrdeutig
Das war billig
Das war gratis
Eindeutig
Der billige Baum
*Der gratis Baum
Wortart
Adjektiv
Adverb
Einsetzen in Flexionsparadigmen
Eine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugation
für Verben oder Steigerung für Adjektive.
4.1.3 Weglassprobe
Weglassprobe
Definition 4.1.7. In der Weglassprobe wird von einem grösseren mehrdeutigen Ausdruck soviel
Material wie möglich entfernt, um einen eindeutigen Ausdruck zu erhalten.
Beispiel 4.1.8 (Bestimmung eines Satzglieds).
1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
Frage
Warum nicht Variante 4?
31
4.1.4 Verschiebeprobe
Verschiebeprobe
Definition 4.1.9. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt,
so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert.
Damit lassen sich die Anfang und Ende von Satzgliedern erkennen.
Beispiel 4.1.10 (Bestimmung von Satzgliedern).
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. Morgen bereite ich die Sitzung mit dem Chef vor.
3. Ich bereite die Sitzung mit dem Chef morgen vor.
Regeln: Tausche immer 2 Kandidaten aus, um nicht unnötig ungrammatische (Pseudo-)Sätze
zu erzeugen. Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb.
Verschiebeprobe
Beispiel 4.1.11 (Unzulässiges Verschieben).
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. * Morgen ich bereite die Sitzung mit dem Chef vor.
3.
# Die
Sitzung bereite ich morgen mit dem Chef vor.
Gründe
Pseudo-Satz 2 ist ungrammatisch. . . . Satz 3 hat eine andere Bedeutung bekommen durch die
Umstellung.
4.1.5 Umformungsproben
Umformungsprobe
Definition 4.1.12. In der Umformungsprobe werden Sätze umfassend umgebaut.
Beispiel 4.1.13 (Funktion von Nebensätzen).
1. Es würde mich freuen, wenn du mitkämest .
2. Dein Mitkommen würde mich freuen.
Der Nebensatz mit “wenn” erfüllt eine analoge Funktion wie “Es”.
Beispiel 4.1.14 (Infinitivumformung zur Subjekterkennung).
1. Die Lärche ist ein Nadelbaum.
2. ein Nadelbaum sein / die Lärche
32
4.2 Satz
Satz
Definition 4.2.1 (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprachspezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, die
hinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängig
ist.
Definition 4.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einem
finiten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satz
zusätzliche Angaben enthalten.
4.3 Syntaxanalyse
4.3.1 Konstituenz
Konstituenz
Definition 4.3.1 (nach [Bussmann 2002]). Konstituente. In der strukturellen Satzanalyse [sog.
Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die Teil
einer grösseren sprachlichen Einheit ist.
Definition 4.3.2 (nach [Bussmann 2002]). Ziel und Ergebnis der Konstituentenanalyse ist die
Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge von Konstituenten.
Definition 4.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und
linearen Präzedenz zwischen Konstituenten.
Konstituenten in der annotate-Darstellung
Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente.
Konstituenten in der Balken-Darstellung
Konstituenten überspannen als Balken die von ihnen dominierten Tokens.
4.3.2 Köpfe (oder Kerne) von Konstituenten
Syntaktische Köpfe (engl. head ) / Kern (engl. kernel )
Definition 4.3.4. Ein Kopf oder Kern einer Konstituente ist diejenige Unterkonstituente, welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der die Geschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar (Weglassprobe).
Beispiel 4.3.5 (Welches ist der Kern der geklammerten Konstituenten?).
1. Er [hält ihm den Ausweis unter die geschwollene Nase].
2. Sie rennt [mit dem Mobile hantierend] zum Kiosk.
33
L!
SOT
L<
!
SOR
!N
M;
A:
Syntaktische
Konstituente
unmittelbare
Dominanz
!"#
.#/#0
O
+@
'($)(*(+,-
'($)($4#5(306
L<
+@
.#78.9#
1123+
L;
+$
SOO
P
$$%&
M;
L+$
SOQ
L<
Konstituente auf
Wortebene
!1$
1#4>"06?0.#0
Q
:;<:
Präzedenz
auf
$,5(*(:==($)(!9
Wortebene
?06
'
&"5"=#0
R
++
@A+
Präzedenz
zwischen
2#-(:==($)(*
!!
Tochterkonstituenten
#"0
S
D
T
++
$B@1C
ED
1123+
+#?9(:==($)(*
!!
!!
'($)($4#5(30
Abbildung 4.1: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung
Abbildung 4.2: Konstituenz, Dominanz und Präzedenz in Balken-Darstellung
Quelle: http://www.cl.uzh.ch/siclemat/lehre/negra/s2.html
3. Es wird [viel zu oft] telefoniert.
4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt.
5. Sie fühlte sich [wie in einem schlechten Film].
6. Aber sie war auch [in einem ziemlich schlechten Film].
Konstituententypen
Typen von Konstituenten in TIGER/NEGRA
1. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern. Die
Kategorie Satz (S) hat meist finite Verbalkerne.
2. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern.
3. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetem
Partizip als Kern.
4. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern.
34
F#45?G/#0
U
5. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition als
Kern.
6. Konjunktionalgruppe, -phrase (PP): Konstituente mit der Konjunktion “als” oder “wie”
als Kern (aber nicht als Vergleichskonstruktion gebraucht): „Er fühlte sich als Gewinner.“
Koordination, Konstituenz und Köpfe
Definition 4.3.6. Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zwei
oder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht.
Beispiel 4.3.7 (Koordination von Konstituenten aus NEGRA-Korpus).
• Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35]
• Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre?
[Satz 9328]
• Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist das
die Kirche. [Satz 11’978]
Problem
Was ist der Kopf von koordinierten Konstituenten?
Keine richtige Entscheidung, denn es gibt die Konstituenten CS, CNP, CAP usw.
4.3.3 Dependenz bzw. syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 4.3.8. Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konstituenten.
Definition 4.3.9 (frei nach [Bussmann 2002]). Syntaktische Funktion ist ein Sammelbegriff für
Beschreibungsgrössen wie “Subjekt”, “Objekt”, “Prädikat”, “Adverbial”, “Attribut” u.a., welche
nach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehung
zwischen abhängigen Konstituenten zu bestimmen.
Hinweis
Innerhalb von Konstituenten ist die syntaktische Funktion des “Kopfes” fundamental, aber
traditionell wenig explizit dargestellt.
Syntaktische Funktionen in der annotate-Darstellung
Jedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominierenden Konstituente.
Syntaktische Funktion in der Balken-Darstellung
Syntaktische Funktionen als Zwischenschicht zwischen sich dominierenden Balken.
35
L!
SOT
L<
!
SOR
!N
M;
A:
Syntaktische
Funktion
!1$
M;
L+$
SOQ
L<
Konstituenten
L;
L<
+$
SOO
+@
!"#
.#/#0
O
+@
.#78.9#
P
1#4>"06?0.#0
Q
?06
'
&"5"=#0
R
#"0
S
D
T
F#45?G/#0
U
$$%&
1123+
:;<:
++
@A+
++
$B@1C
ED
1123+
'($)(*(+,-
'($)($4#5(306
$,5(*(:==($)(!9
2#-(:==($)(*
!!
+#?9(:==($)(*
!!
!!
'($)($4#5(30
Abbildung 4.3: Syntaktische Funktion in der NEGRA-Darstellung
Abbildung 4.4: Syntaktische Funktionen in Balken-Darstellung
4.3.4 Satzglieder
Einige Satzglieder mit TIGER/NEGRA-Funktion
• Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein S
oder eine VP sein!
• Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe (“ihn”)
• Dativ-Objekt (DA): Frage- (Wem?) oder Ersatzprobe (“ihm”)
• Genitiv-Objekt (OG): Frage- (Wessen?) oder Ersatzprobe (“seiner”)
• Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO):
Modifikator
• Nicht-finite Verbalteile (OC: clause object): Abhängig von flektiertem oder nicht-flektierten
Verb
• In TIGER: Präpositionalobjekte (OP), Funktionsverbgefüge (CVC)
Wichtige Gliedteile mit TIGER/NEGRA-Funktion
• Artikel, attributive Pronomen und Adjektiv(phrasen) (NK)
36
Abbildung 4.5: Moderne Satzgliedlehre nach [Stocker et al. 2004]
• Präpositionen und konjunktionales “als” oder “wie” (AC)
• Postnominale Präpositionalphrasen (MNR)
• Genitivattribute von Nominalphrasen (AG)
• Koordinierende Konjunktion (CD) und die koordinierten Konstituenten (CJ)
• Platzhalter (PH) und wiederholte Elemente (RE)
4.4 Baumbanken
4.4.1 NEGRA/TIGER
NEGRA- und TIGER-Baumbanken
• NEGRA (1997-2001): Die 1. Baumbank für Deutsch (20’000 Sätze) III
• TIGER (1999-2006): “Nachfolgeprojekt” (50’000 Sätze im Release 2.1 2006) inklusive Lemmatisierung und Morphologieanalyse http://www.ims.uni-stuttgart.de/projekte/TIGER/
TIGERCorpus/
Eigenheiten von NEGRA/TIGER
• PP und NP werden mit flacher Hierarchie verbaut
• Ketten von infiniten Verben (VP) sind zu verschachteln
• Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter
• Keine annotierten Köpfe in NP
• Keine explizite Unterscheidung der Satztypen
37
4.4.2 TIGERSearch
TIGERSearch: Ein modernes Suchwerkzeug
Lernen aus Beispielen
Beim Annotieren ist es hilfreich, aus bereits (hoffentlich korrekt!) annotiertem Material zu
lernen!
Die 3 Hauptfunktionen von TIGERSearch
Abfrage-Sprache (investigation)
Visualisierung der Suchresultate und Baumbank (exploration)
Einfache statistische Auswertung (condensation)
Grundlegende Suchrezepte
Eckige Klammern stehen für Konstituenten (Knoten) eines Syntaxbaumes. Beschreibungen auf
der Ebene der Wörter (word), Wortarten (pos), Phrasen (cat) spezifizieren darin die möglichen
Treffer.
• Wie wird das Wort “der” verwendet?
[ word="der" ]
• Mit welchen Wortarten kommt das Wort “der” wie oft vor?
brauchts für das Statistikmodul als Knoten-Identifikator)
#w:[ word="der" ](#w:
• Welche Adverbien kommen vor?
#w:[ pos="ADV" ]
• Welche koordinierten NP kommen vor?
#p:[ cat="CNP" ]
• Welche Dativobjekte kommen vor?
[ ] >DA #da:[ ]
NB: [] > []: unmittelbare Dominanz; [] . []: lineare Präzedenz
4.5 Vertiefung
• Pflichtlektüre: Das Kapitel Baumbanken [Carstensen et al. 2004, 414ff.], das weitere
Baumbanken vorstellt. (Verfügbar als Arbeitsmaterial in OLAT)
• Annotationshandbuch von TIGER: http://www.cl.uzh.ch/siclemat/lehre/papers/
tiger-annot.pdf
• Homepage von TIGERSearch: http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/
• Sofortbenutzung via X11: ssh -Y [email protected] (ev. -Y durch -X ersetzen; kein VPN erforderlich)
• Anleitung zu TIGERSearch mit Bildern http://www.bubenhofer.com/korpuslinguistik/
kurs/index.php?id=weitere_tiger.html
• Quiz Die Form der Satzglieder
• Quiz Satzglieder und Proben
38
5 Tokenisierung
Lernziele
• Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicher
Sprache: Text-Segmentierung und Text-Normalisierung
• Kenntnis über Methoden der Punktdesambiguierung und Satzendeerkennung
• Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (Named
Entity Recognition)
• Kenntnis über die Kodierung sprachlicher Zeichen
• Kenntnis und Umgang mit regulären Ausdrücken
5.1 Tokenisierer
5.1.1 Grundproblem
Grundproblem: Vom Zeichenstrom zur Folge von Tokens
Rohdaten
Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge von
Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.
Token: Einheit der Textsegementierung
Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse.
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
• Konsumieren der Zeichenfolge (Eingabe)
• Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung)
• Produzieren einer Folge von Tokens (Ausgabe)
5.1.2 Zeichenkodierung
Was ist ein Zeichen auf dem Computer?
• Traditionell ein Byte, d.h. eine Folge von 8 Bits (0 oder 1)
• Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle im
Binärsystem aufgefasst wird.
39
• Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskonvention aufgestellt wird: Z.B. A=65, @=64, 1=49
• Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch),
iso-latin-1 (256 Zeichen für westeuropäische Sprachen), UNICODE(ISO/IEC 10646) (über
100’000 Zeichen in Version 5.1.0 für fast alle Schriftsysteme der Welt; http://www.unicode.
org)
• Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte
Was ist ein Zeichen auf dem Computer?
• Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibt
Methoden, einen Unicode-Wert auf eine Folge von Bytes abzubilden.
• UTF-8: (Abk. für 8-bit Unicode Transformation Format) Ordnet jedem Unicode-Zeichen
eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Byte
pro Zeichen.
• Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien muss
man es wissen.
• Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damit
das Betriebssystem die Kodes fürs Auge darstellen kann.
• Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustbehaftete Konversion
Nebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch TextNormalisierung durch “Transliteration” durchführen.
$ echo "Klößchen" | iconv -f ISO_8859-1
Klosschen
-t ASCII//TRANSLIT
Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich:
$ echo "Klößchen" | iconv -f ISO_8859-1
Klchen
-t ASCII//IGNORE
5.1.3 Markup
5.1.4 Programme
Typische Beispiele für Tokenisierer
Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Programmiersprache
Beispiel 5.1.1 (Covingtons Tokenizer [Covington 2003]).
Tokenisierer in Prolog für Englisch: Konsumiere eine Textdatei oder eine Benutzereingabe und
produziere daraus eine Prolog-Liste.
40
Joe’s brother doesn’t owe us $4,567.89.
[ w([j,o,e]),
% w = Wort
w([s]),
w([b,r,o,t,h,e,r]),
w([d,o,e,s,n,t]),
w([o,w,e]),
w([u,s]),
s(’$’),
% s = Symbol
n([’4’,’5’,’6’,’7’,’.’,’8’,’9’]), % n = Zahl
s(’.’) ]
Typische Beispiele für Tokenisierer
Tokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus
• vertikalisierten Text, d.h. ein Token pro Zeile, oder
• ein Satz pro Zeile, d.h. jedes Token durch Leerzeichen getrennt.
Beispiel 5.1.2 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]).
Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei
$ cat file.txt
"Bach’sche Musik
mag Dr. Fritz. Ja."
$ cat ger-abbrev
Dr.
usw.
$ separate-punctuation +1 +s +l ger-abbrev file.txt
"
Bach’sche
Musik
mag
Dr.
Fritz
.
Ja
.
"
Typische Beispiele für Tokenisierer
Auf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL,
Python oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrücken
erlauben.
Definition 5.1.3 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck ist
eine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zu
beschreiben.
41
Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchenund-Ersetzen und Segmentieren von Zeichenketten.
Einführung in reguläre Ausdrücke
Z.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex
Typische Beispiele für Tokenisierer
Tokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl.
markup language).
Beispiel 5.1.4 (Der LT-TTT2 Tokenizer [Grover 2008]).
1. Rohtext
This is an example. There are two sentences.
2. XML-Input für Tokenisierer (Vortokenisierung)
<document>
<text>
<p>
This is an example. There are two sentences.
</p>
</text>
</document>
3. XML-Tokenisat
<document>
<text>
<p>
<s id="s1">
<w id="w3" c="w" pws="yes">This</w> <w id="w8" c="w" pws="yes">is</w>
<w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w>
<w id="w21" pws="no" sb="true" c=".">.</w>
</s>
<s id="s2">
<w id="w23" c="w" pws="yes">There</w> <w id="w29" c="w" pws="yes">are</w>
<w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w>
<w id="w46" pws="no" sb="true" c=".">.</w>
</s>
</p>
</text>
</document>
Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert.
42
5.2 Exkurs: XML
XML (eXtensible Markup Language)
Definition 5.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformte
XML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) deren
Struktur genauer vorgeschrieben und validiert werden kann.
XML in der Texttechnologie
• Textbasiertes Format, das geeignet ist, Texte und dazugehörige Metainformation programmunabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI)
• Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellen
zum Einlesen, Erstellen, Modifizieren von XML-Dokumenten
• Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
• Elemente sind von Start-Tags (“<p>”) und End-Tags (“</p>”) begrenzt.
• Leere Elemente können aus einem Tag bestehen (“<br/>”)
• Elemente dürfen hierarchisch ineinander verschachtelt werden: <p><s>...</s></p>
• Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document>
• Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag:
<s id="s2">
• Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w>
Zeichenreferenzen und Entity-Referenzen
Entitäten und Referenzen
• Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entities
bezeichnet, welche zwischen & und ; notiert werden
• Zeichenreferenzen enthalten den nummerischen Kode des bezeichneten Zeichens (#x=Hexadezimal)
Zeichen
<
"
&
Newline
43
Entität
&lt;
&quot;
&amp;
&#9;
5.3 Tokenisierung: Segmentieren von Wörtern und Sätzen
5.3.1 Problem
Naive Tokenisierung mit 3 Zeichenklassen
Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder
Interpunktion begrenzt.
• Wort-Zeichen: /[a-zA-Z0-9]/
• Einzel-Zeichen: /[.,:;?!)(" ?-]/
• Grenz-Zeichen: /\s/
Problem
Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten:
“Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit”
Teilprobleme der Tokenisierung im weiten Sinn
• Umgang mit Markup (HTML-Tags, Formatierungszeichen)
• Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie dem
Chinesischen anspruchsvoll)
• Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen beinhalten
• Erkennung von Interpunktion (Punktdesambiguierung, Satzendeerkennung)
• Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben)
• Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben)
5.3.2 Punktdesambiguierung
Erkennung von Satzenden (Satz-Segmentierung)
Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt
als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben.
Verschärfend: Verschmelzung zweier Funktionen
Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.
Beispiel 5.3.1 (Verschmelzung im Englischen).
• It was due Friday by 5 p.m. Saturday would be too late.
• Ich kenne die U.S.A. Frankreich kenne ich nicht.
Weiteres
Nicht bloss Punkte sind mehrdeutig, auch andere Interpunktion ist es, aber nicht so virulent.
44
Algorithmus zur Punktdesambiguierung nach [Grefenstette und Tapanainen 1994]
Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet.
Der Punkt ist ein Abkürzungspunkt, falls
• das Token in einer Abkürzungsliste steht.
• nach dem Token [,;a-z] folgt.
• das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht.
• das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punkt
vorkommt.
Leistungsfähigkeit
Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.
Statistische Verfahren zur Punktdesambiguierung
Prinzip
Verwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)
von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.
Interessante Merkmale für statistische Ansätze
1. Wieviele Zeichen umfasst ein Token?
2. Umfasst ein Token Ziffern oder keine Vokale?
3. Wie oft kommt das Token ohne Punkt vor?
4. Wie oft kommt nach dem Token ein grossgeschriebenes Token vor?
5. Wie oft kommt ein Token kleingeschrieben vor?
6. Welche Wortart haben die umgebenden Tokens?
5.3.3 Zeichen- und Token-Normalisierung
Text-Normalisierung
Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen.
Beispiel 5.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen).
• Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . .
• 4.8.97, 4-8-97, 4/8/97, 8/4/97
• 19000, 19’000, 19 000, 19,000
• Louisa, Luise, Louise, Luisa . . .
• doesn’t, does not
45
Rückgängig machen von Worttrennung am Zeilenende
Definition 5.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere
graphematische Modifikationen.
Beispiel 5.3.4 (Graphematische Modifikationen).
• Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt
• Holländisch: chocola-tje → chocolaatje
Rückgängig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]
Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens:
Zeilen
101’860
12’473
Rückbau
11’858
615
in %
100%
12%
in %
95%
5%
Typ
Zeilen total
mit Silbentrennung
Typ
Rückbau in existierende Tokens
Rückbau in neue Tokens
Tabelle 5.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus
Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation”
Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.
5.3.4 Named Entity Recognition
Named Entity Recognition
Definition 5.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung von
Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungsund Zeitangaben oder weitere textsortenspezifische interessierende Grössen.
Einheitliche (kanonische) Repräsentation
Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen.
Beispiel 5.3.6 (Kanonische Formen).
• USA: “U.S.A.”,“United States of America”, “U.S. of America”
• time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins”
46
5.4 Vertiefung
Zum Thema “Tokenisierung”:
• Pflichtlektüre: [Carstensen et al. 2004, 3.3.1]
• Guter Übersichtsartikel für Interessierte: [Palmer 2000]
• Gut zu lesen und methodisch einfach und instruktiv: [Grefenstette und Tapanainen 1994]
Zum Thema “Reguläre Ausdrücke”:
• http://www.cl.uzh.ch/clab/regex/
Zum Thema “XML”:
• Kapitel 2.5. Texttechnologische Grundlagen in [Carstensen et al. 2004]
47
6 Flache Satzverarbeitung
Lernziele
• Kenntnis über POS-Tagger, ihre Aufgabe und Probleme sowie über wichtige POS-Tagsets
• Kenntnis über grundlegende Evaluationsmethodik und -anwendung
• Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger
• Kenntnis über partielle syntaktische Analyse
• Kenntnis über flache und verschachtelte Chunks
6.1 Wortarten-Tagging
Wortarten-Tagging
Definition 6.1.1 (Wortarten-Tagger). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger,
kurz POS-Tagger) ist ein Programm, das für jedes Token eines Korpus die Wortart bestimmt,
indem es ein Klassifikationskürzel als Tag zuordnet.
Beispiel 6.1.2 (Zeilenformat mit Schrägstrich).
Sonderrechte/NN für/APPR Minoritätenkollektive/NN widersprechen/VVFIN
N-Best-Tagging
Tagger, welche die Wortarten mit einer Wahrscheinlichkeit versehen zurückliefern, können für
n-best-Tagging verwendet werden.
Tag-Sets für Englisch
Definition 6.1.3 (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wortarteninformation noch semantische, syntaktische oder morphologische Information. Die Grösse
eines Tag-Sets kann stark variieren.
Tag-Set
Brown
Penn
CLAWS c5
London-Lund
Grösse
87 (179)
45
62
197
Beispiel
she/PPS
she/PRP
she/PNP
she’s/RA*VB+3
Bedeutung
Pronoun, personal, subject, 3SG
Pronoun (personal or reflexive)
Pronoun personal
pronoun, personal, nominative + verb "to
be", present tense, 3rd person singular
Tabelle 6.1: Übersicht: Tag-Sets für Englisch
Penn-Treebank-Tag-Set (PTTS)
Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welches
ab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist.
48
Anforderungen an ein Programm für Tagging
Positive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]:
• Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen,
Markup).
• Effizient: Der Tagger arbeitet schnell.
• Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%).
• Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst werden.
• Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden.
6.1.1 Probleme des Taggings
Wortformen mit mehreren möglichen Tags
Mehrdeutigkeit
Im Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token.
Tag-Ambiguität im Englischen
Baseline
Nimm für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt ca. 90% richtige
Entscheidungen.
Optimierungspotential
Berücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wörter), um die Baseline-Entscheidung umzustossen.
Mehrdeutigkeit bei deutschen Wörtern
Beispiel 6.1.4 (Verteilung der Mehrdeutigkeit).
Vorkommen in einem Korpus von ca. 80’000 Token
die ART 2351 PRELS 448 PDS 4
Mehrheit NN 40
bestimmt VVPP 7 VVFIN 4 ADV 1 ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)
Dem Tagger unbekannte Wortformen haben die Ambiguitätsrate 0.
49
Abbildung 6.1: Ambiguitätsraten aus der Frankfurter Rundschau [Volk und Schneider 1998]
Unbekannte Wörter
Kein Tagger-Lexikon kann vollständig sein (Eigennamen, Komposita, Zahlausdrücke). Wie kann
ein Tagger sinnvolle Vorschläge machen?
• Unterscheidung zwischen offenen und geschlossenen Wortarten
• Daumenregeln aufgrund des Baus der unbekannten Wortformen: Wortende/Wortbeginn,
Ziffern
Beispiel 6.1.5 (Morphologische Heuristiken für Englisch).
• 98% aller Wörter auf -able sind Adjektive.
• Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname.
Nutzen und Anwendung des POS-Tagging
POS-Tagging hat sich als eine eigenständige sprachtechnologische Anwendung erwiesen, welche
effizient und zuverlässig durchgeführt werden kann, und für verschiedenste Zwecke nützlich ist:
Lemmatisierung, Lexikographie, Sprachsynthese, Spracherkennung, Dokumentensuche, Bedeutungsdesambiguierung usw.
Beispiel 6.1.6 (Sprachsynthese/Bedeutungsdesambiguierung).
• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)
Beispiel 6.1.7 (Lemmatisierung).
• eine/ART: Lemma “ein”
• eine/VVIMP: Lemma “einen”
Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe.
50
Trainingskorpus
training.tts
Getaggtes
Korpus
Training
tnt-para
ParameterDateien
training.lex
training.123
Tagging
tnt
Evaluationskorpus
eval.tts
Aufteilen
des Korpus
Testkorpus
test.tts
test.txt
Evaluation
tnt-diff
Abbildung 6.2: Training, Tagging und Evaluation mit dem TnT-Tagger
6.1.2 Fallstudie TnT-Tagger
Fallstudie TnT-Tagger: Übersicht
Fallstudie TnT-Tagger: Anpassbarkeit konkret
Man nehme . . . [Clematide 2007]
1. ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ../../uis-vonabisz.tts
Studienführer
NN
"
$(
Universität
NN
$ wc ../../uis-vonabisz.tts
9676 18154 118761 ../../uis-vonabisz.tts
2. Produziere aus 9/10 davon ein Trainingskorpus, indem alle bis auf die letzten 965 Zeilen
in eine neue Datei geschrieben werden.
$ head --lines -965
../../uis-vonabisz.tts > training.tts
3. Produziere aus dem restlichen 1/10 ein Testkorpus, indem die letzten 965 Zeilen in eine
neue Datei geschrieben werden.
$ tail --lines 965
../../uis-vonabisz.tts > test.tts
4. Trainiere über dem Trainingskorpus
51
$ tnt-para training.tts
5. Probiere aus, ob der Tagger was Vernünftiges tut.
$ tnt training /dev/stdin > out.tts
Der
Tagger
läuft
. [mit Control-D für Dateiende abschliessen
$ more out.tts
6. Erstelle ein Testkorpus.
$ cut -f 1 test.tts > eval.txt
7. Tagge das Testkorpus mit dem trainierten Modell.
$ tnt training eval.txt > eval.tts
8. Evaluiere das getaggte Evaluationskorpus gegen das Testkorpus.
$ tnt-diff test.tts eval.tts
6.2 Evaluation
Evaluation
Definition 6.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines
Wertes auf einer Werteskala aufgrund einer Messmethode.
Definition 6.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer
Validität und Reliabilität.
Definition 6.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode
sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen
wird.
Definition 6.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind.
Überlegungen zu Reliabilität und Validität
Messintention
Es soll das Verständnis von Studierenden über das Thema reguläre Ausdrücke mittels eines
Multiple-Choice-Tests geprüft werden.
Überlegung I
Wie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität und
Validität hoch ist?
Überlegung II
Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person
mehrmals gemacht wird?
52
6.2.1 Zweck
Zweck von Evaluationen
Systemverbesserung
Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert worden
ist. Die Evaluation von System A gegenüber A’ hilft einzuschätzen, inwiefern die Komponente
Z das System optimiert.
Systemvergleich
Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation
anhand einer Testaufgabe T zeigt auf, welches System besser ist.
6.2.2 Accuracy
POS-Tagger-Evaluation: Genauigkeit
Definition 6.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit
N Token ist der Anteil der korrekt getaggten Token.
Formal: Sei E die Anzahl von falsch getaggten (Vorkommen von) Token:
accuracy =
N −E
N
Beispiel 6.2.6 (Genauigkeitsberechnung).
Die Korrektheit des TnT-Taggers, welcher über 1 Million Token der Penn Treebank trainiert
wurde, beträgt im Test 96.7%. Wieviele Token wurden im Testkorpus von 100’000 Token falsch
getaggt?
Wenn man nur über 1’000 Token trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus
von 100’000 Token. Wie hoch ist die Genauigkeit?
Testmethodik
Beispiel 6.2.7 (Verbesserung von Tagging-Resultaten).
Hans ist nicht zufrieden mit den 96.7% Genauigkeit des TnT-Taggers über der Penn Treebank.
Er schreibt ein Pattern-Matching-Programm, das nach dem Tagging angewendet wird und das
möglichst viele Fehler des Taggers noch korrigiert. Nach 2 Jahren hat er damit für die Penn
Treebank eine Genauigkeit von 99.8% erreicht.
Was ist von der Aussage von Paul zu halten, dass er einen POS-Tagger für Englisch gemacht
hat, der eine evaluierte Genauigkeit von 99.8% hat?
Häufigste Tagging-Fehler von TnT im NEGRA-Korpus
Legende zur Tabelle 6.2
T agt : Korrektes Label; T agf : Falsch getaggtes Label
F reqt : Vorkommenshäufigkeit des korrekten Labels; F reqf : Vorkommenshäufigkeit des falschen
Labels
Erel. : Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler
Ant.: Anteil der falschen Tags an den korrekt erkannten
53
T agt
NE
VVFIN
NN
VVFIN
ADJA
F reqt
15069
11595
58563
11595
16843
T agf
NN
VVINF
NE
VVPP
NN
F reqf
2092
667
615
425
270
Ant.
13.9
5.8
1.1
3.7
1.6
Erel.
19.6
6.3
5.8
4.0
2.5
Eabs.
0.74
0.23
0.22
0.15
0.10
Tabelle 6.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 6.2.8 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache
Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird
jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial. Zufallsbedingte besonders gute oder schlechte Resultate werden damit „neutralisiert“.
Beispiel 6.2.9 (Durchschnittliche Genauigkeit (average accuracy)).
Pi=10
accuracy =
i=1
accuracyi
10
Generalisierung von 10 auf k
Die Verwendung von 10 hat sich als bewährte Praxis etabliert. Im Prinzip wäre mit k > 10 das
Mittel noch genauer.
6.2.3 Lernkurven
6.2.4 Recall
Recall (Ausbeute, Abdeckung, Vollständigkeit)
Definition 6.2.10. Recall ist ein Evaluationsmass, das den Anteil der korrekten Antworten
(Entscheidungen) eines Systems gemessen an allen möglichen korrekten Antworten angibt.
Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrekten
Antworten des Systems.
At
R=
Nt
Beispiel 6.2.11 (Recall eines Taggers).
Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN
klassifiziert.
600
= 75%
At = 600 und Nt = 800. Der Recall berechnet sich als: R = 800
6.2.5 Precision
Precision (Genauigkeit, Präzision)
Definition 6.2.12. Precision ist ein Evaluationsmass, das den Anteil der korrekten Antworten
(Entscheidungen) eines Systems gemessen an allen gegebenen Antworten des Systems angibt.
54
!"#$!%&!'())*+,-"../0.,1/$+,-0-2,!)00,-#))3"04
TM5:!T00I'-0L
"@@
56)#"77
6/+!!7!89:;<
6-=!7!>;:8<
>@
80%10
6/+!!7!>#:?<
6-=!7!>8:@<
9@
8@
9040%10
6/+!!7!;?:?<
6-=!7!9#:#<
;@
#@
"
?
#
"@
?@
#@
"@@
#@:S
R?:9
SS:R
?;:9
?@:?
"S:?
>:9
?@@
8:@
#@@ "@@@ $'-+/+5!./N*!F=!"@@@J
R:R
?:>
TM5:!<!U+B+&E+
2*++!$'**A-+BC!"D?!6/11/&+!)&B*+(!+*E(4-4*'!)*=)!FG-11!.)'**)!H&I'+-1J!
'-+K&61L!(*1*0)*K!)'-/+/+5!FM-'/-A1*!(/N*J!-+K!)*()!4-')(!F"@@D@@@!)&B*+(J
"@!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/N*O!)'-/+/+5!-+K!)*()!4-')(!-'*!K/(P&/+):
Q&!&)%*'!(&I'0*(!E*'*!I(*K!3&'!)'-/+/+5:
Abbildung 6.3: Tnt-Evaluation an Penn Treebank durch Thorsten Brants
.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"#!!
!!$%&'()*+!,'-+)(
!"#$%!&'()#*+,-'+!%.,/&
Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten des
Systems.
At
P =
A
:"/6),6;<,'$"$)!%&!$+)!=#$,>??,=((#%"*+
Beispiel 6.2.13 (Precision eines Taggers).
Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, aber nur 600 davon
"!Q-/M*!-44'&-0%C
waren
tatsächlich VVFIN.
600
At =
600 und A = 1000. Die Precision berechnet sich als: P = 1000
= 60%
!!!!!,/5'-6!6&K*1!F3/'()!&'K*'!VWWJ
!!!!!.6&&)%/+5C!-KK/)/&+!&3!c 7!@:#!)&!N*'&!3'*XI*+0/*(
6.2.6 F-Measure
!!!!!U+B+&E+!E&'K(C!)-5!K/()'/AI)/&+!*()/6-)*K!3'&6!-11!E&'K(
F-Measure
(F-Mass)
!!!!!Q&!(*+)*+0*!A&I+K-'L!-+K!0-4/)-1/N-)/&+!/+3&
"!.)-)*!&3!)%*!T')C
Definition
6.2.14 (F1 -Measure). Das F-Measure ist ein Evaluationsmass, das Precision und
!!!!!$'/5'-6!6&K*1!F(*0&+K!&'K*'!VWWJ
Recall
eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet.
Formal:
Sei P die Precision und R der Recall eines Systems:
!!!!!.6&&)%/+5C!Y&+)*=)!/+K*4*+K*+)!1/+*-'!/+)*'4&1-)/&+
!!!!!U+B+&E+!E&'K(C!(I33/=!-+-1L(/(!-+K!(I00*((/M*!-A()'-0)/&+
2×P ×R
F =
P +R
!!!!!TI)&6-)/0!6&K*1/+5!&3!(*+)*+0*!A&I+K-'/*(!-+K!0-4/)-1/N-)/&+
Beispiel 6.2.15 (F-Mass eines Taggers).
+-/M*!!!!()-)*!&3!)%*!-')!!!!!!!!!∆
Ein Tagger hat
in
einem
Testkorpus
eine
Präzision
von 60% und ein![":8<
Recall von 75% für VVFIN.
G.H
FZ+51/(%J!!!!!!>#:@<
!!!!>;:8<
Das F-Measure berechnet sich somit: F = 2×0.6×0.75
=
66.6%
0.6+0.75
QZ\]T F\*'6-+J!!!!!>?:R<
!!!!>;:8<
![R:S<
55
.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!";!!
!!$%&'()*+!,'-+)(
!"#$%!&'()#*+,-'+!%.,/&
.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"#!!
!!$%&'()*+!,'-+)(
!"#$%!&'()#*+,-'+!%.,/&
*#+&!(,!-.//0123#44')425'&123)3627!89:2;(+.%<
>75T!>008'-0N
"MM
="/+#$$
D/+!!Q!RST"U
D-E!Q!VWTRU
VM
>)(5)
D/+!!Q!VXTRU
D-E!Q!VRTRU
SM
RM
?)@)(5)
D/+!!Q!W"TYU
D-E!Q!SVTMU
WM
XM
"
Y
X
"M
YM
XM
"MM
XMTS
PWTP
P"TP
#WTM
#MTR
Y#TM
"ST#
YMM
"PT#
#YM $'-+/+5!./O*!CE!"MMMF
""TV >75T!U![+A+&9+
;6<=>!0&'48(:!#XMLMMM!)&A*+(!+*9(4-4*'!)*E)!C@'-+A38')*'!=8+B(0%-8F
'-+B&D1N!(*1*0)*B!)'-/+/+5!C7-'/-G1*!(/O*F!-+B!)*()!4-')(!C#MLMMM!)&A*+(F
"M!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/O*Z!)'-/+/+5!-+B!)*()!4-')(!-'*!B/(K&/+)
;&!&)%*'!(&8'0*(!9*'*!8(*B!3&'!)'-/+/+5T
Abbildung 6.4: Tnt-Evaluation an NEGRA Treebank
durch Thorsten Brants
C(**!%))4:\\999T0&1/T8+/!(GTB*\])%&'()*+\)+)\F
6.3 Chunk Parsing
.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"P!!
!!$%&'()*+!,'-+)(
!"#$%!&'()#*+,-'+!%.,/&
Partielle syntaktische Analyse
Definition 6.3.1. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing)
berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz.
Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt.
Abbildung 6.5: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid
56
Chunking-Regeln schreiben
Abbildung 6.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid
Wie kann man die zulässigen Chunks beschreiben?
NC -> ART NN
• NC : Ein NC (Nominalchunk) besteht
• ->: besteht aus
• ART: aus einem Wort der Wortart ART (Artikel)
• NN: gefolgt von einem Wort der Wortart NN (normales Nomen)
6.3.1 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]
Beispiel 6.3.2 (Chunks nach Abney).
[I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time].
Motivationen
• Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung
• Effizienz: Teilstrukturen lassen sich effizienter berechnen.
• Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische
Analyse.
• Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichere
Analysemethoden.
6.3.2 IOB-Chunk
Flache IOB-Chunks
Definition 6.3.3 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über
die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist.
• B-K : Anfang einer Chunk-Konstituente K
• I-K : Fortsetzung der Chunk-Konstituente K
57
• 0: Nicht zugeordnet (wird auch chink genannt)
Beispiel 6.3.4 (Notationsvarianten).
Wie sieht die IOB-Notation in Klammer- oder Baum-Darstellung aus?
Rockwell NNP B-NP
said VBD B-VP
the DT B-NP
agreement NN I-NP
calls VBZ B-VP
for IN B-SBAR
it PRP B-NP
to TO B-VP
supply VB I-VP
200 CD B-NP
additional JJ I-NP
so-called JJ I-NP
shipsets NNS I-NP
for IN B-PP
the DT B-NP
planes NNS I-NP
. . O
6.3.3 Verschachtelte Chunks
Verschachtelte Chunks
Definition 6.3.5 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk innerhalb eines Nominal-Chunks, ist normalerweise nicht möglich.
Beispiel 6.3.6 (Chunk Parsing Output mit Verschachtelungstiefe 3).
[PX [APPR für]
[NX [ARTIND eine]
[AJXatt [ADJA gewisse]]
[NN Reibungslosigkeit]]]
Hinweis zur Chunk-Benennung
Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC.
6.4 Vertiefung
Zum Thema “Chunk Parsing”:
• Pflichtlektüre: [Carstensen et al. 2004, 3.3]
• Lerneinheit “Chunk Parsing” im CLab: http://www.cl.uzh.ch/clab/chunking/
58
6.4.1 Kontrollfragen
Kontrollfragen
• Was sind 2 typische Szenarien für systematische Evaluation von Systemen?
• Was unterscheidet Recall und Precision von Accuracy?
• Was sind typische Fehlerquoten und Fehlerquellen für STTS-Tagging?
• Wieviel Trainingsmaterial braucht es für eine Tagginggenauigkeit von etwa 95%?
• Was ist der Vorteil der IOB-Notation?
6.5 Exkurs: Evaluation binärer Klassifikatoren
Lernziele
• Kenntnis über True Positive, True Negative, False Positive sowie False Negative
• Kenntnis über Fehlertypen und ihre Gefahr
• Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form der
TP:FP:FN:TN-Darstellung
6.5.1 True/False Positives/Negatives
Evaluation von binären Klassifikatoren
Test
Positive
Negative
Truth
Positive
Negative
True Positive (TP)
False Positive (FP)
False Negative (FN) True Negative (TN)
Tabelle 6.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 6.3
True Übereinstimmung zwischen “Test” und “Truth”
False Keine Übereinstimmung zwischen “Test” und “Truth”
FP Fehlertyp I: Test ist positiv, wo er nicht sollte.
FN Fehlertyp II: Test ist negativ, wo er nicht sollte.
59
6.5.2 Fehlerparadoxe
Problem der Fehlerabschätzung I
Beispiel 6.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Konstruktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Konstruktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%.
Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat,
wenn er ein positives Resultat vermeldet?
Man überlege:
Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnitt
darunter?
Problem der Fehlerabschätzung II
Beispiel 6.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Konstruktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht.
Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test ein
negatives Resultat vermeldet?
Man überlege:
Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind im
Schnitt darunter?
6.5.3 Unterschiede von Evaluationsmassen
Dualität von Precision und Recall
Test
Pos
Neg
R=
Truth
Pos Neg
TP FP
FN TN
TP
TP + FN
Tabelle 6.4: Recall
Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall.
Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision.
F-Measure vs. Accuracy
F-Measure ignoriert TN. TP interessieren eigentlich.
Accuracy ignoriert nichts. TP und TN interessieren gleichwertig.
6.5.4 Mitteln von Recall und Precision
F-Measure: Harmonisches vs. arithmetisches Mittel
60
Test
Pos
Neg
P =
Truth
Pos Neg
TP FP
FN TN
TP
TP + FP
Tabelle 6.5: Precision
Test
F =
Pos
Neg
Truth
Pos Neg
TP FP
FN TN
2 × TP
2 × TP + FP + FN
Tabelle 6.6: F1 -Measure
Test
Accuracy =
Truth
Pos Neg
TP FP
FN TN
Pos
Neg
TP + TN
TP + TN + FP + FN
Tabelle 6.7: Accuracy
6.5.5 Vertiefung
• Artikel zum Harmonischen Mittel in [Wikipedia 2007]
61
Abbildung 6.7: F =
2×P ×R
P +R :
y/x-Achse: Recall F-Mass [F-Mass 2006]
62
Abbildung 6.8: M =
P +R
2 :
63
Arithmetisches Mittel
7 Volltextsuche und Text Mining
Lernziele
• Kenntnis über Grundlagen der Volltextsuche
• Kenntnis über traditionelle Informationserschliessung von OPAC
• Kenntnis über die Einsatzmöglichkeiten von CL-Ansätzen beim Indexieren
• Kenntnis über das Boolsche Retrievalmodell und Relevanz-Ranking
• Kenntnis über die Probleme der Auffassung von Dokument als Indexterm-Menge
• Kenntnis über eine mögliche Auffassung von Text Mining
7.1 Elektronische Informationsflut
Thesen zur elektronischen Informationsflut
• Immer mehr Menschen verbreiten (produzieren?) immer schneller immer mehr elektronische textuelle Information!
• Das Internet Archive http://www.archive.org bot 2003 Zugriff auf 10 Milliarden Webseiten. Im Mai 2006 enthält es knapp 2 Petabyte (1015 ) Daten und soll monatlich um 20
Terabyte wachsen. Im März 2009 sind es 85 Milliarden Webseiten(versionen).
• Nicht-öffentliche Bereiche wie “Intranets” von Firmen und Verwaltungen oder auch automatisch schlecht zugängliche Seiten verstecken sich dabei noch als “deep web” unter der
Spitze des sichtbaren Eisbergs.
• Verschiedene Projekte zur Buchdigitalisierung (z.B. http://books.google.com) versuchen, bislang nur gedruckte Information ins digitale Gedächtnis zu bringen.
Digitalisierte Bibliotheken
Nutzen und Tücken der automatischen Erfassung (OCR)
Z.B. bei http://books.google.de
Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben
Wachstum der Publikationen im biomedizinischen Bereich
2007 wurden pro Tag ca. 1900 Publikationen in der Online-Bibliographie PubMed erfasst
[Pyysalo 2008, 6]. Wachstumrate steigt jährlich um 3%.
64
Abbildung 7.1: OCR und Frakturschrift
Quelle: [Pyysalo 2008, 6]
Abbildung 7.2: In PubMed erfasste wiss. Artikel (2008 unvollständig)
65
7.1.1 Suchdilemma
Suchdilemmas
Typisches Problem bei Volltextsuche
Benutzende erhalten zuviele Treffer!
Was tun?
...
Typisches Problem bei OPAC-Suche
(OPAC=öffentlich zugänglicher elektronischer Bibliothekskatalog)
Benutzende erhalten zuwenige Treffer!
Was tun?
...
Beispiel für Anreicherung von OPAC-Information
Anreicherung des klassischen OPAC-Bibliothekskatalogs
Inhaltsverzeichnisse
Eingescannte und in Text konvertierte Inhaltsverzeichnisse erlauben mehr Treffer.
Beispiel 7.1.1 (Landesbibliothek Vorarlberg).
• Keine Treffer für eine Suche nach dem Autor Jewgeni Charitonow.
• Dafür Treffer via Inhaltsverzeichnis.
Abbildung 7.3: Suchoption für Inhaltsverzeichnis
Elektronisches Inhaltsverzeichnis
Vom OPAC zur digitalen Bibliothek mit Volltextsuche
Traditionelle Sachbegriff-Indexierung im OPAC
Traditionelle Sachbegriff-Organisation im OPAC
Neuere textuelle Zusatzinformationen im OPAC
66
Abbildung 7.4: Eingescanntes Inhaltsverzeichnis
Entwicklung von Online-Datenbanken
Die ersten Online-Datenbanken entstanden in den 60er Jahren. Die NASA und
Lockheed entwickelten ein System, das heute als DIALOG bekannt ist, die Ohio
Bar Association LEXIS, das heute unter LEXIS/NEXIS firmiert, der CIA und IBM
STAIRS. Die Zahl der Online-Datenbanken betrug 1965 unter 20, 1975 mehr als 300
und 1984 fast 2500.
Quelle: http://www.phil.uni-sb.de/~werner/ir/irs.htm
Beispiel 7.1.2 (PubMed).
Online-“Bibliographien” wie PubMed bieten mittlerweile komplexe Datenverknüpfungsdienste (Terminologie, Ontologie, fachspezifische Datenbanken, Literaturverknüpfungen, Abstracts,
Volltexte) an: Knowledge Management.
67
Abbildung 7.5: Sachbegriff-Indexierung im NEBIS
Abbildung 7.6: Sachbegriff und Varianten im NEBIS
68
Abbildung 7.7: Textuelle Zusatzinformation im NEBIS
7.2 Volltextsuche
Volltextsuche
Definition 7.2.1 (auch Dokumentenzugriffssystem, engl. Information Retrieval (IR)). Die klassische Volltextsuche liefert (Referenzen auf) Dokumente zurück, welche für eine Kombination
von Suchtermen und Suchkriterien (=Anfrage, query) relevant sind. Die Suchterme selbst können beliebige im Text vorkommende Ausdrücke sein – es wird nicht wie bei Bibliothekskatalogen
mit geschlossenen Sachbegriffen indiziert.
Hinweis zu den Einheiten des Retrievals
Anstelle von ganzen Dokumenten als Suchresultat kann man auch kleinere Textstellen (engl.
passage retrieval) als Wiedergewinnungseinheit definieren.
Beispiel 7.2.2 (Googles define-Operator).
Gewisse Suchmaschinen unterstützen die Suche nach definitionsartigen Passagen.
7.2.1 Indexieren
Indexieren
Definition 7.2.3 (Volltext-Indexieren). Beim Indexieren einer Dokumentensammlung werden
(fast alle) Wörter jedes Dokuments ausgewählt, zu Indextermen normalisiert und im Index
abgelegt.
Definition 7.2.4 (Index). Ein Index eines IR-Systems ist eine Daten(infra)struktur, aus der
sich für jeden Indexterm effizient bestimmen lässt, in welchen Dokumenten er vorkommt.
69
Meta-Information zu Dokumenten
IR-System erlauben oft, Einschränkung bezüglich Alter, Sprache, Herkunft etc. von Dokumenten in die Anfrage einzubauen. Solche Informationen müssen für jedes Dokument gespeichert
werden.
Beispiel: Vorkommensmatrix in Shakespeare-Stücken
Term-document incidence matrix nach [Manning et al. 2009]
Anthony
Julius
The
Hamlet Othello Macbeth
and
Caesar Tempest
Cleopatra
Anthony
1
1
0
0
0
1
Brutus
1
1
0
1
0
0
Caesar
1
1
0
1
1
1
Calpurnia
0
1
0
0
0
0
Cleopatra
1
0
0
0
0
0
mercy
1
0
1
1
1
1
worser
1
0
1
1
1
0
...
...
Lesebeispiele
Der Term „Calpurnia“ kommt im Stück Julius Caesar vor.
Der Term „Calpurnia“ kommt im Stück The Tempest nicht vor.
Effizienter Index
Speicherplatzprobleme der Vorkommensmatrix
• 1 Million Dokumente mit je 1000 Tokens zu 6 Bytes pro Token braucht 6 GB Speicherplatz.
• Es finden sich darin typischerweise 1/2 Million Indexterme.
• Eine naive Repräsentation der Vorkommensmatrix benötigt 500’000 × 1’000’000 Bits, d.h.
ca. 58GB.
Fast alle Tabellenzellen sind 0
Aus Effizienzgründen sollte nur gespeichert werden, in welchen Dokumenten ein Term tatsächlich
vorkommt.
Dictionary
Die Menge aller Indexterme (dictionary) sollte im Hauptspeicher Platz finden. Durch Termnormalisierung und Stoppwörter lassen sich ca. 1/3 der Indexterme entfernen. [Manning et al. 2009,
89]
Invertierter Index (Inverted Index)
Alle Dokumente erhalten eine ID (DocID). Für jeden Term t speichern man die sortierte Liste
der DocIDs (posting list), welche t enthalten.
70
Brutus
−→
1
2
4
11
31
45
173
174
Caesar
−→
1
2
4
5
6
16
57
132
Calpurnia
−→
2
31
54
101
...
..
.
|
{z
}
dictionary
|
{z
postings
}
Auswahl der Indexterme
Nach der Tokenisierung werden aus Gründen der Effizienz und/oder Relevanz oft bestimmte
Wörter (“noise words”) ausgefiltert.
• Allgemeine Funktionswörter einer Sprache, welche meist häufig vorkommen (Stoppwortliste): der, die, das ...ich, du, er ...auf, unter, in ...und, oder ...bin, bist,
ist, hast ...
• Bei inhaltlich homogenen Dokumentensammlungen manchmal auch Inhaltwörter, welche
fast in allen Dokumenten vorkommen und dadurch keinen informativen Wert besitzen.
Z.B. in Dokumenten zur Informatik: System, Computer ...
Es gibt auch Suchmaschinen, welche alles indizieren – interessant für CL-Ansätze “WWW als
Korpus”.
Eine kleine Stoppwortliste für Englisch III
a about after again ago all almost also always am an and another any anybody anyhow anyone
anything anyway are as at away back be became because been before being between but by
came can cannot come could did do does doing done down each else even ever every everyone
everything for from front get getting go goes going gone got gotten had has have having he her
here him his how i if in into is isn’t it just last least left less let like make many may maybe me
mine more most much my myself never no none not now of off on one onto or our ourselves out
over per put putting same saw see seen shall she should so some somebody someone something
stand such sure take than that the their them then there these they this those through till to too
two unless until up upon us very was we went were what what’s whatever when where whether
which while who whoever whom whose why will with within without won’t would wouldn’t yet
you your
Indexterme normalisieren
Die Normalisierung kann keine bis viel Sprachtechnologie enthalten:
• Reduktion auf orthographische Normalform (Ä → ä; ä → ae ; ph → f)
• Trunkierung (veraltet): Abschneiden von Wortenden bei Wörtern ab einer Mindestlänge
auf einen Präfix fixer Länge
analys|ieren → analys
Analys|e → analys
analyt|isch → analyt
71
• Stemming (z.B. noch in Suche im Acrobat Reader): Einzelsprachliche Kürzungsregeln,
welche ohne Lexikoneinsatz Wortformen auf ihren Stamm (stem) reduzieren.
Stemming mit dem Porter-Stemmer III
Beispiel 7.2.5 (Porter-Stemmer für Englisch).
These analyses seemed especially analytic.
these → these
analyses → analys
seemed → seem
especially → especi
analytic → analyt
Indexterme normalisieren
• Lemmatisierung: Reduktion von syntaktischen Wortformen flektierter Sprachen auf ihre
Grundform: “aufgegessen” → “aufessen”
• Kompositaanalyse: Auflösung von Komposita in ihre Bestandteile: “Schwimmunterricht”
→ “schwimm” “unterricht”
• Derivationsauflösung: Auflösung von derivierten Ausdrücken: “Überzeugung” “überzeugen”→
“überzeugen”
• Synonymerkennung: Auflösung von engeren Synonymen oder verwandten Bezeichnungen:
“Rechenmaschine”→ “Computer”, “Luisa” → “Louise”
• “Named Entity Recognition”: Erkennung von Datumsangaben für “Timelines”
Beispiele
Beispiel: Automatisches Indexieren von OPAC-Daten
7.2.2 Architektur
IR-System-Architektur [Carstensen et al. 2004, 483]
Frage
Warum hat es zwischen dem Kästchen “Anfrage-Compiler” und “Termextraktion und linguistische Normalisierung” eine Verbindung?
7.2.3 Retrieval
Dokument als Menge von Indextermen
Definition 7.2.6 (engl. bag of words (BOW)). Im IR wird ein Dokument meist als Menge von
Indextermen betrachtet.
Definition 7.2.7 (Boolsches Retrievalmodell). Im Boolschen Retrievalmodell werden die einzelnen Suchterme der Anfrage mit den logischen Operatoren “UND”, “ODER” und “NICHT”
verknüpft zu einer komplexen Anfrage.
72
Wie indizieren?
rohe Wortform im Text
mit oder ohne orthographische Normalisierung
mit Stoppworterkennung
auf Grundform normalisiert
mit Derivations- und Komposita-Auflösung (Dekomposition)
mit Erkennung von Mehrwortlexemen bzw. Terminologie
mit Erkennung von Namen
mit Synonymen bzw. Deskriptoren aus Schlagwortdatei
mit Hypernymen
mit semantischer Desambiguierung
mit Relevanzkriterien der Terme für das Dokument
Quelle: Oberhauser/Labner 2003
Automatische Indexieren mit IDX/MILOS
Beispiel I
Grad an linguistischer Aufbereitung
CL in IuD II – 6
Quelle:[Oberhauser und Labner 2003]
Quelle: Oberhauser/Labner 2003
Automatisches Indexieren mit IDX/MILOS
Beispiel 2
Abbildung 7.8: Automatisches Indizieren von OPAC-Informationen: Gut
Quelle:[Oberhauser und Labner 2003]
Abbildung 7.9: Automatisches Indizieren von OPAC-Informationen: Schlecht
Beispiel 7.2.8 (Logische Operatoren).
Die Anfrage chuhmacher UND Suzuka UND (NICHT Michael)" bedeutet:
Finde alle Dokumente, welche
• den Indexterm Schuhmacher und Suzuka enthalten, aber
• den Indexterm Michael nicht enthalten.
73
Abbildung 7.10: Generelle Architektur von IR-Systemen nach [Carstensen et al. 2004]
Probleme des Boolschen Retrievalmodells
Zweiwertigkeit
Wegen der klassischen Zweiwertigkeit, d.h. keine partiellen Treffer, können (bei kleineren Dokumentensammlungen) gerne keine Treffer entstehen.
Bei grossen Dokumentensammlungen wiederum können übergrosse Treffermengen entstehen.
Eine gute Reihenfolge der Suchresultate nach Relevanz ist notwendig (erweitertes Boolsches
Modell)
Dokument als Indexterm-Menge
Die Dependenzen zwischen den Wörtern lassen sich nicht darstellen. Ein Aufsatztitel wie “A
formal specification language for the automatic design of chips by computer” bedeutet dasselbe
wie die Wortliste “automatic, chip, computer, design, formal, language, specification”.
74
Problem der Mengen-Repräsentation für die Suche
Zwar finden Anfragen wie:
• design languages for computer chips:
design UND languages UND computer UND chips
• languages for the design by computer:
language UND design UND computer
das Dokument “A formal specification language for the automatic design of chips by computer”.
Aber auch Anfragen im Sinn von
• the formal design of chips
• the specification of computer languages
• the automatic design of specifications
würden das Dokument finden.
7.2.4 Relevanz
Relevanzabschätzung von Indextermen
Um die Relevanz von Indextermen gegenüber Dokumenten, welche sie enthalten, abschätzen zu
können, werden unterschiedlichste Masse angewendet und kombiniert.
Definition 7.2.9 (engl. term frequency (TF)). Die Relevanzhypothese zur Termhäufigkeit besagt: Je häufiger ein Indexterm in einem Dokument erscheint, umso relevanter ist das Dokument
für den Term.
Definition 7.2.10 (engl. inverse document frequency (IDF)). Die Relevanzhypothese zur inversen Termhäufigkeit besagt: Je seltener ein Indexterm eines Dokuments D in anderen Dokumenten der Gesamtkollektion erscheint, umso relevanter ist Dokument D für den Indexterm.
Überlegungen zu Stoppwörter, TF und IDF
Fragen
1. Wie verhalten sich typische Stoppwörter bezüglich TF und IDF?
2. Wie verhält sich ein Wort bezüglich TF und IDF, das in einer Dokumentensammlung nur
1 Vorkommen hat?
3. Welche Auswirkungen hat es, wenn eine Dokumentensammlung sowohl sehr kurze wie
auch extrem lange Dokumente enthält?
4. Wie könnte man die Information über TF und IDF miteinander kombinieren zu einer
einzigen Bewertung?
75
Die TF/IDF-Formel nach [Salton 1988]
• N die Anzahl Dokumente in einer Dokumentensammlung DS
• i ein Dokument aus der Dokumentensammlung DS
• j ein Indexterm
• fj die Anzahl der Dokumente aus DS, welche den Indexterm j enthalten
• ti,j die Anzahl der Vorkommen von Indexterm j im Dokument i
• wi,j das Gewicht (Relevanz), welche dem Dokument i bezüglich dem Indexterm j zukommt
wi,j = ti,j × log
Fragen
Welche Werte kann ti,j und
N
fj
N
fj
maximal/minimal annehmen? Was macht log?
7.3 Text-Mining
Das Problem
Volltextsuche vs. Text-Mining
• In der Volltextsuche geht es darum, ad hoc ein Informationsbedürfnis zu stillen, indem
relevante Dokumente gefunden werden, welche die Information (hoffentlich) enthalten.
• Im Text-Mining geht es darum, automatisch neue Information aus Texten zu erschliessen.
Data-Mining vs. Text-Mining
• Im Data-Mining wird mit statistischen und Methoden der künstlichen Intelligenz versucht,
aus strukturierten Daten Ähnlichkeiten, Tendenzen und Zusammenhänge in grossen Datenmengen zu entdecken.
• Im Text-Mining soll dasselbe aus Text-Daten heraus geschehen – der grössten Informationsquelle überhaupt.
Literature Based Discovery [Hearst 1999]
Ein reales Beispiel aus der Medizin zur Forschungsinspiration:
“When investigating causes of migraine headaches, he [Don Swanson] extracted various pieces
of evidence from titles of articles in the biomedical literature:”
Paraphrasen:
• stress is associated with migraines
• stress can lead to loss of magnesium
• calcium channel blockers prevent some migraines
76
• magnesium is a natural calcium channel blocker
• migraine patients have high platelet aggregability
• magnesium can suppress platelet aggregability
• ...
Daraus entstand die Hypothese, dass Magnesium und Migräne in einem Zusammenhang stehen
können.
7.4 Vertiefung
• Einführungskapitel des frei verfügbaren IR-Buches [Manning et al. 2009]
• Eine Sammelsurium zum Thema “Information Retrieval” http://ir.exp.sis.pitt.edu/
res2/resources.php
• Vertiefungslektüre zum Thema “Text-Mining” [Hearst 1999]
• Lerneinheit “Reduzieren von Wortformen” im CLab: http://www.cl.uzh.ch/clab/reduzieren/
77
8 Textbasiertes Informationsmanagement
Lernziele
• Kenntnis über die unterschiedlichen Ausprägungen texttechnologischer Informationsaufbereitung
• Kenntnis über die Ziele der Textzusammenfassung, -klassifikation, Informationsextraktion,
Relation Mining, Antwortextraktion und den Einsatz von CL-Techniken dabei
Textverdichtung à la Wordle
Abbildung 8.1: Wordle
“Wordle” http://www.wordle.net generiert aus einer Definitionssammlung
Textbasiertes Informationsmanagement
Das Problem der Bewirtschaftung von textueller Information hat verschiedenste “Aspekte”,
welche meist “irgendwie” verwandt sind.
• Suchen
• Zusammenfassen
• Extrahieren von interessierenden Grössen und ihren Beziehungen
• Klassifizieren
• Gruppieren (Clustering)
78
Übersetzung via semantische Interlingua (theoretisch guter Ansatz)
CL in IuD I – 17
• Indizieren mit Deskriptoren
Textsortenzoo
Je nach Textsorte und gesellschaftlicher Textverwendung ergeben sich spezifische Anwendungen:
technische Handbücher (oft riesig), Testberichte, Patente, Gesetzestexte, E-Mails, wissenschaftliche Texte, News usw.
xtzusammenfassung
Ansä
8.1 Textzusammenfassung
8.1.1 Modell
«Language understanding is somewhat like counting from one to infinity;
language generation is like counting from infinity to one.» (Y. Wilks)
e Textzusammenfassung
Grundmodell des verstehenden Zusammenfassen
Der Text der Kurzfassung wird erzeugt
ausgehend von einer semantischen Form.
Sehr schwierig! Einfachere Variante…
formationsextraktion
Herausfiltern fixer
Sachverhaltsmuster
195
196
Quelltext
Kurztext
verstehen
generieren
Bedeutung
verdichten
kompression
(TK)
Problem
Aus einem Dokument
werden
die wichtigsten
Sätze extrahiert.
Language
understanding
is somewhat
like counting from one to infinity; language generation is
like counting from infinity to one.
CL Wilks
in IuD I nach
– 19 [Dale et al. 1998])
(Zitat von Yorick
Ausweg
Textextraktion bzw. -kompression, d.h. Auswählen der wichtigsten Textteile anstelle echter Zusammenfassung.
8.1.2 Terminologie
Terminologie
Definition 8.1.1 (abstract). Die Textzusammenfassung bedingt eine Reformulierung des Texts.
Definition 8.1.2 (extract). Die Textextraktion ist typischerweise eine Auswahl an wichtigen
Sätzen eines Texts.
Definition 8.1.3 (informative summary III). An informative summary is meant to represent
(and often replace) the original document.
Definition 8.1.4 (indicative summary). An indicative summary’s main purpose is to suggest
the contents of the article without giving away detail on the article content.
79
199
Bedeutung
Beispiel "Übernahmefakten":
Welche Firma hat wann
des inhaltsbasierten
Textzusammenfassen
Grundmodell
des verstehenden
welche andere Firma für Abbildung 8.2: Grundmodell
Zusammenfassen
wieviel Geld übernommen?
Beispiele?
Statis
Lingu
seit
8.1.3 Ansätze
Ansätze der Textextraktion/-kompression
Statistische und heuristische Verfahren
• [Luhn 1958]: Vorkommen von Wörtern mittlerer Häufigkeit
• [Edmundson 1969]:
– Satzposition im Abschnitt (Anfang/Ende wichtiger als Mitte)
– wichtige Schlüsselwörter (z.B. aus Überschriften) vs. Füll- bzw. Stoppwörter
• [Kupiec et al. 1995]: Lernendes System, das aus bestehenden Abstract-Dokument-Paaren
generalisiert!
– Satzlänge > 5; Wortmerkmale (Grossschreibung, Länge, Häufigkeit)
– Textsortenspezifische Indikatorphrasen für zentrale Aussagen “In conclusion,”
– 80% der Sätze in den Abstracts (von professionellen Zusammenfassern!) waren wörtlich oder nur minim modifiziert im Dokument!
• Varianten und Verfeinerungen solcher heuristischen Methoden sind heute gängig (z.B.
Microsoft Word Zusammenfassung)
Linguistische und wissensverarbeitende Verfahren
Seit 70er Jahren: Meist sehr anwendungsspezifisch.
Telegraphische Verkürzung
Beispiel 8.1.5 (STREAK: Zusammenfassung als Textgenerierung).
Ein System, das strukturierte Daten über Basketballspielen zu “natürlich” erscheinenden Kurztexten aufbereitet.
Telegraphische Verkürzung
Beispiel 8.1.6 (Scisor: Zusammenfassung als Antwortgenerierung).
EinSatzbasiertes
System, das Presseberichte
über "unwichtiger"
Unternehmensübernahmen
analysiert und in einer WisAuslassen
Element
sensdatenbank ablegt. Natürlichsprachliche Benutzeranfragen werden mit den “verstandenen”
Nur Subjekte, Objekte, Verbalkerne, Präpositionen und abhängige Nominalkerne
Berichten abgeglichen und Teile daraus als Antworten zurückgegeben.
Satzbasiertes
Auslassen "unwichtiger" Element
Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Kernfunktion!
Nur Subjekte, Objekte, Verbalkerne, Präpositionen und abhängige Nominalkerne
Exkurs:Weiterentwicklungen
Telegraphische Zusammenfassung
Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Kernfunktion!
Weglassen
von inhaltlich1998]
unwichtigen
Satzbestandteilen
Beispiel 8.1.7
([Grefenstette
telegraphisches
Tool). unter Beibehaltung der
syntaktischen Wohlgeformtheit
Weiterentwicklungen
Weglassen von inhaltlich unwichtigen Satzbestandteilen
unter Beibehaltung der
Text summarization producing version of
Text summarization is usually taken to mean
syntaktischen
Wohlgeformtheit
producing
a shorter version
of an original
document by retaining the most salient parts of
the original text. Two approaches have been
Text summarization
is usually
to mean sentences
favored: selecting
high taken
content-bearing
producinginfluenced
a shorter by
version
of an
original and
positional
constraints,
documentperforming
by retaining
thedependent
most salient
parts of
domain
information
which
fills a template
the originalextraction
text. Two
approaches
havefrom
beenwhich a
glossed.
favored: summary
selecting can
highbecontent-bearing
sentences
influenced by positional constraints, and
performing domain dependent information
extraction which fills a template Abbildung
from which a8.3:
summary can be glossed.
document by retaining parts of text. Two
approaches favored sentences influenced by
constraints and extraction fills template from
Textsummary
summarization
glossed. producing version of
document by retaining parts of text. Two
approaches favored sentences influenced by
constraints and extraction fills template from
G. Grefenstette
(1998): Producing intelligent telegraphic text
summary
glossed.
reduction to provide an audio scanning service for the blind
Telegraphische Verkürzungstechnik
CL in IuD I – 21
G. Grefenstette (1998): Producing intelligent telegraphic text
reduction to provide an audio scanning service for the blind
CL in IuD I – 21
80
Verallgemeinerungsprobleme der CL
Ansatz
• Linguistisch motiviertes Auslassen bestimmter Elemente: Nur Subjekte, Objekte, Verbalkerne, Präpositionen und die Nominalkerne
• Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Funktion
• Weiterentwicklungen: Weglassen von inhaltlich unwichtigen Satzteilen unter Beibehaltung
der syntaktischen Wohlgeformtheit
Aktuelle statistikbasierte Forschung
Sentence compression
In der Forschung wird die Text-Kompression auf Satzebene mit lernenden Verfahren verfolgt
[Cohn und Lapata 2008]: Einfaches Eliminieren irrelevanter Wörter (word deletion) und auch
reformulierendes Zusammenfassen (abstracting).
Beispiel 8.1.8 (Extracting vs. Abstracting nach [Cohn und Lapata 2008]).
• But a month ago, she returned to Britain, taking the children with her. (Original)
• But she returned to Britain with the children. (Mensch)
• She returned to Britain, taking the children. (Wort-Löschung)
• But she took the children with him. (Reformulierendes Abstracting)
Fazit Textzusammenfassung
Was zeichnet gute Textzusammenfassung/-kompression aus?
Relevanz
Ist das Wichtige drin? Ist das Unwichtige weggelassen? Ist die Zusammmenfassung redundanzfrei?
Lesbarkeit
Wie fügt sich die Zusammenfassung zusammen (Textkohärenz)? Fehlen Bezugsausdrücke von
anaphorischen Ausdrücken? (dangling pronouns)
Parametrisierbarkeit
Kann ich den Grad an Kompression beeinflussen? Gibt es eine Form von Benutzermodellierung?
8.2 Informationsextraktion
Informationsextraktion (IE)
Definition 8.2.1 (nach [Nohr, 224]). Ziel von Information Extraction ist es,
• in semi- oder unstrukturierten Texten domänenspezifisch
• relevante Informationen (Entitäten und Relationen) zu identifizieren,
81
• diese zu extrahieren
• und in Templates (Bündel von Attribut/Wert-Paaren) abzulegen
• gemäss dem interessierenden IE-Szenario.
Message Understanding Conferences (MUC)
Von 1987 bis 1997 wurden systematisch kompetitiv IE-Tasks gestellt und die Resultate der
Forschungsgruppen vergleichbar evaluiert.
Beispiel 8.2.2 (Szenario Führungswechsel in Firmen).
Wer übernimmt in welcher Firma wann von wem welche Position?
Beispiel Führungswechsel: Text und Template
Beispiel 8.2.3 (News http://www.focus.de).
03.12.08 Arcandor
Führungswechsel im März
Nun ist es offiziell: Der scheidende Telekom-Finanzvorstand Eick wird im März Nachfolger von
Thomas Middelhof als Arcandor-Chef. Die Aktien des angeschlagenen Touristik- und Handelskonzerns reagierten am Mittwoch mit einem Kursfeuerwerk auf den Wechsel an der Konzernspitze. Die Papiere verteuerten sich um bis zu 17 Prozent. Anfang März wechselt der scheidende
Finanzvorstand der Deutschen Telekom, Karl-Gerhard Eick, auf den Chefsesel bei Arcandor,
wie das Unternehmen am Mittwoch mitteilte. Er folgt dem eher glücklosen Thomas Middelhoff,
der den Job schon länger loswerden wollte. . . .
Szenario-Template
• Organisation: Arcandor
• Position: Konzernchef
• PersonOut: Thomas Middelhoff
• PersonIn: Karl-Gerhard Eick
• TimeOut: März 2009
• TimeIn: März 2009
8.2.1 IE vs. IR
Unterschied IE vs. IR III
Information Retrieval gets sets of relevant documents – you analyse the documents.
Information Extraction gets facts out of documents – you analyse the facts.
82
Abbildung 8.4: IR
Abbildung 8.5: IE
8.2.2 Klassische IE
5 klassische Aufgaben der IE [Cunningham 1999]
1. Named Entity Recognition (NER)
Bezeichnungen von Personen, Organisationen, Daten usw. finden und klassifizieren.
F-Mass MUC 2007: 94%)
(Bestes
2. Coreference Resolution (CO)
Identitätsbeziehungen zwischen erkannten Entitäten bestimmen. Z.B. “Bundeskanzler Schröder”, “Schröder”, “G. Schröder” , “er” usw. aufeinander beziehen. (Bestes F-Mass MUC 2007:
62%)
3. Template Element Construction (TE)
Anreicherung an beschreibender Information zu interessierenden Grössen aus der Textkollektion
oder externen Wissensquellen. Z.B. wurde die Stadt Toronto identifiziert und die Information
hinzugefügt, dass sie in Kanada liegt.
(Bestes F-Mass MUC 2007: 87%)
Typisches IE-Systemsicht auf Named Entities
IE-artige semantische Annotation
5 klassische Aufgaben eines IE-Systems II
4. Template Relation Construction (TR)
Entdecken und klassifizieren von Beziehungen zwischen den interessierenden Entitäten. (Bestes
F-Mass MUC 2007: 76%)
83
Abbildung 8.6: http://www.ontos.ch/de/products/ontosminer.php
Abbildung 8.7: Verknüpfung von NER, Hintergrundinformation und Textinformation http://
www.ontotext.com/kim/
5. Scenario Template Production (ST)
Integration der Information über Template-Elemente und Template-Relationen zu konkreten
Events der anwendungsspezifischen Szenarien.
(Bestes F-Mass MUC 2007: 51%)
Ansätze
Typischerweise lexikalische und partielle syntaktische Analyse, über deren Resultat mit Hilfe
von heuristischen Suchmustern operiert wird.
84
8.3 Relation-Mining
Relation-Mining: Text-Mining für Beziehungsentdeckung
Idee des syntax-basierten Relation-Mining
• Syntaktische Analyse erlaubt ein präzises Auffinden von Beziehungen zwischen interessierenden Grössen.
• Normalisierung der sprachlichen Vielfalt auf das Fakten-Schema: Subjekt, Relation, Objekt.
• Solche Relationen erlauben gute Visualisierung als Netzwerke.
Beispiel 8.3.1 (Unser Ontogene-Projekt: Beziehung zwischen Genen und Proteinen).
Erschliessen von beteiligten Grössen aufgrund vorgegebener Relationen (“activation”) in biomedizinischen Aufsätzen. Oder Erschliessen von Relationen, welche für beteiligte Grössen (“NFkappa B”) belegt sind.
8.3.1 Syntaxanalyse
Beispiel: Dependenzanalyse als Grundgerüst
Quelle: [Rinaldi et al. 2006]
Syntaktisch-lexikalische Suchmuster
Die Formulierungen “A regulates B”, “B is regulated by A”, “the regulation of B by A” werden
normalisiert. Passiv-Suchmuster: [dep(subj, Verb, OBJ), dep(pobj, Verb, SUB), dep(prep, SUB, By),
Relation-Mining bei http://www.powerset.com
Syntax-basiertes Web-IR
Die innovative Suchmaschine (gegründet Computerlinguistik-Pionieren) versucht, syntaktische
Analyseresultate für IR im grossen Stil fruchtbar zu machen.
Factz von Powerset
Die Faktendatenbank, die als Indexat entsteht, besteht aus einfachen Relationen: Subjekt, Relationstyp, Objekt.
8.4 Antwortextraktion (QA)
85
8.4.1 Idee
Idee der Antwortextraktion (Question Answering)
Relevante Textstellen für natürlichsprachliche Anfragen
Anstelle von Dokumenten sollen spezifische Textstellen (Passage-Retrieval) als Suchresultat erscheinen, welche die Antwort auf die (An-)Frage enthalten.
Beispiel 8.4.1 (Unser ExtrAns-Projekt: Fragebeantwortung über Unix-Manuals ).
• Linguistische Analyse der Texte und Anfragen: Dependenz-Parsing, Auflösen der Bezüge
von Pronomen, semantische Analyse in eine prädikatenlogische Repräsentation.
• Logikbasierte Fragebeantwortung: Welche sind die Textstellen, mit deren logischer Repräsentation die Anfrage beweisbar wird?
8.4.2 ExtrAns
Quelle: [Hess 2006]
1. Antwort: In “cp recursively copies directory1” muss “directory1” als (ein Exemplar von)
“directory” erkannt werden.
2. Antwort: Die Analyse dieses komplexen Satz muss wohl total falsch gelaufen sein.
ExtrAns: Linguistische Analyse
1. Antwort: “subdirectory” ist Hyponym von “directory”. [1ex] Passivform: “are copied”
3. Antwort: Koordinationsellipse auflösen (“cp creates it and [cp] duplicates”).[1ex] Synonym
“(to) duplicate” für “(to) copy”
86
ExtrAns: Linguistische Analyse
• Explizite Frage nach Kommando schränkt Antworten ein: Kommandos werden wie named
entities behandelt.
• 3. Antwort: Auflösung des Pronomens “it”.
• Ziel sind möglichst präzise Antwort-Sets.
87
8.5 Textklassifikation
8.5.1 Kategorisieren
Klassische Klassifikationstasks
Definition 8.5.1 (Textklassifikation). Die Texte einer Textkollektion sollen einer oder mehreren Klassen eines meist hierarchisch aufgebauten Klassifikationssystems zugeordnet werden.
Beispiel 8.5.2 (Reuters Task).
Zeitungsnachrichten sollen in die Rubriken wie Politik, Wirtschaft etc. eingeordnet werden. Eine
eher leichte Aufgabe, welche zu fast 90% gelöst werden kann mit lernenden Verfahren.
Beispiel 8.5.3 (Message Routing).
Zuordnen (ev. an den Papierkorb) von elektronischen Dokumenten an ihre Adressaten aufgrund
des Inhalts. Mitteilungsdienste, Kundenanfragen usw.
Kategorisierung von E-Mail
Spam vs. Nicht-Spam
Eine der populärsten Textklassifikationsaufgaben zur Zeit ist die Einteilung von E-Mail in die
Kategorie Spam.
Fast alle Methoden der Textklassifikationsstradition wurden auf diese Problem angewendet.
Erfolgreich sind insbesondere statistische und lernende Systeme.
8.5.2 Clustering
Clustering (Gruppenbildung)
Im Gegensatz zur Klassifikation über vorgegebenen Kategorien werden beim Clustering Textkollektionen nur auf Grund inhärenter Merkmale gruppiert, sodass die Texte innerhalb eines
Clusters möglichst ähnlich (homogen) sind und zwischen den Clustern möglichst klare Unterschiede bestehen.
Beispiel 8.5.4 (Suchmaschine mit Clustering).
Eine Anwendungsmöglichkeit von Clustering ist es, Suchresultate nach “Themen” zu clustern:
http://clusty.com/
8.6 Vertiefung
• Pflichtlektüre: Kapitel 5.3 aus (Carstensen 2009) (als PDF im Materialordner unter „carstensen_infoman
• Experimentieren im Umfeld von IR und Textklassifikation http://www.cl.uzh.ch/clab/
reduzieren/ilap_informationretrieval/
• Der Artikel von [Luhn 1958] ist immer noch lesenswert (im Materialordner als „luhn_1958.pdf“
abgelegt )
88
9 Sprachsynthese und Spracherkennung
Lernziele
• Kenntnis über die Teilfunktionen und Verarbeitungsstufen eines typischen Systems zur
Sprachsynthese und der Spracherkennung
• Kenntnis über die Probleme und Ansätze solcher Systeme
• Kenntnis über die Einsatzmöglichkeiten von CL-Techniken
• Kenntnis über sprachtechnologische Standards
9.1 Sprachsynthese
Sprachsynthesesysteme III
Definition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einer
Zeichenkette (Text) ein akustisches Signal.
Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus.
Beispiel 9.1.2 (Ein deutscher Stolpersatz).
“Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die
Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.”
• Welche Schwierigkeiten liegen vor?
• Was kann ein TTS damit anfangen? Z.B. [German 2006]
Qualitätsmerkmale für Sprachsynthese
• Silbenübergänge: Wie natürlich werden Silbenübergänge lautiert?
• Wortbetonung: Sind die Betonungen bei (unbekannten) Wörtern korrekt?
• Satzmelodie/Satzbetonung: Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral?
• Sprechtempo: Zu schnell, zu langsam?
• Sprechrhythmus: Monotones Geraspel oder gegliederte Information?
• Pausen: Finden Sprechpausen (an der richtigen Stelle) statt?
Weiteres
Unterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es,
wenn das Sprechtempo stark erhöht werden kann.
89
Einsatzmöglichkeiten von Sprachsynthese
• (Mobil-)Telefonie: Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurse
usw.), welche meist mit einem Spracherkennungssystem gekoppelt sind
• Informationssysteme, welche keine visuelle Ablenkung erzeugen dürfen: Navigationssysteme im Auto, E-Mail-Vorlesesysteme im Auto usw.
• Computerarbeitsplätze für Sehbehinderte
• Künstliche Stimme für Sprechbehinderte
• Sprachenlernen
• ...
9.1.1 Architektur
Typische Architektur von TTS
Vom der Zeichenkette zum Laut
1. Tokenisierung (Satzsegmentierung, Normalisierung von Abkürzungen usw.)
2. (Flache) syntaktische Analyse für lexikalische Desambiguierung (Tagging) und für die
prosodische Gestaltung der Phrasengrenzen/Pausen und Akzente (Chunking, Parsing)
3. Lexikalische Analyse mit einem Lexikon und/oder Regeln
4. Phonologische und prosodische Analyse
5. Lautproduktion aufgrund der Lautfolge mit Information zu Lautdauer, Tonhöhe (Grundfrequenz), Lautstärke (Intensität).
Beispiel-Architektur von MARY TTS
9.1.2 Analyseebenen
Aussprache von Ziffern und Abkürzungen
Die Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischen
Kulturräumen [Liberman und Church 1992].
Beispiel 9.1.3 (Varianten im Deutschen).
• Einzelziffern: 1456 “ Konto eins vier fünf sechs”
• Zahl: 1456 “Eintausendvierhundertsechsundfünfzig”
• Hunderter: 1456 “Vierzehnhundert(und)sechsundfünfzig”
• Paare oder Trippel: “044 344 56 10”
• Ordinalzahlen: “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.”
Frage
Welche Aussprachen sind für welche Grössen verbreitet?
Probleme bei Abkürzungen
Welche Schwierigkeiten stellt die Aussprache von Abkürzungen?
90
Abbildung 9.1: Architektur von MARY-TTS-System
Phonetische Analyse: Lautfolgen und Akzente von Wörtern
Wie werden die einzelnen Laute eines Wortes in Isolation repräsentiert?
Definition 9.1.4 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch enthält für (flektierte) Wortformen oder Grundformen eine Repräsentation der Lautform (Lautfolge, Akzente) in einer Lautschrift.
Z.B. in Form des International Phonetic Alphabet (IPA) http://www.arts.gla.ac.uk/IPA,
bzw. einer auf Computern einfacher verwendbareren Kodierung davon.
Beispiel 9.1.5 (Formate elektronischer Aussprachewörterbücher nach [Jurafsky und Martin 2000]).
• Pronlex: +arm.xd’Il.o,
• CELEX (britisch): "#-m@-’dI-15 = [a:.m@."dI.l@U],
• CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [arm2"dI.loU]
IPA-Lautschrift für Deutsch
Phonetische Lautschrift (SAMPA German)
Eine in ASCII kodierte Notationsvariante für IPA-Symbole.
91
Quelle: [Carstensen et al. 2004, 157]
Abbildung 9.2: IPA-Symbole für Deutsch
• : (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze)
• Plosive: p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem)
• Frikative: f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r
(rein), h (Hand)
• Sonoranten: m (mein), n (nein), N (lang), l (laut), j (ja)
• Ungespannte Vokale: I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a
(Satz), @ (bitte), 6 (kurz),
• Gespannte Vokale: i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot)
Frage
Wie kann man das Wort “jenseits” schreiben?
Hinweis: Das Wiktionary für Deutsch http://wiktionary.de/ ist auch ein Aussprachewörterbuch.
Phonologische Analyse
Welche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichen
Kontext gelten?
Definition 9.1.6 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unter
denen phonologische Alternationen statt finden.
92
Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafür
an.
Beispiel 9.1.7 (Phonologische Alternationen).
Das Plural-s wird im Englischen je nach Umgebung ganz unterschiedlich ausgesprochen: “peaches”, “pigs”, “cats”.
Morphologie und Ausspracheregeln
Ausspracheregeln beziehen sich nicht auf das Wort, sondern auf Morphe (Vorsilben, Endungen,
Wortstämme).
Beispiel 9.1.8 (Aussprache von „st“).
Wann wird in deutschen Wörtern „st“ als [St] und wann als [st] ausgesprochen? Beispiele:
Lastwagen, staunen, bestaunen, Staubsauger, Feinstaub, Krebstest, zurückkrebste
Beispiel 9.1.9 (Auslautverhärtung).
Im Deutschen werden gewisse Laute entstimmlicht, wenn sie am Ende eines Morphs stehen
und nicht vor einem Vokal. „Krug“ → [’kru:g]→ [’kru:k] „Krug+s“ → [’kru:g]+[s] → [’kru:ks]
„Krug+es“ → [’kru:g]+[@s] → [’kru:g@s]
Probleme der morphologischen Analyse und Lautfolgenberechnung
• Mehrdeutigkeiten der morphologischen Analyse:
Wählerstimmen = wähl+erst+imme+n
• Einschlüsse verschiedener Sprachen in einem Text
“Er hat dies nur contre coeur live gesungen.”
• Umgang mit named entities
Prosodische Analyse: Akzentuierung im Wort
Definition 9.1.10 (Wortakzent). Der Wortakzent ist diejenige Silbe eines Worts, welche am
stärksten betont wird.
Mehrsilbige Wörter und Komposita haben oft Nebenakzente.
Regelhaftigkeit von Wortakzenten im Deutschen
• Bei einfachen Wörtern eine lexikalische Information.
• Präfixe, Suffixe und Infixe sind regelhaft: be-, -lich, -tät, -al
• Bei Komposita (Zusammensetzungen) trägt immer der Wortakzent des Vorderglieds den
Hauptakzent: Hauptakzenterkennungsroutine
Die Nebenakzente können immer durch Fokusakzentuierung semantisch/pragmatisch zum stärksten Akzent gemacht werden.
93
Prosodische Analyse: Phrasen und Sätze
Um Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguistische Analysen.
Beispiel 9.1.11 (Satzintonation und -rhythmus).
The rear aggregate pumps . . .
• . . . work fine.
• . . . 50 gallons of fuel a second into the engine.
Beispiel 9.1.12 (Satzbetonung und Pausen).
• She left DIRECTIONS for Joe to follow.
• She left directions for Joe to FOLLOW.
Grundregel der Phrasierung
Eine Phrasengrenze zwischen 2 benachbarten Wörtern ist umso plausibler, je stärker die Wörter
in der syntaktischen Struktur getrennt sind voneinander.
Was ist Prosodie auf Satzebene? [Bader 2006]
Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenzverlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenen
Sprache wieder.
Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Computer zu analysieren, ist unter http://www.praat.org zu finden.
Prosodie: ToBI-Modell (Tones and Break Indices)
• H (high): Hohe Satzmelodie
• L (low): Tiefe Satzmelodie
• [HL]*: Auszeichnung der betonten Silbe
• [HL]+[HL]: Tonwechsel innerhalb von Wörtern
• [HL]%: Satzendebetonung
• [HL]– : Phrasenbetonung (sekundärer Satzakzent)
Beispiel: Prosodie [Simmons 2006b]
94
Abbildung 9.3: Satzintonation im Deutschen nach [Bader 2006]
9.1.3 Sprachsignalproduktion
Sprachsignalproduktion
Prosodiesteuerung
Aus der phonologische Analyse (Laute, Akzente, Pausen, Tonhöhenverlauf) werden die prosodischen Parameter der Laute für die Sprachsynthese berechnet: Dauer, Grundfrequenz, Intensität.
Die Verwendung der klassischen linguistischen Einheit Phonem (35-50 pro Sprache) für Sprachgenerierung ergibt keine guten Systeme.
Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen?
Definition 9.1.13 (Diphone III). Ein Diphon geht von der Mitte eines Phonems zur Mitte
des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone, für
Spanisch auf 800.
Koartikulation von Lauten wird dadurch auf jeweils 2 Phonemkombinationen beschränkt. In
der Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten.
Sprachsignalproduktion: Sprachkonserven
95
Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm
Abbildung 9.4: Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a])
Am primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustische
Sprachkonserven nacheinander ausgegeben werden.
Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen."
Beispiel 9.1.14 (Ein Problem zu einfacher Ansätze).
• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)
Unit Selection Databases
Ein Weiterentwicklung sind grosse Datenbanken, welche unterschiedlich grosse Einheiten (Phone, Diphone, Wörter) umfassen und eine optimale Selektion daraus versuchen.
Speech Synthesis Markup Language (SSML)
Dieser XML-Standard erlaubt eine strukturierte Spezifikation von verschiedenen Parametern
einer Speech-Applikation.
<p>
<s xml:lang="en-US">
<voice name="David" gender="male" age="25">
For English, press <emphasis>one</emphasis>.
</voice>
96
</s>
<s xml:lang="es-MX">
<voice name="Miguel" gender="male" age="25">
Para español, oprima el <emphasis>dos</emphasis>.
</voice>
</s>
</p>
http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/
9.2 Spracherkennung
Spracherkennungssysteme
Definition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus dem
akustischen Signal von gesprochener Sprache eine textuelle Darstellung.
Definition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnet
aus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung.
Spracherkennung ist schwieriger als Sprachsynthese. Warum?
Typische Architektur
Vom Sprachsignal zur Wortfolge
1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals:
Merkmalsextraktion)
2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phoneme, Diphone, Silben), mit denen sich die Wörter zusammensetzen
3. Lexikalische Analyse: Erkennen von Wortkandidaten
4. Syntaktische Analyse: Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche
5. Semantische Analyse: Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen
9.2.1 Probleme
Wortübergänge (Junkturen)
Wortgrenzen werden eher selten als Sprechpausen realisiert.
Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Verlängerung beginnender Konsonanten oder Betonung endender Vokale.
Definition 9.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonems
durch seine Umgebung.
Beispiel 9.2.4 (Assimilation).
R
• this year → this ear
• the old man → thiold man
97
Wortübergänge (Junkturen)
Beispiel 9.2.5 (Epenthese und Auslassung).
• China is → Chinaris
• best buy → besbuy
Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)).
• night-rate ↔ nitrate ; grey day ↔ grade A; why choose ↔ white shoes
• The sad poet remembers a long ago time ↔ Thus add poetry members along a goat I’m
Weitere Störfaktoren
• Unbekannte Wörter, u.a. zu kleines Lexikon
• Hintergrundsgeräusche
• Schlechte Mikrophone
• Sprecherspezifische Eigenheiten: schnelles oder undeutliches Artikulieren, dialektale Färbung
• Wenig kollaborative Kommunikation: Im Gegensatz zur menschlichen Kommunikation
weiss ein Spracherkennungssystem selten, worum es geht.
9.2.2 Worthypothesengraph
Worthypothesengraph
In einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsentiert. Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrschein-
Abbildung 9.5: Worthypothesengraph aus [Carstensen et al. 2004, 580]
lichsten Pfad auswählen.
98
9.2.3 Wortfehlerrate
Wortfehlerrate (word error rate, WER)
Definition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen versteht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zu
machen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) oder
eingefügt (INS) werden.
Abbildung 9.6: Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581]
Definition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern).
W ER = 100 ×
NSU B + NIN S + NDEL
N
9.3 Dialogsysteme
9.3.1 Typen
Dialogsysteme
Ein natürlichsprachliches Dialogsystem erlaubt Kommunikation zwischen Computer und Mensch
mittels menschlicher Sprache.
Definition 9.3.1 (Kommandowortsysteme). Ein Kommandowortsystem erlaubt die einseitige
Steuerung von elektronischen Geräten durch Äusserungen.
Definition 9.3.2 (Interactive Voice Response System (IVR)). Ein IVR erlaubt die sprachliche
Navigation durch ein starres Menu. Benutzer kann nur reagieren. III
Definition 9.3.3 (Conversational User Interface (CUI)). Ein CUI soll nebst der Steuerung
eines Devices den Benutzer pro-aktiv beratend unterstützen. Dialoge sollten von Mensch und
Maschine gesteuert sein (mixed-initiative dialogue).
9.3.2 VoiceXML
VoiceXML III
Dieser XML-Standard erlaubt eine strukturierte Spezifikation von (einfachen) natürlichsprachlichen Dialogsystemen (Bestellvorgänge, Chatbots usw.), welche Web-Services via Telefon verfügbar machen.
99
Abbildung 9.7: Anwendungsszenario VoiceXML nach [Raggett 2001]
VoiceXML beinhaltet ...
VoiceXML-Dokumente beschreiben
• Gesprochene Eingaben (synthetische Sprache)
• Ausgaben von Audiodateien und -streams
• Erkennung von gesprochenen Wörtern und Sätzen
• Erkennung von Tonwahl (DTMF)
• Aufnahme gesprochener Eingaben
• Kontrolle des Dialogflusses
• Telefoniekontrolle (Anruftransfer und Auflegen)
9.4 Vertiefung
• Pflichtlektüren: [Carstensen et al. 2009, 5.4] (im Materialordner)
• Eine umfassende technische Einführung bietet [Pfister und Kaufmann 2008]
• Für an Sprachtechnologie Interessierte: “HAL’s Legacy” http://www-mitpress.mit.edu/
e-books/Hal/chap6/six1.html
• Viele historische Beispiele für Sprachsynthese http://www.cs.indiana.edu/rhythmsp/
ASA/Contents.html
• Das didaktisch orientierte Tool MARY http://mary.dfki.de/, das wir im CLab integriert haben.
• Beispiel emotionale Fussballreportersprache:[MARY 2006]
• SAMPA: Kurzbeschreibung unter http://de.wikipedia.org/wiki/SAMPA und Hauptseite unter http://www.phon.ucl.ac.uk/home/sampa/index.html
100
• MBROLA:http://tcts.fpms.ac.be/synthesis/mbrola.html
• http://www.voicexml.org
• Beispiele: Dialoggestaltung [excelsis 2007]; Erkennung von Dialekten [ORF 2007b, ORF 2007a]
101
10 Maschinelle Übersetzung I
Lernziele
• Kenntnis über Automatisierbarkeit der Übersetzungsleistung
• Kenntnis über sprachtechnologische Unterstützung des menschlichen Übersetzenden
• Kenntnis über Verfahren zur automatischen Satzalignierung
• Kenntnis über linguistische Probleme der Übersetzung
10.1 Einführung
Enstehungsgeschichte
Maschinelle Übersetzung (MÜ)
Die Geburtsstunde der maschinellen Übersetzung wird ums Jahr 1947 angesetzt. Ihre Urväter,
Warren Weaver und Andrew D. Booth, kamen beide vom Codebrechen her.
[Weaver 1955] zitiert in seinem berühmten Memorandum “Translation” von 1949 aus seinem
Brief an Norbert Wiener (MIT) aus 1947:
When I look at an article in Russian, I say: “This is really written in English, but
it has been coded in some strange symbols. I will now proceed to decode.”
Have you ever thought about this? As a linguist and expert on computers, do you
think it is worth thinking about?
Frage
Wie war wohl Wieners Reaktion?
Second?as to the problem of mechanical translation, I frankly am afraid the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasimechanical translation
scheme very hopeful. [Weaver 1955]
Kurzer historischer Abriss der MT
• 1947-1954: Pionierphase, welche mit der IBM/Georgetown-MT-Demo endet, welche einen
ersten Fluss an Forschungsgeldern auslöst.
• 1954-1966: Phase des Optimismus: Entwicklung von syntaktisch orientierten Übersetzungssystemprototypen. Der ALPAC-Report [Pierce et al. 1966] ernüchtert in den USA
(und weiteren Ländern) die Geldgeber, welche produktive MT finanziert haben. Der Report verlangt Grundlagenforschung und Benutzerunterstützung.
102
• 1966-1980: Anfangs wenig Forschung in USA, aber verschiedene Systeme entstehen in
andern Ländern.
• 1980-1990: Diverse Systeme, welche syntaktisches und semantisches Wissen einbringen
und teilweise heute noch existieren, entstehen.
• Erste Hälfte 1990: IBM lanciert statistische Methoden für MÜ. Übersetzungssysteme für
gesprochene Sprache werden erforscht.
• Mitte 90-er bis 2000: PC-basierte Übersetzungssystem werden marktreif. WWW und EMail geben Ad-Hoc-Übersetzungen Anwendungspotential.
10.2 MT-Terminologie
Übersetzungsrichtungen
Definition 10.2.1 (Source Language (SL)). Unter der Quellsprache (QS) versteht man die
Sprache, die man übersetzen will.
Definition 10.2.2 (Target Language (TL)). Unter der Zielsprache (ZS) versteht man die Sprache, in die man übersetzen will.
Definition 10.2.3 (Übersetzungsrichtung). Die Anzahl der Übersetzungsrichtung für n Sprachen ergibt sich aus der Formel: n × (n − 1).
Beispiel EU
20 offizielle Sprachen der EU bis Ende 2006
Englisch, Deutsch, Französisch, Italienisch, Spanisch, Portugiesisch, Griechisch, Holländisch, Dänisch, Schwedisch, Finnisch, Tschechisch, Estnisch, Litauisch, Lettisch, Ungarisch, Maltesisch,
Polnisch, Slowenisch, Slowakisch
3 neue offizielle Sprachen der EU ab 2007
Irisch, Rumänisch, Bulgarisch
Beispiel 10.2.4 (Übersetzungsrichtungen in der EU).
Für die 20 Sprachen der EU bis 2006 gab es 20 × 19 = 380 Übersetzungsrichtungen. Wieviel
mehr sind es mit den 23 Sprachen?
Sprachendienst der EU
Die EU verwendet und entwickelt seit Jahrzehnten ein eigenes MÜ-System (“Euro Systran”).
1998 wurden 370’000 Seiten übersetzt und ca. 35% Übersetzungszeit eingespart.
10.2.1 MT
Maschinelle Übersetzung
Definition 10.2.5 (Machine Translation (MT)). Maschinelle Übersetzung (MÜ) meint die vollautomatische Übersetzung eines natürlichsprachlichen Textes in eine andere natürliche Sprache.
Definition 10.2.6 (Speech-To-Speech Translation, Machine Interpretation auch Translation
). Maschinelles Dolmetschen meint die vollautomatische Übersetzung gesprochener Sprache in
eine andere natürliche Sprache.
103
10.2.2 CAT
Computerunterstützte Übersetzung
Definition 10.2.7 (computer aided (assisted, based) translation (CAT)). Computerunterstützte
Übersetzung kombiniert menschliche und maschinelle Übersetzungsleistung.
Abbildung 10.1: Automatisierungsgrade nach [Hutchins und Somers 1992]
10.2.3 MAHT
Computergestützte Humanübersetzung (MAHT)
Definition 10.2.8 (CAT-Software). In der computergestützten Humanübersetzung wird Software eingesetzt, welche den Übersetzungsprozess optimiert:
• Projekt-Verwaltung und Dokumenten-Editor (automatische Übernahme von Dokumentenformatierung)
• Terminologie-Komponente: (halbautomatisches) Erfassen und Pflegen von Begriffen
• Alignment-Komponente: Zuordnen von satzweisen Übersetzungspaaren
• Translation-Memory-Komponente (TM): Verwaltung der existierenden Übersetzungspaare
• Übersetzungs-Komponente: Anwendung von Terminologie und Translation-Memory
Vorgehen bei TM-basierter Übersetzung
• Textsegmentierung in Sätze oder satzähnliche Fragmente (Titel, Aufzählungen usw.)
• Matching (Abgleich) der Sätze auf bestehende Übersetzungen: Übersetzungskandidaten
104
• Auswahl und Bearbeitung: Der Übersetzer wählt aus vorgeschlagenen Übersetzungen aus
und passt sie allenfalls an.
100%-Matches garantieren keine fehlerfreie Übersetzung!
• TM-Inhalt EN: Turn to the filter on the right. Remove and clean it.
• TM-Inhalt DE: Wenden Sie sich dem Filter rechts zu. Nehmen Sie ihn heraus und säubern
Sie ihn.
• QS EN: Turn to the lock on the right. Remove and clean it.
• ZS DE: Wenden Sie sich dem Schloss rechts zu. *Nehmen Sie ihn heraus und säubern Sie
ihn.
Abbildung 10.2: Beispiel: Dokumenten-Editor mit Zugriff auf TM
Beispiel: Partieller Match (Fuzzy Match)
Die Übereinstimmungsquote für einen Übersetzungsvorschlag lässt sich einsehen oder einstellen.
Beispiel 10.2.9 (Partieller Match).
Der aktuell vorliegende Text, sowie das im TM abgelegte Übersetzungspaar wird angezeigt.
Nicht übereinstimmendes Material in der QS ist gelb, Vertauschung ist blau markiert.
105
Abbildung 10.3: Beispiel: Fuzzy-Match mit 81% Übereinstimmung
Abbildung 10.4: Beispiel: Dokumenten-Editor mit Zugriff auf TM
Erstellung von Translation-Memories
• Bootstrapping durch Abspeichern aller manuell satzweise übersetzten Übersetzungspaare
im CAT-System
• Erzeugen von TM durch satzweise alignierte, bestehende Übersetzungen ((halb-)automatische
Satz-Alignierung) aus Bi-Texten (Bilinguale Textsammlungen)
Ansätze automatischer Satz-Alignierung
106
• Basierend auf der Satzlänge
• Basierend auf textuellen Ankern (Wörter, Formatierungen)
Exkurs: Satzlängenbasierte Alignierung
Ansatz von [Gale und Church 1993]
1. Zuordnung von Absätzen auf Grund ihrer Länge (oder Formatierung)
2. Zuordnung von Sätzen innerhalb von Absätzen aufgrund minimaler Längenabweichung
der entstehenden Paare
Zuordnungsverhältnisse
In der Praxis lassen sich die Übersetzungen auf Satzebene fast immer vollständig mit 0:1-, 1:1-,
1:2- und 2:2-Verknüpfungen zuordnen.
Zuordnung
1:1
1:2
0:1
2:2
Häufigk.
89%
9%
1%
1%
Fehler
2%
9%
100%
33%
Tabelle 10.1: Häufigkeit im Test-Korpus von Gale und Church
Parametrisierung der Alignierung bei Trados WinAlign
Alignment über Dokumentstruktur
Terminologiekomponente
• verschiedene Suchmöglichkeiten
• Möglichkeiten zum Import von Glossaren und Wörterbüchern aus dem Anwendungsgebiet
• Terminologieextraktion aus Texten, d.h. automatisches Generieren von Kandidaten für
Terminologieeinträge
• Einsetzen von Wörtern aus dem Glossar in den Text
• Terminologiekontrolle zur Konsistenzsicherung der Übersetzung
107
Abbildung 10.5: Parametrisierung der Alignierung bei SDL Trados WinAlign
Fazit zu MAHT
• Terminologische Exaktheit und Konsistenz ist gross.
• Übersetzungsresultate werden wiederverwendbar.
• (Neue) Mitarbeitende können von vorhandenem Wissen profitieren
• Workflow bei der Übersetzung stark vorstrukturiert.
• Zeitmanagement und Projekt-Kosten sind kalkulierbarer.
• Unterhalt der Terminologie und TM lohnt sich, falls oft ähnliche Texte zu übersetzen sind.
• Hoher Nutzen bei Software-Lokalisierung (Anpassung von Sprache, Masseinheiten usw.)
oder Handbüchern, deren unterschiedliche Releases nur wenige Modifikationen enthalten.
• Linguistisch intelligenter Umgang mit partiellen Matches ist erwünscht, aber nicht trivial.
10.2.4 HAMT
Human-Aided Machine Translation (HAMT)
Definition 10.2.10. HAMT bezeichnet Übersetzungsszenarios, bei denen einen maschinelle
Übersetzung durch gezielte manuelle
108
Abbildung 10.6: Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign
Abbildung 10.7: Export der Alignierung als TM
109
Abbildung 10.8: Terminologie-Verwaltung mit Termbase
• Präedition (Vorredaktion: Markieren von Namen, Korrigieren von Fehlern im Quelltext,
Ergänzen von Lexikoneinträgen usw.),
• Postedition (Nachredaktion: Verbessern der Rohübersetzung, Auflösen von maschinellen
Problemstellen (Ambiguitäten, unbekannte Wörter) usw.).
ergänzt wird.
Die Operationen der Prä- oder Postedition können auch interaktiv geschehen.
10.2.5 FAHQT
Fully automatic high quality translation (FAHQT)
Menschliche Übersetzungsqualität durch vollautomatische MÜ
Weiterhin utopisch, auch wenn sich immer wieder Leute finden lassen, welche Gegenteiliges für
die nahe Zukunft prognostizieren!
Aber
• Übersetzungstechnologie macht dauernd Fortschritte.
• Eingeschränkte Anwendungsgebiete und gute lexikalische Ressourcen erlauben sehr brauchbare Resultate!
110
Abbildung 10.9: “Rohübersetzung” von erkannter Terminologie
• Für Informativ-Übersetzungen braucht es keine literarische Qualität.
Frage
Welche Textsorten eignen sich für automatische Übersetzung?
Nach Schwierigkeitsgrad geordnet (*=ohne manuelle Bearbeitung;**=mit Vor-/Nachredaktion;
***=zur Zeit unmöglich):
1. Wetterberichte, Börsenberichte, weitere extrem eingeschränkte Subsprachen*
2. Technische Dokumente, Handbücher **
3. Rechtsdokumente**
4. Wissenschaftliche Texte**
5. Journalistische Texte***
6. Literarische Texte, Werbetexte, Filmtexte***
Der Einsatz von Übersetzungsgedächtnissen und ausgebauter Terminologie hat allerdings einen
grossen Einfluss auf die Qualität der Resultate bei Texten der Kategorien ** und ***.
111
Wetterberichtstexte
Beispiel 10.2.11 (Englische und französische Wetterberichte aus Kanada).
Tonight..Cloudy. 60 percent chance of showers early this evening. Periods of rain beginning this
evening. Becoming windy near midnight. Low 7. Ce soir et cette nuit..Nuageux. 60 pour cent
de probabilité d’averses tôt ce soir. Pluie intermittente débutant ce soir. Devenant venteux vers
minuit. Minimum 7.
Das berühmte FAHQ-Übersetzungssystem METEO
Von 1978-2001 war das Übersetzungssystem METEO (in verschiedenen Versionen) in Kanada
für MÜ von Englisch nach Französisch im Dienst. 1991 wurde ca. 45’000 Wörter pro Tag damit
übersetzt.[Chandioux 1991]
10.3 Evaluation
Qualitätskriterien für Übersetzungen
Zielsprachliche Formulierungsgewandtheit (Fluency)
Wie fliessend (lexikalisch, syntaktisch und stilistisch korrekt und natürlich) erscheint der übersetzte Text?
Quellsprachliche Ausdruckstreue (Faithfulness)
Wie genau wurde die ursprüngliche Formulierung übernommen?
Beispiel 10.3.1 (Klassiker: Fluent vs. Faithful).
• Japanisch: “fukaku hansei shite orimasu”
• Englisch I: “We are deeply reflecting (on our past behaviour, and what we did wrong, and
how to avoid the problem next time).”
• Englisch II: “We apologize.”
Qualitätskriterien für Übersetzungen
Adäquatheit einer Übersetzung
Wieviel der ursprünglichen Information wird in der Übersetzung wiedergegeben? Operationalisierbar durch menschliche Urteile über einer nominalen Skala (Alles, Meiste, Viel, Wenig,
Nichts).
Informativität einer Übersetzung
Reicht eine Übersetzung aus, um gewisse Fragen beantworten zu können. Operationalisiserbar
durch task-basierte Evaluation via Multiple-Choice-Aufgaben zum Inhalt.
Posteditierungsaufwand
Wieviel Zeit benötigt die Postedition? Wieviele Sätze oder Texte brauchen wieviele Modifikationen? Bei METEO-System brauchten 1991 ca. 4% der Texte eine Postedition (bzw. HT).
112
10.4 Linguistische Probleme der Übersetzung
Ideale Sprachen für MT
Maschinelle Übersetzung von QS nach ZS wäre trivial, wenn folgende Bedingungen erfüllt wären:
• Jede Wortform von QS hat genau eine entsprechende Wortform in ZS.
• Jeder Satz von QS hat genau eine syntaktische Analyse.
• Jeder Satz von QS hat genau eine Bedeutung.
• Jedem Konstruktionstyp in QS entspricht genau ein Konstruktionstyp in ZS.
10.4.1 Mehrdeutigkeit
Mehrdeutigkeit der Wortart
Beispiel 10.4.1 (Mehrdeutige Wortform: Englisch nach Französisch).
• You must not use abrasive cleaners on the printer casing.
• The use of abrasive cleaners on the printer casing is not recommended.
Diagnose
Dieselbe Wortform in der QS (“use”) steht für verschiedene Wortformen in der ZS (“emploi/N”,
“employer/V”).
Minimaler Lösungsansatz
Bestimmen der Wortart in der QS, d.h. Tagging.
Mehrdeutigkeit von morphologischen Merkmalen
Beispiel 10.4.2 (Mehrdeutige Wortform: Englisch nach Deutsch).
• We just loved to play football.
• He played quarterback and loved to play football.
Diagnose
Dieselbe Wortform in der QS (“loved”) steht für verschiedene Wortformen in der ZS:
liebten/VVFIN:1.Pl.Past.Ind, liebte/VVFIN:3.Sg.Past.Ind.
Lösungsansatz
Um die korrekte finite Wortform im Deutschen zu wählen, muss man wissen:
• Was ist das Subjekt dieses finiten Verbs?
• Welche Person und Numerus hat dieses Subjekt?
Dieses Wissen kann eine syntaktische Analyse liefern.
113
Mehrdeutigkeit von morphologischen Merkmalen
Beispiel 10.4.3 (Mehrdeutige Wortform: Englisch nach Deutsch).
• When John drank the winei in the glass he spilled iti .
Als Hans den Wein im Glas trank, verschüttete er ihn.
• When John drank the wine in the glassi he broke iti
Als Hans den Wein im Glas trank, zerbrach er es.
Diagnose
Dieselbe Wortform in der QS (“it”) steht für verschiedene Wortformen in der ZS:
ihn/PPER:3.Sg.Masc.Akk, es/PPER:3.Sg.Neut.Akk.
Lösungsansatz
Eine syntaktische Analyse allein liefert noch keine Entscheidungsgrundlage.
Lexikalisches Sortenwissen und Desambiguierung
Die korrekte Übersetzung von “it” ins Deutsche erfordert eine Bestimmung der Bezugsgrösse
des Pronomens.
Beispiel 10.4.4 (Aus dem elektronischen Lexikon WordNet III).
• (v) spill, slop, splatter (cause or allow (a liquid substance) to run or flow from a container)
“spill the milk”; “splatter water”
• (v) break (destroy the integrity of; usually by force; cause to separate into pieces or
fragments) “He broke the glass plate”; “She broke the match”
Selektionsrestriktionen von Verben als Ausschlusskriterien
Das Akkusativobjekt von “to spill” bezeichnet eine Flüssigkeit. Das Objekt von “to break” kann
keine Flüssigkeit sein, weil diese nicht in Stücke gebrochen werden können.
Lexikalisches Sortenwissen in der CL
Woher weiss der Computer, dass “wine” eine Flüssigkeit bezeichnet?
Beispiel 10.4.5 (Begriffshierarchie für “wine” aus WordNet III).
(n) wine, vino (fermented juice (of grapes especially)) → (n) alcohol, alcoholic beverage, intoxicant, inebriant (a liquor or brew containing alcohol as the active agent) → (n) liquid (a
substance that is liquid at room temperature and pressure) → (n) fluid (a substance that is
fluid at room temperature and pressure) → (n) substance, matter (that which has mass and
occupies space) → (n) physical entity (an entity that has physical existence) → (n) entity (that
which is perceived or known or inferred to have its own distinct existence (living or nonliving))
Frage
Warum kann man trotzdem sagen “Er verschüttet ein Glas Wein”?
114
Mehrdeutigkeit von syntaktischen Funktionen
Beispiel 10.4.6 (Mehrdeutige syntaktischen Funktionen: Deutsch nach Englisch).
Briefträger beißen Hunde selten.
Dogs seldom bite postmen.
Postmen seldom bite dogs.
Diagnose
Die halbfreie Wortstellung des Deutschen muss für die ZS Englisch ins SVO-Schema gebracht
werden. Das Subjekt ist in der QS aber nicht morphologisch markiert.
Mehrdeutigkeit von syntaktischen Funktionen
Beispiel 10.4.7 (Anbindung von PP: Deutsch nach Englisch).
Den Mann sah die Frau mit dem Fernglas.
The woman with the telescope saw the man.
The woman saw the man with the telescope.
Diagnose
Ob die PP als postnominaler Modifikator oder als Verb-Modifikator fungiert muss in der Übersetzung partiell aufgelöst werden.
Lösungsansatz für PP-Anbindungsdesambiguierung
Heuristiken (Bevorzuge eine enge Anbindung!) oder statistische Angaben über Präferenzen der
Paare V − NP P (“sehen”-“Fernglas”) vs. N − NP P (“Frau”-“Fernglas”).
Falls die ZS die Mehrdeutigkeit ebenfalls ausdrücken kann, muss allerdings nicht aufgelöst werden.
Mehrdeutigkeit von Wortbedeutungen
Hauptproblem
Die meisten Wörter haben mehrere Bedeutungen, welche in der ZS unterschiedlich lexikalisiert
werden können!
Beispiel 10.4.8 (box in http://dict.leo.org: Englisch nach Deutsch).
• Kasten, Behältnis, Dose, ...
• Buchs, Anhieb, Achsbüchse
• Eingabefeld
• Glotze, Sarg
Lösungsansätze
Markierung der Übersetzungspaare nach Fachgebiet (Agronomie, Botanik, Technik) und Stilebene. Heuristik: Bevorzuge ähnlich mehrdeutige Ausdrücken in der ZS! Wortsinndesambiguierung:
Berechne die wahrscheinlichste Bedeutung aus dem Kontext!
115
Mehrdeutigkeit von Wortbedeutungen (Klassiker)
Beispiel 10.4.9 (Mehrdeutige Wortform: Englisch nach Deutsch).
• The pen was in the box.
Die Schreibfeder war in der Schachtel.
Das Laufgitter war in der Schachtel.
• The box was in the pen.
Die Schachtel war im Laufgitter.
Die Schachtel war in der Schreibfeder.
Diagnose
Die plausiblen Übersetzungen von “pen” in einem einzelnen Satz erfordern Weltwissen über die
typische Beschaffenheit von Gegenständen und über gängige Situationen.
Welche Situationen sind typisch? [Melby 2001]
Siehe Abbildungen 10.10 und 10.11.
Abbildung 10.10: Situationen zu “The pen was in the box” nach [Melby 2001]
Enzyklopädisches Weltwissen
Wir wissen, dass die involvierten Gegenstände typischerweise etwa folgende Ausdehnung haben:
• Schreibfeder: ca. 10cm lang und 1cm breit
• Schachtel: ca. 5 bis 100cm lang/breit
• Laufgitter: ca. 50 bis 500cm lang/breit
Damit werden gewisse Verschachtelungen unwahrscheinlich.
Unwahrscheinlich, aber nicht unmöglich
Little Johnny was unhappy. On Christmas eve he got a pen (“auch Pferch”) for his toy horse.
Now he had lost it. Suddenly he found it. The pen was in the box. He was happy again.
116
Abbildung 10.11: Situationen zu “The pen was in the box” nach [Melby 2001]
Mensch vs. Maschine
Menschen setzen Weltwissen bzw. Welterfahrung unbewusst und problemlos ein. Maschinelle
Repräsentationen davon sind jedoch schwierig! Datenbasierte Ansätze finden Weltwissen enkodiert in den Sprachkorpora.
Mehrdeutigkeit von pragmatischen Kategorien
Beispiel 10.4.10 (Mehrdeutige Wortform: Englisch nach Französisch).
• Thank you for coming. Merci de venir.
• A: Would you like a coffee? B: Thank you. B: S’il vous plaît.
Diagnose
Dieselben Wortformen in der QS (“thank you”) stehen für verschiedene Wortformen in der ZS
(“merci”, “S’il vous plaît”).
Lösungsansatz
Um die korrekte Übersetzung zu finden, muss man wissen, ob es sich um eine Antwort auf
eine Angebots-Frage handelt. Dieses Sprechakt-Wissen liefert eine Analyse auf der Ebene der
Pragmatik.
10.4.2 Idiome und Kollokationen
Definition 10.4.11 (idiomatische Wendung, Redewendung). Ein Idiom ist eine feste, mehrteilige Wortgruppe, welche eine semantische Einheit bildet, die nicht aus den Einzelteilen abgeleitet
werden kann. Modifikationen oder Austausch von Elementen sind schlecht möglich.
Beispiel 10.4.12 (Idiom).
• jemanden auf die Palme bringen
•
# jemanden
auf die hohe Palme bringen
117
•
# jemanden
auf die Birke bringen
• to drive someone crazy
Übersetzbarkeit von Idiomen
Idiom lassen sich nur in Ausnahmefällen wörtlich von der QS in die ZS übersetzen.
Kollokationen
Definition 10.4.13 (collocation). Eine Kollokation ist eine Kombination von Wörtern, welche
sich gegenseitig bevorzugt verbinden und andere semantisch denkbare Kombinationen unterdrücken.
Beispiel 10.4.14 (Kollokation).
• Ein starker Raucher ist jemand, der intensiv raucht.
• Ein starker Schreiber ist aber nicht jemand, der intensiv schreibt.
Übersetzbarkeit von Kollokationen
Wie bei den Idiomen kann die Übersetzung nicht wortweise isoliert erfolgen.
Beispiel: Intensivator als Kollokation
Eine korrekte Übersetzung von “heavy smoker” in Deutsch oder Französisch bedingt:
• Die Erkennung von “heavy” als kollokativer Intensivator.
• Die Kenntnis, dass der Intensivator für “fumeur” im Französischen “grand” lautet.
• Die Kenntnis, dass der Intensivator für “Raucher” im Deutschen “stark” lautet.
Die Intensivierung kann als lexikalische Funktion betrachtet werden, welche vom Kopf einer
Konstituente abhängig ist. [Arnold et al. 1994, 127]
Beispiel: Verbgefüge als Kollokationen
Beispiel 10.4.15 (“support verbs” im Englischen ).
• They took (*made) a walk.
• They make (*took) an attempt.
• They had (*made,*took) a talk.
Lexikalische Funktion
Der Kern solcher Kollokationen liegt im Nomen. Die Funktion des Verbs kann sprachübergreifend abstrakt als “support verb” repräsentiert werden. Die genaue Verbalisierung ist aber nicht
vorhersagbar, sondern muss im Lexikon erfasst werden.
118
10.4.3 Sprachbau
Globale Diskrepanzen
Die komparative Grammatikschreibung hat die verschiedenen grammatikalischen Prinzipien gesucht und ihre unterschiedlichen Parametrisierungen in den Einzelsprachen beschrieben.
• Stellung des Kopfes innerhalb von Konstituenten
• Stellung der Modifikatoren bezüglich Kopf
• Verwendung von morphosyntaktischen Merkmalen wie Genus und Kasus (Englisch vs.
Deutsch)
• Verwendung von Artikeln (Russisch vs. Deutsch)
• Optionalität von lexikalischen Subjekten (Italienisch vs. Deutsch)
global mismatches
Globale Unterschiede wie etwa Wortstellungsabweichungen stellen für primitive Ansätze bereits
eine hohe Hürde dar.
Stellungsregularität Subjekt(S)-Objekt(O)-Verb(V)
Bei Übersetzungen zwischen Sprachen mit unterschiedlicher SVO-Ordnung sind manchmal grosse Umstellungen notwendig.
Beispiel 10.4.16 (Englisch vs. Japanisch).
• SVO: He adores listening to music.
• SOV:
he
kare ha
music
ongaku
to
wo
listening
kiku
no ga
adores
daisuki
desu
Lokale Diskrepanzen
Beispiel 10.4.17 (Wortstellung).
• „I have seen him“ vs. „Ich habe ihn gesehen.“
• „What doctor did John go to?“ vs „Zu welchem Doktor ging John?“
• „He never sleeps long.“ vs. „Er schläft nie lange.“
Beispiel 10.4.18 (Head Switching).
• „I like swimming.“ vs. „I schwimme gerne.“
• „John usually goes home.“ vs. „Juan suele ir a casa.“
Beispiel 10.4.19 (Zuordnung thematische Rolle zu syntaktischer Funktion).
• „cautionner qn“ vs „bürgen für jmdn.“
• „I miss my dictionary.“ vs. „Mon dictionnaire me manque.“
119
Beispiel 10.4.20 (Passivkonstruktion).
• She insists on being given the books.
• Sie besteht darauf, dass ihr die Bücher gegeben werden.
Beispiel 10.4.21 (Gerundiv-Konstruktionen).
• He did not neglect writing to her.
• Er versäumte es nicht, ihr zu schreiben.
10.5 Vertiefung
• Reichhaltiges Sammelsurium zur maschinellen Übersetzung und ihrer Geschichte http:
//www.mt-archive.info/
• Lerneinheit “Satz- und Phrasenähnlichkeit” http://www.cl.uzh.ch/clab/satzaehnlichkeit/
10.6 Exkurs: BLEU-Score
Automatische Evaluation
Idee
Automatische Evaluation misst die Qualität einer maschinellen Übersetzung, indem sie mit einer
oder besser mehreren menschlichen Referenz-Übersetzungen verglichen wird.
Vorteile
Menschliche Evaluation ist aufwändig und langsam, automatische Berechnung einer metrischen
Güte ist billig und schnell.
Definition 10.6.1 (Bilingual Evaluation Understudy (BLEU)). Eine der aktuell wichtigsten
Metriken zur automatischen bilingualen Evaluation ist der BLEU-Score.
BLEU: Unigramm-Präzision
1. MT: It is a guide to action which ensures that the military always obeys the commands
of the party.
2. MT: It is to insure the troops forever hearing the activity guidebook that party direct.
1. HT: It is a guide to action that ensures that the military will forever heed Party commands.
2. HT: It is the guiding principle which guarantees the military forces always being under
the command of the Party.
3. HT: It is the practical guide for the army always to heed the directions of the party.
Definition 10.6.2 (Unigramm-Präzision P1 ). Die Unigramm-Präzision (Token-Präzision) eines
Übersetzungskandidaten misst, wie hoch der Anteil der Wörter aus allen Referenzübersetzungen
C
an allen Tokenvorkommen eines Kandidaten ist: P1 = N
N = Anzahl Token des Kandidaten; C = Anzahl Token des Kandidaten, welche in einer Referenzübersetzung erscheinen
120
Unigramm-Evaluation
Frage
Wie hoch sind P1 von MT1 und MT2?
Tokenvorkommen
• MT1: . a action always commands ensures guide is it military of party that the the the to
which
• MT2: . is it party that the the to
Notwendigkeit für Clipping
Problem der Wiederholung
• Kandidat: the the the the the the the
• HT1: the cat sat on the mat
• HT2: there is a cat on the mat
Wie hoch ist die P1 des “idiotischen” Kandidaten?
7
7
Clipping der Kandidatenvorkommen
Ein Token darf maximal sooft gezählt werden, wie es in einer einzelnen Referenzübersetzung
vorkommt.
Wie hoch ist P1 des Kandidaten mit Clipping?
2
7
Uni-, Bi-, Tri- und Quadrigramme
Längere Textabschnitte im Vergleich
Welche N-Gramme aus den Referenztexten finden sich im MT-Kandidaten?
1. MT: It is a guide to action which ensures that the military always obeys the commands
of the party.
1. HT: It is a guide to action that ensures that the military will forever heed Party commands.
2. HT: It is the guiding principle which guarantees the military forces always being under
the command of the Party.
3. HT: It is the practical guide for the army always to heed the directions of the party.
Geometrisches Mittel der N-Gramm-Präzisionen
Die Precisionwerte der 1-4-Gramme eines Kandidaten werden geometrisch gemittelt: P = (P1 ×
P2 × P3 × P4 )1/4
Problem der Kürze
• Kandidat: of the
121
• HT1: It is the guiding principle which guarantees the military forces always being under
the command of the Party.
Wie hoch ist die P1 des Kandidaten?
2
2
Recall-Mass kompensieren
Normalerweise würde ein Präzisionsmass mit Recall verrechnet, um solche Effekte zu mindern.
Wir haben aber mehrere Referenzübersetzungen. Als Ausweg wird ungewöhnliche Kürze des
Kandidaten bestraft.
Strafabzug für Kürze über Korpus
1. Schritt: Bestimme die Gesamt-Länge c der Kandidatenübersetzung.
2. Schritt: Bestimme die Gesamt-Länge r der Referenzübersetzungen, indem jeweils die kürzeste (NIST-Variante) oder zur höchsten Bewertung führende Referenzübersetzung genommen wird.
3. Schritt: Bestimme Kürze: brevity = r/c
4. Schritt: Bestimme Strafabzug (brevity penalty):
(
BP =
1
falls c > r
e(1−brevity) falls c ≤ r
Beispiel 10.6.3 (Realistischer Faktor).
Wenn Kandidatenübersetzung 1000 Token zählt (c = 1000) und Referenzlänge als 1100 Token
zählt (l = 1100), dann BP = e1−1.1 = e−0.1 = 0.905
BLEU als Formel
BLEU-Score ergibt sich aus Multiplikation von Brevity Penalty mit der geometrisch gemittelten
Präzision aus 1-4-Grammen.
BLEU = BP × (P1 × P2 × P3 × P4 )1/4 = BP × P
Wert von 1 heisst “perfekte” Übereinstimmung, Wert 0 heisst keine Übereinstimmung.
Eigenschaften
BLEU betont enge lokale Übereinstimmung und vernachlässigt Unstimmigkeiten, welche sich
darüber hinaus ergeben können:“Ensures that the military it is a guide to action which always
obeys the commands of the party.” wäre gleich gut wie Kandidat 1.
Wie zuverlässig bildet BLEU das menschliches Urteil ab?
• Wortvarianz (Synonyme) wird nur berücksichtigt, wenn in Referenzübersetzungen enthalten
• Unwichtige und wichtige Inhalts-Wörter werden gleich behandelt
• Für denselben BLEU-Score gibt es Millionen von Kombinationen mit unterschiedlichster
Übersetzungsqualität
• Regelbasierte Übersetzungssysteme werden gegenüber statistischen gerne abgestraft
122
Abbildung 10.12: Korrelation
von
menschlichen
[Callison-Burch et al. 2006]
123
und
BLEU-Bewertungen
nach
11 (Formale) Sprachen und Grammatiken
Lernziele
• Kenntnis über Grammatiken, ihren Zweck und Ausrichtung
• Kenntnis von Konstituentenstrukturdarstellung und Phrasenstrukturregeln
• Kenntnis über die rekursive Verschachtelung und Mehrdeutigkeit syntaktischer Strukturen
• Kenntnis von syntaktischer Analyse (Parsing)
• Fähigkeit einfache Konstituentenstrukturgrammatiken zu schreiben (in XLE als Übung)
• Kenntnis über formale Sprachen und (Regel-)Grammatiken
• Kenntnis über das Ableiten mit kontextfreien Grammatiken
• Kenntnis über die Chomsky-Hierarchie
11.1 Grammatik
Sprachkompetenz
Grundfrage
Wie ist es möglich, dass wir Sätze bilden und verstehen können, welche wir noch nie gehört
haben?
Was bedeutet der Begriff „Grammatik“?
Einige Bedeutungen nach [Bussmann 2002]
• „Wissen bzw. Lehre von den morphologischen und syntaktischen Regularitäten einer natürlichen Sprache“
• „Strukturelle Regelsystem, das allen sprachlichen Produktions- und Verstehensprozessen
zugrunde liegt“
• „Systematische Beschreibung der formalen Regularitäten einer natürlichen Sprache in
Form eines Nachschlagewerkes“
Definition 11.1.1 (Arbeitsdefinition). Grammatiken sind Modelle, wie Sprache auf der morphosyntaktischen Ebene funktioniert.
124
Arten von „Grammatiken“?
• Einzelsprachlich vs. übersprachlich (UG: Universalgrammatik): Vgl. den UG-Konfigurator
für HPSG1
• Normativ vs. deskriptiv: Grammatikduden sagt, wie geschriebene Sprache sein soll. Wer
Real-World-Sprachdaten verarbeiten will, braucht andere Regeln.
• Formal vs. informell: Vollständig formalisierte und explizite Grammatiken sind geeignete
Modelle für eine Implementation.
• Pädagogisch vs. anwendungsorientiert: Maschinelle Übersetzung hat andere Anforderungen an eine Grammatik als Erst- oder Zweitspracherwerbende.
Adäquatheitsstufen grammatischer Modelle
Nach Noam Chomsky gemäss [Bussmann 2002]
• Beobachtungsadäquatheit: Sprachliche Daten werden korrekt und vollständig erfasst z.B.
reine wortbasierte N-Gramm-Modelle
• Beschreibungsadäquatheit: Intuition und Kompetenz der Sprachteilnehmer zu Regularitäten werden erfasst
• Erklärungsadäquatheit: Kognitive Realität der menschlichen Sprachfähigkeit wird erfasst:
Wie funktioniert Sprache (universal), Spracherwerb, Sprachwandel?
Anwendungsadäquatheit in der CL
Sprachliche Daten werden für die Anwendung hinreichend präzise und effizient (Speicherbedarf
und Rechenzeit) analysiert.
Grammatiktheorien in der CL
Formale Linguistik und CL haben sich oft gegenseitig befruchtet.
• Generative Grammatik (GG): Transformationsgrammatik (60-70er), Government & Binding (80-90er), Minimalistisches Programm (ab 90er)
• LFG (Lexical Functional Grammar)
• HPSG (Head Phrase Structure Grammar)
• TAG (Tree Adjoining Grammar)
• Dependenzgrammatik (DG): Dependency Grammar, Word Grammar
1
http://www.delph-in.net/matrix/customize/matrix.cgi
125
11.1.1 Konstituentenstruktur
Konstituenz
Definition 11.1.2 (nach [Bussmann 2002]). Konstituente. In der strukturellen Satzanalyse
[sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die
Teil einer grösseren sprachlichen Einheit ist.
Definition 11.1.3 (nach [Bussmann 2002]). Ziel und Ergebnis der Konstituentenanalyse ist
die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge von Konstituenten.
Definition 11.1.4 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und
linearen Präzedenz zwischen Konstituenten.
Darstellungsformen der Konstituenz
Konstituenten in der annotate-Darstellung
L!
SOT
L<
!
SOR
!N
M;
A:
Syntaktische
Konstituente
unmittelbare
Dominanz
!"#
.#/#0
O
+@
'($)(*(+,-
'($)($4#5(306
L<
+@
.#78.9#
1123+
L;
+$
SOO
P
$$%&
M;
L+$
SOQ
L<
Konstituente auf
Wortebene
!1$
1#4>"06?0.#0
Q
?06
'
:;<:
Präzedenz
auf
$,5(*(:==($)(!9
Wortebene
&"5"=#0
R
++
@A+
Präzedenz
zwischen
2#-(:==($)(*
!!
Tochterkonstituenten
#"0
S
Konstituenten in traditionellen linguistischen Darstellungen
Baumdarstellung
S
e
eeeeee
NP VP
YYYYYY
Y
NE
V
Egon sah
NP
YY
D
YYYYY
N
den Pudel
126
F#45?G/#0
U
++
$B@1C
ED
1123+
+#?9(:==($)(*
!!
!!
'($)($4#5(30
Abbildung 11.1: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung
Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente.
D
T
Kastendiagramm
Egon
NE
NP
NP
sah
V
V
den
D
Pudel
N
NP
VP
S
Klammernotationen: Indizierte Klammerung und S-Expression (LISP)
• [[[Egon]NE ]NP [[sah]V [[den]D P udel]N ]NP ]VP ]S
• (S (NP (NE Egon)) (VP (V sah) (NP (D den) (N Pudel))))
Konstituentenstruktur und Phrasenstrukturregeln (PSR)
Phrasenstrukturregeln drücken die Beziehung zwischen einem Mutterknoten und ihren zulässigen Tochterknoten (unmittelbare Dominanz) sowie die Reihenfolge unter den Tochterknoten
(unmittelbare Präzedenz) aus.
Baumdarstellung
S
e
eeeeee
NP
VP
YY
NE
V
Egon sah
YYYYY
NP
YYYYYY
Y
D
N
den Pudel
Phrasenstrukturregeln
S → NP VP
NP → EN
V → sah
NE → Egon
VP → V NP
NP → D N
D → den
N → Pudel
Sprechweisen für Phrasenstrukturregeln
S dominiert eine NP gefolgt von einer VP. S besteht aus einer NP gefolgt von einer VP. S
produziert/erzeugt eine NP gefolgt von einer VP. Eine NP gefolgt von einer VP wird ersetzt
durch ein S.
Syntax- und Lexikonregeln
Bei der Entwicklung von Grammatiken in der Linguistik wir oft zwischen Lexikonregeln und
Syntaxregeln unterschieden.
Lexikonregeln und Präterminale
Bei Lexikonregeln wird eine Wortform (Terminal) einer oder mehreren syntaktischen Kategorien
(Präterminal) zugeordnet: EN → Egon
Syntaxregeln
127
Syntaxregeln beschreiben, wie Kategorien (Nichtterminal) zu einer grösseren Kategorie kombiniert werden: S → NP VP
Konzise Notation von Alternativen und Optionalität
Eine PP besteht aus Präposition und NP oder Präpositionaladverb: PP → {P NP | PAdv }
Eine NP besteht aus Eigenname, oder Artikel, Nomen mit optionaler PP: NP → { NE | D N
(PP) }
11.1.2 Konstituentenanalyse
Automatische Konstituentenanalyse
Definition 11.1.5 (Automatische Konstituentenanalyse). Eine automatische Konstituentenanalyse berechnet (parst) die Konstituentenstruktur eines sprachlichen Ausdrucks auf Grund
von Phrasenstrukturregeln.
Definition 11.1.6 (Parser). Ein Parser ist ein Programm, das sprachliche Ausdrücke auf Grund
einer Grammatik syntaktisch analysiert und dessen zulässige(n) Syntaxstruktur(en) berechnet.
Syntaktische Mehrdeutigkeit
Natürliche Sprachen haben im Gegensatz zu künstlichen Sprachen wie Programmiersprachen
viele syntaktische Mehrdeutigkeiten.
Beispiel 11.1.7 (Mehrdeutigkeit der PP-Anbindung).
Wie sehen die zulässigen Konstituentenstrukturen aus für den Satz „Egon sah den Pudel mit
der Brille“?
S → NP VP
V → sah
NE → Egon
VP → V NP
D → {den|der}
NP → {EN | D N (PP)}
N → {Pudel|Brille}
PP → P NP
P → mit
11.1.3 Rekursion
Rekursive Verschachtelung von Konstituenten
Beispiel 11.1.8 (Dass-Sätze).
• Usain Bolt broke the 100m record.
• The Jamaica Observer reported that Usain Bolt broke the 100m record.
• Andre said The Jamaica Observer reported that Usain Bolt broke the 100m record.
• I think Andre said The Jamaica Observer reported that Usain Bolt broke the 100m record.
Beispiel 11.1.9 (Relativsätze).
Ich kannte einen Mann, der einen Zahn besass, welcher ein Loch hatte, worin ein Kästchen war,
das einen Brief enthielt, worauf stand: Ich kannte einen Mann . . .
Welche Muster stecken dahinter?
128
Rekursion
S → NP VP
V → sah
NE → Egon
VP → V NP
D → {den|der}
NP → {EN | D N (PP)}
N → {Pudel|Brille}
PP → P NP
P → mit
Frage und Empfehlung
Welche Regeln braucht unsere Beispielgrammatik, damit auch Sätze wie „Egon sah den Pudel
und den Spatz“ analysierbar werden? Empfehlung: Es ist sinnvoll, zuerst die Konstituentenstruktur eines Satzes zu zeichnen und danach die Regeln zu entnehmen.
11.2 Formale Sprachen
11.2.1 Sprache als Menge
Das Alphabet (Sigma), Zeichen und Zeichenketten
Definition 11.2.1. Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole, Terminalsymbole). Es wird mit Σ (Sigma) notiert.
Beispiel 11.2.2 (Syntaktische Terminalsymbole des Englischen).
ΣEnglisch = {a, aardvark, . . . , cat, . . . , woman, . . . , zymurgy}
Definition 11.2.3. Eine Zeichenkette (formales Wort, string) von n Zeichen aus Σ ist eine
endliche Folge der Länge n über Σ.
Beispiel 11.2.4 (Zeichenketten über englischen Terminalsymbolen).
a cat, a a a, zymurgy or zymology is the scientific study of fermentation, or or zymology the of,
...
Leere Zeichenkette
Definition 11.2.5. Die leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird
mit (Epsilon) notiert und hat die Länge 0.
Hinweis zur Notation
Eine Zeichenkette wird typischerweise durch Nebeneinanderschreiben (Juxtaposition) der Zeichen von links nach rechts notiert, wenn die Symbole nur aus einzelnen Buchstaben bestehen.
Sei Σ = {a, b}, dann sind etwa , a, bb oder ababbba Wörter über Σ.
Wenn wir es in der Syntax mit Symbolen zu tun haben, welche aus mehreren Buchstaben
bestehen, werden Leerzeichen zwischengeschaltet.
Stern von Sigma
Definition 11.2.6. Der Stern von Sigma ist die Menge aller Zeichenketten über einem Alphabet
Σ. Der Stern wird als Postfix-Operator Σ∗ (sprich «Sigma Stern») notiert.
Beispiel 11.2.7 (Formales Beispiel). Sei Σ = {a}, dann ist Σ∗ = {, a, aa, aaa, . . .}.
129
Beispiel 11.2.8 (Sternbildung über Englisch).
Σ∗Englisch =
{,
Folge aus 0 Elementen
a,aardvark,cat,woman,. . .
Folgen aus 1 Element
a cat, cat a, peter sleeps,. . .
Folgen aus 2 Elementen
a a a, a cat sleeps, woman a cat,. . . Folgen aus 3 Elementen
...}
Folgen aus n Elementen
Grundfrage der Theorie der formalen Sprachen
Wie bestimmt man, ob eine Zeichenkette aus Σ∗ in einer Sprache ist oder nicht?
Beispiel 11.2.9. Sei Σ = {a}, dann ist Σ∗ = {, a, aa, aaa, . . .}. Die Mengen L1 = {, a}
oder L2 = {aa, aaaa, aaaaaa} sind formale Sprachen, da sie (echte) Teilmengen von Σ∗ sind.
Σ∗Englisch =
{,
Folge aus 0 Elementen
a,aardvark,cat,woman,. . .
Folgen aus 1 Element
a cat, cat a, peter sleeps,. . .
Folgen aus 2 Elementen
a a a, a cat sleeps, woman a cat,. . . Folgen aus 3 Elementen
...}
Folgen aus n Elementen
Formale Sprachen
Definition 11.2.10. Eine formale Sprache L über Σ ist eine Teilmenge des Sterns von Sigma.
L ⊆ Σ∗
Beispiel 11.2.11 (Abstrakt). Sei Σ = {a}. Die Mengen L1 = {, a} oder L2 = {aa, aaaa, aaaaaa}
sind formale Sprachen, da sie (echte) Teilmengen von Σ∗ sind. Ist die leere Menge, notiert als
{} oder ∅ eine Sprache? Ist sie dieselbe Sprache, wie die Sprache {}?
Beispiel 11.2.12 (Englisch). Wie können wir die gewünschte Teilmenge LEnglisch ⊆ Σ∗Englisch
formal spezifizieren? Mit Regelgrammatiken.
11.2.2 Konkatenation
Konkatenation von Zeichenketten
Definition 11.2.13. Die Konkatenation von Zeichenketten ist eine zweistellige Funktion, welche
ihre Argumente in ihrer Reihenfolge zu einer Zeichenkette verkettet. Für alle u, v ∈ Σ∗ :
• : Σ∗ × Σ∗ → Σ∗ ,
u • v = uv
Beispiel 11.2.14 (Abstrakt: Zeichenketten verketten und aufteilen).
Was gibt: ab • ba = abba oder abba • = abba
Beispiel 11.2.15 (Englisch: Zeichenketten verketten und aufteilen).
Was gibt: a • woman • sees a • cat = a woman sees a cat
130
Potenznotation der Konkatenation
Eigenschaften der Konkatenation
Die Konkatenation ist assoziativ und hat als neutrales Element. Für alle u, v, w ∈ Σ∗ :
u • (v • w) = (u • v) • w,
• u = u,
u•=u
Definition 11.2.16. Die n-fache Konkatenation einer Zeichenkette w mit sich selbst in der
Potenznotation sei rekursiv definiert. Für n ≥ 1, n ∈ N:
w0 = wn = w • wn−1
Beispiel 11.2.17 (Potenznotation der Verkettung).
Die Zeichenkette aaabbcccc kann als a3 b2 c4 notiert werden.
buffalo6
Beispiel 11.2.18 (Ein syntaktisch korrekter englischer Satz).
“Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo.”
Analyse
• Buffalo als Herkunftsadjektiv
• buffalo als Nomen (Büffel)
• buffalo als Verb (einschüchtern)
• Sinn: “Bison from Buffalo, New York who are intimidated by other bison in their community also happen to intimidate other bison in their community.”
11.3 Formale Grammatiken
Kontextfreie Phrasenstruktur-Grammatiken
Beispiel 11.3.1 (Kontextfreie Grammatik (CFG, context free grammar)).
131
• G1 = h{S, N P, V P, EN, V, D, N }, {Egon, P udel, den, sah}, R, Si


 S → N P V P,

N P → EN,
N P → D N, 

V P → V N P, EN → Egon, N → Pudel,
• Regelmenge R =


 V → sah,

D → den
Definition 11.3.2 (Kontextfreie Grammatik). Eine Kontextfreie Grammatik G = hΦ, Σ, R, Si
besteht aus:
1. Nichtterminalsymbolen Φ
2. Terminalsymbolen Σ
3. Regelmenge R ⊆ Φ × Γ∗
(mit Γ = Φ ∪ Σ)
4. Startsymbol S ∈ Φ
Links vom Produktionspfeil hat es exakt 1 Nichtterminal.
11.3.1 Ableitung
Beispiel-Evaluation
Siehe Abb. 11.2 auf Seite 131.
Grammatik
Formale Sprachen
Formale Grammatiken
Ableitung
Grammatiktypen
Grammatik
Formale Sprachen
Formale Grammatiken
Ableitung
Grammatiktypen
Grammatik
Formale Sprachen
Formale Grammatiken
Ableitung
Grammatiktypen
Linksableitung und Konstruktion des Parsebaums
Linksableitung und Konstruktion des Parsebaums
Linksableitung und Konstruktion des Parsebaums
Linksableitung informell
Linksableitung informell
Linksableitung informell
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
Grammatik
Formale Sprachen
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
Einführung in die Computerlinguistik I
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
NP2 VP2
EN3
V5
Egon4 sah6
NP5
D7
N7
den8 Pudel9
HS 2009
Formale Grammatiken
(Formale) Sprachen und Grammatiken
Ableitung
27 / 37
Grammatik
Formale Sprachen
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
Einführung in die Computerlinguistik I
Grammatiktypen
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
NP2 VP2
EN3
V5
NP5
Egon4 sah6
D7
N7
den8 Pudel9
HS 2009
(Formale) Sprachen und Grammatiken
Formale Grammatiken
Ableitung
27 / 37
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
NP2 VP2
EN3
Grammatik
Formale Sprachen
NP5
D7
N7
den8 Pudel9
Einführung in die Computerlinguistik I
Grammatiktypen
V5
Egon4 sah6
HS 2009
(Formale) Sprachen und Grammatiken
Formale Grammatiken
Ableitung
Linksableitung und Konstruktion des Parsebaums
Linksableitung und Konstruktion des Parsebaums
Linksableitung informell
Linksableitung informell
Linksableitung informell
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
Grammatik
Formale Sprachen
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
Einführung in die Computerlinguistik I
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
NP2 VP2
EN3
V5
Egon4 sah6
NP5
D7
N7
den8 Pudel9
HS 2009
Formale Grammatiken
(Formale) Sprachen und Grammatiken
Ableitung
27 / 37
Grammatiktypen
Einführung in die Computerlinguistik I
Grammatik
Formale Sprachen
Formale Grammatiken
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
NP2 VP2
EN3
V5
NP5
Egon4 sah6
D7
N7
den8 Pudel9
HS 2009
(Formale) Sprachen und Grammatiken
Ableitung
Grammatiktypen
27 / 37
Grammatik
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
NP2 VP2
EN3
Formale Grammatiken
HS 2009
Grammatiktypen
Linksableitung und Konstruktion des Parsebaums
Linksableitung informell
Linksableitung informell
Linksableitung informell
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
Einführung in die Computerlinguistik I
NP2 VP2
EN3
V5
Egon4 sah6
NP5
D7
N7
den8 Pudel9
HS 2009
(Formale) Sprachen und Grammatiken
27 / 37
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
Einführung in die Computerlinguistik I
NP2 VP2
EN3
V5
Egon4 sah6
NP5
D7
N7
den8 Pudel9
HS 2009
(Formale) Sprachen und Grammatiken
27 / 37
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon sah NP
Egon sah D N
Egon sah den N
Egon sah den Pudel
Einführung in die Computerlinguistik I
NP2 VP2
EN3
V5
Egon4 sah6
NP5
D7
N7
den8 Pudel9
HS 2009
(Formale) Sprachen und Grammatiken
Abbildung 11.2: Beispiel für Linksderivation und Parsebaumkonstruktion
132
D7
N7
(Formale) Sprachen und Grammatiken
Ableitung
Linksableitung und Konstruktion des Parsebaums
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
NP5
den8 Pudel9
Einführung in die Computerlinguistik I
Formale Sprachen
V5
Egon4 sah6
Linksableitung und Konstruktion des Parsebaums
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP.
27 / 37
Grammatiktypen
Linksableitung und Konstruktion des Parsebaums
27 / 37
27 / 37
Formales Ableiten von Sätzen
Definition 11.3.3 (Unmittelbare Ableitungsrelation). Die unmittelbare Ableitungsrelation ⇒
⊆ Γ∗ × Γ∗ einer Grammatik ist die Menge aller Paare hu, vi mit u, v, w, z ∈ Γ∗ , für die gilt:
• es gibt eine Regel der Form w → z
• die Zeichenketten u und v können so in Teilzeichenketten aufgeteilt werden, dass gilt:
u = u1 • w • u2 sowie v = u1 • z • u2
Definition 11.3.4 (Ableitung (derivation)). Eine Ableitung ist ein n-Tupel hw1 , . . . , wn i von
Zeichenketten wi ∈ Γ∗ mit (1 ≤ i ≤ n) , so dass gilt:
• wi−1 ⇒ wi
für alle i ∈ {2 ..n}
Normale Schreibweise für Ableitungen
w1 ⇒ . . . ⇒ wn
Beispiel: Ableitung mit kontextfreier Grammatik
S1
NP2 VP2
EN3
V4
NP4
Egon9 sah5
D6
N6
den7 Pudel8
Ableitung
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
NP VP
EN VP
EN V NP
EN sah NP
EN sah D N
EN sah den N
EN sah den Pudel
Egon sah den Pudel
u
u1 wu2
S
NP VP
EN VP EN V NP
EN sah NP EN sah D N
EN sah den N EN sah den Pudel
Regel
w→z
S → NP VP
NP → EN
VP → V NP
V → sah
NP → D N
D → den
N → Pudel
EN → Egon
v
u1 zu2
NP VP EN VP
EN V NP EN sah NP
EN sah D N EN sah den N
EN sah den Pudel Egon sah den Pudel
Sätze und Sprachen
∗
Definition 11.3.5 (Ableitungsrelation (derivation relation)). Die Ableitungsrelation ⇒ ist die
reflexiv-transitive Hülle von ⇒. Sie verbindet alle Folgen von Symbolen, welche unmittelbar
oder mittelbar voneinander abgeleitet werden können.
Definition 11.3.6 (Satz). Eine Zeichenkette aus Terminalsymbolen a ∈ Σ∗ ist ein Satz einer
Grammatik G = hΦ, Σ, R, Si, gdw. er aus dem Startsymbol abgeleitet werden kann:
∗
S⇒a
Definition 11.3.7 (Sprache einer Grammatik G). Die Sprache LG einer Grammatik G =
hΦ, Σ, R, Si ist die Menge aller ihrer Sätze a ∈ Σ∗ .
∗
LG = { a | S ⇒ a }
133
11.3.2 Grammatiktypen
Grammatik-Regeln, Sprachklassen und Automaten
Die verschiedenen Grammatiktypen unterscheiden sich hinsichtlich der Bedingungen, die an die
Regelmenge R gestellt werden. Es seien A, B ∈ Φ, w ∈ Σ∗ und α, β, γ ∈ (Φ ∪ Σ)∗ .
Sprachklasse
Regulär
(Typ 3)
Kontextfrei
(Typ 2)
Kontextsensitiv
(Typ 1)
Form der Grammatikregeln
A→w
A → wB
oder A → Bw
A→α
(Typ 0)
α→β
αAγ → αβγ
S→
Automatentyp
Endlicher Automat
Kellerautomat
mit β 6= oder
(dann darf S nicht
auf einer rechten Seite
einer Regel vorkommen)
(mit α 6= und α 6∈ Σ∗ )
Linear
beschränkter
Automat (LBA)
Turingmaschine
Die Komplexität der Berechnungen für das Parsen steigt mit jedem Grammatiktyp an.
Chomsky-Hierarchie [Hopcroft et al. 2002]
Kontextsensitive Sprachen
Kontextfreie Sprachen
Reguläre Sprachen
.
Allgemeine Regelsprachen
Abbildung 11.3: Teilmengenbeziehungen der Sprachklassen von Chomsky
Sprachklasse
regulär
kontextfrei
kontextsensitiv
allgemein
Typ
3
2
1
0
mit n ≥ 1
Echte Teilmengen
Für alle Typ–i–Sprachen gilt: L3 ⊂ L2 ⊂ L1 ⊂ L0 .
134
Beispiel
{an }
{an bn }
{an bn cn }
Wo befinden sich natürliche Sprachen? [Hess 2005, 138ff.]
Mindestens Typ 2: NPn VPn (central embedding)
----------------------------------------------|
---------------------------|
|
|
-------|
|
|
|
|
|
|
|
The man whose wife whose child is angry is sad is surprised
Mindestens Typ 1 nach [Shieber 1985, Kallmeyer 2005]: NPi NPj Vi Vj (cross serial
construction)
mer wänd
-----------------|
|
-----------------|
|
|
|
|
-------------------|
|
|
|
|
|
|
|
d’Chind am Hans s’Huus laa hälfe aaschtriiche
Komplexität, Grammatikalität, Akzeptanz von Sprache
Es darf daher getrost, was auch von allen, deren Sinne, weil sie unter Sternen, die, wie der
Dichter sagt, zu dörren, statt zu leuchten, geschaffen sind, geboren sind, vertrocknet sind, behauptet wird, enthauptet werden, dass hier einem sozumaßen und im Sinne der Zeit, dieselbe
im Negativen als Hydra betrachtet, hydratherapeutischen Moment ersten Ranges, immer angesichts dessen, dass, wie oben, keine mit Rosenfingern den springenden Punkt ihrer schlechthin
unvoreingenommenen Hoffnung auf eine, sagen wir, schwansinnige oder wesenzielle Erweiterung des natürlichen Stoffeides zusamt mit der Freiheit des Individuums vor dem Gesetz ihrer
Volksseele zu verraten den Mut, was sage ich, die Verruchtheit haben wird, einem Moment,
wie ihm in Handel, Wandel, Kunst und Wissenschaft allüberall dieselbe Erscheinung, dieselbe
Tendenz den Arm bietet, und welches bei allem, ja vielleicht eben trotz allem, als ein mehr
oder minder undulationsfähiger Ausdruck einer ganz bestimmten und im weitesten Verfolge
excösen Weltauffasseraumwortkindundkunstanschauung kaum mehr zu unterschlagen versucht
werden zu wollen vermag - gegenübergestanden und beigewohnt werden zu dürfen gelten lassen
zu müssen sein möchte.
Christian Morgenstern, Vorrede zu Galgenliedern
11.4 Vertiefung
• Formales Propädeutikum zu Mengen, Funktionen und Relationen im CLab: http://www.
cl.uzh.ch/clab/formProp/ oder die entsprechenden Abschnitte im Carstensen.
• Ein Web-Interface zu LFG-Grammatiken in verschiedenen Sprachen: http://decentius.
aksis.uib.no/logon/xle.xml
135
12 Merkmalstrukturen
Lernziele
• Exaktes Verständnis von Merkmalstrukturen mit und ohne Koreferenz
• Kenntnis über gegenseitige rekursive Definition von Mengen
• Kenntnis über Graphen, Zyklen und Bäume
• Kenntnis über Merkmal-Wert-Paare, Pfade und ihre Werte
• Kenntnis über Subsumtion und Unifikation von Merkmalstrukturen
• Fähigkeit formale und informelle Beschreibungen von Konzepten zu verstehen und aufeinander zu beziehen
• Fähigkeit in XLE Grammatikregeln mit Merkmalstruktur-Annotation zu schreiben (Übungen)
12.1 Merkmalstrukturen
12.1.1 Motivation
Merkmalsanalysen
Wissenschaftshistorische Motivation
Die Verwendung von (binären) Merkmalen in der modernen linguistischen Theorie geht zurück
auf die Theorie der strukturalistischen Phonologie, wo die Analyse mit sogenannten «Distinktiven Merkmalen» zentral war.
Beispiel 12.1.1 (Merkmalsanalyse in der Phonologie).
Das Phonem /b/ = [+Verschlusslaut, +Bilabial, +Stimmhaft].
Beispiel 12.1.2 (Merkmalsanalyse in der Semantik nach Bierwisch).
Die Verwandschaftsbezeichnung «Cousin» [+Mensch, +verwandt, –direkt verwandt, +gleiche
Generation, +männlich, –weiblich ].
Beispiel 12.1.3 (Merkmalsanalyse in der Syntax nach Chomsky).
Die Hauptwortarten Nomen, Verben, Adjektive und Präpositionen «A» [+Verbal,+Nominal]
oder «P» [–Verbal,–Nominal].
Informationsorientierte Motivation
Zur Bedeutung von Merkmalstrukturen
Merkmalstrukturen beschreiben Mengen von Objekten, welche bestimmte Bedingungen (constraints) erfüllen.
136

Wortart

Numerus

Person

verb

singular

3
{ x | wortart(x) = verb ∧ numerus(x) = singular ∧ person(x) = 3 }
Unterspezifikation
Je weniger Merkmal-Wert-Paare in einer Merkmalstruktur spezifiziert sind,
• desto weniger Information ist vorhanden.
• desto mehr Objekte können die Bedingungen erfüllen.
Merkmalstrukturen in der Syntax
Wie kann die mehrdeutige Information aus dem Lexikon und der Syntaxanalyse widerspruchsfrei
vereinigt werden zur Informationsstruktur des Satzes?
• Hans: [Form:’Hans’, Case:Nom, Pers:3, Num:Sg] oder [Form:’Hans’, Case:Acc, Pers:3,
Num:Sg] oder [Form:’Hans’, Case:Dat, Pers:3, Num:Sg]
• schwamm: [Form:’schwamm’, Tense:Past, Pers:1, Mood:Ind] oder [Form:’schwamm’, Tense:Past, Pers:3, Mood:Ind]
Merkmalstruktur des Satzes


Subj
[Form:’Hans’, Case:Nom, Pers:3, Num:Sg]


Pred
[Form:’schwamm’, Tense:Past, Pers:3, Mood:Ind]


Clause Decl
Einfache Merkmalstrukturen
Mengentheoretische Beschreibung
Eine einfache, d.h. nicht-rekursive Merkmalstruktur ist eine Abbildung M : A → V von einer
endlichen Menge von Attributen A auf Werte V .
Beispiel 12.1.4 (Einfache linguistische Merkmalstrukturen).
pers
sg pl
1
2 3
Attribute
Werte
num
"
num
pers
#
pl M = {hnum, pli, hpers, 1i}
1
Datenstrukturen in Programmiersprachen
Dies entspricht Hashes (PERL), Dictionaries (PYTHON), Records (PASCAL), Listen von
Merkmal-Wert-Paaren (PROLOG, LISP) oder Eigenschaften von Objekten (JAVA).
137
12.1.2 Rekursiv
Beispiel: Gegenseitig rekursiv definierte Mengen
Gerade Zahlen
• 0 ist eine gerade Zahl.
• Wenn x eine ungerade Zahl ist, dann ist der Nachfolger von x eine gerade Zahl.
Ungerade Zahlen
• Wenn x eine gerade Zahl ist, dann ist der Nachfolger von x eine ungerade Zahl.
Sätze und NP
Da Sätze Nominalphrasen enthalten und Nominalphrasen (Relativ)sätze enthalten können, müssen diese Kategorien auch gegenseitig rekursiv definiert werden.
Merkmalstrukturen gegenseitig rekursiv definiert
Definition 12.1.5 (Attribut-Wert-Struktur, attribute value matrix (AVM )). Die Menge der
Merkmalstrukturen, welche sich aus einer Menge A von Merkmalen (Attributen) und V von
atomaren Werten ergibt, lässt sich rekursiv angeben.
Merkmalstrukturen
• Die leere Menge ∅ ist eine Merkmalstruktur.
– Diese “leere” Merkmalstruktur wird meist notiert als [].
• Wenn M eine Merkmalstruktur, a ∈ A ein Merkmal sowie w ein Wert ist, dann ist M1 =
M ∪ {ha, wi} eine Merkmalstruktur,
– Vorausgesetzt: M enthält kein Paar ha, ui mit u 6= w.
Werte
• Alle atomaren Werte v ∈ V sind Werte.
• Wenn M eine Merkmalstruktur ist, dann ist M auch ein Wert.
Beispiel: Rekursive Konstruktion einer Merkmalstruktur M
Sei V = {sg, pl, 1, 2, 3} und A = {AGR, N U M, P ER}
Schritt
als Menge
1
M1 = ∅
2
3
in Matrix-Notation
hi
M1 =
h
M2 = PER
M2 = M1 ∪ {hP ER, 3i}
"
#
NUM
M3 =
PER
M3 = M2 ∪ {hN U M, sgi}

4
i
3
M =AGR
M = M1 ∪ {hAGR, M3 i}
138
sg
3
"
NUM
PER
#
sg 
3
12.1.3 Als Graphen
d
c
Gerichtete Graphen
Definition 12.1.6 (directed graph, digraph). Ein gerichteter Graph G = hN, Ei besteht aus
einer endlichen, nicht-leeren Menge N von Knoten (nodes) und einer Menge E von Kanten
(edges): E ⊆ N × N .
10
b
d
b
c
d
5
5
b
c
5
a
a
a
G = h{a, b, c, d},{ha, bi, hb, ci, hb, di,hc, ai, hd, ai, hd, ci}i
(B)
(D)
(C)
Definition 12.1.7 (Verbindungen und Pfade). Ein Pfad ist eine endliche Folge von Knoten,
welche paarweise durch Kanten verbunden sind. Z.B. hd, c, a, bi.
Die Knoten n1 und n2 sind verbunden im Graphen G = hN, Ei, gdw. hn1 , n2 i ∈ E.
n1 heisst Vorgänger von n2 . n2 heisst Nachfolger von n1 .
Zyklen
Definition 12.1.8 (Einfacher Pfad). Ein einfacher Pfad ist ein Pfad, der einen Knoten höchstens einmal enthält.
Definition 12.1.9 (Zyklus). Ein Zyklus ist ein einfacher Pfad, an dessen Ende nochmals sein
Anfangselement angefügt wird.
Zyklen der Form hn, ni heissen auch Schlaufen (loop).
Definitionsabhängig werden Schlaufen manchmal nicht als Zyklen aufgefasst.
Definition 12.1.10 (Zyklenfrei). Ein Graph, der keine Zyklen enthält, heisst zyklenfrei.
Bäume
Definition 12.1.11 (Gerichteter Baum). Ein Baum ist ein zyklenfreier, gerichteter Graph mit
den Eigenschaften:
• Es gibt genau einen Knoten n, der selbst keinen Vorgänger hat. Dieser Knoten heisst
Wurzel.
• Jeder Knoten ausser der Wurzel hat genau einen Vorgänger.
• Von der Wurzel aus existiert ein Pfad zu jedem andern Knoten.
Definition 12.1.12 (Matrilineare Sprechweisen). Zwei Knoten sind Schwestern (Geschwister),
wenn sie denselben Vorgänger (Mutter) haben.
139
Markierte gerichtete Bäume
Definition 12.1.13 (markierter gerichteter Baum). Ein markierter gerichteter Baum ist ein
gerichteter Baum T = hN, Ei. Er besitzt eine Markierungsfunktion für Kanten mE : E → A,
welche jeder Kante eine Markierung aus A zuordnet. Sowie eine Markierungsfunktion für Knoten
mN : N → B, welche jedem Knoten eine Markierung aus B zuordnet.
Definition 12.1.14 (Blatt). Die Blätter eines Baumes sind alle seine Knoten ohne Nachfolger.
Definition 12.1.15 (Innere Knoten). Die inneren Knoten eines Baumes sind alle Knoten mit
mindestens einem Nachfolger.
Merkmalstruktur als markierter gerichteter Baum
Beispiel 12.1.16.
T = hN, Ei
N = {n1 , n2 , n3 , n4 }
E = {hn1 , n2 i, hn2 , n3 i, hn2 , n4 i}
mE = {hhn1 , n2 i, AGRi, hhn2 , n3 i, P ERSi, hhn2 , n4 i, N U M i} mN = {hn1 ,00 i, hn2 ,00 i, hn3 , 3i, hn4 , sgi}
Abbildung 12.1: Merkmalstruktur als gerichteter Baum
Abbildung 12.2: Kästchennotation
Merkmalstrukturen und Bäume
Definition 12.1.17 (Baum einer koreferenzfreien Merkmalstruktur). Ein markierter gerichteter
Baum T stellt eine Merkmalstruktur M dar, gdw. er folgende Eigenschaften erfüllt:
• Alle atomaren Werte und leeren Merkmalstrukturen von M sind die Blätter von T .
• Die komplexen Werte in M sind die inneren Knoten von T .
• Alle atomaren Werte bekommen in T als Knoten-Markierung ihren atomaren Wert.
• Ein Merkmalwertpaar ha1 , W1 i mit ha2 , W2 i ∈ W1 ergibt jeweils eine Kante von W1 nach
W2 mit der Kanten-Markierung a2 .
140
12.2 Pfade und Werte
Pfade in Merkmalstrukturen
Definition 12.2.1 (Merkmal-Pfad). Ein Pfad in einer Merkmalstruktur ist eine endliche Folge
von Merkmalen, die in der Merkmalstruktur unmittelbar ineinander verschachtelt sind.
Beispiel 12.2.2 (Merkmalstruktur und alle nicht-leeren Pfade).


"
SUBJ AGR
NUM
PER
#
sg 
3
hSU BJi hAGRi hN U M i
hSU BJ, AGRi hAGR, N U M i hAGR, P ERi
hSU BJ, AGR, N U M i hSU BJ, AGR, P ERi
Definition 12.2.3 (Vollständiger Pfad). Ein vollständiger Pfad einer Merkmalstruktur ist ein
Merkmal-Pfad, der beim Wurzelknoten beginnt und bei einem atomaren Wert oder der leeren
Merkmalstruktur endet.
Pfade und ihre Werte in Merkmalstrukturen
Definition 12.2.4 (Wert eines Pfades). Der Wert eines Pfades ist der Wert, der am Ende des
Pfades beginnt.
val(P, M ) =


 M
f alls P = hi
val(ha2 , . . . , an i, W ) f alls ha1 , W i ∈ M ∧ P = ha1 , . . . , an i


undef iniert
sonst
Beispiel 12.2.5 (Werte von Pfaden).


"
M =SUBJ AGR
NUM
PER
val(hSU BJ, AGR, N U M i,"M ) = sg #
NUM sg
val(hSU BJ, AGRi, M ) =
PER 3
Evaluation der Pfadfunktion


"
val(hSU BJ, AGR, N U M i, SUBJ AGR

"
= val(hAGR, N U M i, AGR
"
NUM
= val(hN U M i,
PER
NUM
PER
NUM
PER
#
sg 
)
3
#
sg
)
3
= val(hi, sg)
= sg
141
#
sg 
)
3
#
sg 
3
12.2.1 Koreferenz
Koreferenz
Idee
Koreferenz (structure sharing, reentrancy) in Merkmalstrukturen erzwingt die Identität von
Werten bzw. von Teil-Merkmalstrukturen.
Beispiel 12.2.6 (Kongruenz von Subjekt und finitem Verb).
Im Satz «Sie betrachten es.» sind die Wortformen «Sie» und «betrachten» für sich genommen
morphosyntaktisch ambig.
Wir wissen: Welche Werte auch immer das finite Verb in Numerus und Person hat, das Subjekt
muss dieselben haben.
Verwendung
Überall, wo es um den Abgleich von variabler linguistischer Information geht, ist Koreferenz
das Mittel der Wahl. So etwas wie Anti-Koreferenz braucht es fast nie. . .
Graph vs. Matrix [Müller 1994, 136]
Abbildung 12.3: Koreferente Merkmalstruktur als Matritze
Abbildung 12.4: Koreferente Merkmalstruktur als gerichteter Graph
Koreferenz in XLE-Merkmalstrukturen
Die Koindizierung wird in XLE über die Identifikationsnummer von Teilmerkmalstrukturen (3)
und einer Pfadangabe (AGR) dargestellt.
142
Abbildung 12.5: Koreferente Merkmalstruktur als gerichteter Graph
Koreferente Graphen formal betrachtet
Definition 12.2.7 (Merkmalstrukturen mit Koreferenz). Als Graph ist eine Merkmalstruktur
mit Koreferenzen ein markierter gerichteter Baum, bei dem eine Bedingung aufgehoben ist:
• Ein Knoten kann mehr als einen Vorgänger haben.
Koreferenz in Matrix-Notation
Bei der Matrix-Notation muss man genau bei einem Wert einen Index setzen und kann die
koreferenten Werte dann damit koindizieren.
Koreferenz in Mengen-Darstellung
Koreferenz ist Gleichheitsrelation zwischen bestimmten Werten von Pfaden eine Merkmalstruktur M .
Beispiel 12.2.8 (Koreferenz von 2 Merkmal-Pfaden).
val(hSU BJ, AGRi, M ) = val(hP RED, AGRi, M )
12.3 Unifikation
12.3.1 Motivation
Wozu Unifikation von Merkmalstrukturen?
Informationen aus Merkmalstrukturen vereinigen
Unifikation (t “unifiziert mit”) vereinigt die Bedingungen aus 2 Merkmalstrukturen in einer
einzigen.
Beispiel 12.3.1 (Widerspruchsfreie Unifikation).


#
"
#
CAS nom


CAS nom
GEN fem
NUM sg 
t
= 


NUM sg
NUM sg
GEN fem
"
Beispiel 12.3.2
(Unifikation
von widersprüchlicher
Information).
#
"
#
CAS nom
GEN fem
t
= ⊥
NUM pl
NUM sg
⊥ steht für die “künstliche” Merkmalstruktur, welche bei widerspruchshaltiger Unifikation entsteht, d.h. wenn keine widerspruchsfreie Unifikation möglich ist.
"
143
12.3.2 Subsumtion
Subsumtion zwischen Merkmalstrukturen
Subsumtion informell: Enthält verträgliche
Information


"
#
CAS nom


CAS nom
NUM sg 
M1 =
subsumiert M2 =


NUM sg
GEN fem
M1 subsumiert M2 , falls M2 alle Merkmalwertpaare von M1 enthält. M2 kann mehr Information
enthalten. M1 ist somit allgemeiner.
Definition 12.3.3 (Subsumtion). Eine Merkmalstruktur M1 subsumiert eine Merkmalstruktur
M2 , kurz M1 v M2 , falls gilt:
• Jeder vollständige Pfad von M1 ist auch ein vollständiger Pfad von M2 und hat denselben
Wert.
• Jedes Paar von koreferenten Pfaden von M1 ist auch ein koreferentes Paar von M2 .
Entscheidungshilfe für Subsumtion

"
#
NUM
PER
sg 
3 

PER
sg 

3
AGR


M1:
"


NUM
SUBJ
#


CAT



M2:AGR


SUBJ

NP
"
1
NUM
PER
#





sg
3
1
Überprüfe, ob gilt: M1 subsumiert M2 :
1. Gebe alle vollständigen Pfade von M1 und M2 an.
2. Falls M1 einen vollständigen Pfad enthält, der nicht in M2 ist: Nein!
3. Falls irgendein vollständiger Pfad von M1 und M2 einen unterschiedlichen Wert hat: Nein!
4. Gebe alle Paare von koreferenten Pfaden an in M1 und M2 .
5. Falls M1 ein Paar enthält, das nicht in M2 ist: Nein!
6. Sonst: Ja!
Subsumtionsrelation
Die Subsumtion ist eine binäre Ordnungsrelation über der Menge der Merkmalstrukturen. D.h.
• Reflexivität: Jede Merkmalstruktur subsumiert sich selbst.
• Transitivität: Wenn M1 v M2 und M2 v M3 , dann M1 v M3 .
• Antisymmetrie: Wenn M1 v M2 und M2 v M1 , dann gilt M1 = M2
144
12.3.3 Unifikation
Unifikation von Merkmalstrukturen
Definition 12.3.4 (Graphunifikation). Die Merkmalstruktur M heisst Unifikation von M1 und
M2 , kurz M1 t M2 = M , gdw. gilt:
• M1 subsumiert M
• M2 subsumiert M
• M subsumiert alle Merkmalstrukturen Mi , die von M1 und M2 subsumiert werden.
Sinn der letzten Klausel
Der Unifikator von zwei Merkmalstrukturen M1 und M2 soll immer die allgemeinste Merkmalstruktur sein, welche noch subsumiert wird.
Eigenschaften
• Die leere Merkmalstruktur (manchmal mit > geschrieben) kann mit beliebigen Merkmalstrukturen unifiziert werden: [] t Mi = Mi
• Die Unifikation ergibt nicht für alle Paare von Merkmalstrukturen eine informative Merkmalstruktur. Sie scheitert, bzw. ergibt die inkonsistente Merkmalstruktur ⊥, welche von
allen Merkmalstrukturen subsumiert wird: ⊥ t Mi = ⊥
• > bezeichnet irgend ein Objekt, ⊥ bezeichnet nichts.
145
13 Unifikationsgrammatiken
Lernziele
• Kenntnis über Probleme von rein kontextfreien Grammatiken für Grammatikentwicklung
• Kenntnis über die Merkmalspezifikation in PATR-II und XLE
• Kenntnis über unterschiedliche Anforderungen an merkmalstrukturelle Repräsentationen
in verschiedenen Unifikationsgrammatiken
• Kenntnis über Phänomene der Kongruenz, Rektion, Valenz
• Kenntnis über das Kopfprinzip und Behandlung von syntaktischen Funktionen
13.1 Motivation
Kontextfreie Grammatiken für natürliche Sprachen
Die rohe Verwendung kontextfreier Grammatiken erzeugt für Sprachen mit ausgebauter Morphologie ein Unmenge Regeln.
Beispiel 13.1.1 (Übereinstimmung von Kasus, Genus und Numerus in NP).
Für morpho-syntaktisch korrekte Phrasen muss etwa statt
N P → DET N
eine Vielzahl spezifischerer Regeln verwendet werden.
NpMascSgNom
NpMascSgAcc
NpMascPlNom
NpFemSgNom
..
.
→
→
→
→
→
DetMascSgNom
DetMascSgAcc
DetMascPlNom
DetFemSgNom
..
.
NMascSgNom
NMascSgAcc
NMascPlNom
NFemSgNom
..
.
Wieviele sind es für Deutsch?
Probleme kontextfreier Grammatikentwicklung
• Generalisierungen wie «Artikel und Kernnomen haben innerhalb einer NP immer dasselbe
Genus und denselben Kasus und Numerus» lassen sich nicht explizit formulieren.
• Die Regelvervielfältigung verdunkelt Generalisierungen der Konstituenz. Das Symbol «NpFemSgNom» hat nur mnemotechnisch etwas mit «NpMascSgNom» zu tun – strukturell gibt es
keinen Bezug.
• Ausweg: Trennung von grundlegenden Regeln von den morphosyntaktischen Merkmalen
146
Probabilistische kontextfreie Grammatiken
Relevant ist dies mehr für linguistisch orientierte Grammatikentwicklung – syntaktische Analyse
ist möglich mit kontextfreien Grammatiken, welche oft Zehntausende von Regeln enthalten. Dies
ist bei probabilistischen Parsern durchaus üblich.
Probleme kontextfreier Grammatikentwicklung
Kontextfreie Grammatikregeln kodieren Konstituenz und Präzedenz (Reihenfolge der Teilkonstituenten) immer gleichzeitig. Sprachen mit freierer Wortstellung bzw. Satzgliedstellung wie
etwa im Deutschen müssen damit umständlich beschrieben werden.
ID/LP-Regeln
Einige Grammatikformalismen erlauben die separate Angabe von unmittelbarer Dominanz (ID,
immediate dominance) und Präzedenz (LP, linear precedence). LP-Regeln gelten typischerweise
global für eine Grammatik.
Beispiel 13.1.2 (ID/LP-Regeln in XLE).
Eine NP enthält einen Artikel D und ein Nomen N. Der Artikel muss dem Nomen vorangehen.
NP --> [D , N] & D < N.
Kontextfreies Gerüst in XLE
PSG ENGLISH RULES (1.0)
S
--> NP VP .
NP --> { D N
| PN } .
VP --> V (NP).
PSG ENGLISH LEXICON (1.0)
bark
V * .
barks
V * .
like
likes
V * .
V * .
the
two
D * .
D * .
he
him
PN * .
PN * .
dog
dogs
N * .
N * .
Wie viele Sätze kann man mit dieser Grammatik ableiten?
147
13.2 Unifikationsgrammatik
Unifikationsgrammatik
Definition 13.2.1 (Unifikationsgrammatik nach [Bussmann 2002]). Unifikationsgrammatik
(unification grammar) ist ein „Grammatikmodell, das auf einer Weiterentwicklung des linguistischen Merkmals basiert. Jede linguistische Einheit (Wort oder Phrase) ist durch eine Merkmalstruktur gekennzeichnet.“
Verhältnis Phrasenstruktur vs. Merkmalstruktur
• Merkmalstrukturen verhindern (unzulässige) Phrasenstrukturen (PATR II)
• Merkmalstruktur und Phrasenstruktur sind gleichberechtigte Repräsentationsebenen (XLE,
LFG)
• Merkmalstrukturen sind primär: Konstituenz wird über Merkmalwertpaare ausgedrückt
(Daughters-Merkmal) (HPSG)
13.2.1 Formalismen
PATR-II [Shieber 1992]
Definition 13.2.2 (PArsing and TRanslation). Der PATR-II-Formalismus ist ein GrammatikFormalismus mit hoher Theorieneutralität (Werkzeugformalismus).
Komponenten von PATR-II
• Kontextfreie Grammatikregeln für Syntax und Lexikon X0 → X1 . . . Xn
• Mit Merkmalstrukturen annotierte Nicht-Terminalsymbole
• Gleichungen (constraints) für atomare Werte von Merkmalpfaden hXi P f adi = W ert
• Gleichungen (constraints) für Pfade (Koreferenz) hXi P f adi i = hXj P f adj i
Regeln in PATR-II Notation
Lexikonregel (partiell)
X → takes
hX CAT i = V
hX N U M i = SG
hX P ERSi = 3
hX T EN SEi = P RES
X

CAT

NUM

PERS

V

SG




3

TENSE PRES
takes
148
Syntaxregel mit Numerus
X0 → X1 X2
hX0 CAT i = N P
hX1 CAT i = D
hX2 CAT i = N
hX0 N U M i = hX1 N U M i
hX0 N U M i = hX2 N U M i
X0

CAT
NP

NUM
X1



1
W
ggggg WWWWWWWWW
ggggg 

CAT

NUM
X2
D
1

CAT

NUM
N
1


XLE-Formalismus
Der XLE-Formalismus unterstützt die Grammatikmodellierung in der Tradition der LFG (Theorieformalismus). LFG enthält 2 verschiedene Repräsentationsebenen:
• C-Struktur (Konstituentenstruktur): phrasenstrukturbasiert
• F-Struktur (Funktionale Struktur): merkmalstrukturbasiert
Relativ theorieunabhängige Komponenten von XLE
• Erweiterte kontextfreie Syntaxregeln mit Merkmalsgleichungen (Schemata) für die FStruktur an den Tochterknoten: C0 --> C1 :F1 ; ... Cn :Fn ;.
• Lexikoneinträge für Wörter W mit Merkmalsgleichungen: W C * F.
Etwas gewöhnungbedürftige Notation für Referenz auf Merkmalstrukturen von Mutterknoten
(LFG:↑; XLE:^) und Tochterknoten (LFG:↓; XLE:!).
Regeln in XLE-Notation
Lexikonregel (partiell)
takes V * (^NUM)=SG
(^PERS)=3
(^TENSE)=PRES.
V


NUM
SG


PERS

3


TENSE PRES
takes
Syntaxregel mit Numerus
149
NP --> D: (^NUM)=(!NUM);
N: (^NUM)=(!NUM);
.
NP
h
h
NUM
1
i
W
ggggg WWWWWWWWW
ggggg i
h
D NUM
1
N
NUM
1
i
13.2.2 Kongruenz
Übereinstimmung von Merkmalen
Definition 13.2.3 (Kongruenz, engl. Agreement). Kongruenz: Übereinstimmung zwischen zwei
oder mehreren Satzelementen hinsichtlich ihrer morpho-syntaktischen Kategorien (Kasus, Person, Numerus, Genus). [Bussmann 2002]
Kongruenz in Grammatikformalismen
Kongruenz lässt sich in Unifikationsgrammatiken durch Pfadgleichungen ausdrücken.
Phänomene der Numerus-Kongruenz im Englischen
Kongruenzen in Numerus
• Nomen und dem Begleiter: NP → D N
a dog/*dogs
• Subjekt und dem finiten Verb: S → NP VP
He likes/*like dogs
• Finitem Verb und Reflexivpronomen: VP → V NP
He likes himself/*themselves
• zwischen Gleichsetzungsnominativen (predicate nominal)
He is a doctor/*doctors
Frage
Wie lauten die Merkmalsgleichungen in den Grammatikregeln?
Kongruenz II
Kongruenzphänomene mit weiteren Kategorien
• Person
– zwischen finitem Verb und Subjekt
He likes/*like soccer.
• Kasus
– zwischen koordinierten Nominalphrasen
The kids hate him and her/*she most.
• Genus
– zwischen Possessivpronomen und seinem Bezugsnomen
Shei likes heri /*hisi programming style.
150
13.2.3 Rektion
Rektion bzw. Valenz
Definition 13.2.4 (Rektion, government). Rektion: Lexemspezifische Eigenschaft von Verben,
Adjektiven, Präpositionen oder Substantiven, die die morphologische Kategorie (insbesondere
den Kasus) abhängiger Elemente bestimmt. Rektion kann unter Valenz subsumiert werden,
insofern Valenzträger die morphologische Form der von ihnen ’regierten’ (abhängigen) Elemente
bestimmen (’regieren’).
[Bussmann 2002]
Definition 13.2.5 (Valenz, Subkategorisierung). Valenz ist die Fähigkeit eines Lexems, seine
syntaktische Umgebung vorzustrukturieren, in dem es anderen Konstituenten im Satz Bedingungen bezüglich ihrer grammatischen Eigenschaften auferlegt.
[Bussmann 2002]
Verben gleicher Valenz werden oft in Subkategorien aufgeteilt.
Frage
Wie lässt sich Rektion in Unifikationsgrammatiken ausdrücken?
Rektion/Valenz wird durch Merkmalspezifikation ausgedrückt.
Rektion und Valenz
• Finite Vollverben fordern Subjekt im Nominativ: S → NP VP
• Vollverben fordern je nach Subkategorie Objekte: VP → V NP The dog likes/*barks him
Wir gedenken seiner/*ihn
Lexikalisierung
Viel Rektions-Information stammt aus den Lexikoneinträgen.
"like ist eine finite Verbform und transitiv"
likes V * (^SUBCAT)=TRANS (^VFORM)=FIN
Aus Gründen der Übersichtlichkeit sind nicht alle morphosyntaktischen Merkmale aufgeführt.
Minigrammatik in XLE mit minimalen Merkmalen
PSG ENGLISH RULES (1.0)
S --> NP: (!CASE)=NOM
(^V NUM)=(!NUM);
VP: (^V NUM)=(!NUM).
NP --> { D: (^NUM)=(!NUM);
N: (^NUM)=(!NUM);
| PN: (^NUM)=(!NUM)
(^CASE)=(!CASE);
} .
VP --> V: (^NUM)=(!NUM)
(^V SUBCAT)=(!SUBCAT);
151
{ NP: (!CASE)=ACC
(^V SUBCAT)=TRANS;
"e = epsilon"
| e: (^V SUBCAT)=INTRANS
}
.
PSG ENGLISH LEXICON (1.0)
bark
V * (^SUBCAT)=INTRANS
(^NUM)=PL.
barks
V * (^SUBCAT)=INTRANS
(^NUM)=SG.
like
likes
V * (^SUBCAT)=TRANS
(^NUM)=PL.
V * (^SUBCAT)=TRANS
(^NUM)=SG.
the
two
D * . "Unterspezifikation"
D * (^NUM)=PL.
he
him
PN * (^CASE)=NOM (^NUM)=SG.
PN * (^CASE)=ACC (^NUM)=SG.
dog
dogs
N *
N *
(^NUM)=SG.
(^NUM)=PL.
Diskussion der Umsetzung in XLE
Aufgrund der Phrasenstruktur zulässige, aber inkorrekte Sätze werden ausgefiltert.
Probleme
• Prinzip der Unifikationsgrammatik: Jede linguistische Einheit ist durch eine Merkmalstruktur gekennzeichnet.
• Es entstehen viele lokale Teilstrukturen auf der F-Struktur-Ebene.
• Es gibt keine „gleichwertige“ Repräsentation des Satzes auf der F-Struktur-Ebene.
Ziel einer vollständigen F-Struktur-Repräsentation
• Jede Konstituente integriert die relevante Information ihrer Tochterkonstituenten.
13.2.4 Syntaktische Funktionen
Köpfe und ihre Projektionen
Kopfprinzip
152
• Jede Konstituente hat genau eine Tochterkonstituente, welche ihr Kopf ist.
• Die Konstituente ist die Projektion ihres Kopfes.
• Im X-Bar-Schema ausgedrückt: Xi → . . . Xi−1 . . . NP → (D) N (PP) VP → V (NP) PP
→ P NP
• Alle Merkmale des Kopfes sind auch die Merkmale seiner Projektion.
• Konsequenz: Die Merkmalstruktur eines Kopfes und seiner Projektion werden unifiziert!
• Hinweis: Das Defaultschema in XLE (^=!) leistet genau dies!
Nicht-Köpfe
Funktionalisierung von Nicht-Köpfen
Tochterkonstituenten, welche nicht Köpfe ihrer Mutter sind, werden in ihrer Funktion bezüglich
dem Kopf bestimmt und als Unterstruktur integriert.
Typische Funktionen
• Komplemente: Subjekt (SUBJ), Objekt (OBJ) (typischerweise regiert vom Kopf)
• Komplemente: Infinite Verbal-Komplemente (XCOMP)
• Adjunkte (ADJUNCT): Modifikatoren (typischerweise frei hinzufügbar)
• Spezifikator (SPEC): Artikel von Nomen
Demo von syntaktischen Funktionen in LFG: http://decentius.aksis.uib.no/logon/xle.
xml
Die Frage, was ist der Kopf, ist nicht immer einfach zu beantworten. Beispiele?
Minigrammatik in XLE mit minimalen Merkmalen
PSG ENGLISH RULES (1.0)
S --> NP: (^SUBJECT)=! (!CASE)=NOM ;
VP: ^=! (^SUBJECT NUM)=(!NUM).
NP --> { D: (^SPEC)=! ;
N: ^=! (^SPEC NUM)=(!NUM) ;
| PN: ^=! ;
} .
VP --> V: ^=! ;
{ NP: (^OBJECT)=! (!CASE)=ACC
| e: (^SUBCAT)=INTRANS
}
.
(^SUBCAT)=TRANS;
Die Köpfe sind erkennbar an ^=!. Die Nicht-Köpfe an (^FUN)=!.
153
Mengenwertige Merkmale
XLE (und andere Unifikationsgrammatiken) erlauben oft zusätzliche Mechanismen und Strukturen, welche über reine Unifikation hinausgehen.
Beispiel 13.2.6 (F-Struktur von wiederholten Kategorien).
Wie kann man die Struktur von iterierten Kategorien auf der F-Struktur repräsentieren?
NP --> D ADJ*: ! $ (^ADJUNCT)}; N .
Der Operator F1 $ F2 (LFG: F1 ∈ F2 ) besagt: Die F-Struktur F1 ist Element in der mengenwertigen F-Struktur F2.
13.3 Vertiefung
• Kapitel 3.4.1 in [Carstensen et al. 2004]
• Der probabilistische kontextfreie Parser Bitpar von H. Schmid http://www.ims.uni-stuttgart.
de/tcl/SOFTWARE/BitPar.html
• Das HPSG-System Babel von Stefan Müller für Deutsch http://hpsg.fu-berlin.de/
~stefan/Babel/Interaktiv/
154
14 Syntax des Hilfsverbkomplexes
Lernziele
• Kenntnis über unterschiedliche Modellierung des Verbalkomplexes mit Hilfsverben im Englischen
• Kenntnis über das Konzept der Mehrköpfigkeit: Funktionale und lexikalische Köpfe
• Kenntnis über weitere Strukturebenen in XLE
14.1 Verbalkomplex
Hilfsverben und Modalverben [Matthews 1998]
Beispiel 14.1.1 (Hilfsverbkomplex im Englischen).
• takes
• has taken
He
• is taking
the wrong route.
• could have taken
• has been taking
• may have been taking
• Mit Hilfsverben (be, have), Modalverben(can, may) und dem Vollverb ergeben sich viele
Kombinationen.
• Welche Präzedenzregeln gelten für die Verbarten? Modal < Haben < Sein < Vollverb
• Welche Regeln gelten für die Verbalformen: Grundform, Finite Form, Partizip Präsens
(-ing), Partizip Perfekt (-en)
Affix-Hopping nach [Chomsky 1957]
Transformationsgrammatischer Ansatz: Ein Affix wird an das unmittelbar nachfolgende Element
geklebt.
155
S → NP AUX VP
AUX → TENSE (MODAL) (PERF) (PROG)
S
VP
NP
AUX
he
V
TENSE
MODAL
PERF
PROG
PAST+ed
can
have+en
be+ing
could
have
been
sleep
14.1.1 AUX rekursiv
Rekursiver Hilfsverbkomplex nach [Matthews 1998]
Grund-Idee
Hilfsverben haben VP als Komplement:
VP → AUX VP
VP → V
Warum VP als Komplement von AUX?
Jedes Hilfsverb regiert die Verbalform seiner Schwester-VP.
S
NP
he
VP
AUX
could
Rektion von Hilfsverben
VP
AUX
have
Rektion: Wer fordert was?
• Modalverben: Grundformen (base)
VP
AUX
VP
been
V
sleeping
• Hilfsverb „have“: Partizip Perfekt (part)
• Hilfsverb „be“: Progressivform (prog)
Lexikalischer Ansatz
Die Forderungen an die Verbform (vf) stehen im Lexikon.
S
NP
he
VP
AUX
could
VPvf :base
AUX
have
VPvf :part
AUX
156
been
VPvf :prog
V
sleeping
sleeping
Rektionsforderungen im Lexikon (XLE)
Templates
BASE
FIN
PART
PROG
=
=
=
=
(^VFORM)=base.
(^VFORM)=fin.
(^VFORM)=part.
(^VFORM)=prog.
"Grundform"
"Finites Verb"
"Partizip Perfekt"
"Progressivform"
SG3
VSG3
= (^NUM)=sg (^PER)=3.
= @FIN @SG3 (^TNS)=pres.
STEM(S)
= (^STEM)=S.
INTRANS(S) = (^SUBCAT)=intrans @(STEM S).
TRANS(S)
= (^SUBCAT)=trans @(STEM S).
Lexikoneinträge
"Intransitive Vollverb sleeping ist in Progressivform"
sleeping V * @(INTRANS sleep) @PROG .
"Intransitives Vollverb sleep ist in Grundform"
sleep
V * @(INTRANS sleep) @BASE.
"Hilfsverb haben ist selbst in der Grundform und regiert ein Partizip Perfekt"
have
AUX * @(STEM have) @BASE (^GOV)=part .
could
AUX * @(STEM can) @FIN
(^GOV)=base .
been
AUX * @(STEM be)
@PART (^GOV)=prog .
is
AUX * @(STEM be)
@VSG3 (^GOV)=prog .
he
we
PN * (^CASE)=nom @SG3.
PN * (^CASE)=nom (^NUM)=pl (^PER)=1.
Minigrammatik
S --> NP: @SB ;
VP: @HD (!VFORM)=fin.
VP --> { V:
@HD;
| AUX: @HD;
VP: @OC;}.
NP --> PN: @HD.
Templates
157
HD = ^=! .
"Kopf"
SB = (^SB)=! (!CASE)=nom
"Subjekt ist Komplement und im Nominativ"
(^NUM)=(!NUM) (^PER)=(!PER). "und kongruiert in Numerus und Person"
OC = (^OC)=! (^GOV)=(!VFORM).
"Verbalobjekt der korrekten Form"
Wie sieht die Merkmalstruktur für „he could be sleeping“ aus?
Diskussion
• Einheitlichkeit: Nicht-Vollverben werden einheitlich behandelt
• Redundanz: Verschachtelung der Merkmalstruktur entspricht der Konstituentenstruktur
• Funktionalität: Hilfsverben drücken oft einfache Merkmale aus: Perfektiv, Progressiv, Modalität(?)
Kopfprinzip: Wie endozentrisch ist VP?
• AUX ist Kopf von VP, nicht V. Das Kopfprinzip wird hier verdunkelt durch Benennung.
• Alternative: Mehrköpfigkeit (co-heads): Funktionale vs. lexikalische Köpfe.
• AUX als funktionaler Kopf, V als lexikalischer Kopf.
• Alternativ: GPSG-Ansatz [Gazdar et al. 1985]: Hilfsverben werden als V analysiert: VP
→ V VP
14.1.2 IP/VP
IP/VP-Analyse nach [Falk 2003]
Grund-Idee
Ein flektiertes finite Hilfsverb wird als übliche I-Kategorie (inflection) eingeführt.
IP → NP I’
I’ → (I) VP
VP → V VP | V
Problem
Alle nicht-finiten Hilfsverben müssen auch als V aufgeführt werden.
Vorteil
Das flektierte Hilfsverb hat Sonderstatus (z.B. für Satz-Negation: „He did not sleep.“)
IP
NP
he
I’
I
could
VP
V
IP
have
NP
he
VP
V
I’
been
V
sleeps
158
VP
V
sleeping
14.1.3 m-Ebene
Flache F-Struktur nach [Butt et al. 1999]
Motivation: Sprachübergreifende F-Strukturen
F-Struktur sollte von einzelsprachlichen Eigenheiten abstrahieren:
• He [will have] slept.
• Il [aura] dormi.
Diese Sätze sollen Merkmale [Tense: Fut] und [Perf: +] enthalten. Das Hauptverb auf der obersten Ebene erscheinen (flache F-Struktur).
Grundidee: co-heads
Hilfsverben sind nur funktionale Köpfe. Vollverb ist der lexikalische Kopf.
Naive Idee
Verbalobjekt (OC) wird als Kopf behandelt.
S --> NP: @SB ;
VP: @HD (!VFORM)=fin.
VP --> { V:
@HD;
| AUX: @HD;
VP: @OC;}.
NP --> PN: @HD.
Templates
HD = ^=! .
"Kopf"
SB = (^SB)=! (!CASE)=nom
"Subjekt ist Komplement und im Nominativ"
(^NUM)=(!NUM) (^PER)=(!PER) . "und in derselben Person"
OC = @HD (^GOV)=(!VFORM).
"Verbalobjekt der korrekten Form"
Was passiert? Merkmalskollision auf der F-Struktur!
Morphosyntaktische-Ebene in XLE
Der Abgleich der korrekten Verbformen wird auf einer zusätzlichen Merkmalstruktur-Ebene
gemacht.
Technisches zu Schemata
• ! bedeutet eigentlich: f::* (Die F-Struktur von mir *.)
• ^ bedeutet eigentlich: f::M* (Die F-Struktur der Mutter M von mir *).
Morphosyntaktische Ebene: m-Struktur
• Die m-Struktur von mir: m::*
• Die m-Struktur meiner Mutter: f::M*
159
Rektionsforderungen im Lexikon (XLE)
Veränderte Templates und Lexikoneinträge
BASE
FIN
PART
PROG
=
=
=
=
(m::M*
(m::M*
(m::M*
(m::M*
VFORM)=
VFORM)=
VFORM)=
VFORM)=
base. "Grundform"
fin.
"Finites Verb"
part (^PERF)=+. "Partizip Perfekt"
prog (^PROG)=+. "Progressivform"
"Intransitive Vollverb sleeping ist in Progressivform"
sleeping V * @(INTRANS sleep) @PROG .
"Intransitives Vollverb sleep ist in Grundform"
sleep
V * @(INTRANS sleep) @BASE.
"Hilfsverb haben
have
AUX *
could
AUX *
been
AUX *
is
AUX *
has
AUX *
ist selbst in
@BASE (m::M*
@FIN
(m::M*
@PART (m::M*
@VSG3 (m::M*
@VSG3 (m::M*
der
GOV
GOV
GOV
GOV
GOV
Grundform und regiert ein Partizip Perfekt"
VFORM)=part .
VFORM)=base .
VFORM)=prog .
VFORM)=prog .
VFORM)=part .
Minigrammatik
S --> NP: @SB @mHD;
VP: @HD @mHD (m::* VFORM)=fin.
VP --> { V:
@HD @mHD;
| AUX: @HD @mHD;
VP: @HD (m::M* GOV)=m::* ;}.
NP --> PN: @HD @mHD.
Templates
HD = ^=! .
mHD= m::M*=m::*.
SB = (^SB)=! (!CASE)=nom
(^NUM)=(!NUM) (^PER)=(!PER) .
"Kopf"
"morphologischer Kopf"
"Subjekt ist Komplement und im Nominativ"
"und in derselben Person"
Wie sieht die Merkmalstruktur für „he has been sleeping“ aus?
Diskussion
• Was gehört in die F-Struktur? Was gehört auf die M-Struktur? Schwierige Frage!
• XLE erlaubt beliebige weitere Ebenen
• Z.B. Optimalitätsangaben auf der O-Struktur.
• Z.B. Semantik auf der S-Struktur
160
• Welche Funktion hat die F-Struktur?
• Z.B. als Ausgangspunkt für Transfer-Regeln zur Übersetzung
161
15 Maschinelle Übersetzung Reloaded
Lernziele
• Kenntnis über die wichtigen Ansätze zur maschinellen Übersetzung: Direkte Übersetzung,
Transfer-Übersetzung, Interlingua-Übersetzung
15.1 Ansätze
Oettingers “Automatic Russian-English Dictionary”
Beispiel 15.1.1 (Russisch zu Englisch).
Humanübersetzung:
In recent times Boolean algebra has been successfully employed in the analysis of
relay networks of the series-parallel type.
“Rohübersetzung”:
(In,At,Into,To,For,On) (last,latter,new,latest,worst) (time,tense) for analysis and
synthesis relay-contact electrical (circuit, diagram, scheme) parallel-(series, successive, consecutive, consistent) (connection, junction, combination) (with, from) (success, luck) (to be utilize, to be take advantage of) apparatus Boolean algebra.
[Locke und Booth 1955, 55]
Wort-für-Wort-Übersetzung
Der einfachste Ansatz zur MÜ basiert auf einem bilingualen Lexikon und einfachsten Modifikationen auf der Wortebene.
Vorgehen
• Im Prinzip wortweises Übersetzen der erkannten Lexikoneinträge
• Anpassungen der Wortfolge in der Rohübersetzung
– Austauschen von 2 benachbarten Wörtern
– Weglassen eines Worts (z.B. keine Artikel im Russischen)
– Einfügen eines Worts
Frage
Was muss man dafür eigentlich können?
162
Probleme solcher lexikalischer Übersetzung
• Lemma-basierte Übersetzung: Mit der Reduktion auf Lemmata geht wesentliche Information über die syntaktischen Abhängigkeiten verloren.
• Wortfolge: Sprachen unterscheiden sich oft so stark, dass lokales Umstellen von Wörtern
nicht genügt. (z.B. SVO vs. SOV)
• Lexikalische Mehrdeutigkeit: Die meisten Wörter in den meisten Sprachen sind mehrdeutig (ambig)! Wie findet man die intendierte Bedeutung? Dies erfordert sog. “word sense
disambiguation (WSD)” (Wortbedeutungsdesambiguierung).
4 wichtige Ansätze
Die Übertragung von der QS in die ZS ist primär gesteuert durch:
• Wortfolge mit mophosyntaktischer Information: Direkte Übersetzung
• Syntaktische Struktur: Transfer-Übersetzung
• Semantische Repräsentation: Interlingua-Übersetzung
• Frequenzdaten von Übersetzungspaaren: Statistische Übersetzung
15.1.1 Direkte Übersetzung
Direkte Übersetzung
Die direkte Übersetzung führt die QS ohne linguistisch motivierte Zwischenrepräsentation in
die ZS über.
Ablauf
• Bestimmung von Wortarten, Grundformen und morphosyntaktischen Merkmalen der Wörter in der QS
• Wortwahl (=Lemmawahl) in der ZS
• Anwenden von Übertragungsregeln anhand der lexikalischen und morphosyntaktischen Information
• Lokales Umordnen von Wörtern in ZS
• Morphologische Generierung der Wortformen der ZS
Beispiel 15.1.2 (Wortwahl “much/many”).
if preceding word is “how” return “wieviel(e)” else if preceding word is “as” return “soviel(e)”
163
Beispiel: Regeln für Direkte Übertragung
Beispiel 15.1.3 (Adjektiv-Stellung und Nominalkomposita von Englisch zu Französisch).
• a visual indicator → un indicateur visuel
• installation configuration → configuration d’installation
Regeln für die direkte Übertragung
• ArtE AdjE NE → ArtF NF AdjF “Falls in der QS die Folge Artikel, Adjektiv, Nomen
vorliegt, dann produziere in der ZS die Reihenfolge Artikel, Nomen, Adjektiv.”
• N1E N2E → N2F de N1F “Falls in der QS zwei Nomen hintereinander stehen, dann
produziere in der ZS die vertauschte Reihenfolge mit einem de-Element dazwischen.”
Probleme/Vorteile der direkten Übersetzung
• Eine grosse Anzahl Übertragungsregeln entsteht wegen der schlechten syntaktischen Abstraktion. So muss für “the preliminary installation configuration → la configuration
d’installation préliminaire” eine weitere Regel gemacht werden. Welche?
• Jede Übersetzungsrichtung braucht ein eigenes Programm.
• Wartung und Weiterentwicklung wird schnell zu komplex, weil die syntaktische Struktur
nicht explizit repräsentiert ist.
• Die direkte Übersetzung ist grundsätzlich robust gegenüber syntaktischen Schwierigkeiten
(Fehler oder zu komplexe Strukturen).
• Allgemeine Behandlung von unbegrenzten Konstruktionen wie Komposita ist schlecht
machbar. “computer periphery installation configuration manual”
15.1.2 Transfer-Übersetzung
Transfer-Übersetzung im Bild
Beispiel: Regeln für Transfer von Syntaxstrukturen
Die Transfer-Regeln operieren nicht bloss auf der Wortebene, sondern auf allen Konstituenten.
(Vgl. http://www.cl.uzh.ch/clab/ecl1/ilap_transf/)
Komponenten eines Transfersystems
• Syntaxanalyse der QS (Grammatik, Lexikon, Parser)
• Transfer-Modul (lexikalische und syntaktische Transfer-Regeln)
• Generierungsmodul der ZS (Grammatik, Lexikon, Generator)
• Morphologie-Module für QS und ZS
• Module zur Auflösung von Mehrdeutigkeiten
164
Satz
Satz
Ausgangsgssprache
Zielsprache
Analyse
Synthese
Syntax
Ausgangsgssprache
Syntax
Transfer
Zielsprache
Abbildung 15.1: Transfer-Übersetzung im Bild
Fazit zur Transfer-Übersetzung
• Dominierendes Paradigma der heutigen MÜ (aber schon 1950 konzipiert)
• Nur die Transfer-Regeln müssen für jede Übersetzungsrichtung entwickelt werden. Generierung und Analyse bleiben (hoffentlich) gleich.
• Unbegrenzte Konstruktionen lassen sich rekursiv elegant übertragen.
• Sprachen, welche wenig Ähnlichkeiten haben, sind viel schwieriger als verwandte Sprachen.
• Welche syntaktischen Konstruktionen existieren überhaupt?
• Was tun, wenn Sätze der QS nicht geparst werden können? Wie bekommt man die intendierte Analyse?
15.1.3 Interlingua-Übersetzung
Interlingua-Übersetzung
• Bei der Transfer-Übersetzung müssen die syntaktischen Analyseresultate so gewählt werden, dass der Transfer zu verschiedenen Sprachen optimal ist.
• Der Interlingua-Ansatz versucht, alle Einzelsprachen auf eine gemeinsame Repräsentation
(meist bedeutungsorientiert) abzubilden.
• In der Praxis haben sich diese Systeme nicht durchgesetzt – trotz der an sich bestechenden
Idee.
• Problem: Wie soll diese Interlingua genau aussehen? Welche begrifflichen Differenzierungen verlangt sie?
165
John gives Mary an apple.
Jean donne une pomme à Marie.
Eingabevorbereitung
capitalized(john) gives
capitalized(mary)
Ausgabeaufbereitung
an
apple
capitalized(jean)
endpunct(’.’)
to_give mary
a
cat: p_name cat: tv
cat: p_name
num: sing
num: sing num: sing
gend: fem
gend: masc pers: 3
tense: pres
mood:indic
apple end_of_sentence
cat: det
num: sing
def: indef
jean
cat: cn
num: sing
donner un
NP
p_name
john
vt
S
tense: pres
mood:indic
type: assertion
num: sing
pers: 3
pn
to_give
VP num: sing
pers: 3
NP num: sing
Syntax−
Transfer
det
cn
def: indef
a
mary
NPnum: sing
gend: fem
p_name
apple
vt
jean
det
cn
def: indef
donner
un
pomme
Maschinelle Übersetzung (Transfer−Methode)
Quelle: [Hess 2005]
Abbildung 15.2: Transfer-Übersetzung im Detail
S
S
Np
Adj
Np
Vp
N−Gr
V
Np
Art
N
the
rich
boy
Art
N−Gr Adj
loves the
Vp
V
N−Gr
girl
Np
Art
N
N
le
garçon riche aime la
Quelle: [Hess 2005]
Abbildung 15.3: Transfer-Regeln
166
PP
NP num: sing
gend: fem
NP
num: sing
gend: masc
Lexikon−
Lookup
Art
capitalized(marie)
Satzgenerierung
NP num: sing
gend: fem
num: sing
gend: masc
à
pomme à marie end_of_sentence
tense: pres
mood:indic
type: assertion
VP
pomme
cat: p_name cat: tv
cat: cn cat: prep cat: p_name
cat: det
num: sing
num: sing num: sing num: sing
num: sing
gend: masc pers: 3
def: indef gend: fem
gend: fem
tense: pres gend: fem
mood:indic
Satzanalyse
S
une
Wortformengenerierung
Wortformenanalyse
john
donne
N−Gr
N
fille
prep
pn
à
marie
endpunct(’.’)
Lexikalisierungsproblem
Verschiedene Sprachen machen unterschiedlich feine Bedeutungsunterscheidungen.
Wieviele Differenzierungen muss eine Interlingua enthalten, wenn noch mehr Sprachen ins Spiel
kommen?
Quelle: [Jurafsky und Martin 2008] nach Somers
Abbildung 15.4: Lexikalische Überschneidungen nach Somers
15.1.4 Kombinierte Ansätze
Ansätze der MÜ und reale Systeme
Reale Übersetzungssysteme sind meistens Kombinationen der geschilderten Ansätze. Wo keine
“tiefen” Analysen möglich sind, werden flache Übertragungen gemacht.
Quelle: [Jurafsky und Martin 2008]
Abbildung 15.5: Verbindung von direkter, Transfer- und Interlingua-Übersetzung
15.2 Vertiefung
• Kapitel “Maschinelle Übersetzungssysteme” in [Hess 2005], das noch zusätzliches Material
und Referenzen enthält.
• Quiz Mehrdeutigkeit von Wortarten
• ILAP Transfer-Übersetzung http://www.cl.uzh.ch/clab/ecl1/ilap_transf
167
• Eine lesbare technische Einführung in Maschinelle Übersetzung: [Knight 1997]
168
16 Literaturverzeichnis
[Abney 1991] Abney, Steven (1991). Parsing by Chunks, In: Berwick, Robert, S. Abney
und C. Tenny, Hrsg.: Principle-Based Parsing. Kluwer Academics, LIN 235. 57
[Arnold et al. 1994] Arnold, Doug, L. Balkan, R. L. Humphreys, S. Meijer und
L. Sadler (1994). Machine Translation: An Introductory Guide. Blackwell. 117
[Bader 2006] Bader,
Markus (2006).
Satzintonation: Einführung, http:
//ling.uni-konstanz.de/pages/home/bader/Seminare/Satzintonation-06-07/
01Einfuehrung.pdf. 94
[Brants 1999] Brants, Thorsten (1999). Tagging and Parsing with Cascaded Markov Models. Automation of Corpus Annotation, Saarbrücken Dissertations in Computational Linguistics and Language Technology 6. Saarland University. 54
[Bussmann 2002] Bussmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Kröner,
Stuttgart, 3., aktual. und erw. Aufl. 16, 20, 23, 33, 35, 123, 124, 125, 147, 149, 150
[Butt et al. 1999] Butt, Miriam, M. Niño und F. Segond (1999). A Grammar Writer’s
Cookbook. CSLI Publications, Stanford, CA. 158
[Callison-Burch et al. 2006] Callison-Burch, Chris, M. Osborne und P. Koehn
(2006). Re-Evaluation the Role of Bleu in Machine Translation Research, In: EACL-2006:
11th Conference of the European Chapter of the Association for Computational Linguistics, S. 00–00, Trento. Association for Computational Linguistics, http://www.aclweb.org/
anthology/E06-1032.pdf. 122
[Carstensen et al. 2004] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,
R. Klabunde und H. Langer, Hrsg. (2004). Computerlinguistik und Sprachtechnologie
: Eine Einführung. Elsevier, München. 16, 18, 38, 47, 58, 72, 74, 92, 98, 99, 153
[Carstensen et al. 2009] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,
R. Klabunde und H. Langer, Hrsg. (2009). Computerlinguistik und Sprachtechnologie
: Eine Einführung. Spektrum, München. 100
[Chandioux 1991] Chandioux, John (1991). Meteo: Environment Canada [contribution to
panel] The MT user experience, In: MT Summit III., S. 123. http://www.mt-archive.info/
MTS-1991-panel-1.pdf. 111
[Chomsky 1957] Chomsky, Noam (1957). Syntactic Structures. Mouton, Den Haag. 154
[Clematide 2007] Clematide, Simon (2007). Tagger-Training und Evaluation mit TnT ,
http://www.cl.uzh.ch/siclemat/lehre/papers/tnt-training2007.txt. 51
[Cohn und Lapata 2008] Cohn, Trevor und M. Lapata (2008). Sentence Compression
Beyond Word Deletion, In: Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), S. 137–144, Manchester, UK. Coling 2008 Organizing
Committee, http://www.aclweb.org/anthology/C08-1018. 81
169
[Covington 2003] Covington, Michael A (2003). ET: an Efficient Tokenizer in ISO Prolog, http://www.cl.uzh.ch/siclemat/lehre/papers/Covington2003.pdf. 40
[Cunningham 1999] Cunningham, Hamish (1999). Information Extraction – a User Guide,
Technischer Bericht, Institute for Language, Speech and Hearing (ILASH), CS-99-07, http:
//www.dcs.shef.ac.uk/~hamish/IE/. 83
[Cutting et al. 1992] Cutting, D, J. Kupiec, J. Pedersen und P. Sibun (1992).
A Practical Part-of-Speech Tagger, In: Proceedings of the Third Conference on Applied Natural Language Processing, Trento, S. 133–140, Trento. Association for
Computational
Linguistics,
http://www.aclweb.org/anthology/A92-1018.pdf,
http://www.cl.uzh.ch/siclemat/lehre/papers/CuttingKupiec1992.pdf. 49
[Dale et al. 1998] Dale, Robert, B. D. Eugenio, und D. Scott (1998). Introduction to
the Special Issue on Natural Language Generation, Computational Linguistics, 24(3):345–353,
http://www.aclweb.org/anthology/J98-3001.pdf. 79
[Dudenredaktion 2005] Dudenredaktion, Hrsg. (2005). Duden, die Grammatik: Unentbehrlich für richtiges Deutsch, Bd. 4 d. Reihe Der Duden. Dudenverlag, 7. Aufl. 33
[EAGLES 1996] EAGLES (1996).
ELM-DE: EAGLES Specifications for German morphosyntax: Lexicon Specification and Classification Guidelines, electronic,
http://www.ilc.cnr.it/EAGLES96/pub/eagles/lexicons/elm_de.ps.gz,
http://www.cl.uzh.ch/siclemat/lehre/papers/EAGLES1996.pdf. 24
[Edmundson 1969] Edmundson, H.P. (1969). New Methods in Automatic Extracting, Journal
of the ACM, 16:264–285. 80
[excelsis 2007] excelsis
(2007).
Hörbeispiel:
Fussball-WM-Auskunft,
http://www.excelsisnet.com/download/voicedemos/DemoWM2002.mp3,
http://www.cl.uzh.ch/siclemat/lehre/papers/excelsis2007.mp3. 100
[F-Mass 2006] F-Mass (2006). F1 -Mass in 3D als Funktion von Recall (x) und Precision (y),
http://www.cl.uzh.ch/siclemat/lehre/papers/F-Mass2006.mov. 62
[Falk 2003] Falk, Yehuda N. (2003). The English Auxiliary System Revisted, In: Butt,
Miriam und T. H. King, Hrsg.: The Proceedings of the LFG ’03 Conference, University at
Albany, State University of New York. http://csli-publications.stanford.edu/LFG/8/
lfg03.html. 157
[Gale und Church 1993] Gale, William A und K. W. Church (1993). A Program for
Aligning Sentences in Bilingual Corpora, Computational Linguistics, 19(1):75–102, http:
//www.aclweb.org/anthology/J93-1004.pdf. 106
[Gallmann und Sitta 2001] Gallmann, Peter und H. Sitta (2001). Deutsche Grammatik.
Lehrmittelverlag, 3. Aufl., Konzis und verständlich. 23
[Gazdar et al. 1985] Gazdar, Gerald, E. Klein, G. K. Pullum und I. A. Sag (1985).
Generalized Phrase Structure Grammar. Basil Blackwell, Oxford. 157
[German 2006] German,
Klara
(2006).
AT&T
Beispielsatz
Deutsch,
http://www.research.att.com/~ttsweb/tts/demo.php,
http://www.cl.uzh.ch/siclemat/lehre/papers/German2006.mp3. 89
170
[Grefenstette 1998] Grefenstette, Gregory (1998). Producing Intelligent Telegraphic
Text Reduction to Provide an Audio Scanning Service for the Blind, In: Intelligent Text
Summarization, AAAI Spring Symposium Series, S. 111–117, Stanford, California. 80
[Grefenstette und Tapanainen 1994] Grefenstette, Gregory und P. Tapanainen
(1994).
What is a Word, What is a Sentence? Problems of Tokenisation, In:
Proceedings of the 3rd Conference on Computational Lexicography and Text Research, COMPLEX’94 , Budapest. http://citeseer.ist.psu.edu/grefenstette94what.
html, http://www.cl.uzh.ch/siclemat/lehre/papers/GrefenstetteTapanainen1994.pdf. 45, 46,
47
[Grover 2008] Grover,
Claire
(2008).
LT-TTT2
Example
Pipelines
Documentation,
http://www.ltg.ed.ac.uk/software/lt-ttt2,
http://www.cl.uzh.ch/siclemat/lehre/papers/Grover2008.pdf. 42
[Hearst 1999] Hearst, Marti A. (1999). Untangling text data mining, In: Proceedings of
the 37th annual meeting of the Association for Computational Linguistics on Computational
Linguistics, S. 3–10, Morristown, NJ, USA. Association for Computational Linguistics. 76,
77
[Hess 2005] Hess, Michael (2005). Einführung in die Computerlinguistik I: Interaktives Vorlesungsskript WS 2004/2005 , http://www.cl.uzh.ch/siclemat/lehre/papers/Hess2005.pdf.
134, 165, 166
[Hess 2006] Hess, Michael (2006). Computerlinguistik in Information und Dokumentation,
http://www.ifi.uzh.ch/arvo/cl/siclemat/talks/zb/zb.pdf. 86
[Hopcroft et al. 2002] Hopcroft, John E., R. Motwani und J. D. Ullman (2002). Einführung in die Automatentheorie, Formale Sprachen und Komplexitätstheorie. Pearson Studium, München, 2. überarbeitete Aufl. 133
[Hutchins und Somers 1992] Hutchins, W. John und H. L. Somers (1992). An introduction to machine translation. Academic Press, London [etc.]. 103
[ICL 2007a] ICL (2007a). Informationen zur Leistungsüberprüfung für Bachelorstudierende,
http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2007.pdf. 11
[ICL 2007b] ICL (2007b). Informationen zur Leistungsüberprüfung für Lizentiatsstudierende,
http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2007a.pdf. 11
[Jurafsky und Martin 2000] Jurafsky, Daniel und J. H. Martin (2000). Speech and
Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall. 18, 91
[Jurafsky und Martin 2008] Jurafsky, Daniel und J. H. Martin (2008). Speech and
Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, 2. Aufl. 166
[Kallmeyer 2005] Kallmeyer, Laura (2005). Part I: Lexicalized Tree Adjoining Grammars
(LTAG), http://www.sfb441.uni-tuebingen.de/~lk/TAG-SEMINAR/ext-cfg.pdf. 134
[Kassensturz 2006] Kassensturz (2006).
Sendung Kassensturz vom 10. Oktober,
http://www.cl.uzh.ch/siclemat/lehre/papers/Kassensturz2006.mov. 12
171
[Knight 1997] Knight, Kevin (1997). Automatic Knowledge Acquisition for Machine Translation, http://www.cl.uzh.ch/siclemat/lehre/papers/Knight1997.pdf. 167
[Kupiec et al. 1995] Kupiec, Julian, J. Pedersen und F. Chen (1995). A Trainable Document Summarizer, In: Proceedings of the 18th Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval, S. 68–73, Seattle, Washington. 80
[Liberman und Church 1992] Liberman, Mark und K. W. Church (1992). Text Analysis and Word Pronunciation in Text-to-Speech Synthesis, In: Furui, Sadaoki und M. M.
Sondhi, Hrsg.: Advances in Speech Signal Processing, S. 791–832. Marcel Dekker, New York.
90
[Linke et al. 2001] Linke, Angelika, M. Nussbaumer und P. R. Portmann, Hrsg. (2001).
Studienbuch Linguistik. Niemeyer, Mit interaktivem Lernprogramm auf CD-ROM. 21
[Locke und Booth 1955] Locke, William N. und A. Booth, Hrsg. (1955). Machine translation of languages: fourteen essays. Technology Press. 161, 173
[Luhn 1958] Luhn, Hans Peter (1958). Automatic Creation of Literature Abstracts,
IBM Journal of Research & Development, 2(2):159–165, http://de.wikipedia.org/wiki/
Extraktionsalgorithmus_nach_Luhn. 80, 88
[Manning et al. 2009] Manning, Christopher, P. Raghavan und H. Schütze (2009).
An Introduction to Information Retrieval. Cambridge University Press, http://www.
informationretrieval.org. 70, 77
[MARY 2006] MARY, Male (2006). Hörbeispiel Sprachsynthese: Emotionaler Fussballreporter, http://www.cl.uzh.ch/siclemat/lehre/papers/MARY2006.mp3. 100
[Matthews 1998] Matthews, Clive (1998). An Introduction to Natural Language Processing
through Prolog. Longman, London. 154, 155
[Melby 2001] Melby, Alan K. (2001). Translation, Theory and Technology Homepage, http:
//www.ttt.org/theory/mt4me/mtambiguity.html. 115, 116
[Müller 1994] Müller, Stefan (1994). Prolog und Computerlinguistik: Teil I - Syntax,
http://www.cl.uni-bremen.de/~stefan/PS/prolog.pdf. 141
[Nohr] Nohr, Holger. Kap. B 8: Theorie des Information Retrieval II: Automatische Indexierung. 81
[Oberhauser und Labner 2003] Oberhauser, Otto und J. Labner (2003). OPACErweiterung durch automatische Indexierung: Empirische Untersuchung mit Daten aus
dem Österreichischen Verbundkatalog, In: ODOK ’03 : 10. Österreichisches OnlineInformationstreffen ; 11. Österreichischer Dokumentartag. 73
[ORF 2007a] ORF
(2007a).
Hörbeispiel
1:
Sprechender
Fahrplan
Salzburg,
http://salzburg.orf.at/magazin/leben/stories/73906/,
http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007a.mp3. 100
[ORF 2007b] ORF
(2007b).
Hörbeispiel
3:
Sprechender
Fahrplan
Salzburg,
http://salzburg.orf.at/magazin/leben/stories/73906/,
http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007.mp3. 100
172
[Palmer 2000] Palmer, David D (2000). Tokenisation and Sentence Segmentation, In: Dale,
Robert, H. Moisl und H. Somers, Hrsg.: Handbook of natural language processing, S. 11–
35. New York. 47
[Pfister und Kaufmann 2008] Pfister, Beat und T. Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, SpringerLehrbuch. Springer, Berlin. 100
[Pierce et al. 1966] Pierce, John R, J. B. Carroll, E. P. Hamp, D. G. Hays, C. F.
Hockett, A. G. Oettinger und A. Perlis, Hrsg. (1966). Language and Machines: Computers in Translation and Linguistics. National Academy of Sciences, http://darwin.nap.
edu/html/alpac_lm/ARC000005.pdf. 101
[Plaehn 1998] Plaehn,
Oliver
(1998).
ANNOTATE:
http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn1998a.pdf. 28
[Plaehn 2000] Plaehn, Oliver (2000).
ANNOTATE v3.6
http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn2000.txt. 28
Bedienungsanleitung,
–
Quick
Reference,
[Pyysalo 2008] Pyysalo, Sampo (2008). A Dependency Parsing Approach to Biomedical
Text Mining, Department of Information Technology; TUCS, http://oa.doria.fi/handle/
10024/39934. 64, 65
[Raggett 2001] Raggett, Dave (2001). Dave Raggett’s Introduction to VoiceXML 2.0 ,
http://www.w3.org/Voice/Guide/. 100
[Referenzkarte 2009] Referenzkarte (2009).
Referenzkarte zum
http://www.cl.uzh.ch/siclemat/lehre/papers/Referenzkarte2009.pdf. 28
Annotieren,
[Rinaldi et al. 2006] Rinaldi, Fabio, G. Schneider, K. Kaljurand, M. Hess und M. Romacker (2006). An environment for relation mining over richly annotated corpora: the case
of GENIA, BMC Bioinformatics, 7(Suppl 3):S3. 85
[Roth 2008] Roth,
Sandra
(2008).
OLAT-Hinweise
http://www.cl.uzh.ch/siclemat/lehre/papers/Roth2008.pdf. 9
für
Studierende,
[Salton 1988] Salton, Gerard (1988). Automatic text processing : the transformation, analysis, and retrieval of information by computer. Addison-Wesley, Reading, Mass. 76
[Schiller et al. 1999] Schiller, Anne, S. Teufel und C. Stöckert (1999). Guidelines
für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset), http://www.
ims.uni-stuttgart.de/projekte/corplex/TagSets/stts-1999.pdf. 24, 29
[Schmid 2006] Schmid, Helmut (2006). TreeTagger, http://www.ims.uni-stuttgart.de/
projekte/corplex/TreeTagger/DecisionTreeTagger.html. 41
[Shieber 1985] Shieber, Stuart M. (1985). Evidence Against the Context-Freeness of Natural Language, Linguistics and Philosophy, 8:333–343, Reprinted in Walter J. Savitch, Emmon Bach, William Marsh, and Gila Safran-Navah, eds., The Formal Complexity of Natural Language, pages 320–334, Dordrecht, Holland: D. Reidel Publishing Company, 1987.,
http://www.eecs.harvard.edu/~shieber/Biblio/Papers/shieber85.pdf. 134
173
[Shieber 1992] Shieber, Stuart M. (1992). Constraint-Based Grammar Formalisms. MIT
Press, http://mitpress.mit.edu/catalog/item/default.asp?tid=5840&ttype=2. 147
[Simmons 2006a] Simmons
(2006a).
Hörbeispiel
ToBi:
Bloomingdales,
http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm,
http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006a.mp3. 8, 95
[Simmons 2006b] Simmons, Anita (2006b). Sound-Datei zu Beispielsatz ”There ‘s a lovely
one in Bloomingdale.“, http://anita.simmons.edu/~tobi/chap2-7/bloomingdales1.wav,
http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006.mp3. 95
[Steiner 2003] Steiner, Petra (2003). Das revidierte Münsteraner Tagset / Deutsch
(MT/D). Beschreibung, Anwendung, Beispiele und Problemfälle, http://santana.
uni-muenster.de/Publications/tagbeschr_final.ps. 24
[Stocker et al. 2004] Stocker, Christa, D. Macher, R. Studler, N. Bubenhofer,
D. Crevlin, R. Liniger und M. Volk (2004). Studien-CD Linguistik: Multimediale Einführungen und interaktive Übungen zur germanistischen Sprachwissenschaft, Max Niemeyer
Verlag, http://www.ds.uzh.ch/studien-cd. 23, 37
[Traunmüller 1997] Traunmüller, Hartmut (1997). Geschichte der Sprachsynthese,
http://www.ling.su.se/staff/hartmut/kempln.htm. 13
[Turing 1950] Turing, A. M. (1950). Computing Machinery and Intelligence, Mind,
59(236):433–460, http://cogprints.org/499/00/turing.html. 18
[Universitätsrat 2004] Universitätsrat (2004).
Richtlinie über die Umsetzung des
Bologna-Prozesses an der Universität Zürich, http://www.studienreform.unizh.ch/
dokumente/richtlinien.pdf. 10
[Volk und Schneider 1998] Volk, Martin und G. Schneider (1998). Comparing a statistical and a rule-based tagger for German, In: Proceedings of KONVENS-98 , S. 125–137,
Bonn. http://www.cl.uzh.ch/siclemat/lehre/papers/VolkSchneider1998.pdf. 50
[Weaver 1955] Weaver, Warren (1955). Translation, In: [Locke und Booth 1955], S. 15–
23, http://www.mt-archive.info/Weaver-1949.pdf. 101
[Weisser 2005] Weisser, Martin (2005). Computational Philology, http://ell.phil.
tu-chemnitz.de/compPhil/intro.html [cited Mittwoch, 11. Oktober 2006]. 14
[Wikipedia 2006] Wikipedia (2006). Loebner-Preis — Wikipedia, Die freie Enzyklopädie, [Online; Stand 25. Oktober 2006], http://de.wikipedia.org/w/index.php?title=
Loebner-Preis&oldid=22274242. 18
[Wikipedia 2007] Wikipedia (2007). Harmonic mean — Wikipedia, The Free Encyclopedia,
http://en.wikipedia.org/w/index.php?title=Harmonic_mean\&oldid=107249796. 61
[Wikipedia 2009] Wikipedia (2009). Kognitionswissenschaft — Wikipedia, Die freie Enzyklopädie, http://de.wikipedia.org/w/index.php?title=Kognitionswissenschaft. 17
174
Index
Übersetzung, computerunterstützt, 103
Übersetzung, maschinell, 102
Übersetzungsrichtung, 102
10-fache Kreuzvalidierung, 54
Evaluation, 52
Ableitung, 132
Ableitungsrelation, 132
Ableitungsrelation, unmittelbare, 132
Adjektiv-Flexion, 27
Affix-Hopping, 154
Alphabet, 128
Antwortextraktion, 85
Assimilation, 97
Attribut-Wert-Struktur, 137
Aussprachewörterbuch, elektronisch, 91
AVM, 137
Genus, 25
Grad, 27
Grammatik, 123
Grammatik, kontextfrei, 131
Graph, gerichtet, 138
Graph,zyklenfrei, 138
Grundfrequenzverlauf, 94
F-Measure, 55
FAHQT, 109
HAMT, 107
Hilfsverbkomplex, 154
Baum, 138
Baum, markiert, gerichtet, 139
Blatt, 139
BLEU, 119
BOW, 72
CAT, siehe Übersetzung, computerunterstützt
Computerlinguistik, 12
Data-Mining, 76
Dependenz, 35
Dependenzanalyse, 85
Dialogsystem
Conversational User Interface, 99
Interactive Voice Response System, 99
Kommandowortsystem, 99
Diphon, 96
Dokument als Menge von Indextermen, 72
Dolmetschen, maschinell, 102
IDF, 75
Idiom, 116
Index, 69
Indexieren, 69
Informationsextraktion, 81
IOB-Chunks, 57
IPA, 16
IR, 69
Junktur, 97
Kasus, 26
Kern, 34
Knoten, innerer, 139
Koartikulation, 97
Kognitionswissenschaft, 17
Kollokation, 117
Komparation, siehe Grad
Kongruenz, 149
Konkatenation, 129
Konstituente, 33, 125
Konstituentenanalyse, 33, 125
Konstituentenanalyse, automatisch, 127
Konstituenz, 33, 125
Koordination, 35
Kopf, 34
Editierdistanz, minimal, 98
Einsetzprobe, 31
Epsilon, 128
Ersatzprobe, 30
175
Relation-Mining, 84
Reliabilität, 52
Retrievalmodell, Boolsch, 72
Lemma, 22
Lemmatisierung, 28
Levenshtein Editierdistanz, siehe Editierdistanz, minimal
Lexem, 22
Lexemverband, 22
Linguistik, 16
Satz, 33
Satz, formal, 132
Satzkompression, 81
Schallwellen, 94
Semantik, 17
Sigma, 128
Silbentrennung, 46
SL, siehe Quellsprache
Sprache, formal, 132
Spracherkennungssystem, 97
Sprachsynthesesystem, 89
Sprachtechnologie, 13
Subsumtion, 143
Syntaktische Funktion, 35
Syntax, 17
MAHT, 103
Merkmal, morphologisch, 24
Merkmalstruktur, 137
Merkmalstruktur, als Graph, 139
Merkmalstrukturunifikation, 144
Modus, 26
Morphologie, 16
Morphologieanalyse, 28
Morphologiegenerierung, 28
MT, siehe Übersetzung, maschinell
MUC, 82
Named Entity Regonition, 46
NER, 46
Numerus, 25, 27
Tag-Set, 48
Tagging-Genauigkeit, 53
Tempus, 26
Termhäufigkeit, siehe TF
Termhäufigkeit, inverse, siehe IDF
Text-Mining, 76, 84
Text-Segmentierung, 39
Textextraktion, 79
Textklassifikation, 87
Textzusammenfassung, 79
TF, 75
TL, siehe Zielsprache
Token, 21
TTS, siehe Sprachsynthesesystem
Oronym, 97
Parser, 127
partielle syntaktische, 56
PATR-II, 147
Person, 27
Pfad, 138
Pfad, einfach, 138
Pfad, in Merkmalstruktur, 140
Pfad, vollständig, 140
Phonem, 16
Phonetik, 16
Phonologie, 16
Postedition, 109
Präedition, 109
Pragmatik, 17
Precision, 54
Probe, linguistisch, 30
Umformungsprobe, 32
Unifikationsgrammatik, 147
Valenz, 150
Validität, 52
Verschachtelte Chunks, 58
Verschiebeprobe, 32
Volltextsuche, klassisch, 69
Qualität einer Evaluation, 52
Quellsprache, 102
Weglassprobe, 31
WER, siehe Wortfehlerrate
Wert eines Pfades, 140
Wert, Merkmalstruktur, 137
Wort, 20, 128
Recall, 54
Regeln, phonologisch, 92
regulärer Ausdruck, 41
Rektion, 150
176
Wort,syntaktisch, 22
Wortakzent, 93
Wortarten, 23
Wortarten-Tagger, 48
Wortfehlerrate, 98
Wortform, 21
XML-Standard, 43
Zeichenkette, 128
Zeichenkette, leer, 128
Zielsprache, 102
Zyklus, 138
177