HS 2011: Einführung in die Computerlinguistik I

Transcription

HS 2011: Einführung in die Computerlinguistik I
Universität Zürich
Institut für Computerlinguistik
Binzmühlestr. 14
8050 Zürich
Vorlesungsskript∗
HS 2011: Einführung in die Computerlinguistik
I
Simon [email protected]
Version von 29. Dezember 2011
Schriftliche Übungen:
Nora Hollenstein/Noëmi Aepli
Interaktive Lerneinheiten
∗
PDF: http://www.cl.uzh.ch/siclemat/lehre/hs11/ecl1/script/script.pdf
HTML: http://www.cl.uzh.ch/siclemat/lehre/hs11/ecl1/script/html/scripth.html
OLAT: https://www.olat.uzh.ch/olat/url/RepositoryEntry/3854598149
Hinweis: Dieses Lauftextskript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb
bezüglich Layout und Formulierungen nicht für Fliesstext optimiert.
1
Inhaltsverzeichnis
1 Organisatorisches
1.1 Organisatorisches . . . . .
1.1.1 Leistungsnachweis
1.1.2 Lernen und Lehren
1.2 Kontrollfragen . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
9
9
10
2 Was ist CL?
2.1 Motivation . . . . . . . . . .
2.2 Fachrichtungen . . . . . . . .
2.2.1 Computerlinguistik . .
2.2.2 Sprachtechnologie . .
2.2.3 Weiteres . . . . . . . .
2.2.4 Anliegen . . . . . . . .
2.3 Nachbardisziplinen . . . . . .
2.3.1 Linguistik . . . . . . .
2.3.2 Kognitionswissenschaft
2.4 Krux . . . . . . . . . . . . . .
2.5 Vertiefung . . . . . . . . . . .
2.5.1 Kontrollfragen . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
11
12
12
14
15
15
17
17
18
18
3 Tokenisierung
3.1 Tokenisierer . . . . . . . . . .
3.1.1 Grundproblem . . . .
3.1.2 Kodierung . . . . . . .
3.1.3 Markup . . . . . . . .
3.1.4 Programme . . . . . .
3.2 XML . . . . . . . . . . . . . .
3.3 Tokenisierung . . . . . . . . .
3.3.1 Problem . . . . . . . .
3.3.2 Punktdisambiguierung
3.3.3 Normalisierung . . . .
3.3.4 NER . . . . . . . . . .
3.4 Multilingualität . . . . . . . .
3.5 Vertiefung . . . . . . . . . . .
3.5.1 Kontrollfragen . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
19
20
21
21
23
24
24
25
26
27
27
28
29
.
.
.
.
30
30
30
31
32
.
.
.
.
4 Endliche Automaten (Intensiv-Wochenende)
4.1 Formale Sprachen . . . . . . . . . . . . . .
4.1.1 Mengen . . . . . . . . . . . . . . .
4.1.2 Zeichen . . . . . . . . . . . . . . .
4.1.3 Sprachen . . . . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
35
36
37
39
5 Chunk-Parsing (Intensiv-Wochenende)
5.1 Chunking . . . . . . . . . . . . . .
5.1.1 Motivation . . . . . . . . .
5.2 NLTK-Chunkparser . . . . . . . .
5.2.1 Aufstarten . . . . . . . . . .
5.2.2 Strategien . . . . . . . . . .
5.3 Evaluationsmasse . . . . . . . . . .
5.3.1 Recall . . . . . . . . . . . .
5.3.2 Precision . . . . . . . . . .
5.3.3 F-Measure . . . . . . . . . .
5.4 Fazit . . . . . . . . . . . . . . . . .
5.4.1 Verschachtelte Chunks . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
41
41
42
42
44
45
45
45
45
46
47
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
48
49
49
50
50
51
51
52
53
54
54
55
55
55
55
56
56
56
57
57
58
58
58
58
59
4.3
4.4
EA . . . . . . . . . . . . . . .
4.2.1 Determinismus . . . .
4.2.2 Konkatenation . . . .
Reguläre Sprachen/Ausdrücke
. . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
6 Linguistisches Propädeutikum I
6.1 Wort . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Definition . . . . . . . . . . . . . . .
6.1.2 Token . . . . . . . . . . . . . . . . .
6.1.3 Wortform . . . . . . . . . . . . . . .
6.1.4 synt. Wort . . . . . . . . . . . . . .
6.1.5 Lexem . . . . . . . . . . . . . . . . .
6.2 Wortarten . . . . . . . . . . . . . . . . . . .
6.2.1 5 Hauptwortarten nach Glinz . . . .
6.2.2 STTS . . . . . . . . . . . . . . . . .
6.3 Merkmale . . . . . . . . . . . . . . . . . . .
6.3.1 Genus . . . . . . . . . . . . . . . . .
6.3.2 Zahl . . . . . . . . . . . . . . . . . .
6.3.3 Kasus . . . . . . . . . . . . . . . . .
6.3.4 Modus . . . . . . . . . . . . . . . . .
6.3.5 Zeit . . . . . . . . . . . . . . . . . .
6.3.6 Person . . . . . . . . . . . . . . . . .
6.3.7 Grad . . . . . . . . . . . . . . . . . .
6.3.8 Flexion . . . . . . . . . . . . . . . .
6.4 Proben . . . . . . . . . . . . . . . . . . . . .
6.4.1 Ersetzen . . . . . . . . . . . . . . . .
6.4.2 Einsetzen . . . . . . . . . . . . . . .
6.5 Comp. Morph. . . . . . . . . . . . . . . . .
6.5.1 Lemmatisierung/Morphologieanalyse
6.5.2 Morphologiegenerierung . . . . . . .
6.6 Vertiefung . . . . . . . . . . . . . . . . . . .
6.6.1 Kontrollfragen . . . . . . . . . . . .
7 Linguistisches Propädeutikum II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
3
7.1
7.2
7.3
7.4
7.5
Proben . . . . . . . . . .
7.1.1 Weglassen . . . .
7.1.2 Verschieben . . .
7.1.3 Umformen . . . .
Satz . . . . . . . . . . .
Syntaxanalyse . . . . . .
7.3.1 Konstituenz . . .
7.3.2 Köpfe . . . . . .
7.3.3 Dependenz . . .
7.3.4 Koordination . .
Baumbanken . . . . . .
7.4.1 NEGRA/TIGER
7.4.2 TIGERSearch . .
Vertiefung . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
60
61
61
62
62
62
65
66
70
71
71
71
72
8 Flache Satzverarbeitung
8.1 Tagging . . . . . . . . . . . . . . . . . . .
8.1.1 Probleme . . . . . . . . . . . . . .
8.1.2 Fallstudie TnT-Tagger . . . . . . .
8.2 Evaluation . . . . . . . . . . . . . . . . . .
8.2.1 Zweck . . . . . . . . . . . . . . . .
8.2.2 Accuracy . . . . . . . . . . . . . .
8.2.3 Lernkurven . . . . . . . . . . . . .
8.2.4 Recall . . . . . . . . . . . . . . . .
8.2.5 Precision . . . . . . . . . . . . . .
8.2.6 F-Measure . . . . . . . . . . . . . .
8.3 Chunking . . . . . . . . . . . . . . . . . .
8.3.1 Abney . . . . . . . . . . . . . . . .
8.3.2 IOB-Chunk . . . . . . . . . . . . .
8.3.3 Verschachtelte Chunks . . . . . . .
8.4 Vertiefung . . . . . . . . . . . . . . . . . .
8.4.1 Kontrollfragen . . . . . . . . . . .
8.5 Exkurs: Evaluation binärer Klassifikatoren
8.5.1 TP:FP:FN:TN . . . . . . . . . . .
8.5.2 Fehlerparadoxe . . . . . . . . . . .
8.5.3 Unterschiede . . . . . . . . . . . .
8.5.4 Mittelwerte . . . . . . . . . . . . .
8.5.5 Vertiefung . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
74
76
78
78
78
79
79
80
81
81
82
83
83
84
84
84
84
85
85
86
86
9 Sprachsynthese und Spracherkennung
9.1 Sprachsynthese . . . . . . . . . . .
9.1.1 Architektur . . . . . . . . .
9.1.2 Analyseebenen . . . . . . .
9.1.3 Sprachsignalproduktion . .
9.2 Spracherkennung . . . . . . . . . .
9.2.1 Probleme . . . . . . . . . .
9.2.2 Worthypothesengraph . . .
9.2.3 Wortfehlerrate . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
89
90
90
95
96
96
97
97
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
98
98
98
99
10 Volltextsuche und Text Mining
10.1 Informationsflut . . . . . . .
10.1.1 Suchdilemma . . . .
10.2 Volltextsuche . . . . . . . .
10.2.1 Indexieren . . . . . .
10.2.2 Architektur . . . . .
10.2.3 Retrieval . . . . . .
10.2.4 Relevanz . . . . . . .
10.3 Text-Mining . . . . . . . . .
10.4 Vertiefung . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
101
103
106
106
109
109
112
113
114
9.4
Dialogsysteme . . .
9.3.1 Typen . . .
9.3.2 VoiceXML .
Vertiefung . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11 Literaturverzeichnis
115
Index
119
5
Abbildungsverzeichnis
2.1
Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1
4.2
4.3
Sprache aus 3 Verben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Deterministischer EA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Formale Sprachen, reguläre Ausdrücke und endliche Automaten . . . . . . . . . . 38
5.1
5.2
5.3
5.4
5.5
Volle Syntaxanalyse . . . . . . . . . . . . . . . . . . . .
Partielle Syntaxanalyse (CONLL 2000) . . . . . . . . . .
Informationsextraktion über gechunktem Text . . . . . .
Partielle Analyse von einem Chunk-Tagger (TreeTagger)
Resultate der Chunking-Shared-Task der CoNLL 2000 .
6.1
6.2
5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Hauptkategorien von STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
7.10
7.11
7.12
7.13
7.14
7.15
7.16
Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . .
Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . .
Konstituenz, Dominanz und Präzedenz in Balken-Darstellung . . .
Beispielsatz mit allen zu annotierenden Nominalphrasen (NP) . . .
Beispielsatz mit allen zu annotierenden Präpositionalphrasen (PP)
Beispielsatz mit allen zu annotierenden AP- und AVP-Knoten . . .
Beispielsatz mit allen zu annotierenden Satz- und VP-Knoten . . .
Beispielsatz mit allen zu annotierenden NP- und S-Knoten . . . . .
Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . . .
Syntaktische Funktionen in Balken-Darstellung . . . . . . . . . . .
Beispielsatz mit NP-internen Funktionen . . . . . . . . . . . . . . .
Beispielsatz mit PP-internen Funktionen . . . . . . . . . . . . . . .
Beispielsatz mit allen AP- und AVP-internen Funktionen . . . . .
Beispielsatz mit allen S- und VP-internen Funktionen . . . . . . .
Relativsatz mit allen internen Funktionen . . . . . . . . . . . . . .
Beispielsatz mit koordinierten Strukturen . . . . . . . . . . . . . .
8.1
8.2
8.3
8.4
8.5
8.6
8.7
8.8
Kontextmodell des Trigramm-Taggers tnt . . . . . . . . . . . .
Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . .
Training, Tagging und Evaluation mit dem TnT-Tagger . . . .
Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . .
Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants .
Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H.
Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H.
F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . .
6
. . . .
. . . .
. . . .
von H.
. . . .
. . . . .
. . . . .
. . . . .
Schmid
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
41
42
43
43
46
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
62
63
63
64
64
64
65
65
67
67
67
68
68
68
69
71
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Schmid
Schmid
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
75
77
80
81
82
82
87
8.9
Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . 88
9.1
9.2
9.3
9.4
9.5
9.6
Architektur von MARY-TTS-System . . . . . . . . . . . . . .
IPA-Symbole für Deutsch . . . . . . . . . . . . . . . . . . . .
Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons
Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . .
Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . .
Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . .
10.1 OCR und Frakturschrift . . . . . . . . . . . . . . . . . . . . .
10.2 In PubMed erfasste wiss. Artikel (2008 unvollständig) . . . .
10.3 Suchoption für Inhaltsverzeichnis . . . . . . . . . . . . . . . .
10.4 Eingescanntes Inhaltsverzeichnis . . . . . . . . . . . . . . . .
10.5 Sachbegriff-Indexierung im NEBIS . . . . . . . . . . . . . . .
10.6 Sachbegriff und Varianten im NEBIS . . . . . . . . . . . . .
10.7 Textuelle Zusatzinformation im NEBIS . . . . . . . . . . . .
10.8 Automatisches Indizieren von OPAC-Informationen: Gut . . .
10.9 Automatisches Indizieren von OPAC-Informationen: Schlecht
10.10Generelle Architektur von IR-Systemen . . . . . . . . . . . .
7
. . . . .
. . . . .
2006a])
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
92
94
98
98
99
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
102
102
103
104
105
105
106
110
110
111
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 Organisatorisches
1.1 Organisatorisches
Konzept und Inhalt der Vorlesung
• „Einführung in die Computerlinguistik I (+ II)“ vermittelt die wichtigsten praktischen
und theoretischen Ziele der Computerlinguistik in Übersicht.
• Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestimmung, flache Syntaxanalyse), wichtige Anwendungen (Sprachsynthese, Spracherkennung,
Textsuche Text-Mining, Informationsextraktion, Maschinelle Übersetzung) sowie Methoden und Probleme der automatischen Syntaxanalyse.
• Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammatikalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieft
wird.
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Kurs namens “CL_11_HS Einführung in die Computerlinguistik I”:
• https://www.olat.uzh.ch/olat/url/RepositoryEntry/3854598149
• VL-Teil von S. Clematide: Folienskript im 4-up-Format (farbige und SW-Version) als
PDF-Dokument unter “Materialien”
• Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index und
Ergänzungen http://www.cl.uzh.ch/siclemat/lehre/hs11/ecl1/script/html/script.html
• Merkblatt zum Einstieg in OLAT http://tinyurl.com/OLAT-Hinweise-Studierende-pdf
Unser Kursbuch (3. Auflage):
• Carstensen, K.-U. et al. (Hgg.): Computerlinguistik und Sprachtechnologie: Eine Einführung. Spektrum Akademischer Verlag, 3. Auflage 2009, ISBN:3-8274-2023-7. Für Beispielkapitel als PDF siehe
auch http://www.linguistics.ruhr-uni-bochum.de/CLBuch/buch.html
E-Learning
CLab
Teile der Vorlesung und Übungen werden durch Lerneinheiten aus unserem interaktiven, webbasierten Computerlinguistik-Laboratorium (CLab) unterstützt. http://www.cl.uzh.ch/clab
Applikationen auf CL-UNIX-Servern
Für einige Übungen oder zur Vertiefung stehen CL-Applikationen auf unseren Servern zur Verfügung. Von den Computern in den Übungsräumen aus sind diese problemlos nutzbar.
Wer die Übungsstunde nicht besuchen kann bzw. von Zuhause aus arbeitet, braucht dazu VPN
(Virtual Private Network), SSH (Secure Shell bzw. Putty) und einen X11-Klienten. Anleitungen
dazu im Kurs „Programmiertechniken der CL“ oder via Anleitungen.
8
1.1.1 Leistungsnachweis
6 schriftliche Übungen (SU)
25% der Schlussnote für
• Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach
• Liz-Studierende: Optional (Wahlmöglichkeit bis in 4. Woche)
Bestanden (1 Punkt), Halb bestanden (0.5 Punkte), Nicht-Bestanden (0 Punkte) pro SU
• Benotung: Gesamtzahl Punkte = Note
• Keine Musterlösungen, dafür Nachbesprechung in Übungsstunde, Frage- und Diskussionsgelegenheit und auf OLAT
Termine
• Übungsstunden bei N. Aepli und N. Hollenstein freitags 12.15-13.45 im Raum BIN 0.B.06:
Start in 2. Semesterwoche
• Lösungsabgabe jeweils spätestens am Mittwoch 18h
• Übungsausgabe spätestens am Donnerstag 21h
Schriftliche Prüfung
• Zeit: Donnerstag, 19. Januar 2011, von 16.15 - 18.00h
• Dauer: 90 Minuten
• Stoff: Skript, Übungen, Pflichtlektüren
• Bitte das für Sie gültige Infoblatt zur Leistungsüberprüfung genau lesen! [ICL 2011a,
ICL 2011b]
1.1.2 Lernen und Lehren
Lehren und Lernen
Commitments
• Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten.
• Wir brauchen Ihre Rückmeldung, um suboptimale Elemente unserer Lehrarbeit zu verbessern.
• Sie engagieren sich, die für ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden.
• Sie brauchen unsere Rückmeldung, um suboptimale Elemente Ihrer Lernarbeit und Ihres
Lernerfolgs zu verbessern.
9
Hochrechnung zum Workload für 4 ECTS-Punkte
“Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berücksichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14, Abs.
2)
[Universitätsrat 2004]
• 1 ECTS-Punkt = 30h Zeitaufwand
• Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung:
2 × 14 × 2h = 56h
• Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvorbereitung:
120h − 56h − 1h
= 4.5h
14
1.2 Kontrollfragen
Kontrollfragen
• Sind Buchungsfristen für Sie relevant? Wenn ja, bis wann können Sie sich noch einschreiben, bzw. das Modul stornieren?
• Wieviele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch auf
eine 5 aufgerundet wird?
• Wieso sollten Sie die Übungsstunde besuchen?
• Welche Hauptthemen werden in dieser Vorlesung besprochen?
10
2 Was ist CL?
Lernziele
• Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie und
Linguistik
• Kenntnis der zentralen Anliegen der modernen Computerlinguistik
• Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welche
mit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind
• Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte
(Pflichtlektüre)
• Kenntnis der Krux der Sprachverarbeitung
2.1 Motivation
CL-haltige Produkte im (Computer-)Alltag
• Auskunftssysteme (z.B. [Kassensturz 2006])
• Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)
• Elektronische Wörterbücher (Thesauri)
• Automatische Übersetzung
• Recherchen im WWW
• Auskunftssysteme (z.B. [Kassensturz 2006])
• ...
2.2 Fachrichtungen
2.2.1 Computerlinguistik
Was ist CL?
Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) ist
eine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sich
mit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt.
11
Frage
Ist das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendung
von CL?
Frage
Ist die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)
eine frühe Anwendung von CL?
Sprachsynthese nach Kempelen
Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibung
einer sprechenden Maschine” (1791) [Traunmüller 1997]
2.2.2 Sprachtechnologie
Was ist Sprachtechnologie?
Definition 2.2.2. Sprachtechnologie beschäftigt sich mit der praxis- und anwendungsbezogenen, ingenieursmässig konzipierten Entwicklung von Sprachsoftware.
2.2.3 Weiteres
Verwandte/Alternative Fachbezeichnungen
12
Deutsch
Linguistische Datenverarbeitung (LDV)
Maschinelle Sprachverarbeitung
Automatische Sprachverarbeitung (ASV)
Computerphilologie
Sprachtechnologie
Texttechnologie
Korpuslinguistik
Medieninformatik
Linguistische Informatik
Informationslinguistik
Englisch
Linguistic and Literary Computing (LLC)
Natural Language Processing (NLP)
(Natural) Language Engineering (NLE)
Computational Philology
Speech Processing
Human Language Technology (HLT)
Text Technology
Corpus Linguistics
QUIZ: Was ist was? [Weisser 2005]
Frage 1: Welche Fachrichtung wird hier beschrieben?
The use and possibly also compilation of computer-based text materials to investigate linguistic phenomena and ways of teaching about language.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 2: Welche Fachrichtung wird hier beschrieben?
The compilation, annotation and use of written and spoken corpora for the investigation of linguistic phenomena, mainly by means of easy to use software.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 3: Welche Fachrichtung wird hier beschrieben?
The automated analysis and modelling of language by means of sophisticated programming techniques.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 4: Welche Fachrichtung wird hier beschrieben?
13
The creation and application of corpora for use in computer-based systems, such as
speech recognition engines, translation systems, etc.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 4: Welche Fachrichtung wird hier beschrieben?
The creation and application of corpora for use in computer-based systems, such as
speech recognition engines, translation systems, etc.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Schwerpunkte der verwandten Disziplinen
• Symbolische, logikbasierte vs. statistische, probabilistische Methoden
• Anwendungs- vs. Theorieorientierung
• Algorithmisierung als Proof-Of-Concept (“Kann man sowas überhaupt?” vs. effiziente
(kommerziell einsetzbare) Systeme
• Hilfswissenschaft vs. eigenständige Forschung
• Gesprochene vs. verschriftlichte Sprache (Text)
• Psychologische/Neurologisch Plausibilität vs. ingenieurmässige Lösung
2.2.4 Moderne Computerlinguistik
4 zentrale Anliegen der modernen Computerlinguistik
• Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf dem
Computer
• Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grundformen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikalischen Ressourcen (Lexika)
• Entwicklung realistischer und technologisch fortschrittlicher Anwendungen
• Entwicklung und Durchführung von Evaluationen sprachverarbeitender Systeme und Komponenten
14
2.3 Nachbardisziplinen
Nachbardisziplinen in Übersicht
• Linguistik: formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpuslinguistik für empirische Basis
• Informatik: praktische und theoretische Informatik (Was lässt sich mit welchem Formalismus wie effizient berechnen?); Künstliche Intelligenz
• Kognitionswissenschaft
• Logik und Philosophie
• Mathematik: Mengenlehre (Funktionen, Relationen, Graphen) und Statistik
2.3.1 Linguistik
Linguistik
Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). Die
Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der
Sprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Semantik und Pragmatik.
Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitäten
und hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest.
Lautlehre: Phonetik und Phonologie
Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasst
die artikulatorische, akustische und auditive Ebene.
Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist die
Lehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaften
Eigenschaften und Beziehungen.
Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung).
1. Dieb /di:p/
2. Diebe /di:b@/
Exkurs: Internationales Phonetisches Alphabet (IPA)
Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schriftliches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. Die
IPA-Notationen für die Laute des Standarddeutschen sind in Carstensen:2009 erklärt.
Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alle
Schriftsysteme der Welt wiedergeben können will.
Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- und
Kleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute und
andere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin:
di:b@.
15
Wortlehre: Morphologie
Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Struktur der Wörter und ihrer Bildung.
Beispiel 2.3.6 (Flexion).
1. Dieb#e Dieb-Plural “Mehr als ein Dieb”.
2. Dieb#e Dieb-Dativ “dem Dieb”
Satzlehre: Syntax
Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Aufbau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen.
Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit).
1. Der gewitzte Dieb stahl den Diamanten.
2. *Der Dieb gewitzte stahl den Diamanten.
3. *Den gewitzten Dieb stahl den Diamanten.
Bedeutungslehre: Semantik
Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter
(lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten
(Diskurssemantik).
Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).
1. Die Polizei beschlagnahmte das Diebesgut gestern.
2. Das Diebesgut beschlagnahmte die Polizei gestern.
3. Das Diebesgut wurde gestern von der Polizei beschlagnahmt.
4. Die Beschlagnahmung des Diebesgut durch die Polizei war gestern.
5. [Die Polizeii fasste die Täterin gestern.] Siei beschlagnahmte gleichzeitig das Diebesgut.
Lehre von der Sprachverwendung: Pragmatik
Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungen
von Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation in der
Welt.
Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit).
1. Ist das Fenster auf?
2. Bitte schliessen Sie das Fenster!
16
2.3.2 Kognitionswissenschaft
Kognitionswissenschaft
Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäre
Erforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguistik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Lernen, Motorik und Sprache gezählt.
Geschichte der Kognitionswissenschaft
Exzellenter Artikel in [Wikipedia 2009]
Turing-Test: Können Maschinen denken?
Turing-Test im Original [Turing 1950]
The new form of the problem can be described in terms of a game which we call the ’imitation
game’. It is played with three people, a man (A), a woman (B), and an interrogator (C) who
may be of either sex. The interrogator stays in a room apart front the other two. The object of
the game for the interrogator is to determine which of the other two is the man and which is
the woman. He knows them by labels X and Y, and at the end of the game he says either “X
is A and Y is B” or “X is B and Y is A”. [. . . ]
We now ask the question, “What will happen when a machine takes the part of A in this game?”
Will the interrogator decide wrongly as often when the game is played like this as he does when
the game is played between a man and a woman? These questions replace our original, “Can
machines think?”
Reale Turing-Tests
Seit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welche
den Turing-Test bestehen wollen. Preisträgersysteme lassen sich teilweise im WWW direkt
ausprobieren. [Wikipedia 2006] Das Ziel dieser Test lautet: Kann eine Maschine so antworten
in einem Dialog, dass man sie nicht mehr von einem Menschen unterscheiden kann?
2.4 Die Krux der Mehrdeutigkeit
Mehrdeutigkeit [Jurafsky und Martin 2000, 4]
Beispiel 2.4.1.
I made her duck.
Einige Paraphrasen, d.h. Lesarten
1. I cooked waterfowl for her.
2. I cooked waterfowl belonging to her.
3. I created the (plaster?) duck she owns.
4. I caused her to quickly lower her head or body.
5. I waved my magic wand and turned her into undifferentiated waterfowl.
Fragen
Welche Einheiten sind mehrdeutig? Auf welcher Ebene der linguistischen Analyse werden die
Mehrdeutigkeiten aufgelöst (desambiguiert) in den Paraphrasen?
17
2.5 Vertiefung
• Pflichtlektüre [Carstensen et al. 2009, 1–23] http://www.linguistics.rub.de/CLBuch/kapitel1A3.
pdf
• Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chatterbox Contests 2003)
2.5.1 Kontrollfragen
• Welche Disziplinen verbindet die Computerlinguistik? Mit welchen Disziplinen steht sie
in enger Nachbarschaft?
• Geben Sie je ein Beispiel, welches die Analyseebenen der verschiedenen linguistischen
Teildisziplinen illustriert.
• Was ist der Unterschied von Computerlinguistik und Sprachtechnologie?
• Nennen Sie 3 Bezeichnungen für Fachausrichtungen, welche teilweise ähnliche Ziele verfolgen wie die CL oder Sprachtechnologie. Wo können unterschiedliche Schwerpunkte ausgemacht werden? (Recherchieren Sie dafür allenfalls im Web zu den einzelnen Stichworten.)
• Was ist von der modernen Computerlinguistik gefordert?
18
3 Tokenisierung
Lernziele
• Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicher
Sprache: Text-Segmentierung und Text-Normalisierung
• Kenntnis über Methoden der Punktdisambiguierung und Satzendeerkennung
• Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (Named
Entity Recognition)
• Kenntnis über die Kodierung sprachlicher Zeichen
• Kenntnis und Umgang mit regulären Ausdrücken
3.1 Tokenisierer
3.1.1 Grundproblem
Datei-Inhalte
Beispiel 3.1.1 (Folge von Zeichenkodes).
Wieviele und welche Wörter enthält der folgende Datei-Inhalt? 57 61 73 20 62 65 69 6E 68 61 6C 74 65
(Der Dateiinhalt ist als Dump im Hexadezimalformat wiedergegeben, d.h. jedes Zeichen in Form
seines Zeichenkodes als Hexadezimalzahl.)
Grundproblem: Vom Zeichenstrom zur Folge von Tokens
Rohdaten
Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge von
kodierten Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.
Token: Einheit der Textsegmentierung
Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse.
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
• Konsumieren der Zeichenfolge (Eingabe)
• Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung)
• Produzieren einer Folge von Tokens (Ausgabe)
19
3.1.2 Zeichenkodierung
Was ist ein Zeichen auf dem Computer?
• Traditionell ein Byte, d.h. eine Folge von 8 Bits (0 oder 1)
• Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle im
Binärsystem aufgefasst wird: 0010’0000
• Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskonvention aufgestellt wird: Z.B. A=65, @=64, 1=49
• Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch),
iso-latin-1 (256 Zeichen für westeuropäische Sprachen), UNICODE(ISO/IEC 10646) (über
100’000 Zeichen in Version 5.1.0 für fast alle Schriftsysteme der Welt; http://www.unicode.
org)
• Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte
Was ist ein Zeichen auf dem Computer?
• Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibt
Methoden, einen Unicode-Wert auf eine Folge von Bytes abzubilden.
• UTF-8: (Abk. für 8-bit Unicode Transformation Format) Ordnet jedem Unicode-Zeichen
eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Byte
pro Zeichen.
• Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien muss
man es wissen.
• Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damit
das Betriebssystem die Kodes fürs Auge darstellen kann.
• Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustbehaftete Konversion
Nebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch TextNormalisierung durch “Transliteration” durchführen.
$ echo "Klößchen" | iconv -f ISO_8859-1
Kl"osschen
-t ASCII//TRANSLIT
Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich:
$ echo "Klößchen" | iconv -f ISO_8859-1
Klchen
20
-t ASCII//IGNORE
3.1.3 Markup
3.1.4 Programme
Typische Beispiele für Tokenisierer
Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Programmiersprache
Beispiel 3.1.2 (Covingtons Tokenizer [Covington 2003]).
Tokenisierer in Prolog für Englisch: Konsumiere eine Textdatei oder eine Benutzereingabe und
produziere daraus eine Prolog-Liste.
Joe’s brother doesn’t owe us $4,567.89.
[ w([j,o,e]),
% w = Wort
w([s]),
w([b,r,o,t,h,e,r]),
w([d,o,e,s,n,t]),
w([o,w,e]),
w([u,s]),
s(’$’),
% s = Symbol
n([’4’,’5’,’6’,’7’,’.’,’8’,’9’]), % n = Zahl
s(’.’) ]
Typische Beispiele für Tokenisierer
Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Programmiersprache
Beispiel 3.1.3 (Tokenizer für Englisch).
Tokenisierer in Python aus nltk.org: Konsumiere eine Textdatei oder Benutzereingabe und produziere daraus eine Python-Liste.
$ python
Python 2.6.5 (r265:79063, Apr 16 2010, 13:57:41)
>>> import nltk
>>> nltk.word_tokenize("Joe’s brother doesn’t owe us $4,567.89.")
[’Joe’, "’s", ’brother’, ’does’, "n’t", ’owe’, ’us’, ’$’, ’4,567.89’, ’.’]
>>>
Typische Beispiele für Tokenisierer
Vertikalisierter Text
Tokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus
• vertikalisierten Text, d.h. ein Token pro Zeile, oder
• ein Satz pro Zeile, d.h. jedes Token durch Leerzeichen getrennt.
Beispiel 3.1.4 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]).
Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei
21
$ cat file.txt
"Bach’sche Musik
mag Dr. Fritz. Ja."
$ cat ger-abbrev
Dr.
usw.
$ separate-punctuation +1 +s +l ger-abbrev file.txt
"
Bach’sche
Musik
mag
Dr.
Fritz
.
Ja
.
"
Typische Beispiele für Tokenisierer
Auf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL,
Python oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrücken
erlauben.
Definition 3.1.5 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck ist
eine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zu
beschreiben.
Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchenund-Ersetzen und Segmentieren von Zeichenketten.
Einführung in reguläre Ausdrücke
Z.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex
Typische Beispiele für Tokenisierer
Tokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl.
markup language).
Beispiel 3.1.6 (Der LT-TTT2 Tokenizer [Grover 2008]).
1. Rohtext
This is an example. There are two sentences.
2. XML-Input für Tokenisierer (Vortokenisierung)
<document>
<text>
22
<p>
This is an example. There are two sentences.
</p>
</text>
</document>
3. XML-Tokenisat
<document>
<text>
<p>
<s id="s1">
<w id="w3" c="w" pws="yes">This</w> <w id="w8" c="w" pws="yes">is</w>
<w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w>
<w id="w21" pws="no" sb="true" c=".">.</w>
</s>
<s id="s2">
<w id="w23" c="w" pws="yes">There</w> <w id="w29" c="w" pws="yes">are</w>
<w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w>
<w id="w46" pws="no" sb="true" c=".">.</w>
</s>
</p>
</text>
</document>
Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert.
3.2 Exkurs: XML
XML (eXtensible Markup Language)
Definition 3.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformte
XML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) deren
Struktur genauer vorgeschrieben und validiert werden kann.
XML in der Texttechnologie
• Textbasiertes Format, das geeignet ist, Texte und dazugehörige Metainformation programmunabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI für Lexika, Korpora und digitale Editionen)
• Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellen
zum Einlesen, Erstellen, Modifizieren von XML-Dokumenten
• Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
23
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
• Elemente sind von Start-Tags (“<p>”) und End-Tags (“</p>”) begrenzt.
• Leere Elemente können aus einem Tag bestehen (“<br/>”)
• Elemente dürfen hierarchisch ineinander verschachtelt werden: <p><s>...</s></p>
• Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document>
• Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag:
<s id="s2">
• Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w>
Zeichenreferenzen und Entity-Referenzen
Entitäten und Referenzen
• Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entities
bezeichnet, welche zwischen & und ; notiert werden
• Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens (#n=Hexadezimal)
Zeichen
<
"
&
Newline
Entität
&lt;
&quot;
&amp;
&#9;
3.3 Tokenisierung: Segmentieren von Wörtern und Sätzen
3.3.1 Problem
Naive Tokenisierung mit 3 Zeichenklassen
Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder
Interpunktion begrenzt.
• Wort-Zeichen: /[a-zA-Z0-9]/
• Einzel-Zeichen: /[.,:;?!)(" ?-]/
• Grenz-Zeichen: /\s/
Problem
Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten:
“Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit”
24
Teilprobleme der Tokenisierung im weiten Sinn
• Umgang mit Markup (HTML-Tags, Formatierungszeichen)
• Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie dem
Chinesischen anspruchsvoll)
• Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen beinhalten
• Erkennung von Interpunktion (Disambiguierung von Punkten, Erkennung von Satzenden)
• Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben)
• Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben)
3.3.2 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)
Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt
als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben.
Verschärfend: Verschmelzung zweier Funktionen
Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.
Beispiel 3.3.1 (Verschmelzung).
• It was due Friday by 5 p.m. Saturday would be too late.
• Ich kenne die U.S.A. Frankreich kenne ich nicht.
Weiteres
Auch andere Interpunktion als Punkte ist mehrdeutig.
Algorithmus zur Punktdisambiguierung
Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet.
Der Punkt ist ein Abkürzungspunkt, falls
• das Token in einer Abkürzungsliste steht.
• nach dem Token [,;a-z] folgt.
• das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht.
• das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punkt
vorkommt.
Nach [Grefenstette und Tapanainen 1994]
Leistungsfähigkeit
Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.
25
Statistische Verfahren zur Punktdisambiguierung
Prinzip
Verwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)
von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.
Interessante Merkmale für statistische Ansätze
1. Wieviele Zeichen umfasst ein Token?
2. Umfasst ein Token Ziffern oder keine Vokale?
3. Wie oft kommt das Token ohne Punkt vor?
4. Wie oft kommt nach dem Token ein grossgeschriebenes Token vor?
5. Wie oft kommt ein Token kleingeschrieben vor?
6. Welche Wortart haben die umgebenden Tokens?
3.3.3 Zeichen- und Token-Normalisierung
Text-Normalisierung
Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen.
Beispiel 3.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen).
• Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . .
• 4.8.97, 4-8-97, 4/8/97, 8/4/97
• 19000, 19’000, 19 000, 19,000
• Louisa, Luise, Louise, Luisa . . .
• doesn’t, does not
Rückgängig machen von Worttrennung am Zeilenende
Definition 3.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere
graphematische Modifikationen.
Beispiel 3.3.4 (Graphematische Modifikationen).
• Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt
• Holländisch: chocola-tje → chocolaatje
26
Zeilen
101’860
12’473
Rückbau
11’858
615
in %
100%
12%
in %
95%
5%
Typ
Zeilen total
mit Silbentrennung
Typ
Rückbau in existierende Tokens
Rückbau in neue Tokens
Tabelle 3.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus
Rückgängig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]
Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens:
Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation”
Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.
3.3.4 Named Entity Recognition
Named Entity Recognition
Definition 3.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung von
Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungsund Zeitangaben oder weitere textsortenspezifische interessierende Grössen.
Einheitliche (kanonische) Repräsentation
Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen.
Beispiel 3.3.6 (Kanonische Formen).
• USA: “U.S.A.”,“United States of America”, “U.S. of America”
• time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins”
3.4 Multilingualität
Multilinguale Dokumente und Systeme
Herausforderung Multilingualität
• Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation
• Bereits auf Tokensierungsstufe sind sprachspezifische Ressourcen (Abkürzungslexika) und
Regeln notwendig
• Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes das
Fundament, auf dem alle Textanalyse aufbaut.
• Traditionelles linguistisches Wissen ist für Sprachidentifikation nicht geeignet.
• „Primitive“ Verfahren, welche auf Häufigkeiten von Buchstabenkombinationen aufbauen,
funktionieren gut.
27
Ansatz von [Cavnar und Trenkle 1994]
1. Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenen
Sprachen über Trainingsdaten.
2. Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-GrammProfil).
3. Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil.
4. Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangunterschieds von jedem N-Gramm.
5. Wähle für D die Sprache mit dem kleinsten Profilabstand.
N-Gramm-Profile und Profilabstand
Quelle: [Cavnar und Trenkle 1994]
Abbildung 3.1:
3.5 Vertiefung
Zum Thema “Tokenisierung”:
• Pflichtlektüre: [Carstensen et al. 2009, 3.4.1]
• Guter Übersichtsartikel für Interessierte: [Palmer 2000]
• Gut zu lesen und methodisch einfach und instruktiv: [Grefenstette und Tapanainen 1994]
Zum Thema “Reguläre Ausdrücke”:
28
• http://www.cl.uzh.ch/clab/regex/
Zum Thema “XML”:
• Kapitel 2.5.2 Texttechnologische Grundlagen in [Carstensen et al. 2009]
3.5.1 Kontrollfragen
Kontrollfragen
• Welche Probleme stellen sich bei der Tokenisierung?
• Schildern Sie zwei unterschiedliche Ansätze zur Punktdisambiguierung.
• Was sind die wesentlichen Eigenschaften von XML-Dokumenten?
• Was versteht man unter NER?
• Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle?
29
4 Endliche Automaten (Intensiv-Wochenende)
Lernziele
• Kenntnis über Zeichen, Mengen von Zeichen und Zeichenketten
• Kenntnis über reguläre Sprachen und reguläre Ausdrücke und ihren Bezug zu endlichen
Automaten
• Zustandsdiagramme für endliche Automaten zeichnen und interpretieren können
• Kenntnis, wann ein endlicher Automat deterministisch ist und wann nicht
• Sanfter Einstieg in die Formalisierung von Konzepten
• Umgang mit dem Simulationswerkzeug JFLAP für formale Sprachen, Grammatiken und
Automaten
4.1 Formale Sprachen
4.1.1 Mengen
A Quick Review of Set Theory
A set is a collection of objects.
B
A
D
E
We can enumerate the “members” or “elements” of finite sets:
{ A, D, B, E }.
There is no significant order in a set, so { A, D, B, E } is the
same set as { E, A, D, B }, etc.
30
Quelle: B04
Cardinality of Sets
  The
  A
Empty Set:
Finite Set:
  An
Norway Denmark Sweden
Infinite Set: e.g. The Set of all Positive Integers
Quelle: B04
4.1.2 Zeichen
Das Alphabet (Sigma): Menge von Zeichen
Definition 4.1.1. Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole). Es
wird mit Σ (Sigma) notiert.
Beispiel 4.1.2 (Zeichen des Englischen).
ΣEnglisch = {a, b, c, . . . , x, y, z}
Beispiel 4.1.3 (Zeichen der binären Zahlen).
Σbin = {0, 1}
Zeichenketten (strings)
Definition 4.1.4. Eine Zeichenkette (formales Wort, string) der Länge n ist eine endliche Folge
aus n Zeichen über Σ.
Beispiel 4.1.5 (Zeichenketten über englischen Symbolen ΣEnglisch ).
a, we, work, and, talk, walk, krwrk,. . .
Leere Zeichenkette
Die leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird mit (Epsilon) oder
λ (Lambda) notiert und hat die Länge 0.
Sigma Stern
Σ∗ ist die Menge aller Zeichenketten, welche aus dem Alphabet Σ gebildet werden können.
Σ∗bin = {, 0, 1, 00, 01, 10, 11, 001, . . .}
31
4.1.3 Sprachen
Formal Languages
Very Important Concept in Formal Language Theory:
A Language is just a Set of Words.
•  We use the terms “word” and “string” interchangeably.
•  A Language can be empty, have finite cardinality, or be infinite in
size.
•  You can union, intersect and subtract languages, just like any other
sets.
Quelle: B04
Formale Sprachen als Teilmenge von Sigma Stern
L ⊆ Σ∗
{walk, talk, work} ⊆ {a, b, . . . , z}∗
{1, 01, 10, 001, 010, 100, 0001, . . .} ⊆ {0, 1}∗
Wie lautet ein regulärer Ausdruck, der genau die Zeichenketten der obigen Sprache matchen
32
kann?
Union of Languages (Sets)
dog cat rat
elephant mouse
Language 1
Language 2
dog cat rat
elephant mouse
Union of Language 1 and Language 2
Quelle: B04
Intersection of Languages (Sets)
dog cat rat
rat mouse
Language 1
Language 2
rat
Intersection of Language 1 and Language 2
Quelle: B04
Ist eine Zeichenkette in einer Sprache drin oder nicht?
Beispiel 4.1.6.
Ist „talk“ ein Element der Sprache? Wahr oder falsch!
talk ∈ {work, talk, walk}
33
Concatenation of Languages
work talk walk
0 ing ed s
Root Language
Suffix Language
Abbildung 4.1: Sprache aus 3 Verben
0 or ! denotes the empty string
Endliche Automaten (EA) (engl. Finite-State Automatons (FA))
Endliche Automaten berechnen die Antwort
diese Frage.
workauf
working
The concatenation of
worked works talk
the Suffix language
4.2 Endliche Automaten talking talked talks
after the Root
Deterministische Endliche Automaten
(DEA)
walk
walking
language.
walked walks
Idee des akzeptierenden deterministischen
endlichen Automaten
Ein endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Wörtern
einer regulären Sprache.
Beim Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im sogenannten
Startzustand.
Sie ist nach jedem Verarbeitungsschritt in genau einem Zustand.
Bei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und dem
Lesezeichen in einen Nachfolgezustand gewechselt. Wenn kein Zeichen mehr zu lesen ist und
die Maschine in einem Endzustand ist, gilt die gelesene Zeichenkette als akzeptiert.
Wenn kein Übergang mit dem gelesenen Symbol möglich ist, gilt die zu verarbeitende Zeichenkette als nicht akzeptiert.
Deterministischer endlicher Automat (DEA)
Definition 4.2.1 (DEA, deterministic finite state automaton, DFA). Ein deterministischer
endlicher Automat A = hΦ, Σ, δ, S, F i besteht aus
1. einer endlichen Menge Zustände Φ
2. einem endlichen Eingabealphabet Σ
3. einer (partiellen) Zustandsübergangsfunktion δ : Φ × Σ → Φ
4. einem Startzustand S ∈ Φ
5. einer Menge von Endzuständen F ⊆ Φ
Hinweis
Die Übergangsfunktion δ bestimmt den Folgezustand, der ausgehend vom aktuellen Zustand
beim Lesen eines einzelnen Zeichens erreicht wird.
34
Abbildung 4.2: Deterministischer EA
4.2.1 Determinismus
Nicht-Deterministische Endliche Automaten (NEA)
Nicht-Determinismus I
Von einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg.
Nicht-Determinismus II
Es gibt mindestens eine -Kante.
Wichtiges Resultat
Jeder Nicht-Deterministische Endliche Automat lässt sich in einen deterministischen verwandeln.
35
4.2.2 Konkatenation
Concatenation of Languages
work talk walk
0 ing ed s
Root Language
Suffix Language
0 or ε denotes the empty string
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of
the Suffix language
after the Root
language.
Quelle: B04
Konkatenation von Zeichenketten und Sprachen
Konkatenation von Zeichenketten
u • v = uv
„work“ • „ed“ = „worked“
Konkatenation von Sprachen
U • V = {u • v | u ∈ U und v ∈ V }
{ „work“} • {„ed“, „s“} = {„work“•„ed“, „work“•„s“ } = {„worked“, „works“ }
36
Concatenation of Languages II
re
out 0
work talk walk
0 ing ed s
Root Language
Suffix Language
Prefix Language
rework reworking
reworked reworks
retalk retalking
retalked retalks
rewalk rewalking
rewalked rewalks
outwork outworking
outworked outworks
outtalk outtalking
outtalked outtalks
outwalk outwalking
outwalked outwalks
work working
worked works talk
talking talked talks
walk walking
walked walks
The concatenation of the Prefix language, Root language, and the Suffix language.
Quelle: B04
Languages and Networks
u
o
t
t
0
s
r
u
t
0
s
r
l
e
r
a
o
n
g
d
Network/Language 3
0
a
t
i
k
Network/Language 2
w
e
s
a
o
e
Network/Language 1
o
a
s w
0
s
l
s
k
i
r
n
e
g
The concatenation of
Networks 1, 2 and 3,
in that order
d
Quelle: B04
4.3 Reguläre Sprachen/Ausdrücke
Reguläre Sprachen und reguläre Ausdrücke (RA)
Definition 4.3.1. Eine Sprache über Σ = {a1 , a2 , ..., an } heisst regulär, wenn sie durch folgende
37
2.3. SIMPLE REGULAR EXPRESSIONS
41
LANGUAGE / RELATION
es
REGULAR EXPRESSION
od
de
no
c
en
te
s
{"a"}
compiles into
a
FINITE-STATE NETWORK
a
Figure 2.1: Regular expression , Language , Network.
Abbildung 4.3: Beziehung zwischen formalen Sprachen, regulären Ausdrücken und endlichen
Automaten (aus [Beesley und Karttunen 2003])
then compiling that regular expression into a network. This is in general easier than
constructing a complex network directly, and in fact it is the only practical way for
all but the most trivial
infinite languages
relations.
reguläre Mengenausdrücke
beschrieben
werdenand
kann:
We use the term FINITE - STATE NETWORK both for simple automata that encodeMenge
a regular
and for transducers
that encode
a regular Ausdruck
relation. A (RA)
net- in JFLAP
• Die leere
∅ language
und die Menge
{} ist regulär.
Als regulärer
work
consists
of
STATES
and
ARCS
.
It
has
a
single
designated
start
state
and
any
wird {} geschrieben als !
number (zero or more) of final states. In our network diagrams states are repre• Die Mengen
},...,{a
regulär.
RA:
a oder
b
sented by{acircles.
leftmost
circle
is the start
state;
final states
are distinguished
1 },{a2The
n } sind
by a double circle. Each state is the origin of zero or more labeled arcs leading to
• Wennsome
L1 und
L2 regulär
dann
auch
(A|B)
JFLAP
1∪L
2 ). RA:
destination
state.sind,
The arc
labels
are(L
either
simple
symbols
or (in
symbol
pairs (A+B))
depending on whether the network encodes a language or a relation between two
• Wenn L1 und L2 regulär sind, dann auch (L1 • L2 ). RA: (AB)
languages. Each string or pair of strings is encoded as a path of arcs that leads
the start
to some
final(A)*
state. In the network of Figure 2.1 there is just
• Ist L from
regulär,
dannstate
auch
L∗ . RA:
one path; it encodes the string “a”. Unlike many introductory textbooks, we do not
treat Optionalität
simple finite-state
automata and transducers as different types of mathematiWie kann man
ausdrücken?
cal objects. Our presentation reflects rather closely the data structures in the actual
Xerox implementation of finite-state networks. We hope it is as precise but more
Beziehung zwischen RA, DEA und formalen Sprachen
approachable than a rigorous formal introduction in terms of n-tuples of sets and
Zu jedem regulären Ausdruck RA existiert mindestens ein EA, der die vom RA bezeichnete
functions (Roche and Schabes, 1997).
reguläre Sprache akzeptiert.
2.3 Simple Regular Expressions
Zusammenfassung
We will start
with a simple
regular-expression
language
and expand
it later in Sec• Mit regulären
Ausdrücken
lassen
sich alle regulären
Sprachen
beschreiben.
tion 2.4 with more constructions and operators. Even this initial description introduces many
more types
of regular
expressions
than
can be found
in classical
• Mit endlichen
Automaten
lassen
sich alle
regulären
Sprachen
erkennen.
computer science literature (Hopcroft and Ullman, 1979). Because the expressions
• Jeder we
reguläre
kann
inon
einen
endlichenour
Automaten
werden.
use areAusdruck
meant to be
typed
the computer,
notation is verwandelt
slightly different
38
4.4 Ausblick
The Big Picture of Low-Level NLP
A running text in
your favorite
language
A tokenized text
(divided into
“words”)
Tokenizer
Morphological
Analyzer
Tokens with their
analyses (often
ambiguous)
•  Future steps
•  Disambiguator (“tagger”)
•  Shallow parser (“chunker”)
•  Syntactic parser
•  Semantic analysis, information extraction
•  Ultimate applications
•  Spelling checking, indexing, aid to corpus analysis, lexicography
•  Dictionary lookup aids, language teaching, spelling correction
•  Text-to-speech systems
•  Question answering, machine translation, etc.
Quelle: B04
Linguistic Transducer Machines
Generator
“Apply Down” : mesa+Noun+Fem+Pl  mesas
mesa+Noun+Fem+Pl
m
e
s
a
+Noun
m
e
s
a
0
+Fem
0
+Pl
s
mesas
Analyzer
“Apply Up” : mesa+Noun+Fem+Pl  mesas
Quelle: B04
Vertiefung
• Carstensen Abschnitt 2.2.3: „Endliche Automaten, einseitig-lineare Grammatiken und re-
39
guläre Sprachen“
• Carstensen Abschnitt 3.3.4: „Morphologie mit endlichen Automaten“
• JFLAP: http://www.jlap.org
40
5 Chunk-Parsing (Intensiv-Wochenende)
5.1 Chunking
Volle syntaktische Analyse
Definition 5.1.1. Eine volle syntaktische Analyse (engl. deep parsing) berechnet für einen Satz
die Konstituenz und Dependenz.
Abbildung 5.1: Volle Syntaxanalyse
Partielle syntaktische Analyse
Definition 5.1.2. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing)
berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz.
Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt.
5.1.1 Motivation
Chunks (Teilstrukturen) nach [Abney 1991]
Beispiel 5.1.3 (Chunks nach Abney).
[I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time].
Motivationen
• Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung
41
Abbildung 5.2: Partielle Syntaxanalyse (CONLL 2000)
Volle Analyse
Exakte Strukturierung
Benötigt für genaue Bedeutungsberechnung
Aufwendiger zu berechnen (besonders bei
langen Sätzen)
„All grammars leak“ (Sapir) (gibt nicht immer eine Lösung)
Je grösser die Abdeckung einer Grammatik, umso höher die Mehrdeutigkeit
Partielle Analyse
Grobe Gruppierung
Ausreichend für gängige sprachtechnologische Anwendungen
Extrem schnelle Verfahren (Endliche Automaten)
Robuste Verfahren (gibt immer eine Lösung)
Weniger Mehrdeutigkeit
• Effizienz: Teilstrukturen lassen sich effizienter berechnen.
• Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische
Analyse.
• Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichere
Analysemethoden.
Volle vs. Partielle Analyse
Verwendung von Chunking
• Vorstufe für vollständige syntaktische Analyse
• Text-To-Speech-Systeme: Gruppierung für Pausenberechnung
• Automatisches Extrahieren von Verwendungs-Mustern von Verben für die Lexikographie
• Informationextraktion
5.2 NLTK-Chunkparser
5.2.1 Aufstarten
Aufstarten des NLTK ChunkParsers
42
Abbildung 5.3: Informationsextraktion über gechunktem Text
NLTK-NP-Chunkparser
Einfache Entwicklungsumgebung, um Chunk-Grammatiken zu schreiben und zu evaluieren anhand von NP-Chunks aus der CONLL-Shared-Task. http://www.cnts.ua.ac.be/conll20001
Aufstarten
$ python
>>> import nltk
>>> nltk.app.chunkparser()
Chunking-Regeln schreiben für NLTK-NP-ChunkParser
Abbildung 5.4: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid
Wie kann man die zulässigen NP Chunks beschreiben?
{<NN> <NN> <NNS>}
• NP : Ein NP (Nominalchunk)
• {...}: besteht aus
• <NN>: aus einem Wort der Wortart NN (Nomen)
• <NN>: gefolgt von einem weiteren Wort der Wortart NN (Nomen)
• <NNS>: gefolgt von einem Wort der Wortart NNS (Nomen im Plural)
Chunks werden nur auf der Ebene der Wortarten (PoS-Tags) der Wörter spezifiziert (deshalb
heissen sie Tag-Patterns).
1
In unserer TIGERSearch-Distribution als Korpus CONLL-TRAIN verfügbar.
43
5.2.2 Strategien
Mehrere Tag-Patterns nacheinander anwenden
• Zuerst lange Patterns anwenden
• danach kurze (Teil)-Patterns
{<DT> <JJ> <NN> } # ... ist ein NP-Chunk
{<NN>}
# Ein einzelnes Nomen ist ein NP-Chunk,
# falls nicht bereits Teil eines Chunks.
Reguläre Muster für Tag-Patterns
Übliche Matching-Strategien
• Eifrig: Von links nach rechts
• Gierig: Longest Matches
{<DT>? <JJ>+ <NN> } # Was beschreibt das?
Tag-Patterns mit Kontext
Chunk-Gruppierung nur in bestimmten Kontexten
Die Anwendung einer Gruppierung lässt sich auf bestimmte Kontext einschränken. Links und/oder rechts von den geschweiften Klammern können Tag-Patterns stehen.
<VBP> {<VBG><NN>} # Gruppiere VBG NN nur zu NP-Chunk,
# wenn vorher ein VBP steht
Chinking
Idee
Manchmal ist es einfacher zu sagen, was nicht im Chunk sein soll, nämlich die Chinks.
Reguläre Ausdrücke innerhalb einer Tag-Angabe
{ <.*>+ }
} <VBD | IN>+ {
# Chunke alles im Satz zusammen
# . steht für einen Buchstaben ausser >
# Chinke Folgen von VBD oder IN
Achtung: Zeichen mit Sonderbedeutung in regulären Ausdrücken müssen geschützt werden, um
für das normale Zeichen zu stehen: z.B. <PRP\$>
44
VHTXHQFH RI WRNHQV DSSHDUV LQ WKH PLGGOH RI WKH FKXQN WKHVH WRNHQV DUH
OHDYLQJWZRFKXQNVZKHUHWKHUHZDVRQO\RQHEHIRUH,IWKHVHTXHQFHLVDWWK
RIWKHFKXQNWKHVHWRNHQVDUHUHPRYHGDQGDVPDOOHUFKXQNUHPDLQV7
SRVVLELOLWLHVDUHLOOXVWUDWHGLQ7DEOH
Semantik der Chinking-Regel
7DEOH7KUHHFKLQNLQJUXOHVDSSOLHGWRWKHVDPHFKXQN
Entire chunk
Middle of a chunk
End of a chunk
Input
[a/DT little/JJ dog/NN]
[a/DT little/JJ dog/NN]
[a/DT little/JJ dog/NN]
Operation
Chink “DT JJ NN”
Chink “JJ”
Chink “NN”
Pattern
}DT JJ NN{
}JJ{
}NN{
Output
a/DT little/JJ dog/NN
[a/DT] little/JJ [dog/NN]
[a/DT little/JJ] dog/NN
5.3 Evaluationsmasse
5.3.1 Recall
Recall (Ausbeute, Abdeckung, Vollständigkeit)
Definition 5.3.1. Recall gibt den Anteil der korrekt gefundenen Chunks gemessen an allen
268 | Chapter
7:ಗExtracting
möglichen
korrekten
Chunks an.Information from Text
R=
| Gefundene korrekte Chunks |
| Alle korrekten Chunks |
Beispiel 5.3.2 (Recall eines Chunkers).
Ein Chunker hat von 800 vorhandenen NPs in einem Testkorpus 600 korrekt als NP klassifiziert.
At = 600 und Nt = 800. Der Recall berechnet sich als: R = 600
800 = 75%
5.3.2 Precision
Precision (Genauigkeit, Präzision)
Definition 5.3.3. Precision gibt den Anteil der korrekt gefundenen Chunks gemessen an allen
gefundenen Chunks.
P =
| Gefundene korrekte Chunks |
| Alle gefundenen Chunks |
Beispiel 5.3.4 (Precision eines Chunkers).
Ein Chunker hat in einem Testkorpus 1’000 Chunks als NP klassifiziert, aber nur 600 davon
waren tatsächlich NP.
600
At = 600 und A = 1000. Die Precision berechnet sich als: P = 1000
= 60%
5.3.3 F-Measure
F-Score oder F-Measure (F-Mass)
45
Definition 5.3.5 (F1 -Measure). Das F-Measure verrechnet Precision und Recall gleichgewichtet zum harmonischen Mittelwert.
Formal: Sei P die Precision und R der Recall eines Systems:
F =
2×P ×R
P +R
Beispiel 5.3.6 (F-Mass eines Chunkers).
Ein Chunker hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für NPs.
Das F-Measure berechnet sich somit: F = 2×0.6×0.75
0.6+0.75 = 66.6%
Resultate der Chunking-Shared-Task der CoNLL 2000
Abbildung 5.5: Resultate
der
Chunking-Shared-Task
[Tjong Kim Sang und Buchholz 2000, 131]
der
CoNLL
2000
5.4 Fazit
Flache Chunks im IOB-Format
Definition 5.4.1 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über
die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist.
• B-K : Anfang einer Chunk-Konstituente K
• I-K : Fortsetzung der Chunk-Konstituente K
• 0: Nicht zugeordnet (wird auch chink genannt)
We PRP B-NP
saw VBD 0
the DT B-NP
yellow JJ I-NP
dog NN I-NP
46
5.4.1 Verschachtelte Chunks
Verschachtelte Chunks
Definition 5.4.2 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk innerhalb eines Nominal-Chunks, ist normalerweise nicht möglich.
Beispiel 5.4.3 (Chunk Parsing Output mit Verschachtelungstiefe 3).
[PX [APPR für]
[NX [ARTIND eine]
[AJXatt [ADJA gewisse]]
[NN Reibungslosigkeit]]]
Hinweis zur Chunk-Benennung
Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC.
Vertiefung
• NLTK-Buch S. 264ff.
• Carstensen Abschnitt 3.4.3: „Chunk-Parsing“
• Penn-Treebank-Tagset im CLab: http://www.cl.uzh.ch/clab/hilfe/ptts
• Information zum Sprachmodell des CONLL-Goldstandards und zu den Resultaten der
Shared-Task enthält [Tjong Kim Sang und Buchholz 2000]
47
6 Linguistisches Propädeutikum I
Lernziele
• Kenntnis der Begriffe Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma, Lexemverband
• Kenntnis der Wortartenlehre für Deutsch
• Kenntnis der morphologischen Kategorien für Deutsch und Englisch
• Kenntnis und Anwendung des Stuttgart-Tübingen-Tagsets (STTS) mit Hilfe der Referenzkarte
• Kenntnis und Anwendung linguistischer Proben
• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von Morphologie und Wortarten
• Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Analyse und Generierung
6.1 Wort
6.1.1 Definition
Wort
Definition 6.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind.
Beispiel 6.1.2 (Was ist ein Wort?).
1. Sie wollte vor allem am 1. Spiel teilnehmen.
2. Sie nahm z.B. an dem 2. Spiel teil.
3. Das gibts doch nicht!
4. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit [. . . ]
48
Präzisierungsversuche des Wort-Begriffs
Sprachliche Ebenen zur Präzisierung des Wort-Begriffs
• Phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oder
Knacklaut theoretisch isolierbares Lautsegment
• Orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit
• Morphologisch: Grundeinheit, welche flektierbar ist
• Lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist
• Syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes
Gängige Auffassungen des Worts Wort [Linke et al. 2001]
Wieviele verschiedene Wörter hat dieser Satz?
Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.
Antworten
4
5
6
9
__
6.1.2 Token
Antwort 9: Wort als Vorkommen einer Wortform
Wieviele verschiedene Wörter hat dieser Satz?
Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen6 Fliegen7 Fliegen8 nach9 .
Definition 6.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einem
Text.
Bemerkung
In der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwort
lautet dann . . .
6.1.3 Wortform
Antwort 5: Wort als Wortform
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 .
Definition 6.1.4 (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes.
Beispiel 6.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung).
• Die Fliege war tot.
• Er trug eine samtene Fliege.
• Fliege nicht so schnell!
49
6.1.4 Syntaktisches Wort
Antwort 6: Wort als syntaktisches Wort
Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen5 Fliegen4 Fliegen3 nach6 .
Definition 6.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortform
kombiniert mit ihren morphosyntaktischen Merkmalen.
Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normalerweise zusammengefasst.
Beispiel 6.1.7 (Wortform vs. syntaktisches Wort).
Die Wortform „Fliegen“ kann mindestens 4 syntaktische Wörter repräsentieren: „Fliege“ in
Nominativ, Akkusativ, Dativ oder Genitiv Plural.
6.1.5 Lexem
Antwort 5: Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 .
Definition 6.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syntaktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,
Numerus, Tempus usw.) unterscheiden.
Definition 6.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikographische Standard-Notation für ein Lexem.
Beispiel 6.1.10 (Lexikographische Notationskonventionen im Deutschen).
Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular repräsentiert.
Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert?
Antwort 4: Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 , fliegen3 Fliegen3 Fliegen3 nach4 .
Definition 6.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eine
Menge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivationsstamm) basiert.
Beispiel 6.1.12 (Derivationen von „fliegen“ in Canoo).
Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wortbildungsinformation in http://www.canoo.net illustriert dies schön.
Stufen der Abstraktion: Vom Text zum Lexemverband
• Jedes Token ist eine Zeichenfolge, welche in einem Text an einer bestimmten Stelle beginnt.
• Jede Wortform ist eine Menge von Token, welche aus der identischen Zeichenfolge bestehen
(sog. Type).
• Jedes syntaktisches Wort ist eine Menge von Token, welche identische morphosyntaktische
und semantische Eigenschaften aufweisen.
50
• Jedes Lexem ist eine Menge syntaktischer Wörter, welche sich nur in ihren morphosyntaktischen Merkmalen unterscheiden.
• Jeder Lexemverband ist eine Menge der Lexeme, für die eine identische Wurzel (oder
derselbe Derivationsstamm) angenommen wird.
6.2 Lehre von den Wortarten
Wortarten nach [Bussmann 2002]
Definition 6.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis der
Klassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder semantischen Kriterien.
Historisches [Gallmann und Sitta 2010]
Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahrhundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemäss
Adelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Präposition, Konjunktion, Interjektion,
Numerale, Pronomen, Artikel, Adverb
5-Wortarten-Lehre
Mit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung
durch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwendet.
6.2.1 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 6.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]
Welcher Fachbegriff wäre präziser anstelle von “Wörter” in der Abbildung?
51
Abbildung 6.2: Die Hauptkategorien von STTS:http://www.cl.uzh.ch/clab/hilfe/stts/
6.2.2 STTS
Stuttgart/Tübingen-Tag-Set (STTS)
Eine umfassende Standard-Klassifikation aus der CL-Praxis:
• Die Kürzel für die Wortarten nennt man „Tag“ (engl. Etikette)
• Wichtigstes Tagset des Deutschen [Schiller et al. 1999] mit 54 Tags
• Vergleichbar mit dem Tagset der Penn-Treebank für Englisch
• Eine Notationsvariante von STTS wurde als europäischer Standard für Deutsch (EAGLES
ELM-DE) [EAGLES 1996] spezifiziert.
• Alternativen: Münsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig in der CL?
• Wichtige linguistisch annotierte Korpora (sog. Baumbanken) verwenden auf der Wortartenebene STTS: NEGRA-Korpus III(20’000 Sätze), TüBa-D/Z (45’000) TIGER-Korpus
(50’000) (leicht adaptiertes STTS) III
• Es gibt frei verfügbare Programme, welche Wörter im Lauftext automatisch mit ihren
STTS-Tags ergänzen. Solche Programme (z.B. TreeTagger) nennt man „Tagger“ und den
Prozess „Tagging“.
STTS vs. 5-Wortartenlehre
• Eigennamen (NE) sind eine semantisch definierte Klasse.
52
• Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativpronomen (PDS) usw.
• Durchgängige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Pronomen): “Diese/PDAT Kuh muht.” vs. “Diese/PDS muht.”
• Feine Aufgliederung bei Glinzschen Partikeln: Konjunktionen, Adverbien, Antwortpartikel
(PTKANT), Negationspartikel „nicht“ (PTKNEG) usw.
• Als Adverbien zählen nur Lexeme, welche keine adjektivische Verwendung erlauben.
• ‘Wortarten’ für satzinterne ($,) und -finale Interpunktion ($.)
• Kategorie für fremdsprachliches Material (FM)
Probleme der Wortartenbestimmung
Was sind die Schwierigkeiten?
Er kannte ihn schon als kleines Kind.
Die Wissenschaft selbst ist ein kompliziertes System.
Ich habe noch nie solch eine Geschichte gehört.
Er ist erkrankt.
Auf der einen Seite ist es so, aber ...
Der Mann, von dessen Vater das Buch handelt, ist ...
Er kam plötzlich und ohne anzuklopfen herein.
Er wartete bis um 5 Uhr.
6.3 Morphologische Merkmale
Morphologische Kategorien und ihre Merkmale
Definition 6.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologischen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Numerus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung)
realisiert werden.
Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems
• Konjugation von Verben
• Deklination von Nomen, Adjektiven, Artikeln und Pronomen
• Steigerung von Adjektiven (und wenigen Adverbien)
53
Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?
Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilung
nicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einige
Adverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten”
. . . ).
Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektive
als Flexion betrachtet.
Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, ist
die Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus und
komparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.
Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sind
oder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann muss
es wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein.
Welche denn?
6.3.1 Genus
Das Genus (engl. gender ): Grammatisches Geschlecht
Fachbegriff
Maskulinum
Femininum
Neutrum
Unterspezifiziert
Deutsch
männlich
weiblich
sächlich
n/a
Englisch
masculine
feminine
neuter
n/a
STTS
Masc
Fem
Neut
*
Beispiel
Elephant
Gazelle
Huhn
Ferien
Tabelle 6.1: Übersicht: Genera
Bemerkung
Der Plural von Genus lautet Genera.
Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?
6.3.2 Numerus
Der Numerus (engl. number ): Grammatische Zahl
Fachbegriff
Singular
Plural
Deutsch
Einzahl
Mehrzahl
Englisch
singular
plural
STTS
Sg
Pl
Beispiel
Huhn
Hühner
Tabelle 6.2: Übersicht: Numeri
Bemerkung
Der Plural von Numerus lautet Numeri.
Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?
54
Fachbegriff
Nominativ
Genitiv
Dativ
Akkusativ
Deutsch
Werfall
Wesfall
Wemfall
Wenfall
Englisch
nominative
genitive
dative
accusative
STTS
Nom
Gen
Dat
Akk
Beispiel
der Baum
des Baumes
dem Baum
den Baum
Tabelle 6.3: Übersicht: Kasus
6.3.3 Kasus
Der Kasus (engl. case): Fall
Bemerkung
Der Plural von Kasus lautet Kasus.
6.3.4 Modus
Der Modus (engl. mode, mood ): Aussageweise
Fachbegriff
Indikativ
Konjunktiv
Deutsch
Wirklichkeitsform
Möglichkeitsform
Englisch
indicative
subjunctive mood
STTS
Ind
Subj
Beispiel
er geht
er gehe
Tabelle 6.4: Übersicht: Modi
Im STTS steht eigentlich für Konjunktiv das Kürzel Konj. Subj ist eine Modifikation im TIGERModell.
Bemerkungen
Der Plural von Modus lautet Modi.
Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist dies
durch das V.IMP ausgedrückt.
6.3.5 Tempus
Das Tempus (engl. tense): grammatische Zeit, Zeitform
Fachbegriff
Präsens
Präteritum
Deutsch
Gegenwart
Vergangenheit
Englisch
present tense
past tense
STTS
Pres
Past
Beispiel
er geht
er ging
Tabelle 6.5: Übersicht: Tempora
Bemerkungen
Der Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien für
Tempus? Im Deutschen gibt’s doch viel mehr Zeiten.
6.3.6 Person
Die Person (engl. person)
55
Fachbegriff
1. Person
2. Person
3. Person
Deutsch
Sprecher
Angesprochene
Person, Sachverhalt
Englisch
first person
second person
third person
STTS
1
2
3
Beispiel
ich gehe
du gehst
er geht
Tabelle 6.6: Übersicht: Personen
Bemerkungen
Der Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich.
Bei welchen Wortarten ist die Kategorie Person ausgeprägt?
6.3.7 Grad
Der Grad (engl. degree): Steigerung, Komparation
Fachbegriff
Positiv
Komparativ
Superlativ
Deutsch
Normalform
Vergleichsform
Höchststufe
Englisch
positive
comparative
superlative
STTS
Pos
Comp
Sup
Beispiel
schlau
schlauer
schlauste
Tabelle 6.7: Übersicht: Komparation
Bemerkungen
Bei welchen Wortarten ist die Kategorie Grad ausgeprägt?
6.3.8 Adjektiv-Flexion
Die Adjektiv-Flexion (engl. adjective inflection)
Fachbegriff
Schwache Flexion
Gemischte Flexion
Starke Flexion
Deutsch
mit best. Artikel
mit ein, kein,. . .
ohne Artikel
Englisch
weak
mixed
strong
STTS
Schw
Mix
St
Beispiel
der schlaue Fuchs
keine schlauen Füchse
schlaue Füchse
Tabelle 6.8: Übersicht: Adjektiv-Flexion
Bemerkung
Gibts die Unterscheidung von schwacher und starker Flexion nur bei Adjektiven?
Beispiel 6.3.2 (Flexion von “schlau”).
Darstellung bei www.canoo.net
6.4 Linguistische Proben
Linguistische Testverfahren
Definition 6.4.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Analyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, um
grammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können.
56
6.4.1 Ersatzprobe
Ersatzprobe
Definition 6.4.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einen
grammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestes
muss dabei unverändert bleiben.
Beispiel 6.4.3 (Bestimmung des Kasus).
Probe
Mehrdeutig
Eindeutig
Kasus
Baumprobe Peter ist zornig Der Baum ist zornig Nom
Dem Baum ist heiss Dat
Baumprobe Peter ist heiss
Frageprobe
Peter ist zornig Wer ist zornig
Nom
Frageprobe
Peter ist heiss
Wem ist heiss
Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.
Beispiel 6.4.4 (Bestimmung der Wortart von “das”).
• Das ist das Angebot, das uns überzeugt hat.
• Dieses ist das Angebot, welches uns überzeugt hat.
• * Welches ist das Angebot, dieses uns überzeugt hat.
• ? Das ist dieses Angebot, welches uns überzeugt hat.
Probleme der Interpretation
• Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Interpretation des Satzes.
• Ob die Interpretation des Satzrestes sich ändert durch den Ersatz, ist nicht immer leicht
zu beurteilen.
6.4.2 Einsetzprobe
Einsetzprobe
Definition 6.4.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext eingesetzt, der ihn grammatisch eindeutig interpretiert.
Beispiel 6.4.6 (Bestimmung der Wortart).
Probe
Attributivprobe
Attributivprobe
Mehrdeutig
Das war billig
Das war gratis
Eindeutig
Der billige Baum
*Der gratis Baum
Wortart
Adjektiv
Adverb
Einsetzen in Flexionsparadigmen
Eine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugation
für Verben oder Steigerung für Adjektive.
57
6.5 Computermorphologie
6.5.1 Lemmatisierung/Morphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 6.5.1 (Grundformbestimmung). Die Lemmatisierung ist die Bestimmung der Lemmas, welche einer Wortform zugrunde liegen.
Definition 6.5.2 (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der morphologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lexem.
Lemmatisierung und Morphologieanalyse mit GERTWOL
http://www2.lingsoft.fi/cgi-bin/gertwol
Verbrechens
"Verb#rechen" S MASK SG GEN
"Verb#rech~en" S NEUTR SG GEN
"Ver|brech~en" S NEUTR SG GEN
eine
"ein" ART INDEF SG NOM FEM
"ein" ART INDEF SG AKK FEM
"einer" PRON INDEF SG NOM FEM
"einer" PRON INDEF SG AKK FEM
"ein~en" V IND PRÄS SG1
"ein~en" V KONJ PRÄS SG1
"ein~en" V KONJ PRÄS SG3
"ein~en" V IMP PRÄS SG2
6.5.2 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 6.5.3 (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen von
syntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation.
Beispiel 6.5.4 (Generieren mit STTS-Tags).
gehen + VVFIN:2.Sg.Past.Ind → gingst
6.6 Vertiefung
• Quiz Stuttgart-Tübingen-Tagset
• Quiz Wortarten nach STTS bestimmen
• Referenzkarte zum Annotieren von STTS und dem TIGER-Sprachmodell (in OLAT)
• Manuals für das Programm annotate [Plaehn 2000, Plaehn 1998]
58
• http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminologie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.
• Die CDROM zum „Studienbuch Linguistik“ enthält viel interaktiv aufbereitetes Lernmaterial http://www.ds.uzh.ch/studien-cd
6.6.1 Kontrollfragen
Kontrollfragen
• Welche verschiedenen Auffassungen verbergen sich hinter dem Wort „Wort“?
• Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien.
• Worin besteht Morphologieanalyse und -generierung?
• Welche STTS-Tags (inklusive Morphologie) müssten bei den Wörtern der 1. Kontrollfrage
zugeordnet werden?
• Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in Ihrem
Dialekt?
• Was ist der Unterschied zwischen Lemma und Lexem?
59
7 Linguistisches Propädeutikum II
Lernziele
• Anwendung der klassischen syntaktischen Proben
• Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied,
Phrase
• Kenntnis der wichtigsten syntaktischen Funktionen
• Kenntnis und Anwendung des TIGER/NEGRA-Annotationsschemas mit Hilfe der Referenzkarte
• Kenntnis über die flach annotierten NP und PP
• Kenntnis über die verschachtelt annotierten infiniten VP
• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von syntaktischen Strukturen
• Erfahrungen mit einfacher Suche von syntaktischen Strukturen in einer Baumbank mit
TIGERSearch
7.1 Syntaktische Proben
7.1.1 Weglassprobe
Weglassprobe
Definition 7.1.1. In der Weglassprobe wird von einem grösseren mehrdeutigen Ausdruck soviel
Material wie möglich entfernt, um einen eindeutigen Ausdruck zu erhalten.
Beispiel 7.1.2 (Bestimmung eines Satzglieds).
1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
Frage
Warum nicht Variante 4?
60
7.1.2 Verschiebeprobe
Verschiebeprobe
Definition 7.1.3. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt,
so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert.
Damit lassen sich die Anfang und Ende von Satzgliedern erkennen.
Beispiel 7.1.4 (Bestimmung von Satzgliedern).
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. Morgen bereite ich die Sitzung mit dem Chef vor.
3. Ich bereite die Sitzung mit dem Chef morgen vor.
Regeln: Tausche immer 2 Kandidaten aus, um nicht unnötig ungrammatische (Pseudo-)Sätze
zu erzeugen. Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb.
Verschiebeprobe
Beispiel 7.1.5 (Unzulässiges Verschieben).
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. *Morgen ich bereite die Sitzung mit dem Chef vor.
3.
# Die
Sitzung bereite ich morgen mit dem Chef vor.
7.1.3 Umformungsproben
Umformungsprobe
Definition 7.1.6. In der Umformungsprobe werden Sätze umfassend umgebaut.
Beispiel 7.1.7 (Funktion von Nebensätzen).
1. Es würde mich freuen, wenn du mitkämest.
2. Dein Mitkommen würde mich freuen.
Der Nebensatz mit „wenn“ erfüllt eine analoge Funktion wie „Es“.
Beispiel 7.1.8 (Infinitivumformung zur Subjekterkennung).
1. Die Lärche ist ein Nadelbaum.
2. ein Nadelbaum sein / die Lärche
61
Abbildung 7.1: Moderne Satzgliedlehre nach [Stocker et al. 2004]
7.2 Satz
Satz
Definition 7.2.1 (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprachspezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, die
hinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängig
ist.
Definition 7.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einem
finiten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satz
zusätzliche Angaben enthalten.
Moderne Satzgliedlehre
7.3 Syntaxanalyse
7.3.1 Konstituenz
Konstituenten und Konstituenz
Definition 7.3.1 (Konstituente nach [Bussmann 2002]). Konstituente. In der strukturellen
Satzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die Teil einer grösseren sprachlichen Einheit ist.
Definition 7.3.2 (Konstituentenanalyse nach [Bussmann 2002]). Ziel und Ergebnis der Konstituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte
Abfolge von Konstituenten.
Definition 7.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und
linearen Präzedenz zwischen Konstituenten.
62
Konstituenten in der annotate-Darstellung
L!
SOT
L<
!
SOR
!N
M;
A:
Syntaktische
Konstituente
unmittelbare
Dominanz
!1$
L+$
SOQ
L<
Konstituente auf
Wortebene
!"#
.#/#0
O
$$%&
1123+
'($)(*(+,-
'($)($4#5(306
L;
L<
+$
SOO
+@
+@
.#78.9#
P
M;
1#4>"06?0.#0
Q
:;<:
Präzedenz
auf
$,5(*(:==($)(!9
Wortebene
?06
'
&"5"=#0
R
++
@A+
Präzedenz
zwischen
2#-(:==($)(*
!!
Tochterkonstituenten
#"0
S
$B@1C
ED
1123+
+#?9(:==($)(*
!!
!!
'($)($4#5(30
Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente.
Konstituenten in der Balken-Darstellung
Abbildung 7.3: Konstituenz, Dominanz und Präzedenz in Balken-Darstellung
Quelle: http://www.cl.uzh.ch/siclemat/lehre/negra/s2.html
Konstituenten überspannen als Balken die von ihnen dominierten Tokens.
Annotation von Nominalphrasen (NP)
Hinweise
• Begleiter, attributive Adjektive werden flach eingehängt.
• Keine unären Konstituenten (d.h. keine NP-Knoten mit einem Kind!)
63
F#45?G/#0
U
++
Abbildung 7.2: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung
• Komplexe postnominale NP werden verschachtelt eingehängt.
D
T
NP
NP
Er
sah
die
kleinen Hunde meiner Mutter
.
Abbildung 7.4: Beispielsatz mit allen zu annotierenden Nominalphrasen (NP)
Annotation von Präpositionalphrasen (PP)
PP
PP
Er
hat
vor
den
lauten Hunden
im
Garten Respekt.
Abbildung 7.5: Beispielsatz mit allen zu annotierenden Präpositionalphrasen (PP)
Hinweise
• Die unmittelbaren Konstituenten der von der Präposition abhängigen NP werden flach
eingehängt.
• Eingebettete NP kann rekonstruiert werden.
• Komplexe postnominale PP werden verschachtelt eingehängt.
Annotation von Adjektiv- und Adverbphrasen (AP/AVP)
AP
Die
recht
zahme
AVP
Katze
schnurrte immer wieder
AP
sehr
laut
.
Abbildung 7.6: Beispielsatz mit allen zu annotierenden AP- und AVP-Knoten
Hinweise
• Nur modifizierte Adjektive bilden AP.
• Nur modifizierte Adverbien bilden AVP.
64
S
VP
Er
will
sie
gerne
sehen
.
Abbildung 7.7: Beispielsatz mit allen zu annotierenden Satz- und VP-Knoten
Annotation von finite (S) und infiniten (Teil-)Sätzen (VP)
Hinweise
• Finite Verben sind immer unmittelbare Konstituenten von S-Knoten.
• Jedes infinite Verb bildet eine eigene VP (keine flache Struktur hier!)
Annotation von Relativsätzen
S
NP
S
NP
Der
Hund,
den
die
Katze
anfauchte, knurrte
leise.
Abbildung 7.8: Beispielsatz mit allen zu annotierenden NP- und S-Knoten
Relativsätze gehören in die NP, auf die sie sich beziehen!
7.3.2 Köpfe (oder Kerne) von Konstituenten
Syntaktische Köpfe (engl. head ) / Kern (engl. kernel )
Definition 7.3.4. Ein Kopf oder Kern einer Konstituente ist diejenige Unterkonstituente, welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der die Geschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar (Weglassprobe).
Beispiel 7.3.5 (Welches ist der Kern der geklammerten Konstituenten?).
1. Er [hält ihm den Ausweis unter die geschwollene Nase].
65
2. Sie rennt [mit dem Mobile hantierend] zum Kiosk.
3. Es wird [viel zu oft] telefoniert.
4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt.
5. Sie fühlte sich [wie in einem schlechten Film].
6. Aber sie war auch [in einem ziemlich schlechten Film].
Konstituententypen
Typen von Konstituenten in TIGER/NEGRA
1. (Teil-)Sätze (S): Konstituente mit finiten Verbalkernen.
2. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern.
3. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern.
4. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetem
Partizip als Kern.
5. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern.
6. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition als
Kern.
7. Konjunktionalgruppe, -phrase (PP): Konstituente mit der Konjunktion “als” oder “wie”
als Kern (aber nicht als Vergleichskonstruktion gebraucht): „Er fühlte sich als Gewinner.“
7.3.3 Dependenz bzw. syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 7.3.6. Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konstituenten.
Definition 7.3.7 (frei nach [Bussmann 2002]). Syntaktische Funktion ist ein Sammelbegriff für
Beschreibungsgrössen wie “Subjekt”, “Objekt”, “Prädikat”, “Adverbial”, “Attribut” u.a., welche
nach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehung
zwischen abhängigen Konstituenten zu bestimmen.
Hinweis
Innerhalb von Konstituenten ist die syntaktische Funktion des “Kopfes” fundamental, aber
traditionell wenig explizit dargestellt.
Syntaktische Funktionen in der annotate-Darstellung
Jedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominierenden Konstituente.
Syntaktische Funktion in der Balken-Darstellung
Syntaktische Funktionen als Zwischenschicht zwischen sich dominierenden Balken.
66
L!
SOT
L<
!
SOR
!N
M;
A:
Syntaktische
Funktion
!1$
M;
L+$
SOQ
L<
Konstituenten
L;
L<
+$
SOO
+@
!"#
.#/#0
O
+@
.#78.9#
P
1#4>"06?0.#0
Q
?06
'
&"5"=#0
R
#"0
S
D
T
F#45?G/#0
U
$$%&
1123+
:;<:
++
@A+
++
$B@1C
ED
1123+
'($)(*(+,-
'($)($4#5(306
$,5(*(:==($)(!9
2#-(:==($)(*
!!
+#?9(:==($)(*
!!
!!
'($)($4#5(30
Abbildung 7.9: Syntaktische Funktion in der NEGRA-Darstellung
Abbildung 7.10: Syntaktische Funktionen in Balken-Darstellung
NP
NK
NK
NK
AG
NP
NK
Er
sah
die
NK
kleinen Hunde meiner Mutter
.
Abbildung 7.11: Beispielsatz mit NP-internen Funktionen
Annotation von Funktionen in NP
Hinweise
• Pränominale Begleiter, attributive Adjektive und die Köpfe haben die Funktion NK (noun
kernel)
• Aus NEGRA-historischen Gründen werden keine Köpfe annotiert.
67
• Komplexe postnominale NP oder PP habe die Funktion MNR.
Annotation von Funktionen in PP
PP
AC
NK
NK
NK
MNR
PP
AC
Er
hat
vor
den
lauten Hunden
im
NK
Garten Respekt
.
Abbildung 7.12: Beispielsatz mit PP-internen Funktionen
Hinweise
• Die Präposition hat die Funktion AC.
• Alle andern Funktionen sind wie in NPs.
Annotation der Funktionen in AP und AVP
AP
Die
AVP
MO
HD
recht
zahme
HD
Katze
AP
MO
schnurrte immer wieder
MO
HD
sehr
laut
.
Abbildung 7.13: Beispielsatz mit allen AP- und AVP-internen Funktionen
Hinweise
• Köpfe (HD: head) werden von adverbialen Modifikatoren (MO: modifier) unterschieden.
Annotation der Funktionen in S und VP
S
SB
HD
OC
VP
Er
will
OA
MO
HD
sie
gerne
sehen
.
Abbildung 7.14: Beispielsatz mit allen S- und VP-internen Funktionen
Hinweise
68
• Finites Verb ist Kopf (HD).
• Abhängige VP ist ein Satzobjekt (OC: object clause)
• Subjekt (SB) ist immer abhängig von finitem Verb.
• Akkusativobjekt (OA) ist rein inhaltlich abhängig.
Annotation der Funktion in Relativsätzen
S
SB
HD
MO
knurrte
leise
NP
NK
NK
RC
S
OA
SB
HD
NP
Der
Hund
,
den
NK
NK
die
Katze
anfauchte
,
.
Abbildung 7.15: Relativsatz mit allen internen Funktionen
Relativsätze haben die Funktion RC (relative clause).
Einige Satzglieder mit TIGER/NEGRA-Funktion
• Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein S
oder eine VP sein!
• Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe (“ihn”)
• Dativ-Objekt (DA): Frage- (Wem?) oder Ersatzprobe (“ihm”)
• Genitiv-Objekt (OG): Frage- (Wessen?) oder Ersatzprobe (“seiner”)
• Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO):
Modifikator
• Nicht-finite Verbalteile (OC: object clause): Abhängig von flektiertem oder nicht-flektierten
Verb
• In TIGER: Präpositionalobjekte (OP), Funktionsverbgefüge (CVC) („in die Zuständigkeit
fallen“)
69
Wichtige Gliedteile mit TIGER/NEGRA-Funktion
• Artikel, attributive Pronomen und Adjektiv(phrasen) (NK)
• Präpositionen und konjunktionales “als” oder “wie” (AC)
• Postnominale Präpositionalphrasen (MNR) „das Treffen in Bern“
• Genitivattribute von Nominalphrasen (AG) und Pseudogenitiv (PG) „das Haus vom Vater“
• Platzhalter (PH) und wiederholte Elemente (RE)
• Koordinierende Konjunktion (CD) und die koordinierten Konstituenten (CJ)
7.3.4 Koordination
Koordination, Konstituenz und Köpfe
Definition 7.3.8. Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zwei
oder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht.
Beispiel 7.3.9 (Koordination von Konstituenten aus NEGRA-Korpus).
• Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35]
• Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre?
[Satz 9328]
• Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist das
die Kirche. [Satz 11’978]
Problem
Was ist der Kopf von koordinierten Konstituenten? Die Konjunktion oder eine der koordinierten
Phrasen?
Lösung in TIGER/NEGRA: Es gibt die Koorinations-Konstituenten CS, CNP, CAP usw.
Annotation von koordinierten Konstituenten
Hinweise
• Koordinierte Konstituenten haben immer die Funktion CJ.
• Konjunktionen haben die Funktion CD.
70
CNP
CJ
CD
CJ
und
Hunde
NP
NK
NK
CAP
Er
mag
CJ
CD
junge
und
CJ
freche Katzen
.
Abbildung 7.16: Beispielsatz mit koordinierten Strukturen
7.4 Baumbanken
7.4.1 NEGRA/TIGER
NEGRA- und TIGER-Baumbanken
• NEGRA (1997-2001): Die 1. Baumbank für Deutsch (20’000 Sätze) III
• TIGER (1999-2006): “Nachfolgeprojekt” (50’000 Sätze im Release 2.1 2006) inklusive Lemmatisierung und Morphologieanalyse http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/
Eigenheiten von NEGRA/TIGER
• PP und NP werden mit flacher Hierarchie verbaut
• Ketten von infiniten Verben (VP) sind zu verschachteln
• Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter
• Keine annotierten Köpfe in NP
• Keine explizite Unterscheidung der Satztypen
7.4.2 TIGERSearch
TIGERSearch: Ein modernes Suchwerkzeug
Lernen aus Beispielen
Beim Annotieren ist es hilfreich, aus bereits annotiertem Material zu lernen!
Die 3 Hauptfunktionen von TIGERSearch
Abfrage-Sprache (investigation)
Visualisierung der Suchresultate und Baumbank (exploration)
Einfache statistische Auswertung (condensation)
71
Grundlegende Suchrezepte
Eckige Klammern stehen für Konstituenten (Knoten) eines Syntaxbaumes. Beschreibungen auf
der Ebene der Wörter (word), Wortarten (pos), Phrasen (cat) spezifizieren darin die möglichen
Treffer.
• Wie wird das Wort “der” verwendet?
[ word="der" ]
• Mit welchen Wortarten kommt das Wort “der” wie oft vor?
brauchts für das Statistikmodul als Knoten-Identifikator)
#w:[ word="der" ](#w:
• Welche Adverbien kommen vor?
#w:[ pos="ADV" ]
• Welche koordinierten NP kommen vor?
#p:[ cat="CNP" ]
• Welche Dativobjekte kommen vor?
[ ] >DA #da:[ ]
Aha-Erlebnis
[] > []: unmittelbare Dominanz
[] . []: lineare Präzedenz
7.5 Vertiefung
• Pflichtlektüre: Das Kapitel Baumbanken in Carstensen (2009).
• Detailliertes Annotationshandbuch von TIGER: http://tinyurl.com/tiger-hs10-syn
• Annotierte TIGER-Sätze in Balkendiagramm-HTML-Darstellung: http://www.cl.uzh.ch/siclemat/
lehre/tiger
• Quiz Die Form der Satzglieder http://kitt.cl.uzh.ch/kitt/clab/QUIZ/97
• Quiz Satzglieder und Proben http://kitt.cl.uzh.ch/kitt/clab/QUIZ/104
• Konzise Einführung in die Deutschgrammatik: [Gallmann und Sitta 2010]
• Anleitung zu TIGERSearch mit Bildern http://www.bubenhofer.com/korpuslinguistik/kurs/
index.php?id=weitere_tiger.html
• Sofortbenutzung via X11: ssh -Y [email protected] (ev. -Y durch -X ersetzen; kein VPN erforderlich)
72
8 Flache Satzverarbeitung
Lernziele
• Kenntnis über POS-Tagger, ihre Aufgabe und Probleme sowie über wichtige POS-Tagsets
• Kenntnis über grundlegende Evaluationsmethodik und -anwendung
• Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger
• Kenntnis über partielle syntaktische Analyse
• Kenntnis über flache und verschachtelte Chunks
8.1 Wortarten-Tagging
Wortarten-Tagging
Definition 8.1.1 (Wortarten-Tagger). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger,
kurz POS-Tagger) ist ein Programm, das für jedes Token eines Korpus die Wortart bestimmt,
indem es ein Klassifikationskürzel als Tag zuordnet.
Beispiel 8.1.2 (Zeilenformat mit Schrägstrich).
Sonderrechte/NN für/APPR Minoritätenkollektive/NN widersprechen/VVFIN
N-Best-Tagging
Tagger, welche die Wortarten mit einer Wahrscheinlichkeit versehen zurückliefern, können für
n-best-Tagging verwendet werden.
Tag-Sets für Englisch
Definition 8.1.3 (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wortarteninformation noch semantische, syntaktische oder morphologische Information. Die Grösse
eines Tag-Sets kann stark variieren.
Tag-Set
Brown
Penn
CLAWS c5
London-Lund
Grösse
87 (179)
45
62
197
Beispiel
she/PPS
she/PRP
she/PNP
she’s/RA*VB+3
Bedeutung
Pronoun, personal, subject, 3SG
Pronoun (personal or reflexive)
Pronoun personal
pronoun, personal, nominative + verb "to
be", present tense, 3rd person singular
Tabelle 8.1: Übersicht: Tag-Sets für Englisch
Penn-Treebank-Tag-Set (PTTS)
Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welches
ab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist.
73
Anforderungen an ein Programm für Tagging
Positive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]:
• Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen,
Markup).
• Effizient: Der Tagger arbeitet schnell.
• Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%).
• Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst werden.
• Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden.
Was fehlt?
8.1.1 Probleme des Taggings
Wortformen mit mehreren möglichen Tags
Mehrdeutigkeit
Im Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token.
Tag-Ambiguität im Englischen
Baseline (Basis-Algorithmus)
Nimm für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt ca. 90% richtige
Entscheidungen.
Optimierungspotential
Berücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wörter), um die Baseline-Entscheidung umzustossen.
Verwendeter Kontext des Trigramm-Taggers TnT
Zum Bestimmen des Tags eines Tokens wn werden verwendet:
• die möglichen Tags von wn aus Tagger-Lexikon
• die bereits berechneten Tags der beiden vorangehenden Tokens
74
NLTK-Buch [Bird et al. 2009, 204]
Abbildung 8.1: Kontextmodell des Trigramm-Taggers tnt
Mehrdeutigkeit bei deutschen Wörtern
Beispiel 8.1.4 (Verteilung der Mehrdeutigkeit).
Vorkommen in einem Korpus von ca. 80’000 Token
die ART 2351 PRELS 448 PDS 4
Mehrheit NN 40
bestimmt VVPP 7 VVFIN 4 ADV 1 ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)
Abbildung 8.2: Ambiguitätsraten aus der Frankfurter Rundschau [Volk und Schneider 1998]
Dem Tagger unbekannte Wortformen haben die Ambiguitätsrate 0.
Unbekannte Wörter
Kein Tagger-Lexikon kann vollständig sein (Eigennamen, Komposita, Zahlausdrücke). Wie kann
ein Tagger sinnvolle Vorschläge machen?
• Unterscheidung zwischen offenen und geschlossenen Wortarten
• Daumenregeln aufgrund des Baus der unbekannten Wortformen: Wortende/Wortbeginn,
Ziffern
Beispiel 8.1.5 (Morphologische Heuristiken für Englisch).
75
• 98% aller Wörter mit Endung -able sind Adjektive.
• Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname.
Nutzen und Anwendung des POS-Tagging
Definition 8.1.6 (POS-Tagging (automatische Wortartenbestimmung)). POS-Tagging ist eine eigenständige und vielfältig benötigte sprachtechnologische Anwendung, welche effizient und
zuverlässig funktioniert. Anwendungen: Lemmatisierung, Lexikographie, Sprachsynthese, Spracherkennung, Dokumentensuche, Bedeutungsdesambiguierung usw.
Beispiel 8.1.7 (Sprachsynthese/Bedeutungsdesambiguierung).
• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)
Beispiel 8.1.8 (Lemmatisierung).
• eine/ART Kuh: Lemma “ein”
• eine/VVIMP dich mit ihm!: Lemma “einen”
Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe.
8.1.2 Fallstudie TnT-Tagger
Fallstudie TnT-Tagger: Übersicht
Fallstudie TnT-Tagger: Anpassbarkeit konkret
Man nehme . . . [Clematide 2007]
1. ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ../../uis-vonabisz.tts
Studienführer
NN
"
$(
Universität
NN
$ wc ../../uis-vonabisz.tts
9676 18154 118761 ../../uis-vonabisz.tts
2. Produziere aus 9/10 davon ein Trainingskorpus, indem alle bis auf die letzten 965 Zeilen
in eine neue Datei geschrieben werden.
$ head --lines -965
../../uis-vonabisz.tts > training.tts
3. Produziere aus dem restlichen 1/10 ein Testkorpus, indem die letzten 965 Zeilen in eine
neue Datei geschrieben werden.
76
Trainingskorpus
training.tts
Getaggtes
Korpus
Training
tnt-para
ParameterDateien
training.lex
training.123
Tagging
tnt
Evaluationskorpus
eval.tts
Aufteilen
des Korpus
Testkorpus
test.tts
test.txt
Evaluation
tnt-diff
Abbildung 8.3: Training, Tagging und Evaluation mit dem TnT-Tagger
$ tail --lines 965
../../uis-vonabisz.tts > test.tts
4. Trainiere über dem Trainingskorpus
$ tnt-para training.tts
5. Probiere aus, ob der Tagger was Vernünftiges tut.
$ tnt training /dev/stdin > out.tts
Der
Tagger
läuft
. [mit Control-D für Dateiende abschliessen
$ more out.tts
6. Erstelle ein Testkorpus.
$ cut -f 1 test.tts > eval.txt
7. Tagge das Testkorpus mit dem trainierten Modell.
$ tnt training eval.txt > eval.tts
8. Evaluiere das getaggte Evaluationskorpus gegen das Testkorpus.
$ tnt-diff test.tts eval.tts
77
8.2 Evaluation
Evaluation
Definition 8.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines
Wertes auf einer Werteskala aufgrund einer Messmethode.
Definition 8.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer
Validität und Reliabilität.
Definition 8.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode
sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen
wird.
Definition 8.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind.
Überlegungen zu Reliabilität und Validität
Messintention
Es soll das Verständnis von Studierenden für reguläre Ausdrücke mittels eines Multiple-ChoiceTests geprüft werden.
Überlegung I
Wie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität und
Validität hoch ist?
Überlegung II
Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person
mehrmals gemacht wird?
8.2.1 Zweck
Zweck von Evaluationen
Systemverbesserung
Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert worden
ist. Die Evaluation von System A gegenüber A’ hilft einzuschätzen, inwiefern die Komponente
Z das System optimiert.
Systemvergleich
Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation
anhand einer Testaufgabe T zeigt auf, welches System besser ist.
8.2.2 Accuracy
POS-Tagger-Evaluation: Genauigkeit
Definition 8.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit
N Token ist der Anteil der korrekt getaggten Token.
Formal: Sei E die Anzahl von falsch getaggten Vorkommen von Token:
accuracy =
78
N −E
N
Beispiel 8.2.6 (Genauigkeitsberechnung von TnT-Tagger).
Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 96.7%.
Wieviele Tags im Testkorpus von 100’000 sind falsch?
Wenn man nur mit 1’000 Tokens trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus
von 100’000 Tokens. Wie hoch ist die Genauigkeit?
Häufigste Tagging-Fehler von TnT im NEGRA-Korpus
Legende zur Tabelle 8.2
T agt : Korrektes Label; T agf : Falsch getaggtes Label
F reqt : Vorkommenshäufigkeit des korrekten Labels; F reqf : Vorkommenshäufigkeit des falschen
Labels
Erel. : Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler
Ant.: Anteil der falschen Tags an den korrekt erkannten
T agt
NE
VVFIN
NN
VVFIN
ADJA
F reqt
15069
11595
58563
11595
16843
T agf
NN
VVINF
NE
VVPP
NN
F reqf
2092
667
615
425
270
Ant.
13.9
5.8
1.1
3.7
1.6
Erel.
19.6
6.3
5.8
4.0
2.5
Eabs.
0.74
0.23
0.22
0.15
0.10
Tabelle 8.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 8.2.7 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache
Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird
jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial. Zufallsbedingte besonders gute oder schlechte Resultate werden damit „neutralisiert“.
Beispiel 8.2.8 (Durchschnittliche Genauigkeit (average accuracy)).
Pi=10
accuracy =
i=1
accuracyi
10
Generalisierung von 10 auf k
Die Verwendung von 10 hat sich als bewährte Praxis etabliert. Im Prinzip wäre mit k > 10 das
Mittel noch genauer.
8.2.3 Lernkurven
8.2.4 Recall
Recall (Ausbeute, Abdeckung, Vollständigkeit)
Definition 8.2.9. Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen möglichen korrekten Antworten an.
79
!"#$!%&!'())*+,-"../0.,1/$+,-0-2,!)00,-#))3"04
TM5:!T00I'-0L
"@@
56)#"77
6/+!!7!89:;<
6-=!7!>;:8<
>@
80%10
6/+!!7!>#:?<
6-=!7!>8:@<
9@
8@
9040%10
6/+!!7!;?:?<
6-=!7!9#:#<
;@
#@
"
?
#
"@
?@
#@
"@@
#@:S
R?:9
SS:R
?;:9
?@:?
"S:?
>:9
?@@
8:@
#@@ "@@@ $'-+/+5!./N*!F=!"@@@J
R:R
?:>
TM5:!<!U+B+&E+
2*++!$'**A-+BC!"D?!6/11/&+!)&B*+(!+*E(4-4*'!)*=)!FG-11!.)'**)!H&I'+-1J!
'-+K&61L!(*1*0)*K!)'-/+/+5!FM-'/-A1*!(/N*J!-+K!)*()!4-')(!F"@@D@@@!)&B*+(J
"@!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/N*O!)'-/+/+5!-+K!)*()!4-')(!-'*!K/(P&/+):
Q&!&)%*'!(&I'0*(!E*'*!I(*K!3&'!)'-/+/+5:
Abbildung 8.4: Tnt-Evaluation an Penn Treebank durch Thorsten Brants
.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"#!!
!!$%&'()*+!,'-+)(
!"#$%!&'()#*+,-'+!%.,/&
Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrekten
Antworten des Systems.
At
R=
Nt
:"/6),6;<,'$"$)!%&!$+)!=#$,>??,=((#%"*+
Beispiel 8.2.10 (Recall eines Taggers).
Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN
"!Q-/M*!-44'&-0%C
klassifiziert.
600
!!!!!,/5'-6!6&K*1!F3/'()!&'K*'!VWWJ
At =
600 und Nt = 800. Der Recall berechnet sich als: R = 800
= 75%
!!!!!.6&&)%/+5C!-KK/)/&+!&3!c 7!@:#!)&!N*'&!3'*XI*+0/*(
8.2.5
Precision
!!!!!U+B+&E+!E&'K(C!)-5!K/()'/AI)/&+!*()/6-)*K!3'&6!-11!E&'K(
!!!!!Q&!(*+)*+0*!A&I+K-'L!-+K!0-4/)-1/N-)/&+!/+3&
Precision
(Genauigkeit, Präzision)
"!.)-)*!&3!)%*!T')C
Definition 8.2.11. Precision gibt den Anteil der korrekten Antworten (Entscheidungen) eines
!!!!!$'/5'-6!6&K*1!F(*0&+K!&'K*'!VWWJ
Systems
gemessen an allen gegebenen Antworten des Systems an.
!!!!!.6&&)%/+5C!Y&+)*=)!/+K*4*+K*+)!1/+*-'!/+)*'4&1-)/&+
Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten des
Systems.
!!!!!U+B+&E+!E&'K(C!(I33/=!-+-1L(/(!-+K!(I00*((/M*!-A()'-0)/&+
At
!!!!!TI)&6-)/0!6&K*1/+5!&3!(*+)*+0*!A&I+K-'/*(!-+K!0-4/)-1/N-)/&+
P =
A
+-/M*!!!!()-)*!&3!)%*!-')!!!!!!!!!∆
Beispiel 8.2.12 (Precision eines Taggers).
G.H
FZ+51/(%J!!!!!!>#:@<
!!!!>;:8<
![":8< aber nur 600 davon
Ein Tagger hat
in einem
Testkorpus 1’000 Token
als VVFIN klassifiziert,
QZ\]T F\*'6-+J!!!!!>?:R<
!!!!>;:8<
![R:S<
80
.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!";!!
!!$%&'()*+!,'-+)(
!"#$%!&'()#*+,-'+!%.,/&
.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"#!!
!!$%&'()*+!,'-+)(
!"#$%!&'()#*+,-'+!%.,/&
*#+&!(,!-.//0123#44')425'&123)3627!89:2;(+.%<
>75T!>008'-0N
"MM
="/+#$$
D/+!!Q!RST"U
D-E!Q!VWTRU
VM
>)(5)
D/+!!Q!VXTRU
D-E!Q!VRTRU
SM
RM
?)@)(5)
D/+!!Q!W"TYU
D-E!Q!SVTMU
WM
XM
"
Y
X
"M
YM
XM
"MM
XMTS
PWTP
P"TP
#WTM
#MTR
Y#TM
"ST#
YMM
"PT#
#YM $'-+/+5!./O*!CE!"MMMF
""TV >75T!U![+A+&9+
;6<=>!0&'48(:!#XMLMMM!)&A*+(!+*9(4-4*'!)*E)!C@'-+A38')*'!=8+B(0%-8F
'-+B&D1N!(*1*0)*B!)'-/+/+5!C7-'/-G1*!(/O*F!-+B!)*()!4-')(!C#MLMMM!)&A*+(F
"M!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/O*Z!)'-/+/+5!-+B!)*()!4-')(!-'*!B/(K&/+)
;&!&)%*'!(&8'0*(!9*'*!8(*B!3&'!)'-/+/+5T
Abbildung 8.5: Tnt-Evaluation an NEGRA Treebank
durch Thorsten Brants
C(**!%))4:\\999T0&1/T8+/!(GTB*\])%&'()*+\)+)\F
.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"P!!
waren tatsächlich VVFIN.
At = 600 und A = 1000. Die Precision berechnet sich als: P =
600
1000
!!$%&'()*+!,'-+)(
!"#$%!&'()#*+,-'+!%.,/&
= 60%
8.2.6 F-Measure
F-Measure (F-Mass)
Definition 8.2.13 (F1 -Measure). Das F-Measure ist ein Evaluationsmass, das Precision und
Recall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet.
Formal: Sei P die Precision und R der Recall eines Systems:
F =
2×P ×R
P +R
Beispiel 8.2.14 (F-Mass eines Taggers).
Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN.
Das F-Measure berechnet sich somit: F = 2×0.6×0.75
0.6+0.75 = 66.6%
8.3 Chunk Parsing
Partielle syntaktische Analyse
81
Definition 8.3.1. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing)
berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz.
Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt.
Abbildung 8.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid
Chunking-Regeln schreiben in Pfeilnotation
Abbildung 8.7: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid
Wie kann man die zulässigen Chunks beschreiben?
NC -> ART NN
• NC : Ein NC (Nominalchunk) besteht
• ->: besteht aus
• ART: aus einem Wort der Wortart ART (Artikel)
• NN: gefolgt von einem Wort der Wortart NN (normales Nomen)
8.3.1 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]
Beispiel 8.3.2 (Chunks nach Abney).
[I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time].
Motivationen
82
• Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung
• Effizienz: Teilstrukturen lassen sich effizienter berechnen.
• Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische
Analyse.
• Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichere
Analysemethoden.
8.3.2 IOB-Chunk
Flache Chunks im IOB-Format
Definition 8.3.3 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über
die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist.
• B-K : Anfang einer Chunk-Konstituente K
• I-K : Fortsetzung der Chunk-Konstituente K
• 0: Nicht zugeordnet (wird auch chink genannt)
We PRP B-NP
saw VBD 0
the DT B-NP
yellow JJ I-NP
dog NN I-NP
8.3.3 Verschachtelte Chunks
Verschachtelte Chunks
Definition 8.3.4 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk innerhalb eines Nominal-Chunks, ist normalerweise nicht möglich.
Beispiel 8.3.5 (Chunk Parsing Output mit Verschachtelungstiefe 3).
83
[PX [APPR für]
[NX [ARTIND eine]
[AJXatt [ADJA gewisse]]
[NN Reibungslosigkeit]]]
Hinweis zur Chunk-Benennung
Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC.
8.4 Vertiefung
Zum Thema „POS-Tagging“ und „Chunk Parsing“:
• Pflichtlektüre: [Carstensen et al. 2009, 3.4.2-3]
• Lerneinheit “Chunk Parsing” im CLab: http://www.cl.uzh.ch/clab/chunking/
8.4.1 Kontrollfragen
Kontrollfragen
• Was sind 2 typische Szenarien für systematische Evaluation von Systemen?
• Was unterscheidet Recall und Precision von Accuracy?
• Was sind typische Fehlerquoten und Fehlerquellen für STTS-Tagging?
• Wieviel Trainingsmaterial braucht es für eine Tagginggenauigkeit von etwa 95%?
• Was ist der Vorteil der IOB-Notation?
8.5 Exkurs: Evaluation binärer Klassifikatoren
Lernziele
• Kenntnis über True Positive, True Negative, False Positive sowie False Negative
• Kenntnis über Fehlertypen und ihre Gefahr
• Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form der
TP:FP:FN:TN-Darstellung
8.5.1 True/False Positives/Negatives
Evaluation von binären Klassifikatoren
Legende zur Tabelle 8.3
True Übereinstimmung zwischen “Test” und “Truth”
False Keine Übereinstimmung zwischen “Test” und “Truth”
FP Fehlertyp I: Test ist positiv, wo er nicht sollte.
FN Fehlertyp II: Test ist negativ, wo er nicht sollte.
84
Test
Positive
Negative
Truth
Positive
Negative
True Positive (TP)
False Positive (FP)
False Negative (FN) True Negative (TN)
Tabelle 8.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit
8.5.2 Fehlerparadoxe
Problem der Fehlerabschätzung I
Beispiel 8.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Konstruktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Konstruktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%.
Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat,
wenn er ein positives Resultat vermeldet?
Man überlege:
Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnitt
darunter?
Problem der Fehlerabschätzung II
Beispiel 8.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Konstruktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht, produziert
jedoch keine falschen Treffer.
Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test ein
negatives Resultat vermeldet?
Man überlege:
Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind darunter?
8.5.3 Unterschiede von Evaluationsmassen
Dualität von Precision und Recall
Test
Pos
Neg
R=
Truth
Pos Neg
TP FP
FN TN
TP
TP + FN
Tabelle 8.4: Recall
Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall.
Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision.
85
Test
Pos
Neg
P =
Truth
Pos Neg
TP FP
FN TN
TP
TP + FP
Tabelle 8.5: Precision
F-Measure vs. Accuracy
Test
F =
Pos
Neg
Truth
Pos Neg
TP FP
FN TN
2 × TP
2 × TP + FP + FN
Tabelle 8.6: F1 -Measure
F-Measure ignoriert TN. TP interessieren eigentlich.
Test
Accuracy =
Truth
Pos Neg
TP FP
FN TN
Pos
Neg
TP + TN
TP + TN + FP + FN
Tabelle 8.7: Accuracy
Accuracy ignoriert nichts. TP und TN interessieren gleichwertig.
8.5.4 Mitteln von Recall und Precision
F-Measure: Harmonisches vs. arithmetisches Mittel
8.5.5 Vertiefung
• Artikel zum Harmonischen Mittel in [Wikipedia 2007]
86
Abbildung 8.8: F =
2×P ×R
P +R :
y/x-Achse: Recall F-Mass [F-Mass 2006]
87
Abbildung 8.9: M =
P +R
2 :
88
Arithmetisches Mittel
9 Sprachsynthese und Spracherkennung
Lernziele
• Kenntnis über die Teilfunktionen und Verarbeitungsstufen eines typischen Systems zur
Sprachsynthese und der Spracherkennung
• Kenntnis über die Probleme und Ansätze solcher Systeme
• Kenntnis über die Einsatzmöglichkeiten von CL-Techniken
• Kenntnis über sprachtechnologische Standards
9.1 Sprachsynthese
Sprachsynthesesysteme III
Definition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einer
Zeichenkette (Text) ein akustisches Signal.
Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus.
Beispiel 9.1.2 (Ein deutscher Stolpersatz).
“Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die
Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.”
• Welche Schwierigkeiten liegen vor?
• Was kann ein TTS damit anfangen? Z.B. [German 2006]
Qualitätsmerkmale für Sprachsynthese
Was macht gute Sprachsynthese aus?
• Silbenübergänge: Wie natürlich werden Silbenübergänge lautiert?
• Wortbetonung: Sind die Betonungen bei (unbekannten) Wörtern korrekt?
• Satzmelodie/Satzbetonung: Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral?
• Sprechtempo: Zu schnell, zu langsam?
• Sprechrhythmus: Monotones Geraspel oder gegliederte Information?
• Pausen: Finden Sprechpausen (an der richtigen Stelle) statt?
Weiteres
Unterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es,
wenn das Sprechtempo stark erhöht werden kann.
89
Einsatzmöglichkeiten von Sprachsynthese
Wo ist Sprachsynthese praktisch anwendbar?
• (Mobil-)Telefonie: Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurse
usw.), welche meist mit einem Spracherkennungssystem gekoppelt sind
• Informationssysteme, welche keine visuelle Ablenkung erzeugen dürfen: Navigationssysteme im Auto, E-Mail-Vorlesesysteme im Auto usw.
• Computerarbeitsplätze für Sehbehinderte
• Künstliche Stimme für Sprechbehinderte
• Sprachenlernen
• ...
9.1.1 Architektur
Typische Architektur von TTS
Vom der Zeichenkette zum Laut
1. Tokenisierung (Satzsegmentierung, Normalisierung von Abkürzungen usw.)
2. (Flache) syntaktische Analyse für lexikalische Desambiguierung (Tagging) und für die
prosodische Gestaltung der Phrasengrenzen/Pausen und Akzente (Chunking, Parsing)
3. Lexikalische Analyse mit einem Lexikon und/oder Regeln
4. Phonologische und prosodische Analyse
5. Lautproduktion aufgrund der Lautfolge mit Information zu Lautdauer, Tonhöhe (Grundfrequenz), Lautstärke (Intensität).
Beispiel-Architektur von MARY TTS
9.1.2 Analyseebenen
Aussprache von Ziffern und Abkürzungen
Die Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischen
Kulturräumen [Liberman und Church 1992].
Frage
Welche Aussprachen sind für welche Grössen verbreitet?
Beispiel 9.1.3 (Varianten im Deutschen).
• Einzelziffern: 1456 “ Konto eins vier fünf sechs”
• Zahl: 1456 “Eintausendvierhundertsechsundfünfzig”
• Hunderter: 1456 “Vierzehnhundert(und)sechsundfünfzig”
• Paare oder Trippel: “044 344 56 10”
90
Abbildung 9.1: Architektur von MARY-TTS-System
• Ordinalzahlen: “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.”
Probleme bei Abkürzungen
Welche Schwierigkeiten stellt die Aussprache von Abkürzungen?
Phonetische Analyse: Lautfolgen und Akzente von Wörtern
Wie werden die einzelnen Laute eines Wortes in Isolation repräsentiert?
Definition 9.1.4 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch enthält für (flektierte) Wortformen oder Grundformen eine Repräsentation der Lautform (Lautfolge, Akzente) in einer Lautschrift.
Z.B. in Form der Revision 2005 des International Phonetic Alphabet (IPA) http://www.langsci.
ucl.ac.uk/ipa, bzw. einer auf Computern einfacher verwendbareren Kodierung davon.
Beispiel 9.1.5 (Formate elektronischer Aussprachewörterbücher nach [Jurafsky und Martin 2000]).
• Pronlex: +arm.xd’Il.o
• CELEX (britisch): "#-m@-’dI-15 =[a:.m@."dI.l@U],
• CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [arm2"dI.loU]
91
IPA-Lautschrift für Deutsch
Vgl. volles IPA in [Carstensen et al. 2009, 213])
Quelle: [Carstensen et al. 2004, 157]
Abbildung 9.2: IPA-Symbole für Deutsch
Phonetische Lautschrift (SAMPA German)
Eine in ASCII kodierte Notationsvariante für IPA-Symbole.
• : (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze)
• Plosive: p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem)
• Frikative: f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r
(rein), h (Hand)
• Sonoranten: m (mein), n (nein), N (lang), l (laut), j (ja)
• Ungespannte Vokale: I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a
(Satz), @ (bitte), 6 (kurz),
• Gespannte Vokale: i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot)
Frage
Wie kann man das Wort “jenseits” schreiben?
Hinweis: Das Wiktionary für Deutsch http://de.wiktionary.org ist auch ein Aussprachewörterbuch.
92
Phonologische Analyse
Welche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichen
Kontext gelten?
Definition 9.1.6 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unter
denen phonologische Alternationen statt finden.
Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafür
an.
Beispiel 9.1.7 (Phonologische Alternationen im Englischen).
Das Plural-(e)s wird nach Stammendung unterschiedlich ausgesprochen: “peaches”, “pigs”,
“cats”. III
Morphologie und Ausspracheregeln
Beispiel 9.1.8 (Aussprache von „st“ im Deutschen).
Wann spricht man „st“ als [St] und wann als [st]? Beispiele: Lastwagen, staunen, bestaunen,
Staubsauger, Feinstaub, Krebstest, zurückkrebste
Anwendung von Ausspracheregeln
Ausspracheregeln beziehen sich nicht auf das Wort, sondern auf Morphe (Vorsilben, Endungen,
Wortstämme).
Beispiel 9.1.9 (Auslautverhärtung).
Im Deutschen werden gewisse Laute entstimmlicht, wenn sie am Ende eines Morphs stehen
und nicht vor einem Vokal. „Krug“ → [’kru:g]→ [’kru:k] „Krug+s“ → [’kru:g]+[s] → [’kru:ks]
„Krug+es“ → [’kru:g]+[@s] → [’kru:g@s]
Probleme der morphologischen Analyse und Lautfolgenberechnung
• Mehrdeutigkeiten der morphologischen Analyse:
Wählerstimmen = wähl+erst+imme+n III
• Einschlüsse verschiedener Sprachen in einem Text
“Er hat dies nur contre coeur live gesungen.”
• Umgang mit Named Entities
Prosodische Analyse: Akzentuierung im Wort
Definition 9.1.10 (Wortakzent). Der Wortakzent ist diejenige Silbe eines Worts, welche am
stärksten betont wird.
Mehrsilbige Wörter und Komposita haben oft Nebenakzente.
Regelhaftigkeit von Wortakzenten im Deutschen
• Bei einfachen Wörtern eine lexikalische Information.
• Präfixe, Suffixe und Infixe sind regelhaft: be-, -lich, -tät, -al
• Bei Komposita (Zusammensetzungen) trägt immer der Wortakzent des Vorderglieds den
Hauptakzent: Hauptakzenterkennungsroutine
93
• Flexionsbetonung: Doktor vs Doktoren
Die Nebenakzente können immer durch Fokusakzentuierung semantisch/pragmatisch zum stärksten Akzent gemacht werden.
Beispiel: Prosodie [Simmons 2006b]
Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenzverlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenen
Sprache wieder.
Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm
Abbildung 9.3: Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a])
Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Computer zu analysieren, ist unter http://www.praat.org zu finden.
Prosodie: ToBI-Modell (Tones and Break Indices)
• H (high): Hohe Satzmelodie
• L (low): Tiefe Satzmelodie
• [HL]*: Auszeichnung der betonten Silbe
• [HL]+[HL]: Tonwechsel innerhalb von Wörtern
• [HL]%: Satzendebetonung
• [HL]– : Phrasenbetonung (sekundärer Satzakzent)
94
Prosodische Analyse: Phrasen und Sätze
Um Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguistische Analysen.
Beispiel 9.1.11 (Satzintonation und -rhythmus).
The government plans. . .
• . . . were defeated.
• . . . to raise taxes.
Grundregel der Phrasierung
Eine Phrasengrenze zwischen 2 benachbarten Wörtern ist umso plausibler, je stärker die Wörter
in der syntaktischen Struktur getrennt sind voneinander.
9.1.3 Sprachsignalproduktion
Sprachsignalproduktion
Prosodiesteuerung
Aus der phonologische Analyse (Laute, Akzente, Pausen, Tonhöhenverlauf) werden die prosodischen Parameter der Laute für die Sprachsynthese berechnet: Dauer, Grundfrequenz, Intensität.
Die Verwendung der klassischen linguistischen Einheit Phonem (35-50 pro Sprache) für Sprachgenerierung ergibt keine guten Systeme.
Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen?
Definition 9.1.12 (Diphone III). Ein Diphon geht von der Mitte eines Phonems zur Mitte
des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone, für
Spanisch auf 800.
Koartikulation von Lauten wird dadurch auf jeweils 2 Phonemkombinationen beschränkt. In
der Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten.
Sprachsignalproduktion: Sprachkonserven
Am primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustische
Sprachkonserven nacheinander ausgegeben werden.
Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen."
Beispiel 9.1.13 (Ein Problem zu einfacher Ansätze).
• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)
Unit Selection Databases
Ein Weiterentwicklung sind grosse Datenbanken, welche unterschiedlich grosse Einheiten (Diphone, Phone, Silben, Wörter) umfassen und eine optimale Selektion daraus versuchen.
95
Speech Synthesis Markup Language (SSML)
Dieser XML-Standard erlaubt eine strukturierte Spezifikation von verschiedenen Parametern
einer Speech-Applikation.
<p>
<s xml:lang="en-US">
<voice name="David" gender="male" age="25">
For English, press <emphasis>one</emphasis>.
</voice>
</s>
<s xml:lang="es-MX">
<voice name="Miguel" gender="male" age="25">
Para español, oprima el <emphasis>dos</emphasis>.
</voice>
</s>
</p>
http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/
9.2 Spracherkennung
Spracherkennungssysteme
Definition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus dem
akustischen Signal von gesprochener Sprache eine textuelle Darstellung.
Definition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnet
aus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung.
Spracherkennung ist schwieriger als Sprachsynthese. Warum?
Typische Architektur
Vom Sprachsignal zur Wortfolge
1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals:
Merkmalsextraktion)
2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phoneme, Diphone, Silben), mit denen sich die Wörter zusammensetzen
3. Lexikalische Analyse: Erkennen von Wortkandidaten
4. Syntaktische Analyse: Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche
5. Semantische Analyse: Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen
9.2.1 Probleme
Wortübergänge (Junkturen)
Wortgrenzen werden eher selten als Sprechpausen realisiert.
Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Verlängerung beginnender Konsonanten oder Betonung endender Vokale.
96
Definition 9.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonems
durch seine Umgebung.
Beispiel 9.2.4 (Assimilation).
R
• this year → this ear
• the old man → thiold man
Wortübergänge (Junkturen)
Beispiel 9.2.5 (Epenthese und Auslassung).
• China is → Chinaris
• best buy → besbuy
Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)).
• night-rate ↔ nitrate ; grey day ↔ grade A; why choose ↔ white shoes
• The sad poet remembers a long ago time ↔ Thus add poetry members along a goat I’m
Weitere Störfaktoren
• Unbekannte Wörter, u.a. zu kleines Lexikon
• Hintergrundsgeräusche
• Schlechte Mikrophone
• Sprecherspezifische Eigenheiten: schnelles oder undeutliches Artikulieren, dialektale Färbung
• Wenig kollaborative Kommunikation: Im Gegensatz zur menschlichen Kommunikation
weiss ein Spracherkennungssystem selten, worum es geht.
9.2.2 Worthypothesengraph
Worthypothesengraph
In einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsentiert. Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrscheinlichsten Pfad auswählen.
9.2.3 Wortfehlerrate
Wortfehlerrate (word error rate, WER)
Definition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen versteht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zu
machen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) oder
eingefügt (INS) werden.
Definition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern).
W ER = 100 ×
NSU B + NIN S + NDEL
N
97
Abbildung 9.4: Worthypothesengraph aus [Carstensen et al. 2004, 580]
Abbildung 9.5: Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581]
9.3 Dialogsysteme
9.3.1 Typen
Dialogsysteme
Ein natürlichsprachliches Dialogsystem erlaubt Kommunikation zwischen Computer und Mensch
mittels menschlicher Sprache.
Definition 9.3.1 (Kommandowortsysteme). Ein Kommandowortsystem erlaubt die einseitige
Steuerung von elektronischen Geräten durch Äusserungen.
Definition 9.3.2 (Interactive Voice Response System (IVR)). Ein IVR erlaubt die sprachliche
Navigation durch ein starres Menu. Benutzer kann nur reagieren.
Definition 9.3.3 (Conversational User Interface (CUI)). Ein CUI soll nebst der Steuerung
eines Devices den Benutzer pro-aktiv beratend unterstützen. Dialoge sollten von Mensch und
Maschine gesteuert sein (mixed-initiative dialogue).1
9.3.2 VoiceXML
VoiceXML III
Dieser XML-Standard erlaubt eine strukturierte Spezifikation von (einfachen) natürlichsprachlichen Dialogsystemen (Bestellvorgänge, Chatbots usw.), welche Web-Services via Telefon verfügbar machen.
1
http://mobile.20min.ch/de/front/28506028f/Das-digitale-Vermächtnis-von-Steve-Jobs
98
Abbildung 9.6: Anwendungsszenario VoiceXML nach [Raggett 2001]
VoiceXML beinhaltet ...
VoiceXML-Dokumente beschreiben
• Gesprochene Eingaben (synthetische Sprache)
• Ausgaben von Audiodateien und -streams
• Erkennung von gesprochenen Wörtern und Sätzen
• Erkennung von Tonwahl (DTMF)
• Aufnahme gesprochener Eingaben
• Kontrolle des Dialogflusses
• Telefoniekontrolle (Anruftransfer und Auflegen)
9.4 Vertiefung
• Pflichtlektüren: [Carstensen et al. 2009, 3.1.1-3.1.2, 3.2.2, 5.4]
• Eine umfassende technische Einführung bietet [Pfister und Kaufmann 2008]
• Für an Sprachtechnologie Interessierte: “HAL’s Legacy” http://www-mitpress.mit.edu/
e-books/Hal/chap6/six1.html
• Viele historische Beispiele für Sprachsynthese http://www.cs.indiana.edu/rhythmsp/ASA/
Contents.html
• Das didaktisch orientierte Tool MARY http://mary.dfki.de/, das wir im CLab integriert
haben.
• Beispiel emotionale Fussballreportersprache:[MARY 2006]
• SAMPA: Kurzbeschreibung unter http://de.wikipedia.org/wiki/SAMPA und Hauptseite unter http://www.phon.ucl.ac.uk/home/sampa/index.html
99
• MBROLA:http://tcts.fpms.ac.be/synthesis/mbrola.html
• http://www.voicexml.org
• Beispiele: Dialoggestaltung [excelsis 2007]; Erkennung von Dialekten [ORF 2007b, ORF 2007a]
100
10 Volltextsuche und Text Mining
Lernziele
• Kenntnis über Grundlagen der Volltextsuche
• Kenntnis über traditionelle Informationserschliessung von OPAC
• Kenntnis über die Einsatzmöglichkeiten von CL-Ansätzen beim Indexieren
• Kenntnis über das Boolsche Retrievalmodell, Relevanz-Ranking und dem Vektorraummodell
• Kenntnis über die Probleme der Auffassung von Dokument als Indexterm-Menge
• Kenntnis über Auffassungen von Text Mining
10.1 Elektronische Informationsflut
Thesen zur elektronischen Informationsflut
• Immer mehr Menschen verbreiten (produzieren?) immer schneller immer mehr elektronische textuelle Information!
• Das Internet Archive http://www.archive.org bot 2003 Zugriff auf 10 Milliarden Webseiten.
Im Mai 2006 enthält es knapp 2 Petabyte (1015 ) Daten und soll monatlich um 20 Terabyte
wachsen. Im März 2009 sind es 85 Milliarden Webseiten(versionen).
• Nicht-öffentliche Bereiche wie “Intranets” von Firmen und Verwaltungen oder auch automatisch schlecht zugängliche Seiten verstecken sich dabei noch als “deep web” unter der
Spitze des sichtbaren Eisbergs.
• Verschiedene Projekte zur Buchdigitalisierung (z.B. http://books.google.com) versuchen,
bislang nur gedruckte Information ins digitale Gedächtnis zu bringen.
Digitalisierte Bibliotheken
Nutzen und Tücken der automatischen Erfassung (OCR)
Z.B. bei http://books.google.de
Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben
Wachstum der Publikationen im biomedizinischen Bereich
2007 wurden pro Tag ca. 1900 Publikationen in der Online-Bibliographie PubMed erfasst
[Pyysalo 2008, 6]. Wachstumrate steigt jährlich um 3%.
101
Abbildung 10.1: OCR und Frakturschrift
Quelle: [Pyysalo 2008, 6]
Abbildung 10.2: In PubMed erfasste wiss. Artikel (2008 unvollständig)
102
10.1.1 Suchdilemma
Suchdilemmas
Typisches Problem bei Volltextsuche
Benutzende erhalten zuviele Treffer!
Was tun?
...
Typisches Problem bei OPAC-Suche
(OPAC=öffentlich zugänglicher elektronischer Bibliothekskatalog)
Benutzende erhalten zuwenige Treffer!
Was tun?
...
Beispiel für Anreicherung von OPAC-Information
Anreicherung des klassischen OPAC-Bibliothekskatalogs
Inhaltsverzeichnisse
Eingescannte und in Text konvertierte oder vom Verlag elektronisch gelieferte Inhaltsverzeichnisse erlauben mehr Treffer.
Beispiel 10.1.1 (Landesbibliothek Vorarlberg).
• Keine Treffer für eine Suche nach dem Autor Jewgeni Charitonow.
• Dafür Treffer via Inhaltsverzeichnis.
Abbildung 10.3: Suchoption für Inhaltsverzeichnis
Elektronisches Inhaltsverzeichnis
Vom OPAC zur digitalen Bibliothek mit Volltextsuche
Traditionelle Sachbegriff-Indexierung im OPAC
Traditionelle Sachbegriff-Organisation im OPAC
Neuere textuelle Zusatzinformationen im OPAC
103
Abbildung 10.4: Eingescanntes Inhaltsverzeichnis
Entwicklung von Online-Datenbanken
Die ersten Online-Datenbanken entstanden in den 60er Jahren. Die NASA und
Lockheed entwickelten ein System, das heute als DIALOG bekannt ist, die Ohio
Bar Association LEXIS, das heute unter LEXIS/NEXIS firmiert, der CIA und IBM
STAIRS. Die Zahl der Online-Datenbanken betrug 1965 unter 20, 1975 mehr als 300
und 1984 fast 2500.
Quelle: http://www.phil.uni-sb.de/~werner/ir/irs.htm
Beispiel 10.1.2 (PubMed: http://pubmed.org).
Online-Bibliographien wie PubMed bieten mittlerweile komplexe Datenverknüpfungsdienste
(Terminologie, Ontologie, fachspezifische Datenbanken, Literaturverknüpfungen, Abstracts, Volltexte) an: Knowledge Management.
104
Abbildung 10.5: Sachbegriff-Indexierung im NEBIS
Abbildung 10.6: Sachbegriff und Varianten im NEBIS
105
Abbildung 10.7: Textuelle Zusatzinformation im NEBIS
10.2 Volltextsuche
Volltextsuche
Definition 10.2.1 (auch Dokumentenzugriffssystem, engl. Information Retrieval (IR)). Die
klassische Volltextsuche liefert (Referenzen auf) Dokumente zurück, welche für eine Kombination von Suchtermen und Suchkriterien (=Anfrage, query) relevant sind. Die Suchterme selbst
können beliebige im Text vorkommende Ausdrücke sein – es wird nicht wie bei Bibliothekskatalogen mit geschlossenen Sachbegriffen indiziert.
Hinweis zu den Einheiten des Retrievals
Anstelle von ganzen Dokumenten als Suchresultat kann man auch kleinere Textstellen (engl.
passage retrieval) als Wiedergewinnungseinheit definieren.
Beispiel 10.2.2 (Googles define-Operator).
Gewisse Suchmaschinen unterstützen die Suche nach definitionsartigen Passagen.
10.2.1 Indexieren
Indexieren
Definition 10.2.3 (Volltext-Indexieren). Beim Indexieren einer Dokumentensammlung werden
(fast) alle Wörter jedes Dokuments ausgewählt, zu Indextermen normalisiert und im Index
abgelegt.
Definition 10.2.4 (Index). Ein Index eines IR-Systems ist eine Daten(infra)struktur, aus der
sich für jeden Indexterm effizient bestimmen lässt, in welchen Dokumenten er vorkommt.
106
Meta-Information zu Dokumenten
IR-System erlauben oft, Einschränkung bezüglich Alter, Sprache, Herkunft etc. von Dokumenten in die Anfrage einzubauen. Solche Informationen müssen für jedes Dokument gespeichert
werden.
Beispiel: Vorkommensmatrix in Shakespeare-Stücken
Term-document incidence matrix nach [Manning et al. 2009]
Anthony
Julius
The
Hamlet Othello Macbeth
and
Caesar Tempest
Cleopatra
Anthony
1
1
0
0
0
1
Brutus
1
1
0
1
0
0
Caesar
1
1
0
1
1
1
Calpurnia
0
1
0
0
0
0
Cleopatra
1
0
0
0
0
0
mercy
1
0
1
1
1
1
worser
1
0
1
1
1
0
...
...
Lesebeispiele
Der Term „Calpurnia“ kommt im Stück Julius Caesar vor.
Der Term „Calpurnia“ kommt im Stück The Tempest nicht vor.
Effizienter Index
Speicherplatzprobleme der Vorkommensmatrix
• 1 Million Dokumente mit je 1000 Tokens zu 6 Bytes pro Token braucht 6 GB Speicherplatz.
• Es finden sich darin typischerweise 1/2 Million Indexterme.
• Eine naive Repräsentation der Vorkommensmatrix benötigt also 500’000 × 1’000’000 Bits,
d.h. ca. 58GB.
Fast alle Tabellenzellen sind 0
Aus Effizienzgründen sollte nur gespeichert werden, in welchen Dokumenten ein Term tatsächlich
vorkommt.
Dictionary
Die Menge aller Indexterme (dictionary) sollte im Hauptspeicher Platz finden. Durch Termnormalisierung und Stoppwörter lassen sich ca. 1/3 der Indexterme entfernen. [Manning et al. 2009,
89]
Invertierter Index (inverted index)
• Jedes Dokument erhält eine ID (DocID).
• Für jeden Term t speichern man die sortierte Liste der DocIDs (posting list), welche t
enthalten.
107
Brutus
−→
1
2
4
11
31
45
173
174
Caesar
−→
1
2
4
5
6
16
57
132
Calpurnia
−→
2
31
54
101
...
..
.
|
{z
}
dictionary
|
{z
postings
}
Auswahl der Indexterme
Nach der Tokenisierung werden aus Gründen der Effizienz und/oder Relevanz oft bestimmte
Wörter (noise words) ausgefiltert.
• Allgemeine Funktionswörter einer Sprache, welche meist häufig vorkommen (Stoppwortliste): der, die, das ...ich, du, er ...auf, unter, in ...und, oder ...bin, bist,
ist, hast ...
• Bei inhaltlich homogenen Dokumentensammlungen manchmal auch Inhaltwörter, welche
fast in allen Dokumenten vorkommen und dadurch keinen informativen Wert besitzen.
Z.B. in Dokumenten zur Informatik: System, Computer ...
Es gibt auch Suchmaschinen, welche alles indizieren – interessant für CL-Ansätze “WWW als
Korpus”.
Eine kleine Stoppwortliste für Englisch III
a about after again ago all almost also always am an and another any anybody anyhow anyone
anything anyway are as at away back be became because been before being between but by
came can cannot come could did do does doing done down each else even ever every everyone
everything for from front get getting go goes going gone got gotten had has have having he her
here him his how i if in into is isn’t it just last least left less let like make many may maybe me
mine more most much my myself never no none not now of off on one onto or our ourselves out
over per put putting same saw see seen shall she should so some somebody someone something
stand such sure take than that the their them then there these they this those through till to too
two unless until up upon us very was we went were what what’s whatever when where whether
which while who whoever whom whose why will with within without won’t would wouldn’t yet
you your
Indexterme normalisieren
Die Normalisierung kann keine bis viel Sprachtechnologie enthalten:
• Reduktion auf orthographische Normalform (Ä → ä; ä → ae ; ph → f)
• Trunkierung (veraltet): Abschneiden von Wortenden bei Wörtern ab einer Mindestlänge
auf einen Präfix fixer Länge
analys|ieren → analys
Analys|e → analys
analyt|isch → analyt
108
• Stemming (z.B. noch in Suche im Acrobat Reader): Einzelsprachliche Kürzungsregeln,
welche ohne Lexikoneinsatz Wortformen auf ihren Stamm (stem) reduzieren.
Stemming mit dem Porter-Stemmer III
Beispiel 10.2.5 (Porter-Stemmer für Englisch).
These analyses seemed especially analytic.
these → these
analyses → analys
seemed → seem
especially → especi
analytic → analyt
Indexterme normalisieren
• Lemmatisierung: Reduktion von syntaktischen Wortformen flektierter Sprachen auf ihre
Grundform: “aufgegessen” → “aufessen”
• Kompositaanalyse: Auflösung von Komposita in ihre Bestandteile: “Schwimmunterricht”
→ “schwimm” “unterricht”
• Derivationsauflösung: Auflösung von derivierten Ausdrücken: “Überzeugung” “überzeugen”→
“überzeugen”
• Synonymerkennung: Auflösung von engeren Synonymen oder verwandten Bezeichnungen:
“Rechenmaschine”→ “Computer”, “Luisa” → “Louise”
• “Named Entity Recognition”: Erkennung von Personen-Angaben (Google-Squared), Erkennung von Datumsangaben für “Timelines”
Beispiele
Beispiel: Automatisches Indexieren von OPAC-Daten
10.2.2 Architektur
IR-System-Architektur [Carstensen et al. 2004, 483]
Frage
Warum hat es zwischen dem Kästchen “Anfrage-Compiler” und “Termextraktion und linguistische Normalisierung” eine Verbindung?
10.2.3 Retrieval
Dokument als Menge von Indextermen
Definition 10.2.6 (engl. bag of words (BOW)). Im IR wird ein Dokument meist als Menge
von Indextermen betrachtet.
Definition 10.2.7 (Boolsches Retrievalmodell). Im Boolschen Retrievalmodell werden die einzelnen Suchterme der Anfrage mit den logischen Operatoren “UND”, “ODER” und “NICHT”
verknüpft zu einer komplexen Anfrage.
109
Wie indizieren?
rohe Wortform im Text
mit oder ohne orthographische Normalisierung
mit Stoppworterkennung
auf Grundform normalisiert
mit Derivations- und Komposita-Auflösung (Dekomposition)
mit Erkennung von Mehrwortlexemen bzw. Terminologie
mit Erkennung von Namen
mit Synonymen bzw. Deskriptoren aus Schlagwortdatei
mit Hypernymen
mit semantischer Desambiguierung
mit Relevanzkriterien der Terme für das Dokument
Quelle: Oberhauser/Labner 2003
Automatische Indexieren mit IDX/MILOS
Beispiel I
Grad an linguistischer Aufbereitung
CL in IuD II – 6
Quelle:[Oberhauser und Labner 2003]
Quelle: Oberhauser/Labner 2003
Automatisches Indexieren mit IDX/MILOS
Beispiel 2
Abbildung 10.8: Automatisches Indizieren von OPAC-Informationen: Gut
Quelle:[Oberhauser und Labner 2003]
Abbildung 10.9: Automatisches Indizieren von OPAC-Informationen: Schlecht
Beispiel 10.2.8 (Logische Operatoren).
Die Anfrage Schuhmacher UND Suzuka UND (NICHT Michael) bedeutet:
Finde alle Dokumente, welche
• den Indexterm Schuhmacher und Suzuka enthalten, aber
• den Indexterm Michael nicht enthalten.
110
Abbildung 10.10: Generelle Architektur von IR-Systemen nach [Carstensen et al. 2004]
Probleme des Boolschen Retrievalmodells
Zweiwertigkeit
Wegen der klassischen Zweiwertigkeit, d.h. keine partiellen Treffer, können (bei kleineren Dokumentensammlungen) Null-Treffermengen entstehen.
Bei grossen Dokumentensammlungen wiederum können übergrosse Treffermengen entstehen.
Eine gute Reihenfolge der Suchresultate nach Relevanz ist notwendig (erweitertes Boolsches
Modell)
Dokument als Indexterm-Menge
Die Dependenzen zwischen den Wörtern lassen sich nicht darstellen. Ein Aufsatztitel wie “A
formal specification language for the automatic design of chips by computer” bedeutet dasselbe
wie die Wortmenge “automatic, chip, computer, design, formal, language, specification”.
111
Problem der Mengen-Repräsentation für die Suche
Beispiel 10.2.9 (Dokument mit seine Termmenge).
Dokument: “A formal specification language for the automatic design of chips by computer”
Termmenge: “automatic, chip, computer, design, formal, language, specification”
Beispiel 10.2.10 (Anfragen und ihre Term-Mengen).
• languages for the design by computer:
language UND design UND computer
• the specification of computer languages
specification UND computer UND languages
Welches Problem haben wir?
10.2.4 Relevanz
Relevanzabschätzung von Indextermen
Um die Relevanz von Indextermen gegenüber Dokumenten, welche sie enthalten, abschätzen zu
können, werden unterschiedlichste Masse angewendet und kombiniert.
Definition 10.2.11 (engl. term frequency (TF)). Die Relevanzhypothese zur Termhäufigkeit
besagt: Je häufiger ein Indexterm in einem Dokument erscheint, umso relevanter ist das Dokument für den Term.
Definition 10.2.12 (engl. inverse document frequency (IDF)). Die Relevanzhypothese zur inversen Dokumenthäufigkeit besagt: Je seltener ein Indexterm eines Dokuments d in anderen
Dokumenten der Gesamtkollektion D erscheint, umso relevanter ist Dokument d für den Indexterm.
Überlegungen zu Stoppwörter, TF und IDF
Fragen
1. Wie verhalten sich typische Stoppwörter bezüglich TF und IDF?
2. Wie verhält sich ein Wort bezüglich TF und IDF, das in einer Dokumentensammlung nur
1 Vorkommen hat?
3. Welche Auswirkungen hat es, wenn eine Dokumentensammlung sowohl sehr kurze wie
auch extrem lange Dokumente enthält?
4. Wie könnte man die Information über TF und IDF miteinander kombinieren zu einer
einzigen Bewertung?
112
Die TF/IDF-Formel nach [Salton 1988]
• N die Anzahl Dokumente einer Dokumentenmenge D, N = |D| .
• d ein Dokument aus der Dokumentenmenge D
• i ein Indexterm
• df i die Anzahl der Dokumente aus D, welche Indexterm i enthalten
• tf d,i die Anzahl der Vorkommen von Indexterm i im Dokument d (TF)
• wd,i das Gewicht (Relevanz), welche dem Dokument d bezüglich dem Indexterm i zukommt
×
wd,i = tf d,i
| {z }
TF
Fragen
Welche Werte kann tf d,i und
N
df i
log
N
df i
| {z }
IDF
maximal/minimal annehmen? Was macht log?
Vektorraummodell
Definition 10.2.13 (Vektorraummodell (vector space model)). Ein einfaches Vektorraummodell entsteht, wenn in der Vorkommensmatrix anstelle der 1 das Gewicht (z.B. klassisch TF/IDF)
eingetragen wird. Jede Zeile in Vorkommensmatrix ist ein Vektor (Folge von Werten).
Beispiel 10.2.14 (Interaktive Demo zu Vektorraummodell).
http://kt2.exp.sis.pitt.edu:8080/VectorModel/main.html
Idee: Relevanz als Vektorähnlichkeit
• Anfrageterme werden wie Dokumentvektoren repräsentiert
• Relevanz von Anfrage = Ähnlichkeit von Anfragevektor mit Dokumentvektor
• Verschiedene Ähnlichkeitsmasse, z.B. euklidische Distanz, Cosinus, etc.
10.3 Text-Mining
Das Problem
Volltextsuche vs. Text-Mining
• In der Volltextsuche geht es darum, ad hoc ein Informationsbedürfnis zu stillen, indem
relevante Dokumente gefunden werden, welche die Information (hoffentlich) enthalten.
• Im Text-Mining geht es darum, automatisch neue Information aus Texten zu erschliessen.
Data-Mining vs. Text-Mining
• Im Data-Mining wird mit statistischen und Methoden der künstlichen Intelligenz versucht,
aus strukturierten Daten Ähnlichkeiten, Tendenzen und Zusammenhänge in grossen Datenmengen zu entdecken.
• Im Text-Mining soll dasselbe aus Text-Daten heraus geschehen – der grössten Informationsquelle überhaupt.
113
Literature Based Discovery [Hearst 1999]
Ein reales Beispiel aus der Medizin zur Forschungsinspiration:
“When investigating causes of migraine headaches, he [Don Swanson] extracted various pieces
of evidence from titles of articles in the biomedical literature:”
Paraphrasen:
• stress is associated with migraines
• stress can lead to loss of magnesium
• calcium channel blockers prevent some migraines
• magnesium is a natural calcium channel blocker
• migraine patients have high platelet aggregability
• magnesium can suppress platelet aggregability
• ...
Daraus entstand die Hypothese, dass Magnesium und Migräne in einem Zusammenhang stehen
können.
Modernes biomedizinisches Text-Mining
Unser Institutsprojekt ontogene.org hat an verschiedenen Text-Mining-Wettbewerben (shared
task) teilgenommen.
Beispiel 10.3.1 (Biocreative 3 im 2010: http://www.biocreative.org).
• Gene Normalization Task: Erkennung von Erwähnungen von Genen in biomedizinischen
Texten und Normalisierung der Erwähnungen auf eindeutige Identifikatoren von GenDatenbanken
• Protein-Protein Interactions: (a) Erkennung, ob ein Dokument relevante Interaktionen
von Proteinen enthält. (b) Erkennung, mit welcher experimentellen Labormethode eine
Interaktion festgestellt wurde.
10.4 Vertiefung
Pflichtlektüre
Kapitel 5.3.1 bis Seite 590 aus [Carstensen et al. 2009]
• Einführungskapitel des frei verfügbaren IR-Buches [Manning et al. 2009]
• Infos und interaktive Demos von Methoden zum Thema “Information Retrieval” http:
//ir.exp.sis.pitt.edu/res2/resources.php
• Vertiefungslektüre zum Thema “Text-Mining” [Hearst 1999]
• Lerneinheit “Reduzieren von Wortformen” im CLab zu verschiedenen Themen der Normalisierung von Wortformen: http://www.cl.uzh.ch/clab/reduzieren/
114
11 Literaturverzeichnis
[Abney 1991] Abney, Steven (1991). Parsing by Chunks, In: Berwick, Robert, S. Abney
und C. Tenny, Hrsg.: Principle-Based Parsing. Kluwer Academics. 41, 82
[Beesley und Karttunen 2003] Beesley, Kenneth R. und L. Karttunen (2003). FiniteState Morphology: Xerox Tools and Techniques. CSLI Publications. 38
[Bird et al. 2009] Bird, Steven, E. Klein und E. Loper (2009). Natural Language Processing with Python. O’Reilly. 75
[Brants 1999] Brants, Thorsten (1999). Tagging and Parsing with Cascaded Markov Models. Automation of Corpus Annotation, Saarbrücken Dissertations in Computational Linguistics and Language Technology 6. Saarland University. 79
[Bussmann 2002] Bussmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Kröner,
Stuttgart, 3., aktual. und erw. Aufl. 15, 48, 51, 62, 66
[Carstensen et al. 2004] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,
R. Klabunde und H. Langer, Hrsg. (2004). Computerlinguistik und Sprachtechnologie
: Eine Einführung. Elsevier, München. 92, 98, 109, 111
[Carstensen et al. 2009] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,
R. Klabunde und H. Langer, Hrsg. (2009). Computerlinguistik und Sprachtechnologie
: Eine Einführung. Spektrum, München. 18, 28, 29, 84, 92, 99, 114
[Cavnar und Trenkle 1994] Cavnar, William B und J. M. Trenkle (1994). N-GramBased Text Categorization, In: Proceedings of SDAIR94 3rd Annual Symposium on Document Analysis and Information Retrieval, S. 161–175. Citeseer, http://citeseerx.ist.psu.edu/
viewdoc/download?doi=10.1.1.21.3248&amp;rep=rep1&amp;type=pdf. 28
[Clematide 2007] Clematide, Simon (2007). Tagger-Training und Evaluation mit TnT ,
http://www.cl.uzh.ch/siclemat/lehre/papers/tnt-training2007.txt. 76
[Covington 2003] Covington, Michael A (2003). ET: an Efficient Tokenizer in ISO Prolog, http://www.cl.uzh.ch/siclemat/lehre/papers/Covington2003.pdf. 21
[Cutting et al. 1992] Cutting, D, J. Kupiec, J. Pedersen und P. Sibun
(1992).
A Practical Part-of-Speech Tagger, In: Proceedings of the Third Conference on Applied Natural Language Processing, Trento, S. 133–140, Trento. Association for Computational Linguistics, http://www.aclweb.org/anthology/A92-1018.pdf,
http://www.cl.uzh.ch/siclemat/lehre/papers/CuttingKupiec1992.pdf. 74
[Dudenredaktion 2005] Dudenredaktion, Hrsg. (2005). Duden, die Grammatik: Unentbehrlich für richtiges Deutsch, Bd. 4 d. Reihe Der Duden. Dudenverlag, 7. Aufl. 62
115
[EAGLES 1996] EAGLES
(1996).
ELM-DE:
EAGLES
Specifications
for
German
morphosyntax:
Lexicon
Specification
and
Classification
Guidelines,
electronic,
http://www.ilc.cnr.it/EAGLES96/pub/eagles/lexicons/elm_de.ps.gz,
http://www.cl.uzh.ch/siclemat/lehre/papers/EAGLES1996.pdf. 52
[excelsis 2007] excelsis
(2007).
Hörbeispiel:
Fussball-WM-Auskunft,
http://www.excelsisnet.com/download/voicedemos/DemoWM2002.mp3,
http://www.cl.uzh.ch/siclemat/lehre/papers/excelsis2007.mp3. 100
[F-Mass 2006] F-Mass (2006). F1 -Mass in 3D als Funktion von Recall (x) und Precision (y),
http://www.cl.uzh.ch/siclemat/lehre/papers/F-Mass2006.mov. 87
[Gallmann und Sitta 2010] Gallmann, Peter und H. Sitta (2010). Deutsche Grammatik.
Lehrmittelverlag, 6. Aufl. 51, 72
[German 2006] German,
Klara
(2006).
AT&T
Beispielsatz
Deutsch,
http://www.research.att.com/~ttsweb/tts/demo.php,
http://www.cl.uzh.ch/siclemat/lehre/papers/German2006.mp3. 89
[Grefenstette und Tapanainen 1994] Grefenstette, Gregory und P. Tapanainen (1994).
What is a Word, What is a Sentence? Problems of Tokenisation, In: Proceedings of the 3rd Conference on Computational Lexicography and
Text Research, COMPLEX’94 , Budapest. http://citeseer.ist.psu.edu/grefenstette94what.html,
http://www.cl.uzh.ch/siclemat/lehre/papers/GrefenstetteTapanainen1994.pdf. 25, 27, 28
[Grover 2008] Grover,
Claire
(2008).
LT-TTT2
Example
Pipelines
Documentation,
http://www.ltg.ed.ac.uk/software/lt-ttt2,
http://www.cl.uzh.ch/siclemat/lehre/papers/Grover2008.pdf. 22
[Hearst 1999] Hearst, Marti A. (1999). Untangling text data mining, In: Proceedings of
the 37th annual meeting of the Association for Computational Linguistics on Computational
Linguistics, S. 3–10, Morristown, NJ, USA. Association for Computational Linguistics. 114
[ICL 2011a] ICL (2011a). Informationen zur Leistungsüberprüfung für Bachelorstudierende,
http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2011.pdf. 9
[ICL 2011b] ICL (2011b). Informationen zur Leistungsüberprüfung für Lizentiatsstudierende,
http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2011a.pdf. 9
[Jurafsky und Martin 2000] Jurafsky, Daniel und J. H. Martin (2000). Speech and
Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall. 17, 91
[Kassensturz 2006] Kassensturz (2006).
Sendung Kassensturz vom 10. Oktober,
http://www.cl.uzh.ch/siclemat/lehre/papers/Kassensturz2006.mov. 11
[Liberman und Church 1992] Liberman, Mark und K. W. Church (1992). Text Analysis and Word Pronunciation in Text-to-Speech Synthesis, In: Furui, Sadaoki und M. M.
Sondhi, Hrsg.: Advances in Speech Signal Processing, S. 791–832. Marcel Dekker, New York.
90
[Linke et al. 2001] Linke, Angelika, M. Nussbaumer und P. R. Portmann, Hrsg. (2001).
Studienbuch Linguistik. Niemeyer. 49
116
[Manning et al. 2009] Manning, Christopher, P. Raghavan und H. Schütze (2009).
An Introduction to Information Retrieval. Cambridge University Press, http://www.
informationretrieval.org. 107, 114
[MARY 2006] MARY, Male (2006). Hörbeispiel Sprachsynthese: Emotionaler Fussballreporter, http://www.cl.uzh.ch/siclemat/lehre/papers/MARY2006.mp3. 99
[Oberhauser und Labner 2003] Oberhauser, Otto und J. Labner (2003). OPACErweiterung durch automatische Indexierung: Empirische Untersuchung mit Daten aus
dem Österreichischen Verbundkatalog, In: ODOK ’03 : 10. Österreichisches OnlineInformationstreffen ; 11. Österreichischer Dokumentartag. 110
[ORF 2007a] ORF
(2007a).
Hörbeispiel
1:
Sprechender
Fahrplan
Salzburg,
http://salzburg.orf.at/magazin/leben/stories/73906/,
http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007a.mp3. 100
[ORF 2007b] ORF
(2007b).
Hörbeispiel
3:
Sprechender
Fahrplan
Salzburg,
http://salzburg.orf.at/magazin/leben/stories/73906/,
http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007.mp3. 100
[Palmer 2000] Palmer, David D (2000). Tokenisation and Sentence Segmentation, In: Dale,
Robert, H. Moisl und H. Somers, Hrsg.: Handbook of natural language processing, S. 11–
35. New York. 28
[Pfister und Kaufmann 2008] Pfister, Beat und T. Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, SpringerLehrbuch. Springer, Berlin. 99
[Plaehn 1998] Plaehn,
Oliver
(1998).
ANNOTATE:
http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn1998a.pdf. 58
[Plaehn 2000] Plaehn, Oliver (2000).
ANNOTATE v3.6
http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn2000.txt. 58
Bedienungsanleitung,
–
Quick
Reference,
[Pyysalo 2008] Pyysalo, Sampo (2008). A Dependency Parsing Approach to Biomedical
Text Mining, Department of Information Technology; TUCS, http://oa.doria.fi/handle/10024/
39934. 101, 102
[Raggett 2001] Raggett, Dave (2001). Dave Raggett’s Introduction to VoiceXML 2.0 , http:
//www.w3.org/Voice/Guide/. 99
[Salton 1988] Salton, Gerard (1988). Automatic text processing : the transformation, analysis, and retrieval of information by computer. Addison-Wesley, Reading, Mass. 113
[Schiller et al. 1999] Schiller, Anne, S. Teufel und C. Stöckert (1999). Guidelines für
das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset), http://www.ims.
uni-stuttgart.de/projekte/corplex/TagSets/stts-1999.pdf. 52
[Schmid 2006] Schmid, Helmut (2006).
TreeTagger, http://www.ims.uni-stuttgart.de/
projekte/corplex/TreeTagger/DecisionTreeTagger.html. 21
[Simmons 2006a] Simmons
(2006a).
Hörbeispiel
ToBi:
Bloomingdales,
http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm,
http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006a.mp3. 7, 94
117
[Simmons 2006b] Simmons, Anita (2006b).
Sound-Datei zu Beispielsatz ”There ‘s a
lovely one in Bloomingdale.“, http://anita.simmons.edu/~tobi/chap2-7/bloomingdales1.wav,
http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006.mp3. 94
[Steiner 2003] Steiner, Petra (2003). Das revidierte Münsteraner Tagset / Deutsch
(MT/D). Beschreibung, Anwendung, Beispiele und Problemfälle, http://santana.uni-muenster.
de/Publications/tagbeschr_final.ps. 52
[Stocker et al. 2004] Stocker, Christa, D. Macher, R. Studler, N. Bubenhofer,
D. Crevlin, R. Liniger und M. Volk (2004). Studien-CD Linguistik: Multimediale Einführungen und interaktive Übungen zur germanistischen Sprachwissenschaft, Max Niemeyer
Verlag, http://www.ds.uzh.ch/studien-cd. 51, 62
[Tjong Kim Sang und Buchholz 2000] Tjong Kim Sang, Erik F. und S. Buchholz
(2000). Introduction to the CoNLL-2000 Shared Task: Chunking, In: Cardie, Claire,
W. Daelemans, C. Nedellec und E. Tjong Kim Sang, Hrsg.: Proceedings of CoNLL2000 and LLL-2000 , S. 127–132. Lisbon, Portugal. 46, 47
[Traunmüller 1997] Traunmüller, Hartmut (1997). Geschichte der Sprachsynthese, http:
//www.ling.su.se/staff/hartmut/kempln.htm. 12
[Turing 1950] Turing, A. M. (1950). Computing Machinery and Intelligence, Mind,
59(236):433–460, http://cogprints.org/499/00/turing.html. 17
[Universitätsrat 2004] Universitätsrat (2004).
Richtlinie über die Umsetzung des
Bologna-Prozesses an der Universität Zürich, http://www.studienreform.unizh.ch/dokumente/
richtlinien.pdf. 10
[Volk und Schneider 1998] Volk, Martin und G. Schneider (1998). Comparing a statistical and a rule-based tagger for German, In: Proceedings of KONVENS-98 , S. 125–137,
Bonn. http://www.cl.uzh.ch/siclemat/lehre/papers/VolkSchneider1998.pdf. 75
[Weisser 2005] Weisser, Martin (2005).
Computational Philology, http://ell.phil.
tu-chemnitz.de/compPhil/intro.html [cited Mittwoch, 11. Oktober 2006]. 13
[Wikipedia 2006] Wikipedia (2006). Loebner-Preis — Wikipedia, Die freie Enzyklopädie,
http://de.wikipedia.org/w/index.php?title=Loebner-Preis&oldid=22274242. 17
[Wikipedia 2007] Wikipedia (2007). Harmonic mean — Wikipedia, The Free Encyclopedia,
http://en.wikipedia.org/w/index.php?title=Harmonic_mean&oldid=107249796. 86
[Wikipedia 2009] Wikipedia (2009). Kognitionswissenschaft — Wikipedia, Die freie Enzyklopädie, http://de.wikipedia.org/w/index.php?title=Kognitionswissenschaft. 17
118
Index
10-fache Kreuzvalidierung, 79
Junktur, 97
Adjektiv-Flexion, 56
Alphabet, 31
Eingabealphabet, 34
Assimilation, 97
Aussprachewörterbuch, elektronisch, 91
Kasus, 55
Kern, 65
Koartikulation, 97
Kognitionswissenschaft, 17
Komparation, siehe Grad
Konstituente, 62
Konstituentenanalyse, 62
Konstituenz, 62
Koordination, 70
Kopf, 65
BOW, 109
Computerlinguistik, 11
Data-Mining, 113
DEA, 34
Dependenz, 66
Dialogsystem
Conversational User Interface, 98
Interactive Voice Response System, 98
Kommandowortsystem, 98
Diphon, 95
Dokument als Menge von Indextermen, 109
Dokumenthäufigkeit, inverse, siehe IDF
Lemma, 50
Lemmatisierung, 58
Levenshtein Editierdistanz, siehe Editierdistanz, minimal
Lexem, 50
Lexemverband, 50
Linguistik, 15
Merkmal, morphologisch, 53
Modus, 55
Morphologie, 16
Morphologieanalyse, 58
Morphologiegenerierung, 58
Editierdistanz, minimal, 97
Einsetzprobe, 57
Endzustand, 34
Epsilon, 31
Ersatzprobe, 57
Evaluation, 78
Named Entity Regonition, 27
NER, 27
Numerus, 54, 56
F-Measure, 46, 81
Oronym, 97
Genus, 54
Grad, 56
Grundfrequenzverlauf, 94
partielle syntaktische, 41, 82
Person, 55
Phonem, 15
Phonetik, 15
Phonologie, 15
Pragmatik, 16
Precision, 45, 80
Probe, linguistisch, 56
IDF, 112
Index, 106
Indexieren, 106
IOB-Chunks, 46, 83
IPA, 15
IR, 106
119
Qualität einer Evaluation, 78
XML-Standard, 23
Recall, 45, 79
Regeln, phonologisch, 93
regulärer Ausdruck, 22
Reliabilität, 78
Retrievalmodell, Boolsch, 109
Zeichenkette, 31
Zeichenkette, leer, 31
Zustand, 34
Zustandsübergangsfunktion, 34
Satz, 62
Schallwellen, 94
Semantik, 16
Sigma, 31
Silbentrennung, 26
Spracherkennungssystem, 96
Sprachsynthesesystem, 89
Sprachtechnologie, 12
Startzustand, 34
Syntaktische Funktion, 66
Syntax, 16
Tag-Set, 73
Tagging-Genauigkeit, 78
Tempus, 55
Termhäufigkeit, siehe TF
Text-Mining, 113
Text-Segmentierung, 19
TF, 112
Token, 49
TTS, siehe Sprachsynthesesystem
Umformungsprobe, 61
Validität, 78
Vektorraummodell, 113
Verschachtelte Chunks, 47, 83
Verschiebeprobe, 61
volle syntaktische, 41
Volltextsuche, klassisch, 106
Vorkommensmatrix, 107
Weglassprobe, 60
WER, siehe Wortfehlerrate
Wort, 31, 48
Wort,syntaktisch, 50
Wortakzent, 93
Wortarten, 51
Wortarten-Tagger, 73
Wortfehlerrate, 97
Wortform, 49
120