Einführung in die Computerlinguistik I

Transcription

Einführung in die Computerlinguistik I
Vorlesungsskript
∗
Einführung in die Computerlinguistik I
Institut für Computerlinguistik
Universität Zürich
http://www.cl.uzh.ch
Interaktive Lerneinheiten zur Vorlesung
http://www.cl.uzh.ch/ict-open/clabis?vl=ecl1
Simon Clematide
[email protected]
Schriftliche Übungen:
Rico Sennrich
Rico.Sennrich @ access.uzh.ch
Herbstsemester 2008
Version von 18. Dezember 2008
∗
PDF-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/script.pdf
HTML-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.html
OLAT-Url:
https://www.olat.uzh.ch/olat/auth/repo/go?rid=511836166&guest=true&lang=de
Inhaltsverzeichnis
1 Organisatorisches
1.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Was ist CL?
2.1 Motivation . . . . . . . . . . .
2.2 Fachrichtungen . . . . . . . .
2.2.1 Computerlinguistik . .
2.2.2 Sprachtechnologie . . .
2.2.3 Weiteres . . . . . . . .
2.2.4 Anliegen . . . . . . . .
2.3 Nachbardisziplinen . . . . . .
2.3.1 Linguistik . . . . . . .
2.3.2 Kognitionswissenschaft
2.4 Krux . . . . . . . . . . . . . .
2.5 Vertiefung . . . . . . . . . . .
9
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
12
12
13
13
15
15
15
17
18
18
3 Linguistisches Propädeutikum I
3.1 Wort . . . . . . . . . . . . . . . . . .
3.1.1 Definition . . . . . . . . . . .
3.1.2 Token . . . . . . . . . . . . .
3.1.3 Wortform . . . . . . . . . . .
3.1.4 synt. Wort . . . . . . . . . . .
3.1.5 Lexem . . . . . . . . . . . . .
3.2 Wortarten . . . . . . . . . . . . . . .
3.2.1 5 Hauptwortarten nach Glinz
3.2.2 STTS . . . . . . . . . . . . .
3.3 Morphologische Merkmale . . . . . .
3.3.1 Genus . . . . . . . . . . . . .
3.3.2 Zahl . . . . . . . . . . . . . .
3.3.3 Kasus . . . . . . . . . . . . .
3.3.4 Modus . . . . . . . . . . . . .
3.3.5 Zeit . . . . . . . . . . . . . .
3.3.6 Person . . . . . . . . . . . . .
3.3.7 Grad . . . . . . . . . . . . . .
3.3.8 Flexion . . . . . . . . . . . .
3.4 Vertiefung . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
19
20
20
20
21
21
21
22
23
24
24
24
25
25
25
26
26
26
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Linguistisches Propädeutikum II
27
4.1 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.1 Ersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.2 Einsetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
29
29
30
30
30
31
32
33
34
34
35
36
5 Tokenisierung
5.1 Tokenisierer . . . . . . . . . .
5.1.1 Grundproblem . . . .
5.1.2 Kodierung . . . . . . .
5.1.3 Markup . . . . . . . .
5.1.4 Programme . . . . . .
5.2 XML . . . . . . . . . . . . . .
5.3 Tokenisierung . . . . . . . . .
5.3.1 Problem . . . . . . . .
5.3.2 Punktdesambiguierung
5.3.3 Normalisierung . . . .
5.3.4 NER . . . . . . . . . .
5.4 Vertiefung . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
37
37
38
38
41
42
42
42
43
44
45
6 Flache Satzverarbeitung
6.1 Tagging . . . . . . . . . . . . . . . . . . .
6.1.1 Probleme . . . . . . . . . . . . . .
6.2 Evaluation . . . . . . . . . . . . . . . . . .
6.2.1 Zweck . . . . . . . . . . . . . . . .
6.2.2 Accuracy . . . . . . . . . . . . . .
6.2.3 Lernkurven . . . . . . . . . . . . .
6.2.4 Recall . . . . . . . . . . . . . . . .
6.2.5 Precision . . . . . . . . . . . . . .
6.2.6 F-Measure . . . . . . . . . . . . . .
6.3 Chunking . . . . . . . . . . . . . . . . . .
6.3.1 Abney . . . . . . . . . . . . . . . .
6.3.2 IOB-Chunk . . . . . . . . . . . . .
6.3.3 Verschachtelte Chunks . . . . . . .
6.4 Vertiefung . . . . . . . . . . . . . . . . . .
6.5 Exkurs: Evaluation binärer Klassifikatoren
6.5.1 TP:FP:FN:TN . . . . . . . . . . .
6.5.2 Fehlerparadoxe . . . . . . . . . . .
6.5.3 Unterschiede . . . . . . . . . . . .
6.5.4 Mittelwerte . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
46
46
48
50
51
51
52
52
52
53
53
55
55
56
56
57
57
57
58
58
4.2
4.3
4.4
4.5
4.1.3 Weglassen . .
4.1.4 Verschieben .
4.1.5 Umformen . .
Satz . . . . . . . . .
Syntaxanalyse . . . .
4.3.1 Konstituenz .
4.3.2 Köpfe . . . .
4.3.3 Dependenz .
4.3.4 Satzglieder .
Baumbanken . . . .
4.4.1 NEGRA . . .
4.4.2 TIGERSearch
Vertiefung . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
6.5.5
Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
7 Volltextsuche und Text Mining
7.1 Informationsflut . . . . . . .
7.1.1 Suchdilemma . . . .
7.2 Volltextsuche . . . . . . . .
7.2.1 Indexieren . . . . . .
7.2.2 Architektur . . . . .
7.2.3 Retrieval . . . . . . .
7.2.4 Relevanz . . . . . . .
7.3 Text-Mining . . . . . . . . .
7.4 Vertiefung . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
61
61
61
64
65
68
69
71
72
72
8 Kondensation und Klassifikation
8.1 Zusammenfassung . . . . .
8.1.1 Modell . . . . . . . .
8.1.2 Terminologie . . . .
8.1.3 Ansätze . . . . . . .
8.2 IE . . . . . . . . . . . . . .
8.2.1 IE vs. IR . . . . . .
8.2.2 Klassische IE . . . .
8.3 Klassifikation . . . . . . . .
8.3.1 Kategorisieren . . .
8.3.2 Clustering . . . . . .
8.4 Vertiefung . . . . . . . . . .
von Texten
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
74
74
74
75
76
77
77
78
78
79
79
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Sprachsynthese und Spracherkennung
9.1 Sprachsynthese . . . . . . . . . . .
9.1.1 Architektur . . . . . . . . .
9.1.2 Probleme . . . . . . . . . .
9.1.3 Analyseebenen . . . . . . .
9.2 Spracherkennung . . . . . . . . . .
9.2.1 Probleme . . . . . . . . . .
9.2.2 Worthypothesengraph . . .
9.2.3 Wortfehlerrate . . . . . . .
9.3 Dialogsysteme . . . . . . . . . . . .
9.3.1 Typen . . . . . . . . . . . .
9.3.2 VoiceXML . . . . . . . . . .
9.4 Vertiefung . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
80
80
81
81
84
87
87
88
88
89
89
89
90
10 Maschinelle Übersetzung I
10.1 Einführung . . . . . .
10.1.1 Altes Problem .
10.1.2 Alter Traum .
10.1.3 Neuer Traum .
10.2 Terminologie . . . . .
10.2.1 MT . . . . . .
10.2.2 CAT . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
91
91
92
93
93
93
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
10.2.3 MAHT .
10.2.4 HAMT .
10.2.5 FAHQT
10.3 Evaluation . . .
10.3.1 BLEU .
10.3.2 Parallele
10.4 Vertiefung . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Baumbanken
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
94
98
101
102
103
106
106
11 Maschinelle Übersetzung II
11.1 Probleme der Übersetzung . . . .
11.1.1 Mehrdeutigkeit . . . . . .
11.1.2 Idiome und Kollokationen
11.1.3 Sprachbau . . . . . . . . .
11.2 Ansätze . . . . . . . . . . . . . .
11.2.1 Direkt . . . . . . . . . . .
11.2.2 Transfer . . . . . . . . . .
11.2.3 Interlingua . . . . . . . .
11.2.4 Kombination . . . . . . .
11.3 SMT . . . . . . . . . . . . . . . .
11.4 Vertiefung . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
108
108
108
113
114
116
117
118
120
120
121
122
I
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
124
124
129
132
12 Formales Propädeutikum
12.1 Mengen . . . . . . .
12.2 Relationen . . . . . .
12.3 Funktionen . . . . .
.
.
.
.
.
.
.
13 Formales Propädeutikum II
13.1 Indexnotationen . . . . . .
13.2 Hüllen . . . . . . . . . . .
13.3 Graphen . . . . . . . . . .
13.4 Formale Sprachen . . . . .
13.4.1 Sprache als Menge
13.4.2 Konkatenation . .
13.4.3 Grammatiken . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
135
135
136
138
139
139
140
141
14 Formales Propädeutikum
14.1 Merkmalstrukturen .
14.1.1 Motivation .
14.1.2 Rekursiv . . .
14.1.3 Als Graphen
14.2 Pfade und Werte . .
14.2.1 Koreferenz . .
14.3 Unifikation . . . . .
14.3.1 Motivation .
14.3.2 Subsumtion .
14.3.3 Unifikation .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
147
147
147
148
149
151
152
153
153
154
155
III
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
.
.
.
.
.
.
.
.
.
.
15 Syntaktische Analyse
156
15.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5
15.2 Unifikationsgrammatik .
15.2.1 Formalismen . .
15.2.2 Kongruenz . . . .
15.2.3 Rektion . . . . .
15.3 Analysen . . . . . . . . .
15.3.1 Verbalkomplex .
15.3.2 Satzfragen . . . .
15.3.3 Ergänzungsfragen
15.3.4 Gaps . . . . . . .
15.4 Vertiefung . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
157
157
160
161
162
162
162
163
163
165
16 Literaturverzeichnis
166
Index
172
6
Abbildungsverzeichnis
2.1
Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.1
5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.1
4.2
4.3
4.4
4.5
Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung
Konstituenz, Dominanz und Präzedenz in Balken-Darstellung .
Syntaktische Funktionen in Balken-Darstellung . . . . . . . . .
Syntaktische Funktion in der NEGRA-Darstellung . . . . . . .
Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
31
33
33
34
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
Training, Tagging und Evaluation mit dem TnT-Tagger . . . .
Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . .
Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . .
Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants .
Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H.
Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H.
F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . .
Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Schmid
Schmid
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
49
53
54
54
55
59
60
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
7.10
In PubMed erfasste wiss. Artikel (2008 unvollständig) . . . .
Suchoption für Inhaltsverzeichnis . . . . . . . . . . . . . . . .
Eingescanntes Inhaltsverzeichnis . . . . . . . . . . . . . . . .
OCR und Frakturschrift . . . . . . . . . . . . . . . . . . . . .
Sachbegriff-Indexierung im NEBIS . . . . . . . . . . . . . . .
Sachbegriff und Varianten im NEBIS . . . . . . . . . . . . .
Textuelle Zusatzinformation im NEBIS . . . . . . . . . . . .
Automatisches Indizieren von OPAC-Informationen: Gut . . .
Automatisches Indizieren von OPAC-Informationen: Schlecht
Generelle Architektur von IR-Systemen . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
62
63
63
64
65
66
66
68
69
70
8.1
8.2
8.3
8.4
8.5
8.6
Wordle . . . . . . . . . . . . . . . . . . . . . . . . . . .
Grundmodell des inhaltsbasierten Textzusammenfassen
Telegraphische Verkürzungstechnik . . . . . . . . . . .
Information-Retrieval . . . . . . . . . . . . . . . . . . .
Information-Extraction . . . . . . . . . . . . . . . . . .
Beispiel eines typischen IE-Systems . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
74
75
77
77
78
9.1
9.2
9.3
9.4
9.5
Architektur von MARY-TTS-System . . . . . . . . . . . . . . . . . . .
Satzintonation im Deutschen . . . . . . . . . . . . . . . . . . . . . . .
Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a])
IPA-Symbole für Deutsch . . . . . . . . . . . . . . . . . . . . . . . . .
Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
83
84
85
88
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9.6
9.7
Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.1 Automatisierungsgrade der Übersetzung . . . . . . . . . . .
10.2 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . .
10.3 Beispiel: Fuzzy-Match mit 81% Übereinstimmung . . . . . .
10.4 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . .
10.5 Parametrisierung der Alignierung bei SDL Trados WinAlign
10.6 Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign
10.7 Export der Alignierung als TM . . . . . . . . . . . . . . . .
10.8 Terminologie-Verwaltung mit Termbase . . . . . . . . . . .
10.9 “Rohübersetzung” von erkannter Terminologie . . . . . . . .
10.10Filmuntertitel sind kurz! . . . . . . . . . . . . . . . . . . . .
10.11Korrelation von menschlichen und BLEU-Bewertungen . . .
10.12Paralleler Syntaxbaum DE-EN . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
94
95
95
96
98
99
99
100
101
101
106
107
11.1
11.2
11.3
11.4
11.5
11.6
11.7
11.8
Situationen zu “The pen was in the box” . . . . . . . . . . . . . .
Situationen zu “The box was in the pen” . . . . . . . . . . . . . .
Transfer-Übersetzung im Bild . . . . . . . . . . . . . . . . . . . .
Transfer-Übersetzung im Detail . . . . . . . . . . . . . . . . . . .
Transfer-Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lexikalische Überschneidungen nach Somers . . . . . . . . . . . .
Verbindung von direkter, Transfer- und Interlingua-Übersetzung .
Fluency und Faithfullness in SMT nach [Al-onaizan et al. 1999]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
111
112
118
119
119
121
121
122
12.1
12.2
12.3
12.4
12.5
12.6
Faksimile der Bestimmung des Mengenbegriffs bei Georg Cantor .
Pfeildiagramm einer partiellen Funktion . . . . . . . . . . . . . .
Pfeildiagramm einer surjektiven Funktion . . . . . . . . . . . . .
Pfeildiagramm einer injektiven Funktion . . . . . . . . . . . . . .
Pfeildiagramm einer bijektiven Funktion . . . . . . . . . . . . . .
Übersicht: Eigenschaften von Relationen und Funktionen . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
124
132
132
132
133
133
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
90
13.1 Baumdarstellung eines Baum-Graphen . . . . . . . . . . . . . . . . . . . . . . . . 139
13.2 Teilmengenbeziehungen der Sprachklassen von Chomsky . . . . . . . . . . . . . . 142
13.3 Beispiel für Linksderivation und Parsebaumkonstruktion . . . . . . . . . . . . . . 144
14.1
14.2
14.3
14.4
14.5
14.6
F-Struktur als Merkmalstruktur in XLE . . . . . .
Merkmalstruktur als gerichteter Baum . . . . . . .
Merkmalstruktur als gerichteter Baum . . . . . . .
Kästchennotation . . . . . . . . . . . . . . . . . . .
Koreferente Merkmalstruktur als Matritze . . . . .
Koreferente Merkmalstruktur als gerichteter Graph
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
150
150
151
151
153
153
15.1 Annotation von Wh-Fragen in der Penn-Treebank . . . . . . . . . . . . . . . . . . 164
15.2 NEGRA-Baum mit überkreuzenden Kanten . . . . . . . . . . . . . . . . . . . . . 165
15.3 NEGRA-Baum mit Lücken und koindizierten Lückenfüllern . . . . . . . . . . . . 165
8
1 Organisatorisches
1.1 Organisatorisches
Konzept und Inhalt der Vorlesung
• “Einführung in die Computerlinguistik I (+ II)” vermittelt die wichtigsten praktischen und
theoretischen Ziele der Computerlinguistik in Übersicht.
• Vorgestellt werden beispielhafte Systeme, Anwendungen wie Textsegementierung, maschinelle Übersetzung, Sprachsynthese- und erkennung, Textsuche und -mining, Informationsextraktion und Textzusammenfassung, sowie Grundlagen, Methoden und Probleme der
automatischen Syntaxanalyse von Sprachen.
• Im Kurs integriert sind zwei Propädeutika (Vorkurse), wo das notwendige linguistische und
formale Wissen vermittelt wird.
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Kurs namens “CL_08_HS_ECL 1”: Merkblatt zum Einstieg in OLAT [Roth 2006]
• https://www.olat.uzh.ch/olat/auth/repo/go?rid=769720321
• Folienskript im 4-up-Format (farbige und SW-Version) als PDF-Dokument unter “Vorlesungsunterlagen”
• Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index und kleinen Ergänzungen http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.
html
Unser Kursbuch (wichtig: 2. Auflage anschaffen):
• Carstensen et al. Hgg. (2004): Computerlinguistik und Sprachtechnologie: Eine Einführung. Elsevier, München, 2004. ISBN 3-8274-1407-5.
Lehren und Lernen
Commitments
• Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten.
• Wir brauchen Ihre Rückmeldung, um suboptimale Elemente unserer Lehrarbeit zu verbessern.
• Sie engagieren sich, die für ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden.
• Sie brauchen unsere Rückmeldung, um suboptimale Elemente Ihrer Lernarbeit und Ihres
Lernerfolgs zu verbessern.
9
12 schriftliche Übungen (SU)
• Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach: 33% der Schlussnote
• Optional (Wahlmöglichkeit bis in 4. Woche) für Lizentiats-Studierende: 33% der Note der
Teilakzessprüfung
• Bestanden/Nicht-Bestanden-System pro SU
• Benotung: 6 (10-12 SU); 5.5 (9 SU); 5 (8 SU); 4.5 (7 SU); 4 (6 SU); 3.5 (5 SU); 3 (4 SU);
2.5 (3 SU); 2 (2 SU); 1.5 (1 SU); 1 (0 SU)
• Keine (!) Musterlösungen, dafür Vor- und Nachbesprechung, Frage- und Diskussionsgelegenheit in Übungsstunde und auf OLAT
• Übungsstunden bei Rico Sennrich am Freitag 10.15-11.45h (!) im Raum BIN 0.B.04
• Start in der 2. Semesterwoche
• Abgabe der letztwöchigen Übungen und Ausgabe der neuen Übungen jeweils am Mittwoch
18h
Hochrechnung zum Workload für 4 ECTS-Punkte
“Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berücksichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14, Abs.
2)
[Universitätsrat 2004]
• 1 ECTS-Punkt der Uni Zürich = 30h geistige Arbeit
• Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung:
2 × 14 × 2h = 56h
• Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvorbereitung:
120h − 56h − 1h
= 4.5h
14
• Mindestens 1h, um uns mitzuteilen, was wir verbessern sollen. . .
E-Learning
CLab
Teile der Vorlesung und Übungen werden durch Lerneinheiten aus unserem interaktiven, webbasierten Computerlinguistik-Laboratorium (CLab) unterstützt. http://www.cl.uzh.ch/clab
Applikationen auf CL-UNIX-Servern
Für gewisse Übungen oder zur Vertiefung sind gewisse CL-Applikationen auf unseren Servern
empfohlen. Von den Computern in den Übungsräumen aus sind diese problemlos nutzbar.
Wer die Übungsstunde nicht besuchen kann, braucht dazu VPN (Virtual Private Network), SSH
(Secure Shell bzw. Putty) und einen X11-Klienten. Einführung dazu in der 1. Semesterwoche
(Einführung in OLAT und Installationssupport durch Fachschaft Freitag, 19.9.08 ab 12.15h BIN
0.B.04) oder via Anleitungen.
10
Schriftliche Prüfung
• Zeit: Donnerstag, 15.1.09, von 16.15 - 17.45h
• Dauer: 90 Minuten
• Stoff: Skript, Übungen, Pflichtlektüren
• Bitte das für Sie gültige Infoblatt zur Leistungsüberprüfung genau lesen! [ICL 2007b,
ICL 2007a]
11
2 Was ist CL?
Lernziele
• Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie und
Linguistik
• Kenntnis der zentralen Anliegen der modernen Computerlinguistik
• Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welche
mit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind
• Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte
(Pflichtlektüre)
• Kenntnis der Krux der Sprachverarbeitung
2.1 Motivation
CL-haltige Produkte im (Computer-)Alltag
• Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)
• Elektronische Wörterbücher (Thesauri)
• Automatische Übersetzung
• Recherchen im WWW
• Auskunftssysteme (z.B. [Kassensturz 2006])
• ...
2.2 Fachrichtungen
2.2.1 Computerlinguistik
Was ist CL?
Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) ist
eine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sich
mit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt.
Frage
Ist das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendung
von CL?
Frage
Ist die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)
eine frühe Anwendung von CL?
12
Sprachsynthese nach Kempelen
Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibung einer
sprechenden Maschine” (1791) [Traunmüller 1997]
2.2.2 Sprachtechnologie
Was ist Sprachtechnologie?
Definition 2.2.2. Sprachtechnologie beschäftigt sich mit der praxis- und anwendungsbezogenen,
ingenieursmässig konzipierten Entwicklung von Sprachsoftware.
2.2.3 Weiteres
Verwandte/Alternative Fachbezeichnungen
Deutsch
Linguistische Datenverarbeitung (LDV)
Maschinelle Sprachverarbeitung
Automatische Sprachverarbeitung (ASV)
Computerphilologie
Sprachtechnologie
Texttechnologie
Korpuslinguistik
Medieninformatik
Linguistische Informatik
Informationslinguistik
Englisch
Linguistic and Literary Computing (LLC)
Natural Language Processing (NLP)
(Natural) Language Engineering (NLE)
Computational Philology
Speech Processing
Human Language Technology (HLT)
Text Technology
Corpus Linguistics
13
QUIZ: Was ist was? [Weisser 2005]
Frage 1: Welche Fachrichtung wird hier beschrieben?
The use and possibly also compilation of computer-based text materials to investigate
linguistic phenomena and ways of teaching about language.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 2: Welche Fachrichtung wird hier beschrieben?
The compilation, annotation and use of written and spoken corpora for the investigation of linguistic phenomena, mainly by means of easy to use software.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 3: Welche Fachrichtung wird hier beschrieben?
The automated analysis and modelling of language by means of sophisticated programming techniques.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
Frage 4: Welche Fachrichtung wird hier beschrieben?
The creation and application of corpora for use in computer-based systems, such as
speech recognition engines, translation systems, etc.
Antwort
Computational Linguistics
Computational Philology
Natural Language Engineering
Corpus Linguistics
14
Schwerpunkte der verwandten Disziplinen
• Symbolische, logikbasierte vs. statistische, probabilistische Methoden
• Anwendungs- vs. Theorieorientierung
• Algorithmisierung als Proof-Of-Concept (“Kann man sowas überhaupt?” vs. effiziente (kommerziell einsetzbare) Systeme
• Hilfswissenschaft vs. eigenständige Forschung
• Gesprochene vs. verschriftlichte Sprache (Text)
• Psychologische/Neurologisch Plausibilität vs. ingenieurmässige Lösung
2.2.4 Moderne Computerlinguistik
4 zentrale Anliegen der modernen Computerlinguistik
• Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf dem
Computer
• Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grundformen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikalischen Ressourcen (Lexika)
• Entwicklung realistischer und technologisch fortschrittlicher Anwendungen
• Entwicklung und Durchführung von Evaluationen sprachverarbeitender Systeme und Komponenten
2.3 Nachbardisziplinen
Nachbardisziplinen in Übersicht
• Linguistik: formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpuslinguistik für empirische Basis
• Informatik: praktische und theoretische Informatik (Was lässt sich mit welchem Formalismus wie effizient berechnen?); Künstliche Intelligenz
• Kognitionswissenschaft
• Logik und Philosophie
• Mathematik: Mengenlehre (Funktionen, Relationen, Graphen) und Statistik
15
2.3.1 Linguistik
Linguistik
Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). Die
Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der
Sprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Semantik und Pragmatik.
Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitäten
und hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest.
Lautlehre: Phonetik und Phonologie
Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasst
die artikulatorische, akustische und auditive Ebene.
Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist die
Lehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaften
Eigenschaften und Beziehungen.
Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung).
1. Dieb /di:p/
2. Diebe /di:b@/
Exkurs: Internationales Phonetisches Alphabet (IPA)
Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schriftliches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. Die
IPA-Notationen für die Laute des Standarddeutschen sind in [Carstensen et al. 2004, 156]
erklärt.
Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alle
Schriftsysteme der Welt wiedergeben können will.
Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- und
Kleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute und
andere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin:
di:b@.
Wortlehre: Morphologie
Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Struktur der Wörter
und ihrer Bildung.
Beispiel 2.3.6 (Flexion).
1. Dieb#e Dieb-Plural “Mehr als ein Dieb”.
2. Dieb#e Dieb-Dativ “dem Dieb”
16
Satzlehre: Syntax
Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Aufbau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen.
Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit).
1. Der gewitzte Dieb stahl den Diamanten.
2. *Der Dieb gewitzte stahl den Diamanten.
3. *Den gewitzten Dieb stahl den Diamanten.
Bedeutungslehre: Semantik
Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter
(lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten
(Diskurssemantik).
Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).
1. Die Polizei beschlagnahmte das Diebesgut.
2. Das Diebesgut beschlagnahmte die Polizei.
3. Das Diebesgut wurde von der Polizei beschlagnahmt.
4. [Die Polizei fasste die Täter.] Sie beschlagnahmte das Diebesgut.
Lehre von der Sprachverwendung: Pragmatik
Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungen
von Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation in der
Welt.
Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit).
1. Ist das Fenster auf?
2. Bitte schliessen Sie das Fenster!
2.3.2 Kognitionswissenschaft
Kognitionswissenschaft
Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäre
Erforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguistik
und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Lernen,
Motorik und Sprache gezählt.
Geschichte der Kognitionswissenschaft
Exzellenter Artikel in [Wikipedia 2006a]
17
Turing-Test: Können Maschinen denken?
Turing-Test im Original [Turing 1950]
The new form of the problem can be described in terms of a game which we call the ’imitation
game’. It is played with three people, a man (A), a woman (B), and an interrogator (C) who
may be of either sex. The interrogator stays in a room apart front the other two. The object of
the game for the interrogator is to determine which of the other two is the man and which is
the woman. He knows them by labels X and Y, and at the end of the game he says either “X is
A and Y is B” or “X is B and Y is A”. [. . . ]
We now ask the question, “What will happen when a machine takes the part of A in this game?”
Will the interrogator decide wrongly as often when the game is played like this as he does when
the game is played between a man and a woman? These questions replace our original, “Can
machines think?”
Reale Turing-Tests
Seit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welche
den Turing-Test bestehen wollen. Preisträgersysteme lassen sich teilweise im WWW direkt ausprobieren. [Wikipedia 2006b] Das Ziel dieser Test lautet: Kann eine Maschine so antworten in
einem Dialog, dass man sie nicht mehr von einem Menschen unterscheiden kann?
2.4 Die Krux der Mehrdeutigkeit
Mehrdeutigkeit [Jurafsky und Martin 2000, 4]
Beispiel 2.4.1.
I made her duck.
Einige Paraphrasen, d.h. Lesarten
1. I cooked waterfowl for her.
2. I cooked waterfowl belonging to her.
3. I created the (plaster?) duck she owns.
4. I caused her to quickly lower her head or body.
5. I waved my magic wand and turned her into undifferentiated waterfowl.
Frage
Auf welcher Ebene der linguistischen Analyse werden die Mehrdeutigkeiten aufgelöst (desambiguiert) in der Paraphrase?
2.5 Vertiefung
• Pflichtlektüre [Carstensen et al. 2004, 1–23]
• Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chatterbox Contests 2003)
18
3 Linguistisches Propädeutikum I
Lernziele
• Kenntnis der Begriffe Wort, Token, Lexem, Lemma, Lexemverband
• Kenntnis der Wortartenlehre für Deutsch
• Kenntnis der morphologischen Kategorien für Deutsch und Englisch
• Kenntnis und Anwendung des Stuttgart-Tübingen-Tagsets (STTS) mit Hilfe der Referenzkarte
• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von Morphologie und Wortarten
3.1 Wort
3.1.1 Definition
Wort
Definition 3.1.1 (nach [Bußmann 1990]). Wort. Intuitiv vorgegebener und umgangssprachlich
verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche
Definitionsversuche uneinheitlich und kontrovers sind.
Beispiel 3.1.2 (Was ist ein Wort?).
1. Sie wollte vor allem am 1. Spiel teilnehmen.
2. Sie nahm z.B. an dem 2. Spiel teil.
3. Das gibts doch nicht!
4. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit [. . . ]
Präzisierungsversuche des Wort-Begriffs
Sprachliche Ebenen zur Präzisierung des Wort-Begriffs
• phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oder
Knacklaut theoretisch isolierbares Lautsegment
• orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit
• morphologisch: Grundeinheit, welche flektierbar ist
• lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist
• syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes
19
Gängige Wortauffassungen [Linke et al. 2001]
Wieviele verschiedene Wörter hat dieser Satz?
Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.
Antworten
9
5
6
4
__
3.1.2 Token
Antwort 9: Wort als Vorkommen einer Wortform
Wieviele verschiedene Wörter hat dieser Satz?
Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen6 Fliegen7 Fliegen8 nach9 .
Definition 3.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einem
Text.
Bemerkung
In der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwort
wäre dann . . .
3.1.3 Wortform
Antwort 5: Wort als Wortform
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 .
Definition 3.1.4 (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes.
Beispiel 3.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung).
• Die Fliege war tot.
• Er trug eine samtene Fliege.
• Fliege nicht so schnell!
3.1.4 Syntaktisches Wort
Antwort 6: Wort als syntaktisches Wort
Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen5 Fliegen4 Fliegen3 nach6
Definition 3.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortform
kombiniert mit ihren morphosyntaktischen Merkmalen.
Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normalerweise
zusammengefasst.
Beispiel 3.1.7 (Wortform vs. syntaktisches Wort).
Die Wortform “Fliegen” kann mindestens 4 syntaktische Wörter repräsentieren: “Fliege” in Nominativ, Akkusativ, Dativ oder Genitiv Plural.
20
3.1.5 Lexem
Antwort 5: Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 .
Definition 3.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syntaktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,
Numerus, Tempus usw.) unterscheiden.
Definition 3.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikographische Standard-Notation für ein Lexem.
Beispiel 3.1.10 (Lexikographische Notationskonventionen im Deutschen).
Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular repräsentiert.
Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert?
Antwort 4: Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 , fliegen3 Fliegen3 Fliegen3 nach4 .
Definition 3.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eine
Menge von Lexemen, welche den gleichen Wortstamm haben.
Bemerkung
Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten.
Beispiel 3.1.12 (Satz als Menge von Lexemverbänden).
Wie lässt sich die Menge der Wörter des Beispielsatzes in Mengennotation als Lexemverband
darstellen?
3.2 Lehre von den Wortarten
Wortarten nach [Bußmann 1990]
Definition 3.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis der
Klassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder semantischen Kriterien.
Historisches [Gallmann und Sitta 2001]
Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahrhundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemäss
Adelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Pronomen, Artikel, Adverb, Präposition,
Konjunktion, Interjektion, Numerale
Mit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung durch,
welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwendet.
3.2.1 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Welcher Fachbegriff wäre präziser anstelle von “Wörter” in der Abbildung?
21
Abbildung 3.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]
3.2.2 STTS
Stuttgart/Tübingen-Tagset (STTS)
• http://www.cl.uzh.ch/clab/hilfe/stts/
• Das Standard-Tagset des Deutschen [Schiller et al. 1999] (vergleichbar mit dem PennTreebank-Tagset für Englisch)
• Wichtige linguistische Korpora wie NEGRA-Korpus oder TIGER-Korpus sind mit STTS
annotiert. III
• Frei verfügbare Werkzeuge zum automatischen Bestimmen von Wortarten (sogenannte
“Tagger”) liefern mit STTS-Tags versehenen Output.
• Eine Notationsvariante von STTS ist als europäischer Standard für Deutsch (EAGLES
ELM-DE) [EAGLES 1996] spezifiziert worden.
• Alternativen: Münsteraner Tagset [Steiner 2003]
Besonderheiten von STTS
• ‘Wortarten’ für satzinterne und -finale Interpunktion ($,, $. . . . )
• Kategorie für fremdsprachliches Material (FM)
• Feine Aufgliederung bei Glinzschen Partikeln: Antwortpartikel (PTKANT), Negationspartikel
(PTKNEG) usw.; Konjunktionen, Adverbien usw.
• Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativpronomen (PDS) usw.
22
• Durchgängige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Pronomen): “Diese/PDAT Kuh muht.” vs. “Diese/PDS muht.”
• Eigennamen sind eine semantisch definierte Klasse.
QUIZ zu Wortarten
Wo stecken in den folgenden Sätzen besondere Schwierigkeiten? Wieso?
Er kannte ihn schon als kleines Kind.
Die Wissenschaft selbst ist ein kompliziertes System.
Ich habe noch nie solch eine Geschichte gehört.
Er ist erkrankt.
Auf der einen Seite ist es so, aber ...
Der Mann, von dessen Vater das Buch handelt, ist ...
Er kam plötzlich und ohne anzuklopfen herein.
Er wartete bis um 5 Uhr.
3.3 Morphologische Merkmale
Morphologische Kategorien und ihre Merkmale
Definition 3.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologischen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Numerus, Person, Tempus, Modus und Komparation, welche durch die Flexion realisiert werden.
Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems
• Konjugation von Verben
• Deklination von Nomen, Adjektiven, Artikeln und Pronomen
• Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?
Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilung
nicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einige
Adverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten” . . . ).
Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektive
als Flexion betrachtet.
Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, ist
die Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus und
komparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.
Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sind
oder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann muss
es wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein.
Welche denn?
23
Fachbegriff
Maskulinum
Femininum
Neutrum
Unterspezifiziert
Deutsch
männlich
weiblich
sächlich
n/a
Englisch
masculine
feminine
neuter
n/a
STTS
Masc
Fem
Neut
*
Beispiel
Elephant
Gazelle
Huhn
Ferien
Tabelle 3.1: Übersicht: Genera
3.3.1 Genus
Das Genus (engl. gender ): Grammatisches Geschlecht
Bemerkung
Der Plural von Genus lautet Genera.
Beispiel 3.3.2 (Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?).
3.3.2 Numerus
Der Numerus (engl. number ): Grammatische Zahl
Fachbegriff
Singular
Plural
Deutsch
Einzahl
Mehrzahl
Englisch
singular
plural
STTS
Sg
Pl
Beispiel
Huhn
Hühner
Tabelle 3.2: Übersicht: Numeri
Bemerkung
Der Plural von Numerus lautet Numeri.
Beispiel 3.3.3 (Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?).
3.3.3 Kasus
Der Kasus (engl. case): Fall
Fachbegriff
Nominativ
Genitiv
Dativ
Akkusativ
Deutsch
Werfall
Wesfall
Wemfall
Wenfall
Englisch
nominative
genitive
dative
accusative
STTS
Nom
Gen
Dat
Akk
Tabelle 3.3: Übersicht: Kasus
Bemerkung
Der Plural von Kasus lautet Kasus.
Bei welchen Wortarten ist die Kategorie Kasus
24
Beispiel
der Baum
des Baumes
dem Baum
den Baum
3.3.4 Modus
Der Modus (engl. mode, mood ): Aussageweise
Fachbegriff
Indikativ
Konjunktiv
Deutsch
Wirklichkeitsform
Möglichkeitsform
Englisch
indicative
subjunctive mood
STTS
Ind
Konj
Beispiel
er geht
er gehe
Tabelle 3.4: Übersicht: Modi
Bemerkungen
Der Plural von Modus lautet Modi.
Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist dies
durch das V.IMP ausgedrückt.
3.3.5 Tempus
Das Tempus (engl. tense): grammatische Zeit, Zeitform
Fachbegriff
Präsens
Präteritum
Deutsch
Gegenwart
Vergangenheit
Englisch
present tense
past tense
STTS
Pres
Past
Beispiel
er geht
er ging
Tabelle 3.5: Übersicht: Tempora
Bemerkungen
Der Plural von Tempus lautet Tempora.
3.3.6 Person
Die Person (engl. person)
Fachbegriff
1. Person
2. Person
3. Person
Deutsch
Sprecher
Angesprochene
Person, Sachverhalt
Englisch
first person
second person
third person
STTS
1
2
3
Beispiel
ich gehe
du gehst
er geht
Tabelle 3.6: Übersicht: Personen
Bemerkungen
Der Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich.
Bei welchen Wortarten ist die Kategorie Person ausgeprägt?
25
Fachbegriff
Positiv
Komparativ
Superlativ
Deutsch
Normalform
Vergleichsform
Höchststufe
Englisch
positive
comparative
superlative
STTS
Pos
Comp
Sup
Beispiel
schlau
schlauer
schlauste
Tabelle 3.7: Übersicht: Komparation
3.3.7 Grad
Der Grad (engl. degree): Steigerung, Komparation
Bei welchen Wortarten ist die Kategorie Grad ausgeprägt?
3.3.8 Adjektiv-Flexion
Die Adjektiv-Flexion (engl. adjective inflection)
Fachbegriff
Schwache Flexion
Gemischte Flexion
Starke Flexion
Deutsch
mit best. Artikel
mit ein, kein,. . .
ohne Artikel
Englisch
weak
mixed
strong
STTS
Schw
Mix
St
Beispiel
der schlaue Fuchs
keine schlauen Füchse
schlaue Füchse
Tabelle 3.8: Übersicht: Adjektiv-Flexion
Bei welchen Wortarten ist die Kategorie Adjektiv-Flexion ausgeprägt?
Beispiel 3.3.4 (Flexion von “schlau”).
Darstellung bei den Canoo-Sprachtools: III
3.4 Vertiefung
• Referenzkarte zu STTS und dem NEGRA-Sprachmodell [Referenzkarte 2007]
• Manuals für das Programm annotate [Plaehn 2000, Plaehn 1998]
• http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminologie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.
Pflichtlektüre
Nachschlagen von mindestens 30 Tags im Annotationshandbuch [Schiller et al. 1999] bei Unsicherheit im Annotieren von Wortart und morphologischer Kategorie
26
4 Linguistisches Propädeutikum II
Lernziele
• Kenntnis der klassischen syntaktischen Proben
• Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied,
Phrase
• Kenntnis der wichtigsten syntaktischen Funktionen
• Kenntnis und Anwendung des NEGRA-Annotationsschemas mit Hilfe der Referenzkarte
• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von syntaktischen Strukturen
• Erfahrungen mit der einfachen Suche von syntaktischen Strukturen in einer Baumbank
4.1 Linguistische Proben
Linguistische Testverfahren
Definition 4.1.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Analyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, um
grammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können.
4.1.1 Ersatzprobe
Ersatzprobe
Definition 4.1.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einen
grammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestes
muss dabei unverändert bleiben.
Beispiel 4.1.3 (Bestimmung des Kasus).
Probe
Baumprobe
Baumprobe
Frageprobe
Frageprobe
Mehrdeutig
Peter ist zornig
Peter ist heiss
Peter ist zornig
Peter ist heiss
Eindeutig
Der Baum ist zornig
Dem Baum ist heiss
Wer ist zornig
Wem ist heiss
Kasus
Nom
Dat
Nom
Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.
Beispiel 4.1.4 (Bestimmung der Wortart von “das”).
• Das ist das Angebot, das uns überzeugt hat.
27
• Dieses ist das Angebot, welches uns überzeugt hat.
• * Welches ist das Angebot, dieses uns überzeugt hat.
• ? Das ist dieses Angebot, welches uns überzeugt hat.
Probleme der Interpretation
• Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Interpretation des Satzes.
• Ob die Interpretation des Satzrestes sich ändert durch den Ersatz, ist nicht immer leicht
zu beurteilen.
4.1.2 Einsetzprobe
Einsetzprobe
Definition 4.1.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext eingesetzt, der ihn grammatisch eindeutig interpretiert.
Beispiel 4.1.6 (Bestimmung der Wortart).
Probe
Attributivprobe
Attributivprobe
Mehrdeutig
Das war billig
Das war gratis
Eindeutig
Der billige Baum
*Der gratis Baum
Wortart
Adjektiv
Adverb
Einsetzen in Flexionsparadigmen
Eine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugation
für Verben oder Steigerung für Adjektive.
4.1.3 Weglassprobe
Weglassprobe
Definition 4.1.7. In der Weglassprobe wird von einem grösseren mehrdeutigen Ausdruck soviel
Material wie möglich entfernt, um einen eindeutigen Ausdruck zu erhalten.
Beispiel 4.1.8 (Bestimmung eines Satzglieds).
1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
Frage
Warum nicht Variante 4?
28
4.1.4 Verschiebeprobe
Verschiebeprobe
Definition 4.1.9. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt,
so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert.
Damit lassen sich die Anfang und Ende von Satzgliedern erkennen.
Beispiel 4.1.10 (Bestimmung von Satzgliedern).
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. Morgen bereite ich die Sitzung mit dem Chef vor.
3. Ich bereite die Sitzung mit dem Chef morgen vor.
Regeln: Tausche immer 2 Kandidaten aus, um nicht unnötig ungrammatische (Pseudo-)Sätze zu
erzeugen. Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb.
Verschiebeprobe
Beispiel 4.1.11 (Unzulässiges Verschieben).
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. * Morgen ich bereite die Sitzung mit dem Chef vor.
3.
# Die
Sitzung bereite ich morgen mit dem Chef vor.
Gründe
Pseudo-Satz 2 ist ungrammatisch. . . . Satz 3 hat eine andere Bedeutung bekommen durch die
Umstellung.
4.1.5 Umformungsproben
Umformungsprobe
Definition 4.1.12. In der Umformungsprobe werden Sätze umfassend umgebaut.
Beispiel 4.1.13 (Funktion von Nebensätzen).
1. Es würde mich freuen, wenn du mitkämest .
2. Dein Mitkommen würde mich freuen.
Der Nebensatz mit “wenn” erfüllt eine analoge Funktion wie “Es”.
Beispiel 4.1.14 (Infinitivumformung zur Subjekterkennung).
1. Die Lärche ist ein Nadelbaum.
2. ein Nadelbaum sein / die Lärche
29
4.2 Satz
Satz
Definition 4.2.1 (nach [Bußmann 1990]). Satz (engl. clause oder sentence). Nach sprachspezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, die
hinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängig
ist.
Definition 4.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einem
finiten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satz
zusätzliche Angaben enthalten.
4.3 Syntaxanalyse
4.3.1 Konstituenz
Konstituenz
Definition 4.3.1 (nach [Bußmann 1990]). Konstituente. In der strukturellen Satzanalyse (sog.
Konstituentenanalyse) Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die Teil
einer grösseren sprachlichen Einheit ist.
Definition 4.3.2 (nach [Bußmann 1990]). Ziel und Ergebnis der Konstituentenanalyse ist die
Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge.
Definition 4.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und
linearen Präzedenz zwischen Konstituenten.
Konstituenten in der annotate-Darstellung
L!
SOT
L<
!
SOR
!N
M;
A:
Syntaktische
Konstituente
unmittelbare
Dominanz
!"#
.#/#0
O
$$%&
1123+
'($)(*(+,-
'($)($4#5(306
L;
L<
+$
SOO
+@
+@
.#78.9#
P
M;
L+$
SOQ
L<
Konstituente auf
Wortebene
!1$
1#4>"06?0.#0
Q
:;<:
Präzedenz
auf
$,5(*(:==($)(!9
Wortebene
?06
'
&"5"=#0
R
++
@A+
Präzedenz
zwischen
2#-(:==($)(*
!!
Tochterkonstituenten
#"0
S
30
F#45?G/#0
U
++
$B@1C
ED
1123+
+#?9(:==($)(*
!!
!!
'($)($4#5(30
Abbildung 4.1: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung
Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente.
D
T
Konstituenten in der Balken-Darstellung
Abbildung 4.2: Konstituenz, Dominanz und Präzedenz in Balken-Darstellung
Konstituenten überspannen als Balken die von ihnen dominierten Tokens.
4.3.2 Köpfe (oder Kerne) von Konstituenten
Köpfe (engl. head ) / Kern (engl. kernel )
Definition 4.3.4. Ein Kopf oder Kern einer Konstituente ist diejenige Unterkonstituente, welche
die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der die Geschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar (Weglassprobe).
Beispiel 4.3.5 (Welches ist der Kern der geklammerten Konstituenten?).
1. Er [hält ihm den Ausweis unter die geschwollene Nase].
2. Sie rennt [mit dem Mobile hantierend] zum Kiosk.
3. Es wird [viel zu oft] telefoniert.
4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt.
5. Sie fühlte sich [wie in einem schlechten Film].
6. Aber sie war auch [in einem ziemlich schlechten Film].
Konstituententypen
Typen von Konstituenten
1. Verbalgruppe, -phrase (VP): Konstituente mit einem verbalen Kern. In NEGRA umfasst
VP nur infinite, d.h. nicht-flektierte Kerne. Die Kategorie Satz (S) hat finite Verbalkerne.
2. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern.
3. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetem
Partizip als Kern.
4. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern.
31
5. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition als
Kern.
6. Konjunktionalgruppe, -phrase: Konstituente mit der Konjunktion “als” oder “wie” als Kern.
In NEGRA ebenfalls mit PP bezeichnet.
Koordination, Konstituenz und Köpfe
Definition 4.3.6. Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zwei
oder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht.
Beispiel 4.3.7 (Koordination von Konstituenten aus NEGRA-Korpus).
• Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35]
• Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre?
[Satz 9328]
• Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist das
die Kirche. [Satz 11’978]
Problem
Was ist der Kopf?
Keine richtige Entscheidung in NEGRA, denn es gibt die Konstituenten CS, CNP, CAP usw.
4.3.3 Dependenz bzw. syntaktische Funktion
Dependenz und syntaktische Funktion
Definition 4.3.8. Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konstituenten.
Definition 4.3.9 (nach [Bußmann 1990]). Syntaktische Funktion ist ein Sammelbegriff für
Beschreibungsgrössen wie “Subjekt”, “Objekt”, “Prädikat”, “Adverbial”, “Attribut” u.a., welche
nach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehung
zwischen abhängigen Konstituenten zu bestimmen.
Hinweis
Traditionelle Ansätze blenden gerne die syntaktische Funktion des “Kerns” sowie der koordinativen Verknüpfungen aus.
Syntaktische Funktion in der Balken-Darstellung
Syntaktische Funktionen als Zwischenschicht zwischen sich dominierenden Balken.
Syntaktische Funktionen in der annotate-Darstellung
Jedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominierenden Konstituente.
32
Abbildung 4.3: Syntaktische Funktionen in Balken-Darstellung
L!
SOT
L<
!
SOR
!N
M;
A:
Syntaktische
Funktion
!1$
M;
L+$
SOQ
L<
Konstituenten
L;
L<
+$
SOO
+@
!"#
.#/#0
O
+@
.#78.9#
P
1#4>"06?0.#0
Q
?06
'
&"5"=#0
R
#"0
S
D
T
F#45?G/#0
U
$$%&
1123+
:;<:
++
@A+
++
$B@1C
ED
1123+
'($)(*(+,-
'($)($4#5(306
$,5(*(:==($)(!9
2#-(:==($)(*
!!
+#?9(:==($)(*
!!
!!
'($)($4#5(30
Abbildung 4.4: Syntaktische Funktion in der NEGRA-Darstellung
4.3.4 Satzglieder
Einige Satzglieder mit NEGRA-Funktion
• Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein S
oder eine VP sein!
• Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe (“ihn”)
• Dativ-Objekt (DA): Frageprobe (Wem?) oder Ersatzprobe (“ihm”)
• Genitiv-Objekt (OG): Frageprobe (Wessen?) oder Ersatzprobe (“seiner”)
• Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO)
für Modifikator
• Nicht-finite Verbalteile (OC): Abhängig von flektiertem oder nicht-flektierten Verb
Einige Gliedteile mit NEGRA-Funktion
• Artikel, attributive Adjektiv(phrasen), begleitende Pronomen (NK)
33
Abbildung 4.5: Moderne Satzgliedlehre nach [Stocker et al. 2004]
• Präpositionen und konjunktionales “als” oder “wie” (AC)
• Genitivattribute von Nominalphrasen (AG) oder feinere Unterscheidung: pränominaler
(GL) oder postnominaler (GR) Genitiv
• Koordinierende Konjunktion (CD) und die koordinierten Konstituenten (CJ)
• Platzhalter (PH) und wiederholte Elemente (RE)
4.4 Baumbanken
4.4.1 NEGRA
NEGRA-Baumbank
• Das erste grosse (20’000 Sätze) Baumbank-Projekt für Deutsch (1997-2001): http://www.
coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
• PP und NP werden mit flacher Hierarchie verbaut
• Ketten von infiniten Verben (VP) sind zu verschachteln
• Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter
• Keine annotierten Köpfe in NP
• Keine explizite Unterscheidung der Satztypen
• Annotationshandbuch [Brants et al. 1999] mit detaillierten Regeln
• Die TIGER-Baumbank (TIGER-Korpus) (50’000 Sätze im 2006) ist “Nachfolgeprojekt”
34
4.4.2 TIGERSearch
TIGERSearch: Ein modernes Suchwerkzeug
Lernen aus Beispielen
Beim Annotieren ist es hilfreich, aus bereits (hoffentlich korrekt!) annotiertem Material zu lernen!
Die 3 Hauptfunktionen von TIGERSearch
Abfrage-Sprache (investigation)
Visualisierung der Suchresultate und Baumbank (exploration)
Einfache statistische Auswertung (condensation)
Die wichtigsten Suchrezepte
• Wie wird das Wort “der” verwendet?
[ word="der" ]
• Mit welchen Wortarten kommt das Wort “der” wie oft vor? (“#w:” brauchts für das Statistikmodul als Knoten-Identifikator)
#w: [ word="der" ]
• Welche Adverbien kommen vor?
#w: [ pos="ADV" ]
• Welche koordinierten Nominalphrasen kommen vor?
#p: [ cat="CNP" ]
• Welche Dativobjekte kommen vor?
[ ] >DA #da: [ ]
NB: [] > [] = unmittelbare Dominanz und [] . [] = lineare Präzedenz . . .
TIGERSearch-Wettbewerb
• Wieviel mehr Akkusativobjekte als Dativobjekte hat es in den ersten 10000 Sätzen des
NEGRA-Korpus? (A) 4.5 (B) 6.5 (C) 7.5
• Wie gross ist der Anteil an VP, welche überkreuzende Kanten haben im NEGRA-Korpus?
(A) 25% (B) 50% (C) 66%
35
Weiteres
• Homepage von TIGERSearch: http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/
• Sofortbenutzung via X11: ssh -Y [email protected] (ev. -Y durch -X ersetzen; kein VPN erforderlich)
• Anleitung mit Bildern http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?
id=weitere_tiger.html
4.5 Vertiefung
• Das Kapitel Baumbanken [Carstensen et al. 2004, 414ff.]
• Quiz Die Form der Satzglieder
• Quiz Satzglieder und Proben
36
5 Tokenisierung
Lernziele
• Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicher
Sprache: Text-Segmentierung und Text-Normalisierung
• Kenntnis über Methoden der Punktdesambiguierung und Satzendeerkennung
• Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (Named
Entity Recognition)
• Kenntnis über die Kodierung sprachlicher Zeichen
• Kenntnis und Umgang mit regulären Ausdrücken
5.1 Tokenisierer
5.1.1 Grundproblem
Grundproblem: Vom Zeichenstrom zur Folge von Tokens
Rohdaten
Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge von
Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.
Token: Einheit der Textsegementierung
Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse.
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
• Konsumieren der Zeichenfolge (Eingabe)
• Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung)
• Produzieren einer Folge von Tokens (Ausgabe)
5.1.2 Zeichenkodierung
Was ist ein Zeichen auf dem Computer?
• Traditionell ein Byte, d.h. eine Folge von 8 Bits (0 oder 1)
• Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle im
Binärsystem aufgefasst wird.
37
• Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskonvention aufgestellt wird: Z.B. A=65, @=64, 1=49
• Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch),
iso-latin-1 (256 Zeichen für westeuropäische Sprachen), UNICODE(ISO/IEC 10646) (über
100’000 Zeichen in Version 5.1.0 für fast alle Schriftsysteme der Welt; http://www.unicode.
org)
• Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte
Was ist ein Zeichen auf dem Computer?
• Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibt
Methoden, einen Unicode-Wert auf eine Folge von Bytes abzubilden.
• UTF-8: (Abk. für 8-bit Unicode Transformation Format) Ordnet jedem Unicode-Zeichen
eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Byte
pro Zeichen.
• Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien muss
man es wissen.
• Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damit
das Betriebssystem die Kodes fürs Auge darstellen kann.
• Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustbehaftete Konversion
Nebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch Text-Normalisierung
durch “Transliteration” durchführen.
$ echo "Klößchen" | iconv -f ISO_8859-1
Klosschen
-t ASCII//TRANSLIT
Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich:
$ echo "Klößchen" | iconv -f ISO_8859-1
Klchen
-t ASCII//IGNORE
5.1.3 Markup
5.1.4 Programme
Typische Beispiele für Tokenisierer
Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Programmiersprache
Beispiel 5.1.1 (Covingtons Tokenizer [Covington 2003]).
Tokenisierer in Prolog für Englisch: Konsumiere eine Textdatei oder eine Benutzereingabe und
produziere daraus eine Prolog-Liste.
38
Joe’s brother doesn’t owe us $4,567.89.
[ w([j,o,e]),
% w = Wort
w([s]),
w([b,r,o,t,h,e,r]),
w([d,o,e,s,n,t]),
w([o,w,e]),
w([u,s]),
s(’$’),
% s = Symbol
n([’4’,’5’,’6’,’7’,’.’,’8’,’9’]), % n = Zahl
s(’.’) ]
Typische Beispiele für Tokenisierer
Tokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus
• vertikalisierten Text, d.h. ein Token pro Zeile, oder
• ein Satz pro Zeile, d.h. jedes Token durch Leerzeichen getrennt.
Beispiel 5.1.2 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]).
Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei
$ cat file.txt
"Bach’sche Musik
mag Dr. Fritz. Ja."
$ cat ger-abbrev
Dr.
usw.
$ separate-punctuation +1 +s +l ger-abbrev file.txt
"
Bach’sche
Musik
mag
Dr.
Fritz
.
Ja
.
"
Typische Beispiele für Tokenisierer
Auf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL,
Python oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrücken
erlauben.
Definition 5.1.3 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck ist
eine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zu
beschreiben.
39
Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchenund-Ersetzen und Segmentieren von Zeichenketten.
Einführung in reguläre Ausdrücke
Z.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex
Typische Beispiele für Tokenisierer
Tokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl.
markup language).
Beispiel 5.1.4 (Der LT-TTT2 Tokenizer [Grover 2008]).
1. Rohtext
This is an example. There are two sentences.
2. XML-Input für Tokenisierer (Vortokenisierung)
<document>
<text>
<p>
This is an example. There are two sentences.
</p>
</text>
</document>
3. XML-Tokenisat
<document>
<text>
<p>
<s id="s1">
<w id="w3" c="w" pws="yes">This</w> <w id="w8" c="w" pws="yes">is</w>
<w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w>
<w id="w21" pws="no" sb="true" c=".">.</w>
</s>
<s id="s2">
<w id="w23" c="w" pws="yes">There</w> <w id="w29" c="w" pws="yes">are</w>
<w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w>
<w id="w46" pws="no" sb="true" c=".">.</w>
</s>
</p>
</text>
</document>
Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert.
40
5.2 Exkurs: XML
XML (eXtensible Markup Language)
Definition 5.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformte
XML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) deren
Struktur genauer vorgeschrieben und validiert werden kann.
XML in der Texttechnologie
• Textbasiertes Format, das geeignet ist, Texte und dazugehörige Metainformation programmunabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI)
• Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellen
zum Einlesen, Erstellen, Modifizieren von XML-Dokumenten
• Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
• Elemente sind von Start-Tags (“<p>”) und End-Tags (“</p>”) begrenzt.
• Leere Elemente können aus einem Tag bestehen (“<br/>”)
• Elemente dürfen hierarchisch ineinander verschachtelt werden: <p><s>...</s></p>
• Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document>
• Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag:
<s id="s2">
• Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w>
Zeichenreferenzen und Entity-Referenzen
Entitäten und Referenzen
• Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entities
bezeichnet, welche zwischen & und ; notiert werden
• Zeichenreferenzen enthalten den nummerischen Kode des bezeichneten Zeichens (#x=Hexadezimal)
Zeichen
<
"
&
Newline
41
Entität
&lt;
&quot;
&amp;
&#9;
5.3 Tokenisierung: Segmentieren von Wörtern und Sätzen
5.3.1 Problem
Naive Tokenisierung mit 3 Zeichenklassen
Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder
Interpunktion begrenzt.
• Wort-Zeichen: /[a-zA-Z0-9]/
• Einzel-Zeichen: /[.,:;?!)(" ?-]/
• Grenz-Zeichen: /\s/
Problem
Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten:
“Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit”
Teilprobleme der Tokenisierung im weiten Sinn
• Umgang mit Markup (HTML-Tags, Formatierungszeichen)
• Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie dem
Chinesischen anspruchsvoll)
• Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen beinhalten
• Erkennung von Interpunktion (Punktdesambiguierung, Satzendeerkennung)
• Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben)
• Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben)
5.3.2 Punktdesambiguierung
Erkennung von Satzenden (Satz-Segmentierung)
Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt
als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben.
Verschärfend: Verschmelzung zweier Funktionen
Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.
Beispiel 5.3.1 (Verschmelzung im Englischen).
• It was due Friday by 5 p.m. Saturday would be too late.
• Ich kenne die U.S.A. Frankreich kenne ich nicht.
Weiteres
Nicht bloss Punkte sind mehrdeutig, auch andere Interpunktion ist es, aber nicht so virulent.
42
Algorithmus zur Punktdesambiguierung nach [Grefenstette und Tapanainen 1994]
Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet.
Der Punkt ist ein Abkürzungspunkt, falls
• das Token in einer Abkürzungsliste steht.
• nach dem Token [,;a-z] folgt.
• das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht.
• das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punkt
vorkommt.
Leistungsfähigkeit
Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.
Statistische Verfahren zur Punktdesambiguierung
Prinzip
Verwende die Häufigkeiten von Vorkommen (occurence) und Mit-Vorkommen (co-occurence) von
Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.
Interessante Merkmale für statistische Ansätze
1. Wieviele Zeichen umfasst ein Token?
2. Umfasst ein Token Ziffern oder keine Vokale?
3. Wie oft kommt das Token ohne Punkt vor?
4. Wie oft kommt nach dem Token ein grossgeschriebenes Token vor?
5. Wie oft kommt ein Token kleingeschrieben vor?
6. Welche Wortart haben die umgebenden Tokens?
5.3.3 Zeichen- und Token-Normalisierung
Text-Normalisierung
Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen.
Beispiel 5.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen).
• Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . .
• 4.8.97, 4-8-97, 4/8/97, 8/4/97
• 19000, 19’000, 19 000, 19,000
• Louisa, Luise, Louise, Luisa . . .
• doesn’t, does not
43
Rückgängig machen von Worttrennung am Zeilenende
Definition 5.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen
Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere graphematische Modifikationen.
Beispiel 5.3.4 (Graphematische Modifikationen).
• Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt
• Holländisch: chocola-tje → chocolaatje
Rückgängig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]
Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens:
Zeilen
101’860
12’473
Rückbau
11’858
615
in %
100%
12%
in %
95%
5%
Typ
Zeilen total
mit Silbentrennung
Typ
Rückbau in existierende Tokens
Rückbau in neue Tokens
Tabelle 5.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus
Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation”
Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.
5.3.4 Named Entity Recognition
Named Entity Recognition
Definition 5.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung von
Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungsund Zeitangaben oder weitere textsortenspezifische interessierende Grössen.
Einheitliche (kanonische) Repräsentation
Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen.
Beispiel 5.3.6 (Kanonische Formen).
• USA: “U.S.A.”,“United States of America”, “U.S. of America”
• time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins”
44
5.4 Vertiefung
Zum Thema “Tokenisierung”:
• Pflichtlektüre: [Carstensen et al. 2004, 3.3.1]
• Guter Übersichtsartikel für Interessierte: [Palmer 2000]
• Gut zu lesen und methodisch einfach und instruktiv: [Grefenstette und Tapanainen 1994]
Zum Thema “Reguläre Ausdrücke”:
• http://www.cl.uzh.ch/clab/regex/
Zum Thema “XML”:
• Kapitel 2.5. Texttechnologische Grundlagen in [Carstensen et al. 2004]
45
6 Flache Satzverarbeitung
Lernziele
• Kenntnis über POS-Tagger, ihre Aufgabe und Probleme
• Kenntnis über grundlegende Evaluationsmethodik
• Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger
• Kenntnis über partielle syntaktische Analyse
• Kenntnis über flache und verschachtelte Chunks
6.1 Wortarten-Tagging
Wortarten-Tagging
Definition 6.1.1 (Wortarten-Tagger). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger, kurz
POS-Tagger ) ist ein Programm, das für jedes Token eines Korpus die Wortart bestimmt, indem
es ein Klassifikationskürzel als Tag zuordnet.
Beispiel 6.1.2 (Zeilenformat mit Schrägstrich).
Sonderrechte/NN für/APPR Minoritätenkollektive/NN widersprechen/VVFIN
Tag-Sets für Englisch
Definition 6.1.3 (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wortarteninformation noch semantische, syntaktische oder morphologische Information. Die Grösse
eines Tag-Sets kann stark variieren.
Tag-Set
Brown
Penn
CLAWS c5
London-Lund
Grösse
87 (179)
45
62
197
Beispiel
she/PPS
she/PRP
she/PNP
she’s/RA*VB+3
Bedeutung
Pronoun, personal, subject, 3SG
Pronoun (personal or reflexive)
Pronoun personal
pronoun, personal, nominative + verb "to
be", present tense, 3rd person singular
Tabelle 6.1: Übersicht: Tag-Sets für Englisch
Penn-Treebank-Tag-Set (PTTS)
Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welches
ab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist.
46
Anforderungen an ein Programm für Tagging
Positive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]:
• Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen,
Markup).
• Effizient: Der Tagger arbeitet schnell.
• Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%).
• Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst werden.
• Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden.
Fallstudie TnT-Tagger: Übersicht
Trainingskorpus
training.tts
Getaggtes
Korpus
Training
tnt-para
ParameterDateien
training.lex
training.123
Tagging
tnt
Evaluationskorpus
eval.tts
Aufteilen
des Korpus
Testkorpus
test.tts
test.txt
Evaluation
tnt-diff
Abbildung 6.1: Training, Tagging und Evaluation mit dem TnT-Tagger
Fallstudie TnT-Tagger: Anpassbarkeit konkret
Man nehme . . . [Clematide 2007]
1. ein getaggtes Korpus (vertikalisierter Textformat)
$ head -n 3 ../../uis-vonabisz.tts
Studienführer
NN
"
$(
Universität
NN
$ wc ../../uis-vonabisz.tts
9676 18154 118761 ../../uis-vonabisz.tts
47
2. Produziere aus 9/10 davon ein Trainingskorpus, indem alle bis auf die letzten 965 Zeilen
in eine neue Datei geschrieben werden.
$ head --lines -965
../../uis-vonabisz.tts > training.tts
3. Produziere aus dem restlichen 1/10 ein Testkorpus, indem die letzten 965 Zeilen in eine
neue Datei geschrieben werden.
$ tail --lines 965
../../uis-vonabisz.tts > test.tts
4. Trainiere über dem Trainingskorpus
$ tnt-para training.tts
5. Probiere aus, ob der Tagger was Vernünftiges tut.
$ tnt training /dev/stdin > out.tts
Der
Tagger
läuft
. [mit Control-D für Dateiende abschliessen
$ more out.tts
6. Erstelle ein Testkorpus.
$ cut -f 1 test.tts > eval.txt
7. Tagge das Testkorpus mit dem trainierten Modell.
$ tnt training eval.txt > eval.tts
8. Evaluiere das getaggte Evaluationskorpus gegen das Testkorpus.
$ tnt-diff test.tts eval.tts
6.1.1 Probleme des Taggings
Wortformen mit mehreren möglichen Tags
Mehrdeutigkeit
Im Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token.
Baseline
Nimm für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt ca. 90% richtige
Entscheidungen.
Optimierungspotential
Berücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wörter), um die Baseline-Entscheidung umzustossen.
48
Tag-Ambiguität im Englischen
Mehrdeutigkeit bei deutschen Wörtern
Beispiel 6.1.4 (Verteilung der Mehrdeutigkeit).
Vorkommen in einem Korpus von ca. 80’000 Token
die ART 2351 PRELS 448 PDS 4
Mehrheit NN 40
bestimmt VVPP 7 VVFIN 4 ADV 1 ADJD 1
Mehrdeutigkeit in einem deutschen Testkorpus (STTS)
Abbildung 6.2: Ambiguitätsraten aus der Frankfurter Rundschau [Volk und Schneider 1998]
Dem Tagger unbekannte Wortformen haben die Ambiguitätsrate 0.
Unbekannte Wörter
Kein Tagger-Lexikon kann vollständig sein. Wie kann ein Tagger sinnvolle Vorschläge machen?
• Unterscheidung zwischen offenen und geschlossenen Wortarten
• Daumenregeln aufgrund des Baus der unbekannten Wortform: Wortendungen oder Wortbeginn
Beispiel 6.1.5 (Morphologische Heuristiken für Englisch).
98% aller Wörter auf -able sind Adjektive.
Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname.
• Daumenregeln aufgrund des Kontextes (z.B. Satzanfang)
49
Nutzen und Anwendung des POS-Tagging
POS-Tagging hat sich als eine eigenständige sprachtechnologische Anwendung erwiesen, welche
effizient und zuverlässig durchgeführt werden kann, und für verschiedenste Zwecke nützlich ist:
Lemmatisierung, Lexikographie, Sprachsynthese, Spracherkennung, Dokumentensuche, Bedeutungsdisambiguierung usw.
Beispiel 6.1.6 (Sprachsynthese/Bedeutungsdisambiguierung).
• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)
Beispiel 6.1.7 (Lemmatisierung).
• eine/ART: Lemma “ein”
• eine/VVIMP: Lemma “einen”
Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe.
6.2 Evaluation
Evaluation
Definition 6.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines
Wertes auf einer Werteskala aufgrund einer Messmethode.
Definition 6.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer
Validität und Reliabilität.
Definition 6.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode sagt
aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen wird.
Definition 6.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind.
Überlegungen zu Reliabilität und Validität
Messintention
Es soll das Verständnis von Studierenden über das Thema reguläre Ausdrücke mittels eines
Multiple-Choice-Tests geprüft werden.
Überlegung I
Wie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität und
Validität hoch ist?
Überlegung II
Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person
mehrmals gemacht wird?
50
6.2.1 Zweck
Zweck von Evaluationen
Systemverbesserung
Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert worden
ist. Die Evaluation von System A und A’ hilft einzuschätzen, inwiefern die Komponente Z das
System optimiert.
Systemvergleich
Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation
anhand einer Testaufgabe T zeigt auf, welches System besser ist.
6.2.2 Accuracy
POS-Tagger-Evaluation: Genauigkeit
Definition 6.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit
N Token ist der Anteil der korrekt getaggten Token.
Formal: Sei E die Anzahl von falsch getaggten (Vorkommen von) Token:
accuracy =
N −E
N
Beispiel 6.2.6 (Genauigkeitsberechnung).
Die Korrektheit des TnT-Taggers bei einem Training über 1 Million Token der Penn Treebank
beträgt 96.7%. Wieviele Token wurden im Testkorpus von 100’000 Token falsch getaggt?
Wenn man nur über 1’000 Token trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus
von 100’000 Token. Wie hoch ist die Genauigkeit?
Testmethodik
Beispiel 6.2.7 (Verbesserung von Tagging-Resultaten).
Hans ist nicht zufrieden mit den 96.7% Genauigkeit des TnT-Taggers über der Penn Treebank.
Er schreibt ein Pattern-Matching-Programm, das nach dem Tagging angewendet wird und das
möglichst viele Fehler des Taggers noch korrigiert. Nach 2 Jahren hat er damit für die Penn
Treebank eine Genauigkeit von 99.8% erreicht.
Was ist von der Aussage von Paul zu halten, dass er einen POS-Tagger für Englisch gemacht
hat, der eine evaluierte Genauigkeit von 99.8% hat?
Häufigste Tagging-Fehler von TnT im NEGRA-Korpus
Legende zur Tabelle 6.2
T agt : Korrektes Label; T agf : Falsch getaggtes Label
F reqt : Vorkommenshäufigkeit des korrekten Labels; F reqf : Vorkommenshäufigkeit des falschen
Labels
Erel. : Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler
Ant.: Anteil der falschen Tags an den korrekt erkannten
51
T agt
NE
VVFIN
NN
VVFIN
ADJA
F reqt
15069
11595
58563
11595
16843
T agf
NN
VVINF
NE
VVPP
NN
F reqf
2092
667
615
425
270
Ant.
13.9
5.8
1.1
3.7
1.6
Erel.
19.6
6.3
5.8
4.0
2.5
Eabs.
0.74
0.23
0.22
0.15
0.10
Tabelle 6.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112]
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 6.2.8 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache
Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird
jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial.
Beispiel 6.2.9 (Durchschnittliche Genauigkeit).
Pi=10
accuracy =
i=1
accuracyi
10
Generalisierung von 10 auf k
Die Verwendung von 10 hat sich als gute und bewährte Praxis erwiesen. Im Prinzip kann man
aber 10 durch irgendeine Zahl k ≥ 1 ersetzen.
6.2.3 Lernkurven
6.2.4 Recall
Recall (Ausbeute, Abdeckung, Vollständigkeit)
Definition 6.2.10. Recall ist ein Evaluationsmass, das den Anteil der korrekten Antworten
(Entscheidungen) eines Systems gemessen an allen möglichen korrekten Antworten angibt.
Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrekten
Antworten des Systems.
At
R=
Nt
Beispiel 6.2.11 (Recall eines Taggers).
Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN klassifiziert.
600
At = 600 und Nt = 800. Der Recall berechnet sich als: R = 800
= 75%
6.2.5 Precision
Precision (Genauigkeit, Präzision)
Definition 6.2.12. Precision ist ein Evaluationsmass, das den Anteil der korrekten Antworten
(Entscheidungen) eines Systems gemessen an allen gegebenen Antworten des Systems angibt.
Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten des
Systems.
At
P =
A
52
Abbildung 6.3: Tnt-Evaluation an Penn Treebank durch Thorsten Brants
Beispiel 6.2.13 (Precision eines Taggers).
Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, aber nur 600 davon
waren tatsächlich VVFIN.
600
At = 600 und A = 1000. Die Precision berechnet sich als: P = 1000
= 60%
6.2.6 F-Measure
F-Measure (F-Mass)
Definition 6.2.14 (F1 -Measure). Das F-Measure ist ein Evaluationsmass, das Precision und
Recall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet.
Formal: Sei P die Precision und R der Recall eines Systems:
F =
2×P ×R
P +R
Beispiel 6.2.15 (F-Mass eines Taggers).
Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN.
Das F-Measure berechnet sich somit: F = 2×0.6×0.75
0.6+0.75 = 66.6%
6.3 Chunk Parsing
Partielle syntaktische Analyse
53
Abbildung 6.4: Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants
Definition 6.3.1. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing)
berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz. Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt.
Abbildung 6.5: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid
Chunking-Regeln schreiben
54
Abbildung 6.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid
Wie kann man die zulässigen Chunks beschreiben?
NC -> ART NN
• NC : Ein NC (Nominalchunk) besteht
• ->: besteht aus
• ART: aus einem Wort der Wortart ART (Artikel)
• NN: gefolgt von einem Wort der Wortart NN (normales Nomen)
6.3.1 Abneys Chunk-Definition
Chunks (Teilstrukturen) nach [Abney 1991]
Beispiel 6.3.2 (Chunks nach Abney).
[I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time].
Motivationen
• Intonation: sprachliche Einheiten mit jeweils einer stärkeren Betonung
• Effizienz: Teilstrukturen lassen sich effizienter berechnen.
• Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische
Analyse.
• Robustheit: Für syntaktisch fehlerhaften Input braucht es tolerante, oberflächlichere Analysemethoden.
6.3.2 IOB-Chunk
Flache IOB-Chunks
Definition 6.3.3 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über
die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist.
• B-K : Anfang einer Chunk-Konstituente K
• I-K : Fortsetzung der Chunk-Konstituente K
• 0: Nicht zugeordnet (wird auch chink genannt)
55
Beispiel 6.3.4 (Notationsvarianten).
Wie sieht die IOB-Notation in Klammer- oder Baum-Darstellung aus?
Rockwell NNP B-NP
said VBD B-VP
the DT B-NP
agreement NN I-NP
calls VBZ B-VP
for IN B-SBAR
it PRP B-NP
to TO B-VP
supply VB I-VP
200 CD B-NP
additional JJ I-NP
so-called JJ I-NP
shipsets NNS I-NP
for IN B-PP
the DT B-NP
planes NNS I-NP
. . O
6.3.3 Verschachtelte Chunks
Verschachtelte Chunks
Definition 6.3.5 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische
Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk innerhalb
eines Nominal-Chunks, ist normalerweise nicht möglich.
Beispiel 6.3.6 (Chunk Parsing Output mit Verschachtelungstiefe 3).
[PX [APPR für]
[NX [ARTIND eine]
[AJXatt [ADJA gewisse]]
[NN Reibungslosigkeit]]]
Hinweis zur Chunk-Benennung
Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC.
6.4 Vertiefung
Zum Thema “Chunk Parsing”:
• Pflichtlektüre: [Carstensen et al. 2004, 3.3]
• Lerneinheit “Chunk Parsing” im CLab: http://www.cl.uzh.ch/clab/chunking/
56
6.5 Exkurs: Evaluation binärer Klassifikatoren
Lernziele
• Kenntnis über True Positive, True Negative, False Positive sowie False Negative
• Kenntnis über Fehlertypen und ihre Gefahr
• Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form der
TP:FP:FN:TN-Darstellung
6.5.1 True/False Positives/Negatives
Evaluation von binären Klassifikatoren
Truth
Test
Positive
Negative
Positive
True Positive (TP)
False Negative (FN)
Negative
False Positive (FP)
True Negative (TN)
Tabelle 6.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit
Legende zur Tabelle 6.3
True Übereinstimmung zwischen “Test” und “Truth”
False Keine Übereinstimmung zwischen “Test” und “Truth”
FP Fehlertyp I: Test ist positiv, wo er nicht sollte.
FN Fehlertyp II: Test ist negativ, wo er nicht sollte.
6.5.2 Fehlerparadoxe
Problem der Fehlerabschätzung I
Beispiel 6.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Konstruktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Konstruktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%.
Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat,
wenn er ein positives Resultat vermeldet?
Man überlege:
Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnitt
darunter?
57
Problem der Fehlerabschätzung II
Beispiel 6.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Konstruktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht.
Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test ein
negatives Resultat vermeldet?
Man überlege:
Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind im Schnitt
darunter?
6.5.3 Unterschiede von Evaluationsmassen
Dualität von Precision und Recall
Test
Pos
Neg
R=
Truth
Pos Neg
TP FP
FN TN
TP
TP + FN
Tabelle 6.4: Recall
Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall.
Test
Pos
Neg
P =
Truth
Pos Neg
TP FP
FN TN
TP
TP + FP
Tabelle 6.5: Precision
Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision.
F-Measure vs. Accuracy
F-Measure ignoriert TN. TP interessieren eigentlich.
Accuracy ignoriert nichts. TP und TN interessieren gleichwertig.
6.5.4 Mitteln von Recall und Precision
F-Measure: Harmonisches vs. arithmetisches Mittel
58
Test
F =
Pos
Neg
Truth
Pos Neg
TP FP
FN TN
2 × TP
2 × TP + FP + FN
Tabelle 6.6: F1 -Measure
Test
Truth
Pos Neg
TP FP
FN TN
Pos
Neg
Accuracy =
TP + TN
TP + TN + FP + FN
Tabelle 6.7: Accuracy
Abbildung 6.7: F =
2×P ×R
P +R :
y/x-Achse: Recall F-Mass [F-Mass 2006]
6.5.5 Vertiefung
• Artikel zum Harmonischen Mittel in [Wikipedia 2007]
59
Abbildung 6.8: M =
P +R
2 :
60
Arithmetisches Mittel
7 Volltextsuche und Text Mining
Lernziele
• Kenntnis über Grundlagen der Volltextsuche
• Kenntnis über traditionelle Informationserschliessung von OPAC
• Kenntnis über die Einsatzmöglichkeiten von CL-Ansätzen beim Indexieren
• Kenntnis über das Boolsche Retrievalmodell und Relevanz-Ranking
• Kenntnis über die Probleme der Auffassung von Dokument als Indexterm-Menge
• Kenntnis über eine mögliche Auffassung von Text Mining
7.1 Elektronische Informationsflut
Thesen zur elektronischen Informationsflut
• Immer mehr Menschen verbreiten (produzieren?) immer schneller immer mehr elektronische textuelle Information!
• Das Internet Archive http://www.archive.org bot 2003 Zugriff auf 10 Milliarden Webseiten. Im Mai 2006 enthält es knapp 2 Petabyte (1015 ) Daten und soll monatlich um 20
Terabyte wachsen.
• Nicht-öffentliche Bereiche wie “Intranets” von Firmen und Verwaltungen oder auch automatisch schlecht zugängliche Seiten verstecken sich dabei noch als “deep web” unter der
Spitze des sichtbaren Eisbergs.
• Verschiedene Projekte zur Buchdigitalisierung (z.B. http://books.google.com) versuchen, bislang nur gedruckte Information ins digitale Gedächtnis zu bringen.
Wachstum der Publikationen im biomedizinischen Bereich
2007 wurden pro Tag ca. 1900 Publikationen in der Online-Bibliographie PubMed erfasst [Pyysalo 2008,
6]. Wachstumrate steigt jährlich um 3%.
7.1.1 Suchdilemma
Suchdilemmas
Typisches Problem bei Volltextsuche
Benutzende erhalten zuviele Treffer!
Was tun?
...
61
Quelle: [Pyysalo 2008, 6]
Abbildung 7.1: In PubMed erfasste wiss. Artikel (2008 unvollständig)
Typisches Problem bei OPAC-Suche
(OPAC=öffentlich zugänglicher elektronischer Bibliothekskatalog)
Benutzende erhalten zuwenige Treffer!
Was tun?
...
Beispiel für Anreicherung von OPAC-Information
Anreicherung des klassischen OPAC-Bibliothekskatalogs
Inhaltsverzeichnisse
Eingescannte und in Text konvertierte Inhaltsverzeichnisse erlauben mehr Treffer.
Beispiel 7.1.1 (Landesbibliothek Vorarlberg).
• Keine Treffer für eine Suche nach dem Autor Jewgeni Charitonow.
• Dafür Treffer via Inhaltsverzeichnis.
Elektronisches Inhaltsverzeichnis
62
Abbildung 7.2: Suchoption für Inhaltsverzeichnis
Abbildung 7.3: Eingescanntes Inhaltsverzeichnis
Vom OPAC zur digitalen Bibliothek mit Volltextsuche
Digitale Bibliotheken
Nutzen und Tücken der automatischen Erfassung
Z.B. bei http://books.google.de
Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben
63
Abbildung 7.4: OCR und Frakturschrift
Entwicklung von Online-Datenbanken
Die ersten Online-Datenbanken entstanden in den 60er Jahren. Die NASA und
Lockheed entwickelten ein System, das heute als DIALOG bekannt ist, die Ohio
Bar Association LEXIS, das heute unter LEXIS/NEXIS firmiert, der CIA und IBM
STAIRS. Die Zahl der Online-Datenbanken betrug 1965 unter 20, 1975 mehr als 300
und 1984 fast 2500.
Quelle: http://www.phil.uni-sb.de/~werner/ir/irs.htm
Beispiel 7.1.2 (PubMed).
Online-“Bibliographien” wie PubMed bieten mittlerweile komplexe Datenverknüpfungsdienste (Terminologie, Ontologie, fachspezifische Datenbanken, Literaturverknüpfungen, Abstracts,
Volltexte) an: Knowledge Management.
7.2 Volltextsuche
Volltextsuche
Definition 7.2.1 (auch Dokumentenzugriffssystem, engl. Information Retrieval (IR)). Die klassische Volltextsuche liefert (Referenzen auf) Dokumente zurück, welche für eine Kombination von
Suchtermen und Suchkriterien (=Anfrage) relevant sind. Die Suchterme selbst können beliebige
im Text vorkommende Ausdrücke sein – es wird nicht wie bei Bibliothekskatalogen mit geschlossenen Sachbegriffen indiziert.
Hinweis zu den Einheiten des Retrievals
Anstelle von ganzen Dokumenten als Suchresultat kann man auch kleinere Textstellen (engl.
passage retrieval) als Wiedergewinnungseinheit definieren.
Beispiel 7.2.2 (Googles define-Operator).
Gewisse Suchmaschinen unterstützen die Suche nach definitionsartigen Passagen.
64
Traditionelle Sachbegriff-Indexierung im OPAC
Abbildung 7.5: Sachbegriff-Indexierung im NEBIS
Traditionelle Sachbegriff-Organisation im OPAC
Neuere textuelle Zusatzinformationen im OPAC
7.2.1 Indexieren
Indexieren
Definition 7.2.3 (Volltext-Indexieren). Beim Indexieren einer Dokumentensammlung werden
(fast alle) Wörter eines Dokuments ausgewählt, zu Indextermen normalisiert und im Index abgelegt.
Definition 7.2.4 (Index). Ein Index eines IR-Systems ist eine Datenstruktur, welche im Sinn
einer “invertierten Datei” für jeden Indexterm Referenzen auf die Dokumente(-nstellen) enthält,
wo er vorkommt.
Meta-Information zu Dokumenten
IR-System erlauben oft, Einschränkung bezüglich Alter, Sprache, Herkunft etc. von Dokumenten
in die Anfrage einzubauen. Solche Informationen müssen für jedes Dokument gespeichert werden.
Auswahl der Indexterme
Nach der Tokenisierung werden aus Gründen der Effizienz und/oder Relevanz oft bestimmte
Wörter (“noise words”) ausgefiltert.
65
Abbildung 7.6: Sachbegriff und Varianten im NEBIS
Abbildung 7.7: Textuelle Zusatzinformation im NEBIS
• Allgemeine Funktionswörter einer Sprache, welche meist häufig vorkommen (Stoppwortliste): der, die, das ...ich, du, er ...auf, unter, in ...und, oder ...bin, bist,
66
ist, hast ...
• Bei inhaltlich homogenen Dokumentensammlungen manchmal auch Inhaltwörter, welche
fast in allen Dokumenten vorkommen und dadurch keinen informativen Wert besitzen.
Z.B. in Dokumenten zur Informatik: System, Computer ...
Es gibt auch Suchmaschinen, welche alles indizieren – interessant für CL-Ansätze “WWW als
Korpus”.
Eine kleine Stoppwortliste für Englisch III
a about after again ago all almost also always am an and another any anybody anyhow anyone
anything anyway are as at away back be became because been before being between but by
came can cannot come could did do does doing done down each else even ever every everyone
everything for from front get getting go goes going gone got gotten had has have having he her
here him his how i if in into is isn’t it just last least left less let like make many may maybe me
mine more most much my myself never no none not now of off on one onto or our ourselves out
over per put putting same saw see seen shall she should so some somebody someone something
stand such sure take than that the their them then there these they this those through till to too
two unless until up upon us very was we went were what what’s whatever when where whether
which while who whoever whom whose why will with within without won’t would wouldn’t yet
you your
Indexterme normalisieren
Die Normalisierung kann keine bis viel Sprachtechnologie enthalten:
• Reduktion auf orthographische Normalform (Ä → ä; ä → ae ; ph → f)
• Trunkierung (veraltet): Abschneiden von Wortenden bei Wörtern ab einer Mindestlänge
auf einen Präfix fixer Länge
analys|ieren → analys
Analys|e → analys
analyt|isch → analyt
• Stemming (z.B. noch in Suche im Acrobat Reader): Einzelsprachliche Kürzungsregeln,
welche ohne Lexikoneinsatz Wortformen auf ihren Stamm (stem) reduzieren.
Stemming mit dem Porter-Stemmer III
Beispiel 7.2.5 (Porter-Stemmer für Englisch).
These analyses seemed especially analytic.
these → these
analyses → analys
seemed → seem
especially → especi
analytic → analyt
67
Abstract/Zusammenfassung
Inhaltsverzeichnis
Literaturverweise
Stichwortregister
Indexterme normalisieren
relevante Terme
im Volltext
• Lemmatisierung: Reduktion von syntaktischen Wortformen flektierter Sprachen auf ihre
Volltext
Grundform: “aufgegessen” → “aufessen”
• Kompositaanalyse: Auflösung von Komposita in ihre Bestandteile: “Schwimmunterricht”
→ “schwimm” “unterricht”
CL Auflösung
in IuD II – 5von derivierten Ausdrücken: “Überzeugung” “überzeugen”→
• Derivationsauflösung:
“überzeugen”
• Synonymerkennung: Auflösung von engeren Synonymen oder verwandten Bezeichnungen:
“Rechenmaschine”→ “Computer”, “Luisa” → “Louise”
• “Named Entity Recognition”: Erkennung von Datumsangaben für “Timelines”
Beispiele
Quelle: Oberhauser/Labner 2003
Automatische Indexieren mit IDX/MILOS
Beispiel I
Beispiel: Automatisches Indexieren von OPAC-Daten
Quelle:[Oberhauser und Labner 2003]
Abbildung 7.8: Automatisches Indizieren von OPAC-Informationen: Gut
7.2.2 Architektur
IR-System-Architektur [Carstensen et al. 2004, 483]
Frage
68
Quelle: Oberhauser/Labner 2003
Automatisches Indexieren mit IDX/MILOS
Beispiel 2
Quelle:[Oberhauser und Labner 2003]
Abbildung 7.9: Automatisches Indizieren von OPAC-Informationen: Schlecht
Warum hat es zwischen dem Kästchen “Anfrage-Compiler” und “Termextraktion und linguistische Normalisierung” eine Verbindung?
7.2.3 Retrieval
Dokument als Menge von Indextermen
Definition 7.2.6 (engl. bag of words (BOW)). Im IR wird ein Dokument meist als Menge von
Indextermen betrachtet.
Definition 7.2.7 (Boolsches Retrievalmodell). Im Boolschen Retrievalmodell werden die einzelnen Suchterme der Anfrage mit den logischen Operatoren “UND”, “ODER” und “NICHT”
verknüpft zu einer komplexen Anfrage.
Beispiel 7.2.8 (Logische Operatoren).
Die Anfrage "Schuhmacher UND Suzuka UND (NICHT Michael)" bedeutet:
Finde alle Dokumente, welche
• den Indexterm Schuhmacher und Suzuka enthalten, aber
• den Indexterm Michael nicht enthalten.
Probleme des Boolschen Retrievalmodells
Zweiwertigkeit
Wegen der klassischen Zweiwertigkeit, d.h. keine partiellen Treffer, können (bei kleineren Dokumentensammlungen) gerne keine Treffer entstehen.
Bei grossen Dokumentensammlungen wiederum können übergrosse Treffermengen entstehen.
Eine gute Reihenfolge der Suchresultate nach Relevanz ist notwendig (erweitertes Boolsches
Modell)
Dokument als Indexterm-Menge
Die Dependenzen zwischen den Wörtern lassen sich nicht darstellen. Ein Aufsatztitel wie “A
formal specification language for the automatic design of chips by computer” bedeutet dasselbe
wie die Wortliste “automatic, chip, computer, design, formal, language, specification”.
69
Abbildung 7.10: Generelle Architektur von IR-Systemen nach [Carstensen et al. 2004]
Problem der Mengen-Repräsentation für die Suche
Zwar finden Anfragen wie:
• design languages for computer chips:
design UND languages UND computer UND chips
• languages for the design by computer:
language UND design UND computer
das Dokument “A formal specification language for the automatic design of chips by computer”.
Aber auch Anfragen im Sinn von
• the formal design of chips
70
• the specification of computer languages
• the automatic design of specifications
würden das Dokument finden.
7.2.4 Relevanz
Relevanzabschätzung von Indextermen
Um die Relevanz von Indextermen gegenüber Dokumenten, welche sie enthalten, abschätzen zu
können, werden unterschiedlichste Masse angewendet und kombiniert.
Definition 7.2.9 (engl. term frequency (TF)). Die Relevanzhypothese zur Termhäufigkeit besagt: Je häufiger ein Indexterm in einem Dokument erscheint, umso relevanter ist das Dokument
für den Term.
Definition 7.2.10 (engl. inverse document frequency (IDF)). Die Relevanzhypothese zur inversen Termhäufigkeit besagt: Je seltener ein Indexterm eines Dokuments D in anderen Dokumenten
der Gesamtkollektion erscheint, umso relevanter ist Dokument D für den Indexterm.
Überlegungen zu Stoppwörter, TF und IDF
Fragen
1. Wie verhalten sich typische Stoppwörter bezüglich TF und IDF?
2. Wie verhält sich ein Wort bezüglich TF und IDF, das in einer Dokumentensammlung nur
1 Vorkommen hat?
3. Welche Auswirkungen hat es, wenn eine Dokumentensammlung sowohl sehr kurze wie auch
extrem lange Dokumente enthält?
4. Wie könnte man die Information über TF und IDF miteinander kombinieren zu einer
einzigen Bewertung?
Die TF/IDF-Formel nach [Salton 1988]
• N die Anzahl Dokumente in einer Dokumentensammlung DS
• i ein Dokument aus der Dokumentensammlung DS
• j ein Indexterm
• fj die Anzahl der Dokumente aus DS, welche den Indexterm j enthalten
• ti,j die Anzahl der Vorkommen von Indexterm j im Dokument i
• wi,j das Gewicht (Relevanz), welche dem Dokument i bezüglich dem Indexterm j zukommt
wi,j = ti,j × log
Fragen
Welche Werte kann ti,j und
N
fj
N
fj
maximal/minimal annehmen? Was macht log?
71
7.3 Text-Mining
Das Problem
Volltextsuche vs. Text-Mining
• In der Volltextsuche geht es darum, ad hoc ein Informationsbedürfnis zu stillen, indem
relevante Dokumente gefunden werden, welche die Information (hoffentlich) enthalten.
• Im Text-Mining geht es darum, automatisch neue Information aus Texten zu erschliessen.
Data-Mining vs. Text-Mining
• Im Data-Mining wird mit statistischen und Methoden der künstlichen Intelligenz versucht,
aus strukturierten Daten Ähnlichkeiten, Tendenzen und Zusammenhänge in grossen Datenmengen zu entdecken.
• Im Text-Mining soll dasselbe aus Text-Daten heraus geschehen – der grössten Informationsquelle überhaupt.
Literature Based Discovery [Hearst 1999]
Ein reales Beispiel aus der Medizin zur Forschungsinspiration:
“When investigating causes of migraine headaches, he [Don Swanson] extracted various pieces of
evidence from titles of articles in the biomedical literature:”
Paraphrasen:
• stress is associated with migraines
• stress can lead to loss of magnesium
• calcium channel blockers prevent some migraines
• magnesium is a natural calcium channel blocker
• migraine patients have high platelet aggregability
• magnesium can suppress platelet aggregability
• ...
Daraus entstand die Hypothese, dass Magnesium und Migräne in einem Zusammenhang stehen
können.
7.4 Vertiefung
• Pflichtlektüren: [Carstensen et al. 2004, 5.3] sowie die Lektüren aus den schriftlichen
Übungen ([Mehler und Wolff 2005])
• Vertiefungslektüre: Kapitel “Das World Wide Web” [Carstensen et al. 2004, 4.7]
72
• Eine Sammelsurium zum Thema “Information Retrieval” http://ir.exp.sis.pitt.edu/
res2/resources.php
• Vertiefungslektüre zum Thema “Text-Mining” [Hearst 1999]
• Lerneinheit “Reduzieren von Wortformen” im CLab: http://www.cl.uzh.ch/clab/reduzieren/
73
8 Kondensation und Klassifikation von
Texten
Lernziele
• Kenntnis über die unterschiedlichen Ausprägungen texttechnologischer Informationsaufbereitung
• Kenntnis über die Aufgaben der Textzusammenfassung, -klassifikation und Informationsextraktion und den Einsatz von CL-Techniken dabei
Textverdichtung à la Wordle
Abbildung 8.1: Wordle
“Wordle” http://www.wordle.net generiert aus einer Definitionssammlung
Texttechnologie
Das Problem der Bewirtschaftung von textueller Information hat verschiedenste “Aspekte”, welche meist “irgendwie” verwandt sind.
• Suchen
• Zusammenfassen
• Extrahieren von interessierenden Grössen und ihren Beziehungen
• Klassifizieren
74
Üb
Übersetzung via Transfer der syntaktischen Struktur (gängige Systeme)
Übersetzung via semantische Interlingua (theoretisch guter Ansatz)
CL in IuD I – 17
• Gruppieren (Clustering)
• Indizieren mit Deskriptoren
Textsortenzoo
Je nach Textsorte und gesellschaftlicher Textverwendung ergeben sich spezifische Anwendungen:
technische Handbücher (oft riesig), Testberichte, Patente, Gesetzestexte, E-Mails, wissenschaftliche Texte, News usw.
xtzusammenfassung
Ansä
8.1 Textzusammenfassung
8.1.1 Modell
«Language understanding is somewhat like counting from one to infinity;
language generation is like counting from infinity to one.» (Y. Wilks)
e Textzusammenfassung
Grundmodell des verstehenden Zusammenfassen
Der Text der Kurzfassung wird erzeugt
ausgehend von einer semantischen Form.
Sehr schwierig! Einfachere Variante…
formationsextraktion
Herausfiltern fixer
Sachverhaltsmuster
195
196
Quelltext
Kurztext
verstehen
generieren
Bedeutung
verdichten
kompression
(TK)
Problem
Aus einem Dokument
werden
die wichtigsten
Sätze extrahiert.
Language
understanding
is somewhat
like counting from one to infinity; language generation is
like counting from infinity to one.
CL Wilks
in IuD I nach
– 19 [Dale et al. 1998])
(Zitat von Yorick
Ausweg
Textextraktion bzw. -kompression, d.h. Auswählen der wichtigsten Textteile anstelle echter Zusammenfassung.
8.1.2 Terminologie
Terminologie
Definition 8.1.1 (abstract). Die Textzusammenfassung bedingt eine Reformulierung des Texts.
Definition 8.1.2 (extract). Die Textextraktion ist typischerweise eine Auswahl an wichtigen
Sätzen eines Texts.
Definition 8.1.3 (informative summary III). An informative summary is meant to represent
(and often replace) the original document.
Definition 8.1.4 (indicative summary). An indicative summary’s main purpose is to suggest
the contents of the article without giving away detail on the article content.
75
199
Bedeutung
Beispiel "Übernahmefakten":
Welche Firma hat wann
des inhaltsbasierten
Textzusammenfassen
Grundmodell
des verstehenden
welche andere Firma für Abbildung 8.2: Grundmodell
Zusammenfassen
wieviel Geld übernommen?
Beispiele?
Statis
Lingu
seit
8.1.3 Ansätze
Ansätze der Textextraktion/-kompression
Statistische und heuristische Verfahren
• [Luhn 1958]: Vorkommen von Wörtern mittlerer Häufigkeit
• [Edmundson 1969]:
– Satzposition im Abschnitt (Anfang/Ende wichtiger als Mitte)
– wichtige Schlüsselwörter (z.B. aus Überschriften) vs. Füll- bzw. Stoppwörter
• [Kupiec et al. 1995]: Lernendes System, das aus bestehenden Abstract-Dokument-Paaren
generalisiert!
– Satzlänge > 5; Wortmerkmale (Grossschreibung, Länge, Häufigkeit)
– Textsortenspezifische Indikatorphrasen für zentrale Aussagen “In conclusion,”
– 80% der Sätze in den Abstracts (von professionellen Zusammenfassern!) waren wörtlich oder nur minim modifiziert im Dokument!
• Varianten und Verfeinerungen solcher heuristischen Methoden sind heute gängig (z.B. Microsoft Word Zusammenfassung)
Linguistische und wissensverarbeitende Verfahren
Seit 70er Jahren: Meist sehr anwendungsspezifisch.
Telegraphische Verkürzung
Beispiel 8.1.5 (STREAK: Zusammenfassung als Textgenerierung).
Ein System, das strukturierte Daten über Basketballspielen zu “natürlich” erscheinenden Kurztexten aufbereitet.
Telegraphische Verkürzung
Beispiel 8.1.6 (Scisor: Zusammenfassung als Antwortgenerierung).
EinSatzbasiertes
System, das Presseberichte
über "unwichtiger"
Unternehmensübernahmen
analysiert und in einer WisAuslassen
Element
sensdatenbank ablegt. Natürlichsprachliche Benutzeranfragen werden mit den “verstandenen”
Nur Subjekte, Objekte, Verbalkerne, Präpositionen und abhängige Nominalkerne
Berichten abgeglichen und Teile daraus als Antworten zurückgegeben.
Satzbasiertes
Auslassen "unwichtiger" Element
Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Kernfunktion!
Nur Subjekte, Objekte, Verbalkerne, Präpositionen und abhängige Nominalkerne
Exkurs:Weiterentwicklungen
Telegraphische Zusammenfassung
Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Kernfunktion!
Weglassen
von inhaltlich1998]
unwichtigen
Satzbestandteilen
Beispiel 8.1.7
([Grefenstette
telegraphisches
Tool). unter Beibehaltung der
syntaktischen Wohlgeformtheit
Weiterentwicklungen
Weglassen von inhaltlich unwichtigen Satzbestandteilen
unter Beibehaltung der
Text summarization producing version of
Text summarization is usually taken to mean
syntaktischen
Wohlgeformtheit
producing
a shorter version
of an original
document by retaining the most salient parts of
the original text. Two approaches have been
Text summarization
is usually
to mean sentences
favored: selecting
high taken
content-bearing
producinginfluenced
a shorter by
version
of an
original and
positional
constraints,
documentperforming
by retaining
thedependent
most salient
parts of
domain
information
which
fills a template
the originalextraction
text. Two
approaches
havefrom
beenwhich a
glossed.
favored: summary
selecting can
highbecontent-bearing
sentences
influenced by positional constraints, and
performing domain dependent information
extraction which fills a template Abbildung
from which a8.3:
summary can be glossed.
document by retaining parts of text. Two
approaches favored sentences influenced by
constraints and extraction fills template from
Textsummary
summarization
glossed. producing version of
document by retaining parts of text. Two
approaches favored sentences influenced by
constraints and extraction fills template from
G. Grefenstette
(1998): Producing intelligent telegraphic text
summary
glossed.
reduction to provide an audio scanning service for the blind
Telegraphische Verkürzungstechnik
CL in IuD I – 21
G. Grefenstette (1998): Producing intelligent telegraphic text
reduction to provide an audio scanning service for the blind
CL in IuD I – 21
76
Verallgemeinerungsprobleme der CL
Ansatz
• Linguistisch motiviertes Auslassen bestimmter Elemente: Nur Subjekte, Objekte, Verbalkerne, Präpositionen und die Nominalkerne
• Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Funktion
• Weiterentwicklungen: Weglassen von inhaltlich unwichtigen Satzteilen unter Beibehaltung
der syntaktischen Wohlgeformtheit
Aktuelle statistikbasierte Forschung
Sentence compression
In der Forschung wird die Text-Kompression auf Satzebene mit lernenden Verfahren verfolgt
[Cohn und Lapata 2008]: Einfaches Eliminieren irrelevanter Wörter (word deletion) und auch
reformulierendes Zusammenfassen (abstracting).
Beispiel 8.1.8 (Extracting vs. Abstracting nach [Cohn und Lapata 2008]).
• But a month ago, she returned to Britain, taking the children with her. (Original)
• But she returned to Britain with the children. (Mensch)
• She returned to Britain, taking the children. (Wort-Löschung)
• But she took the children with him. (Reformulierendes Abstracting)
Fazit Textzusammenfassung
Was zeichnet gute Textzusammenfassung/-kompression aus?
Relevanz
Ist das Wichtige drin? Ist das Unwichtige weggelassen? Ist die Zusammmenfassung redundanzfrei?
Lesbarkeit
Wie fügt sich die Zusammenfassung zusammen (Textkohärenz)? Fehlen Bezugsausdrücke von
anaphorischen Ausdrücken? (dangling pronouns)
Parametrisierbarkeit
Kann ich den Grad an Kompression beeinflussen? Gibt es eine Form von Benutzermodellierung?
8.2 Informationsextraktion
Informationsextraktion
Definition 8.2.1. Ein Informationsextraktionssystem extrahiert auf Grund vorgegebener Informationsmuster (template, Merkmal-Wert-Paare) aus Textdokumenten gefüllte Instanzen dieser
Muster.
Informationsextraktion ist ein seit den 90er-Jahren (MUC-Konferenzen) eine aktive und erfolgreiche Forschungsrichtung.
77
Beispiel 8.2.2 (IE-Anwendungsszenario III).
An IE system analyses newspaper articles to find instances of corporate mergers and
joint ventures. The system identifies all the participating corporations, products and
services associated with the joint venture, and other details such as the amount of
investment capital and the names of the associated partners.
8.2.1 IE vs. IR
Unterschied IE vs. IR III
Information Retrieval gets sets of relevant documents – you analyse the documents.
Abbildung 8.4: IR
Information Extraction gets facts out of documents – you analyse the facts.
Abbildung 8.5: IE
8.2.2 Klassische IE
5 klassische Aufgaben eines IE-Systems nach [Cunningham 1999]
Named Entity Recognition (NER)
Bezeichnungen von Personen, Organisationen, Daten usw. finden und klassifizieren.
Coreference Resolution(CO)
Identitätsbeziehungen zwischen erkannten Entitäten bestimmen. Z.B. “Bundeskanzler Schröder”,
“Schröder”, “G. Schröder” , “er” usw. aufeinander beziehen.
Template Element construction (TE)
Anreicherung an beschreibender Information zu interessierenden Grössen aus der Textkollektion
oder externen Wissensquellen. Z.B. wurde die Stadt Toronto identifiziert und die Information
hinzugefügt, dass sie in Kanada liegt.
78
Template Relation construction (TR)
Entdecken und klassifizieren von Beziehungen zwischen in interessierenden Entitäten. Z.B. medizinische IE (http://www.ontogene.org): Entdecken von Beziehungen zwischen Proteinen und
Genen.
Scenario Template production (ST)
Integration der Information über TE und TR in anwendungsspezfische Szenarien. Z.B. Entdecken
von typischen wirtschaftskriminellen Machenschaften.
Bemerkung
Die Lösung dieser 5 Aufgaben (sog. tasks) wurde in verschiedenen wettbewerbsmässigen Evaluierungskonferenzen erfolgreich optimiert.
Typisches IE-System
Abbildung 8.6: http://www.ontos.ch/de/products/ontosminer.php
8.3 Textklassifikation
8.3.1 Kategorisieren
Klassische Klassifikationstasks
Definition 8.3.1 (Textklassifikation). Die Texte einer Textkollektion sollen einer oder mehreren
Klassen eines meist hierarchisch aufgebauten Klassifikationssystems zugeordnet werden.
Beispiel 8.3.2 (Reuters Task).
Zeitungsnachrichten sollen in die Rubriken wie Politik, Wirtschaft etc. eingeordnet werden. Eine
eher leichte Aufgabe, welche zu fast 90% gelöst werden kann mit lernenden Verfahren.
Beispiel 8.3.3 (Message Routing).
Zuordnen (ev. an den Papierkorb) von elektronischen Dokumenten an ihre Adressaten aufgrund
des Inhalts. Mitteilungsdienste, Kundenanfragen usw.
79
Kategorisierung von E-Mail
Spam vs. Nicht-Spam
Eine der populärsten Textklassifikationsaufgaben zur Zeit ist die Einteilung von E-Mail in die
Kategorie Spam.
Fast alle Methoden der Textklassifikationsstradition wurden auf diese Problem angewendet.
Erfolgreich sind insbesondere statistische und lernende Systeme.
8.3.2 Clustering
Clustering (Gruppenbildung)
Im Gegensatz zur Klassifikation über vorgegebenen Kategorien werden beim Clustering Textkollektionen nur auf Grund inhärenter Merkmale gruppiert, sodass die Texte innerhalb eines
Clusters möglichst ähnlich (homogen) sind und zwischen den Clustern möglichst klare Unterschiede bestehen.
Beispiel 8.3.4 (Suchmaschine mit Clustering).
Eine Anwendungsmöglichkeit von Clustering ist es, Suchresultate nach “Themen” zu clustern:
http://clusty.com/
8.4 Vertiefung
• Pflichtlektüren: Informationsextraktion und Textzusammenfassung [Carstensen et al. 2004,
5.5-6] sowie die Lektüren aus den schriftlichen Übungen
• Experimentieren im Umfeld von IR und Textklassifikation http://www.cl.uzh.ch/clab/
reduzieren/ilap_informationretrieval/
80
9 Sprachsynthese und Spracherkennung
Lernziele
• Kenntnis über die Teilfunktionen und Verarbeitungsstufen eines typischen Systems zur
Sprachsynthese und der Spracherkennung
• Kenntnis über die Probleme und Ansätze solcher Systeme
• Kenntnis über die Einsatzmöglichkeiten von CL-Techniken
• Kenntnis über sprachtechnologische Standards
9.1 Sprachsynthese
Sprachsynthesesysteme III
Definition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einer
Zeichenkette (Text) ein akustisches Signal.
Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus.
Beispiel 9.1.2 (Ein deutscher Stolpersatz).
“Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die
Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.”
• Welche Schwierigkeiten liegen vor?
• Was kann ein TTS damit anfangen? Z.B. [German 2006]
Qualitätsmerkmale für Sprachsynthese
• Silbenübergänge: Wie natürlich werden Silbenübergänge lautiert?
• Wortbetonung: Sind die Betonungen bei (unbekannten) Wörtern korrekt?
• Satzmelodie/Satzbetonung: Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral?
• Sprechtempo: Zu schnell, zu langsam?
• Sprechrhythmus: Monotones Geraspel oder gegliederte Information?
• Pausen: Finden Sprechpausen (an der richtigen Stelle) statt?
Weiteres
Unterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es,
wenn das Sprechtempo stark erhöht werden kann.
81
Einsatzmöglichkeiten von Sprachsynthese
• (Mobil-)Telefonie: Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurse usw.),
welche meist mit einem Spracherkennungssystem gekoppelt sind
• Informationssysteme, welche keine visuelle Ablenkung erzeugen dürfen: Navigationssysteme im Auto, E-Mail-Vorlesesysteme im Auto usw.
• Computerarbeitsplätze für Sehbehinderte
• Künstliche Stimme für Sprechbehinderte
• Sprachenlernen
• ...
9.1.1 Architektur
Typische Architektur von TTS
Vom der Zeichenkette zum Laut
1. Tokenisierung
2. Lexikalische Analyse mit einem Lexikon
3. (Flache) syntaktische Analyse für lexikalische Desambiguierung und für die syntaktische
und prosodische Phrasierung (Phrasengrenzen und Akzente)
4. Phonologische Analyse
5. Lautproduktion aufgrund der Phonemfolge mit Information zu Lautdauer und Intonation
Beispiel-Architektur von MARY TTS
9.1.2 Ausgewählte Probleme
Aussprache von Ziffern und Abkürzungen
Die Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischen
Kulturräumen [Liberman und Church 1992].
Beispiel 9.1.3 (Varianten im Deutschen).
• Einzelziffern: 1456 “ Konto eins vier fünf sechs”
• Zahl: 1456 “Eintausendvierhundertsechsundfünfzig”
• Hunderter: 1456 “Vierzehnhundert(und)sechsundfünfzig”
• Paare oder Trippel: “044 344 56 10”
• Ordinalzahlen: “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.”
Frage
Welche Aussprachen sind für welche Grössen verbreitet?
Probleme bei Abkürzungen
Welche Schwierigkeiten stellt die Aussprache von Abkürzungen?
82
Abbildung 9.1: Architektur von MARY-TTS-System
Prosodie
Um Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguistische Analysen.
Beispiel 9.1.4 (Satzintonation und -rhythmus).
The rear aggregate pumps . . .
• . . . work fine.
• . . . 50 gallons of fuel a second into the engine.
Beispiel 9.1.5 (Satzbetonung und Pausen).
• She left DIRECTIONS for Joe to follow.
• She left directions for Joe to FOLLOW.
Was ist Prosodie auf Satzebene? [Bader 2006]
Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenzverlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenen
Sprache wieder.
Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Computer zu analysieren, ist unter http://www.praat.org zu finden.
83
Abbildung 9.2: Satzintonation im Deutschen nach [Bader 2006]
Prosodie: ToBI-Modell (Tones and Break Indices)
• H (high): Hohe Satzmelodie
• L (low): Tiefe Satzmelodie
• [HL] *: Auszeichnung der betonten Silbe
• [HL] +[HL] : Tonwechsel innerhalb von Wörtern
• [HL] %: Satzendebetonung
• [HL] – : Phrasenbetonung (sekundärer Satzakzent)
Beispiel: Prosodie [Simmons 2006b]
Weitere Probleme
• Mehrdeutigkeiten der morphologischen Analyse:
Wählerstimmen = wähl+erst+imme+n
84
Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm
Abbildung 9.3: Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a])
• Einschlüsse verschiedener Sprachen in einem Text
“Er hat dies nur contre coeur live gesungen.”
• Umgang mit named entities
9.1.3 Analyseebenen
Phonetische Analyse
Wie werden die einzelnen Laute eines Wortes in Isolation repräsentiert?
Definition 9.1.6 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch enthält
für (flektierte) Wortformen eine Repräsentation in einer Lautschrift.
Z.B. in Form des International Phonetic Alphabet (IPA) http://www.arts.gla.ac.uk/IPA,
bzw. einer auf Computern einfacher verwendbareren Kodierung davon.
Beispiel 9.1.7 (Formate elektronischer Aussprachewörterbücher nach [Jurafsky und Martin 2000]).
• Pronlex: +arm.xd’Il.o,
• CELEX (britisch): "#-m@-’dI-15 = [­a:.m@."dI.l@U],
• CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [­arm2"dI.loU]
IPA-Lautschrift für Deutsch
85
Quelle: [Carstensen et al. 2004, 157]
Abbildung 9.4: IPA-Symbole für Deutsch
Phonetische Lautschrift (SAMPA German)
Eine in ASCII kodierte Notationsvariante für IPA-Symbole.
• : (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze)
• Plosive: p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem)
• Frikative: f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r (rein),
h (Hand)
• Sonoranten: m (mein), n (nein), N (lang), l (laut), j (ja)
• Ungespannte Vokale: I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a
(Satz), @ (bitte), 6 (kurz),
• Gespannte Vokale: i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot)
Frage
Wie kann man das Wort “jenseits” schreiben?
Diphone und Halbphoneme
Die Verwendung der klassischen linguistischen Einheit Phonem (35-50 pro Sprache) für Sprachgenerierung ergibt keine guten Systeme.
Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen?
86
Definition 9.1.8 (Diphone III). Ein Diphon geht von der Mitte eines Phonems zur Mitte des
nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone, für Spanisch
auf 800.
In der Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten.
Beispiel 9.1.9 (Stimmen klonen mit Halbphonemen III).
AT&T Natural Voices konnte im Jahr 2001 aus ca. 40h Stimmaufnahmen eine sehr natürliche
Kunststimme extrahieren. Dazu wurden u.a. die verschiedensten Sprechvarianten von Phonemen
aufgenommen und jeweils in der Mitte halbiert.
Phonologische Analyse
Welche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichen
Kontext gelten?
Definition 9.1.10 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unter
denen phonologische Alternationen statt finden.
Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafür
an.
Beispiel 9.1.11 (Phonologische Alternationen).
Das Plural-s wird im Englischen je nach Umgebung ganz unterschiedlich ausgesprochen: “peaches”, “pigs”, “cats”.
Teilweise lassen sich solche Effekte durch maschinelle Lernverfahren aus den Daten ableiten.
Sprachkonserven
Am primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustische
Sprachkonserven nacheinander ausgegeben werden.
Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen."
Beispiel 9.1.12 (Ein Problem zu einfacher Ansätze).
• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)
Speech Synthesis Markup Language (SSML)
Dieser XML-Standard erlaubt eine strukturierte Spezifikation von verschiedenen Parametern
einer Speech-Applikation.
<p>
<s xml:lang="en-US">
<voice name="David" gender="male" age="25">
For English, press <emphasis>one</emphasis>.
</voice>
</s>
<s xml:lang="es-MX">
<voice name="Miguel" gender="male" age="25">
Para español, oprima el <emphasis>dos</emphasis>.
</voice>
</s>
</p>
http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/
87
9.2 Spracherkennung
Spracherkennungssysteme
Definition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus dem
akustischen Signal von gesprochener Sprache eine textuelle Darstellung.
Definition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnet aus
dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung.
Spracherkennung ist schwieriger als Sprachsynthese. Warum?
Typische Architektur
Vom Sprachsignal zur Wortfolge
1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals:
Merkmalsextraktion)
2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phoneme,
Diphone, Silben), mit denen sich die Wörter zusammensetzen
3. Lexikalische Analyse: Erkennen von Wortkandidaten
4. Syntaktische Analyse: Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche
5. Semantische Analyse: Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen
9.2.1 Probleme
Wortübergänge (Junkturen)
Wortgrenzen werden eher selten als Sprechpausen realisiert.
Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Verlängerung beginnender Konsonanten oder Betonung endender Vokale.
Definition 9.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonems
durch seine Umgebung.
Beispiel 9.2.4 (Assimilation).
R
• this year → this ear
• the old man → thiold man
Wortübergänge (Junkturen)
Beispiel 9.2.5 (Epenthese und Auslassung).
• China is → Chinaris
• best buy → besbuy
Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)).
• night-rate ↔ nitrate ; grey day ↔ grade A; why choose ↔ white shoes
• The sad poet remembers a long ago time ↔ Thus add poetry members along a goat I’m
88
Weitere Störfaktoren
• Unbekannte Wörter, u.a. zu kleines Lexikon
• Hintergrundsgeräusche
• Schlechte Mikrophone
• Sprecherspezifische Eigenheiten: schnelles oder undeutliches Artikulieren, dialektale Färbung
• Wenig kollaborative Kommunikation: Im Gegensatz zur menschlichen Kommunikation weiss
ein Spracherkennungssystem selten, worum es geht.
9.2.2 Worthypothesengraph
Worthypothesengraph
In einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsentiert. Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrschein-
Abbildung 9.5: Worthypothesengraph aus [Carstensen et al. 2004, 580]
lichsten Pfad auswählen.
9.2.3 Wortfehlerrate
Wortfehlerrate (word error rate, WER)
Definition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen versteht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zu
machen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) oder
eingefügt (INS) werden.
Definition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern).
W ER = 100 ×
NSU B + NIN S + NDEL
N
89
Abbildung 9.6: Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581]
9.3 Dialogsysteme
9.3.1 Typen
Dialogsysteme
Ein natürlichsprachliches Dialogsystem erlaubt Kommunikation zwischen Computer und Mensch
mittels menschlicher Sprache.
Definition 9.3.1 (Kommandowortsysteme). Ein Kommandowortsystem erlaubt die einseitige
Steuerung von elektronischen Geräten durch Äusserungen.
Definition 9.3.2 (Interactive Voice Response System (IVR)). Ein IVR erlaubt die sprachliche
Navigation durch ein starres Menu. Benutzer kann nur reagieren. III
Definition 9.3.3 (Conversational User Interface (CUI)). Ein CUI soll nebst der Steuerung
eines Devices den Benutzer pro-aktiv beratend unterstützen. Dialoge sollten von Mensch und
Maschine gesteuert sein (mixed-initiative dialogue).
9.3.2 VoiceXML
VoiceXML III
Dieser XML-Standard erlaubt eine strukturierte Spezifikation von (einfachen) natürlichsprachlichen Dialogsystemen (Bestellvorgänge, Chatbots usw.), welche Web-Services via Telefon verfügbar machen.
VoiceXML beinhaltet ...
VoiceXML-Dokumente beschreiben
• Gesprochene Eingaben (synthetische Sprache)
• Ausgaben von Audiodateien und -streams
• Erkennung von gesprochenen Wörtern und Sätzen
• Erkennung von Tonwahl (DTMF)
• Aufnahme gesprochener Eingaben
• Kontrolle des Dialogflusses
• Telefoniekontrolle (Anruftransfer und Auflegen)
90
Abbildung 9.7: Anwendungsszenario VoiceXML nach [Raggett 2001]
9.4 Vertiefung
• Pflichtlektüren: [Carstensen et al. 2004, 5.7,5.8.1(nur dieses Kapitel),5.9] sowie die Lektüren aus den schriftlichen Übungen
• Kapitel “3.1.1 Phonologie: Probleme und Terminologie” aus [Carstensen et al. 2004]
• Für an Sprachtechnologie Interessierte: “HAL’s Legacy” http://www-mitpress.mit.edu/
e-books/Hal/chap6/six1.html
• Viele historische Beispiele für Sprachsynthese http://www.cs.indiana.edu/rhythmsp/
ASA/Contents.html
• Das didaktisch orientierte Tool MARY http://mary.dfki.de/, das wir im CLab integriert
haben.
• Beispiel Fussballreportersprache:[MARY 2006]
• SAMPA: Kurzbeschreibung unter http://de.wikipedia.org/wiki/SAMPA und Hauptseite unter http://www.phon.ucl.ac.uk/home/sampa/index.html
• MBROLA:http://tcts.fpms.ac.be/synthesis/mbrola.html
• http://www.voicexml.org
• Beispiele: Dialoggestaltung [excelsis 2007]; Erkennung von Dialekten [ORF 2007b, ORF 2007a]
91
10 Maschinelle Übersetzung I
Lernziele
• Kenntnis über Automatisierbarkeit der Übersetzungsleistung
• Kenntnis über sprachtechnologische Unterstützung des menschlichen Übersetzenden
• Kenntnis über Verfahren zur automatischen Satzalignierung
• Kenntnis über Evaluationskriterien, BLEU-Score und Nutzen von parallelen Baumbanken
10.1 Einführung
10.1.1 Altes Problem
Die Ursache (1. Buch Moses (Genesis) Kapitel 11)
Es hatte aber alle Welt einerlei Zunge und Sprache. Als sie nun nach Osten zogen, fanden sie
eine Ebene im Lande Schinar und wohnten daselbst. Und sie sprachen untereinander: Wohlauf,
laßt uns Ziegel streichen und brennen! - und nahmen Ziegel als Stein und Erdharz als Mörtel und
sprachen: Wohlauf, laßt uns eine Stadt und einen Turm bauen, dessen Spitze bis an den Himmel
reiche, damit wir uns einen Namen machen; denn wir werden sonst zerstreut in alle Länder. Da
fuhr der HERR hernieder, daß er sähe die Stadt und den Turm, die die Menschenkinder bauten.
Und der HERR sprach: Siehe, es ist einerlei Volk und einerlei Sprache unter ihnen allen, und dies
ist der Anfang ihres Tuns; nun wird ihnen nichts mehr verwehrt werden können von allem, was
sie sich vorgenommen haben zu tun. Wohlauf, laßt uns herniederfahren und dort ihre Sprache
verwirren, daß keiner des andern Sprache verstehe! So zerstreute sie der HERR von dort in alle
Länder, daß sie aufhören mußten, die Stadt zu bauen. Daher heißt ihr Name Babel, weil der
HERR daselbst verwirrt hat aller Länder Sprache und sie von dort zerstreut hat in alle Länder.
Man rechnet heute mit ca. 6000-7000 gesprochenen Sprachen (Das Summer Institute of Linguistics zählt aktuell 6900). Da die Abgrenzung von Dialekten von Sprachen nicht trivial ist, sind
diese Zahlen mit einer gewissen Vorsicht zu geniessen. Die Bibel ist das am häufigsten übersetzte
Werk, insgesamt in etwa 468 Sprachen.
10.1.2 Alter Traum
Lösungsansatz I (Lukasevangelium 2. Kapitel)
Und als der Pfingsttag gekommen war, waren sie alle an einem Ort beieinander. Und es geschah
plötzlich ein Brausen vom Himmel wie von einem gewaltigen Wind und erfüllte das ganze Haus,
in dem sie saßen. Und es erschienen ihnen Zungen zerteilt, wie von Feuer; und er setzte sich
auf einen jeden von ihnen, und sie wurden alle erfüllt von dem heiligen Geist und fingen an, zu
predigen in andern Sprachen, wie der Geist ihnen gab auszusprechen. [...] Als nun dieses Brausen
geschah, kam die Menge zusammen und wurde bestürzt; denn ein jeder hörte sie in seiner eigenen
Sprache reden. Sie entsetzten sich aber, verwunderten sich und sprachen: Siehe, sind nicht diese
alle, die da reden, aus Galiläa? Wie hören wir denn jeder seine eigene Muttersprache? Parther
92
und Meder und Elamiter und die wir wohnen in Mesopotamien und Judäa, Kappadozien, Pontus
und der Provinz Asien, Phrygien und Pamphylien, Ägypten und der Gegend von Kyrene in
Libyen und Einwanderer aus Rom, Juden und Judengenossen, Kreter und Araber: wir hören sie
in unsern Sprachen von den großen Taten Gottes reden. Sie entsetzten sich aber alle und wurden
ratlos und sprachen einer zu dem andern: Was will das werden? Andere aber hatten ihren Spott
und sprachen: Sie sind voll von süßem Wein.
10.1.3 Neuer Traum
Lösungsansatz II: Einsatz von Rechenmaschinen
Maschinelle Übersetzung (MÜ)
Die Geburtsstunde der maschinellen Übersetzung wird ums Jahr 1947 angesetzt. Ihre Urväter,
Warren Weaver und Andrew D. Booth, kamen beide vom Codebrechen her.
[Weaver 1955] zitiert in seinem berühmten Memorandum “Translation” von 1949 aus seinem
Brief an Norbert Wiener (MIT) aus 1947:
When I look at an article in Russian, I say: “This is really written in English, but it
has been coded in some strange symbols. I will now proceed to decode.”
Have you ever thought about this? As a linguist and expert on computers, do you
think it is worth thinking about?
Frage
Wie war wohl Wieners Reaktion?
Second?as to the problem of mechanical translation, I frankly am afraid the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasimechanical translation scheme
very hopeful. [Weaver 1955]
Kurzer historischer Abriss der MT
• 1947-1954: Pionierphase, welche mit der IBM/Georgetown-MT-Demo endet, welche einen
ersten Fluss an Forschungsgeldern auslöst.
• 1954-1966: Phase des Optimismus: Entwicklung von syntaktisch orientierten Übersetzungssystemprototypen. Der ALPAC-Report [Pierce et al. 1966] ernüchtert in den USA (und
weiteren Ländern) die Geldgeber, welche produktive MT finanziert haben. Der Report
verlangt Grundlagenforschung und Benutzerunterstützung.
• 1966-1980: Anfangs wenig Forschung in USA, aber verschiedene Systeme entstehen in
andern Ländern.
• 1980-1990: Diverse Systeme, welche syntaktisches und semantisches Wissen einbringen und
teilweise heute noch existieren, entstehen.
• Erste Hälfte 1990: IBM lanciert statistische Methoden für MÜ. Übersetzungssysteme für
gesprochene Sprache werden erforscht.
• Mitte 90-er bis 2000: PC-basierte Übersetzungssystem werden marktreif. WWW und EMail geben Ad-Hoc-Übersetzungen Anwendungspotential.
93
10.2 Terminologie
Übersetzungsrichtungen
Definition 10.2.1 (Source Language (SL)). Unter der Quellsprache (QS) versteht man die
Sprache, die man übersetzen will.
Definition 10.2.2 (Target Language (TL)). Unter der Zielsprache (ZS) versteht man die Sprache, in die man übersetzen will.
Definition 10.2.3 (Übersetzungsrichtung). Die Anzahl der Übersetzungsrichtung für n Sprachen ergibt sich aus der Formel: n × (n − 1).
Beispiel EU
20 offizielle Sprachen der EU bis Ende 2006
Englisch, Deutsch, Französisch, Italienisch, Spanisch, Portugiesisch, Griechisch, Holländisch, Dänisch, Schwedisch, Finnisch, Tschechisch, Estnisch, Litauisch, Lettisch, Ungarisch, Maltesisch,
Polnisch, Slowenisch, Slowakisch
3 neue offizielle Sprachen der EU ab 2007
Irisch, Rumänisch, Bulgarisch
Beispiel 10.2.4 (Übersetzungsrichtungen in der EU).
Für die 20 Sprachen der EU bis 2006 gab es 20 × 19 = 380 Übersetzungsrichtungen. Wieviel
mehr sind es mit den 23 Sprachen?
Sprachendienst der EU
Die EU verwendet und entwickelt seit Jahrzehnten ein eigenes MÜ-System (“Euro Systran”).
1998 wurden 370’000 Seiten übersetzt und ca. 35% Übersetzungszeit eingespart.
10.2.1 MT
Maschinelle Übersetzung
Definition 10.2.5 (Machine Translation (MT)). Maschinelle Übersetzung (MÜ) meint die vollautomatische Übersetzung eines natürlichsprachlichen Textes in eine andere natürliche Sprache.
Definition 10.2.6 (Speech-To-Speech Translation, Machine Interpretation auch Translation ).
Maschinelles Dolmetschen meint die vollautomatische Übersetzung gesprochener Sprache in eine
andere natürliche Sprache.
10.2.2 CAT
Computerunterstützte Übersetzung
Definition 10.2.7 (computer aided (assisted, based) translation (CAT)). Computerunterstützte
Übersetzung kombiniert menschliche und maschinelle Übersetzungsleistung.
94
Abbildung 10.1: Automatisierungsgrade nach [Hutchins und Somers 1992]
10.2.3 MAHT
Computergestützte Humanübersetzung (MAHT)
Definition 10.2.8 (CAT-Software). In der computergestützten Humanübersetzung wird Software eingesetzt, welche den Übersetzungsprozess optimiert:
• Projekt-Verwaltung und Dokumenten-Editor (automatische Übernahme von Dokumentenformatierung)
• Terminologie-Komponente: (halbautomatisches) Erfassen und Pflegen von Begriffen
• Alignment-Komponente: Zuordnen von satzweisen Übersetzungspaaren
• Translation-Memory-Komponente (TM): Verwaltung der existierenden Übersetzungspaare
• Übersetzungs-Komponente: Anwendung von Terminologie und Translation-Memory
Vorgehen bei TM-basierter Übersetzung
• Textsegmentierung in Sätze oder satzähnliche Fragmente (Titel, Aufzählungen usw.)
• Matching (Abgleich) der Sätze auf bestehende Übersetzungen: Übersetzungskandidaten
• Auswahl und Bearbeitung: Der Übersetzer wählt aus vorgeschlagenen Übersetzungen aus
und passt sie allenfalls an.
100%-Matches garantieren keine fehlerfreie Übersetzung!
• TM-Inhalt EN: Turn to the filter on the right. Remove and clean it.
• TM-Inhalt DE: Wenden Sie sich dem Filter rechts zu. Nehmen Sie ihn heraus und säubern
Sie ihn.
95
• QS EN: Turn to the lock on the right. Remove and clean it.
• ZS DE: Wenden Sie sich dem Schloss rechts zu. *Nehmen Sie ihn heraus und säubern Sie
ihn.
Abbildung 10.2: Beispiel: Dokumenten-Editor mit Zugriff auf TM
Beispiel: Partieller Match (Fuzzy Match)
Abbildung 10.3: Beispiel: Fuzzy-Match mit 81% Übereinstimmung
Die Übereinstimmungsquote für einen Übersetzungsvorschlag lässt sich einsehen oder einstellen.
Beispiel 10.2.9 (Partieller Match).
Der aktuell vorliegende Text, sowie das im TM abgelegte Übersetzungspaar wird angezeigt. Nicht
übereinstimmendes Material in der QS ist gelb, Vertauschung ist blau markiert.
96
Abbildung 10.4: Beispiel: Dokumenten-Editor mit Zugriff auf TM
Erstellung von Translation-Memories
• Bootstrapping durch Abspeichern aller manuell satzweise übersetzten Übersetzungspaare
im CAT-System
• Erzeugen von TM durch satzweise alignierte, bestehende Übersetzungen ((halb-)automatische
Satz-Alignierung) aus Bi-Texten (Bilinguale Textsammlungen)
Ansätze automatischer Satz-Alignierung
• Basierend auf der Satzlänge
• Basierend auf textuellen Ankern (Wörter, Formatierungen)
Exkurs: Satzlängenbasierte Alignierung
Ansatz von [Gale und Church 1993]
1. Zuordnung von Absätzen auf Grund ihrer Länge (oder Formatierung)
97
2. Zuordnung von Sätzen innerhalb von Absätzen aufgrund minimaler Längenabweichung der
entstehenden Paare
Zuordnungsverhältnisse
In der Praxis lassen sich die Übersetzungen auf Satzebene fast immer vollständig mit 0:1-, 1:1-,
1:2- und 2:2-Verknüpfungen zuordnen.
Zuordnung
1:1
1:2
0:1
2:2
Häufigk.
89%
9%
1%
1%
Fehler
2%
9%
100%
33%
Tabelle 10.1: Häufigkeit im Test-Korpus von Gale und Church
Exkurs: Wortbasierte Satzalignierung
Iterativer Algorithmus zur satzweisen Alignierung nach [Kay und Roscheisen 1993]
• Initialisierung: Der 1. und der letzte Satz beider Texte werden aligniert und bilden die
primären Anker.
• Bilde neue Ankerkandidaten: Bilde eine Liste von Paarungskandidaten, welche textlich nah
stehen und keinen Ankerpunkt überkreuzen.
• Verankere die besten Ankerkandidaten, in denen Wortpaare aus QS und ZS besonders
häufig gemeinsam auftreten, bzw. gemeinsam fehlen.
Alternative zur Verankerung
Verwende nummerische Ausdrücke, Eigennamen, Formatierungen zur Bestimmung der besten
Ankerkandidaten.
Parametrisierung der Alignierung bei Trados WinAlign
Alignment über Dokumentstruktur
Terminologiekomponente
• verschiedene Suchmöglichkeiten
• Möglichkeiten zum Import von Glossaren und Wörterbüchern aus dem Anwendungsgebiet
• Terminologieextraktion aus Texten, d.h. automatisches Generieren von Kandidaten für
Terminologieeinträge
• Einsetzen von Wörtern aus dem Glossar in den Text
• Terminologiekontrolle zur Konsistenzsicherung der Übersetzung
98
Abbildung 10.5: Parametrisierung der Alignierung bei SDL Trados WinAlign
Fazit zu MAHT
• Terminologische Exaktheit und Konsistenz ist gross.
• Übersetzungsresultate werden wiederverwendbar.
• (Neue) Mitarbeitende können von vorhandenem Wissen profitieren
• Workflow bei der Übersetzung stark vorstrukturiert.
• Zeitmanagement und Projekt-Kosten sind kalkulierbarer.
• Unterhalt der Terminologie und TM lohnt sich, falls oft ähnliche Texte zu übersetzen sind.
• Hoher Nutzen bei Software-Lokalisierung (Anpassung von Sprache, Masseinheiten usw.)
oder Handbüchern, deren unterschiedliche Releases nur wenige Modifikationen enthalten.
• Linguistisch intelligenter Umgang mit partiellen Matches ist erwünscht, aber nicht trivial.
10.2.4 HAMT
Human-Aided Machine Translation (HAMT)
Definition 10.2.10. HAMT bezeichnet Übersetzungsszenarios, bei denen einen maschinelle
Übersetzung durch gezielte manuelle
99
Abbildung 10.6: Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign
Abbildung 10.7: Export der Alignierung als TM
100
Abbildung 10.8: Terminologie-Verwaltung mit Termbase
• Präedition (Vorredaktion: Markieren von Namen, Korrigieren von Fehlern im Quelltext,
Ergänzen von Lexikoneinträgen usw.),
• Postedition (Nachredaktion: Verbessern der Rohübersetzung, Auflösen von maschinellen
Problemstellen (Ambiguitäten, unbekannte Wörter) usw.).
ergänzt wird.
Die Operationen der Prä- oder Postedition können auch interaktiv geschehen.
Projekt: Automatische Übersetzung von Untertiteln
QuickKonvert-Projekt von M. Volk mit Untertitelfirma
• Übersetzung von Schwedisch nach Dänisch
• Mehr als 50’000’000 Wörter pro Sprache
• Untertitel sind kurz und via Zeitkode perfekt aligniert
• Translation-Memory für exakte Matches
• Statistisches Übersetzungsmodell für Rest!
101
Abbildung 10.9: “Rohübersetzung” von erkannter Terminologie
Abbildung 10.10: Filmuntertitel sind kurz!
10.2.5 FAHQT
Fully automatic high quality translation (FAHQT)
Menschliche Übersetzungsqualität durch vollautomatische MÜ
Weiterhin utopisch, auch wenn sich immer wieder Leute finden lassen, welche Gegenteiliges für
die nahe Zukunft prognostizieren!
Aber
102
• Übersetzungstechnologie macht dauernd Fortschritte.
• Eingeschränkte Anwendungsgebiete und gute lexikalische Ressourcen erlauben sehr brauchbare Resultate!
• Für Informativ-Übersetzungen braucht es keine literarische Qualität.
Frage
Welche Textsorten eignen sich für automatische Übersetzung?
Nach Schwierigkeitsgrad geordnet (*=ohne manuelle Bearbeitung;**=mit Vor-/Nachredaktion;
***=zur Zeit unmöglich):
1. Wetterberichte, Börsenberichte, weitere extrem eingeschränkte Subsprachen*
2. Technische Dokumente, Handbücher **
3. Rechtsdokumente**
4. Wissenschaftliche Texte**
5. Journalistische Texte***
6. Literarische Texte, Werbetexte, Filmtexte***
Der Einsatz von Übersetzungsgedächtnissen und ausgebauter Terminologie hat allerdings einen
grossen Einfluss auf die Qualität der Resultate bei Texten der Kategorien ** und ***.
Wetterberichtstexte
Beispiel 10.2.11 (Englische und französische Wetterberichte aus Kanada).
Tonight..Cloudy. 60 percent chance of showers early this evening. Periods of rain beginning this
evening. Becoming windy near midnight. Low 7. Ce soir et cette nuit..Nuageux. 60 pour cent
de probabilité d’averses tôt ce soir. Pluie intermittente débutant ce soir. Devenant venteux vers
minuit. Minimum 7.
Das berühmte FAHQ-Übersetzungssystem METEO
Von 1978-2001 war das Übersetzungssystem METEO (in verschiedenen Versionen) in Kanada
für MÜ von Englisch nach Französisch im Dienst. 1991 wurde ca. 45’000 Wörter pro Tag damit
übersetzt.[Chandioux 1991]
10.3 Evaluation
Qualitätskriterien für Übersetzungen
Zielsprachliche Formulierungsgewandtheit (Fluency)
Wie fliessend (lexikalisch, syntaktisch und stilistisch korrekt und natürlich) erscheint der übersetzte Text?
Quellsprachliche Ausdruckstreue (Faithfulness)
Wie genau wurde die ursprüngliche Formulierung übernommen?
103
Beispiel 10.3.1 (Klassiker: Fluent vs. Faithful).
• Japanisch: “fukaku hansei shite orimasu”
• Englisch I: “We are deeply reflecting (on our past behaviour, and what we did wrong, and
how to avoid the problem next time).”
• Englisch II: “We apologize.”
Qualitätskriterien für Übersetzungen
Adäquatheit einer Übersetzung
Wieviel der ursprünglichen Information wird in der Übersetzung wiedergegeben? Operationalisierbar durch menschliche Urteile über einer nominalen Skala (Alles, Meiste, Viel, Wenig, Nichts).
Informativität einer Übersetzung
Reicht eine Übersetzung aus, um gewisse Fragen beantworten zu können. Operationalisiserbar
durch task-basierte Evaluation via Multiple-Choice-Aufgaben zum Inhalt.
Posteditierungsaufwand
Wieviel Zeit benötigt die Postedition? Wieviele Sätze oder Texte brauchen wieviele Modifikationen? Bei METEO-System brauchten 1991 ca. 4% der Texte eine Postedition (bzw. HT).
Automatische Evaluation
Idee
Automatische Evaluation misst die Qualität einer maschinellen Übersetzung, indem sie mit einer
oder besser mehreren menschlichen Referenz-Übersetzungen verglichen wird.
Vorteile
Menschliche Evaluation ist aufwändig und langsam, automatische Berechnung einer metrischen
Güte ist billig und schnell.
Definition 10.3.2 (Bilingual Evaluation Understudy (BLEU)). Eine der aktuell wichtigsten
Metriken zur automatischen bilingualen Evaluation ist der BLEU-Score.
10.3.1 BLEU
BLEU: Unigramm-Präzision
1. MT: It is a guide to action which ensures that the military always obeys the commands of
the party.
2. MT: It is to insure the troops forever hearing the activity guidebook that party direct.
1. HT: It is a guide to action that ensures that the military will forever heed Party commands.
2. HT: It is the guiding principle which guarantees the military forces always being under
the command of the Party.
3. HT: It is the practical guide for the army always to heed the directions of the party.
104
Definition 10.3.3 (Unigramm-Präzision P1 ). Die Unigramm-Präzision (Token-Präzision) eines
Übersetzungskandidaten misst, wie hoch der Anteil der Wörter aus allen Referenzübersetzungen
C
an allen Tokenvorkommen eines Kandidaten ist: P1 = N
N = Anzahl Token des Kandidaten; C = Anzahl Token des Kandidaten, welche in einer Referenzübersetzung erscheinen
Unigramm-Evaluation
Frage
Wie hoch sind P1 von MT1 und MT2?
Tokenvorkommen
• MT1: . a action always commands ensures guide is it military of party that the the the to
which
• MT2: . is it party that the the to
Notwendigkeit für Clipping
Problem der Wiederholung
• Kandidat: the the the the the the the
• HT1: the cat sat on the mat
• HT2: there is a cat on the mat
Wie hoch ist die P1 des “idiotischen” Kandidaten?
7
7
Clipping der Kandidatenvorkommen
Ein Token darf maximal sooft gezählt werden, wie es in einer einzelnen Referenzübersetzung
vorkommt.
Wie hoch ist P1 des Kandidaten mit Clipping?
2
7
Uni-, Bi-, Tri- und Quadrigramme
Längere Textabschnitte im Vergleich
Welche N-Gramme aus den Referenztexten finden sich im MT-Kandidaten?
1. MT: It is a guide to action which ensures that the military always obeys the commands of
the party.
1. HT: It is a guide to action that ensures that the military will forever heed Party commands.
2. HT: It is the guiding principle which guarantees the military forces always being under
the command of the Party.
3. HT: It is the practical guide for the army always to heed the directions of the party.
105
Geometrisches Mittel der N-Gramm-Präzisionen
Die Precisionwerte der 1-4-Gramme eines Kandidaten werden geometrisch gemittelt: P = (P1 ×
P2 × P3 × P4 )1/4
Problem der Kürze
• Kandidat: of the
• HT1: It is the guiding principle which guarantees the military forces always being under
the command of the Party.
Wie hoch ist die P1 des Kandidaten?
2
2
Recall-Mass kompensieren
Normalerweise würde ein Präzisionsmass mit Recall verrechnet, um solche Effekte zu mindern.
Wir haben aber mehrere Referenzübersetzungen. Als Ausweg wird ungewöhnliche Kürze des
Kandidaten bestraft.
Strafabzug für Kürze über Korpus
1. Schritt: Bestimme die Gesamt-Länge c der Kandidatenübersetzung.
2. Schritt: Bestimme die Gesamt-Länge r der Referenzübersetzungen, indem jeweils die kürzeste (NIST-Variante) oder zur höchsten Bewertung führende Referenzübersetzung genommen wird.
3. Schritt: Bestimme Kürze: brevity = r/c
4. Schritt: Bestimme Strafabzug (brevity penalty):
1
falls c > r
BP =
(1−brevity)
e
falls c ≤ r
Beispiel 10.3.4 (Realistischer Faktor).
Wenn Kandidatenübersetzung 1000 Token zählt (c = 1000) und Referenzlänge als 1100 Token
zählt (l = 1100), dann BP = e1−1.1 = e−0.1 = 0.905
BLEU als Formel
BLEU-Score ergibt sich aus Multiplikation von Brevity Penalty mit der geometrisch gemittelten
Präzision aus 1-4-Grammen.
BLEU = BP × (P1 × P2 × P3 × P4 )1/4 = BP × P
Wert von 1 heisst “perfekte” Übereinstimmung, Wert 0 heisst keine Übereinstimmung.
Eigenschaften
BLEU betont enge lokale Übereinstimmung und vernachlässigt Unstimmigkeiten, welche sich
darüber hinaus ergeben können:“Ensures that the military it is a guide to action which always
obeys the commands of the party.” wäre gleich gut wie Kandidat 1.
106
Wie zuverlässig bildet BLEU das menschliches Urteil ab?
• Wortvarianz (Synonyme) wird nur berücksichtigt, wenn in Referenzübersetzungen enthalten
• Unwichtige und wichtige Inhalts-Wörter werden gleich behandelt
• Für denselben BLEU-Score gibt es Millionen von Kombinationen mit unterschiedlichster
Übersetzungsqualität
• Regelbasierte Übersetzungssysteme werden gegenüber statistischen gerne abgestraft
Abbildung 10.11: Korrelation
von
menschlichen
[Callison-Burch et al. 2006]
und
BLEU-Bewertungen
nach
10.3.2 Parallele Baumbanken
Einsatz von parallelen Baumbanken
• Korpus von bilingual syntaktisch annotierten Sätzen
• Annotation von (Miss-)Matches der Übersetzungen durch Zuordnung auf Wort- und Konstituentenebene
Anwendungen
• Übersetzungsevaluation mit vertieftem linguistischen Wissen
• Evaluationskorpus für Wort-, Phrasen- und Satzalignierung
• Trainingskorpus für Regeln der die Transferübersetzung
107
Quelle: SMULTRON http://www.cl.uzh.ch/kitt/smultron/
Abbildung 10.12: Paralleler Syntaxbaum DE-EN
10.4 Vertiefung
• Reichhaltiges Sammelsurium zur maschinellen Übersetzung und ihrer Geschichte http:
//www.mt-archive.info/
• Lerneinheit “Satz- und Phrasenähnlichkeit” http://www.cl.uzh.ch/clab/satzaehnlichkeit/
108
11 Maschinelle Übersetzung II
Lernziele
• Kenntnis über linguistische Probleme bei der Übersetzung
• Kenntnis über die wichtigen Ansätze zur maschinellen Übersetzung: Direkte Übersetzung,
Transfer-Übersetzung, Interlingua-Übersetzung
11.1 Probleme der Übersetzung
Ideale Sprachen für MT
Maschinelle Übersetzung von QS nach ZS wäre trivial, wenn folgende Bedingungen erfüllt wären:
• Jede Wortform von QS hat genau eine entsprechende Wortform in ZS.
• Jeder Satz von QS hat genau eine syntaktische Analyse.
• Jeder Satz von QS hat genau eine Bedeutung.
• Jedem Konstruktionstyp in QS entspricht genau ein Konstruktionstyp in ZS.
11.1.1 Mehrdeutigkeit
Mehrdeutigkeit der Wortart
Beispiel 11.1.1 (Mehrdeutige Wortform: Englisch nach Französisch).
• You must not use abrasive cleaners on the printer casing.
• The use of abrasive cleaners on the printer casing is not recommended.
Diagnose
Dieselbe Wortform in der QS (“use”) steht für verschiedene Wortformen in der ZS (“emploi/N”,
“employer/V”).
Minimaler Lösungsansatz
Bestimmen der Wortart in der QS, d.h. Tagging.
Mehrdeutigkeit von morphologischen Merkmalen
Beispiel 11.1.2 (Mehrdeutige Wortform: Englisch nach Deutsch).
• We just loved to play football.
• He played quarterback and loved to play football.
109
Diagnose
Dieselbe Wortform in der QS (“loved”) steht für verschiedene Wortformen in der ZS:
liebten/VVFIN:1.Pl.Past.Ind, liebte/VVFIN:3.Sg.Past.Ind.
Lösungsansatz
Um die korrekte finite Wortform im Deutschen zu wählen, muss man wissen:
• Was ist das Subjekt dieses finiten Verbs?
• Welche Person und Numerus hat dieses Subjekt?
Dieses Wissen kann eine syntaktische Analyse liefern.
Mehrdeutigkeit von morphologischen Merkmalen
Beispiel 11.1.3 (Mehrdeutige Wortform: Englisch nach Deutsch).
• When John drank the winei in the glass he spilled iti .
Als Hans den Wein im Glas trank, verschüttete er ihn.
• When John drank the wine in the glassi he broke iti
Als Hans den Wein im Glas trank, zerbrach er es.
Diagnose
Dieselbe Wortform in der QS (“it”) steht für verschiedene Wortformen in der ZS:
ihn/PPER:3.Sg.Masc.Akk, es/PPER:3.Sg.Neut.Akk.
Lösungsansatz
Eine syntaktische Analyse allein liefert noch keine Entscheidungsgrundlage.
Lexikalisches Sortenwissen und Desambiguierung
Die korrekte Übersetzung von “it” ins Deutsche erfordert eine Bestimmung der Bezugsgrösse des
Pronomens.
Beispiel 11.1.4 (Aus dem elektronischen Lexikon WordNet III).
• (v) spill, slop, splatter (cause or allow (a liquid substance) to run or flow from a container)
“spill the milk”; “splatter water”
• (v) break (destroy the integrity of; usually by force; cause to separate into pieces or fragments) “He broke the glass plate”; “She broke the match”
Selektionsrestriktionen von Verben als Ausschlusskriterien
Das Akkusativobjekt von “to spill” bezeichnet eine Flüssigkeit. Das Objekt von “to break” kann
keine Flüssigkeit sein, weil diese nicht in Stücke gebrochen werden können.
110
Lexikalisches Sortenwissen in der CL
Woher weiss der Computer, dass “wine” eine Flüssigkeit bezeichnet?
Beispiel 11.1.5 (Begriffshierarchie für “wine” aus WordNet III).
(n) wine, vino (fermented juice (of grapes especially)) → (n) alcohol, alcoholic beverage, intoxicant, inebriant (a liquor or brew containing alcohol as the active agent) → (n) liquid (a
substance that is liquid at room temperature and pressure) → (n) fluid (a substance that is fluid
at room temperature and pressure) → (n) substance, matter (that which has mass and occupies
space) → (n) physical entity (an entity that has physical existence) → (n) entity (that which is
perceived or known or inferred to have its own distinct existence (living or nonliving))
Frage
Warum kann man trotzdem sagen “Er verschüttet ein Glas Wein”?
Mehrdeutigkeit von syntaktischen Funktionen
Beispiel 11.1.6 (Mehrdeutige syntaktischen Funktionen: Deutsch nach Englisch).
Briefträger beißen Hunde selten.
Dogs seldom bite postmen.
Postmen seldom bite dogs.
Diagnose
Die halbfreie Wortstellung des Deutschen muss für die ZS Englisch ins SVO-Schema gebracht
werden. Das Subjekt ist in der QS aber nicht morphologisch markiert.
Mehrdeutigkeit von syntaktischen Funktionen
Beispiel 11.1.7 (Anbindung von PP: Deutsch nach Englisch).
Den Mann sah die Frau mit dem Fernglas.
The woman with the telescope saw the man.
The woman saw the man with the telescope.
Diagnose
Ob die PP als postnominaler Modifikator oder als Verb-Modifikator fungiert muss in der Übersetzung partiell aufgelöst werden.
Lösungsansatz für PP-Anbindungsdesambiguierung
Heuristiken (Bevorzuge eine enge Anbindung!) oder statistische Angaben über Präferenzen der
Paare V − NP P (“sehen”-“Fernglas”) vs. N − NP P (“Frau”-“Fernglas”).
Falls die ZS die Mehrdeutigkeit ebenfalls ausdrücken kann, muss allerdings nicht aufgelöst werden.
Mehrdeutigkeit von Wortbedeutungen
Hauptproblem
Die meisten Wörter haben mehrere Bedeutungen, welche in der ZS unterschiedlich lexikalisiert
werden können!
Beispiel 11.1.8 (box in dict.leo.org: Englisch nach Deutsch).
111
• Kasten, Behältnis, Dose, ...
• Buchs, Anhieb, Achsbüchse
• Eingabefeld
• Glotze, Sarg
Lösungsansatz
Markierung der Übersetzungspaare nach Fachgebiet (Agronomie, Botanik, Technik) und Stilebene. Heuristik:Bevorzuge ähnlich mehrdeutige Ausdrücken in der ZS!
Mehrdeutigkeit von Wortbedeutungen (Klassiker)
Beispiel 11.1.9 (Mehrdeutige Wortform: Englisch nach Deutsch).
• The pen was in the box.
Die Schreibfeder war in der Schachtel.
Das Laufgitter war in der Schachtel.
• The box was in the pen.
Die Schachtel war im Laufgitter.
Die Schachtel war in der Schreibfeder.
Diagnose
Die plausiblen Übersetzungen von “pen” in einem einzelnen Satz erfordern Weltwissen über die
typische Beschaffenheit von Gegenständen und über gängige Situationen.
Welche Situationen sind typisch? [Melby 2001]
Siehe Abbildungen 11.1 und 11.2.
Abbildung 11.1: Situationen zu “The pen was in the box” nach [Melby 2001]
112
Abbildung 11.2: Situationen zu “The pen was in the box” nach [Melby 2001]
Enzyklopädisches Weltwissen
Wir wissen, dass die involvierten Gegenstände typischerweise etwa folgende Ausdehnung haben:
• Schreibfeder: ca. 10cm lang und 1cm breit
• Schachtel: ca. 5 bis 100cm lang/breit
• Laufgitter: ca. 50 bis 500cm lang/breit
Damit werden gewisse Verschachtelungen unwahrscheinlich.
Unwahrscheinlich, aber nicht unmöglich
Little Johnny was unhappy. On Christmas eve he got a pen (“auch Pferch”) for his toy horse.
Now he had lost it. Suddenly he found it. The pen was in the box. He was happy again.
Mensch vs. Maschine
Menschen setzen Weltwissen bzw. Welterfahrung unbewusst und problemlos ein. Maschinelle
Repräsentationen davon sind jedoch schwierig!
Mehrdeutigkeit von pragmatischen Kategorien
Beispiel 11.1.10 (Mehrdeutige Wortform: Englisch nach Französisch).
• Thank you for coming. Merci de venir.
• A: Would you like a coffee? B: Thank you. B: S’il vous plaît.
Diagnose
Dieselben Wortformen in der QS (“thank you”) stehen für verschiedene Wortformen in der ZS
(“merci”, “S’il vous plaît”).
Lösungsansatz
Um die korrekte Übersetzung zu finden, muss man wissen, ob es sich um eine Antwort auf
eine Angebots-Frage handelt. Dieses Sprechakt-Wissen liefert eine Analyse auf der Ebene der
Pragmatik.
113
11.1.2 Idiome und Kollokationen
Definition 11.1.11 (idiomatische Wendung, Redewendung). Ein Idiom ist eine feste, mehrteilige Wortgruppe, welche eine semantische Einheit bildet, die nicht aus den Einzelteilen abgeleitet
werden kann. Modifikationen oder Austausch von Elementen sind schlecht möglich.
Beispiel 11.1.12 (Idiom).
• jemanden auf die Palme bringen
•
# jemanden
auf die hohe Palme bringen
•
# jemanden
auf die Birke bringen
• to drive someone crazy
Übersetzbarkeit von Idiomen
Idiom lassen sich nur in Ausnahmefällen wörtlich von der QS in die ZS übersetzen.
Kollokationen
Definition 11.1.13 (collocation). Eine Kollokation ist eine Kombination von Wörtern, welche
sich gegenseitig bevorzugt verbinden und andere semantisch denkbare Kombinationen unterdrücken.
Beispiel 11.1.14 (Kollokation).
• Ein starker Raucher ist jemand, der intensiv raucht.
• Ein starker Schreiber ist aber nicht jemand, der intensiv schreibt.
Übersetzbarkeit von Kollokationen
Wie bei den Idiomen kann die Übersetzung nicht wortweise isoliert erfolgen.
Beispiel: Intensivator als Kollokation
Eine korrekte Übersetzung von “heavy smoker” in Deutsch oder Französisch bedingt:
• Die Erkennung von “heavy” als kollokativer Intensivator.
• Die Kenntnis, dass der Intensivator für “fumeur” im Französischen “grand” lautet.
• Die Kenntnis, dass der Intensivator für “Raucher” im Deutschen “stark” lautet.
Die Intensivierung kann als lexikalische Funktion betrachtet werden, welche vom Kopf einer
Konstituente abhängig ist. [Arnold et al. 1994, 127]
114
Beispiel: Verbgefüge als Kollokationen
Beispiel 11.1.15 (“support verbs” im Englischen ).
• They took (*made) a walk.
• They make (*took) an attempt.
• They had (*made,*took) a talk.
Lexikalische Funktion
Der Kern solcher Kollokationen liegt im Nomen. Die Funktion des Verbs kann sprachübergreifend abstrakt als “support verb” repräsentiert werden. Die genaue Verbalisierung ist aber nicht
vorhersagbar, sondern muss im Lexikon erfasst werden.
11.1.3 Sprachbau
Globale Diskrepanzen
Die komparative Grammatikschreibung hat die verschiedenen grammatikalischen Prinzipien gesucht und ihre unterschiedlichen Parametrisierungen in den Einzelsprachen beschrieben.
• Stellung des Kopfes innerhalb von Konstituenten
• Stellung der Modifikatoren bezüglich Kopf
• Verwendung von morphosyntaktischen Merkmalen wie Genus und Kasus (Englisch vs.
Deutsch)
• Verwendung von Artikeln (Russisch vs. Deutsch)
• Optionalität von lexikalischen Subjekten (Italienisch vs. Deutsch)
global mismatches
Globale Unterschiede wie etwa Wortstellungsabweichungen stellen für primitive Ansätze bereits
eine hohe Hürde dar.
Stellungsregularität Subjekt(S)-Objekt(O)-Verb(V)
Bei Übersetzungen zwischen Sprachen mit unterschiedlicher SVO-Ordnung sind manchmal grosse Umstellungen notwendig.
Beispiel 11.1.16 (Englisch vs. Japanisch).
• SVO: He adores listening to music.
• SOV:
he
kare ha
music
ongaku
to
wo
listening
kiku
no ga
115
adores
daisuki
desu
Lokale Diskrepanzen
Beispiel 11.1.17 (Wortstellung bei Objekt und Vollverb in Partizipform).
• I have seen him
• Ich haben ihn gesehen.
Beispiel 11.1.18 (Wortstellung bei Fragewort und Präposition).
• What doctor did John go to?
• Zu welchem Doktor ging John?
Beispiel 11.1.19 (Wortstellung bei Verneinung).
• He never sleeps long.
• Er schläft nie lange.
Beispiel 11.1.20 (Head Switching: Hauptverb vs. Adverb).
• I like swimming.
• I schwimme gerne.
Beispiel 11.1.21 (Head Switching: Modalverb vs. Adverb).
• John usually goes home.
• Juan suele ir a casa.
Beispiel 11.1.22 (Passivkonstruktion).
• She insists on being given the books.
• Sie besteht darauf, dass ihr die Bücher gegeben werden.
Beispiel 11.1.23 (Gerundiv-Konstruktionen).
• He did not neglect writing to her.
• Er versäumte es nicht, ihr zu schreiben.
Lexikalische Divergenz
Beispiel 11.1.24 (Zuordnung thematische Rolle zu syntaktischer Funktion).
• cautionner qn vs bürgen für jmdn.
• applaudir qn vs. jmdm. applaudieren
Beispiel 11.1.25 (Zuordnung thematische Rolle zu syntaktischer Funktion).
• I miss my dictionary.
• Mon dictionnaire me manque.
116
11.2 Ansätze
Oettingers “Automatic Russian-English Dictionary”
Beispiel 11.2.1 (Russisch zu Englisch).
Humanübersetzung:
In recent times Boolean algebra has been successfully employed in the analysis of
relay networks of the series-parallel type.
“Rohübersetzung”:
(In,At,Into,To,For,On) (last,latter,new,latest,worst) (time,tense) for analysis and synthesis relay-contact electrical (circuit, diagram, scheme) parallel-(series, successive,
consecutive, consistent) (connection, junction, combination) (with, from) (success,
luck) (to be utilize, to be take advantage of) apparatus Boolean algebra.
[Locke und Booth 1955, 55]
Wort-für-Wort-Übersetzung
Der einfachste Ansatz zur MÜ basiert auf einem bilingualen Lexikon und einfachsten Modifikationen auf der Wortebene.
Vorgehen
• Im Prinzip wortweises Übersetzen der erkannten Lexikoneinträge
• Anpassungen der Wortfolge in der Rohübersetzung
– Austauschen von 2 benachbarten Wörtern
– Weglassen eines Worts (z.B. keine Artikel im Russischen)
– Einfügen eines Worts
Frage
Was muss man dafür eigentlich können?
Probleme solcher lexikalischer Übersetzung
• Lemma-basierte Übersetzung: Mit der Reduktion auf Lemmata geht wesentliche Information über die syntaktischen Abhängigkeiten verloren.
• Wortfolge: Sprachen unterscheiden sich oft so stark, dass lokales Umstellen von Wörtern
nicht genügt. (z.B. SVO vs. SOV)
• Lexikalische Mehrdeutigkeit: Die meisten Wörter in den meisten Sprachen sind mehrdeutig (ambig)! Wie findet man die intendierte Bedeutung? Dies erfordert sog. “word sense
disambiguation (WSD)” (Wortbedeutungsdesambiguierung).
117
4 wichtige Ansätze
Die Übertragung von der QS in die ZS ist primär gesteuert durch:
• Wortfolge mit mophosyntaktischer Information: Direkte Übersetzung
• Syntaktische Struktur: Transfer-Übersetzung
• Semantische Repräsentation: Interlingua-Übersetzung
• Frequenzdaten von Übersetzungspaaren: Statistische Übersetzung
11.2.1 Direkte Übersetzung
Direkte Übersetzung
Die direkte Übersetzung führt die QS ohne linguistisch motivierte Zwischenrepräsentation in die
ZS über.
Ablauf
• Bestimmung von Wortarten, Grundformen und morphosyntaktischen Merkmalen der Wörter in der QS
• Wortwahl (=Lemmawahl) in der ZS
• Anwenden von Übertragungsregeln anhand der lexikalischen und morphosyntaktischen Information
• Lokales Umordnen von Wörtern in ZS
• Morphologische Generierung der Wortformen der ZS
Beispiel 11.2.2 (Wortwahl “much/many”).
if preceding word is “how” return “wieviel(e)” else if preceding word is “as” return “soviel(e)”
Beispiel: Regeln für Direkte Übertragung
Beispiel 11.2.3 (Adjektiv-Stellung und Nominalkomposita von Englisch zu Französisch).
• a visual indicator → un indicateur visuel
• installation configuration → configuration d’installation
Regeln für die direkte Übertragung
• ArtE AdjE NE → ArtF NF AdjF “Falls in der QS die Folge Artikel, Adjektiv, Nomen
vorliegt, dann produziere in der ZS die Reihenfolge Artikel, Nomen, Adjektiv.”
• N1E N2E → N2F de N1F “Falls in der QS zwei Nomen hintereinander stehen, dann
produziere in der ZS die vertauschte Reihenfolge mit einem de-Element dazwischen.”
118
Probleme/Vorteile der direkten Übersetzung
• Eine grosse Anzahl Übertragungsregeln entsteht wegen der schlechten syntaktischen Abstraktion. So muss für “the preliminary installation configuration → la configuration
d’installation préliminaire” eine weitere Regel gemacht werden. Welche?
• Jede Übersetzungsrichtung braucht ein eigenes Programm.
• Wartung und Weiterentwicklung wird schnell zu komplex, weil die syntaktische Struktur
nicht explizit repräsentiert ist.
• Die direkte Übersetzung ist grundsätzlich robust gegenüber syntaktischen Schwierigkeiten
(Fehler oder zu komplexe Strukturen).
• Allgemeine Behandlung von unbegrenzten Konstruktionen wie Komposita ist schlecht
machbar. “computer periphery installation configuration manual”
11.2.2 Transfer-Übersetzung
Transfer-Übersetzung im Bild
Satz
Satz
Ausgangsgssprache
Zielsprache
Analyse
Synthese
Syntax
Ausgangsgssprache
Syntax
Transfer
Zielsprache
Abbildung 11.3: Transfer-Übersetzung im Bild
Beispiel: Regeln für Transfer von Syntaxstrukturen
Die Transfer-Regeln operieren nicht bloss auf der Wortebene, sondern auf allen Konstituenten.
(Vgl. http://www.cl.uzh.ch/clab/ecl1/ilap_transf/)
Komponenten eines Transfersystems
• Syntaxanalyse der QS (Grammatik, Lexikon, Parser)
• Transfer-Modul (lexikalische und syntaktische Transfer-Regeln)
• Generierungsmodul der ZS (Grammatik, Lexikon, Generator)
119
John gives Mary an apple.
Jean donne une pomme à Marie.
Eingabevorbereitung
capitalized(john) gives
capitalized(mary)
Ausgabeaufbereitung
an
apple
capitalized(jean)
endpunct(’.’)
to_give mary
a
cat: p_name cat: tv
cat: p_name
num: sing
num: sing num: sing
gend: fem
gend: masc pers: 3
tense: pres
mood:indic
apple end_of_sentence
cat: det
num: sing
def: indef
jean
cat: cn
num: sing
donner un
NP
p_name
john
vt
S
tense: pres
mood:indic
type: assertion
num: sing
pers: 3
pn
to_give
VP num: sing
pers: 3
NP num: sing
Syntax−
Transfer
det
cn
def: indef
a
mary
NPnum: sing
gend: fem
p_name
apple
vt
jean
det
cn
def: indef
donner
un
pomme
Maschinelle Übersetzung (Transfer−Methode)
Quelle: [Hess 2005]
Abbildung 11.4: Transfer-Übersetzung im Detail
S
S
Np
Adj
Np
Vp
N−Gr
V
Np
Art
N
the
rich
boy
Art
N−Gr Adj
loves the
Vp
V
N−Gr
girl
Np
Art
N
N
le
garçon riche aime la
Quelle: [Hess 2005]
Abbildung 11.5: Transfer-Regeln
120
PP
NP num: sing
gend: fem
NP
num: sing
gend: masc
Lexikon−
Lookup
Art
capitalized(marie)
Satzgenerierung
NP num: sing
gend: fem
num: sing
gend: masc
à
pomme à marie end_of_sentence
tense: pres
mood:indic
type: assertion
VP
pomme
cat: p_name cat: tv
cat: cn cat: prep cat: p_name
cat: det
num: sing
num: sing num: sing num: sing
num: sing
gend: masc pers: 3
def: indef gend: fem
gend: fem
tense: pres gend: fem
mood:indic
Satzanalyse
S
une
Wortformengenerierung
Wortformenanalyse
john
donne
N−Gr
N
fille
prep
pn
à
marie
endpunct(’.’)
• Morphologie-Module für QS und ZS
• Module zur Auflösung von Mehrdeutigkeiten
Fazit zur Transfer-Übersetzung
• Dominierendes Paradigma der heutigen MÜ (aber schon 1950 konzipiert)
• Nur die Transfer-Regeln müssen für jede Übersetzungsrichtung entwickelt werden. Generierung und Analyse bleiben (hoffentlich) gleich.
• Unbegrenzte Konstruktionen lassen sich rekursiv elegant übertragen.
• Sprachen, welche wenig Ähnlichkeiten haben, sind viel schwieriger als verwandte Sprachen.
• Welche syntaktischen Konstruktionen existieren überhaupt?
• Was tun, wenn Sätze der QS nicht geparst werden können? Wie bekommt man die intendierte Analyse?
11.2.3 Interlingua-Übersetzung
Interlingua-Übersetzung
• Bei der Transfer-Übersetzung müssen die syntaktischen Analyseresultate so gewählt werden, dass der Transfer zu verschiedenen Sprachen optimal ist.
• Der Interlingua-Ansatz versucht, alle Einzelsprachen auf eine gemeinsame Repräsentation
(meist bedeutungsorientiert) abzubilden.
• In der Praxis haben sich diese Systeme nicht durchgesetzt – trotz der an sich bestechenden
Idee.
• Problem: Wie soll diese Interlingua genau aussehen? Welche begrifflichen Differenzierungen
verlangt sie?
Lexikalisierungsproblem
Verschiedene Sprachen machen unterschiedlich feine Bedeutungsunterscheidungen.
Wieviele Differenzierungen muss eine Interlingua enthalten, wenn noch mehr Sprachen ins Spiel
kommen?
11.2.4 Kombinierte Ansätze
Ansätze der MÜ und reale Systeme
Reale Übersetzungssysteme sind meistens Kombinationen der geschilderten Ansätze. Wo keine
“tiefen” Analysen möglich sind, werden flache Übertragungen gemacht.
121
Quelle: [Jurafsky und Martin 2008] nach Somers
Abbildung 11.6: Lexikalische Überschneidungen nach Somers
Quelle: [Jurafsky und Martin 2008]
Abbildung 11.7: Verbindung von direkter, Transfer- und Interlingua-Übersetzung
11.3 Statistische Maschinelle Übersetzung
Lernende Verfahren
Regelbasiert vs. datenbasiert
Anstelle von komplexen Regelsystemen wird aus alignierten Satzpaaren die Übersetzungsrelation
gelernt.
Noisy Channel Model für EN → FR
Die Übersetzung versucht, aus einem “verrauschten” Signal, das wie Englisch tönt, das wahrscheinlichste französische Original zu rekonstruieren.
QS
noisy channel
ZS
Fluency und Faithfulness im SMT
Optimieren von Fluency und Faithfulness in wortbasierter MT
• Faithfulness: Wie wahrscheinlich kann von einer französischen Wortfolge auf eine englische
Wortfolge übersetzt werden? Übersetzungsmodell: P (f | e)
122
• Fluency: Wie englisch ist das Übersetzte? ZS-Modell: P (e)
Abbildung 11.8: Fluency und Faithfullness in SMT nach [Al-onaizan et al. 1999]
Candide Modell 3 für Übersetzungsrichtung FR → EN
Nach [Al-onaizan et al. 1999, 13]
• Probabilistisches Lexikon: Mit welchen Wahrscheinlichkeiten wird ein englisches Wort aus
französischen Wörtern übersetzt?
• Fruchtbarkeit (fertility): Wahrscheinlichkeit, dass ein französisches Wort in n englische
Wörter übersetzt wird.
• Verzerrung (Distortion): Wahrscheinlichkeit, dass ein englisches Token an Position i in
einem Satz an Position j im französischen Satz erscheint.
• Null-Einsetzung (NULL-insertion): Globale Wahrscheinlichkeit, dass irgendwo ein NULL
Element im Englischen erscheint.
Statistische Verfahren
• Seit Mitte 90-Jahre sehr aktives Forschungsgebiet. Aber: Keine wirklichen Durchbrüche
im Vergleich mit den regelbasierten Ansätzen.
• Wortbasierte Ansätze wurden von phrasen-basierten (Chunks) Ansätzen abgelöst.
• Im Prinzip kann jedes Problem im klassischen Übersetzungsparadigma durch probabilistische Verfahren gelöst werden (“Wortsinndesambiguierung”, Syntax-Analyse, Strukturveränderungen)
11.4 Vertiefung
• Kapitel “Maschinelle Übersetzungssysteme” in [Hess 2005], das noch zusätzliches Material
und Referenzen enthält.
• Quiz Mehrdeutigkeit von Wortarten
123
• ILAP Transfer-Übersetzung http://www.cl.uzh.ch/clab/ecl1/ilap_transf
• Eine lesbare technische Einführung in Maschinelle Übersetzung: [Knight 1997]
124
12 Formales Propädeutikum I
Lernziele
• Kenntnis der grundlegenden mengentheoretischen Konstrukte und Notationskonventionen
• Mengennotation, Elementbeziehung, Teilmenge, Potenzmenge, Paare, Relationen, Funktionen
• Kenntnis über grundlegende Eigenschaften von Relationen wie Symmetrie, Transitivität,
Totalität, Reflexivität
• Kenntnis über die Eigenschaften, welche Funktionen partiell, total, injektiv, surjektiv oder
bijektiv machen
Herzlichen Dank an Manfred Klenner bzw. Ralf Klabunde für Quelltexte.
12.1 Mengen
Mengen
Definition 12.1.1 (“Naive” Mengenlehre nach [Cantor 1895]).
Abbildung 12.1: Faksimile der Bestimmung des Mengenbegriffs bei Georg Cantor
Kommentar zur Terminologie
Es gibt also Objekte, Mengen und Elemente.
Beispiel 12.1.2 (Mengen aus der Welt der Linguistik).
Menge der Sätze einer Zeitungausgabe, der Wortformen eines Satzes, der Lexeme eines Satzes,
der Buchstaben eines Wortes, der Bedeutungen eines Wortes, . . .
Formale Notationen für Mengen
Definition 12.1.3 (Aufzählung einer Menge). Eine Mengenaufzählung besteht aus Zeichen(ketten), welche die Objekte einer Menge bezeichnen und zwischen geschweiften Klammern stehen. Zwischen den Zeichen werden Kommata geschrieben. Die Reihenfolge der Zeichen ist irrelevant.
125
Beispiel 12.1.4 (Menge der Farben der französischen Flagge
).
{blau, weiss, rot} oder {weiss, blau, rot} oder {bleu, blanc, rouge} oder {a, b, c}, falls z.B. festgelegt ist, dass a für Rot, b für Blau und c für Weiss steht. Welche Konvention legt fest, dass
bleu für die Farbe Blau stehen soll?
Mehrfachschreibung von Zeichen
Die Notation {a, a, b, c, c, c} bezeichnet die gleiche Menge wie {a, b, c}.
Unterschiedliche Zeichen für dasselbe Objekt (Objektgleichheit)
Wenn gilt: a = b, dann bezeichnen {a, b} und {a} dieselbe Menge.
Beispiel 12.1.5 (Token).
Die Menge M der Token des Satzes “Wenn hinter Fliegen Fliegen fliegen, fliegt eine Fliege Fliegen
nach.”
M = {“Wenn”, “hinter”, “Fliegen”, “fliegen”, “,”, “fliegt”, “eine”, “Fliege”, “nach”, “.”}
Lexem als Menge von Token
LexemF liege = {“Fliege”, “Fliegen”}
Lexemverband als Menge von Lexemen
Lexemverbandf lieg = {{“Fliege”,“Fliegen”}, {“fliegt”,“fliegen”,“fliegst”,. . . }, . . .}
Formale Notationen für Mengen
Definition 12.1.6 (Charakterisierung (Beschreibung) einer Menge). Eine Mengencharakterisierung besteht aus einer Variablen x (oder y, z), einem senkrechten Strich und einem Bedingungsteil, der angibt, unter welchen Bedingungen irgendein Objekt x Element der damit notierten
Menge ist.
{x | Bedingung(en) über x}
Gesprochen: Die Menge aller x, für die gilt: x . . . Die Variable x ist innerhalb der Klammern
gebunden.
Beispiel 12.1.7 (Menge der Farben der französischen Flagge
).
{ x | x ist eine Farbe der französischen Flagge } { x | x ist die Farbe blau oder x ist die Farbe
rot oder x ist die Farbe weiss }
Elementbeziehung
Definition 12.1.8 (Notation der Elementbeziehung). Gehört ein Objekt x zur Menge A, so
nennt man x ein Element der Menge A und schreibt x ∈ A.
Gehört y nicht zur Menge A, schreibt man y ∈
/ A.
•y
•x
A
126
Russelsche Paradoxie [Irvine 2003]
Ob ein Objekt Element einer Menge ist oder nicht, lässt sich nicht in jedem Fall entscheiden.
Sei M die Menge, welche durch { x | x ∈
/ x } charakterisiert wird. Gilt M ∈ M ?
1. Falls M ∈
/ M , so ist M ∈ M wegen der Mengencharakterisierung. Dies ergibt einen
Widerspruch.
2. Falls M ∈ M ist, so ist M ∈
/ M wegen der Mengencharakterisierung. Dies ergibt einen
Widerspruch.
Rekursiv charakterisierte Mengen
Mengen mit beliebig vielen Elementen lassen sich rekursiv (induktiv) beschreiben.
Beispiel 12.1.9 (Natürliche Zahlen N).
• Rekursionsbasis: 0 ist eine natürliche Zahl.
• Rekursionsschritt: Wenn x eine natürliche Zahl ist, dann ist der Nachfolger (successor)
s(x), d.h. x + 1 ebenfalls eine natürliche Zahl.
Verwendung von rekursiver Definitionen
Zeige, dass s(s(s(0))) Element der Menge der natürlichen Zahlen ist.
s(s(s(0))) ∈ N, falls s(s(0)) ∈ N (Rekursionschritt)
s(s(0)) ∈ N , falls s(0) ∈ N (Rekursionschritt)
s(0) ∈ N, falls 0 ∈ N (Rekursionschritt)
0 ∈ N (Rekursionsbasis)
Logische Verknüpfungen und ihre Wahrheitswerte
Disjunktion
Konjunktion
Negation
Implikation
Bikonditional
A oder (auch) B
A und B
nicht A
wenn A, dann B
A genau dann, wenn B
A∨B
A∧B
¬A
A→B
A↔B
Wahrheits- und Falschheitsbedingungen
• A ∨ B ist falsch, falls A und B falsch sind; sonst wahr
• A ∧ B ist wahr, falls A und B wahr sind; sonst falsch
• A → B ist falsch, falls A wahr und B falsch ist; sonst wahr
• A ↔ B ist wahr, falls A und B beide wahr oder falsch sind; sonst falsch
127
Allquantor
Existenzquantor
Für alle x gilt: . . .
Es gibt mindestens ein x, für das gilt: . . .
∀x
∃x
Quantoren und Prädikate
Einige Wahrheits- und Falschheitsbedingungen
Sei m(x) das Prädikat “x ist menschlich” und s(x) das Prädikat “x ist sterblich”
• ∀x(m(x) → s(x)) ist falsch, falls mindestens ein Objekt existiert, das ein Mensch ist, aber
nicht sterblich; sonst wahr
• ∃y(m(y)∧s(y)) ist wahr, falls mindestens ein Objekt existiert, das ein Mensch und sterblich
ist; sonst falsch
Mengengleichheit
Definition 12.1.10 (Extensionalitätsprinzip). Zwei Mengen M und N sind gleich, wenn sie die
gleichen Elemente enthalten.
Formal: M = N =df. ∀x(x ∈ M ↔ x ∈ N )
Beispiel 12.1.11 (Gleiche Mengen in beiden Notationsformen).
{a} = { x | x = a }
{a, b} = { x | x = a ∨ x = b }
Mengenungleichheit
Anstelle von ¬(M = N ) schreibt man kurz: M 6= N .
Frage
In welchen Funktionen wird oben das Symbol “=” verwendet?
Hinweis zur Definitionstechnik
Definition 12.1.12 (Explizitdefinition nach [Bussmann 2002]). Bei Explizitdefinitionen enthält “das Definiendum neben dem zu definierenden Zeichen nur Variablen”. Sie “haben den Charakter von Abkürzungen”. Damit ist “die Forderung nach der Eliminierbarkeit der definierten
Ausdrücke gewährleistet, d.h. die Reduzierbarkeit aller Aussagen auf die Grundbegriffe und die
Axiome.”
Was für “Variablen”?
Die Definition der Mengengleichheit muss für beliebige Mengen gelten. Der Ausdruck
M = N =df. ∀x(x ∈ M ↔ x ∈ N )
entspricht logisch betrachtet folgendem Bikonditional
∀M ∀N (M = N ↔ ∀x(x ∈ M ↔ x ∈ N )).
128
Teilmengenbeziehung
Definition 12.1.13 (Teilmenge, subset). Eine Menge M ist Teilmenge der Menge N , wenn
jedes Element von M auch Element von N ist. Der Menge N sagt man Obermenge.
Formal: M ⊆ N =df. ∀x(x ∈ M → x ∈ N )
Definition 12.1.14 (Echte Teilmenge, proper subset). Eine Menge M ist echte Teilmenge der
Menge N , wenn M Teilmenge von N ist, aber nicht gleich N ist.
Formal: M ⊂ N =df. M ⊆ N ∧ M 6= N
Beispiel 12.1.15.
{a, c} ⊂ {a, b, c}
{a, c} ⊆ {a, c}, aber {a, c} 6⊂ {a, c}
Leere Menge
Definition 12.1.16. Die leere Menge ist die Menge, welche keine Elemente enthält.
Formal: ∅ =df. { x | x 6= x }
Alternativ-Notation: {}
Fragen
Ist die leere Menge Teilmenge jeder Menge?
Ist die leere Menge Element jeder Menge?
Potenzmenge
Definition 12.1.17 (power set). Die Potenzmenge einer Menge M ist die Menge aller Teilmengen von M .
℘(M ) =df. { T | T ⊆ M }
Alternativ-Notation: 2M
Beispiel 12.1.18.
Potenzmenge der Menge M = {1, 2}
℘(M ) = {∅, {1}, {2}, {1, 2}}
Hinweis: ∅ ist sowohl Element als auch Teilmenge von ℘(M ).
Operationen über Mengen
Sei M = {a, b, c} und N = {c, d}:
Vereinigung
A ∪ B =df. { x | x ∈ A ∨ x ∈ B }
•a
•b
M
•c
•d
N
M ∪ N = {a, b, c, d}.
Schnittmenge
129
A ∩ B =df. { x | x ∈ A ∧ x ∈ B }
•a
•b
•d
•c
M
N
M ∩ N = {c}
Disjunkte Mengen
Gilt A ∩ B = ∅, so haben A und B keine gemeinsamen Elemente und man nennt A und B
disjunkt .
Sei M = {a, b, c} und N = {c, d} und G = {a, b, c, d, e}:
Differenz
A \ B =df. { x | x ∈ A ∧ x 6∈ B }
•a
•b
•d
•c
M
N
M \ N = {a, b}.
Komplement
A =df. G \ A
falls G eine Grundmenge von A ist mit A ⊆ G
•e
•a
•b
G
•c
•d
N
N = {a, b, e}.
Kardinalität von endlichen Mengen
Definition 12.1.19. Die Kardinalität einer endlichen Menge A ist die Anzahl ihrer Elemente.
Formal: | A |
Beispiel 12.1.20.
Die Kardinalität der leeren Menge ist null: | ∅ | = 0.
Welche Kardinalität hat die Potenzmenge: | ℘(M ) | =?
Unendliche Mengen
Mengen können auch unendlich viele Elemente enthalten. Z.B. die Menge der natürlichen Zahlen
N = {0, 1, 2, 3, . . .}
12.2 Relationen
Geordnete Paare
Definition 12.2.1 (Geordnetes Paar). Ein geordnetes Paar besteht aus einer ersten und einer
zweiten Komponente (Koordinate). Diese werden zwischen spitzen Klammern notiert: ha, bi. Oft
aber auch in runden: (a, b).
130
Definition 12.2.2 (Gleichheit von geordneten Paaren). Zwei geordnete Paare sind gleich, wenn
sie in ihren beiden Komponenten gleich sind. Formal: ha, bi = hc, di =df. a = c ∧ b = d
Beispiel 12.2.3 (Unterschied von geordneten Paaren und Zweier-Mengen).
Sei a 6= b. Dann gilt {a, b} = {b, a}, aber hb, ai = ha, bi gilt nicht.
Kreuzprodukt
Definition 12.2.4 (Produktmenge, kartesisches Produkt). Ein Kreuzprodukt zweier Mengen
besteht aus der Menge der geordneten Paare, welche sich aus deren Elementen kombinieren.
M × N = { hx, yi | x ∈ M ∧ y ∈ N }
Beispiel 12.2.5 (Kreuzprodukt).
Sei A = {a, b, c} und B = {1, 2}:
A × B = {ha, 1i, ha, 2i, hb, 1i, hb, 2i, hc, 1i, hc, 2i}
B × B = {h1, 1i, h1, 2i, h2, 1i, h2, 2i}
a
2
A b
c
B
1
Frage
Welche Menge ergibt sich, wenn B = ∅?
Binäre Relationen
Definition 12.2.6 (Zweistellige Relation). Eine binäre Relation R zwischen Elementen zweier
Mengen M und N ist eine Teilmenge des Kreuzproduktes von M und N .
R⊆M ×N
Notationsvarianten
Anstelle von ha, bi ∈ R schreibt man gerne in Infix-Notation a R b oder in Präfix-Notation R(a, b).
Beispiel 12.2.7 (Kleiner-Gleich-Relation).
Anstelle von h1, 3i ∈ ≤ notiert man 1 ≤ 3.
Beispiel: Tagger-Lexikon
• Die Menge der Token T OK = {“eine”, “der”, . . . }
• Die Menge der STTS-Tags T AG = {“ADJ“,“ART”, . . . ,“XY”}
• Das Lexikon L ⊆ T OK × T AG:
L = {h“eine”,“ART”i, h“eine”,“VVIMP”i, . . . }
131
Eigenschaften binärer Relationen
Für eine Relation R ⊆ M × M gilt:
• R ist reflexiv genau dann, wenn für alle x ∈ M gilt, hx, xi ∈ R
• R ist irreflexiv genau dann, wenn für alle x ∈ M gilt, hx, xi 6∈ R
• R ist symmetrisch genau dann, wenn für alle x, y ∈ M gilt, xRy → yRx
• R ist antisymmetrisch genau dann, wenn für alle x, y ∈ M gilt, (xRy ∧ yRx) → x = y
• R ist asymmetrisch genau dann, wenn für alle x, y ∈ M gilt, xRy → ¬yRx
• R ist total genau dann, wenn für alle x, y ∈ M gilt, xRy ∨ yRx
• R ist transitiv genau dann, wenn für alle x, y, z ∈ M gilt, (xRy ∧ yRz) → xRz
Beispiele von Eigenschaften binärer Relationen
Sei M die Menge aller Menschen.
• Die Relation ’x ist verheiratet mit y’ auf M ist
– symmetrisch (wenn a mit b verheiratet ist, dann auch b mit a)
– irreflexiv (niemand ist mit sich selbst verheiratet)
– aber nicht total (es gibt unverheiratete Menschen)
• Die Relation ’x hat dieselben Eltern wie y’ auf M ist
– reflexiv (jeder hat dieselben Eltern wie er selbst)
– symmetrisch (wenn a dieselben Eltern hat wie b, dann hat auch b dieselben Eltern
wie a)
– transitiv (wenn a dieselben Eltern hat wie b und b dieselben Eltern hat wie c, dann
hat auch a dieselben Eltern wie c)
• Die Relation ’x ist Vorfahre von y’ auf M ist
– transitiv (wenn a Vorfahre von b ist und b Vorfahre von c ist, dann ist a Vorfahre
von c)
– irreflexiv (niemand ist Vorfahre von sich selbst)
n-Tupel und n-stelliges kartesisches Produkt
Definition 12.2.8 (n-Tupel). Ein n-Tupel ist die Verallgemeinerung des geordneten Paares auf
endlich viele Komponenten: hx1 , x2 , . . . , xn i
Zwei n-Tupel sind gleich, wenn sie in jeder Komponente übereinstimmen: hx1 , x2 , . . . , xn i =
hy1 , y2 , . . . , ym i =df.
x1 = y1 ∧ x2 = y2 ∧ . . . ∧ xn = ym ∧ n = m
Definition 12.2.9 (n-stelliges kartesisches Produkt). Ein n-stelliges kartesisches Produkt besteht aus der Menge der n-Tupel, welche sich aus den n Mengen bilden lassen.
M1 × M2 × · · · × Mn =df. { hx1 , x2 , . . . , xn i | x1 ∈ M1 ∧ x2 ∈ M2 ∧ . . . ∧ xn ∈ Mn }
132
12.3 Funktionen
Definition 12.3.1 (totale Funktion). Eine Funktion ist eine Relation R ⊆ M × N über dem
Definitionsbereich M und dem Wertebereich N , welche folgende Eigenschaften hat:
1. Jedes Element aus dem Definitionsbereich M ist mit höchstens einem Element aus dem
Wertebereich N verbunden. (rechtseindeutig)
2. Jedes Element von M ist mit einem Element aus N verbunden. (linkstotal)
Partielle Funktion
Falls nur Bedingung 1 erfüllt ist, nennt man die Funktion partiell.
a
2
A b
B
1
c
Definitionsbereich Wertebereich
Abbildung 12.2: Pfeildiagramm einer partiellen Funktion
Arten von Funktionen
Surjektiv (rechtstotal)
Jedes Element des Wertebereichs wird von mindestens einem Pfeil getroffen.
a
2
A b
c
B
1
Abbildung 12.3: Pfeildiagramm einer surjektiven Funktion
Injektiv (linkseindeutig)
Jedes Element des Wertebereichs wird von höchstens einem Pfeil getroffen.
a
2
3 B
1
A b
Abbildung 12.4: Pfeildiagramm einer injektiven Funktion
Bijektiv
Jedes Element des Wertebereichs wird von genau einem Pfeil getroffen.
133
a
2
A b
B
1
Abbildung 12.5: Pfeildiagramm einer bijektiven Funktion
Abbildung 12.6: Übersicht: Eigenschaften von Relationen und Funktionen
Übersicht: Relationen und Funktionen
Notationen für Funktionen
Funktionsschreibweise
• Statt f ⊆ M × N schreibt man f : M → N .
• Statt hx, yi ∈ f schreibt man f (x) = y.
• Statt hx, yi ∈ f schreibt man auch x 7→ y ∈ f .
Definitionsschreibweisen
Sei M = {a, b, c, d} und N = {1, 2, 3}
• f : M → N = {ha, 1i, hb, 3i, hc, 2i, hd, 3i}

1 f alls x = a



3 f alls x = b
• f (x) =
2 f alls x = c



3 f alls x = d
134
Rekursive Funktionsdefinitionen
Funktionen über rekursiv definierten Mengen lassen sich oft besonders elegant rekursiv definieren.
Beispiel 12.3.2 (Zweistellige Additions-Funktion add : N × N → N).
x
f alls y = 0
add(x, y) =
s(add(x, z)) f alls y = s(z)
Schritt
1
2
3
Term
add(s(0),s(s(0)))
s(add(s(0),s(0)))
s(s(add(s(0),0)))
s(s(s(0)))
y
s(s(0))
s(0)
0
z
s(0)
0
Multimengen
Eine Multimenge M = {a : 3, b : 4, c : 1} mit a, b, c, . . . ∈ N ist eine (partielle) Funktion
M : N → N.
Beispiel 12.3.3 (Tokenvorkommen eines Satzes).
Wie notiert man die Multimenge der Token des Satzes “Wenn hinter Fliegen Fliegen fliegen,
fliegt eine Fliege Fliegen nach.” als Menge von geordneten Paaren?
135
13 Formales Propädeutikum II
Lernziele
• Kenntnis von Folgen, Hüllen, Graphen und Bäumen
• Kenntnis über formale Sprachen und (Regel-)Grammatiken
• Kenntnis über das Ableiten mit kontextfreien Grammatiken
13.1 Exkurs: Indexnotationen
n-Tupel und endliche Folgen
n-Tupel als endliche Funktionen
Ein n-Tupel der Form hx1 , x2 , . . . , xn i kann als Kurznotation für die Funktion, d.h. Menge {1 7→
x1 , 2 7→ x2 , . . . , n 7→ xn } aufgefasst werden.
0-Tupel
Ein n-Tupel der Form hi mit n = 0 kann als Alternativ-Notation für die leere Funktion, d.h.
leere Menge {} aufgefasst werden.
n-Tupel und endliche Folgen
n-Tupel sind nichts anderes als eine endliche Folge von Koordinaten (Komponenten).
Welche Funktionen sollen als n-Tupel bzw. endliche Folgen gelten?
Endliche Folgen
Definition 13.1.1 (Endliche Folge). Eine endliche Folge der Länge n über einer Menge M ist
eine partielle Funktion f : N → M , deren Argumente genau die natürlichen Zahlen von 1 bis n
umfasst.
Formal
• Sei dom (domain) eine Funktion, welche den Definitionsbereich einer Relation f zurückgibt: dom(f ) =df. { x | ∃y (hx, yi ∈ f ) }.
• Stehe die Notation a..b gleich wie a ≤ x ≤ b für die Menge { x | a ≤ x ∧ x ≤ b }.
• Eine Funktion f : N → M ist eine endliche Folge, gdw. dom(f ) = 1 .. | f |.
136
Beispiele: Korpora
Beispiel 13.1.2 (Tokenisiertes Korpus).
Ein tokenisiertes Korpus ist eine endliche Folge C : N → T OKEN .
Dann ist C(20) das 20. Token des Korpus C.
Frage
Wie müsste man ein satzsegmentiertes und tokenisiertes Korpus modellieren mit endlichen Folgen, damit man z.B. das 3. Wort des 400. Satzes eines Korpus bezeichnen kann?
Grosse Operatorzeichen mit Indexmengen
P
Summenoperator
• Berechnung der Summe einer Folge von Zahlen
•
3
P
xi = x1 + x2 + x3
i=1
Q
Produktoperator
Q
Q
ak = am × am+1 × · · · × an
• nk=m ak =
m≤k≤n
• Fakultät: n! =
Vereinigung
•
3
S
Qn
i=1 i
= 1 × 2 × ... × n
S
Mi = M1 ∪ M2 ∪ M 3
i=1
13.2 Hüllenbildung
Hüllen (closures)
Motivation
Das Aufzählen oder definieren einer binären Relation kann mühsam sein. Oft reicht es, ein
“Skelett” einer Relation zu bilden, welches dann durch Hüllenbildung “automatisch” erweitert
wird.
Beispiel 13.2.1 (Direkte und indirekte Nachfahren).
• Seien in DV = {hanna, bertai, hberta, carlai, hcarla, danai} alle direkten Nachfahren, d.h.
die Beziehung “x ist Kind von y”.
• Wie gibt man die Relation aller direkten und indirekten Nachfahren V an? Z.B. durch
Aufzählen:
• Wie kann man das kürzer schreiben?
137
Komposition von Relationen (Produkt)
Definition 13.2.2. Die Komposition von zwei binären Relationen R ⊆ M × M und S ⊆ M × M
ergibt wieder eine binäre Relation.
Sie beinhaltet ein Paar hu, wi genau dann, wenn R ein Paar hu, vi enthält und S ein Paar hv, wi.
v fungiert zwar als Bindeglied – ist aber im Resultat nicht mehr sichtbar!
RS = { hu, wi | ∃v (uRv ∧ vSw) }
Komposition von Relationen in PROLOG
% kind(KIND,ELTER)
kind(anna,berta).
kind(berta,carla).
kind(carla,dana).
% Komposition der Kind-Relation
kind_comp_kind(U,W):kind(U,V),
kind(V,W).
?- kind_comp_kind(X,Y).
Hüllen einer Relation
Potenzschreibweise
• R0 = {hx, xi | x ∈ M } , R1 = R
• Rn = RRn−1
für n ≥ 1
Hüllen
• Transitive Hülle:
R+ =
[
Rn
n≥1
• Reflexive Hülle:
Rref lexiv = R ∪ R0
• Reflexiv-transitive Hülle:
R∗ =
[
n≥0
138
Rn
c
10
b
d
b
c
d
5
b
5
c
5
a
a
a
G = h{a, b, c, d},{ha, bi, hb, ci, hb, di,hc, ai, hd, ai, hd, ci}i
(B)
(D)
(C)
13.3 Graphen
Gerichtete Graphen
Definition 13.3.1 (directed graph, digraph). Ein gerichteter Graph G = hN, Ei, bestehend aus
einer endlichen, nicht-leeren Menge N von Knoten (nodes) und einer Menge E von Kanten
(edges): E ⊆ N × N .
Definition 13.3.2 (Verbindungen und Pfade). Ein Pfad ist eine endliche Folge von Knoten,
welche paarweise durch Kanten verbunden sind. Z.B. hd, c, a, bi.
Die Knoten n1 und n2 sind verbunden im Graphen G = hN, Ei, gdw. hn1 , n2 i ∈ E.
n1 heisst Vorgänger von n2 . n2 heisst Nachfolger von n1 .
Zyklen
Definition 13.3.3 (Einfacher Pfad). Ein einfacher Pfad ist ein Pfad, der einen Knoten höchstens einmal enthält.
Definition 13.3.4 (Zyklus). Ein Zyklus ist ein einfacher Pfad, an dessen Ende nochmals sein
Anfangselement angefügt wird.
Zyklen der Form hn, ni heissen auch Schlaufen (loop).
Definitionsabhängig werden Schlaufen manchmal nicht als Zyklen aufgefasst.
Definition 13.3.5 (Zyklenfrei). Ein Graph, der keine Zyklen enthält, heisst zyklenfrei.
Bäume
Definition 13.3.6 (Gerichteter Baum). Ein Baum ist ein zyklenfreier, gerichteter Graph mit
den Eigenschaften:
• Es gibt genau einen Knoten n, der selbst keinen Vorgänger hat. Dieser Knoten heisst
Wurzel.
• Jeder Knoten ausser der Wurzel hat genau einen Vorgänger.
• Von der Wurzel aus existiert ein Pfad zu jedem andern Knoten.
Definition 13.3.7 (Matrilineare Sprechweisen). Zwei Knoten sind Schwestern (Geschwister),
wenn sie denselben Vorgänger (Mutter) haben.
Definition 13.3.8 (Höhe eines Baums). Die Höhe eines Baumes bezeichnet den längsten Pfad
von der Wurzel aus. Die Länge eines Pfads ist die Anzahl Knoten darin −1.
139
Bäume mit geordneten Knoten
Definition 13.3.9. Ein Baum hat geordnete Knoten, wenn zwischen allen Geschwistern eine
lineare Präzedenz festgelegt ist.
S
NP
VP
EN
V
Egon
aß
.
NP
D
N
den
Pudel
Abbildung 13.1: Baumdarstellung eines Baum-Graphen
Geordnete Bäume als Klammerstrukturen
Geordnete Bäume lassen sich in Klammerdarstellung eindeutig repräsentieren:
S(NP(EN(Egon)),VP(V(aß),NP(D(den),N(Pudel))))
Globale Richtung
Anstelle von individuellen Richtungsinformationen an den Pfeilen kann in der graphischen Darstellung von Bäumen die Ausrichtung nach unten festgelegt sein. Die Bäume stehen in der
Linguistik meist auf dem Kopf.
13.4 Formale Sprachen und Regel-Grammatiken
13.4.1 Sprache als Menge
Das Alphabet (Sigma), Zeichen und Zeichenketten
Definition 13.4.1. Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole). Es
wird mit Σ (Sigma) notiert.
Definition 13.4.2. Eine Zeichenkette (Wort, string) von n Zeichen aus Σ ist eine endliche Folge
der Länge n über Σ.
Die leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird mit (Epsilon) notiert
und hat die Länge 0.
Hinweis zur Notation
Eine Zeichenkette wird typischerweise durch Nebeneinanderschreiben (Juxtaposition) der Zeichen von links nach rechts notiert.
Sei Σ = {a, b}, dann sind etwa , a, bb oder ababbba Wörter über Σ. Eine explizitere Notation
für bb ist hb, bi bzw.{h1, bi, h2, bi}.
140
Stern von Sigma und formale Sprachen
Definition 13.4.3. Der Stern von Sigma ist die Menge aller Wörter über einem Alphabet Σ.
Der Stern wird als Postfix-Operator Σ∗ (sprich «Sigma Stern») notiert.
Definition 13.4.4. Eine formale Sprache L über Σ ist eine Teilmenge des Sterns von Sigma.
L ⊆ Σ∗
Beispiel 13.4.5. Sei Σ = {a}, dann ist Σ∗ = {, a, aa, aaa, . . .}. Die Mengen L1 = {, a} oder
L2 = {aa, aaaa, aaaaaa} sind formale Sprachen, da sie (echte) Teilmengen von Σ∗ sind.
Leere Sprachen vs. leere Zeichenkette
Hinweise
• Die leere Sprache ist die leere Menge, notiert als {} oder ∅.
• Die Sprache, welche nur die leere Zeichenkette umfasst, wird als {} notiert.
• Die leere Sprache {} und die Sprache {} sind nicht dasselbe.
Fragen
• Ist {} eine Sprache über jedem Σ?
• Ist die Sprache {} Teilmenge jeder nicht-leeren Sprache?
• Ist Σ∗ eine Sprache über Σ?
13.4.2 Konkatenation
Konkatenation von Zeichenketten
Definition 13.4.6. Die Konkatenation von Zeichenketten ist eine zweistellige Funktion, welche
ihre Argumente zu einem Wort verkettet. Für alle u, v ∈ Σ∗ :
• : Σ∗ × Σ∗ → Σ∗ ,
u • v = uv
Was bedeutet uv?
Wenn u : 1..n → Σ und v : 1..m → Σ Wörter, d.h. endliche Folgen von Zeichen sind, dann ist
uv : 1..(m + n) → Σ. Wobei für alle Zeichenpositionen i ∈ 1..(n + m) gilt:
u(i)
f alls i ≤ n
(uv)(i) =
v(i − n) f alls i > n
141
Potenznotation der Konkatenation
Eigenschaften der Konkatenation
Die Konkatenation ist assoziativ und hat als neutrales Element. Für alle u, v, w ∈ Σ∗ :
u • (v • w) = (u • v) • w,
• u = u,
u•=u
Definition 13.4.7. Die n-fache Konkatenation einer Zeichenkette w mit sich selbst in der Potenznotation sei rekursiv definiert. Für n ≥ 1, n ∈ N:
w0 = wn = w • wn−1
Beispiel 13.4.8 (Potenznotation der Verkettung).
Die Zeichenkette aaabbcccc kann als a3 b2 c4 notiert werden.
buffalo6
Beispiel 13.4.9 (Ein syntaktisch korrekter englischer Satz).
“Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo.”
Analyse
• Buffalo als Herkunftsadjektiv
• buffalo als Nomen (Büffel)
• buffalo als Verb (einschüchtern)
• Sinn: “Bison from Buffalo, New York who are intimidated by other bison in their community
also happen to intimidate other bison in their community.”
13.4.3 Grammatiken
Chomsky-Hierarchie [Hopcroft et al. 2002]
Sprachklasse
Typ Beispiel
regulär
3
{an }
kontextfrei
2
{an bn }
kontextsensitiv
1
{an bn cn }
allgemein
0
142
Kontextsensitive Sprachen
Kontextfreie Sprachen
Reguläre Sprachen
.
Allgemeine Regelsprachen
Abbildung 13.2: Teilmengenbeziehungen der Sprachklassen von Chomsky
mit n ≥ 1
Echte Teilmengen
Für alle Typ–i–Sprachen mit 0 ≤ i ≤ 2 gilt: Li+1 ⊂ Li .
Wo befinden sich natürliche Sprachen? [Hess 2005, 138ff.]
Mindestens Typ 2: NPn VPn (central embedding)
----------------------------------------------|
---------------------------|
|
|
-------|
|
|
|
|
|
|
|
The man whose wife whose child is angry is sad is surprised
Mindestens Typ 1 nach [Shieber 1985, Kallmeyer 2005]: NPi NPj Vi Vj (cross serial
construction)
mer wänd
-----------------|
|
-----------------|
|
|
|
|
-------------------|
|
|
|
|
|
|
|
d’Chind am Hans s’Huus laa hälfe aaschtriiche
143
Komplexität, Grammatikalität, Akzeptanz von Sprache
Es darf daher getrost, was auch von allen, deren Sinne, weil sie unter Sternen, die, wie der
Dichter sagt, zu dörren, statt zu leuchten, geschaffen sind, geboren sind, vertrocknet sind, behauptet wird, enthauptet werden, dass hier einem sozumaßen und im Sinne der Zeit, dieselbe
im Negativen als Hydra betrachtet, hydratherapeutischen Moment ersten Ranges, immer angesichts dessen, dass, wie oben, keine mit Rosenfingern den springenden Punkt ihrer schlechthin
unvoreingenommenen Hoffnung auf eine, sagen wir, schwansinnige oder wesenzielle Erweiterung
des natürlichen Stoffeides zusamt mit der Freiheit des Individuums vor dem Gesetz ihrer Volksseele zu verraten den Mut, was sage ich, die Verruchtheit haben wird, einem Moment, wie ihm
in Handel, Wandel, Kunst und Wissenschaft allüberall dieselbe Erscheinung, dieselbe Tendenz
den Arm bietet, und welches bei allem, ja vielleicht eben trotz allem, als ein mehr oder minder
undulationsfähiger Ausdruck einer ganz bestimmten und im weitesten Verfolge excösen Weltauffasseraumwortkindundkunstanschauung kaum mehr zu unterschlagen versucht werden zu wollen
vermag - gegenübergestanden und beigewohnt werden zu dürfen gelten lassen zu müssen sein
möchte.
Christian Morgenstern, Vorrede zu Galgenliedern
Regel-Grammatiken
• Eine Regel-Grammatik ist ein mächtiges endliches Beschreibungsmittel, um formale Sprachen mit potentiell unendlich vielen Zeichenketten zu spezifizieren.
• Eine Grammatik G = hΦ, Σ, R, Si besteht aus:
1. Alphabet Φ: endliche Menge von Nichtterminalsymbolen
2. Alphabet Σ: endliche Menge von Terminalsymbolen mit Φ ∩ Σ = ∅
3. Menge R ⊆ Γ∗ × Γ∗ von Regeln hα, βi (mit Gesamtalphabet Γ = Φ ∪ Σ), wobei gilt:
α 6= und α 6∈ Σ∗
4. Startsymbol S ∈ Φ
• Diese Definition einer Grammatik ist die allgemeinste (Typ 0).
• Eine Grammatikregel ist ein geordnetes Paar: hα, βi. Schreibweise: α → β.
Kontextfreie Grammatiken
• Eine Kontextfreie Grammatik G = hΦ, Σ, R, Si besteht aus:
1. Nichtterminalsymbolen Φ
2. Terminalsymbolen Σ
3. Regelmenge R ⊆ Φ × Γ∗ (Γ = Φ ∪ Σ)
4. Startsymbol S ∈ Φ
Beispiel 13.4.10 (Kontextfreie Grammatik).
• G1 = h{S, N P, V P, EN, V, D, N }, {Egon, P udel, den, ass}, R, Si


 S → N P V P, N P → EN, N P → D N, 
V P → V N P, EN → Egon, N → Pudel,
• Regelmenge R =


V → ass,
D → den
144
Beispiel-Evaluation
Siehe Abb. 13.3 auf Seite 144.
Indexnotationen
Hüllen
Graphen
Formale Sprachen
Sprache als Menge
Konkatenation
Grammatiken
Indexnotationen
Hüllen
Graphen
Formale Sprachen
Sprache als Menge
Konkatenation
Grammatiken
Indexnotationen
Hüllen
Graphen
Formale Sprachen
Sprache als Menge
Konkatenation
Linksableitung und Konstruktion des Parsebaums
Linksableitung und Konstruktion des Parsebaums
Linksableitung und Konstruktion des Parsebaums
Linksableitung informell
Linksableitung informell
Linksableitung informell
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
Indexnotationen
Hüllen
Graphen
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
Einführung in die Computerlinguistik I
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
NP2 VP2
EN3
V5
Egon4 ass6
NP5
D7
N7
den8 Pudel9
HS 2008
Formale Sprachen
Formales Propädeutikum II
Sprache als Menge
31 / 37
Konkatenation
Indexnotationen
Hüllen
Graphen
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
NP2 VP2
EN3
V5
NP5
Egon4 ass6
D7
N7
den8 Pudel9
Einführung in die Computerlinguistik I
Grammatiken
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
HS 2008
Formales Propädeutikum II
Formale Sprachen
Sprache als Menge
31 / 37
Konkatenation
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
NP2 VP2
EN3
Indexnotationen
Hüllen
NP5
D7
N7
den8 Pudel9
Einführung in die Computerlinguistik I
Grammatiken
V5
Egon4 ass6
HS 2008
Graphen
Formales Propädeutikum II
Formale Sprachen
Sprache als Menge
31 / 37
Konkatenation
Linksableitung und Konstruktion des Parsebaums
Linksableitung und Konstruktion des Parsebaums
Linksableitung und Konstruktion des Parsebaums
Linksableitung informell
Linksableitung informell
Linksableitung informell
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
Einführung in die Computerlinguistik I
Indexnotationen
Hüllen
Graphen
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
NP2 VP2
EN3
V5
Egon4 ass6
NP5
D7
N7
den8 Pudel9
HS 2008
Formale Sprachen
Formales Propädeutikum II
Sprache als Menge
31 / 37
Konkatenation
Grammatiken
EN3
Hüllen
Graphen
V5
NP5
D7
N7
den8 Pudel9
Einführung in die Computerlinguistik I
Indexnotationen
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
NP2 VP2
Egon4 ass6
HS 2008
Formale Sprachen
Formales Propädeutikum II
Sprache als Menge
Konkatenation
31 / 37
Grammatiken
Indexnotationen
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
NP2 VP2
EN3
Graphen
Formale Sprachen
HS 2008
Sprache als Menge
Linksableitung und Konstruktion des Parsebaums
Linksableitung und Konstruktion des Parsebaums
Linksableitung informell
Linksableitung informell
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
Einführung in die Computerlinguistik I
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
NP2 VP2
EN3
V5
Egon4 ass6
NP5
D7
N7
den8 Pudel9
HS 2008
Formales Propädeutikum II
31 / 37
Einführung in die Computerlinguistik I
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
NP2 VP2
EN3
V5
Egon4 ass6
NP5
D7
N7
den8 Pudel9
HS 2008
Formales Propädeutikum II
N7
31 / 37
Grammatiken
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
D7
Formales Propädeutikum II
Konkatenation
Linksableitung informell
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
NP5
den8 Pudel9
Einführung in die Computerlinguistik I
Hüllen
V5
Egon4 ass6
Linksableitung und Konstruktion des Parsebaums
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
Grammatiken
Bei einer Linksableitung wird immer das am weitest links stehende
Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden
Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP.
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
Grammatiken
31 / 37
S1
NP VP
EN VP
Egon VP
Egon V NP
Egon ass NP
Egon ass D N
Egon ass den N
Egon ass den Pudel
Einführung in die Computerlinguistik I
NP2 VP2
EN3
V5
Egon4 ass6
NP5
D7
N7
den8 Pudel9
HS 2008
Formales Propädeutikum II
31 / 37
Abbildung 13.3: Beispiel für Linksderivation und Parsebaumkonstruktion
Formales Ableiten von Sätzen
Definition 13.4.11 (Direkte Ableitungsrelation). Die direkte Ableitungsrelation ⇒ ⊆ Γ∗ × Γ∗
einer Grammatik ist die Menge aller Paare hu, vi mit u, v, w, z ∈ Γ∗ , für die gilt:
• es gibt eine Regel der Form w → z
• die Zeichenketten u und v können so in Teilzeichenketten aufgeteilt werden, dass gilt:
u = u1 wu2 sowie v = u1 zu2
Definition 13.4.12 (Ableitung (derivation)). Eine Ableitung ist ein n-Tupel hw1 , . . . , wn i von
Zeichenketten wi ∈ Γ∗ mit (1 ≤ i ≤ n) , so dass gilt:
• wi−1 ⇒ wi
für alle i ∈ {2 ..n}
Normale Schreibweise für Ableitungen
w1 ⇒ . . . ⇒ wn
145
S
NP
VP
EN
V
Egon
aß
.
NP
D
N
den
Pudel
Beispiel: Ableitung mit kontextfreier Grammatik
Ableitung
S
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
NP VP
EN VP
EN V NP
EN aß NP
EN aß D N
EN aß den N
EN aß den Pudel
Egon aß den Pudel
u
u1 wu2
S
NP VP
EN VP EN V NP
EN aß NP EN aß D N
EN aß den N EN aß den Pudel
Regel
w→z
S → NP VP
NP → EN
VP → V NP
V → aß
NP → D N
D → den
N → Pudel
EN → Egon
v
u1 zu2
NP VP EN VP
EN V NP EN aß NP
EN aß D N EN aß den N
EN aß den Pudel Egon aß den Pudel
Satzformen, Sätze und Sprachen
∗
Definition 13.4.13 (Ableitungsrelation (derivation relation)). Die Ableitungsrelation ⇒ ist die
reflexiv-transitive Hülle von ⇒.
Definition 13.4.14 (Satz). Ein Satz a einer Grammatik G = hΦ, Σ, R, Si ist eine Zeichenkette
aus Terminalsymbolen a ∈ Σ∗ , so dass gilt:
+
S⇒a
Definition 13.4.15 (Sprache einer Grammatik G). Die Sprache LG einer Grammatik G =
hΦ, Σ, R, Si ist die Menge aller ihrer Sätze a ∈ Σ∗ .
+
LG = { a | S ⇒ a }
Grammatik-Regeln, Sprachklassen und Automaten
Die verschiedenen Grammatiktypen unterscheiden sich hinsichtlich der Bedingungen, die an die
Regelmenge R gestellt werden. Es seien A, B ∈ Φ, w ∈ Σ∗ und α, β, γ ∈ (Φ ∪ Σ)∗ .
146
Sprachklasse
Regulär
(Typ 3)
Kontextfrei
(Typ 2)
Kontextsensitiv
(Typ 1)
Form der Grammatikregeln
A→w
A → wB
oder A → Bw
A→α
αAγ → αβγ
S→
mit β 6= oder
(dann darf S nicht
auf einer rechten Seite
einer Regel vorkommen)
(Typ 0)
α→β
(mit α 6= und α 6∈ Σ∗ )
Die Komplexität der Berechnungen für das Parsen steigt
147
Automatentyp
Endlicher Automat
Kellerautomat
Linear
beschränkter
Automat (LBA)
Turingmaschine
mit jedem Grammatiktyp an.
14 Formales Propädeutikum III
Lernziele
• Exaktes Verständnis von Merkmalstrukturen mit und ohne Koreferenz
• Kenntnis über gegenseitige rekursive Definition von Mengen
• Kenntnis über Merkmal-Wert-Paare, Pfade und ihre Werte
• Kenntnis über Subsumtion und Unifikation von Merkmalstrukturen
• Fähigkeit formale und informelle Beschreibungen von Konzepten zu verstehen und aufeinander zu beziehen
14.1 Merkmalstrukturen
14.1.1 Motivation
Merkmalsanalysen
Wissenschaftshistorische Motivation
Die Verwendung von Merkmalen in der modernen linguistischen Theorie geht zurück auf die
Theorie der strukturalistischen Phonologie, wo die Analyse mit sogenannten «Distinktiven Merkmalen» zentral war.
Beispiel 14.1.1 (Merkmalsanalyse in der Phonologie).
Das Phonem /b/ = [+Verschlusslaut, +Bilabial, +Stimmhaft].
Beispiel 14.1.2 (Merkmalsanalyse in der Semantik nach Bierwisch).
Die Verwandschaftsbezeichnung «Cousin» [+Mensch, +verwandt, –direkt verwandt, +gleiche
Generation, +männlich, –weiblich ].
Beispiel 14.1.3 (Merkmalsanalyse in der Syntax nach Chomsky).
Die Hauptwortarten Nomen, Verben, Adjektive und Präpositionen «A» [+Verbal,+Nominal]
oder «P» [–Verbal,–Nominal].
Informationsorientierte Motivation
Zur Bedeutung von Merkmalstrukturen
Merkmalstrukturen beschreiben Mengen von Objekten, welche bestimmte Bedingungen (constraints) erfüllen.

Wortart

Numerus
Person

verb

singular
3
148
{ x | wortart(x) = verb ∧ numerus(x) = singular ∧ person(x) = 3 }
Unterspezifikation
Je weniger Merkmal-Wert-Paare in einer Merkmalstruktur spezifiziert sind,
• desto weniger Information ist vorhanden.
• desto mehr Objekte können die Bedingungen erfüllen.
Einfache Merkmalstrukturen
Mengentheoretische Beschreibung
Eine einfache, d.h. nicht-rekursive Merkmalstruktur ist eine Abbildung M : A → V von einer
endlichen Menge von Attributen A auf Werte V
Beispiel 14.1.4 (Einfache linguistische Merkmalstrukturen).
pers
sg pl
1
2 3
Attribute
Werte
num
"
num
pers
#
sg M = {hnum, sgi, hpers, 3i}
3
14.1.2 Rekursiv
Beispiel: Gegenseitig rekursiv definierte Mengen
Gerade Zahlen
• 0 ist eine gerade Zahl.
• Wenn x eine ungerade Zahl ist, dann ist der Nachfolger von x eine gerade Zahl.
Ungerade Zahlen
• Wenn x eine gerade Zahl ist, dann ist der Nachfolger von x eine ungerade Zahl.
Sätze und NP
Da Sätze Nominalphrasen enthalten und Nominalphrasen (Relativ)sätze enthalten können, müssen diese Kategorien auch gegenseitig rekursiv definiert werden.
Merkmalstrukturen gegenseitig rekursiv definiert
Definition 14.1.5 (Attribut-Wert-Struktur, attribute value matrix (AVM )). Die Menge der
Merkmalstrukturen, welche sich aus einer Menge A von Merkmalen (Attributen) und V von
atomaren Werten ergibt, lässt sich rekursiv angeben.
Merkmalstrukturen
• Die leere Menge ∅ ist eine Merkmalstruktur.
149
– Diese “leere” Merkmalstruktur wird meist notiert als [].
• Wenn M eine Merkmalstruktur, a ∈ A ein Merkmal sowie w ein Wert ist, dann ist M1 =
M ∪ {ha, wi} eine Merkmalstruktur,
– Vorausgesetzt: M enthält kein Paar ha, ui mit u 6= w.
Werte
• Alle atomaren Werte v ∈ V sind Werte.
• Wenn M eine Merkmalstruktur ist, dann ist M auch ein Wert.
Beispiel: Rekursive Konstruktion einer Merkmalstruktur M
Sei V = {sg, pl, 1, 2, 3} und A = {AGR, N U M, P ER}
Schritt
als Menge
1
M1 = ∅
2
M2 = M1 ∪ {hP ER, 3i}
3
M3 = M2 ∪ {hN U M, sgi}
4
M = M1 ∪ {hAGR, M3 }
in Matrix-Notation
hi
M1 =
h
i
M2 = PER 3
"
#
NUM sg
M3 =
PER 3

"
#
NUM sg 
M =AGR
PER 3
Beispiel: F-Struktur in XLE
14.1.3 Als Graphen
Markierte gerichtete Bäume
Definition 14.1.6 (markierter gerichteter Baum). Ein markierter gerichteter Baum ist ein
gerichteter Baum T = hN, Ei. Er besitzt eine Markierungsfunktion für Kanten mE : E → A,
welche jeder Kante eine Markierung aus A zuordnet. Sowie ein Markierungsfunktion für Knoten
mN : N → B, welche jedem Knoten eine Markierung aus B zuordnet.
Definition 14.1.7 (Blatt). Die Blätter eines Baumes sind alle seine Knoten ohne Nachfolger.
Definition 14.1.8 (Innere Knoten). Die inneren Knoten eines Baumes sind alle Knoten mit
mindestens einem Nachfolger.
Merkmalstruktur als markierter gerichteter Baum
Beispiel 14.1.9.
T = hN, Ei N = {n1 , n2 , n3 , n4 } E = {hn1 , n2 i, hn2 , n3 i, hn2 , n4 i} mE = {hhn1 , n2 i, AGRi, hhn2 , n3 i, P ERSi, hhn
mN = {hn1 ,00 i, hn2 ,00 i, hn3 , 3i, hn4 , sgi}
150
Abbildung 14.1: F-Struktur als Merkmalstruktur in XLE
Abbildung 14.2: Merkmalstruktur als gerichteter Baum
Merkmalstrukturen und Bäume
Definition 14.1.10 (Baum einer koreferenzfreien Merkmalstruktur). Ein markierter gerichteter
Baum T stellt eine Merkmalstruktur M dar, gdw. er folgende Eigenschaften erfüllt:
151
Abbildung 14.3: Merkmalstruktur als gerichteter Baum
Abbildung 14.4: Kästchennotation
• Alle atomaren Werte und leeren Merkmalstrukturen von M sind die Blätter von T .
• Die komplexen Werte in M sind die inneren Knoten von T .
• Alle atomaren Werte bekommen in T als Knoten-Markierung ihren atomaren Wert.
• Ein Merkmalwertpaar ha1 , W1 i mit ha2 , W2 i ∈ W1 ergibt jeweils eine Kante von W1 nach
W2 mit der Kanten-Markierung a2 .
14.2 Pfade und Werte
Pfade in Merkmalstrukturen
Definition 14.2.1 (Merkmal-Pfad). Ein Pfad in einer Merkmalstruktur ist eine endliche Folge
von Merkmalen, die in der Merkmalstruktur unmittelbar aufeinander folgen.
Beispiel 14.2.2 (Merkmalstruktur und alle nicht-leeren Pfade).


"
#
hSU BJi hAGRi hN U M i
SUBJ AGR NUM sg 
PER 3
hSU BJ, AGRi hAGR, N U M i hAGR, P ERi
hSU BJ, AGR, N U M i hSU BJ, AGR, P ERi
Definition 14.2.3 (Vollständiger Pfad). Ein vollständiger Pfad einer Merkmalstruktur ist ein
Merkmal-Pfad, der beim Wurzelknoten beginnt und bei einem atomaren Wert oder der leeren
Merkmalstruktur endet.
152
Pfade und ihre Werte in Merkmalstrukturen
Definition 14.2.4 (Wert eines Pfades). Der
Pfades beginnt.

 M
val(ha2 , . . . , an i, W )
val(P, M ) =

undef iniert
Wert eines Pfades ist der Wert, der am Ende des
f alls P = hi
f alls ha1 , W i ∈ M ∧ P = ha1 , . . . , an i
sonst
Beispiel 14.2.5 (Werte von Pfaden).


#
"
NUM sg  val(hSU BJ, AGR, N U M i, M ) = sg


M = SUBJ AGR
PER 3
#
"
NUM sg
val(hSU BJ, AGRi, M ) =
PER 3
Evaluation der Pfadfunktion


"
#
NUM
sg
)
val(hSU BJ, AGR, N U M i, SUBJ AGR
PER 3

"
#
NUM sg 
= val(hAGR, N U M i, AGR
)
PER 3
"
#
NUM sg
= val(hN U M i,
)
PER 3
= val(hi, sg)
= sg
14.2.1 Koreferenz
Koreferenz
Idee
Koreferenz (structure sharing, reentrancy) in Merkmalstrukturen erzwingt die Identität von Werten bzw. von Teil-Merkmalstrukturen.
Beispiel 14.2.6 (Kongruenz von Subjekt und finitem Verb).
Im Satz «Sie betrachten es.» sind die Wortformen «Sie» und «betrachten» für sich genommen
morphosyntaktisch ambig.
Durch das Wissen über die Identität ihrer Werte bezüglich Numerus und Person verringert sich
die Mehrdeutigkeit.
Verwendung
Überall, wo es um den Abgleich von linguistische Information geht, ist Koreferenz das Mittel
der Wahl. So etwas wie Anti-Koreferenz braucht es fast nie. . .
Graph vs. Matrix [Müller 1994, 136]
153
Abbildung 14.5: Koreferente Merkmalstruktur als Matritze
Abbildung 14.6: Koreferente Merkmalstruktur als gerichteter Graph
Koreferente Graphen formal betrachtet
Definition 14.2.7 (Merkmalstrukturen mit Koreferenz). Als Graph ist eine Merkmalstruktur
mit Koreferenzen ein markierter gerichteter Baum, bei dem eine Bedingung aufgehoben ist:
• Ein Knoten kann mehr als einen Vorgänger haben.
Koreferenz in Matrix-Notation
Bei der Matrix-Notation muss man genau bei einem Wert einen Index setzen und kann die
koreferenten Werte dann damit koindizieren.
Koreferenz in Mengen-Darstellung
Koreferenz ist Gleichheitsrelation zwischen bestimmten Werten von Pfaden eine Merkmalstruktur M .
Beispiel 14.2.8 (Koreferenz von 2 Merkmal-Pfaden).
val(hSU BJ, AGRi, M ) = val(hP RED, AGRi, M )
14.3 Unifikation
14.3.1 Motivation
Wozu Unifikation von Merkmalstrukturen?
154
Informationen aus Merkmalstrukturen vereinigen
Unifikation (t “unifiziert mit”) vereinigt die Bedingungen aus 2 Merkmalstrukturen in einer
einzigen.
Beispiel 14.3.1 (Widerspruchsfreie Unifikation).


#
#
"
"
CAS nom
GEN fem
CAS nom


= NUM sg 
t
NUM sg
NUM sg
GEN fem
von widersprüchlicher
Information).
#
# (Unifikation
"
"Beispiel 14.3.2
GEN fem
CAS nom
= ⊥
t
NUM sg
NUM pl
⊥ steht für die “künstliche” Merkmalstruktur, welche bei widerspruchshaltiger Unifikation entsteht, d.h. wenn keine widerspruchsfreie Unifikation möglich ist.
14.3.2 Subsumtion
Subsumtion
Subsumtion informell
Eine Merkmalstruktur M2 wird subsumiert von einer Merkmalstruktur M1 , falls M2 mindestens
die Information von M1 enthält. M2 kannzusätzlich Information
enthalten.

"
#
CAS nom
CAS nom


M1 =
subsumiert M2 =NUM sg 
NUM sg
GEN fem
Definition 14.3.3 (Subsumtion). Eine Merkmalstruktur M1 subsumiert eine Merkmalstruktur
M2 , kurz M1 v M2 , falls gilt:
• Jeder vollständige Pfad von M1 ist auch ein vollständiger Pfad von M2 und hat denselben
Wert.
• Jedes Paar von koreferenten Pfaden von M1 ist auch ein koreferentes Paar von M2 .
Entscheidungshilfe
für #
Subsumtion


"
NUM sg
AGR


PER 3 

"
#
M1:



SUBJ NUM sg 
PER 3


CAT NP
"
#



NUM
sg

M2:
AGR 1 PER 3 


SUBJ 1
Um zu überprüfen, ob M1 M2 subsumiert:
1. Gebe alle vollständigen Pfade von M1 und M2 an.
2. Falls M1 einen vollständigen Pfad enthält, der nicht in M2 ist: Nein!
155
3. Falls irgend ein vollständiger Pfad von M1 und M2 einen unterschiedlichen Wert hat: Nein!
4. Gebe alle Paare von koreferenten Pfaden an in M1 und M2 .
5. Falls M1 ein Paar enthält, das nicht in M2 ist: Nein!
6. Sonst: Ja!
Subsumtionsrelation
Die Subsumtion ist eine binäre Ordnungsrelation über der Menge der Merkmalstrukturen. D.h.
• Reflexivität: Jede Merkmalstruktur subsumiert sich selbst.
• Transitivität: Wenn M1 v M2 und M2 v M3 , dann M1 v M3 .
• Antisymmetrie: Wenn M1 v M2 und M2 v M1 , dann gilt M1 = M2
14.3.3 Unifikation
Unifikation von Merkmalstrukturen
Definition 14.3.4 (Graphunifikation). Die Merkmalstruktur M heisst Unifikation von M1 und
M2 , kurz M1 t M2 = M , gdw. gilt:
• M1 subsumiert M
• M2 subsumiert M
• M subsumiert alle Merkmalstrukturen Mi , die von M1 und M2 subsumiert werden.
Sinn der letzten Klausel
Der Unifikator von zwei Merkmalstrukturen M1 und M2 soll immer die allgemeinste Merkmalstruktur sein, welche noch subsumiert wird.
Eigenschaften
• Die leere Merkmalstruktur (manchmal mit > geschrieben) kann mit beliebigen Merkmalstrukturen unifiziert werden: [] t Mi = Mi
• Die Unifikation ergibt nicht für alle Paare von Merkmalstrukturen eine informative Merkmalstruktur. Sie scheitert, bzw. ergibt die inkonsistente Merkmalstruktur ⊥, welche von
allen Merkmalstrukturen subsumiert wird: ⊥ t Mi = ⊥
• > bezeichnet irgend ein Objekt, ⊥ bezeichnet nichts.
156
15 Syntaktische Analyse
Lernziele
• Kenntnis über Eignung von kontextfreien Grammatiken für Syntaxanalyse
• Kenntnis und Verständnis für den Zusammenhang von PATR-II und DCG mit Merkmalstrukturen als Argumente
• Kenntnis über Musteranalysen für Englisch für Verbalkomplex, Satzgliedstellung in verschiedenen Satzarten und Lückenforderungen
15.1 Motivation
Kontextfreie Grammatiken für natürliche Sprachen
Die rohe Verwendung kontextfreier Grammatiken für die Modellierung natürlicher Sprache erzeugt eine Unmenge Regeln.
Beispiel 15.1.1 (Übereinstimmung von Kasus, Genus und Numerus in NP).
Für morpho-syntaktisch korrekte Phrasen muss etwa statt
N P → DET N
eine Vielzahl spezifischerer Regeln verwendet werden.
NpMascSgNom
NpMascSgAcc
NpMascPlNom
NpFemSgNom
..
.
→
→
→
→
→
DetMascSgNom
DetMascSgAcc
DetMascPlNom
DetFemSgNom
..
.
NMascSgNom
NMascSgAcc
NMascPlNom
NFemSgNom
..
.
Wieviele sind es für Deutsch?
Probleme kontextfreier Grammatikentwicklung
• Generalisierungen wie «Artikel und Kernnomen haben innerhalb einer NP immer dasselbe
Genus und denselben Kasus und Numerus» lassen sich nicht explizit formulieren.
• Die Regelvervielfältigung verdunkelt Generalisierungen der Konstituenz. Das Symbol «NpFemSgNom» hat nur mnemotechnisch etwas mit «NpMascSgNom» zu tun – strukturell gibt es
keinen Bezug.
• Relevant ist dies mehr für den Grammatikentwickler – syntaktische Analyse ist mittlerweile
auch möglich mit kontextfreien Grammatiken, welche Tausende von Regeln enthalten. Dies
ist bei statistischen Parsern durchaus üblich.
• Kontextfreie Grammatikregeln kodieren Konstituenz und Reihenfolge der Teilkonstituenten
immer gleichzeitig. Sprachen mit freierer Wortstellung bzw. Satzgliedstellung wie etwa im
Deutschen müssen damit umständlich beschrieben werden.
157
15.2 Unifikationsgrammatik
15.2.1 Formalismen
DCG
Definition 15.2.1 (Definite Clause Grammar). Der DCG-Formalismus ist ein einfacher GrammatikFormalismus, der von den meisten Prolog-Implementationen direkt zur syntaktischen Analyse
(Parsing) unterstützt wird.
Kontextfreie Grammatikregeln in DCG
Art
Schema
Beispiel
Syntax
x0 --> x1, ..., xn . s --> np, vp.
Baum
S
eeeeeYYYYY
NP
Lexikon
y --> [wort] .
n --> [dog].
VP
N
dog
DCG-Parser in Prolog
Das Parse-Prädikat phrase/2 implementiert eine Links-Ableitung:
?- phrase(n,[dog]).
Beispielgrammatik
s --> np, vp.
% Intransitive Verben
vp --> v.
% Transitive Verben
vp --> v, np.
np --> d, n.
np --> pronoun.
v
v
v
v
-->
-->
-->
-->
[bark].
[barks].
[like].
[likes].
d --> [the].
d --> [two].
pronoun --> [him].
pronoun --> [he].
n --> [dog].
n --> [dogs].
158
Wie viele syntaktisch korrekte Sätze erlaubt diese Grammatik?
PATR-II [Shieber 1992]
Definition 15.2.2 (Parsing and Translation). Der PATR-II-Formalismus ist ein GrammatikFormalismus mit hoher Theorieneutralität.
Komponenten von PATR-II
• Kontextfreie Grammatikregeln für Syntax und Lexikon X0 → X1 . . . Xn
• Mit Merkmalstrukturen annotierte Nicht-Terminalsymbole
• Gleichungen (constraints) für atomare Werte von Pfaden hXi M erkmalspf adi = W ert
• Gleichungen (constraints) für Pfade (Koreferenz) hXi M erkmalspf adi = hXi M erkmalspf adi
DCG mit Merkmalstrukturen: GULP [Covington 1994]
Definition 15.2.3 (GULP (Graph Unification Logic Programming). GULP stellt Merkmalstrukturen und ihre Unifikation in Prolog als normale Term-Unifikation zur Verfügung.
Merkmalstrukturen in GULP
Der Operator : verknüpft ein Merkmal mit seinem Wert. Der Operator .. verknüpft MerkmalWert-Paare.
Beispiel 15.2.4 (Konkrete Syntax von GULP für Merkmalstrukturen).


"
#
SUBJ AGR NUM sg 
PER 3
(subj: (agr: (num: sg ..
per: 3)))
DCG mit Merkmalstrukturen
Nicht-Terminal-Symbole in DCG können Merkmalstrukturen als Argumente haben. n(num:sg..pers:3)
--> [dog].
DCG mit Merkmalstrukturen und Wertevariablen
Beispiel 15.2.5 (N P → DET N mit Merkmalstrukturen).
np(cas:Case .. num:Numerus .. gen:Genus) -->
det(cas:Case .. num:Numerus .. gen:Genus),
n(cas:Case .. num:Numerus .. gen:Genus).
159
NP
Det

cas

num

gen
1



2
3
ooOOOOO
OOO
ooo
o
o
O
o
o
o

 o
 OO
cas

num

gen
N
1


2
3
Beispielgrammatik mit GULP
:- [’gulp.pl’]. % GULP laden
s --> np(case:nom..num:N),
vp(num:N).
np(num:N) --> d(num:N), n(num:N).
np(num:N..case:C) -->
pronoun(num:N..case:C).
% Intransitive Verben
vp(num:N) --> v(subcat:1..num:N).
% Transitive Verben
vp(num:N) -->
v(subcat:2..num:N),
np(case:acc).
v(num:sg..subcat:1) --> [barks].
v(num:pl..subcat:1) --> [bark].
v(num:sg..subcat:2) --> [likes].
v(num:pl..subcat:2) --> [like].
d(num:_) --> [the].
d(num:pl) --> [two].
pronoun(num:sg..case:acc) --> [him].
pronoun(num:sg..case:nom) --> [he].
n(num:sg) --> [dog].
160
cas

num

gen
1



2
3
n(num:pl) --> [dogs].
15.2.2 Kongruenz
Übereinstimmung von Merkmalen
Definition 15.2.6 (Kongruenz, engl. Agreement). Kongruenz: Übereinstimmung zwischen zwei
oder mehreren Satzelementen hinsichtlich ihrer morpho-syntaktischen Kategorien (Kasus, Person, Numerus, Genus). [Bussmann 2002]
Kongruenz in DCG
Kongruenz lässt sich in DCG-Grammatikregeln mit Prolog einfach durch Variablengleichheit
ausdrücken.
Numerus-Kongruenz in DCG in GULP-Notation
Kongruenzen in Numerus zwischen
• Nomen und dem Begleiter
np(num:N) --> det(num:N), n(num:N).
• Subjekt und dem finiten Verb
s --> np(num:N), vp(num:N).
• Finitem Verb und Reflexivpronomen
vp(num:N) --> v(num:N), np(pron:refl..num:N).
h
VP num
Numerus-Kongruenz in PATR-II Notation
Zwischen finitem Verb und Reflexivpronomen
vp(num:N) --> v(num:N), np(pron:refl..num:N).
V P → V NP
hN P proni = ref l
hV P numi = hV numi
hV numi = hN P numi
Lexikonregel (partiell)
v(vform:fin..num:sg..pers:3..tense:present) --> [takes].
V
hV
hV
hV
hV
→ takes
vf ormi = f in
numi = sg
persi = 3
tensei = present
161
i
llWWWWWWWW
lll
l
l
" WW
l
lll i
NP num
h
V num
• zwischen Gleichsetzungsnominativen (predicate nominal )
vp(num:N) --> v(subcat:pred..num:N),
np(num:N).
• ...
1
1
1
pron refl
#
Kongruenz II
Kongruenzphänomene mit weiteren Kategorien
• Person
– zwischen finitem Verb und Subjekt
He likes soccer.
• Kasus
– zwischen koordinierten Nominalphrasen
The kids hate him and her most.
• Genus
– zwischen Possessivpronomen und seinem Bezugsnomen
Shei likes heri programming style.
15.2.3 Rektion
Rektion bzw. Valenz
Definition 15.2.7 (Rektion, government). Rektion: Lexemspezifische Eigenschaft von Verben,
Adjektiven, Präpositionen oder Substantiven, die die morphologische Kategorie (insbesondere
den Kasus) abhängiger Elemente bestimmt. Rektion kann unter Valenz subsumiert werden,
insofern Valenzträger die morphologische Form der von ihnen ’regierten’ (abhängigen) Elemente
bestimmen (’regieren’).
[Bussmann 2002]
Definition 15.2.8 (Valenz, Subkategorisierung). Valenz ist die Fähigkeit eines Lexems, seine
syntaktische Umgebung vorzustrukturieren, in dem es anderen Konstituenten im Satz Bedingungen bezüglich ihrer grammatischen Eigenschaften auferlegt.
[Bussmann 2002]
Verben gleicher Valenz werden oft in Subkategorien aufgeteilt.
Rektion/Valenz wird durch Merkmalspezifikation ausgedrückt.
Finitheit und Valenz
• Finite Vollverben fordern Subjekt im Nominativ
s --> np(cas:nom),vp(vform:fin).
• Vollverben fordern je nach Subkategorie Objekte
vp(vform:VF) --> v(vform:VF..subcat:1),
np(cas:acc).
• Finite Formen eines Verbs
v(vform:fin..subcat:1) --> [take].
v(vform:fin..subcat:1) --> [takes].
v(vform:fin..subcat:1) --> [took].
– Aus Gründen der Übersichtlichkeit sind nicht alle morphosyntaktischen Merkmale
aufgeführt.
162
15.3 Analysen
15.3.1 Verbalkomplex
Hilfsverben und Modalverben [Matthews 1998]
Beispiel 15.3.1 (Verbalkomplex im Englischen).
• takes
• has taken
• is taking
The sherpa
the wrong route.
• could have taken
• has been taking
• may have been taking
• Mit Hilfsverben (be,have,do), Modalverben (can, may) und Partizipien entstehen einige
Möglichkeiten.
Rektion im Verbalkomplex
• Modalverben fordern Grundformen (base)
aux(vform:fin..gov:bse) --> [could].
• Hilfsverb have fordert Partizip Perfekt (past participle)
aux(vform:bse..gov:pastpart) -->
[have].
• Ein Partizip Perfekt (das ein Akkusativobjekt regiert)
v(vform:pastpart..subcat:1) -->
[taken].
Bau des Verbalkomplexes
Rekursive Verbalphrase mit Hilfsverben
vp(vform:VF) -->
aux(vform:VF..gov:Required),
h
VP vform
vp(vform:Required).
gov
Satzstellung bei Ja-Nein-Fragen
Ja-Nein-Fragen involvieren Subjekt-Hilfsverb-Inversion.
Is the sherpa taking the wrong route?
163
i
T
fffff TTTTTT
TT
#
f
" ffff
AUX vform
15.3.2 Satzfragen
1
1
2
VP
h
• Das Hilfsverb steht vor dem Subjekt.
s_inv -->
aux(vform:fin..gov:Req), np(cas:nom), vp(vform:Req).
S-INV
AUX
ddWWWWWW
ddddddd
WWWWW
" dddddd
#
h
i WhWWW
vform fin
NP cas nom VP vform
2
gov
2
i
• Lexikoneinträge
aux(vform:fin..gov:partpres) --> [is].
v(vform:partpres..subcat:1) -->
[taking].
15.3.3 Ergänzungsfragen
Satzstellung bei Ergänzungsfragen
• Bei Subjektfragen ersetzt das Fragewort das Subjekt
Who is taking the wrong route?
s_quest --> wh_pro(case:nom), vp(vform:fin).
• Lexikoneintrag:
wh_pro(cas:nom) --> [who].
• Bei Objektfragen verändert sich die Verbalphrase
Whati is he taking ei ?
• Nach dem Fragewort erscheint eine Konstruktion mit Subjekt-Hilfsverb-Inversion, der das
Objekt fehlt.
15.3.4 Leere Kategorien verwalten
Lückenforderungen
Eine Objekt-Fragewort fordert eine Subjekt-Hilfsverb-Inversion mit einer Lücke (gap) in der
Verbalphrase
s_quest --> wh_pro(_), s_inv(vform:fin..gap:np).
• Revidierte Subjekt-Hilfsverb-Inversion
s_inv(vform:VF..gap:Gap) -->
aux(vform:VF..gov:Required),
np(case:nom..gap:no), vp(vform:Required..gap:Gap).
• Lückeninformation verarbeiten in VP und NP
vp(vform:VF..gap:G) --> v(vform:VF..subcat:1),
np(cas:acc..gap:G).
np(num:N..gap:no) --> det(num:N), n(num:N).
np(gap:np) --> [].
164
Lücken in Baumbanken: Penn-Treebank [Bies et al. 1995]
Lücken und Lückenfüller
Eine Lücke ist mit *T* “gefüllt” und über eine Indexzahl mit dem Lückenfüller koindiziert.
Fragesatz-Struktur in PTB
• kein S-INV bei W-Fragen, dafür obligatorisch SQ bei Fragesätzen
• Fragewort steht an erster Stelle in SBARQ, analog zu Relativpronomen in Relativsätzen
(SBAR) oder Konjunktionen in Nebensätzen (SBAR).
Abbildung 15.1: Annotation von Wh-Fragen in der Penn-Treebank
165
Lücken in Baumbanken
Lücken vs. überkreuzende Kanten in NEGRA
Die Verwendung von Lücken und ihren Lückenfüllern kann dasselbe wie überkreuzende Kanten.
Abbildung 15.2: NEGRA-Baum mit überkreuzenden Kanten
Abbildung 15.3: NEGRA-Baum mit Lücken und koindizierten Lückenfüllern
15.4 Vertiefung
• Kapitel 3.4.1 in [Carstensen et al. 2004]
• GULP 3 für SWI-Prolog [Covington 2005]
166
16 Literaturverzeichnis
[Abney 1991] Abney, Steven (1991). Parsing by Chunks, In: Berwick, Robert, S. Abney
und C. Tenny, Hrsg.: Principle-Based Parsing. Kluwer Academics, LIN 235. 55
[Al-onaizan et al. 1999] Al-onaizan, Yaser, J. Curin, M. Jahr, K. Knight, J. Lafferty, D. Melamed, F. josef Och, D. Purdy, N. A. Smith und D. Yarowsky (1999).
Statistical machine translation, Technischer Bericht, Final Report, JHU Summer Workshop.
8, 122
[Arnold et al. 1994] Arnold, Doug, L. Balkan, R. L. Humphreys, S. Meijer und
L. Sadler (1994). Machine Translation: An Introductory Guide. Blackwell. 113
[Bader 2006] Bader, Markus (2006).
Satzintonation: Einführung, http://ling.
uni-konstanz.de/pages/home/bader/Seminare/Satzintonation-06-07/01Einfuehrung.
pdf. 82, 83
[Bies et al. 1995] Bies, Ann, M. Ferguson, K. Katz und R. MacIntyre (1995). 164
[Brants 1999] Brants, Thorsten (1999). Tagging and Parsing with Cascaded Markov Models. Automation of Corpus Annotation, Bd. 6. Saarbrücken Dissertations in Computational
Linguistics and Language Technology. 52
[Brants et al. 1999] Brants, Thorsten, R. Hendriks, S. Kramp, B. Krenn, C. Preis,
W. Skut und H. Uszkoreit (1999). NEGRA Annotierschema, unpublished, Arbeitsmaterial. 34
[Bußmann 1990] Bußmann, Hadumod (1990). Lexikon der Sprachwissenschaft. Kröner,
Stuttgart, 2., völlig neu bearbeitete Aufl. 19, 21, 30, 32
[Bussmann 2002] Bussmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Kröner,
Stuttgart, 3., aktual. und erw. Aufl Aufl. 15, 127, 160, 161
[Callison-Burch et al. 2006] Callison-Burch, Chris, M. Osborne und P. Koehn
(2006). Re-Evaluation the Role of Bleu in Machine Translation Research, In: EACL-2006: 11th
Conference of the European Chapter of the Association for Computational Linguistics, S. 00–
00, Trento. Association for Computational Linguistics, http://www.aclweb.org/anthology/
E06-1032.pdf. 106
[Cantor 1895] Cantor, Georg (1895). Beiträge zur Begründung der transfiniten Mengenlehre, In: Mathematische Annalen, Bd. 46, S. 481 – 512, Leipzig. http://www-gdz.sub.
uni-goettingen.de/cgi-bin/digbib.cgi?PPN235181684_0046. 124
[Carstensen et al. 2004] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,
R. Klabunde und H. Langer, Hrsg. (2004). Computerlinguistik und Sprachtechnologie
: Eine Einführung. Elsevier, München, http://www.cl.uzh.ch/CLBuch/. 16, 18, 36, 45, 56,
68, 70, 72, 79, 85, 88, 89, 90, 165
167
[Chandioux 1991] Chandioux, John (1991). Meteo: Environment Canada [contribution to
panel] The MT user experience, In: MT Summit III., S. 123. http://www.mt-archive.info/
MTS-1991-panel-1.pdf. 102
[Clematide 2007] Clematide, Simon (2007). Tagger-Training und Evaluation mit TnT , Arbeitsmaterial. 47
[Cohn und Lapata 2008] Cohn, Trevor und M. Lapata (2008). Sentence Compression
Beyond Word Deletion, In: Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), S. 137–144, Manchester, UK. Coling 2008 Organizing Committee, http://www.aclweb.org/anthology/C08-1018. 76
[Covington 1994] Covington, Michael A (1994). GULP 3.1: An Extension of Prolog for
Unification-Based Grammar , Research Report AI-1994-06, Artificial Intelligence Center, Arbeitsmaterial. 158
[Covington 2003] Covington, Michael A (2003). ET: an Efficient Tokenizer in ISO Prolog, Arbeitsmaterial. 38
[Covington 2005] Covington, Michael A (2005). GULP 3.1 für Swi-Prolog, Arbeitsmaterial. 165
[Cunningham 1999] Cunningham, Hamish (1999). Information Extraction – a User Guide,
Technischer Bericht, Institute for Language, Speech and Hearing (ILASH), CS-99-07, http:
//www.dcs.shef.ac.uk/~hamish/IE/. 77
[Cutting et al. 1992] Cutting, D, J. Kupiec, J. Pedersen und P. Sibun (1992). A Practical Part-of-Speech Tagger , In: Proceedings of the Third Conference on Applied Natural Language Processing, Trento, S. 133–140, Trento. Association for Computational Linguistics,
http://www.aclweb.org/anthology/A92-1018.pdf, Arbeitsmaterial. 47
[Dale et al. 1998] Dale, Robert, B. D. Eugenio, und D. Scott (1998). Introduction to
the Special Issue on Natural Language Generation, Computational Linguistics, 24(3):345–353,
http://www.aclweb.org/anthology/J98-3001.pdf. 74
[Dudenredaktion 2005] Dudenredaktion, Hrsg. (2005). Duden, die Grammatik: unentbehrlich für richtiges Deutsch, Bd. 4 d. Reihe Der Duden. Dudenverlag, 7. Aufl. 30
[EAGLES 1996] EAGLES (1996). ELM-DE: EAGLES Specifications for German morphosyntax: Lexicon Specification and Classification Guidelines, electronic, http://www.ilc.cnr.it/
EAGLES96/pub/eagles/lexicons/elm_de.ps.gz, Arbeitsmaterial. 22
[Edmundson 1969] Edmundson, H.P. (1969). New Methods in Automatic Extracting, Journal
of the ACM, 16:264–285. 75
[excelsis 2007] excelsis (2007).
Hörbeispiel: Fussball-WM-Auskunft, http://www.
excelsisnet.com/download/voicedemos/DemoWM2002.mp3, Arbeitsmaterial. 90
[F-Mass 2006] F-Mass (2006). F1 -Mass in 3D als Funktion von Recall (x) und Precision (y),
Arbeitsmaterial. 59
[Gale und Church 1993] Gale, William A und K. W. Church (1993). A Program for
Aligning Sentences in Bilingual Corpora, Computational Linguistics, 19(1):75–102, http://
www.aclweb.org/anthology/J93-1004.pdf. 96
168
[Gallmann und Sitta 2001] Gallmann, Peter und H. Sitta (2001). Deutsche Grammatik .
Lehrmittelverlag, 3. Aufl., Konzis und verständlich. 21
[German 2006] German, Klara (2006).
AT&T Beispielsatz Deutsch, http://www.
research.att.com/~ttsweb/tts/demo.php, Arbeitsmaterial. 80
[Grefenstette 1998] Grefenstette, Gregory (1998). Producing Intelligent Telegraphic
Text Reduction to Provide an Audio Scanning Service for the Blind , In: Intelligent Text Summarization, AAAI Spring Symposium Series, S. 111–117, Stanford, California. 75
[Grefenstette und Tapanainen 1994] Grefenstette, Gregory und P. Tapanainen
(1994). What is a Word, What is a Sentence? Problems of Tokenisation, In: Proceedings
of the 3rd Conference on Computational Lexicography and Text Research, COMPLEX’94 ,
Budapest. http://citeseer.ist.psu.edu/grefenstette94what.html, Arbeitsmaterial. 43,
44, 45
[Grover 2008] Grover, Claire (2008). LT-TTT2 Example Pipelines Documentation, http:
//www.ltg.ed.ac.uk/software/lt-ttt2, Arbeitsmaterial. 40
[Hearst 1999] Hearst, Marti A. (1999). Untangling text data mining, In: Proceedings of
the 37th annual meeting of the Association for Computational Linguistics on Computational
Linguistics, S. 3–10, Morristown, NJ, USA. Association for Computational Linguistics. 72
[Hess 2005] Hess, Michael (2005). Einführung in die Computerlinguistik I: Interaktives Vorlesungsskript WS 2004/2005 , Arbeitsmaterial. 119, 122, 142
[Hopcroft et al. 2002] Hopcroft, John E., R. Motwani und J. D. Ullman (2002). Einführung in die Automatentheorie, Formale Sprachen und Komplexitätstheorie. Pearson Studium, München, 2. überarbeitete Aufl. 141
[Hutchins und Somers 1992] Hutchins, W. John und H. L. Somers (1992). An introduction to machine translation. Academic Press, London [etc.]. 94
[ICL 2007a] ICL (2007a). Informationen zur Leistungsüberprüfung für Bachelorstudierende,
Arbeitsmaterial. 11
[ICL 2007b] ICL (2007b). Informationen zur Leistungsüberprüfung für Lizentiatsstudierende,
Arbeitsmaterial. 11
[Irvine 2003] Irvine, A. D. (2003). Russell’s Paradox (Stanford Encyclopedia of Philosophy), http://plato.stanford.edu/entries/russell-paradox/ [cited Mittwoch, 17. Januar
2007]. 126
[Jurafsky und Martin 2000] Jurafsky, Daniel und J. H. Martin (2000). Speech and
Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall. 18, 84
[Jurafsky und Martin 2008] Jurafsky, Daniel und J. H. Martin (2008). Speech and
Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, 2. Aufl. 121
[Kallmeyer 2005] Kallmeyer, Laura (2005). Part I: Lexicalized Tree Adjoining Grammars
(LTAG), http://www.sfb441.uni-tuebingen.de/~lk/TAG-SEMINAR/ext-cfg.pdf. 142
169
[Kassensturz 2006] Kassensturz (2006). Sendung Kassensturz vom 10. Oktober , Arbeitsmaterial. 12
[Kay und Roscheisen 1993] Kay, Martin und M. Roscheisen (1993). Text-Translation
Alignment, Computational Linguistics, 19(1):121–142, http://www.aclweb.org/anthology/
J93-1006.pdf. 97
[Knight 1997] Knight, Kevin (1997). Automatic Knowledge Acquisition for Machine Translation, Arbeitsmaterial. 123
[Kupiec et al. 1995] Kupiec, Julian, J. Pedersen und F. Chen (1995). A Trainable Document Summarizer , In: Proceedings of the 18th Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval , S. 68–73, Seattle, Washington. 75
[Liberman und Church 1992] Liberman, Mark und K. W. Church (1992). Text Analysis and Word Pronunciation in Text-to-Speech Synthesis, In: Furui, Sadaoki und M. M.
Sondhi, Hrsg.: Advances in Speech Signal Processing, S. 791–832. Marcel Dekker, New York.
81
[Linke et al. 2001] Linke, Angelika, M. Nussbaumer und P. R. Portmann, Hrsg. (2001).
Studienbuch Linguistik . Niemeyer, Mit interaktivem Lernprogramm auf CD-ROM. 20
[Locke und Booth 1955] Locke, William N. und A. Booth, Hrsg. (1955). Machine translation of languages: fourteen essays. Technology Press. 116, 171
[Luhn 1958] Luhn, Hans Peter (1958).
Automatic Creation of Literature Abstracts,
IBM Journal of Research & Development, 2(2):159–165, http://de.wikipedia.org/wiki/
Extraktionsalgorithmus_nach_Luhn. 75
[MARY 2006] MARY, Male (2006). Hörbeispiel Sprachsynthese: Emotionaler Fussballreporter , Arbeitsmaterial. 90
[Matthews 1998] Matthews, Clive (1998). An Introduction to Natural Language Processing
through Prolog. Longman, London. 162
[Mehler und Wolff 2005] Mehler, Alexander und C. Wolff (2005). Einleitung: Perspektiven und Positionen des Text Mining, LDV Forum, 20:1–18, Arbeitsmaterial. 72
[Melby 2001] Melby, Alan K. (2001). Translation, Theory and Technology Homepage, http:
//www.ttt.org/theory/mt4me/mtambiguity.html. 111, 112
[Müller 1994] Müller, Stefan (1994). Prolog und Computerlinguistik: Teil I - Syntax , http:
//www.cl.uni-bremen.de/~stefan/PS/prolog.pdf. 152
[Oberhauser und Labner 2003] Oberhauser, Otto und J. Labner (2003). OPACErweiterung durch automatische Indexierung: Empirische Untersuchung mit Daten aus
dem Österreichischen Verbundkatalog, In: ODOK ’03 : 10. Österreichisches OnlineInformationstreffen ; 11. Österreichischer Dokumentartag. 68, 69
[ORF 2007a] ORF (2007a). Hörbeispiel 1: Sprechender Fahrplan Salzburg, http://salzburg.
orf.at/magazin/leben/stories/73906/, Arbeitsmaterial. 90
[ORF 2007b] ORF (2007b). Hörbeispiel 3: Sprechender Fahrplan Salzburg, http://salzburg.
orf.at/magazin/leben/stories/73906/, Arbeitsmaterial. 90
170
[Palmer 2000] Palmer, David D (2000). Tokenisation and Sentence Segmentation, In: Dale,
Robert, H. Moisl und H. Somers, Hrsg.: Handbook of natural language processing, S. 11–
35. New York. 45
[Pierce et al. 1966] Pierce, John R, J. B. Carroll, E. P. Hamp, D. G. Hays, C. F.
Hockett, A. G. Oettinger und A. Perlis, Hrsg. (1966). Language and Machines: Computers in Translation and Linguistics. National Academy of Sciences, http://darwin.nap.
edu/html/alpac_lm/ARC000005.pdf. 92
[Plaehn 1998] Plaehn, Oliver (1998). ANNOTATE: Bedienungsanleitung, Arbeitsmaterial.
26
[Plaehn 2000] Plaehn, Oliver (2000). ANNOTATE v3.6 – Quick Reference, Arbeitsmaterial. 26
[Pyysalo 2008] Pyysalo, Sampo (2008). A Dependency Parsing Approach to Biomedical
Text Mining, Department of Information Technology; TUCS, http://oa.doria.fi/handle/
10024/39934. 61, 62
[Raggett 2001] Raggett, Dave (2001).
http://www.w3.org/Voice/Guide/. 90
Dave Raggett’s Introduction to VoiceXML 2.0 ,
[Referenzkarte 2007] Referenzkarte (2007). Referenzkarte zum Annotieren, Arbeitsmaterial. 26
[Roth 2006] Roth, Sandra (2006). OLAT-Hinweise Studierende, Arbeitsmaterial. 9
[Salton 1988] Salton, Gerard (1988). Automatic text processing : the transformation, analysis, and retrieval of information by computer . Addison-Wesley, Reading, Mass. 71
[Schiller et al. 1999] Schiller, Anne, S. Teufel und C. Stöckert (1999). Guidelines für
das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset), http://www.ims.
uni-stuttgart.de/projekte/corplex/TagSets/stts-1999.pdf. 22, 26
[Schmid 2006] Schmid, Helmut (2006). TreeTagger , http://www.ims.uni-stuttgart.de/
projekte/corplex/TreeTagger/DecisionTreeTagger.html. 39
[Shieber 1985] Shieber, Stuart M. (1985). Evidence Against the Context-Freeness of Natural Language, Linguistics and Philosophy, 8:333–343, Reprinted in Walter J. Savitch, Emmon Bach, William Marsh, and Gila Safran-Navah, eds., The Formal Complexity of Natural Language, pages 320–334, Dordrecht, Holland: D. Reidel Publishing Company, 1987.,
http://www.eecs.harvard.edu/~shieber/Biblio/Papers/shieber85.pdf. 142
[Shieber 1992] Shieber, Stuart M. (1992). Constraint-Based Grammar Formalisms. MIT
Press, http://mitpress.mit.edu/catalog/item/default.asp?tid=5840&ttype=2. 158
[Simmons 2006a] Simmons (2006a).
Hörbeispiel ToBi: Bloomingdales, http://anita.
simmons.edu/~tobi/chap2-7/chapter2-7.htm, Arbeitsmaterial. 7, 84
[Simmons 2006b] Simmons, Anita (2006b). Sound-Datei zu Beispielsatz ”There ‘s a lovely
one in Bloomingdale.“, http://anita.simmons.edu/~tobi/chap2-7/bloomingdales1.wav,
Arbeitsmaterial. 83
171
[Steiner 2003] Steiner, Petra (2003).
Das revidierte Münsteraner Tagset /
Deutsch (MT/D). Beschreibung, Anwendung, Beispiele und Problemfälle, http:
//santana.uni-muenster.de/Publications/tagbeschr_final.ps. 22
[Stocker et al. 2004] Stocker, Christa, D. Macher, R. Studler, N. Bubenhofer,
D. Crevlin, R. Liniger und M. Volk (2004). Studien-CD Linguistik: Multimediale Einführungen und interaktive Übungen zur germanistischen Sprachwissenschaft, Max Niemeyer
Verlag, http://www.ds.unizh.ch/studien-cd. 22, 34
[Traunmüller 1997] Traunmüller, Hartmut (1997). Geschichte der Sprachsynthese,
http://www.ling.su.se/staff/hartmut/kempln.htm. 13
[Turing 1950] Turing, A. M. (1950). Computing Machinery and Intelligence, Mind,
59(236):433–460, http://cogprints.org/499/00/turing.html. 17
[Universitätsrat 2004] Universitätsrat (2004).
Richtlinie über die Umsetzung des
Bologna-Prozesses an der Universität Zürich, http://www.studienreform.unizh.ch/
dokumente/richtlinien.pdf. 10
[Volk und Schneider 1998] Volk, Martin und G. Schneider (1998). Comparing a statistical and a rule-based tagger for German, In: Proceedings of KONVENS-98 , S. 125–137,
Bonn. Arbeitsmaterial. 49
[Weaver 1955] Weaver, Warren (1955). Translation, In: [Locke und Booth 1955], S. 15–
23, http://www.mt-archive.info/Weaver-1949.pdf. 92
[Weisser 2005] Weisser, Martin (2005). Computational Philology, http://ell.phil.
tu-chemnitz.de/compPhil/intro.html [cited Mittwoch, 11. Oktober 2006]. 14
[Wikipedia 2006a] Wikipedia (2006a). Kognitionswissenschaft — Wikipedia, Die freie Enzyklopädie, [Online; Stand 25. Oktober 2006], http://de.wikipedia.org/w/index.php?title=
Kognitionswissenschaft&oldid=22344755. 17
[Wikipedia 2006b] Wikipedia (2006b). Loebner-Preis — Wikipedia, Die freie Enzyklopädie, [Online; Stand 25. Oktober 2006], http://de.wikipedia.org/w/index.php?title=
Loebner-Preis&oldid=22274242. 18
[Wikipedia 2007] Wikipedia (2007). Harmonic mean — Wikipedia, The Free Encyclopedia,
http://en.wikipedia.org/w/index.php?title=Harmonic_mean\&oldid=107249796. 59
172
Index
Übersetzung, computerunterstützt, 93
Übersetzung, maschinell, 93
Übersetzungsrichtung, 93
10-fache Kreuzvalidierung, 52
Epsilon, 139
Ersatzprobe, 27
Evaluation, 50
Existenzquantor, 127
Ableitung, 144
Ableitungsrelation, 145
Ableitungsrelation, direkt, 144
Adjektiv-Flexion, 26
Allquantor, 127
Alphabet, 139
Assimilation, 87
Attribut-Wert-Struktur, 148
Aussprachewörterbuch, elektronisch, 84
AVM, 148
F-Measure, 53
FAHQT, 101
Folge, endlich, 135
Funktion, 132
Genus, 24
Grad, 26
Grammatik, kontextfrei, 143
Graph, gerichtet, 138
Graph,zyklenfrei, 138
Grundfrequenzverlauf, 82
Baum, 138
Baum, Höhe eines, 138
Baum, markiert, gerichtet, 149
Blatt, 149
BLEU, 103
BOW, 69
HAMT, 98
IDF, 71
Idiom, 113
Index, 65
Indexieren, 65
Informationsextraktionssystem, 76
IOB-Chunks, 55
IPA, 16
IR, 64
CAT, siehe Übersetzung, computerunterstützt
Computerlinguistik, 12
Data-Mining, 72
DCG-Formalismus, 157
Definition, 127
Dependenz, 32
Dialogsystem
Conversational User Interface, 89
Interactive Voice Response System, 89
Kommandowortsystem, 89
Diphon, 86
Dokument als Menge von Indextermen, 69
Dolmetschen, maschinell, 93
Junktur, 87
Kardinalität, 129
Kasus, 24
Kern, 31
Knoten, innerer, 149
Koartikulation, 87
Kognitionswissenschaft, 17
Kollokation, 113
Komparation, siehe Grad
Kongruenz, 160
Konkatenation, 140
Konstituente, 30
Konstituentenanalyse, 30
Editierdistanz, minimal, 88
Einsetzprobe, 28
Elementbeziehung, 125
173
Potenzmenge, 128
Präedition, 100
Pragmatik, 17
Precision, 52
Probe, linguistisch, 27
Produkt, von Relationen, 137
Konstituenz, 30
Koordination, 32
Kopf, 31
Korpus, tokenisiert, 136
Kreuzprodukt, 130
leere Sprache, 140
Lemma, 21
Levenshtein Editierdistanz, siehe Editierdistanz, minimal
Lexem, 21
Lexemverband, 21
Linguistik, 15
Qualität einer Evaluation, 50
Quellsprache, 93
Recall, 52
Regeln, phonologisch, 86
regulärer Ausdruck, 39
Rektion, 161
Relation, binär, 130
Relationskomposition, 137
Reliabilität, 50
Retrievalmodell, Boolsch, 69
MAHT, 94
Menge, 124
Menge, Leer, 128
Mengenaufzählung, 124
Mengencharakterisierung, 125
Mengengleichheit, 127
Merkmal, morphologisch, 23
Merkmalstruktur, 148
Merkmalstruktur, als Graph, 150
Merkmalstrukturunifikation, 155
Modus, 25
Morphologie, 16
MT, siehe Übersetzung, maschinell
Satz, 30
Satz, formal, 145
Satzkompression, 76
Schallwellen, 82
Semantik, 17
Sigma, 139
Silbentrennung, 44
SL, siehe Quellsprache
Sprache, formal, 145
Spracherkennungssystem, 87
Sprachsynthesesystem, 80
Sprachtechnologie, 13
Subsumtion, 154
Syntaktische Funktion, 32
Syntax, 16
n-Tupel, 131
Named Entity Regonition, 44
NER, 44
Numerus, 24, 26
Objektgleichheit, 125
Oronym, 87
Tag-Set, 46
Tagging-Genauigkeit, 51
Tempus, 25
Termhäufigkeit, siehe TF
Termhäufigkeit, inverse, siehe IDF
Text-Mining, 72
Text-Segmentierung, 37
Textextraktion, 74
Textklassifikation, 78
Textzusammenfassung, 74
TF, 71
TL, siehe Zielsprache
Token, 20
TTS, siehe Sprachsynthesesystem
Paar, geordnet, 129
Paradoxie, Russelsche, 126
partielle syntaktische, 54
PATR-II, 158
Person, 25
Pfad, 138
Pfad, einfach, 138
Pfad, in Merkmalstruktur, 151
Pfad, vollständig, 151
Phonem, 16
Phonetik, 16
Phonologie, 16
Postedition, 100
174
Umformungsprobe, 29
Unifikationsgrammatik, 157
Valenz, 161
Validität, 50
Verschachtelte Chunks, 56
Verschiebeprobe, 29
Volltextsuche, klassisch, 64
Weglassprobe, 28
WER, siehe Wortfehlerrate
Wert eines Pfades, 152
Wert, Merkmalstruktur, 149
Wort, 19, 139
Wort,syntaktisch, 20
Wortarten, 21
Wortarten-Tagger, 46
Wortfehlerrate, 88
Wortform, 20
XML-Standard, 41
Zeichenkette, 139
Zeichenkette, leer, 139
Zielsprache, 93
Zyklus, 138
175