Einführung in die Computerlinguistik I
Transcription
Einführung in die Computerlinguistik I
Vorlesungsskript ∗ Einführung in die Computerlinguistik I Institut für Computerlinguistik Universität Zürich http://www.cl.uzh.ch Interaktive Lerneinheiten zur Vorlesung http://www.cl.uzh.ch/ict-open/clabis?vl=ecl1 Simon Clematide [email protected] Schriftliche Übungen: Rico Sennrich Rico.Sennrich @ access.uzh.ch Herbstsemester 2008 Version von 18. Dezember 2008 ∗ PDF-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/script.pdf HTML-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.html OLAT-Url: https://www.olat.uzh.ch/olat/auth/repo/go?rid=511836166&guest=true&lang=de Inhaltsverzeichnis 1 Organisatorisches 1.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Was ist CL? 2.1 Motivation . . . . . . . . . . . 2.2 Fachrichtungen . . . . . . . . 2.2.1 Computerlinguistik . . 2.2.2 Sprachtechnologie . . . 2.2.3 Weiteres . . . . . . . . 2.2.4 Anliegen . . . . . . . . 2.3 Nachbardisziplinen . . . . . . 2.3.1 Linguistik . . . . . . . 2.3.2 Kognitionswissenschaft 2.4 Krux . . . . . . . . . . . . . . 2.5 Vertiefung . . . . . . . . . . . 9 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 12 12 13 13 15 15 15 17 18 18 3 Linguistisches Propädeutikum I 3.1 Wort . . . . . . . . . . . . . . . . . . 3.1.1 Definition . . . . . . . . . . . 3.1.2 Token . . . . . . . . . . . . . 3.1.3 Wortform . . . . . . . . . . . 3.1.4 synt. Wort . . . . . . . . . . . 3.1.5 Lexem . . . . . . . . . . . . . 3.2 Wortarten . . . . . . . . . . . . . . . 3.2.1 5 Hauptwortarten nach Glinz 3.2.2 STTS . . . . . . . . . . . . . 3.3 Morphologische Merkmale . . . . . . 3.3.1 Genus . . . . . . . . . . . . . 3.3.2 Zahl . . . . . . . . . . . . . . 3.3.3 Kasus . . . . . . . . . . . . . 3.3.4 Modus . . . . . . . . . . . . . 3.3.5 Zeit . . . . . . . . . . . . . . 3.3.6 Person . . . . . . . . . . . . . 3.3.7 Grad . . . . . . . . . . . . . . 3.3.8 Flexion . . . . . . . . . . . . 3.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 19 20 20 20 21 21 21 22 23 24 24 24 25 25 25 26 26 26 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Linguistisches Propädeutikum II 27 4.1 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1.1 Ersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1.2 Einsetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 29 29 30 30 30 31 32 33 34 34 35 36 5 Tokenisierung 5.1 Tokenisierer . . . . . . . . . . 5.1.1 Grundproblem . . . . 5.1.2 Kodierung . . . . . . . 5.1.3 Markup . . . . . . . . 5.1.4 Programme . . . . . . 5.2 XML . . . . . . . . . . . . . . 5.3 Tokenisierung . . . . . . . . . 5.3.1 Problem . . . . . . . . 5.3.2 Punktdesambiguierung 5.3.3 Normalisierung . . . . 5.3.4 NER . . . . . . . . . . 5.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 37 37 38 38 41 42 42 42 43 44 45 6 Flache Satzverarbeitung 6.1 Tagging . . . . . . . . . . . . . . . . . . . 6.1.1 Probleme . . . . . . . . . . . . . . 6.2 Evaluation . . . . . . . . . . . . . . . . . . 6.2.1 Zweck . . . . . . . . . . . . . . . . 6.2.2 Accuracy . . . . . . . . . . . . . . 6.2.3 Lernkurven . . . . . . . . . . . . . 6.2.4 Recall . . . . . . . . . . . . . . . . 6.2.5 Precision . . . . . . . . . . . . . . 6.2.6 F-Measure . . . . . . . . . . . . . . 6.3 Chunking . . . . . . . . . . . . . . . . . . 6.3.1 Abney . . . . . . . . . . . . . . . . 6.3.2 IOB-Chunk . . . . . . . . . . . . . 6.3.3 Verschachtelte Chunks . . . . . . . 6.4 Vertiefung . . . . . . . . . . . . . . . . . . 6.5 Exkurs: Evaluation binärer Klassifikatoren 6.5.1 TP:FP:FN:TN . . . . . . . . . . . 6.5.2 Fehlerparadoxe . . . . . . . . . . . 6.5.3 Unterschiede . . . . . . . . . . . . 6.5.4 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 46 48 50 51 51 52 52 52 53 53 55 55 56 56 57 57 57 58 58 4.2 4.3 4.4 4.5 4.1.3 Weglassen . . 4.1.4 Verschieben . 4.1.5 Umformen . . Satz . . . . . . . . . Syntaxanalyse . . . . 4.3.1 Konstituenz . 4.3.2 Köpfe . . . . 4.3.3 Dependenz . 4.3.4 Satzglieder . Baumbanken . . . . 4.4.1 NEGRA . . . 4.4.2 TIGERSearch Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 6.5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 7 Volltextsuche und Text Mining 7.1 Informationsflut . . . . . . . 7.1.1 Suchdilemma . . . . 7.2 Volltextsuche . . . . . . . . 7.2.1 Indexieren . . . . . . 7.2.2 Architektur . . . . . 7.2.3 Retrieval . . . . . . . 7.2.4 Relevanz . . . . . . . 7.3 Text-Mining . . . . . . . . . 7.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 61 61 64 65 68 69 71 72 72 8 Kondensation und Klassifikation 8.1 Zusammenfassung . . . . . 8.1.1 Modell . . . . . . . . 8.1.2 Terminologie . . . . 8.1.3 Ansätze . . . . . . . 8.2 IE . . . . . . . . . . . . . . 8.2.1 IE vs. IR . . . . . . 8.2.2 Klassische IE . . . . 8.3 Klassifikation . . . . . . . . 8.3.1 Kategorisieren . . . 8.3.2 Clustering . . . . . . 8.4 Vertiefung . . . . . . . . . . von Texten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 74 74 74 75 76 77 77 78 78 79 79 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Sprachsynthese und Spracherkennung 9.1 Sprachsynthese . . . . . . . . . . . 9.1.1 Architektur . . . . . . . . . 9.1.2 Probleme . . . . . . . . . . 9.1.3 Analyseebenen . . . . . . . 9.2 Spracherkennung . . . . . . . . . . 9.2.1 Probleme . . . . . . . . . . 9.2.2 Worthypothesengraph . . . 9.2.3 Wortfehlerrate . . . . . . . 9.3 Dialogsysteme . . . . . . . . . . . . 9.3.1 Typen . . . . . . . . . . . . 9.3.2 VoiceXML . . . . . . . . . . 9.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 80 81 81 84 87 87 88 88 89 89 89 90 10 Maschinelle Übersetzung I 10.1 Einführung . . . . . . 10.1.1 Altes Problem . 10.1.2 Alter Traum . 10.1.3 Neuer Traum . 10.2 Terminologie . . . . . 10.2.1 MT . . . . . . 10.2.2 CAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 91 91 91 92 93 93 93 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 10.2.3 MAHT . 10.2.4 HAMT . 10.2.5 FAHQT 10.3 Evaluation . . . 10.3.1 BLEU . 10.3.2 Parallele 10.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Baumbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 98 101 102 103 106 106 11 Maschinelle Übersetzung II 11.1 Probleme der Übersetzung . . . . 11.1.1 Mehrdeutigkeit . . . . . . 11.1.2 Idiome und Kollokationen 11.1.3 Sprachbau . . . . . . . . . 11.2 Ansätze . . . . . . . . . . . . . . 11.2.1 Direkt . . . . . . . . . . . 11.2.2 Transfer . . . . . . . . . . 11.2.3 Interlingua . . . . . . . . 11.2.4 Kombination . . . . . . . 11.3 SMT . . . . . . . . . . . . . . . . 11.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 108 108 113 114 116 117 118 120 120 121 122 I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 124 129 132 12 Formales Propädeutikum 12.1 Mengen . . . . . . . 12.2 Relationen . . . . . . 12.3 Funktionen . . . . . . . . . . . . 13 Formales Propädeutikum II 13.1 Indexnotationen . . . . . . 13.2 Hüllen . . . . . . . . . . . 13.3 Graphen . . . . . . . . . . 13.4 Formale Sprachen . . . . . 13.4.1 Sprache als Menge 13.4.2 Konkatenation . . 13.4.3 Grammatiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 135 136 138 139 139 140 141 14 Formales Propädeutikum 14.1 Merkmalstrukturen . 14.1.1 Motivation . 14.1.2 Rekursiv . . . 14.1.3 Als Graphen 14.2 Pfade und Werte . . 14.2.1 Koreferenz . . 14.3 Unifikation . . . . . 14.3.1 Motivation . 14.3.2 Subsumtion . 14.3.3 Unifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 147 147 148 149 151 152 153 153 154 155 III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Syntaktische Analyse 156 15.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 5 15.2 Unifikationsgrammatik . 15.2.1 Formalismen . . 15.2.2 Kongruenz . . . . 15.2.3 Rektion . . . . . 15.3 Analysen . . . . . . . . . 15.3.1 Verbalkomplex . 15.3.2 Satzfragen . . . . 15.3.3 Ergänzungsfragen 15.3.4 Gaps . . . . . . . 15.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 157 160 161 162 162 162 163 163 165 16 Literaturverzeichnis 166 Index 172 6 Abbildungsverzeichnis 2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.1 4.2 4.3 4.4 4.5 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung Konstituenz, Dominanz und Präzedenz in Balken-Darstellung . Syntaktische Funktionen in Balken-Darstellung . . . . . . . . . Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 31 33 33 34 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 Training, Tagging und Evaluation mit dem TnT-Tagger . . . . Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . . Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schmid Schmid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 49 53 54 54 55 59 60 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 In PubMed erfasste wiss. Artikel (2008 unvollständig) . . . . Suchoption für Inhaltsverzeichnis . . . . . . . . . . . . . . . . Eingescanntes Inhaltsverzeichnis . . . . . . . . . . . . . . . . OCR und Frakturschrift . . . . . . . . . . . . . . . . . . . . . Sachbegriff-Indexierung im NEBIS . . . . . . . . . . . . . . . Sachbegriff und Varianten im NEBIS . . . . . . . . . . . . . Textuelle Zusatzinformation im NEBIS . . . . . . . . . . . . Automatisches Indizieren von OPAC-Informationen: Gut . . . Automatisches Indizieren von OPAC-Informationen: Schlecht Generelle Architektur von IR-Systemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 63 63 64 65 66 66 68 69 70 8.1 8.2 8.3 8.4 8.5 8.6 Wordle . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundmodell des inhaltsbasierten Textzusammenfassen Telegraphische Verkürzungstechnik . . . . . . . . . . . Information-Retrieval . . . . . . . . . . . . . . . . . . . Information-Extraction . . . . . . . . . . . . . . . . . . Beispiel eines typischen IE-Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 74 75 77 77 78 9.1 9.2 9.3 9.4 9.5 Architektur von MARY-TTS-System . . . . . . . . . . . . . . . . . . . Satzintonation im Deutschen . . . . . . . . . . . . . . . . . . . . . . . Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a]) IPA-Symbole für Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 83 84 85 88 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.6 9.7 Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1 Automatisierungsgrade der Übersetzung . . . . . . . . . . . 10.2 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . 10.3 Beispiel: Fuzzy-Match mit 81% Übereinstimmung . . . . . . 10.4 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . 10.5 Parametrisierung der Alignierung bei SDL Trados WinAlign 10.6 Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign 10.7 Export der Alignierung als TM . . . . . . . . . . . . . . . . 10.8 Terminologie-Verwaltung mit Termbase . . . . . . . . . . . 10.9 “Rohübersetzung” von erkannter Terminologie . . . . . . . . 10.10Filmuntertitel sind kurz! . . . . . . . . . . . . . . . . . . . . 10.11Korrelation von menschlichen und BLEU-Bewertungen . . . 10.12Paralleler Syntaxbaum DE-EN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 95 95 96 98 99 99 100 101 101 106 107 11.1 11.2 11.3 11.4 11.5 11.6 11.7 11.8 Situationen zu “The pen was in the box” . . . . . . . . . . . . . . Situationen zu “The box was in the pen” . . . . . . . . . . . . . . Transfer-Übersetzung im Bild . . . . . . . . . . . . . . . . . . . . Transfer-Übersetzung im Detail . . . . . . . . . . . . . . . . . . . Transfer-Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lexikalische Überschneidungen nach Somers . . . . . . . . . . . . Verbindung von direkter, Transfer- und Interlingua-Übersetzung . Fluency und Faithfullness in SMT nach [Al-onaizan et al. 1999] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 112 118 119 119 121 121 122 12.1 12.2 12.3 12.4 12.5 12.6 Faksimile der Bestimmung des Mengenbegriffs bei Georg Cantor . Pfeildiagramm einer partiellen Funktion . . . . . . . . . . . . . . Pfeildiagramm einer surjektiven Funktion . . . . . . . . . . . . . Pfeildiagramm einer injektiven Funktion . . . . . . . . . . . . . . Pfeildiagramm einer bijektiven Funktion . . . . . . . . . . . . . . Übersicht: Eigenschaften von Relationen und Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 132 132 132 133 133 . . . . . . . . . . . . . . . . . . 89 90 13.1 Baumdarstellung eines Baum-Graphen . . . . . . . . . . . . . . . . . . . . . . . . 139 13.2 Teilmengenbeziehungen der Sprachklassen von Chomsky . . . . . . . . . . . . . . 142 13.3 Beispiel für Linksderivation und Parsebaumkonstruktion . . . . . . . . . . . . . . 144 14.1 14.2 14.3 14.4 14.5 14.6 F-Struktur als Merkmalstruktur in XLE . . . . . . Merkmalstruktur als gerichteter Baum . . . . . . . Merkmalstruktur als gerichteter Baum . . . . . . . Kästchennotation . . . . . . . . . . . . . . . . . . . Koreferente Merkmalstruktur als Matritze . . . . . Koreferente Merkmalstruktur als gerichteter Graph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 150 151 151 153 153 15.1 Annotation von Wh-Fragen in der Penn-Treebank . . . . . . . . . . . . . . . . . . 164 15.2 NEGRA-Baum mit überkreuzenden Kanten . . . . . . . . . . . . . . . . . . . . . 165 15.3 NEGRA-Baum mit Lücken und koindizierten Lückenfüllern . . . . . . . . . . . . 165 8 1 Organisatorisches 1.1 Organisatorisches Konzept und Inhalt der Vorlesung • “Einführung in die Computerlinguistik I (+ II)” vermittelt die wichtigsten praktischen und theoretischen Ziele der Computerlinguistik in Übersicht. • Vorgestellt werden beispielhafte Systeme, Anwendungen wie Textsegementierung, maschinelle Übersetzung, Sprachsynthese- und erkennung, Textsuche und -mining, Informationsextraktion und Textzusammenfassung, sowie Grundlagen, Methoden und Probleme der automatischen Syntaxanalyse von Sprachen. • Im Kurs integriert sind zwei Propädeutika (Vorkurse), wo das notwendige linguistische und formale Wissen vermittelt wird. Kurs-Leitseite im WWW und Lehrmaterialien OLAT-Kurs namens “CL_08_HS_ECL 1”: Merkblatt zum Einstieg in OLAT [Roth 2006] • https://www.olat.uzh.ch/olat/auth/repo/go?rid=769720321 • Folienskript im 4-up-Format (farbige und SW-Version) als PDF-Dokument unter “Vorlesungsunterlagen” • Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index und kleinen Ergänzungen http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script. html Unser Kursbuch (wichtig: 2. Auflage anschaffen): • Carstensen et al. Hgg. (2004): Computerlinguistik und Sprachtechnologie: Eine Einführung. Elsevier, München, 2004. ISBN 3-8274-1407-5. Lehren und Lernen Commitments • Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten. • Wir brauchen Ihre Rückmeldung, um suboptimale Elemente unserer Lehrarbeit zu verbessern. • Sie engagieren sich, die für ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden. • Sie brauchen unsere Rückmeldung, um suboptimale Elemente Ihrer Lernarbeit und Ihres Lernerfolgs zu verbessern. 9 12 schriftliche Übungen (SU) • Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach: 33% der Schlussnote • Optional (Wahlmöglichkeit bis in 4. Woche) für Lizentiats-Studierende: 33% der Note der Teilakzessprüfung • Bestanden/Nicht-Bestanden-System pro SU • Benotung: 6 (10-12 SU); 5.5 (9 SU); 5 (8 SU); 4.5 (7 SU); 4 (6 SU); 3.5 (5 SU); 3 (4 SU); 2.5 (3 SU); 2 (2 SU); 1.5 (1 SU); 1 (0 SU) • Keine (!) Musterlösungen, dafür Vor- und Nachbesprechung, Frage- und Diskussionsgelegenheit in Übungsstunde und auf OLAT • Übungsstunden bei Rico Sennrich am Freitag 10.15-11.45h (!) im Raum BIN 0.B.04 • Start in der 2. Semesterwoche • Abgabe der letztwöchigen Übungen und Ausgabe der neuen Übungen jeweils am Mittwoch 18h Hochrechnung zum Workload für 4 ECTS-Punkte “Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berücksichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14, Abs. 2) [Universitätsrat 2004] • 1 ECTS-Punkt der Uni Zürich = 30h geistige Arbeit • Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung: 2 × 14 × 2h = 56h • Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvorbereitung: 120h − 56h − 1h = 4.5h 14 • Mindestens 1h, um uns mitzuteilen, was wir verbessern sollen. . . E-Learning CLab Teile der Vorlesung und Übungen werden durch Lerneinheiten aus unserem interaktiven, webbasierten Computerlinguistik-Laboratorium (CLab) unterstützt. http://www.cl.uzh.ch/clab Applikationen auf CL-UNIX-Servern Für gewisse Übungen oder zur Vertiefung sind gewisse CL-Applikationen auf unseren Servern empfohlen. Von den Computern in den Übungsräumen aus sind diese problemlos nutzbar. Wer die Übungsstunde nicht besuchen kann, braucht dazu VPN (Virtual Private Network), SSH (Secure Shell bzw. Putty) und einen X11-Klienten. Einführung dazu in der 1. Semesterwoche (Einführung in OLAT und Installationssupport durch Fachschaft Freitag, 19.9.08 ab 12.15h BIN 0.B.04) oder via Anleitungen. 10 Schriftliche Prüfung • Zeit: Donnerstag, 15.1.09, von 16.15 - 17.45h • Dauer: 90 Minuten • Stoff: Skript, Übungen, Pflichtlektüren • Bitte das für Sie gültige Infoblatt zur Leistungsüberprüfung genau lesen! [ICL 2007b, ICL 2007a] 11 2 Was ist CL? Lernziele • Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie und Linguistik • Kenntnis der zentralen Anliegen der modernen Computerlinguistik • Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welche mit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind • Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte (Pflichtlektüre) • Kenntnis der Krux der Sprachverarbeitung 2.1 Motivation CL-haltige Produkte im (Computer-)Alltag • Textverarbeitung (Rechtschreibe- und Grammatikkorrektur) • Elektronische Wörterbücher (Thesauri) • Automatische Übersetzung • Recherchen im WWW • Auskunftssysteme (z.B. [Kassensturz 2006]) • ... 2.2 Fachrichtungen 2.2.1 Computerlinguistik Was ist CL? Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) ist eine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sich mit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt. Frage Ist das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendung von CL? Frage Ist die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804) eine frühe Anwendung von CL? 12 Sprachsynthese nach Kempelen Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine” (1791) [Traunmüller 1997] 2.2.2 Sprachtechnologie Was ist Sprachtechnologie? Definition 2.2.2. Sprachtechnologie beschäftigt sich mit der praxis- und anwendungsbezogenen, ingenieursmässig konzipierten Entwicklung von Sprachsoftware. 2.2.3 Weiteres Verwandte/Alternative Fachbezeichnungen Deutsch Linguistische Datenverarbeitung (LDV) Maschinelle Sprachverarbeitung Automatische Sprachverarbeitung (ASV) Computerphilologie Sprachtechnologie Texttechnologie Korpuslinguistik Medieninformatik Linguistische Informatik Informationslinguistik Englisch Linguistic and Literary Computing (LLC) Natural Language Processing (NLP) (Natural) Language Engineering (NLE) Computational Philology Speech Processing Human Language Technology (HLT) Text Technology Corpus Linguistics 13 QUIZ: Was ist was? [Weisser 2005] Frage 1: Welche Fachrichtung wird hier beschrieben? The use and possibly also compilation of computer-based text materials to investigate linguistic phenomena and ways of teaching about language. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 2: Welche Fachrichtung wird hier beschrieben? The compilation, annotation and use of written and spoken corpora for the investigation of linguistic phenomena, mainly by means of easy to use software. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 3: Welche Fachrichtung wird hier beschrieben? The automated analysis and modelling of language by means of sophisticated programming techniques. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 4: Welche Fachrichtung wird hier beschrieben? The creation and application of corpora for use in computer-based systems, such as speech recognition engines, translation systems, etc. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics 14 Schwerpunkte der verwandten Disziplinen • Symbolische, logikbasierte vs. statistische, probabilistische Methoden • Anwendungs- vs. Theorieorientierung • Algorithmisierung als Proof-Of-Concept (“Kann man sowas überhaupt?” vs. effiziente (kommerziell einsetzbare) Systeme • Hilfswissenschaft vs. eigenständige Forschung • Gesprochene vs. verschriftlichte Sprache (Text) • Psychologische/Neurologisch Plausibilität vs. ingenieurmässige Lösung 2.2.4 Moderne Computerlinguistik 4 zentrale Anliegen der modernen Computerlinguistik • Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf dem Computer • Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grundformen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikalischen Ressourcen (Lexika) • Entwicklung realistischer und technologisch fortschrittlicher Anwendungen • Entwicklung und Durchführung von Evaluationen sprachverarbeitender Systeme und Komponenten 2.3 Nachbardisziplinen Nachbardisziplinen in Übersicht • Linguistik: formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpuslinguistik für empirische Basis • Informatik: praktische und theoretische Informatik (Was lässt sich mit welchem Formalismus wie effizient berechnen?); Künstliche Intelligenz • Kognitionswissenschaft • Logik und Philosophie • Mathematik: Mengenlehre (Funktionen, Relationen, Graphen) und Statistik 15 2.3.1 Linguistik Linguistik Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). Die Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Semantik und Pragmatik. Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitäten und hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest. Lautlehre: Phonetik und Phonologie Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasst die artikulatorische, akustische und auditive Ebene. Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist die Lehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaften Eigenschaften und Beziehungen. Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung). 1. Dieb /di:p/ 2. Diebe /di:b@/ Exkurs: Internationales Phonetisches Alphabet (IPA) Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schriftliches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. Die IPA-Notationen für die Laute des Standarddeutschen sind in [Carstensen et al. 2004, 156] erklärt. Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alle Schriftsysteme der Welt wiedergeben können will. Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- und Kleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute und andere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin: di:b@. Wortlehre: Morphologie Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Struktur der Wörter und ihrer Bildung. Beispiel 2.3.6 (Flexion). 1. Dieb#e Dieb-Plural “Mehr als ein Dieb”. 2. Dieb#e Dieb-Dativ “dem Dieb” 16 Satzlehre: Syntax Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Aufbau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen. Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit). 1. Der gewitzte Dieb stahl den Diamanten. 2. *Der Dieb gewitzte stahl den Diamanten. 3. *Den gewitzten Dieb stahl den Diamanten. Bedeutungslehre: Semantik Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter (lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten (Diskurssemantik). Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit). 1. Die Polizei beschlagnahmte das Diebesgut. 2. Das Diebesgut beschlagnahmte die Polizei. 3. Das Diebesgut wurde von der Polizei beschlagnahmt. 4. [Die Polizei fasste die Täter.] Sie beschlagnahmte das Diebesgut. Lehre von der Sprachverwendung: Pragmatik Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungen von Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation in der Welt. Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit). 1. Ist das Fenster auf? 2. Bitte schliessen Sie das Fenster! 2.3.2 Kognitionswissenschaft Kognitionswissenschaft Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäre Erforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguistik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Lernen, Motorik und Sprache gezählt. Geschichte der Kognitionswissenschaft Exzellenter Artikel in [Wikipedia 2006a] 17 Turing-Test: Können Maschinen denken? Turing-Test im Original [Turing 1950] The new form of the problem can be described in terms of a game which we call the ’imitation game’. It is played with three people, a man (A), a woman (B), and an interrogator (C) who may be of either sex. The interrogator stays in a room apart front the other two. The object of the game for the interrogator is to determine which of the other two is the man and which is the woman. He knows them by labels X and Y, and at the end of the game he says either “X is A and Y is B” or “X is B and Y is A”. [. . . ] We now ask the question, “What will happen when a machine takes the part of A in this game?” Will the interrogator decide wrongly as often when the game is played like this as he does when the game is played between a man and a woman? These questions replace our original, “Can machines think?” Reale Turing-Tests Seit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welche den Turing-Test bestehen wollen. Preisträgersysteme lassen sich teilweise im WWW direkt ausprobieren. [Wikipedia 2006b] Das Ziel dieser Test lautet: Kann eine Maschine so antworten in einem Dialog, dass man sie nicht mehr von einem Menschen unterscheiden kann? 2.4 Die Krux der Mehrdeutigkeit Mehrdeutigkeit [Jurafsky und Martin 2000, 4] Beispiel 2.4.1. I made her duck. Einige Paraphrasen, d.h. Lesarten 1. I cooked waterfowl for her. 2. I cooked waterfowl belonging to her. 3. I created the (plaster?) duck she owns. 4. I caused her to quickly lower her head or body. 5. I waved my magic wand and turned her into undifferentiated waterfowl. Frage Auf welcher Ebene der linguistischen Analyse werden die Mehrdeutigkeiten aufgelöst (desambiguiert) in der Paraphrase? 2.5 Vertiefung • Pflichtlektüre [Carstensen et al. 2004, 1–23] • Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chatterbox Contests 2003) 18 3 Linguistisches Propädeutikum I Lernziele • Kenntnis der Begriffe Wort, Token, Lexem, Lemma, Lexemverband • Kenntnis der Wortartenlehre für Deutsch • Kenntnis der morphologischen Kategorien für Deutsch und Englisch • Kenntnis und Anwendung des Stuttgart-Tübingen-Tagsets (STTS) mit Hilfe der Referenzkarte • Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von Morphologie und Wortarten 3.1 Wort 3.1.1 Definition Wort Definition 3.1.1 (nach [Bußmann 1990]). Wort. Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind. Beispiel 3.1.2 (Was ist ein Wort?). 1. Sie wollte vor allem am 1. Spiel teilnehmen. 2. Sie nahm z.B. an dem 2. Spiel teil. 3. Das gibts doch nicht! 4. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit [. . . ] Präzisierungsversuche des Wort-Begriffs Sprachliche Ebenen zur Präzisierung des Wort-Begriffs • phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oder Knacklaut theoretisch isolierbares Lautsegment • orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit • morphologisch: Grundeinheit, welche flektierbar ist • lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist • syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes 19 Gängige Wortauffassungen [Linke et al. 2001] Wieviele verschiedene Wörter hat dieser Satz? Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach. Antworten 9 5 6 4 __ 3.1.2 Token Antwort 9: Wort als Vorkommen einer Wortform Wieviele verschiedene Wörter hat dieser Satz? Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen6 Fliegen7 Fliegen8 nach9 . Definition 3.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einem Text. Bemerkung In der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwort wäre dann . . . 3.1.3 Wortform Antwort 5: Wort als Wortform Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 . Definition 3.1.4 (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes. Beispiel 3.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung). • Die Fliege war tot. • Er trug eine samtene Fliege. • Fliege nicht so schnell! 3.1.4 Syntaktisches Wort Antwort 6: Wort als syntaktisches Wort Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen5 Fliegen4 Fliegen3 nach6 Definition 3.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortform kombiniert mit ihren morphosyntaktischen Merkmalen. Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normalerweise zusammengefasst. Beispiel 3.1.7 (Wortform vs. syntaktisches Wort). Die Wortform “Fliegen” kann mindestens 4 syntaktische Wörter repräsentieren: “Fliege” in Nominativ, Akkusativ, Dativ oder Genitiv Plural. 20 3.1.5 Lexem Antwort 5: Wort als Lexem Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 . Definition 3.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syntaktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus, Numerus, Tempus usw.) unterscheiden. Definition 3.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikographische Standard-Notation für ein Lexem. Beispiel 3.1.10 (Lexikographische Notationskonventionen im Deutschen). Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular repräsentiert. Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert? Antwort 4: Wort als Lexemverband Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 , fliegen3 Fliegen3 Fliegen3 nach4 . Definition 3.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eine Menge von Lexemen, welche den gleichen Wortstamm haben. Bemerkung Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Beispiel 3.1.12 (Satz als Menge von Lexemverbänden). Wie lässt sich die Menge der Wörter des Beispielsatzes in Mengennotation als Lexemverband darstellen? 3.2 Lehre von den Wortarten Wortarten nach [Bußmann 1990] Definition 3.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis der Klassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder semantischen Kriterien. Historisches [Gallmann und Sitta 2001] Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahrhundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemäss Adelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Pronomen, Artikel, Adverb, Präposition, Konjunktion, Interjektion, Numerale Mit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung durch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwendet. 3.2.1 5 Hauptwortarten nach Glinz Klassifikationskriterien Welcher Fachbegriff wäre präziser anstelle von “Wörter” in der Abbildung? 21 Abbildung 3.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004] 3.2.2 STTS Stuttgart/Tübingen-Tagset (STTS) • http://www.cl.uzh.ch/clab/hilfe/stts/ • Das Standard-Tagset des Deutschen [Schiller et al. 1999] (vergleichbar mit dem PennTreebank-Tagset für Englisch) • Wichtige linguistische Korpora wie NEGRA-Korpus oder TIGER-Korpus sind mit STTS annotiert. III • Frei verfügbare Werkzeuge zum automatischen Bestimmen von Wortarten (sogenannte “Tagger”) liefern mit STTS-Tags versehenen Output. • Eine Notationsvariante von STTS ist als europäischer Standard für Deutsch (EAGLES ELM-DE) [EAGLES 1996] spezifiziert worden. • Alternativen: Münsteraner Tagset [Steiner 2003] Besonderheiten von STTS • ‘Wortarten’ für satzinterne und -finale Interpunktion ($,, $. . . . ) • Kategorie für fremdsprachliches Material (FM) • Feine Aufgliederung bei Glinzschen Partikeln: Antwortpartikel (PTKANT), Negationspartikel (PTKNEG) usw.; Konjunktionen, Adverbien usw. • Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativpronomen (PDS) usw. 22 • Durchgängige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Pronomen): “Diese/PDAT Kuh muht.” vs. “Diese/PDS muht.” • Eigennamen sind eine semantisch definierte Klasse. QUIZ zu Wortarten Wo stecken in den folgenden Sätzen besondere Schwierigkeiten? Wieso? Er kannte ihn schon als kleines Kind. Die Wissenschaft selbst ist ein kompliziertes System. Ich habe noch nie solch eine Geschichte gehört. Er ist erkrankt. Auf der einen Seite ist es so, aber ... Der Mann, von dessen Vater das Buch handelt, ist ... Er kam plötzlich und ohne anzuklopfen herein. Er wartete bis um 5 Uhr. 3.3 Morphologische Merkmale Morphologische Kategorien und ihre Merkmale Definition 3.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologischen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Numerus, Person, Tempus, Modus und Komparation, welche durch die Flexion realisiert werden. Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems • Konjugation von Verben • Deklination von Nomen, Adjektiven, Artikeln und Pronomen • Steigerung von Adjektiven (und wenigen Adverbien) Diskussion: Sind steigerbare Adverbien ein Widerspruch im System? Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilung nicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einige Adverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten” . . . ). Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektive als Flexion betrachtet. Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, ist die Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus und komparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden. Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sind oder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann muss es wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein. Welche denn? 23 Fachbegriff Maskulinum Femininum Neutrum Unterspezifiziert Deutsch männlich weiblich sächlich n/a Englisch masculine feminine neuter n/a STTS Masc Fem Neut * Beispiel Elephant Gazelle Huhn Ferien Tabelle 3.1: Übersicht: Genera 3.3.1 Genus Das Genus (engl. gender ): Grammatisches Geschlecht Bemerkung Der Plural von Genus lautet Genera. Beispiel 3.3.2 (Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?). 3.3.2 Numerus Der Numerus (engl. number ): Grammatische Zahl Fachbegriff Singular Plural Deutsch Einzahl Mehrzahl Englisch singular plural STTS Sg Pl Beispiel Huhn Hühner Tabelle 3.2: Übersicht: Numeri Bemerkung Der Plural von Numerus lautet Numeri. Beispiel 3.3.3 (Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?). 3.3.3 Kasus Der Kasus (engl. case): Fall Fachbegriff Nominativ Genitiv Dativ Akkusativ Deutsch Werfall Wesfall Wemfall Wenfall Englisch nominative genitive dative accusative STTS Nom Gen Dat Akk Tabelle 3.3: Übersicht: Kasus Bemerkung Der Plural von Kasus lautet Kasus. Bei welchen Wortarten ist die Kategorie Kasus 24 Beispiel der Baum des Baumes dem Baum den Baum 3.3.4 Modus Der Modus (engl. mode, mood ): Aussageweise Fachbegriff Indikativ Konjunktiv Deutsch Wirklichkeitsform Möglichkeitsform Englisch indicative subjunctive mood STTS Ind Konj Beispiel er geht er gehe Tabelle 3.4: Übersicht: Modi Bemerkungen Der Plural von Modus lautet Modi. Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist dies durch das V.IMP ausgedrückt. 3.3.5 Tempus Das Tempus (engl. tense): grammatische Zeit, Zeitform Fachbegriff Präsens Präteritum Deutsch Gegenwart Vergangenheit Englisch present tense past tense STTS Pres Past Beispiel er geht er ging Tabelle 3.5: Übersicht: Tempora Bemerkungen Der Plural von Tempus lautet Tempora. 3.3.6 Person Die Person (engl. person) Fachbegriff 1. Person 2. Person 3. Person Deutsch Sprecher Angesprochene Person, Sachverhalt Englisch first person second person third person STTS 1 2 3 Beispiel ich gehe du gehst er geht Tabelle 3.6: Übersicht: Personen Bemerkungen Der Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich. Bei welchen Wortarten ist die Kategorie Person ausgeprägt? 25 Fachbegriff Positiv Komparativ Superlativ Deutsch Normalform Vergleichsform Höchststufe Englisch positive comparative superlative STTS Pos Comp Sup Beispiel schlau schlauer schlauste Tabelle 3.7: Übersicht: Komparation 3.3.7 Grad Der Grad (engl. degree): Steigerung, Komparation Bei welchen Wortarten ist die Kategorie Grad ausgeprägt? 3.3.8 Adjektiv-Flexion Die Adjektiv-Flexion (engl. adjective inflection) Fachbegriff Schwache Flexion Gemischte Flexion Starke Flexion Deutsch mit best. Artikel mit ein, kein,. . . ohne Artikel Englisch weak mixed strong STTS Schw Mix St Beispiel der schlaue Fuchs keine schlauen Füchse schlaue Füchse Tabelle 3.8: Übersicht: Adjektiv-Flexion Bei welchen Wortarten ist die Kategorie Adjektiv-Flexion ausgeprägt? Beispiel 3.3.4 (Flexion von “schlau”). Darstellung bei den Canoo-Sprachtools: III 3.4 Vertiefung • Referenzkarte zu STTS und dem NEGRA-Sprachmodell [Referenzkarte 2007] • Manuals für das Programm annotate [Plaehn 2000, Plaehn 1998] • http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminologie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem. Pflichtlektüre Nachschlagen von mindestens 30 Tags im Annotationshandbuch [Schiller et al. 1999] bei Unsicherheit im Annotieren von Wortart und morphologischer Kategorie 26 4 Linguistisches Propädeutikum II Lernziele • Kenntnis der klassischen syntaktischen Proben • Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied, Phrase • Kenntnis der wichtigsten syntaktischen Funktionen • Kenntnis und Anwendung des NEGRA-Annotationsschemas mit Hilfe der Referenzkarte • Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von syntaktischen Strukturen • Erfahrungen mit der einfachen Suche von syntaktischen Strukturen in einer Baumbank 4.1 Linguistische Proben Linguistische Testverfahren Definition 4.1.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Analyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, um grammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können. 4.1.1 Ersatzprobe Ersatzprobe Definition 4.1.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einen grammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestes muss dabei unverändert bleiben. Beispiel 4.1.3 (Bestimmung des Kasus). Probe Baumprobe Baumprobe Frageprobe Frageprobe Mehrdeutig Peter ist zornig Peter ist heiss Peter ist zornig Peter ist heiss Eindeutig Der Baum ist zornig Dem Baum ist heiss Wer ist zornig Wem ist heiss Kasus Nom Dat Nom Dat Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen. Beispiel 4.1.4 (Bestimmung der Wortart von “das”). • Das ist das Angebot, das uns überzeugt hat. 27 • Dieses ist das Angebot, welches uns überzeugt hat. • * Welches ist das Angebot, dieses uns überzeugt hat. • ? Das ist dieses Angebot, welches uns überzeugt hat. Probleme der Interpretation • Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Interpretation des Satzes. • Ob die Interpretation des Satzrestes sich ändert durch den Ersatz, ist nicht immer leicht zu beurteilen. 4.1.2 Einsetzprobe Einsetzprobe Definition 4.1.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext eingesetzt, der ihn grammatisch eindeutig interpretiert. Beispiel 4.1.6 (Bestimmung der Wortart). Probe Attributivprobe Attributivprobe Mehrdeutig Das war billig Das war gratis Eindeutig Der billige Baum *Der gratis Baum Wortart Adjektiv Adverb Einsetzen in Flexionsparadigmen Eine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugation für Verben oder Steigerung für Adjektive. 4.1.3 Weglassprobe Weglassprobe Definition 4.1.7. In der Weglassprobe wird von einem grösseren mehrdeutigen Ausdruck soviel Material wie möglich entfernt, um einen eindeutigen Ausdruck zu erhalten. Beispiel 4.1.8 (Bestimmung eines Satzglieds). 1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. Frage Warum nicht Variante 4? 28 4.1.4 Verschiebeprobe Verschiebeprobe Definition 4.1.9. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt, so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert. Damit lassen sich die Anfang und Ende von Satzgliedern erkennen. Beispiel 4.1.10 (Bestimmung von Satzgliedern). 1. Die Sitzung mit dem Chef bereite ich morgen vor. 2. Morgen bereite ich die Sitzung mit dem Chef vor. 3. Ich bereite die Sitzung mit dem Chef morgen vor. Regeln: Tausche immer 2 Kandidaten aus, um nicht unnötig ungrammatische (Pseudo-)Sätze zu erzeugen. Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb. Verschiebeprobe Beispiel 4.1.11 (Unzulässiges Verschieben). 1. Die Sitzung mit dem Chef bereite ich morgen vor. 2. * Morgen ich bereite die Sitzung mit dem Chef vor. 3. # Die Sitzung bereite ich morgen mit dem Chef vor. Gründe Pseudo-Satz 2 ist ungrammatisch. . . . Satz 3 hat eine andere Bedeutung bekommen durch die Umstellung. 4.1.5 Umformungsproben Umformungsprobe Definition 4.1.12. In der Umformungsprobe werden Sätze umfassend umgebaut. Beispiel 4.1.13 (Funktion von Nebensätzen). 1. Es würde mich freuen, wenn du mitkämest . 2. Dein Mitkommen würde mich freuen. Der Nebensatz mit “wenn” erfüllt eine analoge Funktion wie “Es”. Beispiel 4.1.14 (Infinitivumformung zur Subjekterkennung). 1. Die Lärche ist ein Nadelbaum. 2. ein Nadelbaum sein / die Lärche 29 4.2 Satz Satz Definition 4.2.1 (nach [Bußmann 1990]). Satz (engl. clause oder sentence). Nach sprachspezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, die hinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängig ist. Definition 4.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einem finiten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satz zusätzliche Angaben enthalten. 4.3 Syntaxanalyse 4.3.1 Konstituenz Konstituenz Definition 4.3.1 (nach [Bußmann 1990]). Konstituente. In der strukturellen Satzanalyse (sog. Konstituentenanalyse) Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die Teil einer grösseren sprachlichen Einheit ist. Definition 4.3.2 (nach [Bußmann 1990]). Ziel und Ergebnis der Konstituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge. Definition 4.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und linearen Präzedenz zwischen Konstituenten. Konstituenten in der annotate-Darstellung L! SOT L< ! SOR !N M; A: Syntaktische Konstituente unmittelbare Dominanz !"# .#/#0 O $$%& 1123+ '($)(*(+,- '($)($4#5(306 L; L< +$ SOO +@ +@ .#78.9# P M; L+$ SOQ L< Konstituente auf Wortebene !1$ 1#4>"06?0.#0 Q :;<: Präzedenz auf $,5(*(:==($)(!9 Wortebene ?06 ' &"5"=#0 R ++ @A+ Präzedenz zwischen 2#-(:==($)(* !! Tochterkonstituenten #"0 S 30 F#45?G/#0 U ++ $B@1C ED 1123+ +#?9(:==($)(* !! !! '($)($4#5(30 Abbildung 4.1: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente. D T Konstituenten in der Balken-Darstellung Abbildung 4.2: Konstituenz, Dominanz und Präzedenz in Balken-Darstellung Konstituenten überspannen als Balken die von ihnen dominierten Tokens. 4.3.2 Köpfe (oder Kerne) von Konstituenten Köpfe (engl. head ) / Kern (engl. kernel ) Definition 4.3.4. Ein Kopf oder Kern einer Konstituente ist diejenige Unterkonstituente, welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der die Geschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar (Weglassprobe). Beispiel 4.3.5 (Welches ist der Kern der geklammerten Konstituenten?). 1. Er [hält ihm den Ausweis unter die geschwollene Nase]. 2. Sie rennt [mit dem Mobile hantierend] zum Kiosk. 3. Es wird [viel zu oft] telefoniert. 4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt. 5. Sie fühlte sich [wie in einem schlechten Film]. 6. Aber sie war auch [in einem ziemlich schlechten Film]. Konstituententypen Typen von Konstituenten 1. Verbalgruppe, -phrase (VP): Konstituente mit einem verbalen Kern. In NEGRA umfasst VP nur infinite, d.h. nicht-flektierte Kerne. Die Kategorie Satz (S) hat finite Verbalkerne. 2. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern. 3. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetem Partizip als Kern. 4. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern. 31 5. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition als Kern. 6. Konjunktionalgruppe, -phrase: Konstituente mit der Konjunktion “als” oder “wie” als Kern. In NEGRA ebenfalls mit PP bezeichnet. Koordination, Konstituenz und Köpfe Definition 4.3.6. Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zwei oder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht. Beispiel 4.3.7 (Koordination von Konstituenten aus NEGRA-Korpus). • Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35] • Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre? [Satz 9328] • Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist das die Kirche. [Satz 11’978] Problem Was ist der Kopf? Keine richtige Entscheidung in NEGRA, denn es gibt die Konstituenten CS, CNP, CAP usw. 4.3.3 Dependenz bzw. syntaktische Funktion Dependenz und syntaktische Funktion Definition 4.3.8. Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konstituenten. Definition 4.3.9 (nach [Bußmann 1990]). Syntaktische Funktion ist ein Sammelbegriff für Beschreibungsgrössen wie “Subjekt”, “Objekt”, “Prädikat”, “Adverbial”, “Attribut” u.a., welche nach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehung zwischen abhängigen Konstituenten zu bestimmen. Hinweis Traditionelle Ansätze blenden gerne die syntaktische Funktion des “Kerns” sowie der koordinativen Verknüpfungen aus. Syntaktische Funktion in der Balken-Darstellung Syntaktische Funktionen als Zwischenschicht zwischen sich dominierenden Balken. Syntaktische Funktionen in der annotate-Darstellung Jedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominierenden Konstituente. 32 Abbildung 4.3: Syntaktische Funktionen in Balken-Darstellung L! SOT L< ! SOR !N M; A: Syntaktische Funktion !1$ M; L+$ SOQ L< Konstituenten L; L< +$ SOO +@ !"# .#/#0 O +@ .#78.9# P 1#4>"06?0.#0 Q ?06 ' &"5"=#0 R #"0 S D T F#45?G/#0 U $$%& 1123+ :;<: ++ @A+ ++ $B@1C ED 1123+ '($)(*(+,- '($)($4#5(306 $,5(*(:==($)(!9 2#-(:==($)(* !! +#?9(:==($)(* !! !! '($)($4#5(30 Abbildung 4.4: Syntaktische Funktion in der NEGRA-Darstellung 4.3.4 Satzglieder Einige Satzglieder mit NEGRA-Funktion • Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein S oder eine VP sein! • Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe (“ihn”) • Dativ-Objekt (DA): Frageprobe (Wem?) oder Ersatzprobe (“ihm”) • Genitiv-Objekt (OG): Frageprobe (Wessen?) oder Ersatzprobe (“seiner”) • Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO) für Modifikator • Nicht-finite Verbalteile (OC): Abhängig von flektiertem oder nicht-flektierten Verb Einige Gliedteile mit NEGRA-Funktion • Artikel, attributive Adjektiv(phrasen), begleitende Pronomen (NK) 33 Abbildung 4.5: Moderne Satzgliedlehre nach [Stocker et al. 2004] • Präpositionen und konjunktionales “als” oder “wie” (AC) • Genitivattribute von Nominalphrasen (AG) oder feinere Unterscheidung: pränominaler (GL) oder postnominaler (GR) Genitiv • Koordinierende Konjunktion (CD) und die koordinierten Konstituenten (CJ) • Platzhalter (PH) und wiederholte Elemente (RE) 4.4 Baumbanken 4.4.1 NEGRA NEGRA-Baumbank • Das erste grosse (20’000 Sätze) Baumbank-Projekt für Deutsch (1997-2001): http://www. coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html • PP und NP werden mit flacher Hierarchie verbaut • Ketten von infiniten Verben (VP) sind zu verschachteln • Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter • Keine annotierten Köpfe in NP • Keine explizite Unterscheidung der Satztypen • Annotationshandbuch [Brants et al. 1999] mit detaillierten Regeln • Die TIGER-Baumbank (TIGER-Korpus) (50’000 Sätze im 2006) ist “Nachfolgeprojekt” 34 4.4.2 TIGERSearch TIGERSearch: Ein modernes Suchwerkzeug Lernen aus Beispielen Beim Annotieren ist es hilfreich, aus bereits (hoffentlich korrekt!) annotiertem Material zu lernen! Die 3 Hauptfunktionen von TIGERSearch Abfrage-Sprache (investigation) Visualisierung der Suchresultate und Baumbank (exploration) Einfache statistische Auswertung (condensation) Die wichtigsten Suchrezepte • Wie wird das Wort “der” verwendet? [ word="der" ] • Mit welchen Wortarten kommt das Wort “der” wie oft vor? (“#w:” brauchts für das Statistikmodul als Knoten-Identifikator) #w: [ word="der" ] • Welche Adverbien kommen vor? #w: [ pos="ADV" ] • Welche koordinierten Nominalphrasen kommen vor? #p: [ cat="CNP" ] • Welche Dativobjekte kommen vor? [ ] >DA #da: [ ] NB: [] > [] = unmittelbare Dominanz und [] . [] = lineare Präzedenz . . . TIGERSearch-Wettbewerb • Wieviel mehr Akkusativobjekte als Dativobjekte hat es in den ersten 10000 Sätzen des NEGRA-Korpus? (A) 4.5 (B) 6.5 (C) 7.5 • Wie gross ist der Anteil an VP, welche überkreuzende Kanten haben im NEGRA-Korpus? (A) 25% (B) 50% (C) 66% 35 Weiteres • Homepage von TIGERSearch: http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/ • Sofortbenutzung via X11: ssh -Y [email protected] (ev. -Y durch -X ersetzen; kein VPN erforderlich) • Anleitung mit Bildern http://www.bubenhofer.com/korpuslinguistik/kurs/index.php? id=weitere_tiger.html 4.5 Vertiefung • Das Kapitel Baumbanken [Carstensen et al. 2004, 414ff.] • Quiz Die Form der Satzglieder • Quiz Satzglieder und Proben 36 5 Tokenisierung Lernziele • Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicher Sprache: Text-Segmentierung und Text-Normalisierung • Kenntnis über Methoden der Punktdesambiguierung und Satzendeerkennung • Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (Named Entity Recognition) • Kenntnis über die Kodierung sprachlicher Zeichen • Kenntnis und Umgang mit regulären Ausdrücken 5.1 Tokenisierer 5.1.1 Grundproblem Grundproblem: Vom Zeichenstrom zur Folge von Tokens Rohdaten Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge von Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind. Token: Einheit der Textsegementierung Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse. Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip) • Konsumieren der Zeichenfolge (Eingabe) • Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung) • Produzieren einer Folge von Tokens (Ausgabe) 5.1.2 Zeichenkodierung Was ist ein Zeichen auf dem Computer? • Traditionell ein Byte, d.h. eine Folge von 8 Bits (0 oder 1) • Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle im Binärsystem aufgefasst wird. 37 • Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskonvention aufgestellt wird: Z.B. A=65, @=64, 1=49 • Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch), iso-latin-1 (256 Zeichen für westeuropäische Sprachen), UNICODE(ISO/IEC 10646) (über 100’000 Zeichen in Version 5.1.0 für fast alle Schriftsysteme der Welt; http://www.unicode. org) • Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte Was ist ein Zeichen auf dem Computer? • Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibt Methoden, einen Unicode-Wert auf eine Folge von Bytes abzubilden. • UTF-8: (Abk. für 8-bit Unicode Transformation Format) Ordnet jedem Unicode-Zeichen eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Byte pro Zeichen. • Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien muss man es wissen. • Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damit das Betriebssystem die Kodes fürs Auge darstellen kann. • Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv Textkonversion mit iconv Verlustbehaftete Konversion Nebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch Text-Normalisierung durch “Transliteration” durchführen. $ echo "Klößchen" | iconv -f ISO_8859-1 Klosschen -t ASCII//TRANSLIT Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich: $ echo "Klößchen" | iconv -f ISO_8859-1 Klchen -t ASCII//IGNORE 5.1.3 Markup 5.1.4 Programme Typische Beispiele für Tokenisierer Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Programmiersprache Beispiel 5.1.1 (Covingtons Tokenizer [Covington 2003]). Tokenisierer in Prolog für Englisch: Konsumiere eine Textdatei oder eine Benutzereingabe und produziere daraus eine Prolog-Liste. 38 Joe’s brother doesn’t owe us $4,567.89. [ w([j,o,e]), % w = Wort w([s]), w([b,r,o,t,h,e,r]), w([d,o,e,s,n,t]), w([o,w,e]), w([u,s]), s(’$’), % s = Symbol n([’4’,’5’,’6’,’7’,’.’,’8’,’9’]), % n = Zahl s(’.’) ] Typische Beispiele für Tokenisierer Tokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus • vertikalisierten Text, d.h. ein Token pro Zeile, oder • ein Satz pro Zeile, d.h. jedes Token durch Leerzeichen getrennt. Beispiel 5.1.2 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]). Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei $ cat file.txt "Bach’sche Musik mag Dr. Fritz. Ja." $ cat ger-abbrev Dr. usw. $ separate-punctuation +1 +s +l ger-abbrev file.txt " Bach’sche Musik mag Dr. Fritz . Ja . " Typische Beispiele für Tokenisierer Auf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL, Python oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrücken erlauben. Definition 5.1.3 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck ist eine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zu beschreiben. 39 Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchenund-Ersetzen und Segmentieren von Zeichenketten. Einführung in reguläre Ausdrücke Z.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex Typische Beispiele für Tokenisierer Tokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl. markup language). Beispiel 5.1.4 (Der LT-TTT2 Tokenizer [Grover 2008]). 1. Rohtext This is an example. There are two sentences. 2. XML-Input für Tokenisierer (Vortokenisierung) <document> <text> <p> This is an example. There are two sentences. </p> </text> </document> 3. XML-Tokenisat <document> <text> <p> <s id="s1"> <w id="w3" c="w" pws="yes">This</w> <w id="w8" c="w" pws="yes">is</w> <w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w> <w id="w21" pws="no" sb="true" c=".">.</w> </s> <s id="s2"> <w id="w23" c="w" pws="yes">There</w> <w id="w29" c="w" pws="yes">are</w> <w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w> <w id="w46" pws="no" sb="true" c=".">.</w> </s> </p> </text> </document> Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert. 40 5.2 Exkurs: XML XML (eXtensible Markup Language) Definition 5.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformte XML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) deren Struktur genauer vorgeschrieben und validiert werden kann. XML in der Texttechnologie • Textbasiertes Format, das geeignet ist, Texte und dazugehörige Metainformation programmunabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI) • Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellen zum Einlesen, Erstellen, Modifizieren von XML-Dokumenten • Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben Aufbau von XML-Dokumenten Elemente und ihre Attribute • Elemente sind von Start-Tags (“<p>”) und End-Tags (“</p>”) begrenzt. • Leere Elemente können aus einem Tag bestehen (“<br/>”) • Elemente dürfen hierarchisch ineinander verschachtelt werden: <p><s>...</s></p> • Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document> • Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag: <s id="s2"> • Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w> Zeichenreferenzen und Entity-Referenzen Entitäten und Referenzen • Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entities bezeichnet, welche zwischen & und ; notiert werden • Zeichenreferenzen enthalten den nummerischen Kode des bezeichneten Zeichens (#x=Hexadezimal) Zeichen < " & Newline 41 Entität < " & 	 5.3 Tokenisierung: Segmentieren von Wörtern und Sätzen 5.3.1 Problem Naive Tokenisierung mit 3 Zeichenklassen Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder Interpunktion begrenzt. • Wort-Zeichen: /[a-zA-Z0-9]/ • Einzel-Zeichen: /[.,:;?!)(" ?-]/ • Grenz-Zeichen: /\s/ Problem Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten: “Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit” Teilprobleme der Tokenisierung im weiten Sinn • Umgang mit Markup (HTML-Tags, Formatierungszeichen) • Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie dem Chinesischen anspruchsvoll) • Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen beinhalten • Erkennung von Interpunktion (Punktdesambiguierung, Satzendeerkennung) • Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben) • Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben) 5.3.2 Punktdesambiguierung Erkennung von Satzenden (Satz-Segmentierung) Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben. Verschärfend: Verschmelzung zweier Funktionen Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert. Beispiel 5.3.1 (Verschmelzung im Englischen). • It was due Friday by 5 p.m. Saturday would be too late. • Ich kenne die U.S.A. Frankreich kenne ich nicht. Weiteres Nicht bloss Punkte sind mehrdeutig, auch andere Interpunktion ist es, aber nicht so virulent. 42 Algorithmus zur Punktdesambiguierung nach [Grefenstette und Tapanainen 1994] Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet. Der Punkt ist ein Abkürzungspunkt, falls • das Token in einer Abkürzungsliste steht. • nach dem Token [,;a-z] folgt. • das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht. • das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punkt vorkommt. Leistungsfähigkeit Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen. Statistische Verfahren zur Punktdesambiguierung Prinzip Verwende die Häufigkeiten von Vorkommen (occurence) und Mit-Vorkommen (co-occurence) von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen. Interessante Merkmale für statistische Ansätze 1. Wieviele Zeichen umfasst ein Token? 2. Umfasst ein Token Ziffern oder keine Vokale? 3. Wie oft kommt das Token ohne Punkt vor? 4. Wie oft kommt nach dem Token ein grossgeschriebenes Token vor? 5. Wie oft kommt ein Token kleingeschrieben vor? 6. Welche Wortart haben die umgebenden Tokens? 5.3.3 Zeichen- und Token-Normalisierung Text-Normalisierung Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen. Beispiel 5.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen). • Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . . • 4.8.97, 4-8-97, 4/8/97, 8/4/97 • 19000, 19’000, 19 000, 19,000 • Louisa, Luise, Louise, Luisa . . . • doesn’t, does not 43 Rückgängig machen von Worttrennung am Zeilenende Definition 5.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere graphematische Modifikationen. Beispiel 5.3.4 (Graphematische Modifikationen). • Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt • Holländisch: chocola-tje → chocolaatje Rückgängig machen von Worttrennung am Zeilenende Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994] Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens: Zeilen 101’860 12’473 Rückbau 11’858 615 in % 100% 12% in % 95% 5% Typ Zeilen total mit Silbentrennung Typ Rückbau in existierende Tokens Rückbau in neue Tokens Tabelle 5.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation” Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch. 5.3.4 Named Entity Recognition Named Entity Recognition Definition 5.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungsund Zeitangaben oder weitere textsortenspezifische interessierende Grössen. Einheitliche (kanonische) Repräsentation Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen. Beispiel 5.3.6 (Kanonische Formen). • USA: “U.S.A.”,“United States of America”, “U.S. of America” • time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins” 44 5.4 Vertiefung Zum Thema “Tokenisierung”: • Pflichtlektüre: [Carstensen et al. 2004, 3.3.1] • Guter Übersichtsartikel für Interessierte: [Palmer 2000] • Gut zu lesen und methodisch einfach und instruktiv: [Grefenstette und Tapanainen 1994] Zum Thema “Reguläre Ausdrücke”: • http://www.cl.uzh.ch/clab/regex/ Zum Thema “XML”: • Kapitel 2.5. Texttechnologische Grundlagen in [Carstensen et al. 2004] 45 6 Flache Satzverarbeitung Lernziele • Kenntnis über POS-Tagger, ihre Aufgabe und Probleme • Kenntnis über grundlegende Evaluationsmethodik • Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger • Kenntnis über partielle syntaktische Analyse • Kenntnis über flache und verschachtelte Chunks 6.1 Wortarten-Tagging Wortarten-Tagging Definition 6.1.1 (Wortarten-Tagger). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger, kurz POS-Tagger ) ist ein Programm, das für jedes Token eines Korpus die Wortart bestimmt, indem es ein Klassifikationskürzel als Tag zuordnet. Beispiel 6.1.2 (Zeilenformat mit Schrägstrich). Sonderrechte/NN für/APPR Minoritätenkollektive/NN widersprechen/VVFIN Tag-Sets für Englisch Definition 6.1.3 (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wortarteninformation noch semantische, syntaktische oder morphologische Information. Die Grösse eines Tag-Sets kann stark variieren. Tag-Set Brown Penn CLAWS c5 London-Lund Grösse 87 (179) 45 62 197 Beispiel she/PPS she/PRP she/PNP she’s/RA*VB+3 Bedeutung Pronoun, personal, subject, 3SG Pronoun (personal or reflexive) Pronoun personal pronoun, personal, nominative + verb "to be", present tense, 3rd person singular Tabelle 6.1: Übersicht: Tag-Sets für Englisch Penn-Treebank-Tag-Set (PTTS) Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welches ab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist. 46 Anforderungen an ein Programm für Tagging Positive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]: • Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen, Markup). • Effizient: Der Tagger arbeitet schnell. • Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%). • Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst werden. • Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden. Fallstudie TnT-Tagger: Übersicht Trainingskorpus training.tts Getaggtes Korpus Training tnt-para ParameterDateien training.lex training.123 Tagging tnt Evaluationskorpus eval.tts Aufteilen des Korpus Testkorpus test.tts test.txt Evaluation tnt-diff Abbildung 6.1: Training, Tagging und Evaluation mit dem TnT-Tagger Fallstudie TnT-Tagger: Anpassbarkeit konkret Man nehme . . . [Clematide 2007] 1. ein getaggtes Korpus (vertikalisierter Textformat) $ head -n 3 ../../uis-vonabisz.tts Studienführer NN " $( Universität NN $ wc ../../uis-vonabisz.tts 9676 18154 118761 ../../uis-vonabisz.tts 47 2. Produziere aus 9/10 davon ein Trainingskorpus, indem alle bis auf die letzten 965 Zeilen in eine neue Datei geschrieben werden. $ head --lines -965 ../../uis-vonabisz.tts > training.tts 3. Produziere aus dem restlichen 1/10 ein Testkorpus, indem die letzten 965 Zeilen in eine neue Datei geschrieben werden. $ tail --lines 965 ../../uis-vonabisz.tts > test.tts 4. Trainiere über dem Trainingskorpus $ tnt-para training.tts 5. Probiere aus, ob der Tagger was Vernünftiges tut. $ tnt training /dev/stdin > out.tts Der Tagger läuft . [mit Control-D für Dateiende abschliessen $ more out.tts 6. Erstelle ein Testkorpus. $ cut -f 1 test.tts > eval.txt 7. Tagge das Testkorpus mit dem trainierten Modell. $ tnt training eval.txt > eval.tts 8. Evaluiere das getaggte Evaluationskorpus gegen das Testkorpus. $ tnt-diff test.tts eval.tts 6.1.1 Probleme des Taggings Wortformen mit mehreren möglichen Tags Mehrdeutigkeit Im Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token. Baseline Nimm für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt ca. 90% richtige Entscheidungen. Optimierungspotential Berücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wörter), um die Baseline-Entscheidung umzustossen. 48 Tag-Ambiguität im Englischen Mehrdeutigkeit bei deutschen Wörtern Beispiel 6.1.4 (Verteilung der Mehrdeutigkeit). Vorkommen in einem Korpus von ca. 80’000 Token die ART 2351 PRELS 448 PDS 4 Mehrheit NN 40 bestimmt VVPP 7 VVFIN 4 ADV 1 ADJD 1 Mehrdeutigkeit in einem deutschen Testkorpus (STTS) Abbildung 6.2: Ambiguitätsraten aus der Frankfurter Rundschau [Volk und Schneider 1998] Dem Tagger unbekannte Wortformen haben die Ambiguitätsrate 0. Unbekannte Wörter Kein Tagger-Lexikon kann vollständig sein. Wie kann ein Tagger sinnvolle Vorschläge machen? • Unterscheidung zwischen offenen und geschlossenen Wortarten • Daumenregeln aufgrund des Baus der unbekannten Wortform: Wortendungen oder Wortbeginn Beispiel 6.1.5 (Morphologische Heuristiken für Englisch). 98% aller Wörter auf -able sind Adjektive. Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname. • Daumenregeln aufgrund des Kontextes (z.B. Satzanfang) 49 Nutzen und Anwendung des POS-Tagging POS-Tagging hat sich als eine eigenständige sprachtechnologische Anwendung erwiesen, welche effizient und zuverlässig durchgeführt werden kann, und für verschiedenste Zwecke nützlich ist: Lemmatisierung, Lexikographie, Sprachsynthese, Spracherkennung, Dokumentensuche, Bedeutungsdisambiguierung usw. Beispiel 6.1.6 (Sprachsynthese/Bedeutungsdisambiguierung). • lead: Verb /li:d/ (führen); Nomen: /led/ (Blei) • increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen) Beispiel 6.1.7 (Lemmatisierung). • eine/ART: Lemma “ein” • eine/VVIMP: Lemma “einen” Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe. 6.2 Evaluation Evaluation Definition 6.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines Wertes auf einer Werteskala aufgrund einer Messmethode. Definition 6.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer Validität und Reliabilität. Definition 6.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen wird. Definition 6.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind. Überlegungen zu Reliabilität und Validität Messintention Es soll das Verständnis von Studierenden über das Thema reguläre Ausdrücke mittels eines Multiple-Choice-Tests geprüft werden. Überlegung I Wie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität und Validität hoch ist? Überlegung II Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person mehrmals gemacht wird? 50 6.2.1 Zweck Zweck von Evaluationen Systemverbesserung Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert worden ist. Die Evaluation von System A und A’ hilft einzuschätzen, inwiefern die Komponente Z das System optimiert. Systemvergleich Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation anhand einer Testaufgabe T zeigt auf, welches System besser ist. 6.2.2 Accuracy POS-Tagger-Evaluation: Genauigkeit Definition 6.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit N Token ist der Anteil der korrekt getaggten Token. Formal: Sei E die Anzahl von falsch getaggten (Vorkommen von) Token: accuracy = N −E N Beispiel 6.2.6 (Genauigkeitsberechnung). Die Korrektheit des TnT-Taggers bei einem Training über 1 Million Token der Penn Treebank beträgt 96.7%. Wieviele Token wurden im Testkorpus von 100’000 Token falsch getaggt? Wenn man nur über 1’000 Token trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus von 100’000 Token. Wie hoch ist die Genauigkeit? Testmethodik Beispiel 6.2.7 (Verbesserung von Tagging-Resultaten). Hans ist nicht zufrieden mit den 96.7% Genauigkeit des TnT-Taggers über der Penn Treebank. Er schreibt ein Pattern-Matching-Programm, das nach dem Tagging angewendet wird und das möglichst viele Fehler des Taggers noch korrigiert. Nach 2 Jahren hat er damit für die Penn Treebank eine Genauigkeit von 99.8% erreicht. Was ist von der Aussage von Paul zu halten, dass er einen POS-Tagger für Englisch gemacht hat, der eine evaluierte Genauigkeit von 99.8% hat? Häufigste Tagging-Fehler von TnT im NEGRA-Korpus Legende zur Tabelle 6.2 T agt : Korrektes Label; T agf : Falsch getaggtes Label F reqt : Vorkommenshäufigkeit des korrekten Labels; F reqf : Vorkommenshäufigkeit des falschen Labels Erel. : Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler Ant.: Anteil der falschen Tags an den korrekt erkannten 51 T agt NE VVFIN NN VVFIN ADJA F reqt 15069 11595 58563 11595 16843 T agf NN VVINF NE VVPP NN F reqf 2092 667 615 425 270 Ant. 13.9 5.8 1.1 3.7 1.6 Erel. 19.6 6.3 5.8 4.0 2.5 Eabs. 0.74 0.23 0.22 0.15 0.10 Tabelle 6.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112] Genauigkeit unter 10-facher Kreuzvalidierung Definition 6.2.8 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial. Beispiel 6.2.9 (Durchschnittliche Genauigkeit). Pi=10 accuracy = i=1 accuracyi 10 Generalisierung von 10 auf k Die Verwendung von 10 hat sich als gute und bewährte Praxis erwiesen. Im Prinzip kann man aber 10 durch irgendeine Zahl k ≥ 1 ersetzen. 6.2.3 Lernkurven 6.2.4 Recall Recall (Ausbeute, Abdeckung, Vollständigkeit) Definition 6.2.10. Recall ist ein Evaluationsmass, das den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen möglichen korrekten Antworten angibt. Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrekten Antworten des Systems. At R= Nt Beispiel 6.2.11 (Recall eines Taggers). Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN klassifiziert. 600 At = 600 und Nt = 800. Der Recall berechnet sich als: R = 800 = 75% 6.2.5 Precision Precision (Genauigkeit, Präzision) Definition 6.2.12. Precision ist ein Evaluationsmass, das den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen gegebenen Antworten des Systems angibt. Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten des Systems. At P = A 52 Abbildung 6.3: Tnt-Evaluation an Penn Treebank durch Thorsten Brants Beispiel 6.2.13 (Precision eines Taggers). Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, aber nur 600 davon waren tatsächlich VVFIN. 600 At = 600 und A = 1000. Die Precision berechnet sich als: P = 1000 = 60% 6.2.6 F-Measure F-Measure (F-Mass) Definition 6.2.14 (F1 -Measure). Das F-Measure ist ein Evaluationsmass, das Precision und Recall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet. Formal: Sei P die Precision und R der Recall eines Systems: F = 2×P ×R P +R Beispiel 6.2.15 (F-Mass eines Taggers). Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN. Das F-Measure berechnet sich somit: F = 2×0.6×0.75 0.6+0.75 = 66.6% 6.3 Chunk Parsing Partielle syntaktische Analyse 53 Abbildung 6.4: Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants Definition 6.3.1. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing) berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz. Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt. Abbildung 6.5: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Chunking-Regeln schreiben 54 Abbildung 6.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Wie kann man die zulässigen Chunks beschreiben? NC -> ART NN • NC : Ein NC (Nominalchunk) besteht • ->: besteht aus • ART: aus einem Wort der Wortart ART (Artikel) • NN: gefolgt von einem Wort der Wortart NN (normales Nomen) 6.3.1 Abneys Chunk-Definition Chunks (Teilstrukturen) nach [Abney 1991] Beispiel 6.3.2 (Chunks nach Abney). [I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time]. Motivationen • Intonation: sprachliche Einheiten mit jeweils einer stärkeren Betonung • Effizienz: Teilstrukturen lassen sich effizienter berechnen. • Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische Analyse. • Robustheit: Für syntaktisch fehlerhaften Input braucht es tolerante, oberflächlichere Analysemethoden. 6.3.2 IOB-Chunk Flache IOB-Chunks Definition 6.3.3 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist. • B-K : Anfang einer Chunk-Konstituente K • I-K : Fortsetzung der Chunk-Konstituente K • 0: Nicht zugeordnet (wird auch chink genannt) 55 Beispiel 6.3.4 (Notationsvarianten). Wie sieht die IOB-Notation in Klammer- oder Baum-Darstellung aus? Rockwell NNP B-NP said VBD B-VP the DT B-NP agreement NN I-NP calls VBZ B-VP for IN B-SBAR it PRP B-NP to TO B-VP supply VB I-VP 200 CD B-NP additional JJ I-NP so-called JJ I-NP shipsets NNS I-NP for IN B-PP the DT B-NP planes NNS I-NP . . O 6.3.3 Verschachtelte Chunks Verschachtelte Chunks Definition 6.3.5 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk innerhalb eines Nominal-Chunks, ist normalerweise nicht möglich. Beispiel 6.3.6 (Chunk Parsing Output mit Verschachtelungstiefe 3). [PX [APPR für] [NX [ARTIND eine] [AJXatt [ADJA gewisse]] [NN Reibungslosigkeit]]] Hinweis zur Chunk-Benennung Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC. 6.4 Vertiefung Zum Thema “Chunk Parsing”: • Pflichtlektüre: [Carstensen et al. 2004, 3.3] • Lerneinheit “Chunk Parsing” im CLab: http://www.cl.uzh.ch/clab/chunking/ 56 6.5 Exkurs: Evaluation binärer Klassifikatoren Lernziele • Kenntnis über True Positive, True Negative, False Positive sowie False Negative • Kenntnis über Fehlertypen und ihre Gefahr • Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form der TP:FP:FN:TN-Darstellung 6.5.1 True/False Positives/Negatives Evaluation von binären Klassifikatoren Truth Test Positive Negative Positive True Positive (TP) False Negative (FN) Negative False Positive (FP) True Negative (TN) Tabelle 6.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit Legende zur Tabelle 6.3 True Übereinstimmung zwischen “Test” und “Truth” False Keine Übereinstimmung zwischen “Test” und “Truth” FP Fehlertyp I: Test ist positiv, wo er nicht sollte. FN Fehlertyp II: Test ist negativ, wo er nicht sollte. 6.5.2 Fehlerparadoxe Problem der Fehlerabschätzung I Beispiel 6.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Konstruktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Konstruktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%. Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat, wenn er ein positives Resultat vermeldet? Man überlege: Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnitt darunter? 57 Problem der Fehlerabschätzung II Beispiel 6.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Konstruktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht. Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test ein negatives Resultat vermeldet? Man überlege: Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind im Schnitt darunter? 6.5.3 Unterschiede von Evaluationsmassen Dualität von Precision und Recall Test Pos Neg R= Truth Pos Neg TP FP FN TN TP TP + FN Tabelle 6.4: Recall Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall. Test Pos Neg P = Truth Pos Neg TP FP FN TN TP TP + FP Tabelle 6.5: Precision Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision. F-Measure vs. Accuracy F-Measure ignoriert TN. TP interessieren eigentlich. Accuracy ignoriert nichts. TP und TN interessieren gleichwertig. 6.5.4 Mitteln von Recall und Precision F-Measure: Harmonisches vs. arithmetisches Mittel 58 Test F = Pos Neg Truth Pos Neg TP FP FN TN 2 × TP 2 × TP + FP + FN Tabelle 6.6: F1 -Measure Test Truth Pos Neg TP FP FN TN Pos Neg Accuracy = TP + TN TP + TN + FP + FN Tabelle 6.7: Accuracy Abbildung 6.7: F = 2×P ×R P +R : y/x-Achse: Recall F-Mass [F-Mass 2006] 6.5.5 Vertiefung • Artikel zum Harmonischen Mittel in [Wikipedia 2007] 59 Abbildung 6.8: M = P +R 2 : 60 Arithmetisches Mittel 7 Volltextsuche und Text Mining Lernziele • Kenntnis über Grundlagen der Volltextsuche • Kenntnis über traditionelle Informationserschliessung von OPAC • Kenntnis über die Einsatzmöglichkeiten von CL-Ansätzen beim Indexieren • Kenntnis über das Boolsche Retrievalmodell und Relevanz-Ranking • Kenntnis über die Probleme der Auffassung von Dokument als Indexterm-Menge • Kenntnis über eine mögliche Auffassung von Text Mining 7.1 Elektronische Informationsflut Thesen zur elektronischen Informationsflut • Immer mehr Menschen verbreiten (produzieren?) immer schneller immer mehr elektronische textuelle Information! • Das Internet Archive http://www.archive.org bot 2003 Zugriff auf 10 Milliarden Webseiten. Im Mai 2006 enthält es knapp 2 Petabyte (1015 ) Daten und soll monatlich um 20 Terabyte wachsen. • Nicht-öffentliche Bereiche wie “Intranets” von Firmen und Verwaltungen oder auch automatisch schlecht zugängliche Seiten verstecken sich dabei noch als “deep web” unter der Spitze des sichtbaren Eisbergs. • Verschiedene Projekte zur Buchdigitalisierung (z.B. http://books.google.com) versuchen, bislang nur gedruckte Information ins digitale Gedächtnis zu bringen. Wachstum der Publikationen im biomedizinischen Bereich 2007 wurden pro Tag ca. 1900 Publikationen in der Online-Bibliographie PubMed erfasst [Pyysalo 2008, 6]. Wachstumrate steigt jährlich um 3%. 7.1.1 Suchdilemma Suchdilemmas Typisches Problem bei Volltextsuche Benutzende erhalten zuviele Treffer! Was tun? ... 61 Quelle: [Pyysalo 2008, 6] Abbildung 7.1: In PubMed erfasste wiss. Artikel (2008 unvollständig) Typisches Problem bei OPAC-Suche (OPAC=öffentlich zugänglicher elektronischer Bibliothekskatalog) Benutzende erhalten zuwenige Treffer! Was tun? ... Beispiel für Anreicherung von OPAC-Information Anreicherung des klassischen OPAC-Bibliothekskatalogs Inhaltsverzeichnisse Eingescannte und in Text konvertierte Inhaltsverzeichnisse erlauben mehr Treffer. Beispiel 7.1.1 (Landesbibliothek Vorarlberg). • Keine Treffer für eine Suche nach dem Autor Jewgeni Charitonow. • Dafür Treffer via Inhaltsverzeichnis. Elektronisches Inhaltsverzeichnis 62 Abbildung 7.2: Suchoption für Inhaltsverzeichnis Abbildung 7.3: Eingescanntes Inhaltsverzeichnis Vom OPAC zur digitalen Bibliothek mit Volltextsuche Digitale Bibliotheken Nutzen und Tücken der automatischen Erfassung Z.B. bei http://books.google.de Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben 63 Abbildung 7.4: OCR und Frakturschrift Entwicklung von Online-Datenbanken Die ersten Online-Datenbanken entstanden in den 60er Jahren. Die NASA und Lockheed entwickelten ein System, das heute als DIALOG bekannt ist, die Ohio Bar Association LEXIS, das heute unter LEXIS/NEXIS firmiert, der CIA und IBM STAIRS. Die Zahl der Online-Datenbanken betrug 1965 unter 20, 1975 mehr als 300 und 1984 fast 2500. Quelle: http://www.phil.uni-sb.de/~werner/ir/irs.htm Beispiel 7.1.2 (PubMed). Online-“Bibliographien” wie PubMed bieten mittlerweile komplexe Datenverknüpfungsdienste (Terminologie, Ontologie, fachspezifische Datenbanken, Literaturverknüpfungen, Abstracts, Volltexte) an: Knowledge Management. 7.2 Volltextsuche Volltextsuche Definition 7.2.1 (auch Dokumentenzugriffssystem, engl. Information Retrieval (IR)). Die klassische Volltextsuche liefert (Referenzen auf) Dokumente zurück, welche für eine Kombination von Suchtermen und Suchkriterien (=Anfrage) relevant sind. Die Suchterme selbst können beliebige im Text vorkommende Ausdrücke sein – es wird nicht wie bei Bibliothekskatalogen mit geschlossenen Sachbegriffen indiziert. Hinweis zu den Einheiten des Retrievals Anstelle von ganzen Dokumenten als Suchresultat kann man auch kleinere Textstellen (engl. passage retrieval) als Wiedergewinnungseinheit definieren. Beispiel 7.2.2 (Googles define-Operator). Gewisse Suchmaschinen unterstützen die Suche nach definitionsartigen Passagen. 64 Traditionelle Sachbegriff-Indexierung im OPAC Abbildung 7.5: Sachbegriff-Indexierung im NEBIS Traditionelle Sachbegriff-Organisation im OPAC Neuere textuelle Zusatzinformationen im OPAC 7.2.1 Indexieren Indexieren Definition 7.2.3 (Volltext-Indexieren). Beim Indexieren einer Dokumentensammlung werden (fast alle) Wörter eines Dokuments ausgewählt, zu Indextermen normalisiert und im Index abgelegt. Definition 7.2.4 (Index). Ein Index eines IR-Systems ist eine Datenstruktur, welche im Sinn einer “invertierten Datei” für jeden Indexterm Referenzen auf die Dokumente(-nstellen) enthält, wo er vorkommt. Meta-Information zu Dokumenten IR-System erlauben oft, Einschränkung bezüglich Alter, Sprache, Herkunft etc. von Dokumenten in die Anfrage einzubauen. Solche Informationen müssen für jedes Dokument gespeichert werden. Auswahl der Indexterme Nach der Tokenisierung werden aus Gründen der Effizienz und/oder Relevanz oft bestimmte Wörter (“noise words”) ausgefiltert. 65 Abbildung 7.6: Sachbegriff und Varianten im NEBIS Abbildung 7.7: Textuelle Zusatzinformation im NEBIS • Allgemeine Funktionswörter einer Sprache, welche meist häufig vorkommen (Stoppwortliste): der, die, das ...ich, du, er ...auf, unter, in ...und, oder ...bin, bist, 66 ist, hast ... • Bei inhaltlich homogenen Dokumentensammlungen manchmal auch Inhaltwörter, welche fast in allen Dokumenten vorkommen und dadurch keinen informativen Wert besitzen. Z.B. in Dokumenten zur Informatik: System, Computer ... Es gibt auch Suchmaschinen, welche alles indizieren – interessant für CL-Ansätze “WWW als Korpus”. Eine kleine Stoppwortliste für Englisch III a about after again ago all almost also always am an and another any anybody anyhow anyone anything anyway are as at away back be became because been before being between but by came can cannot come could did do does doing done down each else even ever every everyone everything for from front get getting go goes going gone got gotten had has have having he her here him his how i if in into is isn’t it just last least left less let like make many may maybe me mine more most much my myself never no none not now of off on one onto or our ourselves out over per put putting same saw see seen shall she should so some somebody someone something stand such sure take than that the their them then there these they this those through till to too two unless until up upon us very was we went were what what’s whatever when where whether which while who whoever whom whose why will with within without won’t would wouldn’t yet you your Indexterme normalisieren Die Normalisierung kann keine bis viel Sprachtechnologie enthalten: • Reduktion auf orthographische Normalform (Ä → ä; ä → ae ; ph → f) • Trunkierung (veraltet): Abschneiden von Wortenden bei Wörtern ab einer Mindestlänge auf einen Präfix fixer Länge analys|ieren → analys Analys|e → analys analyt|isch → analyt • Stemming (z.B. noch in Suche im Acrobat Reader): Einzelsprachliche Kürzungsregeln, welche ohne Lexikoneinsatz Wortformen auf ihren Stamm (stem) reduzieren. Stemming mit dem Porter-Stemmer III Beispiel 7.2.5 (Porter-Stemmer für Englisch). These analyses seemed especially analytic. these → these analyses → analys seemed → seem especially → especi analytic → analyt 67 Abstract/Zusammenfassung Inhaltsverzeichnis Literaturverweise Stichwortregister Indexterme normalisieren relevante Terme im Volltext • Lemmatisierung: Reduktion von syntaktischen Wortformen flektierter Sprachen auf ihre Volltext Grundform: “aufgegessen” → “aufessen” • Kompositaanalyse: Auflösung von Komposita in ihre Bestandteile: “Schwimmunterricht” → “schwimm” “unterricht” CL Auflösung in IuD II – 5von derivierten Ausdrücken: “Überzeugung” “überzeugen”→ • Derivationsauflösung: “überzeugen” • Synonymerkennung: Auflösung von engeren Synonymen oder verwandten Bezeichnungen: “Rechenmaschine”→ “Computer”, “Luisa” → “Louise” • “Named Entity Recognition”: Erkennung von Datumsangaben für “Timelines” Beispiele Quelle: Oberhauser/Labner 2003 Automatische Indexieren mit IDX/MILOS Beispiel I Beispiel: Automatisches Indexieren von OPAC-Daten Quelle:[Oberhauser und Labner 2003] Abbildung 7.8: Automatisches Indizieren von OPAC-Informationen: Gut 7.2.2 Architektur IR-System-Architektur [Carstensen et al. 2004, 483] Frage 68 Quelle: Oberhauser/Labner 2003 Automatisches Indexieren mit IDX/MILOS Beispiel 2 Quelle:[Oberhauser und Labner 2003] Abbildung 7.9: Automatisches Indizieren von OPAC-Informationen: Schlecht Warum hat es zwischen dem Kästchen “Anfrage-Compiler” und “Termextraktion und linguistische Normalisierung” eine Verbindung? 7.2.3 Retrieval Dokument als Menge von Indextermen Definition 7.2.6 (engl. bag of words (BOW)). Im IR wird ein Dokument meist als Menge von Indextermen betrachtet. Definition 7.2.7 (Boolsches Retrievalmodell). Im Boolschen Retrievalmodell werden die einzelnen Suchterme der Anfrage mit den logischen Operatoren “UND”, “ODER” und “NICHT” verknüpft zu einer komplexen Anfrage. Beispiel 7.2.8 (Logische Operatoren). Die Anfrage "Schuhmacher UND Suzuka UND (NICHT Michael)" bedeutet: Finde alle Dokumente, welche • den Indexterm Schuhmacher und Suzuka enthalten, aber • den Indexterm Michael nicht enthalten. Probleme des Boolschen Retrievalmodells Zweiwertigkeit Wegen der klassischen Zweiwertigkeit, d.h. keine partiellen Treffer, können (bei kleineren Dokumentensammlungen) gerne keine Treffer entstehen. Bei grossen Dokumentensammlungen wiederum können übergrosse Treffermengen entstehen. Eine gute Reihenfolge der Suchresultate nach Relevanz ist notwendig (erweitertes Boolsches Modell) Dokument als Indexterm-Menge Die Dependenzen zwischen den Wörtern lassen sich nicht darstellen. Ein Aufsatztitel wie “A formal specification language for the automatic design of chips by computer” bedeutet dasselbe wie die Wortliste “automatic, chip, computer, design, formal, language, specification”. 69 Abbildung 7.10: Generelle Architektur von IR-Systemen nach [Carstensen et al. 2004] Problem der Mengen-Repräsentation für die Suche Zwar finden Anfragen wie: • design languages for computer chips: design UND languages UND computer UND chips • languages for the design by computer: language UND design UND computer das Dokument “A formal specification language for the automatic design of chips by computer”. Aber auch Anfragen im Sinn von • the formal design of chips 70 • the specification of computer languages • the automatic design of specifications würden das Dokument finden. 7.2.4 Relevanz Relevanzabschätzung von Indextermen Um die Relevanz von Indextermen gegenüber Dokumenten, welche sie enthalten, abschätzen zu können, werden unterschiedlichste Masse angewendet und kombiniert. Definition 7.2.9 (engl. term frequency (TF)). Die Relevanzhypothese zur Termhäufigkeit besagt: Je häufiger ein Indexterm in einem Dokument erscheint, umso relevanter ist das Dokument für den Term. Definition 7.2.10 (engl. inverse document frequency (IDF)). Die Relevanzhypothese zur inversen Termhäufigkeit besagt: Je seltener ein Indexterm eines Dokuments D in anderen Dokumenten der Gesamtkollektion erscheint, umso relevanter ist Dokument D für den Indexterm. Überlegungen zu Stoppwörter, TF und IDF Fragen 1. Wie verhalten sich typische Stoppwörter bezüglich TF und IDF? 2. Wie verhält sich ein Wort bezüglich TF und IDF, das in einer Dokumentensammlung nur 1 Vorkommen hat? 3. Welche Auswirkungen hat es, wenn eine Dokumentensammlung sowohl sehr kurze wie auch extrem lange Dokumente enthält? 4. Wie könnte man die Information über TF und IDF miteinander kombinieren zu einer einzigen Bewertung? Die TF/IDF-Formel nach [Salton 1988] • N die Anzahl Dokumente in einer Dokumentensammlung DS • i ein Dokument aus der Dokumentensammlung DS • j ein Indexterm • fj die Anzahl der Dokumente aus DS, welche den Indexterm j enthalten • ti,j die Anzahl der Vorkommen von Indexterm j im Dokument i • wi,j das Gewicht (Relevanz), welche dem Dokument i bezüglich dem Indexterm j zukommt wi,j = ti,j × log Fragen Welche Werte kann ti,j und N fj N fj maximal/minimal annehmen? Was macht log? 71 7.3 Text-Mining Das Problem Volltextsuche vs. Text-Mining • In der Volltextsuche geht es darum, ad hoc ein Informationsbedürfnis zu stillen, indem relevante Dokumente gefunden werden, welche die Information (hoffentlich) enthalten. • Im Text-Mining geht es darum, automatisch neue Information aus Texten zu erschliessen. Data-Mining vs. Text-Mining • Im Data-Mining wird mit statistischen und Methoden der künstlichen Intelligenz versucht, aus strukturierten Daten Ähnlichkeiten, Tendenzen und Zusammenhänge in grossen Datenmengen zu entdecken. • Im Text-Mining soll dasselbe aus Text-Daten heraus geschehen – der grössten Informationsquelle überhaupt. Literature Based Discovery [Hearst 1999] Ein reales Beispiel aus der Medizin zur Forschungsinspiration: “When investigating causes of migraine headaches, he [Don Swanson] extracted various pieces of evidence from titles of articles in the biomedical literature:” Paraphrasen: • stress is associated with migraines • stress can lead to loss of magnesium • calcium channel blockers prevent some migraines • magnesium is a natural calcium channel blocker • migraine patients have high platelet aggregability • magnesium can suppress platelet aggregability • ... Daraus entstand die Hypothese, dass Magnesium und Migräne in einem Zusammenhang stehen können. 7.4 Vertiefung • Pflichtlektüren: [Carstensen et al. 2004, 5.3] sowie die Lektüren aus den schriftlichen Übungen ([Mehler und Wolff 2005]) • Vertiefungslektüre: Kapitel “Das World Wide Web” [Carstensen et al. 2004, 4.7] 72 • Eine Sammelsurium zum Thema “Information Retrieval” http://ir.exp.sis.pitt.edu/ res2/resources.php • Vertiefungslektüre zum Thema “Text-Mining” [Hearst 1999] • Lerneinheit “Reduzieren von Wortformen” im CLab: http://www.cl.uzh.ch/clab/reduzieren/ 73 8 Kondensation und Klassifikation von Texten Lernziele • Kenntnis über die unterschiedlichen Ausprägungen texttechnologischer Informationsaufbereitung • Kenntnis über die Aufgaben der Textzusammenfassung, -klassifikation und Informationsextraktion und den Einsatz von CL-Techniken dabei Textverdichtung à la Wordle Abbildung 8.1: Wordle “Wordle” http://www.wordle.net generiert aus einer Definitionssammlung Texttechnologie Das Problem der Bewirtschaftung von textueller Information hat verschiedenste “Aspekte”, welche meist “irgendwie” verwandt sind. • Suchen • Zusammenfassen • Extrahieren von interessierenden Grössen und ihren Beziehungen • Klassifizieren 74 Üb Übersetzung via Transfer der syntaktischen Struktur (gängige Systeme) Übersetzung via semantische Interlingua (theoretisch guter Ansatz) CL in IuD I – 17 • Gruppieren (Clustering) • Indizieren mit Deskriptoren Textsortenzoo Je nach Textsorte und gesellschaftlicher Textverwendung ergeben sich spezifische Anwendungen: technische Handbücher (oft riesig), Testberichte, Patente, Gesetzestexte, E-Mails, wissenschaftliche Texte, News usw. xtzusammenfassung Ansä 8.1 Textzusammenfassung 8.1.1 Modell «Language understanding is somewhat like counting from one to infinity; language generation is like counting from infinity to one.» (Y. Wilks) e Textzusammenfassung Grundmodell des verstehenden Zusammenfassen Der Text der Kurzfassung wird erzeugt ausgehend von einer semantischen Form. Sehr schwierig! Einfachere Variante… formationsextraktion Herausfiltern fixer Sachverhaltsmuster 195 196 Quelltext Kurztext verstehen generieren Bedeutung verdichten kompression (TK) Problem Aus einem Dokument werden die wichtigsten Sätze extrahiert. Language understanding is somewhat like counting from one to infinity; language generation is like counting from infinity to one. CL Wilks in IuD I nach – 19 [Dale et al. 1998]) (Zitat von Yorick Ausweg Textextraktion bzw. -kompression, d.h. Auswählen der wichtigsten Textteile anstelle echter Zusammenfassung. 8.1.2 Terminologie Terminologie Definition 8.1.1 (abstract). Die Textzusammenfassung bedingt eine Reformulierung des Texts. Definition 8.1.2 (extract). Die Textextraktion ist typischerweise eine Auswahl an wichtigen Sätzen eines Texts. Definition 8.1.3 (informative summary III). An informative summary is meant to represent (and often replace) the original document. Definition 8.1.4 (indicative summary). An indicative summary’s main purpose is to suggest the contents of the article without giving away detail on the article content. 75 199 Bedeutung Beispiel "Übernahmefakten": Welche Firma hat wann des inhaltsbasierten Textzusammenfassen Grundmodell des verstehenden welche andere Firma für Abbildung 8.2: Grundmodell Zusammenfassen wieviel Geld übernommen? Beispiele? Statis Lingu seit 8.1.3 Ansätze Ansätze der Textextraktion/-kompression Statistische und heuristische Verfahren • [Luhn 1958]: Vorkommen von Wörtern mittlerer Häufigkeit • [Edmundson 1969]: – Satzposition im Abschnitt (Anfang/Ende wichtiger als Mitte) – wichtige Schlüsselwörter (z.B. aus Überschriften) vs. Füll- bzw. Stoppwörter • [Kupiec et al. 1995]: Lernendes System, das aus bestehenden Abstract-Dokument-Paaren generalisiert! – Satzlänge > 5; Wortmerkmale (Grossschreibung, Länge, Häufigkeit) – Textsortenspezifische Indikatorphrasen für zentrale Aussagen “In conclusion,” – 80% der Sätze in den Abstracts (von professionellen Zusammenfassern!) waren wörtlich oder nur minim modifiziert im Dokument! • Varianten und Verfeinerungen solcher heuristischen Methoden sind heute gängig (z.B. Microsoft Word Zusammenfassung) Linguistische und wissensverarbeitende Verfahren Seit 70er Jahren: Meist sehr anwendungsspezifisch. Telegraphische Verkürzung Beispiel 8.1.5 (STREAK: Zusammenfassung als Textgenerierung). Ein System, das strukturierte Daten über Basketballspielen zu “natürlich” erscheinenden Kurztexten aufbereitet. Telegraphische Verkürzung Beispiel 8.1.6 (Scisor: Zusammenfassung als Antwortgenerierung). EinSatzbasiertes System, das Presseberichte über "unwichtiger" Unternehmensübernahmen analysiert und in einer WisAuslassen Element sensdatenbank ablegt. Natürlichsprachliche Benutzeranfragen werden mit den “verstandenen” Nur Subjekte, Objekte, Verbalkerne, Präpositionen und abhängige Nominalkerne Berichten abgeglichen und Teile daraus als Antworten zurückgegeben. Satzbasiertes Auslassen "unwichtiger" Element Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Kernfunktion! Nur Subjekte, Objekte, Verbalkerne, Präpositionen und abhängige Nominalkerne Exkurs:Weiterentwicklungen Telegraphische Zusammenfassung Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Kernfunktion! Weglassen von inhaltlich1998] unwichtigen Satzbestandteilen Beispiel 8.1.7 ([Grefenstette telegraphisches Tool). unter Beibehaltung der syntaktischen Wohlgeformtheit Weiterentwicklungen Weglassen von inhaltlich unwichtigen Satzbestandteilen unter Beibehaltung der Text summarization producing version of Text summarization is usually taken to mean syntaktischen Wohlgeformtheit producing a shorter version of an original document by retaining the most salient parts of the original text. Two approaches have been Text summarization is usually to mean sentences favored: selecting high taken content-bearing producinginfluenced a shorter by version of an original and positional constraints, documentperforming by retaining thedependent most salient parts of domain information which fills a template the originalextraction text. Two approaches havefrom beenwhich a glossed. favored: summary selecting can highbecontent-bearing sentences influenced by positional constraints, and performing domain dependent information extraction which fills a template Abbildung from which a8.3: summary can be glossed. document by retaining parts of text. Two approaches favored sentences influenced by constraints and extraction fills template from Textsummary summarization glossed. producing version of document by retaining parts of text. Two approaches favored sentences influenced by constraints and extraction fills template from G. Grefenstette (1998): Producing intelligent telegraphic text summary glossed. reduction to provide an audio scanning service for the blind Telegraphische Verkürzungstechnik CL in IuD I – 21 G. Grefenstette (1998): Producing intelligent telegraphic text reduction to provide an audio scanning service for the blind CL in IuD I – 21 76 Verallgemeinerungsprobleme der CL Ansatz • Linguistisch motiviertes Auslassen bestimmter Elemente: Nur Subjekte, Objekte, Verbalkerne, Präpositionen und die Nominalkerne • Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Funktion • Weiterentwicklungen: Weglassen von inhaltlich unwichtigen Satzteilen unter Beibehaltung der syntaktischen Wohlgeformtheit Aktuelle statistikbasierte Forschung Sentence compression In der Forschung wird die Text-Kompression auf Satzebene mit lernenden Verfahren verfolgt [Cohn und Lapata 2008]: Einfaches Eliminieren irrelevanter Wörter (word deletion) und auch reformulierendes Zusammenfassen (abstracting). Beispiel 8.1.8 (Extracting vs. Abstracting nach [Cohn und Lapata 2008]). • But a month ago, she returned to Britain, taking the children with her. (Original) • But she returned to Britain with the children. (Mensch) • She returned to Britain, taking the children. (Wort-Löschung) • But she took the children with him. (Reformulierendes Abstracting) Fazit Textzusammenfassung Was zeichnet gute Textzusammenfassung/-kompression aus? Relevanz Ist das Wichtige drin? Ist das Unwichtige weggelassen? Ist die Zusammmenfassung redundanzfrei? Lesbarkeit Wie fügt sich die Zusammenfassung zusammen (Textkohärenz)? Fehlen Bezugsausdrücke von anaphorischen Ausdrücken? (dangling pronouns) Parametrisierbarkeit Kann ich den Grad an Kompression beeinflussen? Gibt es eine Form von Benutzermodellierung? 8.2 Informationsextraktion Informationsextraktion Definition 8.2.1. Ein Informationsextraktionssystem extrahiert auf Grund vorgegebener Informationsmuster (template, Merkmal-Wert-Paare) aus Textdokumenten gefüllte Instanzen dieser Muster. Informationsextraktion ist ein seit den 90er-Jahren (MUC-Konferenzen) eine aktive und erfolgreiche Forschungsrichtung. 77 Beispiel 8.2.2 (IE-Anwendungsszenario III). An IE system analyses newspaper articles to find instances of corporate mergers and joint ventures. The system identifies all the participating corporations, products and services associated with the joint venture, and other details such as the amount of investment capital and the names of the associated partners. 8.2.1 IE vs. IR Unterschied IE vs. IR III Information Retrieval gets sets of relevant documents – you analyse the documents. Abbildung 8.4: IR Information Extraction gets facts out of documents – you analyse the facts. Abbildung 8.5: IE 8.2.2 Klassische IE 5 klassische Aufgaben eines IE-Systems nach [Cunningham 1999] Named Entity Recognition (NER) Bezeichnungen von Personen, Organisationen, Daten usw. finden und klassifizieren. Coreference Resolution(CO) Identitätsbeziehungen zwischen erkannten Entitäten bestimmen. Z.B. “Bundeskanzler Schröder”, “Schröder”, “G. Schröder” , “er” usw. aufeinander beziehen. Template Element construction (TE) Anreicherung an beschreibender Information zu interessierenden Grössen aus der Textkollektion oder externen Wissensquellen. Z.B. wurde die Stadt Toronto identifiziert und die Information hinzugefügt, dass sie in Kanada liegt. 78 Template Relation construction (TR) Entdecken und klassifizieren von Beziehungen zwischen in interessierenden Entitäten. Z.B. medizinische IE (http://www.ontogene.org): Entdecken von Beziehungen zwischen Proteinen und Genen. Scenario Template production (ST) Integration der Information über TE und TR in anwendungsspezfische Szenarien. Z.B. Entdecken von typischen wirtschaftskriminellen Machenschaften. Bemerkung Die Lösung dieser 5 Aufgaben (sog. tasks) wurde in verschiedenen wettbewerbsmässigen Evaluierungskonferenzen erfolgreich optimiert. Typisches IE-System Abbildung 8.6: http://www.ontos.ch/de/products/ontosminer.php 8.3 Textklassifikation 8.3.1 Kategorisieren Klassische Klassifikationstasks Definition 8.3.1 (Textklassifikation). Die Texte einer Textkollektion sollen einer oder mehreren Klassen eines meist hierarchisch aufgebauten Klassifikationssystems zugeordnet werden. Beispiel 8.3.2 (Reuters Task). Zeitungsnachrichten sollen in die Rubriken wie Politik, Wirtschaft etc. eingeordnet werden. Eine eher leichte Aufgabe, welche zu fast 90% gelöst werden kann mit lernenden Verfahren. Beispiel 8.3.3 (Message Routing). Zuordnen (ev. an den Papierkorb) von elektronischen Dokumenten an ihre Adressaten aufgrund des Inhalts. Mitteilungsdienste, Kundenanfragen usw. 79 Kategorisierung von E-Mail Spam vs. Nicht-Spam Eine der populärsten Textklassifikationsaufgaben zur Zeit ist die Einteilung von E-Mail in die Kategorie Spam. Fast alle Methoden der Textklassifikationsstradition wurden auf diese Problem angewendet. Erfolgreich sind insbesondere statistische und lernende Systeme. 8.3.2 Clustering Clustering (Gruppenbildung) Im Gegensatz zur Klassifikation über vorgegebenen Kategorien werden beim Clustering Textkollektionen nur auf Grund inhärenter Merkmale gruppiert, sodass die Texte innerhalb eines Clusters möglichst ähnlich (homogen) sind und zwischen den Clustern möglichst klare Unterschiede bestehen. Beispiel 8.3.4 (Suchmaschine mit Clustering). Eine Anwendungsmöglichkeit von Clustering ist es, Suchresultate nach “Themen” zu clustern: http://clusty.com/ 8.4 Vertiefung • Pflichtlektüren: Informationsextraktion und Textzusammenfassung [Carstensen et al. 2004, 5.5-6] sowie die Lektüren aus den schriftlichen Übungen • Experimentieren im Umfeld von IR und Textklassifikation http://www.cl.uzh.ch/clab/ reduzieren/ilap_informationretrieval/ 80 9 Sprachsynthese und Spracherkennung Lernziele • Kenntnis über die Teilfunktionen und Verarbeitungsstufen eines typischen Systems zur Sprachsynthese und der Spracherkennung • Kenntnis über die Probleme und Ansätze solcher Systeme • Kenntnis über die Einsatzmöglichkeiten von CL-Techniken • Kenntnis über sprachtechnologische Standards 9.1 Sprachsynthese Sprachsynthesesysteme III Definition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einer Zeichenkette (Text) ein akustisches Signal. Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus. Beispiel 9.1.2 (Ein deutscher Stolpersatz). “Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.” • Welche Schwierigkeiten liegen vor? • Was kann ein TTS damit anfangen? Z.B. [German 2006] Qualitätsmerkmale für Sprachsynthese • Silbenübergänge: Wie natürlich werden Silbenübergänge lautiert? • Wortbetonung: Sind die Betonungen bei (unbekannten) Wörtern korrekt? • Satzmelodie/Satzbetonung: Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral? • Sprechtempo: Zu schnell, zu langsam? • Sprechrhythmus: Monotones Geraspel oder gegliederte Information? • Pausen: Finden Sprechpausen (an der richtigen Stelle) statt? Weiteres Unterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es, wenn das Sprechtempo stark erhöht werden kann. 81 Einsatzmöglichkeiten von Sprachsynthese • (Mobil-)Telefonie: Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurse usw.), welche meist mit einem Spracherkennungssystem gekoppelt sind • Informationssysteme, welche keine visuelle Ablenkung erzeugen dürfen: Navigationssysteme im Auto, E-Mail-Vorlesesysteme im Auto usw. • Computerarbeitsplätze für Sehbehinderte • Künstliche Stimme für Sprechbehinderte • Sprachenlernen • ... 9.1.1 Architektur Typische Architektur von TTS Vom der Zeichenkette zum Laut 1. Tokenisierung 2. Lexikalische Analyse mit einem Lexikon 3. (Flache) syntaktische Analyse für lexikalische Desambiguierung und für die syntaktische und prosodische Phrasierung (Phrasengrenzen und Akzente) 4. Phonologische Analyse 5. Lautproduktion aufgrund der Phonemfolge mit Information zu Lautdauer und Intonation Beispiel-Architektur von MARY TTS 9.1.2 Ausgewählte Probleme Aussprache von Ziffern und Abkürzungen Die Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischen Kulturräumen [Liberman und Church 1992]. Beispiel 9.1.3 (Varianten im Deutschen). • Einzelziffern: 1456 “ Konto eins vier fünf sechs” • Zahl: 1456 “Eintausendvierhundertsechsundfünfzig” • Hunderter: 1456 “Vierzehnhundert(und)sechsundfünfzig” • Paare oder Trippel: “044 344 56 10” • Ordinalzahlen: “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.” Frage Welche Aussprachen sind für welche Grössen verbreitet? Probleme bei Abkürzungen Welche Schwierigkeiten stellt die Aussprache von Abkürzungen? 82 Abbildung 9.1: Architektur von MARY-TTS-System Prosodie Um Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguistische Analysen. Beispiel 9.1.4 (Satzintonation und -rhythmus). The rear aggregate pumps . . . • . . . work fine. • . . . 50 gallons of fuel a second into the engine. Beispiel 9.1.5 (Satzbetonung und Pausen). • She left DIRECTIONS for Joe to follow. • She left directions for Joe to FOLLOW. Was ist Prosodie auf Satzebene? [Bader 2006] Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenzverlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenen Sprache wieder. Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Computer zu analysieren, ist unter http://www.praat.org zu finden. 83 Abbildung 9.2: Satzintonation im Deutschen nach [Bader 2006] Prosodie: ToBI-Modell (Tones and Break Indices) • H (high): Hohe Satzmelodie • L (low): Tiefe Satzmelodie • [HL] *: Auszeichnung der betonten Silbe • [HL] +[HL] : Tonwechsel innerhalb von Wörtern • [HL] %: Satzendebetonung • [HL] – : Phrasenbetonung (sekundärer Satzakzent) Beispiel: Prosodie [Simmons 2006b] Weitere Probleme • Mehrdeutigkeiten der morphologischen Analyse: Wählerstimmen = wähl+erst+imme+n 84 Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm Abbildung 9.3: Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a]) • Einschlüsse verschiedener Sprachen in einem Text “Er hat dies nur contre coeur live gesungen.” • Umgang mit named entities 9.1.3 Analyseebenen Phonetische Analyse Wie werden die einzelnen Laute eines Wortes in Isolation repräsentiert? Definition 9.1.6 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch enthält für (flektierte) Wortformen eine Repräsentation in einer Lautschrift. Z.B. in Form des International Phonetic Alphabet (IPA) http://www.arts.gla.ac.uk/IPA, bzw. einer auf Computern einfacher verwendbareren Kodierung davon. Beispiel 9.1.7 (Formate elektronischer Aussprachewörterbücher nach [Jurafsky und Martin 2000]). • Pronlex: +arm.xd’Il.o, • CELEX (britisch): "#-m@-’dI-15 = [a:.m@."dI.l@U], • CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [arm2"dI.loU] IPA-Lautschrift für Deutsch 85 Quelle: [Carstensen et al. 2004, 157] Abbildung 9.4: IPA-Symbole für Deutsch Phonetische Lautschrift (SAMPA German) Eine in ASCII kodierte Notationsvariante für IPA-Symbole. • : (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze) • Plosive: p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem) • Frikative: f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r (rein), h (Hand) • Sonoranten: m (mein), n (nein), N (lang), l (laut), j (ja) • Ungespannte Vokale: I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a (Satz), @ (bitte), 6 (kurz), • Gespannte Vokale: i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot) Frage Wie kann man das Wort “jenseits” schreiben? Diphone und Halbphoneme Die Verwendung der klassischen linguistischen Einheit Phonem (35-50 pro Sprache) für Sprachgenerierung ergibt keine guten Systeme. Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen? 86 Definition 9.1.8 (Diphone III). Ein Diphon geht von der Mitte eines Phonems zur Mitte des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone, für Spanisch auf 800. In der Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten. Beispiel 9.1.9 (Stimmen klonen mit Halbphonemen III). AT&T Natural Voices konnte im Jahr 2001 aus ca. 40h Stimmaufnahmen eine sehr natürliche Kunststimme extrahieren. Dazu wurden u.a. die verschiedensten Sprechvarianten von Phonemen aufgenommen und jeweils in der Mitte halbiert. Phonologische Analyse Welche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichen Kontext gelten? Definition 9.1.10 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unter denen phonologische Alternationen statt finden. Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafür an. Beispiel 9.1.11 (Phonologische Alternationen). Das Plural-s wird im Englischen je nach Umgebung ganz unterschiedlich ausgesprochen: “peaches”, “pigs”, “cats”. Teilweise lassen sich solche Effekte durch maschinelle Lernverfahren aus den Daten ableiten. Sprachkonserven Am primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustische Sprachkonserven nacheinander ausgegeben werden. Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen." Beispiel 9.1.12 (Ein Problem zu einfacher Ansätze). • lead: Verb /li:d/ (führen); Nomen: /led/ (Blei) • increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen) Speech Synthesis Markup Language (SSML) Dieser XML-Standard erlaubt eine strukturierte Spezifikation von verschiedenen Parametern einer Speech-Applikation. <p> <s xml:lang="en-US"> <voice name="David" gender="male" age="25"> For English, press <emphasis>one</emphasis>. </voice> </s> <s xml:lang="es-MX"> <voice name="Miguel" gender="male" age="25"> Para español, oprima el <emphasis>dos</emphasis>. </voice> </s> </p> http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/ 87 9.2 Spracherkennung Spracherkennungssysteme Definition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus dem akustischen Signal von gesprochener Sprache eine textuelle Darstellung. Definition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnet aus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung. Spracherkennung ist schwieriger als Sprachsynthese. Warum? Typische Architektur Vom Sprachsignal zur Wortfolge 1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals: Merkmalsextraktion) 2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phoneme, Diphone, Silben), mit denen sich die Wörter zusammensetzen 3. Lexikalische Analyse: Erkennen von Wortkandidaten 4. Syntaktische Analyse: Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche 5. Semantische Analyse: Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen 9.2.1 Probleme Wortübergänge (Junkturen) Wortgrenzen werden eher selten als Sprechpausen realisiert. Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Verlängerung beginnender Konsonanten oder Betonung endender Vokale. Definition 9.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonems durch seine Umgebung. Beispiel 9.2.4 (Assimilation). R • this year → this ear • the old man → thiold man Wortübergänge (Junkturen) Beispiel 9.2.5 (Epenthese und Auslassung). • China is → Chinaris • best buy → besbuy Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)). • night-rate ↔ nitrate ; grey day ↔ grade A; why choose ↔ white shoes • The sad poet remembers a long ago time ↔ Thus add poetry members along a goat I’m 88 Weitere Störfaktoren • Unbekannte Wörter, u.a. zu kleines Lexikon • Hintergrundsgeräusche • Schlechte Mikrophone • Sprecherspezifische Eigenheiten: schnelles oder undeutliches Artikulieren, dialektale Färbung • Wenig kollaborative Kommunikation: Im Gegensatz zur menschlichen Kommunikation weiss ein Spracherkennungssystem selten, worum es geht. 9.2.2 Worthypothesengraph Worthypothesengraph In einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsentiert. Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrschein- Abbildung 9.5: Worthypothesengraph aus [Carstensen et al. 2004, 580] lichsten Pfad auswählen. 9.2.3 Wortfehlerrate Wortfehlerrate (word error rate, WER) Definition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen versteht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zu machen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) oder eingefügt (INS) werden. Definition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern). W ER = 100 × NSU B + NIN S + NDEL N 89 Abbildung 9.6: Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581] 9.3 Dialogsysteme 9.3.1 Typen Dialogsysteme Ein natürlichsprachliches Dialogsystem erlaubt Kommunikation zwischen Computer und Mensch mittels menschlicher Sprache. Definition 9.3.1 (Kommandowortsysteme). Ein Kommandowortsystem erlaubt die einseitige Steuerung von elektronischen Geräten durch Äusserungen. Definition 9.3.2 (Interactive Voice Response System (IVR)). Ein IVR erlaubt die sprachliche Navigation durch ein starres Menu. Benutzer kann nur reagieren. III Definition 9.3.3 (Conversational User Interface (CUI)). Ein CUI soll nebst der Steuerung eines Devices den Benutzer pro-aktiv beratend unterstützen. Dialoge sollten von Mensch und Maschine gesteuert sein (mixed-initiative dialogue). 9.3.2 VoiceXML VoiceXML III Dieser XML-Standard erlaubt eine strukturierte Spezifikation von (einfachen) natürlichsprachlichen Dialogsystemen (Bestellvorgänge, Chatbots usw.), welche Web-Services via Telefon verfügbar machen. VoiceXML beinhaltet ... VoiceXML-Dokumente beschreiben • Gesprochene Eingaben (synthetische Sprache) • Ausgaben von Audiodateien und -streams • Erkennung von gesprochenen Wörtern und Sätzen • Erkennung von Tonwahl (DTMF) • Aufnahme gesprochener Eingaben • Kontrolle des Dialogflusses • Telefoniekontrolle (Anruftransfer und Auflegen) 90 Abbildung 9.7: Anwendungsszenario VoiceXML nach [Raggett 2001] 9.4 Vertiefung • Pflichtlektüren: [Carstensen et al. 2004, 5.7,5.8.1(nur dieses Kapitel),5.9] sowie die Lektüren aus den schriftlichen Übungen • Kapitel “3.1.1 Phonologie: Probleme und Terminologie” aus [Carstensen et al. 2004] • Für an Sprachtechnologie Interessierte: “HAL’s Legacy” http://www-mitpress.mit.edu/ e-books/Hal/chap6/six1.html • Viele historische Beispiele für Sprachsynthese http://www.cs.indiana.edu/rhythmsp/ ASA/Contents.html • Das didaktisch orientierte Tool MARY http://mary.dfki.de/, das wir im CLab integriert haben. • Beispiel Fussballreportersprache:[MARY 2006] • SAMPA: Kurzbeschreibung unter http://de.wikipedia.org/wiki/SAMPA und Hauptseite unter http://www.phon.ucl.ac.uk/home/sampa/index.html • MBROLA:http://tcts.fpms.ac.be/synthesis/mbrola.html • http://www.voicexml.org • Beispiele: Dialoggestaltung [excelsis 2007]; Erkennung von Dialekten [ORF 2007b, ORF 2007a] 91 10 Maschinelle Übersetzung I Lernziele • Kenntnis über Automatisierbarkeit der Übersetzungsleistung • Kenntnis über sprachtechnologische Unterstützung des menschlichen Übersetzenden • Kenntnis über Verfahren zur automatischen Satzalignierung • Kenntnis über Evaluationskriterien, BLEU-Score und Nutzen von parallelen Baumbanken 10.1 Einführung 10.1.1 Altes Problem Die Ursache (1. Buch Moses (Genesis) Kapitel 11) Es hatte aber alle Welt einerlei Zunge und Sprache. Als sie nun nach Osten zogen, fanden sie eine Ebene im Lande Schinar und wohnten daselbst. Und sie sprachen untereinander: Wohlauf, laßt uns Ziegel streichen und brennen! - und nahmen Ziegel als Stein und Erdharz als Mörtel und sprachen: Wohlauf, laßt uns eine Stadt und einen Turm bauen, dessen Spitze bis an den Himmel reiche, damit wir uns einen Namen machen; denn wir werden sonst zerstreut in alle Länder. Da fuhr der HERR hernieder, daß er sähe die Stadt und den Turm, die die Menschenkinder bauten. Und der HERR sprach: Siehe, es ist einerlei Volk und einerlei Sprache unter ihnen allen, und dies ist der Anfang ihres Tuns; nun wird ihnen nichts mehr verwehrt werden können von allem, was sie sich vorgenommen haben zu tun. Wohlauf, laßt uns herniederfahren und dort ihre Sprache verwirren, daß keiner des andern Sprache verstehe! So zerstreute sie der HERR von dort in alle Länder, daß sie aufhören mußten, die Stadt zu bauen. Daher heißt ihr Name Babel, weil der HERR daselbst verwirrt hat aller Länder Sprache und sie von dort zerstreut hat in alle Länder. Man rechnet heute mit ca. 6000-7000 gesprochenen Sprachen (Das Summer Institute of Linguistics zählt aktuell 6900). Da die Abgrenzung von Dialekten von Sprachen nicht trivial ist, sind diese Zahlen mit einer gewissen Vorsicht zu geniessen. Die Bibel ist das am häufigsten übersetzte Werk, insgesamt in etwa 468 Sprachen. 10.1.2 Alter Traum Lösungsansatz I (Lukasevangelium 2. Kapitel) Und als der Pfingsttag gekommen war, waren sie alle an einem Ort beieinander. Und es geschah plötzlich ein Brausen vom Himmel wie von einem gewaltigen Wind und erfüllte das ganze Haus, in dem sie saßen. Und es erschienen ihnen Zungen zerteilt, wie von Feuer; und er setzte sich auf einen jeden von ihnen, und sie wurden alle erfüllt von dem heiligen Geist und fingen an, zu predigen in andern Sprachen, wie der Geist ihnen gab auszusprechen. [...] Als nun dieses Brausen geschah, kam die Menge zusammen und wurde bestürzt; denn ein jeder hörte sie in seiner eigenen Sprache reden. Sie entsetzten sich aber, verwunderten sich und sprachen: Siehe, sind nicht diese alle, die da reden, aus Galiläa? Wie hören wir denn jeder seine eigene Muttersprache? Parther 92 und Meder und Elamiter und die wir wohnen in Mesopotamien und Judäa, Kappadozien, Pontus und der Provinz Asien, Phrygien und Pamphylien, Ägypten und der Gegend von Kyrene in Libyen und Einwanderer aus Rom, Juden und Judengenossen, Kreter und Araber: wir hören sie in unsern Sprachen von den großen Taten Gottes reden. Sie entsetzten sich aber alle und wurden ratlos und sprachen einer zu dem andern: Was will das werden? Andere aber hatten ihren Spott und sprachen: Sie sind voll von süßem Wein. 10.1.3 Neuer Traum Lösungsansatz II: Einsatz von Rechenmaschinen Maschinelle Übersetzung (MÜ) Die Geburtsstunde der maschinellen Übersetzung wird ums Jahr 1947 angesetzt. Ihre Urväter, Warren Weaver und Andrew D. Booth, kamen beide vom Codebrechen her. [Weaver 1955] zitiert in seinem berühmten Memorandum “Translation” von 1949 aus seinem Brief an Norbert Wiener (MIT) aus 1947: When I look at an article in Russian, I say: “This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.” Have you ever thought about this? As a linguist and expert on computers, do you think it is worth thinking about? Frage Wie war wohl Wieners Reaktion? Second?as to the problem of mechanical translation, I frankly am afraid the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasimechanical translation scheme very hopeful. [Weaver 1955] Kurzer historischer Abriss der MT • 1947-1954: Pionierphase, welche mit der IBM/Georgetown-MT-Demo endet, welche einen ersten Fluss an Forschungsgeldern auslöst. • 1954-1966: Phase des Optimismus: Entwicklung von syntaktisch orientierten Übersetzungssystemprototypen. Der ALPAC-Report [Pierce et al. 1966] ernüchtert in den USA (und weiteren Ländern) die Geldgeber, welche produktive MT finanziert haben. Der Report verlangt Grundlagenforschung und Benutzerunterstützung. • 1966-1980: Anfangs wenig Forschung in USA, aber verschiedene Systeme entstehen in andern Ländern. • 1980-1990: Diverse Systeme, welche syntaktisches und semantisches Wissen einbringen und teilweise heute noch existieren, entstehen. • Erste Hälfte 1990: IBM lanciert statistische Methoden für MÜ. Übersetzungssysteme für gesprochene Sprache werden erforscht. • Mitte 90-er bis 2000: PC-basierte Übersetzungssystem werden marktreif. WWW und EMail geben Ad-Hoc-Übersetzungen Anwendungspotential. 93 10.2 Terminologie Übersetzungsrichtungen Definition 10.2.1 (Source Language (SL)). Unter der Quellsprache (QS) versteht man die Sprache, die man übersetzen will. Definition 10.2.2 (Target Language (TL)). Unter der Zielsprache (ZS) versteht man die Sprache, in die man übersetzen will. Definition 10.2.3 (Übersetzungsrichtung). Die Anzahl der Übersetzungsrichtung für n Sprachen ergibt sich aus der Formel: n × (n − 1). Beispiel EU 20 offizielle Sprachen der EU bis Ende 2006 Englisch, Deutsch, Französisch, Italienisch, Spanisch, Portugiesisch, Griechisch, Holländisch, Dänisch, Schwedisch, Finnisch, Tschechisch, Estnisch, Litauisch, Lettisch, Ungarisch, Maltesisch, Polnisch, Slowenisch, Slowakisch 3 neue offizielle Sprachen der EU ab 2007 Irisch, Rumänisch, Bulgarisch Beispiel 10.2.4 (Übersetzungsrichtungen in der EU). Für die 20 Sprachen der EU bis 2006 gab es 20 × 19 = 380 Übersetzungsrichtungen. Wieviel mehr sind es mit den 23 Sprachen? Sprachendienst der EU Die EU verwendet und entwickelt seit Jahrzehnten ein eigenes MÜ-System (“Euro Systran”). 1998 wurden 370’000 Seiten übersetzt und ca. 35% Übersetzungszeit eingespart. 10.2.1 MT Maschinelle Übersetzung Definition 10.2.5 (Machine Translation (MT)). Maschinelle Übersetzung (MÜ) meint die vollautomatische Übersetzung eines natürlichsprachlichen Textes in eine andere natürliche Sprache. Definition 10.2.6 (Speech-To-Speech Translation, Machine Interpretation auch Translation ). Maschinelles Dolmetschen meint die vollautomatische Übersetzung gesprochener Sprache in eine andere natürliche Sprache. 10.2.2 CAT Computerunterstützte Übersetzung Definition 10.2.7 (computer aided (assisted, based) translation (CAT)). Computerunterstützte Übersetzung kombiniert menschliche und maschinelle Übersetzungsleistung. 94 Abbildung 10.1: Automatisierungsgrade nach [Hutchins und Somers 1992] 10.2.3 MAHT Computergestützte Humanübersetzung (MAHT) Definition 10.2.8 (CAT-Software). In der computergestützten Humanübersetzung wird Software eingesetzt, welche den Übersetzungsprozess optimiert: • Projekt-Verwaltung und Dokumenten-Editor (automatische Übernahme von Dokumentenformatierung) • Terminologie-Komponente: (halbautomatisches) Erfassen und Pflegen von Begriffen • Alignment-Komponente: Zuordnen von satzweisen Übersetzungspaaren • Translation-Memory-Komponente (TM): Verwaltung der existierenden Übersetzungspaare • Übersetzungs-Komponente: Anwendung von Terminologie und Translation-Memory Vorgehen bei TM-basierter Übersetzung • Textsegmentierung in Sätze oder satzähnliche Fragmente (Titel, Aufzählungen usw.) • Matching (Abgleich) der Sätze auf bestehende Übersetzungen: Übersetzungskandidaten • Auswahl und Bearbeitung: Der Übersetzer wählt aus vorgeschlagenen Übersetzungen aus und passt sie allenfalls an. 100%-Matches garantieren keine fehlerfreie Übersetzung! • TM-Inhalt EN: Turn to the filter on the right. Remove and clean it. • TM-Inhalt DE: Wenden Sie sich dem Filter rechts zu. Nehmen Sie ihn heraus und säubern Sie ihn. 95 • QS EN: Turn to the lock on the right. Remove and clean it. • ZS DE: Wenden Sie sich dem Schloss rechts zu. *Nehmen Sie ihn heraus und säubern Sie ihn. Abbildung 10.2: Beispiel: Dokumenten-Editor mit Zugriff auf TM Beispiel: Partieller Match (Fuzzy Match) Abbildung 10.3: Beispiel: Fuzzy-Match mit 81% Übereinstimmung Die Übereinstimmungsquote für einen Übersetzungsvorschlag lässt sich einsehen oder einstellen. Beispiel 10.2.9 (Partieller Match). Der aktuell vorliegende Text, sowie das im TM abgelegte Übersetzungspaar wird angezeigt. Nicht übereinstimmendes Material in der QS ist gelb, Vertauschung ist blau markiert. 96 Abbildung 10.4: Beispiel: Dokumenten-Editor mit Zugriff auf TM Erstellung von Translation-Memories • Bootstrapping durch Abspeichern aller manuell satzweise übersetzten Übersetzungspaare im CAT-System • Erzeugen von TM durch satzweise alignierte, bestehende Übersetzungen ((halb-)automatische Satz-Alignierung) aus Bi-Texten (Bilinguale Textsammlungen) Ansätze automatischer Satz-Alignierung • Basierend auf der Satzlänge • Basierend auf textuellen Ankern (Wörter, Formatierungen) Exkurs: Satzlängenbasierte Alignierung Ansatz von [Gale und Church 1993] 1. Zuordnung von Absätzen auf Grund ihrer Länge (oder Formatierung) 97 2. Zuordnung von Sätzen innerhalb von Absätzen aufgrund minimaler Längenabweichung der entstehenden Paare Zuordnungsverhältnisse In der Praxis lassen sich die Übersetzungen auf Satzebene fast immer vollständig mit 0:1-, 1:1-, 1:2- und 2:2-Verknüpfungen zuordnen. Zuordnung 1:1 1:2 0:1 2:2 Häufigk. 89% 9% 1% 1% Fehler 2% 9% 100% 33% Tabelle 10.1: Häufigkeit im Test-Korpus von Gale und Church Exkurs: Wortbasierte Satzalignierung Iterativer Algorithmus zur satzweisen Alignierung nach [Kay und Roscheisen 1993] • Initialisierung: Der 1. und der letzte Satz beider Texte werden aligniert und bilden die primären Anker. • Bilde neue Ankerkandidaten: Bilde eine Liste von Paarungskandidaten, welche textlich nah stehen und keinen Ankerpunkt überkreuzen. • Verankere die besten Ankerkandidaten, in denen Wortpaare aus QS und ZS besonders häufig gemeinsam auftreten, bzw. gemeinsam fehlen. Alternative zur Verankerung Verwende nummerische Ausdrücke, Eigennamen, Formatierungen zur Bestimmung der besten Ankerkandidaten. Parametrisierung der Alignierung bei Trados WinAlign Alignment über Dokumentstruktur Terminologiekomponente • verschiedene Suchmöglichkeiten • Möglichkeiten zum Import von Glossaren und Wörterbüchern aus dem Anwendungsgebiet • Terminologieextraktion aus Texten, d.h. automatisches Generieren von Kandidaten für Terminologieeinträge • Einsetzen von Wörtern aus dem Glossar in den Text • Terminologiekontrolle zur Konsistenzsicherung der Übersetzung 98 Abbildung 10.5: Parametrisierung der Alignierung bei SDL Trados WinAlign Fazit zu MAHT • Terminologische Exaktheit und Konsistenz ist gross. • Übersetzungsresultate werden wiederverwendbar. • (Neue) Mitarbeitende können von vorhandenem Wissen profitieren • Workflow bei der Übersetzung stark vorstrukturiert. • Zeitmanagement und Projekt-Kosten sind kalkulierbarer. • Unterhalt der Terminologie und TM lohnt sich, falls oft ähnliche Texte zu übersetzen sind. • Hoher Nutzen bei Software-Lokalisierung (Anpassung von Sprache, Masseinheiten usw.) oder Handbüchern, deren unterschiedliche Releases nur wenige Modifikationen enthalten. • Linguistisch intelligenter Umgang mit partiellen Matches ist erwünscht, aber nicht trivial. 10.2.4 HAMT Human-Aided Machine Translation (HAMT) Definition 10.2.10. HAMT bezeichnet Übersetzungsszenarios, bei denen einen maschinelle Übersetzung durch gezielte manuelle 99 Abbildung 10.6: Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign Abbildung 10.7: Export der Alignierung als TM 100 Abbildung 10.8: Terminologie-Verwaltung mit Termbase • Präedition (Vorredaktion: Markieren von Namen, Korrigieren von Fehlern im Quelltext, Ergänzen von Lexikoneinträgen usw.), • Postedition (Nachredaktion: Verbessern der Rohübersetzung, Auflösen von maschinellen Problemstellen (Ambiguitäten, unbekannte Wörter) usw.). ergänzt wird. Die Operationen der Prä- oder Postedition können auch interaktiv geschehen. Projekt: Automatische Übersetzung von Untertiteln QuickKonvert-Projekt von M. Volk mit Untertitelfirma • Übersetzung von Schwedisch nach Dänisch • Mehr als 50’000’000 Wörter pro Sprache • Untertitel sind kurz und via Zeitkode perfekt aligniert • Translation-Memory für exakte Matches • Statistisches Übersetzungsmodell für Rest! 101 Abbildung 10.9: “Rohübersetzung” von erkannter Terminologie Abbildung 10.10: Filmuntertitel sind kurz! 10.2.5 FAHQT Fully automatic high quality translation (FAHQT) Menschliche Übersetzungsqualität durch vollautomatische MÜ Weiterhin utopisch, auch wenn sich immer wieder Leute finden lassen, welche Gegenteiliges für die nahe Zukunft prognostizieren! Aber 102 • Übersetzungstechnologie macht dauernd Fortschritte. • Eingeschränkte Anwendungsgebiete und gute lexikalische Ressourcen erlauben sehr brauchbare Resultate! • Für Informativ-Übersetzungen braucht es keine literarische Qualität. Frage Welche Textsorten eignen sich für automatische Übersetzung? Nach Schwierigkeitsgrad geordnet (*=ohne manuelle Bearbeitung;**=mit Vor-/Nachredaktion; ***=zur Zeit unmöglich): 1. Wetterberichte, Börsenberichte, weitere extrem eingeschränkte Subsprachen* 2. Technische Dokumente, Handbücher ** 3. Rechtsdokumente** 4. Wissenschaftliche Texte** 5. Journalistische Texte*** 6. Literarische Texte, Werbetexte, Filmtexte*** Der Einsatz von Übersetzungsgedächtnissen und ausgebauter Terminologie hat allerdings einen grossen Einfluss auf die Qualität der Resultate bei Texten der Kategorien ** und ***. Wetterberichtstexte Beispiel 10.2.11 (Englische und französische Wetterberichte aus Kanada). Tonight..Cloudy. 60 percent chance of showers early this evening. Periods of rain beginning this evening. Becoming windy near midnight. Low 7. Ce soir et cette nuit..Nuageux. 60 pour cent de probabilité d’averses tôt ce soir. Pluie intermittente débutant ce soir. Devenant venteux vers minuit. Minimum 7. Das berühmte FAHQ-Übersetzungssystem METEO Von 1978-2001 war das Übersetzungssystem METEO (in verschiedenen Versionen) in Kanada für MÜ von Englisch nach Französisch im Dienst. 1991 wurde ca. 45’000 Wörter pro Tag damit übersetzt.[Chandioux 1991] 10.3 Evaluation Qualitätskriterien für Übersetzungen Zielsprachliche Formulierungsgewandtheit (Fluency) Wie fliessend (lexikalisch, syntaktisch und stilistisch korrekt und natürlich) erscheint der übersetzte Text? Quellsprachliche Ausdruckstreue (Faithfulness) Wie genau wurde die ursprüngliche Formulierung übernommen? 103 Beispiel 10.3.1 (Klassiker: Fluent vs. Faithful). • Japanisch: “fukaku hansei shite orimasu” • Englisch I: “We are deeply reflecting (on our past behaviour, and what we did wrong, and how to avoid the problem next time).” • Englisch II: “We apologize.” Qualitätskriterien für Übersetzungen Adäquatheit einer Übersetzung Wieviel der ursprünglichen Information wird in der Übersetzung wiedergegeben? Operationalisierbar durch menschliche Urteile über einer nominalen Skala (Alles, Meiste, Viel, Wenig, Nichts). Informativität einer Übersetzung Reicht eine Übersetzung aus, um gewisse Fragen beantworten zu können. Operationalisiserbar durch task-basierte Evaluation via Multiple-Choice-Aufgaben zum Inhalt. Posteditierungsaufwand Wieviel Zeit benötigt die Postedition? Wieviele Sätze oder Texte brauchen wieviele Modifikationen? Bei METEO-System brauchten 1991 ca. 4% der Texte eine Postedition (bzw. HT). Automatische Evaluation Idee Automatische Evaluation misst die Qualität einer maschinellen Übersetzung, indem sie mit einer oder besser mehreren menschlichen Referenz-Übersetzungen verglichen wird. Vorteile Menschliche Evaluation ist aufwändig und langsam, automatische Berechnung einer metrischen Güte ist billig und schnell. Definition 10.3.2 (Bilingual Evaluation Understudy (BLEU)). Eine der aktuell wichtigsten Metriken zur automatischen bilingualen Evaluation ist der BLEU-Score. 10.3.1 BLEU BLEU: Unigramm-Präzision 1. MT: It is a guide to action which ensures that the military always obeys the commands of the party. 2. MT: It is to insure the troops forever hearing the activity guidebook that party direct. 1. HT: It is a guide to action that ensures that the military will forever heed Party commands. 2. HT: It is the guiding principle which guarantees the military forces always being under the command of the Party. 3. HT: It is the practical guide for the army always to heed the directions of the party. 104 Definition 10.3.3 (Unigramm-Präzision P1 ). Die Unigramm-Präzision (Token-Präzision) eines Übersetzungskandidaten misst, wie hoch der Anteil der Wörter aus allen Referenzübersetzungen C an allen Tokenvorkommen eines Kandidaten ist: P1 = N N = Anzahl Token des Kandidaten; C = Anzahl Token des Kandidaten, welche in einer Referenzübersetzung erscheinen Unigramm-Evaluation Frage Wie hoch sind P1 von MT1 und MT2? Tokenvorkommen • MT1: . a action always commands ensures guide is it military of party that the the the to which • MT2: . is it party that the the to Notwendigkeit für Clipping Problem der Wiederholung • Kandidat: the the the the the the the • HT1: the cat sat on the mat • HT2: there is a cat on the mat Wie hoch ist die P1 des “idiotischen” Kandidaten? 7 7 Clipping der Kandidatenvorkommen Ein Token darf maximal sooft gezählt werden, wie es in einer einzelnen Referenzübersetzung vorkommt. Wie hoch ist P1 des Kandidaten mit Clipping? 2 7 Uni-, Bi-, Tri- und Quadrigramme Längere Textabschnitte im Vergleich Welche N-Gramme aus den Referenztexten finden sich im MT-Kandidaten? 1. MT: It is a guide to action which ensures that the military always obeys the commands of the party. 1. HT: It is a guide to action that ensures that the military will forever heed Party commands. 2. HT: It is the guiding principle which guarantees the military forces always being under the command of the Party. 3. HT: It is the practical guide for the army always to heed the directions of the party. 105 Geometrisches Mittel der N-Gramm-Präzisionen Die Precisionwerte der 1-4-Gramme eines Kandidaten werden geometrisch gemittelt: P = (P1 × P2 × P3 × P4 )1/4 Problem der Kürze • Kandidat: of the • HT1: It is the guiding principle which guarantees the military forces always being under the command of the Party. Wie hoch ist die P1 des Kandidaten? 2 2 Recall-Mass kompensieren Normalerweise würde ein Präzisionsmass mit Recall verrechnet, um solche Effekte zu mindern. Wir haben aber mehrere Referenzübersetzungen. Als Ausweg wird ungewöhnliche Kürze des Kandidaten bestraft. Strafabzug für Kürze über Korpus 1. Schritt: Bestimme die Gesamt-Länge c der Kandidatenübersetzung. 2. Schritt: Bestimme die Gesamt-Länge r der Referenzübersetzungen, indem jeweils die kürzeste (NIST-Variante) oder zur höchsten Bewertung führende Referenzübersetzung genommen wird. 3. Schritt: Bestimme Kürze: brevity = r/c 4. Schritt: Bestimme Strafabzug (brevity penalty): 1 falls c > r BP = (1−brevity) e falls c ≤ r Beispiel 10.3.4 (Realistischer Faktor). Wenn Kandidatenübersetzung 1000 Token zählt (c = 1000) und Referenzlänge als 1100 Token zählt (l = 1100), dann BP = e1−1.1 = e−0.1 = 0.905 BLEU als Formel BLEU-Score ergibt sich aus Multiplikation von Brevity Penalty mit der geometrisch gemittelten Präzision aus 1-4-Grammen. BLEU = BP × (P1 × P2 × P3 × P4 )1/4 = BP × P Wert von 1 heisst “perfekte” Übereinstimmung, Wert 0 heisst keine Übereinstimmung. Eigenschaften BLEU betont enge lokale Übereinstimmung und vernachlässigt Unstimmigkeiten, welche sich darüber hinaus ergeben können:“Ensures that the military it is a guide to action which always obeys the commands of the party.” wäre gleich gut wie Kandidat 1. 106 Wie zuverlässig bildet BLEU das menschliches Urteil ab? • Wortvarianz (Synonyme) wird nur berücksichtigt, wenn in Referenzübersetzungen enthalten • Unwichtige und wichtige Inhalts-Wörter werden gleich behandelt • Für denselben BLEU-Score gibt es Millionen von Kombinationen mit unterschiedlichster Übersetzungsqualität • Regelbasierte Übersetzungssysteme werden gegenüber statistischen gerne abgestraft Abbildung 10.11: Korrelation von menschlichen [Callison-Burch et al. 2006] und BLEU-Bewertungen nach 10.3.2 Parallele Baumbanken Einsatz von parallelen Baumbanken • Korpus von bilingual syntaktisch annotierten Sätzen • Annotation von (Miss-)Matches der Übersetzungen durch Zuordnung auf Wort- und Konstituentenebene Anwendungen • Übersetzungsevaluation mit vertieftem linguistischen Wissen • Evaluationskorpus für Wort-, Phrasen- und Satzalignierung • Trainingskorpus für Regeln der die Transferübersetzung 107 Quelle: SMULTRON http://www.cl.uzh.ch/kitt/smultron/ Abbildung 10.12: Paralleler Syntaxbaum DE-EN 10.4 Vertiefung • Reichhaltiges Sammelsurium zur maschinellen Übersetzung und ihrer Geschichte http: //www.mt-archive.info/ • Lerneinheit “Satz- und Phrasenähnlichkeit” http://www.cl.uzh.ch/clab/satzaehnlichkeit/ 108 11 Maschinelle Übersetzung II Lernziele • Kenntnis über linguistische Probleme bei der Übersetzung • Kenntnis über die wichtigen Ansätze zur maschinellen Übersetzung: Direkte Übersetzung, Transfer-Übersetzung, Interlingua-Übersetzung 11.1 Probleme der Übersetzung Ideale Sprachen für MT Maschinelle Übersetzung von QS nach ZS wäre trivial, wenn folgende Bedingungen erfüllt wären: • Jede Wortform von QS hat genau eine entsprechende Wortform in ZS. • Jeder Satz von QS hat genau eine syntaktische Analyse. • Jeder Satz von QS hat genau eine Bedeutung. • Jedem Konstruktionstyp in QS entspricht genau ein Konstruktionstyp in ZS. 11.1.1 Mehrdeutigkeit Mehrdeutigkeit der Wortart Beispiel 11.1.1 (Mehrdeutige Wortform: Englisch nach Französisch). • You must not use abrasive cleaners on the printer casing. • The use of abrasive cleaners on the printer casing is not recommended. Diagnose Dieselbe Wortform in der QS (“use”) steht für verschiedene Wortformen in der ZS (“emploi/N”, “employer/V”). Minimaler Lösungsansatz Bestimmen der Wortart in der QS, d.h. Tagging. Mehrdeutigkeit von morphologischen Merkmalen Beispiel 11.1.2 (Mehrdeutige Wortform: Englisch nach Deutsch). • We just loved to play football. • He played quarterback and loved to play football. 109 Diagnose Dieselbe Wortform in der QS (“loved”) steht für verschiedene Wortformen in der ZS: liebten/VVFIN:1.Pl.Past.Ind, liebte/VVFIN:3.Sg.Past.Ind. Lösungsansatz Um die korrekte finite Wortform im Deutschen zu wählen, muss man wissen: • Was ist das Subjekt dieses finiten Verbs? • Welche Person und Numerus hat dieses Subjekt? Dieses Wissen kann eine syntaktische Analyse liefern. Mehrdeutigkeit von morphologischen Merkmalen Beispiel 11.1.3 (Mehrdeutige Wortform: Englisch nach Deutsch). • When John drank the winei in the glass he spilled iti . Als Hans den Wein im Glas trank, verschüttete er ihn. • When John drank the wine in the glassi he broke iti Als Hans den Wein im Glas trank, zerbrach er es. Diagnose Dieselbe Wortform in der QS (“it”) steht für verschiedene Wortformen in der ZS: ihn/PPER:3.Sg.Masc.Akk, es/PPER:3.Sg.Neut.Akk. Lösungsansatz Eine syntaktische Analyse allein liefert noch keine Entscheidungsgrundlage. Lexikalisches Sortenwissen und Desambiguierung Die korrekte Übersetzung von “it” ins Deutsche erfordert eine Bestimmung der Bezugsgrösse des Pronomens. Beispiel 11.1.4 (Aus dem elektronischen Lexikon WordNet III). • (v) spill, slop, splatter (cause or allow (a liquid substance) to run or flow from a container) “spill the milk”; “splatter water” • (v) break (destroy the integrity of; usually by force; cause to separate into pieces or fragments) “He broke the glass plate”; “She broke the match” Selektionsrestriktionen von Verben als Ausschlusskriterien Das Akkusativobjekt von “to spill” bezeichnet eine Flüssigkeit. Das Objekt von “to break” kann keine Flüssigkeit sein, weil diese nicht in Stücke gebrochen werden können. 110 Lexikalisches Sortenwissen in der CL Woher weiss der Computer, dass “wine” eine Flüssigkeit bezeichnet? Beispiel 11.1.5 (Begriffshierarchie für “wine” aus WordNet III). (n) wine, vino (fermented juice (of grapes especially)) → (n) alcohol, alcoholic beverage, intoxicant, inebriant (a liquor or brew containing alcohol as the active agent) → (n) liquid (a substance that is liquid at room temperature and pressure) → (n) fluid (a substance that is fluid at room temperature and pressure) → (n) substance, matter (that which has mass and occupies space) → (n) physical entity (an entity that has physical existence) → (n) entity (that which is perceived or known or inferred to have its own distinct existence (living or nonliving)) Frage Warum kann man trotzdem sagen “Er verschüttet ein Glas Wein”? Mehrdeutigkeit von syntaktischen Funktionen Beispiel 11.1.6 (Mehrdeutige syntaktischen Funktionen: Deutsch nach Englisch). Briefträger beißen Hunde selten. Dogs seldom bite postmen. Postmen seldom bite dogs. Diagnose Die halbfreie Wortstellung des Deutschen muss für die ZS Englisch ins SVO-Schema gebracht werden. Das Subjekt ist in der QS aber nicht morphologisch markiert. Mehrdeutigkeit von syntaktischen Funktionen Beispiel 11.1.7 (Anbindung von PP: Deutsch nach Englisch). Den Mann sah die Frau mit dem Fernglas. The woman with the telescope saw the man. The woman saw the man with the telescope. Diagnose Ob die PP als postnominaler Modifikator oder als Verb-Modifikator fungiert muss in der Übersetzung partiell aufgelöst werden. Lösungsansatz für PP-Anbindungsdesambiguierung Heuristiken (Bevorzuge eine enge Anbindung!) oder statistische Angaben über Präferenzen der Paare V − NP P (“sehen”-“Fernglas”) vs. N − NP P (“Frau”-“Fernglas”). Falls die ZS die Mehrdeutigkeit ebenfalls ausdrücken kann, muss allerdings nicht aufgelöst werden. Mehrdeutigkeit von Wortbedeutungen Hauptproblem Die meisten Wörter haben mehrere Bedeutungen, welche in der ZS unterschiedlich lexikalisiert werden können! Beispiel 11.1.8 (box in dict.leo.org: Englisch nach Deutsch). 111 • Kasten, Behältnis, Dose, ... • Buchs, Anhieb, Achsbüchse • Eingabefeld • Glotze, Sarg Lösungsansatz Markierung der Übersetzungspaare nach Fachgebiet (Agronomie, Botanik, Technik) und Stilebene. Heuristik:Bevorzuge ähnlich mehrdeutige Ausdrücken in der ZS! Mehrdeutigkeit von Wortbedeutungen (Klassiker) Beispiel 11.1.9 (Mehrdeutige Wortform: Englisch nach Deutsch). • The pen was in the box. Die Schreibfeder war in der Schachtel. Das Laufgitter war in der Schachtel. • The box was in the pen. Die Schachtel war im Laufgitter. Die Schachtel war in der Schreibfeder. Diagnose Die plausiblen Übersetzungen von “pen” in einem einzelnen Satz erfordern Weltwissen über die typische Beschaffenheit von Gegenständen und über gängige Situationen. Welche Situationen sind typisch? [Melby 2001] Siehe Abbildungen 11.1 und 11.2. Abbildung 11.1: Situationen zu “The pen was in the box” nach [Melby 2001] 112 Abbildung 11.2: Situationen zu “The pen was in the box” nach [Melby 2001] Enzyklopädisches Weltwissen Wir wissen, dass die involvierten Gegenstände typischerweise etwa folgende Ausdehnung haben: • Schreibfeder: ca. 10cm lang und 1cm breit • Schachtel: ca. 5 bis 100cm lang/breit • Laufgitter: ca. 50 bis 500cm lang/breit Damit werden gewisse Verschachtelungen unwahrscheinlich. Unwahrscheinlich, aber nicht unmöglich Little Johnny was unhappy. On Christmas eve he got a pen (“auch Pferch”) for his toy horse. Now he had lost it. Suddenly he found it. The pen was in the box. He was happy again. Mensch vs. Maschine Menschen setzen Weltwissen bzw. Welterfahrung unbewusst und problemlos ein. Maschinelle Repräsentationen davon sind jedoch schwierig! Mehrdeutigkeit von pragmatischen Kategorien Beispiel 11.1.10 (Mehrdeutige Wortform: Englisch nach Französisch). • Thank you for coming. Merci de venir. • A: Would you like a coffee? B: Thank you. B: S’il vous plaît. Diagnose Dieselben Wortformen in der QS (“thank you”) stehen für verschiedene Wortformen in der ZS (“merci”, “S’il vous plaît”). Lösungsansatz Um die korrekte Übersetzung zu finden, muss man wissen, ob es sich um eine Antwort auf eine Angebots-Frage handelt. Dieses Sprechakt-Wissen liefert eine Analyse auf der Ebene der Pragmatik. 113 11.1.2 Idiome und Kollokationen Definition 11.1.11 (idiomatische Wendung, Redewendung). Ein Idiom ist eine feste, mehrteilige Wortgruppe, welche eine semantische Einheit bildet, die nicht aus den Einzelteilen abgeleitet werden kann. Modifikationen oder Austausch von Elementen sind schlecht möglich. Beispiel 11.1.12 (Idiom). • jemanden auf die Palme bringen • # jemanden auf die hohe Palme bringen • # jemanden auf die Birke bringen • to drive someone crazy Übersetzbarkeit von Idiomen Idiom lassen sich nur in Ausnahmefällen wörtlich von der QS in die ZS übersetzen. Kollokationen Definition 11.1.13 (collocation). Eine Kollokation ist eine Kombination von Wörtern, welche sich gegenseitig bevorzugt verbinden und andere semantisch denkbare Kombinationen unterdrücken. Beispiel 11.1.14 (Kollokation). • Ein starker Raucher ist jemand, der intensiv raucht. • Ein starker Schreiber ist aber nicht jemand, der intensiv schreibt. Übersetzbarkeit von Kollokationen Wie bei den Idiomen kann die Übersetzung nicht wortweise isoliert erfolgen. Beispiel: Intensivator als Kollokation Eine korrekte Übersetzung von “heavy smoker” in Deutsch oder Französisch bedingt: • Die Erkennung von “heavy” als kollokativer Intensivator. • Die Kenntnis, dass der Intensivator für “fumeur” im Französischen “grand” lautet. • Die Kenntnis, dass der Intensivator für “Raucher” im Deutschen “stark” lautet. Die Intensivierung kann als lexikalische Funktion betrachtet werden, welche vom Kopf einer Konstituente abhängig ist. [Arnold et al. 1994, 127] 114 Beispiel: Verbgefüge als Kollokationen Beispiel 11.1.15 (“support verbs” im Englischen ). • They took (*made) a walk. • They make (*took) an attempt. • They had (*made,*took) a talk. Lexikalische Funktion Der Kern solcher Kollokationen liegt im Nomen. Die Funktion des Verbs kann sprachübergreifend abstrakt als “support verb” repräsentiert werden. Die genaue Verbalisierung ist aber nicht vorhersagbar, sondern muss im Lexikon erfasst werden. 11.1.3 Sprachbau Globale Diskrepanzen Die komparative Grammatikschreibung hat die verschiedenen grammatikalischen Prinzipien gesucht und ihre unterschiedlichen Parametrisierungen in den Einzelsprachen beschrieben. • Stellung des Kopfes innerhalb von Konstituenten • Stellung der Modifikatoren bezüglich Kopf • Verwendung von morphosyntaktischen Merkmalen wie Genus und Kasus (Englisch vs. Deutsch) • Verwendung von Artikeln (Russisch vs. Deutsch) • Optionalität von lexikalischen Subjekten (Italienisch vs. Deutsch) global mismatches Globale Unterschiede wie etwa Wortstellungsabweichungen stellen für primitive Ansätze bereits eine hohe Hürde dar. Stellungsregularität Subjekt(S)-Objekt(O)-Verb(V) Bei Übersetzungen zwischen Sprachen mit unterschiedlicher SVO-Ordnung sind manchmal grosse Umstellungen notwendig. Beispiel 11.1.16 (Englisch vs. Japanisch). • SVO: He adores listening to music. • SOV: he kare ha music ongaku to wo listening kiku no ga 115 adores daisuki desu Lokale Diskrepanzen Beispiel 11.1.17 (Wortstellung bei Objekt und Vollverb in Partizipform). • I have seen him • Ich haben ihn gesehen. Beispiel 11.1.18 (Wortstellung bei Fragewort und Präposition). • What doctor did John go to? • Zu welchem Doktor ging John? Beispiel 11.1.19 (Wortstellung bei Verneinung). • He never sleeps long. • Er schläft nie lange. Beispiel 11.1.20 (Head Switching: Hauptverb vs. Adverb). • I like swimming. • I schwimme gerne. Beispiel 11.1.21 (Head Switching: Modalverb vs. Adverb). • John usually goes home. • Juan suele ir a casa. Beispiel 11.1.22 (Passivkonstruktion). • She insists on being given the books. • Sie besteht darauf, dass ihr die Bücher gegeben werden. Beispiel 11.1.23 (Gerundiv-Konstruktionen). • He did not neglect writing to her. • Er versäumte es nicht, ihr zu schreiben. Lexikalische Divergenz Beispiel 11.1.24 (Zuordnung thematische Rolle zu syntaktischer Funktion). • cautionner qn vs bürgen für jmdn. • applaudir qn vs. jmdm. applaudieren Beispiel 11.1.25 (Zuordnung thematische Rolle zu syntaktischer Funktion). • I miss my dictionary. • Mon dictionnaire me manque. 116 11.2 Ansätze Oettingers “Automatic Russian-English Dictionary” Beispiel 11.2.1 (Russisch zu Englisch). Humanübersetzung: In recent times Boolean algebra has been successfully employed in the analysis of relay networks of the series-parallel type. “Rohübersetzung”: (In,At,Into,To,For,On) (last,latter,new,latest,worst) (time,tense) for analysis and synthesis relay-contact electrical (circuit, diagram, scheme) parallel-(series, successive, consecutive, consistent) (connection, junction, combination) (with, from) (success, luck) (to be utilize, to be take advantage of) apparatus Boolean algebra. [Locke und Booth 1955, 55] Wort-für-Wort-Übersetzung Der einfachste Ansatz zur MÜ basiert auf einem bilingualen Lexikon und einfachsten Modifikationen auf der Wortebene. Vorgehen • Im Prinzip wortweises Übersetzen der erkannten Lexikoneinträge • Anpassungen der Wortfolge in der Rohübersetzung – Austauschen von 2 benachbarten Wörtern – Weglassen eines Worts (z.B. keine Artikel im Russischen) – Einfügen eines Worts Frage Was muss man dafür eigentlich können? Probleme solcher lexikalischer Übersetzung • Lemma-basierte Übersetzung: Mit der Reduktion auf Lemmata geht wesentliche Information über die syntaktischen Abhängigkeiten verloren. • Wortfolge: Sprachen unterscheiden sich oft so stark, dass lokales Umstellen von Wörtern nicht genügt. (z.B. SVO vs. SOV) • Lexikalische Mehrdeutigkeit: Die meisten Wörter in den meisten Sprachen sind mehrdeutig (ambig)! Wie findet man die intendierte Bedeutung? Dies erfordert sog. “word sense disambiguation (WSD)” (Wortbedeutungsdesambiguierung). 117 4 wichtige Ansätze Die Übertragung von der QS in die ZS ist primär gesteuert durch: • Wortfolge mit mophosyntaktischer Information: Direkte Übersetzung • Syntaktische Struktur: Transfer-Übersetzung • Semantische Repräsentation: Interlingua-Übersetzung • Frequenzdaten von Übersetzungspaaren: Statistische Übersetzung 11.2.1 Direkte Übersetzung Direkte Übersetzung Die direkte Übersetzung führt die QS ohne linguistisch motivierte Zwischenrepräsentation in die ZS über. Ablauf • Bestimmung von Wortarten, Grundformen und morphosyntaktischen Merkmalen der Wörter in der QS • Wortwahl (=Lemmawahl) in der ZS • Anwenden von Übertragungsregeln anhand der lexikalischen und morphosyntaktischen Information • Lokales Umordnen von Wörtern in ZS • Morphologische Generierung der Wortformen der ZS Beispiel 11.2.2 (Wortwahl “much/many”). if preceding word is “how” return “wieviel(e)” else if preceding word is “as” return “soviel(e)” Beispiel: Regeln für Direkte Übertragung Beispiel 11.2.3 (Adjektiv-Stellung und Nominalkomposita von Englisch zu Französisch). • a visual indicator → un indicateur visuel • installation configuration → configuration d’installation Regeln für die direkte Übertragung • ArtE AdjE NE → ArtF NF AdjF “Falls in der QS die Folge Artikel, Adjektiv, Nomen vorliegt, dann produziere in der ZS die Reihenfolge Artikel, Nomen, Adjektiv.” • N1E N2E → N2F de N1F “Falls in der QS zwei Nomen hintereinander stehen, dann produziere in der ZS die vertauschte Reihenfolge mit einem de-Element dazwischen.” 118 Probleme/Vorteile der direkten Übersetzung • Eine grosse Anzahl Übertragungsregeln entsteht wegen der schlechten syntaktischen Abstraktion. So muss für “the preliminary installation configuration → la configuration d’installation préliminaire” eine weitere Regel gemacht werden. Welche? • Jede Übersetzungsrichtung braucht ein eigenes Programm. • Wartung und Weiterentwicklung wird schnell zu komplex, weil die syntaktische Struktur nicht explizit repräsentiert ist. • Die direkte Übersetzung ist grundsätzlich robust gegenüber syntaktischen Schwierigkeiten (Fehler oder zu komplexe Strukturen). • Allgemeine Behandlung von unbegrenzten Konstruktionen wie Komposita ist schlecht machbar. “computer periphery installation configuration manual” 11.2.2 Transfer-Übersetzung Transfer-Übersetzung im Bild Satz Satz Ausgangsgssprache Zielsprache Analyse Synthese Syntax Ausgangsgssprache Syntax Transfer Zielsprache Abbildung 11.3: Transfer-Übersetzung im Bild Beispiel: Regeln für Transfer von Syntaxstrukturen Die Transfer-Regeln operieren nicht bloss auf der Wortebene, sondern auf allen Konstituenten. (Vgl. http://www.cl.uzh.ch/clab/ecl1/ilap_transf/) Komponenten eines Transfersystems • Syntaxanalyse der QS (Grammatik, Lexikon, Parser) • Transfer-Modul (lexikalische und syntaktische Transfer-Regeln) • Generierungsmodul der ZS (Grammatik, Lexikon, Generator) 119 John gives Mary an apple. Jean donne une pomme à Marie. Eingabevorbereitung capitalized(john) gives capitalized(mary) Ausgabeaufbereitung an apple capitalized(jean) endpunct(’.’) to_give mary a cat: p_name cat: tv cat: p_name num: sing num: sing num: sing gend: fem gend: masc pers: 3 tense: pres mood:indic apple end_of_sentence cat: det num: sing def: indef jean cat: cn num: sing donner un NP p_name john vt S tense: pres mood:indic type: assertion num: sing pers: 3 pn to_give VP num: sing pers: 3 NP num: sing Syntax− Transfer det cn def: indef a mary NPnum: sing gend: fem p_name apple vt jean det cn def: indef donner un pomme Maschinelle Übersetzung (Transfer−Methode) Quelle: [Hess 2005] Abbildung 11.4: Transfer-Übersetzung im Detail S S Np Adj Np Vp N−Gr V Np Art N the rich boy Art N−Gr Adj loves the Vp V N−Gr girl Np Art N N le garçon riche aime la Quelle: [Hess 2005] Abbildung 11.5: Transfer-Regeln 120 PP NP num: sing gend: fem NP num: sing gend: masc Lexikon− Lookup Art capitalized(marie) Satzgenerierung NP num: sing gend: fem num: sing gend: masc à pomme à marie end_of_sentence tense: pres mood:indic type: assertion VP pomme cat: p_name cat: tv cat: cn cat: prep cat: p_name cat: det num: sing num: sing num: sing num: sing num: sing gend: masc pers: 3 def: indef gend: fem gend: fem tense: pres gend: fem mood:indic Satzanalyse S une Wortformengenerierung Wortformenanalyse john donne N−Gr N fille prep pn à marie endpunct(’.’) • Morphologie-Module für QS und ZS • Module zur Auflösung von Mehrdeutigkeiten Fazit zur Transfer-Übersetzung • Dominierendes Paradigma der heutigen MÜ (aber schon 1950 konzipiert) • Nur die Transfer-Regeln müssen für jede Übersetzungsrichtung entwickelt werden. Generierung und Analyse bleiben (hoffentlich) gleich. • Unbegrenzte Konstruktionen lassen sich rekursiv elegant übertragen. • Sprachen, welche wenig Ähnlichkeiten haben, sind viel schwieriger als verwandte Sprachen. • Welche syntaktischen Konstruktionen existieren überhaupt? • Was tun, wenn Sätze der QS nicht geparst werden können? Wie bekommt man die intendierte Analyse? 11.2.3 Interlingua-Übersetzung Interlingua-Übersetzung • Bei der Transfer-Übersetzung müssen die syntaktischen Analyseresultate so gewählt werden, dass der Transfer zu verschiedenen Sprachen optimal ist. • Der Interlingua-Ansatz versucht, alle Einzelsprachen auf eine gemeinsame Repräsentation (meist bedeutungsorientiert) abzubilden. • In der Praxis haben sich diese Systeme nicht durchgesetzt – trotz der an sich bestechenden Idee. • Problem: Wie soll diese Interlingua genau aussehen? Welche begrifflichen Differenzierungen verlangt sie? Lexikalisierungsproblem Verschiedene Sprachen machen unterschiedlich feine Bedeutungsunterscheidungen. Wieviele Differenzierungen muss eine Interlingua enthalten, wenn noch mehr Sprachen ins Spiel kommen? 11.2.4 Kombinierte Ansätze Ansätze der MÜ und reale Systeme Reale Übersetzungssysteme sind meistens Kombinationen der geschilderten Ansätze. Wo keine “tiefen” Analysen möglich sind, werden flache Übertragungen gemacht. 121 Quelle: [Jurafsky und Martin 2008] nach Somers Abbildung 11.6: Lexikalische Überschneidungen nach Somers Quelle: [Jurafsky und Martin 2008] Abbildung 11.7: Verbindung von direkter, Transfer- und Interlingua-Übersetzung 11.3 Statistische Maschinelle Übersetzung Lernende Verfahren Regelbasiert vs. datenbasiert Anstelle von komplexen Regelsystemen wird aus alignierten Satzpaaren die Übersetzungsrelation gelernt. Noisy Channel Model für EN → FR Die Übersetzung versucht, aus einem “verrauschten” Signal, das wie Englisch tönt, das wahrscheinlichste französische Original zu rekonstruieren. QS noisy channel ZS Fluency und Faithfulness im SMT Optimieren von Fluency und Faithfulness in wortbasierter MT • Faithfulness: Wie wahrscheinlich kann von einer französischen Wortfolge auf eine englische Wortfolge übersetzt werden? Übersetzungsmodell: P (f | e) 122 • Fluency: Wie englisch ist das Übersetzte? ZS-Modell: P (e) Abbildung 11.8: Fluency und Faithfullness in SMT nach [Al-onaizan et al. 1999] Candide Modell 3 für Übersetzungsrichtung FR → EN Nach [Al-onaizan et al. 1999, 13] • Probabilistisches Lexikon: Mit welchen Wahrscheinlichkeiten wird ein englisches Wort aus französischen Wörtern übersetzt? • Fruchtbarkeit (fertility): Wahrscheinlichkeit, dass ein französisches Wort in n englische Wörter übersetzt wird. • Verzerrung (Distortion): Wahrscheinlichkeit, dass ein englisches Token an Position i in einem Satz an Position j im französischen Satz erscheint. • Null-Einsetzung (NULL-insertion): Globale Wahrscheinlichkeit, dass irgendwo ein NULL Element im Englischen erscheint. Statistische Verfahren • Seit Mitte 90-Jahre sehr aktives Forschungsgebiet. Aber: Keine wirklichen Durchbrüche im Vergleich mit den regelbasierten Ansätzen. • Wortbasierte Ansätze wurden von phrasen-basierten (Chunks) Ansätzen abgelöst. • Im Prinzip kann jedes Problem im klassischen Übersetzungsparadigma durch probabilistische Verfahren gelöst werden (“Wortsinndesambiguierung”, Syntax-Analyse, Strukturveränderungen) 11.4 Vertiefung • Kapitel “Maschinelle Übersetzungssysteme” in [Hess 2005], das noch zusätzliches Material und Referenzen enthält. • Quiz Mehrdeutigkeit von Wortarten 123 • ILAP Transfer-Übersetzung http://www.cl.uzh.ch/clab/ecl1/ilap_transf • Eine lesbare technische Einführung in Maschinelle Übersetzung: [Knight 1997] 124 12 Formales Propädeutikum I Lernziele • Kenntnis der grundlegenden mengentheoretischen Konstrukte und Notationskonventionen • Mengennotation, Elementbeziehung, Teilmenge, Potenzmenge, Paare, Relationen, Funktionen • Kenntnis über grundlegende Eigenschaften von Relationen wie Symmetrie, Transitivität, Totalität, Reflexivität • Kenntnis über die Eigenschaften, welche Funktionen partiell, total, injektiv, surjektiv oder bijektiv machen Herzlichen Dank an Manfred Klenner bzw. Ralf Klabunde für Quelltexte. 12.1 Mengen Mengen Definition 12.1.1 (“Naive” Mengenlehre nach [Cantor 1895]). Abbildung 12.1: Faksimile der Bestimmung des Mengenbegriffs bei Georg Cantor Kommentar zur Terminologie Es gibt also Objekte, Mengen und Elemente. Beispiel 12.1.2 (Mengen aus der Welt der Linguistik). Menge der Sätze einer Zeitungausgabe, der Wortformen eines Satzes, der Lexeme eines Satzes, der Buchstaben eines Wortes, der Bedeutungen eines Wortes, . . . Formale Notationen für Mengen Definition 12.1.3 (Aufzählung einer Menge). Eine Mengenaufzählung besteht aus Zeichen(ketten), welche die Objekte einer Menge bezeichnen und zwischen geschweiften Klammern stehen. Zwischen den Zeichen werden Kommata geschrieben. Die Reihenfolge der Zeichen ist irrelevant. 125 Beispiel 12.1.4 (Menge der Farben der französischen Flagge ). {blau, weiss, rot} oder {weiss, blau, rot} oder {bleu, blanc, rouge} oder {a, b, c}, falls z.B. festgelegt ist, dass a für Rot, b für Blau und c für Weiss steht. Welche Konvention legt fest, dass bleu für die Farbe Blau stehen soll? Mehrfachschreibung von Zeichen Die Notation {a, a, b, c, c, c} bezeichnet die gleiche Menge wie {a, b, c}. Unterschiedliche Zeichen für dasselbe Objekt (Objektgleichheit) Wenn gilt: a = b, dann bezeichnen {a, b} und {a} dieselbe Menge. Beispiel 12.1.5 (Token). Die Menge M der Token des Satzes “Wenn hinter Fliegen Fliegen fliegen, fliegt eine Fliege Fliegen nach.” M = {“Wenn”, “hinter”, “Fliegen”, “fliegen”, “,”, “fliegt”, “eine”, “Fliege”, “nach”, “.”} Lexem als Menge von Token LexemF liege = {“Fliege”, “Fliegen”} Lexemverband als Menge von Lexemen Lexemverbandf lieg = {{“Fliege”,“Fliegen”}, {“fliegt”,“fliegen”,“fliegst”,. . . }, . . .} Formale Notationen für Mengen Definition 12.1.6 (Charakterisierung (Beschreibung) einer Menge). Eine Mengencharakterisierung besteht aus einer Variablen x (oder y, z), einem senkrechten Strich und einem Bedingungsteil, der angibt, unter welchen Bedingungen irgendein Objekt x Element der damit notierten Menge ist. {x | Bedingung(en) über x} Gesprochen: Die Menge aller x, für die gilt: x . . . Die Variable x ist innerhalb der Klammern gebunden. Beispiel 12.1.7 (Menge der Farben der französischen Flagge ). { x | x ist eine Farbe der französischen Flagge } { x | x ist die Farbe blau oder x ist die Farbe rot oder x ist die Farbe weiss } Elementbeziehung Definition 12.1.8 (Notation der Elementbeziehung). Gehört ein Objekt x zur Menge A, so nennt man x ein Element der Menge A und schreibt x ∈ A. Gehört y nicht zur Menge A, schreibt man y ∈ / A. •y •x A 126 Russelsche Paradoxie [Irvine 2003] Ob ein Objekt Element einer Menge ist oder nicht, lässt sich nicht in jedem Fall entscheiden. Sei M die Menge, welche durch { x | x ∈ / x } charakterisiert wird. Gilt M ∈ M ? 1. Falls M ∈ / M , so ist M ∈ M wegen der Mengencharakterisierung. Dies ergibt einen Widerspruch. 2. Falls M ∈ M ist, so ist M ∈ / M wegen der Mengencharakterisierung. Dies ergibt einen Widerspruch. Rekursiv charakterisierte Mengen Mengen mit beliebig vielen Elementen lassen sich rekursiv (induktiv) beschreiben. Beispiel 12.1.9 (Natürliche Zahlen N). • Rekursionsbasis: 0 ist eine natürliche Zahl. • Rekursionsschritt: Wenn x eine natürliche Zahl ist, dann ist der Nachfolger (successor) s(x), d.h. x + 1 ebenfalls eine natürliche Zahl. Verwendung von rekursiver Definitionen Zeige, dass s(s(s(0))) Element der Menge der natürlichen Zahlen ist. s(s(s(0))) ∈ N, falls s(s(0)) ∈ N (Rekursionschritt) s(s(0)) ∈ N , falls s(0) ∈ N (Rekursionschritt) s(0) ∈ N, falls 0 ∈ N (Rekursionschritt) 0 ∈ N (Rekursionsbasis) Logische Verknüpfungen und ihre Wahrheitswerte Disjunktion Konjunktion Negation Implikation Bikonditional A oder (auch) B A und B nicht A wenn A, dann B A genau dann, wenn B A∨B A∧B ¬A A→B A↔B Wahrheits- und Falschheitsbedingungen • A ∨ B ist falsch, falls A und B falsch sind; sonst wahr • A ∧ B ist wahr, falls A und B wahr sind; sonst falsch • A → B ist falsch, falls A wahr und B falsch ist; sonst wahr • A ↔ B ist wahr, falls A und B beide wahr oder falsch sind; sonst falsch 127 Allquantor Existenzquantor Für alle x gilt: . . . Es gibt mindestens ein x, für das gilt: . . . ∀x ∃x Quantoren und Prädikate Einige Wahrheits- und Falschheitsbedingungen Sei m(x) das Prädikat “x ist menschlich” und s(x) das Prädikat “x ist sterblich” • ∀x(m(x) → s(x)) ist falsch, falls mindestens ein Objekt existiert, das ein Mensch ist, aber nicht sterblich; sonst wahr • ∃y(m(y)∧s(y)) ist wahr, falls mindestens ein Objekt existiert, das ein Mensch und sterblich ist; sonst falsch Mengengleichheit Definition 12.1.10 (Extensionalitätsprinzip). Zwei Mengen M und N sind gleich, wenn sie die gleichen Elemente enthalten. Formal: M = N =df. ∀x(x ∈ M ↔ x ∈ N ) Beispiel 12.1.11 (Gleiche Mengen in beiden Notationsformen). {a} = { x | x = a } {a, b} = { x | x = a ∨ x = b } Mengenungleichheit Anstelle von ¬(M = N ) schreibt man kurz: M 6= N . Frage In welchen Funktionen wird oben das Symbol “=” verwendet? Hinweis zur Definitionstechnik Definition 12.1.12 (Explizitdefinition nach [Bussmann 2002]). Bei Explizitdefinitionen enthält “das Definiendum neben dem zu definierenden Zeichen nur Variablen”. Sie “haben den Charakter von Abkürzungen”. Damit ist “die Forderung nach der Eliminierbarkeit der definierten Ausdrücke gewährleistet, d.h. die Reduzierbarkeit aller Aussagen auf die Grundbegriffe und die Axiome.” Was für “Variablen”? Die Definition der Mengengleichheit muss für beliebige Mengen gelten. Der Ausdruck M = N =df. ∀x(x ∈ M ↔ x ∈ N ) entspricht logisch betrachtet folgendem Bikonditional ∀M ∀N (M = N ↔ ∀x(x ∈ M ↔ x ∈ N )). 128 Teilmengenbeziehung Definition 12.1.13 (Teilmenge, subset). Eine Menge M ist Teilmenge der Menge N , wenn jedes Element von M auch Element von N ist. Der Menge N sagt man Obermenge. Formal: M ⊆ N =df. ∀x(x ∈ M → x ∈ N ) Definition 12.1.14 (Echte Teilmenge, proper subset). Eine Menge M ist echte Teilmenge der Menge N , wenn M Teilmenge von N ist, aber nicht gleich N ist. Formal: M ⊂ N =df. M ⊆ N ∧ M 6= N Beispiel 12.1.15. {a, c} ⊂ {a, b, c} {a, c} ⊆ {a, c}, aber {a, c} 6⊂ {a, c} Leere Menge Definition 12.1.16. Die leere Menge ist die Menge, welche keine Elemente enthält. Formal: ∅ =df. { x | x 6= x } Alternativ-Notation: {} Fragen Ist die leere Menge Teilmenge jeder Menge? Ist die leere Menge Element jeder Menge? Potenzmenge Definition 12.1.17 (power set). Die Potenzmenge einer Menge M ist die Menge aller Teilmengen von M . ℘(M ) =df. { T | T ⊆ M } Alternativ-Notation: 2M Beispiel 12.1.18. Potenzmenge der Menge M = {1, 2} ℘(M ) = {∅, {1}, {2}, {1, 2}} Hinweis: ∅ ist sowohl Element als auch Teilmenge von ℘(M ). Operationen über Mengen Sei M = {a, b, c} und N = {c, d}: Vereinigung A ∪ B =df. { x | x ∈ A ∨ x ∈ B } •a •b M •c •d N M ∪ N = {a, b, c, d}. Schnittmenge 129 A ∩ B =df. { x | x ∈ A ∧ x ∈ B } •a •b •d •c M N M ∩ N = {c} Disjunkte Mengen Gilt A ∩ B = ∅, so haben A und B keine gemeinsamen Elemente und man nennt A und B disjunkt . Sei M = {a, b, c} und N = {c, d} und G = {a, b, c, d, e}: Differenz A \ B =df. { x | x ∈ A ∧ x 6∈ B } •a •b •d •c M N M \ N = {a, b}. Komplement A =df. G \ A falls G eine Grundmenge von A ist mit A ⊆ G •e •a •b G •c •d N N = {a, b, e}. Kardinalität von endlichen Mengen Definition 12.1.19. Die Kardinalität einer endlichen Menge A ist die Anzahl ihrer Elemente. Formal: | A | Beispiel 12.1.20. Die Kardinalität der leeren Menge ist null: | ∅ | = 0. Welche Kardinalität hat die Potenzmenge: | ℘(M ) | =? Unendliche Mengen Mengen können auch unendlich viele Elemente enthalten. Z.B. die Menge der natürlichen Zahlen N = {0, 1, 2, 3, . . .} 12.2 Relationen Geordnete Paare Definition 12.2.1 (Geordnetes Paar). Ein geordnetes Paar besteht aus einer ersten und einer zweiten Komponente (Koordinate). Diese werden zwischen spitzen Klammern notiert: ha, bi. Oft aber auch in runden: (a, b). 130 Definition 12.2.2 (Gleichheit von geordneten Paaren). Zwei geordnete Paare sind gleich, wenn sie in ihren beiden Komponenten gleich sind. Formal: ha, bi = hc, di =df. a = c ∧ b = d Beispiel 12.2.3 (Unterschied von geordneten Paaren und Zweier-Mengen). Sei a 6= b. Dann gilt {a, b} = {b, a}, aber hb, ai = ha, bi gilt nicht. Kreuzprodukt Definition 12.2.4 (Produktmenge, kartesisches Produkt). Ein Kreuzprodukt zweier Mengen besteht aus der Menge der geordneten Paare, welche sich aus deren Elementen kombinieren. M × N = { hx, yi | x ∈ M ∧ y ∈ N } Beispiel 12.2.5 (Kreuzprodukt). Sei A = {a, b, c} und B = {1, 2}: A × B = {ha, 1i, ha, 2i, hb, 1i, hb, 2i, hc, 1i, hc, 2i} B × B = {h1, 1i, h1, 2i, h2, 1i, h2, 2i} a 2 A b c B 1 Frage Welche Menge ergibt sich, wenn B = ∅? Binäre Relationen Definition 12.2.6 (Zweistellige Relation). Eine binäre Relation R zwischen Elementen zweier Mengen M und N ist eine Teilmenge des Kreuzproduktes von M und N . R⊆M ×N Notationsvarianten Anstelle von ha, bi ∈ R schreibt man gerne in Infix-Notation a R b oder in Präfix-Notation R(a, b). Beispiel 12.2.7 (Kleiner-Gleich-Relation). Anstelle von h1, 3i ∈ ≤ notiert man 1 ≤ 3. Beispiel: Tagger-Lexikon • Die Menge der Token T OK = {“eine”, “der”, . . . } • Die Menge der STTS-Tags T AG = {“ADJ“,“ART”, . . . ,“XY”} • Das Lexikon L ⊆ T OK × T AG: L = {h“eine”,“ART”i, h“eine”,“VVIMP”i, . . . } 131 Eigenschaften binärer Relationen Für eine Relation R ⊆ M × M gilt: • R ist reflexiv genau dann, wenn für alle x ∈ M gilt, hx, xi ∈ R • R ist irreflexiv genau dann, wenn für alle x ∈ M gilt, hx, xi 6∈ R • R ist symmetrisch genau dann, wenn für alle x, y ∈ M gilt, xRy → yRx • R ist antisymmetrisch genau dann, wenn für alle x, y ∈ M gilt, (xRy ∧ yRx) → x = y • R ist asymmetrisch genau dann, wenn für alle x, y ∈ M gilt, xRy → ¬yRx • R ist total genau dann, wenn für alle x, y ∈ M gilt, xRy ∨ yRx • R ist transitiv genau dann, wenn für alle x, y, z ∈ M gilt, (xRy ∧ yRz) → xRz Beispiele von Eigenschaften binärer Relationen Sei M die Menge aller Menschen. • Die Relation ’x ist verheiratet mit y’ auf M ist – symmetrisch (wenn a mit b verheiratet ist, dann auch b mit a) – irreflexiv (niemand ist mit sich selbst verheiratet) – aber nicht total (es gibt unverheiratete Menschen) • Die Relation ’x hat dieselben Eltern wie y’ auf M ist – reflexiv (jeder hat dieselben Eltern wie er selbst) – symmetrisch (wenn a dieselben Eltern hat wie b, dann hat auch b dieselben Eltern wie a) – transitiv (wenn a dieselben Eltern hat wie b und b dieselben Eltern hat wie c, dann hat auch a dieselben Eltern wie c) • Die Relation ’x ist Vorfahre von y’ auf M ist – transitiv (wenn a Vorfahre von b ist und b Vorfahre von c ist, dann ist a Vorfahre von c) – irreflexiv (niemand ist Vorfahre von sich selbst) n-Tupel und n-stelliges kartesisches Produkt Definition 12.2.8 (n-Tupel). Ein n-Tupel ist die Verallgemeinerung des geordneten Paares auf endlich viele Komponenten: hx1 , x2 , . . . , xn i Zwei n-Tupel sind gleich, wenn sie in jeder Komponente übereinstimmen: hx1 , x2 , . . . , xn i = hy1 , y2 , . . . , ym i =df. x1 = y1 ∧ x2 = y2 ∧ . . . ∧ xn = ym ∧ n = m Definition 12.2.9 (n-stelliges kartesisches Produkt). Ein n-stelliges kartesisches Produkt besteht aus der Menge der n-Tupel, welche sich aus den n Mengen bilden lassen. M1 × M2 × · · · × Mn =df. { hx1 , x2 , . . . , xn i | x1 ∈ M1 ∧ x2 ∈ M2 ∧ . . . ∧ xn ∈ Mn } 132 12.3 Funktionen Definition 12.3.1 (totale Funktion). Eine Funktion ist eine Relation R ⊆ M × N über dem Definitionsbereich M und dem Wertebereich N , welche folgende Eigenschaften hat: 1. Jedes Element aus dem Definitionsbereich M ist mit höchstens einem Element aus dem Wertebereich N verbunden. (rechtseindeutig) 2. Jedes Element von M ist mit einem Element aus N verbunden. (linkstotal) Partielle Funktion Falls nur Bedingung 1 erfüllt ist, nennt man die Funktion partiell. a 2 A b B 1 c Definitionsbereich Wertebereich Abbildung 12.2: Pfeildiagramm einer partiellen Funktion Arten von Funktionen Surjektiv (rechtstotal) Jedes Element des Wertebereichs wird von mindestens einem Pfeil getroffen. a 2 A b c B 1 Abbildung 12.3: Pfeildiagramm einer surjektiven Funktion Injektiv (linkseindeutig) Jedes Element des Wertebereichs wird von höchstens einem Pfeil getroffen. a 2 3 B 1 A b Abbildung 12.4: Pfeildiagramm einer injektiven Funktion Bijektiv Jedes Element des Wertebereichs wird von genau einem Pfeil getroffen. 133 a 2 A b B 1 Abbildung 12.5: Pfeildiagramm einer bijektiven Funktion Abbildung 12.6: Übersicht: Eigenschaften von Relationen und Funktionen Übersicht: Relationen und Funktionen Notationen für Funktionen Funktionsschreibweise • Statt f ⊆ M × N schreibt man f : M → N . • Statt hx, yi ∈ f schreibt man f (x) = y. • Statt hx, yi ∈ f schreibt man auch x 7→ y ∈ f . Definitionsschreibweisen Sei M = {a, b, c, d} und N = {1, 2, 3} • f : M → N = {ha, 1i, hb, 3i, hc, 2i, hd, 3i} 1 f alls x = a 3 f alls x = b • f (x) = 2 f alls x = c 3 f alls x = d 134 Rekursive Funktionsdefinitionen Funktionen über rekursiv definierten Mengen lassen sich oft besonders elegant rekursiv definieren. Beispiel 12.3.2 (Zweistellige Additions-Funktion add : N × N → N). x f alls y = 0 add(x, y) = s(add(x, z)) f alls y = s(z) Schritt 1 2 3 Term add(s(0),s(s(0))) s(add(s(0),s(0))) s(s(add(s(0),0))) s(s(s(0))) y s(s(0)) s(0) 0 z s(0) 0 Multimengen Eine Multimenge M = {a : 3, b : 4, c : 1} mit a, b, c, . . . ∈ N ist eine (partielle) Funktion M : N → N. Beispiel 12.3.3 (Tokenvorkommen eines Satzes). Wie notiert man die Multimenge der Token des Satzes “Wenn hinter Fliegen Fliegen fliegen, fliegt eine Fliege Fliegen nach.” als Menge von geordneten Paaren? 135 13 Formales Propädeutikum II Lernziele • Kenntnis von Folgen, Hüllen, Graphen und Bäumen • Kenntnis über formale Sprachen und (Regel-)Grammatiken • Kenntnis über das Ableiten mit kontextfreien Grammatiken 13.1 Exkurs: Indexnotationen n-Tupel und endliche Folgen n-Tupel als endliche Funktionen Ein n-Tupel der Form hx1 , x2 , . . . , xn i kann als Kurznotation für die Funktion, d.h. Menge {1 7→ x1 , 2 7→ x2 , . . . , n 7→ xn } aufgefasst werden. 0-Tupel Ein n-Tupel der Form hi mit n = 0 kann als Alternativ-Notation für die leere Funktion, d.h. leere Menge {} aufgefasst werden. n-Tupel und endliche Folgen n-Tupel sind nichts anderes als eine endliche Folge von Koordinaten (Komponenten). Welche Funktionen sollen als n-Tupel bzw. endliche Folgen gelten? Endliche Folgen Definition 13.1.1 (Endliche Folge). Eine endliche Folge der Länge n über einer Menge M ist eine partielle Funktion f : N → M , deren Argumente genau die natürlichen Zahlen von 1 bis n umfasst. Formal • Sei dom (domain) eine Funktion, welche den Definitionsbereich einer Relation f zurückgibt: dom(f ) =df. { x | ∃y (hx, yi ∈ f ) }. • Stehe die Notation a..b gleich wie a ≤ x ≤ b für die Menge { x | a ≤ x ∧ x ≤ b }. • Eine Funktion f : N → M ist eine endliche Folge, gdw. dom(f ) = 1 .. | f |. 136 Beispiele: Korpora Beispiel 13.1.2 (Tokenisiertes Korpus). Ein tokenisiertes Korpus ist eine endliche Folge C : N → T OKEN . Dann ist C(20) das 20. Token des Korpus C. Frage Wie müsste man ein satzsegmentiertes und tokenisiertes Korpus modellieren mit endlichen Folgen, damit man z.B. das 3. Wort des 400. Satzes eines Korpus bezeichnen kann? Grosse Operatorzeichen mit Indexmengen P Summenoperator • Berechnung der Summe einer Folge von Zahlen • 3 P xi = x1 + x2 + x3 i=1 Q Produktoperator Q Q ak = am × am+1 × · · · × an • nk=m ak = m≤k≤n • Fakultät: n! = Vereinigung • 3 S Qn i=1 i = 1 × 2 × ... × n S Mi = M1 ∪ M2 ∪ M 3 i=1 13.2 Hüllenbildung Hüllen (closures) Motivation Das Aufzählen oder definieren einer binären Relation kann mühsam sein. Oft reicht es, ein “Skelett” einer Relation zu bilden, welches dann durch Hüllenbildung “automatisch” erweitert wird. Beispiel 13.2.1 (Direkte und indirekte Nachfahren). • Seien in DV = {hanna, bertai, hberta, carlai, hcarla, danai} alle direkten Nachfahren, d.h. die Beziehung “x ist Kind von y”. • Wie gibt man die Relation aller direkten und indirekten Nachfahren V an? Z.B. durch Aufzählen: • Wie kann man das kürzer schreiben? 137 Komposition von Relationen (Produkt) Definition 13.2.2. Die Komposition von zwei binären Relationen R ⊆ M × M und S ⊆ M × M ergibt wieder eine binäre Relation. Sie beinhaltet ein Paar hu, wi genau dann, wenn R ein Paar hu, vi enthält und S ein Paar hv, wi. v fungiert zwar als Bindeglied – ist aber im Resultat nicht mehr sichtbar! RS = { hu, wi | ∃v (uRv ∧ vSw) } Komposition von Relationen in PROLOG % kind(KIND,ELTER) kind(anna,berta). kind(berta,carla). kind(carla,dana). % Komposition der Kind-Relation kind_comp_kind(U,W):kind(U,V), kind(V,W). ?- kind_comp_kind(X,Y). Hüllen einer Relation Potenzschreibweise • R0 = {hx, xi | x ∈ M } , R1 = R • Rn = RRn−1 für n ≥ 1 Hüllen • Transitive Hülle: R+ = [ Rn n≥1 • Reflexive Hülle: Rref lexiv = R ∪ R0 • Reflexiv-transitive Hülle: R∗ = [ n≥0 138 Rn c 10 b d b c d 5 b 5 c 5 a a a G = h{a, b, c, d},{ha, bi, hb, ci, hb, di,hc, ai, hd, ai, hd, ci}i (B) (D) (C) 13.3 Graphen Gerichtete Graphen Definition 13.3.1 (directed graph, digraph). Ein gerichteter Graph G = hN, Ei, bestehend aus einer endlichen, nicht-leeren Menge N von Knoten (nodes) und einer Menge E von Kanten (edges): E ⊆ N × N . Definition 13.3.2 (Verbindungen und Pfade). Ein Pfad ist eine endliche Folge von Knoten, welche paarweise durch Kanten verbunden sind. Z.B. hd, c, a, bi. Die Knoten n1 und n2 sind verbunden im Graphen G = hN, Ei, gdw. hn1 , n2 i ∈ E. n1 heisst Vorgänger von n2 . n2 heisst Nachfolger von n1 . Zyklen Definition 13.3.3 (Einfacher Pfad). Ein einfacher Pfad ist ein Pfad, der einen Knoten höchstens einmal enthält. Definition 13.3.4 (Zyklus). Ein Zyklus ist ein einfacher Pfad, an dessen Ende nochmals sein Anfangselement angefügt wird. Zyklen der Form hn, ni heissen auch Schlaufen (loop). Definitionsabhängig werden Schlaufen manchmal nicht als Zyklen aufgefasst. Definition 13.3.5 (Zyklenfrei). Ein Graph, der keine Zyklen enthält, heisst zyklenfrei. Bäume Definition 13.3.6 (Gerichteter Baum). Ein Baum ist ein zyklenfreier, gerichteter Graph mit den Eigenschaften: • Es gibt genau einen Knoten n, der selbst keinen Vorgänger hat. Dieser Knoten heisst Wurzel. • Jeder Knoten ausser der Wurzel hat genau einen Vorgänger. • Von der Wurzel aus existiert ein Pfad zu jedem andern Knoten. Definition 13.3.7 (Matrilineare Sprechweisen). Zwei Knoten sind Schwestern (Geschwister), wenn sie denselben Vorgänger (Mutter) haben. Definition 13.3.8 (Höhe eines Baums). Die Höhe eines Baumes bezeichnet den längsten Pfad von der Wurzel aus. Die Länge eines Pfads ist die Anzahl Knoten darin −1. 139 Bäume mit geordneten Knoten Definition 13.3.9. Ein Baum hat geordnete Knoten, wenn zwischen allen Geschwistern eine lineare Präzedenz festgelegt ist. S NP VP EN V Egon aß . NP D N den Pudel Abbildung 13.1: Baumdarstellung eines Baum-Graphen Geordnete Bäume als Klammerstrukturen Geordnete Bäume lassen sich in Klammerdarstellung eindeutig repräsentieren: S(NP(EN(Egon)),VP(V(aß),NP(D(den),N(Pudel)))) Globale Richtung Anstelle von individuellen Richtungsinformationen an den Pfeilen kann in der graphischen Darstellung von Bäumen die Ausrichtung nach unten festgelegt sein. Die Bäume stehen in der Linguistik meist auf dem Kopf. 13.4 Formale Sprachen und Regel-Grammatiken 13.4.1 Sprache als Menge Das Alphabet (Sigma), Zeichen und Zeichenketten Definition 13.4.1. Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole). Es wird mit Σ (Sigma) notiert. Definition 13.4.2. Eine Zeichenkette (Wort, string) von n Zeichen aus Σ ist eine endliche Folge der Länge n über Σ. Die leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird mit (Epsilon) notiert und hat die Länge 0. Hinweis zur Notation Eine Zeichenkette wird typischerweise durch Nebeneinanderschreiben (Juxtaposition) der Zeichen von links nach rechts notiert. Sei Σ = {a, b}, dann sind etwa , a, bb oder ababbba Wörter über Σ. Eine explizitere Notation für bb ist hb, bi bzw.{h1, bi, h2, bi}. 140 Stern von Sigma und formale Sprachen Definition 13.4.3. Der Stern von Sigma ist die Menge aller Wörter über einem Alphabet Σ. Der Stern wird als Postfix-Operator Σ∗ (sprich «Sigma Stern») notiert. Definition 13.4.4. Eine formale Sprache L über Σ ist eine Teilmenge des Sterns von Sigma. L ⊆ Σ∗ Beispiel 13.4.5. Sei Σ = {a}, dann ist Σ∗ = {, a, aa, aaa, . . .}. Die Mengen L1 = {, a} oder L2 = {aa, aaaa, aaaaaa} sind formale Sprachen, da sie (echte) Teilmengen von Σ∗ sind. Leere Sprachen vs. leere Zeichenkette Hinweise • Die leere Sprache ist die leere Menge, notiert als {} oder ∅. • Die Sprache, welche nur die leere Zeichenkette umfasst, wird als {} notiert. • Die leere Sprache {} und die Sprache {} sind nicht dasselbe. Fragen • Ist {} eine Sprache über jedem Σ? • Ist die Sprache {} Teilmenge jeder nicht-leeren Sprache? • Ist Σ∗ eine Sprache über Σ? 13.4.2 Konkatenation Konkatenation von Zeichenketten Definition 13.4.6. Die Konkatenation von Zeichenketten ist eine zweistellige Funktion, welche ihre Argumente zu einem Wort verkettet. Für alle u, v ∈ Σ∗ : • : Σ∗ × Σ∗ → Σ∗ , u • v = uv Was bedeutet uv? Wenn u : 1..n → Σ und v : 1..m → Σ Wörter, d.h. endliche Folgen von Zeichen sind, dann ist uv : 1..(m + n) → Σ. Wobei für alle Zeichenpositionen i ∈ 1..(n + m) gilt: u(i) f alls i ≤ n (uv)(i) = v(i − n) f alls i > n 141 Potenznotation der Konkatenation Eigenschaften der Konkatenation Die Konkatenation ist assoziativ und hat als neutrales Element. Für alle u, v, w ∈ Σ∗ : u • (v • w) = (u • v) • w, • u = u, u•=u Definition 13.4.7. Die n-fache Konkatenation einer Zeichenkette w mit sich selbst in der Potenznotation sei rekursiv definiert. Für n ≥ 1, n ∈ N: w0 = wn = w • wn−1 Beispiel 13.4.8 (Potenznotation der Verkettung). Die Zeichenkette aaabbcccc kann als a3 b2 c4 notiert werden. buffalo6 Beispiel 13.4.9 (Ein syntaktisch korrekter englischer Satz). “Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo.” Analyse • Buffalo als Herkunftsadjektiv • buffalo als Nomen (Büffel) • buffalo als Verb (einschüchtern) • Sinn: “Bison from Buffalo, New York who are intimidated by other bison in their community also happen to intimidate other bison in their community.” 13.4.3 Grammatiken Chomsky-Hierarchie [Hopcroft et al. 2002] Sprachklasse Typ Beispiel regulär 3 {an } kontextfrei 2 {an bn } kontextsensitiv 1 {an bn cn } allgemein 0 142 Kontextsensitive Sprachen Kontextfreie Sprachen Reguläre Sprachen . Allgemeine Regelsprachen Abbildung 13.2: Teilmengenbeziehungen der Sprachklassen von Chomsky mit n ≥ 1 Echte Teilmengen Für alle Typ–i–Sprachen mit 0 ≤ i ≤ 2 gilt: Li+1 ⊂ Li . Wo befinden sich natürliche Sprachen? [Hess 2005, 138ff.] Mindestens Typ 2: NPn VPn (central embedding) ----------------------------------------------| ---------------------------| | | -------| | | | | | | | The man whose wife whose child is angry is sad is surprised Mindestens Typ 1 nach [Shieber 1985, Kallmeyer 2005]: NPi NPj Vi Vj (cross serial construction) mer wänd -----------------| | -----------------| | | | | -------------------| | | | | | | | d’Chind am Hans s’Huus laa hälfe aaschtriiche 143 Komplexität, Grammatikalität, Akzeptanz von Sprache Es darf daher getrost, was auch von allen, deren Sinne, weil sie unter Sternen, die, wie der Dichter sagt, zu dörren, statt zu leuchten, geschaffen sind, geboren sind, vertrocknet sind, behauptet wird, enthauptet werden, dass hier einem sozumaßen und im Sinne der Zeit, dieselbe im Negativen als Hydra betrachtet, hydratherapeutischen Moment ersten Ranges, immer angesichts dessen, dass, wie oben, keine mit Rosenfingern den springenden Punkt ihrer schlechthin unvoreingenommenen Hoffnung auf eine, sagen wir, schwansinnige oder wesenzielle Erweiterung des natürlichen Stoffeides zusamt mit der Freiheit des Individuums vor dem Gesetz ihrer Volksseele zu verraten den Mut, was sage ich, die Verruchtheit haben wird, einem Moment, wie ihm in Handel, Wandel, Kunst und Wissenschaft allüberall dieselbe Erscheinung, dieselbe Tendenz den Arm bietet, und welches bei allem, ja vielleicht eben trotz allem, als ein mehr oder minder undulationsfähiger Ausdruck einer ganz bestimmten und im weitesten Verfolge excösen Weltauffasseraumwortkindundkunstanschauung kaum mehr zu unterschlagen versucht werden zu wollen vermag - gegenübergestanden und beigewohnt werden zu dürfen gelten lassen zu müssen sein möchte. Christian Morgenstern, Vorrede zu Galgenliedern Regel-Grammatiken • Eine Regel-Grammatik ist ein mächtiges endliches Beschreibungsmittel, um formale Sprachen mit potentiell unendlich vielen Zeichenketten zu spezifizieren. • Eine Grammatik G = hΦ, Σ, R, Si besteht aus: 1. Alphabet Φ: endliche Menge von Nichtterminalsymbolen 2. Alphabet Σ: endliche Menge von Terminalsymbolen mit Φ ∩ Σ = ∅ 3. Menge R ⊆ Γ∗ × Γ∗ von Regeln hα, βi (mit Gesamtalphabet Γ = Φ ∪ Σ), wobei gilt: α 6= und α 6∈ Σ∗ 4. Startsymbol S ∈ Φ • Diese Definition einer Grammatik ist die allgemeinste (Typ 0). • Eine Grammatikregel ist ein geordnetes Paar: hα, βi. Schreibweise: α → β. Kontextfreie Grammatiken • Eine Kontextfreie Grammatik G = hΦ, Σ, R, Si besteht aus: 1. Nichtterminalsymbolen Φ 2. Terminalsymbolen Σ 3. Regelmenge R ⊆ Φ × Γ∗ (Γ = Φ ∪ Σ) 4. Startsymbol S ∈ Φ Beispiel 13.4.10 (Kontextfreie Grammatik). • G1 = h{S, N P, V P, EN, V, D, N }, {Egon, P udel, den, ass}, R, Si S → N P V P, N P → EN, N P → D N, V P → V N P, EN → Egon, N → Pudel, • Regelmenge R = V → ass, D → den 144 Beispiel-Evaluation Siehe Abb. 13.3 auf Seite 144. Indexnotationen Hüllen Graphen Formale Sprachen Sprache als Menge Konkatenation Grammatiken Indexnotationen Hüllen Graphen Formale Sprachen Sprache als Menge Konkatenation Grammatiken Indexnotationen Hüllen Graphen Formale Sprachen Sprache als Menge Konkatenation Linksableitung und Konstruktion des Parsebaums Linksableitung und Konstruktion des Parsebaums Linksableitung und Konstruktion des Parsebaums Linksableitung informell Linksableitung informell Linksableitung informell Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ Indexnotationen Hüllen Graphen S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel Einführung in die Computerlinguistik I Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. NP2 VP2 EN3 V5 Egon4 ass6 NP5 D7 N7 den8 Pudel9 HS 2008 Formale Sprachen Formales Propädeutikum II Sprache als Menge 31 / 37 Konkatenation Indexnotationen Hüllen Graphen S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ NP2 VP2 EN3 V5 NP5 Egon4 ass6 D7 N7 den8 Pudel9 Einführung in die Computerlinguistik I Grammatiken Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel HS 2008 Formales Propädeutikum II Formale Sprachen Sprache als Menge 31 / 37 Konkatenation S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel NP2 VP2 EN3 Indexnotationen Hüllen NP5 D7 N7 den8 Pudel9 Einführung in die Computerlinguistik I Grammatiken V5 Egon4 ass6 HS 2008 Graphen Formales Propädeutikum II Formale Sprachen Sprache als Menge 31 / 37 Konkatenation Linksableitung und Konstruktion des Parsebaums Linksableitung und Konstruktion des Parsebaums Linksableitung und Konstruktion des Parsebaums Linksableitung informell Linksableitung informell Linksableitung informell Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ Einführung in die Computerlinguistik I Indexnotationen Hüllen Graphen Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel NP2 VP2 EN3 V5 Egon4 ass6 NP5 D7 N7 den8 Pudel9 HS 2008 Formale Sprachen Formales Propädeutikum II Sprache als Menge 31 / 37 Konkatenation Grammatiken EN3 Hüllen Graphen V5 NP5 D7 N7 den8 Pudel9 Einführung in die Computerlinguistik I Indexnotationen S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ NP2 VP2 Egon4 ass6 HS 2008 Formale Sprachen Formales Propädeutikum II Sprache als Menge Konkatenation 31 / 37 Grammatiken Indexnotationen S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel NP2 VP2 EN3 Graphen Formale Sprachen HS 2008 Sprache als Menge Linksableitung und Konstruktion des Parsebaums Linksableitung und Konstruktion des Parsebaums Linksableitung informell Linksableitung informell S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ Einführung in die Computerlinguistik I S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel NP2 VP2 EN3 V5 Egon4 ass6 NP5 D7 N7 den8 Pudel9 HS 2008 Formales Propädeutikum II 31 / 37 Einführung in die Computerlinguistik I S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ NP2 VP2 EN3 V5 Egon4 ass6 NP5 D7 N7 den8 Pudel9 HS 2008 Formales Propädeutikum II N7 31 / 37 Grammatiken Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel D7 Formales Propädeutikum II Konkatenation Linksableitung informell Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. NP5 den8 Pudel9 Einführung in die Computerlinguistik I Hüllen V5 Egon4 ass6 Linksableitung und Konstruktion des Parsebaums Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. Grammatiken Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel: S → NP VP erlaubt Ersetzung von S durch NP VP. S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel Grammatiken 31 / 37 S1 NP VP EN VP Egon VP Egon V NP Egon ass NP Egon ass D N Egon ass den N Egon ass den Pudel Einführung in die Computerlinguistik I NP2 VP2 EN3 V5 Egon4 ass6 NP5 D7 N7 den8 Pudel9 HS 2008 Formales Propädeutikum II 31 / 37 Abbildung 13.3: Beispiel für Linksderivation und Parsebaumkonstruktion Formales Ableiten von Sätzen Definition 13.4.11 (Direkte Ableitungsrelation). Die direkte Ableitungsrelation ⇒ ⊆ Γ∗ × Γ∗ einer Grammatik ist die Menge aller Paare hu, vi mit u, v, w, z ∈ Γ∗ , für die gilt: • es gibt eine Regel der Form w → z • die Zeichenketten u und v können so in Teilzeichenketten aufgeteilt werden, dass gilt: u = u1 wu2 sowie v = u1 zu2 Definition 13.4.12 (Ableitung (derivation)). Eine Ableitung ist ein n-Tupel hw1 , . . . , wn i von Zeichenketten wi ∈ Γ∗ mit (1 ≤ i ≤ n) , so dass gilt: • wi−1 ⇒ wi für alle i ∈ {2 ..n} Normale Schreibweise für Ableitungen w1 ⇒ . . . ⇒ wn 145 S NP VP EN V Egon aß . NP D N den Pudel Beispiel: Ableitung mit kontextfreier Grammatik Ableitung S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ NP VP EN VP EN V NP EN aß NP EN aß D N EN aß den N EN aß den Pudel Egon aß den Pudel u u1 wu2 S NP VP EN VP EN V NP EN aß NP EN aß D N EN aß den N EN aß den Pudel Regel w→z S → NP VP NP → EN VP → V NP V → aß NP → D N D → den N → Pudel EN → Egon v u1 zu2 NP VP EN VP EN V NP EN aß NP EN aß D N EN aß den N EN aß den Pudel Egon aß den Pudel Satzformen, Sätze und Sprachen ∗ Definition 13.4.13 (Ableitungsrelation (derivation relation)). Die Ableitungsrelation ⇒ ist die reflexiv-transitive Hülle von ⇒. Definition 13.4.14 (Satz). Ein Satz a einer Grammatik G = hΦ, Σ, R, Si ist eine Zeichenkette aus Terminalsymbolen a ∈ Σ∗ , so dass gilt: + S⇒a Definition 13.4.15 (Sprache einer Grammatik G). Die Sprache LG einer Grammatik G = hΦ, Σ, R, Si ist die Menge aller ihrer Sätze a ∈ Σ∗ . + LG = { a | S ⇒ a } Grammatik-Regeln, Sprachklassen und Automaten Die verschiedenen Grammatiktypen unterscheiden sich hinsichtlich der Bedingungen, die an die Regelmenge R gestellt werden. Es seien A, B ∈ Φ, w ∈ Σ∗ und α, β, γ ∈ (Φ ∪ Σ)∗ . 146 Sprachklasse Regulär (Typ 3) Kontextfrei (Typ 2) Kontextsensitiv (Typ 1) Form der Grammatikregeln A→w A → wB oder A → Bw A→α αAγ → αβγ S→ mit β 6= oder (dann darf S nicht auf einer rechten Seite einer Regel vorkommen) (Typ 0) α→β (mit α 6= und α 6∈ Σ∗ ) Die Komplexität der Berechnungen für das Parsen steigt 147 Automatentyp Endlicher Automat Kellerautomat Linear beschränkter Automat (LBA) Turingmaschine mit jedem Grammatiktyp an. 14 Formales Propädeutikum III Lernziele • Exaktes Verständnis von Merkmalstrukturen mit und ohne Koreferenz • Kenntnis über gegenseitige rekursive Definition von Mengen • Kenntnis über Merkmal-Wert-Paare, Pfade und ihre Werte • Kenntnis über Subsumtion und Unifikation von Merkmalstrukturen • Fähigkeit formale und informelle Beschreibungen von Konzepten zu verstehen und aufeinander zu beziehen 14.1 Merkmalstrukturen 14.1.1 Motivation Merkmalsanalysen Wissenschaftshistorische Motivation Die Verwendung von Merkmalen in der modernen linguistischen Theorie geht zurück auf die Theorie der strukturalistischen Phonologie, wo die Analyse mit sogenannten «Distinktiven Merkmalen» zentral war. Beispiel 14.1.1 (Merkmalsanalyse in der Phonologie). Das Phonem /b/ = [+Verschlusslaut, +Bilabial, +Stimmhaft]. Beispiel 14.1.2 (Merkmalsanalyse in der Semantik nach Bierwisch). Die Verwandschaftsbezeichnung «Cousin» [+Mensch, +verwandt, –direkt verwandt, +gleiche Generation, +männlich, –weiblich ]. Beispiel 14.1.3 (Merkmalsanalyse in der Syntax nach Chomsky). Die Hauptwortarten Nomen, Verben, Adjektive und Präpositionen «A» [+Verbal,+Nominal] oder «P» [–Verbal,–Nominal]. Informationsorientierte Motivation Zur Bedeutung von Merkmalstrukturen Merkmalstrukturen beschreiben Mengen von Objekten, welche bestimmte Bedingungen (constraints) erfüllen. Wortart Numerus Person verb singular 3 148 { x | wortart(x) = verb ∧ numerus(x) = singular ∧ person(x) = 3 } Unterspezifikation Je weniger Merkmal-Wert-Paare in einer Merkmalstruktur spezifiziert sind, • desto weniger Information ist vorhanden. • desto mehr Objekte können die Bedingungen erfüllen. Einfache Merkmalstrukturen Mengentheoretische Beschreibung Eine einfache, d.h. nicht-rekursive Merkmalstruktur ist eine Abbildung M : A → V von einer endlichen Menge von Attributen A auf Werte V Beispiel 14.1.4 (Einfache linguistische Merkmalstrukturen). pers sg pl 1 2 3 Attribute Werte num " num pers # sg M = {hnum, sgi, hpers, 3i} 3 14.1.2 Rekursiv Beispiel: Gegenseitig rekursiv definierte Mengen Gerade Zahlen • 0 ist eine gerade Zahl. • Wenn x eine ungerade Zahl ist, dann ist der Nachfolger von x eine gerade Zahl. Ungerade Zahlen • Wenn x eine gerade Zahl ist, dann ist der Nachfolger von x eine ungerade Zahl. Sätze und NP Da Sätze Nominalphrasen enthalten und Nominalphrasen (Relativ)sätze enthalten können, müssen diese Kategorien auch gegenseitig rekursiv definiert werden. Merkmalstrukturen gegenseitig rekursiv definiert Definition 14.1.5 (Attribut-Wert-Struktur, attribute value matrix (AVM )). Die Menge der Merkmalstrukturen, welche sich aus einer Menge A von Merkmalen (Attributen) und V von atomaren Werten ergibt, lässt sich rekursiv angeben. Merkmalstrukturen • Die leere Menge ∅ ist eine Merkmalstruktur. 149 – Diese “leere” Merkmalstruktur wird meist notiert als []. • Wenn M eine Merkmalstruktur, a ∈ A ein Merkmal sowie w ein Wert ist, dann ist M1 = M ∪ {ha, wi} eine Merkmalstruktur, – Vorausgesetzt: M enthält kein Paar ha, ui mit u 6= w. Werte • Alle atomaren Werte v ∈ V sind Werte. • Wenn M eine Merkmalstruktur ist, dann ist M auch ein Wert. Beispiel: Rekursive Konstruktion einer Merkmalstruktur M Sei V = {sg, pl, 1, 2, 3} und A = {AGR, N U M, P ER} Schritt als Menge 1 M1 = ∅ 2 M2 = M1 ∪ {hP ER, 3i} 3 M3 = M2 ∪ {hN U M, sgi} 4 M = M1 ∪ {hAGR, M3 } in Matrix-Notation hi M1 = h i M2 = PER 3 " # NUM sg M3 = PER 3 " # NUM sg M =AGR PER 3 Beispiel: F-Struktur in XLE 14.1.3 Als Graphen Markierte gerichtete Bäume Definition 14.1.6 (markierter gerichteter Baum). Ein markierter gerichteter Baum ist ein gerichteter Baum T = hN, Ei. Er besitzt eine Markierungsfunktion für Kanten mE : E → A, welche jeder Kante eine Markierung aus A zuordnet. Sowie ein Markierungsfunktion für Knoten mN : N → B, welche jedem Knoten eine Markierung aus B zuordnet. Definition 14.1.7 (Blatt). Die Blätter eines Baumes sind alle seine Knoten ohne Nachfolger. Definition 14.1.8 (Innere Knoten). Die inneren Knoten eines Baumes sind alle Knoten mit mindestens einem Nachfolger. Merkmalstruktur als markierter gerichteter Baum Beispiel 14.1.9. T = hN, Ei N = {n1 , n2 , n3 , n4 } E = {hn1 , n2 i, hn2 , n3 i, hn2 , n4 i} mE = {hhn1 , n2 i, AGRi, hhn2 , n3 i, P ERSi, hhn mN = {hn1 ,00 i, hn2 ,00 i, hn3 , 3i, hn4 , sgi} 150 Abbildung 14.1: F-Struktur als Merkmalstruktur in XLE Abbildung 14.2: Merkmalstruktur als gerichteter Baum Merkmalstrukturen und Bäume Definition 14.1.10 (Baum einer koreferenzfreien Merkmalstruktur). Ein markierter gerichteter Baum T stellt eine Merkmalstruktur M dar, gdw. er folgende Eigenschaften erfüllt: 151 Abbildung 14.3: Merkmalstruktur als gerichteter Baum Abbildung 14.4: Kästchennotation • Alle atomaren Werte und leeren Merkmalstrukturen von M sind die Blätter von T . • Die komplexen Werte in M sind die inneren Knoten von T . • Alle atomaren Werte bekommen in T als Knoten-Markierung ihren atomaren Wert. • Ein Merkmalwertpaar ha1 , W1 i mit ha2 , W2 i ∈ W1 ergibt jeweils eine Kante von W1 nach W2 mit der Kanten-Markierung a2 . 14.2 Pfade und Werte Pfade in Merkmalstrukturen Definition 14.2.1 (Merkmal-Pfad). Ein Pfad in einer Merkmalstruktur ist eine endliche Folge von Merkmalen, die in der Merkmalstruktur unmittelbar aufeinander folgen. Beispiel 14.2.2 (Merkmalstruktur und alle nicht-leeren Pfade). " # hSU BJi hAGRi hN U M i SUBJ AGR NUM sg PER 3 hSU BJ, AGRi hAGR, N U M i hAGR, P ERi hSU BJ, AGR, N U M i hSU BJ, AGR, P ERi Definition 14.2.3 (Vollständiger Pfad). Ein vollständiger Pfad einer Merkmalstruktur ist ein Merkmal-Pfad, der beim Wurzelknoten beginnt und bei einem atomaren Wert oder der leeren Merkmalstruktur endet. 152 Pfade und ihre Werte in Merkmalstrukturen Definition 14.2.4 (Wert eines Pfades). Der Pfades beginnt. M val(ha2 , . . . , an i, W ) val(P, M ) = undef iniert Wert eines Pfades ist der Wert, der am Ende des f alls P = hi f alls ha1 , W i ∈ M ∧ P = ha1 , . . . , an i sonst Beispiel 14.2.5 (Werte von Pfaden). # " NUM sg val(hSU BJ, AGR, N U M i, M ) = sg M = SUBJ AGR PER 3 # " NUM sg val(hSU BJ, AGRi, M ) = PER 3 Evaluation der Pfadfunktion " # NUM sg ) val(hSU BJ, AGR, N U M i, SUBJ AGR PER 3 " # NUM sg = val(hAGR, N U M i, AGR ) PER 3 " # NUM sg = val(hN U M i, ) PER 3 = val(hi, sg) = sg 14.2.1 Koreferenz Koreferenz Idee Koreferenz (structure sharing, reentrancy) in Merkmalstrukturen erzwingt die Identität von Werten bzw. von Teil-Merkmalstrukturen. Beispiel 14.2.6 (Kongruenz von Subjekt und finitem Verb). Im Satz «Sie betrachten es.» sind die Wortformen «Sie» und «betrachten» für sich genommen morphosyntaktisch ambig. Durch das Wissen über die Identität ihrer Werte bezüglich Numerus und Person verringert sich die Mehrdeutigkeit. Verwendung Überall, wo es um den Abgleich von linguistische Information geht, ist Koreferenz das Mittel der Wahl. So etwas wie Anti-Koreferenz braucht es fast nie. . . Graph vs. Matrix [Müller 1994, 136] 153 Abbildung 14.5: Koreferente Merkmalstruktur als Matritze Abbildung 14.6: Koreferente Merkmalstruktur als gerichteter Graph Koreferente Graphen formal betrachtet Definition 14.2.7 (Merkmalstrukturen mit Koreferenz). Als Graph ist eine Merkmalstruktur mit Koreferenzen ein markierter gerichteter Baum, bei dem eine Bedingung aufgehoben ist: • Ein Knoten kann mehr als einen Vorgänger haben. Koreferenz in Matrix-Notation Bei der Matrix-Notation muss man genau bei einem Wert einen Index setzen und kann die koreferenten Werte dann damit koindizieren. Koreferenz in Mengen-Darstellung Koreferenz ist Gleichheitsrelation zwischen bestimmten Werten von Pfaden eine Merkmalstruktur M . Beispiel 14.2.8 (Koreferenz von 2 Merkmal-Pfaden). val(hSU BJ, AGRi, M ) = val(hP RED, AGRi, M ) 14.3 Unifikation 14.3.1 Motivation Wozu Unifikation von Merkmalstrukturen? 154 Informationen aus Merkmalstrukturen vereinigen Unifikation (t “unifiziert mit”) vereinigt die Bedingungen aus 2 Merkmalstrukturen in einer einzigen. Beispiel 14.3.1 (Widerspruchsfreie Unifikation). # # " " CAS nom GEN fem CAS nom = NUM sg t NUM sg NUM sg GEN fem von widersprüchlicher Information). # # (Unifikation " "Beispiel 14.3.2 GEN fem CAS nom = ⊥ t NUM sg NUM pl ⊥ steht für die “künstliche” Merkmalstruktur, welche bei widerspruchshaltiger Unifikation entsteht, d.h. wenn keine widerspruchsfreie Unifikation möglich ist. 14.3.2 Subsumtion Subsumtion Subsumtion informell Eine Merkmalstruktur M2 wird subsumiert von einer Merkmalstruktur M1 , falls M2 mindestens die Information von M1 enthält. M2 kannzusätzlich Information enthalten. " # CAS nom CAS nom M1 = subsumiert M2 =NUM sg NUM sg GEN fem Definition 14.3.3 (Subsumtion). Eine Merkmalstruktur M1 subsumiert eine Merkmalstruktur M2 , kurz M1 v M2 , falls gilt: • Jeder vollständige Pfad von M1 ist auch ein vollständiger Pfad von M2 und hat denselben Wert. • Jedes Paar von koreferenten Pfaden von M1 ist auch ein koreferentes Paar von M2 . Entscheidungshilfe für # Subsumtion " NUM sg AGR PER 3 " # M1: SUBJ NUM sg PER 3 CAT NP " # NUM sg M2: AGR 1 PER 3 SUBJ 1 Um zu überprüfen, ob M1 M2 subsumiert: 1. Gebe alle vollständigen Pfade von M1 und M2 an. 2. Falls M1 einen vollständigen Pfad enthält, der nicht in M2 ist: Nein! 155 3. Falls irgend ein vollständiger Pfad von M1 und M2 einen unterschiedlichen Wert hat: Nein! 4. Gebe alle Paare von koreferenten Pfaden an in M1 und M2 . 5. Falls M1 ein Paar enthält, das nicht in M2 ist: Nein! 6. Sonst: Ja! Subsumtionsrelation Die Subsumtion ist eine binäre Ordnungsrelation über der Menge der Merkmalstrukturen. D.h. • Reflexivität: Jede Merkmalstruktur subsumiert sich selbst. • Transitivität: Wenn M1 v M2 und M2 v M3 , dann M1 v M3 . • Antisymmetrie: Wenn M1 v M2 und M2 v M1 , dann gilt M1 = M2 14.3.3 Unifikation Unifikation von Merkmalstrukturen Definition 14.3.4 (Graphunifikation). Die Merkmalstruktur M heisst Unifikation von M1 und M2 , kurz M1 t M2 = M , gdw. gilt: • M1 subsumiert M • M2 subsumiert M • M subsumiert alle Merkmalstrukturen Mi , die von M1 und M2 subsumiert werden. Sinn der letzten Klausel Der Unifikator von zwei Merkmalstrukturen M1 und M2 soll immer die allgemeinste Merkmalstruktur sein, welche noch subsumiert wird. Eigenschaften • Die leere Merkmalstruktur (manchmal mit > geschrieben) kann mit beliebigen Merkmalstrukturen unifiziert werden: [] t Mi = Mi • Die Unifikation ergibt nicht für alle Paare von Merkmalstrukturen eine informative Merkmalstruktur. Sie scheitert, bzw. ergibt die inkonsistente Merkmalstruktur ⊥, welche von allen Merkmalstrukturen subsumiert wird: ⊥ t Mi = ⊥ • > bezeichnet irgend ein Objekt, ⊥ bezeichnet nichts. 156 15 Syntaktische Analyse Lernziele • Kenntnis über Eignung von kontextfreien Grammatiken für Syntaxanalyse • Kenntnis und Verständnis für den Zusammenhang von PATR-II und DCG mit Merkmalstrukturen als Argumente • Kenntnis über Musteranalysen für Englisch für Verbalkomplex, Satzgliedstellung in verschiedenen Satzarten und Lückenforderungen 15.1 Motivation Kontextfreie Grammatiken für natürliche Sprachen Die rohe Verwendung kontextfreier Grammatiken für die Modellierung natürlicher Sprache erzeugt eine Unmenge Regeln. Beispiel 15.1.1 (Übereinstimmung von Kasus, Genus und Numerus in NP). Für morpho-syntaktisch korrekte Phrasen muss etwa statt N P → DET N eine Vielzahl spezifischerer Regeln verwendet werden. NpMascSgNom NpMascSgAcc NpMascPlNom NpFemSgNom .. . → → → → → DetMascSgNom DetMascSgAcc DetMascPlNom DetFemSgNom .. . NMascSgNom NMascSgAcc NMascPlNom NFemSgNom .. . Wieviele sind es für Deutsch? Probleme kontextfreier Grammatikentwicklung • Generalisierungen wie «Artikel und Kernnomen haben innerhalb einer NP immer dasselbe Genus und denselben Kasus und Numerus» lassen sich nicht explizit formulieren. • Die Regelvervielfältigung verdunkelt Generalisierungen der Konstituenz. Das Symbol «NpFemSgNom» hat nur mnemotechnisch etwas mit «NpMascSgNom» zu tun – strukturell gibt es keinen Bezug. • Relevant ist dies mehr für den Grammatikentwickler – syntaktische Analyse ist mittlerweile auch möglich mit kontextfreien Grammatiken, welche Tausende von Regeln enthalten. Dies ist bei statistischen Parsern durchaus üblich. • Kontextfreie Grammatikregeln kodieren Konstituenz und Reihenfolge der Teilkonstituenten immer gleichzeitig. Sprachen mit freierer Wortstellung bzw. Satzgliedstellung wie etwa im Deutschen müssen damit umständlich beschrieben werden. 157 15.2 Unifikationsgrammatik 15.2.1 Formalismen DCG Definition 15.2.1 (Definite Clause Grammar). Der DCG-Formalismus ist ein einfacher GrammatikFormalismus, der von den meisten Prolog-Implementationen direkt zur syntaktischen Analyse (Parsing) unterstützt wird. Kontextfreie Grammatikregeln in DCG Art Schema Beispiel Syntax x0 --> x1, ..., xn . s --> np, vp. Baum S eeeeeYYYYY NP Lexikon y --> [wort] . n --> [dog]. VP N dog DCG-Parser in Prolog Das Parse-Prädikat phrase/2 implementiert eine Links-Ableitung: ?- phrase(n,[dog]). Beispielgrammatik s --> np, vp. % Intransitive Verben vp --> v. % Transitive Verben vp --> v, np. np --> d, n. np --> pronoun. v v v v --> --> --> --> [bark]. [barks]. [like]. [likes]. d --> [the]. d --> [two]. pronoun --> [him]. pronoun --> [he]. n --> [dog]. n --> [dogs]. 158 Wie viele syntaktisch korrekte Sätze erlaubt diese Grammatik? PATR-II [Shieber 1992] Definition 15.2.2 (Parsing and Translation). Der PATR-II-Formalismus ist ein GrammatikFormalismus mit hoher Theorieneutralität. Komponenten von PATR-II • Kontextfreie Grammatikregeln für Syntax und Lexikon X0 → X1 . . . Xn • Mit Merkmalstrukturen annotierte Nicht-Terminalsymbole • Gleichungen (constraints) für atomare Werte von Pfaden hXi M erkmalspf adi = W ert • Gleichungen (constraints) für Pfade (Koreferenz) hXi M erkmalspf adi = hXi M erkmalspf adi DCG mit Merkmalstrukturen: GULP [Covington 1994] Definition 15.2.3 (GULP (Graph Unification Logic Programming). GULP stellt Merkmalstrukturen und ihre Unifikation in Prolog als normale Term-Unifikation zur Verfügung. Merkmalstrukturen in GULP Der Operator : verknüpft ein Merkmal mit seinem Wert. Der Operator .. verknüpft MerkmalWert-Paare. Beispiel 15.2.4 (Konkrete Syntax von GULP für Merkmalstrukturen). " # SUBJ AGR NUM sg PER 3 (subj: (agr: (num: sg .. per: 3))) DCG mit Merkmalstrukturen Nicht-Terminal-Symbole in DCG können Merkmalstrukturen als Argumente haben. n(num:sg..pers:3) --> [dog]. DCG mit Merkmalstrukturen und Wertevariablen Beispiel 15.2.5 (N P → DET N mit Merkmalstrukturen). np(cas:Case .. num:Numerus .. gen:Genus) --> det(cas:Case .. num:Numerus .. gen:Genus), n(cas:Case .. num:Numerus .. gen:Genus). 159 NP Det cas num gen 1 2 3 ooOOOOO OOO ooo o o O o o o o OO cas num gen N 1 2 3 Beispielgrammatik mit GULP :- [’gulp.pl’]. % GULP laden s --> np(case:nom..num:N), vp(num:N). np(num:N) --> d(num:N), n(num:N). np(num:N..case:C) --> pronoun(num:N..case:C). % Intransitive Verben vp(num:N) --> v(subcat:1..num:N). % Transitive Verben vp(num:N) --> v(subcat:2..num:N), np(case:acc). v(num:sg..subcat:1) --> [barks]. v(num:pl..subcat:1) --> [bark]. v(num:sg..subcat:2) --> [likes]. v(num:pl..subcat:2) --> [like]. d(num:_) --> [the]. d(num:pl) --> [two]. pronoun(num:sg..case:acc) --> [him]. pronoun(num:sg..case:nom) --> [he]. n(num:sg) --> [dog]. 160 cas num gen 1 2 3 n(num:pl) --> [dogs]. 15.2.2 Kongruenz Übereinstimmung von Merkmalen Definition 15.2.6 (Kongruenz, engl. Agreement). Kongruenz: Übereinstimmung zwischen zwei oder mehreren Satzelementen hinsichtlich ihrer morpho-syntaktischen Kategorien (Kasus, Person, Numerus, Genus). [Bussmann 2002] Kongruenz in DCG Kongruenz lässt sich in DCG-Grammatikregeln mit Prolog einfach durch Variablengleichheit ausdrücken. Numerus-Kongruenz in DCG in GULP-Notation Kongruenzen in Numerus zwischen • Nomen und dem Begleiter np(num:N) --> det(num:N), n(num:N). • Subjekt und dem finiten Verb s --> np(num:N), vp(num:N). • Finitem Verb und Reflexivpronomen vp(num:N) --> v(num:N), np(pron:refl..num:N). h VP num Numerus-Kongruenz in PATR-II Notation Zwischen finitem Verb und Reflexivpronomen vp(num:N) --> v(num:N), np(pron:refl..num:N). V P → V NP hN P proni = ref l hV P numi = hV numi hV numi = hN P numi Lexikonregel (partiell) v(vform:fin..num:sg..pers:3..tense:present) --> [takes]. V hV hV hV hV → takes vf ormi = f in numi = sg persi = 3 tensei = present 161 i llWWWWWWWW lll l l " WW l lll i NP num h V num • zwischen Gleichsetzungsnominativen (predicate nominal ) vp(num:N) --> v(subcat:pred..num:N), np(num:N). • ... 1 1 1 pron refl # Kongruenz II Kongruenzphänomene mit weiteren Kategorien • Person – zwischen finitem Verb und Subjekt He likes soccer. • Kasus – zwischen koordinierten Nominalphrasen The kids hate him and her most. • Genus – zwischen Possessivpronomen und seinem Bezugsnomen Shei likes heri programming style. 15.2.3 Rektion Rektion bzw. Valenz Definition 15.2.7 (Rektion, government). Rektion: Lexemspezifische Eigenschaft von Verben, Adjektiven, Präpositionen oder Substantiven, die die morphologische Kategorie (insbesondere den Kasus) abhängiger Elemente bestimmt. Rektion kann unter Valenz subsumiert werden, insofern Valenzträger die morphologische Form der von ihnen ’regierten’ (abhängigen) Elemente bestimmen (’regieren’). [Bussmann 2002] Definition 15.2.8 (Valenz, Subkategorisierung). Valenz ist die Fähigkeit eines Lexems, seine syntaktische Umgebung vorzustrukturieren, in dem es anderen Konstituenten im Satz Bedingungen bezüglich ihrer grammatischen Eigenschaften auferlegt. [Bussmann 2002] Verben gleicher Valenz werden oft in Subkategorien aufgeteilt. Rektion/Valenz wird durch Merkmalspezifikation ausgedrückt. Finitheit und Valenz • Finite Vollverben fordern Subjekt im Nominativ s --> np(cas:nom),vp(vform:fin). • Vollverben fordern je nach Subkategorie Objekte vp(vform:VF) --> v(vform:VF..subcat:1), np(cas:acc). • Finite Formen eines Verbs v(vform:fin..subcat:1) --> [take]. v(vform:fin..subcat:1) --> [takes]. v(vform:fin..subcat:1) --> [took]. – Aus Gründen der Übersichtlichkeit sind nicht alle morphosyntaktischen Merkmale aufgeführt. 162 15.3 Analysen 15.3.1 Verbalkomplex Hilfsverben und Modalverben [Matthews 1998] Beispiel 15.3.1 (Verbalkomplex im Englischen). • takes • has taken • is taking The sherpa the wrong route. • could have taken • has been taking • may have been taking • Mit Hilfsverben (be,have,do), Modalverben (can, may) und Partizipien entstehen einige Möglichkeiten. Rektion im Verbalkomplex • Modalverben fordern Grundformen (base) aux(vform:fin..gov:bse) --> [could]. • Hilfsverb have fordert Partizip Perfekt (past participle) aux(vform:bse..gov:pastpart) --> [have]. • Ein Partizip Perfekt (das ein Akkusativobjekt regiert) v(vform:pastpart..subcat:1) --> [taken]. Bau des Verbalkomplexes Rekursive Verbalphrase mit Hilfsverben vp(vform:VF) --> aux(vform:VF..gov:Required), h VP vform vp(vform:Required). gov Satzstellung bei Ja-Nein-Fragen Ja-Nein-Fragen involvieren Subjekt-Hilfsverb-Inversion. Is the sherpa taking the wrong route? 163 i T fffff TTTTTT TT # f " ffff AUX vform 15.3.2 Satzfragen 1 1 2 VP h • Das Hilfsverb steht vor dem Subjekt. s_inv --> aux(vform:fin..gov:Req), np(cas:nom), vp(vform:Req). S-INV AUX ddWWWWWW ddddddd WWWWW " dddddd # h i WhWWW vform fin NP cas nom VP vform 2 gov 2 i • Lexikoneinträge aux(vform:fin..gov:partpres) --> [is]. v(vform:partpres..subcat:1) --> [taking]. 15.3.3 Ergänzungsfragen Satzstellung bei Ergänzungsfragen • Bei Subjektfragen ersetzt das Fragewort das Subjekt Who is taking the wrong route? s_quest --> wh_pro(case:nom), vp(vform:fin). • Lexikoneintrag: wh_pro(cas:nom) --> [who]. • Bei Objektfragen verändert sich die Verbalphrase Whati is he taking ei ? • Nach dem Fragewort erscheint eine Konstruktion mit Subjekt-Hilfsverb-Inversion, der das Objekt fehlt. 15.3.4 Leere Kategorien verwalten Lückenforderungen Eine Objekt-Fragewort fordert eine Subjekt-Hilfsverb-Inversion mit einer Lücke (gap) in der Verbalphrase s_quest --> wh_pro(_), s_inv(vform:fin..gap:np). • Revidierte Subjekt-Hilfsverb-Inversion s_inv(vform:VF..gap:Gap) --> aux(vform:VF..gov:Required), np(case:nom..gap:no), vp(vform:Required..gap:Gap). • Lückeninformation verarbeiten in VP und NP vp(vform:VF..gap:G) --> v(vform:VF..subcat:1), np(cas:acc..gap:G). np(num:N..gap:no) --> det(num:N), n(num:N). np(gap:np) --> []. 164 Lücken in Baumbanken: Penn-Treebank [Bies et al. 1995] Lücken und Lückenfüller Eine Lücke ist mit *T* “gefüllt” und über eine Indexzahl mit dem Lückenfüller koindiziert. Fragesatz-Struktur in PTB • kein S-INV bei W-Fragen, dafür obligatorisch SQ bei Fragesätzen • Fragewort steht an erster Stelle in SBARQ, analog zu Relativpronomen in Relativsätzen (SBAR) oder Konjunktionen in Nebensätzen (SBAR). Abbildung 15.1: Annotation von Wh-Fragen in der Penn-Treebank 165 Lücken in Baumbanken Lücken vs. überkreuzende Kanten in NEGRA Die Verwendung von Lücken und ihren Lückenfüllern kann dasselbe wie überkreuzende Kanten. Abbildung 15.2: NEGRA-Baum mit überkreuzenden Kanten Abbildung 15.3: NEGRA-Baum mit Lücken und koindizierten Lückenfüllern 15.4 Vertiefung • Kapitel 3.4.1 in [Carstensen et al. 2004] • GULP 3 für SWI-Prolog [Covington 2005] 166 16 Literaturverzeichnis [Abney 1991] Abney, Steven (1991). Parsing by Chunks, In: Berwick, Robert, S. Abney und C. Tenny, Hrsg.: Principle-Based Parsing. Kluwer Academics, LIN 235. 55 [Al-onaizan et al. 1999] Al-onaizan, Yaser, J. Curin, M. Jahr, K. Knight, J. Lafferty, D. Melamed, F. josef Och, D. Purdy, N. A. Smith und D. Yarowsky (1999). Statistical machine translation, Technischer Bericht, Final Report, JHU Summer Workshop. 8, 122 [Arnold et al. 1994] Arnold, Doug, L. Balkan, R. L. Humphreys, S. Meijer und L. Sadler (1994). Machine Translation: An Introductory Guide. Blackwell. 113 [Bader 2006] Bader, Markus (2006). Satzintonation: Einführung, http://ling. uni-konstanz.de/pages/home/bader/Seminare/Satzintonation-06-07/01Einfuehrung. pdf. 82, 83 [Bies et al. 1995] Bies, Ann, M. Ferguson, K. Katz und R. MacIntyre (1995). 164 [Brants 1999] Brants, Thorsten (1999). Tagging and Parsing with Cascaded Markov Models. Automation of Corpus Annotation, Bd. 6. Saarbrücken Dissertations in Computational Linguistics and Language Technology. 52 [Brants et al. 1999] Brants, Thorsten, R. Hendriks, S. Kramp, B. Krenn, C. Preis, W. Skut und H. Uszkoreit (1999). NEGRA Annotierschema, unpublished, Arbeitsmaterial. 34 [Bußmann 1990] Bußmann, Hadumod (1990). Lexikon der Sprachwissenschaft. Kröner, Stuttgart, 2., völlig neu bearbeitete Aufl. 19, 21, 30, 32 [Bussmann 2002] Bussmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Kröner, Stuttgart, 3., aktual. und erw. Aufl Aufl. 15, 127, 160, 161 [Callison-Burch et al. 2006] Callison-Burch, Chris, M. Osborne und P. Koehn (2006). Re-Evaluation the Role of Bleu in Machine Translation Research, In: EACL-2006: 11th Conference of the European Chapter of the Association for Computational Linguistics, S. 00– 00, Trento. Association for Computational Linguistics, http://www.aclweb.org/anthology/ E06-1032.pdf. 106 [Cantor 1895] Cantor, Georg (1895). Beiträge zur Begründung der transfiniten Mengenlehre, In: Mathematische Annalen, Bd. 46, S. 481 – 512, Leipzig. http://www-gdz.sub. uni-goettingen.de/cgi-bin/digbib.cgi?PPN235181684_0046. 124 [Carstensen et al. 2004] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat, R. Klabunde und H. Langer, Hrsg. (2004). Computerlinguistik und Sprachtechnologie : Eine Einführung. Elsevier, München, http://www.cl.uzh.ch/CLBuch/. 16, 18, 36, 45, 56, 68, 70, 72, 79, 85, 88, 89, 90, 165 167 [Chandioux 1991] Chandioux, John (1991). Meteo: Environment Canada [contribution to panel] The MT user experience, In: MT Summit III., S. 123. http://www.mt-archive.info/ MTS-1991-panel-1.pdf. 102 [Clematide 2007] Clematide, Simon (2007). Tagger-Training und Evaluation mit TnT , Arbeitsmaterial. 47 [Cohn und Lapata 2008] Cohn, Trevor und M. Lapata (2008). Sentence Compression Beyond Word Deletion, In: Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), S. 137–144, Manchester, UK. Coling 2008 Organizing Committee, http://www.aclweb.org/anthology/C08-1018. 76 [Covington 1994] Covington, Michael A (1994). GULP 3.1: An Extension of Prolog for Unification-Based Grammar , Research Report AI-1994-06, Artificial Intelligence Center, Arbeitsmaterial. 158 [Covington 2003] Covington, Michael A (2003). ET: an Efficient Tokenizer in ISO Prolog, Arbeitsmaterial. 38 [Covington 2005] Covington, Michael A (2005). GULP 3.1 für Swi-Prolog, Arbeitsmaterial. 165 [Cunningham 1999] Cunningham, Hamish (1999). Information Extraction – a User Guide, Technischer Bericht, Institute for Language, Speech and Hearing (ILASH), CS-99-07, http: //www.dcs.shef.ac.uk/~hamish/IE/. 77 [Cutting et al. 1992] Cutting, D, J. Kupiec, J. Pedersen und P. Sibun (1992). A Practical Part-of-Speech Tagger , In: Proceedings of the Third Conference on Applied Natural Language Processing, Trento, S. 133–140, Trento. Association for Computational Linguistics, http://www.aclweb.org/anthology/A92-1018.pdf, Arbeitsmaterial. 47 [Dale et al. 1998] Dale, Robert, B. D. Eugenio, und D. Scott (1998). Introduction to the Special Issue on Natural Language Generation, Computational Linguistics, 24(3):345–353, http://www.aclweb.org/anthology/J98-3001.pdf. 74 [Dudenredaktion 2005] Dudenredaktion, Hrsg. (2005). Duden, die Grammatik: unentbehrlich für richtiges Deutsch, Bd. 4 d. Reihe Der Duden. Dudenverlag, 7. Aufl. 30 [EAGLES 1996] EAGLES (1996). ELM-DE: EAGLES Specifications for German morphosyntax: Lexicon Specification and Classification Guidelines, electronic, http://www.ilc.cnr.it/ EAGLES96/pub/eagles/lexicons/elm_de.ps.gz, Arbeitsmaterial. 22 [Edmundson 1969] Edmundson, H.P. (1969). New Methods in Automatic Extracting, Journal of the ACM, 16:264–285. 75 [excelsis 2007] excelsis (2007). Hörbeispiel: Fussball-WM-Auskunft, http://www. excelsisnet.com/download/voicedemos/DemoWM2002.mp3, Arbeitsmaterial. 90 [F-Mass 2006] F-Mass (2006). F1 -Mass in 3D als Funktion von Recall (x) und Precision (y), Arbeitsmaterial. 59 [Gale und Church 1993] Gale, William A und K. W. Church (1993). A Program for Aligning Sentences in Bilingual Corpora, Computational Linguistics, 19(1):75–102, http:// www.aclweb.org/anthology/J93-1004.pdf. 96 168 [Gallmann und Sitta 2001] Gallmann, Peter und H. Sitta (2001). Deutsche Grammatik . Lehrmittelverlag, 3. Aufl., Konzis und verständlich. 21 [German 2006] German, Klara (2006). AT&T Beispielsatz Deutsch, http://www. research.att.com/~ttsweb/tts/demo.php, Arbeitsmaterial. 80 [Grefenstette 1998] Grefenstette, Gregory (1998). Producing Intelligent Telegraphic Text Reduction to Provide an Audio Scanning Service for the Blind , In: Intelligent Text Summarization, AAAI Spring Symposium Series, S. 111–117, Stanford, California. 75 [Grefenstette und Tapanainen 1994] Grefenstette, Gregory und P. Tapanainen (1994). What is a Word, What is a Sentence? Problems of Tokenisation, In: Proceedings of the 3rd Conference on Computational Lexicography and Text Research, COMPLEX’94 , Budapest. http://citeseer.ist.psu.edu/grefenstette94what.html, Arbeitsmaterial. 43, 44, 45 [Grover 2008] Grover, Claire (2008). LT-TTT2 Example Pipelines Documentation, http: //www.ltg.ed.ac.uk/software/lt-ttt2, Arbeitsmaterial. 40 [Hearst 1999] Hearst, Marti A. (1999). Untangling text data mining, In: Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, S. 3–10, Morristown, NJ, USA. Association for Computational Linguistics. 72 [Hess 2005] Hess, Michael (2005). Einführung in die Computerlinguistik I: Interaktives Vorlesungsskript WS 2004/2005 , Arbeitsmaterial. 119, 122, 142 [Hopcroft et al. 2002] Hopcroft, John E., R. Motwani und J. D. Ullman (2002). Einführung in die Automatentheorie, Formale Sprachen und Komplexitätstheorie. Pearson Studium, München, 2. überarbeitete Aufl. 141 [Hutchins und Somers 1992] Hutchins, W. John und H. L. Somers (1992). An introduction to machine translation. Academic Press, London [etc.]. 94 [ICL 2007a] ICL (2007a). Informationen zur Leistungsüberprüfung für Bachelorstudierende, Arbeitsmaterial. 11 [ICL 2007b] ICL (2007b). Informationen zur Leistungsüberprüfung für Lizentiatsstudierende, Arbeitsmaterial. 11 [Irvine 2003] Irvine, A. D. (2003). Russell’s Paradox (Stanford Encyclopedia of Philosophy), http://plato.stanford.edu/entries/russell-paradox/ [cited Mittwoch, 17. Januar 2007]. 126 [Jurafsky und Martin 2000] Jurafsky, Daniel und J. H. Martin (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall. 18, 84 [Jurafsky und Martin 2008] Jurafsky, Daniel und J. H. Martin (2008). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, 2. Aufl. 121 [Kallmeyer 2005] Kallmeyer, Laura (2005). Part I: Lexicalized Tree Adjoining Grammars (LTAG), http://www.sfb441.uni-tuebingen.de/~lk/TAG-SEMINAR/ext-cfg.pdf. 142 169 [Kassensturz 2006] Kassensturz (2006). Sendung Kassensturz vom 10. Oktober , Arbeitsmaterial. 12 [Kay und Roscheisen 1993] Kay, Martin und M. Roscheisen (1993). Text-Translation Alignment, Computational Linguistics, 19(1):121–142, http://www.aclweb.org/anthology/ J93-1006.pdf. 97 [Knight 1997] Knight, Kevin (1997). Automatic Knowledge Acquisition for Machine Translation, Arbeitsmaterial. 123 [Kupiec et al. 1995] Kupiec, Julian, J. Pedersen und F. Chen (1995). A Trainable Document Summarizer , In: Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval , S. 68–73, Seattle, Washington. 75 [Liberman und Church 1992] Liberman, Mark und K. W. Church (1992). Text Analysis and Word Pronunciation in Text-to-Speech Synthesis, In: Furui, Sadaoki und M. M. Sondhi, Hrsg.: Advances in Speech Signal Processing, S. 791–832. Marcel Dekker, New York. 81 [Linke et al. 2001] Linke, Angelika, M. Nussbaumer und P. R. Portmann, Hrsg. (2001). Studienbuch Linguistik . Niemeyer, Mit interaktivem Lernprogramm auf CD-ROM. 20 [Locke und Booth 1955] Locke, William N. und A. Booth, Hrsg. (1955). Machine translation of languages: fourteen essays. Technology Press. 116, 171 [Luhn 1958] Luhn, Hans Peter (1958). Automatic Creation of Literature Abstracts, IBM Journal of Research & Development, 2(2):159–165, http://de.wikipedia.org/wiki/ Extraktionsalgorithmus_nach_Luhn. 75 [MARY 2006] MARY, Male (2006). Hörbeispiel Sprachsynthese: Emotionaler Fussballreporter , Arbeitsmaterial. 90 [Matthews 1998] Matthews, Clive (1998). An Introduction to Natural Language Processing through Prolog. Longman, London. 162 [Mehler und Wolff 2005] Mehler, Alexander und C. Wolff (2005). Einleitung: Perspektiven und Positionen des Text Mining, LDV Forum, 20:1–18, Arbeitsmaterial. 72 [Melby 2001] Melby, Alan K. (2001). Translation, Theory and Technology Homepage, http: //www.ttt.org/theory/mt4me/mtambiguity.html. 111, 112 [Müller 1994] Müller, Stefan (1994). Prolog und Computerlinguistik: Teil I - Syntax , http: //www.cl.uni-bremen.de/~stefan/PS/prolog.pdf. 152 [Oberhauser und Labner 2003] Oberhauser, Otto und J. Labner (2003). OPACErweiterung durch automatische Indexierung: Empirische Untersuchung mit Daten aus dem Österreichischen Verbundkatalog, In: ODOK ’03 : 10. Österreichisches OnlineInformationstreffen ; 11. Österreichischer Dokumentartag. 68, 69 [ORF 2007a] ORF (2007a). Hörbeispiel 1: Sprechender Fahrplan Salzburg, http://salzburg. orf.at/magazin/leben/stories/73906/, Arbeitsmaterial. 90 [ORF 2007b] ORF (2007b). Hörbeispiel 3: Sprechender Fahrplan Salzburg, http://salzburg. orf.at/magazin/leben/stories/73906/, Arbeitsmaterial. 90 170 [Palmer 2000] Palmer, David D (2000). Tokenisation and Sentence Segmentation, In: Dale, Robert, H. Moisl und H. Somers, Hrsg.: Handbook of natural language processing, S. 11– 35. New York. 45 [Pierce et al. 1966] Pierce, John R, J. B. Carroll, E. P. Hamp, D. G. Hays, C. F. Hockett, A. G. Oettinger und A. Perlis, Hrsg. (1966). Language and Machines: Computers in Translation and Linguistics. National Academy of Sciences, http://darwin.nap. edu/html/alpac_lm/ARC000005.pdf. 92 [Plaehn 1998] Plaehn, Oliver (1998). ANNOTATE: Bedienungsanleitung, Arbeitsmaterial. 26 [Plaehn 2000] Plaehn, Oliver (2000). ANNOTATE v3.6 – Quick Reference, Arbeitsmaterial. 26 [Pyysalo 2008] Pyysalo, Sampo (2008). A Dependency Parsing Approach to Biomedical Text Mining, Department of Information Technology; TUCS, http://oa.doria.fi/handle/ 10024/39934. 61, 62 [Raggett 2001] Raggett, Dave (2001). http://www.w3.org/Voice/Guide/. 90 Dave Raggett’s Introduction to VoiceXML 2.0 , [Referenzkarte 2007] Referenzkarte (2007). Referenzkarte zum Annotieren, Arbeitsmaterial. 26 [Roth 2006] Roth, Sandra (2006). OLAT-Hinweise Studierende, Arbeitsmaterial. 9 [Salton 1988] Salton, Gerard (1988). Automatic text processing : the transformation, analysis, and retrieval of information by computer . Addison-Wesley, Reading, Mass. 71 [Schiller et al. 1999] Schiller, Anne, S. Teufel und C. Stöckert (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset), http://www.ims. uni-stuttgart.de/projekte/corplex/TagSets/stts-1999.pdf. 22, 26 [Schmid 2006] Schmid, Helmut (2006). TreeTagger , http://www.ims.uni-stuttgart.de/ projekte/corplex/TreeTagger/DecisionTreeTagger.html. 39 [Shieber 1985] Shieber, Stuart M. (1985). Evidence Against the Context-Freeness of Natural Language, Linguistics and Philosophy, 8:333–343, Reprinted in Walter J. Savitch, Emmon Bach, William Marsh, and Gila Safran-Navah, eds., The Formal Complexity of Natural Language, pages 320–334, Dordrecht, Holland: D. Reidel Publishing Company, 1987., http://www.eecs.harvard.edu/~shieber/Biblio/Papers/shieber85.pdf. 142 [Shieber 1992] Shieber, Stuart M. (1992). Constraint-Based Grammar Formalisms. MIT Press, http://mitpress.mit.edu/catalog/item/default.asp?tid=5840&ttype=2. 158 [Simmons 2006a] Simmons (2006a). Hörbeispiel ToBi: Bloomingdales, http://anita. simmons.edu/~tobi/chap2-7/chapter2-7.htm, Arbeitsmaterial. 7, 84 [Simmons 2006b] Simmons, Anita (2006b). Sound-Datei zu Beispielsatz ”There ‘s a lovely one in Bloomingdale.“, http://anita.simmons.edu/~tobi/chap2-7/bloomingdales1.wav, Arbeitsmaterial. 83 171 [Steiner 2003] Steiner, Petra (2003). Das revidierte Münsteraner Tagset / Deutsch (MT/D). Beschreibung, Anwendung, Beispiele und Problemfälle, http: //santana.uni-muenster.de/Publications/tagbeschr_final.ps. 22 [Stocker et al. 2004] Stocker, Christa, D. Macher, R. Studler, N. Bubenhofer, D. Crevlin, R. Liniger und M. Volk (2004). Studien-CD Linguistik: Multimediale Einführungen und interaktive Übungen zur germanistischen Sprachwissenschaft, Max Niemeyer Verlag, http://www.ds.unizh.ch/studien-cd. 22, 34 [Traunmüller 1997] Traunmüller, Hartmut (1997). Geschichte der Sprachsynthese, http://www.ling.su.se/staff/hartmut/kempln.htm. 13 [Turing 1950] Turing, A. M. (1950). Computing Machinery and Intelligence, Mind, 59(236):433–460, http://cogprints.org/499/00/turing.html. 17 [Universitätsrat 2004] Universitätsrat (2004). Richtlinie über die Umsetzung des Bologna-Prozesses an der Universität Zürich, http://www.studienreform.unizh.ch/ dokumente/richtlinien.pdf. 10 [Volk und Schneider 1998] Volk, Martin und G. Schneider (1998). Comparing a statistical and a rule-based tagger for German, In: Proceedings of KONVENS-98 , S. 125–137, Bonn. Arbeitsmaterial. 49 [Weaver 1955] Weaver, Warren (1955). Translation, In: [Locke und Booth 1955], S. 15– 23, http://www.mt-archive.info/Weaver-1949.pdf. 92 [Weisser 2005] Weisser, Martin (2005). Computational Philology, http://ell.phil. tu-chemnitz.de/compPhil/intro.html [cited Mittwoch, 11. Oktober 2006]. 14 [Wikipedia 2006a] Wikipedia (2006a). Kognitionswissenschaft — Wikipedia, Die freie Enzyklopädie, [Online; Stand 25. Oktober 2006], http://de.wikipedia.org/w/index.php?title= Kognitionswissenschaft&oldid=22344755. 17 [Wikipedia 2006b] Wikipedia (2006b). Loebner-Preis — Wikipedia, Die freie Enzyklopädie, [Online; Stand 25. Oktober 2006], http://de.wikipedia.org/w/index.php?title= Loebner-Preis&oldid=22274242. 18 [Wikipedia 2007] Wikipedia (2007). Harmonic mean — Wikipedia, The Free Encyclopedia, http://en.wikipedia.org/w/index.php?title=Harmonic_mean\&oldid=107249796. 59 172 Index Übersetzung, computerunterstützt, 93 Übersetzung, maschinell, 93 Übersetzungsrichtung, 93 10-fache Kreuzvalidierung, 52 Epsilon, 139 Ersatzprobe, 27 Evaluation, 50 Existenzquantor, 127 Ableitung, 144 Ableitungsrelation, 145 Ableitungsrelation, direkt, 144 Adjektiv-Flexion, 26 Allquantor, 127 Alphabet, 139 Assimilation, 87 Attribut-Wert-Struktur, 148 Aussprachewörterbuch, elektronisch, 84 AVM, 148 F-Measure, 53 FAHQT, 101 Folge, endlich, 135 Funktion, 132 Genus, 24 Grad, 26 Grammatik, kontextfrei, 143 Graph, gerichtet, 138 Graph,zyklenfrei, 138 Grundfrequenzverlauf, 82 Baum, 138 Baum, Höhe eines, 138 Baum, markiert, gerichtet, 149 Blatt, 149 BLEU, 103 BOW, 69 HAMT, 98 IDF, 71 Idiom, 113 Index, 65 Indexieren, 65 Informationsextraktionssystem, 76 IOB-Chunks, 55 IPA, 16 IR, 64 CAT, siehe Übersetzung, computerunterstützt Computerlinguistik, 12 Data-Mining, 72 DCG-Formalismus, 157 Definition, 127 Dependenz, 32 Dialogsystem Conversational User Interface, 89 Interactive Voice Response System, 89 Kommandowortsystem, 89 Diphon, 86 Dokument als Menge von Indextermen, 69 Dolmetschen, maschinell, 93 Junktur, 87 Kardinalität, 129 Kasus, 24 Kern, 31 Knoten, innerer, 149 Koartikulation, 87 Kognitionswissenschaft, 17 Kollokation, 113 Komparation, siehe Grad Kongruenz, 160 Konkatenation, 140 Konstituente, 30 Konstituentenanalyse, 30 Editierdistanz, minimal, 88 Einsetzprobe, 28 Elementbeziehung, 125 173 Potenzmenge, 128 Präedition, 100 Pragmatik, 17 Precision, 52 Probe, linguistisch, 27 Produkt, von Relationen, 137 Konstituenz, 30 Koordination, 32 Kopf, 31 Korpus, tokenisiert, 136 Kreuzprodukt, 130 leere Sprache, 140 Lemma, 21 Levenshtein Editierdistanz, siehe Editierdistanz, minimal Lexem, 21 Lexemverband, 21 Linguistik, 15 Qualität einer Evaluation, 50 Quellsprache, 93 Recall, 52 Regeln, phonologisch, 86 regulärer Ausdruck, 39 Rektion, 161 Relation, binär, 130 Relationskomposition, 137 Reliabilität, 50 Retrievalmodell, Boolsch, 69 MAHT, 94 Menge, 124 Menge, Leer, 128 Mengenaufzählung, 124 Mengencharakterisierung, 125 Mengengleichheit, 127 Merkmal, morphologisch, 23 Merkmalstruktur, 148 Merkmalstruktur, als Graph, 150 Merkmalstrukturunifikation, 155 Modus, 25 Morphologie, 16 MT, siehe Übersetzung, maschinell Satz, 30 Satz, formal, 145 Satzkompression, 76 Schallwellen, 82 Semantik, 17 Sigma, 139 Silbentrennung, 44 SL, siehe Quellsprache Sprache, formal, 145 Spracherkennungssystem, 87 Sprachsynthesesystem, 80 Sprachtechnologie, 13 Subsumtion, 154 Syntaktische Funktion, 32 Syntax, 16 n-Tupel, 131 Named Entity Regonition, 44 NER, 44 Numerus, 24, 26 Objektgleichheit, 125 Oronym, 87 Tag-Set, 46 Tagging-Genauigkeit, 51 Tempus, 25 Termhäufigkeit, siehe TF Termhäufigkeit, inverse, siehe IDF Text-Mining, 72 Text-Segmentierung, 37 Textextraktion, 74 Textklassifikation, 78 Textzusammenfassung, 74 TF, 71 TL, siehe Zielsprache Token, 20 TTS, siehe Sprachsynthesesystem Paar, geordnet, 129 Paradoxie, Russelsche, 126 partielle syntaktische, 54 PATR-II, 158 Person, 25 Pfad, 138 Pfad, einfach, 138 Pfad, in Merkmalstruktur, 151 Pfad, vollständig, 151 Phonem, 16 Phonetik, 16 Phonologie, 16 Postedition, 100 174 Umformungsprobe, 29 Unifikationsgrammatik, 157 Valenz, 161 Validität, 50 Verschachtelte Chunks, 56 Verschiebeprobe, 29 Volltextsuche, klassisch, 64 Weglassprobe, 28 WER, siehe Wortfehlerrate Wert eines Pfades, 152 Wert, Merkmalstruktur, 149 Wort, 19, 139 Wort,syntaktisch, 20 Wortarten, 21 Wortarten-Tagger, 46 Wortfehlerrate, 88 Wortform, 20 XML-Standard, 41 Zeichenkette, 139 Zeichenkette, leer, 139 Zielsprache, 93 Zyklus, 138 175