Einführung in die Computerlinguistik I
Transcription
Einführung in die Computerlinguistik I
Vorlesungsskript ∗ Einführung in die Computerlinguistik I Institut für Computerlinguistik Universität Zürich http://www.cl.uzh.ch Interaktive Lerneinheiten zur Vorlesung http://kitt.cl.uzh.ch/kitt/clab/clabis?vl=ecl1 Simon Clematide [email protected] Schriftliche Übungen: Luzia Roth Luzia.Roth @ access.uzh.ch Herbstsemester 2009 Version von 10. Januar 2010 ∗ PDF-Version: http://files.ifi.uzh.ch/cl/siclemat/lehre/hs09/ecl1/script/script.pdf HTML-Version: http://files.ifi.uzh.ch/cl/siclemat/lehre/hs09/ecl1/script/html/script.html OLAT-Url: https://www.olat.uzh.ch/olat/auth/repo/go?rid=1140719618&guest=true&lang=de Inhaltsverzeichnis 1 Organisatorisches 9 1.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 Was ist CL? 2.1 Motivation . . . . . . . . . . 2.2 Fachrichtungen . . . . . . . . 2.2.1 Computerlinguistik . . 2.2.2 Sprachtechnologie . . 2.2.3 Weiteres . . . . . . . . 2.2.4 Anliegen . . . . . . . . 2.3 Nachbardisziplinen . . . . . . 2.3.1 Linguistik . . . . . . . 2.3.2 Kognitionswissenschaft 2.4 Krux . . . . . . . . . . . . . . 2.5 Vertiefung . . . . . . . . . . . 2.5.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 12 12 13 13 15 15 16 17 18 18 19 3 Linguistisches Propädeutikum I 3.1 Wort . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Definition . . . . . . . . . . . . . . . 3.1.2 Token . . . . . . . . . . . . . . . . . 3.1.3 Wortform . . . . . . . . . . . . . . . 3.1.4 synt. Wort . . . . . . . . . . . . . . 3.1.5 Lexem . . . . . . . . . . . . . . . . . 3.2 Wortarten . . . . . . . . . . . . . . . . . . . 3.2.1 5 Hauptwortarten nach Glinz . . . . 3.2.2 STTS . . . . . . . . . . . . . . . . . 3.3 Morphologische Merkmale . . . . . . . . . . 3.3.1 Genus . . . . . . . . . . . . . . . . . 3.3.2 Zahl . . . . . . . . . . . . . . . . . . 3.3.3 Kasus . . . . . . . . . . . . . . . . . 3.3.4 Modus . . . . . . . . . . . . . . . . . 3.3.5 Zeit . . . . . . . . . . . . . . . . . . 3.3.6 Person . . . . . . . . . . . . . . . . . 3.3.7 Grad . . . . . . . . . . . . . . . . . . 3.3.8 Flexion . . . . . . . . . . . . . . . . 3.4 Comp. Morph. . . . . . . . . . . . . . . . . 3.4.1 Lemmatisierung/Morphologieanalyse 3.4.2 Morphologiegenerierung . . . . . . . 3.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 20 21 21 22 22 23 23 23 24 25 25 26 26 26 27 27 27 28 28 28 28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4 Linguistisches Propädeutikum II 4.1 Proben . . . . . . . . . . . . 4.1.1 Ersetzen . . . . . . . 4.1.2 Einsetzen . . . . . . 4.1.3 Weglassen . . . . . . 4.1.4 Verschieben . . . . . 4.1.5 Umformen . . . . . . 4.2 Satz . . . . . . . . . . . . . 4.3 Syntaxanalyse . . . . . . . . 4.3.1 Konstituenz . . . . . 4.3.2 Köpfe . . . . . . . . 4.3.3 Dependenz . . . . . 4.3.4 Satzglieder . . . . . 4.4 Baumbanken . . . . . . . . 4.4.1 NEGRA/TIGER . . 4.4.2 TIGERSearch . . . . 4.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 30 30 31 31 32 32 33 33 33 34 35 35 37 37 37 38 5 Tokenisierung 5.1 Tokenisierer . . . . . . . . . . 5.1.1 Grundproblem . . . . 5.1.2 Kodierung . . . . . . . 5.1.3 Markup . . . . . . . . 5.1.4 Programme . . . . . . 5.2 XML . . . . . . . . . . . . . . 5.3 Tokenisierung . . . . . . . . . 5.3.1 Problem . . . . . . . . 5.3.2 Punktdesambiguierung 5.3.3 Normalisierung . . . . 5.3.4 NER . . . . . . . . . . 5.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 39 39 40 40 43 44 44 44 45 46 47 . . . . . . . . . . . . . 48 48 49 51 52 53 53 54 54 54 55 56 57 57 6 Flache Satzverarbeitung 6.1 Tagging . . . . . . . . . . . . 6.1.1 Probleme . . . . . . . 6.1.2 Fallstudie TnT-Tagger 6.2 Evaluation . . . . . . . . . . . 6.2.1 Zweck . . . . . . . . . 6.2.2 Accuracy . . . . . . . 6.2.3 Lernkurven . . . . . . 6.2.4 Recall . . . . . . . . . 6.2.5 Precision . . . . . . . 6.2.6 F-Measure . . . . . . . 6.3 Chunking . . . . . . . . . . . 6.3.1 Abney . . . . . . . . . 6.3.2 IOB-Chunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 6.5 6.3.3 Verschachtelte Chunks . . . . . . . Vertiefung . . . . . . . . . . . . . . . . . . 6.4.1 Kontrollfragen . . . . . . . . . . . Exkurs: Evaluation binärer Klassifikatoren 6.5.1 TP:FP:FN:TN . . . . . . . . . . . 6.5.2 Fehlerparadoxe . . . . . . . . . . . 6.5.3 Unterschiede . . . . . . . . . . . . 6.5.4 Mittelwerte . . . . . . . . . . . . . 6.5.5 Vertiefung . . . . . . . . . . . . . . 7 Volltextsuche und Text Mining 7.1 Informationsflut . . . . . . . 7.1.1 Suchdilemma . . . . 7.2 Volltextsuche . . . . . . . . 7.2.1 Indexieren . . . . . . 7.2.2 Architektur . . . . . 7.2.3 Retrieval . . . . . . 7.2.4 Relevanz . . . . . . . 7.3 Text-Mining . . . . . . . . . 7.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 58 59 59 59 60 60 60 61 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 64 66 69 69 72 72 75 76 77 8 Textbasiertes Informationsmanagement 8.1 Zusammenfassung . . . . . . . . . . 8.1.1 Modell . . . . . . . . . . . . . 8.1.2 Terminologie . . . . . . . . . 8.1.3 Ansätze . . . . . . . . . . . . 8.2 IE . . . . . . . . . . . . . . . . . . . 8.2.1 IE vs. IR . . . . . . . . . . . 8.2.2 Klassische IE . . . . . . . . . 8.3 TM/RM . . . . . . . . . . . . . . . . 8.3.1 Syntaxanalyse . . . . . . . . 8.4 QA . . . . . . . . . . . . . . . . . . . 8.4.1 Idee . . . . . . . . . . . . . . 8.4.2 ExtrAns . . . . . . . . . . . . 8.5 Klassifikation . . . . . . . . . . . . . 8.5.1 Kategorisieren . . . . . . . . 8.5.2 Clustering . . . . . . . . . . . 8.6 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 79 79 79 80 81 82 83 84 85 85 85 86 87 87 88 88 . . . . . . . . 89 89 90 90 95 97 97 98 98 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Sprachsynthese und Spracherkennung 9.1 Sprachsynthese . . . . . . . . . . . 9.1.1 Architektur . . . . . . . . . 9.1.2 Analyseebenen . . . . . . . 9.1.3 Sprachsignalproduktion . . 9.2 Spracherkennung . . . . . . . . . . 9.2.1 Probleme . . . . . . . . . . 9.2.2 Worthypothesengraph . . . 9.2.3 Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 99 99 100 10 Maschinelle Übersetzung I 10.1 Einführung . . . . . . . . . . . . 10.2 MT-Terminologie . . . . . . . . . 10.2.1 MT . . . . . . . . . . . . 10.2.2 CAT . . . . . . . . . . . . 10.2.3 MAHT . . . . . . . . . . 10.2.4 HAMT . . . . . . . . . . 10.2.5 FAHQT . . . . . . . . . . 10.3 Evaluation . . . . . . . . . . . . . 10.4 Ling. Probleme . . . . . . . . . . 10.4.1 Mehrdeutigkeit . . . . . . 10.4.2 Idiome und Kollokationen 10.4.3 Sprachbau . . . . . . . . . 10.5 Vertiefung . . . . . . . . . . . . . 10.6 Exkurs: BLEU-Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 101 102 102 103 103 107 109 111 112 112 116 118 119 119 11 (Formale) Sprachen und Grammatiken 11.1 Grammatik . . . . . . . . . . . . . 11.1.1 Konstituentenstruktur . . . 11.1.2 Konstituentenanalyse . . . 11.1.3 Rekursion . . . . . . . . . . 11.2 Formale Sprachen . . . . . . . . . . 11.2.1 Sprache als Menge . . . . . 11.2.2 Konkatenation . . . . . . . 11.3 Formale Grammatiken . . . . . . . 11.3.1 Ableitung . . . . . . . . . . 11.3.2 Grammatiktypen . . . . . . 11.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 123 125 127 127 128 128 129 130 131 133 134 . . . . . . . . . . 135 135 135 137 138 140 141 142 142 143 144 9.4 Dialogsysteme . . . 9.3.1 Typen . . . 9.3.2 VoiceXML . Vertiefung . . . . . . . . . 12 Merkmalstrukturen 12.1 Merkmalstrukturen . 12.1.1 Motivation . 12.1.2 Rekursiv . . . 12.1.3 Als Graphen 12.2 Pfade und Werte . . 12.2.1 Koreferenz . 12.3 Unifikation . . . . . 12.3.1 Motivation . 12.3.2 Subsumtion . 12.3.3 Unifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Unifikationsgrammatiken 145 13.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 5 13.2 Unifikationsgrammatik . . . . . 13.2.1 Formalismen . . . . . . 13.2.2 Kongruenz . . . . . . . 13.2.3 Rektion . . . . . . . . . 13.2.4 Syntaktische Funktionen 13.3 Vertiefung . . . . . . . . . . . . 14 Syntax des Hilfsverbkomplexes 14.1 Verbalkomplex . . . . . . . 14.1.1 AUX rekursiv . . . . 14.1.2 IP/VP . . . . . . . . 14.1.3 m-Ebene . . . . . . . 15 Maschinelle Übersetzung 15.1 Ansätze . . . . . . . 15.1.1 Direkt . . . . 15.1.2 Transfer . . . 15.1.3 Interlingua . 15.1.4 Kombination 15.2 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 147 149 150 151 153 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 . 154 . 155 . 157 . 158 Reloaded . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 161 162 163 164 166 166 16 Literaturverzeichnis 168 Index 174 6 Abbildungsverzeichnis 2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.1 4.2 4.3 4.4 4.5 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung Konstituenz, Dominanz und Präzedenz in Balken-Darstellung . Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . Syntaktische Funktionen in Balken-Darstellung . . . . . . . . . Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 34 36 36 37 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . . Training, Tagging und Evaluation mit dem TnT-Tagger . . . . Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schmid Schmid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 51 55 56 56 57 62 63 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 OCR und Frakturschrift . . . . . . . . . . . . . . . . . . . . . In PubMed erfasste wiss. Artikel (2008 unvollständig) . . . . Suchoption für Inhaltsverzeichnis . . . . . . . . . . . . . . . . Eingescanntes Inhaltsverzeichnis . . . . . . . . . . . . . . . . Sachbegriff-Indexierung im NEBIS . . . . . . . . . . . . . . . Sachbegriff und Varianten im NEBIS . . . . . . . . . . . . . Textuelle Zusatzinformation im NEBIS . . . . . . . . . . . . Automatisches Indizieren von OPAC-Informationen: Gut . . . Automatisches Indizieren von OPAC-Informationen: Schlecht Generelle Architektur von IR-Systemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 65 66 67 68 68 69 73 73 74 8.1 8.2 8.3 8.4 8.5 8.6 8.7 Wordle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundmodell des inhaltsbasierten Textzusammenfassen . . . . . . . . Telegraphische Verkürzungstechnik . . . . . . . . . . . . . . . . . . . . Information-Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . Information-Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . Beispiel eines typischen IE-Systems . . . . . . . . . . . . . . . . . . . . Verknüpfung von NER, Hintergrundinformation und Textinformation www.ontotext.com/kim/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . http:// . . . . . . . . . . . 78 79 80 82 83 83 9.1 9.2 9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Architektur von MARY-TTS-System . . . . . . . . . . . . . . . . . . . . . . . . . 91 IPA-Symbole für Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Satzintonation im Deutschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7 9.4 9.5 9.6 9.7 Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . . Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . . 10.1 Automatisierungsgrade der Übersetzung . . . . . . . . . . . . 10.2 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . . 10.3 Beispiel: Fuzzy-Match mit 81% Übereinstimmung . . . . . . . 10.4 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . . 10.5 Parametrisierung der Alignierung bei SDL Trados WinAlign . 10.6 Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign 10.7 Export der Alignierung als TM . . . . . . . . . . . . . . . . . 10.8 Terminologie-Verwaltung mit Termbase . . . . . . . . . . . . 10.9 “Rohübersetzung” von erkannter Terminologie . . . . . . . . 10.10Situationen zu “The pen was in the box” . . . . . . . . . . . . 10.11Situationen zu “The box was in the pen” . . . . . . . . . . . . 10.12Korrelation von menschlichen und BLEU-Bewertungen . . . . 2006a]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 98 99 100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 104 105 105 107 108 108 109 110 115 116 122 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . . . . . . . . . . 125 11.2 Beispiel für Linksderivation und Parsebaumkonstruktion . . . . . . . . . . . . . . 131 11.3 Teilmengenbeziehungen der Sprachklassen von Chomsky . . . . . . . . . . . . . . 133 12.1 12.2 12.3 12.4 12.5 Merkmalstruktur als gerichteter Baum . . . Kästchennotation . . . . . . . . . . . . . . . Koreferente Merkmalstruktur als Matritze . Koreferente Merkmalstruktur als gerichteter Koreferente Merkmalstruktur als gerichteter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 139 141 141 142 15.1 15.2 15.3 15.4 15.5 Transfer-Übersetzung im Bild . . . . . . . . . . . . . . . . . . . . Transfer-Übersetzung im Detail . . . . . . . . . . . . . . . . . . . Transfer-Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lexikalische Überschneidungen nach Somers . . . . . . . . . . . . Verbindung von direkter, Transfer- und Interlingua-Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 165 165 166 166 8 . . . . . . . . . . . . Graph Graph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Organisatorisches 1.1 Organisatorisches Konzept und Inhalt der Vorlesung • “Einführung in die Computerlinguistik I (+ II)” vermittelt die wichtigsten praktischen und theoretischen Ziele der Computerlinguistik in . • Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestimmung, flache Syntaxanalyse), wichtige Anwendungen (Sprachsynthese, Spracherkennung, Textsuche Text-Mining, Informationsextraktion, Textzusammenfassung, Maschinelle Übersetzung) sowie Methoden und Probleme der automatischen Syntaxanalyse. • Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammatikalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieft wird. Kurs-Leitseite im WWW und Lehrmaterialien OLAT-Kurs namens “CL_09_HS_ECL 1”: Merkblatt zum Einstieg in OLAT [Roth 2008] • https://www.olat.uzh.ch/olat/auth/repo/go?rid=1140719618 • Folienskript im 4-up-Format (farbige und SW-Version) als PDF-Dokument unter “Vorlesungsunterlagen” • Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index und Ergänzungen http://www.cl.uzh.ch/siclemat/lehre/hs09/ecl1/script/html/script. html Unser (3. Auflage leider erst ab November 2009 erhältlich): • Carstensen et al. Hgg. (2004): Computerlinguistik und Sprachtechnologie: Eine Einführung. Elsevier, München, 2004. ISBN 3-8274-1407-5. → Es werden elektronische Versionen der relevanten Abschnitte zur Verfügung gestellt. Siehe auch http://www.cl.uzh.ch/CL/ CLBuch/buch.html Lehren und Lernen Commitments • Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten. • Wir brauchen Ihre Rückmeldung, um suboptimale Elemente unserer Lehrarbeit zu verbessern. • Sie engagieren sich, die für ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden. • Sie brauchen unsere Rückmeldung, um suboptimale Elemente Ihrer Lernarbeit und Ihres Lernerfolgs zu verbessern. 9 12 schriftliche Übungen (SU) • Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach: 33% der Schlussnote • (Wahlmöglichkeit bis in 4. Woche) für Lizenziats-Studierende: 33% der Note der Teilakzessprüfung • -System pro SU • : 6 (10-12 SU); 5.5 (9 SU); 5 (8 SU); 4.5 (7 SU); 4 (6 SU); 3.5 (5 SU); 3 (4 SU); 2.5 (3 SU); 2 (2 SU); 1.5 (1 SU); 1 (0 SU) • Keine Musterlösungen, dafür Vor- und Nachbesprechung, in und auf OLAT • Übungsstunden bei Luzia Roth am Freitag 12.15-13.45 (!) im Raum BIN 0.B.06 • Start in der 2. Semesterwoche • Abgabe der letztwöchigen Übungen und Ausgabe der neuen Übungen jeweils am Mittwoch 18h. Hochrechnung zum Workload für 4 ECTS-Punkte “Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berücksichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14, Abs. 2) [Universitätsrat 2004] • 1 ECTS-Punkt der Uni Zürich = 30h geistige Arbeit • Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung: 2 × 14 × 2h = 56h • Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvorbereitung: 120h − 56h − 1h = 4.5h 14 • Mindestens 1h, um uns mitzuteilen, was wir verbessern sollen. . . E-Learning CLab Teile der Vorlesung und Übungen werden durch Lerneinheiten aus unserem interaktiven, webbasierten Computerlinguistik-Laboratorium (CLab) unterstützt. http://www.cl.uzh.ch/clab Applikationen auf CL-UNIX-Servern Für einige Übungen oder zur Vertiefung stehen CL-Applikationen auf unseren Servern zur Verfügung. Von den Computern in den Übungsräumen aus sind diese problemlos nutzbar. Wer die Übungsstunde nicht besuchen kann bzw. von Zuhause aus arbeitet, braucht dazu VPN (Virtual Private Network), SSH (Secure Shell bzw. Putty) und einen X11-Klienten. Anleitungen dazu im Kurs „Programmiertechniken der CL“ oder via Anleitungen. 10 Schriftliche Prüfung • Zeit: Donnerstag, 14.1.2010, von 16.15 - 17.45h • Dauer: 90 Minuten • Stoff: Skript, Übungen, Pflichtlektüren • Bitte das für Sie gültige Infoblatt zur Leistungsüberprüfung genau lesen! [ICL 2007b, ICL 2007a] 1.2 Kontrollfragen • Sind Buchungsfristen für Sie relevant? Wenn ja, bis wann können Sie sich noch einschreiben, bzw. das Modul stornieren? • Wieviele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch auf eine 5 aufgerundet wird? • Wieso sollten Sie die Übungsstunde besuchen? • Welche Hauptthemen werden in dieser Vorlesung besprochen? 11 2 Was ist CL? Lernziele • Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie und Linguistik • Kenntnis der zentralen Anliegen der modernen Computerlinguistik • Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welche mit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind • Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte (Pflichtlektüre) • Kenntnis der Krux der Sprachverarbeitung 2.1 Motivation CL-haltige Produkte im (Computer-)Alltag • Textverarbeitung (Rechtschreibe- und Grammatikkorrektur) • Elektronische Wörterbücher (Thesauri) • Automatische Übersetzung • Recherchen im WWW • Auskunftssysteme (z.B. [Kassensturz 2006]) • ... 2.2 Fachrichtungen 2.2.1 Computerlinguistik Was ist CL? Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) ist eine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sich mit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt. Frage Ist das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendung von CL? Frage Ist die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804) eine frühe Anwendung von CL? 12 Sprachsynthese nach Kempelen Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine” (1791) [Traunmüller 1997] 2.2.2 Sprachtechnologie Was ist Sprachtechnologie? Definition 2.2.2. Sprachtechnologie beschäftigt sich mit der praxis- und anwendungsbezogenen, ingenieursmässig konzipierten Entwicklung von Sprachsoftware. 2.2.3 Weiteres Verwandte/Alternative Fachbezeichnungen Deutsch Linguistische Datenverarbeitung (LDV) Maschinelle Sprachverarbeitung Automatische Sprachverarbeitung (ASV) Computerphilologie Sprachtechnologie Texttechnologie Korpuslinguistik Medieninformatik Linguistische Informatik Informationslinguistik Englisch Linguistic and Literary Computing (LLC) Natural Language Processing (NLP) (Natural) Language Engineering (NLE) Computational Philology Speech Processing Human Language Technology (HLT) Text Technology Corpus Linguistics 13 QUIZ: Was ist was? [Weisser 2005] Frage 1: Welche Fachrichtung wird hier beschrieben? The use and possibly also compilation of computer-based text materials to investigate linguistic phenomena and ways of teaching about language. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 2: Welche Fachrichtung wird hier beschrieben? The compilation, annotation and use of written and spoken corpora for the investigation of linguistic phenomena, mainly by means of easy to use software. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 3: Welche Fachrichtung wird hier beschrieben? The automated analysis and modelling of language by means of sophisticated programming techniques. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 4: Welche Fachrichtung wird hier beschrieben? The creation and application of corpora for use in computer-based systems, such as speech recognition engines, translation systems, etc. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics 14 Schwerpunkte der verwandten Disziplinen • , logikbasierte vs. , probabilistische Methoden • - vs. • als Proof-Of-Concept (“Kann man sowas überhaupt?” vs. effiziente (kommerziell einsetzbare) Systeme • vs. Forschung • vs. Sprache (Text) • Psychologische/Neurologisch vs. ingenieurmässige 2.2.4 Moderne Computerlinguistik 4 zentrale Anliegen der modernen Computerlinguistik • Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf dem Computer • Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grundformen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikalischen Ressourcen (Lexika) • Entwicklung realistischer und technologisch fortschrittlicher Anwendungen • Entwicklung und Durchführung von Evaluationen sprachverarbeitender Systeme und Komponenten 2.3 Nachbardisziplinen Nachbardisziplinen in Übersicht • : formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpuslinguistik für empirische Basis • : praktische und theoretische Informatik (Was lässt sich mit welchem Formalismus wie effizient berechnen?); Künstliche Intelligenz • • und • : Mengenlehre (Funktionen, Relationen, Graphen) und Statistik 15 2.3.1 Linguistik Linguistik Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). Die Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Semantik und Pragmatik. Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitäten und hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest. Lautlehre: Phonetik und Phonologie Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasst die artikulatorische, akustische und auditive Ebene. Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist die Lehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaften Eigenschaften und Beziehungen. Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung). 1. Dieb /di:p/ 2. Diebe /di:b@/ Exkurs: Internationales Phonetisches Alphabet (IPA) Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schriftliches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. Die IPA-Notationen für die Laute des Standarddeutschen sind in [Carstensen et al. 2004, 156] erklärt. Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alle Schriftsysteme der Welt wiedergeben können will. Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- und Kleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute und andere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin: di:b@. Wortlehre: Morphologie Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Struktur der Wörter und ihrer Bildung. Beispiel 2.3.6 (Flexion). 1. Dieb#e Dieb-Plural “Mehr als ein Dieb”. 2. Dieb#e Dieb-Dativ “dem Dieb” 16 Satzlehre: Syntax Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Aufbau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen. Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit). 1. Der gewitzte Dieb stahl den Diamanten. 2. *Der Dieb gewitzte stahl den Diamanten. 3. *Den gewitzten Dieb stahl den Diamanten. Bedeutungslehre: Semantik Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter (lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten (Diskurssemantik). Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit). 1. Die Polizei beschlagnahmte das Diebesgut gestern. 2. Das Diebesgut beschlagnahmte die Polizei gestern. 3. Das Diebesgut wurde gestern von der Polizei beschlagnahmt. 4. Die Beschlagnahmung des Diebesgut durch die Polizei war gestern. 5. [Die Polizeii fasste die Täterin gestern.] Siei beschlagnahmte gleichzeitig das Diebesgut. Lehre von der Sprachverwendung: Pragmatik Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungen von Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation in der Welt. Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit). 1. Ist das Fenster auf? 2. Bitte schliessen Sie das Fenster! 2.3.2 Kognitionswissenschaft Kognitionswissenschaft Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäre Erforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguistik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Lernen, Motorik und Sprache gezählt. Geschichte der Kognitionswissenschaft Exzellenter Artikel in [Wikipedia 2009] 17 Turing-Test: Können Maschinen denken? Turing-Test im Original [Turing 1950] The new form of the problem can be described in terms of a game which we call the ’imitation game’. It is played with three people, a man (A), a woman (B), and an interrogator (C) who may be of either sex. The interrogator stays in a room apart front the other two. The object of the game for the interrogator is to determine which of the other two is the man and which is the woman. He knows them by labels X and Y, and at the end of the game he says either “X is A and Y is B” or “X is B and Y is A”. [. . . ] We now ask the question, “What will happen when a machine takes the part of A in this game?” Will the interrogator decide wrongly as often when the game is played like this as he does when the game is played between a man and a woman? These questions replace our original, “Can machines think?” Reale Turing-Tests Seit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welche den Turing-Test bestehen wollen. Preisträgersysteme lassen sich teilweise im WWW direkt ausprobieren. [Wikipedia 2006] Das Ziel dieser Test lautet: Kann eine Maschine so antworten in einem Dialog, dass man sie nicht mehr von einem Menschen unterscheiden kann? 2.4 Die Krux der Mehrdeutigkeit Mehrdeutigkeit [Jurafsky und Martin 2000, 4] Beispiel 2.4.1. I made her duck. Einige Paraphrasen, d.h. 1. I cooked waterfowl for her. 2. I cooked waterfowl belonging to her. 3. I created the (plaster?) duck she owns. 4. I caused her to quickly lower her head or body. 5. I waved my magic wand and turned her into undifferentiated waterfowl. Fragen Welche Einheiten sind mehrdeutig? Auf welcher Ebene der linguistischen Analyse werden die Mehrdeutigkeiten aufgelöst (desambiguiert) in den Paraphrasen? 2.5 Vertiefung • Pflichtlektüre [Carstensen et al. 2004, 1–23] http://www.cl.uzh.ch/CLBuch/kap1A2. pdf • Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chatterbox Contests 2003) 18 2.5.1 Kontrollfragen • Welche Disziplinen verbindet die Computerlinguistik? Mit welchen Disziplinen steht sie in enger Nachbarschaft? • Geben Sie je ein Beispiel, welches die Analyseebenen der verschiedenen linguistischen Teildisziplinen illustriert. • Was ist der Unterschied von Computerlinguistik und Sprachtechnologie? • Nennen Sie 3 Bezeichnungen für Fachausrichtungen, welche teilweise ähnliche Ziele verfolgen wie die CL oder Sprachtechnologie. Wo können unterschiedliche Schwerpunkte ausgemacht werden? (Recherchieren Sie dafür allenfalls im Web zu den einzelnen Stichworten.) • Was ist von der modernen Computerlinguistik gefordert? 19 3 Linguistisches Propädeutikum I Lernziele • Kenntnis der Begriffe Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma, Lexemverband • Kenntnis der Wortartenlehre für Deutsch • Kenntnis der morphologischen Kategorien für Deutsch und Englisch • Kenntnis und Anwendung des Stuttgart-Tübingen-Tagsets (STTS) mit Hilfe der Referenzkarte • Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von Morphologie und Wortarten • Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Analyse und Generierung 3.1 Wort 3.1.1 Definition Wort Definition 3.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind. Beispiel 3.1.2 (Was ist ein Wort?). 1. Sie wollte vor allem am 1. Spiel teilnehmen. 2. Sie nahm z.B. an dem 2. Spiel teil. 3. Das gibts doch nicht! 4. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit [. . . ] Präzisierungsversuche des Wort-Begriffs Sprachliche Ebenen zur Präzisierung des Wort-Begriffs • phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oder Knacklaut theoretisch isolierbares Lautsegment • orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit 20 • morphologisch: Grundeinheit, welche flektierbar ist • lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist • syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes Gängige Wortauffassungen [Linke et al. 2001] Wieviele verschiedene Wörter hat dieser Satz? Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach. Antworten 4 5 6 9 __ 3.1.2 Token Antwort 9: Wort als Vorkommen einer Wortform Wieviele verschiedene Wörter hat dieser Satz? Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen6 Fliegen7 Fliegen8 nach9 . Definition 3.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einem Text. Bemerkung In der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwort wäre dann . . . 3.1.3 Wortform Antwort 5: Wort als Wortform Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 . Definition 3.1.4 (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes. Beispiel 3.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung). • Die Fliege war tot. • Er trug eine samtene Fliege. • Fliege nicht so schnell! 21 3.1.4 Syntaktisches Wort Antwort 6: Wort als syntaktisches Wort Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen5 Fliegen4 Fliegen3 nach6 . Definition 3.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortform kombiniert mit ihren morphosyntaktischen Merkmalen. Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normalerweise zusammengefasst. Beispiel 3.1.7 (Wortform vs. syntaktisches Wort). Die Wortform „Fliegen“ kann mindestens 4 syntaktische Wörter repräsentieren: „Fliege“ in Nominativ, Akkusativ, Dativ oder Genitiv Plural. 3.1.5 Lexem Antwort 5: Wort als Lexem Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 . Definition 3.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syntaktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus, Numerus, Tempus usw.) unterscheiden. Definition 3.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikographische Standard-Notation für ein Lexem. Beispiel 3.1.10 (Lexikographische Notationskonventionen im Deutschen). Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular repräsentiert. Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert? Antwort 4: Wort als Lexemverband Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 , fliegen3 Fliegen3 Fliegen3 nach4 . Definition 3.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eine Menge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivationsstamm) basiert. Beispiel 3.1.12 (Derivationen von „fliegen“ in Canoo). Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wortbildungsinformation in http://www.canoo.net illustriert dies schön. Abstraktionsstufen • Eine Wortform ist die Menge aller Vorkommen von identischen Token. • Ein syntaktisches Wort ist eine Menge aller Vorkommen von Token mit denselben morphosyntaktischen und semantischen Eigenschaften. • Ein Lexem ist eine Menge aller syntaktischen Wörter, welche sich nur in ihren morphosyntaktischen Merkmalen unterscheiden. • Ein Lexemverband ist eine Menge aller Lexeme, für die eine gemeinsame Wurzel (oder Derivationsstamm) angenommen wird. 22 3.2 Lehre von den Wortarten Wortarten nach [Bussmann 2002] Definition 3.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis der Klassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder semantischen Kriterien. Historisches [Gallmann und Sitta 2001] Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahrhundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemäss Adelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Pronomen, Artikel, Adverb, Präposition, Konjunktion, Interjektion, Numerale Mit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung durch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwendet. 3.2.1 5 Hauptwortarten nach Glinz Klassifikationskriterien Abbildung 3.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004] Welcher Fachbegriff wäre präziser anstelle von “Wörter” in der Abbildung? 3.2.2 STTS Stuttgart/Tübingen-Tagset (STTS) • http://www.cl.uzh.ch/clab/hilfe/stts/ 23 • Das Standard-Tagset des Deutschen [Schiller et al. 1999] (vergleichbar mit dem PennTreebank-Tagset für Englisch) • Wichtige linguistische Korpora wie NEGRA-Korpus oder TIGER-Korpus sind mit STTS annotiert. III • Frei verfügbare Werkzeuge zum automatischen Bestimmen von Wortarten (sogenannte “Tagger”) liefern mit STTS-Tags versehenen Output. • Eine Notationsvariante von STTS ist als europäischer Standard für Deutsch (EAGLES ELM-DE) [EAGLES 1996] spezifiziert worden. • Alternativen: Münsteraner Tagset [Steiner 2003] Besonderheiten von STTS • ‘Wortarten’ für satzinterne und -finale Interpunktion ($,, $. . . . ) • Kategorie für fremdsprachliches Material (FM) • Feine Aufgliederung bei Glinzschen Partikeln: Antwortpartikel (PTKANT), Negationspartikel (PTKNEG) usw.; Konjunktionen, Adverbien usw. • Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativpronomen (PDS) usw. • Durchgängige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Pronomen): “Diese/PDAT Kuh muht.” vs. “Diese/PDS muht.” • Eigennamen (NE) sind eine semantisch definierte Klasse. QUIZ zu Wortarten Wo stecken in den folgenden Sätzen besondere Schwierigkeiten? Wieso? Er kannte ihn schon als kleines Kind. Die Wissenschaft selbst ist ein kompliziertes System. Ich habe noch nie solch eine Geschichte gehört. Er ist erkrankt. Auf der einen Seite ist es so, aber ... Der Mann, von dessen Vater das Buch handelt, ist ... Er kam plötzlich und ohne anzuklopfen herein. Er wartete bis um 5 Uhr. 3.3 Morphologische Merkmale Morphologische Kategorien und ihre Merkmale Definition 3.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologischen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Numerus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung) realisiert werden. 24 Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems • von Verben • von Nomen, Adjektiven, Artikeln und Pronomen • von Adjektiven (und wenigen Adverbien) Diskussion: Sind steigerbare Adverbien ein Widerspruch im System? Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilung nicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einige Adverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten” . . . ). Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektive als Flexion betrachtet. Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, ist die Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus und komparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden. Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sind oder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann muss es wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein. Welche denn? 3.3.1 Genus Das Genus (engl. gender ): Grammatisches Geschlecht Fachbegriff Maskulinum Femininum Neutrum Unterspezifiziert Deutsch männlich weiblich sächlich n/a Englisch masculine feminine neuter n/a STTS Masc Fem Neut * Beispiel Elephant Gazelle Huhn Ferien Tabelle 3.1: Übersicht: Genera Bemerkung Der Plural von Genus lautet Genera. Beispiel 3.3.2 (Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?). 3.3.2 Numerus Der Numerus (engl. number ): Grammatische Zahl Bemerkung Der Plural von Numerus lautet Numeri. Beispiel 3.3.3 (Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?). 25 Fachbegriff Singular Plural Deutsch Einzahl Mehrzahl Englisch singular plural STTS Sg Pl Beispiel Huhn Hühner Tabelle 3.2: Übersicht: Numeri 3.3.3 Kasus Der Kasus (engl. case): Fall Fachbegriff Nominativ Genitiv Dativ Akkusativ Deutsch Werfall Wesfall Wemfall Wenfall Englisch nominative genitive dative accusative STTS Nom Gen Dat Akk Beispiel der Baum des Baumes dem Baum den Baum Tabelle 3.3: Übersicht: Kasus Bemerkung Der Plural von Kasus lautet Kasus. 3.3.4 Modus Der Modus (engl. mode, mood ): Aussageweise Fachbegriff Indikativ Konjunktiv Deutsch Wirklichkeitsform Möglichkeitsform Englisch indicative subjunctive mood STTS Ind Subj Beispiel er geht er gehe Tabelle 3.4: Übersicht: Modi Im STTS steht eigentlich für Konjunktiv das Kürzel Konj. Subj ist eine Modifikation im TIGERModell. Bemerkungen Der Plural von Modus lautet Modi. Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist dies durch das V.IMP ausgedrückt. 3.3.5 Tempus Das Tempus (engl. tense): grammatische Zeit, Zeitform Fachbegriff Präsens Präteritum Deutsch Gegenwart Vergangenheit Englisch present tense past tense STTS Pres Past Tabelle 3.5: Übersicht: Tempora Bemerkungen 26 Beispiel er geht er ging Der Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien für Tempus? Im Deutschen gibt’s doch viel mehr Zeiten. 3.3.6 Person Die Person (engl. person) Fachbegriff 1. Person 2. Person 3. Person Deutsch Sprecher Angesprochene Person, Sachverhalt Englisch first person second person third person STTS 1 2 3 Beispiel ich gehe du gehst er geht Tabelle 3.6: Übersicht: Personen Bemerkungen Der Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich. Bei welchen Wortarten ist die Kategorie Person ausgeprägt? 3.3.7 Grad Der Grad (engl. degree): Steigerung, Komparation Fachbegriff Positiv Komparativ Superlativ Deutsch Normalform Vergleichsform Höchststufe Englisch positive comparative superlative STTS Pos Comp Sup Beispiel schlau schlauer schlauste Tabelle 3.7: Übersicht: Komparation Bei welchen Wortarten ist die Kategorie Grad ausgeprägt? 3.3.8 Adjektiv-Flexion Die Adjektiv-Flexion (engl. adjective inflection) Fachbegriff Schwache Flexion Gemischte Flexion Starke Flexion Deutsch mit best. Artikel mit ein, kein,. . . ohne Artikel Englisch weak mixed strong STTS Schw Mix St Beispiel der schlaue Fuchs keine schlauen Füchse schlaue Füchse Tabelle 3.8: Übersicht: Adjektiv-Flexion Bei welchen Wortarten ist die Kategorie Adjektiv-Flexion ausgeprägt? 27 Beispiel 3.3.4 (Flexion von “schlau”). Darstellung bei den Canoo-Sprachtools: III 3.4 Computermorphologie 3.4.1 Lemmatisierung/Morphologieanalyse Lemmatisierung und Morphologieanalyse Definition 3.4.1 (Grundformbestimmung). Die Lemmatisierung ist die Bestimmung der Lemmas, welche einer Wortform zugrunde liegen. Definition 3.4.2 (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der morphologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lexem. Lemmatisierung und Morphologieanalyse mit GERTWOL http://www2.lingsoft.fi/cgi-bin/gertwol Verbrechens "Verb#rechen" S MASK SG GEN "Verb#rech~en" S NEUTR SG GEN "Ver|brech~en" S NEUTR SG GEN eine "ein" ART INDEF SG NOM FEM "ein" ART INDEF SG AKK FEM "einer" PRON INDEF SG NOM FEM "einer" PRON INDEF SG AKK FEM "ein~en" V IND PRÄS SG1 "ein~en" V KONJ PRÄS SG1 "ein~en" V KONJ PRÄS SG3 "ein~en" V IMP PRÄS SG2 3.4.2 Morphologiegenerierung Generierung von syntaktischen Wortformen Definition 3.4.3 (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen von syntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation. Beispiel 3.4.4 (Generieren mit STTS-Tags). gehen + VVFIN:2.Sg.Past.Ind → gingst backen + VVFIN:2.Sg.Past.Subj → 3.5 Vertiefung • Referenzkarte zu STTS und dem NEGRA-Sprachmodell [Referenzkarte 2009] • Manuals für das Programm annotate [Plaehn 2000, Plaehn 1998] • http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminologie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem. 28 Pflichtlektüre Nachschlagen von mindestens 15 Tags im Annotationshandbuch [Schiller et al. 1999] bei Unsicherheit im Annotieren von Wortart und morphologischer Kategorie 3.5.1 Kontrollfragen Kontrollfragen • Welche verschiedenen Auffassungen verbergen sich hinter dem Wort „Wort“? • Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriteriren. • Worin besteht Morphologieanalyse und -generierung? • Welche STTS-Tags (inklusive Morphologie) müssten bei den Wörtern der 1. Kontrollfrage zugeordnet werden? • Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in Ihrem Dialekt? • Was ist der Unterschied zwischen Lemma und Lexem? 29 4 Linguistisches Propädeutikum II Lernziele • Anwendung der klassischen syntaktischen Proben • Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied, Phrase • Kenntnis der wichtigsten syntaktischen Funktionen • Kenntnis und Anwendung des TIGER/NEGRA-Annotationsschemas mit Hilfe der Referenzkarte • Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von syntaktischen Strukturen • Erfahrungen mit der einfachen Suche von syntaktischen Strukturen in einer Baumbank 4.1 Linguistische Proben Linguistische Testverfahren Definition 4.1.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Analyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, um grammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können. 4.1.1 Ersatzprobe Ersatzprobe Definition 4.1.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einen grammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestes muss dabei unverändert bleiben. Beispiel 4.1.3 (Bestimmung des Kasus). Probe Baumprobe Baumprobe Frageprobe Frageprobe Mehrdeutig Peter ist zornig Peter ist heiss Peter ist zornig Peter ist heiss Eindeutig Der Baum ist zornig Dem Baum ist heiss Wer ist zornig Wem ist heiss Kasus Nom Dat Nom Dat Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen. Beispiel 4.1.4 (Bestimmung der Wortart von “das”). 30 • Das ist das Angebot, das uns überzeugt hat. • Dieses ist das Angebot, welches uns überzeugt hat. • * Welches ist das Angebot, dieses uns überzeugt hat. • ? Das ist dieses Angebot, welches uns überzeugt hat. Probleme der Interpretation • Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Interpretation des Satzes. • Ob die Interpretation des Satzrestes sich ändert durch den Ersatz, ist nicht immer leicht zu beurteilen. 4.1.2 Einsetzprobe Einsetzprobe Definition 4.1.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext eingesetzt, der ihn grammatisch eindeutig interpretiert. Beispiel 4.1.6 (Bestimmung der Wortart). Probe Attributivprobe Attributivprobe Mehrdeutig Das war billig Das war gratis Eindeutig Der billige Baum *Der gratis Baum Wortart Adjektiv Adverb Einsetzen in Flexionsparadigmen Eine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugation für Verben oder Steigerung für Adjektive. 4.1.3 Weglassprobe Weglassprobe Definition 4.1.7. In der Weglassprobe wird von einem grösseren mehrdeutigen Ausdruck soviel Material wie möglich entfernt, um einen eindeutigen Ausdruck zu erhalten. Beispiel 4.1.8 (Bestimmung eines Satzglieds). 1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. Frage Warum nicht Variante 4? 31 4.1.4 Verschiebeprobe Verschiebeprobe Definition 4.1.9. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt, so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert. Damit lassen sich die Anfang und Ende von Satzgliedern erkennen. Beispiel 4.1.10 (Bestimmung von Satzgliedern). 1. Die Sitzung mit dem Chef bereite ich morgen vor. 2. Morgen bereite ich die Sitzung mit dem Chef vor. 3. Ich bereite die Sitzung mit dem Chef morgen vor. Regeln: Tausche immer 2 Kandidaten aus, um nicht unnötig ungrammatische (Pseudo-)Sätze zu erzeugen. Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb. Verschiebeprobe Beispiel 4.1.11 (Unzulässiges Verschieben). 1. Die Sitzung mit dem Chef bereite ich morgen vor. 2. * Morgen ich bereite die Sitzung mit dem Chef vor. 3. # Die Sitzung bereite ich morgen mit dem Chef vor. Gründe Pseudo-Satz 2 ist ungrammatisch. . . . Satz 3 hat eine andere Bedeutung bekommen durch die Umstellung. 4.1.5 Umformungsproben Umformungsprobe Definition 4.1.12. In der Umformungsprobe werden Sätze umfassend umgebaut. Beispiel 4.1.13 (Funktion von Nebensätzen). 1. Es würde mich freuen, wenn du mitkämest . 2. Dein Mitkommen würde mich freuen. Der Nebensatz mit “wenn” erfüllt eine analoge Funktion wie “Es”. Beispiel 4.1.14 (Infinitivumformung zur Subjekterkennung). 1. Die Lärche ist ein Nadelbaum. 2. ein Nadelbaum sein / die Lärche 32 4.2 Satz Satz Definition 4.2.1 (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprachspezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, die hinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängig ist. Definition 4.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einem finiten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satz zusätzliche Angaben enthalten. 4.3 Syntaxanalyse 4.3.1 Konstituenz Konstituenz Definition 4.3.1 (nach [Bussmann 2002]). Konstituente. In der strukturellen Satzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die Teil einer grösseren sprachlichen Einheit ist. Definition 4.3.2 (nach [Bussmann 2002]). Ziel und Ergebnis der Konstituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge von Konstituenten. Definition 4.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und linearen Präzedenz zwischen Konstituenten. Konstituenten in der annotate-Darstellung Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente. Konstituenten in der Balken-Darstellung Konstituenten überspannen als Balken die von ihnen dominierten Tokens. 4.3.2 Köpfe (oder Kerne) von Konstituenten Syntaktische Köpfe (engl. head ) / Kern (engl. kernel ) Definition 4.3.4. Ein Kopf oder Kern einer Konstituente ist diejenige Unterkonstituente, welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der die Geschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar (Weglassprobe). Beispiel 4.3.5 (Welches ist der Kern der geklammerten Konstituenten?). 1. Er [hält ihm den Ausweis unter die geschwollene Nase]. 2. Sie rennt [mit dem Mobile hantierend] zum Kiosk. 33 L! SOT L< ! SOR !N M; A: Syntaktische Konstituente unmittelbare Dominanz !"# .#/#0 O +@ '($)(*(+,- '($)($4#5(306 L< +@ .#78.9# 1123+ L; +$ SOO P $$%& M; L+$ SOQ L< Konstituente auf Wortebene !1$ 1#4>"06?0.#0 Q :;<: Präzedenz auf $,5(*(:==($)(!9 Wortebene ?06 ' &"5"=#0 R ++ @A+ Präzedenz zwischen 2#-(:==($)(* !! Tochterkonstituenten #"0 S D T ++ $B@1C ED 1123+ +#?9(:==($)(* !! !! '($)($4#5(30 Abbildung 4.1: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung Abbildung 4.2: Konstituenz, Dominanz und Präzedenz in Balken-Darstellung Quelle: http://www.cl.uzh.ch/siclemat/lehre/negra/s2.html 3. Es wird [viel zu oft] telefoniert. 4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt. 5. Sie fühlte sich [wie in einem schlechten Film]. 6. Aber sie war auch [in einem ziemlich schlechten Film]. Konstituententypen Typen von Konstituenten in TIGER/NEGRA 1. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern. Die Kategorie Satz (S) hat meist finite Verbalkerne. 2. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern. 3. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetem Partizip als Kern. 4. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern. 34 F#45?G/#0 U 5. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition als Kern. 6. Konjunktionalgruppe, -phrase (PP): Konstituente mit der Konjunktion “als” oder “wie” als Kern (aber nicht als Vergleichskonstruktion gebraucht): „Er fühlte sich als Gewinner.“ Koordination, Konstituenz und Köpfe Definition 4.3.6. Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zwei oder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht. Beispiel 4.3.7 (Koordination von Konstituenten aus NEGRA-Korpus). • Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35] • Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre? [Satz 9328] • Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist das die Kirche. [Satz 11’978] Problem Was ist der Kopf von koordinierten Konstituenten? Keine richtige Entscheidung, denn es gibt die Konstituenten CS, CNP, CAP usw. 4.3.3 Dependenz bzw. syntaktische Funktion Dependenz und syntaktische Funktion Definition 4.3.8. Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konstituenten. Definition 4.3.9 (frei nach [Bussmann 2002]). Syntaktische Funktion ist ein Sammelbegriff für Beschreibungsgrössen wie “Subjekt”, “Objekt”, “Prädikat”, “Adverbial”, “Attribut” u.a., welche nach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehung zwischen abhängigen Konstituenten zu bestimmen. Hinweis Innerhalb von Konstituenten ist die syntaktische Funktion des “Kopfes” fundamental, aber traditionell wenig explizit dargestellt. Syntaktische Funktionen in der annotate-Darstellung Jedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominierenden Konstituente. Syntaktische Funktion in der Balken-Darstellung Syntaktische Funktionen als Zwischenschicht zwischen sich dominierenden Balken. 35 L! SOT L< ! SOR !N M; A: Syntaktische Funktion !1$ M; L+$ SOQ L< Konstituenten L; L< +$ SOO +@ !"# .#/#0 O +@ .#78.9# P 1#4>"06?0.#0 Q ?06 ' &"5"=#0 R #"0 S D T F#45?G/#0 U $$%& 1123+ :;<: ++ @A+ ++ $B@1C ED 1123+ '($)(*(+,- '($)($4#5(306 $,5(*(:==($)(!9 2#-(:==($)(* !! +#?9(:==($)(* !! !! '($)($4#5(30 Abbildung 4.3: Syntaktische Funktion in der NEGRA-Darstellung Abbildung 4.4: Syntaktische Funktionen in Balken-Darstellung 4.3.4 Satzglieder Einige Satzglieder mit TIGER/NEGRA-Funktion • Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein S oder eine VP sein! • Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe (“ihn”) • Dativ-Objekt (DA): Frage- (Wem?) oder Ersatzprobe (“ihm”) • Genitiv-Objekt (OG): Frage- (Wessen?) oder Ersatzprobe (“seiner”) • Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO): Modifikator • Nicht-finite Verbalteile (OC: clause object): Abhängig von flektiertem oder nicht-flektierten Verb • In TIGER: Präpositionalobjekte (OP), Funktionsverbgefüge (CVC) Wichtige Gliedteile mit TIGER/NEGRA-Funktion • Artikel, attributive Pronomen und Adjektiv(phrasen) (NK) 36 Abbildung 4.5: Moderne Satzgliedlehre nach [Stocker et al. 2004] • Präpositionen und konjunktionales “als” oder “wie” (AC) • Postnominale Präpositionalphrasen (MNR) • Genitivattribute von Nominalphrasen (AG) • Koordinierende Konjunktion (CD) und die koordinierten Konstituenten (CJ) • Platzhalter (PH) und wiederholte Elemente (RE) 4.4 Baumbanken 4.4.1 NEGRA/TIGER NEGRA- und TIGER-Baumbanken • NEGRA (1997-2001): Die 1. Baumbank für Deutsch (20’000 Sätze) III • TIGER (1999-2006): “Nachfolgeprojekt” (50’000 Sätze im Release 2.1 2006) inklusive Lemmatisierung und Morphologieanalyse http://www.ims.uni-stuttgart.de/projekte/TIGER/ TIGERCorpus/ Eigenheiten von NEGRA/TIGER • PP und NP werden mit flacher Hierarchie verbaut • Ketten von infiniten Verben (VP) sind zu verschachteln • Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter • Keine annotierten Köpfe in NP • Keine explizite Unterscheidung der Satztypen 37 4.4.2 TIGERSearch TIGERSearch: Ein modernes Suchwerkzeug Lernen aus Beispielen Beim Annotieren ist es hilfreich, aus bereits (hoffentlich korrekt!) annotiertem Material zu lernen! Die 3 Hauptfunktionen von TIGERSearch Abfrage-Sprache (investigation) Visualisierung der Suchresultate und Baumbank (exploration) Einfache statistische Auswertung (condensation) Grundlegende Suchrezepte Eckige Klammern stehen für Konstituenten (Knoten) eines Syntaxbaumes. Beschreibungen auf der Ebene der Wörter (word), Wortarten (pos), Phrasen (cat) spezifizieren darin die möglichen Treffer. • Wie wird das Wort “der” verwendet? [ word="der" ] • Mit welchen Wortarten kommt das Wort “der” wie oft vor? brauchts für das Statistikmodul als Knoten-Identifikator) #w:[ word="der" ](#w: • Welche Adverbien kommen vor? #w:[ pos="ADV" ] • Welche koordinierten NP kommen vor? #p:[ cat="CNP" ] • Welche Dativobjekte kommen vor? [ ] >DA #da:[ ] NB: [] > []: unmittelbare Dominanz; [] . []: lineare Präzedenz 4.5 Vertiefung • Pflichtlektüre: Das Kapitel Baumbanken [Carstensen et al. 2004, 414ff.], das weitere Baumbanken vorstellt. (Verfügbar als Arbeitsmaterial in OLAT) • Annotationshandbuch von TIGER: http://www.cl.uzh.ch/siclemat/lehre/papers/ tiger-annot.pdf • Homepage von TIGERSearch: http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/ • Sofortbenutzung via X11: ssh -Y [email protected] (ev. -Y durch -X ersetzen; kein VPN erforderlich) • Anleitung zu TIGERSearch mit Bildern http://www.bubenhofer.com/korpuslinguistik/ kurs/index.php?id=weitere_tiger.html • Quiz Die Form der Satzglieder • Quiz Satzglieder und Proben 38 5 Tokenisierung Lernziele • Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicher Sprache: Text-Segmentierung und Text-Normalisierung • Kenntnis über Methoden der Punktdesambiguierung und Satzendeerkennung • Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (Named Entity Recognition) • Kenntnis über die Kodierung sprachlicher Zeichen • Kenntnis und Umgang mit regulären Ausdrücken 5.1 Tokenisierer 5.1.1 Grundproblem Grundproblem: Vom Zeichenstrom zur Folge von Tokens Rohdaten Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge von Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind. Token: Einheit der Textsegementierung Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse. Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip) • Konsumieren der Zeichenfolge (Eingabe) • Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung) • Produzieren einer Folge von Tokens (Ausgabe) 5.1.2 Zeichenkodierung Was ist ein Zeichen auf dem Computer? • Traditionell ein Byte, d.h. eine Folge von 8 Bits (0 oder 1) • Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle im Binärsystem aufgefasst wird. 39 • Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskonvention aufgestellt wird: Z.B. A=65, @=64, 1=49 • Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch), iso-latin-1 (256 Zeichen für westeuropäische Sprachen), UNICODE(ISO/IEC 10646) (über 100’000 Zeichen in Version 5.1.0 für fast alle Schriftsysteme der Welt; http://www.unicode. org) • Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte Was ist ein Zeichen auf dem Computer? • Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibt Methoden, einen Unicode-Wert auf eine Folge von Bytes abzubilden. • UTF-8: (Abk. für 8-bit Unicode Transformation Format) Ordnet jedem Unicode-Zeichen eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Byte pro Zeichen. • Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien muss man es wissen. • Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damit das Betriebssystem die Kodes fürs Auge darstellen kann. • Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv Textkonversion mit iconv Verlustbehaftete Konversion Nebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch TextNormalisierung durch “Transliteration” durchführen. $ echo "Klößchen" | iconv -f ISO_8859-1 Klosschen -t ASCII//TRANSLIT Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich: $ echo "Klößchen" | iconv -f ISO_8859-1 Klchen -t ASCII//IGNORE 5.1.3 Markup 5.1.4 Programme Typische Beispiele für Tokenisierer Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Programmiersprache Beispiel 5.1.1 (Covingtons Tokenizer [Covington 2003]). Tokenisierer in Prolog für Englisch: Konsumiere eine Textdatei oder eine Benutzereingabe und produziere daraus eine Prolog-Liste. 40 Joe’s brother doesn’t owe us $4,567.89. [ w([j,o,e]), % w = Wort w([s]), w([b,r,o,t,h,e,r]), w([d,o,e,s,n,t]), w([o,w,e]), w([u,s]), s(’$’), % s = Symbol n([’4’,’5’,’6’,’7’,’.’,’8’,’9’]), % n = Zahl s(’.’) ] Typische Beispiele für Tokenisierer Tokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus • vertikalisierten Text, d.h. ein Token pro Zeile, oder • ein Satz pro Zeile, d.h. jedes Token durch Leerzeichen getrennt. Beispiel 5.1.2 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]). Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei $ cat file.txt "Bach’sche Musik mag Dr. Fritz. Ja." $ cat ger-abbrev Dr. usw. $ separate-punctuation +1 +s +l ger-abbrev file.txt " Bach’sche Musik mag Dr. Fritz . Ja . " Typische Beispiele für Tokenisierer Auf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL, Python oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrücken erlauben. Definition 5.1.3 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck ist eine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zu beschreiben. 41 Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchenund-Ersetzen und Segmentieren von Zeichenketten. Einführung in reguläre Ausdrücke Z.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex Typische Beispiele für Tokenisierer Tokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl. markup language). Beispiel 5.1.4 (Der LT-TTT2 Tokenizer [Grover 2008]). 1. Rohtext This is an example. There are two sentences. 2. XML-Input für Tokenisierer (Vortokenisierung) <document> <text> <p> This is an example. There are two sentences. </p> </text> </document> 3. XML-Tokenisat <document> <text> <p> <s id="s1"> <w id="w3" c="w" pws="yes">This</w> <w id="w8" c="w" pws="yes">is</w> <w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w> <w id="w21" pws="no" sb="true" c=".">.</w> </s> <s id="s2"> <w id="w23" c="w" pws="yes">There</w> <w id="w29" c="w" pws="yes">are</w> <w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w> <w id="w46" pws="no" sb="true" c=".">.</w> </s> </p> </text> </document> Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert. 42 5.2 Exkurs: XML XML (eXtensible Markup Language) Definition 5.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformte XML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) deren Struktur genauer vorgeschrieben und validiert werden kann. XML in der Texttechnologie • Textbasiertes Format, das geeignet ist, Texte und dazugehörige Metainformation programmunabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI) • Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellen zum Einlesen, Erstellen, Modifizieren von XML-Dokumenten • Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben Aufbau von XML-Dokumenten Elemente und ihre Attribute • Elemente sind von Start-Tags (“<p>”) und End-Tags (“</p>”) begrenzt. • Leere Elemente können aus einem Tag bestehen (“<br/>”) • Elemente dürfen hierarchisch ineinander verschachtelt werden: <p><s>...</s></p> • Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document> • Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag: <s id="s2"> • Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w> Zeichenreferenzen und Entity-Referenzen Entitäten und Referenzen • Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entities bezeichnet, welche zwischen & und ; notiert werden • Zeichenreferenzen enthalten den nummerischen Kode des bezeichneten Zeichens (#x=Hexadezimal) Zeichen < " & Newline 43 Entität < " & 	 5.3 Tokenisierung: Segmentieren von Wörtern und Sätzen 5.3.1 Problem Naive Tokenisierung mit 3 Zeichenklassen Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder Interpunktion begrenzt. • Wort-Zeichen: /[a-zA-Z0-9]/ • Einzel-Zeichen: /[.,:;?!)(" ?-]/ • Grenz-Zeichen: /\s/ Problem Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten: “Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit” Teilprobleme der Tokenisierung im weiten Sinn • Umgang mit Markup (HTML-Tags, Formatierungszeichen) • Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie dem Chinesischen anspruchsvoll) • Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen beinhalten • Erkennung von Interpunktion (Punktdesambiguierung, Satzendeerkennung) • Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben) • Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben) 5.3.2 Punktdesambiguierung Erkennung von Satzenden (Satz-Segmentierung) Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben. Verschärfend: Verschmelzung zweier Funktionen Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert. Beispiel 5.3.1 (Verschmelzung im Englischen). • It was due Friday by 5 p.m. Saturday would be too late. • Ich kenne die U.S.A. Frankreich kenne ich nicht. Weiteres Nicht bloss Punkte sind mehrdeutig, auch andere Interpunktion ist es, aber nicht so virulent. 44 Algorithmus zur Punktdesambiguierung nach [Grefenstette und Tapanainen 1994] Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet. Der Punkt ist ein Abkürzungspunkt, falls • das Token in einer Abkürzungsliste steht. • nach dem Token [,;a-z] folgt. • das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht. • das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punkt vorkommt. Leistungsfähigkeit Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen. Statistische Verfahren zur Punktdesambiguierung Prinzip Verwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence) von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen. Interessante Merkmale für statistische Ansätze 1. Wieviele Zeichen umfasst ein Token? 2. Umfasst ein Token Ziffern oder keine Vokale? 3. Wie oft kommt das Token ohne Punkt vor? 4. Wie oft kommt nach dem Token ein grossgeschriebenes Token vor? 5. Wie oft kommt ein Token kleingeschrieben vor? 6. Welche Wortart haben die umgebenden Tokens? 5.3.3 Zeichen- und Token-Normalisierung Text-Normalisierung Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen. Beispiel 5.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen). • Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . . • 4.8.97, 4-8-97, 4/8/97, 8/4/97 • 19000, 19’000, 19 000, 19,000 • Louisa, Luise, Louise, Luisa . . . • doesn’t, does not 45 Rückgängig machen von Worttrennung am Zeilenende Definition 5.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere graphematische Modifikationen. Beispiel 5.3.4 (Graphematische Modifikationen). • Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt • Holländisch: chocola-tje → chocolaatje Rückgängig machen von Worttrennung am Zeilenende Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994] Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens: Zeilen 101’860 12’473 Rückbau 11’858 615 in % 100% 12% in % 95% 5% Typ Zeilen total mit Silbentrennung Typ Rückbau in existierende Tokens Rückbau in neue Tokens Tabelle 5.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation” Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch. 5.3.4 Named Entity Recognition Named Entity Recognition Definition 5.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungsund Zeitangaben oder weitere textsortenspezifische interessierende Grössen. Einheitliche (kanonische) Repräsentation Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen. Beispiel 5.3.6 (Kanonische Formen). • USA: “U.S.A.”,“United States of America”, “U.S. of America” • time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins” 46 5.4 Vertiefung Zum Thema “Tokenisierung”: • Pflichtlektüre: [Carstensen et al. 2004, 3.3.1] • Guter Übersichtsartikel für Interessierte: [Palmer 2000] • Gut zu lesen und methodisch einfach und instruktiv: [Grefenstette und Tapanainen 1994] Zum Thema “Reguläre Ausdrücke”: • http://www.cl.uzh.ch/clab/regex/ Zum Thema “XML”: • Kapitel 2.5. Texttechnologische Grundlagen in [Carstensen et al. 2004] 47 6 Flache Satzverarbeitung Lernziele • Kenntnis über POS-Tagger, ihre Aufgabe und Probleme sowie über wichtige POS-Tagsets • Kenntnis über grundlegende Evaluationsmethodik und -anwendung • Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger • Kenntnis über partielle syntaktische Analyse • Kenntnis über flache und verschachtelte Chunks 6.1 Wortarten-Tagging Wortarten-Tagging Definition 6.1.1 (Wortarten-Tagger). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger, kurz POS-Tagger) ist ein Programm, das für jedes Token eines Korpus die Wortart bestimmt, indem es ein Klassifikationskürzel als Tag zuordnet. Beispiel 6.1.2 (Zeilenformat mit Schrägstrich). Sonderrechte/NN für/APPR Minoritätenkollektive/NN widersprechen/VVFIN N-Best-Tagging Tagger, welche die Wortarten mit einer Wahrscheinlichkeit versehen zurückliefern, können für n-best-Tagging verwendet werden. Tag-Sets für Englisch Definition 6.1.3 (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wortarteninformation noch semantische, syntaktische oder morphologische Information. Die Grösse eines Tag-Sets kann stark variieren. Tag-Set Brown Penn CLAWS c5 London-Lund Grösse 87 (179) 45 62 197 Beispiel she/PPS she/PRP she/PNP she’s/RA*VB+3 Bedeutung Pronoun, personal, subject, 3SG Pronoun (personal or reflexive) Pronoun personal pronoun, personal, nominative + verb "to be", present tense, 3rd person singular Tabelle 6.1: Übersicht: Tag-Sets für Englisch Penn-Treebank-Tag-Set (PTTS) Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welches ab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist. 48 Anforderungen an ein Programm für Tagging Positive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]: • Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen, Markup). • Effizient: Der Tagger arbeitet schnell. • Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%). • Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst werden. • Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden. 6.1.1 Probleme des Taggings Wortformen mit mehreren möglichen Tags Mehrdeutigkeit Im Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token. Tag-Ambiguität im Englischen Baseline Nimm für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt ca. 90% richtige Entscheidungen. Optimierungspotential Berücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wörter), um die Baseline-Entscheidung umzustossen. Mehrdeutigkeit bei deutschen Wörtern Beispiel 6.1.4 (Verteilung der Mehrdeutigkeit). Vorkommen in einem Korpus von ca. 80’000 Token die ART 2351 PRELS 448 PDS 4 Mehrheit NN 40 bestimmt VVPP 7 VVFIN 4 ADV 1 ADJD 1 Mehrdeutigkeit in einem deutschen Testkorpus (STTS) Dem Tagger unbekannte Wortformen haben die Ambiguitätsrate 0. 49 Abbildung 6.1: Ambiguitätsraten aus der Frankfurter Rundschau [Volk und Schneider 1998] Unbekannte Wörter Kein Tagger-Lexikon kann vollständig sein (Eigennamen, Komposita, Zahlausdrücke). Wie kann ein Tagger sinnvolle Vorschläge machen? • Unterscheidung zwischen offenen und geschlossenen Wortarten • Daumenregeln aufgrund des Baus der unbekannten Wortformen: Wortende/Wortbeginn, Ziffern Beispiel 6.1.5 (Morphologische Heuristiken für Englisch). • 98% aller Wörter auf -able sind Adjektive. • Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname. Nutzen und Anwendung des POS-Tagging POS-Tagging hat sich als eine eigenständige sprachtechnologische Anwendung erwiesen, welche effizient und zuverlässig durchgeführt werden kann, und für verschiedenste Zwecke nützlich ist: Lemmatisierung, Lexikographie, Sprachsynthese, Spracherkennung, Dokumentensuche, Bedeutungsdesambiguierung usw. Beispiel 6.1.6 (Sprachsynthese/Bedeutungsdesambiguierung). • lead: Verb /li:d/ (führen); Nomen: /led/ (Blei) • increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen) Beispiel 6.1.7 (Lemmatisierung). • eine/ART: Lemma “ein” • eine/VVIMP: Lemma “einen” Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe. 50 Trainingskorpus training.tts Getaggtes Korpus Training tnt-para ParameterDateien training.lex training.123 Tagging tnt Evaluationskorpus eval.tts Aufteilen des Korpus Testkorpus test.tts test.txt Evaluation tnt-diff Abbildung 6.2: Training, Tagging und Evaluation mit dem TnT-Tagger 6.1.2 Fallstudie TnT-Tagger Fallstudie TnT-Tagger: Übersicht Fallstudie TnT-Tagger: Anpassbarkeit konkret Man nehme . . . [Clematide 2007] 1. ein getaggtes Korpus (vertikalisierter Textformat) $ head -n 3 ../../uis-vonabisz.tts Studienführer NN " $( Universität NN $ wc ../../uis-vonabisz.tts 9676 18154 118761 ../../uis-vonabisz.tts 2. Produziere aus 9/10 davon ein Trainingskorpus, indem alle bis auf die letzten 965 Zeilen in eine neue Datei geschrieben werden. $ head --lines -965 ../../uis-vonabisz.tts > training.tts 3. Produziere aus dem restlichen 1/10 ein Testkorpus, indem die letzten 965 Zeilen in eine neue Datei geschrieben werden. $ tail --lines 965 ../../uis-vonabisz.tts > test.tts 4. Trainiere über dem Trainingskorpus 51 $ tnt-para training.tts 5. Probiere aus, ob der Tagger was Vernünftiges tut. $ tnt training /dev/stdin > out.tts Der Tagger läuft . [mit Control-D für Dateiende abschliessen $ more out.tts 6. Erstelle ein Testkorpus. $ cut -f 1 test.tts > eval.txt 7. Tagge das Testkorpus mit dem trainierten Modell. $ tnt training eval.txt > eval.tts 8. Evaluiere das getaggte Evaluationskorpus gegen das Testkorpus. $ tnt-diff test.tts eval.tts 6.2 Evaluation Evaluation Definition 6.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines Wertes auf einer Werteskala aufgrund einer Messmethode. Definition 6.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer Validität und Reliabilität. Definition 6.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen wird. Definition 6.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind. Überlegungen zu Reliabilität und Validität Messintention Es soll das Verständnis von Studierenden über das Thema reguläre Ausdrücke mittels eines Multiple-Choice-Tests geprüft werden. Überlegung I Wie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität und Validität hoch ist? Überlegung II Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person mehrmals gemacht wird? 52 6.2.1 Zweck Zweck von Evaluationen Systemverbesserung Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert worden ist. Die Evaluation von System A gegenüber A’ hilft einzuschätzen, inwiefern die Komponente Z das System optimiert. Systemvergleich Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation anhand einer Testaufgabe T zeigt auf, welches System besser ist. 6.2.2 Accuracy POS-Tagger-Evaluation: Genauigkeit Definition 6.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit N Token ist der Anteil der korrekt getaggten Token. Formal: Sei E die Anzahl von falsch getaggten (Vorkommen von) Token: accuracy = N −E N Beispiel 6.2.6 (Genauigkeitsberechnung). Die Korrektheit des TnT-Taggers, welcher über 1 Million Token der Penn Treebank trainiert wurde, beträgt im Test 96.7%. Wieviele Token wurden im Testkorpus von 100’000 Token falsch getaggt? Wenn man nur über 1’000 Token trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus von 100’000 Token. Wie hoch ist die Genauigkeit? Testmethodik Beispiel 6.2.7 (Verbesserung von Tagging-Resultaten). Hans ist nicht zufrieden mit den 96.7% Genauigkeit des TnT-Taggers über der Penn Treebank. Er schreibt ein Pattern-Matching-Programm, das nach dem Tagging angewendet wird und das möglichst viele Fehler des Taggers noch korrigiert. Nach 2 Jahren hat er damit für die Penn Treebank eine Genauigkeit von 99.8% erreicht. Was ist von der Aussage von Paul zu halten, dass er einen POS-Tagger für Englisch gemacht hat, der eine evaluierte Genauigkeit von 99.8% hat? Häufigste Tagging-Fehler von TnT im NEGRA-Korpus Legende zur Tabelle 6.2 T agt : Korrektes Label; T agf : Falsch getaggtes Label F reqt : Vorkommenshäufigkeit des korrekten Labels; F reqf : Vorkommenshäufigkeit des falschen Labels Erel. : Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler Ant.: Anteil der falschen Tags an den korrekt erkannten 53 T agt NE VVFIN NN VVFIN ADJA F reqt 15069 11595 58563 11595 16843 T agf NN VVINF NE VVPP NN F reqf 2092 667 615 425 270 Ant. 13.9 5.8 1.1 3.7 1.6 Erel. 19.6 6.3 5.8 4.0 2.5 Eabs. 0.74 0.23 0.22 0.15 0.10 Tabelle 6.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112] Genauigkeit unter 10-facher Kreuzvalidierung Definition 6.2.8 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial. Zufallsbedingte besonders gute oder schlechte Resultate werden damit „neutralisiert“. Beispiel 6.2.9 (Durchschnittliche Genauigkeit (average accuracy)). Pi=10 accuracy = i=1 accuracyi 10 Generalisierung von 10 auf k Die Verwendung von 10 hat sich als bewährte Praxis etabliert. Im Prinzip wäre mit k > 10 das Mittel noch genauer. 6.2.3 Lernkurven 6.2.4 Recall Recall (Ausbeute, Abdeckung, Vollständigkeit) Definition 6.2.10. Recall ist ein Evaluationsmass, das den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen möglichen korrekten Antworten angibt. Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrekten Antworten des Systems. At R= Nt Beispiel 6.2.11 (Recall eines Taggers). Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN klassifiziert. 600 = 75% At = 600 und Nt = 800. Der Recall berechnet sich als: R = 800 6.2.5 Precision Precision (Genauigkeit, Präzision) Definition 6.2.12. Precision ist ein Evaluationsmass, das den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen gegebenen Antworten des Systems angibt. 54 !"#$!%&!'())*+,-"../0.,1/$+,-0-2,!)00,-#))3"04 TM5:!T00I'-0L "@@ 56)#"77 6/+!!7!89:;< 6-=!7!>;:8< >@ 80%10 6/+!!7!>#:?< 6-=!7!>8:@< 9@ 8@ 9040%10 6/+!!7!;?:?< 6-=!7!9#:#< ;@ #@ " ? # "@ ?@ #@ "@@ #@:S R?:9 SS:R ?;:9 ?@:? "S:? >:9 ?@@ 8:@ #@@ "@@@ $'-+/+5!./N*!F=!"@@@J R:R ?:> TM5:!<!U+B+&E+ 2*++!$'**A-+BC!"D?!6/11/&+!)&B*+(!+*E(4-4*'!)*=)!FG-11!.)'**)!H&I'+-1J! '-+K&61L!(*1*0)*K!)'-/+/+5!FM-'/-A1*!(/N*J!-+K!)*()!4-')(!F"@@D@@@!)&B*+(J "@!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/N*O!)'-/+/+5!-+K!)*()!4-')(!-'*!K/(P&/+): Q&!&)%*'!(&I'0*(!E*'*!I(*K!3&'!)'-/+/+5: Abbildung 6.3: Tnt-Evaluation an Penn Treebank durch Thorsten Brants .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"#!! !!$%&'()*+!,'-+)( !"#$%!&'()#*+,-'+!%.,/& Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten des Systems. At P = A :"/6),6;<,'$"$)!%&!$+)!=#$,>??,=((#%"*+ Beispiel 6.2.13 (Precision eines Taggers). Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, aber nur 600 davon "!Q-/M*!-44'&-0%C waren tatsächlich VVFIN. 600 At = 600 und A = 1000. Die Precision berechnet sich als: P = 1000 = 60% !!!!!,/5'-6!6&K*1!F3/'()!&'K*'!VWWJ !!!!!.6&&)%/+5C!-KK/)/&+!&3!c 7!@:#!)&!N*'&!3'*XI*+0/*( 6.2.6 F-Measure !!!!!U+B+&E+!E&'K(C!)-5!K/()'/AI)/&+!*()/6-)*K!3'&6!-11!E&'K( F-Measure (F-Mass) !!!!!Q&!(*+)*+0*!A&I+K-'L!-+K!0-4/)-1/N-)/&+!/+3& "!.)-)*!&3!)%*!T')C Definition 6.2.14 (F1 -Measure). Das F-Measure ist ein Evaluationsmass, das Precision und !!!!!$'/5'-6!6&K*1!F(*0&+K!&'K*'!VWWJ Recall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet. Formal: Sei P die Precision und R der Recall eines Systems: !!!!!.6&&)%/+5C!Y&+)*=)!/+K*4*+K*+)!1/+*-'!/+)*'4&1-)/&+ !!!!!U+B+&E+!E&'K(C!(I33/=!-+-1L(/(!-+K!(I00*((/M*!-A()'-0)/&+ 2×P ×R F = P +R !!!!!TI)&6-)/0!6&K*1/+5!&3!(*+)*+0*!A&I+K-'/*(!-+K!0-4/)-1/N-)/&+ Beispiel 6.2.15 (F-Mass eines Taggers). +-/M*!!!!()-)*!&3!)%*!-')!!!!!!!!!∆ Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein![":8< Recall von 75% für VVFIN. G.H FZ+51/(%J!!!!!!>#:@< !!!!>;:8< Das F-Measure berechnet sich somit: F = 2×0.6×0.75 = 66.6% 0.6+0.75 QZ\]T F\*'6-+J!!!!!>?:R< !!!!>;:8< ![R:S< 55 .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!";!! !!$%&'()*+!,'-+)( !"#$%!&'()#*+,-'+!%.,/& .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"#!! !!$%&'()*+!,'-+)( !"#$%!&'()#*+,-'+!%.,/& *#+&!(,!-.//0123#44')425'&123)3627!89:2;(+.%< >75T!>008'-0N "MM ="/+#$$ D/+!!Q!RST"U D-E!Q!VWTRU VM >)(5) D/+!!Q!VXTRU D-E!Q!VRTRU SM RM ?)@)(5) D/+!!Q!W"TYU D-E!Q!SVTMU WM XM " Y X "M YM XM "MM XMTS PWTP P"TP #WTM #MTR Y#TM "ST# YMM "PT# #YM $'-+/+5!./O*!CE!"MMMF ""TV >75T!U![+A+&9+ ;6<=>!0&'48(:!#XMLMMM!)&A*+(!+*9(4-4*'!)*E)!C@'-+A38')*'!=8+B(0%-8F '-+B&D1N!(*1*0)*B!)'-/+/+5!C7-'/-G1*!(/O*F!-+B!)*()!4-')(!C#MLMMM!)&A*+(F "M!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/O*Z!)'-/+/+5!-+B!)*()!4-')(!-'*!B/(K&/+) ;&!&)%*'!(&8'0*(!9*'*!8(*B!3&'!)'-/+/+5T Abbildung 6.4: Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants C(**!%))4:\\999T0&1/T8+/!(GTB*\])%&'()*+\)+)\F 6.3 Chunk Parsing .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"P!! !!$%&'()*+!,'-+)( !"#$%!&'()#*+,-'+!%.,/& Partielle syntaktische Analyse Definition 6.3.1. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing) berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz. Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt. Abbildung 6.5: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid 56 Chunking-Regeln schreiben Abbildung 6.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Wie kann man die zulässigen Chunks beschreiben? NC -> ART NN • NC : Ein NC (Nominalchunk) besteht • ->: besteht aus • ART: aus einem Wort der Wortart ART (Artikel) • NN: gefolgt von einem Wort der Wortart NN (normales Nomen) 6.3.1 Abneys Chunk-Definition Chunks (Teilstrukturen) nach [Abney 1991] Beispiel 6.3.2 (Chunks nach Abney). [I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time]. Motivationen • Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung • Effizienz: Teilstrukturen lassen sich effizienter berechnen. • Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische Analyse. • Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichere Analysemethoden. 6.3.2 IOB-Chunk Flache IOB-Chunks Definition 6.3.3 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist. • B-K : Anfang einer Chunk-Konstituente K • I-K : Fortsetzung der Chunk-Konstituente K 57 • 0: Nicht zugeordnet (wird auch chink genannt) Beispiel 6.3.4 (Notationsvarianten). Wie sieht die IOB-Notation in Klammer- oder Baum-Darstellung aus? Rockwell NNP B-NP said VBD B-VP the DT B-NP agreement NN I-NP calls VBZ B-VP for IN B-SBAR it PRP B-NP to TO B-VP supply VB I-VP 200 CD B-NP additional JJ I-NP so-called JJ I-NP shipsets NNS I-NP for IN B-PP the DT B-NP planes NNS I-NP . . O 6.3.3 Verschachtelte Chunks Verschachtelte Chunks Definition 6.3.5 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk innerhalb eines Nominal-Chunks, ist normalerweise nicht möglich. Beispiel 6.3.6 (Chunk Parsing Output mit Verschachtelungstiefe 3). [PX [APPR für] [NX [ARTIND eine] [AJXatt [ADJA gewisse]] [NN Reibungslosigkeit]]] Hinweis zur Chunk-Benennung Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC. 6.4 Vertiefung Zum Thema “Chunk Parsing”: • Pflichtlektüre: [Carstensen et al. 2004, 3.3] • Lerneinheit “Chunk Parsing” im CLab: http://www.cl.uzh.ch/clab/chunking/ 58 6.4.1 Kontrollfragen Kontrollfragen • Was sind 2 typische Szenarien für systematische Evaluation von Systemen? • Was unterscheidet Recall und Precision von Accuracy? • Was sind typische Fehlerquoten und Fehlerquellen für STTS-Tagging? • Wieviel Trainingsmaterial braucht es für eine Tagginggenauigkeit von etwa 95%? • Was ist der Vorteil der IOB-Notation? 6.5 Exkurs: Evaluation binärer Klassifikatoren Lernziele • Kenntnis über True Positive, True Negative, False Positive sowie False Negative • Kenntnis über Fehlertypen und ihre Gefahr • Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form der TP:FP:FN:TN-Darstellung 6.5.1 True/False Positives/Negatives Evaluation von binären Klassifikatoren Test Positive Negative Truth Positive Negative True Positive (TP) False Positive (FP) False Negative (FN) True Negative (TN) Tabelle 6.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit Legende zur Tabelle 6.3 True Übereinstimmung zwischen “Test” und “Truth” False Keine Übereinstimmung zwischen “Test” und “Truth” FP Fehlertyp I: Test ist positiv, wo er nicht sollte. FN Fehlertyp II: Test ist negativ, wo er nicht sollte. 59 6.5.2 Fehlerparadoxe Problem der Fehlerabschätzung I Beispiel 6.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Konstruktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Konstruktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%. Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat, wenn er ein positives Resultat vermeldet? Man überlege: Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnitt darunter? Problem der Fehlerabschätzung II Beispiel 6.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Konstruktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht. Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test ein negatives Resultat vermeldet? Man überlege: Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind im Schnitt darunter? 6.5.3 Unterschiede von Evaluationsmassen Dualität von Precision und Recall Test Pos Neg R= Truth Pos Neg TP FP FN TN TP TP + FN Tabelle 6.4: Recall Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall. Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision. F-Measure vs. Accuracy F-Measure ignoriert TN. TP interessieren eigentlich. Accuracy ignoriert nichts. TP und TN interessieren gleichwertig. 6.5.4 Mitteln von Recall und Precision F-Measure: Harmonisches vs. arithmetisches Mittel 60 Test Pos Neg P = Truth Pos Neg TP FP FN TN TP TP + FP Tabelle 6.5: Precision Test F = Pos Neg Truth Pos Neg TP FP FN TN 2 × TP 2 × TP + FP + FN Tabelle 6.6: F1 -Measure Test Accuracy = Truth Pos Neg TP FP FN TN Pos Neg TP + TN TP + TN + FP + FN Tabelle 6.7: Accuracy 6.5.5 Vertiefung • Artikel zum Harmonischen Mittel in [Wikipedia 2007] 61 Abbildung 6.7: F = 2×P ×R P +R : y/x-Achse: Recall F-Mass [F-Mass 2006] 62 Abbildung 6.8: M = P +R 2 : 63 Arithmetisches Mittel 7 Volltextsuche und Text Mining Lernziele • Kenntnis über Grundlagen der Volltextsuche • Kenntnis über traditionelle Informationserschliessung von OPAC • Kenntnis über die Einsatzmöglichkeiten von CL-Ansätzen beim Indexieren • Kenntnis über das Boolsche Retrievalmodell und Relevanz-Ranking • Kenntnis über die Probleme der Auffassung von Dokument als Indexterm-Menge • Kenntnis über eine mögliche Auffassung von Text Mining 7.1 Elektronische Informationsflut Thesen zur elektronischen Informationsflut • Immer mehr Menschen verbreiten (produzieren?) immer schneller immer mehr elektronische textuelle Information! • Das Internet Archive http://www.archive.org bot 2003 Zugriff auf 10 Milliarden Webseiten. Im Mai 2006 enthält es knapp 2 Petabyte (1015 ) Daten und soll monatlich um 20 Terabyte wachsen. Im März 2009 sind es 85 Milliarden Webseiten(versionen). • Nicht-öffentliche Bereiche wie “Intranets” von Firmen und Verwaltungen oder auch automatisch schlecht zugängliche Seiten verstecken sich dabei noch als “deep web” unter der Spitze des sichtbaren Eisbergs. • Verschiedene Projekte zur Buchdigitalisierung (z.B. http://books.google.com) versuchen, bislang nur gedruckte Information ins digitale Gedächtnis zu bringen. Digitalisierte Bibliotheken Nutzen und Tücken der automatischen Erfassung (OCR) Z.B. bei http://books.google.de Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben Wachstum der Publikationen im biomedizinischen Bereich 2007 wurden pro Tag ca. 1900 Publikationen in der Online-Bibliographie PubMed erfasst [Pyysalo 2008, 6]. Wachstumrate steigt jährlich um 3%. 64 Abbildung 7.1: OCR und Frakturschrift Quelle: [Pyysalo 2008, 6] Abbildung 7.2: In PubMed erfasste wiss. Artikel (2008 unvollständig) 65 7.1.1 Suchdilemma Suchdilemmas Typisches Problem bei Volltextsuche Benutzende erhalten zuviele Treffer! Was tun? ... Typisches Problem bei OPAC-Suche (OPAC=öffentlich zugänglicher elektronischer Bibliothekskatalog) Benutzende erhalten zuwenige Treffer! Was tun? ... Beispiel für Anreicherung von OPAC-Information Anreicherung des klassischen OPAC-Bibliothekskatalogs Inhaltsverzeichnisse Eingescannte und in Text konvertierte Inhaltsverzeichnisse erlauben mehr Treffer. Beispiel 7.1.1 (Landesbibliothek Vorarlberg). • Keine Treffer für eine Suche nach dem Autor Jewgeni Charitonow. • Dafür Treffer via Inhaltsverzeichnis. Abbildung 7.3: Suchoption für Inhaltsverzeichnis Elektronisches Inhaltsverzeichnis Vom OPAC zur digitalen Bibliothek mit Volltextsuche Traditionelle Sachbegriff-Indexierung im OPAC Traditionelle Sachbegriff-Organisation im OPAC Neuere textuelle Zusatzinformationen im OPAC 66 Abbildung 7.4: Eingescanntes Inhaltsverzeichnis Entwicklung von Online-Datenbanken Die ersten Online-Datenbanken entstanden in den 60er Jahren. Die NASA und Lockheed entwickelten ein System, das heute als DIALOG bekannt ist, die Ohio Bar Association LEXIS, das heute unter LEXIS/NEXIS firmiert, der CIA und IBM STAIRS. Die Zahl der Online-Datenbanken betrug 1965 unter 20, 1975 mehr als 300 und 1984 fast 2500. Quelle: http://www.phil.uni-sb.de/~werner/ir/irs.htm Beispiel 7.1.2 (PubMed). Online-“Bibliographien” wie PubMed bieten mittlerweile komplexe Datenverknüpfungsdienste (Terminologie, Ontologie, fachspezifische Datenbanken, Literaturverknüpfungen, Abstracts, Volltexte) an: Knowledge Management. 67 Abbildung 7.5: Sachbegriff-Indexierung im NEBIS Abbildung 7.6: Sachbegriff und Varianten im NEBIS 68 Abbildung 7.7: Textuelle Zusatzinformation im NEBIS 7.2 Volltextsuche Volltextsuche Definition 7.2.1 (auch Dokumentenzugriffssystem, engl. Information Retrieval (IR)). Die klassische Volltextsuche liefert (Referenzen auf) Dokumente zurück, welche für eine Kombination von Suchtermen und Suchkriterien (=Anfrage, query) relevant sind. Die Suchterme selbst können beliebige im Text vorkommende Ausdrücke sein – es wird nicht wie bei Bibliothekskatalogen mit geschlossenen Sachbegriffen indiziert. Hinweis zu den Einheiten des Retrievals Anstelle von ganzen Dokumenten als Suchresultat kann man auch kleinere Textstellen (engl. passage retrieval) als Wiedergewinnungseinheit definieren. Beispiel 7.2.2 (Googles define-Operator). Gewisse Suchmaschinen unterstützen die Suche nach definitionsartigen Passagen. 7.2.1 Indexieren Indexieren Definition 7.2.3 (Volltext-Indexieren). Beim Indexieren einer Dokumentensammlung werden (fast alle) Wörter jedes Dokuments ausgewählt, zu Indextermen normalisiert und im Index abgelegt. Definition 7.2.4 (Index). Ein Index eines IR-Systems ist eine Daten(infra)struktur, aus der sich für jeden Indexterm effizient bestimmen lässt, in welchen Dokumenten er vorkommt. 69 Meta-Information zu Dokumenten IR-System erlauben oft, Einschränkung bezüglich Alter, Sprache, Herkunft etc. von Dokumenten in die Anfrage einzubauen. Solche Informationen müssen für jedes Dokument gespeichert werden. Beispiel: Vorkommensmatrix in Shakespeare-Stücken Term-document incidence matrix nach [Manning et al. 2009] Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra Anthony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0 ... ... Lesebeispiele Der Term „Calpurnia“ kommt im Stück Julius Caesar vor. Der Term „Calpurnia“ kommt im Stück The Tempest nicht vor. Effizienter Index Speicherplatzprobleme der Vorkommensmatrix • 1 Million Dokumente mit je 1000 Tokens zu 6 Bytes pro Token braucht 6 GB Speicherplatz. • Es finden sich darin typischerweise 1/2 Million Indexterme. • Eine naive Repräsentation der Vorkommensmatrix benötigt 500’000 × 1’000’000 Bits, d.h. ca. 58GB. Fast alle Tabellenzellen sind 0 Aus Effizienzgründen sollte nur gespeichert werden, in welchen Dokumenten ein Term tatsächlich vorkommt. Dictionary Die Menge aller Indexterme (dictionary) sollte im Hauptspeicher Platz finden. Durch Termnormalisierung und Stoppwörter lassen sich ca. 1/3 der Indexterme entfernen. [Manning et al. 2009, 89] Invertierter Index (Inverted Index) Alle Dokumente erhalten eine ID (DocID). Für jeden Term t speichern man die sortierte Liste der DocIDs (posting list), welche t enthalten. 70 Brutus −→ 1 2 4 11 31 45 173 174 Caesar −→ 1 2 4 5 6 16 57 132 Calpurnia −→ 2 31 54 101 ... .. . | {z } dictionary | {z postings } Auswahl der Indexterme Nach der Tokenisierung werden aus Gründen der Effizienz und/oder Relevanz oft bestimmte Wörter (“noise words”) ausgefiltert. • Allgemeine Funktionswörter einer Sprache, welche meist häufig vorkommen (Stoppwortliste): der, die, das ...ich, du, er ...auf, unter, in ...und, oder ...bin, bist, ist, hast ... • Bei inhaltlich homogenen Dokumentensammlungen manchmal auch Inhaltwörter, welche fast in allen Dokumenten vorkommen und dadurch keinen informativen Wert besitzen. Z.B. in Dokumenten zur Informatik: System, Computer ... Es gibt auch Suchmaschinen, welche alles indizieren – interessant für CL-Ansätze “WWW als Korpus”. Eine kleine Stoppwortliste für Englisch III a about after again ago all almost also always am an and another any anybody anyhow anyone anything anyway are as at away back be became because been before being between but by came can cannot come could did do does doing done down each else even ever every everyone everything for from front get getting go goes going gone got gotten had has have having he her here him his how i if in into is isn’t it just last least left less let like make many may maybe me mine more most much my myself never no none not now of off on one onto or our ourselves out over per put putting same saw see seen shall she should so some somebody someone something stand such sure take than that the their them then there these they this those through till to too two unless until up upon us very was we went were what what’s whatever when where whether which while who whoever whom whose why will with within without won’t would wouldn’t yet you your Indexterme normalisieren Die Normalisierung kann keine bis viel Sprachtechnologie enthalten: • Reduktion auf orthographische Normalform (Ä → ä; ä → ae ; ph → f) • Trunkierung (veraltet): Abschneiden von Wortenden bei Wörtern ab einer Mindestlänge auf einen Präfix fixer Länge analys|ieren → analys Analys|e → analys analyt|isch → analyt 71 • Stemming (z.B. noch in Suche im Acrobat Reader): Einzelsprachliche Kürzungsregeln, welche ohne Lexikoneinsatz Wortformen auf ihren Stamm (stem) reduzieren. Stemming mit dem Porter-Stemmer III Beispiel 7.2.5 (Porter-Stemmer für Englisch). These analyses seemed especially analytic. these → these analyses → analys seemed → seem especially → especi analytic → analyt Indexterme normalisieren • Lemmatisierung: Reduktion von syntaktischen Wortformen flektierter Sprachen auf ihre Grundform: “aufgegessen” → “aufessen” • Kompositaanalyse: Auflösung von Komposita in ihre Bestandteile: “Schwimmunterricht” → “schwimm” “unterricht” • Derivationsauflösung: Auflösung von derivierten Ausdrücken: “Überzeugung” “überzeugen”→ “überzeugen” • Synonymerkennung: Auflösung von engeren Synonymen oder verwandten Bezeichnungen: “Rechenmaschine”→ “Computer”, “Luisa” → “Louise” • “Named Entity Recognition”: Erkennung von Datumsangaben für “Timelines” Beispiele Beispiel: Automatisches Indexieren von OPAC-Daten 7.2.2 Architektur IR-System-Architektur [Carstensen et al. 2004, 483] Frage Warum hat es zwischen dem Kästchen “Anfrage-Compiler” und “Termextraktion und linguistische Normalisierung” eine Verbindung? 7.2.3 Retrieval Dokument als Menge von Indextermen Definition 7.2.6 (engl. bag of words (BOW)). Im IR wird ein Dokument meist als Menge von Indextermen betrachtet. Definition 7.2.7 (Boolsches Retrievalmodell). Im Boolschen Retrievalmodell werden die einzelnen Suchterme der Anfrage mit den logischen Operatoren “UND”, “ODER” und “NICHT” verknüpft zu einer komplexen Anfrage. 72 Wie indizieren? rohe Wortform im Text mit oder ohne orthographische Normalisierung mit Stoppworterkennung auf Grundform normalisiert mit Derivations- und Komposita-Auflösung (Dekomposition) mit Erkennung von Mehrwortlexemen bzw. Terminologie mit Erkennung von Namen mit Synonymen bzw. Deskriptoren aus Schlagwortdatei mit Hypernymen mit semantischer Desambiguierung mit Relevanzkriterien der Terme für das Dokument Quelle: Oberhauser/Labner 2003 Automatische Indexieren mit IDX/MILOS Beispiel I Grad an linguistischer Aufbereitung CL in IuD II – 6 Quelle:[Oberhauser und Labner 2003] Quelle: Oberhauser/Labner 2003 Automatisches Indexieren mit IDX/MILOS Beispiel 2 Abbildung 7.8: Automatisches Indizieren von OPAC-Informationen: Gut Quelle:[Oberhauser und Labner 2003] Abbildung 7.9: Automatisches Indizieren von OPAC-Informationen: Schlecht Beispiel 7.2.8 (Logische Operatoren). Die Anfrage chuhmacher UND Suzuka UND (NICHT Michael)" bedeutet: Finde alle Dokumente, welche • den Indexterm Schuhmacher und Suzuka enthalten, aber • den Indexterm Michael nicht enthalten. 73 Abbildung 7.10: Generelle Architektur von IR-Systemen nach [Carstensen et al. 2004] Probleme des Boolschen Retrievalmodells Zweiwertigkeit Wegen der klassischen Zweiwertigkeit, d.h. keine partiellen Treffer, können (bei kleineren Dokumentensammlungen) gerne keine Treffer entstehen. Bei grossen Dokumentensammlungen wiederum können übergrosse Treffermengen entstehen. Eine gute Reihenfolge der Suchresultate nach Relevanz ist notwendig (erweitertes Boolsches Modell) Dokument als Indexterm-Menge Die Dependenzen zwischen den Wörtern lassen sich nicht darstellen. Ein Aufsatztitel wie “A formal specification language for the automatic design of chips by computer” bedeutet dasselbe wie die Wortliste “automatic, chip, computer, design, formal, language, specification”. 74 Problem der Mengen-Repräsentation für die Suche Zwar finden Anfragen wie: • design languages for computer chips: design UND languages UND computer UND chips • languages for the design by computer: language UND design UND computer das Dokument “A formal specification language for the automatic design of chips by computer”. Aber auch Anfragen im Sinn von • the formal design of chips • the specification of computer languages • the automatic design of specifications würden das Dokument finden. 7.2.4 Relevanz Relevanzabschätzung von Indextermen Um die Relevanz von Indextermen gegenüber Dokumenten, welche sie enthalten, abschätzen zu können, werden unterschiedlichste Masse angewendet und kombiniert. Definition 7.2.9 (engl. term frequency (TF)). Die Relevanzhypothese zur Termhäufigkeit besagt: Je häufiger ein Indexterm in einem Dokument erscheint, umso relevanter ist das Dokument für den Term. Definition 7.2.10 (engl. inverse document frequency (IDF)). Die Relevanzhypothese zur inversen Termhäufigkeit besagt: Je seltener ein Indexterm eines Dokuments D in anderen Dokumenten der Gesamtkollektion erscheint, umso relevanter ist Dokument D für den Indexterm. Überlegungen zu Stoppwörter, TF und IDF Fragen 1. Wie verhalten sich typische Stoppwörter bezüglich TF und IDF? 2. Wie verhält sich ein Wort bezüglich TF und IDF, das in einer Dokumentensammlung nur 1 Vorkommen hat? 3. Welche Auswirkungen hat es, wenn eine Dokumentensammlung sowohl sehr kurze wie auch extrem lange Dokumente enthält? 4. Wie könnte man die Information über TF und IDF miteinander kombinieren zu einer einzigen Bewertung? 75 Die TF/IDF-Formel nach [Salton 1988] • N die Anzahl Dokumente in einer Dokumentensammlung DS • i ein Dokument aus der Dokumentensammlung DS • j ein Indexterm • fj die Anzahl der Dokumente aus DS, welche den Indexterm j enthalten • ti,j die Anzahl der Vorkommen von Indexterm j im Dokument i • wi,j das Gewicht (Relevanz), welche dem Dokument i bezüglich dem Indexterm j zukommt wi,j = ti,j × log Fragen Welche Werte kann ti,j und N fj N fj maximal/minimal annehmen? Was macht log? 7.3 Text-Mining Das Problem Volltextsuche vs. Text-Mining • In der Volltextsuche geht es darum, ad hoc ein Informationsbedürfnis zu stillen, indem relevante Dokumente gefunden werden, welche die Information (hoffentlich) enthalten. • Im Text-Mining geht es darum, automatisch neue Information aus Texten zu erschliessen. Data-Mining vs. Text-Mining • Im Data-Mining wird mit statistischen und Methoden der künstlichen Intelligenz versucht, aus strukturierten Daten Ähnlichkeiten, Tendenzen und Zusammenhänge in grossen Datenmengen zu entdecken. • Im Text-Mining soll dasselbe aus Text-Daten heraus geschehen – der grössten Informationsquelle überhaupt. Literature Based Discovery [Hearst 1999] Ein reales Beispiel aus der Medizin zur Forschungsinspiration: “When investigating causes of migraine headaches, he [Don Swanson] extracted various pieces of evidence from titles of articles in the biomedical literature:” Paraphrasen: • stress is associated with migraines • stress can lead to loss of magnesium • calcium channel blockers prevent some migraines 76 • magnesium is a natural calcium channel blocker • migraine patients have high platelet aggregability • magnesium can suppress platelet aggregability • ... Daraus entstand die Hypothese, dass Magnesium und Migräne in einem Zusammenhang stehen können. 7.4 Vertiefung • Einführungskapitel des frei verfügbaren IR-Buches [Manning et al. 2009] • Eine Sammelsurium zum Thema “Information Retrieval” http://ir.exp.sis.pitt.edu/ res2/resources.php • Vertiefungslektüre zum Thema “Text-Mining” [Hearst 1999] • Lerneinheit “Reduzieren von Wortformen” im CLab: http://www.cl.uzh.ch/clab/reduzieren/ 77 8 Textbasiertes Informationsmanagement Lernziele • Kenntnis über die unterschiedlichen Ausprägungen texttechnologischer Informationsaufbereitung • Kenntnis über die Ziele der Textzusammenfassung, -klassifikation, Informationsextraktion, Relation Mining, Antwortextraktion und den Einsatz von CL-Techniken dabei Textverdichtung à la Wordle Abbildung 8.1: Wordle “Wordle” http://www.wordle.net generiert aus einer Definitionssammlung Textbasiertes Informationsmanagement Das Problem der Bewirtschaftung von textueller Information hat verschiedenste “Aspekte”, welche meist “irgendwie” verwandt sind. • Suchen • Zusammenfassen • Extrahieren von interessierenden Grössen und ihren Beziehungen • Klassifizieren • Gruppieren (Clustering) 78 Übersetzung via semantische Interlingua (theoretisch guter Ansatz) CL in IuD I – 17 • Indizieren mit Deskriptoren Textsortenzoo Je nach Textsorte und gesellschaftlicher Textverwendung ergeben sich spezifische Anwendungen: technische Handbücher (oft riesig), Testberichte, Patente, Gesetzestexte, E-Mails, wissenschaftliche Texte, News usw. xtzusammenfassung Ansä 8.1 Textzusammenfassung 8.1.1 Modell «Language understanding is somewhat like counting from one to infinity; language generation is like counting from infinity to one.» (Y. Wilks) e Textzusammenfassung Grundmodell des verstehenden Zusammenfassen Der Text der Kurzfassung wird erzeugt ausgehend von einer semantischen Form. Sehr schwierig! Einfachere Variante… formationsextraktion Herausfiltern fixer Sachverhaltsmuster 195 196 Quelltext Kurztext verstehen generieren Bedeutung verdichten kompression (TK) Problem Aus einem Dokument werden die wichtigsten Sätze extrahiert. Language understanding is somewhat like counting from one to infinity; language generation is like counting from infinity to one. CL Wilks in IuD I nach – 19 [Dale et al. 1998]) (Zitat von Yorick Ausweg Textextraktion bzw. -kompression, d.h. Auswählen der wichtigsten Textteile anstelle echter Zusammenfassung. 8.1.2 Terminologie Terminologie Definition 8.1.1 (abstract). Die Textzusammenfassung bedingt eine Reformulierung des Texts. Definition 8.1.2 (extract). Die Textextraktion ist typischerweise eine Auswahl an wichtigen Sätzen eines Texts. Definition 8.1.3 (informative summary III). An informative summary is meant to represent (and often replace) the original document. Definition 8.1.4 (indicative summary). An indicative summary’s main purpose is to suggest the contents of the article without giving away detail on the article content. 79 199 Bedeutung Beispiel "Übernahmefakten": Welche Firma hat wann des inhaltsbasierten Textzusammenfassen Grundmodell des verstehenden welche andere Firma für Abbildung 8.2: Grundmodell Zusammenfassen wieviel Geld übernommen? Beispiele? Statis Lingu seit 8.1.3 Ansätze Ansätze der Textextraktion/-kompression Statistische und heuristische Verfahren • [Luhn 1958]: Vorkommen von Wörtern mittlerer Häufigkeit • [Edmundson 1969]: – Satzposition im Abschnitt (Anfang/Ende wichtiger als Mitte) – wichtige Schlüsselwörter (z.B. aus Überschriften) vs. Füll- bzw. Stoppwörter • [Kupiec et al. 1995]: Lernendes System, das aus bestehenden Abstract-Dokument-Paaren generalisiert! – Satzlänge > 5; Wortmerkmale (Grossschreibung, Länge, Häufigkeit) – Textsortenspezifische Indikatorphrasen für zentrale Aussagen “In conclusion,” – 80% der Sätze in den Abstracts (von professionellen Zusammenfassern!) waren wörtlich oder nur minim modifiziert im Dokument! • Varianten und Verfeinerungen solcher heuristischen Methoden sind heute gängig (z.B. Microsoft Word Zusammenfassung) Linguistische und wissensverarbeitende Verfahren Seit 70er Jahren: Meist sehr anwendungsspezifisch. Telegraphische Verkürzung Beispiel 8.1.5 (STREAK: Zusammenfassung als Textgenerierung). Ein System, das strukturierte Daten über Basketballspielen zu “natürlich” erscheinenden Kurztexten aufbereitet. Telegraphische Verkürzung Beispiel 8.1.6 (Scisor: Zusammenfassung als Antwortgenerierung). EinSatzbasiertes System, das Presseberichte über "unwichtiger" Unternehmensübernahmen analysiert und in einer WisAuslassen Element sensdatenbank ablegt. Natürlichsprachliche Benutzeranfragen werden mit den “verstandenen” Nur Subjekte, Objekte, Verbalkerne, Präpositionen und abhängige Nominalkerne Berichten abgeglichen und Teile daraus als Antworten zurückgegeben. Satzbasiertes Auslassen "unwichtiger" Element Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Kernfunktion! Nur Subjekte, Objekte, Verbalkerne, Präpositionen und abhängige Nominalkerne Exkurs:Weiterentwicklungen Telegraphische Zusammenfassung Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Kernfunktion! Weglassen von inhaltlich1998] unwichtigen Satzbestandteilen Beispiel 8.1.7 ([Grefenstette telegraphisches Tool). unter Beibehaltung der syntaktischen Wohlgeformtheit Weiterentwicklungen Weglassen von inhaltlich unwichtigen Satzbestandteilen unter Beibehaltung der Text summarization producing version of Text summarization is usually taken to mean syntaktischen Wohlgeformtheit producing a shorter version of an original document by retaining the most salient parts of the original text. Two approaches have been Text summarization is usually to mean sentences favored: selecting high taken content-bearing producinginfluenced a shorter by version of an original and positional constraints, documentperforming by retaining thedependent most salient parts of domain information which fills a template the originalextraction text. Two approaches havefrom beenwhich a glossed. favored: summary selecting can highbecontent-bearing sentences influenced by positional constraints, and performing domain dependent information extraction which fills a template Abbildung from which a8.3: summary can be glossed. document by retaining parts of text. Two approaches favored sentences influenced by constraints and extraction fills template from Textsummary summarization glossed. producing version of document by retaining parts of text. Two approaches favored sentences influenced by constraints and extraction fills template from G. Grefenstette (1998): Producing intelligent telegraphic text summary glossed. reduction to provide an audio scanning service for the blind Telegraphische Verkürzungstechnik CL in IuD I – 21 G. Grefenstette (1998): Producing intelligent telegraphic text reduction to provide an audio scanning service for the blind CL in IuD I – 21 80 Verallgemeinerungsprobleme der CL Ansatz • Linguistisch motiviertes Auslassen bestimmter Elemente: Nur Subjekte, Objekte, Verbalkerne, Präpositionen und die Nominalkerne • Problem: Keine 1:1-Beziehung zwischen syntaktischer und inhaltlicher Funktion • Weiterentwicklungen: Weglassen von inhaltlich unwichtigen Satzteilen unter Beibehaltung der syntaktischen Wohlgeformtheit Aktuelle statistikbasierte Forschung Sentence compression In der Forschung wird die Text-Kompression auf Satzebene mit lernenden Verfahren verfolgt [Cohn und Lapata 2008]: Einfaches Eliminieren irrelevanter Wörter (word deletion) und auch reformulierendes Zusammenfassen (abstracting). Beispiel 8.1.8 (Extracting vs. Abstracting nach [Cohn und Lapata 2008]). • But a month ago, she returned to Britain, taking the children with her. (Original) • But she returned to Britain with the children. (Mensch) • She returned to Britain, taking the children. (Wort-Löschung) • But she took the children with him. (Reformulierendes Abstracting) Fazit Textzusammenfassung Was zeichnet gute Textzusammenfassung/-kompression aus? Relevanz Ist das Wichtige drin? Ist das Unwichtige weggelassen? Ist die Zusammmenfassung redundanzfrei? Lesbarkeit Wie fügt sich die Zusammenfassung zusammen (Textkohärenz)? Fehlen Bezugsausdrücke von anaphorischen Ausdrücken? (dangling pronouns) Parametrisierbarkeit Kann ich den Grad an Kompression beeinflussen? Gibt es eine Form von Benutzermodellierung? 8.2 Informationsextraktion Informationsextraktion (IE) Definition 8.2.1 (nach [Nohr, 224]). Ziel von Information Extraction ist es, • in semi- oder unstrukturierten Texten domänenspezifisch • relevante Informationen (Entitäten und Relationen) zu identifizieren, 81 • diese zu extrahieren • und in Templates (Bündel von Attribut/Wert-Paaren) abzulegen • gemäss dem interessierenden IE-Szenario. Message Understanding Conferences (MUC) Von 1987 bis 1997 wurden systematisch kompetitiv IE-Tasks gestellt und die Resultate der Forschungsgruppen vergleichbar evaluiert. Beispiel 8.2.2 (Szenario Führungswechsel in Firmen). Wer übernimmt in welcher Firma wann von wem welche Position? Beispiel Führungswechsel: Text und Template Beispiel 8.2.3 (News http://www.focus.de). 03.12.08 Arcandor Führungswechsel im März Nun ist es offiziell: Der scheidende Telekom-Finanzvorstand Eick wird im März Nachfolger von Thomas Middelhof als Arcandor-Chef. Die Aktien des angeschlagenen Touristik- und Handelskonzerns reagierten am Mittwoch mit einem Kursfeuerwerk auf den Wechsel an der Konzernspitze. Die Papiere verteuerten sich um bis zu 17 Prozent. Anfang März wechselt der scheidende Finanzvorstand der Deutschen Telekom, Karl-Gerhard Eick, auf den Chefsesel bei Arcandor, wie das Unternehmen am Mittwoch mitteilte. Er folgt dem eher glücklosen Thomas Middelhoff, der den Job schon länger loswerden wollte. . . . Szenario-Template • Organisation: Arcandor • Position: Konzernchef • PersonOut: Thomas Middelhoff • PersonIn: Karl-Gerhard Eick • TimeOut: März 2009 • TimeIn: März 2009 8.2.1 IE vs. IR Unterschied IE vs. IR III Information Retrieval gets sets of relevant documents – you analyse the documents. Information Extraction gets facts out of documents – you analyse the facts. 82 Abbildung 8.4: IR Abbildung 8.5: IE 8.2.2 Klassische IE 5 klassische Aufgaben der IE [Cunningham 1999] 1. Named Entity Recognition (NER) Bezeichnungen von Personen, Organisationen, Daten usw. finden und klassifizieren. F-Mass MUC 2007: 94%) (Bestes 2. Coreference Resolution (CO) Identitätsbeziehungen zwischen erkannten Entitäten bestimmen. Z.B. “Bundeskanzler Schröder”, “Schröder”, “G. Schröder” , “er” usw. aufeinander beziehen. (Bestes F-Mass MUC 2007: 62%) 3. Template Element Construction (TE) Anreicherung an beschreibender Information zu interessierenden Grössen aus der Textkollektion oder externen Wissensquellen. Z.B. wurde die Stadt Toronto identifiziert und die Information hinzugefügt, dass sie in Kanada liegt. (Bestes F-Mass MUC 2007: 87%) Typisches IE-Systemsicht auf Named Entities IE-artige semantische Annotation 5 klassische Aufgaben eines IE-Systems II 4. Template Relation Construction (TR) Entdecken und klassifizieren von Beziehungen zwischen den interessierenden Entitäten. (Bestes F-Mass MUC 2007: 76%) 83 Abbildung 8.6: http://www.ontos.ch/de/products/ontosminer.php Abbildung 8.7: Verknüpfung von NER, Hintergrundinformation und Textinformation http:// www.ontotext.com/kim/ 5. Scenario Template Production (ST) Integration der Information über Template-Elemente und Template-Relationen zu konkreten Events der anwendungsspezifischen Szenarien. (Bestes F-Mass MUC 2007: 51%) Ansätze Typischerweise lexikalische und partielle syntaktische Analyse, über deren Resultat mit Hilfe von heuristischen Suchmustern operiert wird. 84 8.3 Relation-Mining Relation-Mining: Text-Mining für Beziehungsentdeckung Idee des syntax-basierten Relation-Mining • Syntaktische Analyse erlaubt ein präzises Auffinden von Beziehungen zwischen interessierenden Grössen. • Normalisierung der sprachlichen Vielfalt auf das Fakten-Schema: Subjekt, Relation, Objekt. • Solche Relationen erlauben gute Visualisierung als Netzwerke. Beispiel 8.3.1 (Unser Ontogene-Projekt: Beziehung zwischen Genen und Proteinen). Erschliessen von beteiligten Grössen aufgrund vorgegebener Relationen (“activation”) in biomedizinischen Aufsätzen. Oder Erschliessen von Relationen, welche für beteiligte Grössen (“NFkappa B”) belegt sind. 8.3.1 Syntaxanalyse Beispiel: Dependenzanalyse als Grundgerüst Quelle: [Rinaldi et al. 2006] Syntaktisch-lexikalische Suchmuster Die Formulierungen “A regulates B”, “B is regulated by A”, “the regulation of B by A” werden normalisiert. Passiv-Suchmuster: [dep(subj, Verb, OBJ), dep(pobj, Verb, SUB), dep(prep, SUB, By), Relation-Mining bei http://www.powerset.com Syntax-basiertes Web-IR Die innovative Suchmaschine (gegründet Computerlinguistik-Pionieren) versucht, syntaktische Analyseresultate für IR im grossen Stil fruchtbar zu machen. Factz von Powerset Die Faktendatenbank, die als Indexat entsteht, besteht aus einfachen Relationen: Subjekt, Relationstyp, Objekt. 8.4 Antwortextraktion (QA) 85 8.4.1 Idee Idee der Antwortextraktion (Question Answering) Relevante Textstellen für natürlichsprachliche Anfragen Anstelle von Dokumenten sollen spezifische Textstellen (Passage-Retrieval) als Suchresultat erscheinen, welche die Antwort auf die (An-)Frage enthalten. Beispiel 8.4.1 (Unser ExtrAns-Projekt: Fragebeantwortung über Unix-Manuals ). • Linguistische Analyse der Texte und Anfragen: Dependenz-Parsing, Auflösen der Bezüge von Pronomen, semantische Analyse in eine prädikatenlogische Repräsentation. • Logikbasierte Fragebeantwortung: Welche sind die Textstellen, mit deren logischer Repräsentation die Anfrage beweisbar wird? 8.4.2 ExtrAns Quelle: [Hess 2006] 1. Antwort: In “cp recursively copies directory1” muss “directory1” als (ein Exemplar von) “directory” erkannt werden. 2. Antwort: Die Analyse dieses komplexen Satz muss wohl total falsch gelaufen sein. ExtrAns: Linguistische Analyse 1. Antwort: “subdirectory” ist Hyponym von “directory”. [1ex] Passivform: “are copied” 3. Antwort: Koordinationsellipse auflösen (“cp creates it and [cp] duplicates”).[1ex] Synonym “(to) duplicate” für “(to) copy” 86 ExtrAns: Linguistische Analyse • Explizite Frage nach Kommando schränkt Antworten ein: Kommandos werden wie named entities behandelt. • 3. Antwort: Auflösung des Pronomens “it”. • Ziel sind möglichst präzise Antwort-Sets. 87 8.5 Textklassifikation 8.5.1 Kategorisieren Klassische Klassifikationstasks Definition 8.5.1 (Textklassifikation). Die Texte einer Textkollektion sollen einer oder mehreren Klassen eines meist hierarchisch aufgebauten Klassifikationssystems zugeordnet werden. Beispiel 8.5.2 (Reuters Task). Zeitungsnachrichten sollen in die Rubriken wie Politik, Wirtschaft etc. eingeordnet werden. Eine eher leichte Aufgabe, welche zu fast 90% gelöst werden kann mit lernenden Verfahren. Beispiel 8.5.3 (Message Routing). Zuordnen (ev. an den Papierkorb) von elektronischen Dokumenten an ihre Adressaten aufgrund des Inhalts. Mitteilungsdienste, Kundenanfragen usw. Kategorisierung von E-Mail Spam vs. Nicht-Spam Eine der populärsten Textklassifikationsaufgaben zur Zeit ist die Einteilung von E-Mail in die Kategorie Spam. Fast alle Methoden der Textklassifikationsstradition wurden auf diese Problem angewendet. Erfolgreich sind insbesondere statistische und lernende Systeme. 8.5.2 Clustering Clustering (Gruppenbildung) Im Gegensatz zur Klassifikation über vorgegebenen Kategorien werden beim Clustering Textkollektionen nur auf Grund inhärenter Merkmale gruppiert, sodass die Texte innerhalb eines Clusters möglichst ähnlich (homogen) sind und zwischen den Clustern möglichst klare Unterschiede bestehen. Beispiel 8.5.4 (Suchmaschine mit Clustering). Eine Anwendungsmöglichkeit von Clustering ist es, Suchresultate nach “Themen” zu clustern: http://clusty.com/ 8.6 Vertiefung • Pflichtlektüre: Kapitel 5.3 aus (Carstensen 2009) (als PDF im Materialordner unter „carstensen_infoman • Experimentieren im Umfeld von IR und Textklassifikation http://www.cl.uzh.ch/clab/ reduzieren/ilap_informationretrieval/ • Der Artikel von [Luhn 1958] ist immer noch lesenswert (im Materialordner als „luhn_1958.pdf“ abgelegt ) 88 9 Sprachsynthese und Spracherkennung Lernziele • Kenntnis über die Teilfunktionen und Verarbeitungsstufen eines typischen Systems zur Sprachsynthese und der Spracherkennung • Kenntnis über die Probleme und Ansätze solcher Systeme • Kenntnis über die Einsatzmöglichkeiten von CL-Techniken • Kenntnis über sprachtechnologische Standards 9.1 Sprachsynthese Sprachsynthesesysteme III Definition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einer Zeichenkette (Text) ein akustisches Signal. Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus. Beispiel 9.1.2 (Ein deutscher Stolpersatz). “Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.” • Welche Schwierigkeiten liegen vor? • Was kann ein TTS damit anfangen? Z.B. [German 2006] Qualitätsmerkmale für Sprachsynthese • Silbenübergänge: Wie natürlich werden Silbenübergänge lautiert? • Wortbetonung: Sind die Betonungen bei (unbekannten) Wörtern korrekt? • Satzmelodie/Satzbetonung: Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral? • Sprechtempo: Zu schnell, zu langsam? • Sprechrhythmus: Monotones Geraspel oder gegliederte Information? • Pausen: Finden Sprechpausen (an der richtigen Stelle) statt? Weiteres Unterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es, wenn das Sprechtempo stark erhöht werden kann. 89 Einsatzmöglichkeiten von Sprachsynthese • (Mobil-)Telefonie: Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurse usw.), welche meist mit einem Spracherkennungssystem gekoppelt sind • Informationssysteme, welche keine visuelle Ablenkung erzeugen dürfen: Navigationssysteme im Auto, E-Mail-Vorlesesysteme im Auto usw. • Computerarbeitsplätze für Sehbehinderte • Künstliche Stimme für Sprechbehinderte • Sprachenlernen • ... 9.1.1 Architektur Typische Architektur von TTS Vom der Zeichenkette zum Laut 1. Tokenisierung (Satzsegmentierung, Normalisierung von Abkürzungen usw.) 2. (Flache) syntaktische Analyse für lexikalische Desambiguierung (Tagging) und für die prosodische Gestaltung der Phrasengrenzen/Pausen und Akzente (Chunking, Parsing) 3. Lexikalische Analyse mit einem Lexikon und/oder Regeln 4. Phonologische und prosodische Analyse 5. Lautproduktion aufgrund der Lautfolge mit Information zu Lautdauer, Tonhöhe (Grundfrequenz), Lautstärke (Intensität). Beispiel-Architektur von MARY TTS 9.1.2 Analyseebenen Aussprache von Ziffern und Abkürzungen Die Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischen Kulturräumen [Liberman und Church 1992]. Beispiel 9.1.3 (Varianten im Deutschen). • Einzelziffern: 1456 “ Konto eins vier fünf sechs” • Zahl: 1456 “Eintausendvierhundertsechsundfünfzig” • Hunderter: 1456 “Vierzehnhundert(und)sechsundfünfzig” • Paare oder Trippel: “044 344 56 10” • Ordinalzahlen: “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.” Frage Welche Aussprachen sind für welche Grössen verbreitet? Probleme bei Abkürzungen Welche Schwierigkeiten stellt die Aussprache von Abkürzungen? 90 Abbildung 9.1: Architektur von MARY-TTS-System Phonetische Analyse: Lautfolgen und Akzente von Wörtern Wie werden die einzelnen Laute eines Wortes in Isolation repräsentiert? Definition 9.1.4 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch enthält für (flektierte) Wortformen oder Grundformen eine Repräsentation der Lautform (Lautfolge, Akzente) in einer Lautschrift. Z.B. in Form des International Phonetic Alphabet (IPA) http://www.arts.gla.ac.uk/IPA, bzw. einer auf Computern einfacher verwendbareren Kodierung davon. Beispiel 9.1.5 (Formate elektronischer Aussprachewörterbücher nach [Jurafsky und Martin 2000]). • Pronlex: +arm.xd’Il.o, • CELEX (britisch): "#-m@-’dI-15 = [a:.m@."dI.l@U], • CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [arm2"dI.loU] IPA-Lautschrift für Deutsch Phonetische Lautschrift (SAMPA German) Eine in ASCII kodierte Notationsvariante für IPA-Symbole. 91 Quelle: [Carstensen et al. 2004, 157] Abbildung 9.2: IPA-Symbole für Deutsch • : (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze) • Plosive: p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem) • Frikative: f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r (rein), h (Hand) • Sonoranten: m (mein), n (nein), N (lang), l (laut), j (ja) • Ungespannte Vokale: I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a (Satz), @ (bitte), 6 (kurz), • Gespannte Vokale: i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot) Frage Wie kann man das Wort “jenseits” schreiben? Hinweis: Das Wiktionary für Deutsch http://wiktionary.de/ ist auch ein Aussprachewörterbuch. Phonologische Analyse Welche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichen Kontext gelten? Definition 9.1.6 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unter denen phonologische Alternationen statt finden. 92 Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafür an. Beispiel 9.1.7 (Phonologische Alternationen). Das Plural-s wird im Englischen je nach Umgebung ganz unterschiedlich ausgesprochen: “peaches”, “pigs”, “cats”. Morphologie und Ausspracheregeln Ausspracheregeln beziehen sich nicht auf das Wort, sondern auf Morphe (Vorsilben, Endungen, Wortstämme). Beispiel 9.1.8 (Aussprache von „st“). Wann wird in deutschen Wörtern „st“ als [St] und wann als [st] ausgesprochen? Beispiele: Lastwagen, staunen, bestaunen, Staubsauger, Feinstaub, Krebstest, zurückkrebste Beispiel 9.1.9 (Auslautverhärtung). Im Deutschen werden gewisse Laute entstimmlicht, wenn sie am Ende eines Morphs stehen und nicht vor einem Vokal. „Krug“ → [’kru:g]→ [’kru:k] „Krug+s“ → [’kru:g]+[s] → [’kru:ks] „Krug+es“ → [’kru:g]+[@s] → [’kru:g@s] Probleme der morphologischen Analyse und Lautfolgenberechnung • Mehrdeutigkeiten der morphologischen Analyse: Wählerstimmen = wähl+erst+imme+n • Einschlüsse verschiedener Sprachen in einem Text “Er hat dies nur contre coeur live gesungen.” • Umgang mit named entities Prosodische Analyse: Akzentuierung im Wort Definition 9.1.10 (Wortakzent). Der Wortakzent ist diejenige Silbe eines Worts, welche am stärksten betont wird. Mehrsilbige Wörter und Komposita haben oft Nebenakzente. Regelhaftigkeit von Wortakzenten im Deutschen • Bei einfachen Wörtern eine lexikalische Information. • Präfixe, Suffixe und Infixe sind regelhaft: be-, -lich, -tät, -al • Bei Komposita (Zusammensetzungen) trägt immer der Wortakzent des Vorderglieds den Hauptakzent: Hauptakzenterkennungsroutine Die Nebenakzente können immer durch Fokusakzentuierung semantisch/pragmatisch zum stärksten Akzent gemacht werden. 93 Prosodische Analyse: Phrasen und Sätze Um Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguistische Analysen. Beispiel 9.1.11 (Satzintonation und -rhythmus). The rear aggregate pumps . . . • . . . work fine. • . . . 50 gallons of fuel a second into the engine. Beispiel 9.1.12 (Satzbetonung und Pausen). • She left DIRECTIONS for Joe to follow. • She left directions for Joe to FOLLOW. Grundregel der Phrasierung Eine Phrasengrenze zwischen 2 benachbarten Wörtern ist umso plausibler, je stärker die Wörter in der syntaktischen Struktur getrennt sind voneinander. Was ist Prosodie auf Satzebene? [Bader 2006] Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenzverlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenen Sprache wieder. Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Computer zu analysieren, ist unter http://www.praat.org zu finden. Prosodie: ToBI-Modell (Tones and Break Indices) • H (high): Hohe Satzmelodie • L (low): Tiefe Satzmelodie • [HL]*: Auszeichnung der betonten Silbe • [HL]+[HL]: Tonwechsel innerhalb von Wörtern • [HL]%: Satzendebetonung • [HL]– : Phrasenbetonung (sekundärer Satzakzent) Beispiel: Prosodie [Simmons 2006b] 94 Abbildung 9.3: Satzintonation im Deutschen nach [Bader 2006] 9.1.3 Sprachsignalproduktion Sprachsignalproduktion Prosodiesteuerung Aus der phonologische Analyse (Laute, Akzente, Pausen, Tonhöhenverlauf) werden die prosodischen Parameter der Laute für die Sprachsynthese berechnet: Dauer, Grundfrequenz, Intensität. Die Verwendung der klassischen linguistischen Einheit Phonem (35-50 pro Sprache) für Sprachgenerierung ergibt keine guten Systeme. Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen? Definition 9.1.13 (Diphone III). Ein Diphon geht von der Mitte eines Phonems zur Mitte des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone, für Spanisch auf 800. Koartikulation von Lauten wird dadurch auf jeweils 2 Phonemkombinationen beschränkt. In der Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten. Sprachsignalproduktion: Sprachkonserven 95 Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm Abbildung 9.4: Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a]) Am primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustische Sprachkonserven nacheinander ausgegeben werden. Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen." Beispiel 9.1.14 (Ein Problem zu einfacher Ansätze). • lead: Verb /li:d/ (führen); Nomen: /led/ (Blei) • increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen) Unit Selection Databases Ein Weiterentwicklung sind grosse Datenbanken, welche unterschiedlich grosse Einheiten (Phone, Diphone, Wörter) umfassen und eine optimale Selektion daraus versuchen. Speech Synthesis Markup Language (SSML) Dieser XML-Standard erlaubt eine strukturierte Spezifikation von verschiedenen Parametern einer Speech-Applikation. <p> <s xml:lang="en-US"> <voice name="David" gender="male" age="25"> For English, press <emphasis>one</emphasis>. </voice> 96 </s> <s xml:lang="es-MX"> <voice name="Miguel" gender="male" age="25"> Para español, oprima el <emphasis>dos</emphasis>. </voice> </s> </p> http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/ 9.2 Spracherkennung Spracherkennungssysteme Definition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus dem akustischen Signal von gesprochener Sprache eine textuelle Darstellung. Definition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnet aus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung. Spracherkennung ist schwieriger als Sprachsynthese. Warum? Typische Architektur Vom Sprachsignal zur Wortfolge 1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals: Merkmalsextraktion) 2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phoneme, Diphone, Silben), mit denen sich die Wörter zusammensetzen 3. Lexikalische Analyse: Erkennen von Wortkandidaten 4. Syntaktische Analyse: Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche 5. Semantische Analyse: Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen 9.2.1 Probleme Wortübergänge (Junkturen) Wortgrenzen werden eher selten als Sprechpausen realisiert. Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Verlängerung beginnender Konsonanten oder Betonung endender Vokale. Definition 9.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonems durch seine Umgebung. Beispiel 9.2.4 (Assimilation). R • this year → this ear • the old man → thiold man 97 Wortübergänge (Junkturen) Beispiel 9.2.5 (Epenthese und Auslassung). • China is → Chinaris • best buy → besbuy Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)). • night-rate ↔ nitrate ; grey day ↔ grade A; why choose ↔ white shoes • The sad poet remembers a long ago time ↔ Thus add poetry members along a goat I’m Weitere Störfaktoren • Unbekannte Wörter, u.a. zu kleines Lexikon • Hintergrundsgeräusche • Schlechte Mikrophone • Sprecherspezifische Eigenheiten: schnelles oder undeutliches Artikulieren, dialektale Färbung • Wenig kollaborative Kommunikation: Im Gegensatz zur menschlichen Kommunikation weiss ein Spracherkennungssystem selten, worum es geht. 9.2.2 Worthypothesengraph Worthypothesengraph In einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsentiert. Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrschein- Abbildung 9.5: Worthypothesengraph aus [Carstensen et al. 2004, 580] lichsten Pfad auswählen. 98 9.2.3 Wortfehlerrate Wortfehlerrate (word error rate, WER) Definition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen versteht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zu machen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) oder eingefügt (INS) werden. Abbildung 9.6: Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581] Definition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern). W ER = 100 × NSU B + NIN S + NDEL N 9.3 Dialogsysteme 9.3.1 Typen Dialogsysteme Ein natürlichsprachliches Dialogsystem erlaubt Kommunikation zwischen Computer und Mensch mittels menschlicher Sprache. Definition 9.3.1 (Kommandowortsysteme). Ein Kommandowortsystem erlaubt die einseitige Steuerung von elektronischen Geräten durch Äusserungen. Definition 9.3.2 (Interactive Voice Response System (IVR)). Ein IVR erlaubt die sprachliche Navigation durch ein starres Menu. Benutzer kann nur reagieren. III Definition 9.3.3 (Conversational User Interface (CUI)). Ein CUI soll nebst der Steuerung eines Devices den Benutzer pro-aktiv beratend unterstützen. Dialoge sollten von Mensch und Maschine gesteuert sein (mixed-initiative dialogue). 9.3.2 VoiceXML VoiceXML III Dieser XML-Standard erlaubt eine strukturierte Spezifikation von (einfachen) natürlichsprachlichen Dialogsystemen (Bestellvorgänge, Chatbots usw.), welche Web-Services via Telefon verfügbar machen. 99 Abbildung 9.7: Anwendungsszenario VoiceXML nach [Raggett 2001] VoiceXML beinhaltet ... VoiceXML-Dokumente beschreiben • Gesprochene Eingaben (synthetische Sprache) • Ausgaben von Audiodateien und -streams • Erkennung von gesprochenen Wörtern und Sätzen • Erkennung von Tonwahl (DTMF) • Aufnahme gesprochener Eingaben • Kontrolle des Dialogflusses • Telefoniekontrolle (Anruftransfer und Auflegen) 9.4 Vertiefung • Pflichtlektüren: [Carstensen et al. 2009, 5.4] (im Materialordner) • Eine umfassende technische Einführung bietet [Pfister und Kaufmann 2008] • Für an Sprachtechnologie Interessierte: “HAL’s Legacy” http://www-mitpress.mit.edu/ e-books/Hal/chap6/six1.html • Viele historische Beispiele für Sprachsynthese http://www.cs.indiana.edu/rhythmsp/ ASA/Contents.html • Das didaktisch orientierte Tool MARY http://mary.dfki.de/, das wir im CLab integriert haben. • Beispiel emotionale Fussballreportersprache:[MARY 2006] • SAMPA: Kurzbeschreibung unter http://de.wikipedia.org/wiki/SAMPA und Hauptseite unter http://www.phon.ucl.ac.uk/home/sampa/index.html 100 • MBROLA:http://tcts.fpms.ac.be/synthesis/mbrola.html • http://www.voicexml.org • Beispiele: Dialoggestaltung [excelsis 2007]; Erkennung von Dialekten [ORF 2007b, ORF 2007a] 101 10 Maschinelle Übersetzung I Lernziele • Kenntnis über Automatisierbarkeit der Übersetzungsleistung • Kenntnis über sprachtechnologische Unterstützung des menschlichen Übersetzenden • Kenntnis über Verfahren zur automatischen Satzalignierung • Kenntnis über linguistische Probleme der Übersetzung 10.1 Einführung Enstehungsgeschichte Maschinelle Übersetzung (MÜ) Die Geburtsstunde der maschinellen Übersetzung wird ums Jahr 1947 angesetzt. Ihre Urväter, Warren Weaver und Andrew D. Booth, kamen beide vom Codebrechen her. [Weaver 1955] zitiert in seinem berühmten Memorandum “Translation” von 1949 aus seinem Brief an Norbert Wiener (MIT) aus 1947: When I look at an article in Russian, I say: “This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.” Have you ever thought about this? As a linguist and expert on computers, do you think it is worth thinking about? Frage Wie war wohl Wieners Reaktion? Second?as to the problem of mechanical translation, I frankly am afraid the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasimechanical translation scheme very hopeful. [Weaver 1955] Kurzer historischer Abriss der MT • 1947-1954: Pionierphase, welche mit der IBM/Georgetown-MT-Demo endet, welche einen ersten Fluss an Forschungsgeldern auslöst. • 1954-1966: Phase des Optimismus: Entwicklung von syntaktisch orientierten Übersetzungssystemprototypen. Der ALPAC-Report [Pierce et al. 1966] ernüchtert in den USA (und weiteren Ländern) die Geldgeber, welche produktive MT finanziert haben. Der Report verlangt Grundlagenforschung und Benutzerunterstützung. 102 • 1966-1980: Anfangs wenig Forschung in USA, aber verschiedene Systeme entstehen in andern Ländern. • 1980-1990: Diverse Systeme, welche syntaktisches und semantisches Wissen einbringen und teilweise heute noch existieren, entstehen. • Erste Hälfte 1990: IBM lanciert statistische Methoden für MÜ. Übersetzungssysteme für gesprochene Sprache werden erforscht. • Mitte 90-er bis 2000: PC-basierte Übersetzungssystem werden marktreif. WWW und EMail geben Ad-Hoc-Übersetzungen Anwendungspotential. 10.2 MT-Terminologie Übersetzungsrichtungen Definition 10.2.1 (Source Language (SL)). Unter der Quellsprache (QS) versteht man die Sprache, die man übersetzen will. Definition 10.2.2 (Target Language (TL)). Unter der Zielsprache (ZS) versteht man die Sprache, in die man übersetzen will. Definition 10.2.3 (Übersetzungsrichtung). Die Anzahl der Übersetzungsrichtung für n Sprachen ergibt sich aus der Formel: n × (n − 1). Beispiel EU 20 offizielle Sprachen der EU bis Ende 2006 Englisch, Deutsch, Französisch, Italienisch, Spanisch, Portugiesisch, Griechisch, Holländisch, Dänisch, Schwedisch, Finnisch, Tschechisch, Estnisch, Litauisch, Lettisch, Ungarisch, Maltesisch, Polnisch, Slowenisch, Slowakisch 3 neue offizielle Sprachen der EU ab 2007 Irisch, Rumänisch, Bulgarisch Beispiel 10.2.4 (Übersetzungsrichtungen in der EU). Für die 20 Sprachen der EU bis 2006 gab es 20 × 19 = 380 Übersetzungsrichtungen. Wieviel mehr sind es mit den 23 Sprachen? Sprachendienst der EU Die EU verwendet und entwickelt seit Jahrzehnten ein eigenes MÜ-System (“Euro Systran”). 1998 wurden 370’000 Seiten übersetzt und ca. 35% Übersetzungszeit eingespart. 10.2.1 MT Maschinelle Übersetzung Definition 10.2.5 (Machine Translation (MT)). Maschinelle Übersetzung (MÜ) meint die vollautomatische Übersetzung eines natürlichsprachlichen Textes in eine andere natürliche Sprache. Definition 10.2.6 (Speech-To-Speech Translation, Machine Interpretation auch Translation ). Maschinelles Dolmetschen meint die vollautomatische Übersetzung gesprochener Sprache in eine andere natürliche Sprache. 103 10.2.2 CAT Computerunterstützte Übersetzung Definition 10.2.7 (computer aided (assisted, based) translation (CAT)). Computerunterstützte Übersetzung kombiniert menschliche und maschinelle Übersetzungsleistung. Abbildung 10.1: Automatisierungsgrade nach [Hutchins und Somers 1992] 10.2.3 MAHT Computergestützte Humanübersetzung (MAHT) Definition 10.2.8 (CAT-Software). In der computergestützten Humanübersetzung wird Software eingesetzt, welche den Übersetzungsprozess optimiert: • Projekt-Verwaltung und Dokumenten-Editor (automatische Übernahme von Dokumentenformatierung) • Terminologie-Komponente: (halbautomatisches) Erfassen und Pflegen von Begriffen • Alignment-Komponente: Zuordnen von satzweisen Übersetzungspaaren • Translation-Memory-Komponente (TM): Verwaltung der existierenden Übersetzungspaare • Übersetzungs-Komponente: Anwendung von Terminologie und Translation-Memory Vorgehen bei TM-basierter Übersetzung • Textsegmentierung in Sätze oder satzähnliche Fragmente (Titel, Aufzählungen usw.) • Matching (Abgleich) der Sätze auf bestehende Übersetzungen: Übersetzungskandidaten 104 • Auswahl und Bearbeitung: Der Übersetzer wählt aus vorgeschlagenen Übersetzungen aus und passt sie allenfalls an. 100%-Matches garantieren keine fehlerfreie Übersetzung! • TM-Inhalt EN: Turn to the filter on the right. Remove and clean it. • TM-Inhalt DE: Wenden Sie sich dem Filter rechts zu. Nehmen Sie ihn heraus und säubern Sie ihn. • QS EN: Turn to the lock on the right. Remove and clean it. • ZS DE: Wenden Sie sich dem Schloss rechts zu. *Nehmen Sie ihn heraus und säubern Sie ihn. Abbildung 10.2: Beispiel: Dokumenten-Editor mit Zugriff auf TM Beispiel: Partieller Match (Fuzzy Match) Die Übereinstimmungsquote für einen Übersetzungsvorschlag lässt sich einsehen oder einstellen. Beispiel 10.2.9 (Partieller Match). Der aktuell vorliegende Text, sowie das im TM abgelegte Übersetzungspaar wird angezeigt. Nicht übereinstimmendes Material in der QS ist gelb, Vertauschung ist blau markiert. 105 Abbildung 10.3: Beispiel: Fuzzy-Match mit 81% Übereinstimmung Abbildung 10.4: Beispiel: Dokumenten-Editor mit Zugriff auf TM Erstellung von Translation-Memories • Bootstrapping durch Abspeichern aller manuell satzweise übersetzten Übersetzungspaare im CAT-System • Erzeugen von TM durch satzweise alignierte, bestehende Übersetzungen ((halb-)automatische Satz-Alignierung) aus Bi-Texten (Bilinguale Textsammlungen) Ansätze automatischer Satz-Alignierung 106 • Basierend auf der Satzlänge • Basierend auf textuellen Ankern (Wörter, Formatierungen) Exkurs: Satzlängenbasierte Alignierung Ansatz von [Gale und Church 1993] 1. Zuordnung von Absätzen auf Grund ihrer Länge (oder Formatierung) 2. Zuordnung von Sätzen innerhalb von Absätzen aufgrund minimaler Längenabweichung der entstehenden Paare Zuordnungsverhältnisse In der Praxis lassen sich die Übersetzungen auf Satzebene fast immer vollständig mit 0:1-, 1:1-, 1:2- und 2:2-Verknüpfungen zuordnen. Zuordnung 1:1 1:2 0:1 2:2 Häufigk. 89% 9% 1% 1% Fehler 2% 9% 100% 33% Tabelle 10.1: Häufigkeit im Test-Korpus von Gale und Church Parametrisierung der Alignierung bei Trados WinAlign Alignment über Dokumentstruktur Terminologiekomponente • verschiedene Suchmöglichkeiten • Möglichkeiten zum Import von Glossaren und Wörterbüchern aus dem Anwendungsgebiet • Terminologieextraktion aus Texten, d.h. automatisches Generieren von Kandidaten für Terminologieeinträge • Einsetzen von Wörtern aus dem Glossar in den Text • Terminologiekontrolle zur Konsistenzsicherung der Übersetzung 107 Abbildung 10.5: Parametrisierung der Alignierung bei SDL Trados WinAlign Fazit zu MAHT • Terminologische Exaktheit und Konsistenz ist gross. • Übersetzungsresultate werden wiederverwendbar. • (Neue) Mitarbeitende können von vorhandenem Wissen profitieren • Workflow bei der Übersetzung stark vorstrukturiert. • Zeitmanagement und Projekt-Kosten sind kalkulierbarer. • Unterhalt der Terminologie und TM lohnt sich, falls oft ähnliche Texte zu übersetzen sind. • Hoher Nutzen bei Software-Lokalisierung (Anpassung von Sprache, Masseinheiten usw.) oder Handbüchern, deren unterschiedliche Releases nur wenige Modifikationen enthalten. • Linguistisch intelligenter Umgang mit partiellen Matches ist erwünscht, aber nicht trivial. 10.2.4 HAMT Human-Aided Machine Translation (HAMT) Definition 10.2.10. HAMT bezeichnet Übersetzungsszenarios, bei denen einen maschinelle Übersetzung durch gezielte manuelle 108 Abbildung 10.6: Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign Abbildung 10.7: Export der Alignierung als TM 109 Abbildung 10.8: Terminologie-Verwaltung mit Termbase • Präedition (Vorredaktion: Markieren von Namen, Korrigieren von Fehlern im Quelltext, Ergänzen von Lexikoneinträgen usw.), • Postedition (Nachredaktion: Verbessern der Rohübersetzung, Auflösen von maschinellen Problemstellen (Ambiguitäten, unbekannte Wörter) usw.). ergänzt wird. Die Operationen der Prä- oder Postedition können auch interaktiv geschehen. 10.2.5 FAHQT Fully automatic high quality translation (FAHQT) Menschliche Übersetzungsqualität durch vollautomatische MÜ Weiterhin utopisch, auch wenn sich immer wieder Leute finden lassen, welche Gegenteiliges für die nahe Zukunft prognostizieren! Aber • Übersetzungstechnologie macht dauernd Fortschritte. • Eingeschränkte Anwendungsgebiete und gute lexikalische Ressourcen erlauben sehr brauchbare Resultate! 110 Abbildung 10.9: “Rohübersetzung” von erkannter Terminologie • Für Informativ-Übersetzungen braucht es keine literarische Qualität. Frage Welche Textsorten eignen sich für automatische Übersetzung? Nach Schwierigkeitsgrad geordnet (*=ohne manuelle Bearbeitung;**=mit Vor-/Nachredaktion; ***=zur Zeit unmöglich): 1. Wetterberichte, Börsenberichte, weitere extrem eingeschränkte Subsprachen* 2. Technische Dokumente, Handbücher ** 3. Rechtsdokumente** 4. Wissenschaftliche Texte** 5. Journalistische Texte*** 6. Literarische Texte, Werbetexte, Filmtexte*** Der Einsatz von Übersetzungsgedächtnissen und ausgebauter Terminologie hat allerdings einen grossen Einfluss auf die Qualität der Resultate bei Texten der Kategorien ** und ***. 111 Wetterberichtstexte Beispiel 10.2.11 (Englische und französische Wetterberichte aus Kanada). Tonight..Cloudy. 60 percent chance of showers early this evening. Periods of rain beginning this evening. Becoming windy near midnight. Low 7. Ce soir et cette nuit..Nuageux. 60 pour cent de probabilité d’averses tôt ce soir. Pluie intermittente débutant ce soir. Devenant venteux vers minuit. Minimum 7. Das berühmte FAHQ-Übersetzungssystem METEO Von 1978-2001 war das Übersetzungssystem METEO (in verschiedenen Versionen) in Kanada für MÜ von Englisch nach Französisch im Dienst. 1991 wurde ca. 45’000 Wörter pro Tag damit übersetzt.[Chandioux 1991] 10.3 Evaluation Qualitätskriterien für Übersetzungen Zielsprachliche Formulierungsgewandtheit (Fluency) Wie fliessend (lexikalisch, syntaktisch und stilistisch korrekt und natürlich) erscheint der übersetzte Text? Quellsprachliche Ausdruckstreue (Faithfulness) Wie genau wurde die ursprüngliche Formulierung übernommen? Beispiel 10.3.1 (Klassiker: Fluent vs. Faithful). • Japanisch: “fukaku hansei shite orimasu” • Englisch I: “We are deeply reflecting (on our past behaviour, and what we did wrong, and how to avoid the problem next time).” • Englisch II: “We apologize.” Qualitätskriterien für Übersetzungen Adäquatheit einer Übersetzung Wieviel der ursprünglichen Information wird in der Übersetzung wiedergegeben? Operationalisierbar durch menschliche Urteile über einer nominalen Skala (Alles, Meiste, Viel, Wenig, Nichts). Informativität einer Übersetzung Reicht eine Übersetzung aus, um gewisse Fragen beantworten zu können. Operationalisiserbar durch task-basierte Evaluation via Multiple-Choice-Aufgaben zum Inhalt. Posteditierungsaufwand Wieviel Zeit benötigt die Postedition? Wieviele Sätze oder Texte brauchen wieviele Modifikationen? Bei METEO-System brauchten 1991 ca. 4% der Texte eine Postedition (bzw. HT). 112 10.4 Linguistische Probleme der Übersetzung Ideale Sprachen für MT Maschinelle Übersetzung von QS nach ZS wäre trivial, wenn folgende Bedingungen erfüllt wären: • Jede Wortform von QS hat genau eine entsprechende Wortform in ZS. • Jeder Satz von QS hat genau eine syntaktische Analyse. • Jeder Satz von QS hat genau eine Bedeutung. • Jedem Konstruktionstyp in QS entspricht genau ein Konstruktionstyp in ZS. 10.4.1 Mehrdeutigkeit Mehrdeutigkeit der Wortart Beispiel 10.4.1 (Mehrdeutige Wortform: Englisch nach Französisch). • You must not use abrasive cleaners on the printer casing. • The use of abrasive cleaners on the printer casing is not recommended. Diagnose Dieselbe Wortform in der QS (“use”) steht für verschiedene Wortformen in der ZS (“emploi/N”, “employer/V”). Minimaler Lösungsansatz Bestimmen der Wortart in der QS, d.h. Tagging. Mehrdeutigkeit von morphologischen Merkmalen Beispiel 10.4.2 (Mehrdeutige Wortform: Englisch nach Deutsch). • We just loved to play football. • He played quarterback and loved to play football. Diagnose Dieselbe Wortform in der QS (“loved”) steht für verschiedene Wortformen in der ZS: liebten/VVFIN:1.Pl.Past.Ind, liebte/VVFIN:3.Sg.Past.Ind. Lösungsansatz Um die korrekte finite Wortform im Deutschen zu wählen, muss man wissen: • Was ist das Subjekt dieses finiten Verbs? • Welche Person und Numerus hat dieses Subjekt? Dieses Wissen kann eine syntaktische Analyse liefern. 113 Mehrdeutigkeit von morphologischen Merkmalen Beispiel 10.4.3 (Mehrdeutige Wortform: Englisch nach Deutsch). • When John drank the winei in the glass he spilled iti . Als Hans den Wein im Glas trank, verschüttete er ihn. • When John drank the wine in the glassi he broke iti Als Hans den Wein im Glas trank, zerbrach er es. Diagnose Dieselbe Wortform in der QS (“it”) steht für verschiedene Wortformen in der ZS: ihn/PPER:3.Sg.Masc.Akk, es/PPER:3.Sg.Neut.Akk. Lösungsansatz Eine syntaktische Analyse allein liefert noch keine Entscheidungsgrundlage. Lexikalisches Sortenwissen und Desambiguierung Die korrekte Übersetzung von “it” ins Deutsche erfordert eine Bestimmung der Bezugsgrösse des Pronomens. Beispiel 10.4.4 (Aus dem elektronischen Lexikon WordNet III). • (v) spill, slop, splatter (cause or allow (a liquid substance) to run or flow from a container) “spill the milk”; “splatter water” • (v) break (destroy the integrity of; usually by force; cause to separate into pieces or fragments) “He broke the glass plate”; “She broke the match” Selektionsrestriktionen von Verben als Ausschlusskriterien Das Akkusativobjekt von “to spill” bezeichnet eine Flüssigkeit. Das Objekt von “to break” kann keine Flüssigkeit sein, weil diese nicht in Stücke gebrochen werden können. Lexikalisches Sortenwissen in der CL Woher weiss der Computer, dass “wine” eine Flüssigkeit bezeichnet? Beispiel 10.4.5 (Begriffshierarchie für “wine” aus WordNet III). (n) wine, vino (fermented juice (of grapes especially)) → (n) alcohol, alcoholic beverage, intoxicant, inebriant (a liquor or brew containing alcohol as the active agent) → (n) liquid (a substance that is liquid at room temperature and pressure) → (n) fluid (a substance that is fluid at room temperature and pressure) → (n) substance, matter (that which has mass and occupies space) → (n) physical entity (an entity that has physical existence) → (n) entity (that which is perceived or known or inferred to have its own distinct existence (living or nonliving)) Frage Warum kann man trotzdem sagen “Er verschüttet ein Glas Wein”? 114 Mehrdeutigkeit von syntaktischen Funktionen Beispiel 10.4.6 (Mehrdeutige syntaktischen Funktionen: Deutsch nach Englisch). Briefträger beißen Hunde selten. Dogs seldom bite postmen. Postmen seldom bite dogs. Diagnose Die halbfreie Wortstellung des Deutschen muss für die ZS Englisch ins SVO-Schema gebracht werden. Das Subjekt ist in der QS aber nicht morphologisch markiert. Mehrdeutigkeit von syntaktischen Funktionen Beispiel 10.4.7 (Anbindung von PP: Deutsch nach Englisch). Den Mann sah die Frau mit dem Fernglas. The woman with the telescope saw the man. The woman saw the man with the telescope. Diagnose Ob die PP als postnominaler Modifikator oder als Verb-Modifikator fungiert muss in der Übersetzung partiell aufgelöst werden. Lösungsansatz für PP-Anbindungsdesambiguierung Heuristiken (Bevorzuge eine enge Anbindung!) oder statistische Angaben über Präferenzen der Paare V − NP P (“sehen”-“Fernglas”) vs. N − NP P (“Frau”-“Fernglas”). Falls die ZS die Mehrdeutigkeit ebenfalls ausdrücken kann, muss allerdings nicht aufgelöst werden. Mehrdeutigkeit von Wortbedeutungen Hauptproblem Die meisten Wörter haben mehrere Bedeutungen, welche in der ZS unterschiedlich lexikalisiert werden können! Beispiel 10.4.8 (box in http://dict.leo.org: Englisch nach Deutsch). • Kasten, Behältnis, Dose, ... • Buchs, Anhieb, Achsbüchse • Eingabefeld • Glotze, Sarg Lösungsansätze Markierung der Übersetzungspaare nach Fachgebiet (Agronomie, Botanik, Technik) und Stilebene. Heuristik: Bevorzuge ähnlich mehrdeutige Ausdrücken in der ZS! Wortsinndesambiguierung: Berechne die wahrscheinlichste Bedeutung aus dem Kontext! 115 Mehrdeutigkeit von Wortbedeutungen (Klassiker) Beispiel 10.4.9 (Mehrdeutige Wortform: Englisch nach Deutsch). • The pen was in the box. Die Schreibfeder war in der Schachtel. Das Laufgitter war in der Schachtel. • The box was in the pen. Die Schachtel war im Laufgitter. Die Schachtel war in der Schreibfeder. Diagnose Die plausiblen Übersetzungen von “pen” in einem einzelnen Satz erfordern Weltwissen über die typische Beschaffenheit von Gegenständen und über gängige Situationen. Welche Situationen sind typisch? [Melby 2001] Siehe Abbildungen 10.10 und 10.11. Abbildung 10.10: Situationen zu “The pen was in the box” nach [Melby 2001] Enzyklopädisches Weltwissen Wir wissen, dass die involvierten Gegenstände typischerweise etwa folgende Ausdehnung haben: • Schreibfeder: ca. 10cm lang und 1cm breit • Schachtel: ca. 5 bis 100cm lang/breit • Laufgitter: ca. 50 bis 500cm lang/breit Damit werden gewisse Verschachtelungen unwahrscheinlich. Unwahrscheinlich, aber nicht unmöglich Little Johnny was unhappy. On Christmas eve he got a pen (“auch Pferch”) for his toy horse. Now he had lost it. Suddenly he found it. The pen was in the box. He was happy again. 116 Abbildung 10.11: Situationen zu “The pen was in the box” nach [Melby 2001] Mensch vs. Maschine Menschen setzen Weltwissen bzw. Welterfahrung unbewusst und problemlos ein. Maschinelle Repräsentationen davon sind jedoch schwierig! Datenbasierte Ansätze finden Weltwissen enkodiert in den Sprachkorpora. Mehrdeutigkeit von pragmatischen Kategorien Beispiel 10.4.10 (Mehrdeutige Wortform: Englisch nach Französisch). • Thank you for coming. Merci de venir. • A: Would you like a coffee? B: Thank you. B: S’il vous plaît. Diagnose Dieselben Wortformen in der QS (“thank you”) stehen für verschiedene Wortformen in der ZS (“merci”, “S’il vous plaît”). Lösungsansatz Um die korrekte Übersetzung zu finden, muss man wissen, ob es sich um eine Antwort auf eine Angebots-Frage handelt. Dieses Sprechakt-Wissen liefert eine Analyse auf der Ebene der Pragmatik. 10.4.2 Idiome und Kollokationen Definition 10.4.11 (idiomatische Wendung, Redewendung). Ein Idiom ist eine feste, mehrteilige Wortgruppe, welche eine semantische Einheit bildet, die nicht aus den Einzelteilen abgeleitet werden kann. Modifikationen oder Austausch von Elementen sind schlecht möglich. Beispiel 10.4.12 (Idiom). • jemanden auf die Palme bringen • # jemanden auf die hohe Palme bringen 117 • # jemanden auf die Birke bringen • to drive someone crazy Übersetzbarkeit von Idiomen Idiom lassen sich nur in Ausnahmefällen wörtlich von der QS in die ZS übersetzen. Kollokationen Definition 10.4.13 (collocation). Eine Kollokation ist eine Kombination von Wörtern, welche sich gegenseitig bevorzugt verbinden und andere semantisch denkbare Kombinationen unterdrücken. Beispiel 10.4.14 (Kollokation). • Ein starker Raucher ist jemand, der intensiv raucht. • Ein starker Schreiber ist aber nicht jemand, der intensiv schreibt. Übersetzbarkeit von Kollokationen Wie bei den Idiomen kann die Übersetzung nicht wortweise isoliert erfolgen. Beispiel: Intensivator als Kollokation Eine korrekte Übersetzung von “heavy smoker” in Deutsch oder Französisch bedingt: • Die Erkennung von “heavy” als kollokativer Intensivator. • Die Kenntnis, dass der Intensivator für “fumeur” im Französischen “grand” lautet. • Die Kenntnis, dass der Intensivator für “Raucher” im Deutschen “stark” lautet. Die Intensivierung kann als lexikalische Funktion betrachtet werden, welche vom Kopf einer Konstituente abhängig ist. [Arnold et al. 1994, 127] Beispiel: Verbgefüge als Kollokationen Beispiel 10.4.15 (“support verbs” im Englischen ). • They took (*made) a walk. • They make (*took) an attempt. • They had (*made,*took) a talk. Lexikalische Funktion Der Kern solcher Kollokationen liegt im Nomen. Die Funktion des Verbs kann sprachübergreifend abstrakt als “support verb” repräsentiert werden. Die genaue Verbalisierung ist aber nicht vorhersagbar, sondern muss im Lexikon erfasst werden. 118 10.4.3 Sprachbau Globale Diskrepanzen Die komparative Grammatikschreibung hat die verschiedenen grammatikalischen Prinzipien gesucht und ihre unterschiedlichen Parametrisierungen in den Einzelsprachen beschrieben. • Stellung des Kopfes innerhalb von Konstituenten • Stellung der Modifikatoren bezüglich Kopf • Verwendung von morphosyntaktischen Merkmalen wie Genus und Kasus (Englisch vs. Deutsch) • Verwendung von Artikeln (Russisch vs. Deutsch) • Optionalität von lexikalischen Subjekten (Italienisch vs. Deutsch) global mismatches Globale Unterschiede wie etwa Wortstellungsabweichungen stellen für primitive Ansätze bereits eine hohe Hürde dar. Stellungsregularität Subjekt(S)-Objekt(O)-Verb(V) Bei Übersetzungen zwischen Sprachen mit unterschiedlicher SVO-Ordnung sind manchmal grosse Umstellungen notwendig. Beispiel 10.4.16 (Englisch vs. Japanisch). • SVO: He adores listening to music. • SOV: he kare ha music ongaku to wo listening kiku no ga adores daisuki desu Lokale Diskrepanzen Beispiel 10.4.17 (Wortstellung). • „I have seen him“ vs. „Ich habe ihn gesehen.“ • „What doctor did John go to?“ vs „Zu welchem Doktor ging John?“ • „He never sleeps long.“ vs. „Er schläft nie lange.“ Beispiel 10.4.18 (Head Switching). • „I like swimming.“ vs. „I schwimme gerne.“ • „John usually goes home.“ vs. „Juan suele ir a casa.“ Beispiel 10.4.19 (Zuordnung thematische Rolle zu syntaktischer Funktion). • „cautionner qn“ vs „bürgen für jmdn.“ • „I miss my dictionary.“ vs. „Mon dictionnaire me manque.“ 119 Beispiel 10.4.20 (Passivkonstruktion). • She insists on being given the books. • Sie besteht darauf, dass ihr die Bücher gegeben werden. Beispiel 10.4.21 (Gerundiv-Konstruktionen). • He did not neglect writing to her. • Er versäumte es nicht, ihr zu schreiben. 10.5 Vertiefung • Reichhaltiges Sammelsurium zur maschinellen Übersetzung und ihrer Geschichte http: //www.mt-archive.info/ • Lerneinheit “Satz- und Phrasenähnlichkeit” http://www.cl.uzh.ch/clab/satzaehnlichkeit/ 10.6 Exkurs: BLEU-Score Automatische Evaluation Idee Automatische Evaluation misst die Qualität einer maschinellen Übersetzung, indem sie mit einer oder besser mehreren menschlichen Referenz-Übersetzungen verglichen wird. Vorteile Menschliche Evaluation ist aufwändig und langsam, automatische Berechnung einer metrischen Güte ist billig und schnell. Definition 10.6.1 (Bilingual Evaluation Understudy (BLEU)). Eine der aktuell wichtigsten Metriken zur automatischen bilingualen Evaluation ist der BLEU-Score. BLEU: Unigramm-Präzision 1. MT: It is a guide to action which ensures that the military always obeys the commands of the party. 2. MT: It is to insure the troops forever hearing the activity guidebook that party direct. 1. HT: It is a guide to action that ensures that the military will forever heed Party commands. 2. HT: It is the guiding principle which guarantees the military forces always being under the command of the Party. 3. HT: It is the practical guide for the army always to heed the directions of the party. Definition 10.6.2 (Unigramm-Präzision P1 ). Die Unigramm-Präzision (Token-Präzision) eines Übersetzungskandidaten misst, wie hoch der Anteil der Wörter aus allen Referenzübersetzungen C an allen Tokenvorkommen eines Kandidaten ist: P1 = N N = Anzahl Token des Kandidaten; C = Anzahl Token des Kandidaten, welche in einer Referenzübersetzung erscheinen 120 Unigramm-Evaluation Frage Wie hoch sind P1 von MT1 und MT2? Tokenvorkommen • MT1: . a action always commands ensures guide is it military of party that the the the to which • MT2: . is it party that the the to Notwendigkeit für Clipping Problem der Wiederholung • Kandidat: the the the the the the the • HT1: the cat sat on the mat • HT2: there is a cat on the mat Wie hoch ist die P1 des “idiotischen” Kandidaten? 7 7 Clipping der Kandidatenvorkommen Ein Token darf maximal sooft gezählt werden, wie es in einer einzelnen Referenzübersetzung vorkommt. Wie hoch ist P1 des Kandidaten mit Clipping? 2 7 Uni-, Bi-, Tri- und Quadrigramme Längere Textabschnitte im Vergleich Welche N-Gramme aus den Referenztexten finden sich im MT-Kandidaten? 1. MT: It is a guide to action which ensures that the military always obeys the commands of the party. 1. HT: It is a guide to action that ensures that the military will forever heed Party commands. 2. HT: It is the guiding principle which guarantees the military forces always being under the command of the Party. 3. HT: It is the practical guide for the army always to heed the directions of the party. Geometrisches Mittel der N-Gramm-Präzisionen Die Precisionwerte der 1-4-Gramme eines Kandidaten werden geometrisch gemittelt: P = (P1 × P2 × P3 × P4 )1/4 Problem der Kürze • Kandidat: of the 121 • HT1: It is the guiding principle which guarantees the military forces always being under the command of the Party. Wie hoch ist die P1 des Kandidaten? 2 2 Recall-Mass kompensieren Normalerweise würde ein Präzisionsmass mit Recall verrechnet, um solche Effekte zu mindern. Wir haben aber mehrere Referenzübersetzungen. Als Ausweg wird ungewöhnliche Kürze des Kandidaten bestraft. Strafabzug für Kürze über Korpus 1. Schritt: Bestimme die Gesamt-Länge c der Kandidatenübersetzung. 2. Schritt: Bestimme die Gesamt-Länge r der Referenzübersetzungen, indem jeweils die kürzeste (NIST-Variante) oder zur höchsten Bewertung führende Referenzübersetzung genommen wird. 3. Schritt: Bestimme Kürze: brevity = r/c 4. Schritt: Bestimme Strafabzug (brevity penalty): ( BP = 1 falls c > r e(1−brevity) falls c ≤ r Beispiel 10.6.3 (Realistischer Faktor). Wenn Kandidatenübersetzung 1000 Token zählt (c = 1000) und Referenzlänge als 1100 Token zählt (l = 1100), dann BP = e1−1.1 = e−0.1 = 0.905 BLEU als Formel BLEU-Score ergibt sich aus Multiplikation von Brevity Penalty mit der geometrisch gemittelten Präzision aus 1-4-Grammen. BLEU = BP × (P1 × P2 × P3 × P4 )1/4 = BP × P Wert von 1 heisst “perfekte” Übereinstimmung, Wert 0 heisst keine Übereinstimmung. Eigenschaften BLEU betont enge lokale Übereinstimmung und vernachlässigt Unstimmigkeiten, welche sich darüber hinaus ergeben können:“Ensures that the military it is a guide to action which always obeys the commands of the party.” wäre gleich gut wie Kandidat 1. Wie zuverlässig bildet BLEU das menschliches Urteil ab? • Wortvarianz (Synonyme) wird nur berücksichtigt, wenn in Referenzübersetzungen enthalten • Unwichtige und wichtige Inhalts-Wörter werden gleich behandelt • Für denselben BLEU-Score gibt es Millionen von Kombinationen mit unterschiedlichster Übersetzungsqualität • Regelbasierte Übersetzungssysteme werden gegenüber statistischen gerne abgestraft 122 Abbildung 10.12: Korrelation von menschlichen [Callison-Burch et al. 2006] 123 und BLEU-Bewertungen nach 11 (Formale) Sprachen und Grammatiken Lernziele • Kenntnis über Grammatiken, ihren Zweck und Ausrichtung • Kenntnis von Konstituentenstrukturdarstellung und Phrasenstrukturregeln • Kenntnis über die rekursive Verschachtelung und Mehrdeutigkeit syntaktischer Strukturen • Kenntnis von syntaktischer Analyse (Parsing) • Fähigkeit einfache Konstituentenstrukturgrammatiken zu schreiben (in XLE als Übung) • Kenntnis über formale Sprachen und (Regel-)Grammatiken • Kenntnis über das Ableiten mit kontextfreien Grammatiken • Kenntnis über die Chomsky-Hierarchie 11.1 Grammatik Sprachkompetenz Grundfrage Wie ist es möglich, dass wir Sätze bilden und verstehen können, welche wir noch nie gehört haben? Was bedeutet der Begriff „Grammatik“? Einige Bedeutungen nach [Bussmann 2002] • „Wissen bzw. Lehre von den morphologischen und syntaktischen Regularitäten einer natürlichen Sprache“ • „Strukturelle Regelsystem, das allen sprachlichen Produktions- und Verstehensprozessen zugrunde liegt“ • „Systematische Beschreibung der formalen Regularitäten einer natürlichen Sprache in Form eines Nachschlagewerkes“ Definition 11.1.1 (Arbeitsdefinition). Grammatiken sind Modelle, wie Sprache auf der morphosyntaktischen Ebene funktioniert. 124 Arten von „Grammatiken“? • Einzelsprachlich vs. übersprachlich (UG: Universalgrammatik): Vgl. den UG-Konfigurator für HPSG1 • Normativ vs. deskriptiv: Grammatikduden sagt, wie geschriebene Sprache sein soll. Wer Real-World-Sprachdaten verarbeiten will, braucht andere Regeln. • Formal vs. informell: Vollständig formalisierte und explizite Grammatiken sind geeignete Modelle für eine Implementation. • Pädagogisch vs. anwendungsorientiert: Maschinelle Übersetzung hat andere Anforderungen an eine Grammatik als Erst- oder Zweitspracherwerbende. Adäquatheitsstufen grammatischer Modelle Nach Noam Chomsky gemäss [Bussmann 2002] • Beobachtungsadäquatheit: Sprachliche Daten werden korrekt und vollständig erfasst z.B. reine wortbasierte N-Gramm-Modelle • Beschreibungsadäquatheit: Intuition und Kompetenz der Sprachteilnehmer zu Regularitäten werden erfasst • Erklärungsadäquatheit: Kognitive Realität der menschlichen Sprachfähigkeit wird erfasst: Wie funktioniert Sprache (universal), Spracherwerb, Sprachwandel? Anwendungsadäquatheit in der CL Sprachliche Daten werden für die Anwendung hinreichend präzise und effizient (Speicherbedarf und Rechenzeit) analysiert. Grammatiktheorien in der CL Formale Linguistik und CL haben sich oft gegenseitig befruchtet. • Generative Grammatik (GG): Transformationsgrammatik (60-70er), Government & Binding (80-90er), Minimalistisches Programm (ab 90er) • LFG (Lexical Functional Grammar) • HPSG (Head Phrase Structure Grammar) • TAG (Tree Adjoining Grammar) • Dependenzgrammatik (DG): Dependency Grammar, Word Grammar 1 http://www.delph-in.net/matrix/customize/matrix.cgi 125 11.1.1 Konstituentenstruktur Konstituenz Definition 11.1.2 (nach [Bussmann 2002]). Konstituente. In der strukturellen Satzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die Teil einer grösseren sprachlichen Einheit ist. Definition 11.1.3 (nach [Bussmann 2002]). Ziel und Ergebnis der Konstituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge von Konstituenten. Definition 11.1.4 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und linearen Präzedenz zwischen Konstituenten. Darstellungsformen der Konstituenz Konstituenten in der annotate-Darstellung L! SOT L< ! SOR !N M; A: Syntaktische Konstituente unmittelbare Dominanz !"# .#/#0 O +@ '($)(*(+,- '($)($4#5(306 L< +@ .#78.9# 1123+ L; +$ SOO P $$%& M; L+$ SOQ L< Konstituente auf Wortebene !1$ 1#4>"06?0.#0 Q ?06 ' :;<: Präzedenz auf $,5(*(:==($)(!9 Wortebene &"5"=#0 R ++ @A+ Präzedenz zwischen 2#-(:==($)(* !! Tochterkonstituenten #"0 S Konstituenten in traditionellen linguistischen Darstellungen Baumdarstellung S e eeeeee NP VP YYYYYY Y NE V Egon sah NP YY D YYYYY N den Pudel 126 F#45?G/#0 U ++ $B@1C ED 1123+ +#?9(:==($)(* !! !! '($)($4#5(30 Abbildung 11.1: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente. D T Kastendiagramm Egon NE NP NP sah V V den D Pudel N NP VP S Klammernotationen: Indizierte Klammerung und S-Expression (LISP) • [[[Egon]NE ]NP [[sah]V [[den]D P udel]N ]NP ]VP ]S • (S (NP (NE Egon)) (VP (V sah) (NP (D den) (N Pudel)))) Konstituentenstruktur und Phrasenstrukturregeln (PSR) Phrasenstrukturregeln drücken die Beziehung zwischen einem Mutterknoten und ihren zulässigen Tochterknoten (unmittelbare Dominanz) sowie die Reihenfolge unter den Tochterknoten (unmittelbare Präzedenz) aus. Baumdarstellung S e eeeeee NP VP YY NE V Egon sah YYYYY NP YYYYYY Y D N den Pudel Phrasenstrukturregeln S → NP VP NP → EN V → sah NE → Egon VP → V NP NP → D N D → den N → Pudel Sprechweisen für Phrasenstrukturregeln S dominiert eine NP gefolgt von einer VP. S besteht aus einer NP gefolgt von einer VP. S produziert/erzeugt eine NP gefolgt von einer VP. Eine NP gefolgt von einer VP wird ersetzt durch ein S. Syntax- und Lexikonregeln Bei der Entwicklung von Grammatiken in der Linguistik wir oft zwischen Lexikonregeln und Syntaxregeln unterschieden. Lexikonregeln und Präterminale Bei Lexikonregeln wird eine Wortform (Terminal) einer oder mehreren syntaktischen Kategorien (Präterminal) zugeordnet: EN → Egon Syntaxregeln 127 Syntaxregeln beschreiben, wie Kategorien (Nichtterminal) zu einer grösseren Kategorie kombiniert werden: S → NP VP Konzise Notation von Alternativen und Optionalität Eine PP besteht aus Präposition und NP oder Präpositionaladverb: PP → {P NP | PAdv } Eine NP besteht aus Eigenname, oder Artikel, Nomen mit optionaler PP: NP → { NE | D N (PP) } 11.1.2 Konstituentenanalyse Automatische Konstituentenanalyse Definition 11.1.5 (Automatische Konstituentenanalyse). Eine automatische Konstituentenanalyse berechnet (parst) die Konstituentenstruktur eines sprachlichen Ausdrucks auf Grund von Phrasenstrukturregeln. Definition 11.1.6 (Parser). Ein Parser ist ein Programm, das sprachliche Ausdrücke auf Grund einer Grammatik syntaktisch analysiert und dessen zulässige(n) Syntaxstruktur(en) berechnet. Syntaktische Mehrdeutigkeit Natürliche Sprachen haben im Gegensatz zu künstlichen Sprachen wie Programmiersprachen viele syntaktische Mehrdeutigkeiten. Beispiel 11.1.7 (Mehrdeutigkeit der PP-Anbindung). Wie sehen die zulässigen Konstituentenstrukturen aus für den Satz „Egon sah den Pudel mit der Brille“? S → NP VP V → sah NE → Egon VP → V NP D → {den|der} NP → {EN | D N (PP)} N → {Pudel|Brille} PP → P NP P → mit 11.1.3 Rekursion Rekursive Verschachtelung von Konstituenten Beispiel 11.1.8 (Dass-Sätze). • Usain Bolt broke the 100m record. • The Jamaica Observer reported that Usain Bolt broke the 100m record. • Andre said The Jamaica Observer reported that Usain Bolt broke the 100m record. • I think Andre said The Jamaica Observer reported that Usain Bolt broke the 100m record. Beispiel 11.1.9 (Relativsätze). Ich kannte einen Mann, der einen Zahn besass, welcher ein Loch hatte, worin ein Kästchen war, das einen Brief enthielt, worauf stand: Ich kannte einen Mann . . . Welche Muster stecken dahinter? 128 Rekursion S → NP VP V → sah NE → Egon VP → V NP D → {den|der} NP → {EN | D N (PP)} N → {Pudel|Brille} PP → P NP P → mit Frage und Empfehlung Welche Regeln braucht unsere Beispielgrammatik, damit auch Sätze wie „Egon sah den Pudel und den Spatz“ analysierbar werden? Empfehlung: Es ist sinnvoll, zuerst die Konstituentenstruktur eines Satzes zu zeichnen und danach die Regeln zu entnehmen. 11.2 Formale Sprachen 11.2.1 Sprache als Menge Das Alphabet (Sigma), Zeichen und Zeichenketten Definition 11.2.1. Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole, Terminalsymbole). Es wird mit Σ (Sigma) notiert. Beispiel 11.2.2 (Syntaktische Terminalsymbole des Englischen). ΣEnglisch = {a, aardvark, . . . , cat, . . . , woman, . . . , zymurgy} Definition 11.2.3. Eine Zeichenkette (formales Wort, string) von n Zeichen aus Σ ist eine endliche Folge der Länge n über Σ. Beispiel 11.2.4 (Zeichenketten über englischen Terminalsymbolen). a cat, a a a, zymurgy or zymology is the scientific study of fermentation, or or zymology the of, ... Leere Zeichenkette Definition 11.2.5. Die leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird mit (Epsilon) notiert und hat die Länge 0. Hinweis zur Notation Eine Zeichenkette wird typischerweise durch Nebeneinanderschreiben (Juxtaposition) der Zeichen von links nach rechts notiert, wenn die Symbole nur aus einzelnen Buchstaben bestehen. Sei Σ = {a, b}, dann sind etwa , a, bb oder ababbba Wörter über Σ. Wenn wir es in der Syntax mit Symbolen zu tun haben, welche aus mehreren Buchstaben bestehen, werden Leerzeichen zwischengeschaltet. Stern von Sigma Definition 11.2.6. Der Stern von Sigma ist die Menge aller Zeichenketten über einem Alphabet Σ. Der Stern wird als Postfix-Operator Σ∗ (sprich «Sigma Stern») notiert. Beispiel 11.2.7 (Formales Beispiel). Sei Σ = {a}, dann ist Σ∗ = {, a, aa, aaa, . . .}. 129 Beispiel 11.2.8 (Sternbildung über Englisch). Σ∗Englisch = {, Folge aus 0 Elementen a,aardvark,cat,woman,. . . Folgen aus 1 Element a cat, cat a, peter sleeps,. . . Folgen aus 2 Elementen a a a, a cat sleeps, woman a cat,. . . Folgen aus 3 Elementen ...} Folgen aus n Elementen Grundfrage der Theorie der formalen Sprachen Wie bestimmt man, ob eine Zeichenkette aus Σ∗ in einer Sprache ist oder nicht? Beispiel 11.2.9. Sei Σ = {a}, dann ist Σ∗ = {, a, aa, aaa, . . .}. Die Mengen L1 = {, a} oder L2 = {aa, aaaa, aaaaaa} sind formale Sprachen, da sie (echte) Teilmengen von Σ∗ sind. Σ∗Englisch = {, Folge aus 0 Elementen a,aardvark,cat,woman,. . . Folgen aus 1 Element a cat, cat a, peter sleeps,. . . Folgen aus 2 Elementen a a a, a cat sleeps, woman a cat,. . . Folgen aus 3 Elementen ...} Folgen aus n Elementen Formale Sprachen Definition 11.2.10. Eine formale Sprache L über Σ ist eine Teilmenge des Sterns von Sigma. L ⊆ Σ∗ Beispiel 11.2.11 (Abstrakt). Sei Σ = {a}. Die Mengen L1 = {, a} oder L2 = {aa, aaaa, aaaaaa} sind formale Sprachen, da sie (echte) Teilmengen von Σ∗ sind. Ist die leere Menge, notiert als {} oder ∅ eine Sprache? Ist sie dieselbe Sprache, wie die Sprache {}? Beispiel 11.2.12 (Englisch). Wie können wir die gewünschte Teilmenge LEnglisch ⊆ Σ∗Englisch formal spezifizieren? Mit Regelgrammatiken. 11.2.2 Konkatenation Konkatenation von Zeichenketten Definition 11.2.13. Die Konkatenation von Zeichenketten ist eine zweistellige Funktion, welche ihre Argumente in ihrer Reihenfolge zu einer Zeichenkette verkettet. Für alle u, v ∈ Σ∗ : • : Σ∗ × Σ∗ → Σ∗ , u • v = uv Beispiel 11.2.14 (Abstrakt: Zeichenketten verketten und aufteilen). Was gibt: ab • ba = abba oder abba • = abba Beispiel 11.2.15 (Englisch: Zeichenketten verketten und aufteilen). Was gibt: a • woman • sees a • cat = a woman sees a cat 130 Potenznotation der Konkatenation Eigenschaften der Konkatenation Die Konkatenation ist assoziativ und hat als neutrales Element. Für alle u, v, w ∈ Σ∗ : u • (v • w) = (u • v) • w, • u = u, u•=u Definition 11.2.16. Die n-fache Konkatenation einer Zeichenkette w mit sich selbst in der Potenznotation sei rekursiv definiert. Für n ≥ 1, n ∈ N: w0 = wn = w • wn−1 Beispiel 11.2.17 (Potenznotation der Verkettung). Die Zeichenkette aaabbcccc kann als a3 b2 c4 notiert werden. buffalo6 Beispiel 11.2.18 (Ein syntaktisch korrekter englischer Satz). “Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo.” Analyse • Buffalo als Herkunftsadjektiv • buffalo als Nomen (Büffel) • buffalo als Verb (einschüchtern) • Sinn: “Bison from Buffalo, New York who are intimidated by other bison in their community also happen to intimidate other bison in their community.” 11.3 Formale Grammatiken Kontextfreie Phrasenstruktur-Grammatiken Beispiel 11.3.1 (Kontextfreie Grammatik (CFG, context free grammar)). 131 • G1 = h{S, N P, V P, EN, V, D, N }, {Egon, P udel, den, sah}, R, Si S → N P V P, N P → EN, N P → D N, V P → V N P, EN → Egon, N → Pudel, • Regelmenge R = V → sah, D → den Definition 11.3.2 (Kontextfreie Grammatik). Eine Kontextfreie Grammatik G = hΦ, Σ, R, Si besteht aus: 1. Nichtterminalsymbolen Φ 2. Terminalsymbolen Σ 3. Regelmenge R ⊆ Φ × Γ∗ (mit Γ = Φ ∪ Σ) 4. Startsymbol S ∈ Φ Links vom Produktionspfeil hat es exakt 1 Nichtterminal. 11.3.1 Ableitung Beispiel-Evaluation Siehe Abb. 11.2 auf Seite 131. Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen Linksableitung und Konstruktion des Parsebaums Linksableitung und Konstruktion des Parsebaums Linksableitung und Konstruktion des Parsebaums Linksableitung informell Linksableitung informell Linksableitung informell Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ Grammatik Formale Sprachen S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel Einführung in die Computerlinguistik I Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. NP2 VP2 EN3 V5 Egon4 sah6 NP5 D7 N7 den8 Pudel9 HS 2009 Formale Grammatiken (Formale) Sprachen und Grammatiken Ableitung 27 / 37 Grammatik Formale Sprachen S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel Einführung in die Computerlinguistik I Grammatiktypen Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. NP2 VP2 EN3 V5 NP5 Egon4 sah6 D7 N7 den8 Pudel9 HS 2009 (Formale) Sprachen und Grammatiken Formale Grammatiken Ableitung 27 / 37 S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel NP2 VP2 EN3 Grammatik Formale Sprachen NP5 D7 N7 den8 Pudel9 Einführung in die Computerlinguistik I Grammatiktypen V5 Egon4 sah6 HS 2009 (Formale) Sprachen und Grammatiken Formale Grammatiken Ableitung Linksableitung und Konstruktion des Parsebaums Linksableitung und Konstruktion des Parsebaums Linksableitung informell Linksableitung informell Linksableitung informell Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ Grammatik Formale Sprachen S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel Einführung in die Computerlinguistik I Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. NP2 VP2 EN3 V5 Egon4 sah6 NP5 D7 N7 den8 Pudel9 HS 2009 Formale Grammatiken (Formale) Sprachen und Grammatiken Ableitung 27 / 37 Grammatiktypen Einführung in die Computerlinguistik I Grammatik Formale Sprachen Formale Grammatiken Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel NP2 VP2 EN3 V5 NP5 Egon4 sah6 D7 N7 den8 Pudel9 HS 2009 (Formale) Sprachen und Grammatiken Ableitung Grammatiktypen 27 / 37 Grammatik S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel NP2 VP2 EN3 Formale Grammatiken HS 2009 Grammatiktypen Linksableitung und Konstruktion des Parsebaums Linksableitung informell Linksableitung informell Linksableitung informell S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel Einführung in die Computerlinguistik I NP2 VP2 EN3 V5 Egon4 sah6 NP5 D7 N7 den8 Pudel9 HS 2009 (Formale) Sprachen und Grammatiken 27 / 37 S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel Einführung in die Computerlinguistik I NP2 VP2 EN3 V5 Egon4 sah6 NP5 D7 N7 den8 Pudel9 HS 2009 (Formale) Sprachen und Grammatiken 27 / 37 Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ S1 NP VP EN VP Egon VP Egon V NP Egon sah NP Egon sah D N Egon sah den N Egon sah den Pudel Einführung in die Computerlinguistik I NP2 VP2 EN3 V5 Egon4 sah6 NP5 D7 N7 den8 Pudel9 HS 2009 (Formale) Sprachen und Grammatiken Abbildung 11.2: Beispiel für Linksderivation und Parsebaumkonstruktion 132 D7 N7 (Formale) Sprachen und Grammatiken Ableitung Linksableitung und Konstruktion des Parsebaums Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. NP5 den8 Pudel9 Einführung in die Computerlinguistik I Formale Sprachen V5 Egon4 sah6 Linksableitung und Konstruktion des Parsebaums Bei einer Linksableitung wird immer das am weitest links stehende Nichtterminal-Symbol ersetzt durch den Rumpf einer entsprechenden Grammatikregel. S → NP VP erlaubt die Ersetzung von S durch NP VP. 27 / 37 Grammatiktypen Linksableitung und Konstruktion des Parsebaums 27 / 37 27 / 37 Formales Ableiten von Sätzen Definition 11.3.3 (Unmittelbare Ableitungsrelation). Die unmittelbare Ableitungsrelation ⇒ ⊆ Γ∗ × Γ∗ einer Grammatik ist die Menge aller Paare hu, vi mit u, v, w, z ∈ Γ∗ , für die gilt: • es gibt eine Regel der Form w → z • die Zeichenketten u und v können so in Teilzeichenketten aufgeteilt werden, dass gilt: u = u1 • w • u2 sowie v = u1 • z • u2 Definition 11.3.4 (Ableitung (derivation)). Eine Ableitung ist ein n-Tupel hw1 , . . . , wn i von Zeichenketten wi ∈ Γ∗ mit (1 ≤ i ≤ n) , so dass gilt: • wi−1 ⇒ wi für alle i ∈ {2 ..n} Normale Schreibweise für Ableitungen w1 ⇒ . . . ⇒ wn Beispiel: Ableitung mit kontextfreier Grammatik S1 NP2 VP2 EN3 V4 NP4 Egon9 sah5 D6 N6 den7 Pudel8 Ableitung S ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ NP VP EN VP EN V NP EN sah NP EN sah D N EN sah den N EN sah den Pudel Egon sah den Pudel u u1 wu2 S NP VP EN VP EN V NP EN sah NP EN sah D N EN sah den N EN sah den Pudel Regel w→z S → NP VP NP → EN VP → V NP V → sah NP → D N D → den N → Pudel EN → Egon v u1 zu2 NP VP EN VP EN V NP EN sah NP EN sah D N EN sah den N EN sah den Pudel Egon sah den Pudel Sätze und Sprachen ∗ Definition 11.3.5 (Ableitungsrelation (derivation relation)). Die Ableitungsrelation ⇒ ist die reflexiv-transitive Hülle von ⇒. Sie verbindet alle Folgen von Symbolen, welche unmittelbar oder mittelbar voneinander abgeleitet werden können. Definition 11.3.6 (Satz). Eine Zeichenkette aus Terminalsymbolen a ∈ Σ∗ ist ein Satz einer Grammatik G = hΦ, Σ, R, Si, gdw. er aus dem Startsymbol abgeleitet werden kann: ∗ S⇒a Definition 11.3.7 (Sprache einer Grammatik G). Die Sprache LG einer Grammatik G = hΦ, Σ, R, Si ist die Menge aller ihrer Sätze a ∈ Σ∗ . ∗ LG = { a | S ⇒ a } 133 11.3.2 Grammatiktypen Grammatik-Regeln, Sprachklassen und Automaten Die verschiedenen Grammatiktypen unterscheiden sich hinsichtlich der Bedingungen, die an die Regelmenge R gestellt werden. Es seien A, B ∈ Φ, w ∈ Σ∗ und α, β, γ ∈ (Φ ∪ Σ)∗ . Sprachklasse Regulär (Typ 3) Kontextfrei (Typ 2) Kontextsensitiv (Typ 1) Form der Grammatikregeln A→w A → wB oder A → Bw A→α (Typ 0) α→β αAγ → αβγ S→ Automatentyp Endlicher Automat Kellerautomat mit β 6= oder (dann darf S nicht auf einer rechten Seite einer Regel vorkommen) (mit α 6= und α 6∈ Σ∗ ) Linear beschränkter Automat (LBA) Turingmaschine Die Komplexität der Berechnungen für das Parsen steigt mit jedem Grammatiktyp an. Chomsky-Hierarchie [Hopcroft et al. 2002] Kontextsensitive Sprachen Kontextfreie Sprachen Reguläre Sprachen . Allgemeine Regelsprachen Abbildung 11.3: Teilmengenbeziehungen der Sprachklassen von Chomsky Sprachklasse regulär kontextfrei kontextsensitiv allgemein Typ 3 2 1 0 mit n ≥ 1 Echte Teilmengen Für alle Typ–i–Sprachen gilt: L3 ⊂ L2 ⊂ L1 ⊂ L0 . 134 Beispiel {an } {an bn } {an bn cn } Wo befinden sich natürliche Sprachen? [Hess 2005, 138ff.] Mindestens Typ 2: NPn VPn (central embedding) ----------------------------------------------| ---------------------------| | | -------| | | | | | | | The man whose wife whose child is angry is sad is surprised Mindestens Typ 1 nach [Shieber 1985, Kallmeyer 2005]: NPi NPj Vi Vj (cross serial construction) mer wänd -----------------| | -----------------| | | | | -------------------| | | | | | | | d’Chind am Hans s’Huus laa hälfe aaschtriiche Komplexität, Grammatikalität, Akzeptanz von Sprache Es darf daher getrost, was auch von allen, deren Sinne, weil sie unter Sternen, die, wie der Dichter sagt, zu dörren, statt zu leuchten, geschaffen sind, geboren sind, vertrocknet sind, behauptet wird, enthauptet werden, dass hier einem sozumaßen und im Sinne der Zeit, dieselbe im Negativen als Hydra betrachtet, hydratherapeutischen Moment ersten Ranges, immer angesichts dessen, dass, wie oben, keine mit Rosenfingern den springenden Punkt ihrer schlechthin unvoreingenommenen Hoffnung auf eine, sagen wir, schwansinnige oder wesenzielle Erweiterung des natürlichen Stoffeides zusamt mit der Freiheit des Individuums vor dem Gesetz ihrer Volksseele zu verraten den Mut, was sage ich, die Verruchtheit haben wird, einem Moment, wie ihm in Handel, Wandel, Kunst und Wissenschaft allüberall dieselbe Erscheinung, dieselbe Tendenz den Arm bietet, und welches bei allem, ja vielleicht eben trotz allem, als ein mehr oder minder undulationsfähiger Ausdruck einer ganz bestimmten und im weitesten Verfolge excösen Weltauffasseraumwortkindundkunstanschauung kaum mehr zu unterschlagen versucht werden zu wollen vermag - gegenübergestanden und beigewohnt werden zu dürfen gelten lassen zu müssen sein möchte. Christian Morgenstern, Vorrede zu Galgenliedern 11.4 Vertiefung • Formales Propädeutikum zu Mengen, Funktionen und Relationen im CLab: http://www. cl.uzh.ch/clab/formProp/ oder die entsprechenden Abschnitte im Carstensen. • Ein Web-Interface zu LFG-Grammatiken in verschiedenen Sprachen: http://decentius. aksis.uib.no/logon/xle.xml 135 12 Merkmalstrukturen Lernziele • Exaktes Verständnis von Merkmalstrukturen mit und ohne Koreferenz • Kenntnis über gegenseitige rekursive Definition von Mengen • Kenntnis über Graphen, Zyklen und Bäume • Kenntnis über Merkmal-Wert-Paare, Pfade und ihre Werte • Kenntnis über Subsumtion und Unifikation von Merkmalstrukturen • Fähigkeit formale und informelle Beschreibungen von Konzepten zu verstehen und aufeinander zu beziehen • Fähigkeit in XLE Grammatikregeln mit Merkmalstruktur-Annotation zu schreiben (Übungen) 12.1 Merkmalstrukturen 12.1.1 Motivation Merkmalsanalysen Wissenschaftshistorische Motivation Die Verwendung von (binären) Merkmalen in der modernen linguistischen Theorie geht zurück auf die Theorie der strukturalistischen Phonologie, wo die Analyse mit sogenannten «Distinktiven Merkmalen» zentral war. Beispiel 12.1.1 (Merkmalsanalyse in der Phonologie). Das Phonem /b/ = [+Verschlusslaut, +Bilabial, +Stimmhaft]. Beispiel 12.1.2 (Merkmalsanalyse in der Semantik nach Bierwisch). Die Verwandschaftsbezeichnung «Cousin» [+Mensch, +verwandt, –direkt verwandt, +gleiche Generation, +männlich, –weiblich ]. Beispiel 12.1.3 (Merkmalsanalyse in der Syntax nach Chomsky). Die Hauptwortarten Nomen, Verben, Adjektive und Präpositionen «A» [+Verbal,+Nominal] oder «P» [–Verbal,–Nominal]. Informationsorientierte Motivation Zur Bedeutung von Merkmalstrukturen Merkmalstrukturen beschreiben Mengen von Objekten, welche bestimmte Bedingungen (constraints) erfüllen. 136 Wortart Numerus Person verb singular 3 { x | wortart(x) = verb ∧ numerus(x) = singular ∧ person(x) = 3 } Unterspezifikation Je weniger Merkmal-Wert-Paare in einer Merkmalstruktur spezifiziert sind, • desto weniger Information ist vorhanden. • desto mehr Objekte können die Bedingungen erfüllen. Merkmalstrukturen in der Syntax Wie kann die mehrdeutige Information aus dem Lexikon und der Syntaxanalyse widerspruchsfrei vereinigt werden zur Informationsstruktur des Satzes? • Hans: [Form:’Hans’, Case:Nom, Pers:3, Num:Sg] oder [Form:’Hans’, Case:Acc, Pers:3, Num:Sg] oder [Form:’Hans’, Case:Dat, Pers:3, Num:Sg] • schwamm: [Form:’schwamm’, Tense:Past, Pers:1, Mood:Ind] oder [Form:’schwamm’, Tense:Past, Pers:3, Mood:Ind] Merkmalstruktur des Satzes Subj [Form:’Hans’, Case:Nom, Pers:3, Num:Sg] Pred [Form:’schwamm’, Tense:Past, Pers:3, Mood:Ind] Clause Decl Einfache Merkmalstrukturen Mengentheoretische Beschreibung Eine einfache, d.h. nicht-rekursive Merkmalstruktur ist eine Abbildung M : A → V von einer endlichen Menge von Attributen A auf Werte V . Beispiel 12.1.4 (Einfache linguistische Merkmalstrukturen). pers sg pl 1 2 3 Attribute Werte num " num pers # pl M = {hnum, pli, hpers, 1i} 1 Datenstrukturen in Programmiersprachen Dies entspricht Hashes (PERL), Dictionaries (PYTHON), Records (PASCAL), Listen von Merkmal-Wert-Paaren (PROLOG, LISP) oder Eigenschaften von Objekten (JAVA). 137 12.1.2 Rekursiv Beispiel: Gegenseitig rekursiv definierte Mengen Gerade Zahlen • 0 ist eine gerade Zahl. • Wenn x eine ungerade Zahl ist, dann ist der Nachfolger von x eine gerade Zahl. Ungerade Zahlen • Wenn x eine gerade Zahl ist, dann ist der Nachfolger von x eine ungerade Zahl. Sätze und NP Da Sätze Nominalphrasen enthalten und Nominalphrasen (Relativ)sätze enthalten können, müssen diese Kategorien auch gegenseitig rekursiv definiert werden. Merkmalstrukturen gegenseitig rekursiv definiert Definition 12.1.5 (Attribut-Wert-Struktur, attribute value matrix (AVM )). Die Menge der Merkmalstrukturen, welche sich aus einer Menge A von Merkmalen (Attributen) und V von atomaren Werten ergibt, lässt sich rekursiv angeben. Merkmalstrukturen • Die leere Menge ∅ ist eine Merkmalstruktur. – Diese “leere” Merkmalstruktur wird meist notiert als []. • Wenn M eine Merkmalstruktur, a ∈ A ein Merkmal sowie w ein Wert ist, dann ist M1 = M ∪ {ha, wi} eine Merkmalstruktur, – Vorausgesetzt: M enthält kein Paar ha, ui mit u 6= w. Werte • Alle atomaren Werte v ∈ V sind Werte. • Wenn M eine Merkmalstruktur ist, dann ist M auch ein Wert. Beispiel: Rekursive Konstruktion einer Merkmalstruktur M Sei V = {sg, pl, 1, 2, 3} und A = {AGR, N U M, P ER} Schritt als Menge 1 M1 = ∅ 2 3 in Matrix-Notation hi M1 = h M2 = PER M2 = M1 ∪ {hP ER, 3i} " # NUM M3 = PER M3 = M2 ∪ {hN U M, sgi} 4 i 3 M =AGR M = M1 ∪ {hAGR, M3 i} 138 sg 3 " NUM PER # sg 3 12.1.3 Als Graphen d c Gerichtete Graphen Definition 12.1.6 (directed graph, digraph). Ein gerichteter Graph G = hN, Ei besteht aus einer endlichen, nicht-leeren Menge N von Knoten (nodes) und einer Menge E von Kanten (edges): E ⊆ N × N . 10 b d b c d 5 5 b c 5 a a a G = h{a, b, c, d},{ha, bi, hb, ci, hb, di,hc, ai, hd, ai, hd, ci}i (B) (D) (C) Definition 12.1.7 (Verbindungen und Pfade). Ein Pfad ist eine endliche Folge von Knoten, welche paarweise durch Kanten verbunden sind. Z.B. hd, c, a, bi. Die Knoten n1 und n2 sind verbunden im Graphen G = hN, Ei, gdw. hn1 , n2 i ∈ E. n1 heisst Vorgänger von n2 . n2 heisst Nachfolger von n1 . Zyklen Definition 12.1.8 (Einfacher Pfad). Ein einfacher Pfad ist ein Pfad, der einen Knoten höchstens einmal enthält. Definition 12.1.9 (Zyklus). Ein Zyklus ist ein einfacher Pfad, an dessen Ende nochmals sein Anfangselement angefügt wird. Zyklen der Form hn, ni heissen auch Schlaufen (loop). Definitionsabhängig werden Schlaufen manchmal nicht als Zyklen aufgefasst. Definition 12.1.10 (Zyklenfrei). Ein Graph, der keine Zyklen enthält, heisst zyklenfrei. Bäume Definition 12.1.11 (Gerichteter Baum). Ein Baum ist ein zyklenfreier, gerichteter Graph mit den Eigenschaften: • Es gibt genau einen Knoten n, der selbst keinen Vorgänger hat. Dieser Knoten heisst Wurzel. • Jeder Knoten ausser der Wurzel hat genau einen Vorgänger. • Von der Wurzel aus existiert ein Pfad zu jedem andern Knoten. Definition 12.1.12 (Matrilineare Sprechweisen). Zwei Knoten sind Schwestern (Geschwister), wenn sie denselben Vorgänger (Mutter) haben. 139 Markierte gerichtete Bäume Definition 12.1.13 (markierter gerichteter Baum). Ein markierter gerichteter Baum ist ein gerichteter Baum T = hN, Ei. Er besitzt eine Markierungsfunktion für Kanten mE : E → A, welche jeder Kante eine Markierung aus A zuordnet. Sowie eine Markierungsfunktion für Knoten mN : N → B, welche jedem Knoten eine Markierung aus B zuordnet. Definition 12.1.14 (Blatt). Die Blätter eines Baumes sind alle seine Knoten ohne Nachfolger. Definition 12.1.15 (Innere Knoten). Die inneren Knoten eines Baumes sind alle Knoten mit mindestens einem Nachfolger. Merkmalstruktur als markierter gerichteter Baum Beispiel 12.1.16. T = hN, Ei N = {n1 , n2 , n3 , n4 } E = {hn1 , n2 i, hn2 , n3 i, hn2 , n4 i} mE = {hhn1 , n2 i, AGRi, hhn2 , n3 i, P ERSi, hhn2 , n4 i, N U M i} mN = {hn1 ,00 i, hn2 ,00 i, hn3 , 3i, hn4 , sgi} Abbildung 12.1: Merkmalstruktur als gerichteter Baum Abbildung 12.2: Kästchennotation Merkmalstrukturen und Bäume Definition 12.1.17 (Baum einer koreferenzfreien Merkmalstruktur). Ein markierter gerichteter Baum T stellt eine Merkmalstruktur M dar, gdw. er folgende Eigenschaften erfüllt: • Alle atomaren Werte und leeren Merkmalstrukturen von M sind die Blätter von T . • Die komplexen Werte in M sind die inneren Knoten von T . • Alle atomaren Werte bekommen in T als Knoten-Markierung ihren atomaren Wert. • Ein Merkmalwertpaar ha1 , W1 i mit ha2 , W2 i ∈ W1 ergibt jeweils eine Kante von W1 nach W2 mit der Kanten-Markierung a2 . 140 12.2 Pfade und Werte Pfade in Merkmalstrukturen Definition 12.2.1 (Merkmal-Pfad). Ein Pfad in einer Merkmalstruktur ist eine endliche Folge von Merkmalen, die in der Merkmalstruktur unmittelbar ineinander verschachtelt sind. Beispiel 12.2.2 (Merkmalstruktur und alle nicht-leeren Pfade). " SUBJ AGR NUM PER # sg 3 hSU BJi hAGRi hN U M i hSU BJ, AGRi hAGR, N U M i hAGR, P ERi hSU BJ, AGR, N U M i hSU BJ, AGR, P ERi Definition 12.2.3 (Vollständiger Pfad). Ein vollständiger Pfad einer Merkmalstruktur ist ein Merkmal-Pfad, der beim Wurzelknoten beginnt und bei einem atomaren Wert oder der leeren Merkmalstruktur endet. Pfade und ihre Werte in Merkmalstrukturen Definition 12.2.4 (Wert eines Pfades). Der Wert eines Pfades ist der Wert, der am Ende des Pfades beginnt. val(P, M ) = M f alls P = hi val(ha2 , . . . , an i, W ) f alls ha1 , W i ∈ M ∧ P = ha1 , . . . , an i undef iniert sonst Beispiel 12.2.5 (Werte von Pfaden). " M =SUBJ AGR NUM PER val(hSU BJ, AGR, N U M i,"M ) = sg # NUM sg val(hSU BJ, AGRi, M ) = PER 3 Evaluation der Pfadfunktion " val(hSU BJ, AGR, N U M i, SUBJ AGR " = val(hAGR, N U M i, AGR " NUM = val(hN U M i, PER NUM PER NUM PER # sg ) 3 # sg ) 3 = val(hi, sg) = sg 141 # sg ) 3 # sg 3 12.2.1 Koreferenz Koreferenz Idee Koreferenz (structure sharing, reentrancy) in Merkmalstrukturen erzwingt die Identität von Werten bzw. von Teil-Merkmalstrukturen. Beispiel 12.2.6 (Kongruenz von Subjekt und finitem Verb). Im Satz «Sie betrachten es.» sind die Wortformen «Sie» und «betrachten» für sich genommen morphosyntaktisch ambig. Wir wissen: Welche Werte auch immer das finite Verb in Numerus und Person hat, das Subjekt muss dieselben haben. Verwendung Überall, wo es um den Abgleich von variabler linguistischer Information geht, ist Koreferenz das Mittel der Wahl. So etwas wie Anti-Koreferenz braucht es fast nie. . . Graph vs. Matrix [Müller 1994, 136] Abbildung 12.3: Koreferente Merkmalstruktur als Matritze Abbildung 12.4: Koreferente Merkmalstruktur als gerichteter Graph Koreferenz in XLE-Merkmalstrukturen Die Koindizierung wird in XLE über die Identifikationsnummer von Teilmerkmalstrukturen (3) und einer Pfadangabe (AGR) dargestellt. 142 Abbildung 12.5: Koreferente Merkmalstruktur als gerichteter Graph Koreferente Graphen formal betrachtet Definition 12.2.7 (Merkmalstrukturen mit Koreferenz). Als Graph ist eine Merkmalstruktur mit Koreferenzen ein markierter gerichteter Baum, bei dem eine Bedingung aufgehoben ist: • Ein Knoten kann mehr als einen Vorgänger haben. Koreferenz in Matrix-Notation Bei der Matrix-Notation muss man genau bei einem Wert einen Index setzen und kann die koreferenten Werte dann damit koindizieren. Koreferenz in Mengen-Darstellung Koreferenz ist Gleichheitsrelation zwischen bestimmten Werten von Pfaden eine Merkmalstruktur M . Beispiel 12.2.8 (Koreferenz von 2 Merkmal-Pfaden). val(hSU BJ, AGRi, M ) = val(hP RED, AGRi, M ) 12.3 Unifikation 12.3.1 Motivation Wozu Unifikation von Merkmalstrukturen? Informationen aus Merkmalstrukturen vereinigen Unifikation (t “unifiziert mit”) vereinigt die Bedingungen aus 2 Merkmalstrukturen in einer einzigen. Beispiel 12.3.1 (Widerspruchsfreie Unifikation). # " # CAS nom CAS nom GEN fem NUM sg t = NUM sg NUM sg GEN fem " Beispiel 12.3.2 (Unifikation von widersprüchlicher Information). # " # CAS nom GEN fem t = ⊥ NUM pl NUM sg ⊥ steht für die “künstliche” Merkmalstruktur, welche bei widerspruchshaltiger Unifikation entsteht, d.h. wenn keine widerspruchsfreie Unifikation möglich ist. " 143 12.3.2 Subsumtion Subsumtion zwischen Merkmalstrukturen Subsumtion informell: Enthält verträgliche Information " # CAS nom CAS nom NUM sg M1 = subsumiert M2 = NUM sg GEN fem M1 subsumiert M2 , falls M2 alle Merkmalwertpaare von M1 enthält. M2 kann mehr Information enthalten. M1 ist somit allgemeiner. Definition 12.3.3 (Subsumtion). Eine Merkmalstruktur M1 subsumiert eine Merkmalstruktur M2 , kurz M1 v M2 , falls gilt: • Jeder vollständige Pfad von M1 ist auch ein vollständiger Pfad von M2 und hat denselben Wert. • Jedes Paar von koreferenten Pfaden von M1 ist auch ein koreferentes Paar von M2 . Entscheidungshilfe für Subsumtion " # NUM PER sg 3 PER sg 3 AGR M1: " NUM SUBJ # CAT M2:AGR SUBJ NP " 1 NUM PER # sg 3 1 Überprüfe, ob gilt: M1 subsumiert M2 : 1. Gebe alle vollständigen Pfade von M1 und M2 an. 2. Falls M1 einen vollständigen Pfad enthält, der nicht in M2 ist: Nein! 3. Falls irgendein vollständiger Pfad von M1 und M2 einen unterschiedlichen Wert hat: Nein! 4. Gebe alle Paare von koreferenten Pfaden an in M1 und M2 . 5. Falls M1 ein Paar enthält, das nicht in M2 ist: Nein! 6. Sonst: Ja! Subsumtionsrelation Die Subsumtion ist eine binäre Ordnungsrelation über der Menge der Merkmalstrukturen. D.h. • Reflexivität: Jede Merkmalstruktur subsumiert sich selbst. • Transitivität: Wenn M1 v M2 und M2 v M3 , dann M1 v M3 . • Antisymmetrie: Wenn M1 v M2 und M2 v M1 , dann gilt M1 = M2 144 12.3.3 Unifikation Unifikation von Merkmalstrukturen Definition 12.3.4 (Graphunifikation). Die Merkmalstruktur M heisst Unifikation von M1 und M2 , kurz M1 t M2 = M , gdw. gilt: • M1 subsumiert M • M2 subsumiert M • M subsumiert alle Merkmalstrukturen Mi , die von M1 und M2 subsumiert werden. Sinn der letzten Klausel Der Unifikator von zwei Merkmalstrukturen M1 und M2 soll immer die allgemeinste Merkmalstruktur sein, welche noch subsumiert wird. Eigenschaften • Die leere Merkmalstruktur (manchmal mit > geschrieben) kann mit beliebigen Merkmalstrukturen unifiziert werden: [] t Mi = Mi • Die Unifikation ergibt nicht für alle Paare von Merkmalstrukturen eine informative Merkmalstruktur. Sie scheitert, bzw. ergibt die inkonsistente Merkmalstruktur ⊥, welche von allen Merkmalstrukturen subsumiert wird: ⊥ t Mi = ⊥ • > bezeichnet irgend ein Objekt, ⊥ bezeichnet nichts. 145 13 Unifikationsgrammatiken Lernziele • Kenntnis über Probleme von rein kontextfreien Grammatiken für Grammatikentwicklung • Kenntnis über die Merkmalspezifikation in PATR-II und XLE • Kenntnis über unterschiedliche Anforderungen an merkmalstrukturelle Repräsentationen in verschiedenen Unifikationsgrammatiken • Kenntnis über Phänomene der Kongruenz, Rektion, Valenz • Kenntnis über das Kopfprinzip und Behandlung von syntaktischen Funktionen 13.1 Motivation Kontextfreie Grammatiken für natürliche Sprachen Die rohe Verwendung kontextfreier Grammatiken erzeugt für Sprachen mit ausgebauter Morphologie ein Unmenge Regeln. Beispiel 13.1.1 (Übereinstimmung von Kasus, Genus und Numerus in NP). Für morpho-syntaktisch korrekte Phrasen muss etwa statt N P → DET N eine Vielzahl spezifischerer Regeln verwendet werden. NpMascSgNom NpMascSgAcc NpMascPlNom NpFemSgNom .. . → → → → → DetMascSgNom DetMascSgAcc DetMascPlNom DetFemSgNom .. . NMascSgNom NMascSgAcc NMascPlNom NFemSgNom .. . Wieviele sind es für Deutsch? Probleme kontextfreier Grammatikentwicklung • Generalisierungen wie «Artikel und Kernnomen haben innerhalb einer NP immer dasselbe Genus und denselben Kasus und Numerus» lassen sich nicht explizit formulieren. • Die Regelvervielfältigung verdunkelt Generalisierungen der Konstituenz. Das Symbol «NpFemSgNom» hat nur mnemotechnisch etwas mit «NpMascSgNom» zu tun – strukturell gibt es keinen Bezug. • Ausweg: Trennung von grundlegenden Regeln von den morphosyntaktischen Merkmalen 146 Probabilistische kontextfreie Grammatiken Relevant ist dies mehr für linguistisch orientierte Grammatikentwicklung – syntaktische Analyse ist möglich mit kontextfreien Grammatiken, welche oft Zehntausende von Regeln enthalten. Dies ist bei probabilistischen Parsern durchaus üblich. Probleme kontextfreier Grammatikentwicklung Kontextfreie Grammatikregeln kodieren Konstituenz und Präzedenz (Reihenfolge der Teilkonstituenten) immer gleichzeitig. Sprachen mit freierer Wortstellung bzw. Satzgliedstellung wie etwa im Deutschen müssen damit umständlich beschrieben werden. ID/LP-Regeln Einige Grammatikformalismen erlauben die separate Angabe von unmittelbarer Dominanz (ID, immediate dominance) und Präzedenz (LP, linear precedence). LP-Regeln gelten typischerweise global für eine Grammatik. Beispiel 13.1.2 (ID/LP-Regeln in XLE). Eine NP enthält einen Artikel D und ein Nomen N. Der Artikel muss dem Nomen vorangehen. NP --> [D , N] & D < N. Kontextfreies Gerüst in XLE PSG ENGLISH RULES (1.0) S --> NP VP . NP --> { D N | PN } . VP --> V (NP). PSG ENGLISH LEXICON (1.0) bark V * . barks V * . like likes V * . V * . the two D * . D * . he him PN * . PN * . dog dogs N * . N * . Wie viele Sätze kann man mit dieser Grammatik ableiten? 147 13.2 Unifikationsgrammatik Unifikationsgrammatik Definition 13.2.1 (Unifikationsgrammatik nach [Bussmann 2002]). Unifikationsgrammatik (unification grammar) ist ein „Grammatikmodell, das auf einer Weiterentwicklung des linguistischen Merkmals basiert. Jede linguistische Einheit (Wort oder Phrase) ist durch eine Merkmalstruktur gekennzeichnet.“ Verhältnis Phrasenstruktur vs. Merkmalstruktur • Merkmalstrukturen verhindern (unzulässige) Phrasenstrukturen (PATR II) • Merkmalstruktur und Phrasenstruktur sind gleichberechtigte Repräsentationsebenen (XLE, LFG) • Merkmalstrukturen sind primär: Konstituenz wird über Merkmalwertpaare ausgedrückt (Daughters-Merkmal) (HPSG) 13.2.1 Formalismen PATR-II [Shieber 1992] Definition 13.2.2 (PArsing and TRanslation). Der PATR-II-Formalismus ist ein GrammatikFormalismus mit hoher Theorieneutralität (Werkzeugformalismus). Komponenten von PATR-II • Kontextfreie Grammatikregeln für Syntax und Lexikon X0 → X1 . . . Xn • Mit Merkmalstrukturen annotierte Nicht-Terminalsymbole • Gleichungen (constraints) für atomare Werte von Merkmalpfaden hXi P f adi = W ert • Gleichungen (constraints) für Pfade (Koreferenz) hXi P f adi i = hXj P f adj i Regeln in PATR-II Notation Lexikonregel (partiell) X → takes hX CAT i = V hX N U M i = SG hX P ERSi = 3 hX T EN SEi = P RES X CAT NUM PERS V SG 3 TENSE PRES takes 148 Syntaxregel mit Numerus X0 → X1 X2 hX0 CAT i = N P hX1 CAT i = D hX2 CAT i = N hX0 N U M i = hX1 N U M i hX0 N U M i = hX2 N U M i X0 CAT NP NUM X1 1 W ggggg WWWWWWWWW ggggg CAT NUM X2 D 1 CAT NUM N 1 XLE-Formalismus Der XLE-Formalismus unterstützt die Grammatikmodellierung in der Tradition der LFG (Theorieformalismus). LFG enthält 2 verschiedene Repräsentationsebenen: • C-Struktur (Konstituentenstruktur): phrasenstrukturbasiert • F-Struktur (Funktionale Struktur): merkmalstrukturbasiert Relativ theorieunabhängige Komponenten von XLE • Erweiterte kontextfreie Syntaxregeln mit Merkmalsgleichungen (Schemata) für die FStruktur an den Tochterknoten: C0 --> C1 :F1 ; ... Cn :Fn ;. • Lexikoneinträge für Wörter W mit Merkmalsgleichungen: W C * F. Etwas gewöhnungbedürftige Notation für Referenz auf Merkmalstrukturen von Mutterknoten (LFG:↑; XLE:^) und Tochterknoten (LFG:↓; XLE:!). Regeln in XLE-Notation Lexikonregel (partiell) takes V * (^NUM)=SG (^PERS)=3 (^TENSE)=PRES. V NUM SG PERS 3 TENSE PRES takes Syntaxregel mit Numerus 149 NP --> D: (^NUM)=(!NUM); N: (^NUM)=(!NUM); . NP h h NUM 1 i W ggggg WWWWWWWWW ggggg i h D NUM 1 N NUM 1 i 13.2.2 Kongruenz Übereinstimmung von Merkmalen Definition 13.2.3 (Kongruenz, engl. Agreement). Kongruenz: Übereinstimmung zwischen zwei oder mehreren Satzelementen hinsichtlich ihrer morpho-syntaktischen Kategorien (Kasus, Person, Numerus, Genus). [Bussmann 2002] Kongruenz in Grammatikformalismen Kongruenz lässt sich in Unifikationsgrammatiken durch Pfadgleichungen ausdrücken. Phänomene der Numerus-Kongruenz im Englischen Kongruenzen in Numerus • Nomen und dem Begleiter: NP → D N a dog/*dogs • Subjekt und dem finiten Verb: S → NP VP He likes/*like dogs • Finitem Verb und Reflexivpronomen: VP → V NP He likes himself/*themselves • zwischen Gleichsetzungsnominativen (predicate nominal) He is a doctor/*doctors Frage Wie lauten die Merkmalsgleichungen in den Grammatikregeln? Kongruenz II Kongruenzphänomene mit weiteren Kategorien • Person – zwischen finitem Verb und Subjekt He likes/*like soccer. • Kasus – zwischen koordinierten Nominalphrasen The kids hate him and her/*she most. • Genus – zwischen Possessivpronomen und seinem Bezugsnomen Shei likes heri /*hisi programming style. 150 13.2.3 Rektion Rektion bzw. Valenz Definition 13.2.4 (Rektion, government). Rektion: Lexemspezifische Eigenschaft von Verben, Adjektiven, Präpositionen oder Substantiven, die die morphologische Kategorie (insbesondere den Kasus) abhängiger Elemente bestimmt. Rektion kann unter Valenz subsumiert werden, insofern Valenzträger die morphologische Form der von ihnen ’regierten’ (abhängigen) Elemente bestimmen (’regieren’). [Bussmann 2002] Definition 13.2.5 (Valenz, Subkategorisierung). Valenz ist die Fähigkeit eines Lexems, seine syntaktische Umgebung vorzustrukturieren, in dem es anderen Konstituenten im Satz Bedingungen bezüglich ihrer grammatischen Eigenschaften auferlegt. [Bussmann 2002] Verben gleicher Valenz werden oft in Subkategorien aufgeteilt. Frage Wie lässt sich Rektion in Unifikationsgrammatiken ausdrücken? Rektion/Valenz wird durch Merkmalspezifikation ausgedrückt. Rektion und Valenz • Finite Vollverben fordern Subjekt im Nominativ: S → NP VP • Vollverben fordern je nach Subkategorie Objekte: VP → V NP The dog likes/*barks him Wir gedenken seiner/*ihn Lexikalisierung Viel Rektions-Information stammt aus den Lexikoneinträgen. "like ist eine finite Verbform und transitiv" likes V * (^SUBCAT)=TRANS (^VFORM)=FIN Aus Gründen der Übersichtlichkeit sind nicht alle morphosyntaktischen Merkmale aufgeführt. Minigrammatik in XLE mit minimalen Merkmalen PSG ENGLISH RULES (1.0) S --> NP: (!CASE)=NOM (^V NUM)=(!NUM); VP: (^V NUM)=(!NUM). NP --> { D: (^NUM)=(!NUM); N: (^NUM)=(!NUM); | PN: (^NUM)=(!NUM) (^CASE)=(!CASE); } . VP --> V: (^NUM)=(!NUM) (^V SUBCAT)=(!SUBCAT); 151 { NP: (!CASE)=ACC (^V SUBCAT)=TRANS; "e = epsilon" | e: (^V SUBCAT)=INTRANS } . PSG ENGLISH LEXICON (1.0) bark V * (^SUBCAT)=INTRANS (^NUM)=PL. barks V * (^SUBCAT)=INTRANS (^NUM)=SG. like likes V * (^SUBCAT)=TRANS (^NUM)=PL. V * (^SUBCAT)=TRANS (^NUM)=SG. the two D * . "Unterspezifikation" D * (^NUM)=PL. he him PN * (^CASE)=NOM (^NUM)=SG. PN * (^CASE)=ACC (^NUM)=SG. dog dogs N * N * (^NUM)=SG. (^NUM)=PL. Diskussion der Umsetzung in XLE Aufgrund der Phrasenstruktur zulässige, aber inkorrekte Sätze werden ausgefiltert. Probleme • Prinzip der Unifikationsgrammatik: Jede linguistische Einheit ist durch eine Merkmalstruktur gekennzeichnet. • Es entstehen viele lokale Teilstrukturen auf der F-Struktur-Ebene. • Es gibt keine „gleichwertige“ Repräsentation des Satzes auf der F-Struktur-Ebene. Ziel einer vollständigen F-Struktur-Repräsentation • Jede Konstituente integriert die relevante Information ihrer Tochterkonstituenten. 13.2.4 Syntaktische Funktionen Köpfe und ihre Projektionen Kopfprinzip 152 • Jede Konstituente hat genau eine Tochterkonstituente, welche ihr Kopf ist. • Die Konstituente ist die Projektion ihres Kopfes. • Im X-Bar-Schema ausgedrückt: Xi → . . . Xi−1 . . . NP → (D) N (PP) VP → V (NP) PP → P NP • Alle Merkmale des Kopfes sind auch die Merkmale seiner Projektion. • Konsequenz: Die Merkmalstruktur eines Kopfes und seiner Projektion werden unifiziert! • Hinweis: Das Defaultschema in XLE (^=!) leistet genau dies! Nicht-Köpfe Funktionalisierung von Nicht-Köpfen Tochterkonstituenten, welche nicht Köpfe ihrer Mutter sind, werden in ihrer Funktion bezüglich dem Kopf bestimmt und als Unterstruktur integriert. Typische Funktionen • Komplemente: Subjekt (SUBJ), Objekt (OBJ) (typischerweise regiert vom Kopf) • Komplemente: Infinite Verbal-Komplemente (XCOMP) • Adjunkte (ADJUNCT): Modifikatoren (typischerweise frei hinzufügbar) • Spezifikator (SPEC): Artikel von Nomen Demo von syntaktischen Funktionen in LFG: http://decentius.aksis.uib.no/logon/xle. xml Die Frage, was ist der Kopf, ist nicht immer einfach zu beantworten. Beispiele? Minigrammatik in XLE mit minimalen Merkmalen PSG ENGLISH RULES (1.0) S --> NP: (^SUBJECT)=! (!CASE)=NOM ; VP: ^=! (^SUBJECT NUM)=(!NUM). NP --> { D: (^SPEC)=! ; N: ^=! (^SPEC NUM)=(!NUM) ; | PN: ^=! ; } . VP --> V: ^=! ; { NP: (^OBJECT)=! (!CASE)=ACC | e: (^SUBCAT)=INTRANS } . (^SUBCAT)=TRANS; Die Köpfe sind erkennbar an ^=!. Die Nicht-Köpfe an (^FUN)=!. 153 Mengenwertige Merkmale XLE (und andere Unifikationsgrammatiken) erlauben oft zusätzliche Mechanismen und Strukturen, welche über reine Unifikation hinausgehen. Beispiel 13.2.6 (F-Struktur von wiederholten Kategorien). Wie kann man die Struktur von iterierten Kategorien auf der F-Struktur repräsentieren? NP --> D ADJ*: ! $ (^ADJUNCT)}; N . Der Operator F1 $ F2 (LFG: F1 ∈ F2 ) besagt: Die F-Struktur F1 ist Element in der mengenwertigen F-Struktur F2. 13.3 Vertiefung • Kapitel 3.4.1 in [Carstensen et al. 2004] • Der probabilistische kontextfreie Parser Bitpar von H. Schmid http://www.ims.uni-stuttgart. de/tcl/SOFTWARE/BitPar.html • Das HPSG-System Babel von Stefan Müller für Deutsch http://hpsg.fu-berlin.de/ ~stefan/Babel/Interaktiv/ 154 14 Syntax des Hilfsverbkomplexes Lernziele • Kenntnis über unterschiedliche Modellierung des Verbalkomplexes mit Hilfsverben im Englischen • Kenntnis über das Konzept der Mehrköpfigkeit: Funktionale und lexikalische Köpfe • Kenntnis über weitere Strukturebenen in XLE 14.1 Verbalkomplex Hilfsverben und Modalverben [Matthews 1998] Beispiel 14.1.1 (Hilfsverbkomplex im Englischen). • takes • has taken He • is taking the wrong route. • could have taken • has been taking • may have been taking • Mit Hilfsverben (be, have), Modalverben(can, may) und dem Vollverb ergeben sich viele Kombinationen. • Welche Präzedenzregeln gelten für die Verbarten? Modal < Haben < Sein < Vollverb • Welche Regeln gelten für die Verbalformen: Grundform, Finite Form, Partizip Präsens (-ing), Partizip Perfekt (-en) Affix-Hopping nach [Chomsky 1957] Transformationsgrammatischer Ansatz: Ein Affix wird an das unmittelbar nachfolgende Element geklebt. 155 S → NP AUX VP AUX → TENSE (MODAL) (PERF) (PROG) S VP NP AUX he V TENSE MODAL PERF PROG PAST+ed can have+en be+ing could have been sleep 14.1.1 AUX rekursiv Rekursiver Hilfsverbkomplex nach [Matthews 1998] Grund-Idee Hilfsverben haben VP als Komplement: VP → AUX VP VP → V Warum VP als Komplement von AUX? Jedes Hilfsverb regiert die Verbalform seiner Schwester-VP. S NP he VP AUX could Rektion von Hilfsverben VP AUX have Rektion: Wer fordert was? • Modalverben: Grundformen (base) VP AUX VP been V sleeping • Hilfsverb „have“: Partizip Perfekt (part) • Hilfsverb „be“: Progressivform (prog) Lexikalischer Ansatz Die Forderungen an die Verbform (vf) stehen im Lexikon. S NP he VP AUX could VPvf :base AUX have VPvf :part AUX 156 been VPvf :prog V sleeping sleeping Rektionsforderungen im Lexikon (XLE) Templates BASE FIN PART PROG = = = = (^VFORM)=base. (^VFORM)=fin. (^VFORM)=part. (^VFORM)=prog. "Grundform" "Finites Verb" "Partizip Perfekt" "Progressivform" SG3 VSG3 = (^NUM)=sg (^PER)=3. = @FIN @SG3 (^TNS)=pres. STEM(S) = (^STEM)=S. INTRANS(S) = (^SUBCAT)=intrans @(STEM S). TRANS(S) = (^SUBCAT)=trans @(STEM S). Lexikoneinträge "Intransitive Vollverb sleeping ist in Progressivform" sleeping V * @(INTRANS sleep) @PROG . "Intransitives Vollverb sleep ist in Grundform" sleep V * @(INTRANS sleep) @BASE. "Hilfsverb haben ist selbst in der Grundform und regiert ein Partizip Perfekt" have AUX * @(STEM have) @BASE (^GOV)=part . could AUX * @(STEM can) @FIN (^GOV)=base . been AUX * @(STEM be) @PART (^GOV)=prog . is AUX * @(STEM be) @VSG3 (^GOV)=prog . he we PN * (^CASE)=nom @SG3. PN * (^CASE)=nom (^NUM)=pl (^PER)=1. Minigrammatik S --> NP: @SB ; VP: @HD (!VFORM)=fin. VP --> { V: @HD; | AUX: @HD; VP: @OC;}. NP --> PN: @HD. Templates 157 HD = ^=! . "Kopf" SB = (^SB)=! (!CASE)=nom "Subjekt ist Komplement und im Nominativ" (^NUM)=(!NUM) (^PER)=(!PER). "und kongruiert in Numerus und Person" OC = (^OC)=! (^GOV)=(!VFORM). "Verbalobjekt der korrekten Form" Wie sieht die Merkmalstruktur für „he could be sleeping“ aus? Diskussion • Einheitlichkeit: Nicht-Vollverben werden einheitlich behandelt • Redundanz: Verschachtelung der Merkmalstruktur entspricht der Konstituentenstruktur • Funktionalität: Hilfsverben drücken oft einfache Merkmale aus: Perfektiv, Progressiv, Modalität(?) Kopfprinzip: Wie endozentrisch ist VP? • AUX ist Kopf von VP, nicht V. Das Kopfprinzip wird hier verdunkelt durch Benennung. • Alternative: Mehrköpfigkeit (co-heads): Funktionale vs. lexikalische Köpfe. • AUX als funktionaler Kopf, V als lexikalischer Kopf. • Alternativ: GPSG-Ansatz [Gazdar et al. 1985]: Hilfsverben werden als V analysiert: VP → V VP 14.1.2 IP/VP IP/VP-Analyse nach [Falk 2003] Grund-Idee Ein flektiertes finite Hilfsverb wird als übliche I-Kategorie (inflection) eingeführt. IP → NP I’ I’ → (I) VP VP → V VP | V Problem Alle nicht-finiten Hilfsverben müssen auch als V aufgeführt werden. Vorteil Das flektierte Hilfsverb hat Sonderstatus (z.B. für Satz-Negation: „He did not sleep.“) IP NP he I’ I could VP V IP have NP he VP V I’ been V sleeps 158 VP V sleeping 14.1.3 m-Ebene Flache F-Struktur nach [Butt et al. 1999] Motivation: Sprachübergreifende F-Strukturen F-Struktur sollte von einzelsprachlichen Eigenheiten abstrahieren: • He [will have] slept. • Il [aura] dormi. Diese Sätze sollen Merkmale [Tense: Fut] und [Perf: +] enthalten. Das Hauptverb auf der obersten Ebene erscheinen (flache F-Struktur). Grundidee: co-heads Hilfsverben sind nur funktionale Köpfe. Vollverb ist der lexikalische Kopf. Naive Idee Verbalobjekt (OC) wird als Kopf behandelt. S --> NP: @SB ; VP: @HD (!VFORM)=fin. VP --> { V: @HD; | AUX: @HD; VP: @OC;}. NP --> PN: @HD. Templates HD = ^=! . "Kopf" SB = (^SB)=! (!CASE)=nom "Subjekt ist Komplement und im Nominativ" (^NUM)=(!NUM) (^PER)=(!PER) . "und in derselben Person" OC = @HD (^GOV)=(!VFORM). "Verbalobjekt der korrekten Form" Was passiert? Merkmalskollision auf der F-Struktur! Morphosyntaktische-Ebene in XLE Der Abgleich der korrekten Verbformen wird auf einer zusätzlichen Merkmalstruktur-Ebene gemacht. Technisches zu Schemata • ! bedeutet eigentlich: f::* (Die F-Struktur von mir *.) • ^ bedeutet eigentlich: f::M* (Die F-Struktur der Mutter M von mir *). Morphosyntaktische Ebene: m-Struktur • Die m-Struktur von mir: m::* • Die m-Struktur meiner Mutter: f::M* 159 Rektionsforderungen im Lexikon (XLE) Veränderte Templates und Lexikoneinträge BASE FIN PART PROG = = = = (m::M* (m::M* (m::M* (m::M* VFORM)= VFORM)= VFORM)= VFORM)= base. "Grundform" fin. "Finites Verb" part (^PERF)=+. "Partizip Perfekt" prog (^PROG)=+. "Progressivform" "Intransitive Vollverb sleeping ist in Progressivform" sleeping V * @(INTRANS sleep) @PROG . "Intransitives Vollverb sleep ist in Grundform" sleep V * @(INTRANS sleep) @BASE. "Hilfsverb haben have AUX * could AUX * been AUX * is AUX * has AUX * ist selbst in @BASE (m::M* @FIN (m::M* @PART (m::M* @VSG3 (m::M* @VSG3 (m::M* der GOV GOV GOV GOV GOV Grundform und regiert ein Partizip Perfekt" VFORM)=part . VFORM)=base . VFORM)=prog . VFORM)=prog . VFORM)=part . Minigrammatik S --> NP: @SB @mHD; VP: @HD @mHD (m::* VFORM)=fin. VP --> { V: @HD @mHD; | AUX: @HD @mHD; VP: @HD (m::M* GOV)=m::* ;}. NP --> PN: @HD @mHD. Templates HD = ^=! . mHD= m::M*=m::*. SB = (^SB)=! (!CASE)=nom (^NUM)=(!NUM) (^PER)=(!PER) . "Kopf" "morphologischer Kopf" "Subjekt ist Komplement und im Nominativ" "und in derselben Person" Wie sieht die Merkmalstruktur für „he has been sleeping“ aus? Diskussion • Was gehört in die F-Struktur? Was gehört auf die M-Struktur? Schwierige Frage! • XLE erlaubt beliebige weitere Ebenen • Z.B. Optimalitätsangaben auf der O-Struktur. • Z.B. Semantik auf der S-Struktur 160 • Welche Funktion hat die F-Struktur? • Z.B. als Ausgangspunkt für Transfer-Regeln zur Übersetzung 161 15 Maschinelle Übersetzung Reloaded Lernziele • Kenntnis über die wichtigen Ansätze zur maschinellen Übersetzung: Direkte Übersetzung, Transfer-Übersetzung, Interlingua-Übersetzung 15.1 Ansätze Oettingers “Automatic Russian-English Dictionary” Beispiel 15.1.1 (Russisch zu Englisch). Humanübersetzung: In recent times Boolean algebra has been successfully employed in the analysis of relay networks of the series-parallel type. “Rohübersetzung”: (In,At,Into,To,For,On) (last,latter,new,latest,worst) (time,tense) for analysis and synthesis relay-contact electrical (circuit, diagram, scheme) parallel-(series, successive, consecutive, consistent) (connection, junction, combination) (with, from) (success, luck) (to be utilize, to be take advantage of) apparatus Boolean algebra. [Locke und Booth 1955, 55] Wort-für-Wort-Übersetzung Der einfachste Ansatz zur MÜ basiert auf einem bilingualen Lexikon und einfachsten Modifikationen auf der Wortebene. Vorgehen • Im Prinzip wortweises Übersetzen der erkannten Lexikoneinträge • Anpassungen der Wortfolge in der Rohübersetzung – Austauschen von 2 benachbarten Wörtern – Weglassen eines Worts (z.B. keine Artikel im Russischen) – Einfügen eines Worts Frage Was muss man dafür eigentlich können? 162 Probleme solcher lexikalischer Übersetzung • Lemma-basierte Übersetzung: Mit der Reduktion auf Lemmata geht wesentliche Information über die syntaktischen Abhängigkeiten verloren. • Wortfolge: Sprachen unterscheiden sich oft so stark, dass lokales Umstellen von Wörtern nicht genügt. (z.B. SVO vs. SOV) • Lexikalische Mehrdeutigkeit: Die meisten Wörter in den meisten Sprachen sind mehrdeutig (ambig)! Wie findet man die intendierte Bedeutung? Dies erfordert sog. “word sense disambiguation (WSD)” (Wortbedeutungsdesambiguierung). 4 wichtige Ansätze Die Übertragung von der QS in die ZS ist primär gesteuert durch: • Wortfolge mit mophosyntaktischer Information: Direkte Übersetzung • Syntaktische Struktur: Transfer-Übersetzung • Semantische Repräsentation: Interlingua-Übersetzung • Frequenzdaten von Übersetzungspaaren: Statistische Übersetzung 15.1.1 Direkte Übersetzung Direkte Übersetzung Die direkte Übersetzung führt die QS ohne linguistisch motivierte Zwischenrepräsentation in die ZS über. Ablauf • Bestimmung von Wortarten, Grundformen und morphosyntaktischen Merkmalen der Wörter in der QS • Wortwahl (=Lemmawahl) in der ZS • Anwenden von Übertragungsregeln anhand der lexikalischen und morphosyntaktischen Information • Lokales Umordnen von Wörtern in ZS • Morphologische Generierung der Wortformen der ZS Beispiel 15.1.2 (Wortwahl “much/many”). if preceding word is “how” return “wieviel(e)” else if preceding word is “as” return “soviel(e)” 163 Beispiel: Regeln für Direkte Übertragung Beispiel 15.1.3 (Adjektiv-Stellung und Nominalkomposita von Englisch zu Französisch). • a visual indicator → un indicateur visuel • installation configuration → configuration d’installation Regeln für die direkte Übertragung • ArtE AdjE NE → ArtF NF AdjF “Falls in der QS die Folge Artikel, Adjektiv, Nomen vorliegt, dann produziere in der ZS die Reihenfolge Artikel, Nomen, Adjektiv.” • N1E N2E → N2F de N1F “Falls in der QS zwei Nomen hintereinander stehen, dann produziere in der ZS die vertauschte Reihenfolge mit einem de-Element dazwischen.” Probleme/Vorteile der direkten Übersetzung • Eine grosse Anzahl Übertragungsregeln entsteht wegen der schlechten syntaktischen Abstraktion. So muss für “the preliminary installation configuration → la configuration d’installation préliminaire” eine weitere Regel gemacht werden. Welche? • Jede Übersetzungsrichtung braucht ein eigenes Programm. • Wartung und Weiterentwicklung wird schnell zu komplex, weil die syntaktische Struktur nicht explizit repräsentiert ist. • Die direkte Übersetzung ist grundsätzlich robust gegenüber syntaktischen Schwierigkeiten (Fehler oder zu komplexe Strukturen). • Allgemeine Behandlung von unbegrenzten Konstruktionen wie Komposita ist schlecht machbar. “computer periphery installation configuration manual” 15.1.2 Transfer-Übersetzung Transfer-Übersetzung im Bild Beispiel: Regeln für Transfer von Syntaxstrukturen Die Transfer-Regeln operieren nicht bloss auf der Wortebene, sondern auf allen Konstituenten. (Vgl. http://www.cl.uzh.ch/clab/ecl1/ilap_transf/) Komponenten eines Transfersystems • Syntaxanalyse der QS (Grammatik, Lexikon, Parser) • Transfer-Modul (lexikalische und syntaktische Transfer-Regeln) • Generierungsmodul der ZS (Grammatik, Lexikon, Generator) • Morphologie-Module für QS und ZS • Module zur Auflösung von Mehrdeutigkeiten 164 Satz Satz Ausgangsgssprache Zielsprache Analyse Synthese Syntax Ausgangsgssprache Syntax Transfer Zielsprache Abbildung 15.1: Transfer-Übersetzung im Bild Fazit zur Transfer-Übersetzung • Dominierendes Paradigma der heutigen MÜ (aber schon 1950 konzipiert) • Nur die Transfer-Regeln müssen für jede Übersetzungsrichtung entwickelt werden. Generierung und Analyse bleiben (hoffentlich) gleich. • Unbegrenzte Konstruktionen lassen sich rekursiv elegant übertragen. • Sprachen, welche wenig Ähnlichkeiten haben, sind viel schwieriger als verwandte Sprachen. • Welche syntaktischen Konstruktionen existieren überhaupt? • Was tun, wenn Sätze der QS nicht geparst werden können? Wie bekommt man die intendierte Analyse? 15.1.3 Interlingua-Übersetzung Interlingua-Übersetzung • Bei der Transfer-Übersetzung müssen die syntaktischen Analyseresultate so gewählt werden, dass der Transfer zu verschiedenen Sprachen optimal ist. • Der Interlingua-Ansatz versucht, alle Einzelsprachen auf eine gemeinsame Repräsentation (meist bedeutungsorientiert) abzubilden. • In der Praxis haben sich diese Systeme nicht durchgesetzt – trotz der an sich bestechenden Idee. • Problem: Wie soll diese Interlingua genau aussehen? Welche begrifflichen Differenzierungen verlangt sie? 165 John gives Mary an apple. Jean donne une pomme à Marie. Eingabevorbereitung capitalized(john) gives capitalized(mary) Ausgabeaufbereitung an apple capitalized(jean) endpunct(’.’) to_give mary a cat: p_name cat: tv cat: p_name num: sing num: sing num: sing gend: fem gend: masc pers: 3 tense: pres mood:indic apple end_of_sentence cat: det num: sing def: indef jean cat: cn num: sing donner un NP p_name john vt S tense: pres mood:indic type: assertion num: sing pers: 3 pn to_give VP num: sing pers: 3 NP num: sing Syntax− Transfer det cn def: indef a mary NPnum: sing gend: fem p_name apple vt jean det cn def: indef donner un pomme Maschinelle Übersetzung (Transfer−Methode) Quelle: [Hess 2005] Abbildung 15.2: Transfer-Übersetzung im Detail S S Np Adj Np Vp N−Gr V Np Art N the rich boy Art N−Gr Adj loves the Vp V N−Gr girl Np Art N N le garçon riche aime la Quelle: [Hess 2005] Abbildung 15.3: Transfer-Regeln 166 PP NP num: sing gend: fem NP num: sing gend: masc Lexikon− Lookup Art capitalized(marie) Satzgenerierung NP num: sing gend: fem num: sing gend: masc à pomme à marie end_of_sentence tense: pres mood:indic type: assertion VP pomme cat: p_name cat: tv cat: cn cat: prep cat: p_name cat: det num: sing num: sing num: sing num: sing num: sing gend: masc pers: 3 def: indef gend: fem gend: fem tense: pres gend: fem mood:indic Satzanalyse S une Wortformengenerierung Wortformenanalyse john donne N−Gr N fille prep pn à marie endpunct(’.’) Lexikalisierungsproblem Verschiedene Sprachen machen unterschiedlich feine Bedeutungsunterscheidungen. Wieviele Differenzierungen muss eine Interlingua enthalten, wenn noch mehr Sprachen ins Spiel kommen? Quelle: [Jurafsky und Martin 2008] nach Somers Abbildung 15.4: Lexikalische Überschneidungen nach Somers 15.1.4 Kombinierte Ansätze Ansätze der MÜ und reale Systeme Reale Übersetzungssysteme sind meistens Kombinationen der geschilderten Ansätze. Wo keine “tiefen” Analysen möglich sind, werden flache Übertragungen gemacht. Quelle: [Jurafsky und Martin 2008] Abbildung 15.5: Verbindung von direkter, Transfer- und Interlingua-Übersetzung 15.2 Vertiefung • Kapitel “Maschinelle Übersetzungssysteme” in [Hess 2005], das noch zusätzliches Material und Referenzen enthält. • Quiz Mehrdeutigkeit von Wortarten • ILAP Transfer-Übersetzung http://www.cl.uzh.ch/clab/ecl1/ilap_transf 167 • Eine lesbare technische Einführung in Maschinelle Übersetzung: [Knight 1997] 168 16 Literaturverzeichnis [Abney 1991] Abney, Steven (1991). Parsing by Chunks, In: Berwick, Robert, S. Abney und C. Tenny, Hrsg.: Principle-Based Parsing. Kluwer Academics, LIN 235. 57 [Arnold et al. 1994] Arnold, Doug, L. Balkan, R. L. Humphreys, S. Meijer und L. Sadler (1994). Machine Translation: An Introductory Guide. Blackwell. 117 [Bader 2006] Bader, Markus (2006). Satzintonation: Einführung, http: //ling.uni-konstanz.de/pages/home/bader/Seminare/Satzintonation-06-07/ 01Einfuehrung.pdf. 94 [Brants 1999] Brants, Thorsten (1999). Tagging and Parsing with Cascaded Markov Models. Automation of Corpus Annotation, Saarbrücken Dissertations in Computational Linguistics and Language Technology 6. Saarland University. 54 [Bussmann 2002] Bussmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Kröner, Stuttgart, 3., aktual. und erw. Aufl. 16, 20, 23, 33, 35, 123, 124, 125, 147, 149, 150 [Butt et al. 1999] Butt, Miriam, M. Niño und F. Segond (1999). A Grammar Writer’s Cookbook. CSLI Publications, Stanford, CA. 158 [Callison-Burch et al. 2006] Callison-Burch, Chris, M. Osborne und P. Koehn (2006). Re-Evaluation the Role of Bleu in Machine Translation Research, In: EACL-2006: 11th Conference of the European Chapter of the Association for Computational Linguistics, S. 00–00, Trento. Association for Computational Linguistics, http://www.aclweb.org/ anthology/E06-1032.pdf. 122 [Carstensen et al. 2004] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat, R. Klabunde und H. Langer, Hrsg. (2004). Computerlinguistik und Sprachtechnologie : Eine Einführung. Elsevier, München. 16, 18, 38, 47, 58, 72, 74, 92, 98, 99, 153 [Carstensen et al. 2009] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat, R. Klabunde und H. Langer, Hrsg. (2009). Computerlinguistik und Sprachtechnologie : Eine Einführung. Spektrum, München. 100 [Chandioux 1991] Chandioux, John (1991). Meteo: Environment Canada [contribution to panel] The MT user experience, In: MT Summit III., S. 123. http://www.mt-archive.info/ MTS-1991-panel-1.pdf. 111 [Chomsky 1957] Chomsky, Noam (1957). Syntactic Structures. Mouton, Den Haag. 154 [Clematide 2007] Clematide, Simon (2007). Tagger-Training und Evaluation mit TnT , http://www.cl.uzh.ch/siclemat/lehre/papers/tnt-training2007.txt. 51 [Cohn und Lapata 2008] Cohn, Trevor und M. Lapata (2008). Sentence Compression Beyond Word Deletion, In: Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), S. 137–144, Manchester, UK. Coling 2008 Organizing Committee, http://www.aclweb.org/anthology/C08-1018. 81 169 [Covington 2003] Covington, Michael A (2003). ET: an Efficient Tokenizer in ISO Prolog, http://www.cl.uzh.ch/siclemat/lehre/papers/Covington2003.pdf. 40 [Cunningham 1999] Cunningham, Hamish (1999). Information Extraction – a User Guide, Technischer Bericht, Institute for Language, Speech and Hearing (ILASH), CS-99-07, http: //www.dcs.shef.ac.uk/~hamish/IE/. 83 [Cutting et al. 1992] Cutting, D, J. Kupiec, J. Pedersen und P. Sibun (1992). A Practical Part-of-Speech Tagger, In: Proceedings of the Third Conference on Applied Natural Language Processing, Trento, S. 133–140, Trento. Association for Computational Linguistics, http://www.aclweb.org/anthology/A92-1018.pdf, http://www.cl.uzh.ch/siclemat/lehre/papers/CuttingKupiec1992.pdf. 49 [Dale et al. 1998] Dale, Robert, B. D. Eugenio, und D. Scott (1998). Introduction to the Special Issue on Natural Language Generation, Computational Linguistics, 24(3):345–353, http://www.aclweb.org/anthology/J98-3001.pdf. 79 [Dudenredaktion 2005] Dudenredaktion, Hrsg. (2005). Duden, die Grammatik: Unentbehrlich für richtiges Deutsch, Bd. 4 d. Reihe Der Duden. Dudenverlag, 7. Aufl. 33 [EAGLES 1996] EAGLES (1996). ELM-DE: EAGLES Specifications for German morphosyntax: Lexicon Specification and Classification Guidelines, electronic, http://www.ilc.cnr.it/EAGLES96/pub/eagles/lexicons/elm_de.ps.gz, http://www.cl.uzh.ch/siclemat/lehre/papers/EAGLES1996.pdf. 24 [Edmundson 1969] Edmundson, H.P. (1969). New Methods in Automatic Extracting, Journal of the ACM, 16:264–285. 80 [excelsis 2007] excelsis (2007). Hörbeispiel: Fussball-WM-Auskunft, http://www.excelsisnet.com/download/voicedemos/DemoWM2002.mp3, http://www.cl.uzh.ch/siclemat/lehre/papers/excelsis2007.mp3. 100 [F-Mass 2006] F-Mass (2006). F1 -Mass in 3D als Funktion von Recall (x) und Precision (y), http://www.cl.uzh.ch/siclemat/lehre/papers/F-Mass2006.mov. 62 [Falk 2003] Falk, Yehuda N. (2003). The English Auxiliary System Revisted, In: Butt, Miriam und T. H. King, Hrsg.: The Proceedings of the LFG ’03 Conference, University at Albany, State University of New York. http://csli-publications.stanford.edu/LFG/8/ lfg03.html. 157 [Gale und Church 1993] Gale, William A und K. W. Church (1993). A Program for Aligning Sentences in Bilingual Corpora, Computational Linguistics, 19(1):75–102, http: //www.aclweb.org/anthology/J93-1004.pdf. 106 [Gallmann und Sitta 2001] Gallmann, Peter und H. Sitta (2001). Deutsche Grammatik. Lehrmittelverlag, 3. Aufl., Konzis und verständlich. 23 [Gazdar et al. 1985] Gazdar, Gerald, E. Klein, G. K. Pullum und I. A. Sag (1985). Generalized Phrase Structure Grammar. Basil Blackwell, Oxford. 157 [German 2006] German, Klara (2006). AT&T Beispielsatz Deutsch, http://www.research.att.com/~ttsweb/tts/demo.php, http://www.cl.uzh.ch/siclemat/lehre/papers/German2006.mp3. 89 170 [Grefenstette 1998] Grefenstette, Gregory (1998). Producing Intelligent Telegraphic Text Reduction to Provide an Audio Scanning Service for the Blind, In: Intelligent Text Summarization, AAAI Spring Symposium Series, S. 111–117, Stanford, California. 80 [Grefenstette und Tapanainen 1994] Grefenstette, Gregory und P. Tapanainen (1994). What is a Word, What is a Sentence? Problems of Tokenisation, In: Proceedings of the 3rd Conference on Computational Lexicography and Text Research, COMPLEX’94 , Budapest. http://citeseer.ist.psu.edu/grefenstette94what. html, http://www.cl.uzh.ch/siclemat/lehre/papers/GrefenstetteTapanainen1994.pdf. 45, 46, 47 [Grover 2008] Grover, Claire (2008). LT-TTT2 Example Pipelines Documentation, http://www.ltg.ed.ac.uk/software/lt-ttt2, http://www.cl.uzh.ch/siclemat/lehre/papers/Grover2008.pdf. 42 [Hearst 1999] Hearst, Marti A. (1999). Untangling text data mining, In: Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, S. 3–10, Morristown, NJ, USA. Association for Computational Linguistics. 76, 77 [Hess 2005] Hess, Michael (2005). Einführung in die Computerlinguistik I: Interaktives Vorlesungsskript WS 2004/2005 , http://www.cl.uzh.ch/siclemat/lehre/papers/Hess2005.pdf. 134, 165, 166 [Hess 2006] Hess, Michael (2006). Computerlinguistik in Information und Dokumentation, http://www.ifi.uzh.ch/arvo/cl/siclemat/talks/zb/zb.pdf. 86 [Hopcroft et al. 2002] Hopcroft, John E., R. Motwani und J. D. Ullman (2002). Einführung in die Automatentheorie, Formale Sprachen und Komplexitätstheorie. Pearson Studium, München, 2. überarbeitete Aufl. 133 [Hutchins und Somers 1992] Hutchins, W. John und H. L. Somers (1992). An introduction to machine translation. Academic Press, London [etc.]. 103 [ICL 2007a] ICL (2007a). Informationen zur Leistungsüberprüfung für Bachelorstudierende, http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2007.pdf. 11 [ICL 2007b] ICL (2007b). Informationen zur Leistungsüberprüfung für Lizentiatsstudierende, http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2007a.pdf. 11 [Jurafsky und Martin 2000] Jurafsky, Daniel und J. H. Martin (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall. 18, 91 [Jurafsky und Martin 2008] Jurafsky, Daniel und J. H. Martin (2008). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, 2. Aufl. 166 [Kallmeyer 2005] Kallmeyer, Laura (2005). Part I: Lexicalized Tree Adjoining Grammars (LTAG), http://www.sfb441.uni-tuebingen.de/~lk/TAG-SEMINAR/ext-cfg.pdf. 134 [Kassensturz 2006] Kassensturz (2006). Sendung Kassensturz vom 10. Oktober, http://www.cl.uzh.ch/siclemat/lehre/papers/Kassensturz2006.mov. 12 171 [Knight 1997] Knight, Kevin (1997). Automatic Knowledge Acquisition for Machine Translation, http://www.cl.uzh.ch/siclemat/lehre/papers/Knight1997.pdf. 167 [Kupiec et al. 1995] Kupiec, Julian, J. Pedersen und F. Chen (1995). A Trainable Document Summarizer, In: Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, S. 68–73, Seattle, Washington. 80 [Liberman und Church 1992] Liberman, Mark und K. W. Church (1992). Text Analysis and Word Pronunciation in Text-to-Speech Synthesis, In: Furui, Sadaoki und M. M. Sondhi, Hrsg.: Advances in Speech Signal Processing, S. 791–832. Marcel Dekker, New York. 90 [Linke et al. 2001] Linke, Angelika, M. Nussbaumer und P. R. Portmann, Hrsg. (2001). Studienbuch Linguistik. Niemeyer, Mit interaktivem Lernprogramm auf CD-ROM. 21 [Locke und Booth 1955] Locke, William N. und A. Booth, Hrsg. (1955). Machine translation of languages: fourteen essays. Technology Press. 161, 173 [Luhn 1958] Luhn, Hans Peter (1958). Automatic Creation of Literature Abstracts, IBM Journal of Research & Development, 2(2):159–165, http://de.wikipedia.org/wiki/ Extraktionsalgorithmus_nach_Luhn. 80, 88 [Manning et al. 2009] Manning, Christopher, P. Raghavan und H. Schütze (2009). An Introduction to Information Retrieval. Cambridge University Press, http://www. informationretrieval.org. 70, 77 [MARY 2006] MARY, Male (2006). Hörbeispiel Sprachsynthese: Emotionaler Fussballreporter, http://www.cl.uzh.ch/siclemat/lehre/papers/MARY2006.mp3. 100 [Matthews 1998] Matthews, Clive (1998). An Introduction to Natural Language Processing through Prolog. Longman, London. 154, 155 [Melby 2001] Melby, Alan K. (2001). Translation, Theory and Technology Homepage, http: //www.ttt.org/theory/mt4me/mtambiguity.html. 115, 116 [Müller 1994] Müller, Stefan (1994). Prolog und Computerlinguistik: Teil I - Syntax, http://www.cl.uni-bremen.de/~stefan/PS/prolog.pdf. 141 [Nohr] Nohr, Holger. Kap. B 8: Theorie des Information Retrieval II: Automatische Indexierung. 81 [Oberhauser und Labner 2003] Oberhauser, Otto und J. Labner (2003). OPACErweiterung durch automatische Indexierung: Empirische Untersuchung mit Daten aus dem Österreichischen Verbundkatalog, In: ODOK ’03 : 10. Österreichisches OnlineInformationstreffen ; 11. Österreichischer Dokumentartag. 73 [ORF 2007a] ORF (2007a). Hörbeispiel 1: Sprechender Fahrplan Salzburg, http://salzburg.orf.at/magazin/leben/stories/73906/, http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007a.mp3. 100 [ORF 2007b] ORF (2007b). Hörbeispiel 3: Sprechender Fahrplan Salzburg, http://salzburg.orf.at/magazin/leben/stories/73906/, http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007.mp3. 100 172 [Palmer 2000] Palmer, David D (2000). Tokenisation and Sentence Segmentation, In: Dale, Robert, H. Moisl und H. Somers, Hrsg.: Handbook of natural language processing, S. 11– 35. New York. 47 [Pfister und Kaufmann 2008] Pfister, Beat und T. Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, SpringerLehrbuch. Springer, Berlin. 100 [Pierce et al. 1966] Pierce, John R, J. B. Carroll, E. P. Hamp, D. G. Hays, C. F. Hockett, A. G. Oettinger und A. Perlis, Hrsg. (1966). Language and Machines: Computers in Translation and Linguistics. National Academy of Sciences, http://darwin.nap. edu/html/alpac_lm/ARC000005.pdf. 101 [Plaehn 1998] Plaehn, Oliver (1998). ANNOTATE: http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn1998a.pdf. 28 [Plaehn 2000] Plaehn, Oliver (2000). ANNOTATE v3.6 http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn2000.txt. 28 Bedienungsanleitung, – Quick Reference, [Pyysalo 2008] Pyysalo, Sampo (2008). A Dependency Parsing Approach to Biomedical Text Mining, Department of Information Technology; TUCS, http://oa.doria.fi/handle/ 10024/39934. 64, 65 [Raggett 2001] Raggett, Dave (2001). Dave Raggett’s Introduction to VoiceXML 2.0 , http://www.w3.org/Voice/Guide/. 100 [Referenzkarte 2009] Referenzkarte (2009). Referenzkarte zum http://www.cl.uzh.ch/siclemat/lehre/papers/Referenzkarte2009.pdf. 28 Annotieren, [Rinaldi et al. 2006] Rinaldi, Fabio, G. Schneider, K. Kaljurand, M. Hess und M. Romacker (2006). An environment for relation mining over richly annotated corpora: the case of GENIA, BMC Bioinformatics, 7(Suppl 3):S3. 85 [Roth 2008] Roth, Sandra (2008). OLAT-Hinweise http://www.cl.uzh.ch/siclemat/lehre/papers/Roth2008.pdf. 9 für Studierende, [Salton 1988] Salton, Gerard (1988). Automatic text processing : the transformation, analysis, and retrieval of information by computer. Addison-Wesley, Reading, Mass. 76 [Schiller et al. 1999] Schiller, Anne, S. Teufel und C. Stöckert (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset), http://www. ims.uni-stuttgart.de/projekte/corplex/TagSets/stts-1999.pdf. 24, 29 [Schmid 2006] Schmid, Helmut (2006). TreeTagger, http://www.ims.uni-stuttgart.de/ projekte/corplex/TreeTagger/DecisionTreeTagger.html. 41 [Shieber 1985] Shieber, Stuart M. (1985). Evidence Against the Context-Freeness of Natural Language, Linguistics and Philosophy, 8:333–343, Reprinted in Walter J. Savitch, Emmon Bach, William Marsh, and Gila Safran-Navah, eds., The Formal Complexity of Natural Language, pages 320–334, Dordrecht, Holland: D. Reidel Publishing Company, 1987., http://www.eecs.harvard.edu/~shieber/Biblio/Papers/shieber85.pdf. 134 173 [Shieber 1992] Shieber, Stuart M. (1992). Constraint-Based Grammar Formalisms. MIT Press, http://mitpress.mit.edu/catalog/item/default.asp?tid=5840&ttype=2. 147 [Simmons 2006a] Simmons (2006a). Hörbeispiel ToBi: Bloomingdales, http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm, http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006a.mp3. 8, 95 [Simmons 2006b] Simmons, Anita (2006b). Sound-Datei zu Beispielsatz ”There ‘s a lovely one in Bloomingdale.“, http://anita.simmons.edu/~tobi/chap2-7/bloomingdales1.wav, http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006.mp3. 95 [Steiner 2003] Steiner, Petra (2003). Das revidierte Münsteraner Tagset / Deutsch (MT/D). Beschreibung, Anwendung, Beispiele und Problemfälle, http://santana. uni-muenster.de/Publications/tagbeschr_final.ps. 24 [Stocker et al. 2004] Stocker, Christa, D. Macher, R. Studler, N. Bubenhofer, D. Crevlin, R. Liniger und M. Volk (2004). Studien-CD Linguistik: Multimediale Einführungen und interaktive Übungen zur germanistischen Sprachwissenschaft, Max Niemeyer Verlag, http://www.ds.uzh.ch/studien-cd. 23, 37 [Traunmüller 1997] Traunmüller, Hartmut (1997). Geschichte der Sprachsynthese, http://www.ling.su.se/staff/hartmut/kempln.htm. 13 [Turing 1950] Turing, A. M. (1950). Computing Machinery and Intelligence, Mind, 59(236):433–460, http://cogprints.org/499/00/turing.html. 18 [Universitätsrat 2004] Universitätsrat (2004). Richtlinie über die Umsetzung des Bologna-Prozesses an der Universität Zürich, http://www.studienreform.unizh.ch/ dokumente/richtlinien.pdf. 10 [Volk und Schneider 1998] Volk, Martin und G. Schneider (1998). Comparing a statistical and a rule-based tagger for German, In: Proceedings of KONVENS-98 , S. 125–137, Bonn. http://www.cl.uzh.ch/siclemat/lehre/papers/VolkSchneider1998.pdf. 50 [Weaver 1955] Weaver, Warren (1955). Translation, In: [Locke und Booth 1955], S. 15– 23, http://www.mt-archive.info/Weaver-1949.pdf. 101 [Weisser 2005] Weisser, Martin (2005). Computational Philology, http://ell.phil. tu-chemnitz.de/compPhil/intro.html [cited Mittwoch, 11. Oktober 2006]. 14 [Wikipedia 2006] Wikipedia (2006). Loebner-Preis — Wikipedia, Die freie Enzyklopädie, [Online; Stand 25. Oktober 2006], http://de.wikipedia.org/w/index.php?title= Loebner-Preis&oldid=22274242. 18 [Wikipedia 2007] Wikipedia (2007). Harmonic mean — Wikipedia, The Free Encyclopedia, http://en.wikipedia.org/w/index.php?title=Harmonic_mean\&oldid=107249796. 61 [Wikipedia 2009] Wikipedia (2009). Kognitionswissenschaft — Wikipedia, Die freie Enzyklopädie, http://de.wikipedia.org/w/index.php?title=Kognitionswissenschaft. 17 174 Index Übersetzung, computerunterstützt, 103 Übersetzung, maschinell, 102 Übersetzungsrichtung, 102 10-fache Kreuzvalidierung, 54 Evaluation, 52 Ableitung, 132 Ableitungsrelation, 132 Ableitungsrelation, unmittelbare, 132 Adjektiv-Flexion, 27 Affix-Hopping, 154 Alphabet, 128 Antwortextraktion, 85 Assimilation, 97 Attribut-Wert-Struktur, 137 Aussprachewörterbuch, elektronisch, 91 AVM, 137 Genus, 25 Grad, 27 Grammatik, 123 Grammatik, kontextfrei, 131 Graph, gerichtet, 138 Graph,zyklenfrei, 138 Grundfrequenzverlauf, 94 F-Measure, 55 FAHQT, 109 HAMT, 107 Hilfsverbkomplex, 154 Baum, 138 Baum, markiert, gerichtet, 139 Blatt, 139 BLEU, 119 BOW, 72 CAT, siehe Übersetzung, computerunterstützt Computerlinguistik, 12 Data-Mining, 76 Dependenz, 35 Dependenzanalyse, 85 Dialogsystem Conversational User Interface, 99 Interactive Voice Response System, 99 Kommandowortsystem, 99 Diphon, 96 Dokument als Menge von Indextermen, 72 Dolmetschen, maschinell, 102 IDF, 75 Idiom, 116 Index, 69 Indexieren, 69 Informationsextraktion, 81 IOB-Chunks, 57 IPA, 16 IR, 69 Junktur, 97 Kasus, 26 Kern, 34 Knoten, innerer, 139 Koartikulation, 97 Kognitionswissenschaft, 17 Kollokation, 117 Komparation, siehe Grad Kongruenz, 149 Konkatenation, 129 Konstituente, 33, 125 Konstituentenanalyse, 33, 125 Konstituentenanalyse, automatisch, 127 Konstituenz, 33, 125 Koordination, 35 Kopf, 34 Editierdistanz, minimal, 98 Einsetzprobe, 31 Epsilon, 128 Ersatzprobe, 30 175 Relation-Mining, 84 Reliabilität, 52 Retrievalmodell, Boolsch, 72 Lemma, 22 Lemmatisierung, 28 Levenshtein Editierdistanz, siehe Editierdistanz, minimal Lexem, 22 Lexemverband, 22 Linguistik, 16 Satz, 33 Satz, formal, 132 Satzkompression, 81 Schallwellen, 94 Semantik, 17 Sigma, 128 Silbentrennung, 46 SL, siehe Quellsprache Sprache, formal, 132 Spracherkennungssystem, 97 Sprachsynthesesystem, 89 Sprachtechnologie, 13 Subsumtion, 143 Syntaktische Funktion, 35 Syntax, 17 MAHT, 103 Merkmal, morphologisch, 24 Merkmalstruktur, 137 Merkmalstruktur, als Graph, 139 Merkmalstrukturunifikation, 144 Modus, 26 Morphologie, 16 Morphologieanalyse, 28 Morphologiegenerierung, 28 MT, siehe Übersetzung, maschinell MUC, 82 Named Entity Regonition, 46 NER, 46 Numerus, 25, 27 Tag-Set, 48 Tagging-Genauigkeit, 53 Tempus, 26 Termhäufigkeit, siehe TF Termhäufigkeit, inverse, siehe IDF Text-Mining, 76, 84 Text-Segmentierung, 39 Textextraktion, 79 Textklassifikation, 87 Textzusammenfassung, 79 TF, 75 TL, siehe Zielsprache Token, 21 TTS, siehe Sprachsynthesesystem Oronym, 97 Parser, 127 partielle syntaktische, 56 PATR-II, 147 Person, 27 Pfad, 138 Pfad, einfach, 138 Pfad, in Merkmalstruktur, 140 Pfad, vollständig, 140 Phonem, 16 Phonetik, 16 Phonologie, 16 Postedition, 109 Präedition, 109 Pragmatik, 17 Precision, 54 Probe, linguistisch, 30 Umformungsprobe, 32 Unifikationsgrammatik, 147 Valenz, 150 Validität, 52 Verschachtelte Chunks, 58 Verschiebeprobe, 32 Volltextsuche, klassisch, 69 Qualität einer Evaluation, 52 Quellsprache, 102 Weglassprobe, 31 WER, siehe Wortfehlerrate Wert eines Pfades, 140 Wert, Merkmalstruktur, 137 Wort, 20, 128 Recall, 54 Regeln, phonologisch, 92 regulärer Ausdruck, 41 Rektion, 150 176 Wort,syntaktisch, 22 Wortakzent, 93 Wortarten, 23 Wortarten-Tagger, 48 Wortfehlerrate, 98 Wortform, 21 XML-Standard, 43 Zeichenkette, 128 Zeichenkette, leer, 128 Zielsprache, 102 Zyklus, 138 177