LE-Text - Institut für Computerlinguistik
Transcription
LE-Text - Institut für Computerlinguistik
Reduzieren der Wortformen c Clab-Team Institut für Computerlinguistik Universität Zürich Dez. 2008 Zusammenfassung Das Reduzieren von verschiedenen Wortformen des selben Wortes auf eine geeignete Grundform ist für viele Anwendungen in der Computerlinguistik relevant. Dies kann einerseits durch einfache, algorithmische Verfahren wie Trunkierung oder Stemming erreicht werden, oder über komplexere, aufwendigere Methoden, die viel linguistische Information benötigen. Diese reichen von der relativ einfachen Lemmatisierung bis zur vollständigen Morphologieanalyse. Je nach Anwendungsgebiet und Sprache eignet sich die eine oder die andere Vorgehensweise. Reduzieren der Wortformen 1 1 Voraussetzungen Derivation: Derivation erzeugt neue Wörter (im Sinn von L Lexemen) aus einem Bevor Sie diese Lerneinheit bearbeiten, sollten selbständigen Wort und verschiedenen L Af- Sie einerseits wissen, was Tokenisierung ist (sie- fixen: he Hess (2005)), andererseits sollten Ihnen die Ziele und Methoden des Information Retrieval compute, computer, computerize, recompute, recomputerize etc. (IR) bekannt sein (s. ebenfalls Hess (2005)). Derivation verändert oft die Wortkategorie (part-of-speech): compute ist ein Verb, computer ist 2 ein Substantiv. Lernziel Normalerweise wird auch semantischer Ge- Sie sollten nicht nur in theoretischer Hinsicht halt zugefügt: Das Präfix re- in recompute be- den Unterschied zwischen L Trunkierung, L deutet wieder. compute, computes, computing, und Stemming und echter Morphologieanalyse ken- computed hingegen differieren nur in (bedeu- nen, sondern auch abschätzen können, wie weit tungsirrelevanten) Aspekten wie L Tempus, L Trunkierung in einem konkreten Anwendungs- Numerus, L Genus, L Kasus, Aspekt etc. kontext ( L Information Retrieval) trägt. Sie sollten sodann selbständig Regeln für einen konkre- Eine sehr komplexe Wortform, graphisch veranschaulicht1 , siehe Abbildung 1. (QUIZ) Grundlagen der Wortreduktion ten Stemmer (Porter-Stemmer) für verschiedenen Sprachen schreiben können. 3 Flexion, Derivation und Komposition Die Vielfalt von Wortformen für dieselben oder ähnliche Inhalte in natürlichen Sprachen erschwert das Suchen in Texten sehr. Die Komplexität von Wortformen ergibt sich aus den Operationen, die bei der Wort(form)bildung involviert sind: 1. L Flexion (Konjugation, Deklination.., u.a. Komposition Komposition erzeugt ein neues mit Ablauten) Wort aus mehreren selbständigen Wörtern: 2. L Derivation (Affixierung etc.) Haus + Bau → Hausbau (Zusammensetzung Komposition ist ebenfalls semantisch rele- selbständig existierender Wortformen zu neu- vant; allerdings ist es oft sehr schwierig, die Be- en Wörtern) deutung eines Kompositums aus den Bedeutun- L 3. Komposition gen der Einzelwörter systematisch zu ermitteln. Flexion: Flexion erzeugt verschiedene Formen desselben Lemmas (Grundform): Hund → Hunde Die Wortkategorie wird dadurch natürlich nicht verändert, aber die Flexion ist semantisch relevant. 1 Vgl. Smith (1991). 4 Grundlegendes zur Wortreduktion Eines der grundlegenden Probleme der textbezogenen Informationstechnologie besteht darin, Reduzieren der Wortformen 2 Texte so zu speichern, dass auf eine L Anfra- • Trunkierung: Das Abtrennen einer bestimm- ge hin möglichst alle relevanten Informationen ten Anzahl von Zeichen am Wortende. Hier- (und nur diese!) zurückgeliefert werden. Eine bei muss man noch unterscheiden zwischen erste wesentliche Hürde hierfür stellt die Vielfalt dem Kürzen auf eine bestimmte Anzahl Zei- von Formen dar, die Wörter, selbst bei gleichem chen und dem Kürzen um eine bestimmte An- Inhalt und gleicher Wortart, aufweisen. Sogar im Englischen ist das ein echtes Pro- zahl Zeichen. Beispiel: blem: {Museum, Museen, Mus, Muster} → mus to mean → mean • Stemming: Die rein algorithmische Bestim- means mung von “Wortstämmen”, ohne Verwen- meant dung wortspezifischer, einzelsprachlicher In- meaning formation; oft ist das Gefundene daher keineswegs der L Stamm eines Worts im lingui- Das offensichtliche Problem hierbei ist, dass z.B. der Benutzer eines Dokumentenretrievalsystems grundsätzlich alle flektierten Formen jedes einzelnen Suchterms (also alle zu einem stischen Sinn, weshalb der Begriff stemming eigentlich recht irreführend ist {Museum, Museen} → muse Wort gehörenden Wortformen) in seiner Anfra- • Lemmatisierung: Reduktion der Wortform ge eingeben müsste, um keine relevanten Dokumente zu verpassen. Er müsste also Anfragen auf die linguistisch korrekte Grundform, das sog. L Lemma (also das, was in ei- stellen wie: nem Wörterbuch den Eintrag einleitet) unter Berücksichtigung einzelsprachlicher Regeln (mean OR means OR meant OR meaning) Weniger offensichtlich, aber mindestens so der Wortbildung inkl. unregelmässigen Bildungen, also durch Benützung einzelsprachli- schwerwiegend, ist das Problem, dass alle cher Wortbildungsregeln und Wörterbücher: brauchbaren Dokumentenretrievalsysteme die {Museum, Museen} → Museum Indexterme aufgrund ihrer Häufigkeit gewichten. Die L Gewichtung eines Terms hat grossen Einfluss auf die Position eines Dokuments in der Ergebnisliste. Beim Gewichten werden die extrem häufig vorkommenden Terme ebenso wie • Morphologische Analyse: Ermittlung des Lemmas und aller morphologischen Merkmale (wie Numerus, Genus, Kasus, Tempus, L Modus etc.) die extrem selten vorkommenden Terme gerne Museen → Museum (Gender=Neutr, ignoriert. Da nun aber, ohne besondere Vorkeh- Number=Pl, Case=*) rungen, jede gebeugte Form eines gegebenen • Rooting: Manchmal ist noch das Isolieren der Worts in einem Dokument als einzelnes Wort- Wurzel sinnvoll. Das wird im Folgenden aber vorkommen gezählt wird, wird das aufaddierte nicht betrachtet.2 Total für dieses Wort (und damit sein Gewicht) wahrscheinlich zu klein (da die selten vorkom- Beispiel: menden Beugungsformen ignoriert werden). Es Farbe | ist daher fast unerlässlich, nur die “Grundform” färben | der Wörter als Indexterme zu benutzen. farbig | → FARB Prinzipiell gibt es mehrere Möglichkeiten, um zu einer sinnvollen Grundform zu gelangen: Aber: Die morphologische Analyse ist viel aufwendiger zu automatisieren, deshalb hat 2 Rooting wird manchmal auch als Stemmatisierung bezeichnet. Das ist nicht dasselbe wie Stemming! Reduzieren der Wortformen 3 man meist versucht, so lange es geht, die einfa- S-Algorithmus (mit m=1): cheren oben genannten Methoden einzusetzen. give | s Welche dieser automatischen Methoden kann man wann einsetzen? cat • Für schwach flektierende Sprachen (wie z.B. Englisch) und für anspruchslose Aufgaben | s Dieses Verfahren ist: kann man zur Not die Trunkierung anwen- • schnell den. • sprachunabhängig (allerdings nur im Prinzip) • Für morphologisch komplexere Sprachen (wie z.B. Deutsch) und etwas anspruchsvollere Aufgaben ist aber zumindest Stemming • für sehr viele Zwecke ungeeignet Zum Letzten: oder aber Lemmatisierung erforderlich. Hier- • Beim Indexieren werden abide und abiding bei kann man nach mehr oder weniger lingui- unterschieden werden (siehe Beispiel oben), stischen Prinzipien verfahren. In einer Spra- weshalb beide Terme ein zu geringes Gewicht che mit wenig L Morphologie wie dem Eng- erhalten. Es handelt sich jedoch um Wortfor- lischen kommt man mit relativ unlinguisti- men des selben Wortes. schen Methoden schon weit; man wird aber • Für den Stil eines Autors mag es z.B. wich- in jedem Fall nur die regelmässigen Bildun- tig sein, wie oft er Wörter aus der Klasse ab- gen erfassen. hor verwendet, aber da abhor und abhorr unter- • Für wirklich anspruchsvolle Anwendungen ist eine echte und vollständige Morphologieanalyse erforderlich. Dieses Thema wird in schieden werden, wird hier der Wert bei der Zählung erneut zu gering ausfallen. Ebenso: abet/abetto, abide/abidin der Vorlesung “Morphologie und Lexikogra- Kann man durch die Wahl anderer Werte für phie” viel tiefer behandelt. m die Situation verbessern? Nicht prinzipiell zwar fallen nun abide und abiding korrekterwei- 5 Trunkierung se zusammen, aber dafür fälschlicherweise auch aboriginal und abort: Trunkierung einer Wortform heisst: eine fixe Anzahl (m) Zeichen am Anfang der Wortform be- Beispiel mit m=4: halten (T-Algorithmus), oder (seltener) vom En- aber | ration de der Wortform abschneiden (S-Algorithmus). Beispiel (aus Celex): abet | T-Algorithmus (mit m=6): aberra | tion abet abetto | r abeyan | ce abeyan | t abhor abet | tor abey | ance abey | ant abho | r abho | rrence abho | rrent abid | e abid | ing abhorr | ence Scheint nicht sehr ins Gewicht zu fallen, aber: abhorr | ent abor | iginal abide abor | iginal abidin | g abor | igine Abor | igine Reduzieren der Wortformen 4 abor | t Im Englischen gibt es ca. 75 Präfixe und 250 Suf- abor | tion fixe. Ein kleiner Auszug: abor | tionist abor | tive a- anti- de- ex- in- pre- re- un- Übereinstimmungen. Testen Sie nun, ob Sie die Konzepte und -able -ages -ance -aric -anced -ature -ble -eature Methoden des Trunkieren verinnerlicht haben: -enced -ened -er -fied (QUIZ) Trunkieren -icated -ing -ion Hier gibt es nun schon sehr viele falsche Das Entfernen von Präfixen ist zwar zu- 6 Stemming verlässiger als das Entfernen von Suffixen, da letztere oft orthographische Veränderungen in- Stemming versucht den Stamm in etwas volvieren (stratify → stratified). Je- präziserer Weise zu isolieren. doch verändern Präfixe die Bedeutung der Stammwörter derart stark (asymmetry → Methoden: symmetry), dass das Entfernen von Präfixen 1. Kontextunabhängiges L Suffix-Stripping für viele Zwecke nicht sinnvoll ist. 2. Kontextabhängiges Suffix-Stripping fernen von Suffixen betrachtet. 6.1 Kontextunabhängiges Stripping Suffix- Im Folgenden wird daher nur noch das Ent- Resultate (Suffix-Stripping: einfacher exakter longest match für obige Suffixe): Am einfachsten sind jene Methoden, bei denen asymmetry → asymmetry Affixe aus einer vorgegebenen Liste abgetrennt able → [ ]4 werden. Zu unterscheiden sind dabei: interesting → interest 1. longest match: entferne (von hinten und/oder von vorne) die längste Kette, die als Affix3 aufgelistet ist; siehe (Salton:381) king → k producer → produc creature → cr feature → f 2. shortest match: entferne die kürzeste Kette 3. in beiden Fällen: einfach oder iteriert; beim iterativen Vorgehen werden wiederholt SuffiResultate (Suffix-Stripping: einfacher exakter shortest match): xe entfernt. 4. in beiden Fällen: entweder zuerst Präfixe und dann Suffixe (→), oder umgekehrt (←). asymmetry able → symmetry → a 5. in beiden Fällen: exakter oder annähernder Match. Beim partiellen Match genügt ein interesting → interest annäherndes Matchen mit z.B. einem Präfix: king → k producer → produc sky ≈ ski (skies → sky) 3 Affix sollte hier nicht als linguistisch korrekter Term aufgefasst werden! 4 [] = leere Menge Reduzieren der Wortformen 5 Zu unterscheiden ist im Folgenden klar der creature → cre feature → fe L Algorithmus selbst und die konkreten L Parameter-Werte. Der Algorithmus ist sprachun- Diese Verfahren ergeben also teilweise ausserordentlich merkwürdige Resultate. Einige davon kann man unterdrücken, indem z.B. eine Minimallänge von 3 verbleibenden Zeichen verlangt wird. Damit würden [], k, cr, f, a, k und fe wegfallen. Auch dann gilt aber: Neben der korrekten Ermittlung von Stämmen für einige Wortformen erhält man für andere Wortformen inkorrekte Stämme, weil die potentiellen Affixe als abhängig, die Parameter-Werte5 hingegen sind es nicht. 6.2.1 Der Lovins-Algorithmus Der Algorithmus von Lovins (1968). 6 1. Einfacher longest match gegen 294 Suffixe: -alistically -izationally -arizability ... Buchstabenkombination am Ende oder Beginn einer Wortform vorkommen. Verwendet man -able -ably -ages -ally eine längere Liste von Affixen als in diesem Bei- -ance -ancy -ants -aric spiel, erhält man noch viel mehr unerwünschte -arly -ated -ates -atic overstemming-Resultate. In bestimmtem Anwen- -ator -ealy -edly -eful dungen (z.B. IR) schadet das oft wenig, in ande- -eity -ence -ency -ened ren hingegen schon. -enly -eous -hood -ials -ians -ible -ibly -ical -ides -iers -iful -ines -ings -ions -ious -isms -ists -itic -ized -izer • basiert aber nicht auf linguistischen Prinzi- -less -lily -ness -ogen pien, und overstemming ist daher ein grosses -ward -wise -ying -yish Problem, da “Stämme” ermittelt werden, die ... -i -s Beurteilung: Simples Suffix-Stripping • ist zwar einfach (und daher schnell) es in der jeweiligen Sprache gar nicht gibt. • ist daher nur sehr beschränkt verwendbar -a -e -o -y 2. Mit 29 Anwendbarkeitsbedingungen (jedes 6.2 Kontextabhängiges stripping Suffix- der 294 Suffixe hat eine dieser Anwendbarkeitsbedingungen): Man versucht oft, durch den kontextabhängigen W-age → W sofern W > 3 Einsatz von Suffixregeln bessere Resultate zu W-ion → W sofern W > 3 und nicht nach L oder N erreichen. Bekannt sind in diesem Zusammenhang zwei Stemmer: Beispiel: production → product 1. Algorithmus von Lovins (halbwegs linguistisch basiert) 2. Algorithmus von Porter (wenig linguistisch basiert) 3. Mit 35 Rekodierungsregeln (recoding: “Flicken von Stämmen”): • Wortstammtransformationsregeln (Englisch): 5 Welche Suffixe gibt es? Was ist die Minimallänge eines Stamms 6 http://www.ifi.uzh.ch/arvo/cl/hess/classes/le/lovins_stemmer.html Reduzieren der Wortformen 6 {bb|dd|gg|mm|nn|pp|rr|ss|tt} | Suffix → |{b|d|g|m|n|p|r|s|t} (bei betonter Endsilbe) Beispiel: hopp|ing → hopp → hop • *d die Grundform endet auf Doppelvokal (z.B. -tt, -ll) • *o die Grundform endet auf cvc, wobei das zweite c nicht W, X oder Y ist (z.B. -wil, -hop) • -uct →-uc: production →produc [-er] -umpt→-um: consumption→consum [-er] -ond →-ons: responding →respons [-ive] CVCV...C VCVC...C -olut→-olv: resolution →resolv [-e] CVCV...V VCVC...V metr-→meter-: metrical Ein Wort (bzw. Teil davon) kann sein: →meter [-ing] Beispiel: resp. production → product → produc [C](VC)m [V] 6.3 Der Porter-Algorithmus Der Algorithmus von Porter (1980) 7 : 1. Suffixe sind in Klassen aufgeteilt: mit m ≥ 0 Porter nennt m das “Mass” eines Wortes oder Wortteils. Beispiele: (a) -s, -es, -sses, -ies, -ss, -eed, -ed, -ing etc. (Fle- [C] (VC)m [V] xion) (b) -ion, -tion, -ic, -ate, -ence, -ance etc. (Deri- m=0 vation) Ein Wort kann mehrere Suffixe aufweisen, aber nur eins pro Klasse m=1 ee by b y trouble tr oubl e pr iv at e trees Suffix-Klassen geordnet, immer längste Kette und Regeln tr oats 2. iteratives Suffix-Stripping in 5 Schritten, nach 3. Anwendbarkeitsregeln auf Stamm, Suffix tree ivy m=2 private troubles Begriffsunterscheidungen: m=3 • Vokale v sind A,E,I,O,U und Y nach Konso- thesaurus th es aur us consonsant nant Überlegen Sie sich, wie das Ergebnis für die • Konsonanten c sind der Rest fehlenden Beispiele aussehen würde (by, oats, • eine Kette aus einem oder mehreren v wird V trees..). geschrieben, analog C • (VC)m ist die m-fache Wiederholung von VC • [x] ist ein optionales Vorkommen von x • *S die Grundform eines Worts endet auf S (analog für andere Buchstaben) Die folgende Auswahl von Regeln soll zeigen, wie der Porter-Stemmer verschiedene Phänomene behandelt. Die Regeln müssen nicht notwendigerweise in dieser Reihenfolge abgearbeitet werden; die exakte Sequenzierung ist ein zusätzlich zur Regelformulierung zu lösendes Problem. • *v* die Grundform beinhaltet einen Vokal 7 Lokale Kopie: http://www.ifi.uzh.ch/cl/hess/classes/le/porter_stemmer.txt Reduzieren der Wortformen 7 Regeln (Auswahl): european/europe Regel 1: create/creation -sses → -ss (caresses → caress) -ies → -i (ponies → poni) -ss → -ss (caress → caress) -s → - (cats → cat) abschätzen zu können, betrachte man folgendes (m>0)ed → ee (feed → feed) Beispiel (mit Stopwortelimination) (*v*)ed → - (plastered → plaster) (*v*)ing → - (motoring → motor) (m>0)ational → ate (relational → relate) (m>0)tional → tion (conditional → condition) (m>0)enci → ence (valenci → valence) (m>0)izer → ize (digitizer → digitize) matrices/matrix Um die Leistungen dieses Stemmers grob Text: Regel 2: This document will describe marketing strategies carried out by U.S. companies for their agricultural chemicals, report predictions for Regel 3: (m>0)icate → ic (triplicate → triplic) market share of such chemicals, (m>0)ative → - (formative → form) or report market statistics for (m>0)alize → al (formalize → formal) agrochemicals, pesticide, herbicide, Regel 4: fungicide, insecticide, fertilizer, ((m>1) and predicted sales, market share, (*S or *T))ion → - (adoption → adopt) stimulate demand and price cut, (m>1)ou → - (homologous → homolog) volume of sales (m>1)ism → - (platonism → platon) → - (rate → rate) → - (cease → ceas) Regel 5: (m>1)e Extrahierte Terme: ((m=1) and not *o)e chemic report predict market share chemic report market statist agrochem ((m>1) and d and *L) → single letter market strateg carr compan agricultur (controll → Auch hier ist ein Hauptproblem die Erzeugung nicht existierender “Stämme”: iteration -> iter general -> gener control) pesticid harbicid fungicid insecticid fertil sale stimul demand price cut volum sale Beachte auch: Diese Art des Stemming führt im Deutschen zu deutlich schlechteren Resultaten, und zwar aus folgenden Gründen: Man könnte meinen, das sei kein Problem, da bei der Query ja derselbe Stamm erzeugt wird, aber: • Wortinterne Prozesse (v.a. Umlautung im Wortinneren: Baum/Bäume; Ablaut: lesen/liest/las), Präfigierung: lesen/gelesen 1. Die Präzision leidet (wegen künstlicher Ambiguitäten): {organization, organ} -> organ {policy, police} -> polic • Komposita lierung verhindern von L sinnvolle Constraints: FormuFerienen- de/lesende/Ende Sie finden hier eine ILAP, anhand derer Sie {execute, executive} -> execut herausfinden können, inwieweit Sie Trunkie- {arm, army} -> arm rung und Stemming allein mit regulären Aus- 2. Die Ausbeute leidet auch, weil verwandte Formen nicht identifiziert werden: drücken implementieren können, und was die Resultate im Deutschen und im Englischen sind: Reduzieren der Wortformen 8 und Komposition und Nachschlagen der po- (ILAP) Trunkierung mit regulären Ausdrücken tentiellen Grundform in einem Grundformenlexikon. Versuchen Sie nun insbesondere, die Leistungsfähigkeit des Porter-Stemmers genauer und gezielter in folgender ILAP zu ermitteln: (ILAP) Porter-Stemmer Nachdem Sie das Verhalten der verschiedenen Wortreduktionsmethoden in einem eher abstrakten Sinn kennengelernt haben, können Sie in der folgenden ILAP diese Methoden in einem konkreten Anwendungskontext (IR) ausprobieren und vergleichen: (ILAP) (Demo) Information Retrieval und Wortreduktion Schliesslich können Sie versuchen, die Ein Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz, aber effizienter bei der Verarbeitung (wenn richtig gespeichert, z.B. als “Trie” (Buchstabenbaum) oder als endliche Automaten). Sie können die Leistungsfähigkeit eines kommerziellen Morphologieanaylsesystems hier ermitteln: (ILAP) (Demo) Morphologische Analyse mit GERTWOL (SET) Was ist ein Lemma? 8 Echte Morphologieanalyse Regeln eines dieser Verfahren (des PorterStemmers) für diesen spezifischen Anwen- 8.1 Aspekte einer echten Morphologieanalyse dungskontext zu optimieren: (ILAP) IR mit eigenen Porterstemmer-Regeln Ziele (in der Theorie): 1. wohlgeformte Eingaben akzeptieren und Testen Sie schliesslich, ob Sie die Konzepte und Methoden des Stemming verinnerlicht ha- analysieren (also alle morphologischen Merkmale ermitteln) ben: 2. nicht wohlgeformte Eingaben zurückweisen (QUIZ) Stemming 7 Lemmatisierung Sie kennen nun die Grenzen der rein algorithmischen Wortreduktionsmethoden. Um besse- Beispiel: • akzeptiert werden sollten big, bigger, und biggest • aber nicht akzeptiert werden sollte aliver (als Komparativ von alive) re Resultate zu erreichen, sind linguistisch informierte Methoden unerlässlich: Die Reduktion der Wortformen auf ihre Grundform durch In der Praxis der Computerlinguistik wird das zweite Ziel nicht so hoch bewertet werden, da aliver kaum vorkommen wird. Aber: 1. Nachschlagen in einem Vollformenlexikon: Übergenerierung wie hier erzeugt immer spu- jede Wortform kann direkt im Lexikon nach- rious ambiguity (und beim Generieren würde es geschlagen werden. mit derartigen Regeln natürlich ganz chaotisch 2. Reduzieren der Wortform auf eine potentiel- werden). le Grundform durch Anwendung morpholo- Ein Fall von spurious ambiguity: Wenn -er gischer Regeln bezüglich Flexion, Derivation nicht nur als Suffix von Adjektiven, sondern von allen Typen von Wörtern erlaubt würde, so Reduzieren der Wortformen 9 würde writer zwei Analysen erhalten: Einmal er (korrekt) als agentives Suffix eines Verbs, und einmal als komparatives Suffix. In Morphologieanalyseprogrammen muss zumindest die Flexionsinformation ermittelt werden, und wenn möglich auch noch die Derivationsinformation. Wie das Resultat einer Morphologieanalyse aussieht, soll anhand des Outputs von PC-Kimmo gezeigt werden.8 1. Auflistung: explizite Liste: compute, computer, computerize, recompute, recomputerize 2. Regelbasierte L Ableitung (echte Derivation): Liste von Stämmen und Affixen (computer, +er, +ize und +ation) plus Regeln zu ihrer Kombination (morphologische Komponente einer Grammatik) Die echte Derivation ist der offensichtlich mächtigere Ansatz: Für die Wortformen 1. auch neue Wörter können erkannt werden. • fox (singular Substantiv) Wobei man noch unterscheiden muss, ob die- • foxes (ein regelmässiger Plural) se nur neu für das System oder echte Neologismen, und somit neu für den Menschen, • mice (ein unregelmässiger Plural) und • computer (von einem Verb abgeleitetes Sub- sind. 2. markant kleineres Wörterbuch stantiv) 3. theoretisch attraktiver, da dies ein Modell der ermittelt PC-Kimmo ‘fox [[ Sprache,und nicht einfach eine Liste, darstellt. ‘fox Allerdings gibt es auch Probleme mit dem number:SG pos: Derivations-Ansatz: N]] 1. Dekomposition kann zu Pseudo-Analysen (spurious parses) führen: ‘fox+s ‘fox [[ number:PL Wenn man das Suffix +age hat, um baggage, pos: acreage, voltage etc. abzuleiten, dann wird man N]] auch bekommen: cab → cabbage. Da das Suf‘mice ‘mouse [[ number:SG die falschen Analysen), könnte man in diesem pos: Fall auch die Derivate auflisten. fix +age jedoch recht selten ist (seltener als N]] com‘pute+er ‘computer [[ 2. Phonologische und/oder morphologische Ir- number:SG regularitäten: pos: reception N]] ist klarerweise abgeleitet vom Stamm receive plus NominalisierungssufJedes Wort hat: 1. das Merkmal number (da alle Wörter in dieser Liste Substantive sind) 2. ein Merkmal pos (part-of-speech). Zur Derivation: Für die Derivation gibt es zwei Strategien: fix -tion, ebenso wie deceive/deception, conceive/conception, perceive/perception. Der phonologische Abstand macht Derivations-Regeln (zwischen -ceive und -cep) sehr kompliziert. Da nur relativ wenig Wörter so gebildet werden, kann man • diese abgeleitete Formen explizit ins Lexikon schreiben 8 siehe auch Englex: A Computational Morphology of English: http://www.sil.org/pckimmo/v2/doc/englex.html Reduzieren der Wortformen 10 • ihre Herkunft aber im Lexikon angeben (V(re‘ceive)+NR) 8.2 Probleme der Mehrdeutigkeit Wie in anderen Bereichen der Computerlingui- 3. Viele abgeleitete Wörter erhalten eine neue stik quält uns auch in der Morphologie das Pro- (spezialisierte) Bedeutung: blem der Mehrdeutigkeit: business ist eine reguläre nominale Derivation 1. kategoriale Mehrdeutigkeit (besonders im Englischen sehr verbreitet): des Adjektivs busy, aber es hat nicht (mehr) die Bedeutung state of being busy. mean: Daher kann man • diese abgeleiteten Formen mit neuer Bedeutung ins Lexikon schreiben • die nicht mehr verfügbare abgeleitete 1. Substantiv (Durchschnitt) 2. Adjektiv (durchschnittlich) 3. Verb (bedeuten;im Sinn haben;..) can: Form (busy+ness AJ+NR) evtl. explizit 1. Substantiv (Büchse,Kanister;..) blockieren 2. Hilfsverb 4. Manche an sich klare Ableitungen sind im (können) 2. lexikalische Mehrdeutigkeit: normalen Sprachgebrauch nicht mehr bewusst: resilient ist (morphologisch und seman- mean (Adjektiv): tisch) transparent abgeleitet vom Verb resile. 1. durschnittlich Dies ist aber bloss noch etymologisch rele- 2. gemein, niederträchtig vant, daher werden in solchen Fällen abgeleitete Formen ins Lexikon aufgenommen. 3. Kombinationen von Mehrdeutigkeit und L Homonymie: Zur Komposition: Komposita und Nominal- mean: verkettungen kommen in drei Arten vor (im 1. Substantiv Englischen): 2. Adjektiv a. (durchschnittlich) solid hyphenated open “bedroom” “moth-eaten” “rose bush” Oft alle 3 wild durcheinander: on line, on-line, online. (Durchschnitt) b. (gemein, niederträchtig) 3. Verb 9 (bedeuten;im Sinn haben;..) Konkrete Systeme für die Morphologieanalyse Offene Komposita fallen eigentlich nicht in die Kompetenz eines Morphologieanalyseprogramms. Manche Systeme (z.B. PC-KIMMO) Eine kurze und sehr unvollständige Übersicht können nur Bindestrich-Komposita analysieren; über konkrete Systeme (kommerzielle und aka- die festen werden als einfache Lexeme behan- demische) für die Morphologieanalyse:9 delt, die offenen als zwei (rsp. mehrere) getrennte. Dies ist natürlich keine Lösung, schon gar nicht für Sprachen wie das Deutsche. GERTWOL kann Komposita sehr gut zerlegen. Bei der Analyse von geschlossenen (solid) Komposita entstehen allerdings teilweise bizarre Lesarten (siehe 9.3). 9.1 PC-KIMMO PC-KIMMO ist eine eigentliche Wortgrammatik mit entsprechender Analyseform als Baum. Das System verfügt über ca. 20’000 Lexikoneinträge und analysiert zwar Flexion und Derivationen, jedoch keine Komposita. Ausserdem ist PC-KIMMO gratis. 9 siehe auch http://www.ifi.uzh.ch/arvo/cl/InteractiveCLtools/index2.php#as-t1-Morp Reduzieren der Wortformen 11 enlargement: *buch+s+neutr+pl+dat --> *büchern Diese Systeme weisen eine hohe Korrektheit auf, 99% für orthographisch korrekten Text und über 98% für unbeschränkten Text. Einziger Nachteil: da es sich um kommerzielle Systeme handelt, sind sie nicht gratis. Die Grundlage für das Lexikon von GERTWOL bildet der Collins German Dictionary, zuätzlich wurde das Lexikon um 6’300 Substantive und 11’000 Eigennamen erweitert. Total: Word: [ head: 1. 11’000 Adjektive [ number:SG pos: N ] 2. 2’000 Adverbien lemma: ‘large 3. 400 Interjektionen lemma pos:AJ ] lemma pos ist die Wortart; Kimmo kann also auch als Teil eines Taggers verwendet werden. 9.2 4. 50’000 Substantive 5. 6’500 Verben 6. 12’000 Eigennamen Morphy Morphy (Lezius, 2000) ist ein frei verfügbares System zur Morphologieanalyse und Wortar- 7. 1’700 Abkürzungen Derivationen (˜ steht für Suffix): tenbestimmung im Deutschen. Das verwendete Lexikon umfasst ca. 16’500 Einträge. Komposita werden nicht analysiert. Morphy ist nur für ENGTWOL enlargement: Windows verfügbar und wird auch nicht mehr "<enlargement>" weiterentwickelt.10 "enlargement" N NOM SG 9.3 ENGTWOL/GERTWOL/etc. Engtwol und Gertwol sind kommerzielle Sy- GERTWOL: "<interessanten>" steme zur Morphologieanalyse, entwickelt von "interess˜ant" A POS SG AKK MASK der Firma Lingsoft in Finnland. Neben Flexion "interess˜ant" A POS SG DAT MASK und Derivation analysieren diese System auch "interess˜ant" A POS SG GEN MASK Komposita, ausserdem sind sie sehr schnell (200 "interess˜ant" A POS SG DAT NEUTR Wörter/sec auf Sun SPARCstation 2). Zusätzlich "interess˜ant" A POS SG GEN NEUTR zur Analyse gibt es auch eine Version, mit der "interess˜ant" A POS SG DAT FEM man Wortformen generieren kann: "interess˜ant" A POS SG GEN FEM "interess˜ant" A POS PL NOM "interess˜ant" A POS PL AKK "interess˜ant" A POS PL DAT "interess˜ant" A POS PL GEN lernen+v+ind+präs+sg3 --> lernt gut+a+komp+sg+akk+neutr --> besseres 10 siehe http://www.wolfganglezius.de/doku.php?id=public:cl:morphy Reduzieren der Wortformen 12 Die Ausgabeinformation ist sehr viel einfacher als PC-KIMMO, aber für viele Anwendungen genügend. Komposita werden analysiert: und, auch sehr schön: Abchasen: "<Abchasen>" Berg#wiese "Abchas˜e" S MASK PL NOM Schreib#maschine "Abchas˜e" S MASK PL AKK "Abchas˜e" S MASK PL DAT rache|durst˜ig "Abchas˜e" S MASK PL GEN fett|arm "Abchas˜e" S MASK SG GEN “#” trennt Elemente, die auch separat auftreten "Abchas˜e" S MASK SG DAT können, während “|” unselbständige Elemen- "Abchas˜e" S MASK SG AKK te trennt (u.a. Präpositionen, Präfixe). Fugen- "Abc#hase" S MASK PL NOM elemente, die besonders schwierig zu erkennen "Abc#hase" S MASK PL AKK sind, werden ebenfalls erkannt (markiert durch "Abc#hase" S MASK PL DAT “\”): "Abc#hase" S MASK PL GEN "Abc#hase" S MASK SG GEN "Abc#hase" S MASK SG DAT "Abc#hase" S MASK SG AKK Lehrling\s#not Wohnung\s#tür Strasse\n#bahn#linie Bund\es#verfassung\s#gericht Zu beachten sind insbesondere die von GERTWOL gelieferten z.T. recht bizarren (aber techni- Zum Ausprobieren: GERTWOL von LingSoft (SET) Was ist Morphologie? sche gesehen korrekten!) Analysen: 10 Fleischerzeugnis: "<*fleischerzeugnis>" "*fleischer#zeug˜nis" "*fleischer#zeug˜nis" "*fleischer#zeug˜nis" S NEUTR SG NOM S NEUTR SG AKK S NEUTR SG DAT "*fleisch#er|zeug˜nis" S NEUTR SG NOM "*fleisch#er|zeug˜nis" S NEUTR SG AKK "*fleisch#er|zeug˜nis" S NEUTR SG DAT "*fleisch˜er#zeug˜nis" S NEUTR SG NOM "*fleisch˜er#zeug˜nis" S NEUTR SG AKK "*fleisch˜er#zeug˜nis" S NEUTR SG DAT Schluss In vielen Anwendungenbereichen der Computerlinguistik ist man darauf angewiesen, dass man unterschiedliche Wortformen, die dieselben oder ähnliche Inhalte ausdrücken, auf eine gemeinsame Form bringen kann. Dies kann mit unterschiedlichen Mitteln erreicht werden (nach Aufwand geordnet): 1. Trunkierung ⇓ 2. Stemming oder ⇓ Regalbretter: "<*regalbretter>" "*regal#brett" "*regal#brett" "*regal#brett" 2a. kontextunabhängies Suffix-Stripping ⇓ S NEUTR PL NOM 2b. kontextabhängiges Suffix-Stipping S NEUTR PL AKK ⇓ S NEUTR PL GEN 3. Lemmatisierung "*reg#alb#rett˜er" "*reg#alb#rett˜er" S MASK SG NOM "*reg#alb#rett˜er" "*reg#alb#rett˜er" S MASK SG DAT S MASK PL NOM Grundsätzlich gilt: Je genauer das Vorgehen, de- "*reg#alb#rett˜er" "*reg#alb#rett˜er" S MASK PL AKK sto aufwendiger ist es zu realisieren. S MASK SG AKK S MASK PL GEN ⇓ 4. Morphologieanalyse Reduzieren der Wortformen 13 Literatur Hess, Michael: Einführung in die Computerlinguistik I: Interaktives Vorlesungsskript WS 04/05. Link: Skript ECL WS05, 2005 Lezius, Wolfgang: Morphy - German Morphology, Part-of-Speech Tagging and Applications. In Heid, Ulrich et al. (Hrsg.): Proceedings of the 9th EURALEX International Congress. Stuttgart, 2000 hURL: http://www.wolfganglezius.de/lib/exe/fetch.php?id=public%3Acl%3Amorphy\ &cache=cache\&media=public:cl:euralex2000.pdfi, 619–623 Lovins, J.B.: Development of a Stemming Algorithm. 1968, 220–31 Porter, Martin F.: An Algorithm for Suffix Stripping. Program, 14 1980, Nr. 3, 130–137 Salton, G.: Automatic Text Processing; The Transformation, Analysis, and Retrieval of Information by Computer. Reading, Mass.: Addison-Wesley, 1989 Smith, George W.: Computers and Human Language. New York/Oxford: Oxford University Press, 1991