LE-Text - Institut für Computerlinguistik

Transcription

Reduzieren der Wortformen
c
Clab-Team
Institut für Computerlinguistik
Universität Zürich
Dez. 2008
Zusammenfassung
Das Reduzieren von verschiedenen Wortformen des selben Wortes auf eine geeignete Grundform ist für viele Anwendungen in
der Computerlinguistik relevant. Dies kann einerseits durch einfache, algorithmische Verfahren wie Trunkierung oder Stemming
erreicht werden, oder über komplexere, aufwendigere Methoden, die viel linguistische Information benötigen. Diese reichen
von der relativ einfachen Lemmatisierung bis zur vollständigen
Morphologieanalyse. Je nach Anwendungsgebiet und Sprache
eignet sich die eine oder die andere Vorgehensweise.
1
1
Voraussetzungen
Derivation: Derivation erzeugt neue Wörter
(im Sinn von
L Lexemen) aus einem
Bevor Sie diese Lerneinheit bearbeiten, sollten
selbständigen Wort und verschiedenen L Af-
Sie einerseits wissen, was Tokenisierung ist (sie-
fixen:
he Hess (2005)), andererseits sollten Ihnen die
Ziele und Methoden des Information Retrieval
compute, computer, computerize, recompute, recomputerize etc.
(IR) bekannt sein (s. ebenfalls Hess (2005)).
Derivation verändert oft die Wortkategorie
(part-of-speech): compute ist ein Verb, computer ist
2
ein Substantiv.
Lernziel
Normalerweise wird auch semantischer Ge-
Sie sollten nicht nur in theoretischer Hinsicht
halt zugefügt: Das Präfix rein recompute be-
den Unterschied zwischen L Trunkierung, L
deutet wieder. compute, computes, computing, und
Stemming und echter Morphologieanalyse ken-
computed hingegen differieren nur in (bedeu-
nen, sondern auch abschätzen können, wie weit
tungsirrelevanten) Aspekten wie L Tempus, L
Trunkierung in einem konkreten Anwendungs-
Numerus, L Genus, L Kasus, Aspekt etc.
kontext ( L Information Retrieval) trägt. Sie sollten sodann selbständig Regeln für einen konkre-
Eine sehr komplexe Wortform, graphisch
veranschaulicht1 , siehe Abbildung 1.
(QUIZ) Grundlagen der Wortreduktion
ten Stemmer (Porter-Stemmer) für verschiedenen Sprachen schreiben können.
3
Flexion,
Derivation
und
Komposition
Die Vielfalt von Wortformen für dieselben oder
ähnliche Inhalte in natürlichen Sprachen erschwert das Suchen in Texten sehr. Die Komplexität von Wortformen ergibt sich aus den Operationen, die bei der Wort(form)bildung involviert
sind:
1. L Flexion (Konjugation, Deklination.., u.a.
Komposition Komposition erzeugt ein neues
mit Ablauten)
Wort aus mehreren selbständigen Wörtern:
2. L Derivation (Affixierung etc.)
Haus + Bau → Hausbau
(Zusammensetzung
Komposition ist ebenfalls semantisch rele-
selbständig existierender Wortformen zu neu-
vant; allerdings ist es oft sehr schwierig, die Be-
en Wörtern)
deutung eines Kompositums aus den Bedeutun-
L
3.
Komposition
gen der Einzelwörter systematisch zu ermitteln.
Flexion: Flexion erzeugt verschiedene Formen
desselben Lemmas (Grundform):
Hund → Hunde
Die Wortkategorie wird dadurch natürlich nicht
verändert, aber die Flexion ist semantisch relevant.
1
Vgl. Smith (1991).
4
Grundlegendes zur Wortreduktion
Eines der grundlegenden Probleme der textbezogenen Informationstechnologie besteht darin,
2
Texte so zu speichern, dass auf eine L Anfra-
• Trunkierung: Das Abtrennen einer bestimm-
ge hin möglichst alle relevanten Informationen
ten Anzahl von Zeichen am Wortende. Hier-
(und nur diese!) zurückgeliefert werden. Eine
bei muss man noch unterscheiden zwischen
erste wesentliche Hürde hierfür stellt die Vielfalt
dem Kürzen auf eine bestimmte Anzahl Zei-
von Formen dar, die Wörter, selbst bei gleichem
chen und dem Kürzen um eine bestimmte An-
Inhalt und gleicher Wortart, aufweisen.
Sogar im Englischen ist das ein echtes Pro-
zahl Zeichen. Beispiel:
blem:
{Museum, Museen, Mus, Muster}
→ mus
to mean →
mean
• Stemming: Die rein algorithmische Bestim-
means
mung von “Wortstämmen”, ohne Verwen-
meant
dung wortspezifischer, einzelsprachlicher In-
meaning
formation; oft ist das Gefundene daher keineswegs der L Stamm eines Worts im lingui-
Das offensichtliche Problem hierbei ist, dass
z.B. der Benutzer eines Dokumentenretrievalsystems grundsätzlich alle flektierten Formen jedes einzelnen Suchterms (also alle zu einem
stischen Sinn, weshalb der Begriff stemming eigentlich recht irreführend ist
{Museum, Museen} → muse
Wort gehörenden Wortformen) in seiner Anfra-
• Lemmatisierung: Reduktion der Wortform
ge eingeben müsste, um keine relevanten Dokumente zu verpassen. Er müsste also Anfragen
auf die linguistisch korrekte Grundform,
das sog. L Lemma (also das, was in ei-
stellen wie:
nem Wörterbuch den Eintrag einleitet) unter
Berücksichtigung einzelsprachlicher Regeln
(mean OR means OR meant OR meaning)
Weniger offensichtlich, aber mindestens so
der Wortbildung inkl. unregelmässigen Bildungen, also durch Benützung einzelsprachli-
schwerwiegend, ist das Problem, dass alle
cher Wortbildungsregeln und Wörterbücher:
brauchbaren Dokumentenretrievalsysteme die
{Museum, Museen} → Museum
Indexterme aufgrund ihrer Häufigkeit gewichten. Die L Gewichtung eines Terms hat grossen
Einfluss auf die Position eines Dokuments in der
Ergebnisliste. Beim Gewichten werden die extrem häufig vorkommenden Terme ebenso wie
• Morphologische Analyse: Ermittlung des
Lemmas und aller morphologischen Merkmale (wie Numerus, Genus, Kasus, Tempus,
L Modus etc.)
die extrem selten vorkommenden Terme gerne
Museen → Museum (Gender=Neutr,
ignoriert. Da nun aber, ohne besondere Vorkeh-
Number=Pl, Case=*)
rungen, jede gebeugte Form eines gegebenen
• Rooting: Manchmal ist noch das Isolieren der
Worts in einem Dokument als einzelnes Wort-
Wurzel sinnvoll. Das wird im Folgenden aber
vorkommen gezählt wird, wird das aufaddierte
nicht betrachtet.2
Total für dieses Wort (und damit sein Gewicht)
wahrscheinlich zu klein (da die selten vorkom-
Beispiel:
menden Beugungsformen ignoriert werden). Es
Farbe
|
ist daher fast unerlässlich, nur die “Grundform”
färben
|
der Wörter als Indexterme zu benutzen.
farbig
|
→ FARB
Prinzipiell gibt es mehrere Möglichkeiten,
um zu einer sinnvollen Grundform zu gelangen:
Aber: Die morphologische Analyse ist viel
aufwendiger zu automatisieren, deshalb hat
2
Rooting wird manchmal auch als Stemmatisierung bezeichnet. Das ist nicht dasselbe wie Stemming!
3
man meist versucht, so lange es geht, die einfa-
S-Algorithmus (mit m=1):
cheren oben genannten Methoden einzusetzen.
give | s
Welche dieser automatischen Methoden
kann man wann einsetzen?
cat
• Für schwach flektierende Sprachen (wie z.B.
Englisch) und für anspruchslose Aufgaben
| s
Dieses Verfahren ist:
kann man zur Not die Trunkierung anwen-
• schnell
den.
• sprachunabhängig (allerdings nur im Prinzip)
• Für morphologisch komplexere Sprachen
(wie z.B. Deutsch) und etwas anspruchsvollere Aufgaben ist aber zumindest Stemming
• für sehr viele Zwecke ungeeignet
Zum Letzten:
oder aber Lemmatisierung erforderlich. Hier-
• Beim Indexieren werden abide und abiding
bei kann man nach mehr oder weniger lingui-
unterschieden werden (siehe Beispiel oben),
stischen Prinzipien verfahren. In einer Spra-
weshalb beide Terme ein zu geringes Gewicht
che mit wenig L Morphologie wie dem Eng-
erhalten. Es handelt sich jedoch um Wortfor-
lischen kommt man mit relativ unlinguisti-
men des selben Wortes.
schen Methoden schon weit; man wird aber
• Für den Stil eines Autors mag es z.B. wich-
in jedem Fall nur die regelmässigen Bildun-
tig sein, wie oft er Wörter aus der Klasse ab-
gen erfassen.
hor verwendet, aber da abhor und abhorr unter-
• Für wirklich anspruchsvolle Anwendungen
ist eine echte und vollständige Morphologieanalyse erforderlich. Dieses Thema wird in
schieden werden, wird hier der Wert bei der
Zählung erneut zu gering ausfallen.
Ebenso: abet/abetto, abide/abidin
der Vorlesung “Morphologie und Lexikogra-
Kann man durch die Wahl anderer Werte für
phie” viel tiefer behandelt.
m die Situation verbessern? Nicht prinzipiell zwar fallen nun abide und abiding korrekterwei-
5
Trunkierung
se zusammen, aber dafür fälschlicherweise auch
aboriginal und abort:
Trunkierung einer Wortform heisst: eine fixe Anzahl (m) Zeichen am Anfang der Wortform be-
Beispiel mit m=4:
halten (T-Algorithmus), oder (seltener) vom En-
aber | ration
de der Wortform abschneiden (S-Algorithmus).
Beispiel (aus Celex):
abet |
T-Algorithmus (mit m=6):
aberra | tion
abet
abetto | r
abeyan | ce
abeyan | t
abhor
abet | tor
abey | ance
abey | ant
abho | r
abho | rrence
abho | rrent
abid | e
abid | ing
abhorr | ence
Scheint nicht sehr ins Gewicht zu fallen, aber:
abhorr | ent
abor | iginal
abide
abor | iginal
abidin | g
abor | igine
Abor | igine
4
abor | t
Im Englischen gibt es ca. 75 Präfixe und 250 Suf-
abor | tion
fixe. Ein kleiner Auszug:
abor | tionist
abor | tive
a-
anti-
de-
ex-
in-
pre-
re-
un-
Übereinstimmungen.
Testen Sie nun, ob Sie die Konzepte und
-able
-ages
-ance
-aric
-anced
-ature
-ble
-eature
Methoden des Trunkieren verinnerlicht haben:
-enced
-ened
-er
-fied
(QUIZ) Trunkieren
-icated
-ing
-ion
Hier gibt es nun schon sehr viele falsche
Das Entfernen von Präfixen ist zwar zu-
6
Stemming
verlässiger als das Entfernen von Suffixen, da
letztere oft orthographische Veränderungen in-
Stemming versucht den Stamm in etwas
volvieren (stratify → stratified). Je-
präziserer Weise zu isolieren.
doch verändern Präfixe die Bedeutung der
Stammwörter derart stark (asymmetry →
Methoden:
symmetry), dass das Entfernen von Präfixen
1. Kontextunabhängiges L Suffix-Stripping
für viele Zwecke nicht sinnvoll ist.
2. Kontextabhängiges Suffix-Stripping
fernen von Suffixen betrachtet.
6.1
Kontextunabhängiges
Stripping
Suffix-
Im Folgenden wird daher nur noch das Ent-
Resultate (Suffix-Stripping: einfacher exakter
longest match für obige Suffixe):
Am einfachsten sind jene Methoden, bei denen
asymmetry
→ asymmetry
Affixe aus einer vorgegebenen Liste abgetrennt
able
→ [ ]4
werden. Zu unterscheiden sind dabei:
interesting → interest
1. longest match: entferne (von hinten und/oder
von vorne) die längste Kette, die als Affix3
aufgelistet ist; siehe (Salton:381)
king
→ k
producer
→ produc
creature
→ cr
feature
→ f
2. shortest match: entferne die kürzeste Kette
3. in beiden Fällen: einfach oder iteriert; beim
iterativen Vorgehen werden wiederholt SuffiResultate (Suffix-Stripping: einfacher exakter
shortest match):
xe entfernt.
4. in beiden Fällen: entweder zuerst Präfixe und
dann Suffixe (→), oder umgekehrt (←).
asymmetry
able
→ symmetry
→ a
5. in beiden Fällen: exakter oder annähernder
Match. Beim partiellen Match genügt ein
interesting → interest
annäherndes Matchen mit z.B. einem Präfix:
king
→ k
producer
→ produc
sky ≈ ski
(skies → sky)
3
Affix sollte hier nicht als linguistisch korrekter Term aufgefasst werden!
4
[] = leere Menge
5
Zu unterscheiden ist im Folgenden klar der
creature
→ cre
feature
→ fe
L Algorithmus selbst und die konkreten L Parameter-Werte. Der Algorithmus ist sprachun-
Diese Verfahren ergeben also teilweise ausserordentlich merkwürdige Resultate. Einige davon
kann man unterdrücken, indem z.B. eine Minimallänge von 3 verbleibenden Zeichen verlangt
wird. Damit würden [], k, cr, f, a, k
und fe wegfallen.
Auch dann gilt aber: Neben der korrekten
Ermittlung von Stämmen für einige Wortformen erhält man für andere Wortformen inkorrekte Stämme, weil die potentiellen Affixe als
abhängig, die Parameter-Werte5 hingegen sind
es nicht.
6.2.1
Der Lovins-Algorithmus
Der Algorithmus von Lovins (1968). 6
1. Einfacher longest match gegen 294 Suffixe:
-alistically
-izationally
-arizability
...
Buchstabenkombination am Ende oder Beginn
einer Wortform vorkommen. Verwendet man
-able
-ably
-ages
-ally
eine längere Liste von Affixen als in diesem Bei-
-ance
-ancy
-ants
-aric
spiel, erhält man noch viel mehr unerwünschte
-arly
-ated
-ates
-atic
overstemming-Resultate. In bestimmtem Anwen-
-ator
-ealy
-edly
-eful
dungen (z.B. IR) schadet das oft wenig, in ande-
-eity
-ence
-ency
-ened
ren hingegen schon.
-enly
-eous
-hood
-ials
-ians
-ible
-ibly
-ical
-ides
-iers
-iful
-ines
-ings
-ions
-ious
-isms
-ists
-itic
-ized
-izer
• basiert aber nicht auf linguistischen Prinzi-
-less
-lily
-ness
-ogen
pien, und overstemming ist daher ein grosses
-ward
-wise
-ying
-yish
Problem, da “Stämme” ermittelt werden, die
...
-i
-s
Beurteilung: Simples Suffix-Stripping
• ist zwar einfach (und daher schnell)
es in der jeweiligen Sprache gar nicht gibt.
• ist daher nur sehr beschränkt verwendbar
-a
-e
-o
-y
2. Mit 29 Anwendbarkeitsbedingungen (jedes
6.2
Kontextabhängiges
stripping
Suffix-
der 294 Suffixe hat eine dieser Anwendbarkeitsbedingungen):
Man versucht oft, durch den kontextabhängigen
W-age → W
sofern W > 3
Einsatz von Suffixregeln bessere Resultate zu
W-ion → W
sofern W > 3 und
nicht nach L oder N
erreichen. Bekannt sind in diesem Zusammenhang zwei Stemmer:
Beispiel: production
→ product
1. Algorithmus von Lovins (halbwegs linguistisch basiert)
2. Algorithmus von Porter (wenig linguistisch
basiert)
3. Mit
35
Rekodierungsregeln
(recoding:
“Flicken von Stämmen”):
• Wortstammtransformationsregeln (Englisch):
5
Welche Suffixe gibt es? Was ist die Minimallänge eines Stamms
6
http://www.ifi.uzh.ch/arvo/cl/hess/classes/le/lovins_stemmer.html
6
{bb|dd|gg|mm|nn|pp|rr|ss|tt} | Suffix
→
|{b|d|g|m|n|p|r|s|t}
(bei betonter Endsilbe)
Beispiel: hopp|ing → hopp → hop
• *d die Grundform endet auf Doppelvokal
(z.B. -tt, -ll)
• *o die Grundform endet auf cvc, wobei das
zweite c nicht W, X oder Y ist (z.B. -wil, -hop)
• -uct →-uc:
production →produc [-er]
-umpt→-um:
consumption→consum [-er]
-ond →-ons:
responding →respons [-ive]
CVCV...C
VCVC...C
-olut→-olv:
resolution →resolv [-e]
CVCV...V
VCVC...V
metr-→meter-: metrical
Ein Wort (bzw. Teil davon) kann sein:
→meter [-ing]
Beispiel:
resp.
production → product → produc
[C](VC)m [V]
6.3
Der Porter-Algorithmus
Der Algorithmus von Porter (1980) 7 :
1. Suffixe sind in Klassen aufgeteilt:
mit m ≥ 0
Porter nennt m das “Mass” eines Wortes oder
Wortteils. Beispiele:
(a) -s, -es, -sses, -ies, -ss, -eed, -ed, -ing etc. (Fle-
[C]
(VC)m
[V]
xion)
(b) -ion, -tion, -ic, -ate, -ence, -ance etc. (Deri-
m=0
vation)
Ein Wort kann mehrere Suffixe aufweisen,
aber nur eins pro Klasse
m=1
ee
by
b
y
trouble
tr
oubl
e
pr
iv at
e
trees
Suffix-Klassen geordnet, immer längste Kette
und Regeln
tr
oats
2. iteratives Suffix-Stripping in 5 Schritten, nach
3. Anwendbarkeitsregeln auf Stamm, Suffix
tree
ivy
m=2
private
troubles
Begriffsunterscheidungen:
m=3
• Vokale v sind A,E,I,O,U und Y nach Konso-
thesaurus
th
es aur us
consonsant
nant
Überlegen Sie sich, wie das Ergebnis für die
• Konsonanten c sind der Rest
fehlenden Beispiele aussehen würde (by, oats,
• eine Kette aus einem oder mehreren v wird V
trees..).
geschrieben, analog C
• (VC)m ist die m-fache Wiederholung von VC
• [x] ist ein optionales Vorkommen von x
• *S die Grundform eines Worts endet auf S
(analog für andere Buchstaben)
Die folgende Auswahl von Regeln soll
zeigen, wie der Porter-Stemmer verschiedene
Phänomene behandelt. Die Regeln müssen nicht
notwendigerweise in dieser Reihenfolge abgearbeitet werden; die exakte Sequenzierung ist ein
zusätzlich zur Regelformulierung zu lösendes
Problem.
• *v* die Grundform beinhaltet einen Vokal
7
Lokale Kopie: http://www.ifi.uzh.ch/cl/hess/classes/le/porter_stemmer.txt
7
Regeln (Auswahl):
european/europe
Regel 1:
create/creation
-sses
→
-ss
(caresses
→
caress)
-ies
→
-i
(ponies
→
poni)
-ss
→
-ss
(caress
→
caress)
-s
→
-
(cats
→
cat)
abschätzen zu können, betrachte man folgendes
(m>0)ed
→
ee
(feed
→
feed)
Beispiel (mit Stopwortelimination)
(*v*)ed
→
-
(plastered
→
plaster)
(*v*)ing
→
-
(motoring
→
motor)
(m>0)ational
→
ate
(relational
→
relate)
(m>0)tional
→
tion
(conditional
→
condition)
(m>0)enci
→
ence
(valenci
→
valence)
(m>0)izer
→
ize
(digitizer
→
digitize)
matrices/matrix
Um die Leistungen dieses Stemmers grob
Text:
Regel 2:
This document will describe marketing
strategies carried out by U.S.
companies for their agricultural
chemicals, report predictions for
Regel 3:
(m>0)icate
→
ic
(triplicate
→
triplic)
market share of such chemicals,
(m>0)ative
→
-
(formative
→
form)
or report market statistics for
(m>0)alize
→
al
(formalize
→
formal)
agrochemicals, pesticide, herbicide,
Regel 4:
fungicide, insecticide, fertilizer,
((m>1) and
predicted sales, market share,
(*S or *T))ion
→
-
(adoption
→
adopt)
stimulate demand and price cut,
(m>1)ou
→
-
(homologous
→
homolog)
volume of sales
(m>1)ism
→
-
(platonism
→
platon)
→
-
(rate
→
rate)
→
-
(cease
→
ceas)
Regel 5:
(m>1)e
Extrahierte Terme:
((m=1) and
not *o)e
chemic report predict market share
chemic report market statist agrochem
((m>1) and
d and *L)
→
single
letter
market strateg carr compan agricultur
(controll
→
Auch hier ist ein Hauptproblem die Erzeugung nicht existierender “Stämme”:
iteration -> iter
general -> gener
control)
pesticid harbicid fungicid insecticid
fertil sale stimul demand price cut
volum sale
Beachte auch: Diese Art des Stemming führt
im Deutschen zu deutlich schlechteren Resultaten, und zwar aus folgenden Gründen:
Man könnte meinen, das sei kein Problem,
da bei der Query ja derselbe Stamm erzeugt
wird, aber:
• Wortinterne
Prozesse
(v.a.
Umlautung
im Wortinneren: Baum/Bäume; Ablaut: lesen/liest/las), Präfigierung: lesen/gelesen
1. Die Präzision leidet (wegen künstlicher Ambiguitäten):
{organization, organ} -> organ
{policy, police} -> polic
• Komposita
lierung
verhindern
von
L
sinnvolle
Constraints:
FormuFerienen-
de/lesende/Ende
Sie finden hier eine ILAP, anhand derer Sie
{execute, executive} -> execut
herausfinden können, inwieweit Sie Trunkie-
{arm, army} -> arm
rung und Stemming allein mit regulären Aus-
2. Die Ausbeute leidet auch, weil verwandte
Formen nicht identifiziert werden:
drücken implementieren können, und was die
Resultate im Deutschen und im Englischen sind:
8
und Komposition und Nachschlagen der po-
(ILAP) Trunkierung mit regulären Ausdrücken
tentiellen Grundform in einem Grundformenlexikon.
Versuchen Sie nun insbesondere, die Leistungsfähigkeit des Porter-Stemmers genauer
und gezielter in folgender ILAP zu ermitteln:
(ILAP) Porter-Stemmer
Nachdem Sie das Verhalten der verschiedenen Wortreduktionsmethoden in einem eher abstrakten Sinn kennengelernt haben, können Sie
in der folgenden ILAP diese Methoden in einem
konkreten Anwendungskontext (IR) ausprobieren und vergleichen:
(ILAP) (Demo) Information Retrieval und Wortreduktion
Schliesslich können Sie versuchen, die
Ein Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz, aber effizienter bei der Verarbeitung (wenn richtig gespeichert, z.B. als “Trie”
(Buchstabenbaum) oder als endliche Automaten).
Sie können die Leistungsfähigkeit eines
kommerziellen
Morphologieanaylsesystems
hier ermitteln:
(ILAP) (Demo) Morphologische Analyse mit
GERTWOL
(SET) Was ist ein Lemma?
8
Echte Morphologieanalyse
Regeln eines dieser Verfahren (des PorterStemmers) für diesen spezifischen Anwen-
8.1
Aspekte einer echten Morphologieanalyse
dungskontext zu optimieren:
(ILAP) IR mit eigenen Porterstemmer-Regeln
Ziele (in der Theorie):
1. wohlgeformte Eingaben akzeptieren und
Testen Sie schliesslich, ob Sie die Konzepte
und Methoden des Stemming verinnerlicht ha-
analysieren (also alle morphologischen Merkmale ermitteln)
ben:
2. nicht wohlgeformte Eingaben zurückweisen
(QUIZ) Stemming
7
Lemmatisierung
Sie kennen nun die Grenzen der rein algorithmischen Wortreduktionsmethoden. Um besse-
Beispiel:
• akzeptiert werden sollten big, bigger, und biggest
• aber nicht akzeptiert werden sollte aliver (als
Komparativ von alive)
re Resultate zu erreichen, sind linguistisch informierte Methoden unerlässlich: Die Reduktion der Wortformen auf ihre Grundform durch
In der Praxis der Computerlinguistik wird
das zweite Ziel nicht so hoch bewertet werden, da aliver kaum vorkommen wird. Aber:
1. Nachschlagen in einem Vollformenlexikon:
Übergenerierung wie hier erzeugt immer spu-
jede Wortform kann direkt im Lexikon nach-
rious ambiguity (und beim Generieren würde es
geschlagen werden.
mit derartigen Regeln natürlich ganz chaotisch
2. Reduzieren der Wortform auf eine potentiel-
werden).
le Grundform durch Anwendung morpholo-
Ein Fall von spurious ambiguity: Wenn -er
gischer Regeln bezüglich Flexion, Derivation
nicht nur als Suffix von Adjektiven, sondern
von allen Typen von Wörtern erlaubt würde, so
9
würde writer zwei Analysen erhalten: Einmal er (korrekt) als agentives Suffix eines Verbs, und
einmal als komparatives Suffix.
In Morphologieanalyseprogrammen muss
zumindest die Flexionsinformation ermittelt
werden, und wenn möglich auch noch die Derivationsinformation. Wie das Resultat einer Morphologieanalyse aussieht, soll anhand des Outputs von PC-Kimmo gezeigt werden.8
1. Auflistung: explizite Liste: compute, computer,
computerize, recompute, recomputerize
2. Regelbasierte L Ableitung (echte Derivation): Liste von Stämmen und Affixen (computer, +er, +ize und +ation) plus Regeln zu ihrer
Kombination (morphologische Komponente
einer Grammatik)
Die echte Derivation ist der offensichtlich
mächtigere Ansatz:
Für die Wortformen
1. auch neue Wörter können erkannt werden.
• fox (singular Substantiv)
Wobei man noch unterscheiden muss, ob die-
• foxes (ein regelmässiger Plural)
se nur neu für das System oder echte Neologismen, und somit neu für den Menschen,
• mice (ein unregelmässiger Plural) und
• computer (von einem Verb abgeleitetes Sub-
sind.
2. markant kleineres Wörterbuch
stantiv)
3. theoretisch attraktiver, da dies ein Modell der
ermittelt PC-Kimmo
‘fox
[[
Sprache,und nicht einfach eine Liste, darstellt.
‘fox
Allerdings gibt es auch Probleme mit dem
number:SG
pos:
Derivations-Ansatz:
N]]
1. Dekomposition kann zu Pseudo-Analysen
(spurious parses) führen:
‘fox+s
‘fox
[[
number:PL
Wenn man das Suffix +age hat, um baggage,
pos:
acreage, voltage etc. abzuleiten, dann wird man
N]]
auch bekommen: cab → cabbage. Da das Suf‘mice
‘mouse
[[
number:SG
die falschen Analysen), könnte man in diesem
pos:
Fall auch die Derivate auflisten.
fix +age jedoch recht selten ist (seltener als
N]]
com‘pute+er ‘computer
[[
2. Phonologische und/oder morphologische Ir-
number:SG
regularitäten:
pos:
reception
N]]
ist
klarerweise
abgeleitet
vom
Stamm receive plus NominalisierungssufJedes Wort hat:
1. das Merkmal number (da alle Wörter in dieser Liste Substantive sind)
2. ein Merkmal pos (part-of-speech).
Zur Derivation: Für die Derivation gibt es zwei
Strategien:
fix -tion, ebenso wie deceive/deception, conceive/conception, perceive/perception. Der phonologische Abstand macht Derivations-Regeln
(zwischen -ceive und -cep) sehr kompliziert.
Da nur relativ wenig Wörter so gebildet werden, kann man
• diese abgeleitete Formen explizit ins Lexikon schreiben
8
siehe auch Englex: A Computational Morphology of English: http://www.sil.org/pckimmo/v2/doc/englex.html
10
• ihre Herkunft aber im Lexikon angeben
(V(re‘ceive)+NR)
8.2
Probleme der Mehrdeutigkeit
Wie in anderen Bereichen der Computerlingui-
3. Viele abgeleitete Wörter erhalten eine neue
stik quält uns auch in der Morphologie das Pro-
(spezialisierte) Bedeutung:
blem der Mehrdeutigkeit:
business ist eine reguläre nominale Derivation
1. kategoriale Mehrdeutigkeit (besonders im
Englischen sehr verbreitet):
des Adjektivs busy, aber es hat nicht (mehr)
die Bedeutung state of being busy.
mean:
Daher kann man
• diese abgeleiteten Formen mit neuer Bedeutung ins Lexikon schreiben
• die nicht mehr verfügbare abgeleitete
1.
Substantiv (Durchschnitt)
2.
Adjektiv
(durchschnittlich)
3.
Verb
(bedeuten;im Sinn haben;..)
can:
Form (busy+ness AJ+NR) evtl. explizit
1.
Substantiv (Büchse,Kanister;..)
blockieren
2.
Hilfsverb
4. Manche an sich klare Ableitungen sind im
(können)
2. lexikalische Mehrdeutigkeit:
normalen Sprachgebrauch nicht mehr bewusst: resilient ist (morphologisch und seman-
mean (Adjektiv):
tisch) transparent abgeleitet vom Verb resile.
1. durschnittlich
Dies ist aber bloss noch etymologisch rele-
2. gemein, niederträchtig
vant, daher werden in solchen Fällen abgeleitete Formen ins Lexikon aufgenommen.
3. Kombinationen von Mehrdeutigkeit und L
Homonymie:
Zur Komposition: Komposita und Nominal-
mean:
verkettungen kommen in drei Arten vor (im
1. Substantiv
Englischen):
2. Adjektiv a. (durchschnittlich)
solid
hyphenated
open
“bedroom”
“moth-eaten”
“rose bush”
Oft alle 3 wild durcheinander: on line, on-line,
online.
(Durchschnitt)
b. (gemein, niederträchtig)
3. Verb
9
(bedeuten;im Sinn haben;..)
Konkrete Systeme für die
Morphologieanalyse
Offene Komposita fallen eigentlich nicht in
die Kompetenz eines Morphologieanalyseprogramms. Manche Systeme (z.B. PC-KIMMO)
Eine kurze und sehr unvollständige Übersicht
können nur Bindestrich-Komposita analysieren;
über konkrete Systeme (kommerzielle und aka-
die festen werden als einfache Lexeme behan-
demische) für die Morphologieanalyse:9
delt, die offenen als zwei (rsp. mehrere) getrennte. Dies ist natürlich keine Lösung, schon gar
nicht für Sprachen wie das Deutsche. GERTWOL kann Komposita sehr gut zerlegen. Bei
der Analyse von geschlossenen (solid) Komposita entstehen allerdings teilweise bizarre Lesarten (siehe 9.3).
9.1
PC-KIMMO
PC-KIMMO ist eine eigentliche Wortgrammatik mit entsprechender Analyseform als Baum.
Das System verfügt über ca. 20’000 Lexikoneinträge und analysiert zwar Flexion und Derivationen, jedoch keine Komposita. Ausserdem ist
PC-KIMMO gratis.
9
siehe auch http://www.ifi.uzh.ch/arvo/cl/InteractiveCLtools/index2.php#as-t1-Morp
11
enlargement:
*buch+s+neutr+pl+dat
--> *büchern
Diese Systeme weisen eine hohe Korrektheit auf, 99% für orthographisch korrekten Text
und über 98% für unbeschränkten Text. Einziger
Nachteil: da es sich um kommerzielle Systeme
handelt, sind sie nicht gratis. Die Grundlage für
das Lexikon von GERTWOL bildet der Collins
German Dictionary, zuätzlich wurde das Lexikon um 6’300 Substantive und 11’000 Eigennamen erweitert.
Total:
Word:
[ head:
1. 11’000 Adjektive
[ number:SG
pos:
N ]
2. 2’000 Adverbien
lemma: ‘large
3. 400 Interjektionen
lemma pos:AJ ]
lemma pos ist die Wortart; Kimmo kann also
auch als Teil eines Taggers verwendet werden.
9.2
4. 50’000 Substantive
5. 6’500 Verben
6. 12’000 Eigennamen
Morphy
Morphy (Lezius, 2000) ist ein frei verfügbares
System zur Morphologieanalyse und Wortar-
7. 1’700 Abkürzungen
Derivationen (˜ steht für Suffix):
tenbestimmung im Deutschen. Das verwendete
Lexikon umfasst ca. 16’500 Einträge. Komposita werden nicht analysiert. Morphy ist nur für
ENGTWOL
enlargement:
Windows verfügbar und wird auch nicht mehr
"<enlargement>"
weiterentwickelt.10
"enlargement" N NOM SG
9.3
ENGTWOL/GERTWOL/etc.
Engtwol und Gertwol sind kommerzielle Sy-
GERTWOL:
"<interessanten>"
steme zur Morphologieanalyse, entwickelt von
"interessãnt"
A POS SG AKK MASK
der Firma Lingsoft in Finnland. Neben Flexion
"interessãnt"
A POS SG DAT MASK
und Derivation analysieren diese System auch
"interessãnt"
A POS SG GEN MASK
Komposita, ausserdem sind sie sehr schnell (200
"interessãnt"
A POS SG DAT NEUTR
Wörter/sec auf Sun SPARCstation 2). Zusätzlich
"interessãnt"
A POS SG GEN NEUTR
zur Analyse gibt es auch eine Version, mit der
"interessãnt"
A POS SG DAT FEM
man Wortformen generieren kann:
"interessãnt"
A POS SG GEN FEM
"interessãnt"
A POS PL NOM
"interessãnt"
A POS PL AKK
"interessãnt"
A POS PL DAT
"interessãnt"
A POS PL GEN
lernen+v+ind+präs+sg3
--> lernt
gut+a+komp+sg+akk+neutr --> besseres
10
siehe http://www.wolfganglezius.de/doku.php?id=public:cl:morphy
12
Die Ausgabeinformation ist sehr viel einfacher
als PC-KIMMO, aber für viele Anwendungen
genügend. Komposita werden analysiert:
und, auch sehr schön:
Abchasen:
"<Abchasen>"
Berg#wiese
"Abchas˜e"
S MASK PL NOM
Schreib#maschine
"Abchas˜e"
S MASK PL AKK
"Abchas˜e"
S MASK PL DAT
rache|durst˜ig
"Abchas˜e"
S MASK PL GEN
fett|arm
"Abchas˜e"
S MASK SG GEN
“#” trennt Elemente, die auch separat auftreten
"Abchas˜e"
S MASK SG DAT
können, während “|” unselbständige Elemen-
"Abchas˜e"
S MASK SG AKK
te trennt (u.a. Präpositionen, Präfixe). Fugen-
"Abc#hase"
S MASK PL NOM
elemente, die besonders schwierig zu erkennen
"Abc#hase"
S MASK PL AKK
sind, werden ebenfalls erkannt (markiert durch
"Abc#hase"
S MASK PL DAT
“\”):
"Abc#hase"
S MASK PL GEN
"Abc#hase"
S MASK SG GEN
"Abc#hase"
S MASK SG DAT
"Abc#hase"
S MASK SG AKK
Lehrling\s#not
Wohnung\s#tür
Strasse\n#bahn#linie
Bund\es#verfassung\s#gericht
Zu beachten sind insbesondere die von GERTWOL gelieferten z.T. recht bizarren (aber techni-
Zum Ausprobieren: GERTWOL von LingSoft
(SET) Was ist Morphologie?
sche gesehen korrekten!) Analysen:
10
Fleischerzeugnis:
"<*fleischerzeugnis>"
"*fleischer#zeugñis"
S NEUTR SG NOM
S NEUTR SG AKK
S NEUTR SG DAT
"*fleisch#er|zeugñis" S NEUTR SG NOM
"*fleisch#er|zeugñis" S NEUTR SG AKK
"*fleisch#er|zeugñis" S NEUTR SG DAT
"*fleisch˜er#zeugñis" S NEUTR SG NOM
"*fleisch˜er#zeugñis" S NEUTR SG AKK
"*fleisch˜er#zeugñis" S NEUTR SG DAT
Schluss
In vielen Anwendungenbereichen der Computerlinguistik ist man darauf angewiesen, dass
man unterschiedliche Wortformen, die dieselben oder ähnliche Inhalte ausdrücken, auf eine
gemeinsame Form bringen kann. Dies kann mit
unterschiedlichen Mitteln erreicht werden (nach
Aufwand geordnet):
1. Trunkierung
⇓
2. Stemming
oder
⇓
Regalbretter:
"<*regalbretter>"
"*regal#brett"
"*regal#brett"
"*regal#brett"
2a. kontextunabhängies Suffix-Stripping
⇓
S NEUTR PL NOM
2b. kontextabhängiges Suffix-Stipping
S NEUTR PL AKK
⇓
S NEUTR PL GEN
3. Lemmatisierung
"*reg#alb#rett˜er"
"*reg#alb#rett˜er"
S MASK SG NOM
"*reg#alb#rett˜er"
"*reg#alb#rett˜er"
S MASK SG DAT
S MASK PL NOM
Grundsätzlich gilt: Je genauer das Vorgehen, de-
"*reg#alb#rett˜er"
"*reg#alb#rett˜er"
S MASK PL AKK
sto aufwendiger ist es zu realisieren.
S MASK SG AKK
S MASK PL GEN
⇓
4. Morphologieanalyse
13
Literatur
Hess, Michael: Einführung in die Computerlinguistik I: Interaktives Vorlesungsskript WS 04/05. Link: Skript
ECL WS05, 2005
Lezius, Wolfgang: Morphy - German Morphology, Part-of-Speech Tagging and Applications. In Heid,
Ulrich et al. (Hrsg.): Proceedings of the 9th EURALEX International Congress. Stuttgart, 2000
hURL: http://www.wolfganglezius.de/lib/exe/fetch.php?id=public%3Acl%3Amorphy\
&cache=cache\&media=public:cl:euralex2000.pdfi, 619–623
Lovins, J.B.: Development of a Stemming Algorithm. 1968, 220–31
Porter, Martin F.: An Algorithm for Suffix Stripping. Program, 14 1980, Nr. 3, 130–137
Salton, G.: Automatic Text Processing; The Transformation, Analysis, and Retrieval of Information by Computer. Reading, Mass.: Addison-Wesley, 1989
Smith, George W.: Computers and Human Language. New York/Oxford: Oxford University Press, 1991

LE-Text - Institut für Computerlinguistik

Transcription

Similar documents

HS 2011: Einführung in die Computerlinguistik I

Wir und die anderen

Segmentierung von Anfragen an Suchmaschinen Bachelorarbeit

Einführung in die Computerlinguistik I

Die Sprache der Trauernden. Eine transkulturelle