NP - IDA

Transcription

NP - IDA
SYNTAKTISK ANALYS (1)
Marco Kuhlmann
Institutionen för datavetenskap
Ordklasstaggning
▶ Ordklasser
▶ Metod 1: Regelbaserad taggning
▶ Metod 2: HMM-taggning
▶ Metod 3: Perceptron-taggning
▶ Utvärdering
Syntaktisk parsning
Syntaktisk parsning är uppgiften att förse en mening med en
beskrivning av dess syntaktiska struktur.
▶ Analysera ordens funktion i en sats utifrån satsens helhet.
▶ Ta ut satsdelar.
▶ Hitta predikat, subjekt, objekt, predikativ, adverbial, attribut.
Syntaktisk parsning kan även kallas automatisk satslösning.
Frasstrukturträd och dependensträd
S
NP
VP
subj
Lotta
V
NP
lånar
cykeln
helhet – del
Lotta
obj
lånar
cykeln
huvud – dependent
Struktur
▶ frasstrukturgrammatiker
▶ trädbanker
▶ probabilistiska kontextfria grammatiker (PCFG:er)
Frasstrukturgrammatiker
Fraser
▶ Frasstrukturgrammatikens grundläggande observation är att
ordgrupper kan ibland fungera som enskilda ord.
Exempel: Statsministern. En stad av samma storlek som Linköping.
Elin i Hagen. Hon och var och en av oss.
▶ Sådana ordgrupper kallas fraser.
Exempel på fraser
▶ nominalfraser (NP)
hon. Fredrik Reinfeldt och de nya Moderaterna. ett sådant klassiskt ställe som Operakällaren.
▶ verbfraser (VP)
rodnade. bad henne att sätta sig hos honom. levde lyckliga i alla sina dagar.
Frasstrukturgrammatik
▶ Fraser kan sättas ihop för att bilda större fraser.
▶ Detta ger upphov till en hierarkisk struktur som kan beskrivas
med hjälp av en frasstrukturgrammatik.
Kontextfri grammatik (CFG)
▶ Kontextfri grammatik är en enkel formalism för att beskriva den syntaktiska strukturen hos naturliga språk (och programspråk).
Noam Chomsky
▶ En kontextfri grammatik består i huvudsak av ett antal regler
som beskriver hur fraser (icke-terminaler) kan delas upp i
mindre fraser, ända ner till ordnivån (terminaler).
En exempelgrammatik
Regel
Exempel
S → NP VP
I + want a morning flight
NP → Pronoun
I
NP → Proper-Noun
Los Angeles
NP → Det Nominal
a flight
Nominal → Nominal Noun
morning flight
Nominal → Noun
flights
VP → Verb
do
VP → Verb NP
want + a flight
VP → Verb NP PP
leave + Boston + in the morning
VP → Verb PP
leaving + on Thursday
PP → Preposition NP
from + Los Angeles
Regelnotation
vänsterledet
S → NP VP
högerleden
”En mening (S) består av en nominalfras (NP) och en verbfras (VP).”
Frasstrukturträd
S
NP
VP
Pro
Verb
I
prefer
NP
Det
a
Nom
Nom
Noun
Noun
flight
morning
Övningsuppgift
Skriv en kontextfri grammatik för nominalfraser av följande form:
▶ kvinnan [som hunden såg]
▶ kvinnan [som hunden [som katten jagade] såg]
▶ kvinnan [som hunden [som katten [som fågeln åt] jagade] såg]
▶ etc.
Kontextfria grammatiker som språkmodeller
▶ Kontextfria grammatiker kan modellera många intressanta
aspekter hos naturliga språk.
Exempel: språklig kreativitet, inbäddade strukturer
▶ Men det finns andra aspekter som de inte är så bra på eller inte
kan modellera alls.
Exempel: kongruensböjning, korsande dependenser
Kongruensböjning
▶ På engelska måste ett subjekt ha samma numerus som det verb
det är kopplat till.
Exempel: *[A flight] [leave Boston in the morning].
▶ Reglerna från vår exempelgrammatik fångar inte in detta. Man
säger att grammatiken övergenererar.
Kongruensböjning
▶ Ett sätt att lösa problemet är att specialisera reglerna med
morfologiska särdrag:
Regel
Exempel
S → NP[sg] VP[sg]
this flight + leaves on Monday
NP[sg] → Det[sg] Nom[sg]
this + flight
VP[sg] → Verb[sg] PP
leaves + on Monday
NP[pl] → Det[pl] NP[pl]
these + flights
▶ Detta gör dock att grammatiken blir väldigt stor.
Ord–ord dependenser
dass
Jan
Piet
Marie
lesen
helfen
sah
Korsande dependenser
dat
Jan
Piet
Marie
zag
helpen
lezen
Chomsky-hierarkin
rekursivt uppräkningsbara språk
kontextkänsliga språk
kontextfria språk
reguljära språk
Trädbanker
Datadrivna grammatiker
▶ Inom datorlingvistiken har man utvecklat stora grammatiker
med tusentals handskrivna regler.
▶ Dessa grammatiker är mycket värdefulla eftersom de bygger på
stor lingvistisk kunskap.
▶ Ett problem med dem är att de inte är robusta: Det finns alltid
meningar som de inte kan hantera.
Trädbanker
▶ De flesta moderna syntaktiska parsrarna tränas med hjälp av
redan parsade (uppmärkta) meningar.
▶ Sådana korpusar med syntaktiska analyser kallas trädbanker.
▶ Trädbanker innehåller ofta även annan lingvistik information,
som t.ex. morfologiska särdrag och ordklasser.
Penn Treebank
( (S (NP-SBJ (NP (NNP Pierre) (NNP Vinken) )
(, ,) (ADJP (NP (CD 61) (NNS years) )
(JJ old) )
(, ,) )
(VP (MD will) (VP (VB join) (NP (DT the) (NN board) )
(PP-CLR (IN as) (NP (DT a) (JJ nonexecutive) (NN director) ))
(NP-TMP (NNP Nov.) (CD 29) )))
(. .) ))
Pierre Vinken (1927–2011)
Trädbankgrammatiker
Från en frasstrukturträdbank kan vi bygga en grammatik genom att
läsa av regler från träden:
Grammatikregel
Täcker denna del av meningen
S → NP-SBJ VP .
Pierre Vinken … Nov. 29.
NP-SBJ → NP , ADJP ,
Pierre Vinken, 61 years old,
VP → MD VP
will join the board …
NP → DT NN
the board
Trädbanksgrammatiker
▶ Trädbanksgrammatiker är flata
Annotatorer tenderar att undvika djupt inbäddade strukturer.
▶ Trädbanksgrammatiker är stora
En standardgrammatik extraherad från PTB har ca. 30 000 regler.
Exempel på trädbanker
▶ Penn Treebank Project (University of Pennsylvania)
http://www.cis.upenn.edu/~treebank/
▶ Swedish Treebank (Uppsala universitet)
http://stp.lingfil.uu.se/~nivre/swedish_treebank/
Probabilistiska CFG:er
Flertydighet
I booked a flight from L.A.
▶ Denna mening är flertydig. På vilket sätt?
▶ Hur yttrar sig flertydigheten med avseende på grammatiken?
▶ Varför är flertydighet ett problem?
Analys 1: PP modifierar verbets objekt
S
NP
VP
Pro
Verb
I
booked
NP
Det
a
Nom
Nom
PP
Noun
from LA
flight
Analys 2: PP modifierar verbet
S
NP
VP
Pro
Verb
I
booked
PP
NP
Det
Nom
a
Noun
flight
from LA
Kombinatorisk explosion
800
600
400
exponentiell
kubisk
linjär
200
0
0
1
2
3
4
5
6
Probabilistiska grammatiker
▶ Antalet möjliga parseträd växer snabbt med meningarnas längd.
▶ Men inte alla parseträd är lika relevanta.
Exempel: I booked a flight from L.A.
▶ I många tillämpningar vill man ha det mest sannolika parseträdet
eller de mest sannolika parseträden.
Probabilistisk CFG
En probabilistisk kontextfri grammatik (PCFG) är en CFG där
▶ varje regel 𝑟 är förknippad med en sannolikhet 𝑃(𝑟) och
▶ den totala sannolikheten för regler med samma vänsterled är 1.
Exempel
Regel
Sannolikhet
S → NP VP
1/1
NP → Pronoun
1/3
NP → Proper-Noun
1/3
NP → Det Nominal
1/3
Nominal → Nominal PP
1/3
Nominal → Noun
2/3
VP → Verb NP
8/9
VP → Verb NP PP
1/9
PP → Preposition NP
1/1
Ett parseträds sannolikhet
Sannolikheten för ett parseträd 𝑡 är definierad som produkten av
sannolikheterna för de regler 𝑟 som förekommer i parseträdet:
৸ਕ
Ƕ ৸ਓ
ਓóਕ
Ett parseträds sannolikhet
S
1/1
NP
VP
1/3
Pro
8/9
Verb
NP
1/3
I
booked
Det
Nom
1/3
a
Nom
PP
2/3
Noun
trädets sannolikhet: 0,0219
flight
from LA
Ett parseträds sannolikhet
S
1/1
NP
VP
1/3
Pro
1/9
Verb
PP
NP
1/3
I
booked
Det
from LA
Nom
2/3
a
Noun
flight
trädets sannolikhet: 0,0082
Viterbi parsing
▶ Vi behöver en effektiv algoritm som kan ta fram det mest
sannolika parseträdet.
effektiv = körningstiden växer högst polynomisk med meningens längd
▶ Algoritmen är en generalisering av Viterbi-algoritmen för
ordklasstaggning med HMM:er.