FÖ5: Modellering av frasstruktur

Transcription

FÖ5: Modellering av frasstruktur
729G09 Språkvetenskaplig
databehandling
Modellering av frasstruktur
Lars Ahrenberg
2015-05-04
Plan



Formell grammatik
 språkets oändlighet
 regler
Frasstrukturgrammatik
Kontextfri grammatik
2
Generativ grammatik
Modellera naturliga språks grammatik (specifikt syntax) så
att
 Oändligt många satser kan beskrivas,
 Välformade satser skiljs från ovälformade,
 Strukturen i en välformad sats representeras adekvat,
 Modellen använder universellt giltiga syntaktiska
begrepp (”universell grammatik”)
3
Språkteknologi
Modellera naturliga språks syntax för praktiska
syften så som att





extrahera faktainformation ur dem,
läsa upp text med syntetiskt tal,
översätta till ett annat språk,
identifiera grammatiska fel och föreslå rättelser,
…
Varje tillämpning ställer olika krav varför olika
modeller används.
4
Om synen på data

Generativ grammatik



begreppet 'välformad sats' svarar inte på något direkt
sätt mot 'faktiskt förekommande yttranden'
empiriska data är framför allt satser och talares
omdömen om dem
Språkteknologi


data utgörs av faktiskt förekommande yttranden
processmodellerna utvärderas utifrån systemkriterier
5
Hur många möjliga
kombinationer ?
Antal ord
Permutationer
Grammatiska
2
2 ?
3
6 ?
4
24 ?
5
120 ?
6
720 ?
7
5040 ?
8
40320 ?
9
362,880 ?
10
3,628,880 ?
6
Hur många möjliga
kombinationer ?

Det beror naturligtvis på vilka ord vi väljer
Exempel 1: Variera satsen ovan!
Exempel 2: {den, en, fisk, tog, såg, nog}
7
Finns det mönster?

Ja, massvis, t.ex.
”En sats innehåller, per definition, minst två delar,
subjekt och verbfras i vid bemärkelse”
(Josefsson, sid. 151)

Schemamodellen för svenskans ordföljd
(Josefsson, kap. 12)

I nominalfraser står adjektivattribut framför
substantivet, prepositionsfraser efter substantivet
(Josefsson, kap. 6.1)
8
Strukturella principer

Linjär struktur (dvs. ordföljd)
alla ordningar är inte grammatiska
fågeln tog en fisk,
*fågeln fisk en tog

Hierarkisk struktur (gruppering)
ord bildar fraser, som ev. bildar större fraser och vi
kan inte bryta upp fraser hur som helst:
fågeln [ tog [ en fisk ]]
9
Strukturella principer

Relationell struktur (”beroenden”), t.ex.
 Kongruensböjning
den lilla fisken, men inte
*det lilla fisken, eller *den liten fisken
 Valenser eller transitivitet
Klara tycker om Bach, men inte
*Klara sover Bach eller *Klara tycker om;
 Långdistansberoenden
Bach tror jag inte Klara har tyckt om förut.
*Bach tror jag inte Klara har tyckt om Bach förut
10
Strukturberoende


Det faktum att hypoteser om välformighet inte enbart
kan baseras på ord, ordklasser och deras ordning har
kallats språkets strukturberoende
Förutom ord och ordklasser behövs därför också i en
syntaxmodell fraser och fraskategorier
11
Frasstrukturträd

Linjär och hierarkisk struktur kan illustreras
grafiskt och resulterar då i en typ av graf
kallad ett (etiketterat) träd.
S
NP
VB
PP
DT ADJ NN försvann
P
NN
den lilla fisken
i
djupet
12
Ett frastrukturträd för en sats
med bisats
S
rekursivitet!
NP
VB
PRON
tror
jag
BS
att
S
NP
VB
ADV
NN försvann däråt
fisken
13
Frasstrukturgrammatik



I frasstrukturgrammatik analyseras satser och
meningar i termer av beståndsdelar eller
”konstituenter” och deras ordning.
Analysen kan beskrivas i ett etiketterat träd.
Etiketterna i en frasstrukturgrammatik representerar
sådant som




ord
ordklasser
fraskategorier
olika typer av satser
14
Kontextfri grammatik



Kontextfri grammatik är ett sätt att formellt
modellera frasstrukturanalys.
Kärnan i en kontextfrigrammatik är en mängd av
kontextfria omskrivningsregler, regler som skriver
om en symbol (etikett) utan hänsyn till vad som
ev står runt omkring. Exempel:
S→A B
A→ a A C
Strängmängder som genereras av kontextfria
regler kallas kontextfria språk.
15
Kontextfri grammatik

En kontextfri grammatik ges av
 Ett alfabet av terminala symboler
 En uppsättning icke-terminala symboler
 En startsymbol, som är icke-terminal
 En samling regler på formatet


X → X1 X2 … Xn där X är icke-terminal
Regler av typen X → x där x är terminal kallas ofta
lexikonregler
16
Syntaktisk modellering
Modell
”Verklighet”
(Formell) grammatik
S → NP VP
NP → DT NN
NP → PN
VP → IV
VP → TV NP
…
NN: hund, bil, ...
IV: sover
TV: köpte
….
Icke-meningar
meningar
17
Formella och naturliga språk

Givet en formell grammatik, G, kallas de strängar
som grammatiken genererar för grammatikens
språk och betecknas ofta LG.

Vid syntaktisk modellering är problemet att givet
ett språk, L, hitta en formell grammatik G så att L
= LG.

Alfabetet (”de terminala symbolerna”) utgörs då
av språkets ord.
18
Trädstrukturer



En kontextfri grammatik bestämmer minst
en struktur för varje mening som den
genererar.
Strukturer kan visualiseras som träd med
etiketterade noder
Om grammatiken ger en mening flera olika
träd är meningen flertydig enligt
grammatiken
19
Kontextfri grammatik som
modelleringsverktyg

I princip alla slags objekt som uppvisar linjära och
hierarkiska relationer (inte bara syntax), t.ex.


Webbdokumentstruktur
 HTML → HEAD BODY
 HEAD → (METAP) TITLE (STYLE) (SCRIPT)
 BODY → ...
Samtalsstruktur
 SEQ → PAIR (SEQ)
 PAIR → Q A (FB)
 PAIR → ...
20
Exempel: kontextfria regler
S → NP VP
NP → DT NN
VP → TV NP
DT → en
NN → hund
NN → bil
TV → jagar
”en hund jagar en bil”
21
Trädrepresentation
S
NP
icke-terminaler
VP
TV
terminaler
DT
NN
en
hund
jagar
NP
DT
NN
en
bil
22
Regelsammanslagning


Optionalitet - ()
 NP → (DET) (AP) NN
Alternativ - | eller { , }
 NP → PN | PRON | NN
Dessa utgör ett slags förkortningskonventioner:
flera regler formuleras som en.
Reglerna ovan slår ihop 7 regler till 2.
OBS! upprepning (*, +) som i reguljära uttryck är
inte tillåtet i kontextfria regler.
23
En frasstrukturgrammatik
S → NP VP
VP → IV
VP → TV NP (PP)
NP → PN | PRO
NP → NN
NP → DT NN
PP → PREP NP
NN → hund | hunden |
kastrull | kastrullen
DT → en
TV → kastar
IV → sover
PN → pelle
PRO → hon
PREP → på
24
Övning: vilka meningar genereras av
grammatiken?
en hund kastar en kastrull på pelle
hon kastar en hund på en kastrull
en kastrull kastar
en hund sover pelle på hon
…
25
Vanliga fraskategorier i
frasstrukturgrammatik
S
VP
NP
AP/JP
PP
ADVP/RP
...
sentence / sats, mening
verb phrase / verbfras
noun phrase / nominalfras
adjektivfras
prepositionsfras
adverbfras
26
Frasstruktur

Fraser med huvudord och bestämningar





VP  V NP PP
NP  DT (AP) N
AP  (ADV) A
PP  P NP
Generellt format: XP  … X …
Vi betecknar ofta fraser efter ordklassen för
huvudordet.
27
Två typer av bestämningar

Komplement




uttrycker argument till en relation
obligatoriska för många verb
exempel: direkt objekt, indirekt objekt, prepositionsobjekt,
objektsbisats, predikativ
Modifierare


vanligen optionella
t.ex. adverbial, adjektivattribut, relativbisatser, ...
28
Fraskategorier och huvudord
(jmf. Josefsson, kap. 6)

Nominalfras
 huvud: substantiv, egennamn, pronomen, …
NP → … NN …
NP → PRO | PN


Verbfras
 huvud: verb (ofta underindelade i intransitiva,
transitiva, bitransitiva, ...)
VP → IV | TV NP | BV NP NP | ...
Sats
 huvud: verbfras
S → NP VP
29
Fraskategorier och huvuden


Prepositionsfras
 huvudord: preposition
(olika meningar finns dock)
PP → P NP
Adjektivfras
 huvudord: adjektiv
AP → … A ...
30
Fraser med likvärdiga konstituenter

Samordningar
 NP  NP och NP
 exempel: jag och mina katter
Man kan dock argumentera för att även dessa
fraser har huvud, t.ex. det första ledet i
samordningen.
31
Strukturella ambiguiteter
S → NP VP
NP → N (PP)
VP → V NP (PP)
PP → P NP
Jämför:
Lisa äter nudlar med pinnar
Lisa äter nudlar med ketchup
32
Vad hör ihop med vad?

För NP, AP, PP


Vad står intill huvudordet?
Vad flyttas med om vi flyttar på huvudordet?


Ex: Hunden jagade den gula bilen.
Men, objekt och adverbial (dvs bestämningar
till verb och prepositioner) kan flyttas friare.

Ex: Bilen visste inte Erik att Eva hade tittat på.
33
Språk och komplexitet
Det här är osten som råttan som katten
som hunden jagade dödade åt.

Kraften i en grammatik (formellt) enligt
Chomsky-hierarkin




Reguljära språk
Kontextfria språk
Kontextkänsliga språk
Typ 0-språk (Turing-ekvivalenta)
34