FÖ5: Modellering av frasstruktur
Transcription
FÖ5: Modellering av frasstruktur
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik Modellera naturliga språks grammatik (specifikt syntax) så att Oändligt många satser kan beskrivas, Välformade satser skiljs från ovälformade, Strukturen i en välformad sats representeras adekvat, Modellen använder universellt giltiga syntaktiska begrepp (”universell grammatik”) 3 Språkteknologi Modellera naturliga språks syntax för praktiska syften så som att extrahera faktainformation ur dem, läsa upp text med syntetiskt tal, översätta till ett annat språk, identifiera grammatiska fel och föreslå rättelser, … Varje tillämpning ställer olika krav varför olika modeller används. 4 Om synen på data Generativ grammatik begreppet 'välformad sats' svarar inte på något direkt sätt mot 'faktiskt förekommande yttranden' empiriska data är framför allt satser och talares omdömen om dem Språkteknologi data utgörs av faktiskt förekommande yttranden processmodellerna utvärderas utifrån systemkriterier 5 Hur många möjliga kombinationer ? Antal ord Permutationer Grammatiska 2 2 ? 3 6 ? 4 24 ? 5 120 ? 6 720 ? 7 5040 ? 8 40320 ? 9 362,880 ? 10 3,628,880 ? 6 Hur många möjliga kombinationer ? Det beror naturligtvis på vilka ord vi väljer Exempel 1: Variera satsen ovan! Exempel 2: {den, en, fisk, tog, såg, nog} 7 Finns det mönster? Ja, massvis, t.ex. ”En sats innehåller, per definition, minst två delar, subjekt och verbfras i vid bemärkelse” (Josefsson, sid. 151) Schemamodellen för svenskans ordföljd (Josefsson, kap. 12) I nominalfraser står adjektivattribut framför substantivet, prepositionsfraser efter substantivet (Josefsson, kap. 6.1) 8 Strukturella principer Linjär struktur (dvs. ordföljd) alla ordningar är inte grammatiska fågeln tog en fisk, *fågeln fisk en tog Hierarkisk struktur (gruppering) ord bildar fraser, som ev. bildar större fraser och vi kan inte bryta upp fraser hur som helst: fågeln [ tog [ en fisk ]] 9 Strukturella principer Relationell struktur (”beroenden”), t.ex. Kongruensböjning den lilla fisken, men inte *det lilla fisken, eller *den liten fisken Valenser eller transitivitet Klara tycker om Bach, men inte *Klara sover Bach eller *Klara tycker om; Långdistansberoenden Bach tror jag inte Klara har tyckt om förut. *Bach tror jag inte Klara har tyckt om Bach förut 10 Strukturberoende Det faktum att hypoteser om välformighet inte enbart kan baseras på ord, ordklasser och deras ordning har kallats språkets strukturberoende Förutom ord och ordklasser behövs därför också i en syntaxmodell fraser och fraskategorier 11 Frasstrukturträd Linjär och hierarkisk struktur kan illustreras grafiskt och resulterar då i en typ av graf kallad ett (etiketterat) träd. S NP VB PP DT ADJ NN försvann P NN den lilla fisken i djupet 12 Ett frastrukturträd för en sats med bisats S rekursivitet! NP VB PRON tror jag BS att S NP VB ADV NN försvann däråt fisken 13 Frasstrukturgrammatik I frasstrukturgrammatik analyseras satser och meningar i termer av beståndsdelar eller ”konstituenter” och deras ordning. Analysen kan beskrivas i ett etiketterat träd. Etiketterna i en frasstrukturgrammatik representerar sådant som ord ordklasser fraskategorier olika typer av satser 14 Kontextfri grammatik Kontextfri grammatik är ett sätt att formellt modellera frasstrukturanalys. Kärnan i en kontextfrigrammatik är en mängd av kontextfria omskrivningsregler, regler som skriver om en symbol (etikett) utan hänsyn till vad som ev står runt omkring. Exempel: S→A B A→ a A C Strängmängder som genereras av kontextfria regler kallas kontextfria språk. 15 Kontextfri grammatik En kontextfri grammatik ges av Ett alfabet av terminala symboler En uppsättning icke-terminala symboler En startsymbol, som är icke-terminal En samling regler på formatet X → X1 X2 … Xn där X är icke-terminal Regler av typen X → x där x är terminal kallas ofta lexikonregler 16 Syntaktisk modellering Modell ”Verklighet” (Formell) grammatik S → NP VP NP → DT NN NP → PN VP → IV VP → TV NP … NN: hund, bil, ... IV: sover TV: köpte …. Icke-meningar meningar 17 Formella och naturliga språk Givet en formell grammatik, G, kallas de strängar som grammatiken genererar för grammatikens språk och betecknas ofta LG. Vid syntaktisk modellering är problemet att givet ett språk, L, hitta en formell grammatik G så att L = LG. Alfabetet (”de terminala symbolerna”) utgörs då av språkets ord. 18 Trädstrukturer En kontextfri grammatik bestämmer minst en struktur för varje mening som den genererar. Strukturer kan visualiseras som träd med etiketterade noder Om grammatiken ger en mening flera olika träd är meningen flertydig enligt grammatiken 19 Kontextfri grammatik som modelleringsverktyg I princip alla slags objekt som uppvisar linjära och hierarkiska relationer (inte bara syntax), t.ex. Webbdokumentstruktur HTML → HEAD BODY HEAD → (METAP) TITLE (STYLE) (SCRIPT) BODY → ... Samtalsstruktur SEQ → PAIR (SEQ) PAIR → Q A (FB) PAIR → ... 20 Exempel: kontextfria regler S → NP VP NP → DT NN VP → TV NP DT → en NN → hund NN → bil TV → jagar ”en hund jagar en bil” 21 Trädrepresentation S NP icke-terminaler VP TV terminaler DT NN en hund jagar NP DT NN en bil 22 Regelsammanslagning Optionalitet - () NP → (DET) (AP) NN Alternativ - | eller { , } NP → PN | PRON | NN Dessa utgör ett slags förkortningskonventioner: flera regler formuleras som en. Reglerna ovan slår ihop 7 regler till 2. OBS! upprepning (*, +) som i reguljära uttryck är inte tillåtet i kontextfria regler. 23 En frasstrukturgrammatik S → NP VP VP → IV VP → TV NP (PP) NP → PN | PRO NP → NN NP → DT NN PP → PREP NP NN → hund | hunden | kastrull | kastrullen DT → en TV → kastar IV → sover PN → pelle PRO → hon PREP → på 24 Övning: vilka meningar genereras av grammatiken? en hund kastar en kastrull på pelle hon kastar en hund på en kastrull en kastrull kastar en hund sover pelle på hon … 25 Vanliga fraskategorier i frasstrukturgrammatik S VP NP AP/JP PP ADVP/RP ... sentence / sats, mening verb phrase / verbfras noun phrase / nominalfras adjektivfras prepositionsfras adverbfras 26 Frasstruktur Fraser med huvudord och bestämningar VP V NP PP NP DT (AP) N AP (ADV) A PP P NP Generellt format: XP … X … Vi betecknar ofta fraser efter ordklassen för huvudordet. 27 Två typer av bestämningar Komplement uttrycker argument till en relation obligatoriska för många verb exempel: direkt objekt, indirekt objekt, prepositionsobjekt, objektsbisats, predikativ Modifierare vanligen optionella t.ex. adverbial, adjektivattribut, relativbisatser, ... 28 Fraskategorier och huvudord (jmf. Josefsson, kap. 6) Nominalfras huvud: substantiv, egennamn, pronomen, … NP → … NN … NP → PRO | PN Verbfras huvud: verb (ofta underindelade i intransitiva, transitiva, bitransitiva, ...) VP → IV | TV NP | BV NP NP | ... Sats huvud: verbfras S → NP VP 29 Fraskategorier och huvuden Prepositionsfras huvudord: preposition (olika meningar finns dock) PP → P NP Adjektivfras huvudord: adjektiv AP → … A ... 30 Fraser med likvärdiga konstituenter Samordningar NP NP och NP exempel: jag och mina katter Man kan dock argumentera för att även dessa fraser har huvud, t.ex. det första ledet i samordningen. 31 Strukturella ambiguiteter S → NP VP NP → N (PP) VP → V NP (PP) PP → P NP Jämför: Lisa äter nudlar med pinnar Lisa äter nudlar med ketchup 32 Vad hör ihop med vad? För NP, AP, PP Vad står intill huvudordet? Vad flyttas med om vi flyttar på huvudordet? Ex: Hunden jagade den gula bilen. Men, objekt och adverbial (dvs bestämningar till verb och prepositioner) kan flyttas friare. Ex: Bilen visste inte Erik att Eva hade tittat på. 33 Språk och komplexitet Det här är osten som råttan som katten som hunden jagade dödade åt. Kraften i en grammatik (formellt) enligt Chomsky-hierarkin Reguljära språk Kontextfria språk Kontextkänsliga språk Typ 0-språk (Turing-ekvivalenta) 34