ORDBETYDELSER

Transcription

ORDBETYDELSER
ORDBETYDELSER
Marco Kuhlmann
Institutionen för datavetenskap
”mening”
diskursanalys
pragmatisk analys
semantisk analys
syntaktisk analys
morfologisk analys
fonetisk analys
ljudsignal
Ordbetydelsebestämning
Ordbetydelsebestämning
Ordbetydelsebestämning handlar om att avgöra den i
sammanhanget korrekta betydelsen för ett ord.
Lemman och lexem
▶ Lemma: ord som formenhet
Exempel: bil – bil, bilen, bils, bilar, bilarna, bilarnas
▶ Lexem: ord som betydelseenhet
Exempel: kurs1 ”studieavsnitt”, kurs2 ”pris på värdepapper”
Semantiskt lexikon
▶ färg1: grundläggande, genom synen uppfattad egenskap (hos ngt)
som beror på det slags ljus som utsänds (från detta) och som ofta
kan jämföras med viss del av regnbågen.
▶ färg2: klibbigt, vanligen flytande, ämne, innehållande partiklar av
viss kulör, avsett att strykas ut och torka till ett tunt skikt
▶ färg3: sammanfattning av olika egenskaper som ger (visst)
speciellt intryck mest i fråga om var för sig relativt obestämda el.
svårbeskrivna egenskaper
Homonymer
▶ Homonymer: ord som har samma form men olika betydelser
Exempel: kurs, får, ekar
▶ Finkornigare begrepp: homografer, homofoner
Exempel: anrika, banan, kör; beck/bäck, kål/kol, sej/sig/säg
Ordbetydelsebestämning som taggning
▶ När vi har data som är uppmärkta med korrekta ordbetydelser
kan vi använda övervakad inlärning.
▶ Samma ansats som för ordklasstaggning: Träna en klassificerare
som kan predicera ett ords betydelse utifrån extraherade särdrag.
Träningsdata för ordbetydelsebestämning
<instance id=“färg.3” senseid=“färg2”>
<context> Efter 20–30 år kommer plastfärgen att vittra bort ändå
och under tiden gör inte linoljefärgen någon ytterligare skada.
Många är rädda för att använda linoljefärger för att det har hänt att
färgen inte torkar. Men det har i sådana fall berott på att
<head>färgen<head> målats på för tjockt. – Ett gammalt talesätt är
att om du har tio liter i burken när du börjar ska du ha elva när du är
klar. Är färgen bra täcker den när den är tunn också. </context>
</instance>
Lexikonbaserade metoder
Som ett alternativ till maskininlärning används ofta resurser såsom
semantiska lexikon (tesaurusar) för ordbetydelsebestämning.
WordNet
http://wordnet.princeton.edu
▶ En stor databas med ordbetydelser och semantiska relationer.
▶ En ordbetydelse representeras som en mängd av ömsesidigt
synonyma ord, en så kallad synset.
▶ Den centrala semantiska relationen mellan ordbetydelser är
hyponymi–hyperonymi.
Synonymer och antonymer
▶ Synonymer: ord som kan ersätta varandra i vissa sammanhang
Exempel: lysande, klart, skimrande, glänsande
▶ Synonymi är inget absolut begrepp; ord kan vara synonyma i ett
sammanhang men inte synonyma i ett annat.
▶ Antonymer: ord som har motsatta betydelser
Exempel: varmt – kallt, levande – död, grina – grina
Hyponymer och hyperonymer
▶ Hyponymer: semantiskt underordnade ord
Exempel: bil < fordon, mango < frukt, stol < möbel
▶ Hyperonymer: semantiskt överordnade ord
▶ En hyponym till ett ord är mindre abstrakt och innehåller mer
information än detta ord.
standard, criterion,
measure, touchstone
medium of exchange,
monetary system
currency
money
coinage, mintage,
specie, metal money
fund,
monetary fund
coin
budget
nickel
dime
scale, graduated
table, ordered series
Richter scale
Lesks algoritm
▶ En enkel lexikonbaserad ansats för ordbetydelsebestämning är
Lesks algoritm.
▶ Indata: En text innehållande ett målord 𝑤 och ett antal möjliga
ordbetydelser, definierade i ett semantiskt lexikon.
▶ Utdata: Den ordbetydelse som ger det största överlappet mellan
texten och betydelsedefinitionen, räknat i antalet ord.
Lesks algoritm
The bank can guarantee deposits that will eventually cover future
tuition costs because it invests in adjustable-rate mortgage securities.
▶ bank1: a financial institution that accepts deposits and channels
the money into lending activities. Examples: “he cashed a check
at the bank”, “that bank holds the mortgage on my home”
▶ bank2: sloping land (especially the slope beside a body of water).
Examples: “they pulled the canoe up on the bank”, “he sat on the
bank of the river and watched the currents”
Övningsuppgift
▶ På nästa diabild visas definitioner för fyra olika betydelser av
ordet papper. Välj ut en av betydelserna.
▶ Formulera sedan två meningar som innehåller ordet papper i den
utvalda betydelsen:
▶ en mening där Lesk räknar ut den avsedda betydelsen,
▶ en mening där Lesk räknar ut fel betydelse.
Övningsuppgift
▶ papper1: material, primärt format i tunna ark avsedda för skrift,
vanligen tillverkat av växtfibrer.
▶ papper2: en bit av ovanstående material, i allmänhet använt för
att skriva eller rita på.
▶ papper3: dokument, handling. ”Om man ska åka utomlands bör
man se till att inte glömma sina papper.”
▶ papper4: artikel publicerad i en vetenskaplig tidskrift.
Utvärdering
▶ Ett vanligt utvärderingsmått för ordbetydelsebestämning är
korrekthet relativt till en guldstandard.
▶ Som baseline används oftast förekommande ordbetydelse eller
Lesks algoritm.
Likhet mellan ord
standard, criterion,
measure, touchstone
medium of exchange,
monetary system
currency
money
coinage, mintage,
specie, metal money
fund,
monetary fund
coin
budget
nickel
dime
scale, graduated
table, ordered series
Richter scale
Likhet mellan ord
▶ Synonymi är en relation som antingen råder eller inte råder
mellan två lexem.
▶ Semantisk likhet är en graduell relation, dvs. olika ordbetydelser
är mer eller mindre lika varandra.
Likhet mellan ord: Tillämpningar
▶ Informationsutvinning
Hitta dokument som innehåller ord som har semantisk likhet
med orden i sökfrågan.
▶ Automatisk rättning av tentor
Hitta ett mått på hur nära studentens svar kommer svaret i
lärarens facit.
Semantisk likhet: Metoder
▶ lexikonbaserade metoder
▶ distributionella metoder
Likhet i WordNet
▶ Intuition: kort avstånd i nätet = stor semantisk likhet
▶ pathlength(𝑠1, 𝑠2)
längden på den kortaste vägen mellan synset 𝑠1 och synset 𝑠2
▶ likhet mellan två synsets:
sim(𝑠1, 𝑠2) = 1 / (1 + pathlength(𝑠1, 𝑠2))
standard, criterion,
measure, touchstone
medium of exchange,
monetary system
scale, graduated
table, ordered series
currency
money
coinage, mintage,
specie, metal money
fund,
monetary fund
coin
budget
nickel
dime
Richter scale
sim(nickel, dime) = 1/(1 + 2) = 1/3
standard, criterion,
measure, touchstone
medium of exchange,
monetary system
scale, graduated
table, ordered series
currency
money
coinage, mintage,
specie, metal money
fund,
monetary fund
coin
budget
nickel
dime
Richter scale
sim(nickel, budget) = 1/(1 + 7) = 1/8
Problem med enkla avståndsmått
▶ Ju högre upp vi går i hierarkin, desto mindre sammanhang finns
det mellan semantisk likhet och avstånd mellan synsets.
Exempel: jämför coin – nickel med standard – monetary system
▶ En enkel idé att lösa detta problem är att låta länkarna
representera olika längder.
Resniks metrik
▶ Resniks metrik är ett alternativt likhetsmått för ordbetydelser i
semantiska hierarkier som WordNet.
▶ Grundidéen är att likheten mellan två ord är desto större, ju mer
information orden har gemensamma.
Informationsinnehåll
▶ Ett hyponym innehåller mer information än dess hyperonym.
Exempel: bil < fordon
▶ Definiera 𝑃(𝑠) som sannolikheten att ett slumpmässigt utvalt ord
innehåller den information som finns i synset 𝑠.
▶ Information Content för ett synset 𝑠: IC(𝑠) = −log 𝑃(𝑠)
Log-sannolikheter
−log 𝑃(𝑥)
låg sannolikhet = högt värde
Resniks metrik
▶ Grundidéen är att likheten mellan två ord bör vara desto större,
ju mer information orden har gemensamma.
▶ lowest common subsumer (lcs) av två synset 𝑠1, 𝑠2:
det mest specifika synsetet som innehåller all information som
finns i både 𝑠1 och 𝑠2
▶ Resniks metrik: sim(𝑠1, 𝑠2) = IC(lcs(𝑠1, 𝑠2))
standard, criterion,
measure, touchstone
medium of exchange,
monetary system
currency
money
coinage, mintage,
specie, metal money
fund,
monetary fund
coin
budget
nickel
dime
lcs(nickel, dime)
scale, graduated
table, ordered series
Richter scale
Semantisk likhet: Metoder
▶ lexikonbaserade metoder
▶ distributionella metoder
Den geometriska metaforen
Ordbetydelser är punkter i en semantisk rymd, och semantisk
likhet är avståndet mellan punkterna.
Betydelser som punkter i en semantisk rymd
hund = (1, 5)
hyena = (2, 3)
katt = (4, 0)
Distributionell semantik
▶ Vad är koordinaterna för ett ord i den semantiska rymden?
▶ Distributionell semantik: koordinaterna definieras av andra ord
som förekommer tillsammans med målordet
▶ Firth (1957): “You shall know a word by the company it keeps.”
Distributionell semantik: Exempel
▶ An automobile is a wheeled motor vehicle used for transporting passengers.
▶ A car is a form of transport, usually with four wheels and the capacity to carry
around five passengers.
▶ Transport for the London games is limited, with spectators strongly advised to
avoid the use of cars.
▶ The London 2012 soccer tournament began yesterday, with plenty of goals in the
opening matches.
▶ Giggs scored the first goal of the football tournament at Wembley, North London.
▶ Bellamy was largely a passenger in the football match, playing no part in either
goal.
Term–term matris
wheel
transport
passenger
tournament
London
goal
match
automobile
1
1
1
0
0
0
0
car
1
2
1
0
1
0
0
soccer
0
0
0
1
1
1
1
football
0
0
1
1
1
2
1
rader = målord, kolumner = kontextord
Kontextfrekvens
▶ Det finns viktiga och mindre viktiga kontexttermer.
Exempel: stoppord, andra högfrekventa termer
▶ En kontextterm som förekommer i många måltermers kontexter
hjälper inte när vi vill definiera en specifik terms betydelse.
▶ En kontextterms kontextfrekvens (kf) anger antalet kontexter
som termen förekommer i.
Invers kontextfrekvens
Den inversa kontextfrekvensen för en term 𝑡 är definierad som
𝑁
ikf(𝑡)
=
log
kf(𝑡)
𝑁 = totala antalet kontexter i samlingen
Ett kombinerat mått: tf-ikf
tf-ikf(𝑡, 𝑐)
=
tf(𝑡, 𝑐) · ikf(𝑡)
Termvikten tf-ikf(𝑡, 𝑐) är
▶ högst när 𝑡 förekommer många gånger i den specifika
kontexten 𝑐, men få gånger i andra kontexter
▶ lägst när 𝑡 förekommer aldrig i den specifika kontexten 𝑐, eller
många gånger i nästan alla kontexter
Ordbetydelser som vektorer
▶ Ett problem när man modellerar ordbetydelser som punkter är
att ord som förekommer olika ofta hamnar långt ifrån varandra.
▶ Problemet kan lösas genom att modellera betydelser som
vektorer och mäta semantisk likhet som vinkeln mellan dessa.
Betydelser som punkter
car
automobile
soccer
Betydelser som vektorer
car
automobile
soccer
Semantisk likhet: Metoder
▶ tesaurus-baserade metoder
▶ distributionella metoder