ORDBETYDELSER
Transcription
ORDBETYDELSER
ORDBETYDELSER Marco Kuhlmann Institutionen för datavetenskap ”mening” diskursanalys pragmatisk analys semantisk analys syntaktisk analys morfologisk analys fonetisk analys ljudsignal Ordbetydelsebestämning Ordbetydelsebestämning Ordbetydelsebestämning handlar om att avgöra den i sammanhanget korrekta betydelsen för ett ord. Lemman och lexem ▶ Lemma: ord som formenhet Exempel: bil – bil, bilen, bils, bilar, bilarna, bilarnas ▶ Lexem: ord som betydelseenhet Exempel: kurs1 ”studieavsnitt”, kurs2 ”pris på värdepapper” Semantiskt lexikon ▶ färg1: grundläggande, genom synen uppfattad egenskap (hos ngt) som beror på det slags ljus som utsänds (från detta) och som ofta kan jämföras med viss del av regnbågen. ▶ färg2: klibbigt, vanligen flytande, ämne, innehållande partiklar av viss kulör, avsett att strykas ut och torka till ett tunt skikt ▶ färg3: sammanfattning av olika egenskaper som ger (visst) speciellt intryck mest i fråga om var för sig relativt obestämda el. svårbeskrivna egenskaper Homonymer ▶ Homonymer: ord som har samma form men olika betydelser Exempel: kurs, får, ekar ▶ Finkornigare begrepp: homografer, homofoner Exempel: anrika, banan, kör; beck/bäck, kål/kol, sej/sig/säg Ordbetydelsebestämning som taggning ▶ När vi har data som är uppmärkta med korrekta ordbetydelser kan vi använda övervakad inlärning. ▶ Samma ansats som för ordklasstaggning: Träna en klassificerare som kan predicera ett ords betydelse utifrån extraherade särdrag. Träningsdata för ordbetydelsebestämning <instance id=“färg.3” senseid=“färg2”> <context> Efter 20–30 år kommer plastfärgen att vittra bort ändå och under tiden gör inte linoljefärgen någon ytterligare skada. Många är rädda för att använda linoljefärger för att det har hänt att färgen inte torkar. Men det har i sådana fall berott på att <head>färgen<head> målats på för tjockt. – Ett gammalt talesätt är att om du har tio liter i burken när du börjar ska du ha elva när du är klar. Är färgen bra täcker den när den är tunn också. </context> </instance> Lexikonbaserade metoder Som ett alternativ till maskininlärning används ofta resurser såsom semantiska lexikon (tesaurusar) för ordbetydelsebestämning. WordNet http://wordnet.princeton.edu ▶ En stor databas med ordbetydelser och semantiska relationer. ▶ En ordbetydelse representeras som en mängd av ömsesidigt synonyma ord, en så kallad synset. ▶ Den centrala semantiska relationen mellan ordbetydelser är hyponymi–hyperonymi. Synonymer och antonymer ▶ Synonymer: ord som kan ersätta varandra i vissa sammanhang Exempel: lysande, klart, skimrande, glänsande ▶ Synonymi är inget absolut begrepp; ord kan vara synonyma i ett sammanhang men inte synonyma i ett annat. ▶ Antonymer: ord som har motsatta betydelser Exempel: varmt – kallt, levande – död, grina – grina Hyponymer och hyperonymer ▶ Hyponymer: semantiskt underordnade ord Exempel: bil < fordon, mango < frukt, stol < möbel ▶ Hyperonymer: semantiskt överordnade ord ▶ En hyponym till ett ord är mindre abstrakt och innehåller mer information än detta ord. standard, criterion, measure, touchstone medium of exchange, monetary system currency money coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime scale, graduated table, ordered series Richter scale Lesks algoritm ▶ En enkel lexikonbaserad ansats för ordbetydelsebestämning är Lesks algoritm. ▶ Indata: En text innehållande ett målord 𝑤 och ett antal möjliga ordbetydelser, definierade i ett semantiskt lexikon. ▶ Utdata: Den ordbetydelse som ger det största överlappet mellan texten och betydelsedefinitionen, räknat i antalet ord. Lesks algoritm The bank can guarantee deposits that will eventually cover future tuition costs because it invests in adjustable-rate mortgage securities. ▶ bank1: a financial institution that accepts deposits and channels the money into lending activities. Examples: “he cashed a check at the bank”, “that bank holds the mortgage on my home” ▶ bank2: sloping land (especially the slope beside a body of water). Examples: “they pulled the canoe up on the bank”, “he sat on the bank of the river and watched the currents” Övningsuppgift ▶ På nästa diabild visas definitioner för fyra olika betydelser av ordet papper. Välj ut en av betydelserna. ▶ Formulera sedan två meningar som innehåller ordet papper i den utvalda betydelsen: ▶ en mening där Lesk räknar ut den avsedda betydelsen, ▶ en mening där Lesk räknar ut fel betydelse. Övningsuppgift ▶ papper1: material, primärt format i tunna ark avsedda för skrift, vanligen tillverkat av växtfibrer. ▶ papper2: en bit av ovanstående material, i allmänhet använt för att skriva eller rita på. ▶ papper3: dokument, handling. ”Om man ska åka utomlands bör man se till att inte glömma sina papper.” ▶ papper4: artikel publicerad i en vetenskaplig tidskrift. Utvärdering ▶ Ett vanligt utvärderingsmått för ordbetydelsebestämning är korrekthet relativt till en guldstandard. ▶ Som baseline används oftast förekommande ordbetydelse eller Lesks algoritm. Likhet mellan ord standard, criterion, measure, touchstone medium of exchange, monetary system currency money coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime scale, graduated table, ordered series Richter scale Likhet mellan ord ▶ Synonymi är en relation som antingen råder eller inte råder mellan två lexem. ▶ Semantisk likhet är en graduell relation, dvs. olika ordbetydelser är mer eller mindre lika varandra. Likhet mellan ord: Tillämpningar ▶ Informationsutvinning Hitta dokument som innehåller ord som har semantisk likhet med orden i sökfrågan. ▶ Automatisk rättning av tentor Hitta ett mått på hur nära studentens svar kommer svaret i lärarens facit. Semantisk likhet: Metoder ▶ lexikonbaserade metoder ▶ distributionella metoder Likhet i WordNet ▶ Intuition: kort avstånd i nätet = stor semantisk likhet ▶ pathlength(𝑠1, 𝑠2) längden på den kortaste vägen mellan synset 𝑠1 och synset 𝑠2 ▶ likhet mellan två synsets: sim(𝑠1, 𝑠2) = 1 / (1 + pathlength(𝑠1, 𝑠2)) standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime Richter scale sim(nickel, dime) = 1/(1 + 2) = 1/3 standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime Richter scale sim(nickel, budget) = 1/(1 + 7) = 1/8 Problem med enkla avståndsmått ▶ Ju högre upp vi går i hierarkin, desto mindre sammanhang finns det mellan semantisk likhet och avstånd mellan synsets. Exempel: jämför coin – nickel med standard – monetary system ▶ En enkel idé att lösa detta problem är att låta länkarna representera olika längder. Resniks metrik ▶ Resniks metrik är ett alternativt likhetsmått för ordbetydelser i semantiska hierarkier som WordNet. ▶ Grundidéen är att likheten mellan två ord är desto större, ju mer information orden har gemensamma. Informationsinnehåll ▶ Ett hyponym innehåller mer information än dess hyperonym. Exempel: bil < fordon ▶ Definiera 𝑃(𝑠) som sannolikheten att ett slumpmässigt utvalt ord innehåller den information som finns i synset 𝑠. ▶ Information Content för ett synset 𝑠: IC(𝑠) = −log 𝑃(𝑠) Log-sannolikheter −log 𝑃(𝑥) låg sannolikhet = högt värde Resniks metrik ▶ Grundidéen är att likheten mellan två ord bör vara desto större, ju mer information orden har gemensamma. ▶ lowest common subsumer (lcs) av två synset 𝑠1, 𝑠2: det mest specifika synsetet som innehåller all information som finns i både 𝑠1 och 𝑠2 ▶ Resniks metrik: sim(𝑠1, 𝑠2) = IC(lcs(𝑠1, 𝑠2)) standard, criterion, measure, touchstone medium of exchange, monetary system currency money coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime lcs(nickel, dime) scale, graduated table, ordered series Richter scale Semantisk likhet: Metoder ▶ lexikonbaserade metoder ▶ distributionella metoder Den geometriska metaforen Ordbetydelser är punkter i en semantisk rymd, och semantisk likhet är avståndet mellan punkterna. Betydelser som punkter i en semantisk rymd hund = (1, 5) hyena = (2, 3) katt = (4, 0) Distributionell semantik ▶ Vad är koordinaterna för ett ord i den semantiska rymden? ▶ Distributionell semantik: koordinaterna definieras av andra ord som förekommer tillsammans med målordet ▶ Firth (1957): “You shall know a word by the company it keeps.” Distributionell semantik: Exempel ▶ An automobile is a wheeled motor vehicle used for transporting passengers. ▶ A car is a form of transport, usually with four wheels and the capacity to carry around five passengers. ▶ Transport for the London games is limited, with spectators strongly advised to avoid the use of cars. ▶ The London 2012 soccer tournament began yesterday, with plenty of goals in the opening matches. ▶ Giggs scored the first goal of the football tournament at Wembley, North London. ▶ Bellamy was largely a passenger in the football match, playing no part in either goal. Term–term matris wheel transport passenger tournament London goal match automobile 1 1 1 0 0 0 0 car 1 2 1 0 1 0 0 soccer 0 0 0 1 1 1 1 football 0 0 1 1 1 2 1 rader = målord, kolumner = kontextord Kontextfrekvens ▶ Det finns viktiga och mindre viktiga kontexttermer. Exempel: stoppord, andra högfrekventa termer ▶ En kontextterm som förekommer i många måltermers kontexter hjälper inte när vi vill definiera en specifik terms betydelse. ▶ En kontextterms kontextfrekvens (kf) anger antalet kontexter som termen förekommer i. Invers kontextfrekvens Den inversa kontextfrekvensen för en term 𝑡 är definierad som 𝑁 ikf(𝑡) = log kf(𝑡) 𝑁 = totala antalet kontexter i samlingen Ett kombinerat mått: tf-ikf tf-ikf(𝑡, 𝑐) = tf(𝑡, 𝑐) · ikf(𝑡) Termvikten tf-ikf(𝑡, 𝑐) är ▶ högst när 𝑡 förekommer många gånger i den specifika kontexten 𝑐, men få gånger i andra kontexter ▶ lägst när 𝑡 förekommer aldrig i den specifika kontexten 𝑐, eller många gånger i nästan alla kontexter Ordbetydelser som vektorer ▶ Ett problem när man modellerar ordbetydelser som punkter är att ord som förekommer olika ofta hamnar långt ifrån varandra. ▶ Problemet kan lösas genom att modellera betydelser som vektorer och mäta semantisk likhet som vinkeln mellan dessa. Betydelser som punkter car automobile soccer Betydelser som vektorer car automobile soccer Semantisk likhet: Metoder ▶ tesaurus-baserade metoder ▶ distributionella metoder