Implicit linguistics Voorspel het volgende woord Wat is het
Transcription
Implicit linguistics Voorspel het volgende woord Wat is het
Implicit linguistics Machine learning of text-to-text processing Voorspel het volgende woord Mijn woordvoorspellingssysteem • verzamelt voorbeelden van woorden in context • slaat ze op in een geheugen • Bij een nieuw missend woord: – vergelijkt nieuwe context met opgeslagen voorbeelden – voorspelt woord horend bij de meest gelijkende context Wat is het missende woord • Voorbeelden van woorden in context in overvloed (kranten, archieven, internet) • Praktisch probleem: – Miljoenen voorbeelden opslaan? – Zoeken in miljoenen voorbeelden? • Beslissingsbomen: combinatie van – Compacte opslag van voorbeelden – Regelvormige generalisatie uit opgeslagen voorbeelden 1 Voorbeeld: voorspel say of says Dit alles zonder taalkundige abstracties Regel: voorspel say, tenzij linkerwoord he, she, of it is; voorspel dan says 2 Hoe kom ik erop? • Mijn Vernieuwingsimpulsproject “Memory models of language”: er wordt te weinig afgevraagd of abstractieniveaus wel nodig zijn • Eigen onderzoek uit 2002: • Een andere “tekst-in, tekst-uit” toepassing is vertalen • Eenvoudige interpretatie, analoog aan woordvoorspelling: – Woord in context in taal A – Vertalen naar het corresponderende woord in taal B – woordsoorten, een gangbare taalkundige abstractie, bleken vervangen te kunnen worden door de woorden zelf in een tekstanalyse-taak Liam kreeg een nieuwe fiets Voorbeeld: vertaal Liam kreeg een nieuwe fiets • naar het Engels • Voorbeeldmateriaal: Europees parlement Liam kreeg een nieuwe fiets Liam Vraag nummer 8 van Liam Hyland (H-0167/03): Liam Vraag nummer 20 van Liam Hyland (H-0234/03): Liam Liam Vraag nummer 5 van Liam Hyland (H-0379/02): Liam Vraag nummer 8 van Liam Hyland (H-0167/03): Liam Vraag nummer 20 van Liam Hyland (H-0234/03): Liam Liam kreeg een nieuwe fiets ? Ik kreeg een knikje en dacht… Liam Vraag nummer 5 van Liam Hyland (H-0379/02): ? got Liam 3 Liam kreeg een nieuwe fiets got Liam kreeg een nieuwe fiets Ik kreeg een knikje en dacht… got … een mandaat voor een nieuwe overeenkomst … … als u tenminste een nieuwe regel kunt … U kunt dus een nieuwe fase van … a Ik kreeg een knikje en dacht … a got Liam a one Liam got Liam kreeg een nieuwe fiets … een mandaat voor een nieuwe overeenkomst … … als u tenminste een nieuwe regel kunt … U kunt dus een Ik kreeg een Liam got ? a a Liam kreeg een nieuwe fiets … mandaat voor een nieuwe overeenkomst … ? new one … behoefte aan een nieuwe aanpak van hun … new nieuwe fase van … a U kunt dus een nieuwe fase van de … new knikje en dacht … a a Liam kreeg een nieuwe fiets … mandaat voor een nieuwe overeenkomst … Liam got a new Liam kreeg een nieuwe fiets ? new … het gebruik van de fiets bevorderd wordt … bicycle … behoefte aan een nieuwe aanpak van hun … new … van een helm op de fiets wordt onderzocht … bicycle U kunt dus een nieuwe fase van de … new Liam got a new Liam got a new 4 Liam kreeg een nieuwe fiets … het gebruik van de fiets bevorderd wordt … bicycle … van een helm op de fiets wordt onderzocht … bicycle Liam got a new bicycle bicycle Oplossingen nodig voor • Zinnen van verschillende lengte • Verschillen in woordvolgorde Liam kreeg een nieuwe fiets Liam got a new bicycle Waar staat mijn voorstel in de taalkunde? Oplossingen uit bestaand werk Generalisatie • Taalkundige modellen – Verklaren en voorspellen door generalisaties te maken • Abstractie lijkt hierbij noodzakelijk. Immers, het tegenovergestelde Abstractie – verklaart niets, maar somt alleen op – voorspelt niets dan wat al eens gezien is • Maar het is belangrijk om het concept generalisatie los te zien van abstractie – Mijn aanpak abstraheert niet, maar generaliseert wel Geen abstractie Geen generalisatie Regels Voorbeelden gecomprimeerd tot generaliserende regels Voorbeelden 5 Doel van mijn voorstel: • De creatie van niet-abstraherende modellen van woordvoorspelling en vertalen • die wel generaliseren • en die complexe beslissingen kunnen nemen zonder expliciete abstracte taalkundige noties te gebruiken. More explanation please • Motivations My Ph.D. thesis (1997) • – My Ph.D. thesis (1997) – Van den Bosch & Buchholz (2002) • Word prediction Word pronunciation – – • Classical solution 1. 2. 3. 4. 5. – Memory-based language modeling – Confusible correction • Machine translation – Example-based MT – N-gram post-processing Morphological analysis Graphemic parsing Grapheme-phoneme conversion Syllabification Stress assignment My solution • • • Van den Bosch & Buchholz (2002) Input: word Output: phonemic representation, with stress Direct conversion of letters to phonemes+stress Worked better than 5, 3, or 2 substeps Van den Bosch & Buchholz (2002) Simple intuition: • PoS disambiguate explicitly suspect-N vs suspect-V • words disambiguate implicitly … the suspect … … we suspect … 6 Word prediction • “archetypal problem of NLP” (Even-Zohar, Roth, Zelenko, 1999) • Different from word completion • Predict what? – the next word – the missing word • The next word itself, or a set of possible words, with probabilities A special problem • Examples abound in huge quantities • When viewed as prediction task, – Extremely many classes, – having same (Zipfian) distribution as features. • Many ML algorithms will not scale “very well”. Memory-based word prediction Data • IB1 has scaling problems – (Even TiMBL) – Trees get too big – (Even Medusa’s 48 Gb is not enough) • But: IGTree! Data set – Increasing amount of learning material – Direction: from recent to past • What to expect? – Constant improvement with doubling of training examples? Genre Number of tokens TRAIN-REUTERS Reuters Corpus Volume I newswire 130,396,703 TEST-REUTERS Reuters Corpus Volume 1 newswire 100,000 TEST-ALICE Alice’s Adventures in Wonderland fiction 33,361 TEST-BROWN Brown (Penn Treebank) mixed 453,446 Experiments • Learning curve Source Details & variants • Windowed data: – “middle” task: 7 left - 7 right window • Hapaxing: – – – – If word occurs below threshold, convert it to HAPAX Only include non-HAPAX examples in training set But include them in test set Thresholds 10, 100, 1000 7 Train RCV1, test Alice Train RCV1, test Brown Train and test on RCV1 Numbers of nodes Speed Example concatenated “output” • Portuguese Prime Minister Antonio Guterres appealed Kohl recently to use his trip to exert a positive influence on Jakarta improve what he described as "intolerable conditions" in East Timor. • - Finance Minister Antonio Guterres plans to the was, change his powers to discuss a big impact on Tuesday newsroom, he described as an challenging are an East Germany. 8 Example concatenated “output” Example concatenated “output” • Portuguese Prime Minister Antonio Guterres appealed Kohl recently to use his trip to exert a positive influence on Jakarta improve what he described as "intolerable conditions" in East Timor. • - Finance Minister Antonio Guterres plans to the was, change his powers to discuss a big impact on Tuesday newsroom, he described as an challenging are an East Germany. • Portuguese Prime Minister Antonio Guterres appealed Kohl recently to use his trip to exert a positive influence on Jakarta improve what he described as "intolerable conditions" in East Timor. • - Finance Minister Antonio Guterres plans to the was, change his powers to discuss a big impact on Tuesday newsroom, he described as an challenging are an East Germany. More example errors Confusibles • • • • • • • • • • • economic ties Indonesia’s ($ 4.45 billion) final reading sceptical awaiting low automaker favor studying … - bilateral cooperation - Arizona’s - ($ 1.99 billion) - third stage - bullish - withholding - high - producer - favour - mulling -… Confusibles: experiments • Limit prediction task between confusible alternative wordforms – Training examples: all occurrences of the alternatives – Test examples: any new occurrence of any of the alternatives • Purpose: for correction – But: confusible disambiguation has been focus of research itself (Mangu & Brill, 1997; Golding & Roth, 1999; Even-Zohar & Roth, 2000; Huang & Powers, 2001; Banko & Brill, 2001) – (take actual word in test data as gold standard) There vs. their vs. they’re • Additional data: – 1,096,950,281 words from New York Times 1994-2002 (part of the Gigaword corpus) • Nine confusible sets from Golding & Roth (1999): Cite, sight, site Fewer, less Than, then Accept, except Among, between There, their, they’re Affect, effect I, me To, too, two 9 Confusibles vs. all-words prediction Confusibles in three test sets Machine translation Idea • Known for bad “funding vs result” ratio and science fiction literature • Has had several fashions – Interlingua-based – Current: statistical MT (because of current evaluation metric favoring SMT) • One strong undercurrent completely based on memory – Translation memories – Example-based machine translation Crackpot idea? • No, classification-based MT is also explored at Dublin City University (Andy Way); approach is similar • Only “linguistic” abstraction necessary is to identify “marker words”, i.e. closed-class function words, marking chunk segments • Research partnership with DCU is planned 10