Implicit linguistics Voorspel het volgende woord Wat is het

Transcription

Implicit linguistics Voorspel het volgende woord Wat is het
Implicit linguistics
Machine learning of text-to-text
processing
Voorspel het volgende woord
Mijn woordvoorspellingssysteem
• verzamelt voorbeelden van woorden in
context
• slaat ze op in een geheugen
• Bij een nieuw missend woord:
– vergelijkt nieuwe context met opgeslagen
voorbeelden
– voorspelt woord horend bij de meest
gelijkende context
Wat is het missende woord
• Voorbeelden van woorden in context in
overvloed (kranten, archieven, internet)
• Praktisch probleem:
– Miljoenen voorbeelden opslaan?
– Zoeken in miljoenen voorbeelden?
• Beslissingsbomen: combinatie van
– Compacte opslag van voorbeelden
– Regelvormige generalisatie uit opgeslagen voorbeelden
1
Voorbeeld: voorspel say of says
Dit alles zonder taalkundige abstracties
Regel: voorspel say, tenzij linkerwoord
he, she, of it is; voorspel dan says
2
Hoe kom ik erop?
• Mijn Vernieuwingsimpulsproject “Memory models
of language”: er wordt te weinig afgevraagd of
abstractieniveaus wel nodig zijn
• Eigen onderzoek uit 2002:
• Een andere “tekst-in, tekst-uit” toepassing
is vertalen
• Eenvoudige interpretatie, analoog aan
woordvoorspelling:
– Woord in context in taal A
– Vertalen naar het corresponderende woord in
taal B
– woordsoorten, een gangbare taalkundige abstractie,
bleken vervangen te kunnen worden door de woorden
zelf in een tekstanalyse-taak
Liam kreeg een nieuwe fiets
Voorbeeld: vertaal Liam kreeg een nieuwe fiets
• naar het Engels
• Voorbeeldmateriaal: Europees parlement
Liam kreeg een nieuwe fiets
Liam
Vraag nummer 8 van Liam Hyland (H-0167/03):
Liam
Vraag nummer 20 van Liam Hyland (H-0234/03):
Liam
Liam
Vraag nummer 5 van Liam Hyland (H-0379/02):
Liam
Vraag nummer 8 van Liam Hyland (H-0167/03):
Liam
Vraag nummer 20 van Liam Hyland (H-0234/03):
Liam
Liam
kreeg
een nieuwe fiets
?
Ik
kreeg
een knikje en dacht…
Liam
Vraag nummer 5 van Liam Hyland (H-0379/02):
?
got
Liam
3
Liam
kreeg
een nieuwe fiets
got
Liam kreeg
een
nieuwe fiets
Ik
kreeg
een knikje en dacht…
got
… een mandaat voor
een
nieuwe overeenkomst …
… als u tenminste
een
nieuwe regel kunt …
U kunt dus
een
nieuwe fase van …
a
Ik kreeg
een
knikje en dacht …
a
got
Liam
a
one
Liam got
Liam kreeg
een
nieuwe fiets
… een mandaat voor
een
nieuwe overeenkomst …
… als u tenminste
een
nieuwe regel kunt …
U kunt dus
een
Ik kreeg
een
Liam got
?
a
a
Liam kreeg een nieuwe fiets
… mandaat voor een nieuwe overeenkomst …
?
new
one
… behoefte aan een nieuwe aanpak van hun …
new
nieuwe fase van …
a
U kunt dus een nieuwe fase van de …
new
knikje en dacht …
a
a
Liam kreeg een nieuwe fiets
… mandaat voor een nieuwe overeenkomst …
Liam got a
new
Liam kreeg een nieuwe
fiets
?
new
… het gebruik van de
fiets
bevorderd wordt …
bicycle
… behoefte aan een nieuwe aanpak van hun …
new
… van een helm op de
fiets
wordt onderzocht …
bicycle
U kunt dus een nieuwe fase van de …
new
Liam got a
new
Liam got a new
4
Liam kreeg een nieuwe
fiets
… het gebruik van de
fiets
bevorderd wordt …
bicycle
… van een helm op de
fiets
wordt onderzocht …
bicycle
Liam got a new
bicycle
bicycle
Oplossingen nodig voor
• Zinnen van verschillende lengte
• Verschillen in woordvolgorde
Liam kreeg een nieuwe fiets
Liam got a new bicycle
Waar staat mijn voorstel in de taalkunde?
Oplossingen uit bestaand werk
Generalisatie
• Taalkundige modellen
– Verklaren en voorspellen door generalisaties te
maken
• Abstractie lijkt hierbij noodzakelijk. Immers, het
tegenovergestelde
Abstractie
– verklaart niets, maar somt alleen op
– voorspelt niets dan wat al eens gezien is
• Maar het is belangrijk om het concept
generalisatie los te zien van abstractie
– Mijn aanpak abstraheert niet, maar generaliseert wel
Geen abstractie
Geen generalisatie
Regels
Voorbeelden
gecomprimeerd tot
generaliserende
regels
Voorbeelden
5
Doel van mijn voorstel:
• De creatie van niet-abstraherende modellen
van woordvoorspelling en vertalen
• die wel generaliseren
• en die complexe beslissingen kunnen
nemen zonder expliciete abstracte taalkundige
noties te gebruiken.
More explanation please
• Motivations
My Ph.D. thesis (1997)
•
– My Ph.D. thesis (1997)
– Van den Bosch & Buchholz (2002)
• Word prediction
Word pronunciation
–
–
•
Classical solution
1.
2.
3.
4.
5.
– Memory-based language modeling
– Confusible correction
• Machine translation
– Example-based MT
– N-gram post-processing
Morphological analysis
Graphemic parsing
Grapheme-phoneme conversion
Syllabification
Stress assignment
My solution
•
•
•
Van den Bosch & Buchholz (2002)
Input: word
Output: phonemic representation, with stress
Direct conversion of letters to phonemes+stress
Worked better than 5, 3, or 2 substeps
Van den Bosch & Buchholz (2002)
Simple intuition:
• PoS disambiguate explicitly
suspect-N vs suspect-V
• words disambiguate implicitly
… the suspect …
… we suspect …
6
Word prediction
• “archetypal problem of NLP” (Even-Zohar,
Roth, Zelenko, 1999)
• Different from word completion
• Predict what?
– the next word
– the missing word
• The next word itself, or a set of possible
words, with probabilities
A special problem
• Examples abound in huge quantities
• When viewed as prediction task,
– Extremely many classes,
– having same (Zipfian) distribution as features.
• Many ML algorithms will not scale “very
well”.
Memory-based word prediction
Data
• IB1 has scaling problems
– (Even TiMBL)
– Trees get too big
– (Even Medusa’s 48 Gb is not enough)
• But: IGTree!
Data set
– Increasing amount of learning material
– Direction: from recent to past
• What to expect?
– Constant improvement with doubling of
training examples?
Genre
Number
of tokens
TRAIN-REUTERS
Reuters Corpus
Volume I
newswire
130,396,703
TEST-REUTERS
Reuters Corpus
Volume 1
newswire
100,000
TEST-ALICE
Alice’s
Adventures in
Wonderland
fiction
33,361
TEST-BROWN
Brown (Penn
Treebank)
mixed
453,446
Experiments
• Learning curve
Source
Details & variants
• Windowed data:
– “middle” task: 7 left - 7 right window
• Hapaxing:
–
–
–
–
If word occurs below threshold, convert it to HAPAX
Only include non-HAPAX examples in training set
But include them in test set
Thresholds 10, 100, 1000
7
Train RCV1, test Alice
Train RCV1, test Brown
Train and test on RCV1
Numbers of nodes
Speed
Example concatenated “output”
• Portuguese Prime Minister Antonio Guterres
appealed Kohl recently to use his trip to exert a
positive influence on Jakarta improve what he
described as "intolerable conditions" in East
Timor.
• - Finance Minister Antonio Guterres plans to the
was, change his powers to discuss a big impact on
Tuesday newsroom, he described as an
challenging are an East Germany.
8
Example concatenated “output”
Example concatenated “output”
• Portuguese Prime Minister Antonio Guterres
appealed Kohl recently to use his trip to exert a
positive influence on Jakarta improve what he
described as "intolerable conditions" in East
Timor.
• - Finance Minister Antonio Guterres plans to the
was, change his powers to discuss a big impact on
Tuesday newsroom, he described as an
challenging are an East Germany.
• Portuguese Prime Minister Antonio Guterres
appealed Kohl recently to use his trip to exert a
positive influence on Jakarta improve what he
described as "intolerable conditions" in East
Timor.
• - Finance Minister Antonio Guterres plans to the
was, change his powers to discuss a big impact on
Tuesday newsroom, he described as an
challenging are an East Germany.
More example errors
Confusibles
•
•
•
•
•
•
•
•
•
•
•
economic ties
Indonesia’s
($ 4.45 billion)
final reading
sceptical
awaiting
low
automaker
favor
studying
…
- bilateral cooperation
- Arizona’s
- ($ 1.99 billion)
- third stage
- bullish
- withholding
- high
- producer
- favour
- mulling
-…
Confusibles: experiments
• Limit prediction task between confusible
alternative wordforms
– Training examples: all occurrences of the alternatives
– Test examples: any new occurrence of any of the
alternatives
• Purpose: for correction
– But: confusible disambiguation has been focus of
research itself (Mangu & Brill, 1997; Golding & Roth,
1999; Even-Zohar & Roth, 2000; Huang & Powers,
2001; Banko & Brill, 2001)
– (take actual word in test data as gold standard)
There vs. their vs. they’re
• Additional data:
– 1,096,950,281 words from New York Times
1994-2002 (part of the Gigaword corpus)
• Nine confusible sets from Golding & Roth
(1999):
Cite, sight, site
Fewer, less
Than, then
Accept, except
Among, between
There, their, they’re
Affect, effect
I, me
To, too, two
9
Confusibles vs. all-words
prediction
Confusibles in three test sets
Machine translation
Idea
• Known for bad “funding vs result” ratio and
science fiction literature
• Has had several fashions
– Interlingua-based
– Current: statistical MT (because of current evaluation
metric favoring SMT)
• One strong undercurrent completely based on
memory
– Translation memories
– Example-based machine translation
Crackpot idea?
• No, classification-based MT is also explored
at Dublin City University (Andy Way);
approach is similar
• Only “linguistic” abstraction necessary is to
identify “marker words”, i.e. closed-class
function words, marking chunk segments
• Research partnership with DCU is planned
10