Métodos cuantitativos para la diversidad lingüística

Transcription

Métodos cuantitativos para la diversidad lingüística
Métodos cuantitativos para la diversidad lingüística
Harald Hammarstrom
March 2015, Mexico
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
1 / 55
Métodos cuantitativos para la diversidad lingüística
Para la diversidad lingüística = Métodos que no están baseados
en los hechos de una(s) lengua(s) especíca(s)
Se considerarán métodos
Estos métodos
humanos
computacionales
no reemplacen a los humanos, sino ayudan a los
Ejemplos de lo que se puede hacer a partir de
Clase #1 datos textuales: Morfología automática
Clase #2 datos textuales anotados: Morfología, clases de palabras,
sintaxis
Clase #3 un base de datos de características: Unas técnicas para
visualización
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
2 / 55
Estructura de clases
Se van a presentar técnicas
I Lo importante es obtener una familiaridad con las ideas
I No hay que entender todas detalles
No habrán prácticas
No hace falta tener una computadora en clase
Si quieres probar algo con tus propios datos
I Si sabes programación: Puedes implementar las técnicas tu mismo
I Si tu amigo sabe programación: Tu y tu amigo podéis implementar las
técnias
I En otro caso: Yo te puedo ayudar
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
3 / 55
De datos textuales
Jimbokaksïni nósesi járhati jurhiatekuecha janocheaka, engaksïni
chéti ikiatspiricha ópandaaka, ka uirhipkurhaatiksïni ka iápuru
ísïksïni k'uaniraati, ka xerentskantaatiksïni. Iámendu jimini
anapuechanksïni uándikucheati, ka nóksï ma tsakapu tsïntsikata
jurajkuati, jimbokari no kurhanguska imani jurhiatekuani engari
juka p'urhembenhani.
Que se puede hacer con solo datos textuales?
Sin otra información de la lengua, solo se puede utilizar
...
frecuencias
Por ejemplo, frecuentemente las palabras terminan en -i, se repite
mucho la palabra ka etc
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
4 / 55
Ejemplo de diferencias signicativas de frecuencias (Inglés)
# different words in corpus having suffix
4000
3500
3000
2500
2000
1500
1000
500
0
playing
laying
Hammarstrom
aying
ying
Métodos Diversidad Lingüística
ing
ng
March 2015, Mexico
g
5 / 55
Ejemplo de diferencias signicativas de frecuencias (Español)
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
6 / 55
Aprendizaje Morfológico sin Supervisión
Aprendizaje Morfológico sin Supervisión = Unsupervised Learning
of Morphology (ULM)
Input: Datos textuales crudos (sin anotación) de una lengua natural
Output: Una descripción de la estructura de las palabras en los
material textuales dados
Con: Lo menos supervisión, i.e. parámetros, datos auxiliares
anotados, selección de modeles durante el desarrollo etc,
posible
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
7 / 55
Porqué estudiar el problema ULM?
Teoría Lingüística
I Harris (1955), testeado con ingl'es (Harris, 1967)
I Andreev (1959, 1963, 1965b, 1967) testeado con Albanés, Armenio,
Bulgaro, Checo, Inglés, Estonés, Francés, Alemán, Hausa, Hungaro,
Latviano, Ruso, Serbo-Croato, Swahili y Vietnamés
Eliminación del léxico
I En los 1980s tener un lexicón entero sobrepasaba la capacidad de la
memoria de una computadora (Klenk, 1985a,b, Wothke, 1985)
I Ahora esta motivación ya no existe
Aprendizaje de lengua por niños
I P.e., Brent et al. 1995, Batchelder 1997, Brent 1999, Clark 2001,
Goldwater 2007
Arrancar una procesadora morfológica computacional
I P.e., Goldsmith 2001 y muchos más (véanse mas tarde)
Ayudar a la descripción y documentación lingüística
I P.e., Hammarström et al. 2008, Monson et al. 2008c Kirschenbaum
et al. 2012, Palmer et al. 2010
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
8 / 55
ULM: Pasamos revista
Morfología: Para esta revista lo denimos como incluyendo lo siguimente
Derivacional y ineccional
En número de ajos que se puede añadir es nito
El orden de ajos es jo (no se puede permutar)
Algunos enfoques: También clíticos, composición,
morfología no-concatenativa, incorporación y ajos
lexicales
Palabras ortográcas: Solo se consideran palabras ortográcas (i.e. no se
trata el problema de buscar la separación de palabras de
lenguas cuya ortgrafía no marca limites de palabras)
Dependencia de lengua: Angunos enfoques si tienen un sesgo explicito o
implicito a ciertas lenguas
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
9 / 55
ULM: Variedades de Output
Lista de ajos
↑
Misma-raiz decisión
↑
Analisis
↑
Lista de paradigmas
↑
Lexicon+Paradigmas
Hammarstrom
Una lista de ajos.
Dos palabras dadas, decidir si son inecciones de la misma raiz.
Dada una palabra, analizarla en raiz y
ajo(s).
Una lista de paradigmas.
Una lista de los paradigmas y una lista de
las raíces con indicaciones a qué paradigma
pertenece.
Métodos Diversidad Lingüística
March 2015, Mexico
10 / 55
Trabajos hasta hoy #1
Harris 1955, 1968, 1970
Andreev 1965a, Andreev 1967, Chapter
2, Andreev 1965a, Eliseeva 1965, Fedulova 1965, Fihman 1965a,b, Fitialova 1965,
Hol'm 1965, Jakubajtis 1965, Jaku²eva
1965,
Kordi
1965,
Malahovskij
1965,
Melkumjan 1965, Oºigova 1965, Panina
1965, Per²ikov 1965
Gammon 1969
Lehmann 1973, 7193
de Kock and Bossaert 1969, 1974, 1978
Faulk and Gustavson 1990
Hafer and Weiss 1974
Klenk and Langer 1989
Langer 1991
Redlich 1993
Klenk 1991, 1992
Flenner 1992, 1994, 1995
Janÿen 1992
Juola et al. 1994
Brent 1993, 1999, Brent et al. 1995, Snover
2002, Snover and Brent 2001, 2003, Snover
et al. 2002
Deligne 1996, Deligne and Bimbot 1997
Yvon 1996
Kazakov 1997, Kazakov and Manandhar
1998, 2001
Jacquemin 1997
Cromm 1997
Gaussier 1999
Hammarstrom
Model
Superv.
Experimentación
Qué aprende?
C
C
T
T
English
Vietnamese
Hungarian (I)
Segmentation
Segmentation
C
C
C
T
T
T
English
French (I)
French/Spanish
C
C
C
C
C
C
C
C
C
C
T
T
T+SP
T+SP
T
T+SP
T+SP
T+SP
T
T
C
C
C
T
T
T
English (I)
English (IR)
German
German
English (I)
Spanish
Spanish
French
English
English/ChildEnglish/Polish/
French
English/French (I)
French (I)
French/English
C
C
C
T
T
T
English
German
French/
English (I)
Métodos Diversidad Lingüística
to
Segmentation
Segmentation
Lexicon+
Paradigms
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Lexicon+
Paradigms
March 2015, Mexico
11 / 55
Trabajos hasta hoy #2
Model
Superv.
Experimentación
Qué aprende?
Déjean 1998a,b
C
T
Ax Lists
Medina Urrea 2000, 2003, 2006
Schone 2001, Schone and Jurafsky 2000,
2001
Belkin and Goldsmith 2002, Goldsmith
2000, 2001, Goldsmith et al. 2001, Goldsmith 2006, Hu et al. 2005b, Xanthos et al.
2006
Baroni 2000, 2003
C
C
T
T
Turkish/English/
Korean/French/
Swahili/
Vietnamese (I)
Spanish
English
C
T
English (I)
Lexicon+
Paradigms
C
T
C
C
T
T
Child-English/
English
Korean
Assamese
Ax List
Cho and Han 2002
Sharma and Das 2002, Sharma et al. 2002,
2003
Baroni et al. 2002
Bati 2002
C/NC
C/NC
T
T
English/German (I)
Amharic
Creutz 2003, 2006, Creutz and Lagus
2002, 2004, 2005a,b,c, 2007, Creutz et al.
2005a,b, Hirsimäki et al. 2003
Kontorovich et al. 2003
Medina-Urrea 2006, 2008, Medina Urrea
and Díaz 2003
Mayeld and McNamee 2003, McNamee
and Mayeld 2007
Hadouche 2002, Zweigenbaum et al. 2003
Calderone 2008, Pirrelli et al. 2004, Pirrelli
and Herreros 2007
Johnson and Martin 2003
Katrenko 2004
C
T
Finnish/Turkish/
English
C
C
T
T
English
Segmentation
Chuj/Rarámuri/Czech Ax List
-
-
C
C
T
T
8 West European
Same-stem
languages (IR)
Medical French
Segmentation
Italian/English/Arabic Unclear
C
C
T
T
Inuktitut
Ukrainian
Ax List
Segmentation
Segmentation
Lexicon+
Paradigms
Related word pairs
Lexicon+
Paradigms
Segmentation
Unclear
Lexicon+
Paradigms
‚avar et al. 2004a,b, ‚avar et al. 2006a,b
C
T
Child-English
Unclear
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
12 / 55
Trabajos hasta hoy #3
Model
Superv.
Experimentación
Qué aprende?
C
T
Segmentation
C/NC
T
C
C
C/NC
C
T
T
T
English/Spanish/
Mapudungun (I)
30-ish mostly European type languages
English
English
Unclear
Italian/English
Segmentation
Rewrite Rules
Segmentation
Segmentation
Unclear
Segmentation
C
C
C
T
T
-
Catalan
English/German
Maori to Warlpiri
Paradigms
Segmentation
Same-stem
C
T
Finnish/Turkish/English
Keshava and Pitler 2005
Johnsen 2005
Atwell and Roberts 2005
Dang and Choudri 2005
ur Rehman and Hussain 2005
Jordan et al. 2005, 2006
Goldwater 2007, Goldwater et al. 2005,
Naradowsky and Goldwater 2009
Freitag 2005
Golcher 2006
C
C
C
C
C
C
C
T
T
T
T
T
T
T
Finnish/Turkish/English
Finnish/Turkish/English
Finnish/Turkish/English
Finnish/Turkish/English
Finnish/Turkish/English
Finnish/Turkish/English
English/Child-English
Segmentation+
Related
sets
words
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
Segmentation
C
C
T
-
English
English/German
Arabsorkhi and Shamsfard 2006
Chan 2006, Chan 2008, 101-139
Demberg 2007
C
C
C/NC
T
T
T
Dasgupta 2007, Dasgupta and Ng
2006, 2007, Dasgupta and Ng. 2007
C
T
Monson 2004, 2009, Monson et al.
2007a,b, 2008a, 2004, 2008b,c
Wicentowski 2002, 2004, Yarowsky and
Wicentowski 2000
Gelbukh et al. 2004
Argamon et al. 2004
Goldsmith et al. 2005, Hu et al. 2005a
Bacchin et al. 2002a,b, 2005, Nunzio
et al. 2004
Oliver 2004, Chapter 45
Bordag 2005a,b, 2007a,b,c
Hammarström 2005, 2006a,b, 2007,
2009a,b
Bernhard 2005a,b, 2006, 2007a,b
Hammarstrom
+
of
Segmentation
Lexicon+
Paradigms
Persian
Segmentation
English
Paradigms
English/German/Finnish/ Segmentation
Turkish
Bengali
Segmentation
Métodos Diversidad Lingüística
March 2015, Mexico
13 / 55
Trabajos hasta hoy #4
Model
Superv.
Experimentación
Qué aprende?
De Pauw and Wagacha 2007
Tepper 2007, Tepper and Xia 2008
Xanthos 2007
C/NC
C/NC
NC
T
T+RR
T
Gikuyu
English/Turkish
Arabic
Majumder et al. 2008, 2007
C
T
Zeman 2007, 2008a,b
C
-
Kohonen et al. 2008
Goodman 2008
Golénia 2008
Pandey and Siddiqui 2008
C
C
C
C
T
T
T
T
French/Bengali/French/
Bulgarian/Hungarian
Czech/English/German/
Finnish
Finnish/Turkish/English
Finnish/Turkish/English
Turkish/Russian
Hindi
Segmentation
Analysis
Lexicon+
Paradigms
Analysis
Johnson 2008
Snyder and Barzilay 2008
C
C/NC
T
T
Spiegler et al. 2008
Moon et al. 2009
Poon et al. 2009
C
C
C
T
T
T
Hammarstrom
Segmentation+
Paradigms
Segmentation
Segmentation
Segmentation
Segmentation+
Paradigms
Sesotho
Segmentation
Hebrew/Arabic/Aramaic/ Segmentation
English
Zulu
Segmentation
English/Uspanteko
Segmentation
Arabic/Hebrew
Segmentation
Métodos Diversidad Lingüística
March 2015, Mexico
14 / 55
Estado del Arte?
Una comparación justa de precisión no es posible ya que
I Gran variedad en ambiciones y presuposiciones
I Specicaciones no completas
I Ad-hoc umbrales de valores (thresholds)
Hubo una competición
MorphoChallenge
http: // www. cis. hut. fi/ morphochallenge2009/
I Segmentación de Finés, Inglés, Alemán, Arabe y Turco
I La mayoría de sistemas no tomaron parte, incluso varios que se
consideran informalmente los mejores
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
15 / 55
Análisis morfológico sin-supervisión (ULM) vs sistemas
basados en reglas
Citación del Preface de State of the Art
ed. Mahlow and Piotrowski 2009 p vi:
in Computational Morphology
En la tarea de análisis de morfemas de MorphoChallenge, los
análises hechos por los algoritmos de los participantes
fueron comparados con un gold standard lingüístico.
En Morpho Challenge 2008 [3], el mejor sistema por Alemán
logró un F-measure de 54.06%. La mejor cifra de recall fue
59.51% (este sistema logró 49.53% precision), el mejor
Estas cifras son
demasiadamente bajas para considerarse útiles en la
mayoría de las aplicaciones, y en particular en aplicaciones
resultado de precision ...
interactivas. Si comparamos los resultados de Morpho
Challenge con las cifras presentadas en el primer
la decisión de concentrarse en
sistemas basados en reglas se hace evidente.
Morpholympics [4],
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
16 / 55
Técnicas en ULM
Buscar segmentos frecuentes/sobrerepresentados
Buscar el confín de la segmentación
Buscar paradigmas (ajos que ocurren sistematicamente en la(s)
misma(s) raíc(es)
Vamos a presentar unas de las más simples + una combinación
de las tres
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
17 / 55
Notaciones Formuláicos
Letras minúsculas w , s, b, x, y , . . . : signican una cadena de letras
Por ejemplo, x = hotel, x = cama, o sea cualquier palabra
Letras mayúsculas W , X , S, . . . : signican un conjunto de palabras
Por ejemplo, W
= {hotel,
cama, . . . }
|x| signica la longitud de x si x es una palabra
Por ejemplo,
|cama| = 4
|W | signica el número de miembros de W si W es un conjunto
Por ejemplo,
{hotel, cama, mono} = 3
w = xs signica la segmentacion de w en x seguido de s
Por ejemplo, cama = xs son las posibilidades x = c ,
s = ama o x = ca, s = ma o x = cam, s = a o x = cama,
s =00
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
18 / 55
Buscar Segmentos Sobrerepresentados
Sobrerepresentación como más-frecuente-que-su-longitud: Un segmento x
de longitud |x| letras está sobrerepresentado cuando es más
frecuente que lo esperado por su longitud
f (x)
|Σ||x|
Sobrerepresentación como más-frecuente-que-sus-partes: x = c1 c2 . . . cn de
n letras está sobrerepresentado cuando es más frecuente de lo
esperado de la combinación de las frecuencias de sus partes
f (c1 c2 . . . cn )
f (c1 )f (c2 ) . . . (cn )
Sobrerepresentación como más-frecuente-cuando-sujo: La probabilidad de
ocurrencia como sujo divisada por la probabilidad en otras
posiciones (no nales)
Pf (x)
Pnf (x)
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
19 / 55
Sobrerepresentación como más-frecuente-que-su-longitud:
Ejemplo
En la Biblia española hay 25 169 palabras diferentes
Entre ellas 556 terminan en
-ar:
f (−ar ) = 556
Hay 37 letras distintas en la Biblia española
Entonces la frencuencia esperada de -ar que es un segmento con
longitud 2 sería
1
25168 · ( )2 = 18.38
37
Entonces la sobrerepresentación de -ar será
556
≈ 30.25
18.38
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
20 / 55
Sobrerepresentación como más-frecuente-que-sus-partes:
Ejemplo
En la Biblia española hay 25 169 palabras diferentes
Hay 556 palabras que terminan en
-ar:
f (−ar ) = 556
Hay 37 letras distintas en la Biblia española
a
ocurre con la probabilidad 13.2%
a
ocurre con la probabilidad 9.1%
Entonces la frencuencia esperada de
-ar
que está compuesto de a y r
25169 · 0.091 · 0.132 ≈ 301.5
Entonces la sobrerepresentación de
-ar
será
556
≈ 1.84
301.5
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
21 / 55
Sobrerepresentación como más-frecuente-cuando-sujo:
Ejemplo
En la Biblia española hay 25 169 palabras diferentes
Hay 556 palabras que terminan en -ar: f (−ar ) = 556
Entonces la probabilidad nal de -ar es
556
= 0.022
25169
Hay 462 palabras donde -ar- ocurre no-nal (dentro de la palabras)
En las 25 169 palabras hay 162 036 posiciones no nales
Entonces la probabilidad no-nal de -ar es
462
= 0.00285
162036
Entonces la sobrerepresentación de -ar será
0.022
≈ 7.72
0.00285
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
22 / 55
Buscar el confín de la segmentación
Considera la distribución de letras en la posición inmediatamente
antes de un un sujo posiblemente segmentable, p.e., Inglés
ing
3258
t 640
l 329
r 317
d 258
n 249
k 216
s 170
h 149
y 131
p 130
g 117
...
...
Hammarstrom
i
o
a
u
e
h
l
n
Métodos Diversidad Lingüística
ng
3352
3258
35
26
26
4
1
1
1
March 2015, Mexico
23 / 55
Buscar el confín de la segmentación
Considera la distribución de letras en la posición inmediatamente
antes de un un sujo posiblemente segmentable, p.e., Español
er
5956
t 1068
d
677
n
662
s
486
l
374
k
337
r
332
g
305
i
298
m
242
p
184
...
...
Hammarstrom
r
12258
e 5956
a 4059
o 1249
i 1101
u
237
r
46
h
1
g
1
Métodos Diversidad Lingüística
March 2015, Mexico
24 / 55
Heuristicas sobre el confín de la segmentación
Número de letras distintas (Harris 1951 original) LPH:
LPH = |{c|xcs ∈ W }|
Entropía de ocurrencias de letras LPE:
LPE = −
X fW (cs)
fW (s)
log2
fW (cs)
fW (s)
El sesgo de la letra más frecuentemente ocurriente LPM:
LPM =
1
− maxc (fW (cs)/fW (s))
1
1−
|Σ|
LPM(ing ) ≈ 0.833, LPM(ng ) ≈ 0.029
LPM(t) ≈ 0.712.
pero también
Las tres medidas son altamente correlacionadas!
LPH&LPE
LPE&LPM
LPM&LPH
r
r -rank
Hammarstrom
0.872
0.957
0.729
0.999
0.998
0.996
Métodos Diversidad Lingüística
March 2015, Mexico
25 / 55
Extracción de ajos
Combinamos sobrerepresentación y heuristicas del confín de la
segmentación:
I Sobrerepresentación como más-frecuente-cuando-sujo: (RA)
I Heuristica del confín: LPM
Da un tanteo para cada sujo s : Z (s) = RA(s) · LPM(s)
El tanteo da una lista
arriba y basura abajo
ordenada
con sujos verdaderos probablemente
No queda claro la mejor manera de delimitar los sujos verdaderos
desde la basura
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
26 / 55
Resultados Experimentales 1: Biblia en Inglés
-ed
-eth
-ted
-iah
-ly
-ings
-ing
-ity
-edst
15448.4
12797.1
11899.4
11587.5
10571.2
8038.9
7292.8
6917.6
6844.7
Hammarstrom
-ites
-seth
-ned
-s'
-nded
-ts
-ah
-ness
-s
5370.2
5081.6
4826.7
4305.2
3833.8
3783.1
3766.9
3679.3
3407.3
-ions
-est
-sed
-y
-leth
-nts
-ied
-ened
-ers
2684.5
2452.6
2313.7
2239.2
2166.3
2122.6
1941.7
1834.9
1819.5
Métodos Diversidad Lingüística
-ered
-ded
-neth
...
-ig
-io
-ti
1796.7
1582.2
1540.0
...
0.0
0.0
0.0
March 2015, Mexico
27 / 55
Resultados Experimentales 2: Biblia en Español
s
n
as
a
en
aren
eras
e
nas
na
39908.25
28210.99
16352.31
12545.77
9180.55
8796.45
8445.28
6401.39
6391.66
4342.84
Hammarstrom
an
ares
ernas
nen
os
es
r
are
ar
et
3902.40
3546.75
3263.43
2980.62
2903.22
2849.25
2741.61
2671.10
2534.42
2203.46
ren
sen
das
is
aron
te
les
ras
er
idas
2117.22
1996.00
1949.44
1649.77
1639.59
1630.10
1559.92
1475.85
1474.87
1450.58
Métodos Diversidad Lingüística
gen
t
tas
rna
aros
den
adas
da
onen
la
1438.76
1420.67
1415.96
1334.99
1311.10
1242.33
1211.48
1012.60
1008.23
952.42
March 2015, Mexico
28 / 55
Resultados Experimentales 3: Biblia en Turco
-larna
-larndan
-lerinin
-lerden
-inden
-iyorlard
-arak
-iyorsunuz
-inin
-dlar
-lere
Hammarstrom
71645.4
47941.9
43917.3
36294.0
35258.2
28716.2
27774.1
25403.1
25045.5
20718.7
20718.2
-ip
-dan
-siniz
-ndan
-ndan
-yorlard
-acaksnz
-adlar
-lerinden
-nden
-sinin
20431.2
19468.4
10391.1
18556.3
18226.3
18097.1
16751.1
16587.9
15201.1
14082.2
13493.9
Métodos Diversidad Lingüística
-nin
-yorsunuz
-larla
-en
-ten
-siniz
-madlar
-lardan
-. . .
-iy
-yo
12340.9
12135.0
12069.7
11513.5
11424.0
11043.0
10958.9
10428.1
...
0.0
0.0
March 2015, Mexico
29 / 55
Resultados Experimentales 4: Biblia en Tarasco
pka
apka
ni
empka
ani
antani
skia
ejka
ka
apiringa
245707.20
169135.60
98790.17
67553.61
64718.98
60578.56
52050.93
49687.70
43963.20
43006.52
Hammarstrom
ntani
i
piringa
aani
ini
akia
ti
aaka
sïni
ajka
38342.84
37914.21
35125.87
33818.15
33591.51
32199.03
24665.53
24647.32
22963.65
22615.23
ksï
jka
aka
tajka
ntajka
pti
rini
aspti
tani
jti
Métodos Diversidad Lingüística
18514.77
17184.20
17164.30
17093.86
16941.85
16618.10
15787.82
15764.78
15364.25
14944.13
tia
chani
hani
stia
axapka
spka
nhani
nhajka
kia
eni
March 2015, Mexico
14
14
14
14
14
14
14
14
13
13
30 / 55
Segmentación: Prejos vs. Sujos
Sueco
0.097
-en
0.086
-na
0.036
-ade
0.035
-a
0.034
-ar
0.033
-er
0.033
-as
0.032
-s
0.031
-de
0.031
...
...
för-
Hammarstrom
Inglés
0.132
-eth
0.109
-iah
0.099
-ly
0.090
-ings
0.068
-ing
0.062
-ity
0.059
-edst
0.058
-ites
0.046
-s'
0.036
...
...
-ed
Swahili
0.100
wa0.095
ali0.065
nita0.059
aka0.049
ni0.046
ku0.044
ata0.042
ha0.032
a0.031
...
...
-a
Métodos Diversidad Lingüística
March 2015, Mexico
31 / 55
Buscar Paradigmas
Paradigma = Un conjunto de ajos que sistematicamente en la(s)
misma(s) raic(es):
Buscar paradigmas es un problema dicilísimo:
I El número de paradigmas posibles en teoría es exponencial (en el
número de sujos)
I Paradigmas no necesitan ser sin silapamiento (tipicamente en lenguas
naturales sí silapan)
=>
Paradigmas tipicamente tienen miembros muy frecuentes y tambíen
miembros poco frecuentes
Casi cada palabra ocurre solamente en un par de todas las formas de su
paradigma
I Los datos desde los que trabajamos es material crudo textual
F
F
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
32 / 55
Sesgo de Paradigmas: Ejemplo
Los tres paradigmas suecos más frecuentes
Adjective 1st decl
P.e. gul
-a
2022
-
1821
-t
1572
-e
221
-are
208
-s
114
-aste
90
-ast
46
-as
39
-es
13
-ts
4
-ares
1
Hammarstrom
Noun 3rd decl
P.e. tid
-
1619
-en
1141
-er
1072
-erna
583
-s
310
-ens
259
-ernas
136
-ers
40
Métodos Diversidad Lingüística
Verb 1st decl
P.e. lag-a
1001
-ade
948
-ar
883
-at
579
-as
482
-ande
423
-ad
387
-ades
273
-ats
207
-andes
5
-ads
3
March 2015, Mexico
33 / 55
Número de formas a la palabra: Ejemplo
Por los tres paradigmas más frecuentes, cuántas palabraas ocurren en
cuántas formas de su paradigma?
# forms
1
2
3
4
5
6
7
8
9
10
11
Adjective 1st decl
# lemmas
1107
703
714
210
54
29
12
4
2
-
Hammarstrom
Noun 3rd decl
# lemmas
1142
538
341
200
105
41
15
5
4
-
Métodos Diversidad Lingüística
Verb 1st decl
# lemmas
606
397
289
227
160
106
76
53
46
13
March 2015, Mexico
34 / 55
Lista de Quotientes
Primeramente, denir listas de quotientes Hx (y ) : S W → [0, 1] as:
Hx (y ) =
y
ed
00
s
e
es
er
ers
ion
y
ings
ions
in
ation
0
s
ingly
or
able
ive
ors
ations
er 0 s
ment
ly
...
Hammarstrom
|s|sx ∈ W ∧ sy ∈ w |
|s|sx ∈ w |
Hing (y )
y
ing
0.59
00
0.41
0.25
0.24
0.19
0.12
0.10
0.07
0.05
0.05
0.03
0.03
0.03
e
s
es
er
ion
ers
y
ions
ation
able
ings
0
s
or
in
ly
ive
ingly
al
ment
ors
ations
0.03
0.03
0.02
0.02
0.02
0.02
0.01
0.01
0.01
0.01
...
...
Métodos Diversidad Lingüística
Hed (y )
0.42
0.33
0.21
0.20
0.17
0.08
0.07
0.05
0.04
0.03
0.03
0.02
0.02
0.02
0.02
0.01
0.01
0.01
0.01
0.01
0.01
0.01
0.01
...
March 2015, Mexico
35 / 55
Calidad de Paradigmas
{ing,ed,,
ed
ing
s
e
es
ers
er
y
0
s
ion
er 0 s
d
ly
ings
in
ered
ation
ions
...
s,er}
{ing,ation,'s,xt}
00
1.51
0.94
0.78
0.73
0.61
0.48
0.47
0.24
0.18
ed
st
e
s
nd
sted
sts
nder
nding
nds
nded
xts
ar
ll
aring
nt
sting
nts
0.17
0.15
0.13
0.12
0.12
0.12
0.10
0.10
0.09
0.08
...
...
[2, 1, 0, 3, 7]
0.60
0.60
0.60
0.60
0.42
0.40
0.40
0.40
0.40
0.40
...
[32, 662, 661, 87352]
Medida de calidad de paradigmas
VI (P):
Suma de rangos de los miembros de
relativa a la suma optimal (que depende de
VI (P) =
Hammarstrom
1.83
1.10
0.80
0.64
0.64
0.60
0.60
0.60
0.60
2
|P|
y es 0
P,
+ . . . + |P| − 1):
|P|(|P| − 1)
P
x∈P rankP (x)
Métodos Diversidad Lingüística
March 2015, Mexico
36 / 55
Crecer Paradigmas
G (P) = argmaxp∈{P∪{s}|s∈S W } VI (p)
P
if G (P) = P
∗
G (P) =
G ∗ (G (P)) if G (P) 6= P
Otra alternativa más osada es permitir también expulsiones:
G (P) = argmaxp∈{P}∪{P
Hammarstrom
xor s|s∈S W } VI (p)
Métodos Diversidad Lingüística
March 2015, Mexico
37 / 55
Crecer Paradigmas: Ejemplos
P
{-ation}
{-ated, -ation}
{-ate, -ated, -ation}
{-ate, -ated, -ating, -ation}
{-ate, -ated, -ating, -ation, -ations}
P
{-xt}
{-xt, -n}
{-xt, -n, -ns}
{-n, -ns}
...
VI(P)
0.00
0.14
0.40
0.75
1.00
VI(P)
0.00
0.04
0.12
0.55
...
Nota: el estrechez de un paradigma es independiente de la calidad de
segmentación: E.g. VI ({0 xcellent 0 ,0 xcellently 0 }) = 1.0.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
38 / 55
Ejemplo de Resultados: Poláco
-a
-
-a¢
-a
-acie
-ach
-aj¡
-ami
-aª
-e
-ali
-em
-aªa
-om
-aªo
-owe
-asz
-owej
-am
-owi
-ane
-owych
-anie
-u
-aniem
-y
-aniu
-ania
-ano
-asz
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
39 / 55
Una segmentadora sin supervisión para lenguas de
morfología con un espacio
Podemos combinar los tres componentes
I Segmentación
I Sobrerepresantación
I Paradigmas
Se hace una segmentadora completamente sin supervisión
Para una lengua concatenativa con una morfología de un espacio, p.e.,
Indonesio
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
40 / 55
Segmentación para el hombre pobre
Input: Un conjunto de palabtas W de un corpus de texto
Un conjunto S de ajos salientes
1
2
de
Extracción de ajos de W
Purga
Por cada s ∈ S , its paradigm P(s)
3
from
Alternación en W
Dado w = xy ∈ W , es que x selecciona P(y ) o no?
4
Decisión de segmentación
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
41 / 55
Cuándo debe una palabra w segmentarse?
w = xy debe segmentarse si (y solo si):
-y
es un ajo saliente Y
x- selecciona P(y ) (tiende a ocurrir con los sujos que pertenecen al
paradigma de -y)
Intuición:
w = xy
-y saliente?
x- selecciona P(y )?
Segmentación?
play-ing
yes
yes
yes
s-ing
yes
no
no
P(ing ) = {-ing,
Hammarstrom
drea-m
no
yes
no
-ed, -s, -, . . . }
Métodos Diversidad Lingüística
March 2015, Mexico
42 / 55
Extracción: Sujos en Indonesio
-anmu
-nya
-anku
-lah
-kanlah
-hnya
-inya
-atnya
-kan
-tnya
87195.4
73694.0
51923.8
39535.9
27933.2
20915.8
19677.7
18361.2
18318.4
14237.1
-iel
-snya
-rlah
-annya
-ilah
-anya
-nmu
-mu
-kannya
-an
10000.7
9635.2
9351.8
7802.0
7534.3
7005.4
6531.7
6350.9
5981.8
5931.3
-arlah
-atlah
-anlah
-nglah
-anglah
-akanlah
-hlah
-ah
-nku
-ya
...
-aadil
-aadai
-aaan
Hammarstrom
Métodos Diversidad Lingüística
5702.8
5148.6
4522.9
4121.3
3990.4
3882.9
3658.6
3596.1
3359.6
3203.6
0.0
0.0
0.0
0.0
March 2015, Mexico
43 / 55
Purga de ajos
Quedarse solo con los sujos que son la mejor disección de por lo
menos una palabra
0
UW
= {s|s = argmaxs 0 /w ZW (s 0 ) for some w ∈ W }
0 = {anmu,
UW
nya, anku, lah, kan, nmu, mu, nku, i, ezer,
zabad, inadab, ihud, nadab, arif, obab, ezib, ilene, laf, ilo,
ore, e}
Siguen existir algunos sujos espurio, como
muy escasos
-ilene,
da igual ya que son
Un error grave es la falta de -an (purgado ya que -mu y -ku
frecuentemente aparacen junto a el Indonesio no es puremente una
lengua de un espacio!)
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
44 / 55
Listas de quotientes: Indonesio
y
nya
00
mu
ku
kan
lah
an
i
kanlah
kah
ilah
annya
kannya
t
k
anmu
n
m
h
s
ng
l
inya
ya
...
Hammarstrom
Hnya (y )
1.000
0.913
0.261
0.153
0.071
0.057
0.043
0.039
0.034
0.016
0.015
0.014
0.011
0.008
0.008
0.008
0.007
0.007
0.007
0.005
0.005
0.005
0.004
0.004
...
y
mu
00
nya
ku
kan
lah
an
kanlah
i
kah
annya
ilah
anmu
n
m
k
ng
mulah
t
anku
wan
ya
ta
s
...
Métodos Diversidad Lingüística
Hmu (y )
1.000
0.943
0.749
0.393
0.063
0.059
0.056
0.045
0.040
0.022
0.022
0.019
0.015
0.014
0.014
0.012
0.011
0.011
0.009
0.009
0.008
0.007
0.007
0.007
...
March 2015, Mexico
45 / 55
Calidad de Paradigmas: Indonesio
{nya,
mu, , ku}
2.789
nya
1.652
mu
1.004
ku
0.572
lah
0.243
kan
0.231
an
0.197
i
0.157
kanlah
0.137
annya
0.075
ilah
0.068
kah
0.065
n
0.049
anmu
0.047
m
0.043
t
0.037
k
0.036
anku
0.033
ng
0.032
h
0.031
mulah
0.031
ya
0.031
ta
0.029
s
0.027
...
...
[0, 1, 2, 3]
Hammarstrom
{nya,
s, a, ya}
mu
ku
snya
i
kan
lah
an
n
anya
slah
skan
k
ng
san
t
kanlah
m
si
r
h
l
amu
nya
...
[24, 32, 50, 79]
1.025
0.273
0.166
0.098
0.092
0.089
0.076
0.069
0.064
0.058
0.057
0.053
0.053
0.052
0.048
0.045
0.044
0.043
0.042
0.042
0.042
0.030
0.030
0.027
...
Métodos Diversidad Lingüística
March 2015, Mexico
46 / 55
Crecer Paradigmas: Indonesio
P
VI (P)
('nya',)
0.000
(, 'nya')
0.333
(, 'mu', 'nya')
0.750
(, 'ku', 'mu', 'nya')
1.000
P
VI (P)
('s',)
0.0
('s', 'snya')
0.077
('s', 'smu', 'snya')
0.273
('s', 'sku', 'smu', 'snya')
0.667
('s', 'san', 'sku', 'smu', 'snya')
0.833
('s', 'san', 'skan', 'sku', 'smu', 'snya')
0.882
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
47 / 55
Decisión de segmentación: Intuición
Considera:
'gadisnya' el
-nya
es una ocurrencia verdadera del sujo
'hanya' termina con la secuencia de letras
-nya
-nya
por azar
No tenemos lexicon de raíces para decirnos que hay una raiz
gadis- pero no hay una raiz ha-!
Hay 247 palabras en W que empiezan con
ha-:
Ninguna de las otras 246 continuaciones son - , -mu o -ku,
i.e., los ajos del paradigma
G ∗ (nya)
sistematicamente
alternatando con -nya!
Hay 3 palabras en W que empiezan con
gadis-
Las otras dos son 'gadis' y 'gadismu', i.e., con - y -mu!
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
48 / 55
Decisión de segmentación: Formalmente
0
Dada una palabra w = xs donde s ∈ UW
Denir CW (x) = {y |xy ∈ W } como el cunjunto de continuationes
de una raiz x
Cuánto del contenido de CW (x) aparece dentro versus fuera del
paradigma de s ?
El conjunto de continuaciones dentro I = CW (x) ∩ G ∗ (s)
El conjunto de continuaciones fuera O = CW (x) \ G ∗ (s)
αW (G ∗ (s)) es la proporción de palabras en W que terminan en (algún
miembro de) G ∗ (s)
w = xs debe segmentarse si esta proporción sobrepasa ≥ 1:
(1 − α)|O|
α|I |−1
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
49 / 55
Decisión de segmentación: Ejemplo
w
x
s
G ∗ (s)
αW G ∗ (s)
CW (x)
I
O
|O| · log(1 − α)
(|I | − 1) · log α
Segmentatación justicada?
Hammarstrom
'gadisnya'
'hanya'
gadis-
ha-
-nya
-nya
{00 , ku, mu, nya}
{00 , ku, mu, nya}
{00 , nya, mu}
{00 , nya, mu}
{}
{nya, sratmu, ncurkanlah, rta, rod, . . . }
{nya}
{sratmu, ncurkanlah, rta, rod, . . . }
0.205
0.0
-3.2
0.0 > −3.2 yes
0.205
Métodos Diversidad Lingüística
-56.9
0.0
−56.9 < 0.0 no
March 2015, Mexico
50 / 55
Evaluación
Datos gold standard para evaluación:
100 palabras seleccionadas por azar de W
Segmentadas a mano con respecto a prejos y sujos
P.e., di-rencana-kan-nya y meng-erut-kan
Un número total de 64 segmentaciones se fueron encontradas en las
100 palabras
Procedimiento:
El algoritmo fue aplicado a las 100 palabras, una vez para sujos y una
vez para prejos.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
51 / 55
Resultados
58 de las segmentationes fueron encontradas correctamente
No se encontraron segmentaciones spurias
6 segmentaciones faltan
Precision: 58/58=100% y Recall: 58/64=90.6%
Todos los 6 de las segmentaciones faltantes fueron palabras con sujos
apilados como -kan-lah, o con -an nal.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
52 / 55
Segmentadora de un espacio sin supervisión: Discussión
Un conjunto bastante largo de heurísticas
No hay prueba matemática con rigor, pero por lo menos todas
heurísticas tienen una intuición clara
No hay umbrales de valores
Pero:
La morfología del Indonesio es muy fácil
El procedimiento no puede aplicarse facilmente a lenguas con más que
un espacio en su morfología
I La extracción de ajos encuentra varios ajos apilados, pero no todos
I El crecimiento de paradigmas encuentra paradigmas demasiadamente
pequeños cuando se aplica a lenguas con más que un espacio
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
53 / 55
Conclusiones
No hay una teoría madura por ULM
La técnicas posiblemente pueden
I Solucionar el problema con lenguas de morfología de un espacio
I Acercar el problema con lenguas de morfología de más que un espacio
Precisión de aplicaciones con más ambición es questionable
El uso de ULM para facilitar o ayudar transcripción no está explorado
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
54 / 55
Thank you
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Andreev, N. D. (1959). Modelirovanije jazyka na base ego statisti£eskoj i
teoretiko-mnoºestvennoj struktury. In Tezisy sove²£anija po
matemati£eskoj lingvistike, 14-21 Aprelja 1959 goda, pages 1522.
Ministerstvo vys²ego obrazovanija SSSR, Leningrad.
Andreev, N. D. (1963). Algoritmy statistiko-kombinatornogo
modelirovanija morfologii, sintaksisa, slovoobrazovanija i semantiki. In
Materialy po matemati£eskoj lingvistike i ma²inomu perevodu: Sbornik
II,
pages 344. Izdatel'stvo Leningradskogo universiteta, Leningrad.
Andreev, N. D. (1965a). Opyt statistiko-kombinatornogo vydelenija
pervogo morfologi£eskogo tipa v vengerskom jazyke. In Andreev, N. D.,
editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 205211.
Nauka, Leningrad.
Andreev, N. D., editor (1965b).
jazykov. Nauka, Leningrad.
Andreev, N. D. (1967).
Statistiko-kombinatornoe modelirovanie
Statistiko-kombinatornye metody v teoreti£eskom i
prikladnom jazykovedenii.
Nauka, Leningrad.
Arabsorkhi, M. and Shamsfard, M. (2006). Unsupervised discovery of
persian morphemes. In Proceedings of the 11th Conference of the
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
European Chapter of the Association for Computational Linguistics,
EACL 2006, April 3-7, 2006, Trento, Italy: Demonstrations Session,
pages 175178. The Association for Computer Linguistics.
Argamon, S., Akiva, N., Amir, A., and Kapah, O. (2004). Ecient
unsupervised recursive word segmentation using minimum description
length. In Proceedings of COLING 2004, pages 10581064, Geneva,
Switzerland. COLING.
Atwell, E. and Roberts, A. (2005). Combinatory hybrid elementary analysis
of text. In Kurimo, M., Creutz, M., and Lagus, K., editors, Proceedings
of MorphoChallenge 2005, pages 3741.
Bacchin, M., Ferro, N., and Melucci, M. (2002a). The eectiveness of a
graph-based algorithm for stemming. In Lim, E. P., Foo, S., Khoo, C.
S. G., Chen, H., Fox, E. A., Urs, S. R., and Thanos, C., editors, ICADL
'02: Proceedings of the 5th International Conference on Asian Digital
Libraries,
volume 2555 of Lecture
117128. Springer-Verlag, Berlin.
Notes in Computer Science,
pages
Bacchin, M., Ferro, N., and Melucci, M. (2002b). University of Padua at
CLEF 2002: Experiments to evaluate a statistical stemming algorithm.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
In
Working Notes for CLEF 2002: Cross-Language Evaluation Forum
Workshop,
pages 161168. Rome.
Bacchin, M., Ferro, N., and Melucci, M. (2005). A probabilistic model for
stemmer generation. Information Processing and Management,
41(1):121137.
Baroni, M. (2000).
Distributional Cues in Morpheme Discovery: A
Computational Model and Empirical Evidence.
California, Los Angeles.
PhD thesis, University of
Baroni, M. (2003). Distribution-driven morpheme discovery: A
computational/experimental study. Yearbook of Morphology, pages
213248.
Baroni, M., Matiasek, J., and Trost, H. (2002). Unsupervised discovery of
morphologically related words based on orthographic and semantic
similarity. In Proceedings of the Workshop on Morphological and
Phonological Learning of ACL/SIGPHON-2002, pages 4857.
Batchelder, E. O. (1997).
Computational evidence for the use of frequency
information in discovery of the infant's rst lexicon.
University of New York.
Hammarstrom
Métodos Diversidad Lingüística
PhD thesis, City
March 2015, Mexico
55 / 55
Bati, T. B. (2002). Automatic morphological analyser: An experiment
using unsupervised and autosegmental approach. Master's thesis, Addis
Ababa University, Ethiopia.
Belkin, M. and Goldsmith, J. (2002). Using eigenvectors of the bigram
graph to infer morpheme identity. In Morphological and Phonological
Learning: Proceedings of the 6th Workshop of the ACL Special Interest
Group in Computational Phonology (SIGPHON),
pages 4147,
Philadelphia. Association for Computational Linguistics.
Bernhard, D. (2005a). Segmentation morphologique à partir de corpus. In
Actes de TALN & RÉCITAL 2005, volume 1, pages 555564. ATALA,
Dourdan, France.
Bernhard, D. (2005b). Unsupervised morphological segmentation based on
segment predictability and word segments alignment. In Kurimo, M.,
Creutz, M., and Lagus, K., editors, Unsupervised segmentation of words
into morphemes Challenge 2005, pages 1822.
Bernhard, D. (2006).
Apprentissage de connaissances morphologiques pour
l'acquisition automatique de ressources lexicales.
Joseph Fourier Grenoble I.
Hammarstrom
Métodos Diversidad Lingüística
PhD thesis, Université
March 2015, Mexico
55 / 55
Bernhard, D. (2007a). Apprentissage non supervisé de familles
morphologiques par classication ascendante hiérarchique. In
Actes de la
14e conférence sur le Traitement Automatique des Langues Naturelles,
TALN 2007,
volume 1, pages 367376. Toulouse, France.
Bernhard, D. (2007b). Simple morpheme labelling in unsupervised
morpheme analysis. In Nardi, A. and Peters, C., editors, Working
Notes
for the CLEF 2007 Workshop, 19-21 September, Budapest, Hungary.
Bordag, S. (2005a). Two-step approach to unsupervised morpheme
segmentation. In Kurimo, M., Creutz, M., and Lagus, K., editors,
Unsupervised segmentation of words into morphemes Challenge 2005,
pages 2327.
Bordag, S. (2005b). Unsupervised knowledge-free morpheme boundary
detection. In Proceedings of Recent Advances in Natural Language
Processing 2005 (RANLP '05). Borovets, Bulgaria.
Bordag, S. (2007a). Elements of Knowledge-free and Unsupervised
acquisition. PhD thesis, University of Leipzig, Leipzig.
lexical
Bordag, S. (2007b). Unsupervised and knowledge-free morpheme
segmentation and analysis. In Kurimo, M., Creutz, M., and Lagus, K.,
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
editors,
Unsupervised segmentation of words into morphemes Challenge 2007.
Bordag, S. (2007c). Unsupervised and knowledge-free morpheme
segmentation and analysis. In Nardi, A. and Peters, C., editors,
Working
Notes for the CLEF 2007 Workshop, 19-21 September, Budapest,
Hungary.
Brent, M. (1993). Minimal generative explanations: A middle ground
between neurons and triggers. In Proceedings of the fteenth annual
conference of the Cognitive Science Society: June 18 to 21, 1993,
Institute of Cognitive Science, University of Colorado, Boulder,
2836. Lawrence Erlbaum Associates.
pages
Brent, M. R. (1999). An ecient, probabilistically sound algorithm for
segmentation and word discovery. Machine Learning, 34:71105.
Brent, M. R., Murthy, S., and Lundberg, A. (1995). Discovering
morphemic suxes: A case study in minimum description length
induction. In Fifth International Workshop on Articial Intelligence and
Statistics, pages 482490. Fort Lauderdale, Florida: Society for Articial
Intelligence and Statistics.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Calderone, B. (2008). Unsupervised Learning of Linguistic Structures. PhD
thesis, Pisa: Scuola Normale Superiore.
‚avar, D., Herring, J., Ikuta, T., Rodrigues, P., and Schrementi, G.
(2004a). On induction of morphology grammars and its role in
bootstrapping. In Jäger, G., Monachesi, P., Penn, G., and Wintner, S.,
editors, Proceedings of Formal Grammar 2004, pages 4762.
‚avar, D., Herring, J., Ikuta, T., Rodrigues, P., and Schrementi, G.
(2004b). On statistical parameter setting. In Proceedings of the First
Workshop on Psycho-computational Models of Human Language
Acquisition, 28-29 August 2004, Geneva, Switzerland (Held in
cooperation with COLING-2004), pages 916.
‚avar, D., Herring, J., Ikuta, T., Rodrigues, P., and Schrementi, G.
(2006a). On unsupervised grammar induction from untagged corpora. In
Kaszubski, P., editor, PSiCL: Poznan' Studies in Contemporary
Linguistics, volume 41, pages 5771. Poznan', Poland: Adam Mickiewicz
University.
‚avar, D., Rodrigues, P., and Schrementi, G. (2006b). Unsupervised
morphology induction for part-of-speech tagging. In Eilam, A., Scheer,
T., and Tauberer, J., editors, Proceedings of the 29th Annual Penn
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Linguistics Colloquium,
volume 12(1) of U. Penn Working Papers in
Linguistics, pages 2941. Penn Linguistics Club, University of
Pennsylvania.
Chan, E. (2006). Learning probabilistic paradigms for morphology in a
latent class model. In Proceedings of the Eighth Meeting of the ACL
Special Interest Group on Computational Phonology and Morphology at
HLT-NAACL 2006,
pages 6978. Association for Computational
Linguistics, New York City, USA.
Chan, E. (2008). Structures and distributions in morphology learning. PhD
thesis, University of Pennsylvania, Philadelphia, PA, USA.
Cho, S. and Han, S.-S. (2002). Automatic stemming for indexing of an
agglutinative language. In Yakhno, T., editor, Advances in Information
Systems, volume 2457 of Lecture Notes in Computer Science, pages
154165. Springer-Verlag, Berlin.
Clark, A. (2001). Unsupervised language acquisition. PhD thesis,
University of Sussex.
Creutz, M. (2003). Unsupervised segmentation of words using prior
distributions of morph length and frequency. In Proceedings of the ACL
2003, pages 280287. Sapporo, Japan.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Creutz, M. (2006).
Induction of the Morphology of Natural Language:
Unsupervised Morpheme Segmentation with Application to Automatic
Speech Recognition.
Espoo, Finland.
PhD thesis, Helsinki University of Technology,
Creutz, M. and Lagus, K. (2002). Unsupervised discovery of morphemes.
In Proceedings of the 6th Workshop of the ACL Special Interest Group in
Computational Phonology (SIGPHON), Philadelphia, July 2002, pages
2130. Association for Computational Linguistics.
Creutz, M. and Lagus, K. (2004). Induction of a simple morphology for
highly-inecting languages. In Proceedings of the 7th Meeting of the
ACL Special Interest Group in Computational Phonology (SIGPHON),
pages 4351. Barcelona.
Creutz, M. and Lagus, K. (2005a). Inducing the morphological lexicon of a
natural language from unannotated text. In Proceedings of the
International and Interdisciplinary Conference on Adaptive Knowledge
Representation and Reasoning (AKRR '05), 15-17 June, Espoo, Finland,
pages 106113. Espoo.
Creutz, M. and Lagus, K. (2005b). Morfessor in the Morpho Challenge. In
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Kurimo, M., Creutz, M., and Lagus, K., editors,
Unsupervised
segmentation of words into morphemes Challenge 2005,
pages 1217.
Creutz, M. and Lagus, K. (2005c). Unsupervised morpheme segmentation
and morphology induction from text corpora using morfessor 1.0.
Technical report, Publications in Computer and Information Science,
Report A81, Helsinki University of Technology.
Creutz, M. and Lagus, K. (2007). Unsupervised models for morpheme
segmentation and morphology learning. ACM Transactions on Speech
and Language Processing, 4(1,3):133.
Creutz, M., Lagus, K., Lindén, K., and Virpioja, S. (2005a). Morfessor and
hutmegs: Unsupervised morpheme segmentation for highly-inecting and
compounding languages. In Proceedings of the Second Baltic Conference
on Human Language Technologies, Tallinn, 4 - 5 April, pages 107112.
Tallinn, Estonia.
Creutz, M., Lagus, K., and Virpioja, S. (2005b). Unsupervised morphology
induction using morfessor. In Yli-Jyrä, A., Karttunen, L., and
Karhumäki, J., editors, Finite State Methods in Natural Language
Processing: 5th International Workshop, FSMNLP 2005, Helsinki,
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Finland, September 1-2, 2005. Revised Papers,
volume 4002 of Lecture
Notes in Computer Science, pages 300301. Springer-Verlag, Berlin.
Cromm, O. (1997). Axerkennung in deutschen wortformen: Ein
nicht-lexikalisches segmentierungsverfahren nach N. D. Andreev.
LDV-Forum, 14(2):413.
Dang, M. T. and Choudri, S. (2005). Simple unsupervised morphology
analysis algorithm (SUMAA). In Kurimo, M., Creutz, M., and Lagus, K.,
editors, Proceedings of MorphoChallenge 2005, pages 4751.
Dasgupta, S. (2007). Toward language-independent morphological
segmentation and part-of-speech induction. Master's thesis, The
University of Texas at Dallas.
Dasgupta, S. and Ng, V. (2006). Unsupervised morphological parsing of
bengali. Language Resources and Evaluation, 3-4:311330.
Dasgupta, S. and Ng, V. (2007). High-performance, language-independent
morphological segmentation. In Human Language Technologies 2007:
The Conference of the North American Chapter of the Association for
Computational Linguistics; Proceedings of the Main Conference,
155163, Rochester, New York. Association for Computational
Linguistics.
Hammarstrom
Métodos Diversidad Lingüística
pages
March 2015, Mexico
55 / 55
Dasgupta, S. and Ng., V. (2007). Unsupervised word segmentation for
bangla. In Proceedings of the 5th International Conference on Natural
Language Processing (ICON 2007). Hyderabad, India.
de Kock, J. and Bossaert, W. (1969). Towards an automatic morphological
segmentation. In International conference on computational linguistics,
COLING, 1-4 September 1969, Sånga-Säby, Sweden, volume 60, pages
1011. Stockholm: Forskningsgruppen för kvantitativ lingvistik.
de Kock, J. and Bossaert, W. (1974).
Introducción a la lingüística
automática en las lenguas Románicas,
románica hispánica 2: Estudios y
volume 202 of Biblioteca
ensayos. Gredos, Madrid.
de Kock, J. and Bossaert, W. (1978).
The Morpheme: An Experiment in
Quantitative and Computational Linguistics.
Van Gorcum, Amsterdam.
De Pauw, G. and Wagacha, P. W. (2007). Bootstrapping morphological
analysis of Gk
uy
u using maximum entropy learning. In Proceedings of
the 8th Annual Conference of the International Speech Communication
Association (INTERSPEECH 2007), Antwerp, Belgium, August 27-31,
2007,
pages 15171520. ISCA.
Déjean, H. (1998a).
Hammarstrom
Concepts et algorithmes pour la découverte des
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
structures formelles des langues.
Normandie.
PhD thesis, Université de Caen Basse
Déjean, H. (1998b). Morphemes as a necessary concept for structures
discovery from untagged corpora. In NeMLaP3/CoNLL98 Workshop
Paradigms and Grounding in Language Learning, pages 295298.
Association for Computational Linguistics, Philadephia.
Deligne, S. (1996).
on
Modèles de séquences de longueurs variables:
application au traitement du langage écrit et de la parole. PhD thesis,
École Nationale Supérieure des Télécommunications, Paris.
Deligne, S. and Bimbot, F. (1997). Inference of variable-length linguistic
and acoustic units by multigrams. Speech Communication,
23(3):223241.
Demberg, V. (2007). A language-independent unsupervised model for
morphological segmentation. In Proceedings of the 45th Annual Meeting
of the Association of Computational Linguistics, pages 920927, Prague,
Czech Republic. Association for Computational Linguistics.
Eliseeva, K. A. (1965). Statistiko-kombinatornoe modelirovanie pervogo
tipa v ukrainskoj morfologii. In Andreev, N. D., editor,
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Statistiko-kombinatornoe modelirovanie jazykov,
Leningrad.
pages 8588. Nauka,
Faulk, R. D. and Gustavson, F. G. (1990). Segmenting discrete data
representing continuous speech input. IBM Systems Journal,
29(2):287296.
Fedulova, N. I. (1965). Vydelenie pervogo morfologi£eskogo tipa v
bolgarskom jazyke. In Andreev, N. D., editor, Statistiko-kombinatornoe
modelirovanie jazykov, pages 110115. Nauka, Leningrad.
Fihman, B. S. (1965a). Vydelenie pervogo morfologi£eskogo tipa v jazyke
hausa po algoritmu statistiko-kombinatornogo modelirovanija. In
Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov,
pages 189195. Nauka, Leningrad.
Fihman, B. S. (1965b). Vydelenie pervogo morfologi£eskogo tipa v jazyke
suahili po algoritmu statistiko-kombinatornogo modelirovanija. In
Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov,
pages 196204. Nauka, Leningrad.
Fitialova, I. B. (1965). Statistiko-kombinatornoe vydelenie pervogo
morfologi£eskogo tipa v nemeckom jazyke. In Andreev, N. D., editor,
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Statistiko-kombinatornoe modelirovanie jazykov,
Leningrad.
Flenner, G. (1992).
pages 158171. Nauka,
Ein quantitatives Morphsegmentierungsverfahren für
spanische Wortformen. PhD thesis, Georg-August-Universität Göttingen.
Flenner, G. (1994). Ein quantitatives Morphsegmentierungssystem für
spanische Wortformen. In Klenk, U., editor, Computatio Linguae II:
Aufsätze zur algorithmischen und quantitativen Analyse der Sprache,
volume 83 of Zeitschrift für Dialektologie und Linguistik: Beihefte, pages
3162. Franz Steiner, Stuttgart.
Flenner, G. (1995). Quantitative Morphsegmentierung im Spanischen auf
phonologischer Basis. Sprache und Datenverarbeitung, 19(2):6378.
Freitag, D. (2005). Morphology induction from term clusters. In
Proceedings of the Ninth Conference on Computational Natural
Language Learning (CoNLL-2005),
pages 128135, Ann Arbor,
Michigan. Association for Computational Linguistics.
Gammon, E. (1969). Quantitative approximations to the word. In
International conference on computational linguistics, COLING, 1-4
September 1969, Sånga-Säby, Sweden,
volume 10, pages 128.
Stockholm: Forskningsgruppen för kvantitativ lingvistik.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Gaussier, É. (1999). Unsupervised learning of derivational morphology from
inectional lexicons. In Kehler, A. and Stolcke, A., editors, Proceedings
of the workshop on Unsupervised Learning in Natural Language
Processing at the 37th Annual Meeting of the Association for
Computational Linguistics (ACL-1999),
Computational Linguistics, Philadephia.
pages 2430. Association for
Gelbukh, A. F., Alexandrov, M., and Han, S.-Y. (2004). Detecting
inection patterns in natural language by minimization of morphological
model. In Sanfeliu, A., Trinidad, J. F. M., and Carrasco-Ochoa, J. A.,
editors, Proceedings of Progress in Pattern Recognition, Image Analysis
and Applications, 9th Iberoamerican Congress on Pattern Recognition,
CIARP '04, volume 3287 of Lecture
432438. Springer-Verlag, Berlin.
Notes in Computer Science,
pages
Golcher, F. (2006). Statistical text segmentation with partial structure
analysis. In Proceedings of KONVENS 2006, pages 4451. Universität
Konstanz.
Goldsmith, J. (2000). Linguistica: An automatic morphological analyzer. In
Okrent, A. and Boyle, J., editors, Proceedings from the Main Session of
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
the Chicago Linguistic Society's thirty-sixth Meeting,
Chicago Linguistics Society, Chicago.
pages 125139.
Goldsmith, J. (2001). Unsupervised learning of the morphology of natural
language. Computational Linguistics, 27(2):153198.
Goldsmith, J., Higgins, D., and Soglasnova, S. (2001). Automatic
language-specic stemming in information retrieval. In Peters, C., editor,
Cross-Language Information Retrieval and Evaluation: Proceedings of
the CLEF 2000 Workshop,
Lecture Notes in Computer Science, pages
273283. Springer-Verlag, Berlin.
Goldsmith, J., Hu, Y., Matveeva, I., and Sprague, C. (2005). A heuristic
for morpheme discovery based on string edit distance. Technical Report
TR-2005-4 of Computer Science Department, University of Chicago.
Goldsmith, J. A. (2006). An algorithm for the unsupervised learning of
morphology. Natural Language Engineering, 12(4):353371.
Goldwater, S. (2007). Nonparametric Bayesian
Acquisition. PhD thesis, Brown University.
Models of Lexical
Goldwater, S., Griths, T., and Johnson, M. (2005). Interpolating between
types and tokens by estimating power-law generators. In Advances in
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Neural Information Processing Systems 18 [Neural Information
Processing Systems, NIPS 2005, December 5-8, 2005, Vancouver, British
Columbia, Canada].
Golénia, B. (2008). Learning rules in morphology of complex synthetic
languages. Master's thesis, Université de Paris V.
Goodman, S. A. (2008). Morphological induction through linguistic
productivity. In Working Notes for the CLEF 2008 Workshop, 17-19
September, Aarhus, Denmark.
Hadouche, F. (2002). Détection de relations morphologiques en corpus
basée sur les cooccurrences. Master's thesis, DESS, Centre de Recherche
en Ingénierie Multilingue, CRIM, France.
Hafer, M. A. and Weiss, S. F. (1974). Word segmentation by letter
successor varieties. Information Storage and Retrieval, 10:371385.
Hammarström, H. (2005). A new algorithm for unsupervised induction of
concatenative morphology. In Yli-Jyrä, A., Karttunen, L., and
Karhumäki, J., editors, Finite State Methods in Natural Language
Processing: 5th International Workshop, FSMNLP 2005, Helsinki,
Finland, September 1-2, 2005. Revised Papers,
Notes in Computer Science,
Hammarstrom
volume 4002 of Lecture
pages 288289. Springer-Verlag, Berlin.
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Hammarström, H. (2006a). A naive theory of morphology and an algorithm
for extraction. In Wicentowski, R. and Kondrak, G., editors, SIGPHON
2006: Eighth Meeting of the Proceedings of the ACL Special Interest
Group on Computational Phonology, 8 June 2006, New York City, USA,
pages 7988. Association for Computational Linguistics.
Hammarström, H. (2006b). Poor man's stemming: Unsupervised
recognition of same-stem words. In Ng, H. T., Leong, M.-K., Kan,
M.-Y., and Ji, D., editors, Information Retrieval Technology:
Proceedings of the Third Asia Information retrieval Symposium, AIRS
2006, Singapore, October 2006,
volume 4182 of Lecture Notes in
Computer Science, pages 323337. Springer-Verlag, Berlin.
Hammarström, H. (2007). Unsupervised learning of morphology: Survey,
model, algorithm and experiments. Thesis for the Degree of Licentiate of
Engineering, Department of Computer Science and Engineering,
Chalmers University, 91 pp.
Hammarström, H. (2009a). Poor man's word-segmentation: Unsupervised
morphological analysis for Indonesian. In Proceedings of the Third
International Workshop on Malay and Indonesian Language Engineering
(MALINDO).
Hammarstrom
Singapore: ACL.
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Hammarström, H. (2009b). Unsupervised Learning of Morphology and the
Languages of the World. PhD thesis, Chalmers University of Technology
and University of Gothenburg.
Hammarström, H., Thornell, C., Petzell, M., and Westerlund, T. (2008).
Bootstrapping language description: The case of mpiemo (bantu a,
central african republic). In Proceedings of LREC-2008, pages
33503554. European Language Resources Association (ELRA).
Harris, Z. (1967). Morpheme boundaries within words: Report on a
computer test. In Transformations and Discourse Analysis Papers 73.
Department of Linguistics, University of Pennsylvania. Reprinted in
Harris 1970.
Harris, Z. S. (1955). From phoneme to morpheme. Language,
31(2):190222.
Harris, Z. S. (1968). Recurrent dependence process: Morphemes by
phoneme neighbours. In Mathematical structures of language, volume 21
of Interscience tracts in pure and applied mathematics, pages 2428.
Interscience, New York.
Harris, Z. S. (1970). Morpheme boundaries within words: Report on a
computer test. In Harris, Z. S., editor, Papers in Structural and
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Transformational Linguistics,
volume 1 of Formal Linguistics Series,
pages 6877. D. Reidel, Dordrecht. Original Zellig Harris 1967
Morpheme boundaries within words: Report on a computer test. In
Transformations and Discourse Analysis Papers 73. Department of
Linguistics, University of Pennsylvania.
Hirsimäki, T., Creutz, M., Siivola, V., and Kurimo, M. (2003). Unlimited
vocabulary speech recognition based on morphs discovered in an
unsupervised manner. In Proceedings of Eurospeech 2003, Geneva, pages
22932996. Geneva, Switzerland.
Hol'm, H. A. (1965). Vydelenie pervogo morfologi£eskogo tipa v e
stonskom
jazyke na osnove statistiko-kombinatornogo modelirovanija. In Andreev,
N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages
212224. Nauka, Leningrad.
Hu, Y., Matveeva, I., Goldsmith, J., and Sprague, C. (2005a). Rening the
SED heuristic for morpheme discovery: Another look at Swahili. In
Proceedings of the Workshop on Psychocomputational Models of Human
Language Acquisition,
pages 2835, Ann Arbor, Michigan. Association
for Computational Linguistics.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Hu, Y., Matveeva, I., Goldsmith, J., and Sprague, C. (2005b). Using
morphology and syntax together in unsupervised learning. In Proceedings
of the Workshop on Psychocomputational Models of Human Language
Acquisition,
pages 2027, Ann Arbor, Michigan. Association for
Computational Linguistics.
Jacquemin, C. (1997). Guessing morphology from terms and corpora. In
Proceedings, 20th Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval (SIGIR '97),
Philadelphia, PA, pages 155165.
Jakubajtis, T. A. (1965). Statistiko-kombinatornoe vydelenie pervogo
morfologi£eskogo tipa v laty²skom jazyke. In Andreev, N. D., editor,
Statistiko-kombinatornoe modelirovanie jazykov, pages 116122. Nauka,
Leningrad.
Jaku²eva, D. A. (1965). Opyt primenenija algoritma
statistiko-kombinatornogo modelirovanija k v'etnamskomu jazyku. In
Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov,
pages 225228. Nauka, Leningrad.
Janÿen, A. (1992). Segmentierung französischer Wortformen ohne Lexikon.
In Klenk, U., editor, Computatio Linguae: Aufsätze zur algorithmischen
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
und quantitativen Analyse der Sprache,
Dialektologie und Linguistik:
volume 73 of Zeitschrift für
Beihefte, pages 7495. Franz Steiner,
Stuttgart.
Johnsen, L. G. (2005). Morphological learning as principled argument. In
Kurimo, M., Creutz, M., and Lagus, K., editors, Proceedings of
MorphoChallenge 2005, pages 3336.
Johnson, H. and Martin, J. (2003). Unsupervised learning of morphology
for English and Inuktitut. In HLT-NAACL 2003, Human Language
Technology Conference of the North American Chapter of the
Association for Computational Linguistics, May 27 - June 1, Edmonton,
Canada, volume Companion Volume - Short papers, pages 4345.
Johnson, M. (2008). Unsupervised word segmentation for Sesotho using
adaptor grammars. In Proceedings of the Tenth Meeting of ACL Special
Interest Group on Computational Morphology and Phonology, pages
2027, Columbus, Ohio. Association for Computational Linguistics.
Jordan, C., Healy, J., and Keselj, V. (2005). Swordsh: Using ngrams in an
unsupervised approach to morphological analysis. In Kurimo, M., Creutz,
M., and Lagus, K., editors, Proceedings of MorphoChallenge 2005, pages
4246.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Jordan, C., Healy, J., and Keselj, V. (2006). Swordsh: an unsupervised
ngram based approach to morphological analysis. In SIGIR '06:
Proceedings of the 29th annual international ACM SIGIR conference on
Research and development in information retrieval,
York, NY, USA. ACM.
pages 657658, New
Juola, P., Hall, C., and Boggs, A. (1994). Corpus-based morphological
segmentation by entropy changes. In Monaghan, A., editor, Third
Conference on the Cognitive Science of Natural Language Processing.
Dublin City University.
Katrenko, S. (2004). Towards unsupervised learning of morphology applied
to Ukrainian. In i Alemany, L. A. and Egré, P., editors, Student Session:
16th European Summer School in Logic, Language and Information,
Nancy, France, 9-20 August, 2004,
pages 138148. FoLLI.
Kazakov, D. (1997). Unsupervised learning of naïve morphology with
genetic algorithms. In Daelemans, W., Weijters, T., and van der Bosch,
A., editors, ECML'97 Workshop Notes on Empirical Learning of
Natural Language Tasks, pages 105112, Prague. University of
Economics.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Kazakov, D. and Manandhar, S. (1998). A hybrid approach to word
segmentation. In Page, C. D., editor, Proceedings of the 8th
International Workshop on Inductive Logic Programming (ILP-98) in
Madison, Wisconsin, USA,
volume 1446 of Lecture Notes
Intelligence, pages 125134. Springer-Verlag, Berlin.
in Articial
Kazakov, D. and Manandhar, S. (2001). Unsupervised learning of word
segmentation rules with genetic algorithms and inductive logic
programming. Machine Learning, 43:121162.
Keshava, S. and Pitler, E. (2005). A simpler, intuitive approach to
morpheme induction. In Kurimo, M., Creutz, M., and Lagus, K., editors,
Proceedings of MorphoChallenge 2005, pages 2832.
Kirschenbaum, A., Wittenburg, P., and Heyer, G. (2012). Unsupervised
morphological analysis of small corpora: First experiments with kilivila.
In Seifart, F., Haig, G., Himmelmann, N. P., Jung, D., Margetts, A., and
Trilsbeek, P., editors, Potentials of Language Documentation: Methods,
Analyses, and Utilization, volume 3 of Language Documentation &
Conservation Special Publication, pages 2532. University of Hawaii
Press.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Klenk, U. (1985a). Ein nicht-lexikalisches Verfahren zur Erkennung
spanischer Wortstämme. In Klenk, U., editor, Strukturen und Verfahren
in der maschinellen Sprachverarbeitung, pages 4765. AQ-Verlag,
Dudweiler.
Klenk, U. (1985b). Recognition of Spanish inectional endings based on
the distribution of characters. In Hamesse, J. and Zampolli, A., editors,
Computers in literary and linguistic computing: proceedings of the
eleventh International Conference / L'ordinateur et les recherches
littéraires et linguistiques: actes de la XIe Conférence internationale,
Université catholique de Louvain (Louvain-la-Neuve) 2-6 avril 1984,
volume 30 of Travaux de linguistique quantitative, pages 246253.
Klenk, U. (1991). Verfahren der Segmentierung von Wörtern in Morphe:
Mit einer Untersuchung zum Spanischen. In und Dieter Seelbach, J. R.,
editor, Romanistische Computerlinguistik: Theorien und
Implementationen, volume 266 of Linguistische Arbeiten, pages 197206.
Niemeyer, Tübingen.
Klenk, U. (1992). Verfahren morphologischer Segmentierung und die
Wortstruktur des Spanischen. In Klenk, U., editor, Computatio Linguae:
Aufsätze zur algorithmischen und quantitativen Analyse der Sprache,
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
volume 73 of Zeitschrift für Dialektologie und Linguistik: Beihefte, pages
110124. Franz Steiner, Stuttgart.
Klenk, U. and Langer, H. (1989). Morphological segmentation without a
lexicon. Literary and Linguistic Computing, 4(4):247253.
Kohonen, O., Virpioja, S., and Klami, M. (2008). Allomorfessor: Towards
unsupervised morpheme analysis. In Working Notes for the CLEF 2008
Workshop, 17-19 September, Aarhus, Denmark.
Kontorovich, L., Don, D., and Singer, Y. (2003). A markov model for the
acquisition of morphological structure. Technical report,
CMU-CS-03-147, School of Computer Science, Carnegie Mellon
University.
Kordi, E. E. (1965). Ishodnye dannye dlja statistiko-kombinatornogo
modelirovanija morfologii sovremennogo francuzckogo jazyka i vydelenie
pervogo morfologi£eskogo tipa. In Andreev, N. D., editor,
Statistiko-kombinatornoe modelirovanie jazykov, pages 172180. Nauka,
Leningrad.
Langer, H. (1991). Ein automatisches Morphsegmentierungsverfahren für
deutsche Wortformen. PhD thesis, Georg-August-Universität zu
Göttingen.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Lehmann, H. (1973). Linguistische
Niemeyer Verlag, Tübingen.
Modellbildung und Methodologie.
Max
Majumder, P., Mitra, M., and Pal, D. (2008). Bulgarian, Hungarian and
Czech stemming using YASS. In Peters, C., Jijkoun, V., Mandl, T.,
Müller, H., Oard, D. W., and Penas, A., editors, Advances in
Multilingual and Multimodal Information Retrieval: 8th Workshop of the
Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary,
September 19-21, 2007, Revised Selected Papers,
Springer-Verlag, Berlin.
pages 4956.
Majumder, P., Mitra, M., Parui, S. K., Kole, G., Mitra, P., and Datta, K.
(2007). YASS: Yet another sux stripper. ACM Transactions on
Information Systems, 25(4):18:120.
Malahovskij, L. V. (1965). Na£al'nyj e
tap statistiko-kombinatornogo
modelirovanija morfologii anglijskogo jazyka. In Andreev, N. D., editor,
Statistiko-kombinatornoe modelirovanie jazykov, pages 137149. Nauka,
Leningrad.
Mayeld, J. and McNamee, P. (2003). Single n-gram stemming. In
SIGIR
'03: Proceedings of the 26th annual international ACM SIGIR conference
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
on Research and development in informaion retrieval,
New York, NY, USA. ACM.
pages 415416,
McNamee, P. and Mayeld, J. (2007). N-gram morphemes for retrieval. In
Nardi, A. and Peters, C., editors, Working Notes for the CLEF 2007
Workshop, 19-21 September, Budapest, Hungary.
Medina Urrea, A. (2000). Automatic discovery of axes by means of a
corpus: A catalog of Spanish axes. Journal of Quantitative Linguistics,
7(2):97114.
Medina Urrea, A. (2003).
Investigación cuantitativa de ajos y clíticos del
español de México: Glutinometría en el Corpus del Español Mexicano
Contemporáneo.
PhD thesis, El Colegio de México, México, D.F.
Medina-Urrea, A. (2006). Ax discovery by means of corpora: Experiments
for Spanish, Czech, Ralámuli and Chuj. In Mehler, A. and Köhler, R.,
editors, Aspects of Automatic Text Analysis, volume 209 of Studies in
Fuzziness and Soft Computing, pages 277299. Springer, Berlin.
Medina Urrea, A. (2006). Towards the automatic lemmatization of 16th
century Mexican Spanish: A stemming scheme for the CHEM. In
Gelbukh, A. F., editor, Computational Linguistics and Intelligent Text
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Processing, 7th International Conference, CICLing 2006, Mexico City,
Mexico, February 19-25, 2006, Proceedings,
volume 3878 of Lecture
pages 101104. Springer-Verlag, Berlin.
Medina-Urrea, A. (2008). Ax discovery based on entropy and economy
measurements. In Gaylord, N., Palmer, A., and Ponvert, E., editors,
Computational Linguistics for Less-Studied Languages, volume X of
Texas Linguistics Society, pages 99112. Stanford: CSLI.
Medina Urrea, A. and Díaz, E. C. B. (2003). Características cuantitativas
de la exión verbal del Chuj. Estudios de Lingüística Aplicada, 38:1531.
Melkumjan, M. R. (1965). Ishodnye dannye i statistiko-kombinatornoe
vydelenie paradigmy pervogo morfologi£eskogo tipa v armjanskom jazyke.
In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie
jazykov, pages 123136. Nauka, Leningrad.
Monson, C. (2004). A framework for unsupervised natural language
morphology induction. In van der Beek, L. and andDaniel Midgley,
D. G., editors, ACL 2004: Student Research Workshop, pages 6772,
Barcelona, Spain. Association for Computational Linguistics.
Monson, C. (2009). ParaMor: From paradigm structure to natural
language morphology induction. PhD thesis, Carnegie Mellon University.
Notes in Computer Science,
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Monson, C., Carbonell, J., Lavie, A., and Levin, L. (2007a). ParaMor:
Finding paradigms across morphology. In Nardi, A. and Peters, C.,
editors, Working Notes for the CLEF 2007 Workshop, 19-21 September,
Budapest, Hungary.
Monson, C., Carbonell, J., Lavie, A., and Levin, L. (2007b). ParaMor:
Minimally supervised induction of paradigm structure and morphological
analysis. In Proceedings of Ninth Meeting of the ACL Special Interest
Group in Computational Morphology and Phonology, pages 117125,
Prague, Czech Republic. Association for Computational Linguistics.
Monson, C., Carbonell, J., Lavie, A., and Levin, L. (2008a). ParaMor and
Morpho Challenge 2008. In Working Notes for the CLEF 2008
Workshop, 17-19 September, Aarhus, Denmark.
Monson, C., Lavie, A., Carbonell, J., and Levin, L. (2004). Unsupervised
induction of natural language morphology inection classes. In
SIGPHON 2004: Proceedings of the Seventh Meeting of the ACL Special
Interest Group in Computational Phonology,
pages 5261, Barcelona,
Spain. Association for Computational Linguistics.
Monson, C., Lavie, A., Carbonell, J., and Levin, L. (2008b). Evaluating an
agglutinative segmentation model for ParaMor. In Proceedings of the
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Tenth Meeting of ACL Special Interest Group on Computational
Morphology and Phonology,
pages 4958, Columbus, Ohio. Association
for Computational Linguistics.
Monson, C., Llitjós, A. F., Ambati, V., Levin, L., Lavie, A., Alvarez, A.,
Aranovich, R., Carbonell, J., Frederking, R., Peterson, E., and Probst, K.
(2008c). Linguistic structure and bilingual informants help induce
machine translation of lesser-resourced languages. In Proceedings of the
Sixth International Language Resources and Evaluation (LREC'08),
pages 28542859. Marrakech, Morocco.
Moon, T., Erk, K., and Baldridge, J. (2009). Unsupervised morphological
segmentation and clustering with document boundaries. In Proceedings
of the 2009 Conference on Empirical Methods in Natural Language
Processing,
pages 668677, Singapore. Association for Computational
Linguistics.
Naradowsky, J. and Goldwater, S. (2009). Improving morphology induction
by learning spelling rules. In International Joint Conference on Articial
Intelligence.
Nunzio, G. D., Ferro, N., Melucci, M., and Orio, N. (2004). Experiments
to evaluate probabilistic models for automatic stemmer generation and
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
query word translation. In Peters, C., Braschler, M., Gonzalo, J., and
Kluck, M., editors, Proceedings of the Cross-Language Evaluation Forum
(CLEF): Methodology and Metrics (CLEF 2003), volume 3237 of Lecture
Notes in Computer Science, pages 220235. Springer-Verlag, Berlin.
Oliver, A. (2004). Adquisició d'informació lèxica i morfosintàctica a partir
de corpus sense anotar: aplicació al rus i al croat. PhD thesis,
Universitat de Barcelona.
Oºigova, G. I. (1965). Statistiko-kombinatornoe modelirovanie paradigmy
pervogo morfologi£eskogo tipa v £e²skom jazyke. In Andreev, N. D.,
editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 89103.
Nauka, Leningrad.
Palmer, A., Moon, T., Baldridge, J., Erk, K., Campbell, E., and Can, T.
(2010). Computational strategies for reducing annotation eort in
language documentation: A case study in creating interlinear texts for
uspanteko. Linguistic Issues in Language Technology LiLT, 3(4):144.
Pandey, A. K. and Siddiqui, T. J. (2008). An unsupervised Hindi stemmer
with heuristic improvements. In AND '08: Proceedings of the second
workshop on Analytics for noisy unstructured text data, pages 99105,
New York, NY, USA. ACM.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Panina, N. A. (1965). Opyt statistiko-kombinatornogo vydelenija
paradigmy pervogo morfologi£eskogo tipa v serbohorvatskom jazyke. In
Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov,
pages 104109. Nauka, Leningrad.
Per²ikov, V. F. (1965). Iz opyta statistiko-kombinatornogo modelirovanija
albanskoj morfologii. In Andreev, N. D., editor, Statistiko-kombinatornoe
modelirovanie jazykov, pages 181188. Nauka, Leningrad.
Pirrelli, V., Calderone, B., Herreros, I., and Virgilio, M. (2004).
Non-locality all the way through: Emergent global constraints in the
italian morphological lexicon. In SIGPHON 2004: Proceedings of the
Seventh Meeting of the ACL Special Interest Group in Computational
Phonology,
pages 5261, Barcelona, Spain. Association for
Computational Linguistics.
Pirrelli, V. and Herreros, I. (2007). Learning morphology by itself. In Booij,
G., Ducceschi, L., Fradin, B., Guevara, E., Ralli, A., and Scalise, S.,
editors, Proceedings of the Fifth Mediterranean Morphology Meeting
(MMM5) Fréjus 15-18 September 2005, pages 269290. Università degli
Studi di Bologna.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Poon, H., Cherry, C., and Toutanova, K. (2009). Unsupervised
morphological segmentation with log-linear models. In Proceedings
of
NAACL '09: The 2009 Annual Conference of the North American
Chapter of the Association for Computational Linguistics,
pages 209217,
Morristown, NJ, USA. Association for Computational Linguistics.
Redlich, A. N. (1993). Redundancy reduction as a strategy for
unsupervised learning. Neural Computation, 5(2):289304.
Rodrigues, P. and ‚avar, D. (2005). Learning arabic morphology using
information theory. In Edwards, R. L., Midtlyng, P. J., Sprague, C. L.,
and Stensrud, K. G., editors, The Panels 2005: Proceedings from the
Annual Meeting of the Chicago Linguistic Society, volume 41-2, pages
4958. Chicago Linguistic Society.
Rodrigues, P. and ‚avar, D. (2007). Learning arabic morphology using
statistical constraint-satisfaction models. In Benmamoun, E., editor,
Perspectives on Arabic Linguistics: Papers from the annual symposium
on Arabic Linguistics Volume XIX: Urbana, Illinois, April 2005,
289 of Current Issues
John Benjamins.
Hammarstrom
in Linguistic Theory,
volume
pages 6375. Amsterdam:
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Schone, P. (2001). Toward Knowledge-Free Induction of Machine-Readable
Dictionaries. PhD thesis, University of Colorado.
Schone, P. and Jurafsky, D. (2000). Knowledge-free induction of
inectional morphologies using latent semantic analysis. In Conference
on Natural Language Learning 2000 (CoNLL-2000), Lisbon, Portugal.
Schone, P. and Jurafsky, D. (2001). Knowledge-free induction of
inectional morphologies. In Proceedings of the North American Chapter
of the Association for Computational Linguistics, Pittsburgh, PA, 2001,
pages 183191.
Sharma, U. and Das, R. (2002). Classication of words based on ax
evidence. In Sangal, R. and Bendre, S. M., editors, International
Conference on Natural Language Processing, ICON-2002, Mumbai,
December 18-21, 2002,
pages 3139. Vikas Publishing House Pvt Ltd.,
New Delhi.
Sharma, U., Kalita, J., and Das, R. (2002). Unsupervised learning of
morphology for building lexicon for a highly inectional language. In
Proceedings of the 6th Workshop of the ACL Special Interest Group in
Computational Phonology (SIGPHON), Philadelphia, July 2002,
110. Association for Computational Linguistics.
Hammarstrom
Métodos Diversidad Lingüística
pages
March 2015, Mexico
55 / 55
Sharma, U., Kalita, J., and Das, R. (2003). Root word stemming by
multiple evidence from corpus. In Proceedings of the 6th International
Conference on Computational Intelligence and Natural Computation
(CINC), Cary, North Carolina, September 2003,
pages 15931596.
Snover, M. G. (2002). An unsupervised knowledge free algorithm for the
learning of morphology in natural languages. Master's thesis,
Department of Computer Science, Washington University.
Snover, M. G. and Brent, M. R. (2001). A bayesian model for morpheme
and paradigm identication. In Proceedings of the 39th Annual Meeting
of the Association for Computational Linguistics (ACL-2001), pages
482490. Morgan Kaufmann Publishers.
Snover, M. G. and Brent, M. R. (2003). A probabilistic model for learning
concatenative morphology. In Becker, S., Thrun, S., and Obermayer, K.,
editors, Advances in Neural Information Processing Systems 15, pages
15131520. MIT Press, Cambridge, MA.
Snover, M. G., Jarosz, G. E., and Brent, M. R. (2002). Unsupervised
learning of morphology using a novel directed search algorithm: Taking
the rst step. In Proceedings of the ACL-02 Workshop on Morphological
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
and Phonological Learning,
Linguistics.
pages 1120. Association for Computational
Snyder, B. and Barzilay, R. (2008). Unsupervised multilingual learning for
morphological segmentation. In Proceedings of ACL-08: HLT, pages
737745, Columbus, Ohio. Association for Computational Linguistics.
Spiegler, S., Golénia, B., Shalonova, K., Flach, P., and Tucker, R. (2008).
Learning the morphology of Zulu with dierent degrees of supervision. In
Spoken Language Technology Workshop, 2008 (SLT 2008), pages 912.
IEEE.
Tepper, M. (2007). Knowledge-lite induction of underlying morphology: A
hybrid approach to learning morphemes using context-sensitive rewrite
rules. Master's thesis, University of Washington.
Tepper, M. and Xia, F. (2008). A hybrid approach to the induction of
underlying morphology. In Proceedings of the Third International Joint
Conference on Natural Language Processing (IJCNLP 2008), pages
1724, Hyderabad, India. Asian Federation of Natural Language
Processing.
ur Rehman, K. and Hussain, I. (2005). Unsupervised morphemes
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
segmentation. In Kurimo, M., Creutz, M., and Lagus, K., editors,
Proceedings of MorphoChallenge 2005, pages 5256.
Wicentowski, R. (2002). Modeling and Learning Multilingual Inectional
Morphology in a Minimally Supervised Framework. PhD thesis, Johns
Hopkins University, Baltimore, MD.
Wicentowski, R. (2004). Multilingual noise-robust supervised morphological
analysis using the wordframe model. In Proceedings of the ACL Special
Interest Group on Computational Phonology (SIGPHON), pages 7077.
Wothke, K. C. (1985). Maschinelle Erlernung und Simulation
morphologischer Ableitungsregeln. PhD thesis, Rheinische
Friedrich-Wilhelms-Universität zu Bonn.
Xanthos, A. (2007). Apprentissage automatique de la morphologie: Le cas
des structures racine-schème. PhD thesis, Université de Lausanne.
Published 2008 by Peter Lang AG (Sciences pour la Communication 88).
Xanthos, A., Hu, Y., and Goldsmith, J. (2006). Exploring variant
denitions of pointer length in mdl. In Proceedings of the Eighth
Meeting of the ACL Special Interest Group on Computational Phonology
and Morphology at HLT-NAACL 2006,
pages 3240. Association for
Computational Linguistics, New York City, USA.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Yarowsky, D. and Wicentowski, R. (2000). Minimally supervised
morphological analysis by multimodal alignment. In Proceedings
of the
38th Annual Meeting of the Association for Computational Linguistics
(ACL-2000),
pages 207216.
Yvon, F. (1996). Prononcer par analogie: motivation, formalisation et
evaluation. PhD thesis, École Nationale Supérieure des
Télécommunications, Paris.
Zeman, D. (2007). Unsupervised acquiring of morphological paradigms
from tokenized text. In Nardi, A. and Peters, C., editors, Working Notes
for the CLEF 2007 Workshop, 19-21 September, Budapest, Hungary.
Zeman, D. (2008a). Unsupervised acquiring of morphological paradigms
from tokenized text. In Peters, C., Jijkoun, V., Mandl, T., Müller, H.,
Oard, D. W., and Penas, A., editors, Advances in Multilingual and
Multimodal Information Retrieval: 8th Workshop of the Cross-Language
Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21,
2007, Revised Selected Papers,
pages 892899. Springer-Verlag, Berlin.
Zeman, D. (2008b). Using unsupervised paradigm acquisition for prexes.
In Working Notes for the CLEF 2008 Workshop, 17-19 September,
Aarhus, Denmark.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55
Zweigenbaum, P., Hadouche, F., and Grabar, N. (2003). Apprentissage de
relations morphologiques en corpus. In Daille, B., editor, Actes de TALN
2003, pages 285294. Batz-sur-mer, France.
Hammarstrom
Métodos Diversidad Lingüística
March 2015, Mexico
55 / 55