Lösung von lexikalischen Ambiguitäten in der spanischen Sprache

Transcription

Lösung von lexikalischen Ambiguitäten in der spanischen Sprache
Lösung von lexikalischen Ambiguitäten
in der spanischen Sprache mittels des Formalismus Elag
Abschlussarbeit für das
Aufbaustudium Computerlinguistik
an der Ludwig-Maximilian-Universität München
vorgelegt von
Cibrán Beiras Cunqueiro
München, März 2005
Inhaltsverzeichnis
0 Einleitung .......................................................................................................................................... 1
Syntactic Wordclass Tagging............................................................................................................. 1
Disambiguierung ................................................................................................................................ 2
1 Unitex ................................................................................................................................................ 4
1.1 Präsentation ............................................................................................................................... 4
1.2 Textvorverarbeitung.................................................................................................................... 4
1.2.1 Die Satzdelimitierung .......................................................................................................... 4
1.2.2 Die Ersetzung ..................................................................................................................... 5
1.2.3 Tokenisierung und Tagging ................................................................................................ 6
1.3 Die Lexika ................................................................................................................................... 6
1.4 Suche nach regulären Ausdrücken ............................................................................................ 7
1.5 Lokale Grammatiken .................................................................................................................. 8
1.6 Der Textautomat......................................................................................................................... 8
2 Elag .................................................................................................................................................... 9
2.1 Der Formalismus ........................................................................................................................ 9
2.2 Allgemeines Format.................................................................................................................. 10
Spezialsymbole ............................................................................................................................ 10
2.3 Anwendung von Grammatiken ................................................................................................. 10
2.3.1 Grammatikenkompilierung................................................................................................ 11
2.3.2 Disambiguierung des Textautomaten ............................................................................... 11
3 Die spanische Sprache.................................................................................................................. 12
3.1 Spanisch, Kastilisch oder Kastilianisch? .................................................................................. 12
3.2 Varianten des Spanischen........................................................................................................ 14
3.2.1 Chabacano........................................................................................................................ 14
3.2.2 Palenquero........................................................................................................................ 14
3.2.3 Portugnol........................................................................................................................... 14
3.2.4 Judenspanisch .................................................................................................................. 14
3.2.5 Spanisch in Mittel- und Südamerika ................................................................................. 15
3.2.6 Spanisch in den USA........................................................................................................ 16
3.2.7 Spanglish .......................................................................................................................... 16
3.3 Grammatik ................................................................................................................................ 17
3.3.1 Orthographie ..................................................................................................................... 17
3.3.1.1
Das Graphem System............................................................................................. 17
3.3.1.2
Groß- und Kleinschreibung im Spanischen ............................................................ 19
3.3.1.3
Interpunktion ........................................................................................................... 20
3.3.1.4
Die Silbentrennung ................................................................................................. 22
V
3.3.1.5
Die Betonung und die Akzentsetzung..................................................................... 22
3.3.2 Morphosyntax ................................................................................................................... 24
3.3.2.1
Die spanischen Wortklassen................................................................................... 24
3.3.2.2
Die Wortstellung...................................................................................................... 26
4 Anwendung des Unitex im Spanischen ....................................................................................... 28
4.1 Das Korpus ............................................................................................................................... 28
4.2 Der Vorverarbeitungsgraph. Die Satzdelimitierung.................................................................. 29
Fälle, die einen Satz beenden...................................................................................................... 30
Fälle, die ein Satzende ausschließen .......................................................................................... 30
4.2.1 Fälle, die immer einen Satz beenden ............................................................................... 31
4.2.2 Fälle, die nie einen Satz anfangen ................................................................................... 33
4.2.3 Fälle, die in der Satzmitte oder am Anfang auftreten können .......................................... 33
4.3 Das elektronische Wörterbuch ................................................................................................. 34
4.3.1 Die neue Kategorisierung des Lexikons. Die POS-Label................................................. 36
4.3.1.1
Adjektive (A):........................................................................................................... 36
4.3.1.2
Adverbien (ADV): .................................................................................................... 38
4.3.1.3
Konjunktionen (CONJ): ........................................................................................... 39
4.3.1.4
Artikel (DET):........................................................................................................... 40
4.3.1.5
Interjektionen (INTJ): .............................................................................................. 40
4.3.1.6
Substantive (N): ...................................................................................................... 40
4.3.1.7
Präfixe (PFX):.......................................................................................................... 41
4.3.1.8
Präpositionen (PREP):............................................................................................ 41
4.3.1.9
Kontraktionen von Präposition und Artikel (PREPDET): ........................................ 41
4.3.1.10
Kontraktionen Präposition und Pronomen (PREPPRON): ..................................... 42
4.3.1.11
Pronomina (PRON):................................................................................................ 42
4.3.1.12
Verben (V):.............................................................................................................. 45
4.3.2 Das Lexikon der einfachen Formen.................................................................................. 46
4.3.3 Das Lexikon der komplexen Formen ................................................................................ 47
4.4 Normalisierung des Textes. Der Norm.grf-Graph..................................................................... 47
4.5 Die Disambiguierungsregeln nach dem Elag-System.............................................................. 49
4.5.1 Pronomen: ........................................................................................................................ 49
4.5.1.1
Akkusativpronomina (pronombres_acus.grf): ......................................................... 49
4.5.1.2
Reflexivpronomina (pronombres_reflexivos.grf) ..................................................... 51
4.5.1.3
Reziprokpronomina (pronombres_reciprocos.grf): ................................................. 52
4.5.1.4
Allgemeine Pronomina (pronombres.grf):............................................................... 54
4.5.1.5
Por qué Pronomen oder Determinator (por_que.grf):............................................. 56
4.5.1.6
Pronomina als Subjekt (pronombres_nom.grf): ...................................................... 57
4.5.1.7
Pronomina nach einer Präposition (pronombres_prep.grf): ................................... 59
4.5.1.8
Possessivpronomina (pronombres_pos.grf): .......................................................... 60
4.5.1.9
Unbetonte Pronomina (pronombres_de_verbo.grf):............................................... 61
VI
4.5.1.10
Indefinitpronomina (pronombres_indefinidos.grf): .................................................. 63
4.5.2 Nomen: ............................................................................................................................. 64
4.5.2.1
Akronyme und einfache Namen (sustantivo_no_propio.grf): ................................. 64
4.5.2.2
Eigennamen (nombres_propios.grf): ...................................................................... 66
4.5.3 Verben: ............................................................................................................................. 67
4.5.3.1
Verben in Infinitiv (Verbos_infinitivos.grf): .............................................................. 68
4.5.3.2
Die restlichen Verben (Verbo.grf): .......................................................................... 69
4.5.3.3
Partizipien (conjugaciones_compuestas2.grf): ....................................................... 70
4.5.3.4
Imperativ (imperativo.grf): ....................................................................................... 72
4.5.4 Regeln zu Kontraktionen und Komposita: ........................................................................ 73
4.5.4.1
Kontraktionen von Präposition und Artikel (contracciones_prep_det.grf): ............. 73
4.5.4.2
Kontraktion Al (contracciones_npr.grf): .................................................................. 75
4.5.4.3
Kontraktionen Präposition und Pronomen (contracciones_prep_pron.grf): ........... 77
4.5.4.4
Komposita und mehrwortige Einheiten: .................................................................. 78
4.5.5 Regel zu bestimmten Wörtern: ......................................................................................... 79
4.5.5.1
Allgemeine Fälle im Singular (casos_generales3.grf): ........................................... 80
4.5.5.2
Allgemeine Fälle im Plural (casos_generales_plural.grf): ...................................... 81
4.5.5.3
Pronominaler Gebrauch von que (que_pron2.grf):................................................. 81
4.5.5.4
Konjunktionaler Gebrauch von que (que_conj2.grf): .............................................. 82
4.5.5.5
Präposition pese a (pese_a.grf):............................................................................. 83
4.5.5.6
Verb und Präposition pese a (pese_a2.grf): ........................................................... 84
4.5.5.7
Konjunktion pese a (pese_a3.grf):.......................................................................... 85
4.5.5.8
Präposition entre (entre.grf): ................................................................................... 86
4.5.5.9
Para Präposition und Verb I (para_verbo.grf):........................................................ 86
4.5.5.10
Para Präposition und Verb II (para_verbo2.grf):..................................................... 88
4.5.5.11
Das Substantiv contra (contra.grf): ......................................................................... 88
4.5.5.12
Die Verben crear und comer (crear.grf):................................................................. 89
4.5.5.13
Das Adverb tanto (tanto.grf):................................................................................... 90
4.5.5.14
Das Adverb incluso (incluso_adv.grf): .................................................................... 91
4.5.5.15
Die Präposition incluso (incluso_prep.grf): ............................................................. 92
4.5.5.16
Interjektionen I (intj_y.grf): ...................................................................................... 93
4.5.5.17
Interjektionen II (intj2.grf): ....................................................................................... 94
4.6 Schlussfolgerung ...................................................................................................................... 95
Literaturverzeichnis ............................................................................................................................ 96
Webseiten............................................................................................................................................. 96
Anhang I: CD........................................................................................................................................ 97
VII
Cibrán Beiras Cunqueiro
0 Einleitung
0 Einleitung
Ein wichtiger Bereich der Computerlinguistik ist die Annotation von Textsammlungen (annotierte
Korpora). Diese sind sowohl für die Forschung als auch für Natural Language Processing (NLP,
Verarbeitung Natürlicher Sprachen) interessant. Der Versuch, diese Aufgabe automatisch zu erfüllen,
erweist sich leider als nicht gerade leicht.
An der Spitze dieser Versuche steht das Syntacting Wordclass Tagging, die Zuschreibung von
morphosyntaktischen Eigenschaften zu Wörtern eines Korpus (Halteren, 1999).
Syntactic Wordclass Tagging
Morphosyntaktische Informationen werden einem Wort mittels eines Tags zugeschrieben. Aus den
Bereichen der Sprachwissenschaft, die traditionell für die Klassifikation von Worten ausgewählt
worden sind - Phonologie, Morphologie, Syntax, Semantik und Pragmatik-, spielen die Morphologie
und vor allem der Syntax die wichtigste Rolle. Die Tags werden daher oft Part-of-Speech-Tags (kurz
POS) genannt.
Die Klassifikation von Wörtern, die eine lange Geschichte aufweist1, ist nicht mal in der gleichen
Sprache einheitlich. Jeder Tagger unterscheidet verschiedene Wortklassen. Diese Wortklassen
werden normalerweise in weitere Unterkategorien geteilt, um eine feinere Klassifizierung der Wörter
zu erreichen.
Je feiner diese Klassifizierung gemacht wird, desto mehr Tags werden dem Wort zugeschrieben.
Unterscheidet ein Tagger nur Wortklassen (N, A, PRON...), vergibt z. B. dem Verb spielen das Tag V.
Eine Unterscheidung weiterer Kategorien (Modus, Tempus, Person, Numerus...) führt bei den meisten
Worten zu einer Zuweisung mehrerer Tags (spielen = Infinitiv, 1. Person Plural des Präsens, 3.
Person Plural des Präsens). Dieses Phänomen ist in der Sprachwissenschaft als Ambiguität bekannt.
Der letzte Schritt eines Taggers ist, diese Ambiguität so weit wie möglich aufzulösen. Diese Phase,
die Disambiguierung genannt wird, bildet den Schwerpunkt dieser Arbeit.
1
Siehe Atro Voutilainen, in Halteren 1999.
-1-
Cibrán Beiras Cunqueiro
0 Einleitung
Die typischen Module eines Taggers sind die Folgenden2:
ƒ Tokenizer: Segmentierung von Texten in Wörter und Satzzeichen.
ƒ Morphologischer Analysator (Erzeugung von Ambiguitäten)
• Lexikalischer Analysator
• Analysator von unbekannten Wörtern („guesser“)
ƒ Morphologischer Disambiguierer (Auflösung von Ambiguitäten)
• Grammatik
• Heuristische Grammatik(en)
Disambiguierung
Für die Auflösung von Ambiguitäten sind zwei unterschiedliche Methoden bekannt: der
datengetriebene statistische Ansatz und der linguistische. Hybride Verfahren integrieren beide
Ansätze.
Bei der datengetriebenen Methode werden die Ambiguitäten im Wesentlichen durch statistische
Ermittlung von Kookurrenzen von Wörtern in großen Korpora aufgelöst. Diese Trainings-Korpora
werden in der Regel manuell von Sprachwissenschaftler getaggt. Hierbei kommen verschiedene
statistische Verfahren zum Einsatz wie Kollokationsmatrizen, Markovs Modellen, lokale Regeln oder
neuronale Netzen (Voutilainen in Halteren 1999).
Im Gegensatz dazu werden die Ambiguitäten bei der linguistischen Methode durch Expertenregeln
aufgelöst. Zwei Unterschiede werden gemacht in der Art und Weise, wie die Regeln geschrieben
werden, nämlich negativ, durch die Beschreibung verbotener Sequenzen von Tags (Roche 1992), und
imperativ, mit Konditions- und ein Aktionsteil (Silberztein). Die vorliegende Arbeit basiert auf dieser
letzten Methode.
Weitere Charakteristika der linguistischen Methode sind3, dass eine wertvolle Grammatik zu erzeugen,
nicht so lange dauert, wenn auf das Lexikon, Tagset und Korpus geachtet wird und dass ein Recall
(Anteil der Wörter, denen ein korrekter Tag zugewiesen wird) von über 99% nicht schwer erzielbar ist.
Entgegengesetzt verlangt eine Präzision (Precision: Anteil der Wörter, die disambiguiert werden) von
über 95% große Mühe. Eine Grammatik zu korrigieren und zu verbessern, ist auch nicht besonders
schwierig und sie kann um nicht-linguistische Methode erweitert werden.
2
Nach Atro Voutilainen, Halteren 1999.
3
Nach Atro Voutilainen, Halteren 1999.
-2-
Cibrán Beiras Cunqueiro
0 Einleitung
Auf der anderen Seite braucht die statistische Methode doch ein sorgfältig annotiertes und langes
Ausbildungskorpus, nach welchem viel menschliche Arbeit nicht mehr gebraucht wird. Nach dieser
Methode kann eine vollständige und korrekte Disambiguierung von bis 95-97% erfolgen, was
wesentlich sinkt, wenn der Input-Text aus einem Bereich ist, der im Training-Korpus nicht
angemessen dargestellt ist. Auf alle Fälle ist eine Genauigkeit (Accuracy: Pronzent der Wörter, die ein
korrektes Tag erhalten, wenn sie erzwungen werden, unambig zu bleiben) von über 97% äußerst
schwer zu erreichen.
-3-
Cibrán Beiras Cunqueiro
1 Unitex
1 Unitex
In diesem ersten Kapitel wird das Programm Unitex erklärt. Dies sollte nicht als Manual oder
Bedienungsanleitung verstanden werden, sondern eher als kurze, allgemeine Beschreibung,
besonders derjenigen Tools, die in dieser Arbeit genutzt werden. Nach diesem Prinzip werden also
keine Anleitungen zur Installation oder zu DELAS (Lexikon der unflektierten Formen) gegeben.
1.1 Präsentation
Das Unitex ist ein Korpusverarbeitungssystem, das erlaubt, mit elektronischen Mitteln zu arbeiten wie
elektronischen Lexika, lokalen Grammatiken, usw. Es wird auf drei Ebenen gearbeitet: Morphologie,
Lexikon und Syntax. Die Hauptfunktionen sind die Folgenden:
-elektronische Wörterbücher erzeugen, verarbeiten und anwenden;
-Benutzung von Regulären Ausdrücken zum Pattern Matching;
-Anwendung von lokalen Grammatiken;
-Auflösung von Ambiguitäten über den Text-Automaten.
Die Idee ist am LADL (Laboratoire d'Automatique Documentaire und Linguistique) unter der Leitung
von Maurice Gross entstanden und die Software am Institut Gaspard-Monge (IGM) von der Université
de Marne la Vallée von Sebastien Paumier entwickelt worden.
Weitere Eigenschaften des Unitex bestehen darin, dass es erlaubt, all die Charaktere aller möglichen
Sprachen zu benutzen, und dass es eine freie Multisystem-Software ist.
1.2 Textvorverarbeitung
Nachdem Unitex mit der gewählten Sprache gestartet worden ist, kann man einen in Unicode LittleEndian Text öffnen. Dabei wird gefragt, wie der Text vorverarbeitet werden soll. Die
Textvorverarbeitung von Unitex setzt sich zusammen aus Satzdelimitierung, Ersetzung der
eindeutigen Formen und Tokenisierung durch Lexikonanwendung.
1.2.1 Die Satzdelimitierung
Die Satzdelimitierung muss mittels eines Graphen beschrieben werden. Dieser Graph ist von Sprache
zu Sprache wegen der Benutzung verschiedener Symbole anders. Spezielle Symbole für den Graph
sind:
-4-
Cibrán Beiras Cunqueiro
1 Unitex
ƒ <E>: erkennt die leere Sequenz;
ƒ <MOT>: erkennt jede Buchstabenfolge;
ƒ <MIN>: erkennt jede klein geschriebene Buchstabenfolge;
ƒ <MAJ>: erkennt jede groß geschriebene Buchstabenfolge;
ƒ <PRE>: erkennt jede Buchstabenfolge, deren Anfangsbuchstabe groß geschrieben ist;
ƒ <NB>: erkennt jede ungetrennte Ziffernfolge;
ƒ <PNC>: erkennt die Interpunktionszeichen „; , ! ? .“, sowie die umgedrehten Frage- und
Ausrufezeichen des Spanischen und bestimmte asiatische Interpunktionszeichen;
ƒ <^>: erkennt einen Zeilenumbruch;
ƒ #: verbietet das Vorkommen des Leerzeichens und Zeilenumbruchs;
Der Graph zur Satzdelimitierung im Spanischen befindet sich auf Seite 31.
1.2.2 Die Ersetzung
Die Ersetzung erlaubt, all die eindeutigen Formen zu verarbeiten. Eine mögliche Anwendung sind die
Zerteilung von Kontraktionen (vom in von dem)4.
Ein Graph für die Ersetzungsfunktion (Replace) im Spanisch könnte wie folgt aussehen. Eine
Anmerkung soll da gemacht werden, dass nur die kleingeschriebenen Kontraktionen ersetzt würden.
4
In der vorgestellten Arbeit ist auf diese Funktion verzichtet worden, denn nicht alle Kontraktionen
sind eindeutig. Da zwei Kategorien erzeugt werden mussten (PREPDET für al, wo es sich um eine
Kontraktion handeln kann oder um einen Teil der arabischen Eigennamen , und PREPPRON für
consigo, bei dem es zur Ambiguität zwischen der Kontraktion und der 1. Person Singular des Präsens
Indikativ des Verbs conseguir kommt), wird es auf diese Funktion verzichtet. Diese Fälle werden erst
bei der Normalisierung vor der Konvertierung in den FST-Text behandelt.
-5-
Cibrán Beiras Cunqueiro
1 Unitex
Abbildung 1.1: Ein möglicher Ersetzungsgraph
1.2.3 Tokenisierung und Tagging
Die Lexikonanwendung tokenisiert und taggt den Text mittels der Defaultlexika, die normalerweise aus
einem Simplex-Lexikon und einem Lexikon der komplexen Formen besteht.
Abbildung 1.2: Die Lexikaanwendung
Die Lexika können später gewechselt und angewendet werden, indem man im Textmenü Apply
Lexical Resources... wählt.
1.3 Die Lexika
Unitex benutzt elektronische Wörterbücher in DELA-Format (Dictionaires Electroniques du LADL). Auf
dieser Basis gibt es vier Arten von Wörterbüchern: DELAF (DELA der flektierten Formen), DELACF
(DELA der flektierten komplexen Formen), DELAS (DELA der unflektierten Formen) und DELAC
(DELA der unflektierten komplexen Formen). In diesem Abschnitt wird nur das Format des ersten
-6-
Cibrán Beiras Cunqueiro
1 Unitex
Wörterbuchs erläutert, denn nur das Wörterbuch der flektierten Formen benutzt wird und das DELACF
die gleiche Struktur hat wie das DELAF. Ein Lexikoneintrag könnte so aussehen:
diccionarios,diccionario.N+Com:mp/ejemplo
ƒ diccionarios ist die flektierte Form;
ƒ diccionario ist die Grundform. Bei Nomen, Adjektiven und Pronomen wird normalerweise
maskulin singular, bei Verben der Infinitiv benutzt;
ƒ N+Com ist die grammatikalische und semantische Kategorie;
ƒ :mp gibt Information über die Flektion;
ƒ /ejemplo ist ein Kommentar.
Im Wörterbuch der komplexen Formen werden Wörter eingetragen, die durch ein Leerzeichen oder
andere Interpunktionszeichen getrennt sind. Da es Verwechslung verursachen könnte, müssen der
Punkt und das Komma so wie andere Zeichen, die im Tag verwendet werden, mit einem „\“
geschrieben werden5:
Ruiz-Gallardón,.N+Npr
cóctel molotov,.N+Com:ms
http//\:www\.cis\.uni-muenchen\.de
1.4 Suche nach regulären Ausdrücken
Die Möglichkeit, reguläre Ausdrücke in einem Text zu suchen, ist zweifellos eine praktische und
schnelle Hilfe für die Textverarbeitung. Nicht zuletzt erleichtert es die Suche nach dem Kontext
bestimmter Wörter. Zunächst wird diese Funktion grob dargestellt.
Ein regulärer Ausdruck kann aus Folgendem bestehen:
-einer lexikalischen Einheit (manzana) oder einem Motiv (<comer.V>);
-einer Konkatenation von zwei regulären Ausdrücken (ellos comen);
-einer Verbindung von zwei regulären Ausdrücken (fruta+madura);
-dem Kleene-Stern (manzano*).
Die speziellen Symbole sind die gleichen wie die der Graphen: <E>, <MOT>, <MIN>, <MAJ>, <PRE>,
<NB>, # und <DIC>.
5
Weitere Besonderheiten sind in der Bedienungsanleitung beschrieben.
-7-
Cibrán Beiras Cunqueiro
1 Unitex
Die Suche in den Lexika geschieht folgendermaßen:
ƒ <correr>: erkennt all die Einträge, die correr als Grundform haben;
ƒ <correr.V>: erkennt all die Einträge, die correr als Grundform haben und ein Verb sind;
ƒ <V>: erkennt die Einträge, die ein Verb sind;
ƒ <corren,correr.V>: erkennt all die Einträge, die corren als flektierte Form und correr als
Grundform haben und die Verb sind.
1.5 Lokale Grammatiken
Lokale Grammatiken werden mit Hilfe von Graphen ausgedrückt. Da sie in dem dritten Kapitel
ausführlich erläutert werden, seien hier lediglich ein Paar kleine Anmerkungen erwähnt.
Der Graph zur Satzdelimitierung heißt standardmäßig Sentence.grf und liegt im Verzeichnis
Graphs/Preprocessing/Sentence unter der entsprechenden Sprache. Der Graph zur Ersetzung der
unambigen
Formen
wird
standardmäßig
Replace.grf
genannt
und
ist
in
Graphs/Preprocessing/Replace zu finden. Diese beiden Graphen arbeiten auf Basis von Characters
und Spezialsymbolen, nicht auf Basis von Lexikoneinträgen, denn diese sind zu diesem Zeitpunkt
noch nicht verfügbar.
Der Graph zur Normalisierung heißt standardmäßig Norm.grf und liegt in Graphs/Normalization. Er
ersetzt ein Wort durch den entsprechenden Lexikoneintrag.
Die Graphen für die Elag-Regeln sind im Verzeichnis Elag zu finden und haben ein anderes Format,
das ausführlicher im nächsten Kapitel beschrieben wird.
1.6 Der Textautomat
Der Textautomat ist ein praktisches Werkzeug zum Erkennen und zur Auflösung der Ambiguitäten. Er
wird über den Textmenü, Unterpunkt Construct FST-Text... erzeugt
Nach Erscheinen des Textes kann man die Elag-Regeln anwenden, indem man auf den linken Knopf
Elag drückt und auf Open Elag Frame, um das Ergebnis zu sehen.
-8-
Cibrán Beiras Cunqueiro
2 Elag
2 Elag
Elag steht für Elimination of Lexical Ambiguities by Grammars und ist ein INTEX-kompatibler
Formalismus, um Distributionsbeschränkungen zu kodieren. Elag nutzt den nächstumgehenden
Kontext eines Wortes, um Ambiguitäten zu entfernen. Dies bringt mit sich, dass manche Ambiguitäten
erst beim Syntax-Parsing gelöst werden können. In diesem Kapitel wird gezeigt, wie die Elag-Regeln
geschrieben und angewendet werden.
2.1 Der Formalismus
Elag-Grammatiken bestehen aus zwei Teilen: dem Konditionsteil („wenn“) und dem Aktionsteil
(„dann“). Der „wenn“ Teil wird von dem Symbol <!> abgegrenzt und beschreibt den Kontext, bei dem
die Regel angewendet wird. Der „dann“ Teil wird seinerseits von dem Symbol <=> umgeben und
beschreibt Beschränkungen, die nachgeprüft werden sollen.
Ein dritter Feldtrenner kommt bei den beiden Teilen. Dieser ermöglicht, den Kontext und die
Einschränkungen zu synchronisieren, wenn sie nicht die gleichen Wörter beeinflussen.
Abbildung 2.1: Eine simple synchronisierte Regel
Diese Regel wird folgendermaßen gelesen: wenn ein Verb (V) im Imperativ (Y) auftritt, muss davor ein
Interpunktionszeichen (<PNC>) stehen. Bei ambigen Formen eines Verbs wie come,comer.V:Y2s:P3s
wird das Imperativ in dem Satz „El chico come mucho“ z. B. weggelassen, denn es gibt keinen Punkt
vor dem Verb.
-9-
Cibrán Beiras Cunqueiro
2 Elag
2.2 Allgemeines Format
Elag-Markierungen werden lexikalische Masken genannt. Eine lexikalische Maske ist ein Schema
zwischen spitzen Klammern, das nach DELA-Konvention zumindest aus einem part of speech (POS)
und eventuell auch aus anderen syntaktischen oder flektierenden Eigenschaften besteht:
<(lemma.)*POS(+feat)*(:inflex)*>
ƒ (lemma )* ist entweder eine Grundform (pescado und nicht pescados) oder die Negierung eines
oder mehrerer Grundformen (!fruta!carne);
ƒ POS gibt das part of speech an (ADV, N, V...);
ƒ (+feat)* ist eine mögliche Sequenz von syntaktischen Eigenschaften (+Com, +Npr, +Sig...);
ƒ (:inflex)* ist eine mögliche Sequenz von Flektionseigenschaften (:fp, :Y2s, P...).
Beispiele:
ƒ <pescado.N>
findet
all
die
Substantive
mit
der
Grundform
pescado.
Nicht
also
<pescado,pescar.V:Kms>.
ƒ <V:P> liefert all die Verben im Präsens, unabhängig von Person und Numerus.
ƒ <!en!para.PREP> erkennt alle Präpositionen bis auf en und para.
Spezialsymbole
ƒ <PNC> erkennt alle Interpunktionszeichen.
ƒ <?> trifft jedes unbekannte Wort.
ƒ <NB> findet alle Zahlen.
ƒ <.> findet alle Tokens: Wörter, Ziffern und Interpunktionszeichen.
ƒ {S} erkennt das Ende oder den Anfang eines Satzes.
ƒ <!POS>6 erkennt alle Tokens mit Ausnahme der angegebenen POS. Die Angabe von
syntaktischen oder flektierenden Eigenschaften wird untersagt. Besteht die Kategorie N aus
+Com, +Sig und +Npr und will man alle bis auf +Com, muss man dann es folgendermaßen
schreiben: <!N>+<N+Sig>+<N+Npr>.
2.3 Anwendung von Grammatiken
An dieser Stelle werden die Funktionen des Elag Interface gezeigt. Es werden auch die
grundsätzlichen Schritte zur Disambiguierung erläutert.
6
Damit ist jede einzelne Wortkategorie gemeint: <!N>, <!V>, <!A>...
- 10 -
Cibrán Beiras Cunqueiro
2 Elag
2.3.1 Grammatikenkompilierung
Die geschriebenen Elag-Regeln müssen erst ins .rul Format umgesetzt werden, um sie anwenden zu
können. Dafür wird das Elag Interface im Menü Text beim Klicken der Taste Elag Rules geöffnet.
Abbildung 2.2: Die Elag-Anwendung
Standardmäßig wird die Liste elag.lst geöffnet und nicht pronombres.lst, wie links oben auf der
Abbildung steht. Man kann verschiedene Listen erstellen und sie unabhängig voneinander anwenden.
Die Graphen, die selbst in .fst2-Format kompiliert werden sollen, werden durch das Klicken der Taste
>> in die Liste hinein- und durch << herausgeschoben. Die Kompilierung der Regeln erfolgt, nachdem
man die Taste compile gedrückt hat.
2.3.2 Disambiguierung des Textautomaten
Die Disambiguierung findet statt, in dem man im Textautomaten auf die Taste Elag klickt und die
gewünschte kompilierte Regel aktiviert. Das Ergebnis der Disambiguierung kann man sehen, indem
der Knopf Open Elag Frame gedrückt wird. Möchte man erst dann andere Regeln anwenden, kann
man die Taste Replace anklicken. Der Automat erscheint jetzt auf der oberen Seite und ist bereit,
weitere Verarbeitungen anzunehmen.
- 11 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
3 Die spanische Sprache
In diesem Teil der Arbeit wird eine Einführung in die spanische Sprache gegeben. Der erste Punkt
stellt die wichtigsten Eckpunkte zu dieser Sprache vor. Im zweiten Punkt werden die verschiedenen
Varianten des Spanischen dargestellt und im dritten wird die Sprache linguistisch erläutert. Während
eine allgemeine Vorstellung der Sprache und ihrer Varianten zwar interessant sein mag, ist nur der
dritte Punkt wirklich wichtig für ein besseres Verstehen der vorliegenden Arbeit. Der schnelle Leser
kann also die zwei ersten Punkte überspringen.
3.1 Spanisch, Kastilisch oder Kastilianisch?
Spanisch7 ist eine indoeuropäische Sprache, gehört zum romanischen Zweig und dort die
meistgesprochene romanische Sprache. Gemeinsam mit dem Portugiesischen, dem Galicischen und
dem Katalanischen wird sie sehr oft in die engere Einheit des Iberoromanischen eingeordnet.
Spanisch wird gegenwärtig von ca. 360 Millionen Menschen als Muttersprache gesprochen, und hat
damit 20 Millionen Muttersprachler mehr als das Englische. Die meisten Sprecher leben in Süd- und
Mittelamerika.
Wenn man die Sprecher, die Spanisch als Zweitsprache haben, dazurechnet, beläuft sich die Anzahl
der Spanischsprechenden auf ca. 420 Millionen. Damit ist Spanisch –nach Mandarin-Chinesisch,
Hindi und Englisch- die am vierthäufigsten gesprochene Sprache der Welt.
Die spanische Schriftsprache wurde von der Region Kastilien (span. Castilla) in Zentralspanien
geprägt. Kastilisch oder Kastilianisch ist daher neben Spanisch eine gültige Bezeichnung für die
Sprache. In Spanien wird eher die Bezeichnung Spanisch (español) benutzt. In Süd- und
Mittelamerika dagegen wird die Bezeichnung Kastilisch/Kastilianisch (castellano) bevorzugt, damit
keine direkte Verbindung mit dem Land entsteht. Offiziell sind beide gültig, wobei eher die kastilische
bzw. kastilianische Sprache als die Schrift- und Nationalsprache der gesamten Spanisch sprechenden
Länder gilt. In der vorliegenden Arbeit wird aber von Spanisch gesprochen, da in Deutschland diese
Bezeichnung verbreiteter ist.
7
Auf Spanisch: español oder castellano
- 12 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
In Spanien gibt es vier offizielle Sprachen: Kastilisch, Katalanisch, Galicisch und Baskisch:
Baskisch8 ist die westlichste Sprache Europas, die nicht zur indogermanischen Sprachfamilie gehört.
Heute wird Baskisch von etwa 520.000 Basken gesprochen. Die meisten davon leben südwestlich der
spanisch-französischen Staatsgrenze und ein kleinerer Teil nordöstlich davon.
Katalanisch9 wird von circa 11.000.000 Menschen in Spanien gesprochen. Sie leben in Katalonien,
Valencia, Aragón oder auf den Balearen.
Galicisch10 wird in der unabhängigen Gemeinschaft Galiciens von ungefähr 2.500.000 Menschen
gesprochen.
Das Spanische ist nicht nur die Amtsprache von Spanien, ein Land mit 27 Millionen Einwohnern,
sondern auch von folgenden Ländern11:
Äquatorialguinea
(11.500)
Argentinien
(36.000.000)
Bolivien
(5.500.000)
Chile
(12.000.000)
Costa Rica
(3.700.000)
Dominikanischer Republik
(8.500.000)
Ecuador
(10.500.000)
El Salvador
(6.200.000)
Guatemala
(7.500.000)
Honduras
(5.800.000)
Kolumbien
(38.000.000)
Kuba
(11.100.000)
Mexiko
(94.000.000)
Nicaragua
(5.000.000)
Panama
(2.900.000)
Paraguay
(4.000.000)
Peru
(21.000.000)
Uruguay
(3.300.000)
Venezuela
(24.000.000)
8
http://www.cogsci.uni-osnabrueck.de/~haase/bask-allg.html
9
http://www.caib.es/conselleries/educacio/dgpoling/user/catalaeuropa/alemany/aleman2.pdf
10
http://www.minority2000.net/Gr-75/t63de.htm
11
In Klammern ist die Anzahl der Muttersprachler
- 13 -
Cibrán Beiras Cunqueiro
USA
3 Die spanische Sprache
(regional, 26.000.000)
In der britischen Kolonie Gibraltar ist Spanisch neben Englisch ebenfalls die offizielle Sprache.
Aufgrund der kolonialen Geschichte von Spanien wird die Sprache auch in weiteren Gebieten
gesprochen: Andorra, Belize, Marokko, Niederländische Antillen, Philippinen, Trinidad und Tobago
und Westsahara.
3.2 Varianten des Spanischen
3.2.1 Chabacano
Chabacano ist der Sammelbegriff für die philippinischen spanischbasierten Kreolsprachen. Ungefähr
90% ihrer Wörter sind spanischer Abstammung. Chabacano gelangte im 17. Jahrhundert von den
Gewürzinseln auf die Philippinen und ist die Muttersprache von etwa 150.000 Sprechern.
3.2.2 Palenquero
Palenquero ist eine spanischbasierte Kreolsprache, die in Kolumbien von circa 4000 Menschen
gesprochen wird.
3.2.3 Portugnol
Portugnol ist die Mischsprache aus Portugiesisch und Spanisch und wird dort gesprochen, wo
Spanischsprachige und Portugiesischsprachige aufeinander treffen, d.h. auf der iberischen Halbinsel,
in Südamerika und in Ländern wie Japan, wo sich gleich viele Einwanderer und Gastarbeiter der
beiden Sprachregionen treffen.
Portugiesischsprachige und Spanischsprachige kommunizieren häufig in Portugnol, und nicht in einer
reinen Version ihrer beiden Sprachen oder in einer dritten für beide Fremdsprachen. Da beide
Sprachen sehr viele Ähnlichkeiten in der Grammatik und im Wortschatz haben, gibt es sehr wenig
Anreiz für Portugiesisch- und Spanischsprachige, die andere Sprache explizit zu lernen.
3.2.4 Judenspanisch
Judenspanisch12, das Sephardische oder Ladino ist die Sprache der 1492 aus Spanien
ausgewiesenen sephardischen Juden. Diese Sprache wird heute von etwa 150.000 Menschen
12
www.de.wikipedia.org/wiki/Sephardische_Sprache
- 14 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
gesprochen, hauptsächlich in Israel und in der Türkei. Außerhalb dieser beiden Länder gibt es
Sprecher vor allem in Griechenland, Bulgarien und dem ehemaligen Jugoslawien. Judenspanisch
weist dabei eine starke Verwandtschaft mit dem im Mittelalter gesprochenen Altspanischen auf. Es ist
nirgendwo die offizielle Sprache und seine Sprecher sprechen eine weitere Sprache fließend.
Das Sephardische wird hauptsächlich mit lateinischen Buchstaben geschrieben. Vereinzelt findet man
die Sprache mit dem hebräischen Alphabet geschrieben und früher mal ist auch das kyrillische und
das griechische Alphabet auch verwendet worden.
3.2.5 Spanisch in Mittel- und Südamerika
Das hispanophone Amerika erstreckt sich von Mexiko bis Feuerland und umfasst 19 Länder:
Dominikanische Republik, Kuba, Mexiko, Guatemala, El Salvador, Honduras, Nicaragua, Costa Rica,
Panama, Kolumbien, Venezuela, Ecuador, Peru, Bolivien, Puerto Rico, Argentinien, Uruguay,
Paraguay und Chile.
Es handelt sich um ein sehr großes geographisches Gebiet, und seit der Kolonialisierung durch die
Spanier sind Jahrhunderte vergangen, deswegen weist die spanische Sprache in Mittel- und
Südamerika sehr viele und starke Abweichungen zu der in Spanien auf. Man findet auch Unterschiede
in den Sprachen der einzelnen amerikanischen Länder. Das argentinische Spanisch wird als die am
weitesten entfernte Variante des Spanischen angesehen. Diese Unterschiede sind zwischen der
Variante in Spanien und dem zentral- und südamerikanischen Spanischen in der Schrift- und
Verkehrsprache nicht sehr groß.
Auch wenn sich die Dialekte der einzelnen Länder auf dem Gebiet der Grammatik nicht sehr stark
unterscheiden, so weisen sie sowohl in der Aussprache, als auch im Vokabular Unterschiede auf.
Viele spanische Wörter haben in Amerika einen Bedeutungswandel durchgemacht.
Folgende Unterschiede kann man festhalten:
Der stimmlose „s“ Laut. Während in Spanien ein „z“ oder ein „c“ vor einem „i“ und „e“ als stimmloses
„th“ ausgesprochen wird, wird es in der lateinamerikanischer Aussprache zu einem stimmlosen „s“.
Statt der Vergangenheitsform „Pretérito Perfecto“ wird in Zentral- und Südamerika das „Pretérito
Indefinido“ benutzt.
In Lateinamerika wird meistens anstatt des Personalpronomens der zweiten Person Singular (tú) das
„vos“ verwendet. Das spanische „tú eres“, das in der zweiten Person Plural „vosotros sois“ lautet, wird
durch „vos sos“ ersetzt.
Als Konsequenz daraus, dass die zweite Person Singular „tú“ durch das „vos“ ersetzt worden ist, wird
die spanische zweite Person Plural „vosotros“ durch die dritte Person Plural ersetzt.
- 15 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
Es gibt lexikalische Abweichungen13:
Deutsch
Spanisch
Südamerikanisch
Kellner
camarero
mozo
Butter
mantequilla
manteca
Erdbeere
fresa
frutilla
Kühlschrank
nevera
heladera
Rock
falda
pollera
Auto
coche
carro oder auto (Arg.)
Banane
plátano
banana
Benzin
gasolina
nafta (Argent.)
Eimer
cubo
balde
Tabelle 3.1: Bezeichnungsunterschiede
3.2.6 Spanisch in den USA
Die spanische Sprache ist nach Englisch die zweithäufigste Sprache in den USA. Wie schon erwähnt
beträgt die Anzahl der Sprecher 26.000.000.
Aufteilung der Spanisch sprechende Bevölkerung:
Florida. Die Menschen, die in Florida Spanisch sprechen, sind hauptsächlich Kubanischer
Abstammung. Sie kamen nach Florida vor und nach der Revolution.
Südwesten der USA (California, Arizona, Texas, Neu-Mexico und Colorado). Hauptsächlich
Spanischsprechende mexikanischer Abstammung
Nordwesten der USA. Vorwiegend Puertoricaner
Louisiana. In vier isolierten Ortschaften dieser Region wird ein spanischer Dialekt, der auf die
Mundart von den Kanarischen Inseln basiert, gesprochen.
3.2.7 Spanglish
Spanglish ist eine vermischte Variante des Englischen und des Spanischen, die von der Bevölkerung
13
http://de.wikipedia.org/wiki/Spanische_Sprache
- 16 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
der USA sehr oft gesprochen wird. Am meisten wird es in New York City, Los Angeles, Florida oder im
Grenzgebiet von Mexiko und der USA gesprochen.
z.B.
Llamar para atrás (=zurückrufen, aus dem Englischen „call back“)
Te veo (=bis bald, aus dem Englischen „see you“)
Lonchar (=Zu Mittag essen, aus dem Englischen „to have lunch)
Wachar (=sehen, zusehen, aus dem Englische „to watch“)
Baquiar (=zurückstoßen, aus dem Englischen „to back up“)
Viaje redondo (=Hin- und Rückfahrt, aus dem Englischen „round trip“)
Tuvimos un buen tiempo (=Wir hatten eine gute Zeit, aus dem Englischen „we had a good time“)
¿Cómo te gusta? (= Wie gefällt es Dir?, aus dem Englischen „how do you like it?“)
3.3 Grammatik
Im Folgenden werden die Grammatikeigenschaften des Spanischen allgemein erläutert, insbesondere
die Fälle, die auf irgendeiner Weise unterschiedlich zum Deutsch sind.
Der erste Teil beschäftigt sich mit der Orthographie. Hier werden das Alphabet, die Groß- und
Kleinschreibung, die Interpunktion, die Silbentrennung und die Betonung des Spanischen erklärt.
Interessanter für die Arbeit ist der zweite Teil, der sich der Morphologie und der Syntax widmet. In
diesem Abschnitt werden die Wortklassen, Wortstellung und Satzglieder allgemein erläutert.
3.3.1 Orthographie
3.3.1.1 Das Graphem System
Das Graphem System der spanischen Sprache besteht aus einem Alphabet von 29 Buchstaben, das
durch
Diachritika
zur
Markierung
von
Betonung
und
vervollständigt wird.
Typen
Name
A, a
A
B,b
Be
C, c
Ce
Ch, ch
Che
D, d
De
E, e
E
F, f
Efe
- 17 -
Palatalisierung
und
Interpunktionen
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
G, g
Ge
H, h
Hache
I, i
I
J, j
Jota
K, k
Ca
L, l
Ele
Ll, ll
Elle
M, m
Eme
N, n
Ene
Ñ,ñ
Eñe
O, o
O
P, p
Pe
Q, q
Cu
R, r
ere oder erre
S, s
Ese
T, t
Te
U, u
U
V, v
uve oder ve
W, w
uve doble
X, x
Equis
Y, y
i griega, ye
Z, z
Zeta
Tabelle 3.2: Das spanische Alphabet
Anmerkungen:
Die spanische Sprache verfügt über 24 Konsonanten: b, c, ch, d, f, g, h, j, k, l, ll, m, n, ñ, p, q, r, s, t, v,
w, x, y und z und fünf Vokale: a, e, o, i, u. „a“, „e“, „o“ sind starke Vokale, „i“ und „u“ sind schwache
Vokale und „y“ kann ein Halbvokal oder Halbkonsonant sein.
„Ch“ und „ll“ sind keine Buchstabenkombinationen, sondern gelten als ein Buchstabe. „rr“ gilt dagegen
nicht als eigener Buchstabe, sondern als die einzige echte Verdoppelung im Spanischen. Alle drei
werden nie getrennt.
Zwei gleiche Buchstaben (außer „ll“ und „rr“) kommen selten vor. Die Ausnahmen entstehen aus dem
Zusammentreffen zweier Silben:
z.B.
cc
lec-ción
ee
le-er
- 18 -
Cibrán Beiras Cunqueiro
nn
in-noble
oo
co-operación
3 Die spanische Sprache
In den Buchstabenkombinationen „gue“ und „gui“ wird das „u“ nicht ausgesprochen. Um in einzelnen
Wörtern aber die Aussprache von „u“ zu erzwingen, wird der „u“ mit dem Trema (Diéresis) versehen:
„ü“. Zu vergleichen pingüino – águila.
Zur Markierung von Palatalisierung wird die Tilde (~) bei dem großgeschriebenen „Ñ“ immer gesetzt.
3.3.1.2 Groß- und Kleinschreibung im Spanischen
Ein Großbuchstabe wird immer am Anfang des Satzes und bei Eigennamen verwendet. Unter
Eigenname werden die Namen von Personen, Ländern, Städten, Regionen, Bergen, Festen usw.
verstanden.
z.B.
Pedro
Sevilla
los Alpes
España
la Patagonia
Navidad, Pascuas
Weiterhin werden Bezeichnungen von Institutionen und öffentlichen Ämtern - wenn sie sich auf eine
konkrete Person beziehen-, Studienfächer, Wissenschaften und die Abkürzungen von Titelnamen
großgeschrieben.
z.B.
la Universidad de Madrid
el Rey, el Papa
Filosofía, Física
Sr. -> señor
Sra. -> señora
Srta. -> señorita
Ud./Vd. -> usted
D. -> don
Dª -> doña
Kleingeschrieben werden die meisten Substantive, die Nationalitäten und Volksbezeichnungen, die
Sprachen, die Monate, die Wochentage und die Jahreszeiten.
- 19 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
z.B.
la madre
los alemanes
griego
abril, junio
domingo, lunes
invierno, verano
3.3.1.3 Interpunktion
Es gibt keinen großen Unterschied zwischen der spanischen und resteuropäischen Interpunktion.
Charakteristisch für die spanische Sprache ist, dass der Beginn einer Frage mit einem umgedrehten
Fragezeichen und der Beginn eines Ausrufs mit einem umgedrehten Ausrufezeichen gekennzeichnet
werden.
-Der Punkt wird verwendet:
ƒ am Ende eines Satzes;
ƒ bei Abkürzungen;
ƒ um große Zahlen in dreier Gruppen von dreier zu unterteilen.
-Das Komma wird verwendet:
ƒ zur Kennzeichnung von Pausen:
ƒ zur Kennzeichnung der Satzmelodie;
ƒ um Adverbien und Adverbiale Ausdrücke abzutrennen;
ƒ vor Nebensätze, die am Anfang eines Satzes stehen;
ƒ nach dem Gerundiv, wenn es am Satzanfang steht und als Nebensatzverkürzung verwendet
wird;
ƒ vor Relativsätzen, die den Sinn des Satzes nicht verändern;
ƒ wenn ein Verb ausgelassen wird.
-Der Doppelpunkt wird verwendet:
ƒ um direkte Rede einzuleiten;
ƒ vor einer Liste von Wörtern;
ƒ häufig in der Briefanrede.
-Der Bindestrich wird verwendet:
ƒ um zwei Wörter zu verbinden;
- 20 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
ƒ um ein Wort am Ende einer Zeile zu teilen.
-Die Klammern werden verwendet:
ƒ um ein Wort oder eine Phrase auszuschließen, die auf den Inhalt des Satzes keinen Einfluss hat
und nur zur Erläuterung dient.
-Die Gedankenpunkte werden verwendet:
ƒ um zu zeigen, dass ein Satz inhaltlich nicht zu Ende geführt ist.
-Der Bindestrich wird verwendet:
ƒ um zwei Wörter zu verbinden.
ƒ um ein Wort am Ende einer Zeile zu teilen
-Die Fragenzeichen (¿?) werden verwendet:
ƒ am Anfang und am Ende eines Fragensatzes;
ƒ in Klammern nach einem Wort eines Satzes, um Ungewissheit auszudrücken.
-Die Ausrufezeichen (¡!)werden verwendet:
ƒ am Anfang und am Ende eines Ausrufesatzes.
Anmerkungen14:
Ein Satz kann sowohl als Frage als auch als Ausrufesatz gemeint sein. In diesem fall können
Fragezeichen und Ausrufezeichen kombiniert werden:
z.B.
¿Qué suerte tienes!
Der mehrfache Gebrauch von Ausrufe- und Fragezeichen ist im Spanischen möglich.
z.B.
iiiBasta !!!
14
Bruyne, Jacques de: Spanische Grammatik, Niemeyer, Tübingen, 1993. S. 24ff
- 21 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
i Tu, ¿quién eres?!
3.3.1.4 Die Silbentrennung
Bei der Silbentrennung gelten folgende Regeln:
ƒ Ein Konsonant zwischen zwei Vokalen gehört zur zweiten Silbe.
ƒ „ch“, „ll“, und „rr“ sind ein Laut und werden nie getrennt.
ƒ Diphthonge werde nicht getrennt, aber Verbindungen, wo ein betontes „i“ oder „u“ vorkommen,
sind keine Diphthonge mehr und daher sind sie trennbar.
ƒ Die Vokale „a“, „o“ und „e“, wenn sie aufeinander treffen können getrennt werden.
ƒ Drei Konsonanten werden nach dem zweiten getrennt.
Zwei Konsonanten werden getrennt. Folgende Konsonantenverbindungen werden nie getrennt:
br
bl
cr
cl
dr
fr
fl
gr
gl
pr
pl
tr
tl
Tabelle 3.3: Untrennbare Konsonantenverbindungen
3.3.1.5 Die Betonung und die Akzentsetzung
Im Spanischen werden die Wörter auf der letzten, vorletzten oder drittletzten Silbe betont.
Akzent auf der
Zweisilbig
dreisilbig
viersilbig
letzten Silbe
22%
20%
9%
vorletzten Silbe
78%
74%
80%
drittletzten Silbe
-
6%
11%
Tabelle 3.4: Akzentuierung im Spanischen
Für die Betonung gelten die folgenden Regeln:
ƒ Wörter, die auf Konsonant außer „n“ und „s“ enden, werden auf der letzten Silbe betont.
ƒ Wörter, die auf nicht betontem Vokal sowie „n“ und „s“ enden, werden auf der vorletzten Silbe
betont.
ƒ Wenn die Betonung nach den vorgenannten Regeln auf eine Silbe mit Diphthong fällt, wird der
starke Vokal betont.
- 22 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
ƒ Wenn der Diphthong aus zwei schwachen Vokalen besteht, wird der letzte Vokal betont.
ƒ Wörter, die von diesen Regeln abweichen, müssen auf dem betonten Vokal einen Akzent
tragen.
Die Akzentsetzung dient auch zur Bedeutungsunterscheidung:
z.B.
trabajo (ich arbeite, die Arbeit)
trabajó (er/sie arbeitete)
hable (sprich)
hablé (ich sprach)
Einsilbige Wörter tragen in der Regel keinen Akzent, aber Homonyme erhalten einen
Unterscheidungsakzent:
z.B.
té (Tee)
te (Dich, Dir)
él (er)
el (der)
mí (mich, mir)
mi (mein)
sé (ich weiß)
se (sich)
Das spanische Wort für „oder“ ist „o“. Zwischen Zahlen trägt das „o“ einen Akzent „6 ó 9“, damit „6
oder 9“ nicht mit „609“ verwechselt wird.
Sehr selten werden Wörter auf der viertletzten Silbe betont. Es handelt sich dabei um
zusammengefasste Wörter.
z.B.
mándamelo (schick es mir)
admirábasele (man bewunderte an ihm)
Wenn aus zwei oder mehr Wörtern, die keinen Akzent tragen, eine auf der drittletzten Silbe betonte
Form entsteht, muss der Akzent dann gesetzt werden.
z.B.
sépalo (dass Sie es wissen)
dámelo (gib es mir)
Bei großgeschriebenen akzentuierten Wörtern wird weiterhin der Akzent gesetzt, obwohl es sehr oft in
Texten vorkommt, dass der Akzent weggelassen wird.
Schließlich tragen alle Frage- und Ausrufewörter einen Akzent, auch in der indirekten Rede.
- 23 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
z.B.
¿qué?
¿quién?
¿dónde?
3.3.2 Morphosyntax
3.3.2.1 Die spanischen Wortklassen
Weit
vom
Versuch
entfernt,
eine
lange
und
tiefe
Beurteilung
der
verschiedenen
Wortartenklassifizierungen (und damit der verschiedenen Grammatiken) darzustellen, wird hier eine
Übersicht einer klassischen und einer modernen Klassifikation vorgestellt. Die etwas unabhängige
Kategorisierung, die letzenendes für die vorliegende Arbeit gemacht worden ist, wird im Abschnitt
4.3.1 weiter erläutert. Zu betonen bei der endgültigen Klassifikation ist die Anpassung an die
automatische Textanalyse.
Die „Real Academia Española” funktioniert seit 1713 als Organ für das Studium und die Pflege der
spanischen Sprache. Ihr konservativer und normativer Charakter hat zu verschiedenen Kritiken
anderer Grammatiker geführt, und dennoch gilt sie weiterhin als oberste Authorität. Wegen ihrer
Wichtigkeit wird in diesem Punkt ihre Wortartenklassifikation in Anspruch genommen.
Morphologisch werden die Wörter in Veränderlich und Unveränderlich aufgeteilt. Veränderlich sind die
Wörter, die Flektionsmorphemen haben, etwa wie den Numerus bei den Nomen, den Genus und
Numerus bei den Adjektiven, den Genus, Numerus und die Person der Pronomen, und den Modus,
Tempus, Aspekt, Numerus und die Person der Verben. Unveränderlich sind dagegen diejenigen, die
keine Flektionsveränderung durchmachen: Adverbien, Präposition und Konjunktion15.
Anmerkungen zur Klassifikation:
Die
Nomen
werden
weiter
unterteilt
in
nombres
propios
(Eigennamen)
und
apelativos
(Appellativnomen). Der Numerus wird in der Regel mit den Morphemen ø für Singular und -s/-es für
Plural markiert. Der Genus wird in der Regel mit den Morphemen ø oder -o für maskulin und -a für
feminin. Ein Neutrum gibt es nicht.
Die Adjektive werden bei der Genusbildung in drei Kategorien unterteilt:
-diejenigen, deren Genus unveränderlich bleibt: homicida, cursi, israelí, amable, feliz, veloz...
-diejenigen, dessen Feminin mit -a und dessen Maskulin mit -o endet: alto, alta; tonto, tonta...
15
Interjektionen werden nicht erwähnt.
- 24 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
-diejenigen, dessen Feminin mit -a und dessen Maskulin nicht mit -o endet: holgazán, holgazana;
receptor, receptora...
Die Numerusbildung der Adjektive ist die gleiche wie die der Nomen.
Pronomen werden unabhängig von der Wortstellung in Demonstrativ-, Personal-, Possessiv-,
Indefinit-, Quantitativ-, Relativ-, Exklamativ- und Interrogativpronomen unterteilt. Dies heißt, dass sie
keine Unterscheidung dazwischen machen, ob sie ein Substantiv begleiten (mi coche, esta casa,
muchas personas...) oder ob sie anstelle eines Substantives (el mío, ésta, muchas...) stehen.
Artikel werden in unbestimmte und bestimmte Artikel unterteilt. Beide bilden Singular- und
Pluralformen, aber nur die bestimmten Artikel haben ein Neutrum. Die bestimmten Artikel sind: el, la,
lo (Neutrum), los, las. Die unbestimmten Artikel sind: un, una, unos, unas.
Bei den Verben gibt es im Spanischen drei Konjugationen: -ar (cantar), -er (perder), -ir (sufrir). Die
unpersönlichen Formen sind der Infinitiv (cantar), das Gerundium (cantando) und das Partizip Perfekt
(cantado). Die Modi sind der Indikativ, der Konjunktiv und der Imperativ. Die Tempora des Indikativs
sind: Presente (canto), Pretérito Imperfecto (cantaba), Pretérito Perfecto Simple oder Indefinido
(canté), Pretérito Perfecto Compuesto (he cantado), Pretérito Pluscuamperfecto (había cantado),
Pretérito Anterior (hube cantado), Futuro (cantaré), Futuro Perfecto (habré cantado), Condicional
Simple (cantaría) und Condicional Compuesto (habría cantado). Die Tempora des Konjunktivs sind:
Presente (cante), Pretérito Imperfecto (cantara oder cantase), Pretérito Perfecto (haya cantado),
Pretérito Pluscuamperfecto (hubiera oder hubiese cantado), Futuro (cantare) und Futuro Perfecto
(hubiere cantado).
Eine modernere, syntaktischorientiertere Wortklassifikation betont sowohl die adjektivische als auch
die substantivische Funktion der Pronomen16. Das führt zu einer Unterscheidung zwischen
Demonstrativ-, Possessiv-, Indefinitpronomina usw., wenn sie anstatt eines Substantiv auftreten, und
Demonstrativ-, Possessiv-, Indefinitadjektive usw., wenn sie ein Substantiv begleiten. Die
Klassifikation dieser Wortarten in Attributivfunktion bleibt dennoch einheitlich. Sie werden als
Adjektive, als Determinativadjektive oder als Determinatoren behandelt.
16
Beispielsweise Marcos Marín et al. (2003). Onieva (1993) merkt bei den Pronomen auf der Seite
114 folgendes an: „Das ist die Klassifikation der Academia. Trotzdem behandeln alle moderne
Grammatikwerke die Pronomen in Attributivfunktion als Determinatoren (nuestra casa) und nur als
Pronomen, wenn sie sich auf ein Substantiv beziehen (he llamado a algunos).“
- 25 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
3.3.2.2 Die Wortstellung
Die
spanische
Sprache
verfügt
im
Vergleich
zu
anderen
Sprachen
über
eine
große
Wortstellungsfreiheit. Wie in jeder Sprache spielt trotzdem die syntaktische Struktur eine große Rolle.
Die Einheiten, die umgestellt werden können, sind die kleinsten Satzglieder (Subjekt, Verb,
Ergänzungen und Angaben), nicht also die einzelnen Worte:
In der linearen Konstruktion folgt das determinierende Element dem determinierten. Die Struktur wäre:
Subjekt
+
Verb
+
Akkusativerg. + Dativerg. + Angaben (Predikativsatz)
Algunos compañeros expusieron sus quejas
al director durante la huelga.
Oder
Subjekt + Verb + Attribut (Kopulativsatz)
Antonio
es
un buen profesional.
In der einwickelnden Konstruktion wird dagegen das wichtigste Element an den Anfang gestellt. Der
Satz “Mein Vater kommt um 9 Uhr” kann folgendermaßen umgeschrieben werden:
Mi padre llegará a las nueve.
A las nueve llegará mi padre.
Llegará mi padre a las nueve.
In selbständigen Fragesätzen wird ähnlich wie im Deutsch das Verb häufig vorangestellt:
¿Está mejor tu hermano? (Geht’s deinem Bruder besser?)
Ein Fragewort leitet normalerweise den pronominalen Fragesatz ein und wird vom Verb gefolgt:
¿Quién eres tú? (Wer bist Du?)
Aber:
¿Y tú quién eres? (Und wer bist Du?)
Y tú, ¿quién eres? (Und wer bist Du?)
- 26 -
Cibrán Beiras Cunqueiro
3 Die spanische Sprache
Anmerkungen17:
-In Nebensätzen wird die Satzstruktur im Gegensatz zum Deutsch nicht geändert. Auch werden sie
nicht immer durch Komma getrennt.
Él asegura que ella no sabe nada del asunto.
-Das Verb tritt häufig wie im Deutsch in der zweiten Stelle auf. Das Partizip folgt aber immer dem
Verb.
Ella ha hecho muy bien los deberes. (Sie hat die Hausaufgaben sehr gut gelöst)
-Die große Anzahl der Konjugationsmorpheme erlaubt häufig einen elliptischen Subjekt.
Fuimos al cine.
-Das Negationsadverb no wird immer dem Verb vorangestellt.
Desde que no fumas has engordado cinco kilos.
-Die unbetonten Personalpronomen werden immer dem Verb vorangestellt oder ihm hinzugefügt:
¡No me lo creo!
Póngame un café, por favor.
-Die Stellung des attributiven Adjektivs ist normalerweise nach dem Substantiv, aber viel freier als im
Deutsch.
La pared roja. (Die rote Wand)
Es una magnífica ocasión para ir a visitarte. (Es ist eine wunderbare Gelegenheit, um dich zu
besuchen).
17
Für weitere Information s. S. 609 in de Bruyne 2002, S. 230 in Onieva 1993, S. 360 in Marcos 2002
und S. 544 in Vera-Morales 1997.
- 27 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4 Anwendung des Unitex im Spanischen
Nachdem die Werkzeuge „UNITEX“ und „Elag“ vorgestellt worden sind, wird in diesem Teil der Arbeit
beschrieben, wie UNITEX für das Spanische eingesetzt werden kann und welche Elag Regel
aufgebaut worden sind, um das Ambiguitätsproblem im Spanischen zu beheben. Dieser Teil ist
folgendermaßen gegliedert:
-Beschreibung des Korpus, mit dem gearbeitet wurde,
-Beschreibung des Präprozessgraphen, mit dem das Korpus in Sätze geteilt wurde,
-Beschreibung der Lexika, die elaboriert und angewendet worden sind,
-Beschreibung des Normalisierungsgraphes, der letzte Vorbereitungen unternimmt,
-Beschreibung der Elag-Regeln, die den Text vereinfacht analysieren lässt.
4.1 Das Korpus
Die Auswahl des Korpus war von großer Bedeutung, da zum einen der Umfang in Grenzen gehalten
werden musste, um die Übersichtlichkeit zu bewahren, und zum anderen die wichtigsten
Eigenschaften der spanischen Sprache repräsentieren sollte. Folgende Voraussetzungen wurden
berücksichtigt:
-Die Dialektvariation. Wie schon im vorherigen Kapitel erwähnt, ist die spanische Sprache weltweit
verbreitet und dem folgend ist die Varietät des Spanischen sehr hoch. Die Sprache, die für diese
Arbeit ausgewählt worden ist, ist die Varietät, die in Spanien benutzt wird.
-Weitere Sprachregister. Die Texte sind hauptsächlich in formaler Sprache geschrieben, aber
beinhalten jedoch Elemente von Fachsprachen, Gruppensprachen, Soziolekten oder Idiolekten.
-Die Korpusquelle. Auf der Suche nach Text in maschinenlesbarer Form wurde für die Aufbereitung
des Korpus das Internet als Quelle benutzt. Trotz der Vielfalt und des Umfangs der spanischen
Webseiten bereitete das Auswählen der Texte, die für das Ziel dieser Arbeit geeignet wären, ein
großes Problem. Aus diesem Grunde wurden Texte aus Tageszeitungen und online Nachrichten
ausgewählt, die ein bestimmtes sprachliches Niveau vorweisen können.
Bei der Erstellung des Korpus wurde versucht, nach dem Prinzip zu verfahren, alles, was in
spanischen Texten regulär vorkommt oder vorkommen kann, in diese Sammlung von Texten
aufzunehmen. Es handelt sich um Texte, die grammatikalisch und syntaktisch korrekt sind, eine
- 28 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
gehobene Schriftsprache vorweisen können und dadurch eine effiziente Basis zur Erläuterung und
Behebung von Disambiguitäten bilden.
Über einer längeren Zeit sind Nachrichten und Artikel von der Webseite der spanischen Zeitung „El
Mundo“ gesammelt worden18. „El Mundo“ ist neben „El Pais“, „ABC“ und „La Vanguardia“ eine der
wichtigsten Tageszeitungen Spaniens.
Das Korpus besteht aus 55 gezielt ausgewählten Texten aus verschiedenen Bereichen wie Politik,
Kultur, Wissenschaft oder Sport, die sowohl über die spanische als auch über die internationale
Realität berichten.
Die Repräsentativität des Korpus ist sehr hoch. Trotz des eingegrenzten Umfangs wurde ein breiter
Sprachbestand des Spanischen erfasst. Sprachvarietäten, Fachsprache, Abkürzungen, Akronyme,
Eigennamen, dialektale Sprache und Fremdwörter sind im Korpus beinhaltet.
4.2 Der Vorverarbeitungsgraph. Die Satzdelimitierung.
Der Graph „Sentence.grf“ wird von Unitex als Vorverarbeitung ausgeführt, um die Sätze des
vorhandenen Textes zu segmentieren. In der Vorverarbeitung arbeitet das Programm nicht auf
lexikalischer Ebene, sondern erkennt nur Gruppen von Buchstaben und Zahlen, die von einem
Leerzeichen oder von einem orthographischen Zeichen getrennt sind.
Das Symbol, das Unitex benutzt, um die Sätze zu delimitieren, ist „{S}“. Dieses Symbol ist nicht einem
Satzzeichen gleichzusetzen, sondern es ist ein einfacher Satzseparator. Deswegen kommt es nie am
Anfang oder Ende eines Textes vor.
Bevor dieser Graph beschrieben wird, sollte man hinzufügen, dass die jeweiligen Möglichkeiten, die er
betrachtet, gleichzeitig angewandt werden und miteinander kombinierbar sind.
Entscheidend für die Realisation einer Segmentierung ist die Umgebung der Satzzeichen. Das
Ausrufezeichen, das Fragezeichen und der Punkt sind die Satztrenner im Spanischen. In bestimmten
Fällen können sie auch mitten im Satz auftreten. Solche Fälle sind in dem Graph berücksichtigt.
Der Graph besteht also aus den folgenden zwei Teilen:
ƒ Fälle, die einen Satz beenden.
ƒ Fälle, die ein Satzende ausschließen.
18
www.elmundo.es
- 29 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Fälle, die einen Satz beenden.
In der Regel folgt einem Satztrenner ein Leerzeichen oder ein Zeilenumbruch und ein
Grossbuchstabe, sei es ein einfaches Wort, ein Eigenname oder ein großgeschriebenes Wort. Nicht
gerade üblich aber auch möglich ist es, dass eine Ziffer den Satz beginnt. Manchmal kann vor diesem
Wort ein anderes Interpunktionszeichen auftreten, wie zum Beispiel ein Hochkomma, ein
Anführungsstrich, ein Bindestrich oder eine Klammer. Im Spanischen ist das bei einem Frage- oder
Ausrufesatz der Fall, denn es wird jeweils das umgedrehte Fragezeichen „¿“ oder Ausrufezeichen „¡“
verwendet. Beispiele:
Ende eines Satzes. Sabido es...
Ende eines Satzes! Wolfgang no supo...
Ende eines Satzes? „¿CÓMO?“- gritó exasperado.
Ende eines Satzes. 1968 fue el ano...
Ende eines Satzes! ¡Qué bueno!
Ende eines Satzes. «El Mundo» es...
Nach diesem Muster können auch manche der Fälle, die ein Satzende ausschließen, anstatt von
einem vollständigen Wort am Anfang vorkommen.
Fälle, die ein Satzende ausschließen
Von den orthographischen Zeichen kann nur der Punkt inmitten des Satzes vorkommen. Das ist der
Fall bei:
ƒ Initialien vor einem Nachnamen (J. González; J.R. González)
ƒ Abgekürzter Titel vor einem Namen (Dr. Bergara; St. Louis)
ƒ Nachgestellte Abkürzungen (Empresa S.A.; 500 a.C.)
ƒ Abkürzungen im Allgemeinen (Hoy pincha un D.J. nuevo)
Wie schon vorhin erwähnt, können diese Fälle einen Satz anfangen.
Graph:
- 30 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.1: Der Satzsegmentierungsgraph
Zum besseren Verständnis des Graphen, wird dieser in drei Teilen erklärt und diese Teile auf einem
neuen Graph gezeigt:
ƒ Fälle, die immer einen Satz beenden
ƒ Fälle, die nie einen Satz anfangen
ƒ Fälle, die in der Satzmitte oder am Anfang auftreten können
4.2.1 Fälle, die immer einen Satz beenden
- 31 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.2: Fälle, die immer einen Satz beenden
Am Satzende kann im Prinzip alles Mögliche vorkommen. Großgeschriebene Wörter wie die
Aufgelisteten (ITER, CNI...), in Verbindung mit del und siglo19 oder mit mehr als einem groß
geschriebenem Wort20 entgehen dem Prinzip der Ausnahmen und deuten auf ein Satzende.
Nach dem Punkt, Ausrufe- und Fragezeichen und eventuell dazwischen ein Bindestrich wird also das
Satzdelimitierungssymbol aufgesetzt, wenn ein Leerzeichen oder Zeilenumbruch vorkommt und
denen ein groß geschriebenes Wort, ein Wort, dessen Anfangsbuchstabe groß geschrieben ist, oder
eine Ziffer. Dazwischen können beliebige Interpunktionszeichen21 und/oder die angegebenen
orthographischen Zeichen stehen.
Nach Leerzeichen und Zeilenumbruch können auch zwei groß geschriebene Wörter vorkommen, die
einen Satz bilden22. Ebenfalls sind auch die Fälle erlaubt, die im Teil 3 gezeigt werden.
19
Die Jahrhunderte werden auf Spanisch mit lateinischen Nummern ohne Punkt geschrieben (el siglo
XV d.C.; la obra es del (siglo) XIX). Wenn hinterher ein Punkt kommt, dann muss es Satzende sein.
20
Das ist zum Beispiel der folgende Fall: Noticia 50. LAS PALMAS DE GRAN CANARIA.
21
Nicht zu vergessen sind die umgedrehten Frage- und Ausrufezeichen, die auf Spanisch am Anfang
des Satzes benutzt werden müssen.
22
Wenn dieser Teil nicht eingetragen wäre, würden diese Sätze nicht erkannt. Noticia 23.{S} NUEVA
- 32 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.2.2 Fälle, die nie einen Satz anfangen
Abbildung 4.3: Fälle, die nie am Satzanfang stehen können
Die Abkürzungen, die hier gezeigt werden, stehen in der Satzmitte. Auch wenn sie tatsächlich am
Ende des Satzes stehen, kann man das nicht verallgemeinen und daher wird der Satzseparator nicht
eingesetzt. Wörter mit groß geschriebenem Anfangsbuchstabe können auch innerhalb des Satzes
vorkommen:
El presidente de Objetivos S.A. Pedro Silva...
4.2.3 Fälle, die in der Satzmitte oder am Anfang auftreten können
YORK.- Un juez federal...
- 33 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.4: Fälle, die in der Mitte und am Satzanfang stehen können
Diese Fälle, die Punkt enthalten, können in der Mitte oder am Anfang des Satzes vorkommen. Bei
denen ist der Punkt nicht ein Satzseparator und daher darf das Symbol „{S}“ nicht gesetzt werden.
Diese sind groß geschriebene Wörter oder das Wort D.J. und Abkürzungen, hinter denen ein Wort mit
groß geschriebener Anfangsbuchstabe, eventuell eine Initial mit oder ohne Punkt, oder ein groß
geschriebenes Wort mit Punkt und ein klein geschriebenes Wort.
Schließlich kann man sagen, dass der Graph das Korpus perfekt segmentiert. Trotzdem muss
hinzugefügt werden, dass er bei anderen Texten möglicherweise angepasst werden muss und dass
manche Fälle nicht automatisch zu unterscheiden sind.
4.3 Das elektronische Wörterbuch
Das System Unitex stellt für das Spanische ein umfangreiches Lexikon (638000 Grundwörter-Formen)
zur Verfügung, das in der Fakultät für Französische und Romanische Philologie der Universitat
Autònoma de Barcelona unter der Leitung von Xavier Blanco entwickelt worden ist.
Für diese Arbeit ist ein neues Lexikon entwickelt worden, das auf das Lexikon von Xavier Blanco
basiert. Der Grund dafür war, dass das schon im Unitex eingebaute und kompilierte Lexikon sich nicht
ändern ließ.
- 34 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Der erste Kritikpunkt besteht in der Kleinschreibung der Grundformen von Eigennamen. Da
Eigennamen immer großgeschrieben werden, gibt es keinen Grund, dieses Format zu rechtfertigen,
zumal es in einigen Fällen zu weiteren Ambiguitäten führt. Diese Annahme wird durch ein Beispiel
verdeutlicht:
Rodríguez, Esperanza und Trinidad sind Eigennamen und allgemeine Substantive. In:
Eres un rodríguez.
La esperanza es lo último que se pierde.
würde eine Ambiguität entstehen, die vermieden werden kann.
Im Gegensatz zur Unitex-Systematik wird hier die unpersönliche Form des Verbs nicht als
selbständige Grundform sondern als abhängige Varietät behandelt. Während im Unitex-Lexikon zum
Beispiel acogiera zwei verschiedene Grundformen hat:
acogiera,acoger.V:T1s:T3s
acogiera,acogerse.V:T1s:T3s,
findet man im hier benutzten Lexikon nur einen Eintrag:
acogiera,acoger.V:T1s:T3s,
und während conocer und conocerse im Ersten zwei verschiedene Grundformen sind:
conocer,.V:W
conocerse,.V:W+se,
ist es im Zweiten nur eine:
conocer,.V:W
conocerse,conocer.V+PRON:W.
Eigentlich entscheidend für die Erzeugung eines eigenen Lexikons waren jedoch die praktischen
Gründe. Hierzu werden kleine Änderungen vorgenommen, wie eine genauere Subklassifikation
mancher Einträge (z.B. gibt es Adjektive, die nur nach dem Substantiv vorkommen dürfen, was für
eine Einordnung in eine eigene Subklasse IndefPs spricht) oder auch entgegengesetzt eine
Zusammenfassung von verschiedenen Unterklassen zu einer einzelnen Gruppe (beispielsweise
Eigennamen und Abkürzungen als Unterklassen der Substantiven statt separater Klassen).
- 35 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.3.1 Die neue Kategorisierung des Lexikons. Die POS-Label.
Im vorigen Punkt wurde darauf aufmerksam gemacht, dass die Wortklassifizierung sich stark von
Grammatik zu Grammatik unterscheidet. Man kann sogar feststellen, dass diese innerhalb desselben
Wörterbuchs23 nicht konsistent vorgenommen wird. Das geschieht, weil Klassifikationskriterien
verschiedener linguistischen Ebenen miteinander konkurrieren. In der Regel werden die Wortarten
semantisch, morphologisch und/oder syntaktisch kategorisiert.
In dieser Arbeit werden vor allem die beiden letzten Kriterien benutzt, wobei das Syntaktische
gegenüber
dem
Morphologischen
stärker
gewichtet
wird,
nicht
zuletzt
deshalb,
weil
ja
Disambiguierung auf Ebene der Syntax durchzuführen ist. Aus diesem Grunde wird die Bezeichnung
POS (part of speech) als Wortart bevorzugt.
Im Folgenden werden die Kategorien des neuen Lexikons im Einzelnen erklärt, ohne weitere
Vergleiche mit dem Unitex-Lexikon anzustellen. Potentiell strittige Fälle werden detailliert besprochen.
Zugefügt soll zuletzt werden, dass ein File mit einer in bestimmter Form, wie es im Elag-Abschnitt
dieser Arbeit erläutert wird, gestaltet werden muss, damit die Elag-Regeln durchgeführt werden
können. Dieses File hieß in den älteren Versionen Unitex' french.lang, jetzt aber, wegen des
allgemeinen Nutzens, dict.file.
Hier nun die Kategorien in alphabetischer Reihenfolge:
4.3.1.1 Adjektive (A):
Diese Klasse besteht aus vielen Subkategorien und ist eine der Kontroversesten. Adjektive sind im
engen Sinne dadurch gekennzeichnet, dass sie attributiv24 und prädikativ vorkommen können.
Semantisch vervollständigen, definieren und grenzen sie die Bedeutung der Substantive ein. Diese
„reinen“ Adjektive werden hier als Qualifikativ bezeichnet. Im weiteren Sinne werden auch die
Determinatoren, die im Gegensatz zu den Ersten Pronomina werden in prädikativer Funktion, in diese
Klasse mit eingeschlossen. Zu dieser Gruppe gehören alle anderen Unterklassen bis auf die
Relativadjektive. Der einzige Fall eines Relativadjektivs ist cuyo/cuya/cuyos/cuyas und wird nur
pränominal benutzt.
Zur Kontroverse:
23
Siehe Maier-Meyer (1995).
24
Im Spanischen kann das vor oder nach dem Kern der Nominalphrase. Einige Adjektive haben eine
feste Stelle, andere ändern die Bedeutung in Abhängigkeit ihrer Position. S. Alarcos 1978:209.
- 36 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Determinatoren bilden oft eine eigene Kategorie. Das nächste Problem bei der eigentlich rechtfertigen
Klassifikation würde mit den Artikeln kommen. Dieses Thema selbst wäre fragwürdig25. In diesem Fall
handelt es sich um eine willkürliche Klassifikation, die auf einer traditionelleren zurückzuführen ist.
Man spricht in der traditionellen Grammatik von Relativpronomina und nicht -adjektiven. Eine
Syntaxanalyse stellt aber fest, dass dieser einzige Fall (cuyo/cuya/cuyos/cuyas) nicht mit dem
vorangehenden Substantiv oder Pronomen kongruiert wie der Rest der Relativpronomina sondern mit
einem Folgenden. Da es pränominal determiniert, wird es in der Klasse der Adjektive und nicht der
Pronomina untergebracht.
Las personas (fp) cuyo (ms) objetivo (ms) es alto tienen que sufrir mucho.
Ähnliches kommt bei den Interrogativ- und Exklamativpronomina vor. Qué und cuánto determinieren
manchmal ein Substantiv, was sie zu Adjektiven macht26.
No preguntes qué pantalones te debes poner.
¡Cuánto tiempo ha pasado desde la última vez!
Abk.
Adjektive
Dem
Demonstrativ
Dist
Distributiv
Pos
Possessiv
PosPs
Possessiv nach dem Substantiv
Indef
Indefinit
IndefPs
Indefinit nach dem Substantiv
Int
Interrogativ
Exc
Exklamativ
Rel
Relativ
Num
Numeral Kardinale
NumOrd
Numeral Ordinale
Cal
Kalifikativ
Tabelle 4.1: Die Adjektive
Allen Adjektivklassen ist gemein, dass sie die flektierenden Eigenschaften, die in der nächsten Tabelle
erscheinen, aufweisen.
25
26
Alarcos 1978:206.
Über das Thema Adjektive, Determinatoren und Pronomina wird im Abschnitt 4.3.1.11 weiter
diskutiert.
- 37 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Flektion
Abk.
Genus:
Maskulin
M
Feminin
F
Numerus:
Singular
S
Plural
P
Tabelle 4.2: Die Genus- und Numerusflektion
Eintragsbeispiele:
aquel,.A+Dem:ms
bastante,.A+Indef:ms:fs
cuyas,cuyo.A+Rel:fp
Wie schon in der Einleitung zum Spanischen erwähnt, gibt es im Spanischem nur wenige Fälle des
Neutrums: den bestimmten Artikel lo, die Demonstrativpronomina esto, eso, aquello und das
Personalpronomen ello. Aus
praktischen Gründen werden sie als Maskulin eingetragen,
beispielsweise bei:
Lo bueno, si breve, dos veces bueno.
würden die Adjektive breve und bueno mit dem substantivierten lo bueno im Genus übereinstimmen.
Wie schon erwähnt sind die einzigen, die in Prädikativform allein vorkommen dürfen, die
Qualifikativadjektive. Bei den anderen Fällen, mit Ausnahme der Relativadjektive, würde es sich um
Pronomina oder gar Substantive handeln. Mehr dazu wird bei Behandlung dieser Kategorien erklärt.
Weitere Unterschiede, die zur Perfektionierung der Elag-Regeln nützlich sind, sind sehr konkret und
haben mit der Reihenfolge, der Verbindung mit Artikeln und der relativen Stellung zum Substantiv.
4.3.1.2 Adverbien (ADV):
Unter Adverbien versteht man das Satzglied, das einen ganzen Satz, ein Verb, ein Adjektiv oder ein
anderes Adverb modifiziert. Sie sind nicht flektierbar und daher manchmal den Partikeln zugeordnet.
Eine besondere Art von Adverbien bilden die Exklamativadverbien. Sie entsprechen nicht der
klassischen Klassifikation als Interrogativ- und Exklamativadverbien von cuándo, cómo und dónde,
denn diese wird nach dem semantischen Kriterium vorgenommen. Sie wird aus syntaktischen
- 38 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Gründen nur bei qué und cuán27, wenn sie ein Adjektiv oder ein anderes Adverb modifizieren:
¡Qué bonito es ese cuadro!
¡Qué bien que hayas venido!
¡Cuán bella es!
Eine semantisch motivierte genauere Klassifikation der Adverbien, etwa in Lokal-, Temporal-,
Modaladverbien usw, trägt nichts zur syntaktischen Disambiguierung bei und wird daher weder in
diesem noch in anderen bekannten Lexika weiter verfolgt. Eine weitere Simplifizierung wird dadurch
erreicht, dass auch aus einem Adjektiv abgeleitete Adverbien -sowohl mit dem Suffix -mente
(desgraciado, desgraciadamente) als auch ohne Suffix (bajo, alto, claro, usw.)- ebenso der Klasse der
nicht abgeleiteten Adverbien zugeordnet werden, wie adverbiale Wendungen, meistens eine
Präposition mit Substantiv wie z.B. a continuación, sin embargo aber auch anderen Wortklassen wie
al parecer.
Eintragsbeispiele:
hoy,.ADV
de nuevo,.ADV
4.3.1.3 Konjunktionen (CONJ):
Eine Konjunktion ist ein Partikel, dessen Funktion es ist, Konstituenten zu verknüpfen. Wie bei den
Adverbien wird diese Klasse in der Syntax weiter gegliedert, und zwar in Kopulativ- und
Subordinativkonjunktionen, und Diese in weiteren Unterklassen, und weist sich für diese Phase der
Disambiguierung28 als unpraktisch auf. So wie bei den Adverbien werden eine Reihe von
Konjunktionen mit verschiedenen Worten gebildet, die im Komposita-Lexikon zu finden sind und unter
dieser Gruppe klassifiziert werden.
Eintragsbeispiele:
y,.CONJ
ya que,.CONJ
27
28
Diese Verwendung ist ein bisschen veraltet und hauptsächlich in der Poesie zu finden.
Das Argument, dass nach dieser Art von Disambiguierung, sprich der Beschreibung des
nächstliegenden Kontexts, ein Parsing gemacht werden soll, wird in verschiedenen Teilen dieser
Arbeit geäußert.
- 39 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.3.1.4 Artikel (DET):
Auch eine umstrittene Klasse, wie bei den Adjektiven (Abschnitt 4.3.1.1) gezeigt worden ist. In diesem
Lexikon erfolgt lediglich eine Unterteilung in bestimmte (Det) und unbestimmte (Ind) Artikel. Beide
Subklassen müssen mit den bei den Adjektiven gezeigten flektierenden Eigenschaften vervollständigt
werden (um Genaueres über das Genus Neutrum zu erfahren, s. S. 38).
Eintragsbeispiele:
la,el.DET+Det:fs
lo,el.DET+Det:ms
unas,un.DET+Ind:fp
4.3.1.5 Interjektionen (INTJ):
Interjektionen können allein in einem Ausrufesatz auftreten. In einem Text, besonders von der
Zeitung, kommen sie eher selten vor und, obwohl andere Wortarten (hauptsächlich Substantive:
cielos, diablos, caracoles) die Funktion einer Interjektion übernehmen können, sind sie sehr leicht zu
determinieren, denn dies geschieht immer in Verbindung mit Ausrufezeichen. Wie Adjektive und
Konjunktionen braucht diese Klasse nicht weiter reduziert zu werden.
Eintragsbeispiele:
salud,.INTJ
uf,.INTJ
4.3.1.6 Substantive (N):
Substantive und Adjektive wurden in der traditionellen Grammatik unter eine gleiche Klasse gebracht,
nämlich die der Nomen. Obwohl sie viele Ähnlichkeiten aufweisen, kategorisieren bzw. determinieren
Substantive Klassen von Objekten, während Adjektive Eigenschaften beschreiben. Syntaktisch ist der
Kopf einer Nominalphrase ein Substantiv, Pronomina ausgenommen. Adjektive, Verben und
Adverbien sind die morphologischen Kategorien, die substantiviert werden können.
Diese Kategorie hat fünf verschiedene Unterklassen, die in dieser Tabelle dargestellt werden.
Abk.
Substantive
Num
Numeral Kardinal
NumOrd
Numeral Ordinal
Npr
Eigen- und Ortsnamen
Sig
Akronyme
- 40 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abk.
Substantive
Com
Appelative
Tabelle 4.3: Die Substantive
Alle bis auf die Eigen- und Ortsnamen haben Genus und Numerus.
Eintragsbeispiele:
Esperanza,.N+Npr
esperanza,.N+Com:fs
TV,.N+Sig
4.3.1.7 Präfixe (PFX):
Im Gegensatz zu dem Deutschen kommen viele Präfixe auf Spanisch getrennt oder mit einem
Bindestrich an das Wort verbunden vor. Daher ist es auch eine eigene Klasse nötig.
Eintragsbeispiele:
ex,.PFX
anti,.PFX
4.3.1.8 Präpositionen (PREP):
Da im Spanischen kein Kasusunterschied gemacht wird, ist eine weitere Unterteilung dieser Klasse
unnötig. Zudem wird hier die klassische Unterscheidung zwischen einfachen Präpositionen und
präpositionalen Ausdrücken wie a través de, respecto a oder al lado de nicht vertreten, weil sie
hinsichtlich der Disambiguierung nicht zielführend ist. Die sehr häufig vorkommenden präpositionalen
Ausdrücke sind zwar im Komposita-Lexikon zu finden, fallen aber unter diese einzige Kategorie.
Eintragsbeispiele:
de,.PREP
respecto a,.PREP
4.3.1.9 Kontraktionen von Präposition und Artikel (PREPDET):
Weil der Normalisierungsprozess, der Enklitika in zwei selbständigen Wörtern trennt, erst nach der
Anwendung des Lexikons durchgeführt werden kann, müssen die Kategorie PREPDET ebenso wie
PREPPRON (s. nächsten Abschnitt) erzeugt werden. Sie sind also keine tatsächlichen
- 41 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
morphosyntaktischen Kategorien und werden für die Disambiguierung nicht gebraucht.
Die Genus- und Numeruseingabe ist zwar überflüssig, findet aber auch hier der Vollständigkeit halber
statt.
Fälle, die im Spanischen häufig vorkommen, sind: del (de+el), al (a+el), respecto al (respecto a+el),
después del (después de+el), en cuanto al (en cuanto a+el), en vez del (en vez de+el), usw.
Eintragsbeispiele:
del,.PREPDET:ms
después del,.PREPDET:ms
4.3.1.10
Kontraktionen Präposition und Pronomen (PREPPRON):
Hier gibt es nur drei Einträge: contigo (con+mí), consigo (con+sí) und contigo (con+tí). Wie auch bei
PREPDET ist die Eingabe der Flektionseigenschaften nicht nötig, weil es sich um einen
Übergangsschritt handelt, und dennoch werden sie eingetragen. In diesem Falle kommt, wie es im
nächsten Punkt genauer gezeigt wird, eine neue Flektionseigenschaft vor:
Flektion
Abk.
Person
1 2 3
Tabelle 4.4: Die Personsflektion
Eintragsbeispiele:
contigo,.PREPPRON:2s
conmigo,.PREPPRON:1s
consigo,.PREPPRON:3s:3p
4.3.1.11
Pronomina (PRON):
Diese grammatikalische Kategorie ist von vielen Grammatikern kritisiert worden, die gegen die
Bezeichnung als „Wort, das das Substantiv ersetzt, um seine Wiederholung zu vermeiden“ sind.
Schon Lenz (1925) schlug Termini wie Substantiv-, Adjektivpronomina, Proverben und Proadverbien
vor. In der Regel behalten Grammatiken die Bezeichnung Pronomen bei der Wortklassifikation und
unterscheiden die Syntaxfunktionen. Da diese Arbeit syntaktischorientiert ist, werden die Pronomina
vom Anfang an von anderen Wortklassen unterschieden und getrennt behandelt.
Pronomina sind hier dadurch bestimmt, dass sie andere Satzkonstituente vertreten können, meistens
- 42 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Nominalphrasen. Sie werden Kopf einer Nominalphrase, in der sie normaler- aber nicht
notwendigerweise allein vorkommen:
Ese coche es mío.
Ese coche es el mío.29
Diese Klassifikation enthält also nur die Formen, deren Funktion primär oder substantivisch ist. Die
Formen, deren Funktion sekundär, d.h. adjektivisch oder determinativ, ist, werden hier allgemein als
Adjektiv30 behandelt (s. oben). Wenn sie adverbial gebraucht werden, werden sie natürlich auch als
Adverbien eingetragen, etwa so: poco,.PRON; poco,.A+Indef; poco,.ADV.
Es ist die einzige Klasse, bei der in der Praxis zwischen Kasus unterschieden wird, und dies auch nur
bei den Personalpronomina. Die Nomenklatur, die traditionell in der spanischen Linguistik benutzt
wird, ist syntaktisch bestimmt und entspricht folgendermaßen den deutschen Fällen:
Spanisch
Deutsch
Sujeto
Nominativ
Objeto Directo
Akkusativ
Objeto Indirecto
Dativ
Tabelle 4.5: „Die spanischen Kasus“
29
Die Generative Grammatik spricht in Fällen der Substantivierung davon, dass das Substantiv einen
Null-Wert hat (elliptisch) und dass die Attributte weiterhin als Attribute analysiert werden sollen und
nicht als (Pro-)Nomen. In diesem Fall hat die Nominalphrase einen Artikel, ein elliptisches Substantiv
als Kopf und ein Possessivadjektiv. Diese Theorie hilft jedoch bei der Disambiguierung mit Unitex
nicht weiter.
30
Interessant ist die Unterteilung der Pronomen, die Marcos et al. (2002) vorschlägt. Zunächst wird
eine Unterscheidung zwischen Aktualisierung und Determinierung gemacht. Die Aktualisierung dient
zur Transformation der virtuellen Begriffe in reale Darstellungen. Substantive brauchen aktualisiert
werden, und dies wird im Spanischen durch das Pluralmorphem, die Adjektivierung oder die
Determinierung. Die Determinierung ihrerseits aktualisiert das Substantiv, indem sie die Bedeutung
auf einer mehr oder weniger genauen Weise bestimmt. Artikel, Demonstrative, Possessive und
Kardinalnumeralia
sind
also
Determinatoren
und
nicht
Adjektive.
Ein
wichtiges
Unterscheidungskriterium ist, dass sie allein auftreten dürfen, müssen aber nicht: el coche este
(Artikel und Demostrativ), estas cosas mías (Demostrativ und Possessiv), mis dos hermanas
(Possessiv und Kardinalnumeral). Ordinalnumeralia beispielsweise sind Adjektive, denn sie brauchen
einen Determinator (el primer astronauta). Diese Unterscheidung wäre zwar in einem größeren
Projekt tatsächlich in Anspruch zu nehmen, in dieser Arbeit würde aber die Relation Zeitaufwand
Erfolg die Klassifikation nicht rechtfertigen.
- 43 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Als Abkürzung ist die deutsche Nomenklatur übernommen worden und, auch vom Deutschen
beeinflusst, ist eine weitere Unterklasse (Prep) erzeugt worden, denn auch bei Präpositionen werden
Unterschiede aufgewiesen: yo (Nominativ), me (Akkusativ und Dativ), mí (mit Präposition).
Die dreizehn Unterkategorien sind damit:
Abk.
Pronomina
Dem
Demonstrativ
Pos
Possessiv
Nom
Nominativ
Acus
Akkusativ
Dat
Dativ
Prep
Nach Präposition
Refl
Reflexiv
Rec
Reziprok
Indef
Indefinit
Int
Interrogativ
Exc
Exklamativ
Rel
Relativ
Imp
Unpersönlich
Tabelle 4.6: Die Pronomina
Zwei nennenswerte spanische Charakteristika sind das nicht immer leicht disambiguierbare
unpersönliche Pronomen se (zu vergleichen mit Reflexiv- und Reziprokpronomen in der 3. Person),
was dem deutschen man entspricht, und die enklitischen Personalpronomina. Wie in anderen
romanischen Sprachen werden sie unter bestimmten Umständen an das Ende des Verbs angehängt.
Eine Segmentierung erfolgt hier nicht, da dies nicht automatisiert werden kann und außerdem die
Disambiguierung verkomplizieren würde.
Se dice que la televisión emboba, pero yo no lo creo.
Tienes que dármela antes del concierto.
Weiter weisen Pronomina unterschiedliche Flektionseigenschaften auf. Die Art von Flektion, die jede
einzelne Subklasse charakterisiert, wird in der folgenden Tabelle gezeigt:
Pronomenabk.
Flektion
Dem
Genus und Numerus
Pos
Genus und Numerus
Nom
Genus, Numerus und Person
- 44 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Pronomenabk.
Flektion
Acus
Numerus und Person
Dat
Numerus und Person
Prep
Numerus und Person
Refl
Numerus und Person
Rec
Numerus und Person
Indef
Genus und Numerus
Int
Genus und Numerus
Exc
Genus und Numerus
Rel
Genus und Numerus
Imp
-
Tabelle 4.7: Die Flektionseigenschaften der Pronomina
Eintragsbeispiele:
yo,.PRON+Nom:1ms:1fs
nosotras,yo.PRON+Nom:3fp
se,.PRON+Imp
se,.PRON+Refl:3s:3p
se,.PRON+Rec:3p
algunos,alguno.PRON+Indef:mp
4.3.1.12
Verben (V):
Verben werden morphologisch beschrieben als ein Wort, das ein verbales Paradigma hat. Unter
verbalem Paradigma werden alle finiten Verbformen, d.h. Formen die hinsichtlich Tempus, Modus,
Person31 und Numerus markiert sind, verstanden, ebenso wie die Imperativformen sowie die infiniten
Formen Infinitiv, Gerundiv und Partizip (Maier-Meyer 1995).
Diese Kategorie hat nur eine Subklasse, die spezifiziert wird, wenn das Verb ein enklitisches
Pronomen enthält. Wenn dies nicht der Fall ist (für Eintragsbeispiele siehe unten), wird keine
Subkategorie eingegeben:
Abk.
Bedeutung
Pron
Mit enklitischem Pronomen
Tabelle 4.8: Die Subklasse der Verben
31
In der Passivform wird im Spanischen das Partizip auch genusabhängig konjugiert.
- 45 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Das im Spanischen reiche Konjugationssystem wird im Lexikon mit vielen Flektionseigenschaften
dargestellt. Weil das Deutsche über manche Konjugationen nicht verfügt, wird in diesem Falle die
spanische Nomenklatur bevorzugt:
Konjugation
Abk.
Zusätzliche Flektion
Presente de Indicativo
P
Person und Numerus
Imperfecto de Indicativo
I
Person und Numerus
Pretérito Indefinido (Perfecto Simple)
J
Person und Numerus
Futuro Simple de Indicativo
F
Person und Numerus
Condicional Simple
C
Person und Numerus
Imperativo
Y
Person und Numerus
Presente de Subjuntivo
S
Person und Numerus
Pretérito Imperfecto de Subjuntivo 1
T
Person und Numerus
Pretérito Imperfecto de Subjuntivo 2
Q
Person und Numerus
Futuro Simple de Subjuntivo
Z
Person und Numerus
Infinitivo
W
-
Gerundio
G
-
Participio
K
Genus und Numerus
Tabelle 4.9: Die morphologischen Eigenschaften der Verben
Die vielen anderen zusammengesetzten Verbformen wie Pretérito Perfecto Compuesto, Pretérito
Pluscuamperfecto, usw. werden ebenso wie die Passivformen jeweils mit den konjugierten
Auxiliarverben haber und ser und Partizip gebildet. Wie bei anderen automatisch erzeugten Lexika
gibt es für diese Fälle keine weiteren flektierenden Eigenschaften, da es sich um mehrere Wörter
handelt.
Eintragsbeispiele:
acercar,.V:W
acercarlo,acercar.V+Pron:W
acercárselo,acercar.V+Pron:W
dé,dar.V:S1s:S3s:Z3s:Y3s
desarticulada,desarticular.V:Kfs
desarticulado,desarticular.V:Kms
4.3.2 Das Lexikon der einfachen Formen
Das neu entwickelte Wörterbuch (mi_diccionario.bin) besteht aus einer Reihe von häufig gebrauchten
Worten und denen, die im Korpus auftreten. Die allgemeinen Worte stellen die Basis des Lexikons dar
und setzen sich aus dem Vertreten folgender Klassen und Subklassen zusammen:
- 46 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
-Numeralia, sowohl Adjektive als auch Substantive
-meistgebrauchte Adverbien
-Artikel
-alle Adjektivklassen bis auf Qualifikativ
-einfache Präpositionen
-Kontraktionen PREPPRON und die einfachen Formen von PREPDET
-alle Pronomina
Diese Basis wurde mit dem Inhalt des Korpus und mit Hilfe des von Unitex zur Verfügung gestellten
Lexikons manuell erweitert bis eine Anzahl von 8605 Einträgen.
4.3.3 Das Lexikon der komplexen Formen
Ein weiteres Lexikon (mi_diccionario_comp-.bin) beinhaltet die morphosyntaktischen Eigenschaften
der komplexen Formen des Korpus. Dies ist v.a. fürs Spanische relevant, da die komplexen Formen
hier im Gegensatz zum Deutsch meist getrennt bleiben. Hier sind also Komposita zu finden,
Redewendungen -präpositionale (respecto a) und adverbiale (al parecer) Wendungen- und auch
Wörter, die mit Interpunktionszeichen, meist Bindestrich, Hochkomma oder Punkt, verbunden sind,
wie es sehr oft der Fall ist bei Internetadressen (elmundo.es) oder Namen (M-40, Ruiz-Gallardón,
Escola d'Estiu).
Dieses Lexikon besteht aus dem Korpus entnommenen Wörtern und ist daher kleiner als das
Simplexlexikon (256 Einträge).
4.4 Normalisierung des Textes. Der Norm.grf-Graph.
Für die Analyse des Textes ist es notwendig, gewisse Kontraktionen zu trennen, und den Text
dadurch in eine Form zu bringen auf der die Regeln operieren können. Dieser Teil der
Korpusverarbeitung kommt bei der Konvertierung in den FST-Text als Zusatz zur Lexikoneintragung.
- 47 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.5: Der Normalisierungsgraph
Der Norm.grf-Graph in Abbildung 4.5 liefert zusätzlich zu Kontraktionen die Auflistung ihrer
Bestandteile. Wie später gezeigt wird, müssen Elag-Regeln geschrieben werden, um die
unerwünschten Kontraktionen zu entfernen.
Diese scheinbare Umständlichkeit ist jedoch in der Tat sogar praktisch und korrekt. Bei dem Fall
consigo steht man zum Beispiel vor einer wirklichen Ambiguität32 zwischen der 1. Person Singular des
Präsens Indikativ von conseguir und der Kontraktion von Präposition und Personalpronomen.
Es ist also nötig, wenn auch tatsächlich aufwendig, dass all die Möglichkeiten registriert werden.
Ein anderer Punkt ist die Großschreibung. Die letzte, rotmarkierte Alternative steht für eine
32
Bei anderen Fällen entsteht in Wirklichkeit keine Ambiguität, denn sie sind das Gleiche und die
getrennte Form wird bevorzugt (del, en cuanto al...).
- 48 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Kontraktion am Satzanfang. Wenn doch schön, ergibt sich diese Entscheidung als nicht weise, denn
es würden dann drei Ambiguitäten, die nicht komplett disambiguierbar sind, weil die Elag-Regeln nur
Grundformen akzeptieren und daher keine Differenzierung zwischen Klein- und Großschreibung
machen. Von Respecto al am Satzanfang würde also eine unnötige, richtig sinnlose Ambiguität
bleiben.
Abbildung 4.6: Künstlich erzeugte Ambiguität
4.5 Die Disambiguierungsregeln nach dem Elag-System.
Wir kommen nun zum zentralen Thema dieser Arbeit.
Es folgt eine Darstellung der Regeln gruppiert nach Wortarten bzw. Gruppen, auf die sie angewendet
werden. Der Einfachheit halber werden Regelteile, die anderen Regeln gemein sind, nicht aufs Neue
besprochen. Hierzu gehört beispielsweise die Erfassung von Hochkommata, denn reintheoretisch
können sie zwischen jedem Wortpaar vorkommen.
4.5.1 Pronomen:
4.5.1.1 Akkusativpronomina (pronombres_acus.grf):
Ziel:
Den Kontext der Akkusativpronomina bestimmen.
Ambiguitäten:
Diese Art von Pronomina hat einen relativ einfachen und bestimmbaren Kontext, denn sie treten nur
unmittelbar vor dem Verb auf.
me,.PRON+Acus:1s (auch Dativ- und Reflexivpronomen)
te,.PRON+Acus:2s (idem)
- 49 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
lo,.PRON+Acus:3s (lo,el.DET+Det:ms)
la,lo.PRON+Acus:3s (la,el.DET+Det:fs)
le,lo.PRON+Acus:3s (Dativpronomen)
nos,me.PRON+Acus:1p (auch Dativ-, Reziprok- und Reflexivpronomen)
os,te.PRON+Acus:2p (auch Dativ-, Reziprok- und Reflexivpronomen)
los,.PRON+Acus:3p (los,el.DET+Det:mp)
las,lo.PRON+Acus:3p (las,el.DET+Det:fp)
les,lo.PRON+Acus:3p (Dativpronomen)
Graph:
Abbildung 4.7: Der Graph der Akkusativpronomina
Erläuterung der Regel:
Ein Akkusativpronomen darf nur unmittelbar vor einem Verb in den angegebenen Konjugationsformen
vorkommen.
Disambiguierung:
Bei me, te, nos, os, wenn sie vor einem Akkusativpronomen kommen:
Me lo dijo ayer.
Bei lo, la, los, las, wenn es klar ist, dass es sich um eine Nominalphrase handelt.
- 50 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
La suegra se va de viaje.
Aber nicht:
Voy a hacer la compra33,
denn compra ist auch V.
4.5.1.2 Reflexivpronomina (pronombres_reflexivos.grf)
Ziel:
Alternative Reflexivpronomen verwerfen, wenn keine Reflexivität entsteht.
me,.PRON+ Refl :1s (auch Dativ- und Akkusativpronomen)
te,.PRON+ Refl :2s (idem)
se,.PRON+ Refl :3s (Dativpronomen)
nos,me.PRON+Refl:1p (auch Dativ-, Reziprok- und Akkusativpronomen)
os,te.PRON+Refl:2p (auch Dativ-, Reziprok- und Akkusativpronomen)
se,.PRON+ Refl :3p (Dativ- und Reziprokpronomen)
Graph:
33
Dieser Fall ist auch nicht auf dieser Ebene disambiguierbar. In einem Satz folgen diese unbetonten
Pronomina nicht einem Verb (wenn, dann enklitisch), aber doch wenn das Verb das letzte Wort eines
vorangestellten Nebensatz ist:
El jarrón que tanto te gustaba se ha caído.
- 51 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.8: Der Graph der Reflexivpronomina
Erläuterung der Regel:
Das Reflexivpronomen muss direkt vor einem Verb oder vor einem Akkusativ- oder Dativpronomen
und einem Verb stehen, wobei dann das Reflexivpronomen in Genus und Numerus mit dem Verb
übereinstimmen soll.
Disambiguierung:
Eine Disambiguierung ist in allen Fällen möglich mit Ausnahme der dritten Person Singular und Plural:
Se lo dijo.
Se lo lavaron.
Es ist nicht entscheidbar, ob jemand jemand anderem etwas sagt oder sich selbst.
4.5.1.3 Reziprokpronomina (pronombres_reciprocos.grf):
Ziel: Alternative Reziprokpronomen verwerfen, wenn es sich nicht um eine klare Reziprozität handelt.
Ambiguitäten:
nos,me.PRON+Rec:1p (auch Dativ-, Reflexiv- und Akkusativpronomen)
- 52 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
os,te.PRON+Rec:2p (auch Dativ-, Reflexiv- und Akkusativpronomen)
se,.PRON+ Rec:3p (Dativ- und Reflexivpronomen)
Graph:
Abbildung 4.9: Der Graph der Reziprokpronomina
Erläuterung der Regel:
Das Reziprokpronomen darf nur unmittelbar vor einem Verb stehen und muss hinsichtlich Person und
Numerus zu diesem kongruent sein. Auch bei transitiven Verben, die ein Reziprokpronomen fordern,
ist die Benutzung von Akkusativpronomina nicht möglich:
Se escribieron cartas.
Se las escribieron.*
Disambiguierung:
Die Dativ- und Akkusativfälle werden immer gelöst. Eine Besonderheit entsteht hier bei der 3. Person
Plural. Das Homonym se wird bei Dativpronomina nur dann benutzt, wenn ein Akkusativpronomen
folgt. Da dies bei Reziprokpronomina nicht erlaubt ist, ist auch hier eine Disambiguierung möglich.
- 53 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Mañana os llamo.
Anders verhält es sich bei einer Disambiguierung von Reziprok- und Reflexivpronomina. Sehr selten
lässt sich sicher entscheiden, ob es sich um Reflexivität oder Reziprozität handelt.
Se están escribiendo.
Man kann hier nicht genau wissen, ob sie sich selbst schreiben, oder sich gegenseitig.
Die Ambiguität wird in der Sprache mittels eines größeren Kontexts, Plausibilität oder weiterer
Angaben gelöst:
Se escriben muy a menudo porque tienen mucho que contarse.
Sie schreiben sich sehr oft, weil sie sich viel zu erzählen haben.
Carlos y su hermano se escriben cartas a sí mismos. (sich selbst)
Carlos y su hermano se escriben cartas entre ellos. (einander)
4.5.1.4 Allgemeine Pronomina (pronombres.grf):
Ziel: Bestimmte Pronomina von den Adjektiven unterscheiden.
Ambiguität:
Wie schon im Abschnitt zur Akzentsetzung (s. S. 22) erwähnt, sollen die tonischen Grossbuchstaben
auch akzentuiert werden. Da diese Arbeit sich auf dieser Annahme basiert, ist es hier nicht nötig die
Demonstrative am Satzanfang zu disambiguieren.
Bei den Possessiven entsteht Ambiguität mit den Adjektiven, wenn sie attributiv verwendet werden:
Nuestro/vuestro libro.
El coche mío consume mucha gasolina34
Die Exklamativ- und Interrogativadjektive (qué und cuánto) treten nur vor einem Nomen oder vor
einem pränominalen Adjektiv auf. Wie schon erwähnt kommt das Exklamativadverb vor einem
prädikativen Adjektiv oder vor einem anderen Adverb vor.
¿Qué película de este año te ha gustado más?
34
Diese Ambiguität wird erst mit der Regel pronombres_posesivos.grf (s. Abschnitt 4.5.1.8) gelöst.
- 54 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Zu Vergleichen:
¡Qué viejo coche!
¡Qué viejo estás!
Graph:
Abbildung 4.10: Der Graph bestimmter Pronomina
Erläuterung der Regel:
Sowohl Possessiv- als auch die angegebenen Interrogativ- und Exklamativpronomina dürfen nicht vor
anderen Worten vorkommen, als negierendem Adverb, Präpositionen, Konjunktionen, Pronomen oder
Verben.
Disambiguierung:
Die
Pronomen-Alternative
Exklamativadjektive,
wird
Adverbien
zurrecht
und
verworfen,
pränominale
wenn
es
sich
Possessivadjektive
postnominalen Possessivadjektive wird die Ambiguität nicht gelöst.
El coche mío consume mucha gasolina.
- 55 -
um
Interrogativ-
handelt.
Im
Fall
und
der
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.5.1.5 Por qué Pronomen oder Determinator (por_que.grf):
Ziel: Das Pronomen vom Determinator unterscheiden.
Ambiguität:
Wie schon bei der vorigen Regel erklärt, gehört qué zu verschiedenen Wortklassen. In
Zusammenhang mit der Präposition por fällt die Möglichkeit eines Adverbs weg, aber die Ambiguität
wird komplexer:
Abbildung 4.11: Die Ambiguität von por qué
Aus diesem scheinbaren Chaos ergeben sich in der Tat nur zwei Möglichkeiten:
No sé por qué no quieres ir al cine. (Pronomen)
No sé por qué razón no vienes. (Präposition mit Determinator)
Graph:
- 56 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.12: Der Graph für por qué
Erläuterung der Regel:
Wenn die oben gezeigte Ambiguität auftritt, nimm die Präposition gefolgt von dem Determinator, falls
danach ein Substantiv, eventuell ein Adjektiv dazwischen, vorkommt, und das Interrogativpronomen,
falls danach ein Adverb, ein Verb oder ein Determinator erscheint.
4.5.1.6 Pronomina als Subjekt (pronombres_nom.grf):
Ziel: Nominativpronomen entfernen, wenn es sich um einen anderen Kasus handelt.
Ambiguität:
Folgende Fälle der Nominativpronomina sind mit denen nach einer Präposition ambig:
usted,.PRON+Nom:3ms:3fs
él,.PRON+Nom:3ms
ella,él.PRON+Nom:3fs
ello,él.PRON+Nom:3ms
nosotras,yo.N+Nom:1fp
nosotros,yo.N+Nom:1mp
vosotras,tú.N+Nom:2fp
vosotros,tú.N+Nom:2mp
ustedes,usted.PRON+Nom:3mp:3fp
- 57 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
ellas,él.PRON+Nom:3fp
ellos,él.PRON+Nom:3mp
Anmerkungen:
Ello ist theoretisch Neutrum aber wird als Maskulin eingetragen (Siehe Seite 38). Bei usted und
ustedes kommt der besondere Fall vor, dass sie sich auf die 2. Person beziehen aber wie die 3.
konjugiert werden. Da eine Kongruenz nur mit dem Verb möglich ist, verzichtet man auf die
semantische Bedeutung (2. Person) und klassifiziert sie als 3. Person.
Graph:
Abbildung 4.13: Graph der Nominativpronomina
Erläuterung der Regel:
Vor einem Nominativpronomen dürfen alle angegebenen Wortarten (und Satzzeichen) vorkommen
Disambiguierung:
Im Falle vorangehender Präposition ist eine Disambiguierung zwischen Nominativpronomen und
Pronomen nach Präposition möglich, sonst nicht:
Nosotros vamos a Madrid.
Diese wird erst mit der nächsten Regel gelöst.
- 58 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.5.1.7 Pronomina nach einer Präposition (pronombres_prep.grf):
Ziel: Im Gegensatz zur vorherigen Regel, die Alternative Präpositionalpronomen verwerfen, wenn es
sich um ein Nominativpronomen handelt.
Ambiguität:
Zu den schon in der vorherigen Regel erwähnten Fällen tritt hier noch eine neue Ambiguität auf:
sí,.PRON+Prep:3s:3p (auch Adverb)
Graph:
Abbildung 4.14: Der Graph der präpositionalen Pronomina
Erläuterung der Regel:
Präpositionalpronomen dürfen nur unmittelbar nach einer Präposition vorkommen. Das einzige Wort,
das zur Modifizierung des Pronomens dazwischengesetzt werden kann, ist todos.
Disambiguierung:
Die Disambiguierung zwischen Nominativ- und Präpositionalpronomina ist jetzt vollständig. Die
zwischen Präpositionalpronomina und Adverb ist jetzt auch gelöst in den Fällen, wo es sich um ein
Adverb handelt. Mit dieser Regel kann aber nicht vermieden werden, dass eine Adverb-Alternative
- 59 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
auch vorkommt bei:
Pensó para sí que no quería saber nada del asunto.
4.5.1.8 Possessivpronomina (pronombres_pos.grf):
Ziel:
Die Regel der
allgemeinen Pronomen (Abschnitt
4.5.1.4.
auf Seite
54) bei
den
Possessivpronomina vervollständigen.
Ambiguität:
Die Ambiguität des Possessivadjektivs in pränominaler Stellung wurde mit der Regel „Allgemeine
Pronomina“ bereits gelöst, bleibt noch die postnominale.
La chaqueta mía es la roja.
Graph:
Abbildung 4.15: Der Graph der Possessivpronomina
Erläuterung der Regel:
Ein Possessivpronomen darf nur nach den Wortarten vorkommen, die in der obigen Liste stehen.
- 60 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Disambiguierung:
Da dem Possessivpronomen im Gegensatz zu Possessivadjektiven kein Substantiv vorangehen kann,
lässt sich die Ambiguität hier auflösen.
4.5.1.9 Unbetonte Pronomina (pronombres_de_verbo.grf):
Ziel: Den Kontext der unbetonten Pronomen weiter einschränken.
Ambiguität:
Vor den unbetonten Pronomina kann nicht jede Wortart vorkommen. Es wurde schon gezeigt in der
Regel zu Akkusativpronomina auf Seite 51, dass andere Verben nur als teil eines vorgestellten
Nebensatzes erscheinen. Da ein Relativsatz sehr lang sein kann, ist es auf dieser Ebene nicht
möglich, so einen großen Kontext zu umfassen. Möglich ist es aber bei anderen Wortarten wie
Präpositionen:
Como se dijo en principio.
A la espera de la celebración.
Nach der Anwendung von den vorherigen Regeln würde die Satzanalyse so aussehen:
Abbildung 4.16: Erstes Beispiel der bleibenden Ambiguität
- 61 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.17: Zweites Beispiel der bleibenden Ambiguität
Graph:
Abbildung 4.18: Der Graph der unbetonten Pronomina
Erläuterung der Regel:
Vor den unbetonten Pronomina dürfen nur die Wortarten vorkommen, die in der obigen Liste
verzeichnet sind.
Disambiguierung:
Im ersten Fall wird die Präposition richtig entfernt und im Zweiten wird sie nicht mit dem Pronomen
verbunden. Andere Regeln, die später gezeigt und erklärt werden, verbessern die Disambiguierung.
- 62 -
Cibrán Beiras Cunqueiro
4.5.1.10
4 Anwendung des Unitex im Spanischen
Indefinitpronomina (pronombres_indefinidos.grf):
Ziel: Indefinitpronomina von Indefinitadjektiven unterscheiden.
Ambiguität:
Den meisten Indefinitadjektiven entspricht ein Pronomen. Der Unterschied zwischen beiden ist, dass
die ersten ein Substantiv modifizieren während die zweiten allein stehen. In der Regel treten die
Pronomen und Substantive nicht gemeinsam auf, in Strukturen wie „V+Subjekt+Akkusativobjekt“ ist es
dennoch möglich:
De los dos casos presenta uno síntomas de agotamiento y otro problemas cardiovasculares.
Graph:
Abbildung 4.19: Der Graph der Indefinitpronomina
Erläuterung der Regel:
Der einzige Fall, wo ein Indefinitpronomen ein Substantiv vor anstehen kann, ist hinter einem Verb
oder einer Konjunktion.
Disambiguierung:
- 63 -
Cibrán Beiras Cunqueiro
Die
Disambiguierung
4 Anwendung des Unitex im Spanischen
ist
in
vielen
Fällen
nicht
möglich,
weil
auch
die
Struktur
„Verb+Indefinitadjektiv+Substantiv“ recht üblich ist:
Tengo muchas canas.
Dennoch erfolgt eine gewisse Beschränkung der Alternativen.
4.5.2 Nomen:
4.5.2.1 Akronyme und einfache Namen (sustantivo_no_propio.grf):
Ziel: Den Kontext der Nominalphrase bestmöglich einschränken.
Ambiguität:
Eine Ambiguität entsteht beim gemeinsamen Auftreten von Substantiven und Adjektiven, da letztere
sowohl prä- als auch postnominal auftreten können.
Abbildung 4.20: Ambiguitäten von Adjektiven und Substantiven
Seltener gibt es Probleme bei Verben:
- 64 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.21: Ambiguität von Substantiven und Verben
Graph:
Abbildung 4.22: Der Graph der Akronyme und Substantive
Erläuterung der Regel:
Appelative und Akronyme dürfen nur nach den Wortarten vorkommen, die in obenstehender Liste
verzeichnet sind.
Disambiguierung:
Da die Struktur einer Nominalphrase sehr kompliziert sein kann, ist es auf dieser Ebene nicht möglich,
den Kontext besser zu beschreiben. So eine Aufgabe kann erst beim Parsing erfüllt werden. Daher
- 65 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
werden nur Fälle gelöst, bei denen ein Substantiv nicht ambig ist:
Abbildung 4.23: Ambiguität von postnominalen Adjektiven
Hier wird públicas,público.N+Com:fp korrekt verworfen. In dem ersten oben genannten Fall (Abbildung
4.20) ist dies jedoch nicht möglich.
Im zweiten Fall (Abbildung 4.21) wird es auch richtig verworfen. Weiter ist eine Disambiguierung bei
Auftreten eines Modifikators nicht mehr möglich.
El comportamiento suyo es inaudito.
4.5.2.2 Eigennamen (nombres_propios.grf):
Ziel: Appelative von Eigennamen unterscheiden.
Ambiguität:
Bei der Einleitung in „Das neue Lexikon“ (Seite 35) wurde schon gezeigt, dass einfache Namen und
Eigennamen ambig sind. Da hier die Grundform der Eigennamen großgeschrieben wird, wird die
Ambiguität reduziert. Bei großgeschriebenen einfachen Namen (beispielsweise am Anfang des
Satzes) entsteht aber eine Ambiguität, die allerdings oft gelöst werden kann.
Esperanza Aguirre es la alcaldesa de Madrid.
Esperanza no le falta.
Graph:
- 66 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.24: Der Graph der Eigennamen
Erläuterung der Regel:
Wenn ein Wort, das Ambiguität zwischen Appelativen und Eigennamen zeigt, vor einem Eigennamen
steht, dann wird die zweite Alternative gewählt.
Disambiguierung:
Solange ein Eigenname unmittelbar folgt, lässt sich die Ambiguität lösen. Kleingeschriebene
Eigennamen (dann also Appelative) werden nicht fälschlicherweise verworfen, da der Graph sie nicht
berücksichtigt:
El rodríguez Paco no lleva nada bien lo de tener que limpiar la cocina.
Dagegen ist diese Regel nicht fähig, Ambiguitäten zu lösen, wenn direkt nachher kein Eigenname
kommt:
Esperanza no sabe lo que dice.
4.5.3 Verben:
- 67 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.5.3.1 Verben in Infinitiv (Verbos_infinitivos.grf):
Ziel: Ambiguitäten mit anderen Wortarten, hauptsächlich Substantiven, vermeiden.
Ambiguität:
Manche Verben in Infinitiv gehören gleichzeitig zu anderen Wortklassen, meistens zu den Nomen,
wenn sie substantiviert werden.
El andar es bueno.
Auch mit dem Substantiv ambig, weil sie Homonym sind, treten Verben wie die folgenden häufig auf:
poder,.N+Com:ms
poder,.V:W
ser,.N+Com:ms
ser,.V:W
Graph:
Abbildung 4.25: Der Graph der Verben im Infinitiv
Erläuterung der Regel:
Vor einem Infinitiv dürfen nur die Wortarten vorkommen, die in der Liste verzeichnet sind.
Disambiguierung:
- 68 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Die Fälle des vorliegenden Korpus sind erfolgreich disambiguiert worden:
...no supone un poder de acción...
...un poder limitado y controlable...
...le fue intervenida ayer en su poder...
...quien ve cómo su poder merma...
Dennoch muss zugegeben werden, dass diese Regel sehr konkret und damit schwach ist, denn bei
Auftreten eines bestimmten Artikels hätte sie nicht gegriffen.
4.5.3.2 Die restlichen Verben (Verbo.grf):
Ziel: Den Kontext der anderen Verbformen delimitieren.
Ambiguität:
Diese Regel ist mit den vorherigen eng verbunden. Die Ambiguität ist bei diesen Formen viel höher:
Abbildung 4.26: Ambiguität der restlichen Verbformen
Graph:
- 69 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.27: Graph der restlichen Verbformen
Erläuterung der Regel:
Die angegebenen Verbformen dürfen nur hinter den Wortarten oder Wortartenverbindungen35
auftreten, die in der Liste verzeichnet sind.
Disambiguierung:
In vielen Fällen ist die Disambiguierung erfolgreich, besonders dann wenn Substantive durch
Determinatoren klar zu erkennen sind, wie in Abbildung 4.27 gezeigt.
4.5.3.3 Partizipien (conjugaciones_compuestas2.grf):
Ziel: Die Partizipien von Adjektiven und Substantiven unterscheiden.
Ambiguität:
Die meisten Partizipien können adjektiviert werden, und diese wiederum substantiviert. Als Partizip
35
Siehe <N><DET+Dem>, das besagt, dass die Demonstrativdeterminatoren nur postnominal
vorkommen können.
- 70 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
kommen sie aber nur in bestimmten Stellen in Frage, nach gewissen Verben, nach Konjunktion und
oder Adverb bei einer Aufzählung:
Ya he comido.
He comido marisco y tomado buen vino.
Me he levantado y después duchado.
Graph:
Abbildung 4.28: Graph der zusammengesetzten Verbformen
Erläuterung der Regel:
Ein Partizip darf nur nach den Verben haber und ser, mit denen es eine Kombination eingeht36, oder
nach einer Konjunktion oder einem Adverb auftreten.
Disambiguierung:
36
Die Möglichkeiten sind:
-Zusammengesetzte Formen: haber+Partizip: he andado, hube cantado, había dormido...
-Passiv: ser+Partizip: fue cogido, fuimos encarceladas...
-Zusammengesetzte Formen des Passivs: haber+ser+Partizip: hemos sido capturados
- 71 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Bei den folgenden Fällen wird die Partizip-Alternative korrekt verworfen:
Juan está parado desde hace ocho meses. (Adjektiv)
Francisco es un parado. (Substantiv)
Im Vergleich zur korrekten Stelle des Partizips:
El coche se ha parado de repente. (Partizip)
Dagegen ist bei Fällen, wo es sich tatsächlich um ein Partizip handelt, eine Disambiguierung nicht
möglich37 und wird bei denen, wo es sich um ein Adjektiv oder Substantiv handelt, das nach einer der
für ein Partizip erlaubten Möglichkeiten vorkommt, nicht entfernt:
Hay parados por todas partes. (Substantiv)
El caballero, rendido y mutilado, alzó su espada. (Adjektiv)
Fernando es muy parado. (Adjektiv)
4.5.3.4 Imperativ (imperativo.grf):
Ziel: Den Kontexts des Imperativs von anderen Verbformen angrenzen.
Ambiguität:
Der Imperativ ist mit anderen Formen des Verbes fast immer zu verwechseln. Es gibt drei Fälle:
2.Person Singular des Imperativs mit der 3.Person Singular des Präsens Indikativ:
alberga,albergar.V:P3s:Y2s
Höfliche Form des Imperativs Singular mit der 1. und 3. Person Singular des Präsens Subjunktiv:
libre,librar.V:S1s:S3s:Y3s
Höfliche Form des Imperativs Plurals mit der 3. Person Plural des Präsens Subjunktiv:
coman,comer.V:S3p:Y3p
37
Bei „El coche se ha parado“ beispielsweise lässt sich „parado“ nicht disambiguieren.
- 72 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Graph:
Abbildung 4.29: Der Graph des Imperativs
Erläuterung der Regel:
Der Imperativ darf nur nach einem Interpunktionszeichen erscheinen.
Disambiguierung:
Keine Ambiguität bleibt ungelöst, wenn das Verb nicht am Satzanfang steht. Die Disambiguierung ist
aber nicht möglich, wenn ein Satz mit einer anderen Verbform beginnt:
Piensa que no va a ser posible ir al baile.
4.5.4 Regeln zu Kontraktionen und Komposita:
4.5.4.1 Kontraktionen
von
Präposition
(contracciones_prep_det.grf):
Ziel: Ambiguitäten von Präposition und Artikel lösen.
Ambiguität:
- 73 -
und
Artikel
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Die Normalisierung (s. S. 47) führt zur Ambiguität zwischen al und del einerseits und a, de + el
andererseits. Hier ein Beispiel:
Abbildung 4.30: Ambiguität der Kontraktion del
Diese Regel, so wie die der folgenden Abschnitte, hat nur als Ziel, gleichgültige Alternativen zu
vereinfachen. Im Fall der Kontraktionen wird die getrennte Form bevorzugt, da sie die ursprüngliche
Form ist. Del (de el) ist, mit de la, de los und de las zu vergleichen, ebenso conmigo (con mí) und
contigo (con tí) mit con ella, con nosotros oder mit a tí und a mí. Dagegen wird im Fall der Komposita
logischerweise die zusammengesetzte Form bevorzugt. Für weitere Erstellung von Regeln ist ja
wichtig, dass zum Beispiel a continuación als Adverb betrachtet wird und nicht als zwei semantisch
unabhängigen Wörter.
Graph:
Abbildung 4.31: Der Graph der PREPDET Kontraktion
- 74 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Erläuterung der Regel:
Bei Ambiguität zwischen Präposition gefolgt von einem Artikel, Kontraktion PREPDET und Al als
Eigenname vor den Wortarten der rechten Liste wähle die erste Alternative.
Disambiguierung:
Alle möglichen Fälle werden im untersuchten Text erfolgreich disambiguiert.
4.5.4.2 Kontraktion Al (contracciones_npr.grf):
Ziel: Die Kontraktion al im groß geschriebenen Fall vom arabischen Eigennamen Al unterscheiden.
Ambiguität:
Diese Regel ist mit der vorherigen eng verbunden, denn sie bildet die Ausnahme der zweiten.
Neben dem Vorkommen von Al in arabischen Namen:
Al Yazira, Muafaq Al Rubaie, Al Mahmudiya...
bildet es auch eine recht häufig vorkommende Kontraktion aus der Präposition a und dem Artikel el:
Al verlo venir se marchó corriendo.
Graph:
- 75 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.32: Der Graph des Eigennamens Al
Erläuterung der Regel:
Wenn die Ambiguität zwischen diesen drei Fällen38 vor einem Eigennamen vorkommt, klassifiziere Al
als Eigenname.
Disambiguierung:
Der untersuchte Text wird erfolgreich disambiguiert. Zu beachten ist allerdings folgendes:
Umgangssprachlich kann auch Al als Kontraktion vor spanischen Namen vorkommen:
Al Alberto lo veo muy triste.
Dieses Al entspricht dem bayrischen Usus des bestimmten Artikels vor Eigennamen und sollte daher
getrennt werden in Präposition a und Artikel el.
Daher sollte Al als Eigenname zusammen mit den anderen Namen ins Lexikon eingetragen werden.
38
Wie im Abschnitt 4.4. schon gezeigt, konvertiert der Norm.grf-Graph den Eintrag nicht, sondern
erzeugt einen zusätzlichen Eintrag. In diesem Fall handelt es sich um <a.PREP> <el,el.DET>.
- 76 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.5.4.3 Kontraktionen
Präposition
und
(contracciones_prep_pron.grf):
Ziel: Analog zu 4.5.4.1.
Ambiguität:
Abbildung 4.33: Ambituität der Kontraktion conmigo
Graph:
Abbildung 4.34: Der Graph der Kontraktionen conmigo und contigo
Erläuterung der Regel:
Wähle immer die Alternative der Getrenntschreibung von Präposition und Pronomen.
Disambiguierung:
- 77 -
Pronomen
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Alle Ambiguitäten werden gelöst.
4.5.4.4 Komposita und mehrwortige Einheiten:
Ziel: Hier geht es im Gegensatz zu den vorangegangenen Abschnitten darum, Komposita und
Zusammensetzungen von Worten, die eine neue semantische und syntaktische Bedeutung haben, zu
bevorzugen.
Ambiguität:
Obwohl das Kompositalexikon dem Lexikon der einfachen Formen gegenüber Vorrang hat, kommen
beide Formen im FST-Lexikon vor, wenn auch die einzelnen Wörter eingetragen sind39.
Diese Ambiguität lässt sich dort einfach lösen, wo sie zweifellos als eine einzige Einheit zusammen
gehören (desde luego, después de, por lo tanto...). Bei anderen Komposita oder Zusammensetzungen
ist sie aber komplizierter zu klären:
Entre tanto puedes ir pelando las patatas. (Adverb)
Es imposible encontrar algo entre tanto desorden. (Präp+Det)
Graph:
39
Das Adverb a continuación kommt neben den getrennten Worten a (Präposition) und continuación
(Substantiv) im FST-Text vor, denn es gibt diese einzelnen Einträge im Lexikon der Simplexformen.
Dagegen kommt der baskische Name Alai Etxe nur als komplexe Einheit vor, da Alai und Etxe nicht
einzeln eingetragen sind.
- 78 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.35: Graph konkreter Komposita
Erläuterung der Regel:
Hier steht eine Abkürzung der normalen Elag-Regel. So eine Regel ist eine einfache und schnellere
Art und Weise zu beschreiben, was untersagt ist bzw. verworfen werden soll.
Die Verbindungen dieser genauen Wörter sollen entfernt werden.
Disambiguierung:
Die Disambiguierung wird bei allen genannten Fällen durchgeführt. Dies trifft aber bloß die Komposita
und Zusammensetzungen von Wörtern, die zweifellos zusammengehören. Für die Fälle der zweiten
Gruppe, also wenn sie getrennt auch Sinn machen, müssen einzelne Regel geschrieben werden.
4.5.5 Regel zu bestimmten Wörtern:
In dieser Gruppe bilden verschiedene Regeln oft eine Einheit. Bei diesen Fällen wird, um
Wiederholungen zu vermeiden, die erste Regel ausführlich erklärt und bei den anderen nur der Graph
gezeigt. Aus dem gleichen Grund wird auf die Erläuterung des Graphen auch verzichtet.
- 79 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.5.5.1 Allgemeine Fälle im Singular (casos_generales3.grf):
Ziel: Den Kontext bestimmter Substantive, die auch einer anderen Wortklasse angehören und deren
übliche Bedeutung eher die Letzte ist, begrenzen.
Ambiguität:
Manche Wörter, die recht oft in einem Text zu finden sind, sind gleichzeitig Substantive (und werden
in dieser Klasse sehr selten benutzt) und andere Wortarten wie Konjunktionen (y, e, o, u, pero, si),
Präpositionen (a), Adverbien (no, sí) und Verben (ser, son).
Graph:
Abbildung 4.36: Graph von bestimmten Wörtern im Singular
Erläuterung der Regel:
Diese bestimmten Wörter können nur Substantive sein, wenn direkt davor ein Determinator steht und
eventuell dazwischen ein Adjektiv.
Disambiguierung:
Die Disambiguierung erfolgt ohne Probleme.
- 80 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.5.5.2 Allgemeine Fälle im Plural (casos_generales_plural.grf):
Ziel: Das gleiche im Plural.
Ambiguität:
Der Plural vom Substantiv e (es) und die dritte Person Singular des Präsens vom Verb „sein“ (ser)
sind Homonyme. Wegen des häufigen Auftretens dieser Verbform, ist es besonders nützlich, dieses
Wort zu disambiguieren.
Graph:
Abbildung 4.37: Graph des Plurals von e
4.5.5.3 Pronominaler Gebrauch von que (que_pron2.grf):
Ziel: Den pronominalen Gebrauch von que beschreiben.
Ambiguität:
Das sehr oft vorkommende Wort que hat zwei Verwendungen, und gehört daher zu zwei
verschiedenen Wortklassen:
Te dije que te lavaras las manos. (Konjunktion)
La persona que dices no es tan alta. (Relativpronomen)
- 81 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Graph:
Abbildung 4.38: Graph von que als Pronomen
Erläuterung der Regel:
Als Relativpronomen darf que nur vor einem Komma, einem Substantiv, einem Artikel, einer
Konjunktion oder einem Pronomen und dazwischen eine Präposition außer para vorkommen.
Disambiguierung:
Viele Ambiguitäten werden erfolgreich gelöst, aber es ist kompliziert, da Relativpronomen sich auf
Wörter beziehen können, die sehr weit vorne im Satz stecken.
Z. B.: El protocolo de Kioto plantea límites significativos al crecimiento económico de Rusia que
no son aceptables.
4.5.5.4 Konjunktionaler Gebrauch von que (que_conj2.grf):
Graph:
- 82 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.39: Graph von que als Konjunktion
4.5.5.5 Präposition pese a (pese_a.grf):
Ziel: Die Präposition pese a von der Konjunktion und von dem Verb plus Präposition unterscheiden.
Ambiguität:
Diese ist eine sehr konkrete Ambiguität, die aber wie viele Andere gemacht worden muss. Die
folgenden Beispiele erläutern den Gebrauch von „pese a“:
Tienes suerte de que te aguanten pese a tu malgenio. (Präposition)
Pese a no haber dormido bien se encontraba fuerte. (Konjunktion)
Espero que le pese a Pepe lo que ha hecho. (Verb plus Präposition)
Graph:
- 83 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.40: Der Graph von pese a als Präposition
Erläuterung der Regel:
Als Präposition darf pese a nur vor einer Nominalphrase erscheinen.
Disambiguierung:
Pese a als Präposition wird erfolgreich entfernt, wenn sie nicht vor einer Nominalphrase steht.
4.5.5.6 Verb und Präposition pese a (pese_a2.grf):
Graph:
- 84 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.41: Graph von pese a als Verb und Präposition
4.5.5.7 Konjunktion pese a (pese_a3.grf):
Graph:
Abbildung 4.42: Graph von pese a als Konjunktion
- 85 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
4.5.5.8 Präposition entre (entre.grf):
Ziel: Die Präposition von dem Verb unterscheiden.
Ambiguität:
Es entsteht Ambiguität zwischen der wesentlich öfters vorkommenden Präposition und dem Präsens
des Konjunktivs (Presente de Subjuntivo, s. Abschnitt 4.3.1.12.) des Verbs entrar:
Dile que entre en la habitación. (Verb)
Vivo entre Madrid y París. (Präposition)
Graph:
Abbildung 4.43: Graph vom Verb entrar
Erläuterung der Regel:
Nach dem Verb entrar darf nur ein Interpunktionszeichen oder eine Präposition vorkommen.
Disambiguierung:
Die häufig vorkommende Ambiguität wird erfolgreich gelöst.
4.5.5.9 Para Präposition und Verb I (para_verbo.grf):
Ziel: Den Kontext der Verben parar und parir einschränken.
- 86 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Ambiguität:
Wichtig sind hier die Formen der Verben parar und parir, die mit der Präposition para ambig sind. Da
beide Verben transitiv benutzt werden können und dies im Spanischen in Form einer Nominalphrase
vorkommt, ist die Auflösung dieser Ambiguität eine schwierige Aufgabe:
El policía para el coche. (Verb)
Esta gasolina no es buena para el coche. (Präposition)
Graph:
Abbildung 4.44: Graph des nachgestellten Kontexts der Verben parar und parir
Erläuterung der Regel:
Hinter den angegebenen Formen der Verben parar und parir dürfen kein Verb, keine Konjunktion que
und keine der angegebenen Pronomen vorkommen.
Disambiguierung:
Wegen der erwähnten Schwierigkeit ist es unmöglich, alle Fälle zu disambiguieren. Eine zweite Regel
beschränkt den vorstehenden Kontext (nächste Regel), aber ohne Parsing kann man manche
Ambiguitäten nicht lösen. Der zweite Satz ist ein Beispiel dieser Fälle.
- 87 -
Cibrán Beiras Cunqueiro
4.5.5.10
4 Anwendung des Unitex im Spanischen
Para Präposition und Verb II (para_verbo2.grf):
Graph:
Abbildung 4.45: Graph des vorangestellten Kontexts der Verben parar und parir
4.5.5.11
Das Substantiv contra (contra.grf):
Ziel: Den Kontext beschreiben, bei dem das Substantiv erlaubt ist.
Ambiguität:
Contra wird normalerweise als Präposition gebraucht. Als Substantiv ist die Verwendung relativ
eingeschränkt:
Eso tiene un pro y un contra. (Substantiv)
El testigo habló en su contra. (Substantiv)
La Contra Nicaragüense. (Komposita, Eigenname)
Yo estoy en contra. (Substantiv, verbale Wendung)
Has actuado en contra de lo acordado. (Präposition: en contra de)
El ciclista se estrelló contra el muro. (Präposition)
Graph:
- 88 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.46: Der Graph von contra
Erläuterung der Regel:
Der Singular des Substantivs contra darf nur nach der Präposition en und/oder einem
Possessivadjektiv oder Artikel vorkommen.
Disambiguierung:
Die Disambiguierung erfolgt ohne Probleme.
4.5.5.12
Die Verben crear und comer (crear.grf):
Ziel: Die Verwendung als Verb einschränken.
Ambiguität:
Das Verb crear konjugiert verschiedene Formen gleich wie das Verb creer (creo, cree, creen,
creemos, creen...).
Die erste Person Singular des Indikativ Präsens ist seinerseits mit dem Adverb, der Konjunktion und
der Präposition como ambig.
Graph:
- 89 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.47: Negierender Graph der Verben crear und comer
Erläuterung der Regel:
Die Verben comer und crear dürfen nicht vor einem anderen Verb oder der Konjunktion que
vorkommen.
Disambiguierung:
Gewisse Ambiguitäten kann man bei crear nicht vermeiden. Creen la historia kann „Sie glauben die
Geschichte“ oder „Gestalten Sie eine Geschichte“ heißen.
Bei como ist der Gebrauch als Verb zwar beschränkt, die anderen Ambiguitäten sind aber sehr
schwer zu lösen.
4.5.5.13
Das Adverb tanto (tanto.grf):
Ziel: Den Kontext vom Adverb beschreiben.
Ambiguität:
Das Adverb ist besonders mit dem Indefinitadjektiv ambig:
Nunca el ratón de Disney dio tanto miedo. (Adjektiv)
No es posible que me esté costando tanto. (Adverb)
- 90 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Graph:
Abbildung 4.48: Graph des Adverbs tanto
Erläuterung der Regel:
Das Adverb tanto darf nicht vor einem Substantiv stehen.
Disambiguierung:
Die Ambiguität mit dem Adjektiv wird erfolgreich gelöst.
4.5.5.14
Das Adverb incluso (incluso_adv.grf):
Ziel: Entscheiden, wann das Adverb ausgewählt werden muss.
Ambiguität:
Da der Gebrauch von incluso als Adjektiv in der Praxis mit der Ersetzung durch das Partizip (incluido)
verloren geht, entsteht die Ambiguität hauptsächlich zwischen dem Adverb und der Präposition.
Graph:
- 91 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.49: Der Graph des Adverbs incluso
Erläuterung der Regel:
Wenn incluso vor einer der Wortarten, die in der Liste stehen, vorkommt, wähle die Alternative
Adverb.
4.5.5.15
Die Präposition incluso (incluso_prep.grf):
Graph:
- 92 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.50: Graph der Präposition incluso
4.5.5.16
Interjektionen I (intj_y.grf):
Ziel: Den Kontext der Interjektionen determinieren.
Ambiguität:
Es besteht Ambiguität mit verschiedenen Wortarten:
¡Salud!, dijo el profesor cuando estornudó el alumno. (Interjektion)
Su salud no es buena. (Substantiv)
¡Largo!, te he dicho. (Interjektion)
Nos espera un largo camino. (Adjektiv)
¡Claro! (Interjektion)
En un día claro como este naciste tú. (Adjektiv)
Graph:
- 93 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.51: Graph des nachgestellten Kontexts der Interjektionen
Erläuterung der Regel:
Interjektionen dürfen nur vor einem orthographischen Zeichen vorkommen.
Disambiguierung:
Die Disambiguierung wird in Zusammenarbeit mit der nächsten Regel in allen Fällen gelöst.
4.5.5.17
Interjektionen II (intj2.grf):
Graph:
- 94 -
Cibrán Beiras Cunqueiro
4 Anwendung des Unitex im Spanischen
Abbildung 4.52: Graph des vorgestellten Kontexts der Interjektionen
4.6 Schlussfolgerung
Zum Schluss muss noch mal erwähnt werden, was im Laufe der Arbeit geäußert worden ist. Obwohl
keine genauen Daten gegeben werden können und ein zufrieden stellender Erfolg erreicht worden ist,
ist eine anspruchsvollere Disambiguität möglich. Diese ist aber nur als Aufgabe eines größeren
Projekts möglich, in dem ein größeres Korpus, eine umfangreichere und durchaus studierte
Grammatik (Wortklassifikation und Satzbau) und höhere Anzahl von Arbeitskraft zur Verfügung
gestellt werden.
Im Allgemeinen erweist sich diese Methode trotzdem als gut und praktisch, und auch als schöner und
interessanter für Sprachwissenschaftler im Gegensatz zum statistischen Verfahren. Dennoch bleiben
Ambiguitäten ungelöst, die erst mit Hilfe von der statistischen Methode oder dem Syntax-Parsing
disambiguiert werden können.
- 95 -
Literaturverzeichnis
Alarcos Llorach, E (1978): Estudios de gramática funcional del español, Madrid, Gredos.
Alarcos Llorach, E. (1994): Gramática de la lengua española, Madrid, Espasa Calpe.
Blanc, O. (2004): Elag documentation, http://www-igm.univ-mlv.fr/~unitex/.
Blanc, O. und Dister, A. (2004): Automates lexicaux avec structure de traits, Actes du colloque Recital
2004, Fès, Maroc (19-22 avril 2004), S. 23-32.
Bruyne, J. de (2002): Spanische Grammatik, Tübingen, Max Niemeyer Verlag.
Dister, A. (2000): Réflexions sur l'homographie et la désambiguïsation des formes les plus fréquentes,
Actes des JADT 2000, Journées d'Analyse des Données Textuelles, Lausanne, S. 131-138.
Halteren, H. Van et al.(1999): Syntactic Wordclass Tagging, Dordrecht, Cluwer Academic Publishers.
Hernández Alonso, C. (1986): Gramática funcional del español, Madrid, Gredos.
Jurafsky, Daniel and Martin, James H. Speech and Language Processing: An Introduction to Natural
Language Processing, Computational Linguistics, and Speech Recognition.
Laporte, E. und Monceaux, A. (1998): Elimination of lexical ambiguities by grammars. The Elag
system. Lingvisticae Investigationes XXII, S. 341-367, Amsterdam-Philadelphie, Benjamins.
Laporte, E. (2001): Reduction of lexical ambiguities, Lingvisticae Investigationes XXIV:1, S. 67-103,
Amsterdam-Philadelphie, Benjamins.
Lázaro Carreter, F. (1980): Estudios de lingüística, Barcelona, Crítica.
Lenz, R. (1925): La oración y sus partes, Madrid, Centro de Estudios Históricos.
Maier-Meyer, P. (1995): Lexikon und automatische Lemmatisierung, München, CIS-LMU.
Marcos Marín, F., Satorre Grau, F.J., Viejo Sánchez, M.L. (2002): Gramática Española, Madrid,
Editorial Síntesis.
Paumier, S. (2002 und 2004): Unitex. Manuel d’utilisation, http://www-igm.univ-mlv.fr/~unitex/.
Onieva Morales, J.L. (1993): La Gramática de la Real Academia Española (resumida y aclarada),
Madrid, Editorial Playor.
Real Academia Española (1931): Gramática de la lengua española, Madrid, Espasa Calpe.
Real Academia Española (1973): Esbozo de una nueva gramática española, Madrid, Espasa Calpe.
Vera-Morales, J. (1997): Spanische Grammatik, München, Oldenbourg Verlag.
Webseiten
http://www-igm.univ-mlv.fr/~unitex/
http://www.elmundo.es
http://www.cogsci.uni-osnabrueck.de/~haase/bask-allg.html
http://www.caib.es/conselleries/educacio/dgpoling/user/catalaeuropa/alemany/aleman2.pdf
http://www.minority2000.net/Gr-75/t63de.htm
http://de.wikipedia.org/wiki/Sephardische_Sprache
http://de.wikipedia.org/wiki/Spanische_Sprache
- 96 -
Anhang I: CD
Daten auf der CD:
ƒ Korpus (noticias_todas2.txt)
ƒ Lexikon der einfachen Formen (mi_diccionario.txt)
ƒ Kompiliertes Lexikon der einfachen Formen (mi_diccionario.bin)
ƒ Lexikon der komplexen Formen (mi_diccionario_comp-.txt)
ƒ Kompiliertes Lexikon der komplexen Formen (mi_diccionario_comp-.bin)
ƒ File der Wortklassen (french.lang)
ƒ Satzsegmentierungsgraph (Sentence.grf)
ƒ Normalisierungssgraph (Norm.grf)
ƒ Graphen zur Disambiguierung (alle restliche Dateien)
- 97 -