Lösung von lexikalischen Ambiguitäten in der spanischen Sprache
Transcription
Lösung von lexikalischen Ambiguitäten in der spanischen Sprache
Lösung von lexikalischen Ambiguitäten in der spanischen Sprache mittels des Formalismus Elag Abschlussarbeit für das Aufbaustudium Computerlinguistik an der Ludwig-Maximilian-Universität München vorgelegt von Cibrán Beiras Cunqueiro München, März 2005 Inhaltsverzeichnis 0 Einleitung .......................................................................................................................................... 1 Syntactic Wordclass Tagging............................................................................................................. 1 Disambiguierung ................................................................................................................................ 2 1 Unitex ................................................................................................................................................ 4 1.1 Präsentation ............................................................................................................................... 4 1.2 Textvorverarbeitung.................................................................................................................... 4 1.2.1 Die Satzdelimitierung .......................................................................................................... 4 1.2.2 Die Ersetzung ..................................................................................................................... 5 1.2.3 Tokenisierung und Tagging ................................................................................................ 6 1.3 Die Lexika ................................................................................................................................... 6 1.4 Suche nach regulären Ausdrücken ............................................................................................ 7 1.5 Lokale Grammatiken .................................................................................................................. 8 1.6 Der Textautomat......................................................................................................................... 8 2 Elag .................................................................................................................................................... 9 2.1 Der Formalismus ........................................................................................................................ 9 2.2 Allgemeines Format.................................................................................................................. 10 Spezialsymbole ............................................................................................................................ 10 2.3 Anwendung von Grammatiken ................................................................................................. 10 2.3.1 Grammatikenkompilierung................................................................................................ 11 2.3.2 Disambiguierung des Textautomaten ............................................................................... 11 3 Die spanische Sprache.................................................................................................................. 12 3.1 Spanisch, Kastilisch oder Kastilianisch? .................................................................................. 12 3.2 Varianten des Spanischen........................................................................................................ 14 3.2.1 Chabacano........................................................................................................................ 14 3.2.2 Palenquero........................................................................................................................ 14 3.2.3 Portugnol........................................................................................................................... 14 3.2.4 Judenspanisch .................................................................................................................. 14 3.2.5 Spanisch in Mittel- und Südamerika ................................................................................. 15 3.2.6 Spanisch in den USA........................................................................................................ 16 3.2.7 Spanglish .......................................................................................................................... 16 3.3 Grammatik ................................................................................................................................ 17 3.3.1 Orthographie ..................................................................................................................... 17 3.3.1.1 Das Graphem System............................................................................................. 17 3.3.1.2 Groß- und Kleinschreibung im Spanischen ............................................................ 19 3.3.1.3 Interpunktion ........................................................................................................... 20 3.3.1.4 Die Silbentrennung ................................................................................................. 22 V 3.3.1.5 Die Betonung und die Akzentsetzung..................................................................... 22 3.3.2 Morphosyntax ................................................................................................................... 24 3.3.2.1 Die spanischen Wortklassen................................................................................... 24 3.3.2.2 Die Wortstellung...................................................................................................... 26 4 Anwendung des Unitex im Spanischen ....................................................................................... 28 4.1 Das Korpus ............................................................................................................................... 28 4.2 Der Vorverarbeitungsgraph. Die Satzdelimitierung.................................................................. 29 Fälle, die einen Satz beenden...................................................................................................... 30 Fälle, die ein Satzende ausschließen .......................................................................................... 30 4.2.1 Fälle, die immer einen Satz beenden ............................................................................... 31 4.2.2 Fälle, die nie einen Satz anfangen ................................................................................... 33 4.2.3 Fälle, die in der Satzmitte oder am Anfang auftreten können .......................................... 33 4.3 Das elektronische Wörterbuch ................................................................................................. 34 4.3.1 Die neue Kategorisierung des Lexikons. Die POS-Label................................................. 36 4.3.1.1 Adjektive (A):........................................................................................................... 36 4.3.1.2 Adverbien (ADV): .................................................................................................... 38 4.3.1.3 Konjunktionen (CONJ): ........................................................................................... 39 4.3.1.4 Artikel (DET):........................................................................................................... 40 4.3.1.5 Interjektionen (INTJ): .............................................................................................. 40 4.3.1.6 Substantive (N): ...................................................................................................... 40 4.3.1.7 Präfixe (PFX):.......................................................................................................... 41 4.3.1.8 Präpositionen (PREP):............................................................................................ 41 4.3.1.9 Kontraktionen von Präposition und Artikel (PREPDET): ........................................ 41 4.3.1.10 Kontraktionen Präposition und Pronomen (PREPPRON): ..................................... 42 4.3.1.11 Pronomina (PRON):................................................................................................ 42 4.3.1.12 Verben (V):.............................................................................................................. 45 4.3.2 Das Lexikon der einfachen Formen.................................................................................. 46 4.3.3 Das Lexikon der komplexen Formen ................................................................................ 47 4.4 Normalisierung des Textes. Der Norm.grf-Graph..................................................................... 47 4.5 Die Disambiguierungsregeln nach dem Elag-System.............................................................. 49 4.5.1 Pronomen: ........................................................................................................................ 49 4.5.1.1 Akkusativpronomina (pronombres_acus.grf): ......................................................... 49 4.5.1.2 Reflexivpronomina (pronombres_reflexivos.grf) ..................................................... 51 4.5.1.3 Reziprokpronomina (pronombres_reciprocos.grf): ................................................. 52 4.5.1.4 Allgemeine Pronomina (pronombres.grf):............................................................... 54 4.5.1.5 Por qué Pronomen oder Determinator (por_que.grf):............................................. 56 4.5.1.6 Pronomina als Subjekt (pronombres_nom.grf): ...................................................... 57 4.5.1.7 Pronomina nach einer Präposition (pronombres_prep.grf): ................................... 59 4.5.1.8 Possessivpronomina (pronombres_pos.grf): .......................................................... 60 4.5.1.9 Unbetonte Pronomina (pronombres_de_verbo.grf):............................................... 61 VI 4.5.1.10 Indefinitpronomina (pronombres_indefinidos.grf): .................................................. 63 4.5.2 Nomen: ............................................................................................................................. 64 4.5.2.1 Akronyme und einfache Namen (sustantivo_no_propio.grf): ................................. 64 4.5.2.2 Eigennamen (nombres_propios.grf): ...................................................................... 66 4.5.3 Verben: ............................................................................................................................. 67 4.5.3.1 Verben in Infinitiv (Verbos_infinitivos.grf): .............................................................. 68 4.5.3.2 Die restlichen Verben (Verbo.grf): .......................................................................... 69 4.5.3.3 Partizipien (conjugaciones_compuestas2.grf): ....................................................... 70 4.5.3.4 Imperativ (imperativo.grf): ....................................................................................... 72 4.5.4 Regeln zu Kontraktionen und Komposita: ........................................................................ 73 4.5.4.1 Kontraktionen von Präposition und Artikel (contracciones_prep_det.grf): ............. 73 4.5.4.2 Kontraktion Al (contracciones_npr.grf): .................................................................. 75 4.5.4.3 Kontraktionen Präposition und Pronomen (contracciones_prep_pron.grf): ........... 77 4.5.4.4 Komposita und mehrwortige Einheiten: .................................................................. 78 4.5.5 Regel zu bestimmten Wörtern: ......................................................................................... 79 4.5.5.1 Allgemeine Fälle im Singular (casos_generales3.grf): ........................................... 80 4.5.5.2 Allgemeine Fälle im Plural (casos_generales_plural.grf): ...................................... 81 4.5.5.3 Pronominaler Gebrauch von que (que_pron2.grf):................................................. 81 4.5.5.4 Konjunktionaler Gebrauch von que (que_conj2.grf): .............................................. 82 4.5.5.5 Präposition pese a (pese_a.grf):............................................................................. 83 4.5.5.6 Verb und Präposition pese a (pese_a2.grf): ........................................................... 84 4.5.5.7 Konjunktion pese a (pese_a3.grf):.......................................................................... 85 4.5.5.8 Präposition entre (entre.grf): ................................................................................... 86 4.5.5.9 Para Präposition und Verb I (para_verbo.grf):........................................................ 86 4.5.5.10 Para Präposition und Verb II (para_verbo2.grf):..................................................... 88 4.5.5.11 Das Substantiv contra (contra.grf): ......................................................................... 88 4.5.5.12 Die Verben crear und comer (crear.grf):................................................................. 89 4.5.5.13 Das Adverb tanto (tanto.grf):................................................................................... 90 4.5.5.14 Das Adverb incluso (incluso_adv.grf): .................................................................... 91 4.5.5.15 Die Präposition incluso (incluso_prep.grf): ............................................................. 92 4.5.5.16 Interjektionen I (intj_y.grf): ...................................................................................... 93 4.5.5.17 Interjektionen II (intj2.grf): ....................................................................................... 94 4.6 Schlussfolgerung ...................................................................................................................... 95 Literaturverzeichnis ............................................................................................................................ 96 Webseiten............................................................................................................................................. 96 Anhang I: CD........................................................................................................................................ 97 VII Cibrán Beiras Cunqueiro 0 Einleitung 0 Einleitung Ein wichtiger Bereich der Computerlinguistik ist die Annotation von Textsammlungen (annotierte Korpora). Diese sind sowohl für die Forschung als auch für Natural Language Processing (NLP, Verarbeitung Natürlicher Sprachen) interessant. Der Versuch, diese Aufgabe automatisch zu erfüllen, erweist sich leider als nicht gerade leicht. An der Spitze dieser Versuche steht das Syntacting Wordclass Tagging, die Zuschreibung von morphosyntaktischen Eigenschaften zu Wörtern eines Korpus (Halteren, 1999). Syntactic Wordclass Tagging Morphosyntaktische Informationen werden einem Wort mittels eines Tags zugeschrieben. Aus den Bereichen der Sprachwissenschaft, die traditionell für die Klassifikation von Worten ausgewählt worden sind - Phonologie, Morphologie, Syntax, Semantik und Pragmatik-, spielen die Morphologie und vor allem der Syntax die wichtigste Rolle. Die Tags werden daher oft Part-of-Speech-Tags (kurz POS) genannt. Die Klassifikation von Wörtern, die eine lange Geschichte aufweist1, ist nicht mal in der gleichen Sprache einheitlich. Jeder Tagger unterscheidet verschiedene Wortklassen. Diese Wortklassen werden normalerweise in weitere Unterkategorien geteilt, um eine feinere Klassifizierung der Wörter zu erreichen. Je feiner diese Klassifizierung gemacht wird, desto mehr Tags werden dem Wort zugeschrieben. Unterscheidet ein Tagger nur Wortklassen (N, A, PRON...), vergibt z. B. dem Verb spielen das Tag V. Eine Unterscheidung weiterer Kategorien (Modus, Tempus, Person, Numerus...) führt bei den meisten Worten zu einer Zuweisung mehrerer Tags (spielen = Infinitiv, 1. Person Plural des Präsens, 3. Person Plural des Präsens). Dieses Phänomen ist in der Sprachwissenschaft als Ambiguität bekannt. Der letzte Schritt eines Taggers ist, diese Ambiguität so weit wie möglich aufzulösen. Diese Phase, die Disambiguierung genannt wird, bildet den Schwerpunkt dieser Arbeit. 1 Siehe Atro Voutilainen, in Halteren 1999. -1- Cibrán Beiras Cunqueiro 0 Einleitung Die typischen Module eines Taggers sind die Folgenden2: Tokenizer: Segmentierung von Texten in Wörter und Satzzeichen. Morphologischer Analysator (Erzeugung von Ambiguitäten) • Lexikalischer Analysator • Analysator von unbekannten Wörtern („guesser“) Morphologischer Disambiguierer (Auflösung von Ambiguitäten) • Grammatik • Heuristische Grammatik(en) Disambiguierung Für die Auflösung von Ambiguitäten sind zwei unterschiedliche Methoden bekannt: der datengetriebene statistische Ansatz und der linguistische. Hybride Verfahren integrieren beide Ansätze. Bei der datengetriebenen Methode werden die Ambiguitäten im Wesentlichen durch statistische Ermittlung von Kookurrenzen von Wörtern in großen Korpora aufgelöst. Diese Trainings-Korpora werden in der Regel manuell von Sprachwissenschaftler getaggt. Hierbei kommen verschiedene statistische Verfahren zum Einsatz wie Kollokationsmatrizen, Markovs Modellen, lokale Regeln oder neuronale Netzen (Voutilainen in Halteren 1999). Im Gegensatz dazu werden die Ambiguitäten bei der linguistischen Methode durch Expertenregeln aufgelöst. Zwei Unterschiede werden gemacht in der Art und Weise, wie die Regeln geschrieben werden, nämlich negativ, durch die Beschreibung verbotener Sequenzen von Tags (Roche 1992), und imperativ, mit Konditions- und ein Aktionsteil (Silberztein). Die vorliegende Arbeit basiert auf dieser letzten Methode. Weitere Charakteristika der linguistischen Methode sind3, dass eine wertvolle Grammatik zu erzeugen, nicht so lange dauert, wenn auf das Lexikon, Tagset und Korpus geachtet wird und dass ein Recall (Anteil der Wörter, denen ein korrekter Tag zugewiesen wird) von über 99% nicht schwer erzielbar ist. Entgegengesetzt verlangt eine Präzision (Precision: Anteil der Wörter, die disambiguiert werden) von über 95% große Mühe. Eine Grammatik zu korrigieren und zu verbessern, ist auch nicht besonders schwierig und sie kann um nicht-linguistische Methode erweitert werden. 2 Nach Atro Voutilainen, Halteren 1999. 3 Nach Atro Voutilainen, Halteren 1999. -2- Cibrán Beiras Cunqueiro 0 Einleitung Auf der anderen Seite braucht die statistische Methode doch ein sorgfältig annotiertes und langes Ausbildungskorpus, nach welchem viel menschliche Arbeit nicht mehr gebraucht wird. Nach dieser Methode kann eine vollständige und korrekte Disambiguierung von bis 95-97% erfolgen, was wesentlich sinkt, wenn der Input-Text aus einem Bereich ist, der im Training-Korpus nicht angemessen dargestellt ist. Auf alle Fälle ist eine Genauigkeit (Accuracy: Pronzent der Wörter, die ein korrektes Tag erhalten, wenn sie erzwungen werden, unambig zu bleiben) von über 97% äußerst schwer zu erreichen. -3- Cibrán Beiras Cunqueiro 1 Unitex 1 Unitex In diesem ersten Kapitel wird das Programm Unitex erklärt. Dies sollte nicht als Manual oder Bedienungsanleitung verstanden werden, sondern eher als kurze, allgemeine Beschreibung, besonders derjenigen Tools, die in dieser Arbeit genutzt werden. Nach diesem Prinzip werden also keine Anleitungen zur Installation oder zu DELAS (Lexikon der unflektierten Formen) gegeben. 1.1 Präsentation Das Unitex ist ein Korpusverarbeitungssystem, das erlaubt, mit elektronischen Mitteln zu arbeiten wie elektronischen Lexika, lokalen Grammatiken, usw. Es wird auf drei Ebenen gearbeitet: Morphologie, Lexikon und Syntax. Die Hauptfunktionen sind die Folgenden: -elektronische Wörterbücher erzeugen, verarbeiten und anwenden; -Benutzung von Regulären Ausdrücken zum Pattern Matching; -Anwendung von lokalen Grammatiken; -Auflösung von Ambiguitäten über den Text-Automaten. Die Idee ist am LADL (Laboratoire d'Automatique Documentaire und Linguistique) unter der Leitung von Maurice Gross entstanden und die Software am Institut Gaspard-Monge (IGM) von der Université de Marne la Vallée von Sebastien Paumier entwickelt worden. Weitere Eigenschaften des Unitex bestehen darin, dass es erlaubt, all die Charaktere aller möglichen Sprachen zu benutzen, und dass es eine freie Multisystem-Software ist. 1.2 Textvorverarbeitung Nachdem Unitex mit der gewählten Sprache gestartet worden ist, kann man einen in Unicode LittleEndian Text öffnen. Dabei wird gefragt, wie der Text vorverarbeitet werden soll. Die Textvorverarbeitung von Unitex setzt sich zusammen aus Satzdelimitierung, Ersetzung der eindeutigen Formen und Tokenisierung durch Lexikonanwendung. 1.2.1 Die Satzdelimitierung Die Satzdelimitierung muss mittels eines Graphen beschrieben werden. Dieser Graph ist von Sprache zu Sprache wegen der Benutzung verschiedener Symbole anders. Spezielle Symbole für den Graph sind: -4- Cibrán Beiras Cunqueiro 1 Unitex <E>: erkennt die leere Sequenz; <MOT>: erkennt jede Buchstabenfolge; <MIN>: erkennt jede klein geschriebene Buchstabenfolge; <MAJ>: erkennt jede groß geschriebene Buchstabenfolge; <PRE>: erkennt jede Buchstabenfolge, deren Anfangsbuchstabe groß geschrieben ist; <NB>: erkennt jede ungetrennte Ziffernfolge; <PNC>: erkennt die Interpunktionszeichen „; , ! ? .“, sowie die umgedrehten Frage- und Ausrufezeichen des Spanischen und bestimmte asiatische Interpunktionszeichen; <^>: erkennt einen Zeilenumbruch; #: verbietet das Vorkommen des Leerzeichens und Zeilenumbruchs; Der Graph zur Satzdelimitierung im Spanischen befindet sich auf Seite 31. 1.2.2 Die Ersetzung Die Ersetzung erlaubt, all die eindeutigen Formen zu verarbeiten. Eine mögliche Anwendung sind die Zerteilung von Kontraktionen (vom in von dem)4. Ein Graph für die Ersetzungsfunktion (Replace) im Spanisch könnte wie folgt aussehen. Eine Anmerkung soll da gemacht werden, dass nur die kleingeschriebenen Kontraktionen ersetzt würden. 4 In der vorgestellten Arbeit ist auf diese Funktion verzichtet worden, denn nicht alle Kontraktionen sind eindeutig. Da zwei Kategorien erzeugt werden mussten (PREPDET für al, wo es sich um eine Kontraktion handeln kann oder um einen Teil der arabischen Eigennamen , und PREPPRON für consigo, bei dem es zur Ambiguität zwischen der Kontraktion und der 1. Person Singular des Präsens Indikativ des Verbs conseguir kommt), wird es auf diese Funktion verzichtet. Diese Fälle werden erst bei der Normalisierung vor der Konvertierung in den FST-Text behandelt. -5- Cibrán Beiras Cunqueiro 1 Unitex Abbildung 1.1: Ein möglicher Ersetzungsgraph 1.2.3 Tokenisierung und Tagging Die Lexikonanwendung tokenisiert und taggt den Text mittels der Defaultlexika, die normalerweise aus einem Simplex-Lexikon und einem Lexikon der komplexen Formen besteht. Abbildung 1.2: Die Lexikaanwendung Die Lexika können später gewechselt und angewendet werden, indem man im Textmenü Apply Lexical Resources... wählt. 1.3 Die Lexika Unitex benutzt elektronische Wörterbücher in DELA-Format (Dictionaires Electroniques du LADL). Auf dieser Basis gibt es vier Arten von Wörterbüchern: DELAF (DELA der flektierten Formen), DELACF (DELA der flektierten komplexen Formen), DELAS (DELA der unflektierten Formen) und DELAC (DELA der unflektierten komplexen Formen). In diesem Abschnitt wird nur das Format des ersten -6- Cibrán Beiras Cunqueiro 1 Unitex Wörterbuchs erläutert, denn nur das Wörterbuch der flektierten Formen benutzt wird und das DELACF die gleiche Struktur hat wie das DELAF. Ein Lexikoneintrag könnte so aussehen: diccionarios,diccionario.N+Com:mp/ejemplo diccionarios ist die flektierte Form; diccionario ist die Grundform. Bei Nomen, Adjektiven und Pronomen wird normalerweise maskulin singular, bei Verben der Infinitiv benutzt; N+Com ist die grammatikalische und semantische Kategorie; :mp gibt Information über die Flektion; /ejemplo ist ein Kommentar. Im Wörterbuch der komplexen Formen werden Wörter eingetragen, die durch ein Leerzeichen oder andere Interpunktionszeichen getrennt sind. Da es Verwechslung verursachen könnte, müssen der Punkt und das Komma so wie andere Zeichen, die im Tag verwendet werden, mit einem „\“ geschrieben werden5: Ruiz-Gallardón,.N+Npr cóctel molotov,.N+Com:ms http//\:www\.cis\.uni-muenchen\.de 1.4 Suche nach regulären Ausdrücken Die Möglichkeit, reguläre Ausdrücke in einem Text zu suchen, ist zweifellos eine praktische und schnelle Hilfe für die Textverarbeitung. Nicht zuletzt erleichtert es die Suche nach dem Kontext bestimmter Wörter. Zunächst wird diese Funktion grob dargestellt. Ein regulärer Ausdruck kann aus Folgendem bestehen: -einer lexikalischen Einheit (manzana) oder einem Motiv (<comer.V>); -einer Konkatenation von zwei regulären Ausdrücken (ellos comen); -einer Verbindung von zwei regulären Ausdrücken (fruta+madura); -dem Kleene-Stern (manzano*). Die speziellen Symbole sind die gleichen wie die der Graphen: <E>, <MOT>, <MIN>, <MAJ>, <PRE>, <NB>, # und <DIC>. 5 Weitere Besonderheiten sind in der Bedienungsanleitung beschrieben. -7- Cibrán Beiras Cunqueiro 1 Unitex Die Suche in den Lexika geschieht folgendermaßen: <correr>: erkennt all die Einträge, die correr als Grundform haben; <correr.V>: erkennt all die Einträge, die correr als Grundform haben und ein Verb sind; <V>: erkennt die Einträge, die ein Verb sind; <corren,correr.V>: erkennt all die Einträge, die corren als flektierte Form und correr als Grundform haben und die Verb sind. 1.5 Lokale Grammatiken Lokale Grammatiken werden mit Hilfe von Graphen ausgedrückt. Da sie in dem dritten Kapitel ausführlich erläutert werden, seien hier lediglich ein Paar kleine Anmerkungen erwähnt. Der Graph zur Satzdelimitierung heißt standardmäßig Sentence.grf und liegt im Verzeichnis Graphs/Preprocessing/Sentence unter der entsprechenden Sprache. Der Graph zur Ersetzung der unambigen Formen wird standardmäßig Replace.grf genannt und ist in Graphs/Preprocessing/Replace zu finden. Diese beiden Graphen arbeiten auf Basis von Characters und Spezialsymbolen, nicht auf Basis von Lexikoneinträgen, denn diese sind zu diesem Zeitpunkt noch nicht verfügbar. Der Graph zur Normalisierung heißt standardmäßig Norm.grf und liegt in Graphs/Normalization. Er ersetzt ein Wort durch den entsprechenden Lexikoneintrag. Die Graphen für die Elag-Regeln sind im Verzeichnis Elag zu finden und haben ein anderes Format, das ausführlicher im nächsten Kapitel beschrieben wird. 1.6 Der Textautomat Der Textautomat ist ein praktisches Werkzeug zum Erkennen und zur Auflösung der Ambiguitäten. Er wird über den Textmenü, Unterpunkt Construct FST-Text... erzeugt Nach Erscheinen des Textes kann man die Elag-Regeln anwenden, indem man auf den linken Knopf Elag drückt und auf Open Elag Frame, um das Ergebnis zu sehen. -8- Cibrán Beiras Cunqueiro 2 Elag 2 Elag Elag steht für Elimination of Lexical Ambiguities by Grammars und ist ein INTEX-kompatibler Formalismus, um Distributionsbeschränkungen zu kodieren. Elag nutzt den nächstumgehenden Kontext eines Wortes, um Ambiguitäten zu entfernen. Dies bringt mit sich, dass manche Ambiguitäten erst beim Syntax-Parsing gelöst werden können. In diesem Kapitel wird gezeigt, wie die Elag-Regeln geschrieben und angewendet werden. 2.1 Der Formalismus Elag-Grammatiken bestehen aus zwei Teilen: dem Konditionsteil („wenn“) und dem Aktionsteil („dann“). Der „wenn“ Teil wird von dem Symbol <!> abgegrenzt und beschreibt den Kontext, bei dem die Regel angewendet wird. Der „dann“ Teil wird seinerseits von dem Symbol <=> umgeben und beschreibt Beschränkungen, die nachgeprüft werden sollen. Ein dritter Feldtrenner kommt bei den beiden Teilen. Dieser ermöglicht, den Kontext und die Einschränkungen zu synchronisieren, wenn sie nicht die gleichen Wörter beeinflussen. Abbildung 2.1: Eine simple synchronisierte Regel Diese Regel wird folgendermaßen gelesen: wenn ein Verb (V) im Imperativ (Y) auftritt, muss davor ein Interpunktionszeichen (<PNC>) stehen. Bei ambigen Formen eines Verbs wie come,comer.V:Y2s:P3s wird das Imperativ in dem Satz „El chico come mucho“ z. B. weggelassen, denn es gibt keinen Punkt vor dem Verb. -9- Cibrán Beiras Cunqueiro 2 Elag 2.2 Allgemeines Format Elag-Markierungen werden lexikalische Masken genannt. Eine lexikalische Maske ist ein Schema zwischen spitzen Klammern, das nach DELA-Konvention zumindest aus einem part of speech (POS) und eventuell auch aus anderen syntaktischen oder flektierenden Eigenschaften besteht: <(lemma.)*POS(+feat)*(:inflex)*> (lemma )* ist entweder eine Grundform (pescado und nicht pescados) oder die Negierung eines oder mehrerer Grundformen (!fruta!carne); POS gibt das part of speech an (ADV, N, V...); (+feat)* ist eine mögliche Sequenz von syntaktischen Eigenschaften (+Com, +Npr, +Sig...); (:inflex)* ist eine mögliche Sequenz von Flektionseigenschaften (:fp, :Y2s, P...). Beispiele: <pescado.N> findet all die Substantive mit der Grundform pescado. Nicht also <pescado,pescar.V:Kms>. <V:P> liefert all die Verben im Präsens, unabhängig von Person und Numerus. <!en!para.PREP> erkennt alle Präpositionen bis auf en und para. Spezialsymbole <PNC> erkennt alle Interpunktionszeichen. <?> trifft jedes unbekannte Wort. <NB> findet alle Zahlen. <.> findet alle Tokens: Wörter, Ziffern und Interpunktionszeichen. {S} erkennt das Ende oder den Anfang eines Satzes. <!POS>6 erkennt alle Tokens mit Ausnahme der angegebenen POS. Die Angabe von syntaktischen oder flektierenden Eigenschaften wird untersagt. Besteht die Kategorie N aus +Com, +Sig und +Npr und will man alle bis auf +Com, muss man dann es folgendermaßen schreiben: <!N>+<N+Sig>+<N+Npr>. 2.3 Anwendung von Grammatiken An dieser Stelle werden die Funktionen des Elag Interface gezeigt. Es werden auch die grundsätzlichen Schritte zur Disambiguierung erläutert. 6 Damit ist jede einzelne Wortkategorie gemeint: <!N>, <!V>, <!A>... - 10 - Cibrán Beiras Cunqueiro 2 Elag 2.3.1 Grammatikenkompilierung Die geschriebenen Elag-Regeln müssen erst ins .rul Format umgesetzt werden, um sie anwenden zu können. Dafür wird das Elag Interface im Menü Text beim Klicken der Taste Elag Rules geöffnet. Abbildung 2.2: Die Elag-Anwendung Standardmäßig wird die Liste elag.lst geöffnet und nicht pronombres.lst, wie links oben auf der Abbildung steht. Man kann verschiedene Listen erstellen und sie unabhängig voneinander anwenden. Die Graphen, die selbst in .fst2-Format kompiliert werden sollen, werden durch das Klicken der Taste >> in die Liste hinein- und durch << herausgeschoben. Die Kompilierung der Regeln erfolgt, nachdem man die Taste compile gedrückt hat. 2.3.2 Disambiguierung des Textautomaten Die Disambiguierung findet statt, in dem man im Textautomaten auf die Taste Elag klickt und die gewünschte kompilierte Regel aktiviert. Das Ergebnis der Disambiguierung kann man sehen, indem der Knopf Open Elag Frame gedrückt wird. Möchte man erst dann andere Regeln anwenden, kann man die Taste Replace anklicken. Der Automat erscheint jetzt auf der oberen Seite und ist bereit, weitere Verarbeitungen anzunehmen. - 11 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache 3 Die spanische Sprache In diesem Teil der Arbeit wird eine Einführung in die spanische Sprache gegeben. Der erste Punkt stellt die wichtigsten Eckpunkte zu dieser Sprache vor. Im zweiten Punkt werden die verschiedenen Varianten des Spanischen dargestellt und im dritten wird die Sprache linguistisch erläutert. Während eine allgemeine Vorstellung der Sprache und ihrer Varianten zwar interessant sein mag, ist nur der dritte Punkt wirklich wichtig für ein besseres Verstehen der vorliegenden Arbeit. Der schnelle Leser kann also die zwei ersten Punkte überspringen. 3.1 Spanisch, Kastilisch oder Kastilianisch? Spanisch7 ist eine indoeuropäische Sprache, gehört zum romanischen Zweig und dort die meistgesprochene romanische Sprache. Gemeinsam mit dem Portugiesischen, dem Galicischen und dem Katalanischen wird sie sehr oft in die engere Einheit des Iberoromanischen eingeordnet. Spanisch wird gegenwärtig von ca. 360 Millionen Menschen als Muttersprache gesprochen, und hat damit 20 Millionen Muttersprachler mehr als das Englische. Die meisten Sprecher leben in Süd- und Mittelamerika. Wenn man die Sprecher, die Spanisch als Zweitsprache haben, dazurechnet, beläuft sich die Anzahl der Spanischsprechenden auf ca. 420 Millionen. Damit ist Spanisch –nach Mandarin-Chinesisch, Hindi und Englisch- die am vierthäufigsten gesprochene Sprache der Welt. Die spanische Schriftsprache wurde von der Region Kastilien (span. Castilla) in Zentralspanien geprägt. Kastilisch oder Kastilianisch ist daher neben Spanisch eine gültige Bezeichnung für die Sprache. In Spanien wird eher die Bezeichnung Spanisch (español) benutzt. In Süd- und Mittelamerika dagegen wird die Bezeichnung Kastilisch/Kastilianisch (castellano) bevorzugt, damit keine direkte Verbindung mit dem Land entsteht. Offiziell sind beide gültig, wobei eher die kastilische bzw. kastilianische Sprache als die Schrift- und Nationalsprache der gesamten Spanisch sprechenden Länder gilt. In der vorliegenden Arbeit wird aber von Spanisch gesprochen, da in Deutschland diese Bezeichnung verbreiteter ist. 7 Auf Spanisch: español oder castellano - 12 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache In Spanien gibt es vier offizielle Sprachen: Kastilisch, Katalanisch, Galicisch und Baskisch: Baskisch8 ist die westlichste Sprache Europas, die nicht zur indogermanischen Sprachfamilie gehört. Heute wird Baskisch von etwa 520.000 Basken gesprochen. Die meisten davon leben südwestlich der spanisch-französischen Staatsgrenze und ein kleinerer Teil nordöstlich davon. Katalanisch9 wird von circa 11.000.000 Menschen in Spanien gesprochen. Sie leben in Katalonien, Valencia, Aragón oder auf den Balearen. Galicisch10 wird in der unabhängigen Gemeinschaft Galiciens von ungefähr 2.500.000 Menschen gesprochen. Das Spanische ist nicht nur die Amtsprache von Spanien, ein Land mit 27 Millionen Einwohnern, sondern auch von folgenden Ländern11: Äquatorialguinea (11.500) Argentinien (36.000.000) Bolivien (5.500.000) Chile (12.000.000) Costa Rica (3.700.000) Dominikanischer Republik (8.500.000) Ecuador (10.500.000) El Salvador (6.200.000) Guatemala (7.500.000) Honduras (5.800.000) Kolumbien (38.000.000) Kuba (11.100.000) Mexiko (94.000.000) Nicaragua (5.000.000) Panama (2.900.000) Paraguay (4.000.000) Peru (21.000.000) Uruguay (3.300.000) Venezuela (24.000.000) 8 http://www.cogsci.uni-osnabrueck.de/~haase/bask-allg.html 9 http://www.caib.es/conselleries/educacio/dgpoling/user/catalaeuropa/alemany/aleman2.pdf 10 http://www.minority2000.net/Gr-75/t63de.htm 11 In Klammern ist die Anzahl der Muttersprachler - 13 - Cibrán Beiras Cunqueiro USA 3 Die spanische Sprache (regional, 26.000.000) In der britischen Kolonie Gibraltar ist Spanisch neben Englisch ebenfalls die offizielle Sprache. Aufgrund der kolonialen Geschichte von Spanien wird die Sprache auch in weiteren Gebieten gesprochen: Andorra, Belize, Marokko, Niederländische Antillen, Philippinen, Trinidad und Tobago und Westsahara. 3.2 Varianten des Spanischen 3.2.1 Chabacano Chabacano ist der Sammelbegriff für die philippinischen spanischbasierten Kreolsprachen. Ungefähr 90% ihrer Wörter sind spanischer Abstammung. Chabacano gelangte im 17. Jahrhundert von den Gewürzinseln auf die Philippinen und ist die Muttersprache von etwa 150.000 Sprechern. 3.2.2 Palenquero Palenquero ist eine spanischbasierte Kreolsprache, die in Kolumbien von circa 4000 Menschen gesprochen wird. 3.2.3 Portugnol Portugnol ist die Mischsprache aus Portugiesisch und Spanisch und wird dort gesprochen, wo Spanischsprachige und Portugiesischsprachige aufeinander treffen, d.h. auf der iberischen Halbinsel, in Südamerika und in Ländern wie Japan, wo sich gleich viele Einwanderer und Gastarbeiter der beiden Sprachregionen treffen. Portugiesischsprachige und Spanischsprachige kommunizieren häufig in Portugnol, und nicht in einer reinen Version ihrer beiden Sprachen oder in einer dritten für beide Fremdsprachen. Da beide Sprachen sehr viele Ähnlichkeiten in der Grammatik und im Wortschatz haben, gibt es sehr wenig Anreiz für Portugiesisch- und Spanischsprachige, die andere Sprache explizit zu lernen. 3.2.4 Judenspanisch Judenspanisch12, das Sephardische oder Ladino ist die Sprache der 1492 aus Spanien ausgewiesenen sephardischen Juden. Diese Sprache wird heute von etwa 150.000 Menschen 12 www.de.wikipedia.org/wiki/Sephardische_Sprache - 14 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache gesprochen, hauptsächlich in Israel und in der Türkei. Außerhalb dieser beiden Länder gibt es Sprecher vor allem in Griechenland, Bulgarien und dem ehemaligen Jugoslawien. Judenspanisch weist dabei eine starke Verwandtschaft mit dem im Mittelalter gesprochenen Altspanischen auf. Es ist nirgendwo die offizielle Sprache und seine Sprecher sprechen eine weitere Sprache fließend. Das Sephardische wird hauptsächlich mit lateinischen Buchstaben geschrieben. Vereinzelt findet man die Sprache mit dem hebräischen Alphabet geschrieben und früher mal ist auch das kyrillische und das griechische Alphabet auch verwendet worden. 3.2.5 Spanisch in Mittel- und Südamerika Das hispanophone Amerika erstreckt sich von Mexiko bis Feuerland und umfasst 19 Länder: Dominikanische Republik, Kuba, Mexiko, Guatemala, El Salvador, Honduras, Nicaragua, Costa Rica, Panama, Kolumbien, Venezuela, Ecuador, Peru, Bolivien, Puerto Rico, Argentinien, Uruguay, Paraguay und Chile. Es handelt sich um ein sehr großes geographisches Gebiet, und seit der Kolonialisierung durch die Spanier sind Jahrhunderte vergangen, deswegen weist die spanische Sprache in Mittel- und Südamerika sehr viele und starke Abweichungen zu der in Spanien auf. Man findet auch Unterschiede in den Sprachen der einzelnen amerikanischen Länder. Das argentinische Spanisch wird als die am weitesten entfernte Variante des Spanischen angesehen. Diese Unterschiede sind zwischen der Variante in Spanien und dem zentral- und südamerikanischen Spanischen in der Schrift- und Verkehrsprache nicht sehr groß. Auch wenn sich die Dialekte der einzelnen Länder auf dem Gebiet der Grammatik nicht sehr stark unterscheiden, so weisen sie sowohl in der Aussprache, als auch im Vokabular Unterschiede auf. Viele spanische Wörter haben in Amerika einen Bedeutungswandel durchgemacht. Folgende Unterschiede kann man festhalten: Der stimmlose „s“ Laut. Während in Spanien ein „z“ oder ein „c“ vor einem „i“ und „e“ als stimmloses „th“ ausgesprochen wird, wird es in der lateinamerikanischer Aussprache zu einem stimmlosen „s“. Statt der Vergangenheitsform „Pretérito Perfecto“ wird in Zentral- und Südamerika das „Pretérito Indefinido“ benutzt. In Lateinamerika wird meistens anstatt des Personalpronomens der zweiten Person Singular (tú) das „vos“ verwendet. Das spanische „tú eres“, das in der zweiten Person Plural „vosotros sois“ lautet, wird durch „vos sos“ ersetzt. Als Konsequenz daraus, dass die zweite Person Singular „tú“ durch das „vos“ ersetzt worden ist, wird die spanische zweite Person Plural „vosotros“ durch die dritte Person Plural ersetzt. - 15 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache Es gibt lexikalische Abweichungen13: Deutsch Spanisch Südamerikanisch Kellner camarero mozo Butter mantequilla manteca Erdbeere fresa frutilla Kühlschrank nevera heladera Rock falda pollera Auto coche carro oder auto (Arg.) Banane plátano banana Benzin gasolina nafta (Argent.) Eimer cubo balde Tabelle 3.1: Bezeichnungsunterschiede 3.2.6 Spanisch in den USA Die spanische Sprache ist nach Englisch die zweithäufigste Sprache in den USA. Wie schon erwähnt beträgt die Anzahl der Sprecher 26.000.000. Aufteilung der Spanisch sprechende Bevölkerung: Florida. Die Menschen, die in Florida Spanisch sprechen, sind hauptsächlich Kubanischer Abstammung. Sie kamen nach Florida vor und nach der Revolution. Südwesten der USA (California, Arizona, Texas, Neu-Mexico und Colorado). Hauptsächlich Spanischsprechende mexikanischer Abstammung Nordwesten der USA. Vorwiegend Puertoricaner Louisiana. In vier isolierten Ortschaften dieser Region wird ein spanischer Dialekt, der auf die Mundart von den Kanarischen Inseln basiert, gesprochen. 3.2.7 Spanglish Spanglish ist eine vermischte Variante des Englischen und des Spanischen, die von der Bevölkerung 13 http://de.wikipedia.org/wiki/Spanische_Sprache - 16 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache der USA sehr oft gesprochen wird. Am meisten wird es in New York City, Los Angeles, Florida oder im Grenzgebiet von Mexiko und der USA gesprochen. z.B. Llamar para atrás (=zurückrufen, aus dem Englischen „call back“) Te veo (=bis bald, aus dem Englischen „see you“) Lonchar (=Zu Mittag essen, aus dem Englischen „to have lunch) Wachar (=sehen, zusehen, aus dem Englische „to watch“) Baquiar (=zurückstoßen, aus dem Englischen „to back up“) Viaje redondo (=Hin- und Rückfahrt, aus dem Englischen „round trip“) Tuvimos un buen tiempo (=Wir hatten eine gute Zeit, aus dem Englischen „we had a good time“) ¿Cómo te gusta? (= Wie gefällt es Dir?, aus dem Englischen „how do you like it?“) 3.3 Grammatik Im Folgenden werden die Grammatikeigenschaften des Spanischen allgemein erläutert, insbesondere die Fälle, die auf irgendeiner Weise unterschiedlich zum Deutsch sind. Der erste Teil beschäftigt sich mit der Orthographie. Hier werden das Alphabet, die Groß- und Kleinschreibung, die Interpunktion, die Silbentrennung und die Betonung des Spanischen erklärt. Interessanter für die Arbeit ist der zweite Teil, der sich der Morphologie und der Syntax widmet. In diesem Abschnitt werden die Wortklassen, Wortstellung und Satzglieder allgemein erläutert. 3.3.1 Orthographie 3.3.1.1 Das Graphem System Das Graphem System der spanischen Sprache besteht aus einem Alphabet von 29 Buchstaben, das durch Diachritika zur Markierung von Betonung und vervollständigt wird. Typen Name A, a A B,b Be C, c Ce Ch, ch Che D, d De E, e E F, f Efe - 17 - Palatalisierung und Interpunktionen Cibrán Beiras Cunqueiro 3 Die spanische Sprache G, g Ge H, h Hache I, i I J, j Jota K, k Ca L, l Ele Ll, ll Elle M, m Eme N, n Ene Ñ,ñ Eñe O, o O P, p Pe Q, q Cu R, r ere oder erre S, s Ese T, t Te U, u U V, v uve oder ve W, w uve doble X, x Equis Y, y i griega, ye Z, z Zeta Tabelle 3.2: Das spanische Alphabet Anmerkungen: Die spanische Sprache verfügt über 24 Konsonanten: b, c, ch, d, f, g, h, j, k, l, ll, m, n, ñ, p, q, r, s, t, v, w, x, y und z und fünf Vokale: a, e, o, i, u. „a“, „e“, „o“ sind starke Vokale, „i“ und „u“ sind schwache Vokale und „y“ kann ein Halbvokal oder Halbkonsonant sein. „Ch“ und „ll“ sind keine Buchstabenkombinationen, sondern gelten als ein Buchstabe. „rr“ gilt dagegen nicht als eigener Buchstabe, sondern als die einzige echte Verdoppelung im Spanischen. Alle drei werden nie getrennt. Zwei gleiche Buchstaben (außer „ll“ und „rr“) kommen selten vor. Die Ausnahmen entstehen aus dem Zusammentreffen zweier Silben: z.B. cc lec-ción ee le-er - 18 - Cibrán Beiras Cunqueiro nn in-noble oo co-operación 3 Die spanische Sprache In den Buchstabenkombinationen „gue“ und „gui“ wird das „u“ nicht ausgesprochen. Um in einzelnen Wörtern aber die Aussprache von „u“ zu erzwingen, wird der „u“ mit dem Trema (Diéresis) versehen: „ü“. Zu vergleichen pingüino – águila. Zur Markierung von Palatalisierung wird die Tilde (~) bei dem großgeschriebenen „Ñ“ immer gesetzt. 3.3.1.2 Groß- und Kleinschreibung im Spanischen Ein Großbuchstabe wird immer am Anfang des Satzes und bei Eigennamen verwendet. Unter Eigenname werden die Namen von Personen, Ländern, Städten, Regionen, Bergen, Festen usw. verstanden. z.B. Pedro Sevilla los Alpes España la Patagonia Navidad, Pascuas Weiterhin werden Bezeichnungen von Institutionen und öffentlichen Ämtern - wenn sie sich auf eine konkrete Person beziehen-, Studienfächer, Wissenschaften und die Abkürzungen von Titelnamen großgeschrieben. z.B. la Universidad de Madrid el Rey, el Papa Filosofía, Física Sr. -> señor Sra. -> señora Srta. -> señorita Ud./Vd. -> usted D. -> don Dª -> doña Kleingeschrieben werden die meisten Substantive, die Nationalitäten und Volksbezeichnungen, die Sprachen, die Monate, die Wochentage und die Jahreszeiten. - 19 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache z.B. la madre los alemanes griego abril, junio domingo, lunes invierno, verano 3.3.1.3 Interpunktion Es gibt keinen großen Unterschied zwischen der spanischen und resteuropäischen Interpunktion. Charakteristisch für die spanische Sprache ist, dass der Beginn einer Frage mit einem umgedrehten Fragezeichen und der Beginn eines Ausrufs mit einem umgedrehten Ausrufezeichen gekennzeichnet werden. -Der Punkt wird verwendet: am Ende eines Satzes; bei Abkürzungen; um große Zahlen in dreier Gruppen von dreier zu unterteilen. -Das Komma wird verwendet: zur Kennzeichnung von Pausen: zur Kennzeichnung der Satzmelodie; um Adverbien und Adverbiale Ausdrücke abzutrennen; vor Nebensätze, die am Anfang eines Satzes stehen; nach dem Gerundiv, wenn es am Satzanfang steht und als Nebensatzverkürzung verwendet wird; vor Relativsätzen, die den Sinn des Satzes nicht verändern; wenn ein Verb ausgelassen wird. -Der Doppelpunkt wird verwendet: um direkte Rede einzuleiten; vor einer Liste von Wörtern; häufig in der Briefanrede. -Der Bindestrich wird verwendet: um zwei Wörter zu verbinden; - 20 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache um ein Wort am Ende einer Zeile zu teilen. -Die Klammern werden verwendet: um ein Wort oder eine Phrase auszuschließen, die auf den Inhalt des Satzes keinen Einfluss hat und nur zur Erläuterung dient. -Die Gedankenpunkte werden verwendet: um zu zeigen, dass ein Satz inhaltlich nicht zu Ende geführt ist. -Der Bindestrich wird verwendet: um zwei Wörter zu verbinden. um ein Wort am Ende einer Zeile zu teilen -Die Fragenzeichen (¿?) werden verwendet: am Anfang und am Ende eines Fragensatzes; in Klammern nach einem Wort eines Satzes, um Ungewissheit auszudrücken. -Die Ausrufezeichen (¡!)werden verwendet: am Anfang und am Ende eines Ausrufesatzes. Anmerkungen14: Ein Satz kann sowohl als Frage als auch als Ausrufesatz gemeint sein. In diesem fall können Fragezeichen und Ausrufezeichen kombiniert werden: z.B. ¿Qué suerte tienes! Der mehrfache Gebrauch von Ausrufe- und Fragezeichen ist im Spanischen möglich. z.B. iiiBasta !!! 14 Bruyne, Jacques de: Spanische Grammatik, Niemeyer, Tübingen, 1993. S. 24ff - 21 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache i Tu, ¿quién eres?! 3.3.1.4 Die Silbentrennung Bei der Silbentrennung gelten folgende Regeln: Ein Konsonant zwischen zwei Vokalen gehört zur zweiten Silbe. „ch“, „ll“, und „rr“ sind ein Laut und werden nie getrennt. Diphthonge werde nicht getrennt, aber Verbindungen, wo ein betontes „i“ oder „u“ vorkommen, sind keine Diphthonge mehr und daher sind sie trennbar. Die Vokale „a“, „o“ und „e“, wenn sie aufeinander treffen können getrennt werden. Drei Konsonanten werden nach dem zweiten getrennt. Zwei Konsonanten werden getrennt. Folgende Konsonantenverbindungen werden nie getrennt: br bl cr cl dr fr fl gr gl pr pl tr tl Tabelle 3.3: Untrennbare Konsonantenverbindungen 3.3.1.5 Die Betonung und die Akzentsetzung Im Spanischen werden die Wörter auf der letzten, vorletzten oder drittletzten Silbe betont. Akzent auf der Zweisilbig dreisilbig viersilbig letzten Silbe 22% 20% 9% vorletzten Silbe 78% 74% 80% drittletzten Silbe - 6% 11% Tabelle 3.4: Akzentuierung im Spanischen Für die Betonung gelten die folgenden Regeln: Wörter, die auf Konsonant außer „n“ und „s“ enden, werden auf der letzten Silbe betont. Wörter, die auf nicht betontem Vokal sowie „n“ und „s“ enden, werden auf der vorletzten Silbe betont. Wenn die Betonung nach den vorgenannten Regeln auf eine Silbe mit Diphthong fällt, wird der starke Vokal betont. - 22 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache Wenn der Diphthong aus zwei schwachen Vokalen besteht, wird der letzte Vokal betont. Wörter, die von diesen Regeln abweichen, müssen auf dem betonten Vokal einen Akzent tragen. Die Akzentsetzung dient auch zur Bedeutungsunterscheidung: z.B. trabajo (ich arbeite, die Arbeit) trabajó (er/sie arbeitete) hable (sprich) hablé (ich sprach) Einsilbige Wörter tragen in der Regel keinen Akzent, aber Homonyme erhalten einen Unterscheidungsakzent: z.B. té (Tee) te (Dich, Dir) él (er) el (der) mí (mich, mir) mi (mein) sé (ich weiß) se (sich) Das spanische Wort für „oder“ ist „o“. Zwischen Zahlen trägt das „o“ einen Akzent „6 ó 9“, damit „6 oder 9“ nicht mit „609“ verwechselt wird. Sehr selten werden Wörter auf der viertletzten Silbe betont. Es handelt sich dabei um zusammengefasste Wörter. z.B. mándamelo (schick es mir) admirábasele (man bewunderte an ihm) Wenn aus zwei oder mehr Wörtern, die keinen Akzent tragen, eine auf der drittletzten Silbe betonte Form entsteht, muss der Akzent dann gesetzt werden. z.B. sépalo (dass Sie es wissen) dámelo (gib es mir) Bei großgeschriebenen akzentuierten Wörtern wird weiterhin der Akzent gesetzt, obwohl es sehr oft in Texten vorkommt, dass der Akzent weggelassen wird. Schließlich tragen alle Frage- und Ausrufewörter einen Akzent, auch in der indirekten Rede. - 23 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache z.B. ¿qué? ¿quién? ¿dónde? 3.3.2 Morphosyntax 3.3.2.1 Die spanischen Wortklassen Weit vom Versuch entfernt, eine lange und tiefe Beurteilung der verschiedenen Wortartenklassifizierungen (und damit der verschiedenen Grammatiken) darzustellen, wird hier eine Übersicht einer klassischen und einer modernen Klassifikation vorgestellt. Die etwas unabhängige Kategorisierung, die letzenendes für die vorliegende Arbeit gemacht worden ist, wird im Abschnitt 4.3.1 weiter erläutert. Zu betonen bei der endgültigen Klassifikation ist die Anpassung an die automatische Textanalyse. Die „Real Academia Española” funktioniert seit 1713 als Organ für das Studium und die Pflege der spanischen Sprache. Ihr konservativer und normativer Charakter hat zu verschiedenen Kritiken anderer Grammatiker geführt, und dennoch gilt sie weiterhin als oberste Authorität. Wegen ihrer Wichtigkeit wird in diesem Punkt ihre Wortartenklassifikation in Anspruch genommen. Morphologisch werden die Wörter in Veränderlich und Unveränderlich aufgeteilt. Veränderlich sind die Wörter, die Flektionsmorphemen haben, etwa wie den Numerus bei den Nomen, den Genus und Numerus bei den Adjektiven, den Genus, Numerus und die Person der Pronomen, und den Modus, Tempus, Aspekt, Numerus und die Person der Verben. Unveränderlich sind dagegen diejenigen, die keine Flektionsveränderung durchmachen: Adverbien, Präposition und Konjunktion15. Anmerkungen zur Klassifikation: Die Nomen werden weiter unterteilt in nombres propios (Eigennamen) und apelativos (Appellativnomen). Der Numerus wird in der Regel mit den Morphemen ø für Singular und -s/-es für Plural markiert. Der Genus wird in der Regel mit den Morphemen ø oder -o für maskulin und -a für feminin. Ein Neutrum gibt es nicht. Die Adjektive werden bei der Genusbildung in drei Kategorien unterteilt: -diejenigen, deren Genus unveränderlich bleibt: homicida, cursi, israelí, amable, feliz, veloz... -diejenigen, dessen Feminin mit -a und dessen Maskulin mit -o endet: alto, alta; tonto, tonta... 15 Interjektionen werden nicht erwähnt. - 24 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache -diejenigen, dessen Feminin mit -a und dessen Maskulin nicht mit -o endet: holgazán, holgazana; receptor, receptora... Die Numerusbildung der Adjektive ist die gleiche wie die der Nomen. Pronomen werden unabhängig von der Wortstellung in Demonstrativ-, Personal-, Possessiv-, Indefinit-, Quantitativ-, Relativ-, Exklamativ- und Interrogativpronomen unterteilt. Dies heißt, dass sie keine Unterscheidung dazwischen machen, ob sie ein Substantiv begleiten (mi coche, esta casa, muchas personas...) oder ob sie anstelle eines Substantives (el mío, ésta, muchas...) stehen. Artikel werden in unbestimmte und bestimmte Artikel unterteilt. Beide bilden Singular- und Pluralformen, aber nur die bestimmten Artikel haben ein Neutrum. Die bestimmten Artikel sind: el, la, lo (Neutrum), los, las. Die unbestimmten Artikel sind: un, una, unos, unas. Bei den Verben gibt es im Spanischen drei Konjugationen: -ar (cantar), -er (perder), -ir (sufrir). Die unpersönlichen Formen sind der Infinitiv (cantar), das Gerundium (cantando) und das Partizip Perfekt (cantado). Die Modi sind der Indikativ, der Konjunktiv und der Imperativ. Die Tempora des Indikativs sind: Presente (canto), Pretérito Imperfecto (cantaba), Pretérito Perfecto Simple oder Indefinido (canté), Pretérito Perfecto Compuesto (he cantado), Pretérito Pluscuamperfecto (había cantado), Pretérito Anterior (hube cantado), Futuro (cantaré), Futuro Perfecto (habré cantado), Condicional Simple (cantaría) und Condicional Compuesto (habría cantado). Die Tempora des Konjunktivs sind: Presente (cante), Pretérito Imperfecto (cantara oder cantase), Pretérito Perfecto (haya cantado), Pretérito Pluscuamperfecto (hubiera oder hubiese cantado), Futuro (cantare) und Futuro Perfecto (hubiere cantado). Eine modernere, syntaktischorientiertere Wortklassifikation betont sowohl die adjektivische als auch die substantivische Funktion der Pronomen16. Das führt zu einer Unterscheidung zwischen Demonstrativ-, Possessiv-, Indefinitpronomina usw., wenn sie anstatt eines Substantiv auftreten, und Demonstrativ-, Possessiv-, Indefinitadjektive usw., wenn sie ein Substantiv begleiten. Die Klassifikation dieser Wortarten in Attributivfunktion bleibt dennoch einheitlich. Sie werden als Adjektive, als Determinativadjektive oder als Determinatoren behandelt. 16 Beispielsweise Marcos Marín et al. (2003). Onieva (1993) merkt bei den Pronomen auf der Seite 114 folgendes an: „Das ist die Klassifikation der Academia. Trotzdem behandeln alle moderne Grammatikwerke die Pronomen in Attributivfunktion als Determinatoren (nuestra casa) und nur als Pronomen, wenn sie sich auf ein Substantiv beziehen (he llamado a algunos).“ - 25 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache 3.3.2.2 Die Wortstellung Die spanische Sprache verfügt im Vergleich zu anderen Sprachen über eine große Wortstellungsfreiheit. Wie in jeder Sprache spielt trotzdem die syntaktische Struktur eine große Rolle. Die Einheiten, die umgestellt werden können, sind die kleinsten Satzglieder (Subjekt, Verb, Ergänzungen und Angaben), nicht also die einzelnen Worte: In der linearen Konstruktion folgt das determinierende Element dem determinierten. Die Struktur wäre: Subjekt + Verb + Akkusativerg. + Dativerg. + Angaben (Predikativsatz) Algunos compañeros expusieron sus quejas al director durante la huelga. Oder Subjekt + Verb + Attribut (Kopulativsatz) Antonio es un buen profesional. In der einwickelnden Konstruktion wird dagegen das wichtigste Element an den Anfang gestellt. Der Satz “Mein Vater kommt um 9 Uhr” kann folgendermaßen umgeschrieben werden: Mi padre llegará a las nueve. A las nueve llegará mi padre. Llegará mi padre a las nueve. In selbständigen Fragesätzen wird ähnlich wie im Deutsch das Verb häufig vorangestellt: ¿Está mejor tu hermano? (Geht’s deinem Bruder besser?) Ein Fragewort leitet normalerweise den pronominalen Fragesatz ein und wird vom Verb gefolgt: ¿Quién eres tú? (Wer bist Du?) Aber: ¿Y tú quién eres? (Und wer bist Du?) Y tú, ¿quién eres? (Und wer bist Du?) - 26 - Cibrán Beiras Cunqueiro 3 Die spanische Sprache Anmerkungen17: -In Nebensätzen wird die Satzstruktur im Gegensatz zum Deutsch nicht geändert. Auch werden sie nicht immer durch Komma getrennt. Él asegura que ella no sabe nada del asunto. -Das Verb tritt häufig wie im Deutsch in der zweiten Stelle auf. Das Partizip folgt aber immer dem Verb. Ella ha hecho muy bien los deberes. (Sie hat die Hausaufgaben sehr gut gelöst) -Die große Anzahl der Konjugationsmorpheme erlaubt häufig einen elliptischen Subjekt. Fuimos al cine. -Das Negationsadverb no wird immer dem Verb vorangestellt. Desde que no fumas has engordado cinco kilos. -Die unbetonten Personalpronomen werden immer dem Verb vorangestellt oder ihm hinzugefügt: ¡No me lo creo! Póngame un café, por favor. -Die Stellung des attributiven Adjektivs ist normalerweise nach dem Substantiv, aber viel freier als im Deutsch. La pared roja. (Die rote Wand) Es una magnífica ocasión para ir a visitarte. (Es ist eine wunderbare Gelegenheit, um dich zu besuchen). 17 Für weitere Information s. S. 609 in de Bruyne 2002, S. 230 in Onieva 1993, S. 360 in Marcos 2002 und S. 544 in Vera-Morales 1997. - 27 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4 Anwendung des Unitex im Spanischen Nachdem die Werkzeuge „UNITEX“ und „Elag“ vorgestellt worden sind, wird in diesem Teil der Arbeit beschrieben, wie UNITEX für das Spanische eingesetzt werden kann und welche Elag Regel aufgebaut worden sind, um das Ambiguitätsproblem im Spanischen zu beheben. Dieser Teil ist folgendermaßen gegliedert: -Beschreibung des Korpus, mit dem gearbeitet wurde, -Beschreibung des Präprozessgraphen, mit dem das Korpus in Sätze geteilt wurde, -Beschreibung der Lexika, die elaboriert und angewendet worden sind, -Beschreibung des Normalisierungsgraphes, der letzte Vorbereitungen unternimmt, -Beschreibung der Elag-Regeln, die den Text vereinfacht analysieren lässt. 4.1 Das Korpus Die Auswahl des Korpus war von großer Bedeutung, da zum einen der Umfang in Grenzen gehalten werden musste, um die Übersichtlichkeit zu bewahren, und zum anderen die wichtigsten Eigenschaften der spanischen Sprache repräsentieren sollte. Folgende Voraussetzungen wurden berücksichtigt: -Die Dialektvariation. Wie schon im vorherigen Kapitel erwähnt, ist die spanische Sprache weltweit verbreitet und dem folgend ist die Varietät des Spanischen sehr hoch. Die Sprache, die für diese Arbeit ausgewählt worden ist, ist die Varietät, die in Spanien benutzt wird. -Weitere Sprachregister. Die Texte sind hauptsächlich in formaler Sprache geschrieben, aber beinhalten jedoch Elemente von Fachsprachen, Gruppensprachen, Soziolekten oder Idiolekten. -Die Korpusquelle. Auf der Suche nach Text in maschinenlesbarer Form wurde für die Aufbereitung des Korpus das Internet als Quelle benutzt. Trotz der Vielfalt und des Umfangs der spanischen Webseiten bereitete das Auswählen der Texte, die für das Ziel dieser Arbeit geeignet wären, ein großes Problem. Aus diesem Grunde wurden Texte aus Tageszeitungen und online Nachrichten ausgewählt, die ein bestimmtes sprachliches Niveau vorweisen können. Bei der Erstellung des Korpus wurde versucht, nach dem Prinzip zu verfahren, alles, was in spanischen Texten regulär vorkommt oder vorkommen kann, in diese Sammlung von Texten aufzunehmen. Es handelt sich um Texte, die grammatikalisch und syntaktisch korrekt sind, eine - 28 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen gehobene Schriftsprache vorweisen können und dadurch eine effiziente Basis zur Erläuterung und Behebung von Disambiguitäten bilden. Über einer längeren Zeit sind Nachrichten und Artikel von der Webseite der spanischen Zeitung „El Mundo“ gesammelt worden18. „El Mundo“ ist neben „El Pais“, „ABC“ und „La Vanguardia“ eine der wichtigsten Tageszeitungen Spaniens. Das Korpus besteht aus 55 gezielt ausgewählten Texten aus verschiedenen Bereichen wie Politik, Kultur, Wissenschaft oder Sport, die sowohl über die spanische als auch über die internationale Realität berichten. Die Repräsentativität des Korpus ist sehr hoch. Trotz des eingegrenzten Umfangs wurde ein breiter Sprachbestand des Spanischen erfasst. Sprachvarietäten, Fachsprache, Abkürzungen, Akronyme, Eigennamen, dialektale Sprache und Fremdwörter sind im Korpus beinhaltet. 4.2 Der Vorverarbeitungsgraph. Die Satzdelimitierung. Der Graph „Sentence.grf“ wird von Unitex als Vorverarbeitung ausgeführt, um die Sätze des vorhandenen Textes zu segmentieren. In der Vorverarbeitung arbeitet das Programm nicht auf lexikalischer Ebene, sondern erkennt nur Gruppen von Buchstaben und Zahlen, die von einem Leerzeichen oder von einem orthographischen Zeichen getrennt sind. Das Symbol, das Unitex benutzt, um die Sätze zu delimitieren, ist „{S}“. Dieses Symbol ist nicht einem Satzzeichen gleichzusetzen, sondern es ist ein einfacher Satzseparator. Deswegen kommt es nie am Anfang oder Ende eines Textes vor. Bevor dieser Graph beschrieben wird, sollte man hinzufügen, dass die jeweiligen Möglichkeiten, die er betrachtet, gleichzeitig angewandt werden und miteinander kombinierbar sind. Entscheidend für die Realisation einer Segmentierung ist die Umgebung der Satzzeichen. Das Ausrufezeichen, das Fragezeichen und der Punkt sind die Satztrenner im Spanischen. In bestimmten Fällen können sie auch mitten im Satz auftreten. Solche Fälle sind in dem Graph berücksichtigt. Der Graph besteht also aus den folgenden zwei Teilen: Fälle, die einen Satz beenden. Fälle, die ein Satzende ausschließen. 18 www.elmundo.es - 29 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Fälle, die einen Satz beenden. In der Regel folgt einem Satztrenner ein Leerzeichen oder ein Zeilenumbruch und ein Grossbuchstabe, sei es ein einfaches Wort, ein Eigenname oder ein großgeschriebenes Wort. Nicht gerade üblich aber auch möglich ist es, dass eine Ziffer den Satz beginnt. Manchmal kann vor diesem Wort ein anderes Interpunktionszeichen auftreten, wie zum Beispiel ein Hochkomma, ein Anführungsstrich, ein Bindestrich oder eine Klammer. Im Spanischen ist das bei einem Frage- oder Ausrufesatz der Fall, denn es wird jeweils das umgedrehte Fragezeichen „¿“ oder Ausrufezeichen „¡“ verwendet. Beispiele: Ende eines Satzes. Sabido es... Ende eines Satzes! Wolfgang no supo... Ende eines Satzes? „¿CÓMO?“- gritó exasperado. Ende eines Satzes. 1968 fue el ano... Ende eines Satzes! ¡Qué bueno! Ende eines Satzes. «El Mundo» es... Nach diesem Muster können auch manche der Fälle, die ein Satzende ausschließen, anstatt von einem vollständigen Wort am Anfang vorkommen. Fälle, die ein Satzende ausschließen Von den orthographischen Zeichen kann nur der Punkt inmitten des Satzes vorkommen. Das ist der Fall bei: Initialien vor einem Nachnamen (J. González; J.R. González) Abgekürzter Titel vor einem Namen (Dr. Bergara; St. Louis) Nachgestellte Abkürzungen (Empresa S.A.; 500 a.C.) Abkürzungen im Allgemeinen (Hoy pincha un D.J. nuevo) Wie schon vorhin erwähnt, können diese Fälle einen Satz anfangen. Graph: - 30 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.1: Der Satzsegmentierungsgraph Zum besseren Verständnis des Graphen, wird dieser in drei Teilen erklärt und diese Teile auf einem neuen Graph gezeigt: Fälle, die immer einen Satz beenden Fälle, die nie einen Satz anfangen Fälle, die in der Satzmitte oder am Anfang auftreten können 4.2.1 Fälle, die immer einen Satz beenden - 31 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.2: Fälle, die immer einen Satz beenden Am Satzende kann im Prinzip alles Mögliche vorkommen. Großgeschriebene Wörter wie die Aufgelisteten (ITER, CNI...), in Verbindung mit del und siglo19 oder mit mehr als einem groß geschriebenem Wort20 entgehen dem Prinzip der Ausnahmen und deuten auf ein Satzende. Nach dem Punkt, Ausrufe- und Fragezeichen und eventuell dazwischen ein Bindestrich wird also das Satzdelimitierungssymbol aufgesetzt, wenn ein Leerzeichen oder Zeilenumbruch vorkommt und denen ein groß geschriebenes Wort, ein Wort, dessen Anfangsbuchstabe groß geschrieben ist, oder eine Ziffer. Dazwischen können beliebige Interpunktionszeichen21 und/oder die angegebenen orthographischen Zeichen stehen. Nach Leerzeichen und Zeilenumbruch können auch zwei groß geschriebene Wörter vorkommen, die einen Satz bilden22. Ebenfalls sind auch die Fälle erlaubt, die im Teil 3 gezeigt werden. 19 Die Jahrhunderte werden auf Spanisch mit lateinischen Nummern ohne Punkt geschrieben (el siglo XV d.C.; la obra es del (siglo) XIX). Wenn hinterher ein Punkt kommt, dann muss es Satzende sein. 20 Das ist zum Beispiel der folgende Fall: Noticia 50. LAS PALMAS DE GRAN CANARIA. 21 Nicht zu vergessen sind die umgedrehten Frage- und Ausrufezeichen, die auf Spanisch am Anfang des Satzes benutzt werden müssen. 22 Wenn dieser Teil nicht eingetragen wäre, würden diese Sätze nicht erkannt. Noticia 23.{S} NUEVA - 32 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.2.2 Fälle, die nie einen Satz anfangen Abbildung 4.3: Fälle, die nie am Satzanfang stehen können Die Abkürzungen, die hier gezeigt werden, stehen in der Satzmitte. Auch wenn sie tatsächlich am Ende des Satzes stehen, kann man das nicht verallgemeinen und daher wird der Satzseparator nicht eingesetzt. Wörter mit groß geschriebenem Anfangsbuchstabe können auch innerhalb des Satzes vorkommen: El presidente de Objetivos S.A. Pedro Silva... 4.2.3 Fälle, die in der Satzmitte oder am Anfang auftreten können YORK.- Un juez federal... - 33 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.4: Fälle, die in der Mitte und am Satzanfang stehen können Diese Fälle, die Punkt enthalten, können in der Mitte oder am Anfang des Satzes vorkommen. Bei denen ist der Punkt nicht ein Satzseparator und daher darf das Symbol „{S}“ nicht gesetzt werden. Diese sind groß geschriebene Wörter oder das Wort D.J. und Abkürzungen, hinter denen ein Wort mit groß geschriebener Anfangsbuchstabe, eventuell eine Initial mit oder ohne Punkt, oder ein groß geschriebenes Wort mit Punkt und ein klein geschriebenes Wort. Schließlich kann man sagen, dass der Graph das Korpus perfekt segmentiert. Trotzdem muss hinzugefügt werden, dass er bei anderen Texten möglicherweise angepasst werden muss und dass manche Fälle nicht automatisch zu unterscheiden sind. 4.3 Das elektronische Wörterbuch Das System Unitex stellt für das Spanische ein umfangreiches Lexikon (638000 Grundwörter-Formen) zur Verfügung, das in der Fakultät für Französische und Romanische Philologie der Universitat Autònoma de Barcelona unter der Leitung von Xavier Blanco entwickelt worden ist. Für diese Arbeit ist ein neues Lexikon entwickelt worden, das auf das Lexikon von Xavier Blanco basiert. Der Grund dafür war, dass das schon im Unitex eingebaute und kompilierte Lexikon sich nicht ändern ließ. - 34 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Der erste Kritikpunkt besteht in der Kleinschreibung der Grundformen von Eigennamen. Da Eigennamen immer großgeschrieben werden, gibt es keinen Grund, dieses Format zu rechtfertigen, zumal es in einigen Fällen zu weiteren Ambiguitäten führt. Diese Annahme wird durch ein Beispiel verdeutlicht: Rodríguez, Esperanza und Trinidad sind Eigennamen und allgemeine Substantive. In: Eres un rodríguez. La esperanza es lo último que se pierde. würde eine Ambiguität entstehen, die vermieden werden kann. Im Gegensatz zur Unitex-Systematik wird hier die unpersönliche Form des Verbs nicht als selbständige Grundform sondern als abhängige Varietät behandelt. Während im Unitex-Lexikon zum Beispiel acogiera zwei verschiedene Grundformen hat: acogiera,acoger.V:T1s:T3s acogiera,acogerse.V:T1s:T3s, findet man im hier benutzten Lexikon nur einen Eintrag: acogiera,acoger.V:T1s:T3s, und während conocer und conocerse im Ersten zwei verschiedene Grundformen sind: conocer,.V:W conocerse,.V:W+se, ist es im Zweiten nur eine: conocer,.V:W conocerse,conocer.V+PRON:W. Eigentlich entscheidend für die Erzeugung eines eigenen Lexikons waren jedoch die praktischen Gründe. Hierzu werden kleine Änderungen vorgenommen, wie eine genauere Subklassifikation mancher Einträge (z.B. gibt es Adjektive, die nur nach dem Substantiv vorkommen dürfen, was für eine Einordnung in eine eigene Subklasse IndefPs spricht) oder auch entgegengesetzt eine Zusammenfassung von verschiedenen Unterklassen zu einer einzelnen Gruppe (beispielsweise Eigennamen und Abkürzungen als Unterklassen der Substantiven statt separater Klassen). - 35 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.3.1 Die neue Kategorisierung des Lexikons. Die POS-Label. Im vorigen Punkt wurde darauf aufmerksam gemacht, dass die Wortklassifizierung sich stark von Grammatik zu Grammatik unterscheidet. Man kann sogar feststellen, dass diese innerhalb desselben Wörterbuchs23 nicht konsistent vorgenommen wird. Das geschieht, weil Klassifikationskriterien verschiedener linguistischen Ebenen miteinander konkurrieren. In der Regel werden die Wortarten semantisch, morphologisch und/oder syntaktisch kategorisiert. In dieser Arbeit werden vor allem die beiden letzten Kriterien benutzt, wobei das Syntaktische gegenüber dem Morphologischen stärker gewichtet wird, nicht zuletzt deshalb, weil ja Disambiguierung auf Ebene der Syntax durchzuführen ist. Aus diesem Grunde wird die Bezeichnung POS (part of speech) als Wortart bevorzugt. Im Folgenden werden die Kategorien des neuen Lexikons im Einzelnen erklärt, ohne weitere Vergleiche mit dem Unitex-Lexikon anzustellen. Potentiell strittige Fälle werden detailliert besprochen. Zugefügt soll zuletzt werden, dass ein File mit einer in bestimmter Form, wie es im Elag-Abschnitt dieser Arbeit erläutert wird, gestaltet werden muss, damit die Elag-Regeln durchgeführt werden können. Dieses File hieß in den älteren Versionen Unitex' french.lang, jetzt aber, wegen des allgemeinen Nutzens, dict.file. Hier nun die Kategorien in alphabetischer Reihenfolge: 4.3.1.1 Adjektive (A): Diese Klasse besteht aus vielen Subkategorien und ist eine der Kontroversesten. Adjektive sind im engen Sinne dadurch gekennzeichnet, dass sie attributiv24 und prädikativ vorkommen können. Semantisch vervollständigen, definieren und grenzen sie die Bedeutung der Substantive ein. Diese „reinen“ Adjektive werden hier als Qualifikativ bezeichnet. Im weiteren Sinne werden auch die Determinatoren, die im Gegensatz zu den Ersten Pronomina werden in prädikativer Funktion, in diese Klasse mit eingeschlossen. Zu dieser Gruppe gehören alle anderen Unterklassen bis auf die Relativadjektive. Der einzige Fall eines Relativadjektivs ist cuyo/cuya/cuyos/cuyas und wird nur pränominal benutzt. Zur Kontroverse: 23 Siehe Maier-Meyer (1995). 24 Im Spanischen kann das vor oder nach dem Kern der Nominalphrase. Einige Adjektive haben eine feste Stelle, andere ändern die Bedeutung in Abhängigkeit ihrer Position. S. Alarcos 1978:209. - 36 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Determinatoren bilden oft eine eigene Kategorie. Das nächste Problem bei der eigentlich rechtfertigen Klassifikation würde mit den Artikeln kommen. Dieses Thema selbst wäre fragwürdig25. In diesem Fall handelt es sich um eine willkürliche Klassifikation, die auf einer traditionelleren zurückzuführen ist. Man spricht in der traditionellen Grammatik von Relativpronomina und nicht -adjektiven. Eine Syntaxanalyse stellt aber fest, dass dieser einzige Fall (cuyo/cuya/cuyos/cuyas) nicht mit dem vorangehenden Substantiv oder Pronomen kongruiert wie der Rest der Relativpronomina sondern mit einem Folgenden. Da es pränominal determiniert, wird es in der Klasse der Adjektive und nicht der Pronomina untergebracht. Las personas (fp) cuyo (ms) objetivo (ms) es alto tienen que sufrir mucho. Ähnliches kommt bei den Interrogativ- und Exklamativpronomina vor. Qué und cuánto determinieren manchmal ein Substantiv, was sie zu Adjektiven macht26. No preguntes qué pantalones te debes poner. ¡Cuánto tiempo ha pasado desde la última vez! Abk. Adjektive Dem Demonstrativ Dist Distributiv Pos Possessiv PosPs Possessiv nach dem Substantiv Indef Indefinit IndefPs Indefinit nach dem Substantiv Int Interrogativ Exc Exklamativ Rel Relativ Num Numeral Kardinale NumOrd Numeral Ordinale Cal Kalifikativ Tabelle 4.1: Die Adjektive Allen Adjektivklassen ist gemein, dass sie die flektierenden Eigenschaften, die in der nächsten Tabelle erscheinen, aufweisen. 25 26 Alarcos 1978:206. Über das Thema Adjektive, Determinatoren und Pronomina wird im Abschnitt 4.3.1.11 weiter diskutiert. - 37 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Flektion Abk. Genus: Maskulin M Feminin F Numerus: Singular S Plural P Tabelle 4.2: Die Genus- und Numerusflektion Eintragsbeispiele: aquel,.A+Dem:ms bastante,.A+Indef:ms:fs cuyas,cuyo.A+Rel:fp Wie schon in der Einleitung zum Spanischen erwähnt, gibt es im Spanischem nur wenige Fälle des Neutrums: den bestimmten Artikel lo, die Demonstrativpronomina esto, eso, aquello und das Personalpronomen ello. Aus praktischen Gründen werden sie als Maskulin eingetragen, beispielsweise bei: Lo bueno, si breve, dos veces bueno. würden die Adjektive breve und bueno mit dem substantivierten lo bueno im Genus übereinstimmen. Wie schon erwähnt sind die einzigen, die in Prädikativform allein vorkommen dürfen, die Qualifikativadjektive. Bei den anderen Fällen, mit Ausnahme der Relativadjektive, würde es sich um Pronomina oder gar Substantive handeln. Mehr dazu wird bei Behandlung dieser Kategorien erklärt. Weitere Unterschiede, die zur Perfektionierung der Elag-Regeln nützlich sind, sind sehr konkret und haben mit der Reihenfolge, der Verbindung mit Artikeln und der relativen Stellung zum Substantiv. 4.3.1.2 Adverbien (ADV): Unter Adverbien versteht man das Satzglied, das einen ganzen Satz, ein Verb, ein Adjektiv oder ein anderes Adverb modifiziert. Sie sind nicht flektierbar und daher manchmal den Partikeln zugeordnet. Eine besondere Art von Adverbien bilden die Exklamativadverbien. Sie entsprechen nicht der klassischen Klassifikation als Interrogativ- und Exklamativadverbien von cuándo, cómo und dónde, denn diese wird nach dem semantischen Kriterium vorgenommen. Sie wird aus syntaktischen - 38 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Gründen nur bei qué und cuán27, wenn sie ein Adjektiv oder ein anderes Adverb modifizieren: ¡Qué bonito es ese cuadro! ¡Qué bien que hayas venido! ¡Cuán bella es! Eine semantisch motivierte genauere Klassifikation der Adverbien, etwa in Lokal-, Temporal-, Modaladverbien usw, trägt nichts zur syntaktischen Disambiguierung bei und wird daher weder in diesem noch in anderen bekannten Lexika weiter verfolgt. Eine weitere Simplifizierung wird dadurch erreicht, dass auch aus einem Adjektiv abgeleitete Adverbien -sowohl mit dem Suffix -mente (desgraciado, desgraciadamente) als auch ohne Suffix (bajo, alto, claro, usw.)- ebenso der Klasse der nicht abgeleiteten Adverbien zugeordnet werden, wie adverbiale Wendungen, meistens eine Präposition mit Substantiv wie z.B. a continuación, sin embargo aber auch anderen Wortklassen wie al parecer. Eintragsbeispiele: hoy,.ADV de nuevo,.ADV 4.3.1.3 Konjunktionen (CONJ): Eine Konjunktion ist ein Partikel, dessen Funktion es ist, Konstituenten zu verknüpfen. Wie bei den Adverbien wird diese Klasse in der Syntax weiter gegliedert, und zwar in Kopulativ- und Subordinativkonjunktionen, und Diese in weiteren Unterklassen, und weist sich für diese Phase der Disambiguierung28 als unpraktisch auf. So wie bei den Adverbien werden eine Reihe von Konjunktionen mit verschiedenen Worten gebildet, die im Komposita-Lexikon zu finden sind und unter dieser Gruppe klassifiziert werden. Eintragsbeispiele: y,.CONJ ya que,.CONJ 27 28 Diese Verwendung ist ein bisschen veraltet und hauptsächlich in der Poesie zu finden. Das Argument, dass nach dieser Art von Disambiguierung, sprich der Beschreibung des nächstliegenden Kontexts, ein Parsing gemacht werden soll, wird in verschiedenen Teilen dieser Arbeit geäußert. - 39 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.3.1.4 Artikel (DET): Auch eine umstrittene Klasse, wie bei den Adjektiven (Abschnitt 4.3.1.1) gezeigt worden ist. In diesem Lexikon erfolgt lediglich eine Unterteilung in bestimmte (Det) und unbestimmte (Ind) Artikel. Beide Subklassen müssen mit den bei den Adjektiven gezeigten flektierenden Eigenschaften vervollständigt werden (um Genaueres über das Genus Neutrum zu erfahren, s. S. 38). Eintragsbeispiele: la,el.DET+Det:fs lo,el.DET+Det:ms unas,un.DET+Ind:fp 4.3.1.5 Interjektionen (INTJ): Interjektionen können allein in einem Ausrufesatz auftreten. In einem Text, besonders von der Zeitung, kommen sie eher selten vor und, obwohl andere Wortarten (hauptsächlich Substantive: cielos, diablos, caracoles) die Funktion einer Interjektion übernehmen können, sind sie sehr leicht zu determinieren, denn dies geschieht immer in Verbindung mit Ausrufezeichen. Wie Adjektive und Konjunktionen braucht diese Klasse nicht weiter reduziert zu werden. Eintragsbeispiele: salud,.INTJ uf,.INTJ 4.3.1.6 Substantive (N): Substantive und Adjektive wurden in der traditionellen Grammatik unter eine gleiche Klasse gebracht, nämlich die der Nomen. Obwohl sie viele Ähnlichkeiten aufweisen, kategorisieren bzw. determinieren Substantive Klassen von Objekten, während Adjektive Eigenschaften beschreiben. Syntaktisch ist der Kopf einer Nominalphrase ein Substantiv, Pronomina ausgenommen. Adjektive, Verben und Adverbien sind die morphologischen Kategorien, die substantiviert werden können. Diese Kategorie hat fünf verschiedene Unterklassen, die in dieser Tabelle dargestellt werden. Abk. Substantive Num Numeral Kardinal NumOrd Numeral Ordinal Npr Eigen- und Ortsnamen Sig Akronyme - 40 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abk. Substantive Com Appelative Tabelle 4.3: Die Substantive Alle bis auf die Eigen- und Ortsnamen haben Genus und Numerus. Eintragsbeispiele: Esperanza,.N+Npr esperanza,.N+Com:fs TV,.N+Sig 4.3.1.7 Präfixe (PFX): Im Gegensatz zu dem Deutschen kommen viele Präfixe auf Spanisch getrennt oder mit einem Bindestrich an das Wort verbunden vor. Daher ist es auch eine eigene Klasse nötig. Eintragsbeispiele: ex,.PFX anti,.PFX 4.3.1.8 Präpositionen (PREP): Da im Spanischen kein Kasusunterschied gemacht wird, ist eine weitere Unterteilung dieser Klasse unnötig. Zudem wird hier die klassische Unterscheidung zwischen einfachen Präpositionen und präpositionalen Ausdrücken wie a través de, respecto a oder al lado de nicht vertreten, weil sie hinsichtlich der Disambiguierung nicht zielführend ist. Die sehr häufig vorkommenden präpositionalen Ausdrücke sind zwar im Komposita-Lexikon zu finden, fallen aber unter diese einzige Kategorie. Eintragsbeispiele: de,.PREP respecto a,.PREP 4.3.1.9 Kontraktionen von Präposition und Artikel (PREPDET): Weil der Normalisierungsprozess, der Enklitika in zwei selbständigen Wörtern trennt, erst nach der Anwendung des Lexikons durchgeführt werden kann, müssen die Kategorie PREPDET ebenso wie PREPPRON (s. nächsten Abschnitt) erzeugt werden. Sie sind also keine tatsächlichen - 41 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen morphosyntaktischen Kategorien und werden für die Disambiguierung nicht gebraucht. Die Genus- und Numeruseingabe ist zwar überflüssig, findet aber auch hier der Vollständigkeit halber statt. Fälle, die im Spanischen häufig vorkommen, sind: del (de+el), al (a+el), respecto al (respecto a+el), después del (después de+el), en cuanto al (en cuanto a+el), en vez del (en vez de+el), usw. Eintragsbeispiele: del,.PREPDET:ms después del,.PREPDET:ms 4.3.1.10 Kontraktionen Präposition und Pronomen (PREPPRON): Hier gibt es nur drei Einträge: contigo (con+mí), consigo (con+sí) und contigo (con+tí). Wie auch bei PREPDET ist die Eingabe der Flektionseigenschaften nicht nötig, weil es sich um einen Übergangsschritt handelt, und dennoch werden sie eingetragen. In diesem Falle kommt, wie es im nächsten Punkt genauer gezeigt wird, eine neue Flektionseigenschaft vor: Flektion Abk. Person 1 2 3 Tabelle 4.4: Die Personsflektion Eintragsbeispiele: contigo,.PREPPRON:2s conmigo,.PREPPRON:1s consigo,.PREPPRON:3s:3p 4.3.1.11 Pronomina (PRON): Diese grammatikalische Kategorie ist von vielen Grammatikern kritisiert worden, die gegen die Bezeichnung als „Wort, das das Substantiv ersetzt, um seine Wiederholung zu vermeiden“ sind. Schon Lenz (1925) schlug Termini wie Substantiv-, Adjektivpronomina, Proverben und Proadverbien vor. In der Regel behalten Grammatiken die Bezeichnung Pronomen bei der Wortklassifikation und unterscheiden die Syntaxfunktionen. Da diese Arbeit syntaktischorientiert ist, werden die Pronomina vom Anfang an von anderen Wortklassen unterschieden und getrennt behandelt. Pronomina sind hier dadurch bestimmt, dass sie andere Satzkonstituente vertreten können, meistens - 42 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Nominalphrasen. Sie werden Kopf einer Nominalphrase, in der sie normaler- aber nicht notwendigerweise allein vorkommen: Ese coche es mío. Ese coche es el mío.29 Diese Klassifikation enthält also nur die Formen, deren Funktion primär oder substantivisch ist. Die Formen, deren Funktion sekundär, d.h. adjektivisch oder determinativ, ist, werden hier allgemein als Adjektiv30 behandelt (s. oben). Wenn sie adverbial gebraucht werden, werden sie natürlich auch als Adverbien eingetragen, etwa so: poco,.PRON; poco,.A+Indef; poco,.ADV. Es ist die einzige Klasse, bei der in der Praxis zwischen Kasus unterschieden wird, und dies auch nur bei den Personalpronomina. Die Nomenklatur, die traditionell in der spanischen Linguistik benutzt wird, ist syntaktisch bestimmt und entspricht folgendermaßen den deutschen Fällen: Spanisch Deutsch Sujeto Nominativ Objeto Directo Akkusativ Objeto Indirecto Dativ Tabelle 4.5: „Die spanischen Kasus“ 29 Die Generative Grammatik spricht in Fällen der Substantivierung davon, dass das Substantiv einen Null-Wert hat (elliptisch) und dass die Attributte weiterhin als Attribute analysiert werden sollen und nicht als (Pro-)Nomen. In diesem Fall hat die Nominalphrase einen Artikel, ein elliptisches Substantiv als Kopf und ein Possessivadjektiv. Diese Theorie hilft jedoch bei der Disambiguierung mit Unitex nicht weiter. 30 Interessant ist die Unterteilung der Pronomen, die Marcos et al. (2002) vorschlägt. Zunächst wird eine Unterscheidung zwischen Aktualisierung und Determinierung gemacht. Die Aktualisierung dient zur Transformation der virtuellen Begriffe in reale Darstellungen. Substantive brauchen aktualisiert werden, und dies wird im Spanischen durch das Pluralmorphem, die Adjektivierung oder die Determinierung. Die Determinierung ihrerseits aktualisiert das Substantiv, indem sie die Bedeutung auf einer mehr oder weniger genauen Weise bestimmt. Artikel, Demonstrative, Possessive und Kardinalnumeralia sind also Determinatoren und nicht Adjektive. Ein wichtiges Unterscheidungskriterium ist, dass sie allein auftreten dürfen, müssen aber nicht: el coche este (Artikel und Demostrativ), estas cosas mías (Demostrativ und Possessiv), mis dos hermanas (Possessiv und Kardinalnumeral). Ordinalnumeralia beispielsweise sind Adjektive, denn sie brauchen einen Determinator (el primer astronauta). Diese Unterscheidung wäre zwar in einem größeren Projekt tatsächlich in Anspruch zu nehmen, in dieser Arbeit würde aber die Relation Zeitaufwand Erfolg die Klassifikation nicht rechtfertigen. - 43 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Als Abkürzung ist die deutsche Nomenklatur übernommen worden und, auch vom Deutschen beeinflusst, ist eine weitere Unterklasse (Prep) erzeugt worden, denn auch bei Präpositionen werden Unterschiede aufgewiesen: yo (Nominativ), me (Akkusativ und Dativ), mí (mit Präposition). Die dreizehn Unterkategorien sind damit: Abk. Pronomina Dem Demonstrativ Pos Possessiv Nom Nominativ Acus Akkusativ Dat Dativ Prep Nach Präposition Refl Reflexiv Rec Reziprok Indef Indefinit Int Interrogativ Exc Exklamativ Rel Relativ Imp Unpersönlich Tabelle 4.6: Die Pronomina Zwei nennenswerte spanische Charakteristika sind das nicht immer leicht disambiguierbare unpersönliche Pronomen se (zu vergleichen mit Reflexiv- und Reziprokpronomen in der 3. Person), was dem deutschen man entspricht, und die enklitischen Personalpronomina. Wie in anderen romanischen Sprachen werden sie unter bestimmten Umständen an das Ende des Verbs angehängt. Eine Segmentierung erfolgt hier nicht, da dies nicht automatisiert werden kann und außerdem die Disambiguierung verkomplizieren würde. Se dice que la televisión emboba, pero yo no lo creo. Tienes que dármela antes del concierto. Weiter weisen Pronomina unterschiedliche Flektionseigenschaften auf. Die Art von Flektion, die jede einzelne Subklasse charakterisiert, wird in der folgenden Tabelle gezeigt: Pronomenabk. Flektion Dem Genus und Numerus Pos Genus und Numerus Nom Genus, Numerus und Person - 44 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Pronomenabk. Flektion Acus Numerus und Person Dat Numerus und Person Prep Numerus und Person Refl Numerus und Person Rec Numerus und Person Indef Genus und Numerus Int Genus und Numerus Exc Genus und Numerus Rel Genus und Numerus Imp - Tabelle 4.7: Die Flektionseigenschaften der Pronomina Eintragsbeispiele: yo,.PRON+Nom:1ms:1fs nosotras,yo.PRON+Nom:3fp se,.PRON+Imp se,.PRON+Refl:3s:3p se,.PRON+Rec:3p algunos,alguno.PRON+Indef:mp 4.3.1.12 Verben (V): Verben werden morphologisch beschrieben als ein Wort, das ein verbales Paradigma hat. Unter verbalem Paradigma werden alle finiten Verbformen, d.h. Formen die hinsichtlich Tempus, Modus, Person31 und Numerus markiert sind, verstanden, ebenso wie die Imperativformen sowie die infiniten Formen Infinitiv, Gerundiv und Partizip (Maier-Meyer 1995). Diese Kategorie hat nur eine Subklasse, die spezifiziert wird, wenn das Verb ein enklitisches Pronomen enthält. Wenn dies nicht der Fall ist (für Eintragsbeispiele siehe unten), wird keine Subkategorie eingegeben: Abk. Bedeutung Pron Mit enklitischem Pronomen Tabelle 4.8: Die Subklasse der Verben 31 In der Passivform wird im Spanischen das Partizip auch genusabhängig konjugiert. - 45 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Das im Spanischen reiche Konjugationssystem wird im Lexikon mit vielen Flektionseigenschaften dargestellt. Weil das Deutsche über manche Konjugationen nicht verfügt, wird in diesem Falle die spanische Nomenklatur bevorzugt: Konjugation Abk. Zusätzliche Flektion Presente de Indicativo P Person und Numerus Imperfecto de Indicativo I Person und Numerus Pretérito Indefinido (Perfecto Simple) J Person und Numerus Futuro Simple de Indicativo F Person und Numerus Condicional Simple C Person und Numerus Imperativo Y Person und Numerus Presente de Subjuntivo S Person und Numerus Pretérito Imperfecto de Subjuntivo 1 T Person und Numerus Pretérito Imperfecto de Subjuntivo 2 Q Person und Numerus Futuro Simple de Subjuntivo Z Person und Numerus Infinitivo W - Gerundio G - Participio K Genus und Numerus Tabelle 4.9: Die morphologischen Eigenschaften der Verben Die vielen anderen zusammengesetzten Verbformen wie Pretérito Perfecto Compuesto, Pretérito Pluscuamperfecto, usw. werden ebenso wie die Passivformen jeweils mit den konjugierten Auxiliarverben haber und ser und Partizip gebildet. Wie bei anderen automatisch erzeugten Lexika gibt es für diese Fälle keine weiteren flektierenden Eigenschaften, da es sich um mehrere Wörter handelt. Eintragsbeispiele: acercar,.V:W acercarlo,acercar.V+Pron:W acercárselo,acercar.V+Pron:W dé,dar.V:S1s:S3s:Z3s:Y3s desarticulada,desarticular.V:Kfs desarticulado,desarticular.V:Kms 4.3.2 Das Lexikon der einfachen Formen Das neu entwickelte Wörterbuch (mi_diccionario.bin) besteht aus einer Reihe von häufig gebrauchten Worten und denen, die im Korpus auftreten. Die allgemeinen Worte stellen die Basis des Lexikons dar und setzen sich aus dem Vertreten folgender Klassen und Subklassen zusammen: - 46 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen -Numeralia, sowohl Adjektive als auch Substantive -meistgebrauchte Adverbien -Artikel -alle Adjektivklassen bis auf Qualifikativ -einfache Präpositionen -Kontraktionen PREPPRON und die einfachen Formen von PREPDET -alle Pronomina Diese Basis wurde mit dem Inhalt des Korpus und mit Hilfe des von Unitex zur Verfügung gestellten Lexikons manuell erweitert bis eine Anzahl von 8605 Einträgen. 4.3.3 Das Lexikon der komplexen Formen Ein weiteres Lexikon (mi_diccionario_comp-.bin) beinhaltet die morphosyntaktischen Eigenschaften der komplexen Formen des Korpus. Dies ist v.a. fürs Spanische relevant, da die komplexen Formen hier im Gegensatz zum Deutsch meist getrennt bleiben. Hier sind also Komposita zu finden, Redewendungen -präpositionale (respecto a) und adverbiale (al parecer) Wendungen- und auch Wörter, die mit Interpunktionszeichen, meist Bindestrich, Hochkomma oder Punkt, verbunden sind, wie es sehr oft der Fall ist bei Internetadressen (elmundo.es) oder Namen (M-40, Ruiz-Gallardón, Escola d'Estiu). Dieses Lexikon besteht aus dem Korpus entnommenen Wörtern und ist daher kleiner als das Simplexlexikon (256 Einträge). 4.4 Normalisierung des Textes. Der Norm.grf-Graph. Für die Analyse des Textes ist es notwendig, gewisse Kontraktionen zu trennen, und den Text dadurch in eine Form zu bringen auf der die Regeln operieren können. Dieser Teil der Korpusverarbeitung kommt bei der Konvertierung in den FST-Text als Zusatz zur Lexikoneintragung. - 47 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.5: Der Normalisierungsgraph Der Norm.grf-Graph in Abbildung 4.5 liefert zusätzlich zu Kontraktionen die Auflistung ihrer Bestandteile. Wie später gezeigt wird, müssen Elag-Regeln geschrieben werden, um die unerwünschten Kontraktionen zu entfernen. Diese scheinbare Umständlichkeit ist jedoch in der Tat sogar praktisch und korrekt. Bei dem Fall consigo steht man zum Beispiel vor einer wirklichen Ambiguität32 zwischen der 1. Person Singular des Präsens Indikativ von conseguir und der Kontraktion von Präposition und Personalpronomen. Es ist also nötig, wenn auch tatsächlich aufwendig, dass all die Möglichkeiten registriert werden. Ein anderer Punkt ist die Großschreibung. Die letzte, rotmarkierte Alternative steht für eine 32 Bei anderen Fällen entsteht in Wirklichkeit keine Ambiguität, denn sie sind das Gleiche und die getrennte Form wird bevorzugt (del, en cuanto al...). - 48 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Kontraktion am Satzanfang. Wenn doch schön, ergibt sich diese Entscheidung als nicht weise, denn es würden dann drei Ambiguitäten, die nicht komplett disambiguierbar sind, weil die Elag-Regeln nur Grundformen akzeptieren und daher keine Differenzierung zwischen Klein- und Großschreibung machen. Von Respecto al am Satzanfang würde also eine unnötige, richtig sinnlose Ambiguität bleiben. Abbildung 4.6: Künstlich erzeugte Ambiguität 4.5 Die Disambiguierungsregeln nach dem Elag-System. Wir kommen nun zum zentralen Thema dieser Arbeit. Es folgt eine Darstellung der Regeln gruppiert nach Wortarten bzw. Gruppen, auf die sie angewendet werden. Der Einfachheit halber werden Regelteile, die anderen Regeln gemein sind, nicht aufs Neue besprochen. Hierzu gehört beispielsweise die Erfassung von Hochkommata, denn reintheoretisch können sie zwischen jedem Wortpaar vorkommen. 4.5.1 Pronomen: 4.5.1.1 Akkusativpronomina (pronombres_acus.grf): Ziel: Den Kontext der Akkusativpronomina bestimmen. Ambiguitäten: Diese Art von Pronomina hat einen relativ einfachen und bestimmbaren Kontext, denn sie treten nur unmittelbar vor dem Verb auf. me,.PRON+Acus:1s (auch Dativ- und Reflexivpronomen) te,.PRON+Acus:2s (idem) - 49 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen lo,.PRON+Acus:3s (lo,el.DET+Det:ms) la,lo.PRON+Acus:3s (la,el.DET+Det:fs) le,lo.PRON+Acus:3s (Dativpronomen) nos,me.PRON+Acus:1p (auch Dativ-, Reziprok- und Reflexivpronomen) os,te.PRON+Acus:2p (auch Dativ-, Reziprok- und Reflexivpronomen) los,.PRON+Acus:3p (los,el.DET+Det:mp) las,lo.PRON+Acus:3p (las,el.DET+Det:fp) les,lo.PRON+Acus:3p (Dativpronomen) Graph: Abbildung 4.7: Der Graph der Akkusativpronomina Erläuterung der Regel: Ein Akkusativpronomen darf nur unmittelbar vor einem Verb in den angegebenen Konjugationsformen vorkommen. Disambiguierung: Bei me, te, nos, os, wenn sie vor einem Akkusativpronomen kommen: Me lo dijo ayer. Bei lo, la, los, las, wenn es klar ist, dass es sich um eine Nominalphrase handelt. - 50 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen La suegra se va de viaje. Aber nicht: Voy a hacer la compra33, denn compra ist auch V. 4.5.1.2 Reflexivpronomina (pronombres_reflexivos.grf) Ziel: Alternative Reflexivpronomen verwerfen, wenn keine Reflexivität entsteht. me,.PRON+ Refl :1s (auch Dativ- und Akkusativpronomen) te,.PRON+ Refl :2s (idem) se,.PRON+ Refl :3s (Dativpronomen) nos,me.PRON+Refl:1p (auch Dativ-, Reziprok- und Akkusativpronomen) os,te.PRON+Refl:2p (auch Dativ-, Reziprok- und Akkusativpronomen) se,.PRON+ Refl :3p (Dativ- und Reziprokpronomen) Graph: 33 Dieser Fall ist auch nicht auf dieser Ebene disambiguierbar. In einem Satz folgen diese unbetonten Pronomina nicht einem Verb (wenn, dann enklitisch), aber doch wenn das Verb das letzte Wort eines vorangestellten Nebensatz ist: El jarrón que tanto te gustaba se ha caído. - 51 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.8: Der Graph der Reflexivpronomina Erläuterung der Regel: Das Reflexivpronomen muss direkt vor einem Verb oder vor einem Akkusativ- oder Dativpronomen und einem Verb stehen, wobei dann das Reflexivpronomen in Genus und Numerus mit dem Verb übereinstimmen soll. Disambiguierung: Eine Disambiguierung ist in allen Fällen möglich mit Ausnahme der dritten Person Singular und Plural: Se lo dijo. Se lo lavaron. Es ist nicht entscheidbar, ob jemand jemand anderem etwas sagt oder sich selbst. 4.5.1.3 Reziprokpronomina (pronombres_reciprocos.grf): Ziel: Alternative Reziprokpronomen verwerfen, wenn es sich nicht um eine klare Reziprozität handelt. Ambiguitäten: nos,me.PRON+Rec:1p (auch Dativ-, Reflexiv- und Akkusativpronomen) - 52 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen os,te.PRON+Rec:2p (auch Dativ-, Reflexiv- und Akkusativpronomen) se,.PRON+ Rec:3p (Dativ- und Reflexivpronomen) Graph: Abbildung 4.9: Der Graph der Reziprokpronomina Erläuterung der Regel: Das Reziprokpronomen darf nur unmittelbar vor einem Verb stehen und muss hinsichtlich Person und Numerus zu diesem kongruent sein. Auch bei transitiven Verben, die ein Reziprokpronomen fordern, ist die Benutzung von Akkusativpronomina nicht möglich: Se escribieron cartas. Se las escribieron.* Disambiguierung: Die Dativ- und Akkusativfälle werden immer gelöst. Eine Besonderheit entsteht hier bei der 3. Person Plural. Das Homonym se wird bei Dativpronomina nur dann benutzt, wenn ein Akkusativpronomen folgt. Da dies bei Reziprokpronomina nicht erlaubt ist, ist auch hier eine Disambiguierung möglich. - 53 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Mañana os llamo. Anders verhält es sich bei einer Disambiguierung von Reziprok- und Reflexivpronomina. Sehr selten lässt sich sicher entscheiden, ob es sich um Reflexivität oder Reziprozität handelt. Se están escribiendo. Man kann hier nicht genau wissen, ob sie sich selbst schreiben, oder sich gegenseitig. Die Ambiguität wird in der Sprache mittels eines größeren Kontexts, Plausibilität oder weiterer Angaben gelöst: Se escriben muy a menudo porque tienen mucho que contarse. Sie schreiben sich sehr oft, weil sie sich viel zu erzählen haben. Carlos y su hermano se escriben cartas a sí mismos. (sich selbst) Carlos y su hermano se escriben cartas entre ellos. (einander) 4.5.1.4 Allgemeine Pronomina (pronombres.grf): Ziel: Bestimmte Pronomina von den Adjektiven unterscheiden. Ambiguität: Wie schon im Abschnitt zur Akzentsetzung (s. S. 22) erwähnt, sollen die tonischen Grossbuchstaben auch akzentuiert werden. Da diese Arbeit sich auf dieser Annahme basiert, ist es hier nicht nötig die Demonstrative am Satzanfang zu disambiguieren. Bei den Possessiven entsteht Ambiguität mit den Adjektiven, wenn sie attributiv verwendet werden: Nuestro/vuestro libro. El coche mío consume mucha gasolina34 Die Exklamativ- und Interrogativadjektive (qué und cuánto) treten nur vor einem Nomen oder vor einem pränominalen Adjektiv auf. Wie schon erwähnt kommt das Exklamativadverb vor einem prädikativen Adjektiv oder vor einem anderen Adverb vor. ¿Qué película de este año te ha gustado más? 34 Diese Ambiguität wird erst mit der Regel pronombres_posesivos.grf (s. Abschnitt 4.5.1.8) gelöst. - 54 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Zu Vergleichen: ¡Qué viejo coche! ¡Qué viejo estás! Graph: Abbildung 4.10: Der Graph bestimmter Pronomina Erläuterung der Regel: Sowohl Possessiv- als auch die angegebenen Interrogativ- und Exklamativpronomina dürfen nicht vor anderen Worten vorkommen, als negierendem Adverb, Präpositionen, Konjunktionen, Pronomen oder Verben. Disambiguierung: Die Pronomen-Alternative Exklamativadjektive, wird Adverbien zurrecht und verworfen, pränominale wenn es sich Possessivadjektive postnominalen Possessivadjektive wird die Ambiguität nicht gelöst. El coche mío consume mucha gasolina. - 55 - um Interrogativ- handelt. Im Fall und der Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.5.1.5 Por qué Pronomen oder Determinator (por_que.grf): Ziel: Das Pronomen vom Determinator unterscheiden. Ambiguität: Wie schon bei der vorigen Regel erklärt, gehört qué zu verschiedenen Wortklassen. In Zusammenhang mit der Präposition por fällt die Möglichkeit eines Adverbs weg, aber die Ambiguität wird komplexer: Abbildung 4.11: Die Ambiguität von por qué Aus diesem scheinbaren Chaos ergeben sich in der Tat nur zwei Möglichkeiten: No sé por qué no quieres ir al cine. (Pronomen) No sé por qué razón no vienes. (Präposition mit Determinator) Graph: - 56 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.12: Der Graph für por qué Erläuterung der Regel: Wenn die oben gezeigte Ambiguität auftritt, nimm die Präposition gefolgt von dem Determinator, falls danach ein Substantiv, eventuell ein Adjektiv dazwischen, vorkommt, und das Interrogativpronomen, falls danach ein Adverb, ein Verb oder ein Determinator erscheint. 4.5.1.6 Pronomina als Subjekt (pronombres_nom.grf): Ziel: Nominativpronomen entfernen, wenn es sich um einen anderen Kasus handelt. Ambiguität: Folgende Fälle der Nominativpronomina sind mit denen nach einer Präposition ambig: usted,.PRON+Nom:3ms:3fs él,.PRON+Nom:3ms ella,él.PRON+Nom:3fs ello,él.PRON+Nom:3ms nosotras,yo.N+Nom:1fp nosotros,yo.N+Nom:1mp vosotras,tú.N+Nom:2fp vosotros,tú.N+Nom:2mp ustedes,usted.PRON+Nom:3mp:3fp - 57 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen ellas,él.PRON+Nom:3fp ellos,él.PRON+Nom:3mp Anmerkungen: Ello ist theoretisch Neutrum aber wird als Maskulin eingetragen (Siehe Seite 38). Bei usted und ustedes kommt der besondere Fall vor, dass sie sich auf die 2. Person beziehen aber wie die 3. konjugiert werden. Da eine Kongruenz nur mit dem Verb möglich ist, verzichtet man auf die semantische Bedeutung (2. Person) und klassifiziert sie als 3. Person. Graph: Abbildung 4.13: Graph der Nominativpronomina Erläuterung der Regel: Vor einem Nominativpronomen dürfen alle angegebenen Wortarten (und Satzzeichen) vorkommen Disambiguierung: Im Falle vorangehender Präposition ist eine Disambiguierung zwischen Nominativpronomen und Pronomen nach Präposition möglich, sonst nicht: Nosotros vamos a Madrid. Diese wird erst mit der nächsten Regel gelöst. - 58 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.5.1.7 Pronomina nach einer Präposition (pronombres_prep.grf): Ziel: Im Gegensatz zur vorherigen Regel, die Alternative Präpositionalpronomen verwerfen, wenn es sich um ein Nominativpronomen handelt. Ambiguität: Zu den schon in der vorherigen Regel erwähnten Fällen tritt hier noch eine neue Ambiguität auf: sí,.PRON+Prep:3s:3p (auch Adverb) Graph: Abbildung 4.14: Der Graph der präpositionalen Pronomina Erläuterung der Regel: Präpositionalpronomen dürfen nur unmittelbar nach einer Präposition vorkommen. Das einzige Wort, das zur Modifizierung des Pronomens dazwischengesetzt werden kann, ist todos. Disambiguierung: Die Disambiguierung zwischen Nominativ- und Präpositionalpronomina ist jetzt vollständig. Die zwischen Präpositionalpronomina und Adverb ist jetzt auch gelöst in den Fällen, wo es sich um ein Adverb handelt. Mit dieser Regel kann aber nicht vermieden werden, dass eine Adverb-Alternative - 59 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen auch vorkommt bei: Pensó para sí que no quería saber nada del asunto. 4.5.1.8 Possessivpronomina (pronombres_pos.grf): Ziel: Die Regel der allgemeinen Pronomen (Abschnitt 4.5.1.4. auf Seite 54) bei den Possessivpronomina vervollständigen. Ambiguität: Die Ambiguität des Possessivadjektivs in pränominaler Stellung wurde mit der Regel „Allgemeine Pronomina“ bereits gelöst, bleibt noch die postnominale. La chaqueta mía es la roja. Graph: Abbildung 4.15: Der Graph der Possessivpronomina Erläuterung der Regel: Ein Possessivpronomen darf nur nach den Wortarten vorkommen, die in der obigen Liste stehen. - 60 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Disambiguierung: Da dem Possessivpronomen im Gegensatz zu Possessivadjektiven kein Substantiv vorangehen kann, lässt sich die Ambiguität hier auflösen. 4.5.1.9 Unbetonte Pronomina (pronombres_de_verbo.grf): Ziel: Den Kontext der unbetonten Pronomen weiter einschränken. Ambiguität: Vor den unbetonten Pronomina kann nicht jede Wortart vorkommen. Es wurde schon gezeigt in der Regel zu Akkusativpronomina auf Seite 51, dass andere Verben nur als teil eines vorgestellten Nebensatzes erscheinen. Da ein Relativsatz sehr lang sein kann, ist es auf dieser Ebene nicht möglich, so einen großen Kontext zu umfassen. Möglich ist es aber bei anderen Wortarten wie Präpositionen: Como se dijo en principio. A la espera de la celebración. Nach der Anwendung von den vorherigen Regeln würde die Satzanalyse so aussehen: Abbildung 4.16: Erstes Beispiel der bleibenden Ambiguität - 61 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.17: Zweites Beispiel der bleibenden Ambiguität Graph: Abbildung 4.18: Der Graph der unbetonten Pronomina Erläuterung der Regel: Vor den unbetonten Pronomina dürfen nur die Wortarten vorkommen, die in der obigen Liste verzeichnet sind. Disambiguierung: Im ersten Fall wird die Präposition richtig entfernt und im Zweiten wird sie nicht mit dem Pronomen verbunden. Andere Regeln, die später gezeigt und erklärt werden, verbessern die Disambiguierung. - 62 - Cibrán Beiras Cunqueiro 4.5.1.10 4 Anwendung des Unitex im Spanischen Indefinitpronomina (pronombres_indefinidos.grf): Ziel: Indefinitpronomina von Indefinitadjektiven unterscheiden. Ambiguität: Den meisten Indefinitadjektiven entspricht ein Pronomen. Der Unterschied zwischen beiden ist, dass die ersten ein Substantiv modifizieren während die zweiten allein stehen. In der Regel treten die Pronomen und Substantive nicht gemeinsam auf, in Strukturen wie „V+Subjekt+Akkusativobjekt“ ist es dennoch möglich: De los dos casos presenta uno síntomas de agotamiento y otro problemas cardiovasculares. Graph: Abbildung 4.19: Der Graph der Indefinitpronomina Erläuterung der Regel: Der einzige Fall, wo ein Indefinitpronomen ein Substantiv vor anstehen kann, ist hinter einem Verb oder einer Konjunktion. Disambiguierung: - 63 - Cibrán Beiras Cunqueiro Die Disambiguierung 4 Anwendung des Unitex im Spanischen ist in vielen Fällen nicht möglich, weil auch die Struktur „Verb+Indefinitadjektiv+Substantiv“ recht üblich ist: Tengo muchas canas. Dennoch erfolgt eine gewisse Beschränkung der Alternativen. 4.5.2 Nomen: 4.5.2.1 Akronyme und einfache Namen (sustantivo_no_propio.grf): Ziel: Den Kontext der Nominalphrase bestmöglich einschränken. Ambiguität: Eine Ambiguität entsteht beim gemeinsamen Auftreten von Substantiven und Adjektiven, da letztere sowohl prä- als auch postnominal auftreten können. Abbildung 4.20: Ambiguitäten von Adjektiven und Substantiven Seltener gibt es Probleme bei Verben: - 64 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.21: Ambiguität von Substantiven und Verben Graph: Abbildung 4.22: Der Graph der Akronyme und Substantive Erläuterung der Regel: Appelative und Akronyme dürfen nur nach den Wortarten vorkommen, die in obenstehender Liste verzeichnet sind. Disambiguierung: Da die Struktur einer Nominalphrase sehr kompliziert sein kann, ist es auf dieser Ebene nicht möglich, den Kontext besser zu beschreiben. So eine Aufgabe kann erst beim Parsing erfüllt werden. Daher - 65 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen werden nur Fälle gelöst, bei denen ein Substantiv nicht ambig ist: Abbildung 4.23: Ambiguität von postnominalen Adjektiven Hier wird públicas,público.N+Com:fp korrekt verworfen. In dem ersten oben genannten Fall (Abbildung 4.20) ist dies jedoch nicht möglich. Im zweiten Fall (Abbildung 4.21) wird es auch richtig verworfen. Weiter ist eine Disambiguierung bei Auftreten eines Modifikators nicht mehr möglich. El comportamiento suyo es inaudito. 4.5.2.2 Eigennamen (nombres_propios.grf): Ziel: Appelative von Eigennamen unterscheiden. Ambiguität: Bei der Einleitung in „Das neue Lexikon“ (Seite 35) wurde schon gezeigt, dass einfache Namen und Eigennamen ambig sind. Da hier die Grundform der Eigennamen großgeschrieben wird, wird die Ambiguität reduziert. Bei großgeschriebenen einfachen Namen (beispielsweise am Anfang des Satzes) entsteht aber eine Ambiguität, die allerdings oft gelöst werden kann. Esperanza Aguirre es la alcaldesa de Madrid. Esperanza no le falta. Graph: - 66 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.24: Der Graph der Eigennamen Erläuterung der Regel: Wenn ein Wort, das Ambiguität zwischen Appelativen und Eigennamen zeigt, vor einem Eigennamen steht, dann wird die zweite Alternative gewählt. Disambiguierung: Solange ein Eigenname unmittelbar folgt, lässt sich die Ambiguität lösen. Kleingeschriebene Eigennamen (dann also Appelative) werden nicht fälschlicherweise verworfen, da der Graph sie nicht berücksichtigt: El rodríguez Paco no lleva nada bien lo de tener que limpiar la cocina. Dagegen ist diese Regel nicht fähig, Ambiguitäten zu lösen, wenn direkt nachher kein Eigenname kommt: Esperanza no sabe lo que dice. 4.5.3 Verben: - 67 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.5.3.1 Verben in Infinitiv (Verbos_infinitivos.grf): Ziel: Ambiguitäten mit anderen Wortarten, hauptsächlich Substantiven, vermeiden. Ambiguität: Manche Verben in Infinitiv gehören gleichzeitig zu anderen Wortklassen, meistens zu den Nomen, wenn sie substantiviert werden. El andar es bueno. Auch mit dem Substantiv ambig, weil sie Homonym sind, treten Verben wie die folgenden häufig auf: poder,.N+Com:ms poder,.V:W ser,.N+Com:ms ser,.V:W Graph: Abbildung 4.25: Der Graph der Verben im Infinitiv Erläuterung der Regel: Vor einem Infinitiv dürfen nur die Wortarten vorkommen, die in der Liste verzeichnet sind. Disambiguierung: - 68 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Die Fälle des vorliegenden Korpus sind erfolgreich disambiguiert worden: ...no supone un poder de acción... ...un poder limitado y controlable... ...le fue intervenida ayer en su poder... ...quien ve cómo su poder merma... Dennoch muss zugegeben werden, dass diese Regel sehr konkret und damit schwach ist, denn bei Auftreten eines bestimmten Artikels hätte sie nicht gegriffen. 4.5.3.2 Die restlichen Verben (Verbo.grf): Ziel: Den Kontext der anderen Verbformen delimitieren. Ambiguität: Diese Regel ist mit den vorherigen eng verbunden. Die Ambiguität ist bei diesen Formen viel höher: Abbildung 4.26: Ambiguität der restlichen Verbformen Graph: - 69 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.27: Graph der restlichen Verbformen Erläuterung der Regel: Die angegebenen Verbformen dürfen nur hinter den Wortarten oder Wortartenverbindungen35 auftreten, die in der Liste verzeichnet sind. Disambiguierung: In vielen Fällen ist die Disambiguierung erfolgreich, besonders dann wenn Substantive durch Determinatoren klar zu erkennen sind, wie in Abbildung 4.27 gezeigt. 4.5.3.3 Partizipien (conjugaciones_compuestas2.grf): Ziel: Die Partizipien von Adjektiven und Substantiven unterscheiden. Ambiguität: Die meisten Partizipien können adjektiviert werden, und diese wiederum substantiviert. Als Partizip 35 Siehe <N><DET+Dem>, das besagt, dass die Demonstrativdeterminatoren nur postnominal vorkommen können. - 70 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen kommen sie aber nur in bestimmten Stellen in Frage, nach gewissen Verben, nach Konjunktion und oder Adverb bei einer Aufzählung: Ya he comido. He comido marisco y tomado buen vino. Me he levantado y después duchado. Graph: Abbildung 4.28: Graph der zusammengesetzten Verbformen Erläuterung der Regel: Ein Partizip darf nur nach den Verben haber und ser, mit denen es eine Kombination eingeht36, oder nach einer Konjunktion oder einem Adverb auftreten. Disambiguierung: 36 Die Möglichkeiten sind: -Zusammengesetzte Formen: haber+Partizip: he andado, hube cantado, había dormido... -Passiv: ser+Partizip: fue cogido, fuimos encarceladas... -Zusammengesetzte Formen des Passivs: haber+ser+Partizip: hemos sido capturados - 71 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Bei den folgenden Fällen wird die Partizip-Alternative korrekt verworfen: Juan está parado desde hace ocho meses. (Adjektiv) Francisco es un parado. (Substantiv) Im Vergleich zur korrekten Stelle des Partizips: El coche se ha parado de repente. (Partizip) Dagegen ist bei Fällen, wo es sich tatsächlich um ein Partizip handelt, eine Disambiguierung nicht möglich37 und wird bei denen, wo es sich um ein Adjektiv oder Substantiv handelt, das nach einer der für ein Partizip erlaubten Möglichkeiten vorkommt, nicht entfernt: Hay parados por todas partes. (Substantiv) El caballero, rendido y mutilado, alzó su espada. (Adjektiv) Fernando es muy parado. (Adjektiv) 4.5.3.4 Imperativ (imperativo.grf): Ziel: Den Kontexts des Imperativs von anderen Verbformen angrenzen. Ambiguität: Der Imperativ ist mit anderen Formen des Verbes fast immer zu verwechseln. Es gibt drei Fälle: 2.Person Singular des Imperativs mit der 3.Person Singular des Präsens Indikativ: alberga,albergar.V:P3s:Y2s Höfliche Form des Imperativs Singular mit der 1. und 3. Person Singular des Präsens Subjunktiv: libre,librar.V:S1s:S3s:Y3s Höfliche Form des Imperativs Plurals mit der 3. Person Plural des Präsens Subjunktiv: coman,comer.V:S3p:Y3p 37 Bei „El coche se ha parado“ beispielsweise lässt sich „parado“ nicht disambiguieren. - 72 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Graph: Abbildung 4.29: Der Graph des Imperativs Erläuterung der Regel: Der Imperativ darf nur nach einem Interpunktionszeichen erscheinen. Disambiguierung: Keine Ambiguität bleibt ungelöst, wenn das Verb nicht am Satzanfang steht. Die Disambiguierung ist aber nicht möglich, wenn ein Satz mit einer anderen Verbform beginnt: Piensa que no va a ser posible ir al baile. 4.5.4 Regeln zu Kontraktionen und Komposita: 4.5.4.1 Kontraktionen von Präposition (contracciones_prep_det.grf): Ziel: Ambiguitäten von Präposition und Artikel lösen. Ambiguität: - 73 - und Artikel Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Die Normalisierung (s. S. 47) führt zur Ambiguität zwischen al und del einerseits und a, de + el andererseits. Hier ein Beispiel: Abbildung 4.30: Ambiguität der Kontraktion del Diese Regel, so wie die der folgenden Abschnitte, hat nur als Ziel, gleichgültige Alternativen zu vereinfachen. Im Fall der Kontraktionen wird die getrennte Form bevorzugt, da sie die ursprüngliche Form ist. Del (de el) ist, mit de la, de los und de las zu vergleichen, ebenso conmigo (con mí) und contigo (con tí) mit con ella, con nosotros oder mit a tí und a mí. Dagegen wird im Fall der Komposita logischerweise die zusammengesetzte Form bevorzugt. Für weitere Erstellung von Regeln ist ja wichtig, dass zum Beispiel a continuación als Adverb betrachtet wird und nicht als zwei semantisch unabhängigen Wörter. Graph: Abbildung 4.31: Der Graph der PREPDET Kontraktion - 74 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Erläuterung der Regel: Bei Ambiguität zwischen Präposition gefolgt von einem Artikel, Kontraktion PREPDET und Al als Eigenname vor den Wortarten der rechten Liste wähle die erste Alternative. Disambiguierung: Alle möglichen Fälle werden im untersuchten Text erfolgreich disambiguiert. 4.5.4.2 Kontraktion Al (contracciones_npr.grf): Ziel: Die Kontraktion al im groß geschriebenen Fall vom arabischen Eigennamen Al unterscheiden. Ambiguität: Diese Regel ist mit der vorherigen eng verbunden, denn sie bildet die Ausnahme der zweiten. Neben dem Vorkommen von Al in arabischen Namen: Al Yazira, Muafaq Al Rubaie, Al Mahmudiya... bildet es auch eine recht häufig vorkommende Kontraktion aus der Präposition a und dem Artikel el: Al verlo venir se marchó corriendo. Graph: - 75 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.32: Der Graph des Eigennamens Al Erläuterung der Regel: Wenn die Ambiguität zwischen diesen drei Fällen38 vor einem Eigennamen vorkommt, klassifiziere Al als Eigenname. Disambiguierung: Der untersuchte Text wird erfolgreich disambiguiert. Zu beachten ist allerdings folgendes: Umgangssprachlich kann auch Al als Kontraktion vor spanischen Namen vorkommen: Al Alberto lo veo muy triste. Dieses Al entspricht dem bayrischen Usus des bestimmten Artikels vor Eigennamen und sollte daher getrennt werden in Präposition a und Artikel el. Daher sollte Al als Eigenname zusammen mit den anderen Namen ins Lexikon eingetragen werden. 38 Wie im Abschnitt 4.4. schon gezeigt, konvertiert der Norm.grf-Graph den Eintrag nicht, sondern erzeugt einen zusätzlichen Eintrag. In diesem Fall handelt es sich um <a.PREP> <el,el.DET>. - 76 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.5.4.3 Kontraktionen Präposition und (contracciones_prep_pron.grf): Ziel: Analog zu 4.5.4.1. Ambiguität: Abbildung 4.33: Ambituität der Kontraktion conmigo Graph: Abbildung 4.34: Der Graph der Kontraktionen conmigo und contigo Erläuterung der Regel: Wähle immer die Alternative der Getrenntschreibung von Präposition und Pronomen. Disambiguierung: - 77 - Pronomen Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Alle Ambiguitäten werden gelöst. 4.5.4.4 Komposita und mehrwortige Einheiten: Ziel: Hier geht es im Gegensatz zu den vorangegangenen Abschnitten darum, Komposita und Zusammensetzungen von Worten, die eine neue semantische und syntaktische Bedeutung haben, zu bevorzugen. Ambiguität: Obwohl das Kompositalexikon dem Lexikon der einfachen Formen gegenüber Vorrang hat, kommen beide Formen im FST-Lexikon vor, wenn auch die einzelnen Wörter eingetragen sind39. Diese Ambiguität lässt sich dort einfach lösen, wo sie zweifellos als eine einzige Einheit zusammen gehören (desde luego, después de, por lo tanto...). Bei anderen Komposita oder Zusammensetzungen ist sie aber komplizierter zu klären: Entre tanto puedes ir pelando las patatas. (Adverb) Es imposible encontrar algo entre tanto desorden. (Präp+Det) Graph: 39 Das Adverb a continuación kommt neben den getrennten Worten a (Präposition) und continuación (Substantiv) im FST-Text vor, denn es gibt diese einzelnen Einträge im Lexikon der Simplexformen. Dagegen kommt der baskische Name Alai Etxe nur als komplexe Einheit vor, da Alai und Etxe nicht einzeln eingetragen sind. - 78 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.35: Graph konkreter Komposita Erläuterung der Regel: Hier steht eine Abkürzung der normalen Elag-Regel. So eine Regel ist eine einfache und schnellere Art und Weise zu beschreiben, was untersagt ist bzw. verworfen werden soll. Die Verbindungen dieser genauen Wörter sollen entfernt werden. Disambiguierung: Die Disambiguierung wird bei allen genannten Fällen durchgeführt. Dies trifft aber bloß die Komposita und Zusammensetzungen von Wörtern, die zweifellos zusammengehören. Für die Fälle der zweiten Gruppe, also wenn sie getrennt auch Sinn machen, müssen einzelne Regel geschrieben werden. 4.5.5 Regel zu bestimmten Wörtern: In dieser Gruppe bilden verschiedene Regeln oft eine Einheit. Bei diesen Fällen wird, um Wiederholungen zu vermeiden, die erste Regel ausführlich erklärt und bei den anderen nur der Graph gezeigt. Aus dem gleichen Grund wird auf die Erläuterung des Graphen auch verzichtet. - 79 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.5.5.1 Allgemeine Fälle im Singular (casos_generales3.grf): Ziel: Den Kontext bestimmter Substantive, die auch einer anderen Wortklasse angehören und deren übliche Bedeutung eher die Letzte ist, begrenzen. Ambiguität: Manche Wörter, die recht oft in einem Text zu finden sind, sind gleichzeitig Substantive (und werden in dieser Klasse sehr selten benutzt) und andere Wortarten wie Konjunktionen (y, e, o, u, pero, si), Präpositionen (a), Adverbien (no, sí) und Verben (ser, son). Graph: Abbildung 4.36: Graph von bestimmten Wörtern im Singular Erläuterung der Regel: Diese bestimmten Wörter können nur Substantive sein, wenn direkt davor ein Determinator steht und eventuell dazwischen ein Adjektiv. Disambiguierung: Die Disambiguierung erfolgt ohne Probleme. - 80 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.5.5.2 Allgemeine Fälle im Plural (casos_generales_plural.grf): Ziel: Das gleiche im Plural. Ambiguität: Der Plural vom Substantiv e (es) und die dritte Person Singular des Präsens vom Verb „sein“ (ser) sind Homonyme. Wegen des häufigen Auftretens dieser Verbform, ist es besonders nützlich, dieses Wort zu disambiguieren. Graph: Abbildung 4.37: Graph des Plurals von e 4.5.5.3 Pronominaler Gebrauch von que (que_pron2.grf): Ziel: Den pronominalen Gebrauch von que beschreiben. Ambiguität: Das sehr oft vorkommende Wort que hat zwei Verwendungen, und gehört daher zu zwei verschiedenen Wortklassen: Te dije que te lavaras las manos. (Konjunktion) La persona que dices no es tan alta. (Relativpronomen) - 81 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Graph: Abbildung 4.38: Graph von que als Pronomen Erläuterung der Regel: Als Relativpronomen darf que nur vor einem Komma, einem Substantiv, einem Artikel, einer Konjunktion oder einem Pronomen und dazwischen eine Präposition außer para vorkommen. Disambiguierung: Viele Ambiguitäten werden erfolgreich gelöst, aber es ist kompliziert, da Relativpronomen sich auf Wörter beziehen können, die sehr weit vorne im Satz stecken. Z. B.: El protocolo de Kioto plantea límites significativos al crecimiento económico de Rusia que no son aceptables. 4.5.5.4 Konjunktionaler Gebrauch von que (que_conj2.grf): Graph: - 82 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.39: Graph von que als Konjunktion 4.5.5.5 Präposition pese a (pese_a.grf): Ziel: Die Präposition pese a von der Konjunktion und von dem Verb plus Präposition unterscheiden. Ambiguität: Diese ist eine sehr konkrete Ambiguität, die aber wie viele Andere gemacht worden muss. Die folgenden Beispiele erläutern den Gebrauch von „pese a“: Tienes suerte de que te aguanten pese a tu malgenio. (Präposition) Pese a no haber dormido bien se encontraba fuerte. (Konjunktion) Espero que le pese a Pepe lo que ha hecho. (Verb plus Präposition) Graph: - 83 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.40: Der Graph von pese a als Präposition Erläuterung der Regel: Als Präposition darf pese a nur vor einer Nominalphrase erscheinen. Disambiguierung: Pese a als Präposition wird erfolgreich entfernt, wenn sie nicht vor einer Nominalphrase steht. 4.5.5.6 Verb und Präposition pese a (pese_a2.grf): Graph: - 84 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.41: Graph von pese a als Verb und Präposition 4.5.5.7 Konjunktion pese a (pese_a3.grf): Graph: Abbildung 4.42: Graph von pese a als Konjunktion - 85 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen 4.5.5.8 Präposition entre (entre.grf): Ziel: Die Präposition von dem Verb unterscheiden. Ambiguität: Es entsteht Ambiguität zwischen der wesentlich öfters vorkommenden Präposition und dem Präsens des Konjunktivs (Presente de Subjuntivo, s. Abschnitt 4.3.1.12.) des Verbs entrar: Dile que entre en la habitación. (Verb) Vivo entre Madrid y París. (Präposition) Graph: Abbildung 4.43: Graph vom Verb entrar Erläuterung der Regel: Nach dem Verb entrar darf nur ein Interpunktionszeichen oder eine Präposition vorkommen. Disambiguierung: Die häufig vorkommende Ambiguität wird erfolgreich gelöst. 4.5.5.9 Para Präposition und Verb I (para_verbo.grf): Ziel: Den Kontext der Verben parar und parir einschränken. - 86 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Ambiguität: Wichtig sind hier die Formen der Verben parar und parir, die mit der Präposition para ambig sind. Da beide Verben transitiv benutzt werden können und dies im Spanischen in Form einer Nominalphrase vorkommt, ist die Auflösung dieser Ambiguität eine schwierige Aufgabe: El policía para el coche. (Verb) Esta gasolina no es buena para el coche. (Präposition) Graph: Abbildung 4.44: Graph des nachgestellten Kontexts der Verben parar und parir Erläuterung der Regel: Hinter den angegebenen Formen der Verben parar und parir dürfen kein Verb, keine Konjunktion que und keine der angegebenen Pronomen vorkommen. Disambiguierung: Wegen der erwähnten Schwierigkeit ist es unmöglich, alle Fälle zu disambiguieren. Eine zweite Regel beschränkt den vorstehenden Kontext (nächste Regel), aber ohne Parsing kann man manche Ambiguitäten nicht lösen. Der zweite Satz ist ein Beispiel dieser Fälle. - 87 - Cibrán Beiras Cunqueiro 4.5.5.10 4 Anwendung des Unitex im Spanischen Para Präposition und Verb II (para_verbo2.grf): Graph: Abbildung 4.45: Graph des vorangestellten Kontexts der Verben parar und parir 4.5.5.11 Das Substantiv contra (contra.grf): Ziel: Den Kontext beschreiben, bei dem das Substantiv erlaubt ist. Ambiguität: Contra wird normalerweise als Präposition gebraucht. Als Substantiv ist die Verwendung relativ eingeschränkt: Eso tiene un pro y un contra. (Substantiv) El testigo habló en su contra. (Substantiv) La Contra Nicaragüense. (Komposita, Eigenname) Yo estoy en contra. (Substantiv, verbale Wendung) Has actuado en contra de lo acordado. (Präposition: en contra de) El ciclista se estrelló contra el muro. (Präposition) Graph: - 88 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.46: Der Graph von contra Erläuterung der Regel: Der Singular des Substantivs contra darf nur nach der Präposition en und/oder einem Possessivadjektiv oder Artikel vorkommen. Disambiguierung: Die Disambiguierung erfolgt ohne Probleme. 4.5.5.12 Die Verben crear und comer (crear.grf): Ziel: Die Verwendung als Verb einschränken. Ambiguität: Das Verb crear konjugiert verschiedene Formen gleich wie das Verb creer (creo, cree, creen, creemos, creen...). Die erste Person Singular des Indikativ Präsens ist seinerseits mit dem Adverb, der Konjunktion und der Präposition como ambig. Graph: - 89 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.47: Negierender Graph der Verben crear und comer Erläuterung der Regel: Die Verben comer und crear dürfen nicht vor einem anderen Verb oder der Konjunktion que vorkommen. Disambiguierung: Gewisse Ambiguitäten kann man bei crear nicht vermeiden. Creen la historia kann „Sie glauben die Geschichte“ oder „Gestalten Sie eine Geschichte“ heißen. Bei como ist der Gebrauch als Verb zwar beschränkt, die anderen Ambiguitäten sind aber sehr schwer zu lösen. 4.5.5.13 Das Adverb tanto (tanto.grf): Ziel: Den Kontext vom Adverb beschreiben. Ambiguität: Das Adverb ist besonders mit dem Indefinitadjektiv ambig: Nunca el ratón de Disney dio tanto miedo. (Adjektiv) No es posible que me esté costando tanto. (Adverb) - 90 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Graph: Abbildung 4.48: Graph des Adverbs tanto Erläuterung der Regel: Das Adverb tanto darf nicht vor einem Substantiv stehen. Disambiguierung: Die Ambiguität mit dem Adjektiv wird erfolgreich gelöst. 4.5.5.14 Das Adverb incluso (incluso_adv.grf): Ziel: Entscheiden, wann das Adverb ausgewählt werden muss. Ambiguität: Da der Gebrauch von incluso als Adjektiv in der Praxis mit der Ersetzung durch das Partizip (incluido) verloren geht, entsteht die Ambiguität hauptsächlich zwischen dem Adverb und der Präposition. Graph: - 91 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.49: Der Graph des Adverbs incluso Erläuterung der Regel: Wenn incluso vor einer der Wortarten, die in der Liste stehen, vorkommt, wähle die Alternative Adverb. 4.5.5.15 Die Präposition incluso (incluso_prep.grf): Graph: - 92 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.50: Graph der Präposition incluso 4.5.5.16 Interjektionen I (intj_y.grf): Ziel: Den Kontext der Interjektionen determinieren. Ambiguität: Es besteht Ambiguität mit verschiedenen Wortarten: ¡Salud!, dijo el profesor cuando estornudó el alumno. (Interjektion) Su salud no es buena. (Substantiv) ¡Largo!, te he dicho. (Interjektion) Nos espera un largo camino. (Adjektiv) ¡Claro! (Interjektion) En un día claro como este naciste tú. (Adjektiv) Graph: - 93 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.51: Graph des nachgestellten Kontexts der Interjektionen Erläuterung der Regel: Interjektionen dürfen nur vor einem orthographischen Zeichen vorkommen. Disambiguierung: Die Disambiguierung wird in Zusammenarbeit mit der nächsten Regel in allen Fällen gelöst. 4.5.5.17 Interjektionen II (intj2.grf): Graph: - 94 - Cibrán Beiras Cunqueiro 4 Anwendung des Unitex im Spanischen Abbildung 4.52: Graph des vorgestellten Kontexts der Interjektionen 4.6 Schlussfolgerung Zum Schluss muss noch mal erwähnt werden, was im Laufe der Arbeit geäußert worden ist. Obwohl keine genauen Daten gegeben werden können und ein zufrieden stellender Erfolg erreicht worden ist, ist eine anspruchsvollere Disambiguität möglich. Diese ist aber nur als Aufgabe eines größeren Projekts möglich, in dem ein größeres Korpus, eine umfangreichere und durchaus studierte Grammatik (Wortklassifikation und Satzbau) und höhere Anzahl von Arbeitskraft zur Verfügung gestellt werden. Im Allgemeinen erweist sich diese Methode trotzdem als gut und praktisch, und auch als schöner und interessanter für Sprachwissenschaftler im Gegensatz zum statistischen Verfahren. Dennoch bleiben Ambiguitäten ungelöst, die erst mit Hilfe von der statistischen Methode oder dem Syntax-Parsing disambiguiert werden können. - 95 - Literaturverzeichnis Alarcos Llorach, E (1978): Estudios de gramática funcional del español, Madrid, Gredos. Alarcos Llorach, E. (1994): Gramática de la lengua española, Madrid, Espasa Calpe. Blanc, O. (2004): Elag documentation, http://www-igm.univ-mlv.fr/~unitex/. Blanc, O. und Dister, A. (2004): Automates lexicaux avec structure de traits, Actes du colloque Recital 2004, Fès, Maroc (19-22 avril 2004), S. 23-32. Bruyne, J. de (2002): Spanische Grammatik, Tübingen, Max Niemeyer Verlag. Dister, A. (2000): Réflexions sur l'homographie et la désambiguïsation des formes les plus fréquentes, Actes des JADT 2000, Journées d'Analyse des Données Textuelles, Lausanne, S. 131-138. Halteren, H. Van et al.(1999): Syntactic Wordclass Tagging, Dordrecht, Cluwer Academic Publishers. Hernández Alonso, C. (1986): Gramática funcional del español, Madrid, Gredos. Jurafsky, Daniel and Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Laporte, E. und Monceaux, A. (1998): Elimination of lexical ambiguities by grammars. The Elag system. Lingvisticae Investigationes XXII, S. 341-367, Amsterdam-Philadelphie, Benjamins. Laporte, E. (2001): Reduction of lexical ambiguities, Lingvisticae Investigationes XXIV:1, S. 67-103, Amsterdam-Philadelphie, Benjamins. Lázaro Carreter, F. (1980): Estudios de lingüística, Barcelona, Crítica. Lenz, R. (1925): La oración y sus partes, Madrid, Centro de Estudios Históricos. Maier-Meyer, P. (1995): Lexikon und automatische Lemmatisierung, München, CIS-LMU. Marcos Marín, F., Satorre Grau, F.J., Viejo Sánchez, M.L. (2002): Gramática Española, Madrid, Editorial Síntesis. Paumier, S. (2002 und 2004): Unitex. Manuel d’utilisation, http://www-igm.univ-mlv.fr/~unitex/. Onieva Morales, J.L. (1993): La Gramática de la Real Academia Española (resumida y aclarada), Madrid, Editorial Playor. Real Academia Española (1931): Gramática de la lengua española, Madrid, Espasa Calpe. Real Academia Española (1973): Esbozo de una nueva gramática española, Madrid, Espasa Calpe. Vera-Morales, J. (1997): Spanische Grammatik, München, Oldenbourg Verlag. Webseiten http://www-igm.univ-mlv.fr/~unitex/ http://www.elmundo.es http://www.cogsci.uni-osnabrueck.de/~haase/bask-allg.html http://www.caib.es/conselleries/educacio/dgpoling/user/catalaeuropa/alemany/aleman2.pdf http://www.minority2000.net/Gr-75/t63de.htm http://de.wikipedia.org/wiki/Sephardische_Sprache http://de.wikipedia.org/wiki/Spanische_Sprache - 96 - Anhang I: CD Daten auf der CD: Korpus (noticias_todas2.txt) Lexikon der einfachen Formen (mi_diccionario.txt) Kompiliertes Lexikon der einfachen Formen (mi_diccionario.bin) Lexikon der komplexen Formen (mi_diccionario_comp-.txt) Kompiliertes Lexikon der komplexen Formen (mi_diccionario_comp-.bin) File der Wortklassen (french.lang) Satzsegmentierungsgraph (Sentence.grf) Normalisierungssgraph (Norm.grf) Graphen zur Disambiguierung (alle restliche Dateien) - 97 -
Similar documents
Manual germana II
cadrul secţiunilor lexicale / gramaticale şi a testelor aflate la finalul fiecărei unităţi.
More information