Übung4
Transcription
Übung4
Textdatenbanken Übung 4 (26.5.2010) Paralleler Text ● Weitere Quellen? Neue Ideen? ● Vorteile/Nachteile verschiedener Quellen? Paralleler Text ● Mögliche Quelle: JRC „Both resources cover 22 languages and involve all 231 language pairs. To date, the JRC-Acquis is the largest available parallel corpus world-wide, considering the number of languages and the amount of text. […] The most outstanding and useful feature of these two resources is that they include less widely used languages and language pairs.“ Nach Jahren sortiert (1958-2009) Damit auch: Lettisch, Litauisch, Maltesisch Paralleler Text ● ● ● ● (1) Die durch Artikel 52 ff. des Vertrages vom 25. März 1957 zur Gründung der Europäischen Atomgemeinschaft (im folgenden als "Vertrag" bezeichnet) geschaffene Agentur führt den Namen "Euratom-Versorgungsagentur" (im folgenden als "Agentur" bezeichnet). (2) Ausschließlicher Zweck der Agentur ist die Erfuellung der ihr im Vertrag zugewiesenen Aufgaben. Der Vertrag und diese Satzung sind für die Agentur maßgebend. Entstehen bei der Auslegung der Satzung Schwierigkeiten, so sind sie im Sinne der der Agentur im Vertrag übertragenen Aufgaben zu lösen. ( 1 ) Het Agentschap dat krachtens de artikelen 52 en volgende van het Verdrag van 25 maart 1957 tot oprichting van de Europese Gemeenschap voor Atoomenergie ( hierna te noemen " het Verdrag " ) is opgericht , wordt genoemd " Voorzieningsagentschap van Euratom " ( hierna aangeduid als " het Agentschap " ) . ( 2 ) Het Agentschap heeft uitsluitend ten doel de taak welke het krachtens het Verdrag wordt toevertrouwd , te vervullen . Het is onderworpen aan de bepalingen van het Verdrag en van deze Statuten . De moeilijkheden die bij de uitleg van deze Statuten kunnen rijzen , moeten in overeenstemming met de door het Verdrag voor het Agentschap vastgestelde doeleinden worden opgelost . Alignment formats ● TMX (Translation Memory eXchange) <?xml version="1.0" encoding="UTF-8" ?> <tmx version="1.4"> <header creationdate="Fri Mar 12 23:57:24 2010" srclang="de" creationtool="Uplug" datatype="unknown" /> <body> <tu> <tuv xml:lang="de"><seg>Babelfish ist ein von AltaVista bereitgestellter maschineller Übersetzungsdienst. </seg></tuv> <tuv xml:lang="en"><seg> Babelfish is a machine translation service provided by AltaVista . </seg></tuv> </tu> <tu> <tuv xml:lang="de"><seg>Das Modul erlaubt die automatische Übersetzung von Webseiten zwischen mehreren Sprachen. </seg></tuv> <tuv xml:lang="en"><seg> The plugin allows you to automatically translate web pages between several languages . </seg></tuv> </tu> </body> </tmx> (translation unit, translation unit variant, segment) Alignment formats ● TEI (Text Encoding Initiative) ● JRC Acquis: Trennung Corpus und Alignment <div type="body"> <link type="0:1" xtargets=";2"/> <p n="2">Urteil des Gerichts erster Instanz vom 27. September 2006 — GlaxoSmithKline Services/Kommission</p> <link type="0:1" xtargets=";3"/> <p n="3">(Rechtssache T-168/01) [1]</p> <p n="4">Parteien</p> <p n="5">Klägerin: GlaxoSmithKline Services (Brentford, Middlesex, Vereinigtes Königreich) (Prozessbevollmächtigte: I. Forrester, QC, sowie Rechtsanwälte F. Depoortere, T. Louko, S. Martínez Lage, A. Schulz und I. Vandenborre)</p> <p n="6">Beklagte: Kommission der Europäischen Gemeinschaften (Prozessbevollmächtigte: P. Oliver und É. Gippini Fournier)</p> <link type="0:1" xtargets=";4"/> <link type="0:1" xtargets=";5"/> <link type="0:1" xtargets=";6"/> <link type="0:1" xtargets=";7"/> <link type="1:2" xtargets="2;8 9"/> <link type="0:1" xtargets=";10"/> <link type="0:1" xtargets=";11"/> <link type="1:2" xtargets="3;12 13"/> Nutzen ● Mehrsprachige Wörterbücher ● Translation Memories ● Updates auf mehrsprachigen Dokumentenkollektion Alignment ● Translation Memory: ● Hilfsmittel der Computer Aided Translation http://www.trados.com Paralleler Text ● Word level alignment ● „So Long, and Thanks for All the Fish“ ● „Macht’s gut und danke für den Fisch“ ● „Salut, et encore merci pour le poisson“ ● „Tot Ziens en Bedankt voor de Vis“ Wortalignment ● Welche Eigenschaften von Text können bei Wortalignment eventuell hilfreich sein? Paralleler Text ● Word level alignment ● Reihenfolge ● Kompositazerlegung ● Wortlängen ● Wortähnlichkeit ● Kommastruktur ● Konjunktoren? ● weitere? Paralleler Text ● Sentence Alignment ● 0:1, 1:1, 1:n:, n:m ● Aber: 90:10-Regel Paralleler Text ● Ansätze: ● Längenbasiert ● Offset Alignment ● Lexikalisch Alignment – Offset Alignment ● ● „A central field in natural language processing is text alignment. This problem is also processed at the university of Leipzig.“ „Ein zentrales Gebiet in der Verarbeitung natürlicher Sprache ist das Text Alignment. Dieses Problem wird auch an der Universität Leipzig bearbeitet.“ ● Welche Anker können wir benutzen? Alignment – Bitext Map (1/2) 20 18 16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 16 18 20 Alignment – Bitext Map (2/2) 20 18 16 14 12 10 8 6 4 2 0 0 2 4 6 8 10 Hinzufügen weiterer Alignments 12 14 16 18 20 Alignment – Offset Alignment ● ● „A hammer comes in handy these days. One main feature is it's milled head.“ „Mein Handy ist echt der Hammer! Das Ding hat extrem viele Features.“ Alignment – Offset Alignment ● ● Als ich ihn das erste Mal hörte, wusste ich sofort woran ich war: 'Howdy!' sagte er. 'Howdy!', he said at the first time and i knew immediately where i stood. Alignment – Bitext Map 45 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 ● Erkennung anderer Satzstellung/Satzaufbau ● Nutzung bei quasiparallelen Texten 30 Paralleler Text ● ● „Anker“ im Text als Basis für Offset und Lexical Alignment? Cognates ● Nacht, nacht, night, nicht ● Milch, milk ● Artikel, artikelen ● etc. Paralleler Text ● Phonetische Ähnlichkeit: Soundex ● 1918 patentiert ● Basis: englische Sprache ● MySQL: „Monat“ → „M300“ ● Probleme? Kodierungsschema für Buchstaben 1: BPFV 2: CSKGJQXZ 3: DT 4: L 5: MN 6: R Paralleler Text ● Soundex != Soundex Omama Omm O5a5a O55 O5a5a O5 O55 O500 O550 ● Soundex-Probleme? Paralleler Text ● Soundex-Probleme: ● „Bayerischen“ = „brachen“, „politisch“=“Platz“ ● Tippfehler ● ● ● Allgemein: Probleme mit andere Sprachen (Transkription, stimmhaft/stimmlos) Fester erster Buchstabe („Cognate“ != „Kognat“) Alternativen: – Kölner Verfahren Daitch-Mogotoff-Soundex ● Anpassung von Soundex an slawische Sprachen ● Codelänge: 6 ● Auch erster Buchstabe wird ersetzt ● Verschiedene Encodings für gleichen Eingabestring möglich Metaphone ● ● ● Variable Länge Reduktion der Eingabe auf 16 Konsonanten (B X S K J T F H L M N P R 0 W Y) Kontextabhängige Regeln ● Q→K ● C → S, bei „cia“ ● C → X, bei „ci“ ● etc. Cognates über Stringähnlichkeit ● Levenshtein ● Dice-Koeffizient auf n-Grammen ● Jaro-Winkler Paralleler Text ● Was kann man noch als Anker einsetzen?