Übung4

Transcription

Übung4
Textdatenbanken Übung 4
(26.5.2010)
Paralleler Text
●
Weitere Quellen? Neue Ideen?
●
Vorteile/Nachteile verschiedener Quellen?
Paralleler Text
●
Mögliche Quelle: JRC
„Both resources cover 22 languages and involve all 231
language pairs. To date, the JRC-Acquis is the largest
available parallel corpus world-wide, considering the
number of languages and the amount of text. […]
The most outstanding and useful feature of these two
resources is that they include less widely used
languages and language pairs.“
Nach Jahren sortiert (1958-2009)
Damit auch: Lettisch, Litauisch, Maltesisch
Paralleler Text
●
●
●
●
(1) Die durch Artikel 52 ff. des Vertrages vom 25. März 1957 zur Gründung der
Europäischen Atomgemeinschaft (im folgenden als "Vertrag" bezeichnet) geschaffene
Agentur führt den Namen "Euratom-Versorgungsagentur" (im folgenden als "Agentur"
bezeichnet).
(2) Ausschließlicher Zweck der Agentur ist die Erfuellung der ihr im Vertrag
zugewiesenen Aufgaben. Der Vertrag und diese Satzung sind für die Agentur
maßgebend. Entstehen bei der Auslegung der Satzung Schwierigkeiten, so sind sie
im Sinne der der Agentur im Vertrag übertragenen Aufgaben zu lösen.
( 1 ) Het Agentschap dat krachtens de artikelen 52 en volgende van het Verdrag van
25 maart 1957 tot oprichting van de Europese Gemeenschap voor Atoomenergie
( hierna te noemen " het Verdrag " ) is opgericht , wordt genoemd "
Voorzieningsagentschap van Euratom " ( hierna aangeduid als " het Agentschap " ) .
( 2 ) Het Agentschap heeft uitsluitend ten doel de taak welke het krachtens het
Verdrag wordt toevertrouwd , te vervullen . Het is onderworpen aan de bepalingen
van het Verdrag en van deze Statuten . De moeilijkheden die bij de uitleg van deze
Statuten kunnen rijzen , moeten in overeenstemming met de door het Verdrag voor
het Agentschap vastgestelde doeleinden worden opgelost .
Alignment formats
●
TMX (Translation Memory eXchange)
<?xml version="1.0" encoding="UTF-8" ?>
<tmx version="1.4">
<header creationdate="Fri Mar 12 23:57:24 2010"
srclang="de"
creationtool="Uplug"
datatype="unknown" />
<body>
<tu>
<tuv xml:lang="de"><seg>Babelfish ist ein von AltaVista bereitgestellter maschineller Übersetzungsdienst. </seg></tuv>
<tuv xml:lang="en"><seg> Babelfish is a machine translation service provided by AltaVista . </seg></tuv>
</tu>
<tu>
<tuv xml:lang="de"><seg>Das Modul erlaubt die automatische Übersetzung von Webseiten zwischen mehreren Sprachen. </seg></tuv>
<tuv xml:lang="en"><seg> The plugin allows you to automatically translate web pages between several languages . </seg></tuv>
</tu>
</body>
</tmx>
(translation unit, translation unit variant, segment)
Alignment formats
●
TEI (Text Encoding Initiative)
●
JRC Acquis: Trennung Corpus und Alignment
<div type="body">
<link type="0:1" xtargets=";2"/>
<p n="2">Urteil des Gerichts erster Instanz vom 27. September
2006 — GlaxoSmithKline Services/Kommission</p>
<link type="0:1" xtargets=";3"/>
<p n="3">(Rechtssache T-168/01) [1]</p>
<p n="4">Parteien</p>
<p n="5">Klägerin: GlaxoSmithKline Services (Brentford,
Middlesex, Vereinigtes Königreich) (Prozessbevollmächtigte: I.
Forrester, QC, sowie Rechtsanwälte F. Depoortere, T. Louko, S.
Martínez Lage, A. Schulz und I. Vandenborre)</p>
<p n="6">Beklagte: Kommission der Europäischen
Gemeinschaften (Prozessbevollmächtigte: P. Oliver und É. Gippini
Fournier)</p>
<link type="0:1" xtargets=";4"/>
<link type="0:1" xtargets=";5"/>
<link type="0:1" xtargets=";6"/>
<link type="0:1" xtargets=";7"/>
<link type="1:2" xtargets="2;8 9"/>
<link type="0:1" xtargets=";10"/>
<link type="0:1" xtargets=";11"/>
<link type="1:2" xtargets="3;12 13"/>
Nutzen
●
Mehrsprachige Wörterbücher
●
Translation Memories
●
Updates auf mehrsprachigen
Dokumentenkollektion
Alignment
●
Translation Memory:
●
Hilfsmittel der Computer Aided Translation
http://www.trados.com
Paralleler Text
●
Word level alignment
●
„So Long, and Thanks for All the Fish“
●
„Macht’s gut und danke für den Fisch“
●
„Salut, et encore merci pour le poisson“
●
„Tot Ziens en Bedankt voor de Vis“
Wortalignment
●
Welche Eigenschaften von Text können bei
Wortalignment eventuell hilfreich sein?
Paralleler Text
●
Word level alignment
●
Reihenfolge
●
Kompositazerlegung
●
Wortlängen
●
Wortähnlichkeit
●
Kommastruktur
●
Konjunktoren?
●
weitere?
Paralleler Text
●
Sentence Alignment
●
0:1, 1:1, 1:n:, n:m
●
Aber: 90:10-Regel
Paralleler Text
●
Ansätze:
●
Längenbasiert
●
Offset Alignment
●
Lexikalisch
Alignment – Offset Alignment
●
●
„A central field in natural language processing
is text alignment. This problem is also
processed at the university of Leipzig.“
„Ein zentrales Gebiet in der Verarbeitung
natürlicher Sprache ist das Text Alignment.
Dieses Problem wird auch an der Universität
Leipzig bearbeitet.“
●
Welche Anker können wir benutzen?
Alignment – Bitext Map (1/2)
20
18
16
14
12
10
8
6
4
2
0
0
2
4
6
8
10
12
14
16
18
20
Alignment – Bitext Map (2/2)
20
18
16
14
12
10
8
6
4
2
0
0
2
4
6
8
10
Hinzufügen weiterer Alignments
12
14
16
18
20
Alignment – Offset Alignment
●
●
„A hammer comes in handy these days. One
main feature is it's milled head.“
„Mein Handy ist echt der Hammer! Das Ding
hat extrem viele Features.“
Alignment – Offset Alignment
●
●
Als ich ihn das erste Mal hörte, wusste ich
sofort woran ich war: 'Howdy!' sagte er.
'Howdy!', he said at the first time and i knew
immediately where i stood.
Alignment – Bitext Map
45
40
35
30
25
20
15
10
5
0
0
5
10
15
20
25
●
Erkennung anderer Satzstellung/Satzaufbau
●
Nutzung bei quasiparallelen Texten
30
Paralleler Text
●
●
„Anker“ im Text als Basis für Offset und Lexical
Alignment?
Cognates
●
Nacht, nacht, night, nicht
●
Milch, milk
●
Artikel, artikelen
●
etc.
Paralleler Text
●
Phonetische Ähnlichkeit: Soundex
●
1918 patentiert
●
Basis: englische Sprache
●
MySQL: „Monat“ → „M300“
●
Probleme?
Kodierungsschema für Buchstaben
1: BPFV
2: CSKGJQXZ
3: DT
4: L
5: MN
6: R
Paralleler Text
●
Soundex != Soundex
Omama
Omm
O5a5a
O55
O5a5a
O5
O55
O500
O550
●
Soundex-Probleme?
Paralleler Text
●
Soundex-Probleme:
●
„Bayerischen“ = „brachen“, „politisch“=“Platz“
●
Tippfehler
●
●
●
Allgemein: Probleme mit andere Sprachen (Transkription,
stimmhaft/stimmlos)
Fester erster Buchstabe („Cognate“ != „Kognat“)
Alternativen:
–
Kölner Verfahren
Daitch-Mogotoff-Soundex
●
Anpassung von Soundex an slawische
Sprachen
●
Codelänge: 6
●
Auch erster Buchstabe wird ersetzt
●
Verschiedene Encodings für gleichen
Eingabestring möglich
Metaphone
●
●
●
Variable Länge
Reduktion der Eingabe auf 16 Konsonanten (B
X S K J T F H L M N P R 0 W Y)
Kontextabhängige Regeln
●
Q→K
●
C → S, bei „cia“
●
C → X, bei „ci“
●
etc.
Cognates über Stringähnlichkeit
●
Levenshtein
●
Dice-Koeffizient auf n-Grammen
●
Jaro-Winkler
Paralleler Text
●
Was kann man noch als Anker einsetzen?