s_id - Universität Leipzig

Transcription

s_id - Universität Leipzig
Textdatenbanken
Sommersemester 2009
11. Vorlesung
- Rückblick und Zusammenfassung -
Uwe Quasthoff
Universität Leipzig
Institut für Informatik
[email protected]
Inhalt
•
•
•
•
•
•
Archiv – Korpus – Textdatenbank
Korpuserstellung: Texte sammeln
Korpuserstellung: Texte aufbereiten
Textdatenbank erstellen
Korpora vergleichen und abfragen
Paralleler Text
U. Quasthoff
Textdatenbanken
2
Wünsche beim Arbeiten mit viel Text
•
•
•
•
•
•
•
•
•
Sehr viel Text, Größenordnung 109 laufende Wörter, 10 GB.
Ständige Erweiterung der Ressourcen
Auswahl nach verschiedenen Kriterien, z.B.
– Sprache
– Sachgebiet
– Entstehungszeit
Gute Qualität (d.h. wenig Datenmüll, siehe später).
Schneller Zugriff (kein sequenzielles Suchen auf der Datei)
Intelligente Suchmöglichkeiten (d.h. wie Suchmaschine oder besser)
Vorverarbeitung, Bereitstellung von vorberechneten Daten
Einheitliches Format der Texte
Viele nützliche Tools, die auf diesem Format arbeiten
U. Quasthoff
Textdatenbanken
3
Archiv – Korpus – Textdatenbank
In dieser Reihenfolge:
• Material einheitlicher aufbereitet.
• Material besser erschlossen:
– Einfacher abzufragen
– Komfortabler vorbereitet
• Trotzdem universell verwendbar
Vergleichbar:
• Große Mengen an Material wünschenswert
U. Quasthoff
Textdatenbanken
4
What is a corpus?
•
A collection of naturally occurring language text, chosen
to characterise a state or variety of language (Sinclair)
•
A collection of linguistic data, either written text or a
transcription of recorded data, which can be used as
starting-point of linguistic description or as a means of
verifying hypotheses about a language (Dictionary of
linguistics and phonetics)
U. Quasthoff
Textdatenbanken
5
What is not a corpus
•
•
Lists of words
Lists of sentences produced with the purpose of creating a
corpus
• Archive = “a repository of readable electronic texts not
linked in any coordinated way” (http://www.archive.org)
“The Internet Archive is building a digital library of Internet
sites and other cultural artifacts in digital form. Like a paper
library, we provide free access to researchers, historians,
scholars, and the general public.“
U. Quasthoff
Textdatenbanken
6
Corpus vs. archive
Text archive
• Collection of texts in their original format
(Oxford Text Archive: http://ota.ox.ac.uk/)
Corpus
• texts collected and processed in a unified,
systematic manner
British National Corpus: http://www.natcorp.ox.ac.uk/
U. Quasthoff
Textdatenbanken
7
Web as a corpus
• The Web can be very useful source of texts
• The Web is very helpful for languages other than English
• Quite often there is not control on the language which is
investigated therefore filtering (if possible) is necessary
U. Quasthoff
Textdatenbanken
8
Corpus annotation
• Enrichment of a corpus with various types of information
• It can be done at every level:
– Word: part of speech, sense
– Sentence: sentence boundaries, syntactic tree
– Discourse: coreferential chains, discourse segments
– Certain expressions: named entities
U. Quasthoff
Textdatenbanken
9
Examples (I)
• <P><S><W POS="PRON" NUM="PL“
LEMMA="we">We</W><W POS="V"
LEMMA="have">have</W><W POS="EN"
LEMMA="develop">developed</W><NP><W
POS="DET" LEMMA="a">a</W><W POS="A“
LEMMA="computational">
computational</W><W POS="N" NUM="SG"
LEMMA="paradigm"> paradigm</W><W
POS="PUNCT">,</W> ...</NP> ... </S></P>
U. Quasthoff
Textdatenbanken
10
Beispiel: SGML-Dokument von TREC
<DOC>
<DOCNO> WSJ870324-0001 </DOCNO>
<HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL>
<DD> 03/24/87</DD>
<SO> WALL STREET JOURNAL (J) </SO>
<IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM) MARKETING, ADVERTISING
(MKT) TELECOMMUNICATIONS, BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN>
<DATELINE> NEW YORK </DATELINE>
<TEXT>
John Blair &amp; Co. is close to an agreement to sell its TV station advertising representation operation
and program production unit to an investor group led by James H. Rosenfield, a former CBS Inc.
executive, industry sources said. Industry sources put the value of the proposed acquisition at more than
$100 million. ...
</TEXT>
</DOC>
U. Quasthoff
Textdatenbanken
11
What are the advantages of corpus
annotation?
•
•
•
•
•
Ease of exploitation
Reusability
Multi-functionality
Explicit analyses
Once a corpus is annotated it can be used in further
research
U. Quasthoff
Textdatenbanken
12
Annotation of a corpus
• Can be done: automatically, semi-automatically and
manually
• Sometimes the method is automatic and then the results
postprocessed
• Usually special tools are used to minimise the human error
U. Quasthoff
Textdatenbanken
13
Inhalt
•
•
•
•
•
•
Archiv – Korpus – Textdatenbank
Korpuserstellung: Texte sammeln
Korpuserstellung: Texte aufbereiten
Textdatenbank erstellen
Korpora vergleichen und abfragen
Paralleler Text
U. Quasthoff
Textdatenbanken
14
Text Collection 1
Method 1: Newspaper Text using AlltheWeb
• Predefined List of Newspapers
• Ordered by language
• Allows search „within pages indexed last 2 hours“
• Works fine for approx. 10 languages
Collection Results of Tuesday, 2006-09-12 (Raw text with noise of all kind)
• DE: 21.6 MB

23.000 sentences
• EN: 43.1 MB
• ES: 17.1 MB
• FR: 12.1 MB
• IT:
8.2 MB
• NL: 1.6 MB
• PT: 1.1 MB
U. Quasthoff
Textdatenbanken
15
Text
Collection 2
Method 2: Random collection
of Web text.
• Using Crawler FindLinks
(originally designed to
explore the link structure
of the web), expanded by
language detection.
• Text is stored locally at the client computer
• Crawling strategy:
– Crawling divided in rounds
– Each round is defined by a list of URLs and takes approx. one week
– Links detected in round n give the URLs for round n+1
– We allow only 3 URLs per domain
U. Quasthoff
Textdatenbanken
16
Text
Collection 3
http://newsisfree.com/sources/bylang
• Für DE und EN etwa halb so viele
Daten wie von AlltheWeb.
• Aber: Mehr Sprachen, keinerlei
Konfiguration nötig
• Täglich einmal komplett (ohne
Wiederholungen von gestern)
gecrawlt
U. Quasthoff
Textdatenbanken
17
Wikipedias
•
•
•
•
In vielen Sprachen
Manche recht umfangreich
Einheitliches Format
Zum Download als fertige HTML-Seiten erhältlich
U. Quasthoff
Textdatenbanken
18
Die größten Wikipedias I
Wikipedias mit mehr als 1.000.000 Artikeln
(1) Englisch (English)
Wikipedias mit mehr als 500.000 Artikeln
(2) Deutsch - Französisch (Français)
Wikipedias mit mehr als 250.000 Artikeln
(5) Italienisch (Italiano) - Japanisch ( 日本語 ) - Niederländisch (Nederlands) Polnisch (Polski) - Portugiesisch (Português)
Wikipedias mit mehr als 100.000 Artikeln
(6) Chinesisch ( 中文 ) - Finnisch (Suomi) - Norwegisch (Bokmål) - Russisch
(Русский) - Schwedisch (Svenska) - Spanisch (Español)
Wikipedias mit mehr als 50.000 Artikeln
(12) Dänisch (Dansk) - Esperanto (Esperanto) - Hebräisch (‫ )עברית‬- Indonesisch
(Bahasa Indonesia) - Katalanisch (Català) - Lombardisch (Lumbaart) - Rumänisch
(Română) - Slowakisch (Slovenčina) - Tschechisch (Česky) - Türkisch (Türkçe) Ukrainisch (Українська) - Ungarisch (Magyar)
U. Quasthoff
Textdatenbanken
19
Die größten Wikipedias II
Wikipedias mit mehr als 25.000 Artikeln
(10) Arabisch (‫ )العربية‬- Bulgarisch (Български) - Cebuano (Cebuano) - Estnisch
(Eesti) - Koreanisch ( 한국어 ) - Kroatisch (Hrvatski) - Litauisch (Lietuvių) Serbisch (Српски / Srpski) - Slowenisch (Slovenščina) - Telugu (తతతతతత)
Wikipedias mit mehr als 10.000 Artikeln
(25) Albanisch (Shqip) - Baskisch (Euskara) - Bengali (తతతతత) - Bishnupriya
Manipuri (తతతత తతత/తతతతతతతతతతతతత తతతతతతత) Bosnisch (Bosanski) - Bretonisch (Brezhoneg) - Einfaches Englisch (Simple
English) - Galicisch (Galego) - Georgisch (ქართული) - Griechisch (Ελληνικά) Hindi (ह न ) - Ido (Ido) - Isländisch (Íslenska) - Javanisch (Basa Jawa) Lateinisch (Latina) - Luxemburgisch (Lëtzebuergesch) - Malaiisch (Bahasa
Melayu) - Neapolitanisch (Nnapulitano) - Nepal Bhasa (नप ल भ ष ) - Norwegisch
(Nynorsk) - Persisch (‫ )فارسی‬- Serbokroatisch (Srpskohrvatski / Српскохрватски)
- Sundanesisch (Basa Sunda) - Tamilisch (தம ழ) - Thailändisch (ไทย) Vietnamesisch (Tiếng Việt)
U. Quasthoff
Textdatenbanken
20
Wikipedia Eigenschaften
•
•
•
•
Wenig Redundanz
Fachlich breit gefächert
Es existieren Richtlinien für Autoren
Fast keine 1./2. Person
U. Quasthoff
Textdatenbanken
21
Projekt Gutenberg und Verwandte
Gutenberg in Zahlen
• mehr als 3.000 Bücher, (über 1.000.000 Buchseiten)
• ca. 20.000 Gedichte
• 1.800 Märchen
• 1.200 Fabeln
• 3.500 Sagen
• ca. 3,3 Millionen Seitenabrufe (Pageimpressions) / Monat
Stand: Juni 2007
U. Quasthoff
Textdatenbanken
22
Dimension Zeit
Wann sind Zeitscheiben sinnvoll?
• Beobachtung von zeitlichen Veränderungen
• Neuheiten
• Trends
U. Quasthoff
Textdatenbanken
23
Inhalt
•
•
•
•
•
•
Archiv – Korpus – Textdatenbank
Korpuserstellung: Texte sammeln
Korpuserstellung: Texte aufbereiten
Textdatenbank erstellen
Korpora vergleichen und abfragen
Paralleler Text
U. Quasthoff
Textdatenbanken
24
Sprache ermitteln I
•
•
•
•
Die Sprache eines Textes muss ermittelt bzw. verifiziert werden.
Die Aufgabe ist um so einfacher, je länger ein Text ist.
Sehr leicht für Texte mit N=200 Wörtern oder mehr:
– Benutze für jede der zu untersuchenden Sprachen die Liste der häufigsten
L=50 Wörter.
– Stelle fest, welche Liste die meisten Vertreter im Text hat.
– Falls es einen deutlichen Sieger gibt, ist dies die Sprache des Textes.
Der Algorithmus funktioniert auch für kleinere N (z.B. N=10, ein Satz), wenn L
entsprechend größer gewählt wird. Faustregel: N*L=10.000
Voraussetzung für diesen Algorithmus: Sprache bekannt, denn Stoppwörter müssen
bereitgestellt werden.
U. Quasthoff
Textdatenbanken
25
Rohtext
Unstrukturierter A S C I I -Text wird als Grundlage für die statistischen und
clusterbasierten Verfahren des Text Mining benötigt.
Quellen:
• Meist: HTML-Text aus dem Web (unproblematisch wegen einheitlicher und
bekannter Struktur).
• Seltener: pdf-Dokumente, XML aus Satzsystemen (problematisch, da pdfKonverter unzuverlässig und XML-Struktur uneinheitlich).
U. Quasthoff
Textdatenbanken
26
Dokumente
Text liegt in folgender Form vor:
<quelle> <name>http://...</quelle>
Die beiden englischen Vereine FC Chelsea ...
Dies ist nicht das ganze Originaldokument, sollte aber den Text (nicht aber die Bilder,
Tabellen, Links, ...) des Originaldokuments im wesentlichen vollständig enthalten.
Nächster Schritt: Wir zerlegen den Text in die nächstkleineren Teile: Sätze.
Dabei verlieren eventuelle Unvollständigkeiten auf der Dokumentebene an
Bedeutung.
U. Quasthoff
Textdatenbanken
27
Korrekte Konvertierung
<quelle>
<name>http://www.stock-world.de/sports/Sport__425/2262889Chelsea_und_ManU_im_Halbfinale.html</name>
<name_lang>http://www.stock-world.de/sports/Sport__425/2262889Chelsea_und_ManU_im_Halbfinale.html</name_lang></quelle>
Die beiden englischen Vereine FC Chelsea und Manchester United sind in das
Halbfinale der Champions League eingezogen. Der Londoner Club setzte sich
beim FC Valencia mit 2:1 (0:1) durch und zog nach dem 1:1 aus dem Hinspiel in
die Runde der letzten vier ein. ManU qualifizierte sich nach einer GalaVorstellung gegen den AS Rom für das Halbfinale. Der Tabellenführer der
englischen Premier League feierte im Stadion Old Trafford einen 7:1 (4:0)
Kantersieg gegen die Italiener.
U. Quasthoff
Textdatenbanken
28
Zerlegung des Textes in Teile
0. Schritt: Entfernen von HTML-Markup o.ä.
1. Schritt: Zerlegung des Textes in Sätze (s. letzte Vorlesung)
2. Schritt: Zerlegung des Textes in Wörter (heute)
U. Quasthoff
Textdatenbanken
29
Regeln zur Satzsegmentierung I
Zunächst einige einfache Regeln für den Satzanfang:
• Sätze beginnen niemals mit Kleinbuchstaben.
• Nach einer Überschrift beginnt ein neuer Satz.
• Am Anfang eines Absatzes beginnt ein neuer Satz.
• Groß geschriebene Artikel (wie Der, Die, Den, ...) sprechen für einen Satzanfang.
• Beginnt kein neuer Absatz, so steht vor dem neuen Satz ein Satzendezeichen.
U. Quasthoff
Textdatenbanken
30
Regeln zur Satzsegmentierung II
Analog gibt es einige einfache Regeln für das Satzende:
• Sätze enden mit einem Satzendezeichen. Solche Satzendezeichen sind Punkt,
Fragezeichen und Ausrufezeichen. Nach dem Satzendezeichen muss zusätzlich ein
white space (meist ein Leerzeichen, s.u.) stehen. Achtung, Punkte können auch an
anderer Stelle stehen, z.B. nach Abkürzungen oder Zahlen.
• Vor einer Überschrift endet ein Satz.
• Am Ende eines Absatzes endet ein Satz.
• Überschriften sollten wie Sätze behandelt werden.
U. Quasthoff
Textdatenbanken
31
Segmentierung in Wörter I
Naiver Ansatz:
• Im Deutschen sind die Wörter eines Textes durch Leerzeichen getrennt (anders als
z.B. im Chinesischen).
• Also zerlegen wir einfach einen Satz an den Leerzeichen (und harten
Zeilenumbrüchen) und erhalten die Wörter dieses Satzes.
• Eventuell müssen wir nach der Trennung bei den Leerzeichen noch Satzzeichen
wie Punkt, Komma und Anführungszeichen entfernen.
Die Zwischenräume zwischen Wörtern werden auch als white space bezeichnet.
U. Quasthoff
Textdatenbanken
32
Inhalt
•
•
•
•
•
•
Archiv – Korpus – Textdatenbank
Korpuserstellung: Texte sammeln
Korpuserstellung: Texte aufbereiten
Textdatenbank erstellen
Korpora vergleichen und abfragen
Paralleler Text
U. Quasthoff
Textdatenbanken
33
Speicherung in einer Datenbank
In einer relationalen Datenbank sollen die anfallenden Daten gespeichert werden:
•
•
•
•
•
Sätze
Wörter (mit Anzahl im Korpus)
Inverse Liste zum Nachschlagen der Wörter
Angaben zu Einzelwörtern: Grammatik, Sachgebiet, ...
Wortpaare mit Angaben, z.B. Synonyme und Kookkurenzen
U. Quasthoff
Textdatenbanken
34
Speicherung der Sätze
Tabelle sentences mit s_id, sentence, source
s_id:
sentence:
source:
Id des Satzes, fortlaufend nummeriert
Der Volltext des Satzes als String.
(Verweis auf) die Quelle (URL) des Satzes
Index auf: s_id
Evtl. weitere Angaben wie z.B. Sprache
U. Quasthoff
Textdatenbanken
35
Angaben zu Sätzen:
Tabelle sentences
Tabelle sentences mit Spalten s_id und sentence
Index auf s_id
+------+-------------------------------------------------------------+
| s_id | sentence
|
+------+-------------------------------------------------------------+
|
3 | Leder: Vielleicht ringt Normann nur um Anerkennung.
|
|
6 | Das können die Fachleute beraten.
|
|
10 | Rose sei Realist, einer, der erst denkt und dann handelt.
|
|
12 | Ich liege im Bett, im Krankenhaus, träume tief und dunkel. |
|
17 | Das von Seoul finanzierte Projekt ist in der Anfangsphase. |
|
18 | Auf dem Bus steht in kursiven Lettern: Die Wölfe kommen.
|
|
29 | Jeder westliche Soldat wird im Irak als Besatzer angesehen. |
|
31 | Damit ist sie aber hoffnungslos überfordert.
|
|
32 | Vogts Konzept trug schnell Früchte.
|
|
36 | Erich Mielke ist an allem Schuld.
|
|
38 | Wir haben den Willen zur aktiven Zusammenarbeit.
|
|
49 | Die beiden Insassen blieben jedoch unverletzt.
|
|
59 | "Das hätte uns gut getan."
|
|
60 | Demnächst will er auf die Auer Dult.
|
+------+-------------------------------------------------------------+
U. Quasthoff
Textdatenbanken
36
Angaben zu Sätzen: Quellen
Tabelle sources mit Spalten so_id, source und date
Index auf so_id
+-------+------------------------------------+------------+
| so_id | source
| date
|
+-------+------------------------------------+------------+
|
1 | Berliner Zeitung vom 30.11.2001
| 2001-11-30 |
|
2 | Süddeutsche Zeitung vom 15.03.2002 | 2002-03-15 |
|
3 | Süddeutsche Zeitung vom 27.09.2001 | 2001-09-27 |
+-------+------------------------------------+------------+
Tabelle inv_s mit Spalten so_id und s_id
Index auf s_id
+--------+------+
| so_id | s_id |
+--------+------+
| 118823 |
1 |
| 118823 |
2 |
|
1527 |
3 |
+--------+------+
U. Quasthoff
Textdatenbanken
37
Angaben zu Sätzen: Quellen
Tabelle sources mit Spalten so_id, source und date
Index auf so_id
+-------+------------------------------------+------------+
| so_id | source
| date
|
+-------+------------------------------------+------------+
|
1 | Berliner Zeitung vom 30.11.2001
| 2001-11-30 |
|
2 | Süddeutsche Zeitung vom 15.03.2002 | 2002-03-15 |
|
3 | Süddeutsche Zeitung vom 27.09.2001 | 2001-09-27 |
+-------+------------------------------------+------------+
Tabelle inv_s mit Spalten so_id und s_id
Index auf s_id
+--------+------+
| so_id | s_id |
+--------+------+
| 118823 |
1 |
| 118823 |
2 |
|
1527 |
3 |
+--------+------+
U. Quasthoff
Textdatenbanken
38
Speicherung der Wörter
Tabelle words mit w_id, word, freq
w_id:
word:
freq:
Id des Wortes, Nummerierung s. nächste Folie
Das Wort als String.
Häufigkeit des Wortes, absolute Frequenz im Korpus
Index auf: w_id, word
U. Quasthoff
Textdatenbanken
39
Die häufigsten Wortgruppen
Wortgruppen
In die Wortliste aufgenommen werden auch
Wortgruppen bestehend aus zwei oder mehr
Wörtern, die dann in dieser Reihenfolge
vorkommen müssen.
Wie werden die Anzahlen der Wörter aus
Wortgruppen gezählt? Wir zählen zunächst die
Einzelwörter ohne Berücksichtigung der
Wortgruppen, danach noch einmal nur die
Wortgruppen. Wörter in Wortgruppen werden
also mehrfach gezählt.
Vorteil: Das Hinzufügen oder Weglassen von
Wortgruppen ändert die Anzahlen der
Einzelwörter nicht!
U. Quasthoff
Textdatenbanken
+------+------------------+------+
| w_id | word
| freq |
+------+------------------+------+
| 290 | vor allem
| 8017 |
| 604 | zum Beispiel
| 2644 |
| 650 | unter anderem
| 2544 |
| 668 | immer wieder
| 2405 |
| 853 | Vor allem
| 1849 |
| 890 | am Ende
| 1753 |
| 923 | New York
| 1681 |
| 1157 | Ende des
| 1323 |
| 1182 | Gerhard Schröder | 1306 |
| 1205 | am Wochenende
| 1275 |
| 1245 | DIE WELT
| 1240 |
| 1326 | Jahre alt
| 1200 |
| 1371 | in H÷he von
| 1071 |
| 1399 | nach wie vor
| 1068 |
| 1430 | immer mehr
| 1066 |
| 1596 | ersten Mal
| 981 |
| 1524 | in der Nacht
| 957 |
| 1622 | kurz vor
| 950 |
| 1640 | im Vergleich
| 937 |
| 1627 | zu Hause
| 922 |
| 1617 | so viel
| 919 |
| 1669 | zwei Wochen
| 896 |
| 1751 | dieses Jahres
| 885 |
| 1725 | im Osten
| 880 |
| 1752 | im Sommer
| 842 |
| ... | ...
| ... |
+------+------------------+------+
40
Wortgruppen
Frage: Wie findet man sinnvolle Wortgruppen? Wir brauchen statistische
Auffälligkeit und sinnvolle Grenzen.
Vorgehen zur Erzeugung sinnvoller Wortgruppen:
Zu einem Korpus werden all die NB-Kollokationen als Wörter
hinzugenommen, die sowohl eine gewisse Mindestsignifikanz wie
auch eine gewisse Mindestfrequenz haben. Der Vorgang wird iteriert,
solange sinnvolle Dinge entstehen.
Hier: Korpus aus 2 Mill. Sätzen, Mindestanzahl und Mindestsignifikanz
für die Erzeugung sind jeweils 10.
U. Quasthoff
Textdatenbanken
41
Angaben zu Sätzen: Inverse Liste
Tabelle inv_w mit Spalten w_id, s_id und pos (wievieltes Wort im Satz)
Index auf s_id und w_id.
+------+------+-----+
| w_id | s_id | pos |
+------+------+-----+
|
1 |
92 | 26 |
|
1 | 104 | 21 |
|
1 | 527 | 15 |
|
1 | 647 |
8 |
|
1 | 728 | 18 |
+------+------+-----+
U. Quasthoff
Textdatenbanken
42
Angaben zu Wörtern: Sachgebiet
Tabelle subject_area mit Spalten w_id und subject_area
Index auf w_id
U. Quasthoff
+--------------------+---------+---------------+
| (word)
| w_is
| subject_area
|
+--------------------+---------+---------------+
| Abfangjäger
| 141400 | Luftfahrt
|
| Balustrade
| 113484 | Architektur
|
| Beinfreiheit
| 131029 | Auto
|
| Blinker
| 107209 | Auto
|
| Bodenplatte
| 104364 | Bauwesen
|
| wägen
| 102481 | Technik
|
| Windstoß
| 113556 | Meteorologie
|
Textdatenbanken
| Wölbung
| 126466
| Technik
|
43
Angaben zu Wortgruppen:
Synonyme
Relationen: Tabelle rel mit Spalten w1_id, group_id und type
Index auf w1_id, group_id
+---------------------+---------+------------+-----+
| word
| w_id
| group_id
| type|
+---------------------+---------+------------+-----+
| Abstammung
|
12488 |
37989 | V
|
| Abkunft
| 105235 |
37989 | v
|
| Geblüt
| 216266 |
37989 | v
|
| Herkunft
|
3223 |
37989 | v
|
| Herkommen
| 147265 |
37989 | v
|
| Deszendenz
| 1822552 |
37989 | v
|
| Herleitung
| 154039 |
37989 | v
|
| Provenienz
|
36948 |
37989 | v
|
| Abstammungslehre
| 382861 |
37990 | V
|
| Darwinismus
| 117034 |
37990 | v
|
Synonymgruppen: Wörter mit gleicher group_id gehören zu einer Gruppe, type gibt
den Typ an (hier: „vergleiche“, Daten aus Wörterbuch) . Ein Eintrag jeder Gruppe (mit
type in Großbuchstaben) dient der Benennung der Gruppe.
U. Quasthoff
Textdatenbanken
44
Angaben zu Wortpaaren:
Kookkurrenzen
Nachbarschaftskookkurrenzen: Tabelle co_n mit Spalten w1_id, w2_id und sig
Index auf w1_id, w2_id
+---------------+----------+----------+----------+-------------+
| (word_1)
| (word_2) | w1_id
|
w2_id | sig
|
+---------------+----------+----------+----------+-------------+
| geschmolzenes | Blei
|
202641 |
13296 |
25 |
| gehacktem
| Blei
|
848257 |
13296 |
30 |
| Mikrogramm
| Blei
|
10975 |
13296 |
36 |
| flüssiges
| Blei
|
55179 |
13296 |
36 |
| ...
| ...
|
... |
... |
... |
+---------------+----------+----------+----------+-------------+
Nachbarschaftskookkurrenzen. Linke Nachbarn zum Wort Nummer 13296 Blei. Dabei
enthält die Datenbank nur die Wortnummern, die dünn gesetzten Wörter dienen hier nur
zur Information
U. Quasthoff
Textdatenbanken
45
Inhalt
•
•
•
•
•
•
Archiv – Korpus – Textdatenbank
Korpuserstellung: Texte sammeln
Korpuserstellung: Texte aufbereiten
Textdatenbank erstellen
Korpora vergleichen und abfragen
Paralleler Text
U. Quasthoff
Textdatenbanken
46
Vorhaben: Normgrößenkorpora
Korpora
•
•
•
Verfügbarmachen der Korpora (in verschiedenen Normgrößen) für Nutzer
weltweit.
Wir können mit Daten und Austauschformaten Standards setzen.
Es besteht dringender Bedarf an solchen Korpora.
Größen
•
•
•
•
•
Anzahl von Sätzen: 100.000, 300.000, 1, 3, 10, 30 Millionen
Für jede Sprache bis zum jeweiligen Maximum
„Reinigen“ von fremdsprachlichen und nicht wohlgeformten Sätzen.
Sprachvergleich durch völlig gleiche Verarbeitung
Bereitstellung von Kookkurrenzen zur Weiterverarbeitung
U. Quasthoff
Textdatenbanken
47
Normgrößenkorpora
Das geplante Vorhaben zeichnet sich aus
• durch die größere Anzahl von Sprachen und den großen Umfang pro Sprache
• durch das einheitliche Format der Daten für alle Sprachen und
• durch die Vergleichbarkeit der Korpora auf Grund der Normgrößen
• durch die zusätzliche Lieferung statistischer Daten. Kookkurrenzdaten werden
nirgendwo angeboten und sind für viele Anwender nützlich.
U. Quasthoff
Textdatenbanken
48
Verfügbare Sprachen
U. Quasthoff
Textdatenbanken
49
Rohtext
Rohdatenbank
Datenbank
Zusatz-Daten
für Korpus
Zusatz-Daten
für Wörter
Rohtext
sammeln
Rohtext
zur Bearbeitung
auswählen
Sätze aus DB
exportieren
POS-Tagging
oder UnsuPOS
Wörterbuchdaten, Cognates
Abkürzungsliste
erzeugen / wählen
Datenbank
vollst. erstellen
POS-Datenbank
erstellen
WortSim-Daten
Kook. 2. Ord.
Satzsegmentieren
SatzSim-Daten
einfügen
Datenbanken
verknüpfen
NormgrößenKorpora erstellen
Statistisches
Parsen
UnsuPos-Tag
Flexion,
Morphologie
Silbentrennung
Komposita, WSI
Verlustrate?
Statistische
Auswertung
EigennamenErkennung
Beschreibungen
aus Wikipedia
Plausibilitätstests (statist.)
Test im
Browser
Zweites Putzen
Verlustrate?
Wortliste für
LanI exportieren
Sachgebiete usw.
für Sätze
Geo-Daten
einfügen
Wortgruppen
erzeugen
Dokumentation
Teil 1
Dokumentation
Teil 2
Dokumentation
Teil 3
Konvertieren,
Archivieren
Verlustrate?
Laufende
Funktionskontrolle
Plausibilitätstests
(Menge, Zeichen)
Mengenstatistik
nach Quellen
Datenbank
teilw. erstellen
Erstes Putzen
(Dubletten, LanI, Muster)
(SatzSim)
U. Quasthoff
Textdatenbanken
Wortnetze,
Anno-Daten
50
Elementare Abfragemöglichkeiten
Abfragen für Wörter
Statistisch
• Häufigkeit eines Wortes (im Korpus)
Analog zum Wörterbuch
• Grammatikangaben, Silbentrennung,
• Sachgebiet
• Bedeutungsbeschreibung, evtl. mehrere Bedeutungen
• Synonyme, Ober- und Unterbegriffe
Korpusbasierte Abfragen
• Gesucht sind Belegsätze für ein gegebenes Wort.
• Typisches gemeinsames Auftreten: Nachbarschafts- und Satzkookkurrenzen zu
einem Wort
U. Quasthoff
Textdatenbanken
51
Mehr Abfragemöglichkeiten
Abfragen für Wörter
Analog zum Wörterbuch
• Wörter ähnlicher Bedeutung
• Sachgebiet
• Synonyme, Ober- und Unterbegriffe
• Wörter mit ähnlicher Schreibweise (kleiner Levinshtein-Abstand)
Korpusbasierte Abfragen
• Belegsätze für Kookkurrenzen
• Gesucht sind Belegsätze für die verschiedenen Bedeutungen eines Wortes.
• Kookkurrenzen sortiert nach den Bedeutungen des Stichwortes
• Kookkurrenzen sortiert nach Wortart
U. Quasthoff
Textdatenbanken
52
Abfragen für Sätze
•
•
•
Satz mit POS-Tags
Satz mit Syntaxbaum
Ähnliche Sätze
– nach Inhalt
– nach Struktur
U. Quasthoff
Textdatenbanken
53
Abfragen für ein Korpus
U. Quasthoff
Textdatenbanken
54
Abfragen über mehrere Korpora
Welche Wörter kommen in Korpora verschiedener Sprachen gemeinsam vor?
• Eigennamen (George W. Bush, IBM)
• Internationalismen: Video, Computer
• Einige Stoppwörter: in, an, ja
• Falsche Freunde: war (de/en)
Welche Wörter sind verblüffend ähnlich: Cognates
• Große Mindestlänge und kleiner Levinshtein-Abstand,
• z.B. Präsident / presidente / president, Universtität / universidad / university
U. Quasthoff
Textdatenbanken
55
Inhalt
•
•
•
•
•
•
Archiv – Korpus – Textdatenbank
Korpuserstellung: Texte sammeln
Korpuserstellung: Texte aufbereiten
Textdatenbank erstellen
Korpora vergleichen und abfragen
Paralleler Text
U. Quasthoff
Textdatenbanken
56
Aufgabenstellung
Es gibt für viele Texte Übersetzungen, in einigen günstigen Fällen ist alles frei
verfügbar.
Frage: Wie lässt sich daraus ein zweisprachiges Wörterbuch konstruieren?
Oder: Wie lässt sich daraus das Wissen des Übersetzers „rekonstruieren“?
Arbeitsschritte:
Gegeben ist ein (möglicherweise großes) Dokument mit seiner Übersetzung.
Finde immer kleinere zusammengehörige Textteile:
• Absätze
• Sätze
• Wörter
U. Quasthoff
Textdatenbanken
57
Beispiel für Paralleltext: Vorher
English
French
According to our survey, 1988 sales of
mineral water and soft drinks were much
higher than in 1987, reflecting the growing
popularity of these products. Cola drink
manufacturers in particular achieved aboveaverage
growth rates. The higher turnover
was largely due to an increase in the sales
volume. Employment and investment levels
also climbed. Following a two-year transitional
period, the new Foodstuffs Ordinance
for Mineral Water came into effect on April
1, 1988. Specifically, it contains more stringent
requirements regarding quality consistency
and purity guarantees.
Quant aux eaux minérales et aux limonades,
elles rencontrent toujours plus d'adeptes. En
effet, notre sondage fait ressortir des ventes
nettement supérieures a celles de 1987, pour
les boissons ~ base de cola notamment. La
progression des chiffres d'affaires résulte en
grande partie de l'accroissement du volume
des ventes. Uemploi et les investissements
ont également augmenté. La nouvelle ordonnance
fédérale sur les denrées alimentaires
concernant entre autres les eaux minérales,
entrée en vigueur le ler avril 1988 aprés une
période transitoire de deux ans, exige surtout
une plus grande constance dans la qualité et
une garantie de la pureté.
U. Quasthoff
Textdatenbanken
58
Parallel Resources
•
•
•
•
Newswire: DE-News (German-English), Hong-Kong News, Xinhua News
(Chinese-English),
Government: Canadian-Hansards (French-English), Europarl (Danish, Dutch,
English, Finnish, French, German, Greek, Italian, Portugese, Spanish, Swedish),
UN Treaties (Russian, English, Arabic, . . . )
Manuals: PHP, KDE, OpenOffice (all from OPUS, many languages)
Web pages: STRAND project (Philip Resnik)
U. Quasthoff
Textdatenbanken
59
Word-Level Alignments
•
Given a parallel sentence pair we can link (align) words or phrases that are
translations of each other:
U. Quasthoff
Textdatenbanken
60
Sentence Alignment
• If document De is translation of document Df how do we find the
translation for each sentence?
• The n-th sentence in De is not necessarily the translation of the n-th
sentence in document Df
• In addition to 1:1 alignments, there are also 1:0, 0:1, 1:n, and n:1
alignments
• Approximately 90% of the sentence alignments are 1:1
U. Quasthoff
Textdatenbanken
61
Sentence Alignment (c’ntd)
• There are several sentence alignment algorithms:
– Align (Gale & Church): Aligns sentences based on their character
length (shorter sentences tend to have shorter translations then
longer sentences). Works astonishingly well
– Char-align: (Church): Aligns based on shared character
sequences. Works fine for similar languages or technical domains
– K-Vec (Fung & Church): Induces a translation lexicon from the
parallel texts based on the distribution of foreign-English word
pairs.
U. Quasthoff
Textdatenbanken
62
Cognates
Definitions of cognates on the Web:
• Words from two languages that are similar in spelling and
meaning or sound and meaning
• Words that are similar in two or more languages as a result
of common descent.
• Cognates are words from different languages which are
related historically, eg English bath - German bad or
English yoke - Hindi yoga. Beware FalseFriends however.
U. Quasthoff
Textdatenbanken
63
Extraction of cognates
• string comparison on
the level of types in
two parallel segments:
Perl module
String::Approx
(Hietanainen 2002)
• high precision →
cognates override
bilingual lexicon
U. Quasthoff
informatika
infrastrukture
instrumentacija
integracija
integrala
iterativen
karakteristik
kaskade
koeficient
komponenta
koncentracijo
koncept
konstanta
konvergenca
koordinat
linearne
logisticxna
materiali
matrika
Textdatenbanken
informatics
infrastructure
instrumentation
integrating
integral
iterative
characteristics
cascade
coefficient
component
concentration
concept
constant
convergence
coordinates
linear
logistic
materials
Matrix
64
Soundex: Ähnlich klingende Wörter
Kodierungsschema für Buchstaben
1:
BPFV
2:
CSKGJQXZ
3:
D T 4:
L 5:
M N 6:
R
Regeln:
1.
Ersten Buchstaben übernehmen
2.
A E I O U W Y H löschen
3.
Restliche Buchstaben entsprechend Kodierungsschema ersetzen
4.
Dopplungen löschen
5.
Auf 4 Zeichen kürzen, ggf. mit Nullen auffüllen.
Varianten:
Reihenfolge 1,3,4,2,5
Schritt 5 weglassen (z.B. bei MySQL)
U. Quasthoff
Textdatenbanken
65
Trans-co-occurrences
Translingual co-occurrences
‘normal‘ co-occurrences:
• Calculaton performed on sentence basis
• Co-occurrents can be found frequently together in sentences
Trans-co-occurrences:
• Calculaton performed on bilingual sentence pairs
• Co-occurrents can be found frequently together in bilingual sentence pairs
• Hypothesis: significant co-occurrences between words of different languages (=
trans-co-occurrences) are translation equivalents
U. Quasthoff
Textdatenbanken
66
Example:
Gesellschaft@de society@en
Die@de drogenfreie@de Gesellschaft@de wird@de es@de aber@de nie@de geben@de .@de But@en
there@en never@en will@en be@en a@en drug-free@en society@en .@en
Unsere@de Gesellschaft@de neigt@de leider@de dazu@de ,@de Gesetze@de zu@de umgehen@de .@de
Unfortunately@en ,@en our@en society@en is@en inclined@en to@en skirt@en round@en the@en
law@en .@en
Zum@de Glück@de kommt@de das@de in@de einer@de demokratischen@de Gesellschaft@de
selten@de vor@de .@de Fortunately@en ,@en in@en a@en democratic@en society@en this@en
is@en rare@en .@en
Herr@de Präsident@de !@de Wir@de leben@de in@de einer@de paradoxen@de Gesellschaft@de .@de
Mr@en President@en ,@en we@en live@en in@en a@en paradoxical@en society@en .@en
Ich@de sprach@de vom@de Paradoxon@de unserer@de Gesellschaft@de .@de I@en mentioned@en
what@en is@en paradoxical@en in@en society@en .@en
Zeit@de ist@de Macht@de in@de unserer@de Gesellschaft@de .@de Time@en is@en power@en
in@en our@en society@en .@en .
In all sentence pairs, Gesellschaft@de and society@en occur together.
U. Quasthoff
Textdatenbanken
67
Example:
top-ranked trans-co-occurrences
Gesellschaft: society@en (12082), social@en (342), our@en (274), in@en (237), societies@en (226),
Society@en (187), women@en (183), as@en a@en whole@en (182), of@en our@en (168),
open@en society@en (165), democratic@en (159), company@en (137), modern@en (134),
children@en (120), values@en (120), economy@en (119), of@en a@en (111), knowledgebased@en (110), European@en (105), civil@en society@en (102)
society: Gesellschaft@de (12082), unserer@de (466), einer@de (379), gesellschaftlichen@de (328),
Wissensgesellschaft@de (312), Menschen@de (233), gesellschaftliche@de (219), Frauen@de (213),
Zivilgesellschaft@de (179), Gesellschaften@de (173), Informationsgesellschaft@de (161),
modernen@de (157), sozialen@de (155), Wirtschaft@de (132), Leben@de (119), Familie@de (118),
Gesellschaftsmodell@de (108), demokratischen@de (108), soziale@de (98), Schichten@de (97)
kaum: hardly@en (825), scarcely@en (470), little@en (362), barely@en (278), hardly@en any@en
(254), very@en little@en (186), almost@en (88), difficult@en (68), unlikely@en (63), virtually@en
(53), scarcely@en any@en (51), impossible@en (47), or@en no@en (40), there@en is@en (38),
hardly@en ever@en (37), any@en (32), hardly@en anything@en (32), surprising@en (31),
hardly@en a@en (29), hard@en (28)
hardly: kaum@de (825), wohl@de kaum@de (138), schwerlich@de (64), nicht@de (51),
verwunderlich@de (43), kann@de (37), wenig@de (37), wundern@de (25), man@de (21),
dürfte@de (17), gar@de nicht@de (17), auch@de nicht@de (16), gerade@de (16), überrascht@de
(15), fast@de (14), überraschen@de (14), praktisch@de (13), ist@de (12), schlecht@de (12),
verwundern@de (12)
U. Quasthoff
Textdatenbanken
68
Alignment: Example 1
Die Landwirtschaft stellt nur 5,5 % der Arbeitsplätze der Union .
1
21
13
13
3
1
2
Agriculture only provides 5.5 % of employment in (the Union) .
Agriculture only provides 5.5 % of employment in (the Union) .
1 15
1
4
2 1
Die Landwirtschaft stellt nur 5,5 % der Arbeitsplätze der Union .
Red Words: No alignment
Blue Arrows: Errors
Arrow
Index: rank in trans-co-occurrences
U.
Quasthoff
Textdatenbanken
69
Alignment: Example 2
Indem wir den Mitgliedstaaten für die Umsetzung der Richtlinie kein spezifisches
Datum setzen ,
1
1
1
4
1
2
1
7
1
1
15
By not setting a specific date (for the) Member States (to implement) the directive
1
1
sondern ihnen einen Zeitraum von drei Monaten nach Inkrafttreten der Richtlinie zugestehen ,
1
1 1
1
1
1
1
1,2,3
and instead giving them a period of three months after its (entry into force) ,
1 1
1
4
1 1
führen wir eine Flexibilitätsklausel ein ,
1
1
2
1
1
we are introducing a flexibility clause
1
1
1
1
die eine unverzügliche Umsetzung gewährleistet .
5
4
4
4
which ensures that the directive will be implemented without delay .
U. Quasthoff
Textdatenbanken
Grey Arrows: Multiple alignments for frequent words.
70