Foliensatz zum Vortrag - StudiGer

Transcription

35. Jahrestagung der DGfS, 12.-15. März 2013, Potsdam
Arbeitsgruppe 10: Modellierung nicht-standardisierter Schriftlichkeit
Thomas Bartz, Angelika Storrer
Korpusbasierte Analyse
internetbasierter Kommunikation
Phänomene und Herausforderungen
*räusper* Hömma woher kommste denn?
Ick bin aus Do-Stadt, net aus Berlin.
Dortmunder Chat-Korpus: 1101001a_CvK_Welcome_2004-10-22_a.xml
Technische Universität Dortmund
Institut für
deutsche
Sprache und Literatur
Technische
Universität
Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 10.04.2013: 1
0. Dieser Vortrag
Überblick über den Vortrag
1. Motivation und Projekthintergrund
2. Phänomene und Herausforderungen
3. Ausblick
Korpusbasierte Analyse internetbasierter Kommunikation
Empirische Untersuchungen an Sprachdaten aus
Genres internetbasierter Kommunikation (IBK)
So ruhig kann ein Mann sein,
der verkörpern muss, was er
singt, nämlich Ein bisschen
Spaß muss sein, was genauso
fürchterlich ist wie alles, was
sein muss.

ermöglichen Einblicke in die sprachlichen
Besonderheiten des Kommunizierens im Netz
(im Vergleich zu „traditionellen“ schriftlichen und
mündlichen Kommunikationsformen),

helfen, durch IBK angestoßene sprachliche
Innovationen und aktuelle Tendenzen des
Sprachwandels in der Gegenwartssprache
aufzudecken.

sind auch für die Arbeit mit linguistisch
aufbereiteten Webkorpora in Linguistik,
Computerlinguistik und Informatik interessant.
Die Zeit, 04.11.2004, Nr. 46
Hallo Martin alles klar, wie sang
schon einst Roberto Blanco?
Ein büschen Späßken muss
sein. In diesem sinne
angenehme Wikiwoche.
Glückauf
http://de.wikipedia.org/wiki/Benutzer_Diskussi
on:Pittimann/Archiv/2012/Januar
Dilemma:
 Benötigt werden hochwertige, linguistisch
aufbereitete Spezialkorpora, deren Aufbau aber
gerade aufgrund der IBK-Besonderheiten eine
Herausforderung darstellt.
Projekt „Deutsches Referenzkorpus zur internetbasierten
Kommunikation“ (DeRiK)
BBAW / TU Dortmund (seit 2010), www.dwds.de
DFG-Netzkerk „Empirische Erforschung internetbasierter
Kommunikation“
(seit 2010) Sprecher: Michael Beißwenger, www.empirikom.net
Netzwerk “Building & Annotating CMC Corpora“
Korpusprojekte aus D, F, IT, NL (seit 2013), wiki.itmc.tu-dortmund.de/cmc/
BMBF-Verbundprojekt „Korpusgestützte Recherche und
Analyse mit Hilfe von Data Mining“ (KobRA)
TU Dortmund: Germanistik/Informatik, BBAW, SfS Tübingen, IDS Manneim
(seit 2012) Projektleitung: Angelika Storrer, www.kobra.tu-dortmund.de
Nicht-standardisierte Schriftlichkeit in der IBK:
Interaktionsorientiertes Schreiben
Zu den Besonderheiten der IBK gehört eine Schreibhaltung, bei der der
unmittelbare kommunikative Erfolg im Kontext der laufenden Interaktion eine
höhere Priorität hat als die (für Schrifttexte sonst notwendige)
situationsunabhängige Verständlichkeit des sprachlichen Produkts.
Dies zeigt sich an folgenden typischen Merkmalen:

Schnellschreib-Phänomene

Sprachliche Ökonomie:
Liberaler Umgang mit GKS und
Interpunktion; Akronyme

Orientierung am Duktus
der gesprochenen Umgangssprache
(Lexik und Syntax)

„Verschriftete Umgangssprache“:
An der umgangssprachlichen Lautung orientierte Verschriftungen

Innovative semiotische und sprachliche Formen:
Emoticons,
Inflektive,
Adressierungsausdrücke
Technische Universität
Dortmund
wieso stoeps?biste
losgerannt einkaufen udn
ahst vergessen dich
anzuziehen vorher?*G*
Tests mit
Werkzeugen zur
automatischen
Annotation
Testdatenset:
Belege für ausgewählte Phänomene
IBK-spezifischer
Sprachverwendung
Phänomene
WikipediaChat
Diskussionen
Ökonomie: Akronyme
100
100
Verschriftete Umgangssprache:
Wortschreibung
100
100
Verschriftete Umgangssprache:
Kontraktive Formen
100
100
Innovative Zeichen: Emoticons
100
100
Innovative Zeichen: Aktionswörter
100
100
Belege gesamt
DWDS
100
1000
Toolchain 1: Tokenisierer/Satzgrenzenerkenner + TreeTagger des IMS
Toolchain 2: Tokenisierer/Satzgrenzenerkenner + OpenNLP-Tagger (SfS)
Automatische Verarbeitung von IBK-Sprachdaten:
Herausforderungen auf verschiedenen Ebenen
Tokenizer
Tagset: STTS
POS-Tagger
Daten
 Segmentierung
Tokenizer
POS-Tagger
Tagset: STTS
Nicht-standardkonforme
Verwendungen von
Spatien und Interpunktionszeichen führen bei
der Tokenisierung z.T.
zu Einheiten, die in den
folgenden Schritten der
Verarbeitung nicht
sinnvoll klassifizierbar
sind.
Daten

 Segmentierung
Tokenizer
POS-Tagger
Tagset: STTS
Verwendungen von
Verarbeitung nicht
sind.
Daten
Klassifizierung
Einheiten werden trotz
korrekter bzw. normalisierter Segmentierung
nicht als Vertreter im
Tagset vorhandener
Kategorien identifiziert.

 Segmentierung
Tokenizer
POS-Tagger
Tagset: STTS
Verwendungen von
Verarbeitung nicht
sind.
Daten
Klassifizierung
Einheiten werden trotz
korrekter bzw. normalisierter Segmentierung
nicht als Vertreter im
Tagset vorhandener
Kategorien identifiziert.
 Kategorien
Einheiten können trotz korrekter bzw. normalisierter
Segmentierung nicht zugeordnet werden, weil im
Tagset keine entsprechende Kategorie existiert.
Ökonomie:
IBK-typische und okkasionelle Akronyme
IMHO in my humble opinion
bspw. beispielsweise
Die Akronyme werden
z.T. in Kombination mit
anderen Einheiten
verwendet.
Einzelne Bestandteile
können iteriert oder
variiert werden.
b.t.w.
by the way
Btw.
by the way
vllt
vielleicht
evt.
eventuell
mE
meines Erachtens
zB
zum Beispiel
cuuuuu
see you
Thx
thanks
cya
see ya
jmd
jemand(en)
cu@all
+ Adressierung
LG
Liebe Grüße
rääää
„re“ = returned
POV
point of view (in Wikipedia-Diskussionen)
 Segmentierung
Tokenizer
Korrekte Tokenisierungen
Toolchain 2
Datenset
98
98
Wikip.-Diskussion
89
92
Chat
<>vllt</> 
<>cs=chpo</> 
Tagset: STTS
Toolchain 1
POS-Tagger
Daten
 Klassifizierung
Korrekte POS-Tags
Toolchain 1
Toolchain 2
Datenset
8
21
Wikip.-Diskussion
10
17
Chat
dat fusion-pack fuer cs/FM 
Sollen wir evt./ADJD  nicht gleich anfangen
sollte das mE/ADV  noch ergänzt werden
Ansonsten: IMO/NE 
Abgekürzte Wortformen werden
getaggt wie die ausgeschriebene
Form.
Mehrteilige, nicht durch Spatien
getrennte Abkürzungen werden
entsprechend ihrer
syntaktischen Funktion
klassifiziert.
Vgl. STTS-Guidelines: 9
Wortschreibung
DWDS
Wikipedia-Diskussion
Chat
ja, in ihm offenbare sich
Jo, gute Vorbereitung ist
ahjo :)
Nein, mein Leben besteht
Nö, hat er nicht mehr ;-)
nope nusu, nur die üblen
Okay, okay, sie ist ein
okidoki, sag Bescheid
oki...mach‘s gut
Gut, gelegentlich brachte
Jut, ich find die Variante
jo mir jehts jut dir och
das ist schon kraftraubend Schaden kann dat ja nich
syno det is to wenig for de
nicht genug Anregungen
ich wars ja net ;O)
nur mit Dir. Sonst nüscht.
Guten Tag, Silke
gudn tach! ok, mach ich
all gun tach, kolleje jauch!
ins Grübeln, was?
Wat bisse, derzeit bei die
na watt?
Chance für Kollege Zufall
nur unter Kollegen und
all gun tach, kolleje jauch!
wieder gucken konnten
mal mal drüber guggn.
und pösguggende elsi :)
Mit letzten Grüßen
nicht ;o) Grüßken
greetz von nadi
 Segmentierung
Tokenizer
Toolchain 2
Datenset
99
100
Wikip.-Diskussion
91
92
Chat
100
100
DWDS
<>moin,moin:-</> 
<>dori,wa?:-</> 
Tagset: STTS
Toolchain 1
POS-Tagger
Daten
 Klassifizierung
Korrekte POS-Tags
Toolchain 1
Toolchain 2
Datenset
34
44
13
87
Jut/NN 
jetze/VVFIN 
Wikip.-Diskussion
Jute/VVFIN 
Vadder/NN 
15
Chat
Jo/NE 
feddich/ADJD 
83
DWDS
okidoki/NE 
nix/PIS 
Kontraktive Formen
wasn dat fürn heller streifen auf
dem monitor?
na da haste aber was
verschlimmbessert, machstes
selber rückgängig? :)
slebst anna uni inna mensa
shcmeckt das richtig gut
Standard
Non-standard
Typ / STTS-Tags
findest du, ich kenne es
geht es
findest + e, kenn + s,
geht + s
VVFIN + PPER
mach es, schreib es
mach + s, schreib + s
VVIMP + PPER
hast du, bist du, ist es
hast + e, bist + e, iss + es VAFIN + PPER
könntest du, kann es
könntest + e, kann + s
VMFIN + PPER
machst du es
machst + e + s
VVFIN + PPER + PPER
 Segmentierung
Tokenizer
Toolchain 2
100
Datenset
Tagset: STTS
Toolchain 1
POS-Tagger
100 Wikip.-Diskussion
96
92 Chat
Daten
 Klassifizierung
Zugewiesene POS-Tags (Auswahl)
Toolchain 1
Toolchain 2
VVFIN
35 VVFIN
VVIMP
1 VMFIN
Datenset
26
NN
34 VAFIN
6
VVFIN
41 VVFIN
34
VMFIN
6 VAFIN
NN
32 VMFIN
„Es ist bis jetzt […] nicht
möglich, […] kontraktive
Formen mit einer Kombination
aus mehreren Tags zu
versehen.“
STTS-Guidelines: 9
11 Chat
6
Innovative Zeichen:
Emoticons
:)
(:
:-)
:-))
:-)))
:o)
;-)
;-))))
:(
:-(
:O)
:P
:-P
8)
=o)
:-}
(#):-)
>:->
:Ü
:-9
8)
:-?
^^
-.o_O
O-O
---./\.--°_°
´°`-´°`
«o•o»
Die Menge an Kombinationen aus Interpunktionszeichen,
Zahlen und Buchstaben, die als Emoticons verwendet
werden können, ist prinzipiell nicht begrenzt.
Einzelne Elemente von Emoticons werden häufig
absichtsvoll und kreativ iteriert.
Weiß zufällig jemand, warum der Verein sich - entgegen
allen Rechtschreibregeln :) - mit -ss- und nicht mit -ßschreibt?
bekommt von mir einen Orden;-) Nee, mal im Ernst
bitte wo hat anthony hopkins in anaconda mitgespielt?
nirgends^^!
:((( Mit mir will einfach keiner chatten!:(((
@medien: ja, wenn man das so genau wüsste...:/
 Segmentierung
Tokenizer
Toolchain 1
Toolchain 2
<>:-D</> 
Datenset
23
48
45 Chat
<>(#):-) </> 
<>;-</> 
<>)</> 
<>)</> 
POS-Tagger
Tagset: STTS
Daten
 Kategorien
Zugewiesene POS-Tags (häufigste)
Toolchain 1
Toolchain 2
Datenset
ADJA/D
52 $./$,/$(
68
NN/NE
43 NN/NE
VVFIN
3 VV*
5
ADJA/D
52 NN/NE
40
NN/NE
43 $./$(
36 Chat
CARD
4 XY
15
Auffällig: Selten bzw. gar nicht
vergeben werden die
Kategorien:
 XY
„Nichtwort“, Symbolgruppen
oder Kombinationen aus
Ziffern und Zeichen
 ITJ
den Emoticons positional
und funktional ähnlich
Innovative Zeichen:
Inflektive und Inflektivkonstruktionen
Inflektive
*freu*
*lach*
*lächel*
*grins*
*ächz*
*stotter*
*wunder*
*wink*
*sss*
*lol*
*rofl*
*g*
*ggg*
Einfache Inflektive sind oft homonym zu bestimmten
Verbformen, insbesondere zu Imperativformen.
Bei mehrteiligen Inflektivkonstruktionen (z.T. ohne
Spatien) wäre die Möglichkeit einer Analyse der
Bestandteile wünschenswert.
Inflektivkonstruktionen
*baff bin*,
*entäuschtguck*, *fiesgrins*, *rotwerd*
*feuerzeug an reb weiterreich*,
*auf locher rumhüpf & konfetti mach*,
*beimpostmannbedank*,
*malganzdollgrüßundliebindenarmnehm*
 Segmentierung
Tokenizer
Toolchain 1
Toolchain 2
<>*freu*</> 
Datenset
9
9 Wikip.-Diskussion
0
0 Chat
POS-Tagger
<>*</> 
<>grins</> 
<>*</> 
Tagset: STTS
Daten
 Kategorien
Zugewiesene POS-Tags (häufigste)
Toolchain 1
Toolchain 2
Datenset
Tag VVIMP, wenn homonyme
Imperativform vorhanden
Toolchain 1
Datenset
VV*
41 XY
30
NN/NE
32 VV*
34 von 58 Wikip.-Diskussion
ADJA/D
25 ADJA/D
22
28 von 47 Chat
VV*
41 XY
46
ADJA/D
32 VV*
23 Chat
0 von 58 Wikip.-Diskussion
NN/NE
26 ADJA/D
20
1 von 47 Chat
Toolchain 2
Datenset
3. Zusammenfassung und Ausblick
Phänomene nicht-standardisierter Schriftlichkeit führen bei der automatischen
linguistischen Aufbereitung von Sprachdaten aus der internetbasierten
Kommunikation je nach Phänomentyp zu Herausforderungen auf
verschiedenen Ebenen des Verarbeitungsprozesses:
A
 Schnellschreib- und Ökonomie-Phänomene
 „Verschriftete Umgangssprache“
 Segmentierungsproblematik
Token-Verschmelzungen wegen
z.T. fehlender Spatien

Klassifizierungsproblematik
Vorhandene Kategorien werden
nicht zuverlässig zugewiesen
(abweichende Schreibungen,
sprechsprachliche Syntax).
Mögliche Lösung:
Aufbau handannotierter Korpora und Anpassung/Optimierung
vorhandener Sprachverarbeitungswerkzeuge
 Nächster Vortrag:
Kay-Michael Würzner, Lothar Lemnitzer, Alexander Geyken & Bryan Jurish:
Linguistische Annotation von Dokumenten internetbasierter
Technische Universität-Dortmund
Kommunikation
Eine explorative Analyse
B
 Innovative semiotische und sprachliche Formen
 Segmentierungsproblematik

Token-Verschmelzungen,
Aufsplittung zusammenhängender
netztypischer Zeichenkombinationen
Kategorienproblematik
Fehlende Kategorien für
netztypische Zeichen und
Wortformen in gängigen Tagsets
Mögliche Lösung:
 Entwicklung von Werkzeugen zur
Identifizierung netztypischer
Zeichenverwendungen
 Erweiterung relevanter
Kategorien in bestehenden
Annotationsschemata/Tagsets
Aktuelle Arbeiten:
Mitarbeit in der Arbeitsgruppe zur Überarbeitung des STTS
Thomas Bartz, Michael Beißwenger, Angelika Storrer
Vorschlag zur Erweiterung der TEI-Guidelines
um IBK-typische Elemente
M. Beißwenger, M. Ermakova, A. Geyken, L. Lemnitzer, A. Storrer (2012): A TEI Schema for the
Representation of Computer-Mediated Communication. In: Journal of the Text Encoding Initiative (TEI),
Universität Dortmund
issueTechnische
3 | November
2012 (DOI: 10.4000/jtei.476).
Ausblick:
Identifizierung IBK-typischer Zeichenverwendungen
Die Identifizierung IBK-typischer Zeichenverwendungen wird durch homonyme
konventionelle Zeichenverwendungen erschwert.
Instanz
wink, *wink*
:-)
Treffer
falsch
positiv
Belege
128
123
5
25.350
?
?
Niederlande – Finnland -:- (-:-)
:-), danke.
IBK-Stilelemente auf Wikipedia-Diskussionsseiten
BMBF-Verbundprojekt: KobRA
Entwicklung von Verfahren zur Filterung und Disambiguierung
bei der korpusbasierten Recherche und Analyse mit Hilfe von
Data-Mining. Beteiligte:
Angelika Storrer (Germanistik TU Dortmund, Koordination),
Katharina Morik (Informatik TU Dortmund),
Alexander Geyken (BBAW)
Erhard Hinrichs (SfS Tübingen)
Universität Dortmund
MarcTechnische
Kupietz,
Andreas
Witt
(IDS Mannheim)
Institut
für deutsche
Sprache und
Literatur
Korpus-basierte
Recherche und
Analyse mithilfe
von Data-Mining
http://www.kobra.tu-dortmund.de
35. Jahrestagung der DGfS, 12.-15. März 2013, Potsdam
Arbeitsgruppe 10: Modellierung nicht-standardisierter Schriftlichkeit
Thomas Bartz, Angelika Storrer
Korpusbasierte Analyse
internetbasierter Kommunikation
Phänomene und Herausforderungen
*räusper* Hömma woher kommste denn?
Ick bin aus Do-Stadt, net aus Berlin.
Dortmunder Chat-Korpus: 1101001a_CvK_Welcome_2004-10-22_a.xml
Institut für
deutsche
Sprache und Literatur
Technische
Universität
Dortmund

Foliensatz zum Vortrag - StudiGer

Transcription

Similar documents

slides - SFB 632

Heft 1/2013

Experiments with Tokenization and Part-of-speech

DVD Unterhaltung

Turf International

DVD und Blu-ray - Stadt Lübbecke

Busse-UP-1991-01