Plagiarism Detection Reduced to String Matching

Transcription

Plagiarism Detection Reduced to String Matching
Because it’s there: How
linguistic phenomena serve as
cognitive
opportunities
Laura A. Janda,
University of North Carolina
Stefan Brengel
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
1
Überblick
• Einleitung
• Vergleich von Kasusverwendung
• Zeit und Aspekt in slawischen Sprachen
• Recycling alter Morphologie
• Fazit
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
2
Einleitung
•Ziel: untersuchen inwiefern wie „expressive
opportunities“ geschaffen werden
Expressive Opportunities?
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
3
Einleitung
„Expressive opportunities“?
Je nach „Raum & Zeit“ verschiedene Möglichkeiten
bestimmte Konzepte in einer Sprache zu beschreiben
Behauptung: stark verwandte Sprachen (Bsp. slawische
Sprachen) zeigen große Unterschiede darin wie bestimmte
Konzepte realisiert werden
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
4
Einleitung
Beispiel:
In vielen Sprachen wird der Griff einer Tasse „Ohr“
genannt.
Für Sprecher des Englischen & Deutschen eine
unbekannte Bezeichnung für einen Griff, aber
durchaus vorstellbar (Ikoniziät).
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
5
Vergleich von Kasusverwendung
Frage: Welche Kasus werden für welche sprachlichen Konzepte
verwendet?
Ablauf: Vergleich von unterschiedlichen Verteilungen vom
Kasus in verschiedenen Sprachen (Tschechisch (T), Polnisch (P)
und Russisch (R)) anhand von kurzen Beispielsätzen.
Zuerst: wie wird der Kasus in den Sprachen verwendet?
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
6
Kasus-Verwendung in T, P und R
Nominative (NOM):
• Name (naming, subject)
Hans ist Lehrer.
• Identity (predicate nominative)
Genitive (GEN):
• Source (prepositions and verbs expressing withdrawal)
• Goal (prepositions and verbs expressing approach)
• Possession („of“, quantification, secondary prepositions)
• Reference (comparison, prepositions expressing nearness, dates)
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
7
Kasus-Verwendung in T, P und R
Dative (DAT):
• Receiver (indirect object, words expressing givings of signals, money,
self, etc.)
• Experiencer (words expressing benefit, harm, and modal uses)
• Competitor (words expressing matching forces, submission,
domination)
Accusative (ACC):
• Destination
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
8
Kasus-Verwendung in T, P und R
Locative (LOC):
• Place (all uses refer to literal or metaphorical places)
Instrumental (INST):
• A means (bare instrumental expressing means, instrument, path,
agent)
• Label (predicate instrumental) On jest Polakiem. – Er ist Pole.
• Adjunct (preposition „with“ (T, R: s, P: z))
• Landmark (prepositions of proximal location (ex. T: před, P: przed, R:
pered)
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
9
Cluster 1
Nominative (a name) vs. Genitive (reference/source)
a) Today is/Tomorrow will be the fourth
Tschechisch: Dnes je/Zítra bude čtvrtého
Polnisch: Dzisiaj jest/Jutro będzie czwarty
Russisch: Segodnja/Zavtra budet četvertoe
GEN
NOM
NOM
Beobachtung: Genitiv im Tschechischen, weil Daten als
temporale Referenzpunkte angesehen werden.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
10
Cluster 1
Nominative (a name) vs. Genitive (reference/source)
b) Ivan is older than I
Tschechisch: Ivan je starší, než já
Polnisch: Iwan jest starszy niż ja/ode mnie
Russisch: Ivan starše menja/čem ja
NOM
NOM/GEN
GEN/NOM
Beobachtung: Genitiv in P & R: Referenz (Wörtlich
übersetzt: „älter als mir“)
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
11
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
a) We walked through the forest; The train goes through the tunnel
• Instrumental: eine mehr periphere Beziehung zwischen
einem event (walk/goes) und einem item (forest/tunnel),
das quasi als "Pfad" durch den die Verben führen gilt
(“path of motion”)
• Akkusativ: direktes Ziel einer Aktion (forest und tunnel als
Ziel der Bewegung)
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
12
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
a) We walked through the forest; The train goes through the tunnel
Tschechisch: Šli jsme lesem (/skrz les); Vlak jede
tunelem (/skrz tunel)
Polnisch: Szliśmy lasem/przez las; Pociąg jeździ
tunelem/przez tunel
Russisch: My šli čerez les(/lesom); Poezd edet čerez
tunnel
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
INST(/ACC)
INST(/ACC)
ACC(/INST)
13
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
b) Maybe you‘re saving time, but you‘re wasting money!
Tschechisch: Třeba šetříte časem, ale plýtváte penězmi! INST
Polnisch: Może oszczędzasz czas, ale tracisz pieniądze! ACC
Russisch: Vy možet byt’ èkonomite vremja, no vy tratite ACC
den’gi!
Beobachtung: time und money sind Mittel, um die Verben zu
realisieren in T. In P und R sind sie lediglich destinations (also
patiens der Verben).
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
14
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
c) The fascists were killing people by the thousands
Tschechisch: Fašisté zabíjeli tisíce lidí
Polnisch: Faszyści zabijali ludzi tysiącami
Russisch: Fašisty ubivali ljudej tysjačami
ACC
INST
INST
Beobachtung: thousands ist Patiens von killing in T, aber „the
channel through which killing passes“ in P und R.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
15
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
d) It lasted centuries
Tschechisch: To trvalo století
Polnisch: To trwało przez wieki
Russisch: Èto prodolžalos’ vekami
ACC
ACC
INST
Beobachtung: Zeitraum wird als destination verstanden
in T und P, in R als „Pfad“ durch den die Zeit verläuft.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
16
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
e) Please hang the lamp above the table
Tschechisch: Prosím, pověs lampunad stůl
ACC
INST
Polnisch: Powieś, proszę, lampęnad stołem
Russisch: Požalujsta, poves’ lampu nad stolom
INST
Beobachtung: Hier kommt es drauf an, ob die Sprache einen
Unterschied macht zwischen einer Bewegung zu einer
destination (Accusative) oder einer Position in „näherer
Umgebung“ (proximal location).
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
17
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
f) We moved here a year ago
Tschechisch: Přestěhovali jsme se sem před rokem
Polnisch: Przenieśliśmy się tutaj rok temu
Russisch: My sjuda pereexali god nazad
INST
ACC
ACC
Beobachtung: Gegenteil von e): T betrachtet eine vorherige Zeit
als temporale Position (location), während P und R es als
destination ansieht.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
18
Cluster 3
Instrumental (a means/adjunct) vs. Locative (place)
b) in spring, in summer, in winter, at night
Tschechisch : na jaře, v létě, v zimě, v noci
LOC
Polnisch: wiosną/na wiosnę, latem/w lecie, zimą/w
INST/LOC(/ACC)
zimie, nocą/w nocy
INST
Russisch: vesnoj, letom, zimoj, noč’ju
Beobachtung: T betrachtet große Zeiträume als locations, R als
„Pfad“ durch den Aktionen verlaufen und Polnisch…
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
19
Cluster 4
Genitive (a goal/reference/whole) vs. Accusative (destination)
a) The children are walking to school
Tschechisch: Dìti jdou do školy
Polnisch: Dzieci idą do szkoły
Russisch: Deti idut v školu
GEN
GEN
ACC
Beobachtung: goal in T & P, destination in R.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
20
Cluster 4
Genitive (a goal/reference/whole) vs. Accusative (destination)
d) I did it for you
Tschechisch: Udělala jsem to pro tebe
Polnisch: Zrobiłam to dla ciebie
Russisch: Ja èto sdelala dlja tebja
ACC
GEN
GEN
Beobachtung: goal in R & P, destination in T.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
21
Cluster 5
Accusative (destination) vs. Locative (a place)
d) play the piano
Tschechisch: hrát na klavír
Polnisch: grać na pianinie
Russisch: igrat’ na rojale
ACC
LOC
LOC
Beobachtung: In T ist playing eine Aktivität, die in Richtung
eines Musikinstruments verstanden wird. In P & R ist das
Instrument einfach der „Ort“ von playing.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
22
Cluster 6
Dative (competitor/experiencer/receiver) vs. Genitive
(a goal/source/reference)
d) They took money from me
Tschechisch: Vzali mi peníze
Polnisch: Wzięli ode mnie/Zabrali mi pieniądze
Russisch: Oni vzjali u menja den´gi
DAT
GEN/DAT
GEN
Beobachtung: In T ist mi ein experiencer, in R ist menja lediglich
der Ort von dem das Geld genommen wurde.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
23
Cluster 6
Dative (competitor/experiencer/receiver) vs. Genitive
(a goal/source/reference)
e) The deer ran away from the hunter
Tschechisch: Srnka utekla myslivci
Polnisch: Sarna uciekła myśliwemu
Russisch: Serna ubežala ot oxotnika
DAT
DAT
GEN
Beobachtung: Ähnlich zu d): das Reh ist experiencer, es „nimmt
sich selbst“ vom Jäger weg in T und P. In R ist der Jäger wieder
nur der Ort von dem es wegrennt.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
24
13.07.2015
Cluster
1 a)
1 b)
Tschechisch
GEN
NOM
Polnisch
NOM
NOM/GEN
Russisch
NOM
GEN/NOM
2 a)
2 b)
INST(/ACC)
INST
INST(/ACC)
ACC
ACC(/INST)
ACC
2 c)
2 d)
2 e)
ACC
ACC
ACC
INST
ACC
INST
INST
INST
INST
2 f)
3 b)
4 a)
INST
LOC
GEN
ACC
INST/LOC(/ACC)
GEN
ACC
INST
ACC
5 d)
ACC
LOC
LOC
6 d)
DAT
GEN/DAT
GEN
6 e)
DAT
DAT
GEN
Slavische Sprachen für (Computer-)Linguisten – SS 2015
25
13.07.2015
Cluster
1 a)
1 b)
Tschechisch
GEN
NOM
Polnisch
NOM
NOM/GEN
Russisch
NOM
GEN/NOM
2 a)
2 b)
INST(/ACC)
INST
INST(/ACC)
ACC
ACC(/INST)
ACC
2 c)
2 d)
2 e)
ACC
ACC
ACC
INST
ACC
INST
INST
INST
INST
2 f)
3 b)
4 a)
INST
LOC
GEN
ACC
INST/LOC(/ACC)
GEN
ACC
INST
ACC
5 d)
ACC
LOC
LOC
6 d)
DAT
GEN/DAT
GEN
6 e)
DAT
DAT
GEN
Slavische Sprachen für (Computer-)Linguisten – SS 2015
26
Fazit Kasus-Vergleiche
• Die drei Kasussysteme realisieren gleiche Konzepte auf
verschiedene Weisen
• Zwischen Tschechisch und Russisch lassen sich öfter
klare Unterschiede ausmachen (West-East cline)
• Polnisch liegt in der „Mitte“ und neigt mal zum
Tscheschichen, mal zum Russischen
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
27
Zeit und Aspekt in slaw. Sprachen
„Time is perhaps the only feature of our existence which we all agree exists
although we have no direct evidence of its existence“
• Aspekt: grammatische Kategorie eines Verbs, die die
zeitliche Lage einer Situation ausdrückt
• In slawischen Sprachen Teil der Verbmorphologie
(unvollendete und vollendete Verben)
• Slawische Sprachen verfügen über ein großes Repertoire
an Konzeptualisierungen von Zeit
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
28
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
d) It lasted centuries
Tscheschich: To trvalo století
Polnisch: To trwało przez wieki
Russisch: Èto prodolžalos’ vekami
ACC
ACC
INST
Beobachtung: Zeitraum wird als destination verstanden
in T und P, in R als „Pfad“ durch den die Zeit verläuft.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
29
Cluster 2
Instrumental (a means/landmark) vs. Accusative (destination)
f) We moved here a year ago
Tscheschich: Přestěhovali jsme se sem před rokem
Polnisch: Przenieśliśmy się tutaj rok temu
Russisch: My sjuda pereexali god nazad
INST
ACC
ACC
Beobachtung: Gegenteil von e): T betrachtet eine vorherige Zeit
als temporale Position (location), während P und R es als
destination ansieht.
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
30
Recycling alter Morphologie
Frage: Wie können linguistische Formen „opportunities“
für die Sprache im Verlauf der Zeit schaffen?
• Vor 1200 Jahren: „short-u-stem paradigm“ am
Aussterben
• Zu dieser Zeit nur mit „einer Hand voll“ von Lexemen
verbunden
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
31
Recycling alter Morphologie
Frage: Wie können linguistische Formen „opportunities“
für die Sprache im Verlauf der Zeit schaffen?
• Obwohl es ausstarb, überlebte die Morphologie
• Die Morpheme werden seitdem (über 1000 Jahre) dazu
verwendet, um die Anzahl an Unterschieden für
männliche Nomen zu erhöhen
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
32
Recycling alter Morphologie
Frage: Wie können linguistische Formen „opportunities“
für die Sprache im Verlauf der Zeit schaffen?
Antwort: auch lang ausgestorbene Morphologie kann
noch für spätere Fortschritt in der Entwicklung einer
Sprache sorgen.
„Yesterday‘s trash can literally become today‘s treasure.“
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
33
Gesamtfazit
• Gleiches linguistisches Material kann verschieden
verwendet werden
• Zeit und Aspekt spielen eine große Rolle bei den
verschiedenen Realisierungen des ling. Materials
• Ausgestorbene Paradigmen haben auch Jahrhunderte
später Einfluss auf die Entwicklung einer Sprache
13.07.2015
Slavische Sprachen für (Computer-)Linguisten – SS 2015
34
Quellen
• Because it.s there: How linguistic phenomena serve as
cognitive opportunities
Laura A. Janda, University of North Carolina
13.07.2015
Proseminar Spezielle Statistische Methoden – WS 2014/15
35
Danke für die Aufmerksamkeit!
13.07.2015
Proseminar Spezielle Statistische Methoden – WS 2014/15
36

Similar documents