Plagiarism Detection Reduced to String Matching
Transcription
Plagiarism Detection Reduced to String Matching
Because it’s there: How linguistic phenomena serve as cognitive opportunities Laura A. Janda, University of North Carolina Stefan Brengel 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 1 Überblick • Einleitung • Vergleich von Kasusverwendung • Zeit und Aspekt in slawischen Sprachen • Recycling alter Morphologie • Fazit 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 2 Einleitung •Ziel: untersuchen inwiefern wie „expressive opportunities“ geschaffen werden Expressive Opportunities? 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 3 Einleitung „Expressive opportunities“? Je nach „Raum & Zeit“ verschiedene Möglichkeiten bestimmte Konzepte in einer Sprache zu beschreiben Behauptung: stark verwandte Sprachen (Bsp. slawische Sprachen) zeigen große Unterschiede darin wie bestimmte Konzepte realisiert werden 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 4 Einleitung Beispiel: In vielen Sprachen wird der Griff einer Tasse „Ohr“ genannt. Für Sprecher des Englischen & Deutschen eine unbekannte Bezeichnung für einen Griff, aber durchaus vorstellbar (Ikoniziät). 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 5 Vergleich von Kasusverwendung Frage: Welche Kasus werden für welche sprachlichen Konzepte verwendet? Ablauf: Vergleich von unterschiedlichen Verteilungen vom Kasus in verschiedenen Sprachen (Tschechisch (T), Polnisch (P) und Russisch (R)) anhand von kurzen Beispielsätzen. Zuerst: wie wird der Kasus in den Sprachen verwendet? 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 6 Kasus-Verwendung in T, P und R Nominative (NOM): • Name (naming, subject) Hans ist Lehrer. • Identity (predicate nominative) Genitive (GEN): • Source (prepositions and verbs expressing withdrawal) • Goal (prepositions and verbs expressing approach) • Possession („of“, quantification, secondary prepositions) • Reference (comparison, prepositions expressing nearness, dates) 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 7 Kasus-Verwendung in T, P und R Dative (DAT): • Receiver (indirect object, words expressing givings of signals, money, self, etc.) • Experiencer (words expressing benefit, harm, and modal uses) • Competitor (words expressing matching forces, submission, domination) Accusative (ACC): • Destination 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 8 Kasus-Verwendung in T, P und R Locative (LOC): • Place (all uses refer to literal or metaphorical places) Instrumental (INST): • A means (bare instrumental expressing means, instrument, path, agent) • Label (predicate instrumental) On jest Polakiem. – Er ist Pole. • Adjunct (preposition „with“ (T, R: s, P: z)) • Landmark (prepositions of proximal location (ex. T: před, P: przed, R: pered) 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 9 Cluster 1 Nominative (a name) vs. Genitive (reference/source) a) Today is/Tomorrow will be the fourth Tschechisch: Dnes je/Zítra bude čtvrtého Polnisch: Dzisiaj jest/Jutro będzie czwarty Russisch: Segodnja/Zavtra budet četvertoe GEN NOM NOM Beobachtung: Genitiv im Tschechischen, weil Daten als temporale Referenzpunkte angesehen werden. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 10 Cluster 1 Nominative (a name) vs. Genitive (reference/source) b) Ivan is older than I Tschechisch: Ivan je starší, než já Polnisch: Iwan jest starszy niż ja/ode mnie Russisch: Ivan starše menja/čem ja NOM NOM/GEN GEN/NOM Beobachtung: Genitiv in P & R: Referenz (Wörtlich übersetzt: „älter als mir“) 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 11 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) a) We walked through the forest; The train goes through the tunnel • Instrumental: eine mehr periphere Beziehung zwischen einem event (walk/goes) und einem item (forest/tunnel), das quasi als "Pfad" durch den die Verben führen gilt (“path of motion”) • Akkusativ: direktes Ziel einer Aktion (forest und tunnel als Ziel der Bewegung) 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 12 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) a) We walked through the forest; The train goes through the tunnel Tschechisch: Šli jsme lesem (/skrz les); Vlak jede tunelem (/skrz tunel) Polnisch: Szliśmy lasem/przez las; Pociąg jeździ tunelem/przez tunel Russisch: My šli čerez les(/lesom); Poezd edet čerez tunnel 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 INST(/ACC) INST(/ACC) ACC(/INST) 13 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) b) Maybe you‘re saving time, but you‘re wasting money! Tschechisch: Třeba šetříte časem, ale plýtváte penězmi! INST Polnisch: Może oszczędzasz czas, ale tracisz pieniądze! ACC Russisch: Vy možet byt’ èkonomite vremja, no vy tratite ACC den’gi! Beobachtung: time und money sind Mittel, um die Verben zu realisieren in T. In P und R sind sie lediglich destinations (also patiens der Verben). 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 14 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) c) The fascists were killing people by the thousands Tschechisch: Fašisté zabíjeli tisíce lidí Polnisch: Faszyści zabijali ludzi tysiącami Russisch: Fašisty ubivali ljudej tysjačami ACC INST INST Beobachtung: thousands ist Patiens von killing in T, aber „the channel through which killing passes“ in P und R. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 15 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) d) It lasted centuries Tschechisch: To trvalo století Polnisch: To trwało przez wieki Russisch: Èto prodolžalos’ vekami ACC ACC INST Beobachtung: Zeitraum wird als destination verstanden in T und P, in R als „Pfad“ durch den die Zeit verläuft. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 16 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) e) Please hang the lamp above the table Tschechisch: Prosím, pověs lampunad stůl ACC INST Polnisch: Powieś, proszę, lampęnad stołem Russisch: Požalujsta, poves’ lampu nad stolom INST Beobachtung: Hier kommt es drauf an, ob die Sprache einen Unterschied macht zwischen einer Bewegung zu einer destination (Accusative) oder einer Position in „näherer Umgebung“ (proximal location). 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 17 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) f) We moved here a year ago Tschechisch: Přestěhovali jsme se sem před rokem Polnisch: Przenieśliśmy się tutaj rok temu Russisch: My sjuda pereexali god nazad INST ACC ACC Beobachtung: Gegenteil von e): T betrachtet eine vorherige Zeit als temporale Position (location), während P und R es als destination ansieht. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 18 Cluster 3 Instrumental (a means/adjunct) vs. Locative (place) b) in spring, in summer, in winter, at night Tschechisch : na jaře, v létě, v zimě, v noci LOC Polnisch: wiosną/na wiosnę, latem/w lecie, zimą/w INST/LOC(/ACC) zimie, nocą/w nocy INST Russisch: vesnoj, letom, zimoj, noč’ju Beobachtung: T betrachtet große Zeiträume als locations, R als „Pfad“ durch den Aktionen verlaufen und Polnisch… 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 19 Cluster 4 Genitive (a goal/reference/whole) vs. Accusative (destination) a) The children are walking to school Tschechisch: Dìti jdou do školy Polnisch: Dzieci idą do szkoły Russisch: Deti idut v školu GEN GEN ACC Beobachtung: goal in T & P, destination in R. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 20 Cluster 4 Genitive (a goal/reference/whole) vs. Accusative (destination) d) I did it for you Tschechisch: Udělala jsem to pro tebe Polnisch: Zrobiłam to dla ciebie Russisch: Ja èto sdelala dlja tebja ACC GEN GEN Beobachtung: goal in R & P, destination in T. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 21 Cluster 5 Accusative (destination) vs. Locative (a place) d) play the piano Tschechisch: hrát na klavír Polnisch: grać na pianinie Russisch: igrat’ na rojale ACC LOC LOC Beobachtung: In T ist playing eine Aktivität, die in Richtung eines Musikinstruments verstanden wird. In P & R ist das Instrument einfach der „Ort“ von playing. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 22 Cluster 6 Dative (competitor/experiencer/receiver) vs. Genitive (a goal/source/reference) d) They took money from me Tschechisch: Vzali mi peníze Polnisch: Wzięli ode mnie/Zabrali mi pieniądze Russisch: Oni vzjali u menja den´gi DAT GEN/DAT GEN Beobachtung: In T ist mi ein experiencer, in R ist menja lediglich der Ort von dem das Geld genommen wurde. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 23 Cluster 6 Dative (competitor/experiencer/receiver) vs. Genitive (a goal/source/reference) e) The deer ran away from the hunter Tschechisch: Srnka utekla myslivci Polnisch: Sarna uciekła myśliwemu Russisch: Serna ubežala ot oxotnika DAT DAT GEN Beobachtung: Ähnlich zu d): das Reh ist experiencer, es „nimmt sich selbst“ vom Jäger weg in T und P. In R ist der Jäger wieder nur der Ort von dem es wegrennt. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 24 13.07.2015 Cluster 1 a) 1 b) Tschechisch GEN NOM Polnisch NOM NOM/GEN Russisch NOM GEN/NOM 2 a) 2 b) INST(/ACC) INST INST(/ACC) ACC ACC(/INST) ACC 2 c) 2 d) 2 e) ACC ACC ACC INST ACC INST INST INST INST 2 f) 3 b) 4 a) INST LOC GEN ACC INST/LOC(/ACC) GEN ACC INST ACC 5 d) ACC LOC LOC 6 d) DAT GEN/DAT GEN 6 e) DAT DAT GEN Slavische Sprachen für (Computer-)Linguisten – SS 2015 25 13.07.2015 Cluster 1 a) 1 b) Tschechisch GEN NOM Polnisch NOM NOM/GEN Russisch NOM GEN/NOM 2 a) 2 b) INST(/ACC) INST INST(/ACC) ACC ACC(/INST) ACC 2 c) 2 d) 2 e) ACC ACC ACC INST ACC INST INST INST INST 2 f) 3 b) 4 a) INST LOC GEN ACC INST/LOC(/ACC) GEN ACC INST ACC 5 d) ACC LOC LOC 6 d) DAT GEN/DAT GEN 6 e) DAT DAT GEN Slavische Sprachen für (Computer-)Linguisten – SS 2015 26 Fazit Kasus-Vergleiche • Die drei Kasussysteme realisieren gleiche Konzepte auf verschiedene Weisen • Zwischen Tschechisch und Russisch lassen sich öfter klare Unterschiede ausmachen (West-East cline) • Polnisch liegt in der „Mitte“ und neigt mal zum Tscheschichen, mal zum Russischen 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 27 Zeit und Aspekt in slaw. Sprachen „Time is perhaps the only feature of our existence which we all agree exists although we have no direct evidence of its existence“ • Aspekt: grammatische Kategorie eines Verbs, die die zeitliche Lage einer Situation ausdrückt • In slawischen Sprachen Teil der Verbmorphologie (unvollendete und vollendete Verben) • Slawische Sprachen verfügen über ein großes Repertoire an Konzeptualisierungen von Zeit 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 28 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) d) It lasted centuries Tscheschich: To trvalo století Polnisch: To trwało przez wieki Russisch: Èto prodolžalos’ vekami ACC ACC INST Beobachtung: Zeitraum wird als destination verstanden in T und P, in R als „Pfad“ durch den die Zeit verläuft. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 29 Cluster 2 Instrumental (a means/landmark) vs. Accusative (destination) f) We moved here a year ago Tscheschich: Přestěhovali jsme se sem před rokem Polnisch: Przenieśliśmy się tutaj rok temu Russisch: My sjuda pereexali god nazad INST ACC ACC Beobachtung: Gegenteil von e): T betrachtet eine vorherige Zeit als temporale Position (location), während P und R es als destination ansieht. 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 30 Recycling alter Morphologie Frage: Wie können linguistische Formen „opportunities“ für die Sprache im Verlauf der Zeit schaffen? • Vor 1200 Jahren: „short-u-stem paradigm“ am Aussterben • Zu dieser Zeit nur mit „einer Hand voll“ von Lexemen verbunden 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 31 Recycling alter Morphologie Frage: Wie können linguistische Formen „opportunities“ für die Sprache im Verlauf der Zeit schaffen? • Obwohl es ausstarb, überlebte die Morphologie • Die Morpheme werden seitdem (über 1000 Jahre) dazu verwendet, um die Anzahl an Unterschieden für männliche Nomen zu erhöhen 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 32 Recycling alter Morphologie Frage: Wie können linguistische Formen „opportunities“ für die Sprache im Verlauf der Zeit schaffen? Antwort: auch lang ausgestorbene Morphologie kann noch für spätere Fortschritt in der Entwicklung einer Sprache sorgen. „Yesterday‘s trash can literally become today‘s treasure.“ 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 33 Gesamtfazit • Gleiches linguistisches Material kann verschieden verwendet werden • Zeit und Aspekt spielen eine große Rolle bei den verschiedenen Realisierungen des ling. Materials • Ausgestorbene Paradigmen haben auch Jahrhunderte später Einfluss auf die Entwicklung einer Sprache 13.07.2015 Slavische Sprachen für (Computer-)Linguisten – SS 2015 34 Quellen • Because it.s there: How linguistic phenomena serve as cognitive opportunities Laura A. Janda, University of North Carolina 13.07.2015 Proseminar Spezielle Statistische Methoden – WS 2014/15 35 Danke für die Aufmerksamkeit! 13.07.2015 Proseminar Spezielle Statistische Methoden – WS 2014/15 36