Plagiarism Detection Software - VSR

Transcription

Plagiarism Detection Software - VSR
Hauptseminar
Plagiarism Detection
Christian Pusch
Plagiarism Detection – Christian Pusch @cpu88
1
Übersicht
•
•
•
•
•
•
Was ist ein Plagiat?
Erkennungsmethoden
Plagiarism Detection Software
Demonstration
Fazit
Quellen
Plagiarism Detection – Christian Pusch @cpu88
2
Was ist ein Plagiat?
Was ist ein Plagiat?
Plagiarism Detection – Christian Pusch @cpu88
3
Was ist ein Plagiat? - Rip. Mix. Burn.
Youtube, Apple iTunes Werbung von 2001
Plagiarism Detection – Christian Pusch @cpu88
4
Was ist ein Plagiat? - Definition
unrechtmäßige Aneignung von Gedanken, Ideen o. Ä. eines anderen
auf künstlerischem oder wissenschaftlichem Gebiet und ihre
Veröffentlichung; Diebstahl geistigen Eigentums
http://www.duden.de/rechtschreibung/Plagiat
• Rechtliche Situation in Deutschland
– „Plagiat“ hat keine rechtliche Definition
– Plagiat ist nach allgemeiner Ansicht eine Urheberrechtsverletzung,
bei der sich jemand fremde Urheberschaft bewusst anmaßt.
RA Prof. Dr. Johannes Weberling: Was ist eigentlich ein „Plagiat“?
Plagiarism Detection – Christian Pusch @cpu88
5
Was ist ein Plagiat? - Plagiatsformen
• Copy & Paste
– Wort für Wort gleich (z.B. auch Schreibfehler)
• Übersetzungsplagiat
– Sehr unbekannte Quelle übersetzen, fertig
• Shake & Paste
– Verschiedene Quellen zu einem ganzen mixen
• Halbsatzflickerei
– Copy & Paste mit Strunkturumstellung
• Strukturübernahme
– Gleicher Inhalt, andere Form
• In der Programmierung
– Gleiche Algorithmen, andere Variablennamen
Plagiarism Detection – Christian Pusch @cpu88
6
Was ist ein Plagiat? - Ist das ein Plagiat?
1. Dokument gelesen
– Verdächtige Passagen gefunden
– Verdacht stellt sich ein
2. Analyse
– Händisch oder computergestützt
– Äußere / innere Analyse
– Kandidaten finden
3. Vergleich mit Kandidaten
– Händisch oder computergestützt
– Verschärfte Analyse
Plagiarism Detection – Christian Pusch @cpu88
7
Erkennungsmethoden
Erkennungsmethoden
Plagiarism Detection – Christian Pusch @cpu88
8
Erkennungsmethoden - Übersicht
Taxonomie von Plagiatvergehen mit Erkennungsmethoden nach Meyer zu Eissen et al. (2007)
Plagiarism Detection – Christian Pusch @cpu88
9
Erkennungsmethoden – exakte Kopie
• Dokumentenvergleich (Suffixbaum)
– Baum als Datenstruktur mit Operationen
– Finden von längsten gemeinsamen Zeichenketten
• Mit Referenzkorpus (Chunk-Identität)
– Hashwerte über Abschnitte
– Vergleich der Hashwerte
• Ohne Referenzkorpus (Stilanalyse)
– Innere Analyse
– Suche nach Auffälligkeiten
– Stilwechsel, Fachbegriffe, ...
Plagiarism Detection – Christian Pusch @cpu88
10
Erkennungsmethoden – modifizierte Kopie
• Übersetzung (Strukturanalyse)
– Suche nach sprachunabhängigen Merkmalen
– Gleiche Abschnitte
– Länge von Abschnitten
• Dokumentenvergleich (Vektorraummodell)
– Erstellung eines Wörterbuches → Vektor
– Kleiner Winkel zwischen Vektoren → hohe Ähnlichkeit
• Mit Referenzkorpus (Fuzzy-Fingerprint)
– Hashwerte über kleinere Textpassagen
– Vergleich von Hashwerten
• Ohne Referenzkorpus (Stilanalyse)
Plagiarism Detection – Christian Pusch @cpu88
11
Erkennungsmethoden - Vektorraummodell
• Dokument d → Wortvektor d
• Vokabular V = {f1, f2, … , fm }
– Verzicht auf sog. Stoppworte
– Nur Stammformen der Worte
• Dokumentenmenge D gegen die
geprüft wird
➔
Je kleiner der Winkel zwischen
zwei Vektoren, desto größer die
Ähnlichkeit
Plagiarism Detection – Christian Pusch @cpu88
f2
d1
d3
d2
f1
f3
Dokument 2 ähnelt Dokument 1
mehr, als Dokument 3
12
Erkennungsmethoden - Vektorraummodell
• Vorteile:
– Schnelle Findung von Kandidaten
– Einfache mathematische Analyse
• Nachteile:
– Keine Erkennung von gleichen Passagen
– Genauer Vergleich des Inhalts im Nachhinein notwendig
Plagiarism Detection – Christian Pusch @cpu88
13
Plagiarism Detection Software
Plagiarism Detection Software
Plagiarism Detection – Christian Pusch @cpu88
14
Plagiarism Detection Software - Beispiele
Turnitin:
• Verschiedene Algorithmen
• Bilden Fingerabdrücke
• Lokale Datenbank
CopyCatch:
• Berechnet Wert für ganzes Dokument
• Wert wird mit anderen Werten
verglichen
• Lokale Dokumente
EVE2:
• Websuchen nach ähnlichem Inhalt
Plagiarism detect:
• Nutzt Google
• Sucht immer nach kurzen
Textpassagen
Plagiarism Detection – Christian Pusch @cpu88
...
15
Plagiarism Detection Software - Vergleich
Ausschnitt, Technical Review of Plagiarism Detection Software Report
Plagiarism Detection – Christian Pusch @cpu88
16
Demonstration
Demonstration
Plagiarism Detection – Christian Pusch @cpu88
17
Demonstration
Plagiarism Detect: http://plagiarism-detect.com/
Copy & Paste: http://en.wikipedia.org/wiki/Penguin
- http://www-user.tu-chemnitz.de/~puc/plagiarism/copypaste.txt
Übersetzungsplagiat: http://en.wikipedia.org/wiki/Penguin
- http://www-user.tu-chemnitz.de/~puc/plagiarism/translate.txt
Shake & Paste: http://en.wikipedia.org/wiki/Penguin und
http://www.britannica.com/EBchecked/topic/449815/penguin
- http://www-user.tu-chemnitz.de/~puc/plagiarism/shakepaste.txt
Halbsatzflickerei:
- http://www-user.tu-chemnitz.de/~puc/plagiarism/halbsatz.txt
Plagiarism Detection – Christian Pusch @cpu88
18
Demonstration - Ergebnis
Plagiarism Detect: http://plagiarism-detect.com/
Copy & Paste
http://en.wikipedia.org/wiki/Penguin
plagiarised from source: 18%
Übersetzungsplagiat
Kein Fund
Shake & Paste
http://en.wikipedia.org/wiki/Penguin
plagiarised from source: 6%
http://www.britannica.com/EBchecked/topic/449815/penguin
plagiarised from source: 1%
Halbsatzflickerei
http://en.wikipedia.org/wiki/Penguin
plagiarised from source: 6%
Plagiarism Detection – Christian Pusch @cpu88
19
Demonstration - Schlussfolgerungen
• Ergebnisse variieren von Suche zu Suche:
– Heuristisches Retrieval
– Genaue Analyse der Kandidaten notwendig
• Kein Fund beim Übersetzungsplagiat
– Dieses Tool nicht geeignet
– Weitere Tools zu Rate ziehen
Plagiarism Detection – Christian Pusch @cpu88
20
Fazit
Fazit
Plagiarism Detection – Christian Pusch @cpu88
21
Fazit
• Ergebnisse von Plagiarism Detection Software teilweise
sehr unterschiedlich
• Bieten gute Unterstützung bei Verdacht
• Gute Datenbank sollte vorhanden sein
• Mensch sollte alle Ergebnisse überprüfen
• Kein blindes Vertrauen
Plagiarism Detection – Christian Pusch @cpu88
22
Quellen
Quellen
Plagiarism Detection – Christian Pusch @cpu88
23
Quellen
• Overview of the 1st International Competition on Plagiarism Detection
Martin Potthast, Benno Stein, Andreas Eiselt, Alberto Barron-Cedeno, Paolo Rosso
• Strategien der Plagiatsbekaämpfung
Debora Weber-Wulff, Gabriele Wohnsdorf
• Plagiatsdetektion in Textdokumenten, Methoden und Werkzeuge
Thomas Plank, Daniel Resanovic, Wilhelm Steinegger
• Spürhunde im Netz. Was taugen Computerprogramme zur
Plagiatserkennung? Ramona Fischer
• Anti-Schummel-Software oder Hilfe bei der wissenschaftlichen
Ausbildung?
Bettina Berendt
• External and Intrinsic Plagiarism Detection Using Vector Space Models
Mario Zechner, Markus Muhr, Roman Kern, Michael Granitzer
• Technical Review of Plagiarism Detection Software Report
Dr Joanna Bull, Carol Collins, Elisabeth Coughlin, Dale Sharp
Plagiarism Detection – Christian Pusch @cpu88
24
Ende
Vielen Dank für die Aufmerksamkeit.
Gibt es noch Fragen?
Plagiarism Detection – Christian Pusch @cpu88
25