Plagiarism Detection Software - VSR
Transcription
Plagiarism Detection Software - VSR
Hauptseminar Plagiarism Detection Christian Pusch Plagiarism Detection – Christian Pusch @cpu88 1 Übersicht • • • • • • Was ist ein Plagiat? Erkennungsmethoden Plagiarism Detection Software Demonstration Fazit Quellen Plagiarism Detection – Christian Pusch @cpu88 2 Was ist ein Plagiat? Was ist ein Plagiat? Plagiarism Detection – Christian Pusch @cpu88 3 Was ist ein Plagiat? - Rip. Mix. Burn. Youtube, Apple iTunes Werbung von 2001 Plagiarism Detection – Christian Pusch @cpu88 4 Was ist ein Plagiat? - Definition unrechtmäßige Aneignung von Gedanken, Ideen o. Ä. eines anderen auf künstlerischem oder wissenschaftlichem Gebiet und ihre Veröffentlichung; Diebstahl geistigen Eigentums http://www.duden.de/rechtschreibung/Plagiat • Rechtliche Situation in Deutschland – „Plagiat“ hat keine rechtliche Definition – Plagiat ist nach allgemeiner Ansicht eine Urheberrechtsverletzung, bei der sich jemand fremde Urheberschaft bewusst anmaßt. RA Prof. Dr. Johannes Weberling: Was ist eigentlich ein „Plagiat“? Plagiarism Detection – Christian Pusch @cpu88 5 Was ist ein Plagiat? - Plagiatsformen • Copy & Paste – Wort für Wort gleich (z.B. auch Schreibfehler) • Übersetzungsplagiat – Sehr unbekannte Quelle übersetzen, fertig • Shake & Paste – Verschiedene Quellen zu einem ganzen mixen • Halbsatzflickerei – Copy & Paste mit Strunkturumstellung • Strukturübernahme – Gleicher Inhalt, andere Form • In der Programmierung – Gleiche Algorithmen, andere Variablennamen Plagiarism Detection – Christian Pusch @cpu88 6 Was ist ein Plagiat? - Ist das ein Plagiat? 1. Dokument gelesen – Verdächtige Passagen gefunden – Verdacht stellt sich ein 2. Analyse – Händisch oder computergestützt – Äußere / innere Analyse – Kandidaten finden 3. Vergleich mit Kandidaten – Händisch oder computergestützt – Verschärfte Analyse Plagiarism Detection – Christian Pusch @cpu88 7 Erkennungsmethoden Erkennungsmethoden Plagiarism Detection – Christian Pusch @cpu88 8 Erkennungsmethoden - Übersicht Taxonomie von Plagiatvergehen mit Erkennungsmethoden nach Meyer zu Eissen et al. (2007) Plagiarism Detection – Christian Pusch @cpu88 9 Erkennungsmethoden – exakte Kopie • Dokumentenvergleich (Suffixbaum) – Baum als Datenstruktur mit Operationen – Finden von längsten gemeinsamen Zeichenketten • Mit Referenzkorpus (Chunk-Identität) – Hashwerte über Abschnitte – Vergleich der Hashwerte • Ohne Referenzkorpus (Stilanalyse) – Innere Analyse – Suche nach Auffälligkeiten – Stilwechsel, Fachbegriffe, ... Plagiarism Detection – Christian Pusch @cpu88 10 Erkennungsmethoden – modifizierte Kopie • Übersetzung (Strukturanalyse) – Suche nach sprachunabhängigen Merkmalen – Gleiche Abschnitte – Länge von Abschnitten • Dokumentenvergleich (Vektorraummodell) – Erstellung eines Wörterbuches → Vektor – Kleiner Winkel zwischen Vektoren → hohe Ähnlichkeit • Mit Referenzkorpus (Fuzzy-Fingerprint) – Hashwerte über kleinere Textpassagen – Vergleich von Hashwerten • Ohne Referenzkorpus (Stilanalyse) Plagiarism Detection – Christian Pusch @cpu88 11 Erkennungsmethoden - Vektorraummodell • Dokument d → Wortvektor d • Vokabular V = {f1, f2, … , fm } – Verzicht auf sog. Stoppworte – Nur Stammformen der Worte • Dokumentenmenge D gegen die geprüft wird ➔ Je kleiner der Winkel zwischen zwei Vektoren, desto größer die Ähnlichkeit Plagiarism Detection – Christian Pusch @cpu88 f2 d1 d3 d2 f1 f3 Dokument 2 ähnelt Dokument 1 mehr, als Dokument 3 12 Erkennungsmethoden - Vektorraummodell • Vorteile: – Schnelle Findung von Kandidaten – Einfache mathematische Analyse • Nachteile: – Keine Erkennung von gleichen Passagen – Genauer Vergleich des Inhalts im Nachhinein notwendig Plagiarism Detection – Christian Pusch @cpu88 13 Plagiarism Detection Software Plagiarism Detection Software Plagiarism Detection – Christian Pusch @cpu88 14 Plagiarism Detection Software - Beispiele Turnitin: • Verschiedene Algorithmen • Bilden Fingerabdrücke • Lokale Datenbank CopyCatch: • Berechnet Wert für ganzes Dokument • Wert wird mit anderen Werten verglichen • Lokale Dokumente EVE2: • Websuchen nach ähnlichem Inhalt Plagiarism detect: • Nutzt Google • Sucht immer nach kurzen Textpassagen Plagiarism Detection – Christian Pusch @cpu88 ... 15 Plagiarism Detection Software - Vergleich Ausschnitt, Technical Review of Plagiarism Detection Software Report Plagiarism Detection – Christian Pusch @cpu88 16 Demonstration Demonstration Plagiarism Detection – Christian Pusch @cpu88 17 Demonstration Plagiarism Detect: http://plagiarism-detect.com/ Copy & Paste: http://en.wikipedia.org/wiki/Penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/copypaste.txt Übersetzungsplagiat: http://en.wikipedia.org/wiki/Penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/translate.txt Shake & Paste: http://en.wikipedia.org/wiki/Penguin und http://www.britannica.com/EBchecked/topic/449815/penguin - http://www-user.tu-chemnitz.de/~puc/plagiarism/shakepaste.txt Halbsatzflickerei: - http://www-user.tu-chemnitz.de/~puc/plagiarism/halbsatz.txt Plagiarism Detection – Christian Pusch @cpu88 18 Demonstration - Ergebnis Plagiarism Detect: http://plagiarism-detect.com/ Copy & Paste http://en.wikipedia.org/wiki/Penguin plagiarised from source: 18% Übersetzungsplagiat Kein Fund Shake & Paste http://en.wikipedia.org/wiki/Penguin plagiarised from source: 6% http://www.britannica.com/EBchecked/topic/449815/penguin plagiarised from source: 1% Halbsatzflickerei http://en.wikipedia.org/wiki/Penguin plagiarised from source: 6% Plagiarism Detection – Christian Pusch @cpu88 19 Demonstration - Schlussfolgerungen • Ergebnisse variieren von Suche zu Suche: – Heuristisches Retrieval – Genaue Analyse der Kandidaten notwendig • Kein Fund beim Übersetzungsplagiat – Dieses Tool nicht geeignet – Weitere Tools zu Rate ziehen Plagiarism Detection – Christian Pusch @cpu88 20 Fazit Fazit Plagiarism Detection – Christian Pusch @cpu88 21 Fazit • Ergebnisse von Plagiarism Detection Software teilweise sehr unterschiedlich • Bieten gute Unterstützung bei Verdacht • Gute Datenbank sollte vorhanden sein • Mensch sollte alle Ergebnisse überprüfen • Kein blindes Vertrauen Plagiarism Detection – Christian Pusch @cpu88 22 Quellen Quellen Plagiarism Detection – Christian Pusch @cpu88 23 Quellen • Overview of the 1st International Competition on Plagiarism Detection Martin Potthast, Benno Stein, Andreas Eiselt, Alberto Barron-Cedeno, Paolo Rosso • Strategien der Plagiatsbekaämpfung Debora Weber-Wulff, Gabriele Wohnsdorf • Plagiatsdetektion in Textdokumenten, Methoden und Werkzeuge Thomas Plank, Daniel Resanovic, Wilhelm Steinegger • Spürhunde im Netz. Was taugen Computerprogramme zur Plagiatserkennung? Ramona Fischer • Anti-Schummel-Software oder Hilfe bei der wissenschaftlichen Ausbildung? Bettina Berendt • External and Intrinsic Plagiarism Detection Using Vector Space Models Mario Zechner, Markus Muhr, Roman Kern, Michael Granitzer • Technical Review of Plagiarism Detection Software Report Dr Joanna Bull, Carol Collins, Elisabeth Coughlin, Dale Sharp Plagiarism Detection – Christian Pusch @cpu88 24 Ende Vielen Dank für die Aufmerksamkeit. Gibt es noch Fragen? Plagiarism Detection – Christian Pusch @cpu88 25