Informationsveranstaltung Linguistische Informatik
Transcription
Informationsveranstaltung Linguistische Informatik
Informationsveranstaltung Linguistische Informatik & Korpuslinguistik Prof. Dr. Stefan Evert Professur für Korpuslinguistik http://www.linguistik.uni-erlangen.de/ Was ist „Linguistische Informatik“? Korpuslinguistik ≠ Computerlinguistik? 2 Das Erlanger Modell ● „Linguistische Informatik“ = sprachwissenschaftlich fundierte Computerlinguistik mit Schwerpunkt auf korpuslinguistischen Ansätzen ● ● Sprachwissenschaft mit dem Computer Informatik für Anwendungen, die mit Sprache zu tun haben ● Computerlinguistik beschäftigt sich mit Methoden, Werkzeugen und Anwendungen der maschinellen Verarbeitung natürlicher Sprache ● ● ● ● computerlinguistische Methoden als Forschungsgebiet sui generis bessere Sprachtechnologie durch linguistisches Verständnis, keine „blindes“ language engineering Sprachwissenschaft: objektivierbare Aussagen über Sprache, empirische Überprüfung linguistischer Theorien neue Erkenntnisse für Kognitionswissenschaft, Psycholinguistik, … Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert Computerlinguistik ist interdisziplinär Statistik Informatik Machine Learning Künstliche Intelligenz Computer- linguistik Cognitive Science Sprachwissenschaft Logik & Theoretische Informatik Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 4 Was kann man mit Computerlinguistik anfangen? Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 5 Was kann man mit Computerlinguistik anfangen? ● Maschinelle Übersetzung (Google, Babel Fish, …) ● Rechtschreibkorrektur und Grammatikprüfung ● Diktieren & Sprachsteuerung ● Sprachausgabe (z.B. Navi) ● Sprachdialogsystem (z.B. im Auto, Fahrplanauskunft, …) ● Wörterbücher (zweisprachige, Lerner-WB, Kollokations-WB) ● Semantische Websuche ● Künstliche Intelligenz: Siri, IBM Watson, … ● Meinungs- & Marktforschung ● Information Retrieval & Question Answering ● Text / Knowledge Mining (z.B. im biomedizinischen Bereich) ● Patentrecherche u.ä. ● Kontrollierte Terminologie ● Plagiaterkennung ● Automatische Bewertung von Klausuren und Hausarbeiten ● Spam schreiben & erkennen ● Forensik & Aufklärung (z.B. linguistische Steganographie) Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 6 CL Showcase: Maschinelle Übersetzung Übersetzungssoftware von AltaVista Babel Fish Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert http://www.systranet.com/translate 7 CL Showcase: Maschinelle Übersetzung Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 8 CL Showcase: IBM Watson gewinnt bei Jeopardy! IN 1939's CARTOON "THE POINTER", THIS GUY GOT A NEW, MORE PEAR-SHAPED BODY & PUPILS WERE ADDED TO HIS EYES Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 9 CL Showcase: IBM Watson gewinnt bei Jeopardy! THIS CLAUSE IN A UNION CONTRACT SAYS THAT WAGES WILL RISE OR FALL DEPENDING ON A STANDARD SUCH AS COST OF LIVING Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 10 Korpuslinguistik ≠ Computerlinguistik? ● Korpus (im weiten Sinn) = Sammlung von Sprachdaten / Texten in maschinenlesbarer Form ● ● sehr große Korpora (≥ 100 M Wörter) sind besonders nützlich Auswertung mit statistischen Methoden und maschinellen Lernverfahren ● Korpus (im engen Sinn) = Stichprobe authentischer Sprachdaten / Texte, die für eine bestimmte Sprache oder Sprachvarietät repräsentativ ist ● ● z.B. literarische Korpora, Dialekte, gesprochene Sprache, IBK, … Basis für empirisch fundierte sprachwissenschaftliche Studien ● Korpuslinguistik (im weiten Sinn) = Erstellung, maschinelle Verarbeitung und Auswertung von Korpora Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 11 Was ist Korpuslinguistik? Korpuslinguistik Korpuslinguistik Computerlinguistik Sprachwissenschaft Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 12 Korpuslinguistische Fragestellungen & Anwendungen ● Kernziel: Erforschung von authentischem Sprachgebrauch ● Empirische Überprüfung linguistischer Theorien ● Lexikographie (neue Einträge, Kollokationen, Präferenzen, …) ● IZ Lexikografie, Valenz und Kollokation ● Korpusbasierte (Lerner-)Grammatiken ● Erforschung von Sprachvariation ● ● ● ● ● ● IZ für Dialekte und Sprachvariation Erst- und Zweitspracherwerb (à Lernerkorpora) Psycholinguistik (à Häufigkeitsnormen) Historische Sprachwissenschaft (es gibt keine Muttersprachler!) Digital Humanities (à Auswertung digitalisierter Bestände) Soziologie und Politikwissenschaft Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 13 Wo wird Korpustechnologie praktisch eingesetzt? ● Maschinelle Übersetzung (Google, Babel Fish, …) ● Rechtschreibkorrektur und Grammatikprüfung ● Diktieren & Sprachsteuerung ● Sprachausgabe (z.B. Navi) ● Sprachdialogsystem (z.B. im Auto, Fahrplanauskunft, …) ● Wörterbücher (zweisprachige, Lerner-WB, Kollokations-WB) ● Semantische Websuche ● Künstliche Intelligenz: Siri, IBM Watson, … ● Meinungs- & Marktforschung ● Information Retrieval & Question Answering ● Text / Knowledge Mining (z.B. im biomedizinischen Bereich) ● Patentrecherche u.ä. ● Kontrollierte Terminologie ● Plagiaterkennung ● Automatische Bewertung von Klausuren und Hausarbeiten ● Spam schreiben & erkennen ● Forensik & Aufklärung (z.B. linguistische Steganographie) Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 14 Beispiel: Vorteile korpusbasierter Sprachtechnologie Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 15 Lernen von Übersetzungsmustern aus Parallelkorpora http://www.linguee.de/ Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 16 Sprachwissenschaft Korpuslinguistik Digital Humanities Bachelor Linguistische Informatik Computerlinguistik Sprachtechnologie / Informatik Sprachtechnologie Wirtschaft / Industrie (Spezialist für Sprache & Text) Der Studiengang Linguistische Informatik (Entwurf) ● Bachelorstudiengang (6 Semester) ● ● 10 Module mit insgesamt 80 ECTS (1. Fach) / 70 ECTS (2. Fach) Praktikum in Forschungsprojekt oder bei Industrieunternehmen ● Kombination mit einem sprachwissenschaftlichen Fach ● z.B. Germanistik, Anglistik oder Romanistik ● Doppelqualifikation durch ● ● ● linguistische Ausbildung im sprachwissenschaftlichen Fach praktische Anwendung der linguistischen Theorie und computerlinguistischen Methoden im Fach Linguistische Informatik zusätzliche Vorlesungen und Übungen aus der Informatik Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 18 Studienziele ● Theoretische Kompetenzen ● ● ● ● ● Logik, Mengenlehre, formale Sprachen, Grammatiken, Wk-Theorie computerlinguistische Aufgabenstellungen und Lösungsansätze Korpuslinguistik, deskriptive und analytische Statistik Verfahren der maschinellen Sprachverarbeitung sowie Sprachwissenschaft, Informatik, Humanities (Import / 2. Fach) ● Praktische Kompetenzen ● ● ● ● ● Linux-Shell, Emacs/LaTeX, reguläre Ausdrücke, Datenformate (z.B. XML) Skriptprogrammierung mit Python Verwendung computerlinguistischer Werkzeuge und Ressourcen Implementierung sprachtechnologischer Anwendungen Durchführung quantitativer korpuslinguistischer Studien Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 19 Studienziele ● Soft skills ● ● ● ● ● Teamwork konstruktive Diskussion Vermittlung von Wissen und Ergebnissen in wissenschaftlichen Arbeiten und Vorträgen Berufserfahrung (à Praktikum) sowie weitere Soft skills aus zweitem Fach ● Allgemeine Ziele ● ● praxis- und forschungsorientiertes Studium Verzahnung mit Infrastruktur und Forschungsthemen der Professur Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 20 Studienplan nach neuer Studienordnung (Entwurf) Semester 1 Semester 2 Semester 3 Semester 4 Semester 5 (WiSe) Semester 6 (SoSe) Proseminar HS (versch. Themen) Korpuslinguistik 2 SWS; 5 ECTS 2 SWS; 5 ECTS Oberseminar 1 1 SWS; 1 ECTS; nur Erstfach Oberseminar 2 1 SWS; 1 ECTS; nur Erstfach Ü Grundlagen der CL 2 2 SWS; 3 ECTS Ü Computerling. Werkzeuge und Infrastrukturen 2 SWS; 5 ECTS Ü Statistik 2 SWS; 5 ECTS Ü Implement. compling. Sys. 2 SWS; 3 ECTS; nur Erstfach Grundseminar Programmierung 2 SWS; 5 ECTS Aufbauseminar Programmierung 2 SWS; 5 ECTS Hauptseminar Hauptseminar theoretisch praktisch 2 SWS; 5 ECTS; 2 SWS; 5 ECTS Semester 4 oder 6 Vorlesung Grundlagen der Informatik (GdI) 3 SWS; insg. 7,5 ECTS; Import V Konzeptionelle Modellierung 2 SWS; 2,5 ECTS; Import; Sem. 2 – 4 Import Informatik ~ 4 SWS; 5 ECTS; Import; Sem. 4 – 6; nur Erstfach Tafelübung GdI 2 SWS; s.o. ECTS; Import Ü Konz. Mod. 2 SWS; 2,5 ECTS; Import; Sem. 2 – 4 (WiSe) (SoSe) (WiSe) VL Grundlagen der CL 1 2 SWS; 2 ECTS VL Grundlagen der CL 2 2 SWS; 2 ECTS Ü Grundlagen der CL 1 2 SWS; 3 ECTS Ü Arbeitstechniken der CL 2 SWS; 2,5 ECTS (SoSe) Rechnerübung GdI 1 SWS; s.o. ECTS; Import 12 SWS 15 ECTS 6 SWS 10 ECTS 10 SWS 20 ECTS 10 (6) SWS 20 (15) ECTS 5 (2) SWS 9 (5) ECTS 1 (0) SWS 1 (0) ECTS 21 Vergleich alte / neue Studienordnung (Entwurf) LV alt ECTS LV neu ECTS LV alt ECTS LV neu ECTS V GCL 1 2 V GCL 1 2 Ü GrammEntw Ü GCL 1 3 Ü GCL 1 3 GK Programm V GCL 2 2 V GCL 2 2 AK Programm 5 AS Programm. 5 Ü GCL 2 3 Ü GCL 2 3 PS EMSV 5 PS WerkzInf 5 V GCL 3 2 Proseminar 5 V+Ü KonzMod 5 V+Ü KonzMod 5 Ü GCL 3 3 V+Ü DB 5 Import Inf* 5 V GCL 4 2 Prakt. HS 5 HS praktisch 5 Ü GCL 4 3 Theoret. HS 5 HS theoret. 5 Ü Implement. 3 7,5 OS 1 1 2 OS 1 1 HS KorpLing Ü Statistik Modul GdI Ü WACL 7,5 Modul GdI 3 Ü WACL 5 2 2,5 GS Programm. 5 Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 5 Der Studiengang Linguistische Informatik ● Kleiner Studiengang: ca. 70 Studierende ● Aktive Fachschaftsinitiative: http://fsi.linguistik.uni-erlangen.de/ ● KLUE-Stammtisch zum Semesterstart ● Mittwoch 16.10., 19:00 im Irish Pub Murphy's Law ● Weitere Informationen zum Studium unter http://www.linguistik.uni-erlangen.de/studium-lehre/ Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 23 Nach dem Studium ● Masterstudium / Promotion ● ● ● ● Computerlinguistik Sprachwissenschaft Digital Humanities Informatik ● Tätigkeitsbereiche in der Sprachtechnologie ● ● ● ● ● ● Google, Microsoft, Yahoo, Twitter, … Text Mining, Information Retrieval, Search Engines, … Lexikographie und Terminologie Spracherkennung und Sprachsynthese, Dialogsysteme Computergestützter Sprachunterricht (CALL) Viele Start-Up-Unternehmen im IT-Bereich suchen Computerlinguisten! Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 24 Praktische Informationen Bismarckstr. 6 Raum 4.000 (Büro Professur) Philologien Unser Team ● Prof. Dr. Stefan Evert [email protected] ● Besim Kabashi, M.A. [email protected] ● Thomas Proisl, M.A. [email protected] ● Paul Greiner, M.A. [email protected] Webseite: http://www.linguistik.uni-erlangen.de/ Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert (CIP-Pool) Bismarckstr. 12 Raum 0.320 25 Lehrangebot im WS 2014/15 ● Vorlesung + Übung Grundlagen der Computerlinguistik 1 ● Werkzeuge und Arbeitstechniken der Computerlinguistik ● Vorlesung + Übungen Grundlagen der Informatik ● ● ● ● ● 1. Sem. Vorlesung Grundlagen der Computerlinguistik 3 PS Einführung in die maschinelle Sprachverarbeitung 3. Sem. PS Aufbaukurs Python Vorlesung + Übung Konzeptionelle Modellierung Vorlesung + Übung Implementierung von Datenbanksystemen ● Praktisches HS: Sentiment Analysis & Subjectivity ● Oberseminar Computerlinguistik Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert 5. Sem. 26 Semester: WS 2013/2014 UnivIS - Lehrveranstaltungsplan Mo Di Mi 08:00 Do Fr 08:15 - 09:45 Konzeptionelle Modellierung (Lenz) 09:00 H7 10:00 10:15 - 11:45 11:00 Übung zu Grundlagen der Computerlinguistik 1 (Evert) 0.320 Bismarckstr. 12 12:00 12:15 - 13:45 13:00 Grundlagen der Computerlinguistik 1 (Evert) 0.320 Bismarckstr. 12 14:00 14:15 - 15:45 14:15 - 15:45 14:15 - 15:45 14:15 - 15:45 Werkzeuge und Arbeitstechniken der Computerlinguistik (Greiner) 0.320 Bismarckstr. 12 Aufbaukurs Python (Proisl) 0.320 Bismarckstr. 12 Grundlagen der Informatik (Grosso) H7, H8 Grundlagen der Informatik Ergänzungen (Bauer) 01.133-128 14:15 - 15:45 15:00 Praktisches Hauptseminar Computerlinguistik (Evert) 4.000 Bismarckstr. 6 16:00 16:15 - 17:45 16:15 - 17:45 16:15 - 17:45 16:15 - 17:45 17:00 Grundlagen der Computerlinguistik 3 (Evert) 4.000 Bismarckstr. 6 Implementierung von Datenbanksystemen (Meyer-Wegener) Oberseminar Computerlinguistik (Evert) 4.000 Bismarckstr. 6 Grundlagen der Informatik (Grosso) H7, H8 18:00 19:00 H8 18:15 - 19:45 Maschinelle Sprachverarbeitung (Kabashi) 0.320 Bismarckstr. 12 27 Stand: Montag, 14 Oktober 2013 16:37:34 28