1 Korpuslexikographie Korpuslexikographie
Transcription
1 Korpuslexikographie Korpuslexikographie
Korpuslexikographie Grundlagen Korpuslexikographie Korpuslexikographie: Lexikographie, die auf der (partiell) automatischen Analyse von elektronischen Textkorpora basiert. Korpusgestützte Lexikographie am IDS: „Korpusgestützte Lexikographie erarbeitet Wörterbücher auf der Grundlage elektronischer, gezielt zusammengestellter Textsammlungen, die […] authentische Sprache repräsentieren sollen und die mithilfe geeigneter Recherche- und Analysesoftware erschlossen und ausgewertet werden. Alle Daten werden redaktionell auch unter Einbezug sekundärer und/oder tertiärer Quellen geprüft und bewertet […].“ Klosa, Annette 2007. Korpusgestützte Lexikographie: besser, schneller, umfangreicher? In: W. Kallmeyer & G. Zifonun (eds.). Sprachkorpora. Datenmengen und Erkenntnisfortschritt. Berlin, New York: de Gruyter, 105-122. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 1] Korpuslexikographie Grundlagen Drei Typen von Korpuslexikographie korpusgebunden korpusgestützt (I) Das Wörterbuch basiert ausschließlich auf einem bestimmten Korpus (keine anderen Korpora, keine anderen Sekundärquellen), aus dem alle lexikographischen Informationen gewonnen werden. (II) Das Wörterbuch basiert auf einem bestimmten Korpus, aus dem zunächst alle relevanten lexikographischen Informationen gewonnen werden, die dann durch Hinzuziehung anderer Korpora und Sekundärquellen ergänzt werden. (III) Das Wörterbuch basiert auf einem bestimmten Korpus, das verwendet wird, um lexikographische Informationen, die zunächst aus anderen Quellen gewonnen werden, zu validieren. korpusgesteuert korpusvalidierend Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 2] 1 Korpuslexikographie Grundlagen Wozu werden Korpusanalyseverfahren benötigt? Die Anwendungsbereiche im Einzelnen: • Bestimmung der relevanten Bedeutungsvarianten (durch Überprüfung von Konkordanzen und Kookkurrenzanalysen) • Identifikation von Kollokationen und anderen festen Wendungen (durch Überprüfung von Kookkurrenzanalysen) • Bestimmung von semantischen Relationen (durch Überprüfung von Konkordanzen und Kookkurrenzanalysen) • Auswahl von Beispielen und typischen Gebrauchskontexten (durch Überprüfung von Clusteranalysen und Kookkurrenzanalysen) • Überprüfung der Lemmaliste (durch Vergleich der bestehenden Liste mit Frequenzlisten) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 3] Korpuslexikographie Beispielanalyse: abziehen Zum Vergleich: ein Artikel aus einem nicht korpusbasierten Wörterbuch Artikel für abziehen in Vietzes (1981) DeutschMongolischem Wörterbuch. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 4] 2 Korpuslexikographie Stichwort: abziehen Beispielanalyse: abziehen Konjugation: <32a> Grammatische Varianten 1: tr Struktur des Artikels Übersetzungen allgemein: татаж авах spezifisch 1: Fell хуулах, өвчих 2: Flüssigkeit гоожуулах 3: Math хасах (von -аас) 4: Typ хувилах Beispiele 1: das Rasiermesser ~ тонгорог билүүдэх 2: Rinde ~ холтсы нь хуулах 3: den Schlüssel ~ түлхүүр сугалж авах 2: intr Übersetzungen spezifisch 1: sich entfernen холдох, зайлах (von -аас) 2: sich zurückziehen ухрах, хойшоо болох (von -аас) Beispiele 1: unverrichteterdinge ~ юу ч үтүй od. хоосом явах Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 5] Korpusrecherchemethoden Kookkurrenzanalyse für abziehen (CCDB); Korpusrecherchesystem IV: Corpus Browser Funktionswörter nicht berücksichtigt. abgedeckt in Vietze nicht abgedeckt in Vietze Truppen abziehen unverrichteter Dinge wieder abziehen wurden zwei Punkte abgezogen eine Show abziehen die Haut abziehen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 6] 3 Korpusrecherchemethoden Korpusrecherchesystem IV: Corpus Browser vom Einkommen abziehen den Zündschlüssel abziehen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 7] Korpusrecherchemethoden Korpusrecherchesystem IV: Corpus Browser aus 20 Metern abziehen Botschafter (aus …) abziehen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 8] 4 Korpusrecherchemethoden Korpusrecherchesystem IV: Corpus Browser Kapital (aus …) abziehen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 9] Korpusrecherchemethoden Korpusrecherchesystem IV: Corpus Browser den Rauch abziehen lassen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 10] 5 Korpuslexikographie Beispielanalyse: abziehen Schritt 2: Analyse einer Teilmenge der KWICs zu abziehen Ziel der KWIC-Analyse (zu den Kookkurrenzen, aber auch auf Basis neuer Korpusabfragen): • • • Ermittlung von Lesarten…………………. Ermittlung der Varianz von Wendungen…. Ermittlung semantischen Relationen……….. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 11] 1 Mongolia / Languages 2 Publishing dictionaries 3 Corpus linguistics 4 Improving dictionaries 5 Outlook Öffnung der KWICs zu den Kookkurrenzen (COSMAS II) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 12] 6 1 Mongolia / Languages 2 Publishing dictionaries 3 Corpus linguistics 4 Improving dictionaries 5 Outlook Öffnung der KWICs zu den Kookkurrenzen (COSMAS II) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 13] 1 Mongolia / Languages 2 Publishing dictionaries 3 Corpus linguistics 4 Improving dictionaries 5 Outlook Laden von Korpora mit COSMAS II Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 14] 7 1 Korpora & Lexikographie 2 Korpusanalyse Suche (COSMAS II): &von /+w5 abgezogen (alle Belege mit einer Wortform zu von gefolgt im Abstand bis zu 5 Wörtern von der Wortform abgezogen) Beispiel für einer Suche, die Belege für präpositionale Anschlüsse mit von aufdeckt. 3 Lexikographische Praxis 4 Korpusgesteuerte Wb. … Tage von der Haft abgezogen werden … Produktion von Fernsehgeräten wurde von Bremen abgezogen … daß ihnen ein Gewerkschaftsbeitrag vom Lohn abgezogen wird … daß die Offensivwaffen von deutschem Boden abgezogen werden … alle irakischen Truppen sind von iranischem Gebiet abgezogen worden Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 15] 1 Korpora & Lexikographie Suche (COSMAS II): &abziehen /s0 &aufziehen (alle Belege die innerhalb eines Satzes eine Wortform zu abziehen und eine zu aufziehen enthalten) 2 Korpusanalyse 3 Lexikographische Praxis 4 Korpusgesteuerte Wb. Beispiel für eine Suche, die Belege für semantische Relationen (hier Gegensatzrelationen) aufdeckt. … in diesen Wochen des abziehenden Sommers und des aufziehenden Wahlkampfes … ihm die Haut abziehen und auf eine plastische Gestalt aufziehen … ein Naturereignis, … das aufzieht, losbricht und dann wieder … abzieht … dass bei der Warmfront die Wolken .. aufziehen und bei der Kaltfront .. abziehen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 16] 8 Korpuslexikographie Beispielanalyse: abziehen Schritt 3: Heranziehen weiterer Korpusressourcen Ziel : • Entdeckung von Lesarten und Wendungen, die durch die Texte des Primärkorpus nicht gut abgedeckt werden Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 17] Korpuslexikographie KWICFinder Beispielanalyse: abziehen KWICFinder Key Word in Context Research Tool and Concordancer for the Web • Entwickler: William Fletcher. • Version: 0.98.22 (Beta Version), 11. Dez. 2006 (Windows). • Recherche: Online. • Software: wird lokal installiert. • Zugang: freier Download des Programms. • Korpora: Webseiten. • Sprachen: ca. 20 Sprachen auf Basis der lateinischen Schrift werden unterstützt. • URL: http://www.kwicfinder.com/KWiCFinder.html. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 18] 9 Korpuslexikographie Beispielanalyse: abziehen • erstellt Konkordanzen auf der Basis von WWW-Seiten • Suche kann beschränkt werden auf Seiten mit bestimmten Titeln oder in bestimmten Domains • kann genutzt werden, um Beispiele aus umgangs- oder fachsprachlichen Texten zu finden Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 19] Verwendung von KWICFinder um Konkordanzen zu umgangssprachlichem Deutsch aus dem Internet zu erstellen Suchterm eingeben: abziehen. Suche in Seiten, die „chat“ im Titel haben. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 20] 10 1 Korpora & Lexikographie 2 Korpusanalyse 3 Lexikographische Praxis Ergebnisse 4 Korpusgesteuerte Wb. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 21] Beispielsätze aus der Konkordanz a. Ich bin und bleibe stolzer Tokio Hotel Fan wer damit ein problem hat der soll abziehen. b. Die Leute die mich kennen, wissen, daß ich eigentlich eine ganz Friedfertige und Versöhnliche bin. Aber was hier einige Leute abziehen ... echt therapiebedürftig!!! c. Das Leben geht weiter und dein Schwarm wird nie erfahren, dass du ihn hier eingetragen hast. Andere Eltern haben auch hübsche Kinder, und du kannst bei uns so viele Schwärme eintragen, wie du möchtest. Ist das nicht toll - du musst keine Show abziehen, du riskierst keinen Korb, du trägst einfach nur deinen Schwarm ein und wartest ab! d. Leider kannst so'n Scheiß ja nich wirklich abziehen weil der Scheiß überall in deine Unterlagen kommt... e. Die Suppe mit Salz abschmecken, mit verquirltem Eigelb abziehen und die Spargelstückchen hineingeben. f. ich finde auch den preis etwas niedrig und der ebayer hat auch nur 2 bewertungen,habe deshalb ihn gefragt,ob wir das geschäft über den treuhandservice abwickeln können.jetzt warte ich auf seine antwort.nicht das der mich abziehen will,nur weil vielleicht zu wenig für das board geboten wurde.nicht mein problem. g. Soll der Lüfter kühle Luft da rein pusten (ich weis nicht ob sich die Luft dann staut), oder die heiße Luft abziehen? h. Bieretiketten kann mein einfach von der Flasche abziehen. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 22] 11 Varianten, die in Vietze nicht abgedeckt sind (1) Die Leute die mich kennen, wissen, daß ich eigentlich eine ganz Friedfertige und Versöhnliche bin. Aber was hier einige Leute abziehen ... echt therapiebedürftig!!! abziehen – Was ziehst du hier ab? (2) Die Suppe mit Salz abschmecken, mit verquirltem Eigelb abziehen und die Spargelstückchen hineingeben. ‘[…] thicken the soup with beaten egg yolk […]’ abziehen – (gastr.) er zieht die Suppe mit Eigelb ab Noch einmal: Rückblick auf das deutsch-mongolische Wörterbuch (3) ich finde auch den preis etwas niedrig und der ebayer hat auch nur 2 bewertungen,habe deshalb ihn gefragt,ob wir das geschäft über den treuhandservice abwickeln können.jetzt warte ich auf seine antwort.nicht das der mich abziehen will,nur weil vielleicht zu wenig für das board geboten wurde.nicht mein problem. abziehen (ugs.) – er versuchte mich abzuziehen (4) Bieretiketten kann mein einfach von der Flasche abziehen. abziehen – sie zog das Etikett von der Bierflasche ab Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 23] Korpuslexikographie Beispielanalyse: abziehen Schritt 4: Heranziehen sekundärer lexikographischer Ressourcen Ziel : • Entdeckung von Lesarten und Wendungen, die durch die Texte des Primärkorpus nicht gut abgedeckt werden Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 24] 12 Überprüfung von Neubedeutungen in Neologismenwbs. (hier IDS-Neologismenwörterbuch: http://www.owid.de/Neologismen/index.html) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 25] 1 Mongolia / Languages Varianten, die in Vietze nicht abgedeckt sind 2 Publishing dictionaries 3 Corpus linguistics jemandem etwas, besonders teure Markenkleidung,4 Improving dictionaries 5 Outlook gewaltsam vom Körper reißen und rauben (besonders unter Jugendlichen) Das „Abziehen“ von Jacken oder Walkmen-Geräten – längst ein massives Problem an Westberliner Schulen – wird nun auch aus OstBerlin vermeldet. (die tageszeitung, 12. Oct. 1990) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 26] 13 1 Mongolia / Languages 2 Publishing dictionaries 3 Corpus linguistics 4 Improving dictionaries jemanden räuberisch erpressen (besonders unter Jugendlichen) 5 Outlook Mit Erpressung, dem „Abziehen“, haben fast alle Erfahrung. Da wird berichtet, dass Jugendliche andere zwingen, ihnen bei Aldi Zigaretten „zu besorgen“ (die tageszeitung, 14. Apr. 1998) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 27] Korpuslexikographie Beispielanalyse: abziehen Varianten, die in Vietze nicht abgedeckt sind Varianten, die in Vietze abgedeckt sind Relevant für ein allgemeines zweisprachiges Wörterbuch intr. (Truppen) tr. (Truppen, Botschafter) tr. (Schlüssel) intr. (weggehen) tr. (Kapital) tr. (Punkte) Ein letztes Mal: Rückblick auf das deutsch-mongolische Wörterbuch tr. (ugs.) (betrügen) Irrelevant für ein allg. zweispr. Wb. tr. (math.) tr. (Fell, Haut) itr. (Rauch) itr. (ugs.) (fest schießen) tr. (ugs., neg.) (tun) (Show) tr. (Rasiermesser) tr. (typogr.) (Fotos) tr. (Etikett) tr. (Rinde) (jugendspr.) (erpressen) tr. (vom Einkommen) tr. (jugendspr.) (runterziehen und rauben) (gastr.) (andicken) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 28] 14 Korpuslexikographie Korpusgesteuerte Wörterbücher Was kennzeichnet korpusgesteuerte Wörterbücher? • starke Orientierung am Sprachgebrauch, Orientierung am Häufigen und Üblichen • authentische Belege • ausführliche Berücksichtigung des sprachlichen Kontextes Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 29] Beispiel: Das Wörterbuch elexiko innerhalb von OWID (Online-Wortschatzinformationssystem Deutsch) am IDS 1 Korpora & Lexikographie 2 Korpusanalyse 3 Lexikographische Praxis 4 Korpusgesteuerte Wb. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 30] 15 elexiko: lesartenübergreifender Teil zum Verb verurteilen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 31] elexiko: lesartenspezifischer Teil zum Verb verurteilen (i) Bedeutungserläuterung Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 32] 16 elexiko: lesartenspezifischer Teil zum Verb verurteilen (ii) Semantische Umgebung und lexikalische Mitspieler Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 33] elexiko: lesartenspezifischer Teil zum Verb verurteilen (iii) Typische Verwendungen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 34] 17 elexiko: lesartenspezifischer Teil zum Verb verurteilen (iv) Sinnverwandte Wörter Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 35] elexiko: lesartenspezifischer Teil zum Verb verurteilen (v) Besonderheiten des Gebrauchs Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 36] 18 elexiko: lesartenspezifischer Teil zum Verb verurteilen (vi) Grammatik Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 37] Lexikographie im Internet Grundlegendes Lexikalische Ressourcen im Internet Ein Wörterbuch ist ein Referenzwerk mit lexikographisch bearbeiteten sprachlichen Informationen zu lexikalischen Einheiten. Das heißt: Die Informationen in Wörterbüchern sind keine Primärdaten, sondern Ergebnisse linguistisch-lexikographischer Interpretation. Aber: Viele Wörterbücher im Internet integrieren auch unbearbeitete, aus Korpora extrahierte Daten. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 38] 19 Lexikographie im Internet Grundlegendes Einige lexikographisch relevante Verfahren der automatischen Extraktion und Analyse von Daten aus Textkorpora I. Extraktion von Korpusbeispielen II. Frequenzanalysen III. Morphologische Analysen IV. Kookkurrenzanalysen V. Analyse semantischer Relationen VI. Zeitverlaufsanalysen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 39] Lexikographie im Internet Belegextraktion I) Extraktion von Korpusbeispielen Lexikographische Bearbeitung: • selektive Anwendung von Konkordanzprogrammen zur Extraktion aussagekräftiger Belege • manuelle Auswahl von Belegen für Wörterbücher Automatische Angaben: • Zufallsauswahl aus Korpora • Steuerung der Distribution (elexiko: Belege aus verschiedenen Quellen und Jahrgängen; keine Überschriften) Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 40] 20 Lexikographie im Internet Belegextraktion automatisch extrahierte Belegangaben: Auszug aus dem Rechercheergebnis zum Suchterm „Thomas“ Wortschatz-Portal. – Universität Leipzig, Institut für Informatik, Abteilung Sprachverarbeitung, 1998-2009. Online, 5. Mai 2009, <http://wortschatz.informatik.uni-leipzig.de/index.html>. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 41] automatisch extrahierte Belegangaben: Artikel zum noch nicht lexikographisch bearbeiteten Artikel zu Alltagspoesie elexiko – In: OWID – Online Wortschatz-Informationssystem Deutsch, hg. v. Institut für Deutsche Sprache, Mannheim. Online, 5. Mai 2009, <www.owid.de/elexiko_/index.html>. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 42] 21 Lexikographie im Internet Belegextraktion elexiko automatisch extrahierte Belege zum Suchterm „Laster“ in elexiko und im Wortschatz-Portal Wortschatz-Portal Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 43] Lexikographie im Internet Belegextraktion Digitales Wörterbuch der deutschen Sprache. Wortinformationen. – Hg. von der Berlin-Brandenburgischen Akademie der Wissenschaften. Online, 5. Mai 2009, <http://www.dwds.de/>. automatisch extrahierte Belege zum Suchterm „Laster“ in den DWDS-Wortinformationen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 44] 22 Lexikographie im Internet Belegextraktion Resumee zu automatisch integrierten Korpusbelegen • Es kommen noch keine Extraktionsprogramme zum Einsatz, die Lesarten bei der automatischen Auswahl (ansatzweise) erkennen. • Den Gebrauchsspielraum eines Lexems wird nur ganz rudimentär berücksichtigt. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 45] Lexikographie im Internet Frequenzanalysen II) Frequenzanalysen Lexikographische Bearbeitung: • kaum in lexikographisch bearbeiteter Form in Internetwörterbüchern • Nutzung von Frequenzangaben zur Lemmaselektion, etc. Automatische Angaben: • entweder in Form absoluter Frequenzangaben, relativer Frequenzangaben oder durch Einordnung in Frequenzklassen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 46] 23 DWDS-Wortinformationen Frequenzangabe zu Semmelmehl durch Einordnung in Frequenzklassen (elexiko, WortschatzPortal), Angabe absoluter Korpusfrequenz (DWDS) sowie einer Distributionsangabe (elexiko) Wortschatz-Portal elexiko Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 47] Lexikographie im Internet Frequenzanalysen Resumee zu automatisch ermittelter Frequenzangaben • Die Angaben sind gut zu verwenden. Die Einordnung in Frequenzklassen in ein übliches Verfahren der korpusbestimmten Frequenzbeschreibung. • Frequenzangaben werden nicht mit Angaben zur thematischstilistischen Distribution über bestimmte Texte verknüpft. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 48] 24 Lexikographie im Internet Morphologische Analysen III) Morphologische Analyse Lexikographische Bearbeitung: • manuelle Korrektur der Ergebnisse automatischer Wortbildungsanalysen • ansonsten relativ direkte Umsetzung in Angaben Automatische Angaben: • Integration morphologischer Strukturanalysen • Generierung von Flexionsparadimen zu Lemmata Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 49] Lexikographie im Internet Morphologische Analysen Digitales Wörterbuch der deutschen Sprache. Wortinformationen. – Hg. von der BerlinBrandenburgischen Akademie der Wissenschaften. Online, 5. Mai 2009, <http://www.dwds.de/>. Flexionsangaben und Wortbildungsanalyse zu Veranstaltungskalender in den DWDS-Wortinformationen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 50] 25 Lexikographie im Internet Morphologische Analysen automatisch erzeugte Flexionsparadigmen zu hänseln in „Cactus 2000“ Cactus 2000. Konjugationstabellen. – Von Helge Krüger, 2004-2008. Online, 5. Mai 2009, <http://www.cactus2000.de/de/index.php>. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 51] Lexikographie im Internet Morphologische Analysen Wörterbuch der deutschen Wörterbildung. – In. CanooNet, 2000-2009. Online, 8. Mai 2009, <http://www.canoo.net/services/WordformationDictionary/ueberblick/index.html>. (vermutlich) automatisch erzeugte und (vermutlich nicht) manuell überprüfte Wortbildungsanalyse zu Veranstaltungskalender im canoo-Wortbildungswörterbuch. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 52] 26 Lexikographie im Internet Morphologische Analysen Resumee zur Angabe automatischer morphologischer Analysen • Der Output flexionsmorphologischer Generatoren ist natürlich nicht Ergebnis einer empirischen Erhebung. • Morphologische Parser arbeiten nicht fehlerfrei; Beispiele: Bleiberecht: blei|be|recht (Wortschatz-Portal) Kalender: Kalenden + er (CanooNet) • Die automatischen Wortbildungsanalysen sind ohne Kenntnis der zugrundeliegenden morphologischen Annahmen kaum einzuschätzen; Beispiele aus dem Wortschatz-Portal: Ferienoase: feri|en|oas|e Institutionalisierung: in|stitut|i|on|al|is|ier|ung Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 53] Lexikographie im Internet Kookkurrenzanalysen IV) Kokkurrenzanalysen Lexikographische Bearbeitung: • Kookkurrenzanalysen sind (z. B. in elexiko) die Grundlage zur Bestimmung von Lesarten, semantischen Relationen, Kollokationen und festen Wendungen. • Sie werden in überarbeiteter Form in Mitspieler- und Kollokationsangaben überführt. Automatische Angaben: • Kokkurrenzanalysen werden zum Teil automatisch in Angaben zu Kookkurrenzen, linken und rechten Nachbarn oder in semantische Netze zur Präsentation im Wörterbuch überführt. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 54] 27 automatisch erzeugte, kookkurrenzbasierte Angaben (Kookkurrenzen, Mehrwortausdrücke, linke und rechte Nachbarn, semantisches Netz) zu Maus im Wortschatz-Portal Wortschatz-Portal Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 55] elexiko lexikographische bearbeitete Angaben zu typischen Verwendungen einer Lesart von Mobilisierung in elexiko, basierend auf Kookkurrenzanalysen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 56] 28 Link zu einer (lexikographisch unbearbeiteten) Kookkurrenzanalyse von Mobilisierung aus der CCDB. Kookkurrenzdatenbank CCDB - V3.2. – Von Cyril Belica. © 2001-2007, Institut für Deutsche Sprache, Mannheim. elexiko Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 57] Lexikographie im Internet Kookkurrenzanalysen Resumee zur automatischen Angabe von Kookkurrenzen • Die Ergebnisse einer Kookkurrenzanalyse sind in hohem Maße interpretationsbedürftig; selbst für Lexikographen sind Hintergrund und Effekt der Variation von statistischem Maß und Analyseparametern nur eingeschränkt nachvollziehbar. • Es ist bei diesen Angaben nicht klar aufgrund welcher statistischer Verfahren und unter welchen Analyseparametern sie zustande gekommen sind. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 58] 29 • Es ist schwer zu sagen, welche Informationen aus unkommentierten Kookkurrenzanalysen zu entnehmen sind Wortschatz-Portal automatisch berrechnete Angaben zu Kookkurrenzen und signifikanten linken Nachbarn zu besprechen im Wortschatz-Portal Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 59] Lexikographie im Internet Analyse semantischer Relationen V) Analyse semantischer Relationen Lexikographische Bearbeitung: • Autmatische Verfahren zur Ermittlung von semantischen Relationen (Synonymie, Antonymie, Hyponymie, …) werden von Lexikographen nur selten genutzt. (?) • Es wird eher auf bestimmte Techniken der Korpusabfrage gesetzt. Automatische Angaben • Automatisch analysierte semantische Relationen treten nur selten in Wörterbüchern auf; ein Beispiel: Wortschatzportal (Berechnungsgrundlage unklar). Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 60] 30 Lexikographie im Internet Analyse semantischer Relationen elexiko Darstellung lexikographisch bearbeiteter semantischer Relationen zu Abend in elexiko, basierend auf Kookkurrenzanalysen undMannheim KWUC-Analysen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni [Folie 61] Lexikographie im Internet Analyse semantischer Relationen Automatische gewonnene semantische Relationen zu Abend im Wortschatzportal, basierend auf ??? Wortschatz-Portal Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 62] 31 Lexikographie im Internet Analyse semantischer Relationen Resumee zu automatischen Angaben zu semantischen Relationen • Automatische Angaben zu semantischen Relationen sind in hohem Maße interpretationsbedürftig. • Dort, wo sie verwendet werden (Wortschatz-Portal) ist das linguistische / computerlinguistische Konzept von semantischen Relationen unklar. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 63] Lexikographie im Internet Zeitverlaufsanalysen F) Zeitverlaufsanalysen Lexikographische Bearbeitung: • Zeitverlaufsanalysen werden unter anderem zur Neologismenermittlung verwendet. • Sie werden dort z. B. in Beschreibungen von Auftretenszeiten von Neologismen umgesetzt. Automatische Angaben • Selten; zum Beispiel IDS-Neologismenwörterbuch (auch im DWDSKorpus). Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 64] 32 Lexikographie im Internet Analyse semantischer Relationen • Phasengröße: 1 Jahr • Korpusgröße pro Phase: verschieden groß (aber sehr groß) • Häufigkeitsangabe: relativ zu der Häufigkeit, die erwartbar wäre bei gleicher Verteilung der Treffer über die gesamte Zeitspanne (0-Linie; dies wiederum berechnet relativ zur Korpusgröße in jeder Phase) • Zugänglichkeit: http://www.owid.de/ Bildschirmschoner Neologismen/index. html Vgl. dazu die Information in http://www.idsmannheim.de/kl/projekte/ methoden/mdca.html. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 65] Angabe zum Aufkommen einer Neubedeutung von abziehen im IDSNeologismenwörterbuch Neologismenwörterbuch. – In: OWID – Online Wortschatz-Informationssystem Deutsch, hg. v. Institut für Deutsche Sprache, Mannheim, 2005ff. Online, 7. Mai 2009, <www.owid.de/Neologismen/i ndex.html>. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 66] 33 Explizte Angabe einer automatisch ermittelten Zeitverlaufsgraphik IDS- Neologismenwörterbuch Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 67] Lexikographie im Internet Analyse semantischer Relationen Resumee zu automatischen Angaben zu Gebrauchsverläufen • Zeitverlaufgraphiken sind interpretationsbedürftig: sie sind nicht lesartenspezifisch (z. B. abziehen); bei einem Zusammenfall eines Wortes mit einem Eigennamen wird nicht differenziert (z. B. Rafter); adjektivierte, semantisch eigenständige Partizipien werden von echten verbalen Partizipien nicht unterschieden (abgezockt). • Die Grundlage der Berechnung sollte der Internetquelle zu entnehmen sein. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 68] 34 Lexikographie im Internet Resumee Lexikalische Ressourcen im Internet Nutzt man Daten aus Wörterbüchern für eigene empirische Untersuchungen, muss man sich Gewissheit verschaffen, ob und in welchem Maße die Wörterbuchinformationen Gegenstand lexikographische Interpretation und Beschreibung sind. Es muss auch aus der Quelle hervorgehen, auf der Basis welcher Extraktions- und Berechnungsverfahren die Daten gewonnen wurden.. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 69] Lexikographie im Internet Einige interessante Quellen Resumee Wortschatz-Portal. Projekt Deutscher Wortschatz. Developed and published by Universität Leipzig, Institut für Informatik, Abteilung Sprachverarbeitung, 1998-2007. Online, May 4, 2009, <http://wortschatz.informatik.uni-leipzig.de/index.html>. Das Digitale Wörterbuch der deutschen Sprache des 20. Jh. Published by “BerlinBrandenburgische Akademie der Wissenschaften”. Online, May 4, 2009, <http://www.dwds.de/>. Online Wortschatz Informationssystem Deutsch. Published by “Institut für Deutsche Sprache”, 2009ff. Online, May 4, 2009, <www.owid.de>. WordNet – a Lexical Database for English, Version 2.1/3.0. – Cognitive Science Laboratory Princeton University, 2008, Online, 8.1.2009, <http://wordnet.princeton.edu>. Das Wörterbuch-Netz. Published by “Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften“, 2006-2007. Online, May 4, 2009, <http://germazope.uni-trier.de/Projects/WBB/>. Canoonet. Deutsche Wörterbücher und Grammatik. Online, 20.4.2009, <http://www.canoo.net>. Elektronisches Lernerwörterbuch Deutsch-Italienisch. Dizionario elettronico per apprendenti Italiano-Tedeso .– Europäische Akademie Bozen, 2002. Online, 9.1.2009, <http://dev.eurac.edu:8081/MakeEldit1/Eldit.html>. Die Wortwarte - auf der Suche nach den Neuwörtern von morgen. – Von Lothar Lemnitzer & Tylman Ule, 2001. Online, 7.1.2009, <http://www.sfs.nphil.uni-tuebingen.de/~lothar/nw/>. Kicktionary. A multilingual electronic dictionary of football language. – Von Thomas Schmidt, Hamburg, SFB 538 “Mehrsprachigkeit”, 2005-2009. Online, 9.1.2009, <http://www.kicktionary.de/}>. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 70] 35 Lexikalische Ressourcen im Internet (vi) Grammatik elexiko: lesartenspezifischer Teil zum Verb verurteilen Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 71] Lexikographie im Internet Beispielanalyse: abziehen Lexikalische Ressourcen im Internet Ein Wörterbuch ist ein Referenzwerk mit lexikographisch bearbeiteten sprachlichen Informationen zu lexikalischen Einheiten. Das heißt: Die Informationen in Wörterbüchern sind keine Primärdaten, sondern Ergebnisse linguistisch-lexikographischer Interpretation. Aber: Viele Wörterbücher im Internet integrieren auch unbearbeitete, aus Korpora extrahierte Daten. Nutzt man Daten aus Wörterbüchern für eigene empirische Untersuchungen, muss man sich Gewissheit verschaffen, ob und in welchem Maße die Wörterbuchinformationen Gegenstand lexikographische Interpretation und Beschreibung sind. Stefan Engelberg, Linguistische Methodenlehre, FS 2009, Uni Mannheim [Folie 72] 36