Polskojęzyczne korpusy równoległe w Polsce i za granicą. Polish
Transcription
Polskojęzyczne korpusy równoległe w Polsce i za granicą. Polish
Polskojęzyczne korpusy równoległe Polish-language Parallel Corpora MULTILINGUAL APPLIED LINGUISTICS WIELOJĘZYCZNA LINGWISTYKA STOSOWANA Redaktor serii: Ewa Gruszczyńska TOM I Instytut Lingwistyki Stosowanej WLS Uniwersytet Warszawski Komitet Redakcyjny serii: Agnieszka Biernacka, Markus Eberharter, Agnieszka Kulczyńska, Agnieszka Leńko-Szymańska, Anna Szczęsny. Uniwersytet Warszawski Wydział Lingwistyki Stosowanej Instytut Lingwistyki Stosowanej University of Warsaw Faculty of Applied Linguistics Institute of Applied Linguistics Polskojęzyczne korpusy równoległe Polish-language Parallel Corpora Redakcja Edited by Ewa Gruszczyńska, Agnieszka Leńko-Szymańska Warszawa 2016 Książka wydana dzięki środkom Wydziału Lingwistyki Stosowanej Uniwersytetu Warszawskiego Recenzent Profesor zwyczajny dr hab. Barbara Lewandowska-Tomaszczyk Projekt okładki: Barbara Kuropiejska-Przybyszewska Skład i łamanie: Witold Woicki Copyright: Instytut Lingwistyki Stosowanej 2016 Individual authors Wydano nakładem Instytutu Lingwistyki Stosowanej WLS UW Druk i oprawa: Sowa Sp. z o.o. www.sowadruk.pl ISBN: 978-83-935320-4-9 Spis treści Table of Contents 1. Agnieszka Leńko-Szymańska, Ewa Gruszczyńska Polskojęzyczne korpusy równoległe w Polsce i za granicą Polish-language parallel corpora in Poland and abroad����������������������������������������1 2. Alexandr Rosen InterCorp – a look behind the façade of a parallel corpus InterCorp – korpus równoległy od kuchni������������������������������������������������������������21 3. Milena Hebal-Jezierska, Alexandr Rosen, Elżbieta Kaczmarska Between the devil and the deep blue sea or between users’ needs and the compilers’ powers: An analysis of the Czech-Polish part of the parallel corpus InterCorp Między młotem a kowadłem, czyli czego potrzebuje użytkownik korpusu równoległego, a jakie są możliwości twórców korpusów (na przykładzie czesko-polskiej części korpusu równoległego InterCorp) ������������������������������������������������������������������������41 4. Piotr Pęzik Exploring phraseological equivalence with Paralela Zastosowanie korpusu Paralela w badaniach ekwiwalencji frazeologicznej ����������������������������������������������������������������������������������������������������������67 5. Marek Łaziński, Magdalena Kuratczyk Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego The University of Warsaw Polish-Russian Parallel Corpus ��������������������������������83 6. Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim i Niemiecko-Polskim Korpusem Równoległym How to create a parallel corpus “for all”? About the building of the Polish-German and German-Polish Parallel Corpus ������������������������������97 7. Danuta Roszko, Roman Roszko Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej z zakresu modalności możliwościowej i kwantyfikacji zakresowej Polish-Lithuanian parallel corpora: Elements of the semantic annotation related to hypothetical and imperceptive modalities and scope quantification��������������������������������������������������������������������������������������� 119 8. Natalia Kotsyba Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2 Polish-Ukrainian Parallel Corpus PolUKR and its successor PolUKR-2 ��������������������������������������������������������������������������������������������������������������� 133 9. Marianna Petrincová Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym Searching for equivalents in the Polish-Slovak Parallel Corpus ��������������������� 143 10. Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek Multi-domain machine translation enhancements by parallel data extraction from comparable corpora Poprawa jakości tłumaczenia maszynowego dla wielu domen poprzez ekstrakcję danych równoległych z korpusów porównywalnych ����������������������������������������������������������������������������� 157 11. Silvia Bonacchi, Mariusz Mela Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA dla celów analizy kulturologicznej i suprasegmentalnej (nie)grzeczności językowej Multilingual (Polish-German) corpus of spoken language (MCCA) for the purposes of a culturological and suprasegmental analysis of linguistic (im)politeness��������������������������������������������������������������������� 181 12. Łucja Biel Mixed corpus design for researching the Eurolect: a genre-based comparable-parallel corpus in the PL EUROLECT project Mieszana struktura korpusu do badania eurolektu – gatunkowy korpus porównawczo-równoległy w ramach projektu PL EUROLECT ������������������������������������������������������������������� 197 13. Monika Szela O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych w badaniu cech języka tekstów tłumaczonych On using a English-Polish Parallel Corpus of Legal Texts in research on features of the translational language ��������������������������������������� 209 14. Elżbieta Kaczmarska O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów emocjonalnych i ich polskich ekwiwalentach. Analiza na materiale z korpusu paralelnego InterCorp On two Czech lexical items representing negative emotional states and their Polish equivalents: An analysis based on the parallel corpus InterCorp������������������������������������������������������������������������� 227 15. Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts through translation Polsko-Szwedzki i Szwedzko-Polski Korpus Równoległy w badaniach kontaktów językowych poprzez tłumaczenie����������������������������� 249 Noty biograficzne��������������������������������������������������������������������������������������������������� 269 Notes on contributors ������������������������������������������������������������������������������������������� 275 Agnieszka Leńko-Szymańska Uniwersytet Warszawski Ewa Gruszczyńska Uniwersytet Warszawski Polskojęzyczne korpusy równoległe w Polsce i za granicą Dane korpusowe stanowią niezastąpione źródło informacji dla badaczy reprezentujących szeroki wachlarz różnych dyscyplin naukowych zajmujących się językiem, począwszy od badań czysto teoretycznych, a skończywszy na przetwarzaniu języka naturalnego. W ciągu ostatnich trzydziestu lat udostępniono naukowcom z różnych dziedzin językoznawstwa i kulturoznawstwa ogromną liczbę wielkich korpusów. Rośnie też liczba języków, które zostały udokumentowane w postaci dużych, zrównoważonych i reprezentatywnych zbiorów tekstów pisanych i mówionych, stanowiących dokładne i całościowe odzwierciedlenie języków narodowych bądź regionalnych (np. Brytyjski Korpus Narodowy, Amerykański Korpus Narodowy, Czeski Korpus Narodowy). Język polski jest także reprezentowany w co najmniej dwóch tego typu korpusach: Narodowym Korpusie Języka Polskiego i Korpusie Języka Polskiego PWN. Oprócz ogólnych zbiorów powstaje także wiele korpusów mających skromniejsze cele, ograniczonych do poszczególnych odmian języka. Coraz częściej pojawiają się także wielojęzyczne zbiory, co poszerza pole badawcze, na którym wykorzystuje się dane korpusowe. Podobnie, jak w przypadku korpusów jednojęzycznych, korpusy wielojęzyczne są przydatne do badań w wielu dziedzinach, a szczególnie tam, gdzie dokonuje się porównań dwóch lub więcej języków i kultur. Pole dociekań wykorzystujących wielojęzyczne korpusy obejmuje badania interkulturowe, kontrastywne badania dyskursu, językoznawstwo kontrastywne, przekładoznawstwo, automatyczne wyszukiwanie ekwiwalentów i tłumaczenie maszynowe. Zasoby wielojęzyczne obejmują zarówno korpusy porównywalne, tj. zbiory tekstów w dwóch lub więcej językach, które spełniają te same kryteria, np. reprezentują ten sam gatunek, temat, typ odbiorcy itp., jak i korpusy równoległe, w których zestawia się teksty oryginalne z przekładami na jeden lub więcej języków. Każdy z tych dwóch typów korpusów jest przeznaczony do rozwiązywania innego rodzaju problemów badawczych, ale rośnie liczba badań, w których wykorzystuje się 2 Agnieszka Leńko-Szymańska, Ewa Gruszczyńska dane zarówno z korpusów porównywalnych jak i równoległych oraz dodatkowo wzbogaca się wyniki, stosując analizę korpusów jednojęzycznych. Wśród wielojęzycznych zbiorów cyfrowych na świecie korpusy równoległe stanowią mniejszość z co najmniej dwóch powodów. Pierwszy wynika z tego, że do korpusu mogą zostać włączone tylko takie teksty, które istnieją w dwujęzycznej wersji (tekst oryginalny i jego przekład, ewentualnie dwa przekłady na różne języki tego samego tekstu wyjściowego), co znacznie ogranicza liczbę potencjalnych tekstów nadających się do takiego zbioru. Drugi powód wynika z charakteru procesu tworzenia korpusu równoległego, który jest o wiele trudniejszy pod względem technicznym, gdyż polega między innymi na zrównolegleniu obu dwujęzycznych tekstów na poziomie akapitów, zdań, a czasami nawet słów. Wymaga także skomplikowanego interfejsu umożliwiającego użytkownikowi dwujęzyczne symultaniczne wyszukiwanie informacji. Pierwsze korpusy równoległe często zawierały język angielski (np. Angielsko-Szwedzki Korpus Równoległy utworzony w 1993r.). Wynikało to ze statusu języka angielskiego jako powszechnie używanego i większej dostępności tekstów tłumaczonych z języka angielskiego i vice versa. Jednak z upływem lat zaczęło pojawiać się coraz więcej korpusów bazujących na innych parach języków. Ważnym źródłem danych paralelnych stały się oficjalne dokumenty krajów wielojęzycznych takich jak Kanada oraz dokumenty międzynarodowe (wydawane przez takie instytucje jak Organizacja Narodów Zjednoczonych, NATO i Unia Europejska) tłumaczone na kilkanaście lub kilkadziesiąt języków narodowych. W ciągu ostatnich lat, zarówno w Polsce jak i za granicą, rozpoczęto wiele działań związanych z budowaniem polskojęzycznych korpusów równoległych. Niektóre z nich stanowią część większych zbiorów liczących wiele języków (np. InterCorp, ParaSol), inne są ograniczone tylko do jednej pary językowej (np. Polsko-Rosyjski i Rosyjsko-Polski Korpus Równoległy, Korpus Równoległy PELCRA). Projekty te znacznie różnią się od siebie zarówno pod względem założeń i objętości, jak i rozwiązań technicznych. Tabele 1. i 2. dołączone do niniejszego rozdziału zawierają aktualną (względem daty wydania książki) listę polskojęzycznych korpusów równoległych opisanych w literaturze przedmiotu wraz z afiliacją każdego z nich, nazwiskami wykonawców oraz w miarę dostępności adresami internetowymi. Niniejszy tom jest odpowiedzią na rosnące zainteresowanie badaczy reprezentujących różne dyscypliny, którzy zajmują się analizowaniem języka polskiego i polskiej kultury w kontekście wielojęzycznym i wielokulturowym. Jego celem jest zaprezentowanie możliwie pełnego przeglądu bieżących projektów związanych z korpusami równoległymi z udziałem języka polskiego. Polskojęzyczne korpusy równoległe w Polsce i za granicą 3 Zawiera sprawozdania z tworzenia takich korpusów jak również opisy badań przeprowadzonych na ich podstawie. Tom składa się z rozdziału wstępnego oznaczonego numerem 1 oraz czternastu kolejnych rozdziałów opisujących projekty, które już zostały zakończone, a także takie, które są na etapie realizacji. W każdym rozdziale można znaleźć szczegółowy opis konkretnego korpusu równoległego zawierającego polski komponent. Prezentowane i poddane dyskusji są zarówno budowa korpusu, anotacja oraz zastosowany interfejs. Autorzy dostarczają także wielu przykładów badań opartych na danych uzyskanych z korpusów równoległych lub badań, które są planowane. Badania te potwierdzają wielość zastosowań cyfrowych zasobów paralelnych w językoznawstwie oraz kulturoznawstwie. Rozdział 2. autorstwa Alexandra Rosena dotyczy jednego z największych wielojęzycznych korpusów równoległych InterCorp utworzonego na Uniwersytecie Karola w Pradze. Obejmuje zbiór tekstów w 39 językach z czeskim jako najlepiej reprezentowanym językiem głównym. W rozdziale tym przedstawiono strukturę korpusu, który został też porównany z innymi tego typu zasobami. Wyjaśniono także jego status organizacyjny oraz opisano proces kompilacji. Część końcowa to przegląd różnego rodzaju zapytań możliwych do zrealizowania za pomocą korpusowego interfejsu. InterCorp zawiera komponent polski wielkości około 80 milionów słów, co przedyskutowano szczegółowo w rozdziale 3. Milena Hebal-Jezierska, Alexandr Rosen i Elżbieta Kaczmarska przeanalizowali wyzwania związane z oczekiwaniami użytkowników, przed jakimi stają twórcy korpusu. Autorzy przedstawiają problemy użytkowników, jakie pojawiają się przy korzystaniu z czesko-polskiej części korpusu oraz rodzaje zapytań, które nie są dobrze obsługiwane, jednak przytaczają także przykłady wyszukiwań, które zwracają bogate i relewantne dane. W rozdziale 4. Piotr Pęzik prezentuje nowy polsko-angielski korpus równoległy zwany Paralela, który jest od niedawna dostępny jako część polskiej infrastruktury CLARIN-PL –zasobów i narzędzi do obsługi tekstów w języku polskim. Autor skrótowo przedstawia zawartość korpusu i opisuje specjalnie stworzoną dla niego wyszukiwarkę. Rozważania zawarte w rozdziale skupiają się wokół możliwości zastosowania Paraleli w badaniach idiomów występujących w angielsko-polskich przekładach. Autor dochodzi do wniosku, że tylko wielkie korpusy równoległe w połączeniu z wyspecjalizowanymi narzędziami służącymi do ich przeszukiwania, mogą dostarczyć odpowiednich danych do badań nad zjawiskiem globalnej ekwiwalencji frazeologicznej w przekładzie. 4 Agnieszka Leńko-Szymańska, Ewa Gruszczyńska Rozdział 5. autorstwa Marka Łazińskiego i Magdaleny Kuratczyk dotyczy Polsko-Rosyjskiego Korpusu Równoległego utworzonego na Uniwersytecie Warszawskim. Zawiera on 30 milionów tokenów, jednak część korpusu nie jest ogólnie dostępna ze względu na prawa autorskie. Projekt był realizowany we współpracy z dwoma dużymi podmiotami: Narodowym Korpusem Języka Polskiego i Rosyjskim Korpusem Narodowym, których zasoby tekstowe oraz zasady anotacji częściowo wykorzystano. Autorzy omawiają proces budowy korpusu ze zwróceniem szczególnej uwagi na aspekty kulturowe przy doborze tekstów, proces tagowania oraz ujednoznaczniania, a także różne możliwości wyszukiwania. W rozdziale posłużono się dwoma przykładami zastosowania korpusu w badaniach ekwiwalentów przekładowych. Rozważania kończy dyskusja na temat znaczenia projektu oraz planów na przyszłość. W rozdziale 6. Andreas Meger, Michał Woźniak i Ruprecht von Waldenfels opisują korpus równoległy, który jest obecnie tworzony pod auspicjami Uniwersytetu Jan Gutenberga w Moguncji. Istotną cechą tego korpusu jest zrównoleglenie nie tylko na poziomie zdań, ale także na poziomie słów. Na razie mały, pilotażowy korpus liczy około 1 miliona tokenów. Podobnie jak w przypadku innych korpusów opisanych w tym tomie, autorzy omawiają szczegółowo jego budowę i anotację. Szczególną uwagę poświęcają projektowi interfejsu, który jest oparty na pakiecie ParaVoz, oryginalnie stworzonym dla projektu ParaSol. Obsługuje on teksty równoległe w formacie CWB i działa poprzez przeglądarkę internetową. Graficzna wyszukiwarka oferuje różne możliwości: od prostego wyszukiwania tokenów do skomplikowanego wyszukiwania CQP, co sprawia, że korpus jest „przyjazny” w użytkowaniu zarówno dla laików jak i dla specjalistów w przetwarzaniu języka naturalnego. Danuta Roszko i Roman Roszko (rozdział 7.) opisują dwa polsko-litewskie korpusy równoległe utworzone w Instytucie Slawistyki Polskiej Akademii Nauk. Starszy, korpus eksperymentalny, to wewnętrzny projekt zawierający ponad 2 miliony tokenów pochodzących z tekstów beletrystycznych i 14 milionów tokenów pochodzących ze współczesnych tekstów specjalistycznych w obu językach. Drugi korpus jest tworzony pod auspicjami konsorcjum CLARIN. Będzie także zawierał teksty beletrystyczne i teksty specjalistyczne, które znajdują się w wolnym dostępie, a jego objętość w roku 2016 planowana jest na około 6 milionów tokenów. Autorzy tłumaczą fakt istnienia dwóch korpusów równoległych prawami autorskimi. Polsko-litewski korpus równoległy CLARIN będzie w wolnym dostępie, więc może zawierać tylko teksty, dla których nie jest wymagana zgoda na upublicznienie, lub dla których taka zgoda została uzyskana. To ogranicza dobór tekstów, stąd decyzja o kontynuowaniu wewnętrznego projektu korpusowego, który ma służyć badaniom przeprowadzanym w macierzystej jednostce. Ciekawą cechą obu korpusów jest ich Polskojęzyczne korpusy równoległe w Polsce i za granicą 5 anotacja, która zawiera tagowanie semantyczne. W drugiej części artykułu autorzy wyjaśniają, że dzięki przejrzystości struktur formalnych języka litewskiego oraz braku dwuznaczności przy mapowaniu na płaszczyźnie formalno-funkcyjnej język litewski jest szczególnie odpowiedni do automatycznej anotacji semantycznej. Zestawienie go z językiem polskim oraz innymi językami słowiańskimi, które są mniej regularne pod wyżej wymienionym względami, może ułatwić semantyczną anotację tych języków. Rozdział 8., autorstwa Natalii Kotsyby, poświęcony jest opisowi kompilacji polsko-ukraińskiego korpusu równoległego oraz wyzwaniom, przed jakimi stanęli jego twórcy. Podobnie jak w przypadku korpusu polsko-litewskiego i oni także zdecydowali się na budowę dwóch korpusów. Pierwszy z nich, korpus pilotażowy PolUKR, powstawał w latach 2004-2009 w Instytucie Slawistyki Polskiego Akademii Nauk (podobnie jak wyżej omówione zasoby polsko-litewskie), a następnie na wydziale „Artes Liberales” Uniwersytetu Warszawskiego. Głównym celem tego projektu było sprawdzenie procedur oraz stworzenie i przetestowanie oprogramowania koniecznego w procesie kompilacji. Szczególny nacisk został położony na wypracowanie jednolitego morfosyntaktycznego systemu znaczników do anotacji obu języków, który obecnie jest częścią międzynarodowego projektu wielojęzycznego o nazwie MULTEXT-East. Wynikiem prac pilotażowych był niewielki oportunistyczny zbiór danych liczący około 600 tysięcy słów. Autorka pracuje obecnie nad powiększeniem zasobów. PolUKR2 zawiera już 6,5 miliona tokenów, a jego docelowa wielkość przewidziana jest na 10 milionów tokenów. Ma on służyć stworzeniu wielkiego słownika polsko-ukraińskiego. Zastosowaniu równoległych zasobów w leksykografii jest poświęcony rozdział 9. Marianna Perincova opisuje krok po kroku tworzenie Polsko-Słowackiego Korpusu Równoległego zawierającego obecnie 1,3 miliona tokenów. Prezentuje zawartość korpusu, jak również sposoby pozyskiwania tekstów od autorów, tłumaczy i wydawców. W projekcie tym zdecydowano się na wykorzystanie komercyjnego pakietu online SketchEngine jako narzędzia do obsługi korpusu, a także jako interfejsu do zrównoleglonego materiału. Jest to wszechstronny system, który oprócz obsługi różnorodnych jednojęzycznych i równoległych korpusów, umożliwia także użytkownikowi tworzenie i obsługiwanie jego własnych zasobów. W drugiej części artykułu autorka prezentuje liczne przykłady pozyskiwania słowackich ekwiwalentów przekładowych dla czasowników prefiksalnych i ocenia ich leksykograficzną przydatność. W rozdziale 10. poruszono problem trudności związanych z pozyskiwaniem tekstów i tworzeniem korpusów równoległych, który pojawiał się także w wyżej wzmiankowanych artykułach. Autorzy Krzysztof Wołk, Emilia Rejmund 6 Agnieszka Leńko-Szymańska, Ewa Gruszczyńska i Krzysztof Marasek zaproponowali nową metodę pozyskiwania zdań równoległych z korpusów porównywalnych. Metoda ta polega na przeszukiwaniu sieci w celu zbudowania tematycznych korpusów porównywalnych, a następnie wyszukaniu w nich zdań prawdziwie równoległych za pomocą narzędzia Yalign. Narzędzie to zostało opracowane specjalnie do tego celu. Stosuje ono miernik podobieństw zdań (cyfra od 0 do 1), który wskazuje przybliżony stopień prawdopodobieństwa tego, że dwa zdania są swoimi tłumaczeniami. Autorzy dostarczają dowodów eksperymentalnych, świadczących o skuteczności tej metody. Silvia Bonacchi i Mariusz Mela proponują inne spojrzenie na kompilację wielojęzycznych zasobów, w tym korpusów równoległych. W rozdziale 11. opisują dwujęzyczne korpusy polsko-niemieckie tworzone w ramach projektu MCCA: Multimodal Communication: Culturological Analysis, na Uniwersytecie Warszawskim i Uniwersytecie Kraju Saary w Saarbrücken. Celem zaprezentowanego projektu jest kulturologiczna i suprasegmentalna analiza (nie)grzeczności językowej. Oryginalność zgromadzonych dla celów badawczych zasobów polega na tym, że reprezentują mówioną odmianę obu języków, a udokumentowane są w postaci nagrań oraz tekstów transkrybowanych. Autorzy opisują trzy rodzaje danych ujętych w korpusie: rozmowy diadyczne na tematy ogólne zrealizowane w warunkach studyjnych, nagrania audio odgrywanych scenek, oraz nagrania z mediów, takie jak talk show i debaty. Sporządzono szczegółowe opisy każdego typu danych wraz z ich transkrypcją, anotacją i analizą. Rozdział kończy dyskusja na temat stopnia, w jakim zebrane dane spełniają kryteria definiujące korpusy porównywalne i równoległe. W rozdziale 12. zaprezentowano projekt, którego celem jest opis oraz analiza eurolektu – nowej odmiany polszczyzny używanej w sytuacjach oficjalnych, która wykształciła się pod wpływem tłumaczeń ogromnej liczby unijnych dokumentów. Autorka, Łucja Biel, argumentuje, że dla dogłębnej analizy stopnia zróżnicowania tej odmiany języka polskiego niezbędne są zasoby zarówno jedno- jak i wielojęzyczne takie jak angielsko-polskie korpusy równoległe i porównywalne, a także specjalistyczne oraz ogólne korpusy języka polskiego. W artykule zaprezentowano skład i strukturę zasobów, które autorka zamierza opracować w projekcie realizowanym w Instytucie Lingwistyki Stosowanej Uniwersytetu Warszawskiego. Monika Szela jest także zainteresowana badaniem cech charakterystycznych dla języka urzędowego w tekstach tłumaczonych i także podkreśla potrzebę posługiwania się wielojęzycznymi zasobami do prowadzenia tego typu badań. W rozdziale 13. opisuje zasoby porównywalne i równoległe utworzone na użytek projektu, którego celem jest przebadanie cech gramatycznych i leksykalnych przekładów oraz ich porównanie z tekstami oryginalnymi utworzonymi Polskojęzyczne korpusy równoległe w Polsce i za granicą 7 przez tzw. użytkowników natywnych w języku docelowym. Korpus równoległy, który analizuje, składa się z unijnych tekstów aktów prawnych opublikowanych w języku angielskim i polskim. Każda z części zawiera 40 milionów tokenów w postaci niezrównoleglonych plików tekstowych bez anotacji. Autorka prezentuje wyniki prac wstępnych przeprowadzonych na podstawie pozyskanych danych włącznie z analizą list frekwencyjnych i słów kluczowych, a także kilku wybranych czasowników. Podczas gdy większość rozdziałów w tej książce prezentuje szczegółowe opisy różnych korpusów równoległych, Elżbieta Kaczmarska przedstawia w rozdziale 14. badania oparte na danych pozyskanych z takiego korpusu. Celem eksploracji jest znalezienie i przeanalizowanie polskich ekwiwalentów dwóch bliskich sobie znaczeniowo czeskich czasowników. Autorka rozpoczyna od analizy znaczeń zawartych w tradycyjnym słowniku czesko-polskim, a następnie porównuje je z cytowaniami z InterCorp (opisanym szczegółowo w niniejszym tomie w rozdziałach 1. i 2.). Autorka podejmuje także próbę automatycznego profilowania odnalezionych ekwiwalentów i dochodzi do wniosku, że dane na tym etapie nie pozwalają jeszcze na zastosowanie do analizy narzędzia Word Sketch, dlatego zdecydowała się na analizę manualną. W ostatniej części artykułu autorka umieszcza swoją analizę w szerszej perspektywie i prezentuje swoje badania, których celem jest wypracowanie algorytmu ułatwiającego pozyskiwanie ekwiwalentów przekładowych dla czasowników będących językowymi wykładnikami emocji na podstawie ich charakterystyki składniowej. Rozdział 15. dotyczy pilotażowego projektu realizowanego w Instytucie Lingwistyki Stosowanej UW, którego celem jest utworzenie Szwedzko-Polskiego i Polsko-Szwedzkiego Korpusu Równoległego współczesnych tekstów literackich. Ewa Gruszczyńska, Agnieszka Leńko-Szymańska i Ruprecht von Waldenfels opisują szczegółowo, jak powstawał liczący 750 tysięcy tokenów minikorpus i jakie narzędzia wykorzystywane są do jego obsługi. W drugiej części zaprezentowano wyniki studiów pilotażowych dotyczących analizy jednostek leksykalnych będących wykładnikami emocji strach/skräck oraz ich wzajemnych tłumaczeń. Wyniki badań pilotażowych wykazały, że przekłady z języka polskiego na język szwedzki i vice versa jednostek leksykalnych związanych z tą emocją znacznie różnią się od siebie pod względem siły nacechowania emocjonalnego. Potwierdziły także przydatność korpusu równoległego do tego typu badań. Wielość przedsięwzięć związanych z różnymi korpusami równoległymi opisanymi w niniejszym tomie oraz różnorodność zagadnień naukowych związanych z przedstawionymi projektami są dowodem, że polskojęzyczne korpusy stały się niepodważalnym źródłem danych w badaniach lingwistycznych 8 Agnieszka Leńko-Szymańska, Ewa Gruszczyńska i kulturowych. Redaktorzy mają nadzieję, że tom ten przyczyni się do rozpowszechnienia informacji na temat istniejących projektów i pozwoli na konsolidację społeczności akademickiej zainteresowanej polskojęzycznymi korpusami równoległymi. Mamy także nadzieję, że książka ta przyczyni się do rozwoju tej stosunkowo nowej dziedziny i zachęci kolejnych naukowców do tworzenia własnych zasobów równoległych. Rosnąca liczba dobrej jakości danych wielojęzycznych dostępnych za pomocą korpusów równoległych wpłynie z pewnością nie tylko na stopień dociekliwości i dokładności porównań między językami i kulturami, ale także na jakość glosariuszy, słowników i przekładów, które trafiają do odbiorców. Agnieszka Leńko-Szymańska Uniwersytet Warszawski Ewa Gruszczyńska Uniwersytet Warszawski Polish-language parallel corpora in Poland and abroad Corpus data constitute an indispensable source of information for scholars from a whole range of language-related disciplines, from purely theoretical studies to Natural Language Processing. In the last thirty years a multitude of large corpora have become available to researchers form different branches of linguistics and culture studies. An increasing number of world languages are being captured in large, balanced and representative collections of written and spoken text, some making claims to being an accurate reflection of a national or regional language as a whole (e.g. British National Corpus, American National Corpus and Czech National Corpus). Polish also has such a representation in at least two corpora: National Corpus of Polish and PWN Corpus. In addition to general collections, there is also a whole array of corpora compiled with more modest aims of representing a particular language variety. More recently, multilingual language collections have become available, thus broadening the scope of research supported by corpus data. As in the case of monolingual resources, multilingual corpora are useful to researchers from the whole range of disciplines, interested in comparing and contrasting two or more languages and cultures. The fields of inquiry which benefit from multilingual corpus data include intercultural studies, contrastive discourse studies, contrastive linguistics, translation studies, automatic extraction of equivalents or machine translation. Multilingual resources include either comparable corpora, that is collections of texts in two or more languages which match one another on the number criteria such as genre, topic, audience etc., and parallel corpora which encompass original texts and their translation(s) into one or more languages. Each of these two different types of multilingual corpora is more suitable for addressing different types of research questions, but a growing number of projects draw their data from both comparable and parallel corpora and supplement their results with analyses of monolingual corpora. 10 Agnieszka Leńko-Szymańska, Ewa Gruszczyńska Among multilingual resources around the world parallel corpora are less numerous for at least two reasons. First, texts to be included in them have to exist in at least a bilingual version (an original and its translation, or translations of the same text from another source language), thus drastically limiting the number of texts eligible for inclusion. Second, the process of compilation is technically more demanding as it involves aligning the bilingual content at the text, paragraph, sentence or sometimes even word level. It also requires a complex interface enabling users to query and display the bilingual information simultaneously. First parallel corpora often included English in their language pairs (e.g. English-Swedish Parallel Corpus launched in 1993). This was motivated by the status of English as the global language and consequently a larger availability of texts translated from and into English. However, with years an increasing number of corpora including other language pairs have started to emerge. An important source of parallel data have recently been official documents from multilingual countries such as Canada or international documents (issued by such official bodies as the United Nations, NATO or the European Union) translated into several national languages. In recent years several ventures involving a compilation of parallel corpora including Polish have been launched in Poland and abroad. Some of them constitute sections of larger collections encompassing several languages (e.g. InterCorp, ParaSol), others are limited to one language pair (e.g. Polish – Russian and Russian-Polish Parallel Corpus, PELCRA Parallel Corpus). These projects vary greatly in their objectives and scope as well as in their technical solutions. Tables 1 and 2 at the end of this chapter contain an up-to-date (as of the publication date) list of parallel corpora including a Polish component described in the literature, together with their mother institutions, compilers’ names and website addresses, if available. This volume is an answer to a growing interest of researchers from various disciplines in analysing Polish language and culture in a multilingual and multicultural context. Its aim is to provide a fairly comprehensive review of current projects linked to parallel corpora with a Polish component. It includes reports on activities related to the compilation of such corpora as well as descriptions of studies based on Polish-language parallel data. The volume consists of this introductory chapter (Chapter 1) and 14 chapters describing a variety of projects which have already been completed or which are currently under development. Each paper offers a detailed description of a parallel corpus including a Polish component. The composition of the corpora, their annotation schemes and query Polish-language parallel corpora in Poland and abroad 11 interfaces are presented and discussed. The authors also present examples of studies based on parallel data which have been conducted or are planned to be conducted. These studies attest to the multitude of application of parallel resources in linguistic and cultural research. Chapter 2 by Alexandr Rosen describes InterCorp, one of the largest multilingual parallel corpora, compiled at Charles University in Prague. This collection comprises texts in 39 languages, with Czech being its best-represented and pivot language. The chapter presents a detailed makeup of the corpus, and compares it to other resources of this kind. It also explains its organisational status and describes the compilation process. Finally, the paper briefly reviews the types of queries facilitated by the corpus interface. InterCorp includes a sizeable Polish component of almost 80 million words, which is discussed in detail in Chapter 3. Milena Hebal-Jezierska, Aleksandr Rosen and Elżbieta Kaczmarska analyse the challenges facing the corpus compilers related to meeting users’ needs. The authors demonstrate the problems users come across when using the Czech-Polish section of the corpus and the kinds of queries which are not well addressed by the corpus data. However, the chapter also presents examples of searchers which return rich and relevant data. Piotr Pęzik (Chapter 4) presents a new parallel Polish-English corpus called Paralela, which has recently become available as part of the CLARIN-PL infrastructure of Polish language tools and resources. The author summarizes the contents of the corpus and describes its dedicated search engine. The chapter focuses on the applicability of Paralela in the study of idiomaticity in English-Polish translations. The author concludes that only large parallel corpora, in combination with specialized search tools, provide sufficient data for investigating the phenomenon of global phraseological equivalence in translation. Chapter 5 by Marek Łaziński and Magdalena Kuratczyk presents a Polish-Russian parallel corpus compiled at the University of Warsaw. The collection consists of 30 million tokens but not all of it is publically available due to copyright restrictions. The project was run in cooperation with two large national corpora: National Corpus of Polish and Russian National Corpus, using some of their textual resources and the annotation schemes. The authors discuss the composition of the collection with special attention given to the cultural aspects governing the choice of texts included in it. The tagging and disambiguation processes are also described together with various search options. The chapter offers two 12 Agnieszka Leńko-Szymańska, Ewa Gruszczyńska examples of applications of this corpus for research on translation equivalents and it ends with the discussion of the significance of the project and the outlook for the future. In Chapter 6 Andreas Meger, Michał Woźniak and Ruprecht von Waldenfels describe another parallel corpus which is currently being compiled under the auspices of the University of Mainz. The interesting feature of this resource is that it is aligned not only at the sentence level but also at the word level. A small pilot corpus of 1 million tokens has already been completed. As with other text collections described in this volume, the authors provide the details of its composition and annotation schemes. Special attention in this chapter is given to the development of the interface which is based on the ParaVoz package, originally created for the ParaSol project. It works with parallel texts in CWB-format and operates through a web browser. The graphical query builder offers different options: from simplest token searches to complex CQP queries, which makes the corpus a user-friendly resource for both laymen as well as NLP specialists. Danuta Roszko and Roman Roszko (Chapter 7) describe two parallel corpora of Polish and Lithuanian developed at the Institute of Slavic Studies, Polish Academy of Sciences. The earlier one, the experimental corpus, is an in-house project containing over 2 million tokens of fiction and 14 million tokens of contemporary specialist texts in the two languages. The other corpus is being compiled under the auspices of the CLARIN-PL consortium. It will also include fiction and specialist texts from the public domain and it is planned to reach the size of 6 million tokens in 2016. The authors explain the necessity of having two parallel corpora by copyright issues. The CLARIN-PL Polish-Lithuanian parallel corpus will be publically available, thus it can only contain texts for which permissions are not necessary or have been obtained. This limits the choice of texts, hence the decision was made to continue the in-house compilation project, which will only be used for internal research. An interesting feature of these two corpora is its annotation which will include semantic tagging. In the second part of the article the authors explain that due to the clarity of formal structures in Lithuanian and a lack of ambiguity in the form-function mappings Lithuanian is particularly suitable for automatic semantic annotation. Juxtaposing it with Polish and other Slavic languages, which are less regular in these respects, can facilitate automatic semantic annotation of these languages. Chapter 8 by Natalia Kotsyba describes in detail the steps in building a Polish-Ukrainian parallel corpus and the challenges that the Polish-language parallel corpora in Poland and abroad 13 compilers faced during this process. As in the case of the Polish-Lithuanian resources, two collections were created. The pilot corpus, PolUKR, was also compiled at the Institute of Slavic Studies, Polish Academy of Sciences in 2004-2009, and later at the faculty “Artes Liberales”, University of Warsaw. The primary aim of this project was piloting the procedures and developing and testing software needed for the compilation process. Special attention was given to creating a morphosyntactic tagset for a uniform annotation of both languages, which is now part of the international multilingual project called MULTEXT-East. The result of the pilot project was a small and opportunistic resource of 600 thousand words. At the moment Kotsyba is working on extending the collection. PolUKR2 already contains 6,5 million tokens and is planned to reach at least 10 million tokens. It will be used for compiling a great Polish-Ukrainian dictionary. The application of a parallel collection in lexicography is addressed in Chapter 9. Marianne Petrincova reports on the subsequent steps in the creation of a Polish-Slovak parallel corpus containing over 1.3 million tokens. The contents of the corpus as well as ways of obtaining the data from authors, translators and publishers are presented. In this project the compiler decided to use the on-line service Sketch Engine as a management tool and an interface for her aligned data. It is a versatile on-line system which in addition to providing access to a variety of monolingual and parallel corpora allows users to upload and work with their own data. In the second part of the paper Petrincova presents several examples of obtaining Slovak translation equivalents for prefixed verbs and assessing their lexicographical potential. Chapter 10 addresses the problem of difficulty in obtaining parallel texts and building a parallel corpus, already mentioned above. Krzysztof Wołk, Emilia Rejmund and Krzysztof Marasek propose a new methodology for extracting parallel sentences from comparable corpora. The new method involves first web crawling for compiling topic-aligned comparable corpora and then extracting from them truly parallel sentences with the help of Yalign tool. The tool was designed especially for his purpose. It applies a sentence similarity metric that produces a rough estimate (a number between 0 and 1) of the likelihood of two sentences being a translation of each other. The authors provide experimental evidence for a satisfactory performance of their method. Silvia Bonacchi and Mariusz Mela offer a different perspective on the compilation of multilingual resources, including parallel corpora. In Chapter 11 they describe the bilingual Polish-German corpora they 14 Agnieszka Leńko-Szymańska, Ewa Gruszczyńska compiled within the project MCCA: Multimodal Communication: Culturological Analysis, which was undertaken by the University of Warsaw and University of Saarland in Saarbrücken. Its aim is a culturological and suprasegmental analysis of (im)politeness. The originality of the collection created in the framework of this project lies in the fact that it consists of spoken data in the two languages in the form of both recordings and transcripts. The authors describe three types of data that were included in the corpus: dyadic conversations on topics of general interest recorded in a studio, audio recordings of acted situations, and media recordings such as talk shows and debates. The detailed description of each text type as well as of their transcription, annotation and analysis are provided. The authors finish the chapter with a discussion of the extent to which their data meet the criteria of comparable and parallel corpora. Chapter 12 presents a project aimed at description and analysis of Eurolect, a new variety of Polish used in official contexts, which is emerging under the influence of translations of large number of EU documents. Łucja Biel argues that a thorough analysis of this language variety requires access to different kinds of multilingual and monolingual resources including English-Polish parallel and comparable corpora and specialised and general Polish monolingual corpora. The author presents the architecture of these resources which she intends to compile in the framework of the project just launched at the Institute of Applied Linguistics, University of Warsaw. Monika Szela is also interested in research into the characteristics of the translated legal language and she also recognizes a need for a variety of multilingual resources necessary for this purpose. In Chapter 13 she describes comparable and parallel collections she compiled within her project whose aim is to explore the grammatical and lexical features of translated texts and compare them to texts produced originally by native speakers of the target language. Her parallel corpus consists of legal acts of the European Union published in English and Polish. Each of the two sections contains 40 million tokens. The corpus has the form of plain text files without annotation and alignment. Szela presents results of initial analyses of the collected data including analyses of frequency lists and keyword lists as well as of a few hand-picked verb forms. While most of the chapters in this book offer detailed descriptions of various parallel resources, Elżbieta Kaczmarska’ paper (Chapter 14) reports on a study based on the data drawn from such a corpus. The aim of the study was to find and examine the closest Polish translation Polish-language parallel corpora in Poland and abroad 15 equivalents of two semantically related verbs in Czech. The author starts with the analysis of the equivalents found in a traditional Czech-Polish dictionary and then compares her results with the citations from InterCorp, described in detail in Chapters 1 and 2. The author also attempts to automatically profile the located equivalents and concludes that the data is not sufficient for applying the Word Sketch analysis, thus instead she conducts this analysis manually. In the last section of the chapter Kaczmarska puts her analysis in a lager perspective by presenting her research aiming at establishing an algorithm facilitating extration of translation equivalents of verbs being linguistic representations of emotions based on their syntactic behaviour. Chapter 15 describes a pilot project launched at the Institute of Applied Linguistics, University of Warsaw and aimed at compiling the Swedish-Polish and Polish-Swedish parallel corpus of literary texts. Gruszczyńska, Leńko-Szymańska and von Waldenfels describe in detail the subsequent stages involved in the creation of a 750-thousand-token mini-corpus and the tools used for this purpose. The second part of the chapter presents the results of a pilot study into the expression of the emotion of ‘fear’ in the two languages. The results of this pilot study demonstrate that translations of lexical units connected with this emotion from Polish into Swedish and vice versa differ from each other in the intensity of emotional loading. They also confirm that the parallel corpus provides invaluable data in exploring this issue. The multitude of corpus compilation ventures described in this volume as well as the variety of research questions addressed by these projects testify that Polish-language parallel corpora are becoming a well-established source of data in linguistic and cultural investigations. The editors hope that the volume will help disseminate the information about the existing projects and it will be a step forward in consolidating the research community interested in the analysis of Polish parallel data. It is also hoped that the volume will contribute to the development of this relatively new area of exploration and encourage more researches to engage in the compilation of their own resources. The growing availability of good quality multilingual corpus data will certainly have its influence not only on the depth and accuracy of comparisons between languages and cultures but will also be reflected in the excellence of glossaries, dictionaries and translations reaching their end-users. http://pol-ros.polon.uw.edu.pl/ Bułgarsko-Polsko-Rosyjski Korpus Równoległy Bulgarian-Polish-Russian Parallel Corpus EKorpPL-LT; KorpPL-LT_CLARIN Polsko-litewskie korpusy równoległe Polish-Lithuanian parallel corpora http://pelcra.pl/new/ Polsko-Rosyjski i Rosyjsko-Polski Korpus Równoległy Polish-Russian and Russian-Polish Parallel Corpus http://paralela.clarin-pl.eu/ PELCRA (Polish and English Language Corpora for Research and Application) Korpusy równoległe PELCRA PELCRA parallel corpora Nazwa i witryna projektu Project name and website PARALELA Angielsko-polskie teksty równoległe z zawansowana wyszukiwarką Polish-English parallel texts with an advanced search engine Magdalena Kuratczyk [email protected] Violetta Koseska [email protected] Roman Roszko [email protected] Instytut Języka Polskiego, Uniwersytet Warszawski Instytut Rusycystyki, Uniwersytet Warszawski Instytut Slawistyki, Polska Akademia Nauk Instytut Slawistyki, Polska Akademia Nauk Barbara Lewandowska-Tomaszczyk, [email protected]; Kierownik projektu Project director Pior Pęzik [email protected] Piotr Pęzik [email protected] Marek Łaziński [email protected] Instytut Anglistyki, Uniwersytet Łódzki Instytucja macierzysta Home institution CLARIN-PL Tabela 1. Korpusy dwujęzyczne i trójjęzyczne / Table 1. Bilingual and trilingual corpora Polish-language parallel corpora Polskojęzyczne korpusy równoległe 16 Polish-language parallel corpora PL EUROLECT Korpusy równoległe i porównywalne polskiego i angielskiego unijnego języka urzędowego (eurolektu) Parallel and comparable corpora of Polish and English EU administrative language (Eurolect) KRAN i KRPL Polsko-Angielski Korpus Równoległy Tekstów Prawnych Polish-English Parallel Corpora of Legal Texts MCCA (Multimodal Communication: Culturological Analysis) Niemieckie i polskie korpusy równoległe i porównywalne języka mówionego German and Polish parallel corpora of spoken language http://www.fb06.uni-mainz.de/polnisch/331.php Polsko-Węgierski i Węgiersko-Polski Korpus Równoległy Polish-Hungarian and Hungrian-Polish Parallel Corpus Polsko-Szwedzki i Szwedzko-Polski Korpus Równoległy Polish-Swedish and Swedish-Polish Parallel Corpus Polsko-Włoski Korpus Równoległy Polish-Italian Parallel Corpus http://domeczek.pl/~polukr Polsko-Słowacki Korpus Równoległy Polish-Slovak Parallel Corpus Polsko-Niemiecki i Niemiecko-Polski Korpus Równoległy Polish-German and German-Polish Parallel Corpus PolUKR; PolUKR2 Polsko-Ukraiński Korpus Równoległy Polish-Ukrainian Parallel Corpus Łucja Biel [email protected] Monika Szela [email protected] Silvia Bonacchi [email protected] Wyższa Szkoła Filologiczna we Wrocławiu Instytut Komunikacji Specjalistycznej i Interkulturowej, Uniwersytet Warszawski Marek Łaziński [email protected] Robert Wołosz [email protected] Ewa Gruszczyńska [email protected] Dorota Sieroń [email protected] Uniwersytet Warszawski Instytut Slawistyki, Uniwersytet w Pécsu Instytut Lingwistyki Stosowanej, Uniwersytet Warszawski Katedra Językoznawstwa Ogólnego i Indoeuropejskiego, Uniwersytet Jagielloński Instytut Lingwistyki Stosowanej, Uniwersytet Warszawski Marianna Petrincová [email protected] Andreas Meger [email protected] Natalia Kotsyba [email protected] Univerzita Palackého v Olomouci Johannes GutenbergUniversität Mainz Instytut Slawistyki, Polska Akademia Nauk Polskojęzyczne korpusy równoległe 17 http://opus.lingfil.uu.se/ http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/ a.a.barentsen/a.a.barentsen.html Opus – an open source parallel corpus Zbiór wielojęzycznych korpusów równoległych przetłumaczonych tekstów dostępnych w Internecie A collection of multilingual parallel corpora of translated texts from the web http://www.slavist.de/ Słowiański Korpus Równoległy Uniwersytetu w Amsterdamie Amsterdam Slavic Parallel Aligned Corpus http://ucnk.ff.cuni.cz/intercorp/?lang=en ParaSol Korpus równoległy zawierający wiele języków (głównie słowiańskich) Parallel corpus including multiple (mainly Slavic) languages Nazwa i witryna projektu Project name and website InterCorp Wielojęzyczny korpus równoległy Multilingual parallel corpus Tabela 2. Korpusy wielojęzyczne / Table 2. Multilingual corpora Michal Křen [email protected] Ruprecht von Waldenfels [email protected]; Kierownik projektu Project director Alexandr Rosen [email protected]; Jörg Tiedemann [email protected] Roland Meyer roland.meyer @sprachlit.uni-regensburg.de Faculteit der Geesteswetenschappen, A.A. Barentsen Capaciteitsgroep [email protected] Slavische talen en culturen, Universiteit van Amsterdam Humboldt-Universität zu Berlin Instytucja macierzysta Home institution Filozofická fakulta, Univerzita Karlova v Praze 18 Polish-language parallel corpora http://www.casmacat.eu/corpus/ted2013.html http://www.opensubtitles.org/ Korpus Równoległy Wykładów TED (dostępny także przez OPUS) TED Talk Parallel Corpus (also available through OPUS) http://www.statmt.org/europarl/ OpenSubtitles Corpus Zbiór przetłumaczonych napisów filmowych w wielu językach (dostępny także przez OPUS) A collection of translated movie subtitles in multiple languages (also available through OPUS) https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis https://ec.europa.eu/jrc/en/language-technologies/dgt-acquis https://ec.europa.eu/jrc/en/language-technologies/dcep Europarl Korpus równoległy transkrypcji obrad Parlamentu Europejskiego 1996-2011 (dostępny także przez OPUS) European Parliament Proceedings Parallel Corpus 1996-2011 (also available through OPUS) CASMACAT Cognitive Analysis and Statistical Methods for Advanced Computer Aided Translation opensubtitles.org Chair of Machine Translation, School of Informatics, University of Edinburgh JRC-Acquis; DGT-Acquis; DCEPT European Commission, Wielojęzyczne korpusy równoległe tekstów prawnych UE (dostępne także Joint Research Centre przez OPUS) Multilingual parallel corpus of EU legislative texts (also available through OPUS) Mauro Cettolo admin@ opensubtitles.org Philipp Koehn [email protected] Polskojęzyczne korpusy równoległe 19 http://www.korpus.matf.bg.ac.rs/Verne80days/ http://nl.ijs.si/ME/V4/ https://www.clarin.si/repository/xmlui/handle/11356/1043 Verne80days Wielojęzyczny korpus powieść J. Verne „W 80 dni dookoła świata” Multilingual edition of Verne’s novel Around the World in 80 Days MULTEXT-East „1984” 4.0 Korpus równoległy tekstu powieści G. Orwella „1984” Parallel Corpus of Orwell’s novel 1984 META CESAR Multilingual Europe Technology Alliance Central and South-east European Resources Institut „Jožef Stefan”, Ljubljana Duško Vitas [email protected] 20 Polish-language parallel corpora Alexandr Rosen Univerzita Karlova, Praha InterCorp – a look behind the façade of a parallel corpus InterCorp – korpus równoległy od kuchni Streszczenie InterCorp to projekt, który powstał na Wydziale Filozoficznym Uniwersytetu Karola w Pradze. Jego celem jest zbudowanie obszernego równoległego korpusu synchronicznego, który obejmowałby jak najwięcej języków. W tworzeniu korpusu uczestniczą pracownicy naukowi i studenci Wydziału Filozoficznego Uniwersytetu Karola, osoby związane z Czeskim Korpusem Narodowym, a także współpracownicy zewnętrzni. InterCorp to rzeczywiście obszerny i ciągle rozwijający się synchroniczny korpus równoległy, obejmujący teksty w języku czeskim i 38 innych językach – w tym w języku polskim (wersja 8; stan w lutym 2016), dostępny online poprzez interfejs. Trzon korpusu, który stanowi półautomatycznie opracowana beletrystyka, jest uzupełniony automatycznie opracowanymi tekstami z zakresu publicystyki i prawa, a także zapisami debat parlamentarnych i napisami filmowymi. W sumie korpus obejmuje około 1,6 miliarda słów. Wszystkie teksty dysponują wiązaniem segmentów na poziomie zdania i w miarę możliwości są opatrzone lingwistyczną anotacją (z podaniem podstawowych form i kategorii morfologicznych) oraz danymi bibliograficznymi. Po krótkiej prezentacji koncepcji korpusu przedstawiamy jego parametry liczbowe; zwracamy przy tym uwagę na olbrzymią nierównowagę w reprezentacji tekstów z różnych języków, oryginałów i przekładów oraz typów tekstów. Staramy się także dokonać porównania z niektórymi innymi projektami tego typu. W części poświęconej wykorzystaniu korpusu zwracamy uwagę na możliwości i ograniczenia wyszukiwarki KonText (wcześniej wykorzystywane wyszukiwarki Bonito i NoSketch Engine nie są już dostępne) oraz różne sposoby wykorzystania tekstów równoległych takich jak ekscerpcja ekwiwalentów leksykalnych czy analiza zgodnych fragmentów tekstu. Spojrzenie na korpus od strony użytkownika jest uzupełnione komentarzem twórców korpusu. W części przedstawiającej opracowywanie tekstów przed ich włączeniem do korpusu oczekiwania i życzenia użytkowników zostają skonfrontowane z koncepcyjnymi, technicznymi i fizycznymi możliwościami budowy korpusu paralelnego. Końcowa część Alexandr Rosen 22 zawiera wnioski, jakie się nasuwają na podstawie dotychczasowych doświadczeń, a także plany na przyszłość obejmujące zarówno konkretne projekty twórców korpusu, jak i koncepcje dotyczące zmian wymagających dużych technicznych interwencji w samej strukturze korpusu. Powstały i ciągle rozwijany korpus równoległy InterCorp ma z założenia służyć między innymi jako źródło danych do badań teoretycznych, analiz gramatycznych i leksykograficznych, prac translatorskich, projektów dotyczących nauki języków obcych, a także jako materiał do badań dla studentów. Keywords: parallel corpus, Czech, multilinguality, user feedback, annotation, balance Słowa kluczowe: korpus równoległy, język czeski, wielojęzyczność, feedback od użytkowników, anotacja, równowaga 1. About InterCorp InterCorp,1 a part of the Czech National Corpus (CNC),2 is a multilingual parallel corpus, built since 2005 at Charles University in Prague. Although its original purpose was to serve researchers, teachers and students from the linguistic departments at the Faculty of Arts, it has reached out to users beyond the academic community and national borders. However, its typical users are still humans, with their varied and often challenging needs, rather than computer applications. New releases of the corpus are published approximately once per year. With each new release the amount of texts is growing, often together with the number of languages and the extent and quality of annotation. Starting with release 6, previous versions remain available on-line. Currently (at release 8) the corpus includes about 1.4 billion words in 38 languages plus 174 million words in Czech.3 All ‘foreign’ texts have a Czech counterpart, while a foreign text may have no counterpart in any other foreign language. There are two main groups of texts included in the corpus: the core, consisting largely of literary texts, and collections as well as a mix of other text 1 For more details about the corpus see http://www.korpus.cz/intercorp/. For a slightly outdated but more theoretically oriented account see Čermák and Rosen (2012), or the more technically focused paper Rosen and Vavřín (2012). The project is supported by the Ministry of Education of the Czech Republic, project no. LM2011023. 2 https://www.korpus.cz 3 See Table 2. for more details. Like any other CNC corpora published since 2014, InterCorp is now officially described as a reference corpus. The reason for using this term is the permanent availability of its previous releases in their entirety. We are aware of the somewhat non-standard usage of this term, cf. Brown (2005: 209): “When a sample corpus claims to be a reasonably reliable repository of all the features of a language, it can be called a reference corpus.” InterCorp – a look behind the façade of a parallel corpus 23 types, obtained from freely available resources. The proportions are very much language-specific. The size of the core part (altogether 194 million words in 28 languages plus 85 million words in Czech) ranges from 3 titles in Arabic to 327 titles in German. The core has a privileged status as the linguistically more interesting and reliable resource, also because it has been proofread for typos, sentence segmentation and alignment errors. The collections are acquired from other multilingual corpora, web services or databases. The languages of the EU countries have a substantial portion of legal texts and parliament proceedings (approx. 40 million per language from JRC-Acquis,4 the Acquis Communautaire corpus, and about 9–17 million from Europarl,5 the corpus of European Parliament proceedings), and some include journalistic texts (approx. 4 million per language from Project Syndicate,6 a site of newspaper commentaries, and Voxeurop,7 a European news site). For most languages the corpus also includes film subtitles (in sizes ranging from 113 thousand words in Japanese to 52 million words in English; obtained from the Open Subtitles8 database). Texts in all languages are equipped with available bibliographical data, such as translator’s name, language of the original or publication year, and are automatically aligned by sentences with a corresponding text in Czech. Czech has the role of the pivot – two foreign languages are aligned via Czech. Depending on the availability of tools, texts in 20 languages are lemmatized and/or tagged. InterCorp can be accessed via a standard web browser from the integrated search interface of the CNC.9 Upon request and after signing a non-profit license agreement, the texts can also be acquired as bilingual files, including shuffled pairs of sentences as a physical protection against infringement of copyright. On the organizational front, the Institute of the Czech National Corpus (ICNC) is responsible for the top-level management, financing, technical support, training, consulting, central data repository, automatic alignment, morphosyntactic markup, lemmatization, availability and dissemination of InterCorp. The coordinator for a specific language is responsible for the selection and acquisition of texts (pending the Institute’s approval), proofreading and alignment checking. While most coordinators are the staff of the Faculty of 4 http://ipsc.jrc.ec.europa.eu/index.php?id=198 5 http://www.statmt.org/europarl/ 6 http://www.project-syndicate.org/ 7 Formerly Presseurop: http://www.voxeurop.eu 8 http://www.opensubtitles.org 9 https://kontext.korpus.cz Alexandr Rosen 24 Arts, some come from other faculties of Charles University or other institutions: Masaryk University in Brno, Palacký University in Olomouc, the Czech Academy of Sciences, University of Warsaw and the Polish Academy of Sciences. Some texts, mainly the collections but also fiction titles, and many of the tools, such as taggers, have been acquired, processed or developed by researchers from abroad.10 2. InterCorp in numbers Table 1 shows the number of words (in millions) for Czech, Polish, all foreign languages and the total, separately for each text group. The more detailed Table 2 shows the number of words (in thousands) for each language and text group. For the core part, the number of texts is also included. There are striking differences between the languages. Some languages of the EU countries are represented in all the text groups, with a correspondingly high total (German, English, Spanish, French, Italian, Dutch, Portuguese), but not all of them also have a high number of core texts. In addition to German, English and Spanish, languages with over 10 million words in the core part include Croatian and Polish. On the other hand, there are languages such as Arabic and Hindi with very few texts in the core, or Hebrew, Icelandic, Japanese, and Albanian with some texts from Open Subtitles and nothing else. It is mainly this disproportionate distribution of texts across languages that makes InterCorp a somewhat opportunistic corpus (arguably an unavoidable feature of all parallel corpora), suffering from a shortage of suitable texts, or – for some language pairs – of any texts. Czech Polish All foreign Core 84.7 17.5 194.1 Syndicate 3.4 0 20.1 Voxeurop 2.3 2.4 24.7 Acquis 20.3 20.6 430.2 Europarl 12.9 12.8 265.0 Subtitles 50.7 26.6 488.4 Total 174.3 79.9 1,423.1 No. of core texts 1,282 232 2,516 Table 1. The size of InterCorp in million words, with details for Czech and Polish Language Core Syndicate Voxeurop Acquis Europarl Subtitles Total 278.8 24.1 27.0 450.5 278.0 539.1 1,597.5 3,798 Total words texts ar Arabic be Belarusian bg Bulgarian 34 3 2,153 39 5,241 68 34 2,153 13,816 words texts 10 See http://ucnk.ff.cuni.cz/intercorp/?lang=en for details. 9,083 28,141 InterCorp – a look behind the façade of a parallel corpus Language ca Core Syndicate Voxeurop Acquis Europarl Subtitles Catalan 4,633 46 da Danish 3,017 27 27,682 327 de German el Greek 25 Total 4,633 3,725 21,680 13,916 14,430 53,042 2,483 21,724 25,070 13,089 8,367 77,070 15,404 23,715 64,188 en English 15,488 178 3,818 2,670 24,208 15,580 52,101 113,866 es Spanish 17,476 214 4,324 2,816 27,001 15,885 36,379 103,882 et Estonian 15,963 10,900 10,296 37,158 fi Finnish 3,426 58 16,455 10,175 15,098 45,154 fr French 9,170 137 2,928 27,352 17,178 25,962 86,983 he Hebrew 16,221 16,221 hi Hindi hr Croatian 19,093 34,572 21,240 58,110 1,585 1,585 14,654 65,599 113 113 hu Hungarian 409 7 15,480 215 5,388 71 4,393 409 19,177 12,307 is Icelandic it Italian ja Japanese lt Lithuanian 358 17 18,393 11,213 558 30,522 lv Latvian 1,337 36 18,745 11,689 280 32,051 mk Macedonian 3,742 49 1,877 5,619 3,521 3,521 7,248 69 652 2,708 24,849 15,489 ms Malay mt Maltese nl Dutch no Norwegian 14,133 9,962 119 4,816 54 17,516 232 Portuguese 2,393 29 Romanian 3,433 36 ru Russian 3,338 63 sk Slovak 7,402 sl Slovene 900 sq Albanian sr Serbian 8,824 100 sv Swedish 8,138 100 tr Turkish 5,054 67 pl Polish pt ro uk Ukrainian vi 14,133 2,956 24,746 15,563 29,363 82,904 2,378 20,628 12,811 26,572 79,906 3,000 28,603 4,816 369 16,485 43,392 94,242 8,200 9,446 34,129 57,945 6,886 13,397 140 19,223 12,734 5,134 44,493 15 19,646 12,241 17,025 49,811 2,004 2,004 20,777 29,601 14,694 57,258 21,191 21,191 246 5,300 1,474 1,474 2,738 3,174 20,586 13,840 Vietnamese Total cs 314 Czech 194,055 2,516 20,770 84,718 1,282 3,416 24,677 430,195 265,029 488,373 1,423,099 2,315 20,303 12,923 50,688 174,364 Table 2. The size of Intercorp by language and text groups in thousands of words and in text units (for core texts) 26 Alexandr Rosen While the text types and their mix is not a critical factor for some kinds of research and applications, other users are quite discriminating and treat some data, such InterCorp’s collections, as the last resort option. This may not be primarily because the linguistic annotation and alignment of these data is of a lower standard compared with the core part. The main complaints concern missing metadata (especially about the source language) and the types of texts included in the collections. This is why many users focus on the core part, despite its limitations in terms of size. However, even in the core part there are issues of disproportionate distribution. The most obvious differences across languages are in terms of size (see the Core column in Table 2 again). Yet other differences are not visible at first sight, although some users may perceive them to be as critical as limited size. As a multilingual corpus, InterCorp should offer large amounts of texts in as many languages as possible to provide data for truly cross-lingual types of research. The intersection of texts available in multiple languages in the core part of the corpus is very much dependent on both the languages and the texts. As a rough guide, there are now 9 texts in the core part, which are available in at least 20 languages, 27 texts in at least 15 languages, 55 texts in at least 10 languages and 186 texts in at least 5 languages. A Polish translation is available for all of the texts in 15 and more languages, and there are still 110 texts available in five or more languages including Polish. Table 3 shows 27 texts covered in most languages. The list is hardly a balanced mix – except for six Czech novels and a single novel in French, Italian, Portuguese and Russian, the rest is all English originals. Moreover, there are as many as five novels authored by Joanne Rowling, four by J. R. R. Tolkien and three by Milan Kundera. This is perhaps the best illustration of the thorny path to the elusive ideal of a representative parallel corpus. Another major concern may be the size of available texts for a specific language pair. Table 4 shows the figures for each pair of the core part, shown separately for each language in the pair. For example, Polish texts aligned with German include 6.0 million words (“pl” column, “de” row), while corresponding German texts aligned with Polish include 6.9 million words (“de” column, “pl” row).11 Yet another case where the distribution of texts across languages may not be quite satisfactory is the ratio of originals to translations, and the availability 11 The diagonal shows the total number of words for all texts in the language. The extent and sizes of collections available for a specific pair are easy to determine from Table 2. Another option is to use KonText. After clicking the bottommost button ‘Refine selection’, KonText shows the number of tokens (i.e. words plus punctuation signs) for the texts in the language in focus which are aligned with one or more other specified languages and/or which are subject to some other constraints according to the metadata. InterCorp – a look behind the façade of a parallel corpus 27 of the original. Table 5 shows only texts which have their original version in one of the languages of the pair. For each language with some texts in the core, the rows indicated by the corresponding language code in the first column show the number of texts according to the language of the original, given in the column heading. For example, the core includes three texts in Arabic (the last but one column, headed Σ), one original text (in the column headed “ar”), one text translated from Czech (in the column headed by “cs”) and one translated from German (in the column headed “de”). The row with “cs” in the first column has at least one text in each column – each text in a foreign language has a Czech counterpart. Except for the column headed “cs”, which shows the number of Czech originals (in the language of the original, i.e. in Czech), the numbers in the “cs” row indicate the number of original texts (in the language indicated in the column heading), which are translated into Czech. Languages 26 26 23 21 21 21 20 20 20 19 19 19 19 18 18 18 18 17 17 17 17 16 16 16 16 15 15 Author Rowling Saint-Exupéry Carroll Kundera Rowling Tolkien Kundera Adams Tolkien Bulgakov Rowling Brown Tolkien Tolkien Hašek Eco Milne Orwell Kafka Rowling Coelho Kundera Frank Hrabal Kipling Kundera Rowling Title Harry Potter and the Philosopher’s Stone The Little Prince Alice in Wonderland The Unbearable Lightness of Being Harry Potter and the Chamber of Secrets The Fellowship of the Ring The Joke The Hitch Hiker’s Guide to the Galaxy The Return of the King The Master and Margarita Harry Potter and the Prisoner of Azkaban The Da Vinci Code The Two Towers The Hobbit or There and Back Again The Good Soldier Švejk The Name of the Rose Winnie the Pooh 1984 The Trial Harry Potter and the Goblet of Fire The Alchemist Immortality The Diary of a Young Girl I Served the King of England The Jungle Book Laughable Loves Harry Potter and the Order of the Phoenix Table 3. The top 27 texts in most languages in the core part of InterCorp 28 Alexandr Rosen The columns show how many original texts in the language specified in the heading have a translation in the other languages, indicated in the first column. A language such as English (“en”) has at least one text in nearly each row, which means that translations of English originals occur in almost all languages of the InterCorp core. The English column is exceptional for another reason too: there are as many as 242 texts translated into Czech while there are far fewer original English texts (125). This means that the core does not include English originals for 117 texts. In all of these cases, a Czech translation is aligned with one or more translations, while the English original is missing. The last column (“other”) shows the number of original texts in languages not included in the core of InterCorp. The diagonal gives the number of original texts for the corresponding language of the row and the column. The best-represented languages are Czech (267), German and Spanish (126), English (125) and French (83). On the other hand, the core does not include any original text in Hungarian or Romanian. There is not even any translated Romanian original. But even in languages with a more representative content, the user may be disappointed to see cases of some very lopsided balance between originals and translations. For a pair such as Polish and Czech, the proportion is 46:36 in favour of Polish originals (2.5 million vs. 2.1 million in the number of words, see Table 6), which is a reasonable balance, similar to that for German and Czech (126:85). On the other hand, foreign originals prevail in the English-Czech (125:25), Spanish-Czech (126:25) and French-Czech pairs (83:36). The opposite applies to Croatian and Czech (26:71) and a few other “smaller” languages. Seen from this angle, the best-represented pair is Slovak and Czech, with the score 56:55. Table 6 shows similar statistics. This time, the texts are not counted in items, but in thousands of words. For example, according to Table 6 the core of InterCorp includes 551 thousand words in German originals for which a Polish translation is available (“de” column, “pl” row). Table 5 shows that there are actually 8 such texts. On the other hand, there are 114 thousand words in Polish originals for which the corpus has a German translation (“pl” column, “de” row) in 3 texts according to Table 5. The following remarks are due here: There is a reason why the number of words in German originals translated into Czech (10,968 thousand) is lower than in untranslated German originals (11,547 thousand), even though the corpus includes more German originals translated into Czech (134) than those untranslated (126). This is because languages may differ significantly in the number of words within the same parallel texts. 2,453 1,338 2,529 371 645 1,320 338 805 2,868 1,795 2,263 1,677 73 87 1,791 1,953 2,270 46 1,530 797 2,065 2,209 2,270 927 5,241 1,238 5,241 910 bg 1,515 903 2,158 328 330 785 872 1,087 2,031 1,980 1,931 1,379 196 338 2,337 1,557 2,734 1,038 840 4,258 1,648 2,847 838 4,633 4,633 1,603 340 ca cs 5,259 7,116 8,165 813 7,510 3,459 2,800 1,950 17,625 4,052 8,093 3,494 1,407 418 6,451 5,473 14,707 297 7,281 3,965 15,140 12,951 23,891 2,487 84,743 3,660 5,029 2,221 35 1,901 872 1,901 87 96 443 88 945 1,768 960 1,210 1,509 2 90 1,050 1,137 1,208 224 831 229 1,415 1,465 1,813 3,017 3,017 819 1,146 369 da de 3,155 2,803 4,955 483 986 1,824 1,073 1,066 6,942 3,587 5,040 2,844 157 320 3,326 2,636 7,069 92 2,818 2,143 5,735 6,692 27,656 1,675 27,656 2,571 2,531 1,283 34 3,163 1,958 4,379 432 450 2,490 1,037 835 4,892 2,464 4,542 2,403 108 380 1,590 2,089 4,936 105 2,200 1,167 3,464 15,488 6,633 1,373 15,488 1,461 2,451 1,381 en 2,908 2,609 3,898 303 330 823 1,542 1,121 5,009 3,072 3,716 1,998 195 320 4,669 2,025 6,205 50 2,253 1,073 17,476 3,425 5,761 1,308 17,476 3,836 2,303 627 es 592 511 807 211 383 521 317 111 1,305 1,071 1,020 462 99 111 606 614 1,252 26 593 3,426 874 923 1,628 170 3,426 625 655 173 fi 1,888 1,448 2,076 498 193 988 567 631 2,927 1,695 2,456 1,670 216 327 1,877 1,876 2,595 101 9,170 755 2,457 2,273 2,981 884 9,170 1,000 1,729 559 8 fr 220 17 265 75 17 45 62 103 62 17 62 17 62 409 120 45 62 120 120 261 409 62 17 hi hr 3,003 2,493 4,030 379 624 1,372 1,480 759 5,025 2,913 4,607 1,994 214 324 2,974 1,862 15,480 43 2,122 1,502 5,519 4,347 6,331 1,047 15,480 2,221 2,290 1,028 31 1,679 1,248 1,978 326 377 850 438 664 2,353 1,495 1,799 1,403 86 196 1,467 5,388 1,639 12 1,479 688 1,678 1,767 2,199 867 5,388 1,154 1,819 524 hu 2,669 1,867 2,691 156 142 497 804 842 3,202 2,078 2,387 1,487 84 161 7,248 1,766 3,209 51 1,681 692 4,576 1,584 3,249 969 7,248 2,071 2,007 657 It 58 101 209 58 13 174 143 43 297 244 326 171 16 358 113 171 253 209 110 216 259 228 60 358 214 71 110 lt 54 81 54 74 244 83 135 116 102 83 111 1,337 18 54 81 174 154 100 137 83 118 2 1,337 135 54 54 lv 2,224 1,174 2,287 305 541 997 388 796 2,533 1,434 2,147 3,742 139 219 1,347 1,549 1,990 13 1,446 580 1,795 2,214 2,605 1,241 3,742 1,110 1,737 832 32 mk 3,197 2,460 3,877 431 567 2,077 1,053 816 5,257 2,880 9,962 2,361 105 469 2,546 2,314 5,271 54 2,459 1,458 3,860 4,664 5,258 1,158 9,962 1,753 2,587 1,055 nl 1,941 1,765 2,482 355 555 914 948 826 3,134 4,816 2,705 1,546 135 361 2,156 1,803 3,324 81 1,629 1,389 3,145 2,466 3,628 927 4,816 1,832 1,996 664 35 no 3,722 2,226 4,128 477 849 2,113 935 861 17,517 2,663 4,390 2,390 133 346 2,804 2,460 4,800 43 2,380 1,487 4,320 4,191 5,992 1,394 17,517 1,593 2,693 1,290 pl 961 674 1,000 30 94 372 111 2,393 1,099 858 835 961 69 905 867 865 38 596 154 1,230 907 1,173 936 2,393 1,051 1,000 396 6 pt 374 448 1,882 171 278 3,433 105 1,173 993 1,079 464 220 218 871 578 1,747 15 591 438 1,632 1,047 1,137 79 3,433 856 397 570 ro 1,413 1,040 1,551 268 436 3,338 202 283 2,042 792 1,687 912 94 199 444 840 1,274 40 806 574 697 2,111 1,523 332 3,338 598 1,214 407 ru sk 499 317 640 220 7,402 433 76 820 520 433 478 257 15 115 384 585 227 443 260 433 819 76 7,402 242 580 259 Table 4. The size of core bitexts in thousands of words: column headings indicate the language of the text, row labels “the other” language 761 1,326 sr 369 65 sl uk 266 sk sv 420 ru 28 452 ro 269 pt 6 1,251 494 pl 872 720 mk 28 65 lv no 127 lt nl 497 it 28 496 hu 12 963 28 421 fr hr 197 fi hi 505 es 6 1,080 en 1,081 de 28 249 da 248 2,153 cs 34 ca 2,153 820 28 be 28 bg be ar 34 ar 368 405 368 900 237 297 149 28 519 395 374 297 92 81 149 374 405 526 265 289 460 455 81 900 289 365 71 sl sr 3,409 1,742 8,824 362 684 1,687 1,659 871 4,438 2,290 3,449 2,321 75 268 2,557 2,236 4,125 205 1,804 976 3,663 3,995 4,547 1,660 8,824 1,801 2,621 1,505 32 1,929 8,138 1,859 410 342 1,236 402 613 2,567 1,724 2,322 1,316 104 145 1,862 1,478 2,686 15 1,415 662 2,558 1,998 2,774 815 8,138 796 1,453 453 sv 5,054 1,605 2,970 339 499 1,399 278 644 3,587 1,553 2,540 1,913 65 69 2,166 1,590 2,692 155 1,485 667 2,314 2,567 2,556 1,366 5,054 1,016 2,186 756 uk InterCorp – a look behind the façade of a parallel corpus 29 Alexandr Rosen 30 ar 1 be 3 bg 19 ca cs 1 1 3 19 cs da de 1 1 8 4 13 9 1 27 16 3 12 1 267 da 6 de 85 en 25 es 1 11 fr 36 hi 2 1 es fi fr hi hr hu it lt lv mk nl no pl 1 1 3 4 2 2 3 9 134 242 127 24 95 9 5 1 20 1 7 1 30 65 10 1 4 125 1 4 1 1 6 7 1 8 29 126 1 12 1 10 83 1 1 2 25 6 7 2 1 2 1 1 49 21 39 2 2 3 1 1 6 1 4 2 1 1 1 sv uk 1 1 Σ 1 39 2 68 45 1 56 3 8 58 6 1257 2 1 3 5 327 5 4 177 1 3 213 1 2 57 1 2 137 1 it 4 4 21 lt 8 2 2 lv 22 2 1 mk 15 1 16 nl 24 3 33 7 3 3 no 11 5 21 4 1 3 pl 36 8 97 10 8 2 pt 6 ro 7 5 12 ru 9 1 22 sk 55 2 5 sl 7 1 2 sr 11 7 33 9 3 7 2 sv 11 4 23 7 2 1 1 6 1 31 3 5 2 3 2 23 26 6 9 1 3 19 1 3 2 52 1 4 1 5 9 2 1 15 6 39 11 7 3 16 2 sl sr 27 71 Σ sk 12 126 1 2 26 1 hu uk pt ro ru 3 1 1 25 Fi hr en other → ar be bg ca orig text ↓ 1 7 1 1 1 7 1 1 3 1 3 14 3 1 2 6 3 1 8 71 3 46 68 1 17 36 2 3 2 3 2 8 213 2 1 3 2 1 1 2 1 30 1 4 2 2 1 7 4 6 1 4 49 6 119 1 54 5 231 1 15 3 1 1 1 1 2 1 1 1 29 1 1 1 22 2 1 3 810 19 349 950 335 57 241 122 18 2 2 4 56 2 89 3 5 5 18 62 1 56 1 4 33 3 3 3 84 22 128 72 10 1 3 119 118 5 2 15 2 97 3 50 99 1 5 6 67 6 26 164 12 Table 5. The number of texts in InterCorp by language of the text and of the original (for core texts) Ca 6 697 317 2 1,052 992 1,974 826 2,093 193 545 757 2,628 463 617 811 513 lv mk nl no pl pt ro ru sk sl sr sv uk de 28 274 71 215 792 1,435 2,106 en 107 994 6,544 16 295 606 77 26 66 413 551 341 219 32 3 3 506 286 1,051 76 100 587 2,384 1,954 3,091 171 1,216 1,117 1,144 961 8,765 1,656 3,418 1,576 2 73 2,665 1,762 4,143 203 926 706 2,786 263 10,546 11,547 1,816 831 10,968 20,583 da 621 116 fi 265 243 275 158 399 766 40 411 1,050 421 815 826 1,094 316 224 200 115 1,397 9,818 901 8,635 1,610 es fr 195 72 146 68 15 509 159 117 13 254 811 246 17 5,061 438 251 266 5,102 202 347 12 hi 31 10 87 66 1,517 139 3,192 82 57 1,482 hr hu 396 371 188 191 684 165 192 439 262 38 1,482 157 601 233 143 809 40 873 35 8,715 6 29 1,452 it lt 9 2 2 1 2 2 lv 567 2 2 273 1 2 288 nl pl 58 153 pt 34 167 ru 48 237 209 sk 43 169 183 3 3 174 67 114 326 275 127 49 81 140 2,509 632 221 230 115 45 305 111 194 169 926 198 914 473 306 256 139 293 224 1,295 142 1,239 234 172 166 150 135 1,198 246 45 94 26 297 40 172 72 3,354 2 2 2 2 624 2,758 1,453 2,872 3,419 no 182 4,500 2,312 7,051 5,034 9,839 6,895 100 134 75 166 1,638 70 366 113 161 337 73 1,338 109 mk Table 6. The size of the corpus by language of the text and of the original (in thousands of words for core texts) 179 46,977 1,933 28,619 84,539 26,186 4,530 14,301 274 lt 279 2,575 254 it Total 1,038 4,131 hr hu 62 hi 29 2,473 fr 1,504 es 587 2,212 en fi 5,263 de 61 207 da 1,038 cs 53 13,451 1,277 138 1,269 141 bg cs 1 1 be 65 ar ca bg be orig → ↓ text ar sl 339 86 49 223 503 335 651 104 42 22 552 4,317 189 111 206 511 171 656 184 573 928 130 608 377 515 4,347 sv 409 2,290 14,439 68 140 201 sr 34 5,054 8,138 8,438 900 7,393 3,338 3,050 2,393 17,514 4,816 9,962 3,742 1,337 358 7,074 5,388 15,207 409 9,170 3,426 17,366 15,387 27,656 3,017 84,109 4,511 5,241 2,153 Total 386 9 383 49 174 272 110 102 422 122 other 852 276,579 2,028 429 423 uk InterCorp – a look behind the façade of a parallel corpus 31 32 Alexandr Rosen Except for Czech, the table does not actually show the size of texts in a specific language aligned with texts in another specific language, because the cells do not show figures for texts available as translations from a third language. The size of a language-specific part of the corpus aligned with one or more specific languages can be found in Table 4 (in words for specific language pairs) or from the search interface,12 where the results are presented in the number of tokens (i.e., including punctuation symbols) rather than words. For instance, the Polish-German pair includes 7,392 thousand Polish tokens. When parallel texts in English are added, the number drops to 4,000 thousand tokens. For a combination of four languages, including additional parallel texts in Spanish, the texts available in Polish include 2,640 thousand tokens. 3. Some other parallel corpora InterCorp is not the only project of its kind. Table 7 below shows InterCorp in comparison with some other resources offering access to parallel texts. For each of the resources the table includes some basic information on the types of texts available, languages included, size (in Billions or Millions of words or sentences), annotation (Morphology, Syntax, Semantics), alignment level (Sentences, Words), human intervention in the text processing (Proofread), on-line Search and Download option, and availability of Metadata. It is perhaps the combination of features that makes InterCorp different from the other corpora. On the one hand, there are some very large, massively multilingual resources such as Opus, compiled from as many freely available texts as possible, with the Czech part reaching at least 150 million words. On the other hand, there are much smaller resources including literary texts from specific domains, such as ParaSol and ASPAC. In InterCorp, the user can find texts of either type, processed according to the same methodology and offered within the same search and display interface. 12 Visit https://kontext.korpus.cz, select the appropriate combination of languages, restrict to the Core group and click the button “Refine selection“. InterCorp – a look behind the façade of a parallel corpus Name Types Langs Size Annot Aligned Proofread Search Download Metadata 33 Linguee13 Glosbe14 SKE15 DGT-TM16 Pelcra17 RNC18 SNK19 CzEng20 PCEDT21 Kačenka22 Opus23 ParaSol24 ASPAC25 InterCorp legal varia varia legal varia varia fiction varia news fiction varia fiction fiction varia 25 100+ 38 22 31 6 7 en,cs en,cs en,cs 100+ 31 25 32 ? 1Bs cs:217Mw cs:3.7Mw pl:58Mw 9Mw sk:388Mw en:233Mw 1.2Mw 3.3Mw 4.7Bw 27Mw 68 texts 1.6Bw no no no no no M M M,Sy M,Sy,Se no M,Sy M no M S,W S,W S S S,W S S S S,W S S,W S P S no no no yes part part no no yes yes no part yes part yes yes yes no yes yes yes yes yes no yes yes no yes no no yes yes yes ? part yes yes yes yes ? ? yes yes yes yes no yes yes yes no yes yes no yes yes yes Table 7. Some other parallel corpora in comparison to InterCorp 4. Using InterCorp Most users interact with the corpus data via KonText,26 the web-based interface built on top of the corpus query engine Manatee.27 This interface is now used for all CNC corpora, superseding Park, a search interface dedicated to parallel corpora. The interface offers a number of options for pre-selecting texts before making a query according to languages and all available metadata, such as text 13 Online search through bilingual texts – http://www.linguee.com 14 Translation Memory Online – http://glosbe.com/tmem/ 15 Sketch Engine – http://www.sketchengine.co.uk 16 Translation Memory of the EC’s Directorate-General for Translation – http://ipsc.jrc.ec.europa.eu/?id=197 17 Polish & English Language Corpora for Research & Applications – http://pelcra.pl/new/. For its new parallel search interface see http://paralela.clarin-pl.eu and Pęzik (this volume). 18 Russian National Corpus – http://www.ruscorpora.ru 19 Slovak National Corpus – http://korpus.juls.savba.sk/par.html 20 Czech-English parallel corpus – http://ufal.mff.cuni.cz/czeng, https://lindat.mff.cuni.cz/services/kontext/run.cgi/first_form?corpname=czeng_10_cs_a 21 Prague Czech-English Dependency Treebank – http://ufal.mff.cuni.cz/prague-czech-english-dependency-treebank 22 English-Czech Corpus of the Department of English Studies, Faculty of Arts, Masaryk University Brno – http://www.phil.muni.cz/angl/kacenka/kachna.html 23 An open source parallel corpus – http://opus.lingfil.uu.se 24 A Parallel Corpus of Slavic and other languages – http://www.slavist.de 25 The Amsterdam Slavic Parallel Corpus – http://home.medewerker.uva.nl/a.a.barentsen 26 See http://kontext.korpus.cz. KonText is developed by the CNC team led by Tomáš Machálek. 27 See Rychlý (2007) and Kilgarriff et al. (2014). 34 Alexandr Rosen type, source language or publication year. These options can also be used to create custom subcorpora. Queries can be made about a single language or in parallel, using single forms, lemmas, form strings or CQL expressions. In addition to a number of other options, concordances can be filtered, exported, sorted, flagged for further processing, or be used for producing frequency distributions or finding collocations. Some research tasks require full texts rather than sets of concordances in response to corpus queries. Not even statistics based on a part of the corpus or on the concordances can meet such needs. This applies mainly to the use of corpus data in NLP applications such as machine translation, but also to some studies spanning sentence or even paragraph boundaries. The only solution is some form of access to full texts. After signing a non-profit license agreement,28 texts from InterCorp can be acquired as bilingual files. Each file is extracted from a specific text and includes alignment pairs of sentences in blocks up to 100 words (per language), with the blocks shuffled in random order to prevent the use of texts in violation of copyright, while retaining some text structure. The effect is the same as in results produced by the concordancer – only quotations in a restricted context are available, never a copy of a larger piece of text. Parallel texts can be seen as interpreting or even ‘annotating’ each other through the medium of another natural language. This applies to segments of different sizes: texts, paragraphs, sentences, phrases or words. A practical use of this obvious observation rests on the availability of alignment at the level of such units. Existing methods and tools29 can align words, producing results with a reasonable error rate, usable for tasks such as the extraction of glossaries of translation equivalents. The CNC site now offers lists of such equivalent pairs (lemmas or base forms) in Czech and most other languages, sorted primarily by their frequency in the corpus.30 This is just one of many possible applications using the parallel corpus and offering the results from the corpus site.31 28 The license restricts the use of the data to educational and research purposes and prohibits re-distribution. 29 E.g., Och, Ney (2003). 30 See http://treq.korpus.cz. See also Kaczmarska (this volume), Kaczmarska et al. (2015) and Rosen et al. (2014) for examples of research based on these results. 31 The site shows the following list of top Polish equivalents with frequencies of the Czech noun bouře ‘storm’: burza (353), sztorm (44), śnieżyca (35), wichura (16), szturm (11), nawałnica (9), huragan (8), zamieć (7), zawierucha (7), wiatr (6), burzyć (5), zawieja (4), wichr (4), zamieszka (4), bunt (4), ulewa (3), wicher (2), wrzawa (2), salwa (2), padać (2), fala (2), sztormowy (2); a similar list in German for the Czech verb křičet ‘to cry’ is: schreien (2145), rufen (379), brüllen (132), anschreien (46), Schrei (40), schreiend (32), laut (17), kreischen (17), aufschreien (16),Schreien (13), Geschrei (12), geschrien (8), ausstoßen (6), schrein (5), zurufen (5), brüllend (4), ausrufen (4), sprechen (4), angeschrien (4), geschrieen (3), losschreien (3), grölen (3), herumschreien (3), lärmen (3), Schrein (3), anschrien (3), zuschreien (3), Ruf (3), anschreie (3), zuschrie (2), herrschen (2), Lärm (2), weinen (2), nachrufen (2), losbrüllen (2), toben (2), schriest (2), verlangen (2), Sie (2). InterCorp – a look behind the façade of a parallel corpus 35 5. Pre-processing of texts Most texts in the core of InterCorp pass through the following stages: acquisition, scanning and character recognition, proofreading, segmentation (sentence boundary detection), sentential alignment, proofreading and checking of segmentation and alignment and morphosyntactic markup. Texts acquired in an electronic form, especially texts in the collections, bypass some of these steps. Each of the steps has some impact on the quality of the corpus. Acquisition as the first step (including the choice of texts) determines the corpus content. It has recently been subjected to a new policy aimed at achieving a more balanced representation of languages and text types and remedying the lack of original texts.32 A selected text that cannot be acquired in the electronic form is digitized. After OCR the text is proofread in a text editor with a special focus on aspects critical to text processing for the corpus, such as paragraph boundaries, quotes, diacritics, punctuation and spaces, the latter crucial for tokenization and detecting sentence boundaries. A proofread text is then exported as plain text with XML-like markup, and a bibliographical record is stored in the project database. The steps above are the responsibility of the coordinator for the specific language, who usually employs students for tasks such as postOCR proofreading. Texts in most languages are segmented into sentences using Punkt, a tool based on an unsupervised learning algorithm,33 followed by language-specific fixes. Automatically detected sentence boundaries are checked and (if necessary) corrected by a set of regular expressions, targeting contexts where automatic tools tend to fail. Parallel versions of the text are sentence-aligned using Hunalign.34 The aligned texts are accessible within InterText, a parallel text editor.35 Segmentation and alignment can then be checked and corrected, together with any remaining typos. Automatic sentence segmentation typically fails because of an unknown abbreviation, a missing space, or a lower quotation mark improperly recognized as comma(s). Alignments may be incorrect as a result, but some texts can be difficult to align even for humans. All corrections, usually done by research assistants, are logged, checked by the coordinator in charge of the specific language and finally by the project coordinator. 32 For details see Hebal-Jezierska et al., this volume. 33 See Kiss and Strunk (2006: 485–525), the implementation is due to http://nltk.org/. The training data consist of previously processed texts. 34 See Varga et al. (2005) and http://mokk.bme.hu/en/resources/hunalign/. 35 See Vondřička (2010) and http://wanthalf.saga.cz/intertext. Intertext can edit sentence-level alignment, sentence segmentation, paragraph boundaries and typos, and is integrated with Hunalign. Changes of the text structure in Czech are projected to all alignments. Other features include change logs, export, searching, bookmarking and support for user classes with different privileges. There are two versions: server and personal, and both are available under the GNU GPL v3 license. 36 Alexandr Rosen Throughout the process, all the core text are registered in the project database with links to available Czech texts. The language coordinators are responsible for including the bibliographical data, which are crucial for text filtering in the corpus search interface. A missing or incorrect piece of information can have a negative impact on research results. The database also tracks the passage of each text through the pre-processing stages. The finished texts are matched with the bibliographical data from the project database and indexed by the corpus manager. So far, only team members can access the database, but a subset of the database will be available to all corpus users in the foreseeable future. Linguistic annotation of the texts is still restricted to lemmatization and tagging of word forms by morphosyntactic and morphological categories. Moreover, not all languages are annotated in this way: in InterCorp release 8 there are 20 languages with tags including Czech, of which 17 have lemmas. Once again, we adopt an opportunistic strategy of using available tools (tokenizers, taggers, lemmatizers), including tokenization principles hard-wired into the tool, tagsets designed elsewhere by experts on the given language and annotation models and trained elsewhere.36 This approach frequently leads to very different language-specific tagsets as well as non-uniform tokenization and lemmatization principles across the languages.37 These achievements come at a price. Luckily, the whole Czech National Corpus project has enjoyed continuous support from Charles University and the Czech government over an extended period, allowing for a steady development of InterCorp since 2005. The costs of text acquisition and processing are approximately 55,000 EUR per year, including the core texts – about 180 EUR on average per text (the sum for both the Czech and a foreign version and all the steps), as well as the processing of packages. However, the total costs are much higher and harder to estimate, because some overheads are shared by all CNC teams. In addition to two full-time dedicated positions, InterCorp uses the CNC infrastructure and managerial facilities and also relies on the work of other CNC staff in the development of corpus methods and tools. 6. Wishlists and issues In this section we sum up the expectations, wishes and complaints of corpus users with regard to the limitations of corpus design and other constraints on the side of the corpus builders. We start with content, perhaps the most critical 36 See http://ucnk.ff.cuni.cz/intercorp/?lang=en for an overview, including the tools used. 37 For more about issues of annotation, see Section 1.5 in Hebal-Jezierska, this volume. InterCorp – a look behind the façade of a parallel corpus 37 aspect of any corpus and the main reason for users’ concerns about whether their research results are well-founded or whether their intended research is possible at all. Indeed, they would like to see a more representative and/or balanced core in terms of languages, text types, the ratio of originals vs. translations, authors, translators – all of it useful for both contrastive and translatological studies. But it is hard to decide in general which is more important: the proportions or the size of the corpus. The answer depends very much on the type of research being conducted. Assuming that users are able to determine an optimal mix relative to their research goals and can select texts from the corpus accordingly, the optimal strategy is the more the better, even if that means the result is far from balanced. For some research goals, when two relatively well-represented languages such as German or English are studied in a pair, the overlap of texts in the core may be too small. For many types of research, the distinction between originals and translations is crucial. Original texts may be the only texts of interest. However, even when only translations from a third language are compared, the original text should still be available. Unfortunately, this is too often not the case (see Table 5). A priority of the new text selection policy is to remedy this situation. A related issue is the option of including multiple translations in a single language, which is available, e.g. in the ParaSol corpus.38 This interesting feature requires some profound changes in the corpus design and its implementation is not envisaged in the near future. InterCorp’s search interface is one of the most advanced tools available among those available for the parallel corpora listed in Table 7. Still there are a number of wishlist items concerning the interface. Some of them are actually small things that can boost user experience, but are not top priority for the developers at the moment, such as charts to see the setup of the selected corpus and to prevent the frequent shortcoming of significantly skewed data, a list of sample queries for inspiration and time saving, a few keyboard shortcuts for more advanced users, context help on tags, text type codes etc., and – last but not least – automatic switching to CQL type query when typing a character such as “[” to prevent frequent attempts to search the corpus inadvertently for a string which is actually a CQL expression. Some other missing features may not be so trivial or simple to implement, but still very useful, such as biKWiC – highlighting keyword equivalent, information about the alignment type (1:1 or other) and quality (manual or automatic with a confidence score), or labeling/ annotating concordances. Another missing feature is related to the possibility of building a subcorpus from texts in a specific language aligned with texts in 38 See http://www.slavist.de and von Waldenfels (2006, 2011). 38 Alexandr Rosen another language, or even for a specific language pair. Some features are actually beyond the mere search and display options, such as statistical comparison across text types, languages, corpora, or lexical profiles, preferably adapted to parallel texts (Belica, 2011; Kilgarriff et al., 2014). Issues of search and display are very much connected with the need for complete, effective and correct annotation. So far, languages differ in tagsets and tokenization rules and a number of languages are still without any linguistic annotation.39 Finally, although the quality of alignment and metadata has improved, it is not 100% reliable. 7. Lessons learned and perspectives The bottom line of all the lessons is the importance of user feedback and interaction with the community of users in general. Although InterCorp started out with the idea of being a general resource, serving the needs of disparate users and research types, ultimately the requirements of each individual type must be considered and properly addressed. The purpose of the corpus matters, even if it is meant to be a resource for many. There are some obvious questions such as who the users are, what are their needs, how many languages should be included, whether “the more the better” or “the best balance” is a better strategy (in languages, text types, authors, translators, originals/translations/translations for a third language). Perhaps a comparable rather than a parallel corpus is the answer to some research goals. And although all languages should be equal, it is very hard to achieve comparable levels in size, annotation, and representativeness. Strict criteria may be applicable only to a small group of languages. Parallel corpora, including InterCorp, have proven to be a very useful resource for many tasks. Still we believe that their full potential, embodied in the meaning links between expressions across languages and useful for theoretical research, linguistic practice and software applications, has yet to be discovered. Users’ needs and wishes may be an important stimulus, but further progress may have an independent motivation. In addition to a larger and more representative pool of texts, more precise, complete and sophisticated annotation is a clear priority. We need to advance the quality of alignment and sentence segmentation, also by crowdsourcing (encouraging users to flag errors). Alignment by words, multi-word units, and phrases are all realistic goals. Linguistic markup should bring better quality for as many languages as possible, including consistent tokenization of contractions and multi-word expressions, a method for reconciling disparate language-specific tagsets, and syntactic annotation. 39 See Hebal-Jezierska et al. (this volume) for more details on issues relating to linguistic annotation and takenization in InterCorp. InterCorp – a look behind the façade of a parallel corpus 39 Many plans involving a specific parallel corpus make better sense if pursued as a joint effort with other similar projects due to a high synergy in infrastructure and content: many problems are similar across languages; texts in foreign languages may exist elsewhere and native speakers are the best corpus builders. Cooperation can have many forms and levels, from the exchange of know-how, tools, or texts between centers, through virtual integration of content, a common search interface (federated search), and a common text dissemination policy, and even a single center providing coordination and infrastructure for all languages. We hope that the existing ties between parallel corpora both within and across national borders will thrive and develop towards a network of parallel resources. As a small step in this direction we plan to release Czech from its pivot role and no longer insist on the presence of a Czech version of the text. References: Belica, Cyril (2011): Semantische Nähe als Ähnlichkeit von Kookurenzprofilen. In: Andrea ABEL, Renata ZANIN (eds.): Korpusinstrumente in Lehre und Forschung. Bozen-Bolzano: University Press, 155–178. Brown, Keith, (ed.) (2005): Encyclopedia of Language & Linguistics. 2nd edition. Amsterdam and Philadelphia, PA: Elsevier. Čermák, František, Rosen Alexandr (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13(3), 411–427. Kaczmarska, Elżbieta, Rosen, Alexandr, Hana, Jirka, Hladká, Barbora (2015): Syntactico-semantic analysis of arguments as a method for establishing equivalents of Czech and Polish verbs expressing mental states. Prace Filologiczne XVII, 151–174. Kilgarriff, Adam, Baisa, Vít, Bušta, Jan, Jakubíček, Miloš, Kovář, Vojtěch, Michelfeit, Jan, Rychlý, Pavel, Suchomel, Vít (2014): The Sketch Engine: ten years on. Lexicography, 1(1), 7–36. Kiss, Tibor, Strunk, Jan (2006): Unsupervised multilingual sentence boundary detection. Computational Linguistics, 32(4), 485–525. Och, Franz Josef, Ney, Hermann (2003): A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1), 19–51. Rosen, Alexandr, Kaczmarska, Elżbieta, Škodová, Svatava (2014). Zdrobnienia jako element kultury i pułapka glottodydaktyczna. Czeskie i polskie deminutiva w ujęciu konfrontatywnym na podstawie badań korpusowych. In: Elżbieta Kaczmarska, Andrzej Zieniewicz (eds.): Glottodydaktyka wobec wielokulturowości. Warszawa: Wydział Polonistyki Uniwersytetu Warszawskiego, 51–66. 40 Alexandr Rosen Rosen, Alexandr, Vavřín, Martin (2012): Building a multilingual parallel corpus for human users. In: Nicoletta Calzolari, Khalid CHOUKRI, Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012). Istanbul: European Language Resources Association (ELRA), 2447–2452. Rychlý, Pavel (2007): Manatee/Bonito – a modular corpus manager. In: 1st Workshop on Recent Advances in Slavonic Natural Language Processing. Brno: Masaryk University, 65–70. Varga, Dániel, Halácsy, Péter, Kornai, András, Nagy, Viktor, Németh, László, Trón, Viktor (2005): Parallel Corpora for Medium Density Languages. In: Galia ANGELOVA, Kalina BONTCHEVA, Ruslan MITKOV, Nicolas NICOLOV, Nikolai NIKOLOV (eds.) Proceedings of International Conference “Recent Advances in Natural Language Processing” (RANLP 2005), 590–596. Vondřička, Pavel (2010): TCA2 – nástroj pro zpracovávání překladových korpusů. In: František Čermák, Jan Kocek (eds.): Mnohojazyčný korpus InterCorp: Možnosti studia. Praha: Lidové noviny, 225–231. von Waldenfels, Ruprecht (2006): Compiling a parallel corpus of Slavic languages. Text strategies, tools and the question of lemmatization in alignment. In: Bernhard Brehmer, Vladislava Ždanova, Rafał Zimny (eds.), Beiträge der Europäischen Slavistischen Linguistik (POLYSLAV) 9. München: Verlag Otto Sagner, 123–138. von Waldenfels, Ruprecht (2011): Recent developments in ParaSol: Breadth for depth and XSLT based web concordancing with CWB. In: Daniela Majchráková, Radovan Garabík (eds.): Natural Language Processing, Multilinguality. Proceedings of Slovko 2011 Bratislava: Trilbum EU, 156–162. Milena Hebal-Jezierska Uniwersytet Warszawski Elżbieta Kaczmarska Uniwersytet Warszawski Alexandr Rosen Univerzita Karlova, Praha Between the devil and the deep blue sea or between users’ needs and the compilers’ powers: An analysis of the Czech-Polish part of the parallel corpus InterCorp Między młotem a kowadłem, czyli czego potrzebuje użytkownik korpusu równoległego, a jakie są możliwości twórców korpusów (na przykładzie czesko-polskiej części korpusu równoległego InterCorp) Streszczenie Celem artykułu jest próba porównania oczekiwań użytkownika korpusu równoległego co do możliwości prowadzenia różnego typu badań, zwłaszcza analiz konfrontatywnych oraz translatologicznych z technicznymi możliwościami twórców korpusu. Autorzy rozpoczynają rozważania od szczegółowego opisu problemów twórców InterCorp. Wskazują na największe bolączki polegające na braku proporcji pomiędzy liczbą tekstów w poszczególnych językach umieszczonych w korpusie, a także na tym, że teksty reprezentują różne poziomy anotacji i tagowania. Szczegółowo opisana została polska część korpusu InterCorp. Autorzy podają dane statystyczne dotyczące poszczególnych wersji korpusu. Wiele miejsca poświęcono również problemowi anotacji i tokenizacji (znakowania). Zauważono, że dużym utrudnieniem jest brak jednolitego systemu znakowania dla wszystkich obecnych w InterCorpie języków. Na przedstawione w skrócie problemy twórców korpusu nakładają się trudności, jakie napotykają jego użytkownicy oraz ich oczekiwania względem jego zasobów. Osoby korzystające np. z zasobów polsko-czeskiej części InterCorpu narzekać mogą na zestawienie tekstów. O ile literatura piękna jest opracowywana ręcznie, o tyle tzw. kolekcje tekstów (Acquis, PressEurope, Europarl, Open Subtitles) są opracowywane tylko automatycznie. Paradoksalnie więc teksty, które nie sprawiają kłopotów twórcom korpusu, są dla niektórych Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen 42 użytkowników mniej przydatne. Nie można na przykład przeprowadzić szeregu badań opartych na materiale korpusowym, jeżeli nie da się ustalić kierunku przekładu albo języka źródłowego. Dotyczy to wszystkich analiz translatologicznych. Również niedostateczna wielkość korpusu stanowi dla użytkowników dużą przeszkodę. Zbyt mała liczba poświadczeń może uniemożliwić całkowicie przeprowadzenie badań nad konkretnym zjawiskiem leksykalnym czy gramatycznym (przykłady podane zostały w artykule). Użytkownicy sięgają jednak do korpusów paralelnych, ponieważ, mimo wszelkich niedociągnięć, stanowią one niezwykłe narzędzie służące do poszukiwania ekwiwalentów, a także porównywania znaczeń jednostek językowych. Dopasowanie odpowiedniego tematu badania do możliwości korpusu jest w tym przypadku podstawową czynnością poprzedzającą samo badanie, a jednocześnie gwarantem wiarygodności wyników. Sposób rozbudowywania InterCorpu jest sprawą powodującą prawdopodobnie największe kontrowersje pomiędzy twórcami a użytkownikami korpusu. Korzystającym z części polsko-czeskiej czy czesko-angielskiej zależy na tym, aby twórcy poświęcili jak najwięcej uwagi tej konkretnej parze języków, tę część rozbudowywali i doskonalili. Twórcy natomiast chcą uwzględnić w korpusie jak najwięcej języków. Z puntu widzenia użytkowników to zabieg mniej ważny, z punktu widzenia twórców to działanie przyszłościowe. Zarówno użytkownik korpusu, jak i jego twórca, znajdują się w sytuacji pomiędzy tym, co mogą i tym, co by chcieli – między swoistym młotem i kowadłem. Keywords: parallel corpus, Polish, Czech, comparative studies, lexical equivalents Słowa kluczowe: korpus równoległy, język polski, język czeski, badania komparatywne, ekwiwalenty leksykalne 1. Introduction The aim of this paper is to confront expectations of users of a multilingual parallel corpus with the potential available to corpus compilers. The idea arose from discussions of the first two co-authors as corpus users with several compilers of InterCorp,1 especially with the third co-author. These discussions mainly arise from the fact that the corpus compilers’ efforts (aimed, i.a., at a steady growth of text volumes and improvements in corpus search tools) do not quite meet users’ specific research needs. Our comments are presented from two points of view: the compilers’ perspective (Section 2) and the users’ perspective, based on comparative analyses and translatological studies (Section 3). 1 For more details about InterCorp see Rosen, this volume. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 43 2. Problems faced by InterCorp’s compilers InterCorp was born with the aim to provide software infrastructure, know-how and some managerial and financial support for linguistic departments at Charles University’s Faculty of Arts interested in building parallel corpora suited to their needs and preferences. The principle of subsidiarity was at its foundations: at first, the project consisted of a set of unconnected parallel texts in Czech and a foreign language, collected and built to a large extent by the departments, who were responsible for most tasks of the workflow, including the choice of texts to be included in the corpus. Even after its integration into a single, on-line searchable corpus with shared formats, pre-processing workflow and tools, the birthmarks of InterCorp are still visible. In addition to the distributed mode of building the corpus, it represents a general pragmatic approach to corpus design:2 • a sub-optimal variety of texts in the corpus, mainly across but also within the individual languages, due to the individual preferences of the coordinators for a specific language, but also to the lack of suitable translations from or into a given language • large differences in volume, due mainly to the availability of texts for a given language, but also to the availability and research priorities of the coordinators • an opportunistic approach to the choice of methods and tools used for building the corpus • preference for fiction as the source of the richest and most diverse language In the following sub-sections, we focus on the constraints faced by InterCorp’s compilers given the (real or expected) complaints of corpus users listed below: 1. content – inadequate representation of texts with certain properties (originals/translations, genres, authors, translators) 2. size – insufficient volumes of texts 3. searching – missing or unintuitive features of the search interface 4. segmentation, alignment and typos – typos and errors in sentence segmentation and alignment 5. annotation – faulty, inconsistent, unintuitive linguistic annotation, incompatible across languages, including tokenization 2 For a discussion concerning the design of InterCorp, including the idea that comparisons with other languages, preferably based on a parallel corpus, are very useful even for monolingual research, see Čermák and Rosen (2012). Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen 44 2.1 Content The content is largely determined by the project goals, the availability of texts and time/manpower/financial constraints. Another factor to consider is whether to include only copyright-free texts or rather to prevent a misuse of copyrighted texts by technical means. If a parallel corpus is to include contemporary fiction, the answer must be the latter option. Especially for some less common language pairs, a pragmatic – rather than principled – decision is also necessary in the choice of texts. However, some representative mix of genres, periods, originals/translations, authors, or even translators is needed for both contrastive and translatological studies. Facing the elusive ideal of a balanced parallel corpus, the solution could be custom-created, ad-hoc but reproducible subcorpora, drawn from a pool of all available texts, possibly with a few readymade selections. Concerns about the contents of InterCorp have recently led to a revision of the policy for including new texts. If only experts for a given language decide, the common goal of a single multilingual corpus with a substantial shared and representative core is hard to achieve. Moreover, a text may not be a priority from the perspective of the language of the original, yet it is desirable to have its original in the corpus. On the other hand, the project management lacks the expertise to decide about the specific literature and research needs. So the new policy is a compromise: proposals for new texts by the experts are submitted each year with two priority levels and reviewed by the corpus management. The criteria for the final approval are as follows: 1. The original of the text is present in the corpus or is already included in the plan. If not, the coordinator for the language of the original is encouraged to include texts that are not of her immediate interest. This has recently been the case of texts such as Hemmingway’s Farewell to Arms, Kerouac’s On the Road, Styron’s Sophie’s Choice or Pasternak’s Doctor Zhivago. 2. The text is important for the language, as shown by the assigned priority. 3. The text does not exceed the limit of new texts per year for the language. 4. The text is already included in the corpus in multiple other languages. 5. The text adds to the diversity of the corpus. In the first round of this selection process, more than 200 texts in 16 languages were proposed, 60% with high priority. About 85% were approved, the rest put on the waiting list, mainly because of the original text missing. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 45 2.2 Size Even with the rapidly rising volumes of all bi- and multilingual resources on the web, parallel corpora will always be lagging behind monolingual corpora in size. So it seems that “the more the better” is the right approach. Indeed, in InterCorp the numbers may still be too low, especially for lexically more specific studies or less frequent syntactic structures. This applies even to the best-represented languages such as German or Spanish. While the Czech version is available for all texts, the situation is much worse for language pairs not including Czech or for more than two languages. The overlap of Polish and English in the core part is 5.2 million tokens, as opposed to 21.7 million tokens (17.5 million words) in the Polish core or 18.3 million tokens (15.5 million words) in the English core alone.3 On the other hand, there are reasons why the hunger for ever more words should be kept under control, and these are quality concerns. This applies especially to some freely available multilingual sources, which may include texts that are flawed in both formal and content-related ways, such as garbled character encoding, tokenization or segmentation, as well as duplicated texts, pieces of text in a foreign language, suboptimal and/or unidentified choice of translation.4 Let us look more closely at the statistics for Polish in InterCorp. With 17.5 million words in the core, and 79 million words in total (including all available collections of texts except Project Syndicate) it belongs to the best-represented languages in InterCorp. The Polish part of the core includes 232 texts, 18% of the total of 1282 texts in the Czech part. Polish originals (50) slightly prevail over Czech originals (38), the rest are translations from a different language. Table 1 shows that a Polish version is always available among the 27 texts present in 15 or more languages. The last row shows that 110 Polish texts have at least 4 counterparts in a different language. Languages available Texts available: ≥ 20 ≥9 ≥ 15 ≥ 27 ≥ 10 ≥ 55 ≥5 ≥ 186 Table 1. Texts available in many languages in InterCorp Texts including Polish available: ≥9 ≥ 27 ≥ 47 ≥ 110 3 Unless specified otherwise, all figures here and below are from InterCorp release 8. 4 See, e.g., A massively parallel corpus: the Bible in 100 languages (http://christos-c.com/bible/), which does not provide metadata about the translations and sometimes picks dated or less widely known translations, such as Bible kralická for Czech (http://gospelgo.com/u/czech_bible.htm), or Biblia Gdańska for Polish: (http://biblehub.com/pol/). Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen 46 Table 2 shows the growth of the Polish part of InterCorp across the successive versions in the context of other languages. Perhaps most telling is the comparison with the average size for a foreign language. An average foreign language is outnumbered by a rising factor starting from the first release. Figures 1-3 highlight some of the developments in the corpus size. Release Foreign Foreign Czech Czech Polish Polish Foreign Foreign date core total core total core total avg core avg total v0 11/08 25.138 25.138 22.924 22.924 2.066 2.066 1.323 1.323 v1 04/09 34.464 34.464 27.427 31.927 2.244 2.244 1.723 1.723 5 v2 10/09 39.826 49.293 33.503 35.077 2.422 2.422 1.896 2.347 v3 02/11 62.813 72.280 39.766 41.340 4.716 4.716 2.855 3.285 v4 09/11 71.479 92.290 43.207 46.196 5.462 6.173 3.249 4.195 v5 06/12 91.528 542.640 52.651 75.926 8.396 29.571 3.390 20.098 v6 04/13 138.779 867.287 61.962 99.547 12.710 47.640 4.477 27.977 v7 12/14 173.225 1390.105 77.122 165.425 16.009 77.683 4.559 36.582 v8 05/15 194.055 1423.098 84.718 174.364 17.516 79.905 5.107 37.450 Table 2. A history of InterCorp in millions of words 5 Figure 1. The growth of the Polish part of InterCorp from release 0 to 8 5 Some of the figures for v2 are estimated. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... Figure 2. The growth of the Polish core, compared to an average foreign language core Figure 3. The growth of the Polish total, compared to an average foreign language total 47 Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen 48 2.3 Searching There are a number of issues related to the specific concordancer and the search interface that are currently used to search InterCorp. Most of the issues will be resolved in their future release, depending on their priority status and the amount of effort necessary to fix them. The following list shows some of the issues waiting for a solution. Hopefully, by the time the list reaches the Reader, some items may no longer be relevant. • The present InterCorp infrastructure cannot accommodate multiple translations in a single language. This is an obvious drawback, especially for users interested in translational research. • The biKWiC feature, highlighting the keyword equivalent in the other language, is missing. Ideally, it could be based on word-to-word alignment, but solutions are available identifying the most likely keyword equivalent from the set of current concordances. • Although the corpus data include information on the alignment geometry (1:1 / 2:1 / 1:2), neither a flag on whether the alignment has been checked by a human, nor an alignment confidence score, produced by the automatic aligner, can be used and/or displayed while interacting with the corpus using the concordancer. • It is not possible to create a subcorpus of Czech (the pivot language) including only documents aligned with a specific language. The Czech part of the corpus is restricted to alignments with another language in the query interface, but statistics such as items per million (ipm) relate to the whole corpus of Czech. • Context-based help on morphosyntactic tags is only available for positional tagsets and currently implemented only for the Czech tagset. • The user, especially a novice, might appreciate more help or alerts, such as pie charts showing the setup of the selected corpus (users are often unaware of the pitfalls of using a skewed corpus), a list of sample queries, keyboard shortcuts, more context help, including help on text type codes, display of the tag and the lemma of a word below the pointer (mouse hovering), or automatic switching to CQL type query when typing a character such as [. • Other options beyond mere search would be welcome, such as comparisons across text types, languages and corpora, or collocational profiles, both monolingual and contrastive.6 6 See Kilgarriff et al. (2014), Belica (2014), Pęzik (2014), Baisa (2014). Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 49 2.4 Segmentation, alignment, typos The texts in the core part of InterCorp are proofread for typos, sentence boundaries and alignment. The results will never be 100% error-free, but errors should be rare and their reporting or flagging in order to crowd-source improvements is now partially implemented in the search interface. On the other hand, the collections are released without human intervention. Rosen and Vavřín (2012) report that in a sample of about 2×180 thousand sentences the number of misaligned segments was at most 8.1% and the percentage of wrongly assigned sentence boundaries was at most 2.9%, while some cases of wrongly identified sentence boundaries actually lead to the misalignments. The percentage of sentences including typos and similar errors was estimated at maximum 3.1%. The figures depend on the type of text, but misalignments, wrong sentence boundaries and typos do not seem to represent a major concern, except in special cases, such as in some novels by Bohumil Hrabal, abounding in long sentences, sometimes spanning over several pages. 2.5 Annotation Unlike in monolingual corpora, the precision of morphosyntactic tags and lemmas assigned to the tokens is not the main concern in parallel corpora. It is rather the diversity of language-specific tagsets and tokenization rules. Both may be different even for closely related languages, such as Polish and Czech: contractions can be split or left intact, POS classification may be based on morphological or syntactic priorities or represent a parochial view, the format of tags may be very different and confusing to a novice’s eye. The corpus would be limping without another important part of annotation – complete and correct metadata. Omissions and errors hamper filtering of texts for queries and subcorpora as well as providing precise information about concordance sources. Although they are the responsibility of the language coordinators, a bulk of metadata has been corrected and complemented centrally for release 8. The present priority is to extend morphosyntactic annotation to as many languages as possible. This is the main reason why the corpus does not offer any syntactic annotation at the moment. 2.5.1 Tokenization Some queries may not return expected results due to language-specific tokenization.7 Some taggers are based on specific assumptions about contracted 7 For an overview of issues and a solution to conflicting tokenization see Chiarcos et al. (2012). 50 Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen or hyphenated items8 such as French |aux|, |dit|-il|, |cure-dents|; English |ca|n’t|, |I|’m|, |children|’s|, |parents|’|; German |zum|, |deutsch-französisch|, |Jelzin-Ära|; Polish |na|ń|, |że|by|śmy|, |niemiecko|-|rosyjski|, |ty|ś|, |zrobiłe|ś|; Czech |padne|-|li|, |Tchaj|-|wan|, |naň|, |abychom|, |tys|, |udělals| or even about space-separated multi-word items, such as Spanish |Estados Unidos|, |a lo largo de| or |al mismo tiempo|. Note that cognates or similar phenomena often receive different tokenization across the languages. Hyphenated compounds are treated as a single unit in Bulgarian9 |Avstro-ungarskiA-pi|, Dutch |Frans-Duitse103|, English |Franco-GermanNP|, French |franco-allemandeADJ|, German |deutsch-französischADJA|, Italian |franco-tedescoADJ|, and Spanish |franco-alemanaNC|, but not in Czech |francouzskoA2--------A|-Z:|německýAANS3----1A|, Hungarian | angolADJ|-PUNCT|japánADJ |, Polish |niemieckoadja|-interp|rosyjskiadj:sg:nom:m1:pos | and Russian | frankoNcmsny|--|germanskijAfpmsnf |. Within a language, the treatment of hyphenation is fairly consistent. The German and French taggers prefer not to split: |Jelzin-ÄraNN|, |gut-ausgearbeitetenADJA|, |cure-dentsNOM|, unlike the Czech tagger: |padneVB-S---3P-AA|-Z:|liTT|, |TchajAAXXX----1A|-Z:|wanuNNIS2-----A|. Yet, care must be taken in specific cases, as in the following German and French examples: |Rechts-TRUNC| |undKON| |EntwicklungsbewegungNN|, |ditVER:pres|-ilPRO:PER|. Tokenization of strings including an apostrophe may not be straightforward either: |childrenNNS|’sPOS|, |parentsNNS|’POS|, |IPP|’mVBP|, |caMD|n’tRB|. In some cases, even contiguous strings of alphabetic characters are split and each part is assigned a tag and lemma of its own. This is what happens to Polish (orthographic) words with the agglutinative auxiliary attached, as in zrobiłeś ‘(you) made’: |zrobiłzrobić/praet:sg:m1:perf|eśbyć/aglt:sg:sec:imperf:wok|. A single orthographic word such as żebyśmy ‘that we would’ is split into three parts: |żeże/conj|byby/qub|śmybyć/aglt:pl:pri:imperf:nwok|.10 On the other hand, Czech enclitic s as a second person singular auxiliary, spelt together with the preceding form, is treated on a par with inflectional endings. An orthographic concatenation of an l-participle with 8 Vertical bar in the examples indicates token boundaries, as determined by the tokenizers bundled with taggers currently used in InterCorp for the given language. 9 The examples are followed by subscripts indicating morphosyntactic tags. 10 A single orthographic word can have different interpretations depending on the way it is tokenized. The form miałem can be tagged either as |miałemmiał/subst:sg:inst:m3| ‘dust’ or |miałmieć/praet:sg:m1:imperf|embyć/aglt:sg:pri:imperf:wok| ‘had’. Similarly with |gdzieśgdzieś/qub| ‘somewhere’ or |gdziegdzie/qub|śbyć/aglt:sg:sec:imperf:nwok| ‘where have (you been)’. Unfortunately, the tagger’s choice is not reliable and the present version of the corpus manager cannot see the original orthographic words. This means that searching for such words may involve more than one attempt – a query for its non-split version and another one for its split version. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 51 enclitic auxiliary udělals ‘(you) made’ is tagged as a single form of the l-participle |udělalsudělat/VpYS---2R-AA| (2nd person singular masculine, past tense, affirmative, active voice). The complementizer + enclitic auxiliary žes ‘that (you) are’ is tagged as subordinate conjunction in 2nd person singular |žesže/J,-S---2|. However, the second person singular pronoun ty is specified for person even without the clitic |tyty/PP-S1--2|, so the form with the clitic attached is distinguished by additional specifications for tense, polarity and voice, irrelevant for either the pronoun or the clitic auxiliary |tysty/PP-S1--2P-AA|. The German and French contractions of preposition and article (zum, aux) are similar examples of the same phenomenon. A single token can be searched using any of the query types (Basic, Lemma, Phrase, Word Form, Character or CQL). However, when querying for Estados only the Character query type would show all occurrences of Estados Unidos. To search only for Estados Unidos, the two words should be treated as a single token. The opposite is true about contractions with internal token boundaries: a query for can’t, żebyśmy, padne-li etc. must treat the strings as two or more tokens, i.e. as the Phrase or CQL query type, including the internal boundary identified by space in Phrase, i.e. as can ’t, że by śmy, padne - li. This snag is not present in the Poliqarp search engine, used in the National Corpus of Polish: the query for nań or na ń gives the same result.11 The concordancer currently used for searching InterCorp does not allow for this option, i.e. for distinguishing between the two levels of tokenization (orthographical and morphological/syntactical). 2.5.2 Morphosyntactic tags Currently (in release 8), word forms in 21 languages (including Czech) are assigned morphosyntactic tags while 18 of them are also lemmatized. The language-specific tools (morphological analyzers, taggers, lemmatizers) have been acquired ready-made, trained elsewhere on a language-specific tagset. Each of the tools may thus represent a different conceptual and practical solution to lemmatization, patterning of word classes and morphological categories. While some of the decisions reflect real contrasts between individual languages, other show differences in theoretical backgrounds and formal approaches. Table 3 below compares the annotation of a sample prepositional phrase such as in the best apartments across some of the available languages. 11 See Przepiórkowski et al. (2004). However, it seems that only agglutinative forms of być allow for this choice. Contractions such as żeby(śmy) and niemiecko-rosyjski are only found when entered as multiple tokens. Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen 52 Language Bg Cs De En Es Et Fi Fr Hu Is It Lt Nl No Pl Pt Ru Sk Sl Sv Preposition R RR-6 APPR IN PREP P--s3 Adv:Up PRP ART Aþ PRE Prln 600 Prep prep:loc:nwok SPS Sp-l Eu6 Sl PP Determiner Pde-os-n PDXP6 ART:Def:Dat:Pl:Fem DT ART DET:ART ADJ Favfþ PRO:demo Jvrd 370 Det adj:sg:loc:m3:pos DA0 P—pl PFfs6 Pd-nsg DT:UTR:PLU:DEF Adjective Ansi AAFP6---3A ADJA:Sup:Dat:Pl:Fem JJS NC A-p-s3 A:Pl:Ine:Foc_kin:Superl ADJ ADJ Lvfþvf NOM Bdvr 103 Adj adj:sg:loc:m3:pos NCFS Afp-plf AAfs6x Agpfsg JJ:POS:UTR:PLU: DEF:NOM Noun Ncnsi NNFP6---A N:Reg:Dat:Pl:Fem NNS ADJ Nc-s3 N:Pl:Ine NOM NOUN(CAS(ILL)) Nvfþ ADJ Dktv 000 Subst subst:sg:loc:m3 AQ0 Ncmpln SSfs6 Ncnsl NN:UTR:PLU: IND:NOM Table 3. A prepositional phrase annotated by different tagsets The notational diversity may obscure the fact that even if the tags are translated into a uniform set of labels, some of the seemingly corresponding labels have mismatching denotations. Two corresponding tags can share only a part of their denotations, as in Table 4. Czech Polish v RR—6 w prep:loc:nwok těch PDXP6 tym adj:sg:loc:m3:pos nejodlehlejších AAFP6----3A wspaniałym adj:sg:loc:m3:pos Zástavbách NNFP6-----A Apartamencie subst:sg:loc:m3 Table 4. Partial overlap – Czech PD vs. Polish adj Czech těch ‘those’ is tagged as a demonstrative pronoun, undistinguished between attributive and substantive use, unlike Polish tym ‘that’, which is tagged as a form of adjectival declension. In contrast to the Czech tagsets, distinctions in the Polish IPI PAN tagset are based on inflectional classes (Przepiórkowski, Woliński, 2003). Thus the two tagsets, designed for the two closely related languages, have a very different concept of word class, with the Czech tagset closer to the traditional view and mostly more fine-grained and the Polish tagset better defined but lacking some distinctions.12 12 The original Polish tagset has been slightly modified for the National Corpus of Polish – see Szałkiewicz and Przepiórkowski (2012) or http://nkjp.pl/poliqarp/help/en.html [accessed 21 February 2016]. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 53 A Polish adjective (dziewiątaadj:sg:nom:f:pos ‘ninth’) may correspond to a Czech ordinal numeral (devátáCrFS1 ‘ninth’), possessive pronoun (swojeadj:pl:ac– svojeP8XP4 ‘his/her/its/their’), demonstrative pronoun (temuadj:sg:dat:m1:pos – c:m3:pos tomuPDZS3 ‘that’), or relative pronoun (któryadj:sg:nom:m1:pos – kterýP4YS1 ‘which’). For examples with some context see (1) – (4). (1) ordinal numeral or adjective? cs: devátáCrFS1 hodinaNNFS1 pl: dziewiątaadj:sg:nom:f:pos godzinasubst:sg:nom:f (2) possessive pronoun or adjective? cs: svojeP8XP4 rysyNNIP4 pl: swojeadj:pl:acc:m3:pos cechysubst:pl:acc:f (3) demonstrative pronoun or adjective? cs: tomuPDZS3 poručíkoviNNMS3 pl: temuadj:sg:dat:m1:pos porucznikowisubst:sg:dat:m1 (4) relative pronoun or adjective? cs: kterýP4YS1 vyvěsilVpYS---XR-AA praporNNIS4-----A pl: któryadj:sg:nom:m1:pos wywieszałpraet:sg:m1:imperf flagesubst:sg:acc:f A Polish tag for non-inflected words may correspond to a Czech tag for particles (niequb tylkoqub – neTT jenTT ‘not only’), non-gradable adverbs (wtedyqub – tenkrátDb ‘then’), reflexive pronouns (sięqub – seP7-X4 ‘himself/herself/itself/themselves’), subordinating conjunctions (kiedyqub – kdyžJ, ‘when’), or coordinating conjunctions (czyqub – neboJ^ ‘or’). Some categorial distinctions are ignored or reflected only implicitly in the tagset. The Prague tagset implicitly marks reflexivity in personal pronouns such as sobě ‘himself/herself/itself/themselves’ (P6-X3) and reflexivity plus possessivity in possessive pronouns such as svůj ‘his/her/its/their’ (P8IS1), while the Polish IPI PAN tagset treats the corresponding forms either as a specific class – siebie:dat for sobie ‘himself/herself/itself/themselves’ – or as a syntactic word class – adj:sg:nom:m1:pos for swój ‘his/her/its/their’. Mismatching tagsets could be harmonized by providing a single tagset as in Multext-East (Erjavec, 2010), or by using an intermediate taxonomy (Zeman, 2010; Nivre, 2015). Ideally, the task of dealing with multiple tagsets should be delegated to an abstract ontology of linguistic categories (Chiarcos et al., 2012), with mismatches between tags properly represented. This would allow for a principled mapping strategy between languages-specific tagsets, and for intuitive and underspecified queries. 54 Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen 3. Users’ problems For many users, the main problem is a transfer of habits acquired from work with a monolingual corpus to the parallel corpus. This concerns expectations of the users, accustomed to specific software, annotation, research methodology and larger amounts of stylistically more varied material. All of the listed features often result in a disappointment when working with InterCorp. This disappointment pertains especially to the low number of corpus occurrences, a restricted choice of research topics, and unsatisfactory research results. Regarding the corpus research methodology, it is particularly important to be aware of the direction of translation, to realize the potential differences in the notation and linguistic theory behind the tagsets (e.g. Polish adjectives are not the same as Czech adjectives), and to be aware that quantitative methodology cannot be applied, as InterCorp is not a reference corpus.13 Ignoring the direction of translation is one of the problems resulting in incorrect findings and conclusions (cf. Nádvorníková et al., 2010). This is confirmed by recent user access statistics: many users seem to prefer the size of the corpus to an appropriate specification of texts to be queried, including the direction of translation (see Sub-section 3.5 below). Similarly, incorrect identification of a part of speech or a grammatical category or a failure to apply an appropriate methodology may produce results which are misleading or at least not representative. 3.1 Content From the users’ perspective, the content of the Polish-Czech parallel corpus is far from perfect. While the core is mostly hand-corrected fiction, the rest of the corpus consists of collections of automatically processed texts (Acquis, PressEurope, Europarl, Open Subtitles). Paradoxically, the texts that are less problematic for the corpus builders are less useful for corpus users. The automatically processed texts, which allow for rapid extension of the corpus size, are not very useful for the type of research described below in Sub-section . The Polish-Czech parts of the Acquis, PressEurope and Open Subtitles do not include any texts with Polish or Czech specified as the source language. In our translatological studies, where the goal was to find translation equivalents of specific words, multi-word expressions, and selected syntactic constructions from Czech/Polish into Polish/Czech, texts unspecified for the source language cannot be used. 13 Although all CNC corpora are now described as reference corpora, a part of them, including InterCorp, does not comply with some standard definitions of such corpora, which require that they are representative and balanced. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 55 However, this does not mean that texts where none of the investigated languages is the original cannot be used for other tasks. In an attempt to find how nouns denoting ‘the English’ and ‘the Vietnamese’ are translated from English into Polish and Czech, a pilot probe into Open Subtitles has shown remarkable results. Polish translations included many more pejorative names for nationalities than Czech translations. An unmarked lexeme denoting a Vietnamese or Japanese person in Czech was often translated into Polish by offensive words. (5) pl: Żółtki będą w was naparzać. cs: Japonci na vás budou střílet. (6) pl: Nie, lubiła maklerów i żółtków. cs: Ne, jela po makléřích a Číňanech. 3.2 Size Insufficient volumes of available texts are the main problem not only for the corpus compilers, but also for the corpus users. Although Polish belongs to the best-represented languages in InterCorp, results obtained from the Polish-Czech part may not be representative enough. The range of topics is limited, so before a real start, the researcher should probe the corpus. Our experience shows that some research topics run into a dead end due to insufficient evidence. Researchers should treat results with caution especially in domains where errors in translations, such as those due to false friends, are more likely. For instance, for cs. frajer – pl. frajer it is impossible to establish a Czech equivalent (see Table 5). (pl) frajer 12 blbec 2 blbeček 1 chlápek 1 hošánek 1 trouba 1 frajer 3 error 3 Table 5. The equivalents of the Polish lexeme frajer in the Czech part of InterCorp In the Polish-Czech part of InterCorp (the core), we found 12 examples of the Polish word frajer ‘a loser’. From their analysis alone appropriate equivalents cannot be identified: the number of occurrences is too small, so the relative frequencies of the equivalent pairs are not conclusive. Moreover, the same word 56 Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen in Czech has the opposite meaning (an elegant man / boy). Translators of texts included in InterCorp did not avoid the trap in three cases, where Polish frajer is rendered into Czech as its false friend frajer. A similar problem occurs in translations including the orthographic variants of džez vs. jazz. Research shows that Czech forms including dž occur more often than their parallels including dż in Polish. It would be interesting to see how the Czech words including dž are translated into Polish. However, the lack of sufficient occurrences does not allow for a conclusive answer. Still it is worth noting that available occurrences show that Czech džez is translated into Polish jazz (see Hebal-Jezierska, 2013) On the other hand, a similar investigation of džudo vs. judo stumbled over the problem of insufficient occurrences. Another example concerning insufficiently representative results is related to translations of the names of nationalities (see (5)(6) pl: Nie, lubiła maklerów i żółtków.(6)Insufficient volumes of available texts are the main problem not only for the corpus compilers, but also for the corpus users. Although Polish belongs to the best-represented languages in InterCorp, results obtained from the Polish-Czech part may not be representative enough. The range of topics is limited, so before a real start, the researcher should probe the corpus. Our experience shows that some research topics run into a dead end due to insufficient evidence. Researchers should treat results with caution especially in domains where errors in translations, such as those due to false friends, are more likely. For instance, for cs. frajer – pl. frajer it is impossible to establish a Czech equivalent (see Table 5).). The question of how the pejorative names for the English and Vietnamese are translated was not answered due to a small number of occurrences. Queries targeting żółtek return predominantly homonymous forms denoting genitive plural of ‘yolk’ rather than the pejorative name for someone of East-Asian origin. The small number of occurrences also means an increased probability of error. It appears not only in corpus-based translation studies, but in grammar studies as well, e.g. InterCorp (release 6) found only 18 occurrences of the structure toužit ‘to desire’ + complement clause.14 These are not sufficient data for any analysis. In some cases there is a different situation. For some words the results may be partly sufficient, e.g. establishing equivalents of the Czech verbs čumět 14 We analysed the valency of the verb toužit and divided the occurrences into groups: toužit po + human object (37 occurrances), toužit po + abstract object (94), toužit po + real object (14), toužit + infinitiv (90), toužit (po) + complement clause (18). The occurrences were excerpted from the Czech-Polish part of InterCorp core. (Kaczmarska, Rosen, 2013, 2015; Kaczmarska et al., 2015; Kaczmarska, 2014). In the core of InterCorp release 8 restricted to Czech or Polish originals (5,662 thousand tokens), the number of occurrences of the lexeme rose to 27. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 57 and koukat (both belong to the semantic field ‘to see’). A comparison of their equivalents shows that čumět is more often than koukat translated by the expressive lexeme gapić się ‘to stare’, while koukat is much more often translated by the unmarked lexeme patrzeć ‘to look’. It is worth noting that the second meaning of čumět ‘to be stuck’ was not distinctive among the obtained equivalents. On the first sight the number of occurrences seems to be sufficient, but the distribution of the Polish equivalents of čumět shows that up to 47% of the translation come from Škvorecký’s The Cowards. After this finding the results were analysed with a greater caution. Apart from problems with sufficient corpus evidence, various other types of research were successful. The parallel corpus can be helpful for the identification of equivalents of frequent lexemes not only with specific reference to extra-linguistic reality, but also for ambiguous lexemes whose meaning is highly dependent on the context. An example is the Czech word snad ‘maybe, perhaps’, which poses many problems for students of Czech. An analysis of the translations helps to identify the most common meanings, see Table 6. chyba 29.0% może 30.0% pewnie, na pewno 5.0% przypadkiem 2.0% zapewne 3.0% czyżby 2.5% Other: no equivalent, indeterminacy, syntactic construction 28.5% Table 6. Polish equivalents of the Czech lexeme snad Establishing equivalents of a selected group of words gives even better results. If the words of choice run into the low frequency problem, the field can be extended. Interesting results were obtained in the analysis of equivalents of expressive words, such as those ending in -ák (see Hebal-Jezierska, 2010). The aim of this study was to examine to what extent the translator tries to capture the expressiveness of words ending in -ák. Table 7 shows some translations of such lexemes. It is worth noting that some translations can be simply wrong or the translator’s coinages. The Czech word esesák ‘an SS member’15 has two Polish equivalents in InterCorp: esesman, a word well-known to every Pole, and an unexpected form esesowiec. Indeed, the corpus shows that esesowiec is a nonce word used by a single translator in one text. 15 SS is the abbreviation of Schutzstaffel, a powerful paramilitary organization in the former Nazi Germany. Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen 58 A parallel corpus can help us find suggestions for equivalents of a given word. This is particularly important for ambiguous words. The Czech verb zdát se16 is an opposite example. A traditional dictionary (Siatkowski, Basaj, 2002: 1006–1007) offers four possible Polish equivalents śnić się, wydawać się, zdawać się, podobać się. The dictionary, however, does not show the context (Kaczmarska, 2012a, 2012b). On the other hand, InterCorp found 978 occurrences (release 6, Czech-Polish core, Czech originals)17 of the verb and its translations into Polish (see Table 8, equivalents related the core meaning of the Czech lexeme are in boldface). Czech word Meaning of the Czech word montgomerák kind of waterproof military coat montgomerák kind of waterproof military coat březňák kind of wine slepák blonďák vedlejšák obhroublý dobrák Polish dictionary Meaning of the translation Polish translation wojskowy płaszcz angielskiego kroju drelich Translation found in the corpus military coat of English cut unmarked MWU denim change of meaning: an expressive word for a type of material marcowe type of wine change of word form: univerbation by suffix → univerbation by ellipsis Appendix ślepa kicha change of word form: univerbation by suffix → desintegration fair-haired blondynek fair-haired (little) univerbation by suffix → man man diminutive suffix side job chałturka diminutive for side univerbation by suffix → job diminutive suffix coarse good dobroduszny grubas good fat man change of meaning (misman take made by the translator): coarse good man → good fat man Table 7. Equivalents of some Czech expressive nouns ending in –ák found in InterCorp Polish equivalents wydawać się zdawać się mieć wrażenie wyobrażać sobie sen / śnić się przyśnić się przywidzieć się mieć sny podobać się Number of occurrences 509 190 49 1 29 1 1 1 1 Percentage 52.10% 19.42% 5.11% 3.27% 0.20% 16 The tricky Czech verb can be translated into English as: to seem, to appear, to occur, to dream. 17 The current version of InterCorp (release 8, Czech-Polish core, Czech originals) returns 1433 hits including the lemma zdát (se). Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... Polish equivalents być zadowolonym czuć poczuć doznać uczucia mieć uczucie myśleć uznać mniemać podejrzewać pomyśleć rozumieć sądzić uświadamiać sobie uważać wyglądać widać widzieć okazywać się pewnie usłyszeć jakby Other Error Omitted in translation TOTAL Number of occurrences 1 3 2 3 1 5 1 1 1 2 1 4 1 4 34 4 1 1 1 1 1 58 21 44 978 59 Percentage 0.92% 2.00% 3.99% 0.10% 6.24% 2.15% 4.50% 100,00% Table 8. Equivalents of the Czech verb zdát se in InterCorp The results show that more than half occurrences of the verb zdát se are translated into Polish as wydawać się (52%), which seems to be the obvious equivalent. Its synonym – zdawać się – appears in 19,3% occurrences.18 The unit mieć wrażenie (5%) is semantically close to the two previous Polish verbs, but differs in terms of style. Other possible equivalents found by InterCorp can be divided into several groups (see Table 8). These are not straight equivalents of the Czech unit; they emphasize different semantic components, e.g. visual perception (wyglądać, widzieć, widać), intelectual aspect (myśleć, mniemać, podejrzewać, pomyśleć, rozumieć, sądzić, uświadamiać sobie, uważać, uznać, moim zdaniem), the emotional element of the meaning (czuć, poczuć, doznać uczucia, mieć uczucie), or the component of objectivity and impersonality (wynikać i okazywać się).19 As many as 58 occurrences contain other units (chyba, najwyraźniej, 18 The verbs wydawać się and zdawać się constitute 70% occurrences and seem to be absolutely synonymous. It would be worthwhile to consider when (in which contexts) one or the other is chosen. A Polish corpus (http://nkjp.pl) could be used to investigate several factors: the wider context showing the experiencer and the object (name / noun / pronoun [I / me]), the type of the text (dialog / narration) and the stylistic layer. The result of such an analysis may be particularly important for translators and foreign learners of Polish. 19 The translators, however, used the verbs only in cases when zdát se did not need to be completed by a personal object. 60 Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen pewnie, prawdopodobnie) as equivalents of the verb zdát se, which include elements of epistemic modality20 – information referring to the way the speakers communicate their judgments, certainties, guesses, doubts. Of course, InterCorp also includes evidence of two other meanings of the Czech unit zdát se: śnić się ‘to dream of ’ (przyśnić się, przywidzieć się) and podobać się ‘to enjoy’ (być zadowolonym).21 To conclude, the parallel corpus InterCorp is able to present avenues of possibilities for the choice of the proper equivalent in a given context. Corpus data can be very useful for the identification of the meaning of a structure (or a unit) such as the Czech unit být líto. If we use the methods of Pattern Grammar,22 manual analysis based on InterCorp indicated, i.a., two patterns of být líto (‘to be sorry’, ‘to regret’), associated with two meanings. If the unit být líto is combined with two nominal phrases (Dative and Genitive), it corresponds to the Polish equivalent żal. If combined only with the Dative nominal phrase, and possibly with the element to, it corresponds to the Polish equivalent (być) przykro. żal Jak mi ho bylo líto! Jakże mi go było żal! Je mi ho samozřejmě líto. Jest mi go oczywiście żal… Přišlo mi jí prostě líto. Po prostu zrobiło mi się jej żal. být líto + NPDAT + NPGEN = żal (być) przykro Pak mi je líto. Wobec tego, przykro mi! Potom nám to bylo oběma líto. Potem nam obu było przykro. …nabídne mi sisinku a já si vezmu, protože by mu bylo líto, kdybych si nevzala… ...zaprasza mnie na cuksa i ja biorę, bo byłoby mu przykro, gdybym nie wzięła… být líto + NPDAT + to / Ø = (być) przykro Table 9. The patterns of být líto (żal, być przykro) 3.3 Searching The search interface offers the comfort of the same tools, functions, etc., available for searching both monoligual and parallel corpora. The clickable filtering of the texts, based on the metadata, including the translation direction, is also intuitive and useful. There is only one disadvantage. Statistics such as ipm relate to the whole corpus of Czech, rather than to its intersection with Polish. 20 More on the modality: Boniecka (1976), Roszko (1993), Rytel (1982), Wróbel (1991). 21 Zdát se as podobać się (enjoy) is possible only with the negation: cs: Venca se potil, jak ho Fonda nutil, a nutil ho tak, že si musel dolaďovač trombónu postrčit skoro o decimetr, až už mu to dál nešlo, ale Fondovi se to pořád nezdálo. pl: Wacek aż się spocił, tak go Fonda piłował, a piłował go tak, że Wacek musiał stroik puzonu przesunąć prawie o dziesięć centymetrów, aż już dalej nie szło, ale Fonda ciągle nie był zadowolony. 22 See Ebeling and Ebeling (2013) or Hunston and Francis (2000). Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 61 Moreover, a subcorpus of Czech texts aligned with parallel Polish texts cannot be created. 3.4 Segmentation, alignment, typos and annotation Errors in alignment and sentential segmentation are often related, but they do not pose a significant problem, especially in the proofread core part of InterCorp. Most cases of misalignment are easy to spot while parallel concordances are browsed. To read the whole aligned segment is often unavoidable anyway in the language which was not queried. Then the parallel keywords are not highlighted, since there are no word-to-word alignments in InterCorp yet. Misaligned sentences can be recovered in the extended context or even within the same segment, the latter in case of incorrect alignment of multiple sentences within a single segment. Typos are relatively few, except for misplaced pieces of texts in an inappropriate language in collections such as Acquis. In comparison to previous releases, metadata are now significantly more reliable, especially in the crucial identification of the language of the original. Unfortunately, the original language is still unknown for many texts in the collections, which is the main reason why some users prefer to query only the carefully annotated core part. On the other hand, linguistic annotation is not problematic due to its insufficient reliability, but because of the multitude of different tagsets and disparate tokenization rules (see Subsection above). This is clearly one of the main problems facing the user, who is often unaware of the differences in the tags beyond mere superficial notational dissimilarity. 3.5 User access statistics During the first half of 201523 the users of InterCorp made 62 thousand queries, including 2 thousand (3.26%) queries with Polish as one of the languages. The most often queried language combination involving Polish was – not surprisingly – Polish and Czech (1.4 thousand queries, 71% of all queries involving Polish). Apart from monolingual queries into the Polish part of InterCorp (6.2%), other combinations are far less common: Polish and French (2.8%), Polish and Russian (2.5%), followed by Czech, Polish and Russian (2.2%). Interestingly, most queries (85.6%) target all available texts. Queries restricted to the core account for mere 10%. This is still more than the share of core queries for all languages – 5.7%, compared with queries for all languages unrestricted by the text type – 91.0%. The high numbers of unrestricted queries both for Polish and 23 More precisely within 1 January – 20 July 2015. 62 Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen for other languages indicate that most users prefer large data to specific text types and that collections play an important role in the corpus. As an additional explanation, at least some users could be suspected of inadvertently ignoring an important methodological aspect, such as distinguishing the direction of translation. 4. Conclusions The problem of insufficient size and disproportionate representation, felt as important by the corpus users, is quite hard to overcome – translations in the preferred text type may not be available for a given language pair. Could some of the problems be resolved by the use of comparable rather than parallel corpora? On the other hand, the alignment and annotation problem, which the corpus builders feel is important, does not seem to be a priority for the users, at least not for some users of the Polish-Czech part. This may be different for users interested in multiple languages, posing problems such as less reliable or missing morphosyntactic annotation or incompatible tagsets. The collections, where the language of the original is very often unknown and very seldom Czech or Polish, do not seem to help much for this kind of research, although Open Subtitles was shown to yield interesting results. Could some methods be adapted to the existing resources, even though they are not perfect? The bottom line points to the importance of user feedback. Even though there is a user forum and an easy way to report problems, to comment, to make wishes, regular users of InterCorp have been asked recently to participate in a survey intended to provide a better picture of the users’ preferences to guide future steps in the development of the corpus. References Baisa, Vít (2014): Parallel corpora in Sketch Engine. Paper presented at the 5th Sketch Engine Workshop. Bolzano, Italy, 14 July, 2014. Belica, Cyril (2011): Semantische Nähe als Ähnlichkeit von Kookurenzprofilen. In: Andrea ABEL, Renata ZANIN (eds.): Korpusinstrumente in Lehre und Forschung. Brixen: Bozen-Bolzano: University Press, 155–178. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 63 Boniecka, Barbara (1976): O pojęciu modalności (przegląd problemów badawczych). Język Polski LVI(2), 99–110. Chiarcos, Christian, Ritz, Julia, Stede, Manfred (2012): By all these lovely tokens... merging conflicting tokenizations. Language Resources and Evaluation 46(1), 53–74. Chiarcos, Christian (2012): Ontologies of linguistic annotation: Survey and perspectives. In: Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, Stelios Piperidis (eds.): Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012). Istanbul: European Language Resources Association (ELRA), 303–310. Čermák, František, Rosen, Alexandr (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13(3), 411–427. Ebeling, Jarle, Ebeling, Signe O. (2013). Patterns in contrast. Amsterdam/Philadelphia, PA: John Benjamins. Erjavec, Tomaž (2010): MULTEXT-East Version 4: Multilingual morphosyntactic specifications, lexicons and corpora. In: Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, Stelios Piperidis (eds.): Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012). Istanbul: European Language Resources Association (ELRA), 2544–2547. Hebal-Jezierska, Milena (2013): Jazz http://portal.uw.edu.pl/web/approval/ jazz_cz (3 March 2016). Hebal-Jezierska, Milena: (2010) Jak se překládají české univerbizáty do polštiny In: František Čermák, Jan Kocek (eds.) Mnohojazyčný korpus InterCorp: Možnosti studia. Praha: Lidové noviny, 261–268. Hunston, Susan, Francis, Gill. (2000). Pattern Grammar: A corpus-driven approach to the lexical grammar of English. Amsterdam/Philadelphia, PA: John Benjamins. Kaczmarska, Elżbieta (2012a): Czeski czasownik „zdát se” w przekładzie na język polski (na podstawie badań z wykorzystaniem czesko-polskiego korpusu równoległego InterCorp). Studia z Filologii Polskiej i Słowiańskiej 47, 247–261. Kaczmarska, Elżbieta (2012b): Searching for equivalents on the basis of a Czech – Polish parallel corpus (the case of the verb „zdát se“). In: Panajot Karagiozov, Kalina Bahneva, Valentin Geshev, Ina Hristova, Margarita Mladenova (eds.): Време и история в славянските езици, литератури и култури. Sofia: Езикознание, 238–245. 64 Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen Kaczmarska, Elżbieta (2014): Czeskie czasowniki oznaczające stany psychiczne – sposoby ustalania polskich ekwiwalentów na podstawie korpusu równoległego InterCorp. In: Anna Stolarczyk-Gembiak, Marta Woźnicka (eds.) Zbliżenia. Językoznawstwo – Literaturoznawstwo – Translatologia. Konin: Państwowa Wyższa Szkoła Zawodowa w Koninie, 45–55. Kaczmarska, Elżbieta, Rosen, Alexandr (2013): Między znaczeniem leksykalnym a walencją – próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej 48, 103–121. Kaczmarska, Elżbieta, Rosen, Alexandr (2015): Jak najít optimální překlad polysémních sloves – porovnání metod automatické analýzy paralelních textů. Časopis pro moderní filologii 97(2), 157–168. Kaczmarska, Elżbieta, Rosen, Alexandr, Hana, Jirka, Hladká, Barbora (2015): Syntactico-semantic analysis of arguments as a method for establishing equivalents of Czech and Polish verbs expressing mental states. Prace Filologiczne XVII, 151–174. Kilgarriff, Adam, Baisa, Vít, Bušta, Jan, Jakubíček, Miloš, Kovář, Vojtěch, Michelfeit, Jan, Rychlý, Pavel, Suchomel, Vít (2014): The Sketch Engine: ten years on. Lexicography, 1(1), 7–36. Nádvorníková, Olga, Polická, Alena, Šotolová, Jovanka, Vurm, Petr (2010): Využití InterCorpu ve vyskoškolských kurzech francouzské filologie. In: František Čermák, Jan Kocek (eds.) Mnohojazyčný korpus InterCorp: Možnosti studia. Praha: Lidové noviny, 232–240. Nivre, Joakim (2015): Towards a universal grammar for natural language processing. In: Alexander F. Gelbukh (ed.): Proceedings of Computational Linguistics and Intelligent Text Processing 16th International Conference, CICLing 2015, Cairo, Egypt, Part I, volume 9041 of Lecture Notes in Computer Science. New York, NY: Springer, 3–16. Pęzik, Piotr. (2014): Graph-based analysis of collocational profiles. In: Vida Jesenšek, Peter Grzybek (eds.): Phraseologie im Wörterbuch und Korpus, Proceedings of Europhras 2012. Maribor: Univerza v Mariboru, 227–243. Przepiórkowski, Adam, Krynicki, Zygmunt, Dębowski, Łukasz, Woliński, Marcin, Janus, Daniel and Bański, Piotr (2004): A search tool for corpora with positional tagsets and ambiguities. In: Maria Teresa Lino, Maria Francisca Xavier, Fátima Ferreira, Rute Costa, Raquel Silva (eds.): Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2004). Lisbon: European Language Resources Association (ELRA), 1235–1238. Between the devil and the deep blue sea or between users’ needs and the compilers’ powers... 65 Przepiórkowski, Adam, Woliński, Marcin (2003): A flexemic tagset for Polish. In: Tomaž Erjavec (ed.): MorphSlav ‘03 Proceedings of the 2003 EACL Workshop on Morphological Processing of Slavic Languages. Budapest: Association for Computational Linguistics, 33–40. Rosen, Alexandr, Vavřín, Martin (2012): Building a multilingual parallel corpus for human users. In: Nicoletta Calzolari, Khalid CHOUKRI, Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012). Istanbul: European Language Resources Association (ELRA), 2447–2452. Roszko, Roman (1993): Wykładniki modalności imperceptywnej w języku polskim i litewskim. Warszawa: Instytut Slawistyki PAN. Rytel, Danuta (1982): Leksykalne środki wyrażania modalności w języku czeskim i polskim. Wrocław: Zakład Narodowy im. Ossolińskich. Siatkowski Janusz, Basaj Mieczysław (2002): Słownik czesko-polski. Warszawa: Wiedza Powszechna. Szałkiewicz, Łukasz, Przepiórkowski, Adam (2012): Anotacja morfoskładniowa. In: Adam Przepiórkowski, Mirosław Bańko, Rafał Górski, Barbara Lewandowska-Tomaszczyk (eds.): Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 59–96. Wróbel, Henryk (1991): O modalności. Język Polski LXXI, 260–270. Zeman, Daniel (2010): Hard Problems of Tagset Conversion. In: Alex Fang, Nancy Ide, Jonathan Webster (eds.): Proceedings of the Second International Conference on Global Interoperability for Language Resources. Hong Kong: City University of Hong Kong, 181–185. Piotr Pęzik Uniwersytet Łódzki Exploring phraseological equivalence with Paralela Zastosowanie korpusu Paralela w badaniach ekwiwalencji frazeologicznej Streszczenie Paralela to udostępniony niedawno korpus równoległy polskoangielskich i angielsko-polskich tłumaczeń. Korpus zawiera aktualnie ponad 260 milionów segmentów słów (blisko 11 milionów segmentów tłumaczeniowych) w wersji polskiej. Dla korpusu opracowano również dostępną w postaci aplikacji WWW wyszukiwarkę (http://paralela. clarin-pl.eu), której składnia umożliwia formułowanie zapytań o pojedyncze wyrazy, frazy oraz wzorce leksykalno-gramatyczne. Możliwe jest także filtrowanie wyników według kryteriów typologicznych i bibliograficznych oraz ich eksportowanie w postaci arkuszy kalkulacyjnych. Szczegółowa zawartość korpusu, zarówno na poziomie metadanych jak też samych tekstów, może być przeglądana za pomocą specjalnego modułu wyszukiwarki. Po przedstawieniu zawartości korpusu oraz funkcjonalności wyszukiwarki omówiono zastosowanie tych narzędzi w badaniu idiomatyczności tłumaczeń. W tym celu wprowadzone zostało pojęcie ekwiwalencji frazeologicznej, czyli tendencji do zachowania określonego poziomu idiomatyczności tekstu tłumaczenia. Zjawisko to polega na stosowaniu utrwalonych w języku tłumaczenia odpowiedników wielowyrazowych idiomów, kolokacji i innych jednostek frazeologicznych jako ekwiwalentów występujących w języku oryginału połączeń wyrazowych o podobnym statusie frazeologicznym. W tłumaczeniu nieidiomatycznym ekwiwalentami jednostek frazeologicznych są syntagmy, czyli doraźne połączenia wyrazów, których znaczenia są analizowane przez odbiorców tekstów poprzez dekompozycję, a nie częściowo lub całkowite przywoływane z pamięci poprzednich użyć, jak to się dzieje w przypadku jednostek frazeologicznych. Mimo iż tłumaczenie za pomocą kompozycyjnych odpowiedników jest czasami nieuniknione, to niska idiomatyczność całego tłumaczenia (w porównaniu z tekstem oryginalnym) może znacznie utrudniać jego przetworzenie w sensie psycholingwistycznym, a także zwiększa jego wieloznaczność. Zasada ta dotyczy szczególnie tekstów z gatunku użytkowych, naukowo-dydaktycznych i prasowych, w których pojawiają się frazemy Piotr Pęzik 68 mające w podobnym stopniu utrwalone odpowiedniki frazeologiczne w języku tłumaczenia. Szczególnych trudności z zachowaniem porównywalnego stopnia utrwalenia frazeologicznego w oryginale i tłumaczeniu mogą nastręczać kolokacje, które w odróżnieniu od idiomów czystych i figuratywnych nie muszą się cechować całkowitą lub częściową niekompozycyjnością. Na przykładzie korpusu Paralela staram się wykazać, że o ile lokalna ekwiwalencja frazeologiczna może być badana na poziomie pojedynczego tłumaczenia, o tyle występowanie frazeologicznej ekwiwalencji globalnej (czyli skonwencjonalizowanego stosowania ekwiwalentów frazeologicznych między parą języków) można badać jedynie, opierając się na odpowiednio dużych korpusach równoległych. Tezę tę ilustruję przykładami wybranych idiomów figuratywnych, które występują w korpusie Paralela, zaczerpniętymi z profesjonalnych i amatorskich tłumaczeń. Keywords: parallel corpus, Polish, English, phraseology, equivalence Słowa kluczowe: korpus równoległy, język polski, język angielski, frazeologia, ekwiwalencja 1. Introduction A new parallel Polish-English corpus called Paralela has recently become available as part of the CLARIN-PL infrastructure of Polish language tools and resources. In this paper, I describe the current contents of this corpus and its dedicated search engine. I also attempt to show the usefulness of Paralela in the study of the idiomaticity of English-Polish translations. I conclude that large parallel corpora for which such specialized search tools are available are indispensible in investigating the phenomenon of global phraseological equivalence in translation. 2. The corpus Paralela can be described as an open-ended, opportunistic parallel corpus of Polish-English and English-Polish translations. It currently contains 262 million words in 10,877,000 translation segments. When selecting the translations to be included in the corpus, we initially focused on large, publicly available multilingual text collections and open-source parallel corpora, in order to quickly build a sizeable collection, which could be used to develop and test a new parallel corpus search engine. The main sources of texts included in the corpus are listed in Table 1. The largest of these are the automatically aligned Polish-English subsets imported from the OPUS collection (Tiedemann, 2009), which include: the JRC Acquis Communautaire, Open Subtitles, European Parliament Proceedings, EU Books and EMEA corpora. Exploring phraseological equivalence with Paralela Subcorpus JRC-Acquis RAPID Open Subtitles CORDIS EP Proceedings EU Books EMEA 114 Literary Classics ESO OSW Academia Total Segments 3 385 142 3 952 181 13 628 985 761 057 693 139 657 938 825 922 448 957 74 852 60 363 17 750 10 877 301 69 Words 72 88 7270 66 304 435 63 048 392 17 162 287 13 026 414 11 596 443 8 883 601 6 292 789 1 447 958 1 335 858 317 426 262 302 873 Alignment Automatic Automatic Automatic Automatic Automatic Automatic Automatic Manual Automatic Manual Manual Table 1. Current contents of the Paralela corpus. Word counts were calculated for the Polish segments only We have also crawled a number of public domain websites including the European Commission Press Release database (RAPID)1, the Community Research and Development Information Service (CORDIS)2 and the European Space Observatory website (ESO)3. The Polish-English texts acquired from these websites were automatically aligned using the mALIGNa tool (Jassem, Lipski, 2008). In addition to these large, statistically aligned collections, Paralela contains a much smaller, but nevertheless significant number of manually aligned texts obtained from the publishers of Academia (a popular science journal) and the Center for Eastern Studies. Last but not least, 114 Polish-English and English-Polish translations of public domain literary classics were manually aligned and included in the corpus. The full list of these sources is provided in the ‘Browse’ section of the Paralela website (http://paralela.clarin-pl.eu). The ten largest books from this subset of the corpus are listed in Table 2 below: Source Potop David Copperfield The Pickwick Papers Ogniem i mieczem Faraon Villette Great Expectations Quo Vadis Sons and Lovers Jane Eyre Segments 28 301 22 710 18 840 16 515 14904 11448 10850 10252 16297 10421 Words Table 2. Examples of the 114 manually aligned literary classics indexed in Paralela 1 http://europa.eu/rapid. 2 http://cordis.europa.eu. 3 http://www.eso.org. 430 143 319 289 269 701 247 887 200 035 197 673 178 762 170 850 164 567 164 004 Piotr Pęzik 70 Manual annotation of these texts was a time-consuming task. After developing a special web application called Mantel, we assigned them to trained annotators in order to have them aligned at the level of sentences. The annotators were instructed to use one of the following alignment markers of equivalence between source and target text sentences: 1. Simple – used to mark simple sentence to sentence equivalence 2. Merge/Split – used to mark many-to-one or one-to-many alignments wherever more than one sentence was translated into many sentences or vice versa 3. Insertion/Deletion – to mark ‘extra’ sentences in either the source or translation 4. Crosslink – used to mark equivalent sentences separated by one or more intervening segments 5. Composite – used to mark many-to-many segment blocks with overlapping sentence to sentence equivalence relations 6. Compression – used to mark complex mergers where several sentences are translated into significantly fewer sentences 7. Paraphrase – a last resort marker used to mark significant adaptations or paraphrases in the translation which could not be reasonably mapped at the level of individual sentences. It is important to note that, in many cases, we had no way of knowing which edition of a particular classic novel was used by the translator. This may explain the high incidence of complex alignment types in texts which had several considerably different editions. The complexity of the manual alignment procedure is illustrated in Figure 1, which shows the alignment of the first 9 sentences of The Adventures of Tom Sawyer in the user interface of Mantel. There are seven simple alignments in this section, one deletion and one split. In total, more than 500,000 segments were manually aligned with this tool and included in the Paralela corpus. The aligned texts were stored in a relational database, part-of-speech tagged and then indexed by the Paralela search engine, which was implemented using the Apache Solr library. In addition to the alignment mark-up, a number of bibliographic and taxonomic metadata annotations are stored for most texts in the index. The current list of the metadata fields available for each parallel segment in the corpus database is shown in Table 3. Exploring phraseological equivalence with Paralela 71 Figure 1. Manual alignment of The Adventures of Tom Sawyer in Mantel Field name Id text_id_pl text_id_en alignment_mode lang_src lang_trg seq source genre medium word_total alignment_type title_m_pl title_a_pl title_m_en title_a_en authors_en Explanation Segment identifier Polish text identifier English text identifier Mode of alignment Source language Target language Sequence in text Source identifier NKJP genre tag NKJP medium tag Segment size Type of alignment Polish monograph title Polish section title English monograph title English section title English authors Table 3. Searchable metadata fields in the Paralela index Example value gkn9r ceae Tja5 MANUAL eng pol 140 houndbaskervilles1 typ_lit_proza kanal_ksiazka 47 SIMPLE Pies Baskerville’ów Przeklęty ród The Hound of the Baskervilles The Curse of the Baskervilles Arthur Conan Doyle Piotr Pęzik 72 As further explained in the next section of this paper, all of the metadata fields listed in Table 3 can be used as additional metadata filters for corpus span queries. There are also some additional unexposed metadata fields, which are only used internally for corpus maintenance purposes. 3. Search engine and query syntax Paralela supports the SlopeQ query syntax, which has been used in previous corpus projects, such as Spokes (Pęzik, 2014) and the Monco search engine (http://monitorcorpus.com). The scope of the syntax is illustrated in Table 4 below. Apart from basic surface form queries for single words, it is possible to search for loosely defined phrases with the so-called slop factor and lexico-grammatical patterns matching morphosyntactic codes. # English query Matches translation segments containing 1 popular The exact word form ‘popular’ 2 popular with The exact phrase ‘popular with’ 3 popular with|among 4 strike** Either of the two exact phrases: ‘popular with’ / ‘popular among’ Different forms of the lemma ‘strike’ (both nouns or verbs) 5 strike** a balance 11 Phrases with different forms of ‘strike’ followed by the sequence ‘a balance’ strike**|!striking a balance Same as above, but not when strike** takes the form of ‘striking’ (strike** a balance)=3 Same as above, but with up to 3 unspecified words between the query terms, e.g. ‘struck a very delicate balance’ (strike** a balance)~3 Same as above, except that the query terms may occur in any order (strike** balance**|deal**)=4 Co-occurrences of different forms of the lemmas ‘strike’ and ‘balance’ or ‘deal’ word**|story** has it that Different variants of the multiword expression ‘word (or story) has it that…’ <lemma=strike tag=n.*> Different forms of the lemma ‘strike’ as a noun 12 <tag=j.*> chance** 13 (<tag=v.*> <tag=j.*> discovery**)=2 6 7 8 9 10 Co-occurrences of different forms of the lemma ‘chance’ with immediately preceding adjectives Sequences of a verb, followed by an adjective and followed by any form of the lemma ‘discovery’ with up to two word tokes in between Table 4. Paralela supports the SlopeQ corpus query syntax It is possible to specify bilingual SlopeQ queries for pairs of aligned segments as illustrated in Table 5 below. The first three of these queries are examples of how Exploring phraseological equivalence with Paralela 73 one could search for fully specified formal lexical and phraseological equivalents of original words and phrases. # English query 1 chance** 2 3 4 5 Polish query nadzieja** Matches translation segments containing Any inflectional form of ‘nadzieja’ as a possible equivalent of the lemma ‘chance’ <tag=j.*> chance** <tag=j.*> szansa** Any form of ‘nadzieja’ (when it is preceded by an adjective) as a possible equivalent of ‘chance’ (similarly pre-modified by an adjective) (give** to (dać** do A relaxed co-occurrence of the phrase ‘dać do understand)=3 zrozumienia)=3 zrozumienia’ when it is an equivalent of ‘give someone to understand’. (reach** (<tag=v.*> Verbs co-occurring with the noun ‘porozumienie’ agreement**)~3 porozumienie**)~3 when they are possible equivalents of the English collocation ‘reach an agreement’ (give** no reason powód** An English lexico-grammatical pattern when it to <tag=v.*>)=3 may be translated as a phrase containing the Polish noun ‘powód’. Table 5. Examples of bilingual span queries The last two examples in Table 5 show how to specify a query which matches partly underspecified equivalents. For example, in query 4 any Polish verb is allowed in the equivalent of the English collocation reach an agreement and in query 5 we only specify one obligatory term to find potential equivalents of an English multiword expression. All corpus concordances generated with Paralela can be exported as Excel files for offline use. 4. Query-based word alignment The Paralela search engine supports query-based word alignment. Once a monolingual query is entered, possible lexical equivalents of the original query terms are computed and ranked using the Dice coefficient (Dice, 1945). The highest scoring matches are then highlighted in the spans retrieved from the index. This solution eliminates the need for offline word alignment which would be very costly to compute and update on a regular basis. Word alignment of the results of bilingual queries is more straightforward: the search engine simply highlights the spans matching both parts of the queries in the retrieved concordances. 5. Metadata queries and search facets It is possible to use a conjunction of a span query and a logical metadata query to filter the results retrieved from the index. Metadata queries can be formulated Piotr Pęzik 74 using the Apache Solr DisMax syntax4. They are always appended as a logical conjunction to the obligatory span query. For example, the following metadata query: (genre:typ_lit_proza NOT source:wutheringheights AND (alignment:simple OR alignment:paraphrase) AND wc:[5 TO *]) would limit the results of the span query to segments found in literary prose (except for those from The Wuthering Heights), which are either marked as simple alignments or paraphrases and which contain at least 5 words. This kind of filters are particularly useful when a particular source or genre of texts contains a high number of matches of the query and it becomes necessary to explicitly eliminate such sources from the results. Because such metadata queries can seem quite complicated to many users, we have introduced two features, namely query facets and predefined collections, which provide a similar functionality through the standard controls of the application user interface. Both of those features are shown in Figure 2 below. Figure 2. Query facets and predefined collections in Paralela 4 See https://cwiki.apache.org/confluence/display/solr/The+Extended+DisMax+Query+Parser. Accessed on 9th January 2016. Exploring phraseological equivalence with Paralela 75 Predefined collections are simply a set of metadata queries which users can select from the drop-down list under the corpus query text box. In the example above, the user can select a predefined query which limits the results of the query to texts labeled as ‘practical guides’ (‘Poradniki i informatory’) in the corpus taxonomy. For every query submitted by the user, the Paralela search engine also computes a summary of matches found in the different metadata categories in the entire corpus. These summaries are known as ‘facets’ and they are visualized as pie charts in the Statistics section of the results screen. They are also presented in the form of interactive tables as shown in Figure 2. Users can select or deselect some of the categories, thus narrowing down the results of the original span query. In the example above (Figure 2), having obtained a very large number of hits for the query ‘unia**’ from the JRC Acquis section of the corpus, the user decides to deselect all texts which are not marked as literary or scientific works (‘typ_lit_proza’, ‘typ_nd’). This limits the set of matched occurrences of the lemma ‘unia’ to segments which occurred in such texts. 6. Phraseological equivalence So far I have introduced the composition of the Paralela corpus and the search and exploration features of its search application. In the remaining sections of this paper, I will try to demonstrate that its query syntax is expressive enough and that its current size is sufficiently large to facilitate the investigation of subtle bilingual phenomena such as the idiomaticity of translation and the incidence of phraseological equivalence in English-Polish translations. An idiomatic translation is sometimes defined as one “which has the same meaning as the source language, but is expressed in the natural form of the receptor language” and in which “the meaning not the form is retained” (Larson, 1984:10; cf. Beekman, Callow, 1974). What makes a translation ‘natural’ is often language-specific and only indirectly compositional. Given that idioms are prototypical examples of such specificity, it is understandable that the adjective ‘idiomatic’ is used in this definition to describe this quality of translation. This type of translation idiomaticity can also be viewed as an aspect of dynamic equivalence (Nida, 1964) and it is based on a very general understanding of ‘idiomaticity’ according to which almost any ‘natural’ translation could be described as ‘idiomatic’. 5 5 Idiomaticity and formulaicity are often viewed as fundamentally important aspects of ‘nativelike selection’ (Pawley, Syder, 1983) and ‘language naturalness’ (Sinclair, 1984). Piotr Pęzik 76 Although such generalizations are useful in that they succinctly express commonly shared intuitions, it is also possible to define an idiomatic translation as one which is characterized by a significant presence of idiomatic expressions which directly correspond to source text phraseological units (PUs). In this view, idiomaticity is understood in a much more restricted sense with PUs as its formal exponents. Normally, translators who encounter lexical or terminological units in the source text may try to translate them into equally conventional target language units to the extent that such simple word-for-word equivalence is justifiable in a give case. Such equivalence becomes more problematic when a non-compositional PU has to be translated. For example, when a figurative idiom found in the source text has no literal equivalent in the target language, it may require a more ‘dynamic’ translation. Such an equivalent may take the form of a functionally similar figurative idiom which is based on a different metaphor or metonymy, a single word lexical item, or a compositional paraphrase. What makes this rather well-known issue interesting is that some idiomatic equivalents are less ‘dynamic’ (i.e. more conventionalized and predictable) than they may seem to be in the context of just one translation. The availability of large parallel corpora makes it possible to observe how conventional pairings of source and target language idioms and other types of phraseological units are regularly found in independent translations. To illustrate this point, let us consider the English idiom “to kill two birds with one stone”, which may be translated into Polish as “upiec dwie pieczenie przy jednym ogniu” (lit. “to cook two roasts over one fire”). Looking at a single instance of such a translation, we might be tempted to consider it as a case of dynamic equivalence in that the original idiom has no literal equivalent in Polish, and so the nearest functional equivalent has to be used to ensure a desired level of target text ‘idiomaticity’. The figurative meanings of the two expressions are very close and they can be used in similar registers. This translation may therefore work very well, unless the source text idiom is used in some humorous wordplay which takes advantage of its literal meaning. Let us see how the predictability of this equivalent can be validated against a large parallel corpus. In order to get a sample of naturally occurring Polish translations of the English idiom in question, we could run the following query in Paralela: (kill** bird** stone)=4 This query matches 50 contexts in which the words kill, bird and stone co-occur, with a maximum of four words in between in original English texts. The query may seem a little underspecified, but it is in fact optimized to match slight grammatical variants of the idiom without fetching too many false positives. Exploring phraseological equivalence with Paralela 77 Although it is difficult to give an exact figure due to the ‘borderline’ cases, about 36 occurrences of the English expression “to kill two birds with one stone” were translated as “upiec dwie pieczenie na jednym ogniu”. Some of them are shown in Table 6 below. # Example 1 How do we kill two birds with one stone? Jak upiec dwie pieczenie na jednym ogniu? 2 3 4 Source Bottoms up Owner knew he had bad tenants, wanted to kill two birds with one stone? Pretty Persuasion Właściciel wiedział, że ma złych lokatorów i postanowił upiec dwie pieczenie na jednym ogniu. I figured I could kill two birds with one stone. Dance with Somebody Zdałem sobie sprawę, że mogę upiec dwie pieczenie na jednym ogniu. Therefore we are in a very positive situation where we can kill two birds with one stone. Proceedings of Jesteśmy zatem w sytuacji, w której możemy upiec dwie pieczenie European Parliament na jednym ogniu. Table 6. A selection of predictable phraseological equivalents of the English idiom “to kill two birds with one stone” Given the regularity with which we find this pairing of idioms in corpora of English-Polish translations, it could be argued that the choice of the Polish equivalent is largely predictable and similar to the way simple lexical and terminological equivalents are selected in other contexts. Should such translations be described as ‘dynamic’, or rather, as highly conventionalized and thus, in a sense, more formal than dynamic? This may sound like a terminological question, but the conventionality of seemingly dynamic translations is an observation with very practical implications for translators. Needless to say, phraseological equivalents are not absolute or nearly as predictable as terminological equivalents in technical translation. For example, among the fifty translations of “kill two birds with one stone” there were three independent occurrences of the Polish idiomatic phrase “łapać dwie sroki za ogon” (lit. “to catch two magpies by the tail”)6, a partly formulaic paraphrase “zrobić dwie rzeczy za jednym zamachem” (“to do two things in one go”). There were also a few partly or entirely literal translations and some idiomatic mistranslations. It has to be noted, however, that most of these variants were found in amateur subtitle translations. Table 7 below shows some of these examples. 6 Incidently, this translation could be problematic. The Polish expression “łapać dwie|wiele sroki|srok za ogon” has a predominantly negative connotation of “trying to do too many things at once.” Piotr Pęzik 78 # 1 Example And kill two birds with one stone. Aha, zabić dwa ptaszki jednym kamieniem? 2 Thought I’d kill two birds with one stone, you know. Dwa grzyby w barszcz. 3 I guess I’ll kill two birds with one stone. Chyba upiekę dwa ptaki na jednym ogniu. Source El Bola Notting Hill Mr. Popper’s Penguins Table 7. Non-conventional phraseological equivalents The first translation is literal and difficult to justify as such. The phraseological status of the original expression is lost and the Polish translation is certainly not idiomatic. In the second example, an erroneous idiomatic equivalent is used: the Polish idiom “dwa grzyby w barszcz” (lit. “[to put] two mushrooms in the borscht”) is normally used to mean “an excess of something”. The third example is particularly interesting in that it shows how translators may deal with idiom-based word puns. The line “I guess I’ll kill two birds with one stone” comes from the script of Mr. Popper’s Penguins and it is intentionally ditropic, i.e. its generally figurative meaning is literal in this case. The translation is based on the conventional Polish equivalent of the original idiom, but it also does some justice to the literal meaning of the English original. By replacing the noun pieczenie (‘roasts’) with ptaki (‘birds’), the translator strikes a delicate balance between achieving phraseological equivalence and saving some of the original word play in the translation. Such a systematic parallel corpus-based analysis of the strategies applied by translators to deal with idiomatic expressions may help us generalize the notion of phraseological equivalence, which I try to define below. Phraseological equivalence (PE) can be defined as the tendency for translators to use a target language phraseological unit, such as an idiom, a restricted or open collocation as an equivalent of the corresponding source language phraseological unit. Although this tendency is rarely absolute, a low level of phraseological equivalence may result in an insufficient level of idiomaticity of the translation. This in turn may have two negative implications. Firstly, the readers of a non-idiomatic translation may have to invest a larger amount of cognitive effort in understanding it than the readers of the original. Secondly, a non-idiomatic translation may be significantly more ambiguous than the original text, whose meaning is constructed, to the extent that it is idiomatic, from highly conventionalized phraseological units. Furthermore, we can distinguish between local phraseological equivalence between PUs in a particular text and global phraseological equivalence across many different texts of the kind illustrated above, which can only be studied through parallel and reference corpora. Exploring phraseological equivalence with Paralela 79 Such corpora have to be sufficiently large to compensate for the fact, that many figurative and pure idioms are relatively rare (Moon, 2001). Although PE can be regarded as a special type of lexical equivalence, it requires separate consideration, due to the partial compositionality of many phraseological units. The basic difference between lexical and phraseological equivalence boils down to the following observation: when translators encounter an orthographic word, they are quite likely to consider using its institutionalized lexical or terminological equivalent. The non-compositionality of words is a basic fact of derivational morphology (cf. Haspelmath, Sims, 2010: 62). By contrast, combinations of words are more likely to be compositional and translators are more likely to fail to recognize their phraseological prefabrication. In other words, phraseological units are not always as easy to recognize as lexical words. While most idioms, proverbs and speech formulas are relatively easy to spot as such, the conventionalization of restricted and open collocations can be much more subtle. The former types of phraseological units are therefore more difficult to translate idiomatically. Compared with terminological equivalence, global PE is not usually a fixed one-to-one relation between lexical entities. It may be primarily a oneto-many, many-to-one or many-to-many relation between source and target PUs. For example, the abovementioned English idiom “to kill two birds with one stone” seems to have a Polish equivalent which is much more frequent than any of its alternatives. In many cases, local PE can be null, which means that source language phrasemes are translated as target language syntagmas (i.e. grammatically valid, spurious word combinations with no phraseological status) and vice versa. A high incidence of null PE in a text may result in a non-idiomatic translation. On the other hand, in some cases, null PE may be a conscious and well-justified choice. For example, a formally accurate idiomatic equivalent of a multiword unit may not yet exist in the target language: a regular Polish equivalent of the term “product placement”7 was only recently established (as “lokowanie produktu”) and the highly institutionalized English term “road rage” does not seem to have a stable equivalent in Polish. A quick Paralela query shows that it has a variety of similarly likely equivalents such as “agresja na drodze,” “gniew na drodze” or “furia drogowa”. Also, a context-dependent, humorous use of a ditropic idiom may require a hybrid equivalent of the kind illustrated above (cf. Table 7, example 3). Finally, the translator’s attempt to achieve a state of PE may be unsuccessful (cf. Table 7, example 2). In other words, the exact choice of the target language PU is just as important as the recognition of the source language phraseological unit. 7 Although “product placement” could be described as a technical term, it is also a ‘phraseological nomination’ (Gläser, 1998). 80 Piotr Pęzik The phenomenon of global PE is particularly subtle in the case of hundreds of thousands of restricted and open collocations which contribute to idiomaticity of the source text. Such word combinations are usually semantically compositional and they can easily be translated into compositional equivalents (cf. Pęzik, 2011, 2012). It takes a large parallel corpus to study the global PE of such items and to observe “the underlying rigidity of phraseology, despite a rich superficial variation” (Sinclair, 1991: 121). 7. Summary and future work Although currently Paralela is not a balanced corpus, it can already be shown to contain a sufficiently large sample of different text varieties to be useful in the analysis of certain equivalence phenomena. The query syntax of its search engine is particularly useful in investigating phraseological equivalence, a notion which I have defined and briefly illustrated in this paper with examples extracted from the Paralela corpus. Having developed a scalable search and storage architecture, in the future we will focus on extending the coverage of the corpus. This is particularly important in view of the fact that despite the high incidence of phraseological prefabrication, individual PUs can be too rare to be spotted as particularly recurrent in small corpora. Acknowledgments The work described in this paper has been financed as part of the investment in the CLARIN-PL research infrastructure funded by the Polish Ministry of Science and Higher Education. Apart from the author of this paper, the main developers of the Paralela core database and web application were Łukasz Dróżdż, Paweł Wilk and Paweł Kowalczyk. References Beekman, John, Callow, John (1974): Translating the Word of God. Grand Rapids, MI: Zondervan Publishing House. Dice, Lee R. (1945): Measures of the Amount of Ecologic Association Between Species. Ecology 26(3): 297-302. doi:10.2307/1932409. Gläser, Rosemarie (1998): The Stylistic Potential of Phraseological Units in the Light of Genre Analysis. In: Anthony Paul Cowie (ed.): Phraseology : Theory, Analysis, and Applications. Oxford: Oxford University Press, 124–43. Exploring phraseological equivalence with Paralela 81 Haspelmath, Martin, Sims, Andrea D. (2010): Understanding Morphology. 2nd Edition. Understanding Language Series. London: Hodder Education. Jassem, Krzysztof, Lipski, Jarosław (2008): A New Tool for the Bilingual Text Aligning at the Sentence Level. In: Proceedings of 16th International Conference on Intelligent Information Systems, 279–86. Larson, Mildred L. (1984): Meaning-Based Translation: A Guide to Cross-Language Equivalence. Lanham, MD: University Press of America. Moon, Rosamund (2001): Frequencies and Forms of Phrasal Lexemes in English. In: Anthony Paul Cowie (ed.) Phraseology : Theory, Analysis, and Applications. Oxford: Oxford University Press, 79–100. Nida, Eugene Albert (1964): Toward a Science of Translating: With Special Reference to Principles and Procedures Involved in Bible Translating. Leiden: Brill Archive. Pawley, Andrew, Syder, Frances Hodgetts (1983): Two Puzzles for Linguistic Theory: Nativelike Selection and Nativelike Fluency. In: Jack C. Richards, Richard W. Schmidt (eds.): Language and Communication. London: Longman, 191–225. Pęzik, Piotr. (2011): Providing Corpus Feedback for Translators with the PELCRA Search Engine for NKJP. In: Stanisław Góźdź-Roszkowski (ed.): Explorations across Languages and Corpora : PALC 2009. Łódź Studies in Linguistics. Frankfurt am Main/ New York: Peter Lang, 135–44. Pęzik, Piotr. (2012): NKJP w warsztacie tłumacza. In: Adam Przepiórkowski, Mirosław Bańko, Rafał Górski, Barbara Lewandowska-Tomaszczyk (eds.): Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 301–311. Pęzik, Piotr. (2014): Spokes – a Search and Exploration Service for Conversational Corpus Data. Paper presented at the CLARIN Annual Conference 2014, Soesterberg, The Netherlands, October 25. Sinclair, John (1984): Naturalness in Language. Ilha Do Desterro. A Journal of English Language, Literatures in English and Cultural Studies 5(11), 45–55. Sinclair, John (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press. Tiedemann, Jörg. (2009): News from OPUS – A Collection of Multilingual Parallel Corpora with Tools and Interfaces. Recent Advances in Natural Language Processing 5, 237–48. Marek Łaziński Uniwersytet Warszawski Magdalena Kuratczyk Uniwersytet Warszawski Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego The University of Warsaw Polish-Russian Parallel Corpus Abstract The Polish-Russian Parallel Corpus has been developed at the University of Warsaw (the Faculty of Polish Studies and the Institute of Russian Studies) in co-operation with the National Corpus of Polish and the Russian National Corpus. The corpus consists of Russian and Polish literary classics (90%), nonfiction books, legal texts (5%), religious texts (i.e. Bible translations; 4%) and contemporary press articles (1%). Great Russian realistic novels of the 19th century, together with modern Russian books which are most popular in Poland, made up a significant part of the corpus. We have also taken into account these works of Polish literature that are the most widely known in Russia. Looking for loci communes in the Russian and Polish cultures was an important, extra-linguistic aspect of the corpus project. Unfortunately, the novels by Dostoevsky or Tolstoy were translated into Polish only in the thirties and the copyright protection for the translations – 70 years since the author’s death – is still in force. Some of the translators’ heirs did not grant their permission to include the texts in the corpus. The annotation and search possibilities in the corpus result from co-operation with the national corpora. However, not all levels of annotation applied in the source corpora will be used in the parallel corpus. Two national corpora differ according to grammatical disambiguation of annotated word forms. In the National Corpus of Polish all texts are disambiguated, in the Russian National Corpus only some them have undergone this procedure. The search interface is based on the user-friendly interface of the Russian National Corpus. It allows formulating lexical and grammatical queries using the tags present in the tag sets of the two national corpora and is easy for users of both national corpora. In the second part of the paper some practical applications of the corpus in the linguistic research, translation practice and foreign language teaching have been shown. The first case is a Russian translation Marek Łaziński, Magdalena Kuratczyk 84 strategy of the Polish unspecified numeral kilkanaście ‘over a dozen’, the second – a Polish translation strategy of the Russian adjectives russkij and rossijskij ‘Russian’. Słowa kluczowe: korpus równoległy, język polski, język rosyjski, zastosowania praktyczne, leksykografia dwujęzyczna, analiza kontrastywna Keywords: parallel corpus, Polish, Russian, practical applications, bilingual lexicography, contrastive analysis 1. Wprowadzenie Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego (www.pol-ros.polon. uw.edu.pl) to reprezentatywny (ze względu na zróżnicowanie tekstów), anotowany morfosyntaktycznie i dezambiguowany (ujednoznaczniony morfologicznie) korpus równoległy opatrzony informacjami bibliograficznymi. Tak jak inne korpusy równoległe, i ten może być praktyczną pomocą dla tłumaczy, lingwistów, leksykografów, badaczy kultury i literatury. 2. Geneza projektu Korpus był pierwszym i do roku 2014 jedynym dostępnym publicznie oraz bezpłatnie korpusem równoległym dwóch języków. Obecnie jest więcej takich korpusów, m.in. polsko-angielski zbiór Parallela na stronie clarin.eu/pl. Pomysł stworzenia korpusu powstał w roku 2009 w trakcie prac nad Narodowym Korpusem Języka Polskiego (nkjp.pl). Zwrócili się z nim do polskich środowisk korpusowych lingwiści z Uniwersytetu Pedagogicznego w Ufie: Elena Slobodyan i Boris Orekhov w porozumieniu z innymi środowiskami korpusowymi w Rosji. Wkrótce po polskiej stronie złożono wniosek do MNiSW1, który uzyskał grant na realizację projektu NN104056638. Kierownikiem projektu polskiego został Marek Łaziński z Instytutu Języka Polskiego UW, ze strony Instytutu Rusycystyki projekt koordynowała Magdalena Kuratczyk, od początku w projekt była zaangażowana Natalia Godlewska, doktorantka w Instytucie Języka Polskiego UW. Ze strony rosyjskiej istotnej, a od roku 2012 decydującej pomocy w powstaniu korpusu udzielał zespół Narodowego Korpusu Języka Rosyjskiego z Dmitrijem Sičinavą i Svetlaną Minlos. Po polskiej stronie pomocą służył Instytut Podstaw Informatyki, który wcześniej był głównym wykonawcą Narodowego Korpusu Języka Polskiego. Istotna część tekstów literackich Korpusu Polsko -Rosyjskiego, była także w zestawie NKJP. W naszym projekcie wykorzystano 1 W roku 2011 agencją wykonawczą dla opisywanego projektu, tak jak dla większości grantów naukowych, stało się Narodowe Centrum Nauki. Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego 85 też tager IPIPAN TAKIPI, stosowany w pierwotnej wersji NKJP (obecna wersja NKJP jest znakowana tagerem Pantera). Założenia przyjęte na początku projektu zostały opisane w artykule (Łaziński et al. 2012), a zakończony projekt – w artykule (Łaziński, Kuratczyk, 2015)2. 3. Struktura korpusu Korpus liczy w całości około 30 milionów segmentów liczonych według tagera TAKIPI i większości polskich korpusów za segmenty uważa się nie tylko formy wyrazowe w rozumieniu tradycyjnej gramatyki, lecz także aglutynacyjne morfemy osobowo-liczbowe czasownika w (-em, -eś, -śmy, -ście, każdy morfem się lub by niezależnie od ich statusu słowotwórczego lub fleksyjnego). Połowa tekstów jest w wersji polskiej, połowa w rosyjskiej, z nieznaczną przewagą liczby słów rosyjskich. Jednak liczba polskich tekstów oryginalnych jest wyższa niż rosyjskich. Osiągnięcie planowanej na początku idealnej równowagi okazało się w toku zbierania tekstów niemożliwe. Ostatecznie mamy 50 procent oryginałów polskich, 33 procent oryginałów rosyjskich i pozostałe 17 procent oryginałów z trzeciego języka (w tym duży udział tekstów biblijnych, a także przekłady traktatów międzynarodowych). Projekt korpusu zakładał włączenie znaczącego udziału literatury pięknej, w tym klasyki dziewiętnastowiecznej, która nie podlega już ochronie majątkowych praw autorskich. Beletrystyka stanowi zresztą zdecydowaną większość licznych korpusów równoległych, np. ParaSol. W naszym korpusie teksty literatury pięknej stanowią 90 procent. Staraliśmy się jednak włączyć doń teksty prasowe: przekłady tekstów rosyjskich pochodzące z tygodnika „Forum” oraz przekłady tekstów polskich z portalu inosmi.ru. Choć te teksty to tylko jeden procent korpusu, są one niezastąpionym źródłem do badań najnowszego słownictwa wspólnostylowego i potocznego. Nasz korpus jest pod tym względem wyjątkiem na tle innych znacznie większych i bardziej znanych. Np. korpus równoległy InterCorp Czeskiego Korpusu Narodowego zawiera teksty prasowe z portali PressEurope (presseurop.eu) i Syndicate (projectsyndicate.org), jednak ich tematyka jest ograniczona do polityki Wspólnoty Europejskiej i spraw tak samo dobrze znanych w całej Europie (zresztą w trakcie tworzenia korpusu projekt PressEurope nie miał wersji rosyjskojęzycznej, Syndicate – polskojęzycznej). 2 Artykuł ten, napisany po rosyjsku pokrywa się treściowo w dużej części z niniejszym tekstem, który jest najpełniejszym opisem korpusu w języku polskim. 86 Marek Łaziński, Magdalena Kuratczyk Korpus zawiera aż 4% tekstów religijnych, w tym najczęściej cytowane w obu krajach przekłady Biblii: Biblia Tysiąclecia (1965-1971) oraz przekład synodalny (1867-1876). Choć w sieci jest wiele serwisów proponujących przekłady Biblii w wielu językach, np. biblia.net.pl, biblia.info.pl, bibleonline.ru, to w żadnym z nich nie znajdujemy jednocześnie tych dwóch przekładów, do wyjątków należą serwisy zawierające jakiekolwiek przekłady polskie i rosyjskie jednocześnie (biblegateway.com). Pozostałe 5 procent korpusu stanowią teksty prawne, literatura popularno-naukowa, wspomnieniowa i szerzej non-fiction. Około 66 procent tekstów dostępnych jest publicznie bez logowania. Pozostałe teksty, w sprawie których korespondencja z posiadaczami praw autorskich jeszcze się nie zakończyła, dostępne są lokalnie dla współpracowników projektu na Uniwersytecie Warszawskim3. W ramach współpracy z Narodowym Korpusem Języka Rosyjskiego w gromadzeniu części tekstów dla naszego korpusu oraz dla powstającego w Moskwie rosyjsko-polskiego korpusu porównawczego zostawiliśmy ochronę praw autorskich do tekstów rosyjskich (oryginałów i przekładów z polskiego) partnerom rosyjskim. Warto zauważyć, że problemy z uzyskaniem zgody posiadaczy praw autorskich dotyczyły nie tylko tekstów współczesnych, lecz nawet rosyjskiej klasyki XIX wieku. Powieści Dostojewskiego czy Tołstoja długo nie były tłumaczone na język polski, ponieważ, kiedy się ukazywały, urzędowym językiem nad Wisłą był rosyjski. Były przekładane już w wolnej Polsce, w latach dwudziestych i trzydziestych lub po wojnie, przez tłumaczy w większości młodych, którzy zmarli w latach siedemdziesiątych i później, więc ochrona ich praw majątkowych będzie trwać jeszcze długo (zgodnie z obowiązującą Ustawą o prawie autorskim – 70 lat po śmierci twórcy). 4. Aspekt kulturowy budowy korpusu Nasz projekt ma ambicje nie tylko dydaktyczne i naukowe, lecz i kulturowe. Staraliśmy się zgromadzić teksty autorów rosyjskich szczególnie popularnych w Polsce i ważnych dla polskiego obrazu Rosji i teksty polskich autorów popularnych w Rosji. Nie przypadkiem zaczęliśmy zbierać teksty rosyjskie Aleksandra Sołżenicyna w przekładzie Jerzego Pomianowskiego (on też – jako pierwszy spośród tłumaczy, do których się zwróciliśmy – wydał zgodę na wykorzystanie 3 Przy włączaniu tekstów do korpusu przyjęliśmy najbardziej restrykcyjną interpretację Ustawy o prawie autorskim. Zdaniem części prawników wykorzystanie dowolnych utworów nie wykraczające poza pokazywanie pojedynczych zdań lub akapitów w ogóle nie wymaga zezwolenia, jednak z drugiej strony, włączenie tekstu do korpusu w celu udostępnianie cytatów wiąże się z obróbką całości utworu. Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego 87 w korpusie dokonanego przez siebie przekładu)4. Spośród współczesnych pisarzy rosyjskich nie można było zapomnieć o Wiktorze Jerofiejewie, aktywnym uczestniku debat o stosunkach polsko-rosyjskich5. Przybliżeniu kultury rosyjskiej w Polsce mają służyć też kilkuzdaniowe opisy bibliograficzne rosyjskich tekstów literackich daleko wykraczające poza standardowe dane metryczek korpusów. Opisy przygotowali literaturoznawcy z Instytutu Rusycystyki UW. Rysunek 1. Strona główna Korpusu Polsko-Rosyjskiego Uniwersytetu Warszawskiego (www.pol-ros.polon.uw.edu.pl) Polscy uczestnicy projektu mogli także obejrzeć własną tradycję w zwierciadle kultury rosyjskiej. Pierwszym tekstem, o który poprosili rosyjscy partnerzy na początku projektu, był wolny od majątkowych praw autorskich Faraon Bolesława Prusa. Z naszego punku widzenia Faraon na pewno nie jest najważniejszą powieścią dziewiętnastowieczną. Powieść dawno znikła z listy szkolnych lektur obowiązkowych, czytają ją właściwie tylko studenci polonistyki, a większość Polaków zna jedynie film Jerzego Kawalerowicza. Wybór Faraona można 4 Spośród dzieł A. Sołżenicyna w naszym korpusie znalazły się: Archipelag GULAG (3 tomy) i Krąg Pierwszy (2 tomy) w przekładzie J. Pomianowskiego oraz Zagroda Matriony w tłumaczeniu A. Wołodźki. 5 Wśród tekstów W. Jerofiejewa przetłumaczonych na język polski w korpusie uwzględnione zostały: Rosyjska apokalipsa, Bóg X, Mężczyźni i Życie z idiotą. 88 Marek Łaziński, Magdalena Kuratczyk oczywiście tłumaczyć osobistym gustem rosyjskich partnerów polonistów, ale bardziej prawdopodobną przyczyną jest zadziwiająca popularność w Rosji tej powieści celnie opisującej uniwersalne mechanizmy władzy6. Wyszukiwarka Google znajduje w rosyjskojęzycznym Internecie 23000 stron z Faraonem Prusa i tylko 2000 z Lalką tego samego autora. Polskojęzyczne Google znajduje 173000 stron z Lalką i 51000 z Faraonem. 5. Tagowanie i dezambiguacja tekstu oraz program wyszukujący Teksty korpusu przechowywane są w relacyjnej bazie danych. Tabele bazy zawierają informacje o słowach, zdaniach i utworach, do których słowa należą, oraz o odpowiedniości zdań między językami w wyrównanym tekście. Język zapytań SQL umożliwia pytanie o konkretne formy tekstowe, leksemy lub kategorie gramatyczne. Każde słowo lub jednostka, o którą pytamy, jest identyfikowana w zdaniu i system znajduje odpowiednie zdanie w przekładzie. Do wyrównywania tekstów (alignment) korzystano z programu ABBY Aligner. Polskie teksty tagowano tagerem TAKIPI, rosyjskie – tagerem Mystem. Okienkowy interfejs wyszukiwania przypomina interfejs Narodowego Korpusu Języka Rosyjskiego (ruscorpora.ru). Do wyboru mamy wyszukiwanie słów tekstowych oraz wyszukiwanie morfologiczne. Interfejs wyszukiwania morfologicznego, w którym wystarczy wybrać odpowiednią kategorię gramatyczną z listy, jest łatwiejszy w obsłudze niż interfejs NKJP i jego sformalizowany język zapytań. Kategorie gramatyczne oraz części mowy w języku polskim i rosyjskim są podobne, ale nie identyczne. Tylko polszczyzna ma klasę bezosobników (form czasownikowych na -no/-to) i rodzaj męskoosobowy w liczbie mnogiej, tyko język rosyjski ma imiesłowy przymiotnikowe uprzednie czy krótkie formy przymiotników i imiesłowów biernych. W dodatku tager dla języka polskiego opiera się na fleksemach – klasach bardziej szczegółowych niż szkolne klasy części mowy. Wśród form tradycyjnego czasownika niedoświadczony użytkownik korpusu musi najpierw nauczyć się odpowiednich odrębnych tagów dla form czasu nieprzeszłego [fin], gerundiów [ger], predykatywów [pred] czy form typu winien [winien]. W wyszukiwaniu rosyjskim mamy zamiast klasy [fin] odpowiednio czasowniki w czasie teraźniejszym lub przyszłym, a pozostałych wymienionych klas nie ma w ogóle. 6 Wspomnijmy tu, nie nadając temu faktowi wielkiego znaczenia, że Faraon należał do ulubionych powieści Stalina. Wspomina o tym Józef Czapski (Na nieludzkiej ziemi), powołując się na rozmowy z I. Erenburgiem. Taką informację przynosi też hasło Faraon w rosyjskiej Wikipedii. Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego 89 Trudność stanowi wyszukiwanie polskich form czasu przeszłego, które w języku rosyjskim jest tak samo łatwe, jak pozostałych czasów. Tager języka polskiego interpretuje formy czasu przeszłego 1. i 2. osoby zawsze jako ciąg imiesłowu przeszłego [praet] oraz aglutynacyjnej końcówki osobowo-liczbowej, czyli aglutynantu [aglt]: -em, -eś, -śmy, -ście. Jak wiadomo, te końcówki są w polszczyźnie ruchome, a rosyjski nie ma ich wcale. Dlatego, aby znaleźć polską formę 1. os. lp. w czasie przeszłym, trzeba w NKJP szukać ciągu [pos=praet & person=prim][pos=aglt & person=prim], a w rosyjskim korpusie narodowym wystarczy wybrać czas przeszły (nieodmienny przez osoby). W naszym korpusie przyjęliśmy drugi sposób wyszukiwania, ale program musi i tak znaleźć odpowiednie ciągi tagów, przy czym końcówki niestojące bezpośrednio po temacie czasu przeszłego nie zostaną znalezione. Tagowanie morfosyntaktyczne NKJP skupia się na odmiennych częściach mowy. Wśród nieodmiennych rozróżnia się stosunkowo łatwe do wyodrębnienia według sąsiedztwa przyimki i spójniki oraz stojące przy czasownikach przysłówki. Tager rosyjski rozróżnia także partykuły. Tager języka polskiego dezambiguuje tekst, tzn. na podstawie testów statystycznych oraz sąsiedztwa wyrazów wybiera dla danej formy homonimicznej najbardziej prawdopodobną interpretację gramatyczną, np. dla ciągu znaków damy tager wybierze interpretację D. lp., M./B./W. lm. od rzeczownika dama albo 1 os. lm. cz. nieprzeszłego czasownika dać. Rosyjski tager nie dezambiguuje tekstów. W Rosyjskim Korpusie Narodowym dezambiguację przeprowadzono ręcznie dla niewielkiej części tekstów, w prezentowanym korpusie równoległym teksty nie były dezambiguowane. Dlatego zapytanie o polski leksem dama zwróci wśród wyników kontekst odciski palców obu dam, ale nie: Dam panu znać. Wyszukiwanie rosyjskiego leksemu дама da nie tylko обеих дам, ale i nadmiarowe Я вам дам знать. 6. Wyszukiwarki Korpus został wyposażony w trzy wyszukiwarki: 1. Wyszukiwanie słów – umożliwia szukanie dokładnych form tekstowych bądź fragmentów form. Np. zapytanie o postaci czyta daje dostęp wyłącznie do tekstów zawierających po stronie polskiej formy 3. osoby czasu teraźniejszego czasownika czytać. Marek Łaziński, Magdalena Kuratczyk 90 2. Wyszukiwanie łączne – umożliwia szukanie par tekstów, z których każdy spełnia określony warunek7. Gdy np. po stronie polskiej wpiszemy czytani.*, a po rosyjskiej – читать, otrzymamy dostęp do takich użyć polskiego gerundium czytanie, któremu w przekładach odpowiada (lub nie odpowiada, jeśli skorzystamy z okienka negacji) bezokolicznik читать. W pierwszym przypadku wśród 65 wyników otrzymamy m.in.: To już lepiej ogłosić, że odbędzie się czytanie sztuki. [Komediantka, Reymont W.] Nie dokończywszy czytania Benedykt rzucił list na biurko. [Nad Niemnem, Orzeszkowa E.] Święte Oficjum nie zabrania czytania. Ani posiadania ksiąg. [Narrenturm, Sapkowski A.] Тогда уж лучше объявить, что пьесу будут не играть, а читать. [Комедиантка, Реймонт В.] Бенедикт перестал читать и положил письмо на стол. [Над Неманом, Ожешко Э.] Святой Официум не запрещает читать книги и владеть ими. [Narrenturm, Сапковский А.] Tabela 1. Wyniki wyszukiwania łącznego W drugim przypadku (przy zanegowaniu rosyjskiego bezokolicznika) znajdziemy, np.: W połowie czytania zmarszczył się, zmiął papier w ręku. [Кról trędowaty, Kossak Zofia] Однако же дочитав до конца, поморщился и скомкал листок в руке. [Король-крестоносец, Коссак Зофья] Nic mną tak dotychczas nie wstrząsnęło, Ничто ранее меня так глубоко не изумjak czytanie przygód rozbitka na bezludnej ляло, как описания приключений Робинwyspie. [Biały Jaguar, Fiedler Arkady] зона на необитаемом острове. [Белый ягуар, Фидлер Аркады] Otóż wiadomo było, że pan dzięki temu, iż Ведь известно, что император обладал nie korzystał z umiejętności czytania ani феноменальной зрительной памятью. pisania, miał fenomenalnie rozwiniętą pamięć [Император, Капущинский Рышард] wzrokową. [Cesarz, Kapuściński Ryszard] Tabela 2. Wyniki wyszukiwania łącznego z warunkiem 3. Wyszukiwanie morfologiczne – pozwala dotrzeć do form zdefiniowanych pod względem gramatycznym. Można też szukać form dowolnych leksemów o zadanych parametrach, np. męskoosobowych mianownikowych form liczby mnogiej przymiotników w stopniu najwyższym. Znajdziemy wtedy m.in. najstarsi, najgorsi, najsprytniejsi, najbliżsi, najlepsi, najulubieńsi wraz z przekładami. Wyszukiwanie możliwe jest w całym zbiorze tekstów lub w podzbiorach podzielonych na gatunki (fakt, fikcja, teksty prasowe, teksty prawne), przy 7 To szczególnie przydatny w korpusach równoległych rodzaj wyszukiwarki, której brakuje w wielu tego typu projektach, nawet zakrojonych na dużą skalę, jak np. w podkorpusie równoległym Narodowego Korpusu Języka Rosyjskiego. Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego 91 czym w obrębie literatury pięknej w dwóch przedziałach czasowych: w dziełach napisanych przed rokiem 1945 lub po nim. Można też ograniczyć szukanie do języka oryginału. We wszystkich wyszukiwarkach można stosować wyrażenia regularne, np. kropkę i gwiazdkę: czyta. zamiast czytam, czytaj, czytać, czyta.* zamiast czytajcie, czytalibyście itd. 7. Przykłady zastosowań 7.1 Przykład pierwszy Korpus równoległy może służyć jako pomocne narzędzie między innymi w przekładzie, przy budowaniu nowych słowników (jak się okazuje nie tylko dwujęzycznych, ale również jednojęzycznych typu onomazjologicznego) oraz przy weryfikacji danych słownikowych (i ocenie jakości przekładów). Pokażmy te możliwości na konkretnym przykładzie. Zaimek kilkanaście nie ma w języku rosyjskim dokładnego ekwiwalentu. Trzy wielkie słowniki polsko-rosyjskie podsuwają odmienne rozwiązania przekładowe: более десяти (Hessen, Stypuła, 2004), десятка полтора (Wawrzyńczyk, red., 2005) i – znaczeniowo najmniej dokładne – несколько (Chwatow, Timoszuk, red., 2008). Sprawdźmy, jak ten problem przekładowy rozwiązują tłumacze-praktycy. Wyszukiwarka morfologiczna wydaje 627 różnych kontekstów użycia w polskich tekstach leksemu kilkanaście. Rozkład ekwiwalentów proponowanych w wymienionych słownikach przedstawia się następująco: zaledwie w 8 przypadkach kilkanaście przetłumaczone zostało za pomocą wyrażenia более десяти (1,28 % wszystkich kontekstów), w 34 przypadkach tłumacze wybrali wyrażenie десятка полтора (6,22 % kontekstów) i aż w 186 przypadkach zdecydowali się na najmniej dokładny ekwiwalent – несколько (29,66 %). W pozostałych 399 przypadkach tłumacze wykorzystali rozmaite inne wyrażenia z liczebnikami десять, пятнадцать i двадцать lub rzeczownikiem десяток, niekiedy z wykorzystaniem inwersji, będącej w ruszczyźnie sposobem wyrażania liczb przybliżonych. (por. zestawienie ekwiwalentów tekstowych, w którym w nawiasach w kolejności malejącej podana została liczba ich zastosowań, a wytłuszczonym drukiem zaznaczono ekwiwalenty słownikowe): 92 Marek Łaziński, Magdalena Kuratczyk Ekwiwalenty przekładowe zaimka kilkanaście w Polsko-Rosyjskim Korpusie UW более десяти, больше десяти десять (z możliwą inwersją), десять с лишним, десять-пятнадцать, десять-пятнадцать (z możliwą inwersją), десять и больше, больше чем десять, едва ли десять, десять, а то и двадцать, десять-двенадцать десяток, несколько десятков, десятка два, больше десятка, второй десяток, два десятка, с десяток, десятки, более десятка, десяток-другой, десяток с лишним, добрый десяток, около двух десятков, целые десятки, десяток с небольшим, десяток-два, какой-нибудь десяток, не меньше десятка, немногим больше десятка, около десятка, пара десятков, два-три десятка десятка полтора (z możliwą inwersją) Przykładów ogółem 12 26 % 1,91 4,15 133 21,22 48 7,66 27 4,31 пятнадцать (z możliwą inwersją), около пятнадцати, пятнадцать, пятнадцать-восемнадцать, пятнадцать-двадцать (z możliwą inwersją) двадцать (z możliwą inwersją), каких-нибудь двадцать, около двадцати, почти двадцать, хоть двадцать, что-то около двадцати, не менее двадцати, двадцать-тридцать Несколько Inne 41 6,54 186 69 29,66 11,00 Brak przekładu Razem 85 627 13,55 100% Tabela 3. Ekwiwalenty przekładowe zaimka kilkanaście w Polsko-Rosyjskim Korpusie UW Źródło: Opracowanie własne. Jak wynika z zestawienia, w 85 przypadkach tłumacze podjęli decyzję o opuszczeniu ekwiwalentu (w tabeli rubryka: Brak przekładu), natomiast w 69 rozstrzygnęli problem w sposób indywidualny, mniej lub bardziej udany (rubryka: Inne). Dość skrajnym przypadkiem nieporadności wydaje się tłumaczenie wyrażenia kilkanaście stóp wysokości na чуть ли не метр (czyli dosłownie: ‘bodaj metr’)8. Zebrane w korpusie wyrażenia mogą stać się podstawą opracowania słownika onomazjologicznego, w tym przypadku obejmującego środki wyrażania wybranych liczb przybliżonych. Na szczególną uwagę i uwzględnienie w przyszłych słownikach polsko -rosyjskich zasługują niektóre odpowiedniości przekładowe pozostające dotąd poza polem widzenia leksykografów. Chodzi mianowicie o połączenia rozważanego zaimka z liczebnikiem głównym, typu sto kilkanaście, dwieście kilkanaście 8 Por.: Z gąszczu kaktusów, dochodzących niekiedy do kilkunastu stóp wysokości, dolatywały mnie wesołe szczebioty i pogwizdy ptaków. [A. Fiedler: Biały Jaguar] – Из зарослей кактусов, достигавших порой чуть ли не метра в высоту, доносился веселый щебет птиц. [Белый ягуар]. Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego 93 itd., których przekład wymaga sięgnięcia po środki, jakich żaden z istniejących słowników nie proponuje. Spójrzmy na przykłady: Stu kilkunastu nas dołożyło ramienia. [Popioły, Żeromski S.] W parę tygodni czasu z naszego batalionu, który tysiąc miał ludzi, zostało nas stu kilkunastu. [Popioły, Żeromski S.] Zaledwie trzeciego dnia zebrała się koło niego wataha złożona z dwustu kilkunastu mołojców (...). [Ogniem i mieczem, Sienkiewicz H.] Сто с лишним человек помучились с ним. [Пепел, Жеромский С.] Через две недели из батальона, в котором было тысяча человек, осталось нас сто с небольшим. [Пепел, Жеромский С.] Только на третий день около него собралась ватага казаков из двухсот с небольшим человек (...). [Огнем и мечом, Сенкевич Г.] Tabela 4. Ekwiwalenty tłumaczeniowe zaimka kilkanaście w Polsko-Rosyjskim Korpusie UW Liczne tego rodzaju odpowiedniości upoważniają do zaproponowania następującej reguły przekładowej, którą można włączyć do słownika dwujęzycznego: sto (dwieście, trzysta itd.) kilkanaście сто (двести, триста и т.д.) с небольшим, сто (двести, триста и т.д.) с лишним. Jak pokazują materiały korpusu, zasługującym na uwagę chwytem tłumaczeniowym, dość często stosowanym przy przekładzie połączeń zaimka kilkanaście z rzeczownikami oznaczającymi jednostki czasu (sekunda, minuta, godzina, dzień, miesiąc), jest oddawanie ich w ruszczyźnie za pomocą konstrukcji z rzeczownikami oznaczającymi odpowiednio większe odcinki czasu (полминуты, четверть часа, сутки, неделя, год), por. np.: – Teraz Rühtgard był wyraźnie zablokowany i minęło kilkanaście sekund, zanim wyrzucił z siebie: – Jedynym zresztą, jakiego miałem i mam... [Widma w mieście, Krajewski M.] – У Рютгарда вдруг будто язык отнялся, прошло чуть ли не полминуты, прежде чем ему удалось договорить. – Единственный друг за всю мою жизнь... [Призраки Бреслау, Краевский M.] Po kilkunastu minutach przechadzki Побродив с четверть часа, Никодим Nikodem wybrał jedną z nich, znajdującą się выбрал одну из них, в густой тени, и сел. w gęstym cieniu, i usiadł. [Kariera Nikodema [Карьера Никодима Дызмы, Доленга-МоDyzmy, Dołęga-Mostowicz T.] стович Т.] Od kilkunastu godzin straciliśmy panowanie Почти сутки мы без руля. nad sterem. [Biały Jaguar, Fiedler A.] [Белый ягуар, Фидлер А.] W Minturnae, gdzie znów śpiewał publicznie, В Минтурнах, где он опять пел при zabawił dni kilkanaście, a nawet znów się публике, он провел недели две и даже стал namyślał, czy nie wrócić do Neapolu (…) подумывать о том, не вернуться ли в Неа[Quo Vadis. Powieść z czasów Nerona, полис (…) [Камо грядеши, Сенкевич Г.] Sienkiewicz H.] Kilkanaście miesięcy przynajmniej mieć Ребенку было уже, вероятно, больше года, musiało, skoro już mówiło i przedmioty так как он уже говорил и умел различать rozpoznawać mogło (...). предметы (...). [Хам, Ожешко Э.] [Cham, Orzeszkowa E.] Tabela 5. Ekwiwalenty tłumaczeniowe zaimka kilkanaście w Polsko-Rosyjskim Korpusie UW 94 Marek Łaziński, Magdalena Kuratczyk I w tym przypadku można się pokusić o zaproponowanie ogólniejszej reguły przekładowej. 7.2 Przykład drugi Wyszukajmy te zdania rosyjskie, w których występuje trudny do zrozumienia dla Polaków przymiotnik российский (zapisany za pomocą wyrażeń regularnych российск.*|Российск.*), ale takie, których odpowiedniki polskie nie zawierają przymiotnika rosyjski (rosyjs.*|Rosyjs.*). Są 32 takie zdania, czyli 15% ze 195 wszystkich wystąpień przymiotnika российский. Analogiczne porównanie dla przymiotnika русский bez odpowiednika rosyjski po stronie polskiej daje 650 wyników, czyli 37% z 1757 wszystkich wystąpień przymiotnika русский. Przymiotnik российский jest częściej niż русский zastępowany w polskim przekładzie przez przydawkę dopełniaczową Rosji (np. российское влияние – wpływy Rosji, российский премьер – premier Rosji), bywa też pozostawiany bez odpowiednika (np. „Польскую” часть захватили немцы, а после войны она вместе с другими трофеями была перевезена в Москву и теперь находится в Российском государственном военном архиве. [Коммерсантъ, 2011/35] – „Polską” część w czasie okupacji zagarnęli Niemcy, po II wojnie światowej została przewieziona do Moskwy i zdeponowana w Państwowym Archiwum Wojskowym. [Forum 2011/40]), ale w 85% procentach jest tłumaczony na neutralny przymiotnik rosyjski (np. Теперь важно дождаться реакции российских официальных лиц (…) [politcom.ru 29.07.2011] – Teraz czekamy na reakcję rosyjskich czynników oficjalnych (...) [Forum 2011/31]). Przymiotnik русский jest częściej tłumaczony inaczej niż rosyjski (w co trzecim użyciu), ponieważ w opisach rzeczywistości dawnej i w tekstach stylizowanych potocznie odpowiada mu polski przymiotnik ruski, ponadto w użyciu rzeczownikowym русский to po polsku Rosjanin. 8. Znaczenie korpusu i perspektywy jego rozwoju Korpus Polsko-Rosyjski UW jest efektem zamkniętego projektu badawczego, ale nie wyklucza to jego rozwoju i rozbudowy. Już w tej chwili spełnia on ważną funkcję w dydaktyce rusycystycznej w Polsce (np. Kuratczyk, 2013, 2014; Kuratczyk, 2015) oraz w badaniach naukowych (np. Łaziński, 2015). Ze względu na cechy szczególne korpusów równoległych, tj.: bogaty opis bibliograficzny tekstów literackich czy też udział tekstów prasowych o tematyce lokalnej, korpus mógłby stać się cennym składnikiem większego polskiego projektu korpusów równoległych lub nawet podstawą takiego projektu. Przyszłość korpusu zależy w pewnym stopniu od przyszłości zainteresowania językiem i kulturą rosyjską w Polsce. Jego twórcy mają nadzieję, że przyczynili się do zwiększenia tego zainteresowania. Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego 95 Literatura Chwatow, Sergiusz, Timoszuk, Mikołaj (red.) (2008): Wielki słownik rosyjsko-polski, polsko-rosyjski. Warszawa: REA. Hessen, Dymitr, Stypuła, Ryszard (2004): Wielki słownik polsko-rosyjski, tom 1-2. Warszawa: Wiedza Powszechna. Kuratczyk, Magdalena (2013): Polsko-rosyjskie korpusy równoległe i przykład ich wykorzystania w gramatyce konfrontatywnej. Komunikacja Specjalistyczna. Tropy lingwistyki 6, 44–62. Kuratczyk, Magdalena (2014): Параллельные польско-русские корпуса в обучении переводу юридического текста. Komunikacja Specjalistyczna. Languages for Special Purposes – a Tool of Modern Science 7, 111–128. Kuratczyk, Magdalena (2015): Параллельные корпуса с русским и польским языками и их использование в сопоставительной лингвистике и лингводидактике. Русский язык и литература в пространстве мировой культуры, Материалы XIII конгресса МАПРЯЛ в 15 томах, Гранада, Испания, 13-20 сентября 2015, Granada: Universidad de Granada, XI, 153–157. Łaziński, Marek, Kuratczyk, Magdalena (2015): Польско-русский параллельный корпус Варшавского университета и его использование в лингвистическом исследовании. W: Dorota Szumska, Krzysztof Ozga, (red.). Язык и метод. Русский язык на грани методологического срыва. Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, 95–103. Łaziński, Marek, Kuratczyk, Magdalena, Orekhov, Boris, Słobodjan, Elena (2012): The Polish-Russian Parallel Corpus and Its Application in the Linguistic Analysis. Prace Filologiczne LXIII, 209–218. Łaziński, Marek (2015): Функции инфинитива в польском и русском языках на фоне корпусов. W: Dorota Szumska, Krzysztof Ozga, (red.). Язык и метод. Русский язык на грани методологического срыва. Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, 157–168. Wawrzyńczyk, Jan (red.) (2005): Wielki słownik polsko-rosyjski. Warszawa: PWN. Andreas Meger Johannes Gutenberg-Universität Mainz Michał Woźniak Polska Akademia Nauk Ruprecht von Waldenfels University of California, Berkeley Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim i Niemiecko-Polskim Korpusem Równoległym How to create a parallel corpus “for all”? About the building of the Polish-German and German-Polish Parallel Corpus Abstract The article summarizes the Polish-German and German-Polish Parallel Corpus currently under development under the auspices of the University of Mainz, Germany. The corpus includes about 1 million tokens in texts in both translation directions and from various genres; at the moment mainly including press and fictional prose. In the future, it is planned to be expanded to other genres, e.g. legal documents and other specialized text types. The text is tagged, lemmatized and automatically sentence and word aligned using standard tools (UPlug, Hunalign). The article focuses on a new interface that was developed on the basis of the existing ParaVoz interface and published as open source. This new query interface aims to be “for all” in the sense that it includes a graphical query builder as well as it allows the user to directly input sophisticated CQP queries, thus providing both ease of use and access to the full possibilities of the CQP query language, a close relative of the query language used with the IPI PAN query interface to the NKJP. Besides being convenient, the interface has an educational aspect: inexperienced users can observe correct CQP queries being constructed on the fly reflecting the choices in the graphical interface, helping them to learn what is a straightforward, but also rather strict formal and technical query language. The interface thus flattens what is often a rather steep learning curve for users that are not used to such query languages, like many traditionally inclined linguists. The interface is available in German, Polish and English and implemented Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels 98 using AngularJS, a modern framework that affords smooth interaction and uncomplicated customization and servicing of the interface. Search facilities offer queries by lemma and grammatical tag, as well as the filtering of results on the basis of metadata, including, for example, a choice of the source language and different genres. The queries generated in this interface are then evaluated by an OpenCorpusWorkbench (CWB) backend, which is modified to output XML. The output is transformed to HTML using client-based XSLT. A difference to earlier versions of the interface is that word alignment is now routinely visualized: the equivalents of the word forms that were found by the query string in the first language are highlighted in the results in the second language. The article gives an in-depth description of the rationale and solutions taken, and concludes with an outlook on future developments. Słowa kluczowe: korpus równoległy, język polski, język niemiecki, przetwarzanie tekstu, ParaVoz, przyjazny interfejs Keywords: parallel corpus, Polish, German, text technology, ParaVoz, user-friendly interface 1. Wprowadzenie Sformułowanie „dla wszystkich” okaże się zapewne intrygujące dla niektórych czytelników naszego artykułu. Niemniej taki cel – stworzenie korpusu równoległego „dla wszystkich” – przyświecał i w dalszym ciągu przyświeca jego autorom. Korpusy równoległe to – jak pokazują von Waldenfels (2006, 2012), Čermák i Rosen (2012) oraz Łaziński (2014) – w porównaniu z korpusami jednojęzycznymi nowa i rzadsza forma korpusów językowych; są one przy tym o wiele mniejsze od korpusów jednojęzycznych. Dla języka polskiego i niemieckiego – jako pary językowej – brak do chwili obecnej korpusu równoległego, zawierającego teksty polskie wraz z ich niemieckimi tłumaczeniami i vice versa. Jedynym publicznie dostępnym korpusem równoległym, obejmującym między innymi takie teksty, jest wielojęzyczny korpus równoległy ParaSol (von Waldenfels, Meyer, 2006-2015, zob.: http://www.parasolcorpus.org/). Jednakże korpus ten, zawierający obecnie więcej niż 30 mln słów, składa się przede wszystkim z tekstów beletrystycznych, przy czym teksty polskie i niemieckie, a także ich odpowiednie tłumaczenia, stanowią raczej niewielką część całości. W dobie badań naukowych opierających się na danych korpusowych brak takiego narzędzia (niezbędnego do badań komparatystycznych, przekładoznawczych czy kulturoznawczych) dla obydwu tak dużych języków sąsiednich, budzi zdziwienie i jest boleśnie odczuwany w codziennej pracy translatorycznej Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... 99 i dydaktycznej1. W związku z tym wśród naukowców polskich i niemieckich powstała idea stworzenia równoległego korpusu polsko-niemieckiego i niemiecko-polskiego. Korpus ten powinien być przeznaczony „dla wszystkich”, przy czym nie chodzi tu wyłącznie o swobodny dostęp przez Internet, ale także o przystępność, prosty interfejs i łatwość użycia. Obecnie przeprowadzenie wyszukiwań w większości korpusów jedno-, dwu- i wielojęzycznych wymaga nie tylko znajomości gramatyki, lecz także umiejętności stosowania odpowiedniej (dość skomplikowanej) składni zapytania (por. niżej wyszukanie CQP), co stanowiło i stanowi barierę odstraszającą od używania korpusów przez niefachowców (np. studentów, tłumaczy itd.)2. Stworzenie prostego w użyciu interfejsu oraz małego korpusu próbnego (pilotażowego) umożliwił Fundusz Promocji Badań (niem. Inneruniversitäre Forschungsförderung) Uniwersytetu im. Jana Gutenberga w Moguncji (Niemcy), który w latach 2014-15 prace te finansował3. Korpus oraz interfejs są w chwili obecnej dostępne przez następującą stronę: http://www.fb06.uni-mainz.de/polnisch/331.php. 2. Struktura i forma anotacji Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego Utworzony na przełomie 2014/15 roku pilotażowy korpus próbny zawiera teksty polskie i niemieckie oraz ich tłumaczenia (ok. 1 mln słów tekstowych – po 500 tys. w części polsko-niemieckiej i niemiecko-polskiej, stan z lutego 2016 r.). Znajdują się w nim teksty z literatury polskiej i niemieckiej XIX i XX w. oraz z prasy XXI w. (kilka numerów polsko-niemieckiego czasopisma DIALOG). Korpus ten jest zalążkiem planowanego „dużego” korpusu równoległego dla obu języków (ok. 10 mln słów), składającego się przede wszystkim z pochodzących z ostatnich 250 lat tekstów z literatury pięknej, literatury faktu oraz z prasy. Tak duży przekrój czasowy pozwoli także na przeprowadzenie badań 1 Brak takiego instrumentu badawczego, służącego jako solidna korpusowa baza nie tylko do prac licencjackich czy magisterskich, lecz także jako pomoc w dydaktycznych zajęciach translatorycznych (tj. w zajęciach z tłumaczenia tekstów specjalistycznych i niespecjalistycznych na oba języki) potwierdza współautor artykułu zajmujący się uniwersytecką dydaktyką translatoryczną języków polskiego i niemieckiego na Wydziale Translatologii, Lingwistyki i Kulturoznawstwa w Germersheim (Uniwersytet w Moguncji). 2 Pierwszy krok w kierunku zlikwidowania tej przeszkody podjęli autorzy Polsko-Rosyjskiego i Rosyjsko-Polskiego Korpusu Równoległego, który powstał w latach 2010-12 na Uniwersytecie Warszawskim pod kierownictwem Marka Łazińskiego (zob.: http://pol-ros.polon.uw.edu.pl/ index.php?id=01&lang=pl). Nieco upraszczając, struktura interfejsu tego korpusu umożliwia wykonanie zapytania po prostu poprzez wpisanie szukanej formy wyrazowej lub jej sekwencji, albo – w wyszukiwaniu morfologicznym – wybór odpowiednich części mowy czy kategorii gramatycznych za pomocą rozwijanej listy, co bardzo ułatwia korzystanie z tego korpusu przez niefachowców (Łaziński, 2014: 203). 3 Nad stworzeniem interfejsu i pilotażowego korpusu próbnego pracowali Andreas Meger (Uniwersytet w Moguncji), Ruprecht von Waldenfels (IJP PAN), przy aspektach technicznych – Michał Woźniak (koncepcja i oprogramowanie interfejsu) oraz Dorota Sieroń (obróbka tekstów) (oboje IJP PAN). 100 Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels diachronicznych. Ponadto zaplanowany jest specjalistyczny podkorpus tekstów prawniczych (ok. 2 mln słów dla obu języków). Stworzenie „dużego” korpusu jest bilateralnym projektem Uniwersytetu im. Jana Gutenberga w Moguncji i Uniwersytetu Warszawskiego. Prace mają rozpocząć się w 2016/17 r. i być kierowane ze strony polskiej przez Marka Łazińskiego, a ze strony niemieckiej przez Andreasa Megera. Korpus pilotażowy (jak i zaplanowany „duży” korpus) jest wyrównany na poziomie zdań (sentence alignment) oraz anotowany morfosyntaktycznie za pomocą tagsetów dla języka polskiego (zgodnego z NKJP, zob.: http://nkjp. pl/poliqarp/help/ense2.html) i niemieckiego (zgodnego z STTS, tj. tagesetem Uniwersytetów w Stuttgarcie i Tybindze, zob.: http://www.cis.uni-muenchen. de/~schmid/tools/TreeTagger/). Poza tym został on wyrównany na poziomie słów (word alignment) – patrz też niżej: word alignment. Termin „wyrównanie” oznacza tu, że dla każdego segmentu (zdania lub wyrazu) w tekście wyjściowym korpus dysponuje informacją na temat jego odpowiednika w tekście docelowym. Jeśli chodzi o techniczne aspekty interfejsu polsko-niemieckiego korpusu równoległego, to bazuje on na pakiecie ParaVoz stworzonym w latach 2006-2014 przez Meyera, von Waldenfelsa i Zemana (zob.: https://bitbucket. org/rvwfels/paravoz) dla wielojęzycznego korpusu ParaSol (zob.: www.parasolcorpus.org). ParaVoz jest pakietem pozwalającym na stworzenie własnego korpusu równoległego w postaci serwisu internetowego. Składa się z trzech niezależnych modułów: bazy danych i oprogramowania służącego do komunikacji z nią, interfejsu graficznego i modułu prezentującego wyniki. Pierwszy moduł, będący „silnikiem” korpusu oparty jest na CWB (Corpus Workbench – zob.: http://cwb.sourceforge.net/) – zestawie narzędzi do tworzenia i odpytywania bazy danych zaprojektowanej z myślą o dużych korpusach tekstowych. Korpusową bazę danych można przeszukiwać za pomocą komend w języku zapytań CQP. Wyniki zapytania przedstawiane są w wygodnym formacie XML. Standard CWB pozwala na definiowanie własnych atrybutów charakteryzujących wyrazy, co wykorzystane zostało przy wyrównywaniu korpusu na poziomie wyrazów (word alignment) – każdy wyraz posiada atrybut zawierający jego tłumaczenie (lub tłumaczenia) w innym języku. Interfejs graficzny, dostępny za pomocą przeglądarki internetowej stworzony został w oparciu o współczesne technologie sieciowe (m.in. AngularJS). Moduł prezentujący wyniki działa na bazie języka XSLT, który umożliwia przekształcenia i modyfikacje dokumentów w formacie XML. Komunikację między modułami zapewniają skrypty PHP – por. rysunek 1. Niżej przedstawiamy najważniejsze możliwości wykorzystania naszego korpusu oraz funkcje jego interfejsu. Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... 101 Rysunek 1. ParaVoz – schemat działania 3. Interfejs Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego i jego możliwości Jak już wspominaliśmy, jednym z głównych założeń Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego jest prostota jego użycia, co w dużym stopniu zależy od odpowiedniego interfejsu. Drugim aspektem jest jak największa „elastyczność” interfejsu, umożliwiająca kombinację różnych form zapytania dla każdego z języków w jednej kwerendzie. Rysunek 2. Interfejs Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego Interfejs korpusu stworzony został w trzech wersjach językowych (polskiej, niemieckiej i angielskiej). Składa się z dwóch głównych okien na zapytanie dla języka polskiego i niemieckiego, w których znajdują się pola umożliwiające wpisywanie prostych lub złożonych zapytań oraz/lub ograniczanie wyników dla obu języków. W obrębie każdego okna znajdują się cztery sekcje pozwalające na (1) ustawienie języków, (2) wyszukiwanie podstawowe, (3) wybór metadanych oraz (4) wyszukiwanie CQP. Na dole interfejsu użytkownik znajdzie dodatkową funkcję, umożliwiającą mu eksport wyników w formie XML – por. rysunek 2. Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels 102 3.1 Ustawienie języków W części Zapytanie dla języka polskiego / niemieckiego każdy z języków może być ustawiony jako język główny i/lub język oryginału, tj. język wyjściowy. Pierwsza opcja (język główny) ustawia wybrany język w interfejsie oraz w okienku z wynikami po lewej stronie – por. niżej rysunek 10. Dla języka głównego można określać metadane – tj. ustawić filtrowanie wyników według którejś z metadanych, a także wybrać te, które powinny być pokazywane w wynikach – por. niżej rysunek 9. Funkcje język główny i język oryginału mogą być łączone, co oznacza, że język główny niekoniecznie musi być językiem oryginału. Dla badań przekładoznawczych kwestia ustalenia języka wyjściowego i docelowego jest jednak kluczowa, co skłoniło autorów do umieszczenia tej funkcji na tak widocznym miejscu. 3.2 Wyszukiwanie podstawowe W Wyszukiwaniu podstawowym użytkownik ma wybór między trzema opcjami: może swoją kwerendę przeprowadzić za pomocą wpisania (a) tokena, tj. słowa tekstowego, (b) leksemu, tj. szukać wszystkich form danego leksemu, lub (c) tagów gramatycznych w formie skrótów pochodzących z użytych tagsetów. Przy wpisywaniu wybranych możliwości w pierwszych dwóch przypadkach pojawia się lista, zawierająca odpowiednio formy słów i leksemy pasujące do wpisywanego tekstu i występujące w zasobach korpusu – por. rysunki 3a. i 3b. Powyższe możliwości można łączyć, przy czym zapytanie takie zostanie zinterpretowane jako koniunkcja warunków (muszą być spełnione wszystkie warunki określone w poszczególnych polach). Rysunek 3a. Przykład wyszukiwania podstawowego według tokena Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... 103 Rysunek 3b. Przykład wyszukiwania podstawowego według leksemu Funkcje „początek” / „końcówka” w formie przycisku wyboru (checkbox) umożliwiają szukanie quasi-morfologiczne, ponieważ po wpisaniu początku lub końcówki tokena odpowiadających prefiksowi lub sufiksowi otrzymujemy wszystkie słowa mające dany początek lub daną końcówkę. Zapytanie to może być łączone z wpisaniem tagu gramatycznego (zgodnie z odpowiednim formatem) w odpowiednim polu, co uściśla wyniki: uwzględniane są jedynie słowa zaczynające lub kończące się na wpisany ciąg znaków i należące do danej kategorii gramatycznej – por. rysunek 4a. z kwerendą dla końcówki -łszy jako jednej z dwóch możliwych morfemów imiesłowu przysłówkowego uprzedniego.4 Wpisując końcówkę -szy i łącząc ją z tagiem pant:perf (dla aspektu dokonanego czasowników)5 w rubryce „tag gramatyczny” otrzymujemy wyniki wszystkich znajdujących się w korpusie zdań z imiesłowem przysłówkowym uprzednim, kończących się na morfemy ‑łszy lub ‑wszy – por. rysunek 4b. 4 Kwerendy pokazane na rysunkach 4.-7. przeprowadzone są dla języka polskiego lub niemieckiego jako wyjściowego, tj. języka oryginału; tym samym – ze względu na czytelność – pokazywane są wyniki wyłącznie ze strony danego języka wyjściowego. Większość zapytań uwidoczniających funkcje naszego korpusu wykonaliśmy – ze względu na język i większość czytelników niniejszego artykułu – dla języka polskiego. 5 Funkcja ta nie jest jeszcze w pełnym stopniu udoskonalona, ponieważ tagi gramatyczne muszą być wpisywane ręcznie według określonego formatu (różnego dla różnych języków). Planujemy dodanie funkcji wyświetlającej użytkownikowi dostępne tagi, umożliwiając mu wybór spośród dostępnych na liście. 104 Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels Rysunek 4a. Przykład wyszukiwania quasi-morfologicznego i jego wyniki Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... Rysunek 4b. Przykład wyszukiwania quasi-morfologicznego łączonego z tagiem gramatycznym oraz jego wyniki 105 106 Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels Funkcja ta jest dość ważna także dla zapytań dla języka niemieckiego, gdyż umożliwia wyszukanie np. drugich członów złożeń (compositum) – por. rysunek 5. z kwerendą za niemieckimi złożeniami z drugim członem ‑angst (strach). Rysunek 5. Przykład wyszukiwania i jego wyniki dla języka niemieckiego Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... 107 Dodatkowo istnieje możliwość wyszukiwania sekwencji dwóch lub więcej słów oraz złożonych ciągów słów w jednej kwerendzie. Naciśnięcie przycisku „+” dodaje kolejny wiersz zawierający pola wyszukiwania (token, lemat, tagi gramatyczne), które odnoszą się do kolejnego wyrazu. Wszystkie omówione wyżej możliwości wyszukiwania można dowolnie łączyć, co oczywiście prowadzi do różnych wyników – por. przykłady na rysunkach 6a.‑6e.: Rysunek 6a. Kombinacja wyszukiwania leksemu list i tokena (słowa) biskupów 108 Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels Rysunek 6b. Kombinacja wyszukiwania leksemu list i początku tokena (słowa) biskup- Rysunek 6c. Wyniki wyszukiwania podstawowego dla leksemu list i tokena biskupów / początku tokena biskup- Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... Rysunek 6d. kombinacja wyszukiwania tokena (słowa) list i leksemu biskup 109 110 Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels Rysunek 6e. kombinacja wyszukiwania początku tokena (słowa) list i leksemu biskup Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... 111 Rysunek 7a. wyniki wyszukiwania leksemów list i biskup przy ustaleniu od 0 do 5 tokenów (słów) między szukanymi leksemami 112 Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels Rysunek 7b. wyniki wyszukiwania leksemów list i biskup przy ustaleniu od 0 do 10 tokenów (słów) między szukanymi leksemami Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... 113 W kwerendzie ustawić można także ilość możliwych tokenów znajdujących się między dwoma słowami, leksemami lub tagami gramatycznymi (domyślnie dystans jest zerowy – poszukiwane wyrazy powinny następować po sobie) – por. rysunki 7a. i 7b. Funkcja ta umożliwia m.in. także wyszukiwanie związków frazeologicznych mających różne formy, jak np. mieć dobre / niezłe / celne oko. Dotychczasowe przykłady pokazywały wyłącznie możliwości szukania po stronie języka głównego. Możliwe jest jednak formułowanie bardziej złożonych kwerend przez dodatkowe wpisanie (części) słów, leksemów lub skrótów tagów (= kategorii gramatycznych) po stronie języka docelowego, gdzie znajdują się te same funkcje i rubryki jak na polu języka głównego z wyjątkiem metadanych. Określenie zapytania w tej sekcji umożliwia wyszukanie np. wszystkich par zdań, w których po stronie polskiej znajduje się słowo pies, a po stronie niemieckiej jego ekwiwalent Hund. Ważną funkcją jest także możliwość wykluczenia z wyników słów, leksemów, kategorii gramatycznych wpisanych w języku docelowym poprzez zaznaczenie w polu wyboru komendy wyklucz (znajdź wszystko oprócz zapytania). Funkcja ta umożliwia wyszukanie wszystkich par zdań, w których występuje słowo pies i którym odpowiadają niemieckie niezawierające słowa Hund – por. rysunek 8. W sekcji Wyszukiwanie podstawowe dla języka głównego została umieszczona także funkcja filtrowania gatunków tekstów, które zawarte są w metadanych tekstów korpusu. W metadanych uwzględniono 4 gatunki tekstów: teksty prasowe (prasa), teksty literatury pięknej (literatura), teksty faktu (fakt) oraz teksty prawnicze (prawo) – por. np. rysunek 8. Filtrowanie wyników zapytania według gatunków tekstów umożliwi dość wygodne przeprowadzenie kwerend np. w tekstach prawniczych. 3.3 Metadane Sekcja zawierająca metadane jest standardowo ukryta – por. rysunki 2.‑8. Po rozwinięciu ukazują się kategorie metadanych zawarte w tekstach znajdujących się w korpusie: autor (author), tytuł (title), tytuł oryginału (original title), tłumacz (translator), gatunek tekstu (type), rok publikacji (publication year), rok tłumaczenia (translation year) oraz język oryginału, tj. wyjściowy (source language) – por. niżej rysunek 9. Ta część interfejsu ma dwojakie przeznaczenie. Po pierwsze umożliwia ograniczenie wyników do takich, które spełniają odpowiednie kryteria: np. są dziełem konkretnego autora albo opublikowane zostały w odpowiednim roku. Odpowiednie informacje użytkownik może wpisać w pole tekstowe interesującej go kategorii metadanych. Po drugie istnieje możliwość określenia, które z kategorii będą pokazywane w wynikach wyszukiwania – służy temu pole wyboru znajdujące się obok pola tekstowego. Domyślnie Rysunek 8. Przykład wyszukiwania łączonego w dwóch językach 114 Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... 115 Rysunek 9. Przykład wyszukiwania podstawowego według metadanych pokazywane są kategorie autor, tytuł i rok publikacji. Przykładowo, jeśli użytkownik chce ograniczyć wyniki do dzieł autorstwa Sienkiewicza, powinien w rubryce author wpisać Henryk Sienkiewicz. Jeżeli chciałby również poznać rok tłumaczenia jego dzieł na język niemiecki, może zaznaczyć pole wyboru w kategorii translation year. 3.4 Wyszukiwanie CQP Dane dotyczące wyszukiwania, które zostały wprowadzone poprzez pola wyszukiwania w sekcji Wyszukiwanie podstawowe, metadane lub dostępne przyciski, są „przekładane” na komendę w języku CQP. Komenda ta tworzona jest na bieżąco i odzwierciedla natychmiast wszystkie zmiany w zapytaniu. Jest także widoczna w polu tekstowym w sekcji Wyszukiwanie CQP – patrz wyżej rysunki 4.‑8. Doświadczony użytkownik, znający składnię CQP może na własną rękę modyfikować znajdujące się tu zapytanie (lub po prostu tworzyć zapytanie wyłącznie za pomocą tego pola), co ułatwia szybkie korekty i daje dostęp do bardziej zaawansowanych funkcji (jak np. ograniczanie liczby wyników). 116 Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels Istotną zaletą tego pola jest możliwość nauki „przez przykład”. Użytkownik, tworząc zapytanie w sekcji Wyszukiwanie podstawowe, ma możliwość obserwacji procesu tworzenia komendy CQP, dzięki czemu przyswaja sobie podstawy języka zapytań i oswaja się z jego składnią. 4. Wyrównanie na poziomie słów (word alignment) Jak już wyżej wspominaliśmy, Polsko-Niemiecki i Niemiecko-Polski Korpus Równoległy wyrównany jest nie tylko na poziomie zdań (sentence alignment) lecz także słów (word alignment), co pozwala na wyróżnienie kolorem poszukiwanego słowa i jego odpowiednika w języku docelowym w wynikach kwerendy – por. rysunek 10. Aczkolwiek wyniki word alignment nie są bezbłędne, funkcja ta została udostępniona w korpusie. Należy ona do stałych ustawień interfejsu i jej aktywizacja jest widoczna jako znak „@” w wyszukiwaniu CQP – por. rysunki wyżej. Funkcję tę można wyłączyć, kasując ręcznie znak „@“. 5. Desiderata, czyli czego (jeszcze) brak... Fakt, że interfejs i pilotażowy korpus próbny udostępnione zostały w Internecie nie oznacza, że prace nad nimi się zakończyły. Aczkolwiek forma i funkcje interfejsu są w dużym stopniu gotowe, brak jeszcze kilku funkcji. Pożądana byłaby możliwość wyboru formy prezentacji wyników. Oprócz możliwego eksportu wyników w formacie XML brak jeszcze funkcji umożliwiającej prezentację wyników sortowanych chronologicznie lub alfabetycznie (według nazwiska autora) albo według różnych gatunków tekstów zawartych w korpusie. Jako twórcy interfejsu i pilotażowego Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego jesteśmy świadomi faktu, że największa część pracy jeszcze przed nami – najlepsze założenia i pomysły niewiele dają, jeśli korpus nie opiera się na wystarczającej ilości dobrze dobranych tekstów. Jednocześnie wszyscy autorzy korpusów wiedzą, że akwizycja tekstów to jedna z najtrudniejszych części pracy nad korpusem, zwłaszcza jeśli mamy do czynienia z tekstami i ich tłumaczeniami chronionymi prawem autorskim, gdzie każdy tekst musi być „zdobywany podwójnie”. Mamy jednak nadzieję, że opisana idea stworzenia korpusu równoległego przeznaczonego w różnych – wyżej opisanych – aspektach „dla wszystkich” znajdzie więcej zwolenników. Pozytywnym tego sygnałem są prace nad – obecnie jeszcze niedostępnym w Internecie – korpusem polsko-włoskim oraz tworzenie na Wydziale Lingwistyki Stosowanej Uniwersytetu Warszawskiego polsko-szwedzkiego i szwedzko-polskiego korpusu równoległego, wzorującego się na tych samych zasadach co korpus polsko-niemiecki. Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim... Rysunek 10. Przykład zrównoleglenia na poziomie słów 117 Literatura Čermák, František, Rosen, Aleksandr (2012): The Case of Intercorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13(3), 411–427. Łaziński, Marek (2014): Praktyczny przewodnik po korpusach równoległych. Wiadomości wstępne. Korpus ParaSol i Korpus Polsko-rosyjski UW. W: Milena Hebal-Jezierska (red.): Praktyczny przewodnik po korpusach języków słowiańskich, Warszawa: Wydział Polonistyki Uniwersytetu Warszawskiego, 198–206. von Waldenfels, Ruprecht (2006): Compiling a parallel corpus of slavic languages. Text strategies, tools and the question of lemmatization in alignment. W: Bernhard Brehmer, Vladislava Ždanova, Rafał Zimny (red.): Beiträge der Europäischen Slavistischen Linguistik (POLYSLAV) 9. München: Kubon & Sagner, 123–138. von Waldenfels, Ruprecht (2012): ParaSol: Introduction to a Slavic Parallel Corpus. Prace Filologiczne LXIII, 293–301. Danuta Roszko Polska Akademia Nauk Roman Roszko Polska Akademia Nauk Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej z zakresu modalności możliwościowej i kwantyfikacji zakresowej Polish-Lithuanian parallel corpora: Elements of the semantic annotation related to hypothetical and imperceptive modalities and scope quantification. Abstract The authors present two Polish-Lithuanian parallel corpora: (1) experimental EKorpPL-LT and (2) KorpPL-LT_CLARIN. EKorpPL-LT is the first extended bilingual Polish-Lithuanian corpus whose resources have been divided into two subcorpora: parallel and comparable. The parallel subcorpus is widely applied in contrastive studies carried out at the Institute of Slavic Studies, Polish Academy of Sciences by the Corpus Linguistics and Semantics Team. Parallel EKorpPL-LT contains various texts being mutual translations between these two languages. KorpPL-LT_CLARIN is based on vast fragments of translations of fiction writings and specialist texts. It is created within the framework of the Polish scientific consortium being a section of the pan-European research infrastructure called CLARIN. For both corpora, basic applications established by their authors are presented. Next, the authors portray the archaic nature of the Lithuanian language, which is of benefit to the structure of multilingual corpora. For this purpose the basic assumptions of semantic categories such as (a) definiteness/indefiniteness, (b) modality (b1) hypothetical and (b2) imperceptive are described. Next, under the distinguished categories and on the basis of the Lithuanian language distinctive features, the possibility to extend the description of the Polish corpora resources is discussed. The authors present some examples of a new semantic annotation (developed by Violetta Koseska and Roman Roszko – for scope quantification and Danuta Roszko and Roman Roszko – for modality). The authors distinguish the following three semantic units: Danuta Roszko, Roman Roszko 120 • A neutral degree (I1) and an enhanced degree (I2) of imperceptiveness, • A degree of the lowest probability (H1), particular degrees of growing probability (H2–H5) and a degree of the highest probability (H6) of hypothetical modality, • Uniqueness, existentiality (E1), real existentiality, habitual universality and real universality (categories of scope quantification). The authors assume that the conservative nature of the Lithuanian language, manifesting itself in (i) the stability of forms, (ii) relations between the form and its function, (iii) narrowed specialization of forms, much more advanced than in the Polish language, not only allows to extend the description of the resources, but also considerably affects the development of linguistics and all applied sciences based on language (such as the process of teaching the language, traditional and machine translation etc.). Słowa kluczowe: korpus równoległy, język polski, język litewski, anotacja semantyczna, automatyzacja przekładu Keywords: parallel corpus, Polish, Lithuanian, semantic annotation, automation of translation / machine translation. 1. Dwa polsko-litewskie korpusy równoległe Polsko-litewskie zasoby tekstowe są częścią wielu korpusów wielojęzycznych (np. Emea, InterCorp, KDE4, Opus, ParaSol i in.). Jednak w tym artykule zamierzamy zwrócić uwagę na dwa korpusy, które zaplanowano z myślą o konkretnych zastosowaniach. Pierwszy z nich to eksperymentalny korpus polsko-litewski (dalej EKorpPL-LT). Drugi z nich to polsko-litewski korpus równoległy (dalej KorpPL-LT_CLARIN), powstający w ramach zadań polskiego konsorcjum naukowego, będącego częścią ogólnoeuropejskiej infrastruktury badawczej CLARIN. 1.1 Eksperymentalny korpus polsko-litewski EKorpPL-LT Korpus EKorpPL-LT był intensywnie rozwijany w latach 2010–2012. Inicjatorami i głównymi wykonawcami tego korpusu są autorzy tego artykułu. Kiedy jednak ci sami autorzy przystąpili do prac nad nowym korpusem KorpPL-LT_ CLARIN, rozwój EKorpPL-LT został wstrzymany. Jednak w krótkim czasie okazało się, że rozwijanie korpusu eksperymentalnego jest uzasadnione i celowe. Zadecydowały o tym dwa – jak się później okazało – wzajemnie wykluczające się czynniki. Pierwszy z nich był związany z przeświadczeniem, że nowy korpus KorpPL-LT_CLARIN – jako „spadkobierca” korpusu eksperymentalnego – będzie doskonalszym narzędziem w ręku językoznawcy i tłumacza. Drugi zaś Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej... 121 czynnik, to przyjęte w korpusie KorpPL-LT_CLARIN założenie włączenia do zasobów korpusowych tylko tekstów licencjonowanych, które spowodowało istotne ograniczenia liczby potencjalnych do zamieszczenia w korpusie tekstów. Uzyskanie licencji na włączenie tekstu (nawet jego fragmentu) do korpusu jest zadaniem trudnym do spełnienia. Dlatego w roku 2014 wznowiono prace nad EKorpPL-LT. Obecne parametry korpusu to: 2 006 021 słowoform tekstów beletrystycznych i 14 210 323 słowoform współczesnych tekstów specjalistycznych, będących w dużej mierze tłumaczeniami wzajemnymi (tj. z języka polskiego na litewski lub odwrotnie). Szczególną uwagę w doborze materiału skupiono na tekstach specjalistycznych. Zadbano, by w EKorpPL-LT znalazły się reprezentatywne dla poszczególnych dziedzin teksty, charakteryzujące się poprawną stylistyką i terminologią w obu wersjach językowych (por. tabela 1.) z przykładami tekstów, które nie spełniły wymagań autorów EKorpPL-LT. Przykład tekstu w języku polskim litewskim Zawartość frazy stałej NMR Kietos frazės NMR skaičius 20 st. C 20–28% 20ºC 20–28% Przyczyna odrzucenia tekstu Obcy skrótowiec NMR (por. ang. nuclear magnetic resonance) w obu językach dot. spektroskopii magnetycznego rezonansu jądrowego. Zapis polski 20 st. C zamiast 20ºC. Wymagane jest oprzyrząReikia turėti laboratorinius Obce skrótowce w tekście poldowanie laboratoryjne do bandomosios medžiagos ir skim (GLC, MS i NMR). analizy chemicznej substancji transformavimo produktų Brak gramatycznego badanej i produktów przeanalizės prietaisus (pvz., dujų i kontekstowego powiązania mian (np.: chromatografia ir skysčių chromatografijos w tekście polskim fragmentu gazowo-cieczowa (GLC), (DSC), masių spektroskopijos w nawiasach (np.: chromatospektroskopia masowa (MS), (MS), magnetinio branduografia gazowo-cieczowa (GLC), magnetyczny rezonans lių rezonanso (MBR) ir t. t. spektroskopia masowa (MS), jądrowy (NMR) itp.), włącza- įrangą), atitinkamas aptikimo magnetyczny rezonans jądrowy jąc w to układy do wykrywa- sistemas žymėtosioms arba (NMR) itp.) z poprzedzającym nia substancji chemicznych nežymėtosioms medžiago kontekstem. znakowanych i nieznakowagoms analizuoti. Brak formy urządzenia w teknych radioizotopami. ście polskim w przytoczonym wyżej fragmencie w nawiasach. Tabela 1. Wyjątki z tekstów, które nie zostały włączone do zasobów korpusowych EKorpPL-LT ze względów formalnych Dziedziny najlepiej reprezentowane w korpusie EKorpPL-LT to: przemysł energetyczny, stoczniowy, budowlany, spożywczy, chemiczny, farmaceutyczny, naftowy, biotechnologiczny, metalurgiczny, bankowość, rachunkowość, bezpieczeństwo i higiena pracy, ochrona środowiska, medycyna, prawo i sądownictwo, ustawodawstwo unijne, urządzenia elektrotechniczne (użytku domowego Danuta Roszko, Roman Roszko 122 i przemysłowe), komunikacja w ruchu lądowym i powietrznym, wykaz działalności i towarów. Jak można zauważyć, uwaga twórców EKorpPL-LT skupia się na tekstach zawierających najnowszą terminologię, która nie została uwzględniona w żadnym polsko-litewskim słowniku drukowanym czy elektronicznym. W związku z tym oczywisty staje się cel powstania tego korpusu, mianowicie budowa pamięci tłumaczeniowych1 (por. tabela 2.) oraz jego wykorzystanie w pracach nad planowanym w Instytucie Slawistyki PAN wielojęzycznym słownikiem nowej generacji. Litera Termin polski Termin litewski B badania dodatkowe kiti bandymai badania makroskopowe makroskopinis tyrimas badania radiograficzne radiografinis bandymas badania wizualne apžiūrimoji kontrolė blacha plokštė próba łamania laužimo bandymas próba rozciągania tempimo bandymas próba zginania lenkimo bandymas P Tabela 2. Wyciąg z pamięci tłumaczeniowej. Terminy z zakresu spawalnictwa (fragmenty) 1.2 Polsko-litewski korpus równoległy KorpPL-LT_CLARIN2 Ten korpus, o zaplanowanej na rok 2016 objętości przekraczającej sześć milionów słowoform, bazuje na obszernych fragmentach licencjonowanych utworów beletrystycznych, różnorodnych tekstach specjalistycznych, w tym pochodzących z domeny publicznej. KorpPL-LT_CLARIN wpisuje się w standardy obowiązujące w lingwistyce korpusowej. Zaplanowano ręczne naniesienie eksperymentalnej anotacji semantycznej (dotyczącej kwantyfikacji zakresowej na poziomie fraz nominalnej i werbalnej) w tekstach ciągłych do łącznej objętości 4 000 zdań. Szerzej na temat stosowanej w KorpPL-LT_CLARIN anotacji semantycznej (por. Koseska-Toszewa, 2013; Roszko, D., Roszko, R., 2013; 1 Autorzy zawodowo zajmują się tłumaczeniami. W pracy translatorskiej kierują się zasadą konsekwentnego stosowania adekwatnej i spójnej terminologii oraz unikania ponownego tłumaczenia identycznych lub podobnych fragmentów. W tym celu tworzą pamięci tłumaczeniowe oraz stosują oprogramowanie wspomagające tłumaczenie. 2 KorpPL-LT_CLARIN powstaje w ramach zadań polskiego konsorcjum naukowego, będącego częścią ogólnoeuropejskiej infrastruktury badawczej CLARIN (nr projektu 131241). Liderem konsorcjum jest Politechnika Wrocławska (kierownik – Maciej Piasecki). KorpPL-LT_CLARIN jest zadaniem włączonym do modułu 9, realizowanym przez Zespół Lingwistyki Korpusowej i Semantyki Instytutu Slawistyki PAN (kierownik Zespołu i koordynator ze strony IS PAN – Violetta Koseska-Toszewa, główni wykonawcy: Danuta Roszko i Roman Roszko). Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej... 123 Koseska, Roszko, 2015). Docelowym odbiorcą tego korpusu są przedstawiciele szeroko pojętych nauk humanistycznych. 2. Zachowawczy charakter języka litewskiego i wynikające z tego faktu korzyści, mogące mieć zastosowanie w rozbudowie samych korpusów oraz w doskonaleniu algorytmów przekładu maszynowego Jak dotąd, oczywiste dla bałtystów i indoeuropeistów cechy języka litewskiego nie zostały dostrzeżone jako potencjalne źródło sprzyjające (a) automatyzacji prac nad budową wielojęzycznych korpusów oraz (b) identyfikacji znaczeń doskonale odzwierciedlonych na płaszczyźnie formalnej. Aby umożliwić zrozumienie zachowawczego charakteru języka litewskiego, omówmy prostą polsko -litewską parę odpowiedników: syn – sūnus ‘syn’. Zachowawczy charakter języka litewskiego pozwala w sposób prosty wyprowadzić nawet ze współczesnej litewskiej formy sūnus postać prasłowiańską i późniejszą polską syn. W slawistyce oczywiste jest przewartościowanie długiego ie. ū w prasłowiańskie y, które bez zmian jest obserwowane we współczesnej polskiej formie syn. Następnie, powodowana prawem sylab otwartych (inaczej prawem wzrastającej dźwięczności) fleksja mianownikowa -s została zredukowana (utracona), zaś wygłosowe krótkie u uległo zmianie w jer (ъ), który – będąc w absolutnym wygłosie – również uległ zanikowi. Cały proces można przedstawić w ciągu: *sūnus → *sūnu → synъ → syn. Dla formy dopełniaczowej można przedstawić następujący proces: *sūnaus → *sūnau → synu → syna, gdzie ponadto stwierdzamy dobrze w literaturze opisany proces monoftongizacji dyftongu *au do u, a następnie zmianę fleksji dopełniaczowej u (pod wpływem odmiany na a krótkie) do postaci a. Tym razem nieco rozbudujmy wyjściową parę do postaci słodki syn – saldus sūnus ‘słodki syn’. W tym wypadku dochodzą kolejne zmiany, które doprowadziły nie tylko do utraty pierwotnej postaci w wyniku zmian fonetycznych, lecz również utajniły inne procesy, takie jak dodanie elementu -k-3 (por. również bułg. сладък, ros. сладкий), czy rozbudowę o kolejny element tym razem pochodzenia zaimkowego *-jis, który całkowicie zlany z rdzeniem przyczynił się do ukształtowania zupełnie nowej odmiany przymiotników w języku polskim. Dawne znaczenie wnoszone przez kontynuant *-jis zostało zupełnie zatarte we współczesnej polszczyźnie4. Przedstawiona zatem wyżej para ekwiwalentów słodki syn – saldus sūnus powinna (tylko z formalnego punktu widzenia) przybrać następującą postać: słodki syn – saldusis sūnus, gdzie w formie 3 Przypuszcza się, że wzbogacanie form o element -k- w językach słowiańskich było zabiegiem czysto formalnym, mającym rozróżnić przymiotniki i rzeczowniki, por. chociażby współczesną postać niem. süß bez -k-, a także inną analogiczną polsko-litewską odpowiedniość: gorzki – kartus. 4 Por. archaiczne polskie postacie zdrów (a zdrowy), rad (a rady) i in., w których nie stwierdza się kontynuantu dawnego *-jis. 124 Danuta Roszko, Roman Roszko litewskiej wyraźnie obserwujemy element -jis, por. saldus+jis → saldusis. Na płaszczyźnie znaczeniowej litewskie saldusis w opozycji do saldus jest wykładnikiem znaczeń kwantyfikacyjnych jednostkowości (‘ten słodki …’) i ogólności zwyczajowej ‘zazwyczaj każdy słodki …’, por. analogiczne zjawisko w językach rodzajnikowych oraz zaobserwowane w nich funkcje tzw. rodzajnika określonego (Karolak, 2001). Przedstawione w wielkim skrócie polsko-litewskie odpowiedniości dokumentują znaczne zmiany form polskich leksemów. Jak można zauważyć chociażby w formie syn, ulega zanikowi dawna fleksja (np. mianownikowa -s), także tematyczne -u. Natomiast w formie słodki odnotowujemy istotne w naszych rozważaniach zlanie się form (zatarcie granic między morfemami). Dawne *-jis zostało wkomponowane w postać poprzedzającej formy. Pierwotne znaczenie wnoszone przez *-jis zostało utracone i faktycznie stało się wyznacznikiem odmiany przymiotnikowej. Zatem uproszczenia i zmiany w strukturze formalnej polskich leksemów (w tym przede wszystkim rozmycie granic między morfemami), doprowadzające do zachwiania stabilności wnoszonych przez poszczególne morfemy znaczeń, prowadzą do utraty bezpośredniego powiązania morfemu/formantu ze znaczeniem oraz umacniania się struktur nieprzejrzystych formalnie. Zacieranie granic między morfemami (również gramatycznymi) narusza prostą odpowiedniość formy i jej znaczenia – tym samym ten proces prowadzi do zahamowania, zaniku pewnych znaczeń oraz wykształcenia nowych, jak można zaobserwować, nie zawsze konsekwentnego w całym paradygmacie, por. chociażby polską kategorię deprecjacji ograniczoną do wybranych leksemów rzeczownikowych oraz form przypadkowych. Formy litewskie w odróżnieniu od polskich są stabilne. Wyniki analiz kategorii semantycznych w języku litewskim, (por. Roszko, R., 1993, 2004; Roszko, D., 2006, 2015) ujawniają również inną cechę języka litewskiego – wraz z zachowaniem pierwotnej struktury formalnej wyrazu zostaje zachowana łączność (w tym stabilność) między poszczególnymi formantami a ich znaczeniem. Tę właśnie cechę współczesnej litewszczyzny zamierzamy wykorzystać w identyfikacji nieujawnionych na płaszczyźnie formalnej polszczyzny znaczeń i włączenie takim sposobem ustalonych znaczeń do opisu, definiowanego tu jako anotacja semantyczna. Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej... 125 3. Przykłady anotowanych struktur semantycznych 3. 1 Kwantyfikacja zakresowa – semantyczna kategoria określoności-nieokreśloności Jest to kategoria zdaniowa (tj. dotyczy zarówno frazy nominalnej jak i werbalnej) z wyróżnioną opozycją jednostkowości: niejednostkowości. Określoność odpowiada treściom jednostkowości (z podziałem na jednostkowość elementu i zbioru), natomiast nieokreśloność – niejednostkowości, obejmującej znaczenia egzystencjalności (ograniczonej i właściwej) i ogólności (zwyczajowej/ ograniczonej i właściwej), (por. Koseska-Toszewa, 1982; Косеска-Тошева, Гаргов, 1990; Roszko, R., 2004; Roszko, D., 2015). W definicji trzech podstawowych pojęć wykorzystano powszechnie znane znaczenia kwantyfikatorów logicznych (kwantyfikatora szczegółowego i ogólnego) oraz jota-operatora. W opisie wykładników tej kategorii posłużono się również pojęciem niedopowiedzenia kwantyfikacyjnego, zauważonym przez Ajdukiewicza (1965). Szczegóły dotyczące semantycznej kategorii określoności-nieokreśloności oraz opis jej wykładników (leksykalnych, morfologicznych i składniowych) zarówno we frazie nominalnej jak i werbalnej w językach polskim i litewskim (por. Roszko, R., 2004; Roszko, D., 2015). Nie jest naszym celem szczegółowe referowanie poszczególnych znaczeń kwantyfikacyjnych. Zamierzamy jednak ukazać przydatność języka litewskiego w procesie automatyzacji nanoszenia anotacji semantycznej, w szczególności w ujednoznacznianiu wieloznacznych polskich wykładników. Podkreślmy, niedopowiedzenie kwantyfikacyjne jest bardzo rozpowszechnione w języku polskim, dlatego odwołanie się do przejrzystych formalnie litewskich jednoznacznych wykładników znaczeń kwantyfikacyjnych okazuje się bardzo pomocne nie tylko w opisie samego języka polskiego, lecz również w procesie tworzenia algorytmów na potrzeby przekładu maszynowego. Analiza danych korpusowych (EKorpPL-LT) ujawnia między innymi taką polsko-litewską zależność: polskim zaimkom z cząstką -ś odpowiadają litewskie zaimki albo z cząstką kaž- albo z cząstką nors, por.: Pol. Lit. Ale potrzebne są jakieś na to świadectwa … Bet juk reikia kokių nors įrodymų … Pol. Lit. Bezdomnemu przydarzyło się coś, co można porównać jedynie do paraliżu. Benamį ištiko kažkas panašaus į paralyžių. Szczegółowa analiza płaszczyzny semantycznej tego typu zdań dostarcza następujących wniosków. Polskim zaimkom z cząstką -ś użytym w znaczeniu egzystencjalnym właściwym odpowiadają litewskie zaimki z cząstką kaž-. Danuta Roszko, Roman Roszko 126 Natomiast polskim zaimkom z cząstką -ś użytym w znaczeniu ogólnym zwyczajowym/ograniczonym odpowiadają litewskie zaimki z cząstką nors5. Zaobserwowany i przytoczony wyżej fakt pozwala zautomatyzować opis semantyczny wieloznacznych jednostek (tj. jednostek o niedopowiedzianej kwantyfikacji) we wszystkich wielojęzycznych korpusach, w których jednym z języków jest właśnie język litewski. Warto w tym miejscu przytoczyć przykład na możliwość wykorzystania litewskich jednoznacznych wykładników kwantyfikacji zakresowej również w grupie werbalnej w ujednoznacznianiu polskich odpowiedników, por.: Pol. Lit. Od wczesnego rana świeciły jego siwiejące włosy i niebie- skie oczy. Tad nuo ankstyvo ryto šviesdavo jo žilstantys plaukai ir mėlynos akys. Zawarta w powyższym zdaniu polskim forma werbalna świeciły jest wieloznaczna. Jednak w oparciu o litewską formę šviesdavo, z charakterystycznym sufiksem -dav-, jesteśmy w stanie jednoznacznie określić typ kwantyfikacji i znaczenie. Mianowicie – kwantyfikacja ogólna i znaczenie ogólne zwyczajowe. Oczywiście niekiedy w polskim tekście znaczenia ogólne zwyczajowe zostają wyeksponowane, por.: Pol.– Mówił bywało: „Krysiu, poczekaj tylko! Jak wukonomem mnie zrobią, ożenię się z tobą.” Lit.– Sakydavo: „Ule, palūkėk tiktai! Kai padės mane urėdu, vestuves kelsiva!“. 3.2 Modalność możliwościowa Cechą charakterystyczną zdań modalnych możliwościowych jest obecność funktora możliwości. Poniżej zostaną przedstawione dwa typy modalności możliwościowej: hipotetyczna i imperceptywna. Typowym wykładnikiem znaczeń obu kategorii w języku polskim są leksemy. W języku litewskim obok leksemów występują również regularne wykładniki morfologiczne (formy tzw. trybu modus relativus). Obecność tychże powoduje, że w tekście litewskim można jednoznacznie określić granice między tekstem nacechowanym modalnie a tekstem nienacechowanym, por.: Pol. Lit. Podobno przyjechał z rodziną pod wieczór. Spotkał się z burmistrzem nad morzem. Tas su šeima atvažiavęs vakare. Jis susitikęs su meru prie jūros. 5 Szerzej o poszczególnych znaczeniach kwantyfikacyjnych (por. Roszko, D., 2015). Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej... 127 W polskim tekście leksem podobno – wykładnik znaczeń imperceptywnych – pojawia się tylko w zdaniu pierwszym. W litewskim wariancie tekstu nacechowanie imperceptywne jest obecne w obu zdaniach. Dlatego już sam ten fakt można wykorzystać do wzbogacenia opisu polskich jednostek. W danym wypadku można polskiej formie spotkał się przypisać wartość imperceptywną. Być może dla przeciętnego użytkownika języka polskiego będzie to niewiele wnosząca informacja, jednak kiedy trzeba to polskie zdanie przetłumaczyć na język bułgarski, wówczas informacja ta będzie niezwykle przydatna w wyborze tzw. formy nieświadka w języku bułgarskim. 3.2.1 Modalność hipotetyczna Jest to kategoria zdaniowa służąca wyrażeniu subiektywnego stosunku nadawcy do wypowiadanych przez siebie sądów (Maldžieva, 2003). Maldžieva (2003), podobnie D. Roszko (2015), wyróżnia 6 poziomów stopnia prawdopodobieństwa. Szerzej o samej kategorii (por. Maldžieva, 2003) oraz o wykładnikach w językach polskich i litewskich (por. Roszko, D., 2015). Przyjrzyjmy się poniższym zdaniom: Pol.– Musiałeś go gdzieś zostawić – rzekł Kubuś Puchatek. – Ktoś musiał mi go zabrać – powiedział Kłapouchy. – I jak tu mieć dla nich serce? – dodał po dłuższej chwili milczenia. Lit.– Būsi ją kur nors palikęs, tarė Pūkuotukas. – Kas nors bus pasiėmęs, – pasakė Nulėpausis. – Va kokie, – pridūrė ilgokai patylėjęs. Polskim wieloznacznym konstrukcjom musi + bezokolicznik (musiałeś zostawić, musiał zabrać) odpowiadają jednoznaczne litewskie konstrukcje morfologiczne, służące wyrażeniu znaczeń hipotetycznych (būsi palikęs, bus pasiėmęs). Zatem, tak jak w wypadku znaczeń kwantyfikacji zakresowej, również i tu można zastosować projekcję znaczeń hipotetycznych odczytywanych z jednoznacznych litewskich wykładników na wieloznaczne polskie ekwiwalenty. Warto również w wyżej przytoczonych zdaniach zwrócić uwagę na formy zaimkowe i przysłówkowe: wieloznaczne pol. gdzieś, ktoś i jednoznaczne lit. kur nors, kas nors (por. wyżej p. 3.1.). Z przedstawionej przez D. Roszko (2015: 246) analizy zasobów korpusowych wynika również, że choć liczba leksykalnych wykładników hipotetyczności okazała się zdecydowanie wyższa w języku polskim niż w języku Danuta Roszko, Roman Roszko 128 litewskim6, to jednak różnorodność ich użycia w tekście zdecydowanie przemawia na korzyść języka litewskiego. O ile w wypadku języka polskiego można mówić o wyraźnie dominujących wykładnikach-przedstawicielach swoich grup (por. pol. chyba obejmujące 95% użyć wszystkich wykładników w grupie H4, pol. na pewno z 78% użyć w ramach grupy H6 czy pol. może z 49% użyć w ramach grupy H5), o tyle w języku litewskim – już nie. Litewski wykładnik o najwyższej częstotliwości użycia w ramach swojej grupy charakteryzuje wielkość 35% (lit. gal, grupa H5), kolejne zaś to już 17% (lit. žinoma, również należący do grupy H5) i 14% (lit. tikriausiai, grupa H6). 3.2.2 Modalność imperceptywna Jest to kategoria zdaniowa służąca wyrażeniu subiektywnego stosunku aktualnego nadawcy do powtórnie wypowiadanych treści, (por. Korytkowska, 1978; Korytkowska, Roszko, R., 1997). Korytkowska, D. Roszko oraz R. Roszko wyróżniają 2 poziomy stopnia prawdopodobieństwa (neutralny i wzmocniony), (por. Korytkowska, Roszko, R., 1997; Roszko, R., 1993; Roszko, D., 2015). Szerzej o samej kategorii (por. Korytkowska, Roszko, R., 1997) oraz o wykładnikach w językach polskim i litewskim (por. Roszko, R., 1993; Roszko, D., 2015). O tym, że do wyrażenia treści imperceptywnych dochodzi zdecydowanie rzadziej w języku polskim niż w litewskim świadczą chociażby dysproporcje w użyciu polskich i litewskich leksemów-wykładników imperceptywności zarejestrowane w EKorpPL-LT, por.: Pol. Lit. Kiedy – przestraszony sztuczkami Korowiowa, który ukazał mu kota, trzymającego na widelcu marynowany grzyb – stracił przytomność w mieszkaniu wdowy po jubilerze, leżał tam, dopóki Korowiow, natrząsając się zeń, nie wcisnął mu na głowę wojłokowego kapelusza i nie wysłał go na moskiewskie lotnisko, uprzednio zasugerowawszy oczekującym tam na Stiopę przedstawicielom wydziału śledczego, że Stiopa wysiądzie z samolotu, który przyleciał z Sewastopola. Apalpęs juvelyro našlės bute, kur buvo išgąsdintas Korovjovo triuko su katinu, pasimovusiu ant šakutės marinuotą grybą, jis pragulėjo tame bute tol, kol Korovjovas tyčiodamasis užmaukšlino jam ant galvos veltinę skrybėlę ir nudangino jį į Maskvos aerouostą, pirma dar įteigęs Stiopą sutinkantiems kriminalinės paieškos atstovams, kad Stiopa neva išlipęs iš lėktuvo, atskridusio iš Sevastopolio. W litewskim wariancie obok wykładnika leksykalnego neva pojawia się wykładnik morfologiczny išlipęs. W polskim tekście nie ma żadnego wykładnika 6 Polskich 88 do 72 litewskich. W podanych liczbach uwzględniono tylko te wykładniki, które zarejestrowano przynajmniej dziesięciokrotnie. Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej... 129 wskazującego na treści imperceptywne. Te treści, jak widać, pozostają niewyrażone w języku polskim. Z analizy odrzuconych tekstów z EKorpPL-LT wynika, że przeciętny polski tłumacz języka litewskiego oddałby litewskie …kad Stiopa neva išlipęs iš lėktuvo… polskim *…że podobno Stiopa wysiądzie z samolotu…, natomiast tłumacząc polskie …że Stiopa wysiądzie z samolotu… – litewskim … kad Stiopa išlips iš lėktuvo… W obu wypadkach stwierdza się podążanie tłumacza za formą oraz brak refleksji nad semantyczną strukturą zdania. W pierwszym wypadku pod wpływem podwojonego wykładnika znaczeń imperceptywnych w języku litewskim, te zostałyby „przemycone” do języka polskiego. W drugim (odwrotnym) wypadku – znaczenia imperceptywne zostałyby „wyrugowane” z treści zdania litewskiego. Podobny proces „typowych” przekładów między językami polskim i bułgarskim (w którym istnieje morfologiczny wykładnik znaczeń modalności imperceptywnej) stwierdzają M. Korytkowska i R. Roszko (Koseska, Korytkowska, Roszko, 2007). Analiza ekwiwalentnych zdań polskich i litewskich (zawierających tylko morfologiczny wykładnik imperceptywności) ujawnia kolejną zależność. Jest nią brak jakiegokolwiek wykładnika imperceptywności w języku polskim, jeśli w zdaniu litewskim zostaje zastosowany morfologiczny wykładnik niewzmocnionych znaczeń imperceptywnych, por.: Pol. Uderzenie było tak mocne, że pojazd dosłownie wjechał pod ciężarówkę. Lit.Smūgis buvęs toks stiprus, kad automobilis tiesiogine pra sme palindo po sunkvežimiu. Litewskie buvęs – to morfologiczny wykładnik znaczeń imperceptywnych. Z kolei, gdy w języku litewskim zostaje zastosowany wykładnik wzmocnionych znaczeń imperceptywnych, to wówczas w języku polskim stwierdza się użycie imperceptywnego wykładnika leksykalnego, ewentualnie leksykalnego sprzężonego z wieloznaczną konstrukcją paramorfologiczną ma + bezokolicznik, por.: Pol. Lit. Jan powiedział, jakoby brat miał się zatrzymać u ciotki. Jonas pranešė, kad tasai esąs apsigyvenęs pas tetą. Anotacja semantyczna w wypadku wieloznacznych polskich wykładników okazuje się ułatwiona, gdy zestawimy konkretne odpowiadające sobie zdania polskie i litewskie, por.: Pol. Lit. oraz Miał przyjechać. Jis turėjo atvažiuoti. Danuta Roszko, Roman Roszko 130 Pol. Miał przyjechać. Lit.Jis atvažiavęs. Dla pierwszej pary zdań, w oparciu o postać litewską, stwierdza się brak znaczeń imperceptywnych, tym samym wieloznaczna polska konstrukcja ma + bezokolicznik nie jest w danym wypadku wykładnikiem znaczeń imperceptywnych. Natomiast w parze drugiej litewski jednoznaczny morfologiczny wykładnik niewzmocnionych znaczeń imperceptywnych atvažiavęs wskazuje na imperceptywne nacechowanie polskiej konstrukcji ma + bezokolicznik 4. Podsumowanie Zachowawczy charakter języka litewskiego przyczynia się do przejrzystości struktur formalnych oraz powiązań między formą a jej funkcją. W języku polskim (szerzej słowiańskim) wprowadzony na pewnym etapie rozwoju języka element funkcjonalny nierzadko w wyniku zmian fonetycznych zaciera swą postać, ta zaś po latach zostaje uwolniona od pierwotnego znaczenia nierzadko nim dojdzie do pełnego jego (znaczenia) zgramatykalizowania. Zachodzące więc w językach słowiańskich zmiany fonetyczne, w tym także w języku polskim, sprawiają, że pewne wartości semantyczne nie są ujawnione na poziomie formalnym, por. pol. Niech minister się schowa. i dwa możliwe warianty litewskie: Tegul ministras (r.m.) nesilygina. i Tegul ministrė (r.ż.) nesilygina., w których zauważamy rozróżnienie osób płci żeńskiej i męskiej. Podobne „niedoskonałości” polszczyzny można wskazać na przykładzie form deminutatywnych. W wyniku ograniczeń formalnych pewne polskie formy imienne nie posiadają form deminutatywnych, lub jeśli je tworzą, to z pewnością nie są one stylistycznie neutralne, por. pol. Polska i *--- oraz lit. Lietuva `Litwa’ i Lietuvėlė (zdrobnienie od Lietuva ‘Litwa’). Takie przykłady można mnożyć, por. jeszcze jeden – litewskie auti i polskie już dzisiaj raczej sporadyczne obuwać, w którym w odniesieniu do litewskiej formy obserwujemy zarówno proces perfektywizacji i wtórnej imperfektywizacji. O odpowiedniku fonetycznym litewskiego dyftongu au pisaliśmy w punkcie 2. – jest nim w językach słowiańskich u. Zatem prosty odpowiednik lit. auti w języku polskim mógłby mieć nadal postać *uć, przybrał jednak postać niewyobrażalnie złożoną ob-u-wa-ć. Kwantyfikacja zakresowa jest istotnym elementem semantycznej struktury zdania. Dlatego w obliczu charakterystycznego dla języka polskiego niedopowiedzenia kwantyfikacyjnego zestawienie tekstów polskich z litewskimi pozwala tę wieloznaczność usunąć. Podobny efekt ujednoznacznienia form polskich można osiągnąć w zakresie modalności możliwościowej, zwłaszcza przedstawionej tu imperceptywności. Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej... 131 Prezentowana tu idea polegająca na automatyzacji opisu funkcji polskich form w oparciu o jednoznaczne litewskie wykładniki z zakresu kwantyfikacji zakresowej czy modalności możliwościowej jest w naszym rozumieniu jedynie wstępem do przyszłego nieuniknionego procesu łączenia nadal rozproszonych zasobów korpusowych do postaci korpusów wielojęzycznych, w których przedstawiona tu w przykładach anotacja znaczeń (anotacja opisująca nie morfologiczne parametry formy, lecz jej aktualne funkcje wynikające z użycia) może zostać zastosowana z pożytkiem nie tylko dla pełniejszego opisu poszczególnych języków czy badań wybitnie językoznawczych (np. opisowych, kontrastywnych), lecz również dla ustalania algorytmów międzyjęzykowej ekwiwalencji ze wszelkimi tego konsekwencjami dla wszelkich nauk stosowanych bazujących na języku (takich jak proces nauczania języka, przekład tradycyjny czy maszynowy i in.). Nie zakładamy, że to właśnie język litewski ma być podstawą do automatyzacji procesu anotacji semantycznej. Każdy bowiem język posiada pewne jednoznaczne wykładniki określonych znaczeń, które można dołączać do uniwersalnej już wówczas podstawy. Opierając się na jednoznacznych wykładnikach w jednym języku można zawęzić materiał w drugim języku do zgodnego z założonymi parametrami (wyznaczonymi przez jednoznaczne wykładniki języka wyjściowego) i w ramach tak wyselekcjonowanego materiału szukać reguł, które – niezauważane przy tradycyjnym podejściu do języka – mogą zostać ujawnione. Proponowane tu podejście opisu znaczeń (funkcji) poszczególnych form w wielojęzycznych korpusach wydaje się nieuniknioną przyszłością wielojęzycznych zasobów. Jak już niejednokrotnie w literaturze przedmiotu było podnoszone, tym, co łączy języki nie są formy (i ich własności gramatyczne), lecz płaszczyzna znaczeniowa – inaczej funkcje form (por. np. Weinsberg, 1983). Literatura Ajdukiewicz, Kazimierz (1965): Logika pragmatyczna. Warszawa: Państwowe Wydawnictwo Naukowe. Karolak, Stanisław (2001): Od semantyki do gramatyki. Warszawa: Slawistyczny Ośrodek Wydawniczy. Korytkowska, Małgorzata (1978): Ze studiów nad modalnością w języku bułgarskim. Studia z Filologii Polskiej i Słowiańskiej XVII, 263–288. 132 Danuta Roszko, Roman Roszko Korytkowska, Małgorzata, Roszko, Roman (1997): Gramatyka konfrontatywna bułgarsko-polska, tom 6, część 2. Modalność imperceptywna. Warszawa: Slawistyczny Ośrodek Wydawniczy. Koseska-Toszewa, Violetta (1982): Semantyczne aspekty kategorii określoności/nieokreśloności (na materiale z języka bułgarskiego, polskiego i rosyjskiego). Wrocław: Zakład Narodowy im. Ossolińskich. Koseska-Toszewa, Violetta (2013): About Certain Semantic Annotation in Parallel Corpora. Cognitive Studies | Études cognitives 13, 67–78. DOI: 10.11649/cs.2013.004. Koseska-Toszewa, Violetta, Korytkowska, Małgorzata, & Roszko, Roman (2007): Polsko-bułgarska gramatyka konfrontatywna. Warszawa: Wydawnictwo Akademickie „Dialog”. Koseska-Toszewa, Violetta & Roszko, Roman (2015): On Semantic Annotation in Clarin-PL Parallel Corpora. Cognitive Studies | Études cognitives 15, 211–236; DOI: 10.11649/cs.2015.016. Maldžieva, Vjara (2003): Gramatyka konfrontatywna bułgarsko-polska, tom 6, część 3. Modalność: hipotetyczność, irrealność, optatywność i imperatywność, warunkowość). –Warszawa: Slawistyczny Ośrodek Wydawniczy. Roszko, Danuta (2006): Funkcjonalne odpowiedniki litewskiego perfectum w litewskiej gwarze puńskiej i w języku polskim. Warszawa: Slawistyczny Ośrodek Wydawniczy. Roszko, Danuta (2015): Zagadnienia kwantyfikacyjne i modalne w litewskiej gwarze puńskiej (na tle literackich języków polskiego i litewskiego). Warszawa: Slawistyczny Ośrodek Wydawniczy. Roszko, Danuta & Roszko, Roman (2013): Experimental Polish-Lithuanian Corpus with the Semantic Annotation Elements. Cognitive Studies | Études cognitives 13, 97–111; DOI: 10.11649/cs.2013.006 Roszko, Roman (1993): Wykładniki modalności imperceptywnej w języku polskim i litewskim. Warszawa: Slawistyczny Ośrodek Wydawniczy. Roszko, Roman (2004): Semantyczna kategoria określoności/nieokreśloności w języku litewskim (w zestawieniu z językiem polskim). Warszawa: Slawistyczny Ośrodek Wydawniczy. Weinsberg, Adam (1983): Językoznawstwo ogólne. Warszawa: Państwowe Wydawnictwo Naukowe. Косеска-Тошева, Виолетта & Гаргов, Георги (1990): Българско-полска съпоставителна граматика. (том 2. Семантичната категория определеност/неопределеност). – София. Natalia Kotsyba Polska Akademia Nauk Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2 Polish-Ukrainian Parallel Corpus PolUKR and its successor PolUKR-2 Abstract The paper discusses the present stage of development of one of the aspects of an ongoing project aiming at creating electronic resources for the Ukrainian language. Parallel corpora make an important part of this project. The Polish-Ukrainian Parallel Corpus (PolUKR) was developed in 2004-2010, first in the Institute of Slavic Studies of the Polish Academy of Sciences, later at the faculty “Artes Liberales” of the University of Warsaw. The first two versions of PolUKR are available for search online at http://domeczek.pl/~polukr. PolUKR consists of texts written originally either in Polish or Ukrainian, i.e., it does not contain any texts translated from a third language, but only immediate translations of its own texts. It had been aligned at the level of sentences automatically, afterwards the alignments were edited manually. Both the Polish and Ukrainian sentences had been supplied with the morphosyntactic layer of annotation. The characteristic feature of PolUKR is its purpose-built morphosyntactic categorical apparatus, common for the two corpus languages, and its morphosyntactic tagsets based on it. The tagsets are also used in the multilingual European project MULTEXT-East (1996-2010), version 4 “MONDILEX”, available at http://nl.ijs.si/ME/V4/. While the pilot versions of PolUKR concentrated rather on developing corpus-making technologies, in both their technical and theoretical linguistic aspects, the new version, presently developed in cooperation with the National University of Lviv and Lviv Polytechnical University in Ukraine, aims at: 1) first of all, extending the size of the corpus up to 30 million words (as previously, with the biggest possible attention to original Polish or Ukrainian texts, but without a strict limitation on this feature); 2) optimalization of the morphosyntactic description for the Ukrainian language, i.e., disambiguation of ambiguous interpretations and extension of the grammatical dictionary for new, unknown words. Work on the shallow syntax for Natalia Kotsyba 134 Ukrainian is also planned. PolUKR-2 will be used as a basic corpus resource for creating a great Ukrainian-Polish dictionary with ca. 80 thousand entries. Słowa kluczowe: korpus równoległy, język polski, język ukraiński, tagset morfoskładniowy, MULTEXT-East, PolUKR Keywords: parallel corpus, Polish, Ukrainian, morphosyntactic tagset, MULTEXT-East, PolUKR 1. Wprowadzenie Polsko-Ukraiński korpus równoległy (PolUKR) był rozwijany1 w latach 20042011 w Instytucie Slawistyki PAN oraz na wydziale „Artes Liberales” Uniwersytetu Warszawskiego najpierw jako projekt eksperymentalny. Dwuletni grant NCN 2007-2009 oraz roczny udział jego autorów w projekcie europejskim MONDILEX (2008-2009) umożliwiły istotny postęp projektu pod względem jakości. Wersja pilotażowa oraz fragment pierwszej wersji PolUKRu są dostępne do przeszukiwania pod adresem: http://domeczek.pl/~polukr. PolUKR był wzorowany na korpusie IPIPAN (Przepiórkowski, 2004), co oznaczało docelowo podobną strukturę, format i poziom anotacji oraz dostępność do przeszukiwania w Internecie. Podobnie do tekstów korpusu IPIPAN teksty w PolUKR-ze są podzielone na zdania, zaopatrzone w informacje morfoskładniowe i zapisane w formacie XML (XCES) zgodnym z TEI. PolUKR zawiera tylko autentyczne teksty napisane w języku polskim albo ukraińskim i ich bezpośrednie tłumaczenia. Żeby zapewnić możliwie wysoką jakość materiału korpusowego, wyrównania tekstów były dokonywane na poziomie zdań, przy czym wyniki wyrównań automatycznych zostały sprawdzone ręcznie. W celu umożliwienia wiarygodnych badań w zakresie gramatyki konfrontatywnej opracowano i zastosowano w korpusie wspólny tagset morfoskładniowy ze spójną anotacją dla obu języków. Wśród zadań, wykraczających poza możliwości czasowe i finansowe dotychczasowej realizacji projektu znalazło się ujednoznacznienie morfoskładniowe dla języka ukraińskiego oraz dopracowanie wersji internetowej wyszukiwarki POSHUK. Brak dostępnych zasobów językowych (głównie dla języka ukraińskiego) oraz odpowiedniego oprogramowania do opracowania tekstów korpusu na czas opracowania pierwszej wersji korpusu spowodował skierowanie istotnej części wysiłków autorów i dostępnych zasobów finansowych na ich uzupełnienie. Z tym wiąże się względnie mała objętość wersji korpusu dostępnej do przeszukiwania: do ostatecznego stadium opracowania doszło ok. 600 tys. słów z zebranych pierwotnie 3 milionów. 1 Historia powstania projektu oraz podstawowe programy, stworzone w trakcie prac nad nim i udostępnione publicznie, zostały opisane w (Kotsyba, 2012). Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2 135 2. Pozyskiwanie tekstów Podczas pierwszych prac eksperymentalnych teksty były pozyskiwane bezpośrednio od tłumaczy albo z bibliotek internetowych. Preferowane było pierwsze źródło, ponieważ dostarczało materiały przeważnie bardzo dobrej jakości oraz jednocześnie pozyskiwana była zgoda na publiczne wykorzystanie tekstu za pośrednictwem wyszukiwarki. Biblioteki internetowe dziesięć lat temu oferowały o wiele skromniejsze zasoby niż obecnie nie tylko ilościowo, lecz także pod względem jakości: obecne w nich teksty były pozyskiwane drogą skanowania i zastosowania automatycznego OCR dla źródeł papierowych; bardzo często tak uzyskane pliki nie podlegały dalszej redakcji. Oprogramowanie, z którego korzystano w tamtych czasach (najczęściej to był program FineReader), pozostawiało dużo błędów2. Skutkiem tego był znacznie wydłużony czas redakcji tekstów, czasami też odrzucano teksty najgorszej jakości, ponieważ ich poprawianie było mniej opłacalne od ponownego przepisywania. Oportunistyczne podejście do pozyskania tekstów miało wpływ na ogólną reprezentatywność i zawartość korpusu. Z literatury pięknej znalazły się w nim współczesne teksty postmodernistyczne, które zawierają specyficzne słownictwo (w tekstach ukraińskich są to liczne wtrącenia takie, jak surżyk oraz transliterowane zdania w językach obcych, głównie w języku rosyjskim), nietypową budowę zdań (w utworach współczesnych ukraińskich autorów Oksany Zabużko i Jurija Andruchowycza nie są rzadkością ponadstronicowe zdania). Teksty te nie odzwierciedlają typowego języka, dlatego nie są zbyt praktyczne dla badań ogólnojęzykowych. Nietypowe teksty, jak i teksty z błędami po OCR, czasami stwarzają więcej problemów przy przetwarzaniu przez programy, np. surżyk i liczne neologizmy czy okazjonalizmy nie są opisane w słownikach gramatycznych, długie rozbudowane zdania bywają trudne do podziału, a tym samym także do sparsowania. Otrzymane wsparcie grantowe, które umożliwiło m.in. zakup papierowych wersji utworów literatury pięknej, odzwierciedlającej język literacki, opłacenie usług skanowania i wyczytywania tekstów po zastosowaniu OCR, pozwoliło na dobór tekstów, który był lepiej nakierowany na przyszłe korpusowe potrzeby badawcze. Największy nacisk jednak, jak już wspomniano wyżej, był położony na tworzenie brakującego oprogramowania oraz opracowanie i wdrożenie zasad analizy lingwistycznej. 2 Np. FineReader 6.0 nie rozpoznawał dużej ukraińskiej litery Ї, która pojawia się na początku np. takich wyrazów o wysokiej frekwencji jak formy zaimków „jej, ją, ich”, co skutkowało później błędami przy podziale na zdania; numery stron trzeba było usuwać ręcznie; program też zostawiał łącznik w miejscu podziału słów na sylaby. Większość z tych wad została usunięta w późniejszych wersjach FineReadera. 136 Natalia Kotsyba 3. Oprogramowanie korpusowe3 3.1 Podział na zdania Do podziału tekstów na zdania został utworzony program SentSplit, który bazuje na ręcznie opisanych regułach. Jest to edytowalny skrypt w języku Python, który umożliwia dodawanie skrótów używanych z kropką dla obu języków w miarę ich znajdowania4. Ze względu na swoją specyfikę regułową SentSplit ma pewne wymagania względem formatowania i zawartości tekstów wejściowych, co stanowi dodatkowy czynnik wspomagający kontrolowanie ich jakości. Jednocześnie wyniki podziału na zdania uzyskane przez program trzeba często poprawiać – jednak w sytuacjach, nieprzewidzianych przez reguły, program podaje komunikat o błędzie. Najczęściej problemy tego rodzaju są spowodowane błędami formatowania albo obecnością niealfanumerycznych znaków, które pozostają po błędach w OCR-ze. 3.2 Wyrównanie Wyrównanie lub inaczej zrównoleglanie (ang. alignment) tekstów w wersji eksperymentalnej dokonywane było na poziomie akapitów, przy czym program do przeszukiwania tekstów „zakładał”, że podział na akapity był identyczny w obu wariantach językowych. Bliskość struktury tłumaczonych i oryginalnych, krótkich publicystycznych tekstów, które weszły do pilotażowej wersji korpusu, praktycznie nie wymagała ingerencji w autorski podział na akapity. Natomiast przy większych tekstach rozbieżności znacząco rosły. Ponadto akapity były jednostkami tekstu, które tworzyły kontekst przy wyszukiwaniu, co nie było specjalnie wygodne przy akapitach większych rozmiarów. W pierwszej wersji PolUKRu wyrównanie zostało dokonane już na poziomie zdań za pomocą ogólnie dostępnego programu Hunalign (Varga et al., 2005). Wyniki działania tego programu zawierały błędy, które były poprawiane ręcznie przez redaktorów. W tym celu został stworzony program do edycji wyrównań PLUczeK5. Wszystkie wyrównania tekstów w PolUKR-ze zostały poprawione za pomocą tego edytora. Dodatkowym plusem jego działania było konwertowanie tekstów wyjściowych do standardowego formatu XML (XCES). 3.3 Morfoskładnia Informacje morfoskładniowe dla języka polskiego zostały wprowadzone do tekstów za pomocą jednej z pierwszych wersji tagera TaKIPI, opracowanego na 3 http://www.domeczek.pl/~polukr/index.php?option=software. 4 SentSplit opiera się na dość uniwersalnych regułach budowy zdań, dlatego może być stosowany dla innych języków, m.in. był pomyślnie sprawdzany także na tekstach angielskich, niemieckich, francuskich, bułgarskich i rosyjskich. Autorką programu jest Oresta Tymczyszyn. 5 Program PLUczeK jest dostępny pod adresem: http://www.domeczek.pl/~polukr/parcor/ pluczek.html. Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2 137 Politechnice Wrocławskiej (Piasecki, 2007). Informacje te następnie były modyfikowane i konwertowane do docelowego formatu za pomocą specjalnie stworzonego konwertera KIPI2MTE6, zob. (Kotsyba et al., 2009). Anotacja tekstów ukraińskich została dodana za pomocą programu UGTag (Kotsyba et al., 2011), który wykorzystuje dane Ukraińskiego Słownika Gramatycznego autorstwa Igora Szewczenki (Шевченко et al., 2005) zmodyfikowane na potrzeby opracowanego wspólnego tagsetu. W ramach prac nad ujednoliceniem opisów morfoskładniowych obu języków został najpierw stworzony wspólny tagset polsko-ukraiński, wzorowany na bardziej czytelnym i intuicyjnym sposobie zapisu tagów Korpusu IPIPAN (Kotsyba et al., 2008). W PolUKR-ze jednak ostatecznie znalazł zastosowanie inny, częściowo wzorowany na poprzednim, wspólny tagset, opracowany w ramach wielojęzycznego (17 języków) projektu europejskiego MULTEXT-East (MTE), wersja 4 „MONDILEX”, dostępny pod adresem http://nl.ijs.si/ME/ V4/ (Erjavec, 2012) razem z przykładowym, oznakowanym za jego pomocą, korpusem i leksykonem7. Potrzeba wspólnego tagsetu wynikła z jednego z pierwotnie stawianych celów tworzenia korpusu, mianowicie, zastosowania go do gramatycznych i semantycznych badań konfrontatywnych. Podobne rozumienie terminologii morfoskładniowej w porównywanych językach jest przydatne także w szeregu zastosowań maszynowych. Na przykład przy automatycznym generowaniu słowników dwujęzycznych porównywane są charakterystyki morfoskładniowe wyrazów. Wobec tego, samo podobieństwo formalne przy różnym rozumieniu terminów albo różne nazywanie podobnych zjawisk prowadzi do powstawania błędów, których przy uspójnionym opisie można uniknąć. Samo ustalanie tagsetu już należy do badań konfrontatywnych. Nawet kwestie pozornie nieskomplikowane, jak np. definicja i zakres rzeczownika, mogą dostarczyć problemów użytkownikom korpusu równoległego, w którym użyto różnych tagsetów8. Do informacji morfoskładniowej obu języków korpusu wykorzystano źródła o konceptualnie odmiennych podejściach do ekstrakcji informacji oraz jej organizacji i zapisu, a także różny stopień granulacji tych informacji. W każdym przypadku takiego zróżnicowania trzeba było podjąć decyzję dotyczącą docelowości kodowania informacji. Z jednej strony należało liczyć się z ewentualną stratą informacji (czego zamierzaliśmy unikać), z drugiej 6 Konwerter jest dostępny na stronie http://www.domeczek.pl/~polukr/mte-conv/, zob. też http://clip.ipipan.waw.pl/LRT. 7 Leksykon polski jest zmodyfikowanym i przekonwertowanym fragmentem słownika gramatycznego autorstwa Marcina Wolińskiego, Zygmunta Saloniego, Jana Tokarskiego i in. Zob. notkę: http://nl.ijs.si/ME/V4/msd/html/msd-pl.introduction.html. 8 Problem znacznie się powiększa z rozszerzeniem o kolejne języki (Derzhanski, Kotsyba, 2009; Rosen, 2010). 138 Natalia Kotsyba strony pojawiła się konieczność uzupełnienia brakujących informacji w drugim języku. Często zastosowanie takiej brzytwy Ockhama uzasadniane było nie tyle potrzebami teoretyczno-lingwistycznymi, ile praktycznymi możliwościami. Dla porównania podajemy wybrane statystyki, dotyczące dwóch początkowych tagsetów: tylko 6 kategorii gramatycznych9 było tożsamych formalnie; 21 kategorii było specyficznych dla języka ukraińskiego, 23 kategorie były specyficzne dla języka polskiego, przy czym suma kategorii w obu tagsetach stanowiła 50 jednostek. Jako przykład źródła takich różnic można przytoczyć to, że ukraiński tagset traktował przymiotniki i przysłówki stopnia wyższego i najwyższego jako osobne “techniczne” części mowy, podczas gdy w polskim były one opisywane pod wspólnymi fleksemami. Oba tagsety zawierały kategorię predykatywu, ale jej traktowanie istotnie się różniło, co czyniło formalne podobieństwo kategorii praktycznie bezużytecznym10. Rysunek 1. Mapowanie tagów Korpusu IPIPAN (IPIC) do tagsetu MTE-PL. W porównaniu z tagsetem Korpusu IPI PAN stworzony tagset MTE-PL ma rozbudowany system znaczników zaimkowych, bardziej zbliżone do tradycyjnych kategorie części mowy, ruchome końcówki i wskaźniki modalne typu „by” traktowane są w nim wspólnie z podstawą. Z 1298 oryginalnych tagów 101 otrzymało więcej niż jedną projekcję na tagset MTE: 60 tagów przymiotnikowych otrzymało po 13 projekcji w MTE; 18 tagów substantywów – po 2–7 MTE; 9 W polskim są to odpowiednio fleksemy (Przepiórkowski, Woliński, 2003), w ukraińskim – części mowy. 10 Predykatyw był jednym z największych źródeł problemów przy pracy nad wspólnym tagsetem ze względu na różne rozumienie tego terminu. Dla porównania: Korpus IPIPAN zawiera 26 predykatywów (wyliczenia własne za pomocą wyszukiwarki Poliqarp), Ukraiński Słownik Gramatyczny zawiera 176 predykatywów (Derzhanski, Kotsyba, 2008). Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2 139 qubliki zostały podzielone na 7 kategorii z 27 tagami; predykatywy zostały podzielone na 3 kategorie i 4 tagi (Kotsyba et al., 2009). 3.4 Wyszukiwarki dedykowane Dla wersji pilotażowej korpusu sporządzona została prosta wyszukiwarka internetowa, która obsługiwała wówczas 35 par krótkich tekstów publicystycznych, wyrównanych na poziomie akapitów. Możliwe było wyszukiwanie za pomocą wyrażeń regularnych, co uzupełniało częściowo brak lematyzacji, ale język zapytań był niezbyt przyjazny dla użytkownika. Do pierwszej pełnej wersji korpusu stworzona została w języku Java stacjonarna wyszukiwarka POSHUK, w której zaimplementowano wyszukiwanie według metainformacji oraz prostych tagów, zob. rys. 2. Wyszukiwarka ta później nie była rozwijana. Wśród wyszukiwarek webowych, z którymi eksperymentowano, żeby umożliwić dostęp do korpusu przez Internet, warto wymienić Park11 – jeden z pierwszych programów tego typu projektu Intercorp12. Obecnie dostępny korpus korzysta z CWB13 i ParaVozu (Meyer et al., 2014). Rysunek 2. Interfejs wyszukiwarki POSHUK. 11 http://parcor.ibi.uw.edu.pl/Park/. Od kwietnia 2015 roku autorzy Intercorpu całkowicie zrezygnowali z tego programu na rzecz nowej, dużo szybszej i zintegrowanej z korpusem jednojęzycznym wyszukiwarki Kontext: https://kontext.korpus.cz/. 12 http://ucnk.ff.cuni.cz/intercorp/. 13 http://cwb.sourceforge.net/. 140 Natalia Kotsyba 4. PolUKR-2 Następca tytułowego projektu, PolUKR-2, ma na celu istotne rozbudowanie ilościowe korpusu tak, aby umożliwić na szeroką skalę badania leksykologiczne i gramatyczne, a także wspomóc prace nad powstającym dużym słownikiem ukraińsko-polskim14. Planowana jest objętość od 10 do 30 milionów wyrazów w zależności od możliwości finansowych. Dotychczas opracowano kolejne 6,5 milionów wyrazów. Dobrane zostały głównie oryginalne teksty polskie, napisane w XIX bądź XX wieku, i ich tłumaczenia ukraińskie. Wyrównanie nowych tekstów zostało dokonane w ramach warsztatów tłumaczeniowych studentów filologii polskiej (Uniwersytet Narodowy im. Iwana Franki we Lwowie). Prace trwały przez dwa semestry (2013/2014). Jeszcze jeden projekt badawczo-dydaktyczny skierowany na rozwiązanie problemu ujednoznaczniania został zorganizowany w ramach zajęć praktycznych w Katedrze Lingwistyki Stosowanej Politechniki Lwowskiej. Prace z ręcznego ujednoznaczniania tekstów trwały jeden semestr (jesień 2013 r.)15. Jednocześnie prowadzone były prace nad tworzeniem reguł ujednoznaczniania w ramach formalizmu Constraint Grammar (Karlsson, 1990). Opracowano m.in. reguły ujednoznaczniania wybranych przyimków. 5. Podsumowanie W ciągu ostatnich dziesięciu lat od początku prac nad projektem sytuacja w lingwistyce korpusowej zmieniła się na korzyść: jest więcej dostępnych tekstów lepszej jakości w postaci elektronicznej, pojawiły się kolejne tłumaczenia. Ponadto podobne projekty korpusowe są rozwijane przez wiele ośrodków, co daje możliwość wymiany tekstów. Jakość działania programów służących do opracowania tekstów (np. FineReader 10.0) też znacznie się poprawiła. Pojawiły się nowe dostępne wyszukiwarki i wyrównywarki. Tendencje te są dowodem, że wysiłki zainwestowane w teorię lingwistyczną i rozwój technologii były trafnym posunięciem, o wiele lepszym niż ekspansja ilościowa – koszt opracowania tej samej ilości tekstów obecnie jest dużo niższy, co znaczy, że nadszedł właściwy czas, żeby zająć się powiększeniem korpusu. Najbardziej pozytywną zmianą jest jednak rosnące zainteresowanie korpusami ze strony językoznawców, leksykografów, tłumaczy, co zwiększa motywację do kontynuacji prac nad projektem. 14 http://clip.ipipan.waw.pl/UkrPolDict. 15 Ilość przerobionych tekstów wciąż nie wystarcza dla danych treningowych tagera, ale planowane są kolejne prace w tym zakresie. Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2 141 Literatura Derzhanski, Ivan, Kotsyba, Natalia (2008): The Category of Predicatives in the Light of Consistent Morphosyntactic Tagging. W: Lexicographic Tools and Techniques, Proceedings of MONDILEX First Open Workshop, Moscow, Russia, 3-4 October 2008, 68–79. http://domeczek.pl/:natko/ papers/ID_NK_tagSlav.pdf, (01-03-2016). Derzhanski, Ivan, Kotsyba, Natalia (2009): Towards a Consistent Morphological Tagset for Slavic Languages: Extending MULTEXT-East for Polish, Ukrainian and Belarusian. W: Radovan Garabík (red.): Metalanguage and Encoding Scheme Design for Digital Lexicography. MONDILEX Third Open Workshop, Bratislava, Slovakia, 15–16 April 2009, 9–26. Erjavec, Tomaž (2012): MULTEXT-East: morphosyntactic resources for Central and Eastern European languages. Language Resources and Evaluation 46(1), 131–142. Karlsson, Fred (1990): Constraint Grammar as a Framework for Parsing Unrestricted Text. W: Hans Karlgren (red.): Proceedings of the 13th International Conference of Computational Linguistics, Volume 3. Stroudsbug, PA: Association for Computational Linguistics, 168–173. Kotsyba, Natalia (2012): PolUKR (a Polish-Ukrainian Parallel Corpus) as a Testbed for a Parallel Corpora Toolbox. Prace Filologiczne LXIII, 181–196. Kotsyba, Natalia, Shypnivska, Olha, Turska, Magdalena (2008): Linguistic principles of organizing a common morphological tagset for PolUKR (Polish-Ukrainian Parallel Corpus). W: Mieczysław Kłopotek (red.): Proceedings of the International Conference on Intelligent Information Systems, 16-18 June 2008, Zakopane, Poland, 475–484. Kotsyba, Natalia, Radziszewski, Adam, Derzhanski, Ivan (2009): Integrating the Polish language into the MULTEXT-East family: morphosyntactic specifications, converter, lexicon and corpus. W: Tomaž Erjavec (red.): Proceedings of Research Infrastructure for Digital Lexicography: MONDILEX Fifth Open Workshop, October 14, 2009, Ljubljana, Slovenia, 37–55. Kotsyba, Natalia, Mykulyak, Andriy, Shevchenko Ihor V. (2011): UGTag: morphological analyzer and tagger for Ukrainian language. W: Stanisław Goźdź-Roszkowski (red.): Explorations across Languages and Corpora, Frankfurt am Main: Peter Lang, 69–82. Meyer, Roland, von Waldenfels, Ruprecht, Woźniak, Michał, Zeman, Andreas (2006-2015): ParaVoz – a simple web interface for querying parallel corpora. Second Version. Bern, Regensburg, Berlin, Kraków. https://bitbucket.org/rvwfels/paravoz, (17 October 2015). Piasecki, Maciej (2007): Polish Tagger TaKIPI: Rule Based Construction and Optimisation. Task Quarterly 11(1-2), 151–167. 142 Natalia Kotsyba Przepiórkowski, Adam, Woliński, Marcin (2003): A Flexemic Tagset for Polish. W: The Proceedings of the Workshop on Morphological Processing of Slavic Languages, EACL 2003, Budapest: Association for Computational Linguistics, 33–40. Przepiórkowski, Adam (2004): Korpus IPI PAN. Wersja wstępna / The IPI PAN Corpus: Preliminary version. http://nlp.ipipan.waw.pl/~adamp/ Papers/2004-corpus/, (03-03-2016). Rosen, Alexandr (2010): Mediating between Incompatible Tagsets. W: Lars Ahrenberg, Jörg Tiedemann and Martin Volk (red.) Proceedings of the Workshop on Annotation and Exploitation of Parallel Corpora AEPC 2010 December 2, 2010, Tartu, Estonia, 53–62. Varga, Daniel, Németh, Péter, Halácsy, Péter, Kornai, András, Trón, Viktor, Nagy, Viktor (2005): Parallel corpora for medium density languages. W: Galia Angelova, Kalina Bontcheva, Ruslan Mitkov, Nicolas Nicolov, Nikolai Nikolov (red.) Proceedings of the International Conference on Recent Advances on Natural Language Processing, 590–596. Шевченко, ИГорь, ШирОков, ВОлодимир, Рабулець, АЛександр (2005): Электронный грамматический словарь украинского языка. W: Труды международной конференции «Megaling’2005. Прикладная лингвистика в поиске новых путей». 27 июня – 2 июля 2005 года. Меганом, Крым, Украина, 124–129. Marianna Petrincová Univerzita Palackého v Olomouci Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym Searching for equivalents in the Polish-Slovak Parallel Corpus Abstract This paper deals with a comparison of two closely related languages, Polish and Slovak, and focuses on prefixed verbs, in the case of which this proximity is especially visible, and which may cause problems for translators and lexicographers. In the paper the prefixed verbs are treated as a lexicographic problem and a possible solution is presented that involves searching for equivalents in real translations. A small parallel Polish-Slovak corpus was created for the purpose of this research. In the paper the process of compiling the corpus is described, starting with the acquisition of parallel texts, through texts processing and choosing corpus tools, and ending with the annotation and lemmatization of texts. Next, an analysis of the equivalents of prefixed verbs found in the corpus was carried out to measure their lexicographic potential, i.e. their suitability to be included in the dictionary, based on their accuracy and frequency in different contexts and with different arguments. Four different levels of lexicographic potential are distinguished: high, average, low and zero lexicographic potential. The paper presents the preliminary results of corpus analysis of the lexicographic potential of the Slovak equivalents of Polish prefixed verbs which focuses on suitable lexicographic material. Since this paper presents a small part of more extensive research on verbs with different prefixes, only an analysis of equivalents of verbs with prefix u- and roz- (ubierać, ubrać, ukrywać, ubolewać, rozciągać się, rozlec się) is presented. The last part of the paper discusses problems found along the way, and it considers the adjustments to the evaluation process. The problems include, among others: the size of the corpus, the number of occurrences, the evaluation method as such (where the goal is to adjust it so as it is the most objective method possible but without compromising the intuitions of native or proficient speakers of the two languages), and, finally, the inconsistency of the information provided Marianna Petrincová 144 by the Word Sketch tool in the Sketch Engine, which produces slightly different results for the Polish and Slovak reference corpora. Overall, the presented analysis demonstrates how parallel corpora can be used to improve the quality of bilingual dictionaries by providing translation equivalents from the real translations. Słowa kluczowe: korpus równoległy, język polski, język słowacki, ekwiwalent, czasowniki przedrostkowe, leksykografia dwujęzyczna, transfer językowy Keywords: parallel corpus, Polish, Slovak, equivalent, prefixed verbs, bilingual lexicography, linguistic interference 1. Wstęp Polsko-Słowacki Korpus Równoległy został zbudowany w celu stworzenia bazy materiałowej do badań nad słowackimi ekwiwalentami tłumaczeniowymi polskich czasowników przedrostkowych. Między językiem polskim i słowackim, jako bliskimi językami, często zachodzi transfer językowy rozumiany jako naruszenie normy językowej pod wpływem elementów z drugiego języka, polegający najczęściej na błędnym przejmowaniu struktur gramatycznych z jednego języka do drugiego (Marićová, 2008: 93). Grupa słów, w której zarejestrowaliśmy wysoką częstotliwość występowania negatywnego transferu językowego, to czasowniki przedrostkowe. Ich słowotwórstwo w obu językach jest formalnie identyczne (w obu językach poprzez dodawanie przedrostka do czasownika), zasób przedrostków jest formalnie prawie identyczny i to samo dotyczy też podstawowych czasowników, z których większość istnieje w obu językach tylko z małymi różnicami formalnymi. Wspominany transfer powoduje zmiany znaczeniowe czasowników przedrostkowych w obu językach. Transfer językowy z języka polskiego do języka słowackiego często polega na użyciu słowackiego przedrostka identycznego z polskim przedrostkiem, z tym że czasownik podstawowy jest tłumaczeniem polskiego czasownika podstawowego lub jego słowackim homonimem. Występowanie negatywnego transferu językowego zauważyliśmy zarówno w tłumaczeniach, jak i w pracach leksykograficznych (uciąć – uťať, unosić – unášať). Uważamy tę kwestię nie tylko za problem tłumaczeniowy, ale także leksykograficzny. Naszym celem jest wyszukanie w utworzonym korpusie równoległym wystarczającej liczby ekwiwalentów przekładowych w celu poddania ich dalszej analizie pod kątem przydatności jako ekwiwalentów słownikowych. Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym 145 2. Utworzenie Polsko-Słowackiego Korpusu Równoległego Korpus równoległy utworzony został z tekstów w języku polskim i słowackim. Korpus jest jednokierunkowy: językiem tekstów wyjściowych jest język polski, a językiem docelowym język słowacki. O jednokierunkowym charakterze korpusu zdecydował charakter i cel pracy, którym jest wyszukiwanie ekwiwalentów słowackich. Wybór tekstów do korpusu został uwarunkowany możliwościami pozyskiwania tekstów równoległych w badanych językach, rodzajem tekstów, które są tłumaczone z polskiego na słowacki, ich dostępnością, a także pożądaną jakością tłumaczenia, która może stanowić problem ze względu na bliskość języków i spowodowane tym interferencje. Z wymienionych powodów do korpusu zostały wybrane teksty opublikowane w postaci książkowej, co znaczy, że poza tłumaczem w tłumaczeniu brała udział przynajmniej jedna dodatkowa osoba (redaktor, ewentualnie korektor lub weryfikator). Teksty do korpusu uzyskane zostały bezpośrednio od tłumaczy literatury polskiej (w ten sposób udało się pozyskać 10 książek z liczbą około 700 tysięcy słów – tokenów w części słowackiej). Następnie nawiązano kontakt z autorami tekstów polskich. Niestety, nie przyniosło to oczekiwanych rezultatów, gdyż udało się pozyskać tylko jedną książkę. Kilku autorów nie miało do dyspozycji ostatecznej wersji tekstu i poleciło kontakt z wydawnictwem. W niektórych przypadkach w ogóle nie udało się nawiązać kontaktu z autorem. W pozostałych wypadkach kontaktowaliśmy się z wydawnictwami (Znak, W.A.B, Noir sur Blanc i Czarne), w których, z wyjątkiem dwóch książek, udało się pozyskać wszystkie. Całkowita liczba słów w tekstach słowackich, dla których pozyskaliśmy odpowiedniki polskie, wynosi około 610 tysięcy. Wśród tekstów książek, które ostatecznie znalazły się w korpusie, znajdują się powieści (4 książki), eseje (2 książki), literatura faktu (1 książka) i literatura dla dzieci (1 książka). Nieco później natknęliśmy się na polskie czasopismo Miłujcie się! wydawane w różnych wersjach językowych, także w języku słowackim. Redakcja była chętna udostępnić nam teksty polskie i słowackie dwudziestu pięciu numerów czasopisma. Jednak ze względu na objętość już istniejącego korpusu oraz na to, że teksty ze wspomnianego czasopisma wymagałyby poszukiwań odpowiadających sobie tekstów w poszczególnych językach (tj. tekstów wyjściowych i docelowych) na razie zrezygnowano z ich włączenia do korpusu. Oryginalne teksty otrzymaliśmy częściowo w formacie doc, a w większej części w formacie pdf. Te ostatnie trzeba było zapisać jako pliki doc i formalnie ujednolicić z tłumaczeniem. W plikach konwertowanych z formatu pdf potrzebna była kontrola znaków diakrytycznych, a także usunięcie znaków, które nie były częścią samego tekstu. Następnie teksty zostały zapisane w formacie 146 Marianna Petrincová txt z kodowaniem UTF-8 i zrównoleglone na poziome zdań za pomocą oprogramowania LF_aligner opartego na oprogramowaniu hunalign, który służy do obsługi formatów takich jak txt, doc, docx, rtf, html, pdf z formatami wyjściowymi – tmx, txt i xls. W przypadku polsko-słowackiego korpusu plik wyjściowy był w formacie xls, ze zdaniami tekstu polskiego w pierwszej kolumnie i zdaniami słowackiego tłumaczenia w drugiej. Rysunek1. Zrównoleglony plik xls Rysunek 2. Sketch Engine z korpusami własnymi (powyżej) i korpusami użytkownika (poniżej) Zrównoleglenie za pomocą oprogramowania LF_aligner jest bardzo skuteczne. Podczas ręcznego sprawdzania znaleziono tylko kilka błędów spowodowanych przede wszystkim niestandardowymi znakami na końcach i początkach Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym 147 zdań (cudzysłowy, trzy kropki itp.), ewentualnie opuszczeniami całych zdań dokonanymi przez tłumaczy. W tym przypadku polskie zdania, które znalazły się bez tłumaczenia słowackiego, zostały usunięte. Jako oprogramowanie korpusowe wybraliśmy komercyjne oprogramowanie online Sketch Engine, w którym można tworzyć własne korpusy, w tym także korpusy równoległe. Rysunek 3. Oznakowany i zlematyzowany plik wertykalny. 3. Wyszukiwanie w korpusie równoległym Do wyszukiwania planowaliśmy wykorzystać wyrażenia regularne, dlatego należało tekst oznakować i lematyzować. Oznakowanie i lematyzowanie zostało wykonane w Centrum przetwarzania języka naturalnego na Wydziale Informatyki Uniwersytetu Masaryka w Brnie. Rezultatem są pliki wertykalne, które można zapisać do Sketch Engine i w ten sposób otrzymać oznakowany i lematyzowany korpus. Marianna Petrincová 148 Do wyszukiwania zastosowano wyrażenia regularne w formie: [lemma=”u.*” & tag=”inf.*|fin.*|praet.*|imps.*|pact.*|ppas.*|pcon.*|impt.*”], co znaczy, że wyszukane zostały słowa z przedrostkiem u-, morfologicznie oznakowane jako bezokolicznik, czasownik w czasie teraźniejszym, czasownik w czasie przeszłym, w formie bezosobowej czasu przeszłego, imiesłów przymiotnikowy czynny i bierny, imiesłów przysłówkowy i czasownik w trybie rozkazującym. Liczba znalezionych pojedynczych form jest bardzo wysoka (tysiące wystąpień dla większości przedrostków), należało więc zadecydować, które formy będą dalej analizowane. Na wstępie z wyrażenia regularnego usunięte zostały formy imiesłowów i jego obecna forma, tj.: [lemma=”u.*” & tag=”inf.*|fin.*|praet.*|imps.*|impt.*”]. Część mowy ekwiwalentu, jak i jego częstotliwość w tekście, też prawdopodobnie będą czynnikami decydującymi, ponieważ określają jego zdolność do pełnienia roli ekwiwalentu słownikowego. Do tej pory wykonano wyszukiwania i analizę czasowników z przedrostkami u-, roz- i do-. Rezultaty pojedynczych wyszukiwań były eksportowane w formie pliku tekstowego. Następnie wykonano selekcję par ekwiwalentowych do analizy. Ze znalezionych par usunięto te, w których ekwiwalenty są identyczne z ekwiwalentami znajdującymi się w słowniku polsko-słowackim, ponieważ celem analizy jest znalezienie nowych ekwiwalentów. Zostały również usunięte czasowniki polskie z kombinacją liter roz-, do- lub z literą u- na początku, w których nie pełnią one roli przedrostka (np. w czasownikach rozumować, rozumieć itp.). 4. Potencjał leksykograficzny Ponieważ, jak wspomniano, celem analizy jest znalezienie słowackich ekwiwalentów leksykograficznych dla polskich czasowników przedrostkowych, wykonano ocenę zdolności ekwiwalentów pochodzących z korpusu równoległego do pełnienia roli ekwiwalentu słownikowego. Ta zdolność była mierzona jako potencjał leksykograficzny. Termin ten został zaczerpnięty od Magdaleny Perdek (Perdek, 2011: 262), która analizuje polskie ekwiwalenty angielskich czasowników frazowych. Definiuje ona potencjał leksykograficzny jako zdolność ekwiwalentu do włączenia go do słownika. Zdolność ta opiera się na dokładności i zdolności do zastosowania w różnych kontekstach i z różnymi argumentami. Perdek rozróżnia cztery stopnie potencjału leksykograficznego (Perdek, 2011: 262-263): 1. Wysoki PL – synonimiczny z ekwiwalentem leksykograficznym i z bardzo wysokim zastosowaniem w różnych kontekstach i z najczęstszej występującymi argumentami. Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym 149 2. Średni PL – semantycznie podobny do ekwiwalentu leksykograficznego, ale ze względu na różnice w strukturze i odmienne kolokacje, ma ograniczony zasięg. 3. Niski PL – ekwiwalent korpusowy jest tłumaczeniem wykładu, co ogranicza konteksty i argumenty, w których można go zastosować i czasami rozszerza lub zawęża jego oryginalne znaczenie. 4. Zerowy PL – ekwiwalent korpusowy jest ograniczony tylko do jednego kontekstu i nie jest możliwe jego rozszerzenie na więcej kontekstów lub argumentów. Do tej grupy należą też ekwiwalenty, które są rezultatem błędnego tłumaczenia. 5. Metoda oceny Ocenę wykonywano w postaci identyfikacji znaczenia, w którym zastosowano polski czasownik i jego tłumaczenie. Jako materiał referencyjny zastosowano Słownik języka polskiego (http://sjp.pwn.pl) i słowackie słowniki dostępne online pod adresem (slovnik.juls.savba.sk). Następnie zostało ocenione i porównane „zachowanie” kolokacyjne polskiego i słowackiego czasownika w korpusach referencyjnych (plTenTen12 i skTenTen11 – https://the.sketchengine.co.uk) za pomocą narzędzia Word Sketch, które generuje automatyczny przegląd gramatycznego i kolokacyjnego „zachowywania” się słowa w tekstach. Jako leksykograficzny materiał referencyjny zastosowano Poľsko-slovenský a slovensko-poľský slovník (Stano, Buffa, 1975). 6. Analizy ekwiwalentów tłumaczeniowych W następnej części przedstawimy kilka przykładów analizowanych par czasownikowych. ubierać I kiedy w Boże Narodzenie ubieraliśmy drugą choinkę – pierwszą u siebie w domu, drugą w Oliwie... zdobiť Wysoki A keď sme na Božie narodenie Obliekať zdobili ďalšiu jedličku – prvú u nás doma a druhú v Oliwe... Tabela 1. Ekwiwalent tłumaczeniowy czasownika ubierać Czasownik ubierać użyty jest w znaczeniu: ‘ozdobić, przystroić’ (Słownik języka polskiego [s.a.]). Hasło w polsko-słowackim słowniku ma tylko jedno znaczenie i tylko jeden ekwiwalent: obliekať (Stano, Buffa, 1975: 354). Według narzędzia Word Sketch jedynym przedmiotem dla tego znaczenia jest właśnie rzeczownik Marianna Petrincová 150 choinka. Słowackiego czasownika zdobiť używa się z rzeczownikami, które są nazwami przedmiotów, takimi jak stena, fasáda, priečelie, interiér, ale też stromček, kraslica. Ekwiwalent w tym znaczeniu ma szersze zastosowanie, ale możemy mu przypisać wysoki potencjał leksykograficzny. ubrać Wrócił fagas, a za nim weszły dwie kobiety ubrane do kostek i w chustkach. zahaliť zerowy Vrátil sa lokaj a za ním vošli obliecť dve ženy zahalené v šatách po členky a v šatkách. Tabela 2. Ekwiwalent tłumaczeniowy czasownika ubrać Polski czasownik ubrać użyty jest w znaczeniu: ‘włożyć na kogoś ubranie, obuwie, nakrycie głowy i p. ’ (Słownik języka polskiego [s.a.]). Jak wspomnieliśmy wcześniej, hasło w słowniku polsko-słowackim ma tylko jeden ekwiwalent obliecť (Stano, Buffa, 1975: 354). Ekwiwalent zahaliť (okryć) jest motywowany kontekstem do kostek i w chustkach i dobrze określa wizualny obraz, który się nasuwa po przeczytaniu zdania. W innych zwykłych użyciach czasownika ubrać – nie użylibyśmy tego ekwiwalentu, jeżeli nie byłby spełniony warunek odpowiedniego kontekstu. ukrywać Partia, bolszewicki wynalazek wcale przez wynalazców nieukrywany, nie była w moim guście. tajiť Strana, boľševický vynález, ktorým sa jej vynálezcovia vôbec netajili, absolútne nebola v mojom štýle. średni ukrývať, skrývať Tabela 3. Ekwiwalent tłumaczeniowy czasownika ukrywać Polski czasownik ukrywać użyty jest w znaczeniu: ‘nie ujawnić swoich myśli, uczuć, zamiarów’ (Słownik języka polskiego [s.a.]). Hasło w polsko-słowackim słowniku ma tylko jedno znaczenie z ekwiwalentami ukrývať, skrývať (Stano, Buffa, 1975: 357). Polskiego czasownika używa się często z rzeczownikami będącymi nazwami emocji np: radość, satysfakcja, duma, wzruszenie, pogarda, zazdrość, zadowolenie, zachwyt, ale też z innymi, takimi jak tożsamość i orientacja. Słowackiego ekwiwalentu, według narzędzia Word Sketch, używa się częściej z rzeczownikami takimi jak dych, nevera, tehotenstvo, orientácia, identita, a rzadziej z przedmiotami oznaczającymi uczucia. Tych ostatnich używa się raczej z czasownikiem skrývať. ubolewać Walentin Rasputin, prawdziwy wielkoruski patriota, skądinąd autor znakomitej prozy, ubolewa nad wrogością świata wobec patriotyzmu rosyjskiego. žialiť wysoki Valentin Rasputin, skutočný ľutovať (niekoho, niečo), veľkoruský vlastenec, inak nariekať (nad niekým, niečím) autor vynikajúcej prózy, žiali nad nepriateľstvom sveta voči ruskému vlastenectvu. Tabela 4. Ekwiwalent tłumaczeniowy czasownika ubolewać Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym 151 Czasownik ubolewać użyty jest w znaczeniu: ‘odczuwać i wyrażać żal, współczucie lub niezadowolenie’ (Słownik języka polskiego [s.a.]). W haśle w polsko-słowackim słowniku przytoczone są ekwiwalenty ľutovať (koho, čo), nariekať (nad kým, čím) (Stano, Buffa, 1975: 354). Według narzędzia Word Sketch czasownika ubolewać najczęściej używa się z przyimkiem nad i łączy się z rzeczownikami: fakt, brak, los, strata, upadek, czyli ze słowami, które zawierają semantyczną cechę wartości negatywnej. Słowacki czasownik žialiť łączy się z kilkoma przyimkami, z których najczęściej występuje przyimek nad, łączący się z słowami takimi jak strata, smrť, odchod, osud, neúspech. Znów są to więc słowa z semantyczną cechą wartości negatywnej lub takie, które mogą taką cechę nabyć w kontekście. ubolewać Czytam emfatyczny wstęp Károla Kincsesa, który ubolewa nad tym, że żaden z fotografów, którzy zostali w kraju, nie zrobił światowej kariery. vyslovovať ľútosť Čítam emfatický úvod Károla Kincsesa, ktorý vyslovuje ľútosť nad tým, že nikto spomedzi fotografov, čo zostali doma, neurobil svetovú kariéru. niski ľutovať (niekoho, niečo), nariekať (nad niekým, niečím) Tabela 5. Ekwiwalent tłumaczeniowy czasownika ubolewać W tym przypadku słowackiego ekwiwalentu używa się podobnie jak polskiego czasownika, ale zgoda znaczeniowa jest tylko częściowa, ponieważ czasownik słowacki zawiera jedynie komponent ‘wyrażać’ natomiast nie zawiera komponentu ‘odczuwać’ (Słownik języka polskiego [s.a.]). Ze względu na tę różnicę oraz dlatego, że ekwiwalentem jest wyrażenie składające się z kilka słów, przyznajemy mu niski potencjał leksykograficzny. ubolewać Odpowiadam: Myślę, że sądy są wciąż niezawisłe, nad czym najwyraźniej ubolewają premier Jarosław Kaczyński i minister sprawiedliwości Zbigniew Ziobro. smútiť Odpovedám: Myslím si, že súdy sú stále nezávislé, nad čím evidentne smútia premiér Jarosław Kaczyński a minister spravodlivosti Zbigniew Ziobro. wysoki ľutovať (niekoho, niečo), nariekať (nad niekým, niečím) Tabela 6. Ekwiwalent tłumaczeniowy czasownika ubolewać Ekwiwalentu smútiť, podobnie jak žialiť, używa się z formami po przyimkach. Według narzędzia Word Sketch najczęstszym przyimkiem jest za, a drugim nad. Rzeczowniki łączące się z tymi przyimkami to przede wszystkim strata, smrť, minulosť, osud, láska, tragédia, život. Sytuacja jest podobna jak przy ekwiwalencie žialiť, natomiast na korzyść ekwiwalentu smútiť przemawia o wiele wyższa częstotliwość. W korpusie skTenTen11 jest ona prawie sześć razy wyższa. Marianna Petrincová 152 ubolewać Oto przed kilku laty redaktor jednego z pism katolickich o kierunku konserwatywnym, ubolewając, że nie przeprowadzono szczegółowych badań dotyczących udziału Żydów w aparacie władzy komunistycznej, wypowiedział pogląd wart zacytowania: lamentovať Napríklad pred niekoľkými rokmi redaktor jedného z katolíckych konzervatívne zameraných časopisov, lamentujúc nad tým, že sa neuskutočnili detailné vyšetrovania týkajúce sa podielu Židov v aparáte komunistickej moci, vyslovil názor hodný citovania: średni ľutovať (niekoho, niečo), nariekať (nad niekým, niečím) Tabela 7. Ekwiwalent tłumaczeniowy czasownika ubolewać Ekwiwalent lamentovať najczęściej występuje razem z formami po przyimkach z wyraźną przewagą przyimka nad, który się łączy z rzeczownikami o negatywnym nacechowaniu lub takimi, które je mogą nabyć pod wpływem kontekstu, jak na przykład zdravotný stav, následky, situácia, nešťastie, život, osud, minulosť. Czasownik lamentovať w języku słowackim jest rzadszy i również mocniej nacechowany niż polskie ubolewać. To potwierdza też Krátky slovník slovenského jazyka: ‚expr. nahlas prejavovať žiaľ, nespokojnosť, bolesť ap., horekovať, bedákať, nariekať‘ (Kačala, Pisárčiková, Považaj, 2003). Ze względu na różnicę w nacechowaniu jego potencjał leksykograficzny oceniono jako średni. ubolewać Dowiaduję się o artykułach w węgierskiej skrajnie prawicowej prasie, których autorzy ubolewali nad tym, że Węgry nie wykorzystały wojen bałkańskich do odzyskania przynajmniej części dawnych ziem. žalostiť średni Dozvedám sa o článkoch ľutovať (niekoho, niečo), v maďarskej krajne pravicovej nariekať (nad niekým, niečím) tlači, ktorých autori žalostia nad tým, že Maďari nevyužili balkánske vojny na znovuzískanie aspoň časti stratených území. Tabela 8. Ekwiwalent tłumaczeniowy czasownika ubolewać Ekwiwalent žalostiť ma ze wszystkich przytoczonych ekwiwalentów czasownika ubolewać najmniej wystąpień. Najczęściej występował w konstrukcjach z przyimkami, przede wszystkim z przyimkiem nad z wyrazami takimi jak: osud, sa (sebou), ty (tebou), nespravodlivosť. Czasownik žalostiť ma w słowniku Krátky slovník slovenského jazyka kwalifikator stylistyczny ‚kniž.‘ (książk.) i jego definicję słownikową wyrażają synonimy: ‚žialiť, smútiť, nariekať, bedákať‘ (Kačala, Pisárčiková, Považaj, 2003). Ze względu na wyższe nacechowanie stylistyczne jego potencjał leksykograficzny oceniono jako średni. Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym ubolewać Ale jeżeli należy ubolewać nad tym, że na froncie politycznym w Polsce giną Żydzi, to trzeba ubolewać również nad tym, że giną, i to w znacznie większej ilości, Polacy. bedákať Ale ak treba bedákať nad tým, že na politickom fronte v Poľsku sa strácajú Židia, takisto treba bedákať aj nad tým, že miznú, a to v oveľa väčšom množstve, Poliaci. 153 średni ľutovať (niekoho, niečo), nariekať (nad niekým, niečím) Tabela 9. Ekwiwalent tłumaczeniowy czasownika ubolewać Ekwiwalent bedákať, podobnie jak inne tutaj przytoczone ekwiwalenty, najczęściej występuje w wyrażeniach przyimkowych z wyraźną przewagą przyimka nad z rzeczownikami: úbohosť, nespravodlivosť, zloba, osud, bieda, nešťastie. W porównaniu z polskim czasownikiem ubolewać czasownik słowacki bedákať zawiera komponent semantyczny nawiązujący do czynności płakania, co wpływa na różnicę między nimi. rozciągać się Widok z okna na zachód rozciągał się aż do ulicy Bandurskiego. tiahnuť sa Výhľad z okna na západ sa tiahol až po Bandurského ulicu. średni - Tabela 10. Ekwiwalent tłumaczeniowy czasownika rozciągać się Czasownik rozciągać się jest użyty w znaczeniu: ‘zajmować pewną przestrzeń’ (Słownik języka polskiego [s.a.]). Prototypowym ekwiwalentem dla tego znaczenia jest czasownik rozkladať sa. Najczęstszymi połączeniami polskiego czasownika rozciągać się są rzeczowniki: widok, panorama, park, krajobraz. Jeśli spojrzymy na słowacki czasownik tiahnuť sa, wśród rzeczowników, z którymi się łączy, nie znajdziemy rzeczownika výhľad, i tak samo odwrotnie (wśród czasowników używanych z rzeczownikiem výhľad nie znajdziemy czasownika tiahnuť sa (to samo potwierdzają wyszukiwania na www.google.sk.). Natomiast z innymi wspomnianymi rzeczownikami czasownik tiahnuť sa może być używany. Są to zazwyczaj rzeczowniki, które oznaczają rodzaj krajobrazu naturalnego lub stworzonego przez człowieka – pobrežie, pláž, pohorie, hrebeň, polostrov, múr. rozlec się Nawiązując do stwierdzenia Winstona Churchilla, napisałeś, że jeśli w obecnej Polsce gdzieś o szóstej rano rozlegnie się dzwonek u drzwi, to nikt już nie może być pewny, że to tylko mleczarz. zazvoniť niski V súvislosti s konštatovaním Winstona Churchilla si napísal, že ak v súčasnom Poľsku niekde o šiestej ráno zazvoní zvonček pri dverách, už si nikto nemôže byť istý, že je to len mliekar. Tabela 11. Ekwiwalent tłumaczeniowy czasownika rozlec się Marianna Petrincová 154 Czasownik rozlec się użyty jest w znaczeniu ‘dać się słyszeć’ (Słownik języka polskiego [s.a.]). Ekwiwalent zazvoniť jest tłumaczeniem czasownika razem ze znaczeniem rzeczownika, z którym został użyty, jest więc kontekstowo ograniczony do tych argumentów, które wyrażają dany dźwięk, przede wszystkim dzwon lub dzwonek. rozlec się I tak trwaliśmy do północy w ogólnej niepewności, aż rozległ się ogłuszający huk, słyszalny nawet w piwnicy. rozľahnúť sa średni A tak sme čakali do polnoci v úplnej neistote, až sa rozľahol ohlušujúci huk, ktorý bolo počuť aj v pivnici. Tabela 12. Ekwiwalent tłumaczeniowy czasownika rozlec się Polski czasownik rozlec się jest tu użyty w tym samym znaczeniu jak w poprzednim przykładzie. Ekwiwalent rozľahnúť sa jest ograniczony do użycia z rzeczownikami, które oznaczają bardzo głośne dźwięki lub ticho. 7. Ocena fazy pilotażowej W analizie przedstawionej w tej prezentacji pokazano, jak równoległe korpusy mogą być zastosowane do podniesienia jakości słowników dwujęzycznych dzięki dostarczeniu ekwiwalentów tłumaczeniowych wyekscerpowanych z przekładów. Ze względu na to, że przedstawione tu badania wciąż znajdują się na etapie początkowym, staramy się dostosowywać procedury oceny ekwiwalentów do pojawiających się problemów. Przede wszystkim należy wziąć pod uwagę wysoką liczbę znalezionych czasowników; zmieniono także formułę wyrażenia regularnego. Kolejnym krokiem będzie prawdopodobnie zastosowanie metody próbkowania. Istotnym problemem jest ciągła potrzeba dostosowywania metody oceny tak, żeby była ona jak najbardziej obiektywna, ale bez rezygnacji z wiedzy i świadomości rodzimego użytkownika badanych języków lub użytkownika na poziomie zaawansowanym. Wreszcie ostatnim z zauważonych problemów jest jakość i ilość informacji dostarczanych przez narzędzie Word Sketch, ponieważ wyniki, które są otrzymywane, mają umiarkowanie odrębny charakter dla polskiego i słowackiego korpusu referencyjnego. Mimo problemów napotykanych w trakcie prowadzenia badań, mamy nadzieję, że otrzymany materiał będzie można wykorzystać do pracy nad przyszłymi słownikami polsko-słowackimi. Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym 155 Literatura Kačala, Ján, Pisárčiková, Mária, Považaj, Matej (2003): Krátky slovník slovenského jazyka. 4. vydanie. slovnik.juls.savba.sk, (25-03-2015). Marićová, Anna (2008): Slovesné predpony v slovenčine a srbčine. Báčsky Petrovec: Slovenské vydavatel.centrum. Perdek, Magdalena (2011): English phrasal verbs in translation: A lexicographic and corpus study of equivalence. (rozprawa doktorska). Poznań: Uniwersytet im. Adama Mickiewicza. plTenTen12. Sketch Engine [s.a.]: http://www.sketchengine.co.uk, (25-03-2015). skTenTen11. Sketch Engine [s.a.]: http://www.sketchengine.co.uk, (25-03-2015). Słownik języka polskiego [s.a.]: sjp.pwn.pl, (25-03-2015). Stano, Mikuláš, Buffa, Ferdinand (1975): Poľsko-slovenský a slovensko-poľský slovník. –Bratislava: Slovenské pedagogické nakladateľstvo. Krzysztof Wołk Polsko-Japońska Akademia Technik Komputerowych, Warszawa Emilia Rejmund Polsko-Japońska Akademia Technik Komputerowych, Warszawa Krzysztof Marasek Polsko-Japońska Akademia Technik Komputerowych, Warszawa Multi-domain machine translation enhancements by parallel data extraction from comparable corpora Poprawa jakości tłumaczenia maszynowego dla wielu domen poprzez ekstrakcję danych równoległych z korpusów porównywalnych Streszczenie Teksty równoległe to zasób językowy spotykany stosunkowo rzadko, jednak stanowiący bardzo użyteczny materiał badawczy o szerokim zastosowaniu np. podczas międzyjęzykowego wyszukiwania informacji oraz w statystycznym tłumaczeniu maszynowym. Niniejsze badanie prezentuje i analizuje opracowane przez nas nowe metody pozyskiwania danych z korpusów porównywalnych. Metody te są automatyczne i działają w sposób nienadzorowany, co czyni je użytecznymi w budowie korpusów równoległych na szeroką skalę. W niniejszym badaniu proponujemy metodę automatycznego przeszukiwania sieci w celu zbudowania korpusów porównywalnych zrównoleglonych na poziomie tematu, np. na podstawie danych z Wikipedii czy strony Euronews.com. Opracowaliśmy również nowe metody pozyskiwania równoległych zdań z danych porównywalnych oraz proponujemy metody filtracji korpusów równoległych zdolne selekcjonować niezgodne ze sobą lub tylko częściowo ekwiwalentne pary zdań. Za pomocą naszych metod można pozyskać zasoby równoległe dla dowolnej pary języków. Ewaluację jakości zbudowanych korpusów przeprowadzono poprzez analizę wpływu ich użycia na systemy statystycznego tłumaczenia maszynowego przy wykorzystaniu typowych miar jakości tłumaczenia. Eksperymenty zostały zaprezentowane na przykładzie pary językowej polski-angielski dla różnego typu tekstów, tj. wykładów, rozmówek turystycznych, dialogów filmowych, zapisów posiedzeń Europarlamentu oraz tekstów zawartych w ulotkach leków. Przetestowaliśmy także drugą metodę tworzenia korpusów równoległych na podstawie danych z korpusów Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek 158 porównywalnych, pozwalającą automatycznie poszerzyć istniejący korpus zdań z danej tematyki, wykorzystując znalezione między nimi analogie. Metoda ta nie wymaga posiadania wcześniejszych zasobów równoległych celem stworzenia i dostosowania klasyfikatora. Wyniki naszych eksperymentów są obiecujące. Z artykułów Wikipedii udało się pozyskać prawie pół miliona zdań równoległych i niespełna 5.000 z portalu Euronews.com (z wykorzystaniem pierwszej z metod) oraz 114.000 z Wikipedii, wykorzystując analogie między artykułami. Pozyskane dane wpłynęły pozytywnie na jakość tłumaczenia maszynowego, która została zmierzona popularnymi miarami automatycznymi tj. BLEU, NIST, TER oraz METEOR. Jednak dane pozyskane automatycznie po manualnej analizie okazały się „zaszumione”, dlatego też podjęto próbę ich automatycznego przefiltrowania. Metodę filtrowania danych zbadano, porównując jej wyniki z wynikami uzyskanymi przy zastosowaniu metody polegającej na ocenie ludzkiej, a także badając jej wpływ na tłumaczenie maszynowe. Filtrowanie okazało się skuteczne, gdyż polepszyło ostateczne wyniki statystycznego tłumaczenia maszynowego. Keywords: parallel corpus, Polish, English, machine learning, comparable corpora, NLP Słowa kluczowe: korpus równoległy, język polski, język angielski, uczenie maszynowe, korpusy porównywalne, NLP 1. Introduction Parallel sentences are an invaluable information resource especially for machine translation systems as well as for other cross-lingual information-dependent tasks. Unfortunately, such a type of data is quite rare, even for the Polish-English language pair. On the other hand, monolingual data for those languages is accessible in far greater quantities. We can classify the similarity of data as four main corpora types (Wu, Fung, 2005). The most rare is a parallel corpus. It is a collection of texts, each of which is translated into one or more languages other than the original. Such data should be aligned at least at the sentence level. A noisy-parallel corpus contains bilingual sentences that are not perfectly aligned or which have not been precisely translated. Nevertheless, they should mostly contain translations of specific phrases within a document. A comparable corpus is built from non-sentence-aligned and not-translated bilingual documents, but the documents should be topic-aligned. A quasi-comparable corpus includes very heterogeneous and very non-parallel bilingual documents that can – but do not have to – be topic-aligned (Wu, Fung, 2005). In this article we present methodologies that allow us to obtain truly parallel corpora from data sources, which have not been sentence-aligned, such Multi-domain machine translation enhancements by parallel data extraction... 159 as noisy-parallel or comparable corpora. For this purpose, we used a set of specialized tools for obtaining, aligning, extracting and filtering text data, combined together into a pipeline that allows us to complete the task. We present the results of our initial experiments based on text samples obtained from Wikipedia dumps and the Euronews web page. We chose Wikipedia as a source of data because of a large number of documents that it provides (1,047,423 articles on PL Wiki and 4,524,017 on EN Wiki at the time of writing this article). Furthermore, Wikipedia contains not only comparable documents, but also some documents that are translations of each other. The quality of our approach is measured by improvements in machine translation (MT) results. The second method is based on sequential analogy detection. We seek to obtain parallel corpora from unaligned data. Such an approach was presented in literature (Koehn, Haddow, 2012; Chu, Nakazawa, Kurohashi, 2013), but all applications concern similar languages with similar grammars like English-French, Chinese-Japanese. We try to apply this method for English-Polish corpora. These two languages have different grammar, which makes our approach innovative and can easily be adapted for different languages pairs. In our approach, to enhance the quality of identified analogies, sequential analogy clusters are sought. 2. Review of literature The development on Statistical Machine Translation (SMT) systems for Polish has progressed slower than for other more popular languages in recent years. The tools used for mainstream languages were not adapted for Polish. As far as comparable corpora are concerned, many attempts have been made (especially for Wikipedia), but none of them for the Polish language. Two main approaches for building comparable corpora can be distinguished. Probably the most common approach is based on the retrieval of cross-lingual information from texts. In the second approach, source documents need to be translated using any machine translation system. The documents translated in that process are then compared with documents written in the target language in order to find the most similar document pairs. Skadiņa and Aker (2006) suggested obtaining only the title and some meta-information, such as publication date and time for each document instead of its full contents in order to reduce the cost of building the comparable corpora (CC). The cosine similarity of title term frequency vectors were used to match titles and contents of matched pairs. 160 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek An interesting idea for mining parallel data from Wikipedia was described in Adafree and de Rijke (2014). The authors propose two separate approaches. The first idea is to use an online machine translation (MT) system to translate Dutch Wikipedia pages into English and they try to compare original EN pages with the translated ones. The idea, however interesting, is most likely computationally unreasonable and this is an example of the chicken-andegg problem. The second idea uses a dictionary generated from Wikipedia titles and shared hyperlinks between documents. Unfortunately, the second method was reported to return numerous noisy sentence pairs. Kilgarriff, Avinesh and Pomikalek (2011) improve the BootCat method that was proven to be fast and effective as far as corpus building is concerned. The authors try to extend this method by adding support for multilingual data and also present a pivot evaluation. Interwiki links were utilized by Tyer and Pienaar (2008). Based on the Wikipedia link structure a bilingual dictionary is extracted. In their work they measured the mismatch between linked Wikipedia pages. They found that their precision is about 69-92% depending on a language. Smith, Quirk and Toutanova (2010) try to advance the state of the art in parallel data mining by modeling document level alignment using the observation that parallel sentences can most likely be found in close proximity. They also use annotation available on Wikipedia and an automatically induced lexicon model. The authors report precision of about 90 percent. What is more Pal, Pakray and Naskar (2014) introduce an automatic alignment method of parallel text fragments by using a textual entailment technique and a phrase-base Statistical Machine Translation (SMT) system. The authors state that a significant improvement in SMT quality was obtained (an increase in BLEU by 1.73) by using mined data. Strotgen and Gertz (2012) introduce a document similarity measure that is based on events. In order to count the values of this metric, documents are modeled as sets of events that are temporal and geographical expressions are found in the documents. Target documents are ranked based on temporal and geographical hierarchies. In this research a Yalign tool is used (described in detail in section 4.1). The solution is far from perfect but after improvements that were made during this study, it supplied the SMT systems with bi-sentences of good quality in a reasonable amount of time. Multi-domain machine translation enhancements by parallel data extraction... 161 3. Preparation of the data Our procedure starts with a specialized web crawler implemented by us. Because PL Wiki contains less data of which almost all articles have their corresponding entries on EN Wiki, the program crawls data starting from the non-English site first. The crawler can obtain and save bilingual articles of any language supported by Wikipedia. The tool requires at least two Wikipedia dumps in different languages and information about language links between the articles in the dumps. For Euronews.com another web crawler was used. It generates a database of parallel articles in two selected languages in order to collect comparable data from it. Before a mining tool processes the data the texts must be prepared. First, all the data is saved in a database. Secondly, the tool aligns pairs of articles and removes the articles that do not exist in both languages from the database. Such topic-aligned articles are filtered in order to remove any HTML, XML tags or noisy data (tables, references, figures, etc.). Finally, bilingual documents are tagged with a unique ID and form a topic-aligned comparable corpus. For the experiments in statistical machine translation we choose the domain of TED lectures, specifically the PL-EN TED1 corpora prepared for the IWSLT (International Workshop on Spoken Language Translation) 2013 evaluation campaign by the FBK (Fondazione Bruno Kessler). This domain is very wide and covers many subjects and areas. The data contains almost 2,5M untokenized words (Cetollo, Girardi, Federico, 2012). Additionally, we choose two more narrow domains: The first parallel corpus is made out of PDF documents from the European Medicines Agency (EMEA) and medicine leaflets (Tiedemann, 2009). The second was extracted from the proceedings of the European Parliament (EUP) (Tiedemann, 2012). We also conducted experiments on the Basic Travel Expression Corpus (BTEC), a multilingual speech corpus containing tourism-related sentences similar to those that are usually found in phrasebooks for tourists going abroad (Marasek, 2012). Lastly, we used a corpus built from the movie subtitles Open Subtitles (OPEN) (Tiedemann, 2009). Table 1 presents details of the numbers of unique words (WORDS) and their forms as well as of the numbers of bilingual sentence pairs (PAIRS) in each of the corpora. CORPORA BTEC TED EMEA EUP OPEN Table 1. Corpora specification 1 https://www.ted.com/talks PL WORDS 50,782 218,426 148,230 311,654 1,236,088 EN WORDS 24,662 104,117 109,361 136,597 749,300 PAIRS 220,730 151,288 1,046,764 632,565 33,570,553 162 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek As mentioned, our procedure can be divided into three main steps. First the data is collected, then it is aligned at the article level, and lastly the results of the alignment are mined for parallel sentences. The last two steps are not trivial because of the disparities between Wikipedia documents. Based on the Wikipedia statistics we know that an average article on PL Wiki contains about 379 words, whereas on EN Wiki it has 590 words. The corpus might also contain imprecise or indirect translations or totally new texts making the alignment difficult. Thus, alignment is crucial for accuracy of the mining process. Sentence alignment must also be computationally feasible in order to be of practical use in various applications. The Polish language presents a particular challenge to the application of such tools. It is a complicated West-Slavic language with relatively complex lexical elements and complicated grammatical rules. In addition, Polish has a large vocabulary due to prefixes and many endings representing word declension. These characteristics have a significant impact on the data and data structure requirements. In contrast, English is a position-sensitive language. The syntactic order (the order of words in a sentence) plays a significant role, and inflection of words is limited (due to the lack of declension endings). The position of a word in an English sentence is often the only indicator of its function. The sentence order follows the Subject-Verb-Object (SVO) schema, with the subject phrase preceding the predicate. On the other hand, no specific word order is imposed in Polish, and the word order has little effect on the meaning of a sentence. The same idea can be expressed in several ways. It must be noted that such differences exist in many language pairs and need to be dealt with in some way (Wołk, Marasek, 2013a). With this methodology we were able to obtain 4,498 topic-aligned articles from Euronews and 492,906 from Wikipedia. 4. Parallel data mining In order to extract parallel sentence pairs, we decided to try two different strategies. The first one is facilitated by the Yalign tool2 and the second is based on analogy detection. The MT results we present in this article were obtained with the first strategy. The second method is still in its development phase, nevertheless the initial results are promising and worth mentioning. 2 https://github.com/machinalis/yalign Multi-domain machine translation enhancements by parallel data extraction... 163 4.1 The Yalign tool The Yalign tool was designed in order to automate the parallel text mining process by finding sentences that are close translation matches from the comparable corpora. This opens up avenues for harvesting parallel corpora from comparable sources like bilingual documents and the web. What is more, Yalign is not limited to any language pair, however the creation of unique alignment models for two required languages is necessary. The Yalign tool was implemented using a sentence similarity metric that produces a rough estimate (a number between 0 and 1) of how likely it is for two sentences to be a translation of each other. Additionally, it uses a sequence aligner that produces an alignment that maximizes the sum of the individual (per sentence pair) similarities between two documents. Yalign’s algorithm is actually a wrapper before the standard sequence alignment algorithm3. For the sequence alignment, Yalign uses a variation of the Needleman-Wunch algorithm4 (originally used for DNA sequences) to find an optimal alignment between the sentences in two given documents. The algorithm has polynomial time worst-case complexity and it produces an optimal alignment. Unfortunately, it cannot handle alignments that cross each other or alignments from two sentences into a single one4. Since the sentence similarity calculation is a computationally-expensive operation, the implemented variation of the Needleman-Wunch algorithm uses the A* approach to explore the search space instead of using the classical dynamic programming method that would require N * M calls to the sentence similarity matrix. After the alignment, only sentences that have a high probability of being translations of each other are included in the final alignment. The result is filtered in order to deliver high quality alignments. To do this, a threshold value is used, such that if the sentence similarity metric is too low, the pair is excluded. For the sentence similarity metric, the algorithm uses a statistical classifier’s likelihood output and adapts it into the <0,1> range. The classifier must be trained in order to determine if a pair of sentences is a translation of each other or not. The particular classifier used in the Yalign project was the Support Vector Machine (SVM). Besides being an excellent classifier, SVMs can provide a distance to the separation hyperplane during classification, and this distance can be easily modified using the Sigmoid Function to return the likelihood between 0 and 1 3 http://yalign.readthedocs.org/en/latest/ 4 https://www.cs.utoronto.ca/~brudno/bcb410/lec2notes.pdf 164 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek (Thorsten, 2005). The use of a classifier means that the quality of the alignment depends not only on the input but also on the quality of the trained classifier. Unfortunately, the Yalign tool is not computationally feasible when large-scale parallel data mining is concerned. The standard implementation accepts as input plain text or web links that need to be accepted, and for each pair alignment the classifier is loaded into memory. In addition, Yalign is single-threaded. In order to improve the performance, we developed a solution that supplies Yalign tool with articles from the database within one session, with no need to reload the classifier each time. What is more, our solution facilitated multithreading and proved to increase the mining time by the factor of 5 (using a 4 core, 8 thread Core i7 CPU). To train the classifier, a good quality parallel data was necessary as well as a dictionary with translation probabilities included. For this purpose, we used TED talks (Cetollo, Girardi, Federico, 2012) corpora enhanced by us during the IWSLT’13 Evaluation Campaign (Wołk, Marasek, 2013a). In order to obtain a dictionary, we built a phrase table and extracted 1-grams from it. We used the MGIZA++ tool for word and phrase alignment. The lexical reordering was set to use the msd-bidirectional-fe method and the symmetrisation method was set to grow-diag-final and for word alignment processing (Wołk, Marasek, 2013). We used the four previously-described corpora as bilingual training data. We obtained four different classifiers and repeated mining procedure with each of them. Using this method, we successfully mined about 80MB corpora from Wikipedia and 0,3MB from Euronews. Each of the parallel data sets were combined together into one big corpus on which the MT experiments were conducted. The detailed results for Wikipedia are presented in Table 2. During the empirical research we realized that, as in the case of machine translation in which different results and quality measures are obtained depending on whether the system was trained from foreign to native language or opposite, Yalign suffers from a similar problem. In order to cover as much parallel data as possible during mining, it is also necessary to train the classifiers bidirectionally as far as specific language pairs are concerned. By doing so, additional bi-sentences can be found. Some of them will be repeated, however, in our opinion, the potential increase of the size of parallel corpora is worth that effort. Table 3 demonstrates how many sentences were obtained in the second phase of mining as well as how many of them were overlapping. The number of additionally-mined data is counted as well. Multi-domain machine translation enhancements by parallel data extraction... Classifier Value TED Size in MB No. of sentences No. of words No. of unique words BTEC Size in MB No. of sentences No. of words No. of unique words EMEA Size in MB No. of sentences No. of words No. of unique words EUP Size in MB No. of sentences No. of words No. of unique words OPEN Size in MB No. of sentences No. of words No. of unique words 165 PL 41,0 357,931 5,677,504 812,370 3,2 41,737 439,550 139,454 0,15 1,507 18,301 7,162 8,0 74,295 1,118,167 257,338 5,8 25,704 779,420 219,965 EN 41,2 357,931 6,372,017 741,463 3,2 41,737 473,084 127,820 0,14 1,507 21,616 5,352 8,1 74,295 1,203,307 242,899 5,7 25,704 854,106 198,599 Table 2. Data mined from Wikipedia for each classifier Classifier TED BTEC EMEA EUP OPEN Value Recognized sentences Overlapping sentences Newly obtained Recognized sentences Overlapping sentences Newly obtained Recognized sentences Overlapping sentences Newly obtained Recognized sentences Overlapping sentences Newly obtained Recognized sentences Overlapping sentences Newly obtained Table 3. Corpora statistics obtained in the second mining phase Data Mined 132,611 61,276 71,335 12,447 9,334 3,113 762 683 79 23, 952 21,304 2,648 11,751 7,936 3,815 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek 166 4.2 The analogy-based method This method is based on sequential analogy detection. Based on a parallel corpus we detect analogies that exists between both languages. In order to enhance the quality of identified analogies, sequential analogy clusters are sought. However, our current research on the Wikipedia corpora shows that it is both extremely difficult and machine-time-consuming to seek clusters of higher orders. Therefore, we limited our search to simple analogies such as A is to B in the same way as C is to D. A:B::C:D Such analogies are found using distance calculation. We seek such sentences that: dist(A,B)=dist(C,D) and dist(A,C)=dist(B,D) An additional constrain was added that requires the same relation of occurrences of each character in the sentences. For example, if the number of character “a” in sentence A is equal to x and equal to y in sentence B then the same relation must occur in sentences C and D. We used the Levenshtein metric in our distance calculation. We tried to apply it directly to the characters in a sentence, or consider each word in a sentence as an individual symbol, and calculate the Levenshtein distance between symbol-coded sentences. The latter method was employed because it had earlier been tested on the Chinese and Japanese languages (Yang, Lepage, 2014) which use symbols to represent entire words. After clustering, the data from clusters are compared to each other to find similarities between them. For each four sentences A:B::C:D we look for such E and F that: C:D::E:F and E:F::A:B However, no such sentences were found in our corpus, therefore we limited our analysis to small clusters of the size of 2 pairs of sentences. In every cluster, matching sentences from the parallel corpus were identified. It let us generate new sentences similar to the ones which are in our corpus and add them to the resulting data set. For each of sequential analogies which were identified, Multi-domain machine translation enhancements by parallel data extraction... 167 a rewriting model is constructed. This is achieved by string manipulation. Common prefixes and suffixes for each of the sentence pairs are calculated using the LCS (Longest Common Subsequence) method. A sample of the rewriting model is shown in this example (the prefix and the suffix are shown in bold) Poproszę koc i poduszkę. ↔ A blanket and a pillow, please. Czy mogę poprosić o śmietankę i cukier? ↔ Can I have cream and sugar? The rewriting model consists of a prefix, a suffix and their translation. It is now possible to construct a parallel corpus form a non-parallel monolingual source. Each sentence in the corpus is tested for a match with the model. If a sentence contains a prefix and a suffix, it is considered a matching sentence. Poproszę bilet. ↔ A unknown, please. In the matched sentence some of the words remain untranslated but the general meaning of the sentence is conveyed. Remaining words may be translated wordby-word while the translated sentence will remain grammatically correct. bilet ↔ ticket By substituting unknown words with their translations, we are able to create a parallel corpus entry. Poproszę bilet. ↔ A ticket, please. As a result of the sequential analogy-detection-based method we mined 8,128 models from our Wikipedia parallel corpus. This enabled us to generate 114,000 new sentence pairs to build a parallel corpus. The sentences were generated from the Wikipedia comparable corpus that contains extracts of Wikipedia articles. Therefore, we have articles in Polish and English on the same topic, but sentences are not aligned in any particular way. We use rewriting models to match sentences from the Polish article to sentences in English. Whenever the model can be successfully applied to a pair of sentences, this pair is considered to be parallel resulting in the generation of a quasi-parallel corpus (‘quasi’, since the sentences are aligned artificially using the approach described above). These parallel sentences can be used to extend parallel corpora in order to improve the quality of the SMT system. 168 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek 5. Evaluation In order to evaluate the corpora, we divided each corpus into 200 segments and randomly selected 10 sentences from each segment. This methodology ensured that the test sets covered the entire corpus. The selected sentences were removed from the corpora. We trained the baseline system, as well as the system with extended training data with the Wikipedia corpora and next we used Modified Moore Levis Filtering for the Wikipedia corpora domain adaptation. Additionally, we used the monolingual part of the corpora as a language model and we tried to adapt it for each corpus by using linear interpolation (Koehn, Haddow, 2012). Summing up, the evaluation was done using test sets built from 2,000 randomly selected bi-sentences taken from each domain. For scoring purposes we used four well-known metrics that show high correlations with human judgments. Among the commonly used SMT metrics are: Bilingual Evaluation Understudy (BLEU), the U.S. National Institute of Standards & Technology (NIST) metric, the Metric for Evaluation of Translation with Explicit Ordering (METEOR), and Translation Error Rate (TER). According to Tiedemann (2012) BLEU uses textual phrases of varying length to match SMT and reference translations. The scoring with this metric is determined by the weighted averages of these matches. To evaluate infrequently-used words, the NIST (Wołk, Marasek, 2014a) metric scores the translation of such words higher and uses the arithmetic mean of n-gram matches. Smaller differences in phrase length incur a smaller brevity penalty. This metric has shown advantages over the BLEU metric. The METEOR (Wołk, Marasek, 2014a) metric also changes the brevity penalty used by BLEU, uses the arithmetic mean like NIST, and considers matches in word order through examination of higher order n-grams. These changes increase the score based on recall. This metric also considers best matches against multiple reference translations when evaluating the SMT output. TER (Wołk, Marasek, 2014a) compares the SMT and reference translations to determine the minimum number of edits a human would need to make the sentence pairs equivalent in both fluency and semantics. The closest match to a reference translation is used in this metric. There are several types of edits considered: word deletion, word insertion, word order, word substitution, and phrase order. Multi-domain machine translation enhancements by parallel data extraction... 169 6. Experimental results A set of experiments was performed to evaluate various versions for our SMT systems. Each experiment involved a number of steps. The corpora were processed, including tokenization, cleaning, factorization, lowercasing, splitting, and final cleaning after splitting. Training data was processed, and the language model was developed. Tuning was performed for each experiment. Lastly, the experiments were carried out. The baseline system testing was done using the Moses open source SMT toolkit with its Experiment Management System (EMS) (Wołk, Marasek, 2013b). The SRI Language Modeling Toolkit (SRILM) (Wołk, Marasek, 2013b) with an interpolated version of the Kneser-Key discounting (–interpolate –unk –kndiscount) was used for 5-gram language model training. We used the MGIZA++ tool for word and phrase alignment. KenLM (Heafield et al., 2013) was used to binarize the language model, with a lexical reordering using the msd-bidirectional-fe model. The symmetrisation method was set to grow-diag-final-and for word alignment processing. Starting from baseline systems (BASE) tests in the PL to EN and EN to PL directions, we improved translation score through: • extending the language model (LM), • interpolating it (ILM) • extending corpora with additional data (EXT) • filtering additional data with Modified Moore Levis Filtering (MML) (Koehn, Haddow, 2012). It must be noted that the extension of language models was done on the systems with the corpora after MML filtration. The results of the experiments are shown in Tables 4 and 5. Corpus TED BTEC System BASE EXT MML LM ILM BASE EXT MML LM ILM BLEU 16,96 16,96 16,84 17,14 17,64 11,20 12,96 12,80 13,23 13,60 NIST 5,26 5,29 5,25 5,27 5,48 3,38 3,72 3,71 3,78 3,88 TER 67,10 66,53 67,55 67,66 64,35 77,35 74,58 76,12 75,68 74,96 METEOR 49,42 49,66 49,31 49,95 51,19 33,20 38,69 38,40 39,16 39,94 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek 170 Corpus EMEA EUP OPEN System BASE EXT MML LM ILM BASE EXT MML LM ILM BASE EXT MML LM ILM BLEU 62,60 62,41 62,72 62,90 62,93 36,73 36,16 36,66 36,69 36,72 64,54 65,49 65,16 65,53 65,87 NIST 10,19 10,18 10,24 10,24 10,27 8,38 8,24 8,32 8,34 8,34 9,61 9,73 9,62 9,70 9,74 TER 36,06 36,15 35,98 35,73 35,48 47,10 47,89 47,25 47,13 47,28 32,38 32,49 33,79 32,94 32,89 METEOR 77,48 77,27 77,47 77,63 77,87 70,94 70,37 70,65 70,67 70,79 77,29 77,27 76,45 77,00 77,08 NIST 3,95 3,84 3,97 4,01 4,14 2,73 2,71 2,74 2,78 2,86 9,41 9,28 9,26 9,23 9,30 6,54 6,38 6,38 6,33 6,41 5,46 5,46 5,46 5,46 5,46 TER 74,87 75,67 74,12 73,93 73,12 85,27 84,45 83,84 82,30 82,65 40,88 42,15 42,18 42,58 42,05 58,08 59,40 59,34 59,74 59,27 62,24 62,06 62,13 62,61 62,43 METEOR 33,64 33,80 33,77 34,12 34,23 27,22 27,14 27,30 27,39 28,29 70,38 69,47 69,23 69,10 69,61 48,46 47,44 47,40 47,24 47,64 47,47 47,26 47,31 47,29 47,33 Table 4. Polish to English MT experiments Corpus TED BTEC EMEA EUP OPEN System BASE EXT MML LM ILM BASE EXT MML LM ILM BASE EXT MML LM ILM BASE EXT MML LM ILM BASE EXT MML LM ILM BLEU 10,99 10,86 11,01 11,54 11,86 8,66 8,46 8,50 8,76 9,13 56,39 55,61 55,52 55,38 55,62 25,74 24,93 24,88 24,64 24,94 31,55 31,49 31,33 31,22 31,39 Table 5. English to Polish MT experiments Multi-domain machine translation enhancements by parallel data extraction... 171 The results shown in Tables 4 and 5, specifically the BLEU, Meteor and TER values in the TED corpus, were checked for relevant differences. We measured the variance due to the BASE and MML set selection. It was calculated using bootstrap resampling5 for each test run. The result for BLEU was 0.5, and 0.3 and 0.6 for METEOR and TER respectively. The results over 0 mean that there is a significant difference between the test sets and it indicates that a difference of this magnitude is likely to be generated again by a random translation process, which would most likely lead to better translation results in general. (Clark, Dyer, Lavie, Smith, 2011) In order to verify above conclusion, we decided to train an SMT system using only data extracted from comparable corpora (not using the original in domain data). The mined data were used also as a language model. The evaluation was conducted on the same test sets that were used in Tables 4 and 5. We wanted to check how such a system would cope with a translation of domain specific text samples. This experiment would possibly verify the influence of additional data on translation quality and analyze the similarity between mined data and in-domain data. Tables 6 and 7 present these results. The rows named BASE show the results for baseline systems trained on original in-domain data, the rows named MONO show systems trained only on mined data in one direction, and finally the rows named BI present the results for system trained on data mined in two directions with duplicate segments removed. Corpus TED BTEC EMEA EUP OPEN System BASE MONO BI BASE MONO BI BASE MONO BI BASE MONO BI BASE MONO BI BLEU 16,96 10,66 11,90 8,66 8,46 8,50 56,39 13,72 14,07 25,74 15,52 16,61 31,55 9,90 10,67 NIST 5,24 4,13 4,13 2,73 2,71 2,74 9,41 3,95 4,05 6,54 5,07 5,24 5,46 3,08 3,21 Table 6. PL to EN translation results using bi-directional mined data 5 https://github.com/jhclark/multeval TER 67,04 74,63 74,59 85,27 84,45 83,84 40,88 89,58 89,12 58,08 7155 71,08 62,24 84,02 83,12 METEOR 49,40 41,02 42,46 27,22 27,14 27,30 70,38 39,23 40,22 48,46 51,01 52,49 47,47 32,88 34,35 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek 172 Corpus TED BTEC EMEA EUP OPEN System BASE MONO BI BASE MONO BI BASE MONO BI BASE MONO BI BASE MONO BI BLEU 9,97 6,90 7,14 8,66 8,46 8,76 56,39 13,66 13,64 25,74 9,92 9,35 31,55 6,32 6,53 NIST 3,87 3,09 3,18 2,73 2,71 2,78 9,41 3,95 3,93 6,54 4,10 4,02 5,46 2,23 2,27 TER 75,36 81,21 78,83 85,27 84,45 82,30 40,88 77,82 77,47 58,08 72,51 72,54 62,24 92,40 89,03 METEOR 32,82 27,00 27,76 27,22 27,14 27,39 70,38 32,16 32,83 48,46 32,06 31,65 47,47 22,72 22,94 Table 7. EN to PL translation results using bi-directional mined data The results of SMT systems based only on mined data were not surprising. Firstly, they confirm the quality and a high level of parallelism of the corpora that can be concluded from the high translation quality measured during experiments, especially for the TED data set. Only a two- BLEU-point gap can be observed when comparing the systems trained on the strict in-domain (TED) data and the mined data, when it comes to the EN – PL translation system. It lso seems natural that the best SMT scores were obtained on the TED data. It is not only most similar to the Wikipedia articles and overlaps with it in many topics, but also the Yalign’s classifier trained on the TED data set recognized most of parallel sentences. In consequence it can also be observed that the METEOR metric rises in some cases whereas other metrics decrease. The most likely reason for this is the fact that other metrics suffer, in comparison to the METEOR, from the lack of scoring mechanism for synonyms. Wikipedia is very rich not only when we consider its topics but also its vocabulary, which leads to a conclusion that mined corpora are a good source for extending sparse text domains. It is also the reason why the test sets originating from wide domains outscore narrow-domain ones. In addition, it is the most likely explanation why sometimes training on larger mined data slightly decreases results on test sets from very specific domains. Nonetheless, it must be noted that after a manual analysis we conceded that in many cases translations were good but automatic metric became lower because of the usage of synonyms. We also confirm once more that bi-directional mining has a positive influence on the output corpora. Multi-domain machine translation enhancements by parallel data extraction... 173 Using the corpus of sentences generated with the analogy detection method, we obtained results presented in Table 8. We used the TED corpus for the experiments. Expanding the corpus with newly-generated sentences gave decreased results for all metrics. We seek a reason of this phenomenon and as a solution we tried to use sentences generated by the analogy method as a training corpus. The results of the experiment with the corpus obtained by this approach are presented in Table 8. PL-EN TED Baseline Analogy corpus EN-PL TED Baseline Analogy corpus BLEU 19,69 16,44 BLEU 9,97 9,74 NIST 5,24 5,15 NIST 3,87 3,84 TER 67,04 68,05 TER 75,36 75,21 MET 49,40 49,02 MET 32,82 32,55 Table 8. Results on the TED corpus trained with an additional analogy based corpus As a reason of such results we conclude that the analogy method is designed to extend existing parallel corpora from non-parallel data available. However, in order to establish a meaningful baseline, we decided to test a noisy-parallel corpus mined independently using this method. Therefore, the results are less favorable then the ones obtained using the Yalign method. Had we done otherwise, filtering effects would not have shown up in the test scores as the corpora differ significantly in size. As a solution to this problem, we decided to apply two different methods of filtering described in more detail in section 7. 7. Discussion and conclusions Nowadays, bi-sentence extraction is becoming increasingly popular in unsupervised learning for numerous specific tasks. The method overcomes the disparities between English and Polish or any other West-Slavic languages. It is a language independent method that can easily be adjusted to a new environment, and it only requires parallel corpora for initial training. The experiments show that the method performs well. The obtained corpora increased the MT quality in wide text domains. A decrease or very small score differences in narrow domains are understandable because such a wide text domain as Wikipedia most likely adds unnecessary n-grams to a very specific domain that do not exist in test sets. Nonetheless, we can assume that even small differences can have a positive influence on real-life rare translation scenarios. In addition, we have demonstrated that mining data using two classifiers trained from a foreign to native (PL to EN) language and in the opposite direction (EN to PL) can significantly improve the quantity of the mined data even if some repetition occurs. 174 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek Such bi-directional mining, which is logical, found additional data mostly for domains if wide range. In narrow text domains, the potential gain was not worth the effort. From the practical point of view, the method neither requires expensive training nor requires language-specific grammatical resources, while producing satisfactory results. We are able to replicate such mining for any language pair or text domain. Nevertheless, there is still some room for improvement in two areas. In the presented experiments the amount of obtained data is not completely satisfactory. It must be mentioned that the classifier that was trained on the wide TED Talks corpora provided the biggest parallel corpus. When the classifier was trained with corpora from other narrow domains, like e.g. proceedings of the European parliament, medical texts, etc., the results of mining differed in size and content. The texts were narrowed just to the scope of one specific domain. Although a small improvement in translation quality was demonstrated, the limitation of the classifier domain provided data that did not extend the original corpora, as we had anticipated. Because of that it is of interest to train universal models and combine extracted corpora together in order to cover more translation scenarios. Moreover, developing a tuning script for acceptance parameters in the Yalign tool would most likely provide better results. Unfortunately, it has to be noted that the final corpora contain noisy data. They contain mostly good translations but also some badly-aligned ones as well as some that are about the same topic but the translation is far too indirect to improve the MT quality. This is also the most likely reason for a small decrease in translation quality for tnarrow text domains. Filtering out such noisy data would certainly improve the influence of corpora on translations. We are currently working on a tool that should be able to filter such data. Our strategy is to find a correct translation of each Polish line using any translation engine. We translate all lines of the Polish file (src.pl) with a translator and put each translation line in an intermediate English translation file (src. trans). This intermediate translation helps us find the correct line in the English translation file (src.en) and put it in the correct position or remove incorrect pairs from the corpora. However, there are additional complexities that must be addressed. Comparing the src.trans lines with the src.en lines is not easy, and it becomes harder when we want to use the similarity rate to choose the correct, real-world translations. There are many strategies to compare two sentences. We can split each sentence into tokens and find the number of words in both sentences. However, this approach has some problems. For example, let us compare “It is origami.” to these sentences: “The common term origami is about how we use paper to create a form from it.” and “This is origami.” Is such Multi-domain machine translation enhancements by parallel data extraction... 175 a case a sentence “This is origami.” would be considered as less similar, which is obviously wrong. Firstly, it is necessary to deal with stop words before comparing two sentences. Another problem is that sometimes we find words with the same stem in sentences, for example “boy” and “boys.” The next comparison problem is word order in sentences, which is free in the Polish language. During the comparison phase synonyms should also be taken into account. For finding equivalent words we used the NTLK Python module and WordNet6 in order to find synonyms for each word and to use these synonyms in comparing sentences. Using synonyms for each word, we created multiple sentences from each original sentence and compared them as a many-tomany relation. To obtain the best results, our script makes it possible to have multiple functions with multiple acceptance rates. Fast functions with lower quality results are tested first. If they can find results with a very high acceptance rate, we accept their selection. If the acceptance rate is not sufficient, we use slower but higher accuracy functions (Wołk, Marasek, 2014b). The data is quite noisy and the corpora contain redundant parallel lines that contain just numbers or symbols. Additionally, it is easy to find improper translations e.g. “U.S. Dept.” is surely not a translation of the sentence “Na początku lat 30”, which in Polish means “At the beginning of the 30s”. What is more, some translations are too indirect or too distinct from each other. An example to such a pair can be “In all other cases it is true.” and “W przeciwnym razie alternatywa zdań jest fałszywa.”, which in Polish means “Otherwise, the alternative of the sentences is false.”. Although most of the corpora contain good translations, the problematic data should be removed. We conducted an initial experiment based on 1,000 randomly selected bi-sentences from the corpora. The data was processed by our filtering tool. Most of the noisy data was removed, but also some good translations were lost. Nevertheless, results are promising and we intend to filter the entire corpora in the future. It also must be noted that the filtering tool was not adjusted to this specific text domain. The results are presented in Table 9. Number of sentences in the base corpus Number of poor sentences in the test corpus Number of filtered poor sentences Number of filtered good sentences Table 9. Initial filtering results 6 http://www.nltk.org/howto/wordnet.html 1000 182 154 12 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek 176 We do not find the analogy-based results satisfactory. The reason is the low quality of the newly generated corpus. In our opinion the problem is that, in contrast with the Yalign method, the analogy-based method does not mine domain specific data. Additionally, we noticed that it suffers from duplicates and a relatively big amount of noisy data. As a solution to this problem, we decided to apply two different methods of filtering. The first one is easy, based on length of sentences in a corpus. We removed duplicates and very short (fewer than 10 characters) sentences as non-significant. As a result, we obtained 58,590 sentences in the corpus. We report the results in Table 11 as FL1 results. Secondly, we applied the filtration method described above (FL2). The results are showed in Table 11. The number of unique EN tokens before filtration was equal to 137,262 and PL to 139,408, after filtration we obtained 28,054 and 22,084 unique tokens respectively. Such filtrations improved SMT results concerning the analogy-based corpora showed in Table 11. Number of sentences in the base corpus Number of rewriting models Bi- sentences in the base corpus Bi-sentences after duplicates removal Remaining bi-sentences after filtration (FL1) Remaining bi-sentences after filtration (FL2) 3 800 000 8128 114107 64080 58590 6557 Table 10. Filtration results of the analogy-based method (number of bi-sentences) In order to evaluate the influence of filtration on the analogy-based corpora, we trained SMT systems for each of the domains described above. The low SMT results confirmed our opinion that the obtained corpus is not domain specific and that it can be used for general purposes. The results are presented in Table 11. The row meanings are the same as in Table 10. An interesting fact is that the EMEA test set provided higher baseline and filtered results. The source of such a phenomenon can be attributed to the similarity between the textual content of the Wikipedia and EMEA corpora. TED Analogy corpus FL1 FL2 EUP Analogy corpus FL1 FL2 BLEU PL-EN NIST TER MET BLEU EN-PL NIST TER MET 1,87 1,26 1,91 1,55 1,02 1,70 93,92 87,94 91,62 17,88 14,15 18,98 0.91 0.96 1.02 0.97 1.02 0.97 99.68 99.48 94.45 10.77 11.19 11.40 3,35 2,08 2,64 1,96 1,49 1,79 94,49 90,21 90,53 22,63 13,67 20,08 2.06 2.08 1.90 1.38 1.49 1.24 96.44 90.21 99.21 12.88 13,67 12.82 Multi-domain machine translation enhancements by parallel data extraction... EMEA Analogy corpus FL1 FL2 OPEN Analogy corpus FL1 FL2 BLEU PL-EN NIST TER MET BLEU 177 EN-PL NIST TER MET 5,75 8,75 8,08 2,16 2,59 2,46 99,19 87,40 97,39 22,01 21,69 23,19 8.61 8.75 9.45 2.50 2.59 2.54 89.99 87.40 88.59 20.83 21,69 22.01 1,41 1,20 3,15 1,12 0,93 1,28 104,60 98,58 98,30 14,06 11,77 11,77 2.40 1.20 2.47 0.92 0.93 1.03 98.03 98.58 97.31 11.17 11.77 12.9 Table 11. Results in SMT on analogy based sentences, filtrated corpus: FL1, FL2 References ADAFRE, Sisay Fissaha, DE RIJKE, Maarten (2006): Finding similar sentences across multiple languages in Wikipedia. In: EACL ‘06 Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics: Posters & Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 62–69. CETTOLO, Mauro, GIRARDI, Christian, FEDERICO, Marcello (2012): Wit3: Web inventory of transcribed and translated talks. In: Mauro CETOLLO, Marcello FEDERICO, Lucia SPECIA, Andy WAY (eds.): Proceedings of the 16th Conference of the European Association for Machine Translation (EAMT), 28-30 May, Trento, Italy, 261–268. CHU, Chenhui, NAKAZAWA, Toshiaki, KUROHASHI, Sadao (2013): Chinese–Japanese parallel sentence extraction from quasi–comparable corpora. In: Proceedings of the Sixth Workshop on Building and Using Comparable Corpora. Sofia: Association for Computational Linguistics, 34–42. CLARK, Jonathan H., DYER, Chris, LAVIE, Alon, SMITH, Noah A. (2011): Better hypothesis testing for statistical machine translation: Controlling for optimizer instability. In: Lin DEKANG (ed.): Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: Short papers. Volume 2. Stroudsburg, PA: Association for Computational Linguistics, 176–181. HEAFIELD, Kenneth, POUZYREVSKY, Ivan, CLARK, Jonathan H., KOEHN, Philipp (2013): Scalable Modified Kneser-Ney Language Model Estimation. In: Pascale FUNG, Massimo POESIO (eds.): Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Sofia: Association for Computational Linguistics, 690–696. 178 Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek KILGARRIFF, Adam, PVS, Avinesh, POMIKÁLEK, Jan (2011): BootCatting comparable corpora. In: Kyo KAGEURA, Pierre ZWEIGENBAUM (eds.): Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, 123–126. KOEHN, Philipp, HADDOW, Barry (2012): Towards effective use of training data in statistical machine translation. In: Chris CALLISON-BURCH, Philipp KOEHN, Christof MONZ, Matt POST, Radu SORICUT, Lucia SPECIA (eds.): Proceedings of the Seventh Workshop on Statistical Machine Translation. Montreal: Association for Computational Linguistics, 317–321. MARASEK, Krzysztof (2012): TED Polish-to-English translation system for the IWSLT 2012. In: Eiichiro SUMITA, Dekai WU, Michael PAUL, Chengqing ZONG, Chiori HORI (eds.): Proceedings of the 9th International Workshop on Spoken Language Translation IWSLT, 126–129. PAL, Santanu, PAKRAY, Partha, NASKAR, Sudip Kumar (2014): Automatic Building and Using Parallel Resources for SMT from Comparable Corpora. In: Proceedings of the 3rd Workshop on Hybrid Approaches to Translation (HyTra). Gothenburg: Association for Computational Linguistics, 48–57. SKADIŅA, Inguna, AKER, Ahmet, MASTROPAVLOS, Nikos, SU, Fangzhong, TUFIS, Dan, VERLIC, Mateja, PARAMITA, Andrejs, PINNIS, Marcis (2012): Collecting and using comparable corpora for statistical machine translation. In: Nicoletta CALZOLARI, Khalid CHOUKRI, Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC). Istanbul: European Language Resources Association (ELRA), 438–445. SMITH, Jason R., QUIRK, Chris, TOUTANOVA, Kristina (2010): Extracting parallel sentences from comparable corpora using document level alignment. In: Human Language Technologies: The 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, CA: Association for Computational Linguistics, 403–411. STRÖTGEN, Jannik, GERTZ, Michael (2012): Temporal Tagging on Different Domains: Challenges, Strategies, and Gold Standards. In: Nicoletta CALZOLARI, Khalid CHOUKRI, Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC). Istanbul: European Language Resources Association (ELRA), 3746–3753. Multi-domain machine translation enhancements by parallel data extraction... 179 TIEDEMANN, Jörg (2009): News from OPUS-A collection of multilingual parallel corpora with tools and interfaces. In: Recent advances in natural language processing, 237–24.8 TIEDEMANN, Jörg (2012): Parallel Data, Tools and Interfaces in OPUS. In: Nicoletta CALZOLARI, Khalid CHOUKRI, Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC). Istanbul: European Language Resources Association (ELRA), 2214–2218. THORSTEN, Joachims (1998): Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In: Celine ROUVEIROL, Claire Nedellec (eds.): Lecture Notes in Computer Science, Volume 1398. Berlin: Springer Berlin, 137–142 TYERS, Francis M., PIENAAR, Jacques A (2008): Extracting bilingual word pairs from Wikipedia. In: Collaboration: interoperability between people in the creation of language resources for less-resourced languages, 19–22. WOŁK, Krzysztof, MARASEK, Krzysztof (2013a): Polish – English Speech Statistical Machine Translation Systems for the IWSLT 2013. In: Joy Ying ZHANG (eds.): Proceedings of the 10th International Workshop on Spoken Language Translation, 113–119. WOŁK, Krzysztof, MARASEK, Krzysztof (2013b). Alignment of the Polish-English Parallel Text for a Statistical Machine Translation. In: Computer Technology and Application 4, 575–583. WOŁK, Krzysztof, MARASEK, Krzysztof (2014a): Real-Time statistical speech translation. In: Álvaro ROCHA, Ana Maria CORREIA, Felix . B TAN, Karl . A STROETMANN (eds.): New Perspectives in Information Systems and Technologies, Volume 1. Cham: Springer, 107–113. WOŁK, Krzysztof, MARASEK, Krzysztof (2014b): A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation. In: Álvaro ROCHA, Ana Maria CORREIA, Felix . B TAN, Karl . A STROETMANN (eds.): New Perspectives in Information Systems and Technologies, Volume 1. Cham: Springer, p. 229–237. WU, Dekai, FUNG, Pascale (2005): Inversion transduction grammar constraints for mining parallel sentences from quasi-comparable corpora. In: Robert DALE, Kam-Fai WONG, Jian SU, Oi Yee KWONG (eds.): Natural Language Processing–IJCNLP 2005. Berlin/Heidelberg: Springer, 257–268. YANG, Wei, LEPAGE, Yves (2014): Inflating a training corpus for SMT by using unrelated unaligned monolingual data. In: Adam PRZEPIÓRKOWSKI, Maciej OGRODNICZUK (eds.): Advances in Natural Language Processing: Proceedings of the 9th International Conference on NLP, PolTAL 2014. Cham: Springer, 236–248. Silvia Bonacchi Uniwersytet Warszawski Mariusz Mela Uniwersytet Warszawski Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA dla celów analizy kulturologicznej i suprasegmentalnej (nie)grzeczności językowej Multilingual (Polish-German) corpus of spoken language (MCCA) for the purposes of a culturological and suprasegmental analysis of linguistic (im)politeness. Abstract In the article, we will present our experiences with – and problems that we came across while – working on a multilingual corpus of speech data (Polish and German) and conducting its pragmalinguistic and suprasegmental analysis. Furthermore, we will present some reflections on the notions of parallelity and comparability in this context. Creating corpora of spoken language constitutes a great challenge for the researcher due to the elusive nature of speech. Spoken data can be accessed by the researcher either in the form of transcripts of audio/video recordings (according to the methods of multimodal analysis) or in the form of notes from speech interactions (according to the ethnographic method). The researcher who wants to collect data for his/her specific purposes − for example if he/she wants to investigate (im)politeness − has to create a setting, a context of interaction and a situation in which a given phenomenon can be elicited. The need for a phonetic analysis makes it necessary to make audio or video recordings of data. These need to be made in a recording studio in order to ensure quality suitable for such an analysis (e.g. one channel per speaker, no background noises). Participants in recording sessions do not behave as naturally as they would in a natural setting (i.e. without microphones or cameras). What is more, spoken language is characterised by phenomena that are exclusively typical for it when compared to written language. They include: anacoluthons, corrections, repairs, hearer signals, speaker signals, particles, discourse markers etc., i.e. phenomena that are treated as communicative ‘disturbances’ in written language but are fundamental in face-to-face-interactions. Considering the above requirements, one can state that Silvia Bonacchi, Mariusz Mela 182 creating corpora of spoken language requires a completely different approach than corpora of written language. In the following article, a bilingual (Polish and German) corpus of spoken language is presented. The corpus has been created as part of the MCCA: Multimodal Communication: Culturological Analysis project for the purposes of culturological and suprasegmental analysis and consists of three types of recordings. They are: dyadic conversations, scripted monologues (where the participants were supposed to intonate sentences in order to achieve a certain result), and extracts from TV talk shows. The recordings have further been transcribed using the Folker programme and GAT2 (GesprächsAnalytisches Transkriptionssystem) conventions, annotated (by means of the ELAN programme) and phonetically analysed (using Praat programme). Słowa kluczowe: korpus języka mówionego, język polski, język niemiecki, analiza konwersacyjna, (nie)grzeczność językowa, transkrypcja, anotacja. Keywords: spoken language corpus, Polish, German, conversational analysis, linguistic (im)politeness, transcription, annotation. 1. Wprowadzenie Tworzenie korpusów języka mówionego stanowi ogromne wyzwanie dla badaczy ze względu na jego ulotny charakter1. Wypowiedzi realizowane ustnie są, w odróżnieniu od tekstów pisanych, nietrwałe i muszą zostać udostępnione badaczowi albo w postaci mniej lub bardziej dokładnych notatek (np. według metody etnograficznej) albo środków technicznych (nagrań audio i video), których stopień przydatności do dalszych działań badawczych wymaga dokładnego planowania i realizacji. O ile wywołanie niektórych sytuacji komunikacyjnych jest stosunkowo łatwe, jak to bywa w przypadku zadań typu maptask (głównie ze względu na tematycznie ukierunkowaną strukturę informacyjną tego typu sytuacji), o tyle w przypadku innych sytuacji (np. takich, w których występują grzeczność, niegrzeczność lub agresja językowa) nie jest to już takie proste. Wynika to z wielu powodów. Po pierwsze probanci niechętnie zachowują się nieuprzejmie, gdy wiedzą, że są nagrywani. Po drugie dla sytuacji komunikacyjnych realizowanych za pomocą języka mówionego kluczowe są zjawiska językowe (anakoluty, korektury, reparacje, sygnały słuchacza i mówiącego, partykuły i markery dyskursywne itp.), które dla języka pisanego są nietypowe i w języku pisanym nawet mogą powodować “zakłócenia” w komunikacji. Konieczność utrwalenia fonetycznej realizacji interakcji komunikacyjnej sprawia, że nagrania takie muszą być realizowane w warunkach kontrolowanych, tj. w studiu nagrań (tzw. lab-speech, zob. Xu, 2010). Biorąc pod uwagę wyżej 1 Zob. Rancew-Sikora 2007: 19n; odnośnie corpus-design zob. Pęzik 2012; odnośnie problemów związanych z transkrypcją w analizie konwersacyjnej zob. Frei 2013; Bonacchi, Mela 2014. Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA... 183 wymienione uwarunkowania, można stwierdzić, że korpusy języka mówionego wymagają innego podejścia niż korpusy języka pisanego. Pojęcia „porównywalność” oraz „równoległość” zyskują w ich przypadku nowe znaczenie. „Równoległość” (paralelność) rozumiana jako dosłowna odpowiedniość jest w rozmowach w praktyce nieosiągalna. Przeprowadzenie eksperymentu, polegającego na stworzeniu korpusów języka mówionego, które byłyby „porównywalne”, wiąże się z danymi zainteresowaniami badawczymi i jest realizowany poprzez ustalenie kilku warunków takich, jak na przykład ukierunkowanie tematyczne (interaktanci rozmawiają na „narzucony” im temat), umieszczenie w kontekście (dana jest pewna rama interakcyjna), zorientowanie na zadanie (należy rozwiązać dane zadanie). W niniejszym artykule przedstawiony zostanie bilingwalny (polskoniemiecki) korpus języka mówionego utworzony w ramach projektu MCCA: Multimodal Communication: Culturological Analysis, dla celów analizy kulturologicznej i suprasegmentalnej. Podjęta została przy tym próba ustalenia stopnia, w jakim korpusy w obu językach (polskim i niemieckim) spełniają kryteria porównywalności i paralelności. Opisane zostaną warunki, w jakich powstawał korpus, tworzące go typy nagrań (nagrania audio rozmów2 diadycznych, nagrania audio „aktorskie” i nagrania video mediatyzowane, tj. takie, które wcześniej transmitowane były w mediach) oraz wybrany sposób analizy korpusu. 2. Opis projektu i klasyfikacja korpusu MCCA Projekt MCCA opiera się na współpracy naukowców z Uniwersytetu Warszawskiego i Uniwersytetu Kraju Saary w Saarbrücken (Niemcy)3. Projekt stawia sobie za cel kulturologiczną i suprasegmentalną analizę multilingwalnego korpusu nagrań audio nacechowanych grzecznością i niegrzecznością językową w interakcjach twarzą-w-twarz. Obecnie korpus obejmuje języki polski i niemiecki (w przypadku wszystkich trzech typów nagrań), przewidziane jest jednak jego rozszerzenie o język włoski (obecnie korpus zawiera jedynie nagrania „aktorskie” w tym języku, zob. rozdział 2.2.) i bułgarski. Dalszymi zamierzeniami Projektu jest generacja i transfer wiedzy lingwistycznej o mechanizmach, które utrudniają komunikację intra- i interkulturową lub jej sprzyjają, wytworzenie 2 Różnicę pomiędzy wyrazami „rozmowa”, „dialog”, „konwersacja” wyjaśniają m.in. Żydek-Bednarczuk (1994), Wilkoń (2002). Szczegółowy przegląd polskiej literatury dotyczącej klasyfikacji form dialogowych w komunikacji ustnej i pisemnej przedstawia Ślawska (2011). 3 Pełny tytuł projektu: Analiza kulturologiczna i suprasegmentalna interakcji komunikacyjnych nacechowanych (nie)grzecznością. Projekt finansowany jest przez Narodowe Centrum Nauki, UMO DEC-2012/04/M/HS2/0055. Kierownikiem projektu po stronie polskiej jest Silvia Bonacchi (Uniwersytet Warszawski), po stronie niemieckiej Bistra Andreeva (Uniwersytet Kraju Saary, Niemcy). Silvia Bonacchi, Mariusz Mela 184 technik badawczych dla celów analizy multimodalnej (transkrypcja, anotacja) oraz promocja rozwoju młodej kadry badawczej4. Naukowcy zajmujący się badaniem (nie)grzeczności językowej stoją przed kilkoma problemami. Po pierwsze, (nie)grzeczność jest prymarnie przedmiotem badań o pragmalingwistycznym charakterze, tzn. badany jest przy tym wymiar pragmatyczny języka, z naciskiem na użycie wyrażeń językowych w zależności od mówców i ramy interakcji, stąd (nie)grzeczność językowa jest zjawiskiem wysoce zależnym od kontekstu. Ważne jest zatem nie tylko to, co jest mówione, lecz też, jak jest mówione, kto mówi do kogo i w jakiej sytuacji. Te same zdania (np. „dobra robota!” lub „nie chcę przeszkadzać”) mogą być różnie interpretowane w zależności od kontekstu zewnętrznego (rozumianego jako setting interakcji) i wewnętrznego (w rozumieniu Sperbera, Wilsona, 2002)5. Ponadto (nie)grzeczność językowa jest zjawiskiem, które konstytuuje się w dialogowości i interakcji. Mimo że istnieją formy (nie)grzeczności w języku pisanym, zjawisko to jest przede wszystkim charakterystyczne dla języka mówionego. W przeciwieństwie do innych przedmiotów badań, istotnych także dla badaczy języka, takich jak struktura informacyjna, strategie argumentacyjne, strategie narracyjne, badacz zajmujący się (nie)grzecznością językową napotyka kilka problemów. W odróżnieniu od stosunkowo często występujących rutyn i formuł grzecznościowych (np. „przepraszam”, „dziękuję”, formy powitania i adresowania) spontanicznej (nie)grzeczności nie da się łatwo uzyskać. Tym samym niezmiernie ważny jest nie tylko dokładny tzw. „design korpusu” i staranne przygotowanie warunków do przeprowadzenia eksperymentu, lecz ponadto połączenie ze sobą różnych korpusów, które wykazują się różnym stopniem spontaniczności i reprezentacyjności badanego zjawiska. Korpus MCCA został stworzony w celu reprezentatywnego odwzorowania obszarów językowych grzeczności, niegrzeczności i agresji językowej6. Obejmuje on następujące typy nagrań: 1. Rozmowy diadyczne 2. Nagrania „aktorskie” (sarkazm i efekt banter) 3. Interakcje mediatyzowane (talk-shows, debaty polityczne) 4 Bezpośrednio z Projektem MCCA związane jest Laboratorium Komunikacji Multimodalnej LAKOM, powstałe w Instytucie Komunikacji Specjalistycznej i Interkulturowej WLS UW. Jego nadrzędnym celem jest szkolenie studentów i doktorantów z zakresu użycia programów komputerowych do analizy danych mówionych: Folker, ELAN i Praat. 5 Por. Sperber i Wilson (2002: 132): „the context used to process new assumptions is […] a subset of the individual’s old assumptions, with which the new assumptions combine to yield a variety of contextual effects”. 6 Teoretyczne podstawy tego zjawiska przyjęto za Bonacchi 2013, gdzie znajduje się również dalsza odnośna literatura. Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA... 185 4. Korpus projektu MCCA jest zatem „korpusem złożonym”, ponieważ każdy typ nagrań umożliwia osiągnięcie pewnych celów badawczych. 2.1. Rozmowy diadyczne Pierwszym typem nagrań są rozmowy diadyczne. Są to nagrania interakcji twarzą w twarz, uwarunkowane tematycznie, tzn. tematy rozmów (np. warunki studiowania w Niemczech i Polsce, użycie żeńskich form rzeczowników utworzonych za pomocą przyrostków będących nazwami zawodów i funkcji, eutanazja) zostały zaproponowane przez realizatorów nagrań i zrealizowane w warunkach studyjnych. Niemiecka część korpusu nagrań diadycznych powstała w Niemczech na Uniwersytecie Kraju Saary i obejmuje obecnie ok. 4 godzin nagrań, w których wzięło udział ośmioro mówców. Przed każdą sesją nagraniową zebrano metadane uczestników rozmów. Polska część korpusu została nagrana w Warszawie w Instytucie Lingwistyki Stosowanej Uniwersytetu Warszawskiego i podobnie jak korpus niemiecki obejmuje ok. 4 godzin nagrań, zrealizowanych przy udziale 8 mówców, od których zebrane zostały metadane. Co ważne, nagrania w korpusie rozmów diadycznych są nagraniami dwukanałowymi o wysokiej jakości technicznej, co umożliwia przeprowadzenie szczegółowej analizy fonetycznej głosu każdego z rozmówców, m.in. analizę dynamiki kolejności mówienia (turn-taking), mówienia symultanicznego (overlapping), przerywania, sygnałów mówiącego (speaker’s signals) i słuchającego (hearer’s signals, backchannel-signals), sygnały wahania się (hesitation signals), poprawki (repairs). Nagrania pierwszego typu poddane zostały etapami transkrypcji i następnie anotacji przy użyciu programów komputerowych Praat (Boersma, Weenink, 2015), Folker (Schmidt, Schütte, Hartung, 2010) i ELAN (Sloetjes, 2015)7. W pierwszej kolejności przeprowadzono transkrypcję nagrań niemieckich i polskich za pomocą programu Folker (www.agd.ids-mannheim.de/folker. shtml). Przy transkrypcji korzystano z konwencji GAT2 (GesprächsAnalytisches Transkriptionssystem, zob. Selting et al., 2009), które przy niewielkich modyfikacjach okazały się również przydatne w transkrypcji danych w języku polskim, mimo że pierwotnie stworzone zostały dla transkrypcji danych w języku niemieckim. Podczas stosowania tych konwencji w transkrypcji napotkaliśmy jednak kilka problemów. Były nimi: • brak jednolitego inwentarza tzw. pauz wypełnionych (sygnałów wahania się) i sygnałów słuchacza (backchannel signals), które różnią się między językami (por. np. niemieckie ‘ähm’ z polskim ‘hmm’); 7 Por. Bonacchi, Mela 2014. Silvia Bonacchi, Mariusz Mela 186 • anotacja jednostek nieleksykalnych lub quasi-leksykalnych lub paralingwistycznych dźwięków (takich jak kliknięcia i uderzenia, zob. Karpiński, 2012). Mimo że transkrypcja w innych polskich grupach badawczych (zob. Pęzik, 2012) wykonywane są często bezpośrednio w programie ELAN, uznaliśmy za konieczne wykonanie transkrypcji jako osobnego kroku za pomocą programu Folker stworzonego w Instytucie Języka Niemieckiego (IDS) w Mannheim, który umożliwia modyfikację transkrypcji w dowolnym momencie jej tworzenia i wczytanie jej jako płaszczyzny analizy w programie ELAN. Ponadto program ten jest dużo prostszy w obsłudze (może być więc używany w celach dydaktycznych w ćwiczeniach ze studentami) i bardziej “stabilny” niż ELAN, gdyż nie wymaga dużej pamięci komputerowej. Transkrypcja wykonana w Folkerze może zostać wyeksportowana w formacie, który następnie może zostać wczytany w programie ELAN8. Poniżej znajduje się wyciąg transkrypcji wykonanej w programie Folker. Jest to sekwencja, w której rozmówczyni wyraża brak zgody za pomocą środków werbalnych łagodzonych przy odpowiednim użyciu środków suprasegmentalnych (przede wszystkim prozodii): {02:25} 001 M {02:31} 002 K {02:39} 003 M no albo wszyscy się zrzucamy nie wiem co jest gorsze to taki wybór mniejszego zła no niby tak ale no nie wiem mi się to nie za bardzo podoba nie podoba mi się to że y: [znaczy ja chodzi mi tutaj] [to odwrócę pytania] Rysunek 1. Okno programu Folker z transkrypcją danych w języku polskim 8 Dokładniejszy opis znajduje się w Bonacchi i Mela (2014). Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA... 187 Dzięki oscylogramowi Folker możliwe jest dokładne zaznaczenie segmentu, który należy poddać transkrypcji (rysunek 1. i 2.). Umożliwia on także wskazanie momentów, w których wypowiedzi rozmówców na siebie nachodzą, co pomaga badaczowi m.in. zauważyć regularności i wzajemne zależności pomiędzy wypowiedziami uczestników konwersacji (np. to, który z rozmówców, w którym momencie i jak często przerywa drugiemu rozmówcy). W ten sposób funkcja ta umożliwia przegląd zjawisk lingwistycznych, które należy poddać anotacji w programie ELAN. Rysunek 2. Widok programu Folker z transkrypcją danych w języku niemieckim Rysunek 3. Okno programu ELAN z wczytaną transkrypcją programu Folker 188 Silvia Bonacchi, Mariusz Mela Transkrypcja wykonana w programie Folker może zostać zapisana w kilku formatach (tj. różnych rodzajach tzw. outputs) i może zostać wyeksportowana w formatach kompatybilnych z innymi programami w celu dalszej analizy. Pod koniec procesu transkrypcji za pomocą programu Folker uzyskany zostaje plik o rozszerzeniu *.flk, który można wyeksportować w formatach kompatybilnych z innymi programami do anotacji, tj. albo jako EXMARaLDA Basic Transcription (*.exb, *.xml), jako PRAAT TextGrid (*.textGrid), jako F4 Transcript (*.rtf, *.txt), jako Audacity label file (*.txt), jako Plain text subtitles (*.txt), jako ELAN annotation file (*.eaf), jako TEI file (*.xml) – ten ostatni format umożliwia oznaczenie tekstu pod względem syntaktyki. Powyższa grafika (rysunek 3.) przedstawia transkrypcję wykonaną w programie Folker przeimportowaną do programu ELAN wraz z dalszymi płaszczyznami anotacji: Folker oferuje również możliwość zapisania transkrypcji w formacie *.html z listą lub partyturą segmentów, jako compact score z dźwiękiem audio, jako listę wypowiedzi lub listę wypowiedzi z odtwarzaczem audio (rysunek 4.), jako GAT Basic Transcript lub quantification (sumę danych ilościowych, takich jak numer i długość wypowiedzi, liczba i typ tokenów, liczba wdechów i wydechów, pauzy, itd.). Rysunek 4. Wyciąg z transkrypcji danych w języku polskim w formacie z odtwarzaczem audio “compact score with audioplayer” Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA... 189 Drugim krokiem była anotacja danych audio w programie ELAN (http://www. lat-mpi.eu/tools/elan). Anotacja ta miała charakter pragmalingwistyczny i skupiała się na wyszukiwaniu wystąpień zjawisk komunikacyjnych takich jak: • formuły grzecznościowe (grzeczność rutynowa), • markery grzeczności i niegrzeczności, • partykuły modalne, • markery dyskursywne, • rodzaj zdań i akty mowy, • leksyka, • formy adresatywne, • backchannel signals, • reguły podejmowania kolejek9 (system turn-taking): kooperatywne i konkurencyjne, • cechy fonetyczne. Stworzona została struktura złożona z płaszczyzn anotacji (tiers), która umożliwiła jakościową i ilościową analizę różnych zjawisk językowych. Równolegle do analizy kulturologicznej (pragmatyczno-konfrontatywnej) została przeprowadzona analiza segmentalna i suprasegmentalna przez zespół niemiecki z użyciem programu Praat. Zbadane zostały różne właściwości mowy danego rozmówcy, takie jak tempo mówienia, iloczas sylab, intensywność oraz frekwencja podstawowa, istotne dla powstania efektu (nie)grzeczności danej wypowiedzi językowej. Na poniższej grafice (rysunek 5.) przedstawiony został fragment analizy przeprowadzonej przy użyciu programu Praat. Widoczna jest na niej sekwencja, Rysunek 5. Praat-TextGrid analizowanego fragmentu 9 Polskiej nazwy „kolejka” jako odpowiednika wyrazu „turn” przyjęliśmy za Frei (2013) i Rancew-Sikora (2007). Silvia Bonacchi, Mariusz Mela 190 w której mówczyni przy użyciu środków grzeczności językowej (“no niby tak ale” łagodzi brak zgody wobec swojego partnera komunikacyjnego). Analiza rozmów diadycznych w językach polskim i niemieckim wykazała, że na powstanie efektu (nie)grzeczności składa się zespół cech, które dotyczą wielu płaszczyzn wyrażeń językowych: 1. Chodzi nie tylko o to, co jest mówione (lokucja), lecz również o to, w jaki sposób się mówi i co się przy tym robi, a zatem nie tylko o pozajęzykowe czynniki kontekstowe, lecz również o czynniki, warunkujące fonetyczną realizację danego wyrażenia werbalnego. Display werbalny i wokalny (Sager, 2004) tworzą jedność, których koherencja jako wyrażenia (nie)grzecznościowego zależy od współdziałania wielu czynników. 2. To, co jest wypowiadane (lokucja) i jest zamierzonym działaniem językowym (illokucja) zawsze odzwierciedla się w językowej realizacji. Nie wystarczy użyć pewnych słów, gdyż akty (nie)grzeczności są zawsze aktami multimodalnymi (zob. Bonacchi, Karpiński, 2014). Intencja suportywna może być realizowana też przy użyciu wyrażeń derogatywnych (Arndt, Janney, 1985; Bonacchi, 2013, 2014; Bonacchi, Andreeva, 2015) przy zastosowaniu odpowiednich cech fonetycznych. 2.2. Nagrania „aktorskie” Dzięki analizie rozmów diadycznych zidentyfikowano szereg zmiennych, dlatego doszliśmy do wniosku, że należy zbadać zmienność cech fonetycznych przy stałości werbalnej. Stworzyliśmy zatem koncepcję eksperymentu, w którym realizacja fonetyczna przy niezmienności warstwy werbalnej była decydująca dla powstania efektu (nie)grzeczności. Oznacza to, że ten sam wyraz może mieć różne znaczenia pragmatyczne w zależności od realizacji fonetycznej. W celu zmierzenia wagi każdego składnika mowy (frekwencja podstawowa, tempo mówienia, intensywność mówienia) w przypadku powstania efektu (nie) grzeczności zdecydowaliśmy się na eksperyment, w którym display werbalny (lokucja) uzyskać może wartość suportywną, tj. uprzejmą w szerokim rozumieniu tego słowa lub derogatywną, tj. nieuprzejmą w szerokim rozumieniu tego słowa, w zależności od fonetycznej realizacji. W ten sposób zbadaliśmy zjawisko wyrażeń z funkcją banterową, tj. wyrażeń posiadających derogatywną strukturę powierzchniową i suportywną strukturę głęboką (mock impoliteness opisaną m.in. przez Leech’a (1983) – zob. Bonacchi (2013, 2014) – w celu znalezienia odnośników do dalszej literatury fachowej) oraz wyrażenia typu mock politeness – tj. wyrażenia z pozytywną strukturą powierzchniową i derogatywną strukturą Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA... 191 głęboką (tj. sarkazmu, zjawiska opisanego m.in. w Culpeper (199610). Poprosiliśmy uczestników o wypowiedzenie tych samych par zdań w celu uzyskania efektu uprzejmości, a innym razem nieuprzejmości: A. Mock impoliteness: DT1: Du bist ein Arsch! IT1: Che merda che sei! PL1: Ale z ciebie pies na baby! DT2: Hey, Alter, was machst du denn hier? IT2: Sei un bastardo! PL2: Ty draniu! DT3: Du hast es geschafft, du Sau! IT3: Ci sei riuscito? Che figlio di puttana! PL3: Ty, diable! Zniszczyłeś całą konkurencję! DT4: Ach, du hast ja sowieso immer eine Eins, du Penner! IT4: Sei un/a bella/o stronza! Che stronzo! PL4: Ale ty zaliczasz te laseczki, ty złamasie! DT1: Danke! IT1: Grazie! PL1: Dziękuję! DT2: Tolle Arbeit! IT2: Bel lavoro! PL2: Świetna robota! B. Mock politeness: Nagrania te następnie poddaliśmy ocenie 100 ankietowanych dla każdego języka i poprosiliśmy ich o zaznaczenie na specjalnie skonstruowanej platformie internetowej za pomocą specjalnego suwaka, na ile oceniają daną wypowiedź jako przyjazną lub nieprzyjazną. Takiej ocenie poddane zostały 32 wypowiedzi (zob. Bonacchi, Andreeva, 2015). Badanie to pozwoliło nam dojść do wniosku, że negatywna lub pozytywna wartość wypowiedzi może zostać poprawnie zrekonstruowana na podstawie cech fonetycznych także bez informacji dotyczących kontekstu (zob. też House, 2006), co relatywizuje hipotezę o „rekontekstualizacji” Culpepera (2011), zgodnie z którą mock impoliteness może zostać wyjaśniona następująco: “an understanding on the part of a participant that the contextual conditions that sustain genuine impoliteness do not apply” (Culpeper, 2011: 208). Ponadto wynik badania potwierdza tezę o „otwartej ewaluacji konwersacyjnej”11 i dysambiguacji multimodalnej: „mock impoliteness can be understood as potentially genuine impoliteness behavior that is continuously open to conversational evaluation as both potentially genuine impoliteness or potentially non-impolite and supportive behavior.” (McKinnon, Prieto, 2014: 188) 10 Zob. też Haiman (1998), Kaufer (1981), Rockwell (2000, 2006), Wartenberg (1990), Leggit i Gibbs (2000). 11 Zob. również Brown i Levinson (1987: 104) oraz McKinnon i Prieto (2014: 190). 192 Silvia Bonacchi, Mariusz Mela Wyniki badań pokazały, że użytkownicy różnych języków korzystają z dostępnych parametrów fonetycznych (frekwencja podstawowa, tempo i intensywność mówienia) w różny sposób w celu realizacji efektu (nie)grzeczności. Chodzi przy tym zawsze o wiązkę cech, a zatem o współgranie różnych elementów, które działają w sposób dysambiguacyjny. Relatywizuje to teorię Johna Ohali (1993) o kodach biologicznych („frequency codes”, „biological codes”), zgodnie z którą sama podwyższona frekwencja podstawowa przyczynia się do powstania efektu uprzejmości, zaś niska efektu agresji (zob. też Gussenhoven. 2004: 102; Bonacchi, Andreeva, 2015). 2.3. Nagrania video mediatyzowane Podczas analizy pierwszych dwóch typów nagrań ważne okazały się nie tylko warstwa werbalna i fonetyczna realizacja, lecz również szereg informacji dotyczących kontekstu i warstwy niewerbalnej. Z tego powodu korpus poszerzono o nagrania video, których analiza pomogła zweryfikować dotychczasowe założenia. Zdecydowaliśmy się na interakcje mediatyzowane (głównie programy typu talk-show polityczne i in.), które przeanalizowano za pomocą programu ELAN przy użyciu szablonu MCCA-Standard Template, służącego do analizy interakcji nacechowanych (nie)grzecznością i agresją językową. Poniżej znajduje się grafika przedstawiająca fragment analizy polskiego talk-show politycznego dokonanej w programie ELAN (rysunek 6.): Rysunek 6. Przykład multimodalnej anotacji interakcji konfliktowej w programie ELAN Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA... 193 3. Wnioski Jeśli chodzi o klasyfikację naszego korpusu, to w przypadku rozmów diadycznych i interakcji mediatyzowanych możemy mówić o korpusie porównywalnym, natomiast w przypadku nagrań „aktorskich” o korpusie równoległym. Dzięki Projektowi opracowana została technika pragmalingwistycznego badania języka mówionego, która, jak wierzą autorzy, mogłaby zostać wykorzystana do badania innych aspektów komunikacji (np. konfliktów, negocjowania i in.). Projekt jest w toku – powstają dalsze anotacje pragmalingwistyczne oraz fonetyczne nagrań, które dadzą wgląd w mechanizm funkcjonowania zjawisk grzeczności i niegrzeczności językowej. Kolejnym krokiem będzie rozszerzenie zakresu badań o display kinetyczny i stworzenie wytycznych do całościowej analizy multimodalnej. Podziękowania Projekt MCCA jest finansowany ze środków przyznanych przez Narodowe Centrum Nauki (NCN, UMO-2012/04/M/HS2/00551), dzięki którym możliwe było powstanie niniejszego artykułu. Literatura Arndt, Horst, Janney, Richard Wayne (1985): Politeness revisited: cross modal supportive strategies. International Review of Applied Linguistics in Language Teaching 23(4), 281–300. Boersma, Paul, Weenink, David (2015): Praat. Version 5834_win64. www.fon. hum.uva.nl/praat, (20-04-2015). Boersma, Paul, Weenink, David (2015): Praat: Doing phonetics by computer. Version 5.3.51 http://www.praat.org, (20-04-2015). Bonacchi, Silvia (2013): (Un)Höflichkeit. Eine kulturologische Analyse Deutsch -Italienisch-Polnisch. Frankfurt am Main: Peter Lang. Bonacchi, Silvia (2014): Scheinbeleidigungen und perfide Komplimente: kulturologische Bemerkungen zur obliquen Kommunikation in interkultureller Perspektive. W: Katarzyna Lukas, Izabela Olszewska (red.): Deutsch im Kontakt und im Kontrast. Festschrift für Andrzej Kątny zum 65. Geburtstag. Frankfurt am Main: Peter Lang, 341–356. Bonacchi, Silvia, Andreeva, Bistra (2015): Freundlich oder feindlich? Zur illokutionären Struktur und phonetischen Realisierung von indirekten supportiven und derogativen Sprechakten am Beispiel von Scheinbeleidigungen (mock impoliteness). Lingwistyka Stosowana 15(4), 1–19. 194 Silvia Bonacchi, Mariusz Mela Bonacchi, Silvia, Karpiński, Maciej (2014): Remarks about the use of the term ‘multimodality’. Journal of Multimodal Communication Studies 1, 1–7. Bonacchi, Silvia, Mela, Mariusz (2014): Practical remarks about the interoperability of the computer programmes Folker, ELAN and Praat for transcription and multimodal linguistic annotation from the user’s point of view. Journal of Multimodal Communication Studies 2, 18–29. Bonacchi, Silvia, Mela, Mariusz (2015): Multimodal Analysis of Conflict: A proposal of a Dynamic Model. W: Francesca D’Errico, Isabella Poggi, Alessandro Vinciarelli, Laura Vincze (red.): Conflict and Multimodal Communication. Berlin: Springer, 267–294. Brown, Penelope, Levinson, Stephen C. (1987): Politeness: Some universals in language use. Cambridge: Cambridge University Press. Culpeper, Jonathan (1996): Towards an anatomy of impoliteness. Journal of Pragmatics 25(3), 349–367. Culpeper, Jonathan (2011): “It‘s not what you said, it’s how you said it!”: Prosody and impoliteness. W: Linguistic Politeness Research Group (red.): Discursive Approaches to Politeness. Berlin: de Gruyter, 57–83. Frei, Robert (2013): Analiza konwersacyjna – Zarys metody. W: Beata Sierocka (red.): Via Communicandi. Wrocław: Atut, 35–51. Gussenhoven, Carlos (2004): The Phonology of Tone and Intonation. Cambridge: Cambridge University Press. Haiman, John (1998): Talk is cheap: Sarcasm, alienation and the evolution of language. New York, NY: Oxford University Press. House, Jill (2006): Constructing a context with intonation. Journal of Pragmatics 38(10), 1542–1558. Karpiński, Maciej (2012): The Boundaries of Language: Dealing with Paralinguistic Features. Lingua Posnaniensis LIV(2), 37–54. Kaufer, David S. (1981): Understanding ironic communication. Journal of Pragmatics 5, 495–510. Leech, Geoffrey (1983): Principles of Pragmatics. London: Longman. Leggitt, John S., Gibbs, Raymond (2000): Emotional reactions to verbal irony. Discourse Processes 29, 1–24. McKinnon, Sean, Prieto, Pilar (2014): The role of Prosody and Gesture in the Perception of Mock Impoliteness. Journal of Politeness Research 10(2), 185–219. Ohala, John J. (1994): The frequency codes underlies the sound symbolic use of voice pitch. W: Leanne Hinton, Johanna Nichols, and John J. Ohala (red.): Sound Symbolism. Cambridge University Press, 325–347. Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA... 195 Pęzik, Piotr (2012): Język mówiony w NKJP. W: Adam Przepiórkowski, Mirosław Bańko, Rafał Górski, Barbara Lewandowska-Tomaszczyk (red.): Narodowy Korpus Języka Polskiego. Warszawa: Państwowe Wydawnictwo Naukowe, 37–47. Rancew-Sikora, Dorota (2007): Analiza konwersacyjna jako metoda badania rozmów codziennych. Warszawa: Trio. Rockwell, Patricia (2000): Lower, slower, louder: Vocal cues of sarcasm. Journal of Psycholinguistics Research 29, 483-495. Rockwell, Patricia (2006): Sarcasm and other mixed messages. The ambiguous ways people use language. New York, NY: The Edwin Mellen Press. Sager, Sven F. (2004): Kommunikationsanalyse und Verhaltensforschung. Grundlage einer Gesprächsethologie. Tübingen: Stauffenburg Verlag. Schmidt, Thomas, Schütte, Wilfried, Hartung, Martin (2015): Folker, Version 1.2. agd.ids-mannheim.de/folker.shtml, (01-03-2016). Selting, Margret, Auer, Peter, Barth-Weingarten, Dagmar, Bergmann, Jörg, Bergmann, Pia, Birkner, Karin et al. (2009): Gesprächsanalytisches Transkriptionssystem 2 (GAT2). Gesprächsforschung-Online-Zeitschrift zur verbalen Interaktion 10, 353–402. Ślawska, Magdalena (2011): Formy dialogowe w gatunkach prasowych (rozprawa doktorska). Katowice: Uniwersytet Śląski. Sloetjes, Han [s.a.] ELAN (Eudico Linguistic Annotator), Version 4.7.3. http:// www.lat-mpi.eu/tools/elan, (01-03-2016). Sperber, Dan, Wilson, Deidre (2002): Relevance: Communication and Cognition. Cambridge, MA: Harvard University Press. Wartenberg, Thomas E. (1990): The Forms of Power: From Domination to Transformation. Philadelphia: Temple University Press. Wilkoń, Aleksander (2002): Spójność i struktura tekstu. Kraków: Universitas. Xu, Yi (2010): In defense of lab speech. Journal of Pragmatics 38(3), 329–336. Żydek-Bednarczuk, Urszula (1994): Struktura tekstu rozmowy potocznej, Katowice: Wydawnictwo Uniwersytetu Śląskiego. Łucja Biel Uniwersytet Warszawski Mixed corpus design for researching the Eurolect: a genre-based comparable-parallel corpus in the PL EUROLECT project Mieszana struktura korpusu do badania eurolektu – gatunkowy korpus porównawczo-równoległy w ramach projektu PL EUROLECT Streszczenie W artykule opisano mieszaną strukturę gatunkowego korpusu porównawczo-równoległego budowanego w ramach projektu PL EUROLECT finansowanego przez NCN (grant SONATA BIS, 2015-2018). Celem projektu jest kompleksowe zbadanie polskiego eurolektu, nowej hybrydowej odmiany języka polskiego powstającej w wyniku tłumaczenia i stosowanej w kontekście unijnym oraz dogłębne zrozumienie procesów i czynników go kształtujących, a także jego wpływu na poakcesyjną polszczyznę urzędową. Podstawą korpusu będzie struktura gatunkowa obejmująca cztery gatunki uznane za reprezentatywne dla komunikacji unijnej (akty prawne, orzeczenia, sprawozdania i urzędowe strony internetowe dla obywateli) podzielone na podgatunki – np. w ramach korpusu aktów prawnych wydzielone zostaną podkorpusy rozporządzeń, dyrektyw i decyzji. Struktura gatunkowa korpusu umożliwi zbadanie zróżnicowania wewnętrznego eurolektu i uzyskanie bardziej precyzyjnych danych ilościowych. Na strukturę gatunkową zostanie nałożony dwujęzyczny korpus równoległy zawierający wyrównane teksty w języku angielskim i polskim oraz jednojęzyczny korpus porównawczy zawierający nieprzetłumaczone teksty administracyjne w języku polskim, a także – jako punkt odniesienia – zrównoważona próba Narodowego Korpusu Języka Polskiego. Mieszana struktura korpusu ma umożliwić badanie dwóch fundamentalnych relacji, tj. ekwiwalencji – relacji eurolektu do tekstów źródłowych (korpus równoległy) oraz dopasowania tekstowego – relacji eurolektu do nieprzetłumaczonych tekstów w języku docelowym (korpus porównawczy). W strukturze korpusu uwzględniony zostanie również korpus diachroniczny polszczyzny urzędowej sporządzony dla poszczególnych gatunków z okresu przedakcesyjnego i poakcesyjnego w celu zbadania wpływu eurolektu na urzędową odmianę języka polskiego. Uzyskane dane ilościowe będą Łucja Biel 198 rejestrować stan eurolektu i polszczyzny w przekroju gatunkowym w konkretnych przedziałach czasowych, i stanowić punkt odniesienia dla innych badaczy. Gatunkowe dane ilościowe otrzymane z analizy korpusowej zostaną poddane triangulacji z danymi jakościowymi (analiza dyskursu, semiotyka społeczna, badania prawnoporównawcze terminologii). Celem metodologicznym jest opracowanie interdyscyplinarnego modelu teoretycznego do badania odmian języka powstających z udziałem tłumaczy. Keywords: parallel corpus, comparable corpus, genre-based corpus, Polish, English, Eurolect, institutional translation Słowa kluczowe: korpus równoległy, korpus porównawczy, korpus gatunkowy, język polski, język angielski, eurolekt, tłumaczenie instytucjonalne 1. Introduction The main objective of this paper is to discuss the mixed design of a translation-driven corpus for researching the Polish Eurolect and changes in administrative Polish after Poland’s accession to the European Union. The corpus will be built as part of the project entitled The Eurolect: an EU variant of Polish and its impact on administrative Polish (an abbreviated name: PL Eurolect), funded by the Polish National Science Centre (NCN) with a SONATA BIS 4 grant awarded to the author to build a research team in the years 2015-2018. It is a follow-up of the Eurofog project funded by the Polish Ministry of Science and Higher Education in 2010-2012, the results of which were published in the book Lost in the Eurofog. The Textual Fit of Translated Law (Biel, 2014). The Eurofog project, which analysed the JRC Acquis corpus of regulations and directives (translations up to 2006) against national Polish law, is treated as a pilot since it uncovered a number of areas requiring deeper studies and, above all, the need for a better calibrated and controlled genre-based corpus of a mixed design. 2. The Eurolect – a hybrid variant of national languages and its genres EU texts are produced in a multilingual environment with 24 official languages, which implies a constant switching and ‘fusion’ of languages. They are often a result of a delicate political compromise between 28 Member States and are produced under a complex array of political, procedural, institutional, legal and cultural constraints. EU texts are considered to have developed a specific language, perceived as a new legal variant of the official languages (cf. Koskinen, 2000: 53; Salmi-Tolonen, 2004: 1187). The hybridity of EU discourse is closely connected with multilingualism, leading to a constant interplay between the supranational and national elements in translation. On the one hand, EU Mixed corpus design for researching the Eurolect... 199 drafting and translation demonstrate reduced embedding in national cultures and their neutralization; on the other hand, such de-territorialization creates a new territory, with the pan-European culture based on acquis – the body of EU law, and constituent national cultures. Despite its scale and social impact, the Eurolects are a surprisingly rare object of research within Translation Studies and other disciplines. The existing studies are usually small-scale and descriptive, rarely based on systematic empirical research, and, to a certain degree, findings are repetitive or superficial. In fact, very little is known about the Eurolects, not only in respect of Polish, for which this is a new phenomenon, but also for other official EU languages. Such knowledge is a prerequisite for understanding Eurolects and their impact on national languages. Another shortcoming is that most studies are legicentric as they concern EU law (including my previous project Eurofog), with other genres being heavily under-researched. This project intends to fill in this gap in order to get an in-depth insight into various generic layers of the Polish Eurolect, which may be generalisable to the Eurolects of other official languages. The EU discourse community has developed its specific genres which have evolved as a collective multilingual effort, with the predominant influence of the procedural languages – French, English and, to a lesser extent, German. A genre is understood as “a more or less stabilized and habitual linguistic way of acting and interacting, characterized by a distinctive linguistic form or structure, associated with specific communicative purposes, and with particular social or institutional contexts” (Fairclough, 2006: 32). EU genres are therefore conventionalised uses of language associated with distinct goal orientation and practices. Four genres have been selected for the analysis as most prototypical and hence representative of EU communication: legislation, judgments, reports, and official websites for citizens. They are subject to different language policies and translation procedures. EU legislation enjoys a very special status: it is adopted in all 24 official languages and is applicable in 28 Member States. Under the principles of multilingualism and equal authenticity, all language versions have an authoritative status, which means that they are equally valid and presumed to have the same meaning; in fact, they altogether form a single legal instrument (cf. Šarčević, 1997: 64). The ultimate goal is to ensure the uniform interpretation and application of the EU law in all the Member States (cf. Šarčević, 1997: 73). Drafting and translation are concurrent, multistage and multilingual (cf. Doczekalska, 2009: 360): proposals are drafted mainly in English and next translated into official languages in most cases in-house by the EU institutions. 200 Łucja Biel The genre of judgments will be illustrated with the Court of Justice of the European Union, which has only one working language – French. Its Rules of Procedure provide for “the language of a case”, which may be any of the 24 EU official languages. The language of the case is used in the parties’ written and oral pleadings and in the minutes and decisions of the Court. Only documents prepared in the language of the case are authentic. In the case it is impossible to provide direct translation, pivot languages are used, e.g. German for Polish (cf. McAuliffe, 2012). Case law is translated mainly in-house by lawyer linguists who have legal training and know at least 2 official languages. Reports of EU institutions are an example of professional communication between experts. As documents which are not legally binding, they are usually available in English, French and German. Reports may be translated into other languages depending on the target audience and importance of information. They may be translated in-house or by external contractors. EU institutional websites are the main channel of communication between the EU (the institutions) and citizens of the European Union. They provide information about the EU and inform citizens of their rights and obligations; but their ‘hidden’ task is to promote the positive image of the European Union. The most representative example is EUROPA, an official website of the European Union run by the Communication Department of the European Commission on behalf of the EU institutions. Websites are prepared by the dedicated service with the requirement that they should be citizen-oriented, userfriendly and euro-jargon free (cf. European Commission, 2009). The language policy is evidence-based to decide which content is translated into all languages (i.e. if users would be seriously disadvantaged or if it is legally required) and which into only most frequent or selected languages (e.g. short-lived or specialised content)1. Websites are translated by a specialised unit within the Directorate-General for Translation. 3. Research objectives of the PL Eurolect project As for the Polish Eurolect, compared to the Eurolects of the old Member States (EU-15), it is a newly emerging phenomenon, a hybrid variety of administrative Polish. It started to form in the early 2000s when Poland began to translate acquis communnautaire, the EU body of law, as a precondition for the 2004 accession. After the accession the translation process was institutionalised, when it was taken over by the EU institutions, such as the European Commission, the Council of the European Union, the European Parliament, and the Court of Justice. The nature of the Polish Eurolect is constrained by the fact 1 http://ec.europa.eu/ipg/content/multilingualism/index_en.htm. Mixed corpus design for researching the Eurolect... 201 that it is an outcome of translator-mediated communication, translated from the EU procedural languages, currently mainly English, and a by-product of the unequal interaction between a majority EU culture and a minority Polish culture (cf. Biel, 2014). Having regard to the foregoing, the main objective of the PL Eurolect project is (1) to extensively investigate the Polish Eurolect in order to understand the processes and factors behind its formation, and (2) to track the impact of the Eurolect on post-accession Polish. This objective will be researched via the following questions: 1. External variation (the textual fit): How does the Eurolect differ from naturally occurring, nontranslated administrative Polish? 2. Internal generic variation: How does the Eurolect vary internally across the four genres (legislation, judgments, reports, official websites for citizens)? 3. Variables: How is the Eurolect affected by a genre, source language, institutionalisation of translation process, translator profile and translation universals2? 4. Europeanisation of administrative Polish: How has post-accession Polish been affected by the huge inflow of EU translations (a comparison of pre-accession Polish (1999/2000) and post-accession Polish (2015))? The methodological objective is to develop and test an interdisciplinary theoretical model for researching translator-mediated variants of language, a model which would be of general applicability extending beyond a specific language and genre. 4. The mixed corpus design The project will be conducted in the area of Corpus-Based Translation Studies (CBTS), a strand of Translation Studies which applies corpus linguistics as methodology. The corpus-based methodology allows for inductive data-driven studies based on quantitative data. Its major advantages include: reduced subjectivity and the potential to verify hypotheses systematically on much more extensive material. Although corpora of EU translations are abundant, the previous project has shown that the available resources should be used with care and in order to 2 The hypotheses of translation universals (also more recently known as typical features, tendencies, patterns of translations) include: explicitation, simplification and disambiguation, normalisation, standardisation, conventionalisation, levelling-out (lower variation), unique items, and untypical collocational patterns (cf. Baker, 1993; Chesterman, 2004). Łucja Biel 202 research more detailed questions, corpora have to be built anew based on carefully controlled criteria. 4.1. Genre-based corpus The rationale for designing a genre-based corpus is connected with the importance of the concept of a genre as revealed by recent corpus-based studies in the domain. Studies into legal language have demonstrated a high variation of lexical bundles across legal genres (cf. Goźdź-Roszkowski, 2011); while empirical studies into translation show that differences between translations and nontranslations (in particular features of translations) are dependent on genres (Teich, 2003: 147; Delaere et al., 2012; de Sutter et al., 2012). The core corpus of the Polish Eurolect has a genre-based structure (Figure 1). It will comprise the four prototypical genres of EU communication: legislation, judgments, reports and official websites for citizens (cf. Section 2). The core corpus is intended to be sufficiently large to allow for a variety of data. Relevant methods and tests will be applied to ensure its representativeness, balance and comparability. The detailed structure of the corpus is shown in Table 1 below. EU legislation A subcorpus of regulations (which are directly applicable) and a subcorpus of directives (which are subject to transposition into national law). However, other types of instruments may be added at a later period. Since the pilot study has shown large differences in the distribution of lexico-grammatical patterns in non-enacting (preambles) and enacting terms (the normative part), the directives and regulations will be divided into 3 sections – preambles/citations, enacting terms and annexes, to ensure a better comparability of the Eurolect to the national language of the law, which has a different structure without extensive non-normative preambles. It was identified as one of the limitations in the Eurofog project (cf. Biel, 2014: 309). The corpus will also be divided into two time spans to measure the effect of institutionalisation on the translation process and the evolution of the Polish Eurolect from its formative stage to the current developed stage. The 1A corpus will contain pre-accession translations coordinated by the Polish government while the 1B corpus will contain post-accession translations from the period 2014-2015 coordinated by the EU institutions. 1A: JRC Acquis corpus, Version 3.0, which contains Polish regulations (ca. 14 million words) and Polish directives (ca. 7 million words). The JRC Acquis corpus was built by the European Commission’s Joint Research Centre and it contains texts from 1958 to 2006. The corpus design is discussed in Steinberger et al. (2006). The corpus was used in the pilot study; in this study we intend to extract pre-accession translations, that is up to 2004. 1B: the corpus of Polish-language regulations and directives with a time span of 2014-2015, when translation quality may be deemed to have stabilised. The corpus will be compiled as part of the project. Files will be downloaded in html from the EUR-Lex portal. Mixed corpus design for researching the Eurolect... 203 EU judgments The Polish version of judgments and other decisions of the Court of Justice and the General Court to be downloaded from the Curia portal and sorted according to the so-called authentic language (language of the case, source language) – English, German and French. Such sorting will enable us to analyse the impact of source language on Polish translations (i.e. SL-specific interference) EU reports Technical reports prepared by the European Commission and other EU institutions; expert-to-expert communication Official Polish versions of websites of EU institutions, e.g. Europa portal, the website websites for EU of the European Parliament and the European Commission. Special attention citizens will be paid to pages which explain legal rights and obligations (semilegal language). Table 1. The core corpus: the genre-based structure of the Polish Eurolect corpus Except for the EU law component, the remaining sections of the Eurolect corpus will exclude pre-accession translations. 4.2 Parallel, comparable and reference corpora Owing to the involvement of translation, the core corpus of the Polish Eurolect will be embedded in a combination of monolingual comparable/reference and bilingual parallel corpora. Corpus-Based Translation Studies tend to use either the technique of parallel corpus or of a comparable corpus. While comparable corpora are useful for analysing the textual fit of translations, that is how they differ from nontranslations in the target language, parallel corpora give insight into equivalence, that is the relation of translations to source texts. Both relations – textual fit and equivalence – are fundamental in translations and essential to understanding their nature (cf. Chesterman, 2004). The technique of researching translations against non-translations via comparable monolingual corpora was pioneered by Mona Baker in the early 1990s (1993); however, it has lately been criticised as one-sided and methodologically flawed due to the exclusion of source texts (STs) from the study of translations and the resulting impossibility to account for ST interference in translated language (cf. Bernardini, Zanettin, 2004: 59; Pym, 2010: 82; Bernardini, Ferraresi, 2011: 228). More recent approaches to translation recommend combining two types of corpora, that is comparable and parallel ones. This approach has for example been advocated by Hansen-Schirra and Teich, who refer to such a mixed-design corpus as a multilingually comparable corpus (2009: 1162). In my opinion this name, which is popular especially among German scholars, does not fully reflect the nature of the corpus; therefore, I propose to use a more explicit name – a comparable-parallel corpus. The structure of the Eurolect comparable-parallel corpus is shown in Figure 1. 204 Łucja Biel Figure 1. A genre-based comparable-parallel corpus: the PL Eurolect corpus As for the parallel corpus, it will comprise the core corpus of the Polish Eurolect aligned with corresponding English texts for all the four genres. In most cases, these are “source texts”, especially for the pre-accession period; however, it may not be excluded that translations were rendered from other languages, in particular French or that a text went through a mixture of languages (the multilingual drafting process). The selection of English also accounts for the fact that it dethroned French as the key working language in the 2000s and has become a lingua franca in the multilingual EU (cf. Pozzo, 2012). Since the techniques of analysing parallel corpora are far less sophisticated than those of comparative corpora, the parallel corpus will be smaller to enable an in-depth analysis and will be built only for selected sections of the core Eurolect corpus. The parallel corpus will be used to study key areas of interference, causes of overrepresentation and other typical features of translations as identified through comparable corpora. Thus, it will be built at a later phase of the project in 2016-2017. The comparable corpus of Administrative Polish will be built according to the same design criteria as the core Eurolect corpus to ensure that, wherever possible, the two corpora “match each other in terms of proportion, genre, domain and sampling period” (McEnery et al., 2006: 48). The corpus will be genre-based and will contain nontranslated administrative Polish. We will aim at a similar size of corresponding subcorpora in the Eurolect corpus and in the Administrative Polish corpus. The corpus will have a synchronic and diachronic component, that is it will be split into pre-accession and post-accession sections to study the impact of the Eurolect on administrative Polish (the provisional Mixed corpus design for researching the Eurolect... 205 sampling points will be 1999/2000 and 2014-2016). A reservation should be made that the full comparability of corpora in Translation Studies is not possible due to the culture-specific nature of genres (cf. Granger, 2003: 19); in this case it should be borne in mind that EU texts and national texts have a different context of use – supranational and national, respectively. Polish national legislation The Polish Law Corpus (PLC) compiled by the author in 2011. The corpus size is 7 million words, 755 statutes (more details see Biel, 2014). The corpus will be updated as of 2015 and a smaller control sub-corpus will be built with the same time span as the 1B corpus of EU law. Polish judgments Judgments of the Polish Supreme Court (Sąd Najwyższy), Civil Chamber, obtained from Professor Rafał Górski. The Civil Law Chamber Corpus has 3 million tokens and comprises 1,577 decisions, such as postanowienie, uchwała, wyrok, ranging from 2000-2010. The Supreme Court is the topmost tier of the Polish court system. It has powers to shape general rules of law and may resolve discrepancies in interpretation of law found in judgments of less senior courts. On these grounds the Supreme Court decisions are deemed to be most comparable to EU decisions. Polish governmental Reports published by the Polish government on comparable thematic areas. reports Official websites for Websites of the Polish government and other national institutions Polish citizens communicating with Polish citizens. Table 2. A comparable corpus: the genre-based structure of the (national) Administrative Polish corpus The corpus design also covers a big general reference corpus to avoid the “difference mindset” (cf. Baker, 2010: 153) and enable the identification of similarities between the corpora of administrative discourse. It will be a balanced sample of the National Corpus of Polish (NKJP3), a big corpus of contemporary Polish which was released in 2012 and its time span ranges from 1945 to 2011. The balanced version has 240.2 million words and consists of books 29%, the press 50%, other written texts (administrative, letters) 4%, Internet 7%, spoken texts 10%. It will function as a representative sample of contemporary Polish and a benchmark for the interpretation of translation data. 5. Triangulation of data and methods The project will not rely solely on quantitative data but, given the multifarious nature of translations, it will attempt at triangulation as recently postulated by a number of scholars (cf. Zanettin, 2012: 12). It will cover both data and methodological triangulation: that is, quantitative data from a broad range of comparative and parallel corpora across genres and qualitative data obtained via 3 www.nkjp.pl 206 Łucja Biel small-scale analyses, applying the functional linguistics methodology (mainly discourse analysis), to study certain prominent aspects of the Eurolect, such as legitimation strategies and rhetorical patterns, the multimodal analysis of websites (social semiotics), and comparative legal analysis of supranational and national terms. It is believed that this procedure will enable the team to obtain a deep insight into the Polish Eurolect. 6. Conclusions The project will investigate, describe and help understand the new linguistic phenomenon – the Polish Eurolect, which still has not been researched empirically on a large scale. The results of the project may be relevant for translating institutions and the EU public at large. Given the unprecedented scale of EU translations and their political, economic and societal implications, it is crucial to empirically identify ways of improving the quality of translations and increase their communicative potential by minimising departures from the conventions of Polish, and hence to reduce the colonisation of administrative Polish by the Eurolect. The knowledge about processes, factors, key areas of interference and distortions typical of the translation process will help to improve our understanding and interpretation of EU law, case law and other documents. Acknowledgment This study was financed by research grant no. 2014/14/E/HS2/00782 from the National Science Centre, Poland. References Baker, Mona (1993): Corpus Linguistics and Translation Studies. Implications and Applications. In: Mona Baker, Gill Francis, Elena Tognini-Bonelli (eds): Text and Technology: In Honour of John Sinclair. Amsterdam: John Benjamins, 233–250. Baker, Paul (2010): Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press. Bernardini, Silvia, Ferraresi, Adriano (2011): Practice Description and Theory Come Together – Normalization or Interference in Italian Technical Translation? Meta: Translators’ Journal 56(1), 226–246. Mixed corpus design for researching the Eurolect... 207 Bernardini, Silvia, Zanettin, Federico (2004): When is a universal not a universal? Some limits of current corpus-based methodologies for the investigation of translation universals. In: Anna Mauranen, Pekka Kujamäki (eds.): Translation Universals. Do they exist? Amsterdam: John Benjamins, 51–62. Biel, Łucja (2014): Lost in the Eurofog. The Textual Fit of Translated Law. Frankfurt am Main: Peter Lang. Chesterman, Andrew (2004): Hypotheses about translation universals. In: Gyde Hansen, Kirsten Malmkjær, Daniel Gile (eds.): Claims, Changes and Challenges in Translation Studies. Selected contributions from the EST Congress, Copenhagen 2001. Amsterdam: John Benjamins, 1–13. de Sutter, Gert, Delaere, Isabelle, Plevoets, Koen (2012): Lexical lectometry in corpus-based translation studies. Combining profile-based correspondence analysis and logistic regression modeling. In: Michael P. Oakes, Meng Ji (eds.): Quantitative Methods in Corpus-Based Translation Studies: A practical guide to descriptive translation research. Amsterdam: John Benjamins, 325–346. Delaere, Isabelle, DE Sutter, Gert, Plevoets, Koen (2012): Is translated language more standardized than non-translated language? Using profile-based correspondence analysis for measuring linguistic distances between language varieties. Target 24(2), 203–224. Doczekalska, Agnieszka (2009): Drafting and interpretation of EU law – paradoxes of legal multilingualism. In: Günther Grewendorf, Monika Rathert (eds.): Formal Linguistics and Law. Berlin: de Gruyter, 339–370. European Commission (2009): Web translation as a genre. Studies on translation and multilingualism. 3/2009. http://bookshop.europa.eu/is-bin/ INTERSHOP.enfinity/WFS/EU-Bookshop-Site/en_GB/-/EUR/ViewPublication-Start?PublicationKey=HC8009160, (1 March 2016); DOI: 10.2782/26441. Fairclough, Norman (2006): Genres in Political Discourse. In: Keith Brown (ed.): Encyclopedia of Language and Linguistics. Vol. 5. Oxford: Elsevier, 32–38. Goźdź-Roszkowski, Stanisław (2011): Patterns of Linguistic Variation in American Legal English. A Corpus-Based Study. Frankfurt am Main: Peter Lang. Granger, Sylviane (2003): The corpus approach: a common way forward for Contrastive Linguistics and Translation Studies? In: Sylviane Granger, Jacques Lerot, Stephanie Petch-Tyson (eds.): Corpus-based Approaches to Contrastive Linguistics and Translation Studies. Amsterdam: Rodopi, 17–29. 208 Łucja Biel Hansen-Schirra, Silvia, Teich, Elke (2009): Corpora in human translation. In: Anke Lüdeling, Merja Kytö (eds): Corpus Linguistics. An International Handbook. Berlin: de Gruyter, 1159–1175. Koskinen, Kaisa (2000): Institutional Illusions. Translating in the EU Commission. The Translator 6(1), 49–65. McAuliffe, Karen (2012): Language and Law in the European Union: The Multilingual Jurisprudence of the ECJ. In: Lawrence M. Solan, Peter M. Tiersma (eds.): The Oxford Handbook of Language and Law. Oxford: Oxford University Press; DOI 10.1093/oxfor dhb/9780199572120.001.0001. McEnery, Tony, Xiao, Richard, Tono, Yukio (2006): Corpus-Based Language Studies. An advanced resource book. London: Routledge. Pozzo, Barbara (2012): English as a Legal Lingua Franca in the EU Multilingual Context. In: Cornelis J. W. Baaij (ed.): The Role of Legal Translation in Legal Harmonization. Alphen aan den Rijn: Wolters Kluwer, 183–202. Pym, Anthony (2010): Exploring Translation Theories. London: Routledge. Salmi-Tolonen, Tarja (2004): Legal linguistic knowledge and creating and interpreting law in multilingual environments. Brooklyn Journal of International Law 29(3), 1167–1191. Šarčević, Susan (1997): New Approach to Legal Translation. The Hague: Kluwer Law International. Steinberger, Ralf, Pouliquen, Bruno , Widiger, Anna, Ignat, Camelia, Erjavec, Tomaž, Tufiş, Dan, Varga, Dániel (2006): The JRCAcquis: A multilingual aligned parallel corpus with 20+ languages. In: Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC’2006). Genoa, Italy, 24–26 May 2006. http:// langtech.jrc.it/Documents/0605_LREC_JRC-Acquis_Steinberger-et-al. pdf, (1 March 2016). Teich, Elke (2003): Cross-Linguistic Variation in System and Text: A Methodology for the Investigation of Translations and Comparable Texts. Berlin: de Gruyter. Zanettin, Federico (2012): Translation-Driven Corpora. Corpus Resources for Descriptive and Applied Translation Studies. Manchester: St. Jerome. Monika Szela Wyższa Szkoła Filologiczna we Wrocławiu O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych w badaniu cech języka tekstów tłumaczonych On using a English-Polish Parallel Corpus of Legal Texts in research on features of the translational language Abstract This paper aims to present the compilation of the English-Polish parallel corpus comprising legal acts of the European Union as well as preliminary investigations into this corpus against comparative corpora of British and Polish acts. The corpora have been compiled for the purposes of research on grammatical and lexical features of translated texts in comparison to texts produced originally by native speakers of the target language. The phenomenon of divergence between translated and non-translated texts have recently been given considerable attention and this research is intended to contribute to the studies dedicated to this phenomenon. Therefore, both translated and non-translated legal acts have been acquired. The parallel corpus contains two subcorpora with English and Polish texts of the EU body of law (L series) published by the European Commission from 2004 to 2011. The size of each subcorpus exceeds forty million words. The texts were downloaded both as plain text files and aligned translation memories. Additionally, two comparative corpora, covering the same period of time, were compiled: the first being the general legal acts of the British Parliament, and the second being legal acts published in the Polish Journal of Laws. All the files underwent basic – though labour-intensive – processing: pdf files were converted to plain text formats, and character encoding was unified if required. The files were then uploaded to WordSmith Tools, a tool for text analysis, which produced word frequency lists and key word lists. The initial analyses included the investigation of (i) a handpicked Polish improper verb należy with an untypical frequency in the parallel corpus against the distribution of the English modal verb shall in both parallel and comparative corpora; and (ii) Polish impersonal verb forms ended with -no, -to. As far as the impersonals were concerned, it was assumed that the analysis would confirm the Monika Szela 210 under-representation of these forms in translated texts; however, the results reveal no such tendency. The paper ends with tentative conclusions drawn from the results as more detailed study into thus compiled corpora is called for. Słowa kluczowe: korpus równoległy, korpus porównawczy, język polski, język angielski, język przekładu, interferencja, uniwersalia tłumaczeniowe, język prawniczy Keywords: parallel corpus, comparative corpus, Polish, English, translationese, interference, translation universals, legalese 1. Wprowadzenie Omówione w niniejszym artykule zadanie utworzenia równoległego korpusu angielsko-polskiego tekstów prawych jest elementem badań nad zjawiskiem nienaturalności języka tekstu przekładu i jego cech na materiale aktów prawnych. Zagadnieniu braku naturalności tekstów tłumaczonych w porównaniu z tekstami tworzonymi oryginalnie przez rodzimych użytkowników języka docelowego (Olohan, 2004: 90) poświęcono już wiele badań, a w literaturze przedmiotu pojawiły się nowe terminy, jak język tłumaczeń, język hybrydowy czy trzeci kod (ang. translationese, translatese, hybrid language, third code). Wśród przyczyn wspomnianego zjawiska badacze podkreślają zarówno wpływ języka źródłowego, jak i uniwersalne tendencje niezależne od pary językowej, inherentne dla samego procesu tłumaczenia, mające wpływ na produkt tłumaczenia (Mauranen, 2008: 33-34). Od lat dziewięćdziesiątych ubiegłego wieku podejmowano badania dotyczące nie tylko interferencji, ale stawiano również hipotezy o istnieniu uniwersaliów tłumaczeniowych wpisanych w proces tłumaczenia. Pojawiły się między innymi hipotezy o eksplicytacji w przekładzie, uproszczeniu składniowym, konwencjonalizacji języka przekładu, niedoreprezentacji struktur języka docelowego w przypadku ich niewystępowania w języku źródłowym czy konwergencji. Badacze są zgodni, że brak naturalności produktu tłumaczenia w porównaniu z tekstami oryginalnie utworzonymi w języku docelowym nie sprowadza się tylko do niekompetencji językowej tłumacza czy niewystarczającej wiedzy przedmiotowej, ponieważ pojawia się również w tłumaczeniach wykonanych przez profesjonalnych tłumaczy. W celu określenia cech języka przekładu i rozróżnienia, które z nich są rezultatem interferencji, a które należą do tendencji uniwersalnych dla procesu tłumaczenia, wykorzystuje się metody językoznawstwa korpusowego, które są użytecznym narzędziem badania rzeczywistego uzusu języka i obserwacji zachodzących regularności dla dużych ilości tekstów (Piotrowski, 2003: 143-147). Dzięki korpusom zyskuje się dane frekwencyjne dotyczące dystrybucji poszczególnych słów i wyrażeń w tekstach tłumaczonych oraz typowych O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych... 211 połączeń wyrazowych. Takie dane zestawia się z odpowiednimi danymi dla tekstów nietłumaczonych, powstających w języku docelowym. Przekładoznawstwo opisowe posługuje się korpusami równoległymi, które zawierają tekst źródłowy zestawiony z jego tłumaczeniem (tłumaczeniami), korpusami porównawczymi, które zawierają teksty o podobnym profilu (na przykład prawne, medyczne) w różnych językach (Mauranen, 2008: 33), a także korpusami referencyjnymi, czyli zbiorami tekstów nietłumaczonych, które służą za odniesienie przy badaniu cech tekstu tłumaczonego. Korpus równoległy pozwala na badanie tłumaczeń pod kątem ewentualnej interferencji, zaś korpus porównawczy umożliwia badanie tendencji uniwersalnych oraz cech, które sprawiają, że tekst nie brzmi naturalnie w porównaniu z tekstami oryginalnymi. Na potrzeby analizy produktu tłumaczenia ważne okazuje się nie tylko porównanie tekstu źródłowego z tekstem docelowym, ale również porównanie tekstu docelowego z korpusem tekstów utworzonych oryginalnie w języku docelowym (por. Grabowski, 2011: 89-112). Na potrzeby niniejszego badania, które dotyczy cech języka tłumaczeń utworzono zarówno korpusy równoległe zawierające tłumaczenia tekstów prawnych na język polski wraz z ich tekstami źródłowymi w języku angielskim, jak i korpusy porównawcze tekstów prawnych tworzonych oryginalnie w języku polskim i angielskim. W artykule przedstawione zostaną pokrótce wymienione korpusy, proces ich kompilacji oraz wstępne analizy. Zamierzeniem autorki jest kontynuacja badań na przedstawionym materiale, których celem jest weryfikacja hipotezy o odmienności gramatycznej języka tekstów tłumaczonych w porównaniu z tekstami nietłumaczonymi. Omawiane badania będą mogły stanowić przyczynek do badań aktualnie prowadzonych dla podobnych zbiorów tekstów (Biel, 2014). 2. Opis korpusów Materiał do badań ograniczono do jednego rodzaju tekstów aktów prawnych, a mianowicie ustaw i rozporządzeń. Na potrzeby analizy cech języka tłumaczeniowego, skompilowane zostały następujące korpusy tekstów prawnych: • korpus równoległy aktów prawnych Unii Europejskiej tłumaczonych z języka angielskiego na język polski: teksty źródłowe w języku angielskim (dalej KRAN) oraz odpowiadające im teksty docelowe w języku polskim (dalej KRPL); • dwa korpusy porównawcze: teksty ustaw i rozporządzeń oryginalnie napisane w języku polskim (KPPL) oraz teksty brytyjskich aktów prawnych oryginalnie napisane w języku angielskim (KPAN). Monika Szela 212 W tabeli 1. przedstawiono podstawowe statystyki dla wykorzystanych korpusów równoległych i porównawczych (liczba okazów oznacza liczbę wszystkich wyrazów w korpusie, zaś liczba typów oznacza liczbę różnych wyrazów w korpusie). Korpus KRAN KRPL KPAN KPPL Liczba plików 76 851 75 820 357 774 Liczba okazów 49 745 496 40 200 352 12 947 371 3 266 783 Liczba typów 191 939 318 644 18 906 53 890 Tabela 1. Podstawowe dane korpusu równoległego (KRAN – KRPL) oraz korpusów porównawczych (KPAN oraz KPPL) 2.1 Korpus równoległy. Informacje szczegółowe Korpus równoległy stanowią zbiory tekstów aktów prawnych1 publikowanych przez Generalny Dyrektorat ds. Tłumaczeń Unii Europejskiej. Akty prawne UE zostały wybrane z kilku powodów: po pierwsze, ze względu na ogromną bazę tekstów udostępnioną publicznie, a po drugie ze względu na brak odmienności systemów prawnych (szczególnie w okresie poakcesyjnym, gdy niektóre z aktów prawnych, np. rozporządzenia, mają tę samą moc prawną w kraju języka docelowego). Trzecim powodem jest wysoka jakość tłumaczeń wykonywanych w ramach konsultacji językowych między poszczególnymi komisjami, co eliminuje problem kompetencji tłumacza (a raczej ewentualnego jej braku). Podkorpus angielski zawiera akty z Dziennika Urzędowego serii L z lat 2004 – 2011 pobrane z oficjalnych stron UE2 (EUR-Lex): korpus równoległy DGT-Acquis3”. Pliki w formacie tekstowym4 zostały pobrane w postaci skompresowanych plików, odrębnie dla poszczególnych lat. Łącznie pobrano osiem plików, z których po rozpakowaniu otrzymano 76 851 plików tekstowych gotowych do badania za pomocą specjalnego oprogramowania do badania korpusów tekstów WordSmith Tools 6.05. Podkorpus angielski jest traktowany jako zbiór tekstów źródłowych tłumaczenia6. 1 http://ec.europa.eu/legislation/index_en.htm (ED: 22/01/2015) 2 http://eur-lex.europa.eu/homepage.html 3 http://ipsc.jrc.ec.europa.eu/index.php?id=783 4 http://ec.europa/jrc/en/language-technology/dgt-acquis/da1-ft 5 http://www.lexically.net/wordsmith 6 Jest tak mimo zastrzeżeń wynikających z wieloetapowego procesu sporządzania dokumentów. Na początku tego procesu tworzona jest wersja robocza przekazywana do komisji językowych, które po zapoznaniu się zgłaszają problemy związane z tłumaczeniem, przekładające się dalej na zmiany w drugiej wersji roboczej, ponownie przekazywanej do komisji językowych (Steinberger et al., 2013: 455). Ten tryb tworzenia aktów prawnych powoduje, że obecnie nie uznaje się żadnego języka ani za język źródłowy, ani za język docelowy (Biel, 2014: 5) O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych... 213 Zbiorem tekstów tłumaczonych na język polski jest podkorpus aktów prawnych tworzących serię L Dziennika Urzędowego w języku polskim. Teksty zostały pobrane ze stron zawierających oficjalne publikacje EU z lat 2004 – 2011. Pliki pobrano również w formacie tekstowym7 w postaci ośmiu skompresowanych plików. Po rozpakowaniu otrzymano 75 820 plików tekstowych. Ponieważ jednak kodowanie tekstów UTF-8 powodowało błędy podczas badania za pomocą WordSmith Tools, pliki zostały przekonwertowane za pomocą komercyjnej aplikacji UTF Cast Professional8 na UTF-16LE. Po przekonwertowaniu, teksty można było analizować za pomocą WordSmith Tools. Na potrzeby badania interferencji językowej pobrano również korpus wyrównany JRC-Acquis9 oraz pamięci tłumaczeniowe DGT-TM10. 2.2 Korpusy porównawcze. Informacje szczegółowe 2.2.1 Korpus brytyjskich aktów prawnych Na korpus tekstów brytyjskich składają się ustawy Parlamentu Brytyjskiego (Public General Acts) z lat 2004-2014 publikowane w czasie zbliżonym do okresu publikacji dla korpusu równoległego UE. Teksty pochodzą z oficjalnej strony zawierającej brytyjskie akty prawne11. Pobranych zostało 357 plików w formacie pdf, które następnie zostały przekonwertowane do formatu tekstowego za pomocą wbudowanej aplikacji czytnika Adobe Reader 9. 2.2.2 Korpus polskich tekstów prawnych Teksty nietłumaczone zawierające akty prawne napisane oryginalnie przez polskich prawników były pobrane z oficjalnych stron zawierających polskie ustawy: Dziennik Ustaw12 oraz Internetowego Systemu Aktów Prawnych13. Teksty były filtrowane według lat oraz rodzaju: pobierane były ustawy z lat 2004-2011 w formacie pdf. Po skomplikowanej procedurze konwertowania plików do formatu odczytywanego przez WordSmith Tool, pozyskano 774 pliki tekstowe. 7 http://ec.europa/jrc/en/language-technology/dgt-acquis/da1-ft 8 http://www.rotatingscrew.com/utfcast-professional.aspx 9 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/corpus/ 10 http://open-data.europa.eu/en/data/dataset/dgt-translation-memory 11 http://www.legislation.gov.uk/ 12 http://dziennikustaw.gov.pl/ 13 http://isap.sejm.gov.pl/index.jsp Monika Szela 214 2.3 Korpusy referencyjne W docelowym badaniu wykorzystane zostaną również dwa korpusy referencyjne: Narodowy Korpus Języka Polskiego14 (NKJP) oraz Narodowy Korpus Języka Brytyjskiego (British National Corpus, BNC) pobrany w całości po otrzymaniu zgody. Według statystyk przedstawionych na stronie BNC, korpus zawiera sto milionów słów15. 3. Badania wstępne Skompilowane korpusy stanowią podstawowy materiał do badania cech języka przekładu. Głównym korpusem podlegającym badaniu jest podkorpus tekstów prawnych tłumaczonych na język polski. Dla tego podkorpusu są analizowane cechy języka tłumaczeń pod kątem ich odmienności od tekstów nietłumaczonych. Pozostałe korpusy są korpusami pomocniczymi pozwalającymi na określenie zakresu ewentualnej interferencji z języka źródłowego oraz tendencji niezależnych od wpływu tekstów źródłowych, charakterystycznych dla procesu tłumaczenia. 3.1. Listy frekwencyjne Pierwszym elementem badań jest utworzenie list frekwencyjnych oraz list słów kluczowych dla korpusów równoległych i ich dystrybucja w korpusach porównawczych za pomocą programu WordSmith Tools 6.0. Lista frekwencyjna zawiera listę słów uporządkowanych według liczby wystąpień w korpusie. Utworzono cztery listy frekwencyjne: dwie dla korpusu równoległego oraz dwie listy dla korpusów porównawczych. W tabelach 2.-5. przedstawiono listy frekwencyjne z wynikami dla pierwszych stu najczęstszych słów dla każdego korpusu. Czcionką pogrubioną zaznaczono elementy analizowane w dalszej części artykułu (ponieważ korpusy zostały poddane tylko częściowej obróbce, na listach mogą pojawiać się wyrazy z błędnym zapisem lub kodowaniem; # zastępuje cyfry pojawiające się w korpusach). Lp. Słowo 1 2 3 4 # W I Z Liczba % w KRPL w KRPL 3197162 7,19 1814379 4,08 977858 2,20 879833 1,98 14 http://nkjp.pl/ 15 http://www.natcorp.ox.ac.uk/ Lp. Słowo 51 52 53 54 NIŻ ICH TO EUROPEJSKIEJ Liczba % w KRPL w KRPL 66045 0,15 65455 0,15 64532 0,15 64314 0,14 O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych... Lp. Słowo Liczba % w KRPL w KRPL 5 DO 684939 1,54 6 NA 608112 1,37 7 M 552688 1,24 8 Ý 540161 1,21 9 LUB 370437 0,83 10 R 303742 0,68 11 WE 301690 0,68 12 SIĘ 299330 0,67 13 O 284655 0,64 14 NR 241323 0,54 15 ORAZ 239200 0,54 16 ART. 237609 0,53 17 NIE 228996 0,52 18 DNIA 224912 0,51 19 PRZEZ 200415 0,45 20 JEST 187938 0,42 21 DLA 182632 0,41 22 A 169878 0,38 23 UST 160874 0,36 24 ŻE 154807 0,35 25 ZGODNIE 149402 0,34 26 ROZPORZĄDZENIA 145945 0,33 27 KOMISJI 136219 0,31 28 SĄ 134635 0,30 29 OD 132944 0,30 30 ROZPORZĄDZENIE 127015 0,29 31 ARTYKUŁ 123113 0,28 32 RADY 109102 0,25 33 ZA 92306 0,21 34 SPRAWIE 91447 0,21 35 KTÓRE 91382 0,21 36 CELU 88097 0,20 37 NALEŻY 87873 0,20 38 PAŃSTWA 87829 0,20 39 PRZYPADKU 87294 0,20 40 BYĆ 85994 0,19 41 KTÓRYCH 84366 0,19 42 TYM 78470 0,18 43 PO 75598 0,17 44 ŚRODKI 74514 0,17 45 JEGO 71196 0,16 46 ZE 71124 0,16 Lp. Słowo 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 ŚRODKÓW UWZGLĘDNIAJĄC CZŁONKOWSKIE SZCZEGÓLNOŚCI UNII TE MOWA PRODUKTÓW DOTYCZĄCE RAMACH JEŻELI ZAŁĄCZNIKU POMOCY JAKO JAK TEGO NINIEJSZEGO MOGĄ EWG DECYZJI L TAKŻE U ZAKRESIE INNYCH LIT CZŁONKOWSKICH TYCH PRZY PAŃSTW WSPÓLNOTY B NINIEJSZE DYREKTYWY POD MIĘDZY DECYZJA RYNKU C WARTOŚCI RÓWNIEŻ EUROPEJSKIEGO 215 Liczba % w KRPL w KRPL 60396 0,14 60291 0,14 59592 0,13 59412 0,13 59307 0,13 58578 0,13 58494 0,13 57623 0,13 56390 0,13 54346 0,12 53734 0,12 52989 0,12 52972 0,12 52006 0,12 50987 0,11 50840 0,11 50672 0,11 50659 0,11 50001 0,11 49621 0,11 48663 0,11 47884 0,11 47689 0,11 47547 0,11 47089 0,11 46453 0,10 46032 0,10 45938 0,10 45017 0,10 45005 0,10 45002 0,10 44411 0,10 44333 0,10 43785 0,10 43422 0,10 43304 0,10 42245 0,10 42061 0,09 41442 0,09 41310 0,09 40922 0,09 40674 0,09 Monika Szela 216 Lp. Słowo 47 48 49 50 ODNIESIENIU KOMISJA MOŻE CO Liczba % w KRPL w KRPL 70692 0,16 70687 0,16 67202 0,15 67191 0,15 Lp. Słowo 97 98 99 100 ZAŁĄCZNIK II WSZYSTKICH PKT Liczba % w KRPL w KRPL 39995 0,09 39842 0,09 39775 0,09 39753 0,09 Tabela 2. Lista frekwencyjna dla podkorpusu aktów prawnych UE tłumaczonych na język polski (KRPL) Lp. Słowo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 THE # OF TO AND IN FOR A BE OR ON SHALL BY WITH IS REGULATION THAT AS THIS ARTICLE EC COMMISSION € NO FROM EUROPEAN NOT WHICH ARE MEMBER AT Î AN Liczba % w KRAN w KRAN 4105230 8,25 3233168 6,50 2495090 5,01 1284276 2,58 1272934 2,56 1238765 2,49 691226 1,39 576733 1,16 506839 1,02 426358 0,86 423319 0,85 389849 0,78 384255 0,77 326489 0,66 326365 0,66 323248 0,65 318328 0,64 297674 0,60 292751 0,59 265127 0,53 264468 0,53 225198 0,45 220035 0,44 206352 0,41 197610 0,40 197566 0,40 197241 0,40 175284 0,35 169095 0,34 160637 0,32 154803 0,31 154013 0,31 149751 0,30 Lp. Słowo 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 ARTICLE STATE FOLLOWING INFORMATION ALL HAVE MEASURES REFERRED DIRECTIVE THAN INTO OUT AGREEMENT I IF UNION SUCH REGARD HAVING THEIR FINANCIAL NO PARTICULAR WHERE PROVIDED Ï WAS BEEN MARKET BETWEEN AID WITHIN DOWN Liczba % w KRAN w KRAN 88134 0,18 86267 0,17 85843 0,17 85736 0,17 84191 0,17 81288 0,16 78550 0,16 77864 0,16 77412 0,16 76652 0,15 76428 0,15 76189 0,15 75886 0,15 74921 0,15 74861 0,15 74057 0,15 73522 0,15 72444 0,15 72047 0,14 71773 0,14 71178 0,14 70215 0,14 68103 0,14 67969 0,14 67894 0,14 67091 0,13 63104 0,13 62998 0,13 62329 0,13 61611 0,12 60085 0,12 59378 0,12 56087 0,11 O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych... Lp. Słowo 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 COMMUNITY IT OTHER COUNCIL MAY STATES DECISION ITS ANNEX UNDER Ð SHOULD ACCORDANCE  HAS ANY PRODUCTS Liczba % w KRAN w KRAN 138744 0,28 136235 0,27 135076 0,27 130437 0,26 120278 0,24 116105 0,23 114810 0,23 111997 0,23 110035 0,22 100926 0,20 96245 0,19 94760 0,19 94480 0,19 93647 0,19 91559 0,18 91557 0,18 89761 0,18 Lp. Słowo 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 PERIOD P SET THOSE EEC PART USED MUST CERTAIN CONDITIONS ONE APPLICABLE USE THEY TREATY RULES PROVISIONS 217 Liczba % w KRAN w KRAN 53885 0,11 53789 0,11 52640 0,11 51529 0,10 51272 0,10 50866 0,10 49706 0,10 49646 0,10 49546 0,10 49229 0,10 48976 0,10 48829 0,10 48010 0,10 46835 0,09 46787 0,09 46747 0,09 46476 0,09 Tabela 3. Lista frekwencyjna dla podkorpusu aktów prawnych UE w języku angielskim (KRAN) Lp. Słowo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # W Z I NR POZ ART O UST DO NA R LUB SIĘ ORAZ MOWA DNIA PKT PRZEZ USTAWY Liczba % Lp. Słowo w KPPL w KPPL 549333 16,82 51 POLSKIEJ 143867 4,40 52 STOSUJE 69089 2,11 53 USTAWIE 68766 2,11 54 WŁAŚCIWY 59366 1,82 55 DZIAŁ 57620 1,76 56 DZIAŁALNOŚCI 56017 1,71 57 PAŃSTWA 54992 1,68 58 ZE 42121 1,29 59 TERMINIE 41320 1,26 60 RZECZYPOSPOLITEJ 37690 1,15 61 MINISTER 35369 1,08 62 JEGO 31131 0,95 63 INFORMACJI 26904 0,82 64 OSÓB 25062 0,77 65 PRZEPISÓW 24230 0,74 66 ZOSTAŁY 18440 0,56 67 ŻYCIE 16521 0,51 68 DRODZE 14686 0,45 69 SĄ 14607 0,45 70 WYMIENIONEJ Liczba w KPPL 4269 4205 4161 4050 4019 3985 3968 3864 3824 3799 3775 3752 3732 3701 3658 3606 3583 3576 3564 3560 % w KPPL 0,13 0,13 0,13 0,12 0,12 0,12 0,12 0,12 0,12 0,12 0,12 0,11 0,11 0,11 0,11 0,11 0,11 0,11 0,11 0,11 Monika Szela 218 Lp. Słowo 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 KTÓRYCH NIE A BRZMIENIE OTRZYMUJE OD KTÓRYM DZ PO U JEST ZA ALBO KTÓREJ MOŻE PRZYPADKU BRZMIENIU SPRAW JEŻELI B ZAKRESIE DLA PODSTAWIE DODAJE ZMIANY USTAW DZIENNIK NIŻ TYM ICH Liczba % w KPPL w KPPL 12884 0,39 12859 0,39 11680 0,36 11439 0,35 10367 0,32 10200 0,31 10183 0,31 9758 0,30 8979 0,27 8842 0,27 8647 0,26 7338 0,22 6976 0,21 6840 0,21 6728 0,21 6572 0,20 6307 0,19 6278 0,19 6182 0,19 6133 0,19 6087 0,19 5812 0,18 5718 0,18 5354 0,16 5334 0,16 5329 0,16 4951 0,15 4781 0,15 4700 0,14 4285 0,13 Lp. Słowo Liczba w KPPL 71 ZM 3555 72 PRACY 3550 73 PÓŹN 3529 74 PRZEPISY 3432 75 OCHRONY 3416 76 ŚRODKÓW 3339 77 ROZPORZĄDZENIA 3300 78 BYĆ 3279 79 PRZED 3275 80 OSOBY 3250 81 TYCH 3192 82 OKREŚLONYCH 3161 83 DANYCH 3132 84 WNIOSEK 3113 85 TAKŻE 3092 86 DECYZJI 3058 87 KONTROLI 3013 88 C 3006 89 UMOWY 2968 90 DNI 2967 91 POSTĘPOWANIA 2964 92 PRAWO 2960 93 OGŁOSZONE 2955 94 SPOSÓB 2947 95 ODPOWIEDNIO 2943 96 PRAWA 2943 97 RADY 2937 98 WE 2927 99 TEGO 2864 100 CZĘŚĆ 2842 275 NALEŻY 1054 % w KPPL 0,11 0,11 0,11 0,11 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,09 0,03 Tabela 4. Lista frekwencyjna dla korpusu porównawczego polskich aktów prawnych Lp. Słowo 1 2 3 4 5 6 # THE OF A TO IN Liczba % w KPAN w KPAN 1184510 9,13 885054 6,82 619758 4,78 417996 3,22 396460 3,05 373462 2,88 Lp. Słowo 51 52 53 54 55 56 SUCH MUST FROM AT STATE AMOUNT Liczba % w KPAN w KPAN 32630 0,25 32451 0,25 28961 0,22 28616 0,22 28358 0,22 25802 0,20 O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych... Lp. Słowo 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 AND OR SECTION FOR IS ACT B BY C THAT AS UNDER BE ANY AN SUBSECTION THIS PARAGRAPH WHICH ON PERSON MAY WITH PART NOT IF IT SCHEDULE MADE ORDER RELATION HAS ARE AFTER OTHER PROVISION PURPOSES AUTHORITY S PERIOD TAX COMPANY Liczba % w KPAN w KPAN 252007 1,94 246292 1,90 191003 1,47 188061 1,45 170875 1,32 148456 1,14 126381 0,97 124733 0,96 118370 0,91 113097 0,87 112392 0,87 111840 0,86 99333 0,77 90649 0,70 89753 0,69 89306 0,69 88276 0,68 83076 0,64 75625 0,58 69176 0,53 68520 0,53 67025 0,52 61317 0,47 60765 0,47 58924 0,45 57971 0,45 47659 0,37 43991 0,34 42796 0,33 40841 0,31 40308 0,31 39570 0,30 39529 0,30 38494 0,30 38090 0,29 37870 0,29 37237 0,29 35531 0,27 35095 0,27 34562 0,27 34457 0,27 33324 0,26 Lp. Słowo 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 APPLIES INSERT SECRETARY WHERE REGULATIONS MEANS BEFORE SUB RESPECT HAVE WITHIN MAKE INCOME CHAPTER COURT CASE TIME NOTICE EFFECT LOCAL D SPECIFIED SCHEME BEEN SERVICES SO INFORMATION MEANING I WHO REFERENCE GIVEN APPLICATION PERSONS APPLY SUBJECT HEALTH POWER SERVICE YEAR FUNCTIONS THAN 219 Liczba % w KPAN w KPAN 25701 0,20 25569 0,20 25229 0,19 24514 0,19 24160 0,19 23785 0,18 23677 0,18 23228 0,18 22750 0,18 21956 0,17 21703 0,17 21678 0,17 21628 0,17 21141 0,16 20221 0,16 19818 0,15 19537 0,15 19434 0,15 19388 0,15 19357 0,15 19343 0,15 19176 0,15 19111 0,15 18989 0,15 18324 0,14 18323 0,14 16870 0,13 16588 0,13 16552 0,13 16360 0,13 16003 0,12 15635 0,12 15591 0,12 15322 0,12 15292 0,12 15194 0,12 15030 0,12 15006 0,12 14873 0,11 14743 0,11 14461 0,11 14329 0,11 Monika Szela 220 Lp. Słowo 49 RELEVANT 50 SUBSTITUTE Liczba % Lp. Słowo w KPAN w KPAN 33090 0,25 99 OFFENCE 32860 0,25 100 ITS 103 SHALL 737 SHOULD Liczba % w KPAN w KPAN 13933 0,11 13888 0,11 13279 0,10 1763 0,01 Tabela 5. Lista frekwencyjna dla korpusu porównawczego brytyjskich aktów prawnych Powyższe wyniki umożliwiają określenie słów najczęstszych i porównanie dystrybucji słów w tekstach tłumaczonych i nietłumaczonych oraz wstępną selekcję elementów do analiz szczegółowych. 3.2. Listy słów kluczowych Dla omawianych korpusów utworzono również listy słów kluczowych poprzez porównanie list frekwencyjnych dla korpusów równoległych z listami frekwencyjnymi dla korpusów porównawczych. Za słowa kluczowe uznaje się słowa o najbardziej nietypowej frekwencji w zestawieniu z korpusem porównawczym. Lista słów kluczowych zawiera słowa uszeregowane od najbardziej do najmniej nietypowych16. W tabeli 6. oraz w tabeli 7. przedstawiono słowa kluczowe dla podkorpusów równoległych w zestawieniu z odpowiednimi korpusami porównawczymi. Lp Słowo kluczowe Liczba % Liczba Lp Słowo Liczba % Liczba w KRPL KRPL w KPPL kluczowe w KRPL KRPL w KPPL 1 M 552688 1,24 405 51 EUROPEJSKĄ 30193 0,07 256 2 WE 301690 0,68 2927 52 RAMACH 54346 0,12 1165 3 ARTYKUŁ 123113 0,28 8 53 IMIENIU 29092 0,07 245 4 ROZPORZĄ127015 0,29 541 54 WSPÓLNOTĘ 19536 0,04 17 DZENIE 5 ZGODNIE 149402 0,34 2066 55 STOSOWANE 24780 0,06 142 6 ŻE 154807 0,35 2650 56 ZASTOSO31982 0,07 357 WANIE 7 KOMISJI 136219 0,31 2727 57 JAKO 52006 0,12 1126 8 CZŁONKOW59592 0,13 183 58 MOCY 34708 0,08 460 SKIE 9 ROZPORZĄ145945 0,33 3300 59 ZATEM 17587 0,04 2 DZENIA 10 NALEŻY 87873 0,20 1054 60 WSPÓLNOT 24157 0,05 143 11 NINIEJSZE 44333 0,10 2 61 PAŃSTWO 27240 0,06 236 12 NINIEJSZEGO 50672 0,11 166 62 USTANA20233 0,05 55 WIAJĄCE 16 http://www.lexically.net/downloads/version6/HTML/index.html?keywords.htm O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych... 221 Lp Słowo kluczowe Liczba % Liczba Lp Słowo Liczba % Liczba w KRPL KRPL w KPPL kluczowe w KRPL KRPL w KPPL 13 ODNIESIENIU 70692 0,16 762 63 EUROPEJ27233 0,06 241 SKICH 14 WSPÓLNOTY 45002 0,10 75 64 DOTYCZĄCE 56390 0,13 1373 15 ZAŁĄCZNIKU 52989 0,12 334 65 PRZYWÓZ 19878 0,04 52 16 DLA 182632 0,41 5812 66 PRZYWOZU 20847 0,05 74 17 KOMISJA 70687 0,16 920 67 ROZPORZĄ23442 0,05 156 DZENIEM 18 SĄ 134635 0,30 3564 68 POWINNY 27633 0,06 289 19 DS 32346 0,07 14 69 PRZYJMUJE 23808 0,05 180 20 JAK 50987 0,11 494 70 TO 64532 0,15 1851 21 EUR 30402 0,07 2 71 USTANA15389 0,03 2 WIAJĄCY 22 EWG 50001 0,11 482 72 TRAKTATU 20890 0,05 115 23 ABY 39349 0,09 202 73 JEST 187938 0,42 8647 24 UWZGLĘ60291 0,14 870 74 WSZYSTKIE 24267 0,05 238 DNIAJĄC 25 UWAGI 35230 0,08 116 75 STRONY 33477 0,08 584 26 RADY 109102 0,25 2937 76 PONIEWAŻ 14163 0,03 5 27 PRODUKTÓW 57623 0,13 807 77 WARTOŚCI 41310 0,09 920 28 ZAŁĄCZNIK 39995 0,09 273 78 CO 67191 0,15 2141 29 SPRAWIE 91447 0,21 2237 79 MUSZĄ 18977 0,04 118 30 ŚRODKI 74514 0,17 1606 80 KRAJÓW 15546 0,03 39 31 DECYZJA 42245 0,10 441 81 PAŃSTWACH 21550 0,05 200 32 CELU 88097 0,20 2293 82 CENY 23390 0,05 260 33 CZŁONKOW46032 0,10 586 83 REPUBLIKI 22618 0,05 239 SKICH 34 JEŚLI 26864 0,06 54 84 KOMITETU 25199 0,06 330 35 DYREKTYWY 43785 0,10 539 85 PRODUKTY 20531 0,05 187 36 TE 58578 0,13 1098 86 EUROPEJ40674 0,09 963 SKIEGO 37 WSZYSTKICH 39775 0,09 418 87 CELÓW 28933 0,07 483 38 KTÓRE 91382 0,21 2575 88 CUKRU 14570 0,03 46 39 MUSI 26873 0,06 88 89 BYĆ 85994 0,19 3279 40 MIĘDZY 43304 0,10 598 90 PRODUKCJI 26099 0,06 416 41 SPORZĄ21828 0,05 7 91 DO 684939 1,54 41320 DZONO 42 EOG 22365 0,05 15 92 UWADZE 24947 0,06 384 43 TRAKTAT 21007 0,05 0 93 CZY 27515 0,06 483 44 NINIEJSZYM 25631 0,06 103 94 PARLA28418 0,06 523 MENTU 45 BRUKSELI 21225 0,05 15 95 BY 14326 0,03 60 46 ZOSTAĆ 33870 0,08 338 96 AKAPIT 12759 0,03 31 47 PAŃSTW 45005 0,10 743 97 TAKIE 20604 0,05 254 48 II 39842 0,09 555 98 NIEKTÓRYCH 32470 0,07 717 Monika Szela 222 Lp Słowo kluczowe Liczba % Liczba Lp Słowo Liczba % Liczba w KRPL KRPL w KPPL kluczowe w KRPL KRPL w KPPL 49 RYNKU 42061 0,09 639 99 WIĄŻE 13146 0,03 42 50 ZAŁĄCZNIKA 31434 0,07 282 100 STOSOWANIA 28838 0,06 581 Tabela 6. Lista słów kluczowych dla podkorpusu polskiego w porównaniu z korpusem porównawczym polskich aktów prawnych Lp 2 3 4 Słowo kluczowe REGULATION EC SHALL € 5 6 7 1 Liczba % Liczba Lp Słowo Liczba % Liczba w KRAN KRAN w KPAN kluczowe w KRAN KRAN w KPAN 323248 0,65 3348 51 IMPORTS 26396 0,05 9 264468 389849 220035 0,53 0,78 0,44 337 52 13279 53 0 54 ARTICLE 265127 0,53 3784 55 EUROPEAN ANNEX 197566 110035 0,40 0,22 1606 56 128 57 STATES COMMISSION 10 NO 116105 225198 0,23 0,45 591 58 11814 59 206352 0,41 10614 60 11  12 COMMUNITY 13 ARTICLE 14 PRODUCTS 15 NO 16 SHOULD 17 DIRECTIVE 18 THE 19 MEASURES 20 UNION 21 COUNCIL 93647 138744 0,19 0,28 0 61 3795 62 88134 89761 70215 94760 77412 4105230 78550 74057 130437 0,18 0,18 0,14 0,19 0,16 8,25 0,16 0,15 0,26 22 DECISION 114810 0,23 5941 72 23 MEMBER 24 EEC 25 DOWN 160637 51272 56087 0,32 0,10 0,11 12369 73 47 74 355 75 8 9 0 310 0 1763 556 885054 1278 1179 7931 63 64 65 66 67 68 69 70 71 EXPORT SPECIFIC TECHNICAL APPLICABLE HAVING AGREEMENT WHEREAS INTENDED IMPLEMENTATION ANNEX COVER 30018 34934 30485 0,06 0,07 0,06 220 633 285 48829 0,10 2211 72047 75886 0,14 0,15 5449 6029 23908 33861 0,05 0,07 3 767 29983 0,06 438 23064 26576 0,05 0,05 0 192 BRUSSELS ENSURE FROM TYPE SYSTEM FREE COMMON PRICE ACCORDING REPLACED PRICES ITS PURSUANT 22404 33311 197610 30416 44171 28422 34719 28733 23508 0,05 0,07 0,40 0,06 0,09 0,06 0,07 0,06 0,05 28 884 28961 689 2316 578 1280 758 307 22704 0,05 259 23238 111997 30002 0,05 0,23 0,06 327 13888 992 O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych... Lp 26 27 28 29 30 Słowo kluczowe THEREOF TREATY THESE REGARD AND Liczba % Liczba Lp w KRAN KRAN w KPAN 42656 0,09 37 76 46787 0,09 396 77 46434 0,09 491 78 72444 0,15 3127 79 1272934 2,56 252007 80 31 REPUBLIC 39023 0,08 64 81 32 REFERRED 77864 0,16 4087 82 33 MARKET 62329 0,13 2252 83 34 ESTABLISHING 35 IMPORT 39318 0,08 295 84 34363 0,07 41 85 36670 423319 37792 35452 32454 43951 35325 0,07 0,85 0,08 0,07 0,07 0,09 0,07 39327 0,08 44 EU 45 BETWEEN 46 POINT 37983 61611 36832 0,08 0,12 0,07 619 3255 622 47 ALL 48 THEIR 49 COMPETENT 84191 71773 32168 0,17 0,14 0,06 6541 4756 323 50 JUNE 30972 0,06 249 36 37 38 39 40 41 42 PRODUCT ON ADOPTED COUNTRIES THEREFORE DATA CONCERNING 43 DECEMBER 181 69176 357 227 100 1103 372 86 87 88 89 90 91 92 722 93 223 Słowo Liczba % Liczba kluczowe w KRAN KRAN w KPAN JULY 24340 0,05 440 SET 52640 0,11 3945 SUGAR 17632 0,04 1 OCTOBER 22485 0,05 316 PROTO20449 0,04 204 COL CONSI24951 0,05 588 DERED PRO32776 0,07 1435 DUCTION FOLLO85843 0,17 9577 WING THIRD 35526 0,07 1784 PROVIDED USED OFFICIAL ORIGIN BASIS BE JOURNAL LAYING COMMUNITIES 94 DETAILED 95 NUMBER 96 IMPLEMENTING 97 HOWEVER 98 VALUES 99 ORIGINATING 100 ECONOMIC 67894 0,14 6583 49706 28007 16427 42287 506839 16272 18405 0,10 0,06 0,03 0,08 1,02 0,03 0,04 3851 998 19 2840 99333 29 167 26376 0,05 914 15820 43019 18690 0,03 0,09 0,04 25 3096 224 21218 18620 15882 0,04 0,04 0,03 441 223 54 28611 0,06 1270 Tabela 7. Lista słów kluczowych dla podkorpusu angielskiego KRAN w porównaniu z korpusem porównawczym brytyjskich aktów prawnych Lista słów kluczowych umożliwia prześledzenie nietypowych częstotliwości słów w korpusie tekstów tłumaczonych w porównaniu z korpusem nietłumaczonych tekstów prawnych. W podkorpusie tekstów tłumaczonych na język polski zwraca uwagę nadreprezentacja czasownika niewłaściwego należy (dziesiąte miejsce na liście słów kluczowych). Na liście frekwencyjnej dla korpusu Monika Szela 224 równoległego występuje on na miejscu trzydziestym siódmym, zaś w korpusie porównawczym polskich ustaw pojawia się dopiero na miejscu dwieście siedemdziesiątym piątym. Stąd wniosek, że liczba wystąpień formy należy jest skutkiem interferencji tekstu źródłowego i prawdopodobnie odpowiada angielskiemu shall i should. Dokładne badania korpusu równoległego wyrównanego mogłyby wykazać, w jakim stopniu nadreprezentacja formy należy jest rzeczywiście wynikiem tłumaczenia wymienionych czasowników modalnych. Na liście słów kluczowych dla podkorpusu angielskiego KRAN czasownik modalny shall zajmuje trzecie miejsce. Lista frekwencyjna dla tego podkorpusu podaje shall na dwunastym miejscu, zaś lista frekwencyjna dla korpusu aktów brytyjskich na miejscu sto trzecim. Czasownik modalny should również pojawia się wśród pierwszych dwudziestu słów kluczowych dla podkorpusu angielskiego. W samym podkorpusie KRAN tekstów prawnych UE występuje on na miejscu czterdziestym piątym, a w korpusie porównawczym aktów brytyjskich KPAN dopiero na miejscu siedemset trzydziestym siódmym. Wyrywkowe porównanie tekstów źródłowych z docelowymi korpusu równoległego pokazuje, że wysokie miejsce należy nie jest skutkiem tłumaczenia czasownika modalnego shall. W dalszych badaniach konieczna jest analiza jakościowa tekstów wyrównanych źródłowych i docelowych w celu zbadania kontekstu wymienionych słów i uściślenia wyników badań ilościowych. Ze względu na założony cel badawczy, jakim jest weryfikacja hipotezy o odmienności gramatycznej języka tłumaczonego, za pomocą korpusu równoległego i porównawczych zbadano również wstępnie dystrybucję form nieosobowych zakończonych na -no oraz -to, czyli bezosobników (za Saloni, Świdziński, 2007: 150). Tabela 8. przedstawia dwadzieścia najczęstszych form bezosobników zakończonych na -no oraz dwadzieścia zakończonych na -to oraz liczbę okazów danej formy w korpusie tłumaczonym i korpusie porównawczym. Typ sporządzono określono stwierdzono ustalono uznano przyznano przedstawiono przewidziano dokonano podano KRPL Liczba Typ okazów 21828 przyjęto 5336 podjęto 4345 zawarto 3627 wykryto 2720 osiągnięto 2033 oparto 2000 wzięto 1799 użyto 1797 usunięto 1771 wszczęto Liczba okazów 1437 781 439 397 314 266 232 227 198 191 Typ wydano stwierdzono udzielono dokonano przyznano orzeczono Nadano powierzono wniesiono złożono KPPL Liczba Typ Liczba okazów okazów 127 zawarto 44 71 wszczęto 30 66 rozpoczęto 18 61 cofnięto 16 42 podjęto 10 41 usunięto 7 36 otwarto 6 32 wytknięto 4 29 zajęto 4 29 oparto 3 O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych... 225 KRPL KPPL Liczba Typ Liczba Typ Liczba Typ Liczba okazów okazów okazów okazów złożono 1733 rozpoczęto 187 ustalono 25 przyjęto 3 wskazano 1498 Ujęto 178 uzyskano 24 ujęto 3 ustanowiono 1332 wysunięto 131 przeprowadzono 22 dożyto 2 przeprowadzono 1298 objęto 109 zastosowano 22 objęto 2 udzielono 1195 otwarto 109 określono 21 pominięto 2 zastosowano 1178 cofnięto 66 przekazano 21 powzięto 2 opisano 1143 wyciągnięto 49 odmówiono 19 wykryto 2 wykazano 1135 zamknięto 46 postawiono 19 zasięgnięto 2 uwzględniono 937 zasięgnięto 40 ogłoszono 18 dotarto 1 wprowadzono 929 odkryto 36 ustanowiono 14 nabyto 1 Typ Tabela 8. Najczęstsze formy nieosobowe wraz z liczbą ich wystąpień w polskim podkorpusie równoległym i w polskim korpusie porównawczym Przed rozpoczęciem badania założono zgodnie z hipotezą o niedoreprezentacji form typowych dla języka docelowego, że liczba typów form bezosobników będzie dużo niższa w korpusie równoległym w stosunku do liczby typów w korpusie porównawczym. Okazało się jednak, że według wstępnych badań korpus tekstów tłumaczonych wykazuje znaczną różnicę w liczbie typów, lecz podobną wartość procentową liczby typów form bezosobowych do ogólnej liczby typów w korpusie, jak korpus porównawczy. Te wartości wymagają jednak dokładniejszych analiz, gdyż ze względu na przyjęcie do badania korpusów bez dokładniejszego oczyszczenia zbędnych elementów (na przykład słów z języków obcych), dane procentowe mogą się znacząco zmienić. Formy nieosobowe czasownika zakończone na -no zakończone na -to Liczba typów w KRPL 1036 61 % 0,33 0,02 Liczba typów w KPPL 185 28 % 0,34 0,05 Tabela 9. Łączna liczba typów form bezosobników dla korpusu tekstów tłumaczonych oraz dla korpusu porównawczego 4. Podsumowanie Przedstawione korpusy równoległe i porównawcze otwierają możliwość weryfikacji wielu hipotez dotyczących języka tłumaczeń i określenia jego cech. Celem kompilacji korpusów wymienionych w niniejszym artykule jest weryfikacja hipotezy o odmienności gramatycznej i leksykalnej tekstów tłumaczonych. Wstępne badania wykazują inną dystrybucję słów w tekstach tłumaczonych w porównaniu z tekstami nietłumaczonymi, co zostało szczególnie uwidocznione w liście słów kluczowych. Jednak drugi element weryfikacji hipotezy 226 Monika Szela o odmienności gramatycznej pokazuje wstępnie, że w tekstach tłumaczonych nie występuje niedoreprezentacja form nieosobowych czasowników, co dowodzi, że angielska strona bierna nie jest tłumaczona przez zastosowanie strony biernej w języku polskim, ale tłumacze odwołują się do form typowych dla polskiej składni, co przeczyłoby postawionej hipotezie. Ze względu na pilotażowy charakter przedstawionych badań, powyższe wnioski wymagają jednak pogłębionych szczegółowych analiz ilościowych i jakościowych. Bibliografia Biel, Łucja (2014): The textual fit of translated EU law: a corpus-based study of deontic modality. The Translator 20(2), http://www.tandfonline.com/ doi/full/10.1080/-13556509.2014.-909675, (28-10-2014). Grabowski, Łukasz (2011): Korpusy dwu-i wielojęzyczne w służbie tłumacza, leksykografa i badacza: poszukiwanie ekwiwalentów przekładowych w świetle hipotez dotyczących istnienia uniwersaliów tłumaczeniowych. W: Wojciech Chlebda (red.): Na tropach translatów. W poszukiwaniu odpowiedników przekładowych. Opole: Wydawnictwo Uniwersytetu Opolskiego, 89–112. Mauranen, Anna (2008): Universal Tendencies in Translation. W: Gunilla Anderman, Margaret Rogers (red.): Incorporating Corpora. The Linguist and the Translator. Clevedon: Multilingual Matters. Olohan, Maeve (2004): Introducing Corpora in Translation Studies. London: Routledge. Piotrowski, Tadeusz (2003): Językoznawstwo korpusowe – wstęp do problematyki. W: Stanisław Gajda (red.): Językoznawstwo w Polsce. Stan i perspektywy. Opole: Wydawnictwo Uniwersytetu Opolskiego, 143–154. Saloni, Zygmunt, Świdziński Marek (1998): Składnia współczesnego języka polskiego. Warszawa: Wydawnictwo Naukowe PWN. Steinberger Ralf, Eisele Andreas, Klocek, Szymon, Pilos, Spyridon, Schlüter, Patrick (2012): DGT-TM: A freely Available Translation Memory in 22 Languages. W: Nicoletta Calzolari, Khalid CHOUKRI, Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (red.): Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012). Istanbul: European Language Resources Association (ELRA), 454–459. Elżbieta Kaczmarska Uniwersytet Warszawski O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów emocjonalnych i ich polskich ekwiwalentach. Analiza na materiale z korpusu paralelnego InterCorp On two Czech lexical items representing negative emotional states and their Polish equivalents: An analysis based on the parallel corpus InterCorp Abstract The analysis is focused on the Czech verbs žárlit ‘to be jealous’ and závidět ‘to envy’. The goal is to establish their closest equivalents in Polish. We use dictionary definitions to find the correct meaning of the analyzed verbs and link them with equivalents proposed by a traditional Czech-Polish dictionary. Equivalents automatically extracted from the corpus help us to find translations available in InterCorp. Although the results are consistent with those proposed by the bilingual dictionary, the number of equivalents found in InterCorp is larger. Next, we apply a method developed in our pilot studies, including automatic excerption of given words with aligned segments from InterCorp. The segments are analysed manually. In each segment we check how a given word was translated and we examine its collocations and arguments. The study was supposed to determine if valence requirements could influence the choice of an equivalent in Polish. A pilot study concerning the ambiguous Czech verb toužit ‘to miss, to want, to desire’ (Kaczmarska, Rosen, 2013) was supposed to reveal if valence can influence the choice of an equivalent in Polish. It was assumed that for some senses the equivalent can be established based on the convergence of the valence requirements (Levin, 1993). Unfortunately, for the analysed Czech verbs žárlit and závidět, the number of occurrences is insufficient, so collocation profiling (using the Word Sketch tool available in the Sketch Engline) cannot be applied to analyze syntactic contexts. We conduct a corpus-based research instead. The data from InterCorp confirm our assumptions based on the dictionary definitions. The equivalent-searching Elżbieta Kaczmarska 228 algorithm, based also on a syntactico-semantic analysis (automatic extraction of pairs of equivalents, valence analysis, Case Grammar, Pattern Grammar, Cognitive Grammar) and described in last part of the paper, cannot be applied to the two verbs. We found Word Sketch as a promising tool for our research and we hope it to be the turning point for building our algorithm (Word Sketch for the Czech part of InterCorp is in the phase of preparation). We hope that our algorithm will be able to cooperate with machine translation tools. This is why, in addition to a manual analysis, we also try to conduct experimental trials of stochastic modelling of the choice of an equivalent on the basis of the context (Kaczmarska et al., 2015). Słowa kluczowe: korpus równoległy, język polski, język czeski, ekwiwalent, analiza syntaktyczno-semantyczna Keywords: parallel corpus, Polish, Czech, equivalent, syntactico-semantic analysis 1. Wprowadzenie Celem tego artykułu jest próba ustalenia ekwiwalentów dwóch czeskich jednostek będących językowymi wykładnikami emocji negatywnych. Analizie zostaną poddane struktury semantyczno-składniowe tych jednostek oraz ich polskich odpowiedników, szczegółowo opisane zostaną czasowniki závidět i žárlit oraz ich polskie ekwiwalenty1. Badanie przeprowadzone zostanie na materiale z korpusu równoległego InterCorp (Čermák, Rosen, 2012; Kaczmarska, Rosen, 2014b; Rosen, Vavřín, 2014). Wskazywanie trafnych ekwiwalentów często bywa wyzwaniem nie tylko w przypadku konfrontacji języków odległych geograficznie, kulturowo i dla siebie wzajemnie egzotycznych. Nieoczekiwane trudności pojawiają się również na styku języków blisko spokrewnionych2. Niemożność oddania w języku docelowym dokładnie tego samego, co zostało zakomunikowane w języku wyjściowym, wiąże się często z problemem dokładnego zrozumienia przekładanej jednostki3 (Kaczmarska, Rosen, 2014a; w druku). Szczególnie problemowymi w tym kontekście jawią się czasowniki będące wykładnikami różnych stanów psychicznych, które same w sobie mogą być źródłem niejasności i nieporozumień. Pisała 1 Badanie to jest częścią większego projektu omawiającego sposoby ustalania ekwiwalentów czeskich jednostek wyrażających różne stany emocjonalne. 2 Oczekiwanymi trudnościami można nazwać pojawienie się zjawiska „fałszywych przyjaciół” czy leksyki bezekwiwalentnej (Kaczmarska, 2014a). 3 Przekład jest procesem złożonym z kilku etapów, z których podstawowym wydaje się odkodowanie znaczenia jednostki w języku wyjściowym. Już ten etap może nastręczać wiele trudności (Kaczmarska, Rosen, 2015b). O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 229 o tym m.in. A. Wierzbicka, wspominając o relacji między przeżywaniem uczuć i mówieniem o nich (Wierzbicka, 1971: 30)4: Uczucie to jest coś, co się czuje – a nie coś, co się przeżywa w słowach. W słowach można zapisać myśli – nie można zapisać w słowach uczuć. Myśl jest czymś, co ma strukturę dającą się odtworzyć słowami. Uczucie z natury rzeczy jest pozbawione struktury, a więc niewyrażalne. Myśl zawarta w tym cytacie sugeruje, że w języku docelowym niemożliwe jest wyrażenie tego, czego nie da się oddać w języku wyjściowym. I to opracowanie nie ma na celu tego, co niemożliwe. W procesie ustalania odpowiednich ekwiwalentów czasowników oznaczających emocje, skoncentrujemy się na tym, co już zostało wyrażone, czyli na znaczeniu konkretnej jednostki. Zadanie to jest utrudnione, ponieważ analizowane czasowniki są wieloznaczne; często trudno ustalić, co w danym kontekście znaczą, w związku z tym skomplikowany jest ich przekład, podczas którego możemy stracić część znaczenia (Kaczmarska, 2015a, 2015b; Kaczmarska, Rosen, w druku). W poszukiwaniu trafnego ekwiwalentu mógłby pomóc słownik dwujęzyczny, jednak ze wzglądu na swoje ograniczenia najczęściej nie podaje on odpowiedników wraz z przykładami użycia (Siatkowski, Basaj, 2002). Większymi możliwościami teoretycznie dysponują słowniki i translatory elektroniczne oraz słowniki umieszczone w Internecie w postaci plików5, jednakże dla języków czeskiego i polskiego nie są one całkowicie wiarygodne. Na przykład w przypadku analizy jednostki mít rád, tłumaczonej na język polski jako lubić i kochać (Siatkowski, Basaj, 2002), popularny portal Glosbe6 proponuje dwa odpowiedniki – lubić i podobać się, czyniąc ją tylko pozornie bardziej jednoznaczną, ponieważ obok ekwiwalentów przedstawia synonim – milovat (‘kochać’). Natomiast w zamieszczonych tam przykładach znajdujemy również takie ekwiwalenty jak: być czułym na czyimś punkcie, kochać i in. Translatory automatyczne obsługujące język polski i czeski również nie są na razie wiarygodnym źródłem ekwiwalentów. Działający na zasadzie translatora (a nazwany słownikiem) portal Tri-Lite7 tłumaczy milovat jako miłość, a mít rád jako jak. Podobnie funkcjonuje portal Etranslator8, który zarówno dla milovat, jak 4 Ta klasyczna lektura jest wciąż aktualna. Od tego czasu powstało jednak szereg nowszych opracowań dotyczących komunikowania emocji w ujęciu konfrontatywnym (Wierzbicka 1991, 1997; Harkins, Wierzbicka, 2001; Lüdtke, 2015). 5 Na przykład: Czesko-polski słownik tematyczny dla uczniów i studentów autorstwa Dariusza Sieczkowskiego i Aleny Wolfovej – http://stodolni.org/wp-content/uploads/2013/09/slowniktematyczny.pdf 6 Dostęp online: https://pl.glosbe.com/cs/pl/ 7 Dostęp online: http://www.cz-pl.tri-lite.pl/ 8 Dostęp online: http://www.etranslator.ro/pl/czeski-polski-online-tlumacz.php 230 Elżbieta Kaczmarska i mít rád proponuje ekwiwalent miłość (Kaczmarska, 2015b). Także popularny Google Tłumacz nie jest dobrym źródłem ekwiwalentów tego typu jednostek9. W badaniu tym chcielibyśmy ustalić, czy możliwe jest znalezienie trafnych ekwiwalentów dla analizowanych jednostek, opierając się na materiale wyekscerpowanym z korpusu równoległego. W centrum zainteresowania będą dwa czeskie czasowniki závidět i žárlit. Czasowniki te nie są synonimami, a jednak oba odnoszą się w języku polskim do zazdrości. Schemat analizy jest zbliżony do metody zastosowanej we wcześniejszych badaniach dotyczących czasowników odsyłających do różnych emocji pozytywnych np. toužit, mít rád, milovat (Kaczmarska, 2014a, 2014b, 2015b; Kaczmarska, Rosen, 2013, 2014a, w druku; Kaczmarska et al., 2015) czy np. zdát se (Kaczmarska, 2012)10. Obejmuje on wygenerowanie słownika czesko-polskiego11, automatyczną ekscerpcję przykładów z czesko-polskiej części korpusu InterCorp oraz analizę manualną. Słownik czesko-polski generujemy dzięki narzędziu Treq12 dostępnemu na stronach Czeskiego Korpusu Narodowego (dalej – CNK): Rysunek 1. Interfejs serwisu Treq. Serwis Treq umożliwia wygenerowanie listy najczęstszych ekwiwalentów badanych czasowników. Należy jednak pamiętać, iż nie jest to idealny słownik, 9 Czeska fraza Mám Tě rád. jest przełożona na język polski jako Kocham cię (bez alternatywy Lubię cię.) – dostęp 25.05.2015. 10 W artykułach tych okazjonalnie pojawiały się też odniesienia do czasowników odsyłających do emocji negatywnych, np. mrzet, být líto. 11 Poprzednie badania poprzedzone były samodzielnym generowaniem słownika (Kaczmarska, Rosen, 2013). Obecnie CNK oferuje usługę automatycznego generowania różnych słowników – dostęp: http://treq.korpus.cz/ 12 http://treq.korpus.cz/ – dostęp 26.05.2015 O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 231 zawierający wyłącznie trafione ekwiwalenty. Ponieważ przy tej ilości danych narzędzie stosuje metodę automatyczną, wśród odpowiedników znaleźć się mogły sporadycznie nieekwiwalentne lub przypadkowe wyrazy, a nawet znaki interpunkcyjne (Kaczmarska, Rosen, 2013). 2. Analiza możliwości rozumienia i przekładu czasownika závidět Tradycyjny słownik czesko-polski (Siatkowski, Basaj, 2002: 999) podaje jedno znaczenie tego wyrazu: zazdrościć komu czego13. Odpowiednik zaproponowany przez słownik tradycyjny odpowiada pod względem wymagań składniowych czeskiej jednostce. Większą różnorodność ekwiwalentów przynosi korpusowe narzędzie Treq. Najczęstsze polskie ekwiwalenty czasownika závidět na podstawie serwisu Treq zazdrościć 188 zazdrość 26 pozazdrościć 16 zazdrosny 7 zawiść 4 darzyć 1 straszliwie 1 współzawodniczyć 1 zwyknąć 1 Tabela 1. Najczęstsze polskie ekwiwalenty czasownika závidět na podstawie serwisu Treq Kilka z pojawiających się w tabeli ekwiwalentów tłumaczeniowych nie odpowiada znaczeniu słowa závidět: mogły się tam znaleźć przez przypadek – w wyniku błędu wyrównywania (zwyknąć, straszliwie) lub są częścią zwrotu werbo-nominalnego odpowiadającego badanemu czasownikowi (darzyć). Wśród proponowanych ekwiwalentów znalazł się również czasownik współzawodniczyć, który możemy interpretować jako luźny synonim jednostki závidět w jednym z jej znaczeń. Znaczenia czasownika závidět oraz jego struktury składniowe możemy odnaleźć w słowniku literackiego języka czeskiego [dalej – SSJC (Havránek, 1989)]14. 13 Ten polski czasownik jest też jednak jednym z ekwiwalentów czeskiej jednostki žárlit (Siatkowski, Basaj, 2002: 1049). W trakcie analizy należy więc też ustalić, które znaczenia czasownika zazdrościć pokrywa závidět, a które žárlit. 14 Tłumaczenia definicji i przykładów ze słownika – autorka artykułu. Dostęp 15.03.2015: http:// ssjc.ujc.cas.cz/search.php?hledej=Hledat&heslo=z%C3%A1vid%C4%9Bti&sti=EMPTY&where =hesla&hsubstr=no. Elżbieta Kaczmarska 232 záviděti • komu; komu co, koho, †čeho15 • pociťovat závist k někomu nepřát (komu co, koho)16 • záviděti boháčům, šťastným lidem; lidé si navzájem závidí; z. mladé dívce krásu, ženicha; mnozí mu té slávy záviděli; tu funkci ti nezávidím nechtěl bych ji17 Definicja i charakterystyka składniowa zamieszczona w SSJC (Havránek, 1989) jest zgodna z opisem w słowniku walencyjnym języka czeskiego VALLEX18: Rysunek 2. Hasło słownika walencyjnego VALLEX19 Rysunek 3. Interfejs wyszukiwarki KonText 15 komu? komu co? / kogo? (biernik), czego? (przestarzała struktura dopełniaczowa) 16 czuć zawiść wobec kogoś, nie życzyć komu, co / kogo (biernik) 17 záviděti bogaczom, szczęśliwym ludziom; ludzie sobie nawzajem zazdroszczą; młodej dziewczynie urody, narzeczonego; wielu mu tej sławy zazdrości; tej funkcji ci nie zazdroszczę, nie chciałbym jej 18 Dostęp online: http://ufal.mff.cuni.cz/vallex/2.6.3/data/html/generated/alphabet/index.html 19 czuć zawiść, nie życzyć; zazdrościł jej wykształcenia / perspektywy / że jest mądra; zazdrości bardzo (dosł. zazdrości i nosa między oczami); zazdrości mu wszystkiego, co on ma; Jan i Maria zazdrościli sobie nawzajem. O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 233 Definicje z obu słowników oraz z listy odpowiedników wygenerowanej z InterCorpu przybliżają nas do poznania znaczenia tego czasownika, a tym samym do potwierdzenia trafności ekwiwalentu ze słownika. Pełny obraz uzyskujemy dzięki przykładom wyekscerpowanym z InterCorpu20. 2.1 Analiza korpusowa czasownika závidět Materiał do badań ekscerpujemy poprzez wyszukiwarkę KonText.21 Rysunek 4. Interfejs wyszukiwarki KonText po wyszukaniu paralelnych konkordancji cz. Tu jejich zjevnou pohodu a bezstarostnost jim upřímně záviděl.22 pl. Szczerze im zazdrościł pogody ducha i beztroski. [Viewegh-UcastniciZajez] cz. Agnes záviděla Paulovi, že žije, aniž si musí stále uvědomovat, že má tělo. pl. Agnes zazdrościła Paulowi, że może żyć bez ciągłej świadomości własnego ciała. [Kundera-Nesmrtelnost] Wyszukany materiał eksportujemy do dokumentu Excel23, dzięki czemu możemy go dowolnie filtrować i sortować, a po dodaniu kolumn – także tagować. 20 Przykłady ekscerpowane były z czesko-polskiej części InterCorpu (wersja 8), z jądra (beletrystyka), oryginalny język źródła – czeski. 21 Od kwietnia 2015 jest to jedyna wyszukiwarka obsługująca CNK. 22 Tekst podkreślony to przedmiot zazdrości – zazdrościć kogo czego (w przypadku czasownika žárlit będzie to fraza przyimkowa na + obiekt, podobnie jak być zazdrosny o + obiekt), natomiast tekst podkreślony podwójną linią oznacza obiekt – powód zazdrości wyrażony frazą zdaniową. Frazy pogrubione to obiekt, któremu się zazdrości – zazdrościć komu. 23 Wyszukiwarka Excel umożliwia eksport konkordancji do różnego typu plików (Kaczmarska, Rosen, 2014b: 216). Elżbieta Kaczmarska 234 KonText wskazał 50 poświadczeń leksemu závidět24. Przy każdej konkordancji zaznaczyliśmy, jaki odpowiednik polski został wybrany. Po otagowaniu okazało się, iż w 90% przypadków w polskim tłumaczeniu występuje czasownik zazdrościć (ewentualnie wariant pozazdrościć). Polskie odpowiedniki czasownika závidět 50 zazdrościć 45 pozazdrościć 3 być zazdrosny 1 Inne 1 Tabela 2. Polskie odpowiedniki czasownika závidět na podstawie materiału z czesko-polskiej części korpusu InterCorp Jedyne tu poświadczenie z ekwiwalentem zazdrosny, przedstawia przykład z elipsą. cz. (…) spokojen , že mu nemá co závidět… pl. (…) zadowolony, że nie potrzebuje być zazdrosny… [Paral-VeletrhSplnenych] Moglibyśmy więc uznać, iż optymalnym ekwiwalentem jest dla tej jednostki czasownik zazdrościć. Ten jednak jest wieloznaczny (Szymczak, 1995: 916): zazdrościć • odczuwać zazdrość25 • odczuwać żal z powodu tego, że komuś dobrze się powodzi, że ktoś coś ma, pragnąc tego dla siebie Czasownik závidět realizuje jedno ze znaczeń jednostki zazdrościć (odczuwać żal z powodu tego, że komuś dobrze się powodzi, że ktoś coś ma, pragnąc tego dla siebie). Pokrywa się też w jednym ze znaczeń rzeczownika zazdrość (Szymczak, 1995: 916): zazdrość • uczucie przykrości, żalu spowodowane czyimś powodzeniem, szczęściem, stanem posiadania itp. i chęć posiadania tego samego • uczucie niepokoju co do wierności osoby kochanej, podejrzliwość i dążenie do wyłączności w tym zakresie, chęć przeciwdziałania ewentualnemu naruszeniu tej wyłączności 24 Jest to bardzo mała liczba poświadczeń. Na jej podstawie nie jest możliwe przeprowadzenie żadnej głębszej analizy gramatycznej czy stylistycznej. Możemy jednak wysnuć wnioski co do znaczenia danego słowa i jego tłumaczenia na język polski. 25 Zazdrość – 1) uczucie przykrości, żalu spowodowane czyimś powodzeniem, szczęściem, stanem posiadania itp. i chęć posiadania tego samego; 2) uczucie niepokoju co do wierności osoby kochanej, podejrzliwość i dążenie do wyłączności w tym zakresie, chęć przeciwdziałania ewentualnemu naruszeniu tej wyłączności. (Szymczak, 1995: 916) O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 235 Odczytując znaczenie czasownika zazdrościć zgodnie z wcześniej przytoczoną definicją jako ‘odczuwać zazdrość’, możemy owo znaczenie rozszerzyć do postaci: ‘odczuwać uczucie przykrości, żalu spowodowane czyimś powodzeniem, szczęściem, stanem posiadania itp. i chęć posiadania tego samego’. cs. Tak jsem tu postával dál, doufal jsem nevěda v co a záviděl jsem Vilému Habovi, jak lehce našel východisko z nouze. pl. Stałem więc nadal, ufając w szczęśliwy zbieg okoliczności i zazdroszcząc Wilhelmowi Habie, że tak łatwo znalazł wyjście z trudnej sytuacji. [Rezac-Rozhrani] Zgadza się to również z definicją słownikową czasownika závidět. 3. Analiza możliwości rozumienia i przekładu czasownika žárlit Drugą jednostką związaną z pojęciem zazdrości jest w języku czeskim wspomniany już czasownik žárlit. Analiza przebiega w ten sam sposób jak w przypadku poprzedniej jednostki. Słownik czesko-polski (Siatkowski, Basaj, 2002:1049) podaje dwa znaczenia tego czasownika: być zazdrosnym (o kogo, o co) i zazdrościć (komu). Serwis Treq dostarcza szerszej gamy ekwiwalentów: Najczęstsze polskie ekwiwalenty czasownika žárlit na podstawie serwisu Treq Zazdrosny 141 Zazdrość 25 zazdrościć 14 Być 2 Osiłek 1 darzyć 1 owszem 1 rywalka 1 zawiść 1 Tabela 3. Najczęstsze polskie ekwiwalenty czasownika žárlit na podstawie serwisu Treq Podobnie jak w sytuacji poprzedniego czasownika, również tutaj wśród oferowanych ekwiwalentów znajdują się jednostki przypadkowo związane (być, osiłek, darzyć, owszem). Słowa rywalka i zawiść możemy traktować jako elementy struktur synonimicznych wobec słowa oznaczającego pojęcie ‘zazdrość’. Ekwiwalenty te warto porównać ze znaczeniem omawianego czasownika proponowanym przez słownik języka czeskiego (Havránek, 1989)26. 26 Na podstawie definicji (dostęp online 15.03.2015): http://ssjc.ujc.cas.cz/search.php?hledej= Hledat&heslo=%C5%BE%C3%A1rliti&sti=EMPTY&where=hesla&hsubstr=no Elżbieta Kaczmarska 236 žárliti • na koho, co; ~; †s kým27; pociťovat nelibost, bolest, zlost vůči někomu milovanému, protože má rád někoho jiného; pociťovat nelibost, bolest, zlost vůči někomu, koho má ráda milovaná osoba28 • (na koho); pociťovat řevnivost, nevraživost na někoho pro jeho úspěchy; nevražit, řevnit 1; (nač) nepřát, závidět (komu co)29 Z tymi definicjami zgodny jest opis w słowniku VALLEX: Rysunek 5. Hasło słownika walencyjnego VALLEX30 3.1 Analiza korpusowa czasownika žárlit Za pomocą wyszukiwarki KonText odnajdujemy poświadczenia, które analizujemy i sortujemy pod względem polskich ekwiwalentów. Przykłady wyekscerpowane z InterCorpu i w tym przypadku są ilustracją zgromadzonych definicji słownikowych: cz. Zdálo se mi, že na pani učitelku žárlí a přišlo mi jí líto. pl. Wydawało mi się, że jest o panią nauczycielkę zazdrosna, i było mi jej trochę żal. [Douskova-Hrdy_Budzes] cz. …že nemusím na jejího muže žárlit… pl. …że nie muszę być zazdrosny o jej męża… [kundera-zert] cz. Navíc jsem žárlil na Alici, že mě nechala jen tak rozbaleného, že si mě přestala všímat, nemazlila se se mnou, nýbrž s Edvínem… pl. Ponadto byłem zazdrosny o Alicję, bo zostawiła mnie odwiniętego z pieluszek, bo przestała zwracać na mnie uwagę, pieściła się już nie ze mną, tylko z Edwinem… [Grusa-Dotaznik] 27 na kogo, na co; z kim (przestarzała struktura narzędnikowa) 28 czuć antypatię, ból, złość wobec kogoś ukochanego, ponieważ lubi kogoś innego; czuć antypatię, ból, złość wobec kogoś, kogo lubi ukochana osoba 29 na kogo; czuć zawiść, wrogość wobec kogoś z powodu jego sukcesów; nienawidzić, zazdrościć komuś czegoś; nie życzyć komuś czegoś 30 czuć antypatię / ból / wściekłość / złość z powodu czegoś / do kogoś / zazdrościć; Davídek był zazdrosny o swoją młodszą siostrzyczkę; był zazdrosny o jego sukcesy; nie jestem zazdrosna o jego nową przyjaciółkę; był strasznie zazdrosny, że nie wygrał zamiast ciebie; był zazdrosny o to, jak mu idzie; byli o siebie zazdrośni O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 237 KonText wskazał 59 poświadczeń leksemu žárlit. Podobnie jak w poprzednim badaniu, również w tym przypadku zaznaczyliśmy, jaki odpowiednik polski został wybrany. Po otagowaniu okazało się, iż w niemal 78% przypadków w polskim tłumaczeniu występuje fraza być zazdrosny, wprowadzająca odmienną strukturę składniową. Polskie odpowiedniki czasownika žárlit 59 być zazdrosny 46 zazdrościć 7 zazdrość 4 Zawiść 1 Błąd 1 Tabela 4. Polskie odpowiedniki czasownika žárlit na podstawie materiału z czesko-polskiej części korpusu InterCorp W wiązanych segmentach polskich występuje również czasownik zazdrościć. W przykładach tych jednak nie występuje najczęściej typowy obiekt zazdrości (wyrażony poprzez frazę nominalną w dopełniaczu), ale pewnego rodzaju powód zazdrości i jest wyrażony poprzez frazę zdaniową: cz. Povídám, jako vždycky, von na mě žárlí, že jsem mladší než von. pl. Powiadam, jak zawsze, on mi zazdrości, że jestem młodszy niż on [Hrabal-Prilis_hl_samot] Czasownik zazdrościć (jako ekwiwalent žárlit) pojawia się też konstrukcjach eliptycznych: cz. Právě proto, že už nechce žárlit, bere vážně a bez podezření jeho tvrzení! pl. Właśnie dlatego, że nie chce już zazdrościć, przyjmuje jego słowa poważnie i bez podejrzeń! [Kundera-Valcik_na_rozl] Również w przypadku czasownika žárlit możemy wskazać trafny ekwiwalent w języku polskim. być zazdrosny • pragnący tego, co ma ktoś inny, odczuwający żal, że komuś powodzi się lepiej niż jemu • bojący się o swoje dobro, podejrzliwie strzegący swego; zwłaszcza: podejrzliwy wobec współmałżonka, osoby kochanej Zjawiskiem związanym z ekwiwalencją jednostek žárlit i być zazdrosnym jest jednak trudność w identyfikacji obiektu / powodu w strukturze zdania. Problem ten został też poruszony w poście do poradni językowej31: 31 http://sjp.pwn.pl/slowniki/zazdrosny.html - dostęp online 15.03.2015 (pisownia oryginalna) Elżbieta Kaczmarska 238 Moj dylemat dotyczy wyrażania zazdrości... Jestem mężatką. Wyobraźmy sobie, że wokół mojego męża „kręci” się jakaś atrakcyjna kobieta. Mój mąż zwraca na nią uwagę, podchodzi, rozmawia... Ja, będąc oczywiście bardzo wściekłą, mówię: „Nie rób tego nigdy więcej, bo jestem...” No właśnie, jak się mówi: „Jestem o ciebie zazdrosna” czy „Jestem o nią zazdrosna”? Te dwa wyrażenia słyszy się często. Problem w tym, że odnoszą się one do tej samej sytuacji, takiej jak na przykład ta przeze mnie Panu przedstawiona32. Problem ten występuje zarówno w języku polskim, jak i czeskim, co paradoksalnie może czynić ekwiwalencję między nimi jeszcze silniejszą. W niektórych przykładach na właściwe znaczenia naprowadza nas kontekst zdania: cs. Máma byla Pažoutovi po celou dobu věrná, ale on na ni přesto neustále žárlil (…) pl. Mama była Pažoutowi przez cały czas wierna, ale on mimo to był o nią nieustannie zazdrosny (…) [Viewegh-Roman_pro_zeny] cs. Když se se Zuzanou brali, žárlil na každého muže, který ji oslovil. pl. Gdy się pobierali, był zazdrosny o każdego mężczyznę, który się do niej odezwał. [Viewegh-UcastniciZajez] W niektórych zdaniach jednak znaczenie pozostaje zamazane i bez szerszego kontekstu nie jesteśmy w stanie poprawnie zrozumieć sytuację: cs. Zdálo se mi, že na pani učitelku žárlí a přišlo mi jí líto. pl. Wydawało mi się, że jest o panią nauczycielkę zazdrosna, i było mi jej trochę żal. [Douskova-Hrdy_Budzes] 4. Podsumowanie Analiza przykładów wyekscerpowanych z InterCorpu i ich polskich odpowiedników pozwala na stworzenie sieci33 znaczeń. Schemat ten odzwierciedla tylko sposób rozumienia i przekładu czeskich jednostek na język polski (dlatego strzałki skierowane są tylko w jedną stronę). Wzięte pod uwagę zostały tylko cztery analizowane jednostki; zdajemy sobie jednak sprawę z tego, iż na kompleksowej mapie znaczeń powinny się znaleźć również takie potencjalne 32 Odpowiedź (fragment): Istotnie, jest tu pewna językowa nielogiczność, ponieważ w tych dwóch użyciach przymiotnik zazdrosny może być stosowany. W praktyce, gdy mówię, że jestem zazdrosny o żonę, odnoszę to do sytuacji „w ogóle”, gdy zaś mówię (np. do żony), że jestem zazdrosny o jej kolegę, odnoszę to do jej relacji z konkretnym człowiekiem. Zazwyczaj wiemy, o co chodzi - ale rzeczywiście, tu nasz język nie sprawdza się za dobrze (Jerzy Bralczyk, Uniwersytet Warszawski) – http://sjp.pwn.pl/slowniki/jest-zazdrosny.html (15-03-2015). 33 Sieć powstała na podstawie definicji ze słowników jednojęzycznych: dostępnego online języka czeskiego – http://ssjc.ujc.cas.cz/search.php?hledej=Hledat&heslo=z%C3%A1vid%C4%9Bti& sti=EMPTY&where=hesla&hsubstr=no http://ssjc.ujc.cas.cz/search.php?hledej=Hledat&heslo= %C5%BE%C3%A1rliti&sti=EMPTY&where=hesla&hsubstr=no (dla czasowników závidět i žárlit ) oraz w słowniku tradycyjnym (Szymczak 1995) dla jednostek zazdrościć i być zazdrosnym. O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 239 Rysunek 6. Sieć powiązań znaczeń czeskich jednostek závidět i žárlit oraz polskich – zazdrościć i być zazdrosnym ekwiwalenty jak np. zawiść. Równoważności znaczeń zostały ustalone na podstawie manualnej analizy poświadczeń korpusowych34. Podczas analizy manualnej szczególną uwagę zwracają schematy frazy zazdrosny o + O (obiekt) pojawiające się jako odpowiednik wyłącznie frazy žárlit na + O. Ze znalezionych w korpusie 59 poświadczeń czasownika žárlit35 45 przekładanych jest jako być zazdrosnym, przy czym tylko 12 realizowanych było poprzez pełny schemat być zazdrosnym o+ O; wśród nich 11 dotyczyło zazdrości, której obiektem była istota ludzka36, a tylko w jednym przypadku obiekt był inny: cs. Tereza přijala Karenina takového, jaký byl, nechtěla ho měnit ke svému obrazu, souhlasila předem s jeho psím světem, nechtěla mu ho brát, nežárlila na jeho tajné spady. pl. Teresa przyjęła Karenina takiego, jakim był, nie chciała go zmieniać na swoje podobieństwo, z góry godziła się na jego psi świat, nie chciała mu go odbierać, nie była zazdrosna o jego tajemne ścieżki. [Kundera-Nesnesit_lehko] 34 Czeskie oryginały w przekładzie na język polski; w sumie 109 przykładów w języku czeskim i tyleż w języku polskim. 35 Teksty oryginalnie czeskie w przekładzie na język polski. 36 7 razy obiektem zazdrości była kobieta (přiznal se jí konečně doma, že na ni žárlil / przyznał się wreszcie w domu, że był o nią zazdrosny), 4 razy mężczyzna (nemusím na jejího muže žárlit / nie muszę być zazdrosny o jej męża). 240 Elżbieta Kaczmarska Rysunek 7. Łączliwość czasownika závidět wygenerowana przez Word Sketch Poświadczenia te są niestety zbyt znikome, by móc wyciągać na ich podstawie jakiekolwiek wiążące wnioski. Gdybyśmy jednak mieli dużo większą liczbę poświadczeń, uciążliwa była manualna analiza przykładów. Wówczas pomocne mogłoby się okazać wykorzystanie narzędzia Word Sketch37 na materiale z korpusu równoległego InterCorp38. Badanie to ukazałoby, z jakimi obiektami (i w jaki sposób pod względem składniowym) łączą się omawiane jednostki. Jest to jednak kwestia przyszłości, ponieważ o ile możemy zastosować to narzędzie na materiale polskim z korpusu InterCorp, o tyle materiał czeski jesteśmy w stanie analizować tylko poprzez podkorpusy jednojęzyczne języka czeskiego. Są one ogromne, a to sprawia, że wyniki są nieporównywalne (por. ponad trzy tysiące wyszukanych i przeanalizowanych poświadczeń czasownika závidět w języku czeskim (rysunek 7.) i jedynie ponad 200 wyszukanych i przeanalizowanych poświadczeń czasownika zazdrościć (rysunek 8.)39). 37 “A word sketch is a one-page, automatic, corpus-derived summary of a word’s grammatical and collocational behavior” – http://www.sketchengine.co.uk/documentation/wiki/Website/ Features#Wordsketches – dostęp 20.09.2014. Funkcja WordSkech w czeskim korpusie nie jest dostępna dla wszystkich użytkowników. 38 Metoda ta bliska jest poniekąd analizie wymogów walencyjnych, która została wykorzystana podczas poszukiwania polskich ekwiwalentów dla innej czeskiej jednostki – toužit (Kaczmarska, Rosen, 2013). 39 Funkcja Word Sketch generuje obrazy ze wszystkich tekstów w języku polskim. Do analizy manualnej wyszukiwaliśmy przykłady oryginalnie czeskie w przekładzie na język polski. Stąd różnica w liczbie przykładów. O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 241 Rysunek 8. Łączliwość czasownika zazdrościć wygenerowana przez Word Sketch Podobnie rzecz się ma z parą žárlit (rysunek 10.) – ponad sześć tysięcy poświadczeń i zazdrosny (rysunek 9.) – zaledwie 241. Większa liczba wiązanych segmentów pozwoliłaby na typowe badanie corpus driven (Hebal-Jezierska, 2008: 11-12), podczas którego na podstawie 242 Elżbieta Kaczmarska danych korpusowych moglibyśmy określić zależność znaczenia od schematu składniowego danej jednostki (Levin, 1993; Kaczmarska, 2015a; Kaczmarska et al., 2015) i jeszcze dokładniej wskazać ekwiwalent dla konkretnego czasownika w danym kontekście. Dysponując tak małą liczbą poświadczeń, musieliśmy się w przypadku tych czasowników ograniczyć do badania typu corpus based (Hebal-Jezierska, 2008:12), wykorzystującego korpus w celu zilustrowania założenia przyjętego wcześniej na podstawie definicji słownikowych. Rysunek 9. Łączliwość czasownika zazdrosny wygenerowana przez Word Sketch O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 243 Rysunek 10. Łączliwość czasownika žárlit wygenerowana przez Word Sketch 5. Zakończenie Ustalenie ekwiwalentów dla omawianych czeskich czasowników było częścią większego projektu, w ramach którego opracowywany jest algorytm ułatwiający wyszukiwanie odpowiedników czasowników wyrażających różne uczucia i emocje na podstawie danych z korpusu równoległego InterCorp (Kaczmarska, 2015a)40. Implementując metody różnych teorii językoznawczych (zob. rysunek 11.), sprawdzamy zależność znaczenia od charakterystyki składniowej (Levin, 1993) i tym samym, na podstawie schematów składniowych, ustalamy najbliższy ekwiwalent, odnosząc się również do struktury składniowej potencjalnego odpowiednika. 40 Prace nad algorytmami ulepszającymi tłumaczenia maszynowe czy różnicującymi znaczenia jednostek wieloznacznych (np. WSD – Word Sense Disambiguation) są już na świecie prowadzone od dawna i znane także w odniesieniu do korpusów równoległych; w większości opierają się na olbrzymich danych uzyskanych z korpusów i bazują na różnych metodach matematycznych (w tym – statystycznych), np. Tian et al., 2014; Młodzki et al., 2012; Tian et al., 2010; Han et al., 2013; Kędzia et al., 2014. Opracowywane algorytmy wykorzystują też różne podejścia lingwistyczne; szerzej na ten temat – Han et al., 2013. 244 Elżbieta Kaczmarska Rysunek 11. Schemat wypracowywanego algorytmu wspomagającego ustalanie ekwiwalentów Jak zostało to przedstawione, cały algorytm składa się z kilku etapów analizy. Czasownik poddawany takiemu badaniu nie musi przechodzić przez wszystkie etapy; optymalny ekwiwalent może być odnaleziony na każdym poziomie analizy. 1. Pierwszym krokiem jest automatyczna ekstrakcja par ekwiwalentów. Badania pilotażowe pokazały, że już na tym etapie można znaleźć trafne ekwiwalenty wielu czasowników, co ciekawe – są to na ogół czasowniki odnoszące się do negatywnych emocji. (Kaczmarska, 2014a). 2. Drugim krokiem jest ustalenie wymagań walencyjnych. Zakładamy, iż zbieżność struktur składniowych i podobieństwo semantyczne obiektów łączących się z danymi czasownikami może być kluczem do wskazania ekwiwalentu na tym etapie. Dla niektórych czasowników znaleziono trafne ekwiwalenty tylko dla niektórych z ich znaczeń. Tak się dzieje w przypadku czasownika toužit41. Czasowniki, dla których nie odnaleziono ekwiwalentów na tym etapie przechodzą do etapu następnego. 41 Na podstawie wyników analizy walencyjnej i łączliwości udało się nam ustalić, iż ekwiwalentem czasownika toužit łączącego się z bezokolicznikiem jest polski czasownik pragnąć łączący się również z bezokolicznikiem (Kaczmarska, Rosen, 2013). O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 245 3. Trzecim krokiem, nieprzynoszącym, jak do tej pory, oczekiwanych rezultatów, jest identyfikowanie przypadków głębokich – roli, jakie pełnią elementy wiążące się z danym czasownikiem42. 4. Czwarty krok to wykorzystanie metod teorii Pattern Grammar (Ebeling, J., Ebeling S., 2013; Hunston, Francis, 2000). Ten etap ma w założeniu sprawdzić, czy istnieje zależność pomiędzy znaczeniem wyrazu a otoczeniem, w jakim występuje. Hunston i Francis twierdzą, że jeżeli jakieś słowo jest wieloznaczne, a jednocześnie pojawia się w kilku wzorcach, to każdy wzorzec pojawi się z jednym z jego znaczeń częściej niż z pozostałymi, czyli dany wzorzec wskaże najbardziej prawdopodobne znaczenie słowa. Sprawdziło się to m.in. w przypadku frazy být lito. Jeżeli jednostka být líto łączy się z dwoma frazami nominalnymi (w celowniku i dopełniaczu), wówczas taki jej wzorzec odpowiada polskiemu ekwiwalentowi żal. Jeżeli natomiast být líto łączy się tylko z celownikową frazą nominalną (oraz ewentualnie z elementem to), wzorzec ten odpowiada znaczeniu polskiej jednostki (być) przykro (Kaczmarska, 2015a). 5. Kolejnym krokiem jest etap wykorzystania założeń gramatyki kognitywnej. Na tym poziomie próbujemy odkodować znaczenie słowa w kontekście konceptualizacji zjawiska nim nazwanego. W badaniach pilotażowych analizowaliśmy jednostki mít rád i milovat. O ile poradziliśmy sobie z czasownikiem milovat, o tyle identyfikacja znaczenia jednostki mít rád i jej przekład na język polski wciąż pozostają problematyczne. Metody kognitywne jednak bardzo trudno implementować do algorytmu, ponieważ przeprowadzane są w większości manualnie43. 6. Ostatnie okienko to miejsce na rozwiązania przyszłościowe takie, jak np. wykorzystanie narzędzia Word Sketch dla obu języków na tym samym korpusie, czy zaawansowane badania stochastyczne44. Wierzymy, że dzięki nim, na podstawie badania kontekstu i rozróżnienia łączliwości z różnymi obiektami, 42 Etap ten nie zostanie jednak usunięty z finalnej wersji algorytmu. Badane przez nas jednostki (będące wykładnikami różnych emocji i uczuć) są jednolite pod względem łączliwości z argumentami o pewnych wartościach – zawsze znajdziemy tu przeżywającego czy źródło i na tej podstawie nie dokonamy zróżnicowania znaczenia. Algorytm może być jednak wykorzystany w badaniu innych grup czasowników, gdzie rola semantyczna oryginału i ekwiwalentu może być istotna przy różnicowaniu znaczenia. 43 W przypadkach problemowych możemy odnieść się także do eksplikacji i naturalnego metajęzyka semantycznego (Wierzbicka, 1980, 2001) lub skonstruować skalę intensywności właściwości wyrażanej przez dany czasownik (Mikołajczuk, 1997, 1999; Bratman, 1987). 44 Podczas jednego z tych badań staraliśmy się ustalić ekwiwalenty poprzez badanie liniowych i składniowych kontekstów, w których występowały czeskie czasowniki, stosując różne metody i testując teksty z korpusu równoległego. Najpierw ręcznie otagowane zostały równoległe konkordancje tych czasowników według właściwości syntaktyczno-semantycznych ich argumentów. Analiza manualna została uzupełniona przez dwujęzyczny słownik z frekwencjami. Następnie użyto klasyfikatorów stochastycznych do przewidzenia polskich ekwiwalentów na podstawie czeskiego kontekstu liniowego i składniowego. Metody były oceniane na testowych danych z korpusu z wyrównaniem słowo-do-słowa (Kaczmarska et al., 2015). 246 Elżbieta Kaczmarska uda nam się dopasować ekwiwalenty do wszystkich znaczeń czasownika toužit (Kaczmarska et al., 2015), a także wszystkich innych, które nie znajdą swoich ekwiwalentów na wcześniejszych poziomach algorytmu. Literatura Bratman, Michael E. (1987): Intentions, Plans, and Practical Reason. Massachusetts: Harvard University Press. Čermák, František, Rosen Alexandr (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 13(3), 411–427. Ebeling, Jarle, Ebeling. Signe Oksefjell (2013): Patterns in contrast. Amsterdam: John Benjamins. Han, Aaron L.F., Lu, Yi, Wong, Derek F., Chao, Lidia S., He, Liangye, Xing, Junwen (2013): Quality Estimation for Machine Translation Using the Joint Method of Evaluation Criteria and Statistical Modeling. W: Proceedings of the Eighth Workshop on Statistical Machine Translation, The Association for Computational Linguistics, 365-372. http://www. statmt.org/wmt13/pdf/WMT00.pdf, (01-03-2016). Harkins, Jean, Wierzbicka, Anna, (red.) (2001): Emotions in Crosslinguistic Perspective. Berlin: Mouton de Gruyter. Havránek, Bohuslav, (red.) (1989): Slovník spisovného jazyka českého. 2. Praha: Academia. Hebal-Jezierska, Milena (2008): Wariantywność końcówek fleksyjnych rzeczowników męskich żywotnych w języku czeskim. Warszawa: Wydział Polonistyki UW. Hunston, Susan, Francis, Gill (2000): Pattern Grammar: A corpus-driven approach to the lexical grammar of English. Amsterdam: John Benjamins. Kaczmarska, Elżbieta (2012): Czeski czasownik „zdát se” w przekładzie na język polski (na podstawie badań z wykorzystaniem czesko-polskiego korpusu równoległego InterCorp) Studia z Filologii Polskiej i Słowiańskiej XLVII, 247–261. Kaczmarska, Elżbieta (2014a): Czeskie czasowniki oznaczające stany psychiczne – sposoby ustalania polskich ekwiwalentów na podstawie korpusu równoległego InterCorp. W: Anna Stolarczyk-Gębiak, Marta Woźnicka (red.): Zbliżenia. Językoznawstwo – Literaturoznawstwo – Translatologia. Konin: Państwowa Wyższa Szkoła Zawodowa w Koninie, 45–55. O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów... 247 Kaczmarska, Elżbieta (2014b): Czy na pewno się (nie)rozumiemy? O problemach, uproszczeniach i stratach w przekładzie (na podstawie czesko-polskiej części korpusu równoległego InterCorp). W: Michala Benešová, Renata Rusin Dybalska i Lucie Zakopalová (red.): Proměny polonistiky. Tradice a výzvy polonistických studií. Praha: Karolinum, 192–199. Kaczmarska, Elżbieta (2015a): W poszukiwaniu znaczenia czasowników wyrażających stany psychiczne. Analiza czeskich czasowników i ich polskich ekwiwalentów – próba implementacji wybranych teorii lingwistycznych (walencja, gramatyka przypadków głębokich, Pattern Grammar, lingwistyka kognitywna). Prace Filologiczne LXVII, 131–150. Kaczmarska, Elżbieta (2015b): Mít rád czy milovat? O czeskiej miłości po polsku. W: Krystyna Waszakowa i Marta Falkowska (red.): Pojęcia zapisane w języku. Warszawa: Wydział Polonistyki UW, 139–156. Kaczmarska, Elżbieta, Rosen, Alexandr (2013): Między znaczeniem leksykalnym a walencją – próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej XLVIII, 103–121. Kaczmarska, Elżbieta, Rosen, Alexandr (2014a): Czego nie można wyrazić w języku polskim, czyli o leksykalnych w nim brakach. Polonica 34, 53–66. Kaczmarska, Elżbieta, Rosen, Alexandr (2014b): Praktyczny przewodnik po korpusie równoległym InterCorp. W: Milena Hebal-Jezierska (red.): Praktyczny przewodnik po korpusach języków słowiańskich. Warszawa: Wydział Polonistyki UW, 207–231. Kaczmarska, Elżbieta, Rosen, Alexandr (2016): Niedosłowności w dialogu czesko-polskim. W: Marcin Odelski, Aleksandra Knapik, Piotr Chruszczewski, Władysław Chłopicki (red.): Niedosłowność w języku. Język i komunikacja 37. Kraków: Tertium. Kaczmarska, Elżbieta, Rosen, Alexandr, Hana, Jirka, Hladká, Barbora (2015): Syntactico-semantic analysis of arguments as a method for establishing equivalents of Czech and Polish verbs expressing mental states. Prace Filologiczne LXVII, 151–174. Kędzia, Paweł, Piasecki, Maciej, Kocoń, Jan, Indyka-Piasecka, Agnieszka (2014): Distributionally Extended Network-Based Word Sense Disambiguation in Semantic Clustering of Polish Texts. W: IERI Procedia (International Conference on Future Information Engineering) 10, 38–44. DOI: 10.1016/j.jeri.2014.09.073 Levin, Beth (1993): English Verb Classes and Alternations: A Preliminary Investigation. Chicago: University of Chicago Press. Lüdtke, Ulrike M., (red.) (2015): Emotion in Language. Amsterdam: John Benjamins. 248 Elżbieta Kaczmarska Mikołajczuk, Agnieszka (1999): Gniew we współczesnym języku polskim. Analiza semantyczna. Warszawa: Wydawnictwo Energeia. Mikołajczuk, Agnieszka (1997): Pole semantyczne ‘gniewu’ w polszczyźnie (Analiza leksemów: gniew, oburzenie, złość, irytacja). W: Renata Grzegorczykowa i Zofia Zaron (red.): Semantyczna struktura słownictwa i wypowiedzi. Warszawa: Wydawnictwa Uniwersytetu Warszawskiego, 149–171. Młodzki, Rafał, Kopeć, Mateusz, Przepiórkowski, Adam (2012): Word Sense Disambiguation in the National Corpus Of Polish. Prace Filologiczne LXIII, 155–166. Rosen, Alexandr, Vavřín Martin (2014): Korpus InterCorp – čeština, verze 7 z 19.12.2014. http://www.korpus.cz, (01-03-2016) Siatkowski, Janusz, Basaj, Mieczysław (2002): Słownik czesko-polski. Warszawa: Wiedza Powszechna. Szymczak, Mieczysław, (red.) (1995): Słownik języka polskiego. Warszawa: PWN. Tian, Liang, Wong, Derek F., Chao, Lidia S., Oliveira, Francisco. (2014): A Relationship: Word Alignment, Phrase Table, and Translation Quality. W: The Scientific World Journal. Hindawi Publishing Corporation. http://dx.doi.org/10.1155/2014/438106, (01-03-2016). Tian, Liang, Wong, Derek F., Chao, Sam (2010): An Improvement of Translation Quality with Adding Key-Words in Parallel Corpus. W: Machine Learning and Cybernetics (ICMLC), 2010 International Conference on, Vol. 3, 1273–278. DOI: 10.1109/ICMLC.2010.5580888 Wierzbicka, Anna (1971): Kocha – lubi – szanuje. Medytacje semantyczne. Warszawa: Wiedza Powszechna. Wierzbicka, Anna (1980): Lingua mentalis: The semantics of natural language. Sydney/New York, NY: Academic Press. Wierzbicka, Anna (1991): Cross-cultural pragmatics: the semantics of human interaction. Berlin/New York, NY: Mouton de Gruyter. Wierzbicka, Anna (1997): Understanding cultures through their key words: English, Russian, Polish, German, and Japanese. New York, NY/Oxford: Oxford University Press. Wierzbicka, Anna (2001): What Did Jesus Mean? Explaining the Sermon on the Mount and the parables in simple and universal human concepts. New York, NY: Oxford University Press. Ewa Gruszczyńska Uniwersytet Warszawski Agnieszka Leńko-Szymańska Uniwersytet Warszawski Ruprecht von Waldenfels University of California, Berkeley The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts through translation Polsko-Szwedzki i Szwedzko-Polski Korpus Równoległy w badaniach kontaktów językowych poprzez tłumaczenie Abstract Artykuł ma na celu zaprezentowanie prac związanych z powstawaniem korpusu równoległego współczesnych polskich i szwedzkich tekstów literackich. Przedstawia także wyniki badania pilotażowego porównującego za pomocą danych równoległych językowe wykładniki emocji w obu językach i ich wzajemnych tłumaczeniach. Polsko-szwedzki i szwedzko-polski korpus równoległy powstaje w Pracowni Badań Skandynawistycznych na Wydziale Lingwistyki Stosowanej Uniwersytetu Warszawskiego. Planowany jest na około 10 milionów tokenów i wykorzystywany będzie w badaniach dotyczących powiązań językowych w tłumaczeniach oraz wpływu przetłumaczonych tekstów na wzajemne postrzeganie języków i kultur. Zawierać będzie polskie i szwedzkie teksty literackie opublikowane w obu językach w ostatnich 20 latach waz z ich tłumaczeniami na oba języki. Wersja pilotażowa korpusu liczy obecnie około 750 000 wyrazów i obejmuje trzy współczesne szwedzkie powieści przetłumaczone na język polski oraz jedną powieść i 14 opowiadań w języku polskim wraz z ich szwedzkimi przekładami. Minikorpus został zrównoleglony na poziomie zdań przy użyciu pakietu LFAligner 4.0, a jego polska część została otagowana przez Treetagger. Interfejs został oparty na pakiecie ParaVoz, oryginalnie stworzonym dla projektu ParaSol. Badanie pilotażowe z wykorzystaniem minikorpusu osadzone zostało w teorii wymiaru kultur, której autorem jest Geert Hofstede. Przeprowadzono je pod kątem sposobu tłumaczenia na oba języki wybranych jednostek leksykalnych związanych z emocjami z pola semantycznego polskiego rzeczownika strach oraz szwedzkiego skräck. Wyrazy odnoszące się w obu językach do tej emocji zostały Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels 250 uszeregowane pod względem intensywności. Następnie rzeczowniki w języku polskim zostały zestawione z ich szwedzkimi ekwiwalentami tłumaczeniowymi występującymi w korpusie i porównane pod względem mocy. Ta sama procedura została zastosowana dla rzeczowników polskich i ich szwedzkich odpowiedników. Wydaje się, że wyniki badania, które ze względu na niewielką objętość korpusu należy traktować bardzo ostrożnie, potwierdzają hipotezę, według której różnice w emocjonalności wyrażanej językowo po polsku i po szwedzku mają odzwierciedlenie w przekładach. Kultura szwedzka charakteryzuje się słabszym i bardziej stonowanym sposobem wyrażania emocji w porównaniu z kulturą polską. Tłumacze polscy wybierają zazwyczaj ekwiwalenty, które (biorąc pod uwagę parametr intensywności) są silniejsze od jednostek językowych użytych w szwedzkim oryginale. Widoczna jest także odwrotna tendencja w tłumaczeniach z języka polskiego na język szwedzki. Oznacza to, że oprócz innych wymiarów wskazanych przez Geerta Hofsteadego, kultura polska i szwedzka różnią się także pod względem emocjonalności. Jednak, aby potwierdzić wiarygodność wstępnych wyników, badania zostaną powtórzone na dużym korpusie docelowym. Keywords: parallel corpus, Polish, Swedish, emotions, translation Słowa kluczowe: korpus równoległy, język polski, język szwedzki, emocje, przekład 1. Background The Scandinavian Research Centre at the Faculty of Applied Linguistics is currently launching a research project dedicated to contemporary Polish-Swedish language contacts through translation. The data for our investigations will primarily come from a purpose-built parallel corpus of literary texts. The aim of the project is to examine Polish-Swedish and Swedish-Polish linguistic relations in translation as well as the impact of translated texts on the mutual perception of our respective languages and cultures. A parallel corpus of Polish-Swedish and Swedish-Polish translations is being built as a means to study these issues. Many such resources have already been compiled, as corpora have become an indispensable source of data in linguistics and translation studies. However, to date there is no one dedicated Polish-Swedish parallel corpus. Multilingual corpora that include a Polish-Swedish component are insufficient. The segment in ParaSol (von Waldenfels, 2011) is clearly too small, while Opus (Tiedemann, 2012), and the Aquis Communitaire corpus (Steinberger et al., 2006) include specialized language such as technical or scientific documents and film subtitles (Opus) or the EU legislation (JTCAquis), in both cases mostly translated from third languages, and thus not suitable for investigating language and culture relations between Sweden and The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... 251 Poland. The ASPAC Swedish-Polish corpus in Språkbanken (the Swedish Language Bank), which is part of the Amsterdam Slavic Parallel Aligned Corpus, and which consists of 1,467,368 tokens (102,146 sentences), is also too small for larger-scale comparisons of Polish and Swedish. Additionally, it is not perfectly aligned and therefore query results are not reliable. Thus, there is an apparent need for a large, reliable, representative and dedicated corpus of translations into and from both languages. This gap will be filled by the resource compiled within the framework of our project. 2. The Polish-Swedish parallel corpus The corpus will consist of Swedish and Polish contemporary literary texts and their translations into Polish and Swedish. The intended size of the corpus is 10 million tokens – 5 million Swedish originals with their Polish translations and 5 million Polish originals with their Swedish translations. Therefore, we estimate that the Swedish-Polish component will include about 30 original Swedish books with their Polish translations and a similar number of volumes is foreseen for the Polish-Swedish component. The literary texts to be included in the corpus are selected from a bibliography of contemporary (i.e. last 20 years) Swedish and Polish literature which has been translated into the respective languages1, and an effort will be made to ensure the inclusion of a variety of genres, authors and translators so as the corpus is balanced and representative. Each text in the corpus will be appended with rich metadata (the information on its author/ translator, its source, etc.), as well as with structural and linguistic information, such as the basic text structure and part of speech tagging. The originals and their translations will also aligned at the sentence level. Purpose-built corpus-analysis tools will offer opportunities for multiple searches based on a range of queries (such as individual words, phrases, parts of speech, units of texts), and for direct comparisons between texts in the two languages, which will be facilitated by the option of viewing the aligned sections of texts side-by-side. In future, the Swedish-Polish and Polish-Swedish parallel corpus may be further developed and used for other research in translation studies between Polish and Swedish languages. Multilingual text collections, in particular parallel corpora, have proved to serve not only as an excellent resource for the descriptive study of translation (Baker, 1995; Kenny, 1998), but also as a basis for professional pedagogical applications in the field of translator training (Pearson, 2003; 1 A bibliography of Swedish-Polish contemporary literary translations (2000 -2015) has been already compiled by Anna Sworowska (Gruszczyńska, Sworowska, 2015) and is part of the monograph: Ewa Gruszczyńska (2015) Polsko-szwedzkie spotkania językowe za pośrednictwem przekładu. The earlier bibliography of Swedish-Polish literary translations prepared by Hieronim Chojnacki (2003) Szwedzka literatura piękna w Polsce 1939-1996 does not include the period of the last 20 years. Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels 252 Bowker, 1998; Zanettin, 1998). The texts gathered in the parallel corpus will initially be available to the research team only. Sections of the corpus will gradually be made publically available as the copyright issues are cleared. 3. The mini-corpus Before embarking on the large-scale compilation of the Polish-Swedish parallel corpus of literary texts, a decision was made to build a mini-corpus of a few hundred thousand words. This was done with the aim of verifying the feasibility of the project, testing its individual procedures and assessing its technical demands. In addition, using the mini-corpus for the pilot study described in the next section was considered an important step in testing if the architecture of the final resource will be optimal for the kinds of tasks envisaged within the research project. Finally, it was also hoped that the compilation of the mini-corpus will enhance the credibility of the project and thus help us raise necessary funding. The mini-corpus was compiled in January-March 2015. It includes three contemporary Swedish novels (by Sven Delblanc, Stig Larsson and Kerstin Ekaman) with their Polish translations, as well as one Polish novel (by Olga Tokarczuk) and a selection of Polish short stories with their Swedish translations. The number of tokens in the mini-corpus and in its individual sections is presented in Table 1: Polish 81,827 Polish-Swedish Polish 366,001 Swedish 98,704 Swedish 320,768 Swedish-Polish Swedish 419,472 Polish 284,174 Total 785,473 Table 1. Number of tokens in the Polish-Swedish parallel mini-corpus The procedures and the tools applied for the construction of the mini-corpus were adopted form the compilation project of the German-Polish parallel corpus (see Chapter 6). After scanning and OCR conversion performed with ABBYY FineReader, the text files were checked manually. A header containing metadata was produced for each document and inserted manually. Subsequently, the texts were aligned with LFAligner 4.02 and the accuracy of the procedure was verified by two researchers speaking both languages. The aligned documents in the TMX format were then converted to two separate text files containing XML annotation, one for each language. The Polish corpus file was tagged using Treetagger3 (Schmid, 1995). Unfortunately, Treetagger does not offer a para2 http://sourceforge.net/projects/aligner/ 3 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... 253 meter file for Swedish, so it could not be used for tagging the Swedish part of the corpus. Several other available taggers were tested – the Stockholm Tagger4 (Östling, 2013), TnT5 (Brants 2000; Megyesi, 2001), HunPos6 (Halacsy, Kornai, Oravecz, 2007; Megyesi, 2008), but none of them appeared to work well with files containing XML annotation. Given the pilot nature of the current project, we did not adapt these tools for our purpose and abandoned tagging the Swedish data. Finally, the two files containing Polish and Swedish texts separately were converted to the CWB format required by the IMS Open Corpus Workbench7 (Evert, Hardie, 2011) – a set of tools for managing and querying large text corpora with linguistic annotation. The interface for querying the data and viewing the results was based on ParaVoz8 , (Meyer et al., 2006-2015, see also Chapter 5), initially developed for ParaSol (von Waldenfels, 2011). It is a simple CWB-based interface for parallel corpora operating through a web browser. At the moment the mini-corpus is running on our local server. Figure 1 presents screenshots from the query interface and the result-viewing panel. The compilation of the mini-corpus has pointed to several problems which will need to be taken into account in the proper compilation phase. First, in order to ensure the dependability of query results, manual checks have to be foreseen in the project after the OCR conversion and alignment stages. It has become clear that the automatic tools alone do not produce sufficient quality, as too many errors occurred at both stages to be left unedited without compromising the accuracy of the resource. Thus, it is necessary to secure adequate time and financial resources for this purpose. There is also a need for a simple script for automatic generation of headers from the information gathered in a separate database. Next, it is essential to solve the problem with tagging the Swedish data by developing a tool stripping XML annotation before tagging and restoring it into the tagged files. Finally, using the mini-corpus for the pilot study has revealed that the one-sentence context available at the moment is sufficient only for an initial examination of the data. More in-depth analyses planned in the project require access to larger – at least one-paragraph-long – contexts, which is not supported by the current interface. An option of viewing a larger context has to be included in the new version of the interface. Addressing these problems will have a positive impact on the efficiency of work done within the projects and the quality of its final result. 4 http://www.ling.su.se/english/nlp/tools/stagger 5 http://www.coli.uni-saarland.de/~thorsten/tnt/, http://stp.lingfil.uu.se/~bea/resources/tnt/ 6 https://code.google.com/p/hunpos/, http://stp.lingfil.uu.se/~bea/resources/hunpos/ 7 http://cwb.sourceforge.net/ 8 https://bitbucket.org/rvwfels/paravoz 254 Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels Figure 1. Screenshots from the Swedish-Polish mini-corpus 4. A pilot study The pilot study described below belongs to the area of research which deals with the so-called “linguistic images of the world”. These “images” are generally defined as a set of language properties related to grammatical categories (morphological and syntactic) as well as lexical devices which reveal specific images of the elements of the world typical for a certain language and culture (cf. Wierzbicka, 1999b). The study focuses on exploring the expression of selected emotions in both languages and it is based on the Swedish-Polish and Polish-Swedish parallel mini-corpus described in the previous section. Its aim is to investigate if there is a difference in the conceptualization of emotions in the Swedish and Polish cultures and languages, and if this difference influences the way in which lexical units denoting emotions are translated into the respective languages. The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... 255 Emotions9 are a significant part of the world. As they are language- and culture-specific it is interesting to investigate how they are conceptualized in Swedish and Polish and how they are translated between these two languages. Although the problem of transferring emotions has always been present in some way in the literature on translation, most studies have been concerned with a general assessment of “the spirit” of a text and the impression a text makes on the reader rather than with specific emotions (cf. Bassnett-Mc Guire, 1980: 63). A greater interest in emotions within translation studies has been prompted by contemporary semantics and a number of studies devoted to this issue has gradually increased in recent years. But unlike linguists, who have been especially interested in the affective lexicon, i.e. in words referring to emotions such as fear or sadness (cf. Clore, Ortony, Foss, 1987; Johnson-Laird, Oatley, 1989; Wierzbicka, 1990, 1991, 1992a, 1992b, 1998), most translation theorists have focused on emotionally-loaded lexical units. Thus, research on lexical units referring to emotions is still scarce in translation studies (cf. Gruszczyńska, 2001). The question about what happens to the affective lexicon in the process of translation from Swedish into Polish and vice versa seems pertinent and interesting. The subject matter of this pilot study has been limited to the emotions from one sematic field: ‘fear’ i.e. Polish strach and Swedish skräck. We analyse the occurrences of lexical units belonging to this semantic field in the parallel mini-corpus, thus focusing on the textual realisations of these sentiments. As the differences between Polish and Swedish cultures are significant10, it can be expected that the image of these particular emotions is not the same in the source and the target texts, not only because of the differences between the respective languages, but also because of a cultural difference concerning Polish and Swedish emotionality which has its influence the outcome of the translation process. The phenomenon called emotion is usually defined as a post-cognitive phenomenon whose crucial aspect is the experiencer’s cognitive process leading to his/her own evaluation of the situation. Some researchers argue (Ortony, Clore, 1989: 127) that “to be an emotion, the feeling must signify the results of an appraisal of some kind. Thus, sadness is not simply a particular kind of feeling, but a particular kind of feeling for a particular reason”. Some linguists have questioned the idea that the element of appraisal is always present in the process of conceptualizing emotions. According to Wierzbicka, for example, one can 9 It is not easy to determine what is the phenomenon behind the English term emotion. The issue is complex and there is still no consensus about what emotions are like and how to describe them (cf. among others: Clore, Ortony, Foss 1987; Ekman 1992; Fries 1992; Johnson-Laird & Oatley 1989; Wierzbicka 1994, 1999a). 10 Dutch sociologist Geert Hofstede has shown (2001) that Polish and Swedish culture differ significantly from each other in terms of three dimensions: POWER DISTANCE, UNCERTAINTY AVOIDANCE and MASCULINITY. 256 Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels say, I am sad/happy today – I don’t know why, although certainly not *I am disappointed/disgusted today – I don’t know why. That is why she claims that for some concepts of emotions we do need a reference to a particular thought, whereas for others we do not – although we always need a reference to a prototypical scenario, which identifies, indirectly, the emotion in question (cf. Wierzbicka, 1992b: 291). As we will see, some emotions from the semantic field of ‘fear’ in Polish and Swedish have a particular motivation while others do not. Emotions are usually divided by linguists and psychologists into two groups: basic and non-basic emotions (e.g. Ekman 1973, 1989, 1992; Fehr, Russel, 1984; Frijda 1986; Ortony, Clore, Collins, 1988; Plutchk, 1994; Russel, Bullock 1986; Wierzbicka, 1999). It was Paul Ekman and his co-workers who laid the foundations for the research in this field. On the basis of their detailed studies of physiological correlates of emotions they came to the conclusion that of all the emotions that people around the world feel, certain emotions have consistent correlates in facial expressions across cultures and these are so-called basic emotions: The evidence now proves the existence of universal facial expressions. (…) Regardless of the language, of whether the culture is Western or Eastern, industrialized or preliterate, these facial expressions are labelled with the same emotion terms: happiness, sadness, anger, fear, disgust, and surprise (Ekman, 1973: 219-220). The evaluation of all emotions (basic as well as non-basic) is carried out according to two main parameters which are considered primary, i.e. ‘good’/‘bad’, and ‘strong’/‘weak’. All emotions can be defined by their positions in a two-dimensional space formed by these parameters. (cf. Fries, 1992; Gruszczyńska, 2001). The pilot study focused on the nouns strach and skräck (‘fear’) and other nouns denoting related emotions11 which belong to the same semantic field. We have chosen only these items from this field which have been found in our Swedish-Polish and Polish-Swedish parallel mini-corpus. In the Polish subcorpus, these are: strach (przestrach), przerażenie, trwoga, lęk, niepokój, obawa popłoch/panika and in the Swedish subcorpus, they include: skräck (förskräckelse), fasa, panik, oro, rädsla, förfäran, ångest, ängslan. The semantic field of ‘strach’ in Polish is very rich. It is represented by about 80 one-word lexical units and 400 analytical constructions (cf. Skorupka, 1974; Tomczak, 1997: 173; Gruszczyńska, 2001). Determining semantic similarities and differences between the nouns denoting this emotion (and consequently between verbs, adjectives etc.) is not a simple task. The definitions 11 According to Paul Ekman ‘fear’ stands not only for a single affective state but a family of related states (cf. Ekman 1992:172). The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... 257 in Słownik języka polskiego, (SJP, Dictionary of Polish) reveal some similarities and differences in meaning between the items retrieved from the mini-corpus. These definitions, however, are not very useful for a precise differentiation between the analysed items because each one is defined in terms of the other units belonging the same semantic field12: strach – “stan niepokoju wywołany przez niebezpieczeństwo lub rzecz nieznaną, która wydaje się groźna przez myśl o czymś grożącym” [a state of ‘≈ lęk’ evoked by a danger or something unknown that seems dangerous through thinking about a possible danger]; lęk – “uczucie trwogi, obawy przed czymś, strach”, psych. “stan emocjonalny pojawiający się jako reakcja na zagrożenie, którego źródło nie jest dokładnie znane i któremu człowiek nie może się aktywnie przeciwstawić” [a feeling of trwoga, obawa about something, strach, psych. an emotional state which is a response to a threat, whose source is not exactly known and which cannot be actively resisted]; przerażenie –“uczucie nagłego i silnego lęku, przestrachu” [a feeling of a sudden and strong lęk, przestrach]; trwoga – “stan, uczucie niepewności, niepokoju o to, co grozi” [a state, a feeling of uncertainty, niepokój of an imminent danger]; niepokój – “brak spokoju, równowagi” [a lack of calmness, balance]; obawa – “stan, uczucie niepewności, niepokoju, co do skutków, następstw czego” [a state, a feeling of uncertainty, niepokój about the results or consequences of something]; popłoch – “strach nagle ogarniający ludzi” [strach which suddenly overcomes people]; panika – “nagły, niepohamowany, często nieuzasadniony strach, przerażenie, popłoch, zamieszanie ogarniające zwykle większą liczbę ludzi” [a sudden, uncontrollable, frequently unjustified strach, przerażenie, popłoch, a confusion usually coming over a larger number of people] The first of the defined nouns, i.e. strach, is one of two most frequent items among the selected words (in Polish texts in general13 as well as in the analysed material; the other one is niepokój) and it is part of numerous phraseological 12 We quote definitions in our own translation. 13 Cf. Słownik frekwencyjny polszczyzny współczesnej. 258 Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels constructions. It is also considered to be the core lexeme of the discussed semantic field (Tomczak, 1977: 182) and a point of reference for other items. The main differences between strach and the other words result from several additional semantic components defining these emotions. Lęk is defined in terms of strach, thus it seems to be equally strong but it is often connected with an unknown cause. Przerażenie differs from strach in incorporating the components [+sudden] and [+being very strong], and therefore also [+being very unpleasant] in its meaning. Niepokój undoubtedly belongs to the lexemes which denote weaker emotions than strach and therefore has the component [+weak], also, it is not necessarily evoked by a concrete cause. Obawa, similarly to niepokój, is also considered a weak emotion [+weak] but it differs from niepokój in always having a concrete cause. Trwoga, however, refers to a very strong emotion, much stronger than starch, which is demonstrated by all the examples in the SJP dictionary as well as all the citations from the mini-corpus. Therefore, the dictionary definition quoted above, which characterises this emotion as “a feeling of uncertainty” (similar to obawa) seems infelicitous as it omits the [+very strong] component. The last two items, i.e. popłoch/panika, which are equally strong, should be defined by the elements [+collective], [+mindless] and [+active], which is confirmed by the examples in the dictionaries. In the above definitions the semantic component of being strong or weak is one of the main differentiating features. It may serve as a point of departure for an approximate ordering of the analysed lexical units according to the ‘strong’/‘weak’ parameter. The relations among them are illustrated in Figure 2, which is based on Fries’s diagram (cf. Fries, 1992)14. However, because the emotion ‘strach’ and its related feelings all belong to the group of unpleasant [+bad] emotions, only one axis is sufficient to illustrate the relations between them, as a stronger emotion is at the same time more unpleasant. The semantic field of ‘skräck’ in Swedish is also very rich. It is represented by a similar number of oneword lexical units and analytical constructions as Polish ‘strach’ (cf. Gruszczyńska, 2001). For our analysis we have Figure 2. An approximate ordering of the lexical units from the semantic field of ‘strach’ according to the ‘strong’/‘weak’ parameter 14 The differences in distance between the words depicted in Figure 2 are not proportional to differences in strength between them. The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... 259 selected only several of them: skräck, fruktan, fasa, panik, oro, rädsla, förfäran, skrämsel, ångest, ängslan, i.e. only the nouns which occurred in the mini-corpus. The definitions provided by Swedish dictionaries (see References) reveal some semantic similarities and differences in meaning between the analysed items, however, in this case again, they are not very helpful in differentiating precisely between the individual emotions because each feeling is defined in terms of other emotions,15 as it was the case in the Polish dictionary: skräck – “mycket stark rädsla ofta i viss akut situation jfr fasa” [very strong rädsla often in an acute situation; cf. fasa]; in SOB it is also defined in terms of rädsla and fasa but two semantic components are emphasised: [+strong] and [+acute]; fasa – ”dels om mera bestående l. djupgående ångest l. fruktan, dels om mera tillfällig l. plötslig förfäran (förskräckelse)” (SAOB) [partly about more complex deep ångest, fruktan, partly about sudden förfäran]; fruktan – “1. rädsla, skräck, bävan 2. ängslan, oro, farhåga (att ngt obehagligt)” [rädsla, skräck, bävan 2. ängslan, oro, farhåga about something uncomfortable]; panik – “(plötslig o.) besinningslös skräck (som orsakar förvirring o. tumult o. hämningslösa försök att undkomma), panisk förskräckelse (som griper en samling människor)” [a sudden, foolish skräck: (which causes confusion and tumult, an unrestrained attempt to escape,) a panic seizing a group of people]; oro – “saknad av brist på ro, lugn, vila; tillstånd, förhållande som utmärkes av (tendenser, möjligheter till) störningar, förändringar, växlingar (i den normala tillvaron); särsk. om (tillstånd av) rörelse som stör ngts stillhet och vila; [lack of peace, tranquility, rest; a state characterized by (tendencies, possibilities of) disturbances, modifications, changes (in normal life); especially if (a state of) movement disturbs someone’s peace and rest]; rädsla – “förhållandet. egenskapen att vara rädd (för ngn l. ngt), fruktan; klenmod, försagdhet; ängslan, bävan; äv.: förskräckelse, skräck”; [ratio. property to be rädd (because of somebody or something) fruktan; timidity ängslan, bävan; or förskräckelse, skräck]; förfäran – “starkt, skräckblandad obehag” [a strong fear mixed with discomfort]; 15 The definitions are quoted after SAOB, SOB and LEXIN. Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels 260 fasa – “stark ihållande förfäran” [a strong, persistent förfäran]; ångest – “känsla av stark oro eller fruktan” [Lexin]; [a feeling of strong oro or fruktan]; ängslan – “obehaglig känsla att vara utsatt för fara” [Lexin]; [an uncomfortable feeling of being in danger] The first of the analysed lexical units, i.e. skräck, is also one of the two most frequent items among the selected emotions (in Swedish texts in general, as well as in the mini-corpus; another one is oro) and is part of numerous phraseological constructions. It is also considered to be the main lexeme from the discussed semantic field and a point of reference for the other items. It is defined as “djupgående ångest” [profound ångest] and that is why it can be considered as stronger than ångest. According to the dictionary definition rädsla is very similar to skräck. Oro seems to be the weakest of all the analysed items. On the other hand, panik, fasa and förfäran are stronger than skräck. The first one is defined as very strong, and fasa is described as stronger than förfäran. Similarly to Polish, in the above definitions the quality of being strong or weak is one of the main differentiating features. We have tried to order the analysed nouns according to the ‘strong’/’weak’ parameter. Their place on the scale is depicted in Figure 3, which is also based on Fries’s (1992) diagram16. The next step in our analysis involved examining how individual emotions from the semantic field of ‘fear’ were translated from Polish to Swedish and vice versa and how the translation equivalents in both languages were distributed along the strong/weak scale. We analysed 97 pairs of sentences retrieved from the Swedish-Polish and Polish-Swedish parallel mini-corpus containing the analysed words. Tables 2 and 3 present the examined nouns in the two languages together with their translations. Figure 3. An approximate ordering of the lexical units from the semantic field of ‘skräck’ according to the ‘strong’/’weak’ parameter 16 The differences in distance between the words depicted in Figure 3 are not proportional to the differences in strength between them. The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... Swedish source texts oro skräck skräck ångest ängslan panic 0 förfäran 0 Polish translated texts niepokój strach przerażenie lęk niepokój panika [addition] przerażenie przerażenie [addition] popłoch 261 Number of hits 18 9 4 8 7 6 5 1 1 Table 2. Polish equivalents of the Swedish nouns from the semantic field of ‘skräck’ in the mini-corpus Polish source texts niepokój strach przerażenie przerażenie popłoch trwoga lęk Swedish target texts oro skräck rädsla skräck förfäran panik oro oro ångest skräck Number of hits 12 8 2 5 3 3 2 1 2 2 Table 3. Swedish equivalents of the Polish nouns from the semantic field of ‘strach’ in the mini- corpus Figures 4 and 5 present the relative positions of the analysed nouns and their translations on the strong/weak scale in the two languages. If the hypothesis about the differences between Polish and Swedish emotionality is correct these differences should be reflected in discrepancies between the strength of the translation equivalents. Both scales – the one presenting the ordering of the linguistic representations of emotions in Polish according to the ‘strong’/‘weak’ parameter, and the other presenting the Swedish expressions ordered according to the same criterion – can be assumed to be comparable. In both of them the central position is occupied by one lexeme, and all the remaining nouns are situated closer or farther from the centre in the direction of stronger or weaker emotions (as stipulated by the prototype theory, Rosch, 1973). In Polish the central lexeme is strach and in Swedish it is skräck. The graphical positioning of the centres of both graphs on the same level makes it possible to juxtapose the scales and compare them with each other. However, it should be noted that the distances between individual expressions of emotions on the scales are symbolic and have 262 Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels Figure 4. The Swedish equivalents of the Polish nouns from the semantic field of ‘strach’ no influence on the overall picture of the observed tendencies. What is important is not the distances but the ordering, which was determined by the definitional properties of the individual items. As Figure 4 demonstrates, Swedish translators often rendered Polish nouns denoting emotions related to fear with Swedish lexical items expressing weaker feelings. At the same time, Figure 5 indicates that Polish translators behaved in the opposite way: they preferred stronger Polish items or even additions as equivalents to Swedish nouns expressing the feelings from this semantic field. Figures 4 and 5 show that the translation equivalents of the items situated in the extreme positions on the strong/weak axis, i.e. Polish niepokój and popłoch and Swedish oro and panic are rendered by nouns in the other language which are identical (or only slightly different) in terms of their strength. On the other hand, the equivalents of the items situated in the middle of the scale are more varied and show a tendency to be weaker (in the case of Swedish translations) or stronger (in the case of Polish renderings). In other words, translators The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... 263 Figure 5. The Polish equivalents to the Swedish nouns from the semantic field of ‘skräck’ tend to downgrade strong emotions when translating from Polish to Swedish, and upgrade them, conversely, when translating in the opposite direction. Such results suggest that the Swedish culture is characterised by a weaker/more subdued expression of emotionality in comparison with the Polish culture which, in turn, tends to express feelings by giving them a more intense undertone. This conclusion demonstrates that Hofstede’s (2001) observation was not fully complete. The Polish and Swedish cultures differ significantly from each other not only in terms of three main dimensions: power distance, uncertainty avoidance and masculinity but also in terms of emotionality. However, as the size of our parallel mini-corpus is still very limited this conclusion should be treated with caution and must be confirmed in wider-scale research. 5. Conclusions This article has introduced a new project on contemporary Polish-Swedish language contacts through translation which has recently been launched at the 264 Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels University of Warsaw’s Scandinavian Research Centre. An important part of this project is a compilation of a large, balanced and representative Swedish-Polish and Polish-Swedish parallel corpus of literary texts. The paper has described the mini-corpus which has been created in the pilot phase of the project. It has also presented the results of a small-scale study into translations of emotion terms related to ‘fear’ between the two languages, which was based on the data retrieved from the mini-corpus. The outcomes of the project’s pilot phase have confirmed its feasibility. They have also proven that the planned Swedish-Polish and Polish-Swedish parallel corpus will be a valuable source of data for the kinds of analysis envisaged within the project. References Baker, Mona (1995): Corpora in Translation Studies. An Overview and Suggestions for Future Research. Target 7(2), 223–243. Bassnett-Mc Guire, Susan (1980): Translation Studies. London: Methuen & Co. Ltd. Bowker, Lynne (1998): Using specialized monolingual native-language corpora as a translation resource: A pilot study. Meta 43(4): 631–651. Brants, Thorsten. (2000): TnT – A Statistical Part-of-Speech Tagger. In: Proceedings of the 6th Applied Natural Language Processing Conference. Seattle, Washington, USA. http://www.coli.uni-saarland.de/~thorsten/ publications/Brants-ANLP00.pdf, (17 October 2015). Clore, Gerald, Ortony, Andrew, Foss, Mark A. (1987): The psychological foundations of the affective lexicon. Journal of Personality and Social Psychology 53, 751–766. Ekman, Paul (1973): Cross Cultural studies of facial expressions. In: Paul Ekman (ed.): Darwin and Facial Expression: a Century of Research in Review. New York: Annals of the New York Academy of Sciences, 169–229. Ekman, Paul (1989): The argument and evidence about universals in facial expressions of emotions. In: Hugh Wagner, Antony S.R Manstead (eds.): Handbook of Social Psychophysiology. Chichester: Viley, 143–164. Ekman, Paul (1992): An argument for basic emotions. Cognition and Emotion 6(3/4). Special Issue on Basic Emotions, 169–200. Evert, Stefan, Hardie, Andrew (2011): Twenty-first century Corpus Workbench: Updating a query architecture for the new millennium. In: Proceedings of the Corpus Linguistics 2011 conference, University of Birmingham, UK. http://www.birmingham.ac.uk/documents/college-artslaw/corpus/conference-archives/2011/Paper-153.pdf, (17 October 2015). The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... 265 Fehr, Beverley , Russel Fehrand (1984): Concept of emotion viewed from a prototype perspective. Journal of Personality and Social Psychology 113, 464–486. Frijda, Nico H. (1986): The Emotions. Cambridge: Cambridge University Press. Fries, Norbert (1992): Emocje. Aspekty eksperymentalne i lingwistyczne. In: Gabriel Falkenberg, Norbert Fries, Jadwiga Puzynina (eds.): Wartościowanie w języku i tekście. Warszawa: Wydawnictwa Uniwersytetu Warszawskiego, 105–135. Gruszczyńska, Ewa (2001): Linguistic Images of Emotions in Translation from Polish into Swedish. Henryk Sienkiewicz as a Case in Point. Studia Slavica Upsaliensa 42. Uppsala: Acta Universitatis Upsaliensis. Gruszczyńska, Ewa, Sworowska, Anna (2015): Współczesna literatura szwedzka w polskim przekładzie. – [in:] Ewa Gruszczyńska: Spotkania językowe szwedzko-polskie za pośrednictwem przekładu. Warszawa: Oficyna Wydawnicza ASPRA-JR, 31–75. Halacsy, Peter, Kornai, Andras, ORAVECZ, Csaba. (2007): Hunpos – an open source trigram tagger. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Prague, Czech Republic. Companion Volume: Proceedings of the Demo and Poster Sessions. Association for Computational Linguistics, 209–212. http://www.kornai.com/ Papers/acl07poster.pdf, (17 October 2015). Hofstede, Geert (2001) Culture’s Consequences: Comparing Values, Behaviors, Institutions and Organizations Across Nations. Second Edition. Thousand Oaks, CA: Sage Publications. Chojnacki, Hieronim (2003): Szwedzka literatura piękna w Polsce 1939-1996. Gdańsk: Wydawnictwo Uniwersytetu Gdańskiego. Johnson-Laird Philip, Oatley Keith (1989): The language of emotions: an analysis of semantic field. Cogniton and Emotion 3, 81–123. Kenny, Dorothy (1998): Corpora in Translation Studies. Routledge Encyclopedia of Translation Studies, 50–53. Megyesi, Beata (2001): Comparing Data-driven Learning Algorithms for PoS Tagging of Swedish. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2001), Carnegie Mellon University, Pittsburgh, PA, USA, 151–158. https://www.aclweb.org/ anthology/W/W01/W01-0519.pdf, (17 October 2015). Megyesi, Beata (2008): The Open Source Tagger HunPoS for Swedish. Report, September. Department of Linguistics and Philology, Uppsala University. http://stp.lingfil.uu.se/~bea/publ/megyesi-hunpos.pdf, (17 October 2015). 266 Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels Meyer, Roland, von Waldenfels, Ruprecht, Woźniak, Michał, Zeman, Andreas (2006-2015): ParaVoz – a simple web interface for querying parallel corpora. Second Version. Bern, Regensburg, Berlin, Krakow. https://bitbucket.org/rvwfels/paravoz, (17 October 2015). Ortony Andrew, Clore, Gerald (1989): Emotions, moods, and conscious awareness. Cognition and Emotion 3(2), 125–137. Ortony, Andrew, Clore, Gerald, Collins, Allan (1988): The Cognitive Structure of Emotions. Cambridge: Cambridge University Press. Östling, Robert (2013): Stagger: an Open-Source Part of Speech Tagger for Swedish. Northern European Journal of Language Technology, 3, 1–18. Pearson, Jennifer (2003): Using parallel texts in the translator training environment. In: Federico Zanettin, Silvia Bernardini, Dominic Stewart (eds.): Corpora in Translator Education, Manchester: St Jerome, 15–24. Plutchik, Robert (1994): The Psychology and Biology of Emotions. New York: Harper Collins College Publishers. Rosch, Eleanor (1973): Natural categories. – Cognitive Psychology, 4 (3), 328–50. Russel James A., Bullock Marry (1986): Fuzzy concepts and the perception of emotion in facial expressions. Social Cognition 4, 309–341. Schmid, Helmut (1995): Improvements in Part-of-Speech Tagging with an Application to German. In: Proceedings of the ACL SIGDAT Workshop. Dublin, Ireland. http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf, (17 October 2015). Steinberger Ralf, Pouliquen, Bruno, Widiger, Anna, Ignat, Camelia, Erjavec, Tomaž, Tufiş, Dan, Varga Dániel (2006): The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. In: Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC’2006), Genoa, Italy, 24-26 May 2006, 2142–2147. http:// www.lrec-conf.org/proceedings/lrec2006/, (1 March 2016). Tiedemann, Jörg (2012): Parallel data, tools and interfaces in OPUS. In: Nicoletta Calzolari, Khalid CHOUKRI, Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012). Istanbul: European Language Resources Association (ELRA), 2214–2218. Tomczak, Katarzyna (1997): Wyrażenia z leksemami “strach” i “bać się” we współczesnej polszczyźnie. In: Renata Grzegorczykowa, Zofia Zaron (eds.): Semantyczna struktura słownictwa i wypowiedzi. Warszawa: Wydawnictwa Uniwersytetu Warszawskiego, 174–198. The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts... 267 von Waldenfels, Ruprecht (2011): Recent developments in ParaSol: Breadth for depth and XSLT-based web concordancing with CWB. In: Daniela Majchráková, Radovan Garabík (eds.): Natural Language Processing, Multilinguality. Proceedings of Slovko 2011, Modra, Slovakia, 20–21 October 2011. Bratislava: Tribun EU, 156–162. Wierzbicka, Anna (1990): The semantics of emotions: fear and its relatives. Australian Journal of Linguistics, 10 (2), 133–138. Wierzbicka, Anna (1991): Cross-cultural Pragmatics. The semantics of Human Interaction. Berlin/New York: Mouton de Gruyter. Wierzbicka, Anna (1992a): Semantics, Culture and Cognition. Universal Human Concepts in Culture-specific Configurations. Oxford/New York: Oxford University Press. Wierzbicka, Anna (1992b): Talking about emotions: Semantics culture and Cognition. Cognition and Emotion 6 (3/4), 285–319. Wierzbicka, Anna (1994): Emotion, language and “cultural scripts”. In: Shinobu Kitayama, Hazel Rose Markus (eds.): Emotion and Culture: Empirical studies of mutual influence. Washington, DC: American Psychological Association, 130–198. Wierzbicka, Anna (1999a): Emotions across Languages and Cultures: Diversity and Universals. Cambridge: Cambridge University Press. Wierzbicka, Anna (1999b): Język, umysł, kultura. Warszawa: Wydawnictwo Naukowe PWN. zanettin, Federico (1998): Bilingual comparable corpora and the training of translators. Meta 43(4), 616–630. Dictionaries Skorupka, Stanisław (1974): Słownik frazeologiczny języka polskiego. Warszawa: Wiedza Powszechna. SOB Svensk Ordbok, (1990): Esselte Ordbok. SAOB Svenska Akademiens Ordbok (Internet version) (1997). Lund Göteborg http://g3.spraakdata.gu.se/saob/. Kurcz, Ida et al. (1990): Słownik frekwencyjny polszczyzny współczesnej. Kraków/Warszawa: Instytut Języka Polskiego, Polska Akademia Nauk. Szymczak, Mieczysław (ed.) (1992): Słownik języka polskiego. Warszawa: Wydawnictwo Naukowe PWN. Lexin: http://lexin.nada.kth.se/lexin/# Noty biograficzne Dr hab. Łucja Biel: pracownik naukowo-dydaktyczny, obecnie pełniąca obowiązki dyrektora Instytutu Lingwistyki Stosowanej Uniwersytetu Warszawskiego, Visiting Lecturer na City University London (2009-2014), sekretarz generalna European Society for Translation Studies, kierownik Pracowni Korpusowej Instytutu Lingwistyki, z-ca redaktor naczelnej The Journal of Specialised Translation; autorka 35 artykułów na temat tłumaczeń i badań korpusowych oraz książki o tłumaczeniu prawa unijnego Lost in the Eurofog. The Textual Fit of Translated Law (Peter Lang, 2014). adres mailowy: [email protected] Prof. UW dr hab. Silvia Bonacchi: profesor Uniwersytetu Warszawskiego oraz profesor gościnny na licznych uniwersytetach zagranicznych (m.in. na uniwersytecie w Moguncji, Niemcy). Jest autorką licznych publikacji m. in. z zakresu badań nad grzecznością i niegrzecznością językową, kierownikiem Laboratorium Komunikacji Multimodalnej na Uniwersytecie Warszawskim, kierownikiem projektu „MCCA: Multimodal Communication: Culturological Analysis” oraz współredaktorem pisma Journal of Multimodal Communication Studies. Dalsze projekty badawcze obejmują „Język pogranicza – pogranicze języka. Parajęzykowe aspekty komunikacji międzykulturowej” (we współpracy z UAM w Poznaniu) oraz „Językowy savoir-vivre polski i niemiecki. Studium konfrontatywne” (we współpracy z Uniwersytetem Warszawskim, Wydział Dziennikarstwa). adres mailowy: [email protected] Dr hab. Ewa Gruszczyńska: pracownik naukowo-dydaktyczny Instytutu Lingwistyki Stosowanej Uniwersytetu Warszawskiego, polonistka i lingwistka (stopień doktora otrzymała na Uniwersytecie w Uppsali w 2001 r.), uczestniczka międzynarodowego projektu „Translation and Interpreting – a Meeting between Languages and Cultures” (1995 – 2001) realizowanego na Uniwersytetach w Uppsali i Sztokholmie, kierownik Pracowni Badań Skandynawistycznych ILS UW, przy której powstaje Polsko-Szwedzki i Szwedzko-Polski Korpus Równoległy, członek Polskiego Towarzystwa Językoznawczego, Polskiego Towarzystwa Lingwistyki Stosowanej. Zainteresowania badawcze: współczesny język polski, współczesny język szwedzki (Szwedzko-polskie spotkania za pośrednictwem przekładu 2015), przekładoznawstwo (Linguistic Images of Emotion in Translation from Polish into Swedish 2001), korpusy równoległe. adres mailowy: [email protected] 270 Noty biograficzne Dr Milena Hebal-Jezierska: pracownik naukowo-dydaktyczny w Instytucie Slawistyki Zachodniej i Południowej Uniwersytetu Warszawskiego, były pracownik oraz stały współpracownik Czeskiej Akademii Nauk oraz Uniwersytetu Karola w Pradze; bohemistka i lingwistka korpusowa. Jej zainteresowania naukowe dotyczą przede wszystkim metod badawczych stosowanych w lingwistyce korpusowej, semantyki konfrontatywnej oraz morfologii. adres mailowy: [email protected] Dr Elżbieta Kaczmarska: bohemistka, adiunkt w Instytucie Slawistyki Zachodniej i Południowej Uniwersytetu Warszawskiego. Jej zainteresowania naukowe dotyczą gramatyki konfrontatywnej czesko-polskiej, problemów przekładu oraz możliwości wykorzystania korpusów równoległych w badaniach i pracach translatorskich. Autorka artykułów kontrastywnych z zakresu składni, leksyki i semantyki. adres mailowy: [email protected] Dr Natalia Kotsyba: pracownik naukowy Instytutu Podstaw Informatyki Polskiej Akademii Nauk. Jest językoznawcą anglistką i slawistką, zajmuje się zagadnieniami lingwistyki korpusowej, semantyki i gramatyki konfrontatywnej. Stopień doktora uzyskała w 2006 roku za pracę „Semantyczna kategoria określoności i nieokreśloności w językach angielskim i ukraińskim.” W latach 2004-2011 kierowała pracami nad polsko-ukraińskim korpusem równoległym. adres mailowy: [email protected] Dr Magdalena Kuratczyk: docent na Wydziale Lingwistyki Stosowanej UW, w Instytucie Rusycystyki. Zainteresowania naukowe: leksykografia, słownictwo i gramatyka współczesnego języka rosyjskiego, rosyjski system czasownikowy, lingwistyka korpusowa. Współtwórczyni Korpusu Polsko-Rosyjskiego UW (pol-ros.polon.uw.edu.pl). adres mailowy: [email protected] Dr Agnieszka Leńko-Szymańska: pracownik naukowo-dydaktyczny Instytutu Lingwistyki Stosowanej Uniwersytetu Warszawskiego, do 2004 członkini grupy PELCRA (Polish and Language Corpora for Resreach and Applications) w Instytucie Anglistyki Uniwersytetu Łódzkiego. Prowadzi badania z zakresu przyswajania języka drugiego w oparciu o korpusy języka uczniów. Specjalizuje się także w wykorzystaniu korpusów w nauczaniu języków obcych. Jest współredaktorem tomu Multiple Affordances of Language Corpora for Data-driven Learning (John Benjamins, 2015). Jest zaangażowana w prace nad Polsko-Szwedzkim Noty biograficzne 271 i Szwedzko-Polskim Korpusem Równoległym współczesnych tekstów literackich, który powstaje w Instytucie Lingwistyki Stosowanej. adres mailowy: [email protected] Prof. UW dr hab. Marek Łaziński: profesor w Instytucie Języka Polskiego UW. Zainteresowania naukowe: aspekt czasownika, funkcje bezokolicznika, formy adresatywne i grzeczność językowa, asymetria rodzaju gramatycznego i płci, lingwistyka korpusowa. Jeden ze współtwórców Narodowego Korpusu Języka Polskiego, kierownik Korpusu Polsko-Rosyjskiego UW (pol-ros.polon.uw.edu.pl). adres mailowy: [email protected] Prof. dr hab. Krzysztof Marasek: szef katedry Multimedia w Polsko-Japońskiej Akademii Technik Komputerowych. Jest absolwentem Informatyki na Politechnice Warszawskiej, gdzie uzyskał stopień doktora, w 1992 roku uzyskał stopień doktora habilitowanego – habilitacja na Uniwersytecie w Stuttgarcie (19982004), gdzie pracował jako starszy naukowiec w Stuttgart Sony Centrum Technologiczne. Od 2006 członek Rady Naukowej Wydziału, profesor wizytujący na Uniwersytecie Północnej Karoliny, Charlotte, USA, a także członek Rady Naukowej IPPT oraz Instytut Przetwarzania Informacji w Warszawie. Recenzent w 5. i 6. edycji EU Framework Programme. adres mailowy: [email protected] Dr Andreas Meger: pracownik naukowo-dydaktyczny Wydziału Translatologii, Lingwistyki i Kulturoznawstwa Uniwersytetu w Moguncji, gdzie powstała jego praca doktorska na temat makrostruktury słowników neologizmów języków słowiańskich i języka niemieckiego, a także tłumacz. Wraz z Eriką Worbs i Andrzejem Markowskim jest współautorem pierwszego polsko-niemieckiego słownika neologizmów. Przedmiotem jego zainteresowań naukowych jest leksykografia (w szczególności leksykografia neologizmów), leksykologia, lingwistyka korpusowa oraz translatologiczne aspekty języków specjalistycznych. Od wielu lat prowadzi zajęcia dydaktyczne m.in. z tłumaczeń specjalistycznych (prawo i ekonomia) z języka polskiego na niemiecki. adres mailowy: [email protected] Mgr Mariusz Mela: doktorant na Wydziale Lingwistyki Stosowanej Uniwersytetu Warszawskiego, gdzie przygotowuje rozprawę pt. Multimodalna analiza konfliktów twarzą-w-twarz w komunikacji prowadzonej w języku niemieckim i polskim. Jest uczestnikiem projektów „MCCA: Multimodal Communication: Culturological Analysis” i „Język pogranicza – pogranicze języka. Parajęzykowe aspekty komunikacji międzykulturowej”; jest także członkiem redakcji 272 Noty biograficzne pisma Journal of Multimodal Communication Studies. Opiekun naukowy Laboratorium Komunikacji Multimodalnej na Uniwersytecie Warszawskim, liczne publikacje w zakresie komunikacji multimodalnej i systemów anotacji. adres mailowy: [email protected] PhDr. Marianna Petrincová: doktorantka językoznawstwa ogólnego na Wydziale Filozoficznym Uniwersytetu Palackiego w Ołomuńcu (Czechy) pisząca pracę doktorską na temat słowackich ekwiwalentów polskich czasowników przedrostkowych z punktu widzenia leksykografii. Zainteresowania naukowe: językoznawstwo korpusowe, leksykografia. Tłumaczka z języków polskiego i hiszpańskiego, w przeszłości współpracowała przy tworzeniu słowników hiszpańsko-słowackich i słowacko-hiszpańskich. adres mailowy: [email protected] Dr Piotr Pęzik: adiunkt i kierownik Pracowni Językoznawstwa Korpusowego i Komputerowego w Instytucie Anglistyki Uniwersytetu Łódzkiego. Autor prac naukowych i rozwiązań informatycznych z dziedziny językoznawstwa korpusowego i komputerowego. Obszarem jego szczególnych zainteresowań językoznawczych jest frazeologia dystrybucyjna w ujęciu korpusowym. Wykonawca i kierownik krajowych i międzynarodowych projektów badawczo-rozwojowych, członek konsorcjum Narodowego Języka Polskiego, grupy badawczej PELCRA. W latach 2006-2009 członek grupy Ekstrakcji Informacji w Europejskim Instytucie Bioinformatyki w Cambridge. adres mailowy: [email protected] Mgr Emilia Rejmund: doktorantka Polsko-Japońskiej Akademii Technik Komputerowych. Jej obszarem zainteresowań jest użycie metod przetwarzania języka naturalnego w celu poszukiwania podobieństw między tekstami na podstawie ich małych fragmentów. Zajmuje się także zastosowaniem metod podobieństwa semantycznego w powiązaniu z metodami analizy i syntezy tekstu do opracowywania zagadnień dotyczących tłumaczenia maszynowego. adres mailowy: [email protected] Ing. Alexandr Rosen, Ph.D.: pracownik naukowo-dydaktyczny na Uniwersytecie Karola w Instytucie Lingwistyki Teoretycznej i Komputerowej. Jego zainteresowania naukowe koncentrują się wokół lingwistyki formalnej i korpusowej. Aktualnie kieruje pracami poświęconymi tworzeniu korpusu równoległego InterCorp wchodzącego w skład projektów Czeskiego Korpusu Narodowego oraz uczestniczy w badaniach dotyczących anotacji syntaktycznej korpusów, Noty biograficzne 273 anotacji korpusów uczniowskich, taksonomii kategorii lingwistycznych oraz lingwistyki formalnej. adres mailowy: [email protected] Dr hab. Danuta Roszko: pracownik naukowy Instytutu Slawistyki PAN. Specjalności: językoznawstwo synchroniczne, konfrontatywne, dialektologia, lingwistyka korpusowa, semantyka, lituanistyka, rusycystyka, białorutenistyka, kulturoznawstwo. Tłumacz przysięgły języka litewskiego. adres mailowy: [email protected] Prof. nzw. dr hab. Roman Roszko: pracownik naukowy Instytutu Slawistyki PAN. Specjalności: językoznawstwo synchroniczne, konfrontatywne, leksykologia, lingwistyka komputerowa, korpusowa, semantyka, bułgarystyka, rusycystyka, slawistyka, lituanistyka, indoeuropeistyka; tłumacz, redaktor naczelny Cognitive Studies | Études cognitives. adres mailowy [email protected] Mgr Monika Szela: absolwentka filologii rosyjskiej oraz filologii angielskiej o specjalności językoznawczej. Studiowała na Uniwersytecie Wrocławskim oraz w Wyższej Szkole Filologicznej we Wrocławiu. Jej zainteresowania naukowe obejmują zagadnienie transferu międzyjęzykowego w tłumaczeniach, uniwersalia przekładowe, hybrydowy język tłumaczeń. Praca doktorska poświęcona jest badaniu cech tekstów tłumaczonych z wykorzystaniem metodologii językoznawstwa korpusowego. adres mailowy: [email protected] Dr Ruprecht von Waldenfels: doktor językoznawstwa slawistycznego na Uniwersytecie w Ratyzbonie (Niemcy); przez kilka lat pracownik naukowy Instytutu Języków Słowiańskich na Uniwersytecie w Bernie (Szwajcaria). W latach 2014/2015 gościł jako stażysta w IPI PAN w Warszawie i w IJP PAN w Krakowie; obecnie pracuje jako stypendysta Szwajcarskiego Funduszu Naukowego w Department of Slavic Languages and Literatures, UC Berkeley. Razem z Rolandem Meyerem jest twórcą równoległego korpusu języków słowiańskich ParaSol, nad którym pracuje od 2006 roku; wspólnie z Michałem Danielem i Niną Dobrusziną rozwija korpus gwarowy Ustya River Basin (www.parasolcorpus.org/Pushkino) oraz uczestniczy w tworzeniu korpusu gwary spiszowej w ramach projektu IJP PAN (razem z Heleną Grocholą, Rafałem Górskim i Michałem Woźniakiem). Jego zainteresowania naukowe dotyczą głównie językoznawstwa porównawczego języków słowiańskich oraz lingwistyki komputerowej i korpusowej. adres mailowy: [email protected] 274 Noty biograficzne Mgr inż. Krzysztof Wołk: specjalista w dziedzinie tłumaczenia statystycznego mowy (praca doktorska na ten temat na ukończeniu). Posiada doświadczenie w kwestiach związanych z NLP i korpusów porównywalnych. Brał udział w projektach badawczych EU BRIDGE i CLARIN. Posiada profesjonalne certyfikaty Microsoft, Adobe, Apple i w3schools. Jest autorem dwóch monografii na temat radia internetowego oraz użyteczności w projektowaniu gier edukacyjnych dla dzieci. Ponadto jest autorem trzech książek na temat rozwiązań serwerowych Microsoft i Apple. Jest również ćwiczeniowcą i promotorem technicznym w PJATK. Posiada doświadczenie w prowadzeniu specjalistycznych szkoleń w dziedzinie informatyki i jest redaktorem portalu o nazwie IN4.pl. adres mailowy: [email protected] Dr Michał Woźniak: pracownik naukowy w Instytucie Języka Polskiego PAN w Krakowie, uczestniczył w pracach nad budową Narodowego Korpusu Języka Polskiego, obecnie bierze udział w tworzeniu korpusu gwary spiskiej. Zajmuje się lingwistyką korpusową i przetwarzaniem języka naturalnego. adres mailowy: [email protected] Notes on contributors Dr hab. Łucja Biel: associate professor and Deputy Director at the Institute of Applied Linguistics, University of Warsaw, Visiting Lecturer at City University London (2009-2014), Secretary General of the European Society for Translation Studies and Deputy Editor of The Journal of Specialised Translation. She is the author of 35 papers on legal translation and corpus-based translation studies and a book on EU translation Lost in the Eurofog. The Textual Fit of Translated Law (Peter Lang, 2014). e-mail address: [email protected] Prof. UW dr hab. Silvia Bonacchi: professor at the University of Warsaw and a visiting professor at various universities abroad (among others at the University of Mainz, Germany). She is the author of numerous publications, including papers on linguistic politeness and impoliteness, the manager of the Laboratory for Multimodal Communication (University of Warsaw), the manager of the “MCCA: Multimodal Communication: Culturological Analysis” project, and a co-editor of Journal of Multimodal Communication Studies. Other projects include “Languages of Boundaries – Boundaries of language. Paralinguistic aspects of intercultural communication” (in collaboration with Adam Mickiewicz University in Poznań) and “Linguistic savoir-vivre in Polish and German. A confrontative study” (together with the Faculty of Journalism, University of Warsaw). e-mail address: [email protected] Dr hab. Ewa Gruszczyńska: associate professor at the Institute of Applied Linguistics, University of Warsaw. She graduated from the Department of the Polish Language, University of Warsaw and earned her Ph.D. at the University of Uppsala (2001). She participated in the international project “Translation and Interpreting – a Meeting between Languages and Cultures” (1995 – 2001) at the University of Uppsala and University of Stockholm. In the years 2002-2012 she was an assistant professor at the Institute of Applied Linguistics, University of Warsaw. Currently she serves as Head of the Scandinavian Research Centre at the Institute for Applied Linguistics, University of Warsaw. She is a member of the Polish Linguistic Association and Polish Applied Linguistics Association. Her research interests include: contemporary Polish, contemporary Swedish (Szwedzko-polskie spotkania za pośrednictwem przekładu 2015), translation studies (Linguistic Images of Emotion in Translation from Polish into Swedish 2001), parallel corpora. e-mail address: [email protected] 276 Notes on contributors Dr Milena Hebal-Jezierska: assistant professor at the Institute of Western and Southern Slavic Studies, University of Warsaw, and a former staff member and permanent associate of the Institute of Czech Language, the Czech Academy of Sciences and Charles University in Prague. She is an expert in Czech studies and corpus linguistics. Her research interests focus mainly on corpus-based research methods, contrastive semantics and morphology. e-mail address: [email protected] Dr Elżbieta Kaczmarska: an expert in Czech Studies, assistant professor at the Institute of Western and Southern Slavic Studies, University of Warsaw. Her fields of interest include comparative studies of Czech and Polish grammar, issues in translation, and the application of parallel corpora in the development of the theory and the art of translation. She has authored a number of papers exploring contrastive aspects of syntax, lexicon and semantics. e-mail address: [email protected] Dr Natalia Kotsyba: researcher at the Institute of Computer Science, Polish Academy of Sciences. She is an English and Slavic philologist, involved in research in corpus linguistics, contrastive semantics and grammar. She received her Ph.D. degree in 2006 for the thesis The Semantic Category of Definiteness and Indefiniteness in English and Ukrainian. In the years 2004-2011 she coordinated the work on the Polish-Ukrainian Parallel Corpus. e-mail address: [email protected] Dr Magdalena Kuratczyk: assistant professor (docent) at the Institute of Russian Studies, University of Warsaw. Her research interests include: lexicography, lexicology and grammar of contemporary Russian, the Russian verbal system and corpus linguistics. She was a co-founder of the Polish-Russian Parallel Corpus. e-mail: [email protected] Dr Agnieszka Leńko-Szymańska: an assistant professor at the Institute of Applied Linguistics, University of Warsaw. Until 2004, she was a member of the PELCRA (Polish and Language Corpora for Research and Applications) group at the w Institute of English Studies, University of Łódź. Her research interests evolve around exploring the process of second language acquisition with learner corpus data. She also specializes in various uses of corpora for teaching foreign languages. She co-edited the volume Multiple Affordances of Language Corpora for Data-driven Learning (John Benjamins, 2015. She is involved in the compilation of the Swedish-Polish and Polish-Swedish Parallel Corpus of Literary Notes on contributors 277 Texts, which is being created at the Institute of Applied Linguistics, University of Warsaw. e-mail: [email protected] Prof. UW dr hab. Marek Łaziński: professor at the Institute of Polish Language, University of Warsaw. His research interests include: verbal aspect, functions of the infinitive in Polish, forms of address and language politeness, asymmetry for sex and gender and corpus linguistics. He was a co-founder of the National Corpus of Polish, and led the Polish-Russian Parallel Corpus project. e-mail address: [email protected] Prof. dr hab. Krzysztof Marasek: Head of the Multimedia Department, Polish-Japanese Academy of Information Technology in Warsaw and professor at Collegium Mazovia. He is a graduate of Information Science at Warsaw University of Technology, where he obtained his Ph.D. degree in 1992. He received his post-doctoral degree at the University of Stuttgart (1998-2004), where he worked as a senior scientist at Stuttgart Sony Technology Centre. Since 2006 he has been a member of the Faculty Scientific Board, a visiting professor at the University of North Carolina, Charlotte, US, and a member of the Scientific Board of the Institute of Fundamental Technological Research, Polish Academy of Sciences and the National Information Processing Institute in Warsaw. He acts as a reviewer in the 5th and 6th EU Framework Programme. e-mail address: [email protected] Dr. Andreas Meger: lecturer at the Faculty of Translation Studies, Linguistics and Cultural Studies, University of Mainz (Germany), and a translator. For many years, he has been teaching courses related to Polish-German translation (law and economy) at the University of Mainz. His doctoral thesis deals with macrostructure and mediostructure of dictionaries of neologisms in Slavic languages and German. He published (together with Erika Worbs and Andrzej Markowski) the first Polish-German dictionary of neologisms. His main research interests are related to lexicography (lexicography of neologisms), lexicology, corpus linguistics, translation and languages for special purposes. e-mail address: [email protected] Mgr Mariusz Mela: Ph.D. student at the Faculty of Applied Linguistics, University of Warsaw, where he is currently working on his doctoral dissertation on the multimodal analysis of face-to-face conflicts in German and Polish. He is a participant in the “MCCA: Multimodal Communication: Culturological Analysis” and “Languages of Boundaries – Boundaries of language. Paralinguistic aspects 278 Notes on contributors of intercultural communication” projects, a member of the editorial board of the Journal of Multimodal Communication Studies. She is a tutor in the Laboratory for Multimodal Communication, University of Warsaw, and the author of several publications on multimodal communication. e-mail address: [email protected] PhDr. Marianna Petrincová: Ph.D. student in General Linguistics at the Faculty of Arts, Palacky University in Olomouc (Czech Republic). The topic of her doctoral dissertation is an analysis of Slovak equivalents of Polish prefixed verbs from the lexicographic perspective. Her research interests include corpus linguistics and lexicography. She translates from Polish and Spanish to Slovak. In the past she worked on Spanish-Slovak dictionaries. e-mail address: [email protected] Dr Piotr Pęzik: assistant professor and Head of the Corpus and Computational Linguistics Units at the Institute of English Studies, University of Łódź. His main research interests include corpus and computational linguistics with a special focus on corpus-based approaches to phraseology. He has developed many corpus search, information extraction and natural language processing solutions. He is a member of the National Corpus of Polish Consortium and the PELCRA (Polish and Language Corpora for Research and Applications) group at the Institute of English Studies, Univeristy of Łódź. In the years 2006-2009 he was a member of the Text-mining Group at the European Bioinformatics Institute in Cambridge, UK. e-mail address: [email protected] Mgr Emilia Rejmund: Ph.D. student at the Polish-Japanese Academy of Information Technology in Warsaw. Her research interest concerns the application of NLP methods based on small parts of text, in particular semantic similarity in conjunction with the semantic method of analysis and synthesis of natural language texts as applied to statistical machine translation frameworks. adres mailowy: [email protected] Ing. Alexandr Rosen, Ph.D.: senior researcher/lecturer in theoretical and corpus linguistics at Charles University in Prague and Deputy Head of the Faculty of Art’s Institute of Theoretical and Computational Linguistics. His interests include syntax, constraint-based linguistic theories and corpora, especially parallel corpora, learner corpora and treebanks. He is currently in charge of the parallel section of the Czech National Corpus (the InterCorp project) and has Notes on contributors 279 participated in research focused on syntactic annotation of corpora, annotation of learner corpora, and taxonomy of linguistic categories. e-mail address: [email protected] Dr hab. Danuta Roszko: associate professor the Institute of Slavic Studies, Polish Academy of Sciences. Her interests and areas of expertise include: synchronic and contrastive linguistics, dialectology, corpus linguistics (NLP), semantics, Belorussian, Polish, Russian, and Lithuanian languages studies. A sworn translator and interpreter. e-mail address: [email protected] Prof. nzw. dr hab. Roman Roszko: professor at the Institute of Slavic Studies, Polish Academy of Sciences. His interests and areas of expertise include: theoretical, synchronic, and contrastive linguistics, lexicology, corpus linguistics (NLP) and translation memory (TM), semantics, Bulgarian, Polish, Russian, Lithuanian (Baltic and Slavic) language studies. A translator and interpreter. Editor-in-chief of the Cognitive Studies | Études cognitives. e-mail address: [email protected] Mgr Monika Szela: a graduate of Russian and English Philology. She studied at the University of Wrocław and in the Philological School of Higher Education. Her research interests include complex issues concerning the translation process: inter-lingual transfer in translations, translation universals, hybrid language, etc. Her doctoral dissertation is devoted to a corpus-based analysis of translated texts. e-mail address: [email protected] Dr. Ruprecht von Waldenfels: He earned a doctorate in Slavic linguistics from the University of Regensburg, Germany, in 2009, after which he worked as a post-doctoral researcher at Bern, Switzerland until 2014. In 2014-15 he was a visiting scholar at IPI PAN in Warsaw and IJP PAN in Cracow. Currently he is a visiting scholar at the University of California, Berkeley funded by the Swiss National Science Foundation. Together with Roland Meyer he started the Slavic parallel corpus ParaSol, which he has been constructing since 2006. Together with Michael Daniel and Nina Dobrushina he is the developer of the Ustya River Basin Corpus, an audio-aligned corpus of Russian dialect data (www.parasolcorpus.org/Pushkino). He is also part of a team developing a corpus of the Spisz dialect of Polish at the Institute of Computer Science, Polish Academy of Sciences (with Helena Grochola, Rafał Górski and Michał Woźniak). His main 280 Notes on contributors research interests lie in comparative Slavic linguistics, including diachronic and variationist studies, corpus and computational linguistics. e-mail address: [email protected] Mgr inż. Krzysztof Wołk: specialist in the field of statistical machine translation of speech, currently completing his doctoral dissertation on this topic. He has experience in issues related to Natural Language Processing and comparable corpora. He participated in the EU-BRIDGE and CLARIN research projects. He has professional certifications from Microsoft, Adobe, Apple and w3scools. He is an author of two monographs on Internet radio, and usability in the design of educational games for children. He has also authored of three books on Microsoft and Apple server solutions. He is a teacher and a technical supervisor in Polish-Japanese Academy of Information Technology in Warsaw with considerable experience in conducting specialized trainings in the field of computer science. He is an editor of the IN4.pl portal. e-mail address: [email protected] Dr Michał Woźniak: researcher at the Institute of Polish Language, Polish Academy of Sciences. He participated in the construction of the National Corpus of Polish. Currently he is involved in the development of a corpus of the Spisz dialect. His research interests include corpus linguistics and natural language processing. e-mail address: [email protected]