Polsko-niemiecki / niemiecko-polski korpus równoległy PolGerCorp
W ramach projektu Rozwój polskiego systemu aspektowego w ostatnich 250 latach na tle sąsiednich języków słowiańskich zbudowaliśmy polsko-niemiecki / niemiecko-polski korpus równoległy PolGerCorp zawierający oryginalne teksty polskie i niemieckie oraz ich przekłady (odpowiednio na język niemiecki lub polski). Korpus równoległy umożliwi w trakcie projektu zbadanie kategorii gramatycznych/językowych, którymi posługuje się język niemiecki, który wprawdzie nie ma kategorii gramatycznej aspektu, ale musi odpowiednio dostosować się do tych samych opozycji funkcjonalnych na poziomie struktury gramatycznej i dyskursu.
Poza celami projektu korpus równoległy jest narzędziem badawczym dla naukowców, tłumaczy, studentów oraz innych osób pracujących z tekstem. Stworzyliśmy dla nich prosty w użyciu interfejs z okienkami do wpisywania form wyrazowych lub leksemów.
Prace nad korpusem koordynował po stronie polskiej Marek Łaziński, po stronie niemieckiej – Andreas Meger.
Struktura Polsko-niemieckiego / niemiecko-polskiego korpusu równoległego PolGerCorp
Korpus składa się z polskich i niemieckich tekstów oraz ich przekładów z lat od 1750 roku do dzisiaj. Zawiera ok. 10 mln słów z tekstów pochodzących z literatury pięknej (46 proc.) oraz z literatury faktu, z prasy i prawa (54 proc.). Szczególną częścią korpusu jest podkorpus tekstów prawniczych (ok. 2 mln słów). Cały korpus jest anotowany morfosyntaktycznie oraz wyrównany na poziomie zdań.
Teksty
Podziękowania