Przejdź do głównej zawartości

Korpus tekstów polskich z lat 1830-1918

Korpus prezentowany na niniejszej stronie jest ręcznie znakowanym fleksyjnie podzbiorem korpusu zgromadzonego w ramach projektu Automatyczna analiza fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni. Oryginalny korpus ma wielkość ponad 1 miliona słów i został podzielny w równych proporcjach na pięć podkorpusów reprezentujących style funkcjonalne: popularnonaukowy, drobne wiadomości prasowe, publicystykę, prozę i dramat. Do ręcznej anotacji wybrano z niego 2944 próbki długości około 160 słów przy jednoczesnym zachowaniu proporcji stylów funkcjonalnych. W efekcie powstał ręcznie znakowany korpus obejmujący mniej więcej połowę oryginalnego zbioru (około 500 tys. słów, 625 tys. segmentów).

Anotacja korpusu odbyła się w ramach prac projektu Model formalny diachronicznego opisu fleksji polskiej i jego komputerowa implementacja finansowanego przez Narodowe Centrum Nauki (2014/15/B/HS2/03119) i prowadzonego w Instytucie Podstaw Informatyki PAN pod kierownictwem Marcina Wolińskiego.

Strona: korpus19.nlp.ipipan.waw.pl/

Wyszukiwarka i znakowanie:

  • MTAS — znakowanie: lematyzacja, znaczniki morfosyntaktyczne.

Jednostka odpowiedzialna za korpus:

Wielkość korpusu: 1,2 milionów segmentów (625 tys. segmentów w korpusie ręcznie znakowanym)

Czas powstania: 2017-2018

Publikacje:

  • Witold Kieraś, Marcin Woliński. Manually annotated corpus of Polish texts published between 1830 and 1918. In Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis, Takenobu Tokunaga (red.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), pages 3854–3859, Paris, France, 2018. European Language Resources Association (ELRA).

Oryginalna wersja korpusu została opisana w artykule:

  • Joanna Bilińska, Magdalena Derwojedowa, Witold Kieraś, Monika Kwiecień. Mikrokorpus polszczyzny 1830-1918. Komunikacja specjalistyczna, 11:149–161, 2016.
@inproceedings{
kie:wol:lrec18,
author = "Kieraś, Witold and Woliński, Marcin",
pdf = "http://www.lrec-conf.org/proceedings/lrec2018/pdf/675.pdf",
title = "Manually Annotated Corpus of {P}olish Texts Published between 1830 and 1918",
pages = "3854--3859",
crossref = "lrec:18"
}
@proceedings{
lrec:18,
editor = "Calzolari, Nicoletta and Choukri, Khalid and Cieri, Christopher and Declerck, Thierry and Goggi, Sara and Hasida, Koiti and Isahara, Hitoshi and Maegaard, Bente and Mariani, Joseph and Mazo, Hélène and Moreno, Asuncion and Odijk, Jan and Piperidis, Stelios and Tokunaga, Takenobu",
publisher = "European Language Resources Association (ELRA)",
isbn = "979-10-95546-00-9",
title = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)",
url = "http://www.lrec-conf.org/proceedings/lrec2018/index.html",
booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)",
year = "2018",
location = "Miyazaki, Japan",
address = "Paris, France"
}
@article{
bil:etal:16,
author = "Bilińska, Joanna and Derwojedowa, Magdalena and Kieraś, Witold and Kwiecień, Monika",
volume = "11",
journal = "Komunikacja specjalistyczna",
title = "Mikrokorpus polszczyzny 1830-1918",
pages = "149--161",
year = "2016"
}