Narodowy Korpus Języka Polskiego: NKJP1M
Strona: nkjp1m.nlp.ipipan.waw.pl
Opis
Warstwy ręcznego znakowania:
- segmentacja
- lematyzacja
- znaczniki morfosyntaktyczne
- słowa składniowe
- grupy składniowe
- ujednoznacznie znaczeń słów (ograniczone do wybranego podzbioru słownictwa)
Szczegółowy opis wszystkich warstw znakowania można znaleźć w książce Narodowy Korpus Języka Polskiego.
Wyszukiwarki:
- Poliqarp — pozwala na przeszukiwanie tylko warstwy lematyzacji i znakowania morfosyntaktycznego
- MTAS — pozwala na przeszukiwanie wszystkich wartw poza słowami składniowymi
Wyszukiwarka Poliqarp indeksuje korpus NKJP1M z oryginalnym tagsetem NKJP, wyszukiwarka MTAS zaś — wersję uspójnioną z tagsetem analizatora Morfeusz.
Wielkość korpusu: 1,2 mln segmentów
Czas powstania: 2007-2012
Publikacja
Adam Przepiórkowski, Mirosław Bańko, Rafał L. Górski, Barbara Lewandowska-Tomaszczyk (red.). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN, Warszawa, 2012. [PDF]
@book{
prz:etal:11:ed,
editor = "Przepiórkowski, Adam and Bańko, Mirosław and Górski, Rafał L. and Lewandowska-Tomaszczyk, Barbara",
publisher = "Wydawnictwo Naukowe PWN",
title = "{N}arodowy {K}orpus {J}ęzyka {P}olskiego",
booktitle = "{N}arodowy {K}orpus {J}ęzyka {P}olskiego",
year = "2012",
address = "Warsaw",
pdf = "http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf"
}