Przejdź do głównej zawartości

Narodowy Korpus Języka Polskiego: NKJP1M

Strona: nkjp1m.nlp.ipipan.waw.pl

Opis

Warstwy ręcznego znakowania:

  • segmentacja
  • lematyzacja
  • znaczniki morfosyntaktyczne
  • słowa składniowe
  • grupy składniowe
  • ujednoznacznie znaczeń słów (ograniczone do wybranego podzbioru słownictwa)

Szczegółowy opis wszystkich warstw znakowania można znaleźć w książce Narodowy Korpus Języka Polskiego.

Wyszukiwarki:

  • Poliqarp — pozwala na przeszukiwanie tylko warstwy lematyzacji i znakowania morfosyntaktycznego
  • MTAS — pozwala na przeszukiwanie wszystkich wartw poza słowami składniowymi

Wyszukiwarka Poliqarp indeksuje korpus NKJP1M z oryginalnym tagsetem NKJP, wyszukiwarka MTAS zaś — wersję uspójnioną z tagsetem analizatora Morfeusz.

Wielkość korpusu: 1,2 mln segmentów

Czas powstania: 2007-2012

Publikacja

Adam Przepiórkowski, Mirosław Bańko, Rafał L. Górski, Barbara Lewandowska-Tomaszczyk (red.). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN, Warszawa, 2012. [PDF]

@book{
prz:etal:11:ed,
editor = "Przepiórkowski, Adam and Bańko, Mirosław and Górski, Rafał L. and Lewandowska-Tomaszczyk, Barbara",
publisher = "Wydawnictwo Naukowe PWN",
title = "{N}arodowy {K}orpus {J}ęzyka {P}olskiego",
booktitle = "{N}arodowy {K}orpus {J}ęzyka {P}olskiego",
year = "2012",
address = "Warsaw",
pdf = "http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf"
}