Narodowy Korpus Języka Polskiego: NKJP300
Zrównoważony i reprezentatywny korpus obejmujący teksty polskie od początku XX wieku do roku 2011.
Opis
Strona: www.nkjp.pl
Wyszukiwarki i znakowanie: Korpus dostępny jest w trzech różnych wyszukiwarkach oferujących różne funkcje jego przeszukiwania.
- Poliqarp — znakowanie: lematyzacja, znaczniki morfosyntaktyczne.
- Pelcra — znakowanie: lematyzacja, znaczniki morfosyntaktyczne.
- MTAS — znakowanie: lematyzacja, znaczniki morfosyntaktyczne, rozbiory składniowe (zależnościowe), jednostki nazewnicze.
Jednostka odpowiedzialna za korpus: konsorcjum Narodowego Korpusu Języka Polskiego składające się z czterech jednostek:
- Instytutu Podstaw Informatyki PAN (koordynator),
- Instytutu Języka Polskiego PAN,
- Wydawnictwa Naukowego PWN
- oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego.
Wielkość korpusu: 300 milionów segmentów
Czas powstania: 2007-2012
Publikacja
Adam Przepiórkowski, Mirosław Bańko, Rafał L. Górski, and Barbara Lewandowska-Tomaszczyk, editors. Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN, Warszawa, 2012. [PDF]
@book{
prz:etal:11:ed,
editor = "Przepiórkowski, Adam and Bańko, Mirosław and Górski, Rafał L. and Lewandowska-Tomaszczyk, Barbara",
publisher = "Wydawnictwo Naukowe PWN",
title = "{N}arodowy {K}orpus {J}ęzyka {P}olskiego",
booktitle = "{N}arodowy {K}orpus {J}ęzyka {P}olskiego",
year = "2012",
address = "Warsaw",
pdf = "http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf"
}