Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)

Elektroniczny Korpus Tekstów Polskich XVII i XVIII w. (do 1772 r.), w skrócie nazywany KorBą (akronim wyrażenia korpus barokowy), jest najważniejszym rezultatem projektu realizowanego w latach 2013-2018 przez Pracownię Historii Języka Polskiego XVII i XVIII w. Instytutu Języka Polskiego PAN we współpracy z Zespołem Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN. Zgromadzone w nim teksty prezentowane są w formie transkrypcji i transliteracji. Bogate metadane, znakowanie strukturalne i językowe oraz anotacja morfosyntaktyczna i lematyzacja dają możliwość zadawania różnorakich zapytań, filtrowania wyników oraz ich lokalizacji w źródle z dokładnością do numeru strony.

Od 2019 r. prace nad korpusem są kontynuowane. Rozbudowa korpusu będzie polegała zarówno na powiększeniu jego objętości w granicach chronologicznych zakreślonych dotychczas (1601–1772), jak i na poszerzeniu jego zakresu chronologicznego o lata 1773–1800. Łącznie wielkość korpusu planowana jest na 25 milionów segmentów. Przewidziane jest także zintegrowanie różnych zasobów językowych polszczyzny obejmujących okres XVII-XVIII w., a więc Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w., Elektronicznego słownika języka polskiego XVII i XVIII, zdigitalizowanej kartoteki tego słownika oraz Cyfrowej Biblioteki Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku (CBDU).

Strona: korba.edu.pl

Wyszukiwarka i znakowanie:

MTAS — znakowanie: transkrypcja, lematyzacja, znaczniki morfosyntaktyczne.

Jednostki odpowiedzialne za korpus:

Wielkość korpusu: 13,5 mln segmentów

Czas powstania: 2013-2018

Publikacja: Włodzimierz Gruszczyński, Dorota Adamiec, Renata Bronikowska, Witold Kieraś, Emanuel Modrzejewski, Aleksandra Wieczorek, Marcin Woliński. The Electronic Corpus of 17th- and 18th-century Polish Texts. Language Resources and Evaluation, 56(1):309–332, 2022.

@article{
    gru:etal:2022,
    author = "Gruszczyński, Włodzimierz and Adamiec, Dorota and Bronikowska, Renata and Kieraś, Witold and Modrzejewski, Emanuel and Wieczorek, Aleksandra and Woliński, Marcin",
    doi = "https://doi.org/10.1007/s10579-021-09549-1",
    title = "The Electronic Corpus of 17th- and 18th-century {P}olish Texts",
    journal = "Language Resources and Evaluation",
    number = "1",
    volume = "56",
    year = "2022",
    pdf = "https://link.springer.com/content/pdf/10.1007/s10579-021-09549-1.pdf",
    pages = "309--332"
}