Udostępniliśmy niedawno pierwszą publiczną wersję korpusu PAWUK, czyli aktualizowanego codziennie korpusu internetowego języka ukraińskiego. Dane gromadzone są w korpusie od kwietnia 2022 r. i pochodzą zarówno z ukraińskich serwisów internetowych, jak i z wybranych sieci społecznościowych. Więcej szczegółów na temat znakowania korpusu i możliwości jego przeszukiwania można znaleźć na jego stronie w zakładce About.
PAWUK zawiera obecnie ponad 800 milionów segmentów i powiększa się o 1-1,5 mln segmentów na dobę. Korpus jest cały czas we wstępnej fazie rozwoju i nie wszystkie funkcje jeszcze działają. Zachęcamy do testowania!