Przejdź do głównej zawartości

Jeden post z tagiem "tworzenie korpusów"

Wyświetl wszystkie tagi

· 1 min aby przeczytać
Witold Kieraś

Serwis Korpusomat.pl istnieje już od kilku lat, ale jednym z najczęściej zadawanych przez jego użytkowników pytań dotyczyło możliwości przetwarzania tekstów napisanych w innych językach niż polski. W związku z tym udostępniliśmy niedawno wstępną wersję zupełnie nowego serwisu Korpusomat.eu, których obsługuje aktualnie 30 języków (w tym również polski). Sam proces przetwarzania i anotowania tekstów różni się dość istotnie od tego, który został zaimplementowany na stronie Korpusomat.pl, interfejs obu serwisów jest jednak bardzo podobny. Korpusomat.eu wykorzystuje do przetwarzania dwie znane biblioteki programistyczne spaCy oraz Stanza, oferujące modele do znakowania tekstów w różnych językach. Serwis jest we wczesnym stadium rozwoju, stopniowo będziemy zatem dodawać obługę kolejnych języków, jak również nowe funkcje, których obecnie brakuje.

Korpusomat.eu postaje w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN w ramach projektu CLARIN.