ParCoTrain – morfosintaksička analiza i lematizacija srpskog jezika

Opis

ParCoTrain je korpus za učenje i evaluaciju alata za automatsku identifikaciju vrsta reči i lematizaciju srpskog. Lematizovani deo korpusa sadrži 95 585 ručno anotiranih tokena, dok deo obogaćen anotacijom vrsta reči sadrži ukupno 153 625 tokena, od kojih je 95 585 anotirano ručno, a 57 977 anotirano automatski, a anotacija je potom ručno proverena i ispravljena. Korpus je zasnovan na tekstu 3 savremena srpska romana iz druge polovine XX veka.

Anotacija vrsta reči sadrži glavnu kategoriju i pod-kategoriju, a za prideve i priloge navodi se i stepen poređenja. Detaljan pregled etiketa korišćenih pri anotaciji dat je u dokumentaciji u PDF formatu koju možete skinuti preko linka u dnu strane.

Ovaj resurs razvili su Aleksandra Miletić (istraživačka ekipa CLLE-ERSS, Univerzitet Tuluz – Žan Žores), Antonio Balvet (istraživačka ekipa STL, Univerzitet Lil 3) i Dejan Stošić (istraživačka ekipa CLLE-ERSS, Univerzitet Tuluz – Žan Žores) u okviru projekta ParCoLab.

Kontakt: Aleksandra Miletić (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr

Prava: Neka prava su zadržana. ParCoTrain se distribuira pod licencom a href=“http://creativecommons.org/licenses/by-nc-sa/3.0/deed.fr“>Creative Commons BY-NC-SA 3.0. Molimo vas da je pažljivo pročitate.

Fajlovi koje možete skinuti:
Korpus za učenje i evaluaciju
Dokumentacija na engleskom
Dokumentacija na francuskom

Reference:

Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. In SHS Web of Conferences (Vol. 8, pp. 2551-2563). EDP Sciences. [PDF] [BibTex]

Balvet, A., Stosic, D., & Miletic, A. (2014, May). TALC-Sef a Manually-revised POS-Tagged Literary Corpus in Serbian, English and French. In LREC 2014. [PDF] [BibTex]

Miletic, A. (2013). Annotation semi-automatique en parties du discours d’un corpus littéraire serbe. Mémoire de Master. Université Charles de Gaulle Lille 3, France.

 

 

 

 

 

 

 

[O nama]    [Ekipa]   [Dokumentacija]   [Sadržaj]    [Objavljeni radovi]   [Zahvaljujemo]