ParCoLab – fichiers téléchargeables

Description

Une partie du contenu de ParCoLab est libre de droit et disponible pour le téléchargement. La portion du corpus actuellement à votre disposition contient 588 000 tokens au total (63 000 en serbe, 260 000 en français et 265 000 en anglais). Un bref descriptif des textes compris dans ce sous-corpus, ainsi que leur taille, sont donnés dans la suite.

 

Source Type Tokens par langue Total
Serbe Français Anglais
Ambassade de France au Canada Contenu web
(textes courts)
28 297 28 288 56 585
Série TV Bref Sous-titres
(oral)
13 305 15 168 28 473
Magazine web Pescanik Contenu web
(articles socio-politiques)
31 151 34 275 65 426
JRC-Acquis Législation
(textes legislatifs de l’EU)
195 095 181 290 376 385
Conférences TED Sous-titres
(conférences courtes sur des sujets variés)
18 933 21 105 21 410 61 448
Total 63 389 259 665 265 263 588 317

 

Personne à contacter : Aleksandra Miletic (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr

Licence : Certains droits sont retenus. ParCoLab est distribué sous la licence Creative Commons BY-NC-SA 3.0.

ParCoTrain – étiquetage et lemmatisation du serbe

Description

ParCoTrain est un corpus d’entraînement et d’évaluation pour l’étiquetage en parties du discours et la lemmatisation du serbe. La partie du corpus lemmatisée contient 95 585 tokens annotés manuellement, alors que l’échantillon annoté en parties du discours compte au total 153 625 tokens (dont 95 585 ont été annotés manuellement, et 57 977 ont été annotés automatiquement et validés manuellement). Les textes source du corpus sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle.

L’annotation en parties du discours indique la catégorie principale aussi bien que la sous-catégorie. Pour les adjectifs et les adverbes, on indique également le degré de comparaison. Une présentation détaillée du jeu d’étiquettes utilisé peut être trouvée dans la documentation PDF téléchargeable ci-dessous.

Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse – Jean Jaurès), Antonio Balvet (STL, Université Lille 3) et Dejan Stosic (CLLE-ERSS, Université Toulouse – Jean Jaurès).

Responsable ressource : Aleksandra Miletic (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr

Droits : Certains droits sont réservés. ParCoTrain est diffusé sous la licence Creative Commons BY-NC-SA 3.0.

Références :

Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. In SHS Web of Conferences (Vol. 8, pp. 2551-2563). EDP Sciences. [PDF] [BibTex]

Miletic, A. (2013). Annotation semi-automatique en parties du discours d’un corpus littéraire serbe. Mémoire de Master. Université Charles de Gaulle Lille 3, France.

 

Wikimorph-sr – lexique pour le POS-tagging et le parsing du serbe

Description

Wikimorph-sr est un est un lexique morphosyntaxique pour le serbe destiné à l’étiquetage morphosyntaxique, à la lemmatisation et au parsing. Le lexique a été développé dans le cadre du projet ParCoLab. Il a été principalement extrait de l’édition serbo-croate du Wiktionary et compte 1 226 638 formes fléchies provenant de 117 445 lemmes différents, qui donnent lieu à 3 066 214 combinaisons uniques <forme fléchie, lemme, description morphosyntaxique>.

Le corpus est distribué dans un format texte tabulé en trois colonnes : la première colonne contient la forme fléchie, la deuxième le lemme, et la troisième une étiquette complexe encodant plusieurs traits morphosyntaxiques. Un descriptif détaillé de la structure des étiquettes et des traits morphosyntaxiques représentés dans le lexique est donné dans la documentation PDF de la ressource.

Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse – Jean Jaurès).

Responsable ressource
Aleksandra Miletic
Contact : aleksandra.miletic@univ-tlse2.fr

Droits
Certains droits sont réservés. wikimorph-sr est diffusé sous la licence Creative Commons BY-SA 3.0.

Téléchargements
Lexique
Documentation en français

Références

Miletic, Aleksandra. (2017). Building a morphosyntactic lexicon for Serbian from Wiktionary. Actes de la 6e édition des Journées d’étude toulousaines (JéTou2017). Toulouse, France.

Remerciements

L’auteure remercie chaleureusement Franck Sajous (UMR 5263 CLLE, CNRS & Université Toulouse – Jean Jaurès) d’avoir partagé avec elle ses expériences dans le travail sur le Wiktionary.

 

 

 

 

 

 

 

 

[A propos]    [Equipe]  [Technologies]   [Contenu]   [Publications]  [Remerciements]