Cette page regroupe des ressources produites dans le cadre du projet ParCoLab. Vous y trouverez les ressources suivantes:
ParCoJour – treebank journalistique de la langue serbe
Description
ParCoJour est un corpus journalistique contenant 34 000 tokens. Il est composé de 37 articles journalistiques tirés de deux journaux nationaux, Danas (quotidien) et NIN (hebdomadaire). Les articles couvrent la période de 2003 à 2017. Le corpus indique le lemme, l’étiquette à gros grain, l’étiquette détaillée, le gouverneur syntaxique et la fonction syntaxique de chaque token. L’annotation linguistique suit les lignes directrices de l’annotation du corpus ParCoTrain-Synt.
Téléchargement :
ParCoJour_v0.1
Droits :
Ce corpus est diffusé sous la licence Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.
Personne à contacter :
Dusica Terzic, dusica.terzic@fil.bg.ac.rs
Référence :
Terzic, Dusica. (2019). Parsing des textes journalistiques en serbe par le logiciel Talismane. Proceedings of TALN-RECITAL 2019, pp. 591-604. Toulouse, France. [PDF]
ParCoLabFree – fichiers téléchargeables
Description
Une partie du contenu de ParCoLab est libre de droit et disponible pour le téléchargement. La portion du corpus actuellement à votre disposition contient 588 000 tokens au total (63 000 en serbe, 260 000 en français et 265 000 en anglais). Un bref descriptif des textes compris dans ce sous-corpus, ainsi que leur taille, sont donnés dans la suite.
Source | Type | Serbe | Français | Anglais | Total |
---|---|---|---|---|---|
Ambassade de France au Canada | Contenu web (textes courts) | - | 28.297 | 28.288 | 56.585 |
Série TV Bref | Sous-titres (oral) | 13.305 | 15.168 | - | 28.473 |
Magazine web Pescanik | Contenu web (articles socio-politiques) | 31.151 | - | 34.275 | 65.426 |
JRC-Acquis | Législation (textes legislatifs de l’EU) | - | 195.095 | 181.290 | 376.385 |
Conférences TED | Sous-titres (conférences courtes sur des sujets variés) | 18.933 | 21.105 | 21.410 | 61.448 |
Total (nombre de tokens) | 63.389 | 259.665 | 265.263 | 588.317 |
Personne à contacter : Aleksandra Miletic (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr
Licence : Certains droits sont retenus. ParCoLab est distribué sous la licence Creative Commons BY-NC-SA 3.0.
Téléchargement
ParCoTrain – étiquetage et lemmatisation du serbe
Description
ParCoTrain est un corpus d’entraînement et d’évaluation pour l’étiquetage en parties du discours et la lemmatisation du serbe. La partie du corpus lemmatisée contient 95 585 tokens annotés manuellement, alors que l’échantillon annoté en parties du discours compte au total 153 625 tokens (dont 95 585 ont été annotés manuellement, et 57 977 ont été annotés automatiquement et validés manuellement). Les textes source du corpus sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle.
L’annotation en parties du discours indique la catégorie principale aussi bien que la sous-catégorie. Pour les adjectifs et les adverbes, on indique également le degré de comparaison. Une présentation détaillée du jeu d’étiquettes utilisé peut être trouvée dans la documentation PDF téléchargeable ci-dessous.
Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse – Jean Jaurès), Antonio Balvet (STL, Université Lille 3) et Dejan Stosic (CLLE-ERSS, Université Toulouse – Jean Jaurès).
Responsable ressource : Aleksandra Miletic (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr
Droits : Certains droits sont réservés. ParCoTrain est diffusé sous la licence Creative Commons BY-NC-SA 3.0.
Références :
Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. In SHS Web of Conferences (Vol. 8, pp. 2551-2563). EDP Sciences. [PDF] [BibTex]
Miletic, A. (2013). Annotation semi-automatique en parties du discours d’un corpus littéraire serbe. Mémoire de Master. Université Charles de Gaulle Lille 3, France.
Wikimorph-sr – lexique pour le POS-tagging et le parsing du serbe
Description
Wikimorph-sr est un est un lexique morphosyntaxique pour le serbe destiné à l’étiquetage morphosyntaxique, à la lemmatisation et au parsing. Le lexique a été développé dans le cadre du projet ParCoLab. Il a été principalement extrait de l’édition serbo-croate du Wiktionary et compte 1 226 638 formes fléchies provenant de 117 445 lemmes différents, qui donnent lieu à 3 066 214 combinaisons uniques <forme fléchie, lemme, description morphosyntaxique>.
Le corpus est distribué dans un format texte tabulé en trois colonnes : la première colonne contient la forme fléchie, la deuxième le lemme, et la troisième une étiquette complexe encodant plusieurs traits morphosyntaxiques. Un descriptif détaillé de la structure des étiquettes et des traits morphosyntaxiques représentés dans le lexique est donné dans la documentation PDF de la ressource.
Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse – Jean Jaurès).
Responsable ressource
Aleksandra Miletic
Contact : aleksandra.miletic@univ-tlse2.fr
Droits
Certains droits sont réservés. wikimorph-sr est diffusé sous la licence Creative Commons BY-SA 3.0.
Téléchargements
Lexique
Documentation en français
Références
Miletic, Aleksandra. (2017). Building a morphosyntactic lexicon for Serbian from Wiktionary. Actes de la 6e édition des Journées d’étude toulousaines (JéTou2017). Toulouse, France.
Remerciements
L’auteure remercie chaleureusement Franck Sajous (UMR 5263 CLLE, CNRS & Université Toulouse – Jean Jaurès) d’avoir partagé avec elle ses expériences dans le travail sur le Wiktionary.
ParCoGLiJ – Corpus parallèle de littérature de jeunesse
Ce corpus est destiné à l’étude des grands classiques de la littérature de jeunesse. Il contient 8 ouvrages en français et en anglais alignés avec leur traduction dans l’autre langue du corpus. Le corpus contient au total 1,6 millions de mots et il est libre de droits. La création de ce corpus a été financée par le consortium CORLI.
Contenu
Oeuvres d’auteurs français
Auteur | Titre | Français | Anglais | Total | Formats |
---|---|---|---|---|---|
Daudet, A. | Lettres de mon moulin | 46 592 | 47 706 | 94 298 | xml, tmx, parcolab, bi-text |
Dumas, A. | Les trois mousquetaires | 213 791 | 228 900 | 442 691 | xml, parcolab |
De Ségur | Mémoires d’un âne | 54 662 | 42 040 | 96 702 | xml, parcolab |
Verne, J. | Vingt mille lieues sous les mers | 142 959 | 141 936 | 284 895 | xml, parcolab |
Total (nombre de tokens) | 458004 | 460582 | 918586 |
Oeuvres d’auteurs anglais
Auteur | Titre | Français | Anglais | Total | Formats |
---|---|---|---|---|---|
Hodgson Burnett, F. | The Secret Garden | 76 940 | 80 558 | 157498 | xml, parcolab |
Stevenson, R.L. | Treasure Island | 69 827 | 68 996 | 138 823 | xml, parcolab |
Kipling, R. | Jungle Book | 55 913 | 51 334 | 107 247 | xml, parcolab |
Dickens, Ch. | Oliver Twist | 164 786 | 157 584 | 322 370 | xml, parcolab |
Total (nombre de tokens) | 367466 | 358472 | 725938 |
Téléchargements
Corpus XML
Documentation en français
Responsables ressource
Dejan Stosic & Aleksandra Miletic
Contact : dejan.stosic@univ-tlse2.fr / aleksandra.miletic@univ-tlse2.fr
Références
Stosic, D., Marjanović, S. & Miletic, A. (2018). ParCoGLiJe: Corpus parallèle pour l’étude des grands classiques de la littérature de jeunesse. Poster présenté à la Journée d’étude CORLI Traitements et standardisation des corpus multimodaux et web 2.0. Université Paris Diderot – Paris 7 (25 mai 2018).