Ressources

Cette page regroupe des ressources produites dans le cadre du projet ParCoLab. Vous y trouverez les ressources suivantes:

ParCoJour
ParCoLabFree
ParCoTrain
Wikimorph-sr
ParCoGLiJ

ParCoJour – treebank journalistique de la langue serbe

Description

ParCoJour est un corpus journalistique contenant 34 000 tokens. Il est composé de 37 articles journalistiques tirés de deux journaux nationaux, Danas (quotidien) et NIN (hebdomadaire). Les articles couvrent la période de 2003 à 2017. Le corpus indique le lemme, l’étiquette à gros grain, l’étiquette détaillée, le gouverneur syntaxique et la fonction syntaxique de chaque token. L’annotation linguistique suit les lignes directrices de l’annotation du corpus ParCoTrain-Synt.

Téléchargement :
ParCoJour_v0.1

Droits :
Ce corpus est diffusé sous la licence Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

Personne à contacter :
Dusica Terzic, dusica.terzic@fil.bg.ac.rs

Référence :
Terzic, Dusica. (2019). Parsing des textes journalistiques en serbe par le logiciel Talismane. Proceedings of TALN-RECITAL 2019, pp. 591-604. Toulouse, France. [PDF]

ParCoLabFree – fichiers téléchargeables

Description

Une partie du contenu de ParCoLab est libre de droit et disponible pour le téléchargement. La portion du corpus actuellement à votre disposition contient 588 000 tokens au total (63 000 en serbe, 260 000 en français et 265 000 en anglais). Un bref descriptif des textes compris dans ce sous-corpus, ainsi que leur taille, sont donnés dans la suite.

Source	Type	Serbe	Français	Anglais	Total
Ambassade de France au Canada	Contenu web (textes courts)	-	28.297	28.288	56.585
Série TV Bref	Sous-titres (oral)	13.305	15.168	-	28.473
Magazine web Pescanik	Contenu web (articles socio-politiques)	31.151	-	34.275	65.426
JRC-Acquis	Législation (textes legislatifs de l’EU)	-	195.095	181.290	376.385
Conférences TED	Sous-titres (conférences courtes sur des sujets variés)	18.933	21.105	21.410	61.448
Total (nombre de tokens)		63.389	259.665	265.263	588.317

Personne à contacter : Aleksandra Miletic (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr

Licence : Certains droits sont retenus. ParCoLab est distribué sous la licence Creative Commons BY-NC-SA 3.0.

Téléchargement

archive zip avec les fichiers XML

ParCoTrain – étiquetage et lemmatisation du serbe

Description

ParCoTrain est un corpus d’entraînement et d’évaluation pour l’étiquetage en parties du discours et la lemmatisation du serbe. La partie du corpus lemmatisée contient 95 585 tokens annotés manuellement, alors que l’échantillon annoté en parties du discours compte au total 153 625 tokens (dont 95 585 ont été annotés manuellement, et 57 977 ont été annotés automatiquement et validés manuellement). Les textes source du corpus sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle.

L’annotation en parties du discours indique la catégorie principale aussi bien que la sous-catégorie. Pour les adjectifs et les adverbes, on indique également le degré de comparaison. Une présentation détaillée du jeu d’étiquettes utilisé peut être trouvée dans la documentation PDF téléchargeable ci-dessous.

Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse – Jean Jaurès), Antonio Balvet (STL, Université Lille 3) et Dejan Stosic (CLLE-ERSS, Université Toulouse – Jean Jaurès).

Responsable ressource : Aleksandra Miletic (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr

Droits : Certains droits sont réservés. ParCoTrain est diffusé sous la licence Creative Commons BY-NC-SA 3.0.

Téléchargements :

Corpus d’entraînement

Documentation PDF en français

Références :

Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. In SHS Web of Conferences (Vol. 8, pp. 2551-2563). EDP Sciences. [PDF] [BibTex]

Miletic, A. (2013). Annotation semi-automatique en parties du discours d’un corpus littéraire serbe. Mémoire de Master. Université Charles de Gaulle Lille 3, France.

Wikimorph-sr – lexique pour le POS-tagging et le parsing du serbe

Description

Wikimorph-sr est un est un lexique morphosyntaxique pour le serbe destiné à l’étiquetage morphosyntaxique, à la lemmatisation et au parsing. Le lexique a été développé dans le cadre du projet ParCoLab. Il a été principalement extrait de l’édition serbo-croate du Wiktionary et compte 1 226 638 formes fléchies provenant de 117 445 lemmes différents, qui donnent lieu à 3 066 214 combinaisons uniques <forme fléchie, lemme, description morphosyntaxique>.

Le corpus est distribué dans un format texte tabulé en trois colonnes : la première colonne contient la forme fléchie, la deuxième le lemme, et la troisième une étiquette complexe encodant plusieurs traits morphosyntaxiques. Un descriptif détaillé de la structure des étiquettes et des traits morphosyntaxiques représentés dans le lexique est donné dans la documentation PDF de la ressource.

Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse – Jean Jaurès).

Responsable ressource
Aleksandra Miletic
Contact : aleksandra.miletic@univ-tlse2.fr

Droits
Certains droits sont réservés. wikimorph-sr est diffusé sous la licence Creative Commons BY-SA 3.0.

Téléchargements
Lexique
Documentation en français

Références

Miletic, Aleksandra. (2017). Building a morphosyntactic lexicon for Serbian from Wiktionary. Actes de la 6e édition des Journées d’étude toulousaines (JéTou2017). Toulouse, France.

Remerciements

L’auteure remercie chaleureusement Franck Sajous (UMR 5263 CLLE, CNRS & Université Toulouse – Jean Jaurès) d’avoir partagé avec elle ses expériences dans le travail sur le Wiktionary.

ParCoGLiJ – Corpus parallèle de littérature de jeunesse

Ce corpus est destiné à l’étude des grands classiques de la littérature de jeunesse. Il contient 8 ouvrages en français et en anglais alignés avec leur traduction dans l’autre langue du corpus. Le corpus contient au total 1,6 millions de mots et il est libre de droits. La création de ce corpus a été financée par le consortium CORLI.

Contenu

Oeuvres d’auteurs français

Auteur	Titre	Français	Anglais	Total	Formats
Daudet, A.	Lettres de mon moulin	46 592	47 706	94 298	xml, tmx, parcolab, bi-text
Dumas, A.	Les trois mousquetaires	213 791	228 900	442 691	xml, parcolab
De Ségur	Mémoires d’un âne	54 662	42 040	96 702	xml, parcolab
Verne, J.	Vingt mille lieues sous les mers	142 959	141 936	284 895	xml, parcolab
Total (nombre de tokens)		458004	460582	918586

Oeuvres d’auteurs anglais

Auteur	Titre	Français	Anglais	Total	Formats
Hodgson Burnett, F.	The Secret Garden	76 940	80 558	157498	xml, parcolab
Stevenson, R.L.	Treasure Island	69 827	68 996	138 823	xml, parcolab
Kipling, R.	Jungle Book	55 913	51 334	107 247	xml, parcolab
Dickens, Ch.	Oliver Twist	164 786	157 584	322 370	xml, parcolab
Total (nombre de tokens)		367466	358472	725938

Téléchargements

Corpus XML
Documentation en français

Responsables ressource
Dejan Stosic & Aleksandra Miletic
Contact : dejan.stosic@univ-tlse2.fr / aleksandra.miletic@univ-tlse2.fr

Références

Stosic, D., Marjanović, S. & Miletic, A. (2018). ParCoGLiJe: Corpus parallèle pour l’étude des grands classiques de la littérature de jeunesse. Poster présenté à la Journée d’étude CORLI Traitements et standardisation des corpus multimodaux et web 2.0. Université Paris Diderot – Paris 7 (25 mai 2018).