Cette page regroupe des ressources produites dans le cadre du projet ParCoLab. Vous y trouverez les ressources suivantes:



ParCoJour – treebank journalistique de la langue serbe

Description

ParCoJour est un corpus journalistique contenant 34 000 tokens. Il est composé de 37 articles journalistiques tirés de deux journaux nationaux, Danas (quotidien) et NIN (hebdomadaire). Les articles couvrent la période de 2003 à 2017. Le corpus indique le lemme, l’étiquette à gros grain, l’étiquette détaillée, le gouverneur syntaxique et la fonction syntaxique de chaque token. L’annotation linguistique suit les lignes directrices de l’annotation du corpus ParCoTrain-Synt.

Téléchargement :
ParCoJour_v0.1

Droits :
Creative Commons License Ce corpus est diffusé sous la licence Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.

Personne à contacter :
Dusica Terzic, dusica.terzic@fil.bg.ac.rs

Référence :
Terzic, Dusica. (2019). Parsing des textes journalistiques en serbe par le logiciel Talismane. Proceedings of TALN-RECITAL 2019, pp. 591-604. Toulouse, France. [PDF]

ParCoLabFree – fichiers téléchargeables

Description

Une partie du contenu de ParCoLab est libre de droit et disponible pour le téléchargement. La portion du corpus actuellement à votre disposition contient 588 000 tokens au total (63 000 en serbe, 260 000 en français et 265 000 en anglais). Un bref descriptif des textes compris dans ce sous-corpus, ainsi que leur taille, sont donnés dans la suite.

SourceTypeSerbeFrançaisAnglaisTotal
Ambassade de France au CanadaContenu web
(textes courts)
-28.29728.28856.585
Série TV BrefSous-titres
(oral)
13.30515.168-28.473
Magazine web PescanikContenu web
(articles socio-politiques)
31.151-34.27565.426
JRC-AcquisLégislation
(textes legislatifs de l’EU)
-195.095181.290376.385
Conférences TEDSous-titres
(conférences courtes sur des sujets variés)
18.93321.10521.41061.448
Total (nombre de tokens)63.389259.665265.263588.317

Personne à contacter : Aleksandra Miletic (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr

Licence : Certains droits sont retenus. ParCoLab est distribué sous la licence Creative Commons BY-NC-SA 3.0.

ParCoTrain – étiquetage et lemmatisation du serbe

Description

ParCoTrain est un corpus d’entraînement et d’évaluation pour l’étiquetage en parties du discours et la lemmatisation du serbe. La partie du corpus lemmatisée contient 95 585 tokens annotés manuellement, alors que l’échantillon annoté en parties du discours compte au total 153 625 tokens (dont 95 585 ont été annotés manuellement, et 57 977 ont été annotés automatiquement et validés manuellement). Les textes source du corpus sont des romans contemporains serbes datant de la deuxième moitié du 20e siècle.

L’annotation en parties du discours indique la catégorie principale aussi bien que la sous-catégorie. Pour les adjectifs et les adverbes, on indique également le degré de comparaison. Une présentation détaillée du jeu d’étiquettes utilisé peut être trouvée dans la documentation PDF téléchargeable ci-dessous.

Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse – Jean Jaurès), Antonio Balvet (STL, Université Lille 3) et Dejan Stosic (CLLE-ERSS, Université Toulouse – Jean Jaurès).

Responsable ressource : Aleksandra Miletic (CLLE-ERSS), aleksandra.miletic@univ-tlse2.fr

Droits : Certains droits sont réservés. ParCoTrain est diffusé sous la licence Creative Commons BY-NC-SA 3.0.

Références :

Balvet, A., Stosic, D., & Miletic, A. (2014). TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français. In SHS Web of Conferences (Vol. 8, pp. 2551-2563). EDP Sciences. [PDF] [BibTex]

Miletic, A. (2013). Annotation semi-automatique en parties du discours d’un corpus littéraire serbe. Mémoire de Master. Université Charles de Gaulle Lille 3, France.

Wikimorph-sr – lexique pour le POS-tagging et le parsing du serbe

Description

Wikimorph-sr est un est un lexique morphosyntaxique pour le serbe destiné à l’étiquetage morphosyntaxique, à la lemmatisation et au parsing. Le lexique a été développé dans le cadre du projet ParCoLab. Il a été principalement extrait de l’édition serbo-croate du Wiktionary et compte 1 226 638 formes fléchies provenant de 117 445 lemmes différents, qui donnent lieu à 3 066 214 combinaisons uniques <forme fléchie, lemme, description morphosyntaxique>.

Le corpus est distribué dans un format texte tabulé en trois colonnes : la première colonne contient la forme fléchie, la deuxième le lemme, et la troisième une étiquette complexe encodant plusieurs traits morphosyntaxiques. Un descriptif détaillé de la structure des étiquettes et des traits morphosyntaxiques représentés dans le lexique est donné dans la documentation PDF de la ressource.

Cette ressource a été développée dans le cadre du projet ParCoLab par Aleksandra Miletic (CLLE-ERSS, Université Toulouse – Jean Jaurès).

Responsable ressource
Aleksandra Miletic
Contact : aleksandra.miletic@univ-tlse2.fr

Droits
Certains droits sont réservés. wikimorph-sr est diffusé sous la licence Creative Commons BY-SA 3.0.

Téléchargements
Lexique
Documentation en français

Références

Miletic, Aleksandra. (2017). Building a morphosyntactic lexicon for Serbian from Wiktionary. Actes de la 6e édition des Journées d’étude toulousaines (JéTou2017). Toulouse, France.

Remerciements

L’auteure remercie chaleureusement Franck Sajous (UMR 5263 CLLE, CNRS & Université Toulouse – Jean Jaurès) d’avoir partagé avec elle ses expériences dans le travail sur le Wiktionary.

ParCoGLiJ – Corpus parallèle de littérature de jeunesse

Ce corpus est destiné à l’étude des grands classiques de la littérature de jeunesse. Il contient 8 ouvrages en français et en anglais alignés avec leur traduction dans l’autre langue du corpus. Le corpus contient au total 1,6 millions de mots et il est libre de droits. La création de ce corpus a été financée par le consortium CORLI.

Contenu

Oeuvres d’auteurs français

AuteurTitreFrançaisAnglaisTotalFormats
Daudet, A. Lettres de mon moulin
46 59247 70694 298xml, tmx, parcolab, bi-text
Dumas, A.Les trois mousquetaires213 791228 900442 691xml, parcolab
De SégurMémoires d’un âne54 66242 04096 702xml, parcolab
Verne, J.Vingt mille lieues sous les mers
142 959141 936284 895xml, parcolab
Total (nombre de tokens)458004460582918586

Oeuvres d’auteurs anglais

AuteurTitreFrançaisAnglaisTotalFormats
Hodgson Burnett, F.The Secret Garden

76 94080 558157498
xml, parcolab
Stevenson, R.L.Treasure Island
69 82768 996138 823xml, parcolab
Kipling, R.Jungle Book
55 91351 334107 247xml, parcolab
Dickens, Ch.Oliver Twist
164 786157 584322 370xml, parcolab
Total (nombre de tokens)367466358472725938

Téléchargements

Corpus XML
Documentation en français

Responsables ressource
Dejan Stosic & Aleksandra Miletic
Contact : dejan.stosic@univ-tlse2.fr / aleksandra.miletic@univ-tlse2.fr

Références

Stosic, D., Marjanović, S. & Miletic, A. (2018). ParCoGLiJe: Corpus parallèle pour l’étude des grands classiques de la littérature de jeunesse. Poster présenté à la Journée d’étude CORLI Traitements et standardisation des corpus multimodaux et web 2.0. Université Paris Diderot – Paris 7 (25 mai 2018).

[A propos]    [Equipe]  [Technologies]   [Contenu]   [Publications]  [Remerciements]