Qu’est-ce que ParCoLab?

ParCoLab est un corpus parallèle de 32.000.000 de mots comportant des textes originaux et leurs traductions dans plusieurs langues d’Europe: le serbe, le français, l’anglais, l’espagnol, l’occitan et le poitevin-saintongeais. Chacune des six langues est prise comme langue source et comme langue cible. Le projet est dirigé par Dejan Stosic, enseignant-chercheur à l’Université Toulouse Jean Jaurès, membre du Laboratoire CLLE (UMR 5263 du CNRS). ParCoLab est le résultat de nombreuses collaborations entre des linguistes et des spécialistes du traitement automatique des langues. Depuis l’été 2018, ParCoLab s’est ouvert aux langues de France grâce au projet ParCoLaF.

Les textes recueillis sont alignés au niveau des paragraphes et des phrases, ce qui signifie que tout paragraphe et toute phrase d’un original est mis/e en correspondance avec sa traduction dans une, deux ou trois autres langues. Le grand atout de notre corpus parallèle réside dans la fiabilité des alignements qui sont validés manuellement. Même si pour l’instant ParCoLab est constitué essentiellement de textes littéraires, il comporte déjà des documents de plusieurs genres différents (web, sous-titres de films, documentation technique, etc.).

L’intérêt et l’originalité du corpus viennent non seulement de la richesse et de la qualité de son contenu mais aussi des principes de structuration et d’annotation qui respectent les standards actuels en matière de constitution et de diffusion de corpus (format XML, normé TEI).

ParCoLab est consultable gratuitement en ligne. Un outil de requête permet d’y effectuer des recherches et d’extraire des résultats comportant l’expression que vous souhaitez étudier, ainsi que les énoncés correspondants dans une ou dans les deux autres langues.

La ressource est destinée essentiellement à des fins scientifiques et pédagogiques. ParCoLab permet en particulier de se procurer des données pour des études linguistiques sur le serbe, sur le français, sur l’anglais et sur l’espagnol et pour des travaux s’inscrivant dans une perspective comparative ou typologique. L’outil présente également un intêret dans l’enseignement et l’apprentissage du Français/ Anglais/ Serbe/ Espagnol Langue Etrangère et du Français Langue Seconde (FLS) ainsi que dans la formation des traducteurs et traductologues. De nombreuses applications (en lexicographie et dans les domaines de la création de ressources pédagogiques et de la traduction assistée par ordinateur) sont également envisagées. De même, plusieurs ressources pour le traitement automatique du serbe sont en cours de développement à partir de ParCoLab.

En permanente évolution, la ressource s’enrichit régulièrement des points de vue technique, qualitatif et quantitatif.

[Equipe]     [Contenu]   [Technologies]    [Publications]   [Ressources]    [Remerciements]