Qu’est-ce que ParCoLab?

ParCoLab est un corpus parallèle de 8.758.818 mots comportant des textes originaux et leurs traductions dans trois langues d’Europe: le serbe, le français et l’anglais. Chacune des trois langues est prise comme langue source et comme langue cible. Le projet est dirigé par Dejan Stosic, enseignant-chercheur à l’Université Toulouse Jean Jaurès, membre du Laboratoire CLLE-ERSS (UMR 5263 du CNRS). ParCoLab est le résultat de nombreuses collaborations entre des linguistes et des spécialistes du traitement automatique des langues.

Les textes recueillis sont alignés au niveau des paragraphes et des phrases, ce qui signifie que tout paragraphe et toute phrase d’un original est mis/e en correspondance avec sa traduction dans une ou dans les deux autres langues. Le grand atout de notre corpus parallèle réside dans la fiabilité des alignements qui sont validés manuellement. Pour l’instant constitué essentiellement de textes littéraires, ParCoLab est en train de devenir une ressource comportant des documents de plusieurs genres différents (web, sous-titres de films, documentation technique, etc.).

L’intérêt et l’originalité du corpus viennent non seulement de la richesse et de la qualité de son contenu mais aussi des principes de structuration et d’annotation qui respectent les standards actuels en matière de constitution et de diffusion de corpus (format XML, normé TEI).

ParCoLab est consultable gratuitement en ligne – pour cela il vous suffit de vous inscrire (ici) ou, si vous possédez déjà un compte, de vous identifier (ici). Un outil de requête permet d’y effectuer des recherches et d’extraire des résultats comportant l’expression que vous souhaitez étudier, ainsi que les énoncés correspondants dans une ou dans les deux autres langues.

La ressource est destinée essentiellement à des fins scientifiques et pédagogiques. ParCoLab permet en particulier de se procurer des données pour des études linguistiques sur le serbe, sur le français et sur l’anglais et pour des travaux s’inscrivant dans une perspective comparative ou typologique. L’outil présente également un intêret dans l’enseignement et l’apprentissage du Français/ Anglais/ Serbe Langue Etrangère et du Français Langue Seconde (FLS) ainsi que dans la formation des traducteurs et traductologues. De nombreuses applications (en lexicographie et dans les domaines de la création de ressources pédagogiques et de la traduction assistée par ordinateur) sont également envisagées. De même, plusieurs ressources pour le traitement automatique du serbe sont en cours de développement à partir de ParCoLab.

En permanente évolution, la ressource s’enrichit régulièrement des points de vue technique, qualitatif et quantitatif.

 

[Equipe]     [Contenu]   [Technologies]    [Publications]   [Ressources]    [Remerciements]