ParCoLaF

La constitution des corpus parallèles pour les langues de France est au coeur du projet ParCoLaF.

L’objectif du projet ParCoLaF est de dresser les ponts entre le français et les autres langues de France en créant des corpus parallèles pour différentes paires de langues. Le projet ParCoLaF a été soutenu par la Délégation générale à la langue française et aux langues de France (DGLFLF) du Ministère de la Culture, dans le cadre de l’appel à projets « Langues et numérique 2017 » et il est dirigé par D. Stosic et M. Bras.

Présentation du projet

L’objectif général du projet ParCoLaF est de développer une plateforme pour la constitution, la diffusion et l’interrogation de corpus parallèles comportant des textes en français et en langues régionales de France, avec une focalisation sur l’occitan, qui sert de langue pilote. Le projet est développé au sein du Laboratoire CLLE (UMR 5263 – CNRS & UT2J) et il résulte de la convergence de deux dynamiques de recherches évoluant parallèlement au sein de ce même laboratoire, à savoir le projet ParCoLab (dirigé par D. Stosic) et le projet BaTelÒc (dirigé par M. Bras). Le projet ParCoLaF repose en effet sur la mutualisation des compétences, savoir-faire, données et ressources propres à chacun des deux projets. A court terme, nous visons à constituer une ressource textuelle électronique multilingue comportant des textes en français et en occitan, alignés au niveau des paragraphes et des phrases avec leurs traductions. A plus long terme, notre but est d’offrir, à l’issue du projet pilote avec l’occitan, une infrastructure performante au service d’autres langues de France peu dotées en vue de leur mise en valeur grâce à une nouvelle forme de diffusion. La plateforme en construction a également pour but de permettre la collecte et la centralisation des données bilingues et multilingues issues de langues de France.

Carte empruntée à l’Atlas sonore des langues régionales de France

Grâce au financement dans le cadre de l’AAP « Langues et numérique 2017 », une refonte substantielle de la plateforme ParCoLab a pu être réalisée. Celle-ci peut désormais accueillir jusqu’à 12 langues différentes et offre des fonctionnalités de recherche avancées, ainsi que la possibilité de rapatrier des résultats de requêtes. En outre, il est désormais possible d’intégrer des données annotées aux niveaux lexical, morpho-syntaxique et syntaxique. L’interface de consultation utilise un site web adaptatif (« responsive web design ») au format HTML5. Ces technologies permettent de consulter la ressource aussi bien sur des ordinateurs que sur des tablettes et smartphones, l’interface s’adaptant dynamiquement et en temps réel au format du support sur lequel elle est consultée.

Parallèlement aux développements informatiques, un travail de recensement et d’intégration de textes disponibles en occitan et en français est mené en collaboration avec les deux partenaires du projet, le CIRDOC et Joliciel. Au total, une trentaine de textes existant en occitan, en français et/ou anglais ont pu être identifiés. Certains sont déjà alignés avec les versions dans les trois autres langues et plusieurs d’entre eux sont en cours d’intégration dans le corpus parallèle. Les données sont structurées selon les standards actuels en matière de constitution et de diffusion de corpus (format XML, normé TEI5) et tous les alignements sont manuellement vérifiés. A l’issue de ce processus, les textes alignés au niveau des paragraphes et des phrases sont rendus disponibles dans la base textuelle pour interrogation.

La ressource textuelle produite est hébergée par la TGIR Huma-Num, ce qui garantit la pérennisation du patrimoine linguistique et culturel mis en valeur dans le cadre du projet.