Cette page présente la taille du corpus et la liste des documents intégrés à ParCoLab.

Taille du corpus

Le corpus parallèle comporte au total 51.000.000 de mots, les quatre langues comprises. Les données récoltées se répartissent comme suit:

Liste des documents intégrés

Le corpus comporte des textes écrits en français, en serbe, en anglais, en espagnol, en italien, en occitan, en corse, en alsacien ou en poitevin-saintongeais et leurs traductions. Vous y trouverez également des textes juridiques et philosophiques, la presse, les transcriptions de films et conférences, etc.

En plus des textes libres de droits ou pour lesquels les droits d’utilisation dans ParCoLab ont été obtenus, le corpus contient certains contenus protégés par des droits de propriété intellectuelle. Conformément à la Directive 2019/790 du Parlement européen et du Conseil du 17 avril 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique et modifiant les directives 96/9/CE et 2001/29/CE et l’Article L122-5 du Code de la propriété intellectuelle en France, ces textes sont exploités dans le seul but de conduire des activités de fouille à des fins de recherche scientifique. Des mesures nécessaires sont prises afin d’assurer la sécurité et l’intégrité de la base de données où les textes sont hébergés. Ces derniers, tous au format xml, ne sont pas redistribués et ne peuvent être ni téléchargés ni intégralement consultés. Seules de courtes citations sont affichées de façon aléatoire dans les résultats de recherche.

A ce jour, les documents suivants ont été intégrés dans le corpus parallèle.

[A propos]     [Equipe]    [Technologies]    [Publications]   [Ressources]    [Remerciements]