Contenu

Cette page présente la taille du corpus et la liste des documents intégrés à ParCoLab.

Taille du corpus

Le corpus parallèle comporte au total 62.000.000 de mots, les quatre langues comprises. Les données récoltées se répartissent comme suit:

Liste des documents intégrés

Le corpus comporte des textes écrits en français, en serbe, en anglais, en espagnol, en italien, en occitan, en corse, en alsacien ou en poitevin-saintongeais et leurs traductions. Vous y trouverez également des textes juridiques et philosophiques, la presse, les transcriptions de films et conférences, etc.

En plus des textes libres de droits ou pour lesquels les droits d’utilisation dans ParCoLab ont été obtenus, le corpus contient certains contenus protégés par des droits de propriété intellectuelle. Conformément à la Directive 2019/790 du Parlement européen et du Conseil du 17 avril 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique et modifiant les directives 96/9/CE et 2001/29/CE et l’Article L122-5 du Code de la propriété intellectuelle en France, ces textes sont exploités dans le seul but de conduire des activités de fouille à des fins de recherche scientifique. Des mesures nécessaires sont prises afin d’assurer la sécurité et l’intégrité de la base de données où les textes sont hébergés. Ces derniers, tous au format xml, ne sont pas redistribués et ne peuvent être ni téléchargés ni intégralement consultés. Seules de courtes citations sont affichées de façon aléatoire dans les résultats de recherche.

Les documents intégrés à ce jour dans le corpus parallèle ParCoLab sont listés sur les pages suivantes selon la langue de l’original.

Taille du corpus

Liste des documents intégrés

Documents
français

Documents
serbes

Documents
anglais

Documents
occitans

Documents
espagnols

Documents
italiens

Documents
poitevins

Documents
corses

Autres
langues

[A propos] [Equipe] [Technologies] [Publications] [Ressources] [Remerciements]

Quoi de neuf