Corpus parallèle de l’Organisation des Nations Unies

Introduction

Le corpus parallèle de l’ONU v1.0 se compose de documents destinés aux organes délibérants, y compris des documents officiels, qui sont dans le domaine public et qui sont pour la plupart publiés dans les six langues officielles de l’Organisation. Dans sa version actuelle, il regroupe des documents qui ont été produits et traduits manuellement entre 1990 et 2014 et qui ont été alignés phrase par phrase.

Le corpus a été constitué afin de donner suite à l’engagement que l’ONU a pris en faveur du multilinguisme et témoigne de l’importance croissante accordée à la traduction automatique statistique et au système de traduction automatique de l’ONU, Tapta4UN, par les services de traduction du Département de l’Assemblée générale et de la gestion des conférences (DGACM).

Le corpus vise à ouvrir l’accès à des ressources multilingues et à faciliter la recherche et les progrès relatifs à différentes tâches de traitement du langage naturel, y compris la traduction automatique. Pour des raisons de commodité, il est disponible sous forme de paires de langues (bitextes) et sous la forme d’un ensemble parallèle en six langues.

Les utilisateurs sont tenus de citer la source - l’Organisation des Nations Unies - lorsqu’ils font usage du corpus de documents de l’ONU. Les références au corpus parallèle de l’ONU doivent être exprimées comme suit: Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.

Pour de plus amples informations, s’adresser à gtext-support@unov.org.

Télécharger

Statistiques concernant le corpus

Statistiques relatives aux paires de documents:


	ar	en	es	fr	ru	zh
ar	–	111 241 18 539 207	113 065 18 578 118	112 605 18 281 635	111 896 18 863 363	91 345 15 595 948
en	456 552 223 512 087 009	–	123 844 21 911 121	149 741 25 805 088	133 089 23 239 280	91 028 15 886 041
es	459 383 823 593 671 507	590 672 799 678 778 068	–	125 098 21 915 504	115 921 19 993 922	91 704 15 428 381
fr	452 833 187 597 651 233	668 518 779 782 912 487	674 477 239 688 418 806	–	133 510 22 381 416	91 613 15 206 689
ru	462 021 954 491 166 055	601 002 317 569 888 234	623 230 646 513 100 827	691 062 370 557 143 420	–	92 337 16 038 721
zh	387 968 412 387 931 939	425 562 909 381 371 583	493 338 256 382 052 741	498 007 502 377 884 885	417 366 738 392 372 764	–

Les cellules situées au-dessus de la diagonale font référence au nombre de documents et de lignes par paire de langues. Les cellules situées en dessous de la diagonale font référence au nombre de tokens par paire de langues. Le premier nombre fait référence à la langue indiquée dans les en-têtes de colonne, tandis que le second renvoie à celle indiquée dans les en-têtes de rangée. Le nombre de tokens a été établi après traitement au moyen de l’outil de tokénisation fourni avec Moses. Pour le chinois, Jieba a été utilisé avant traitement au moyen de l’outil de tokénisation de Moses, les paramètres par défaut ayant été conservés.

Statistiques concernant les documents


Nombre total de documents	Paires de documents alignés
799 276	1 727 539

Statistiques concernant le sous-corpus aligné


Documents	Lignes	Tokens anglais
86 307	11 365 709	334 953 817

Déni de responsabilité et conditions d’utilisation

Le déni de responsabilité ci-après, qui fait partie intégrante du corpus parallèle de l’ONU v1.0, s’applique au corpus (aucune autre restriction ne s’applique):

Le corpus parallèle de l’ONU est mis à la disposition des utilisateurs sans aucune garantie d’aucune sorte, ni explicite ni implicite. En particulier, l’Organisation ne garantit ni l’exactitude ni le caractère exhaustif de l’information figurant dans le corpus.
L’ONU ne saurait en aucun cas être tenue responsable de tout dommage, préjudice, perte ou obligation dont on ferait valoir qu’ils sont consécutifs à l’utilisation du corpus. L’utilisateur utilise le corpus à ses risques et périls. L’utilisateur reconnaît et convient que l’ONU ne saurait être tenue responsable du comportement de tel ou tel utilisateur. L’utilisateur que ne satisfait pas le contenu figurant dans le corpus n’a d’autre recours que de ne plus l’utiliser.
L’utilisateur est tenu de citer la source - l’Organisation des Nations Unies - lorsqu’il fait usage du corpus de documents de l’ONU. Les références au corpus parallèle de l’ONU doivent être exprimées comme suit : Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.
Rien dans les présentes conditions d’utilisation ne constitue ni ne saurait être considéré comme une limitation des privilèges et immunités des Nations Unies, ni comme une renonciation à ces privilèges et immunités, que l’ONU se réserve expressément.

Organisation et format des fichiers

Les documents sont organisés en dossiers, classés par langue, année de publication et cote. Les documents ayant une correspondance sont classés selon une arborescence parallèle et les versions traduites dans l’une des langues officielles peuvent être localisées (si elles existent) en suivant la même arborescence dans le sous-dossier de la langue pertinente.

En ce qui concerne les documents individuels, il a été décidé d’appliquer le format TEI utilisé dans le corpus parallèle JRC-Acquis. La structure des paragraphes d’origine a été conservée et les phrases ont été délimitées automatiquement. Les documents pour lesquels il existe plus d’une version par langue sont associés à autant de fichiers qu’il y a de versions, sachant qu’il n’y en a pas plus de 15.

Il existe deux types de distributions : dans le premier, un fichier correspond à un document ; dans le second, des bitextes au format texte brut englobent tous les documents correspondant à une paire de langues et peuvent être utilisés plus aisément par les algorithmes d’entraînement employés dans le cadre de la traduction automatique statistique.

Pour plus de détails sur les modalités de préparation du corpus, voir Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.

Ensembles de données (tests et développement)

Les données provenant des documents publiés en 2015 ont été mises de côté et des ensembles de test et de développement ont été constitués à partir d’elles pour toutes les paires de langues : 100 documents ont été sélectionnés de façon aléatoire - 50 pour l’ensemble de développement et 50 pour l’ensemble de test. Ainsi que cela est le cas pour le sous-corpus qui a fait l’objet d’un alignement complet, toutes les phrases des ensembles de test et de développement sont disponibles pour toutes les langues officielles de l’ONU, et les directions de traduction, quelles qu’elles soient, peuvent être évaluées.

Pour plus de détails sur les références de départ, voir Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.

Métadonnées associées aux documents

Les métadonnées ci-après accompagnent chaque document au format XML:

Cote: Chaque document de l’ONU est associé à une cote qui lui est propre. Les versions linguistiques d’un document portent la même cote. Les cotes se composent de lettres et de chiffres. Certains éléments de la cote ont une signification, d’autres non. En général, la cote n’indique pas le sujet sur lequel porte un document.
Numéro de travail: Il s’agit d’un identificateur unique propre à la version linguistique du document.
Date de publication: Il s’agit de la date de publication du document, qui s’applique à toutes les versions linguistiques. La date de publication ne correspond pas nécessairement à la date à laquelle chaque version linguistique a été diffusée.
Lieu de traitement: Il peut s’agir de New York, Genève ou Vienne.
Mots-clés: Les mots-clés renvoient aux domaines dont il est question dans le document, sur la base de la liste de sujets utilisés par le Système de diffusion électronique des documents (Sédoc), laquelle repose sur le thésaurus du Système d’information bibliographique de l’ONU.

Nations Unies - Département de l’Assemblée générale et de la gestion des conférences