Nations Unies - Département de l’Assemblée générale et de la gestion des conférences

Corpus parallèle de l’Organisation des Nations Unies

Introduction

Le corpus parallèle de l’ONU v1.0 se compose de documents destinés aux organes délibérants, y compris des documents officiels, qui sont dans le domaine public et qui sont pour la plupart publiés dans les six langues officielles de l’Organisation. Dans sa version actuelle, il regroupe des documents qui ont été produits et traduits manuellement entre 1990 et 2014 et qui ont été alignés phrase par phrase.

Le corpus a été constitué afin de donner suite à l’engagement que l’ONU a pris en faveur du multilinguisme et témoigne de l’importance croissante accordée à la traduction automatique statistique et au système de traduction automatique de l’ONU, Tapta4UN, par les services de traduction du Département de l’Assemblée générale et de la gestion des conférences (DGACM).

Le corpus vise à ouvrir l’accès à des ressources multilingues et à faciliter la recherche et les progrès relatifs à différentes tâches de traitement du langage naturel, y compris la traduction automatique. Pour des raisons de commodité, il est disponible sous forme de paires de langues (bitextes) et sous la forme d’un ensemble parallèle en six langues.

Les utilisateurs sont tenus de citer la source - l’Organisation des Nations Unies - lorsqu’ils font usage du corpus de documents de l’ONU. Les références au corpus parallèle de l’ONU doivent être exprimées comme suit: Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.

Pour de plus amples informations, s’adresser à gtext-support@unov.org.

Télécharger

Statistiques concernant le corpus

Statistiques relatives aux paires de documents:

arenesfrruzh
ar111 241
18 539 207
113 065
18 578 118
112 605
18 281 635
111 896
18 863 363
91 345
15 595 948
en 456 552 223
512 087 009
123 844
21 911 121
149 741
25 805 088
133 089
23 239 280
91 028
15 886 041
es 459 383 823
593 671 507
590 672 799
678 778 068
125 098
21 915 504
115 921
19 993 922
91 704
15 428 381
fr 452 833 187
597 651 233
668 518 779
782 912 487
674 477 239
688 418 806
133 510
22 381 416
91 613
15 206 689
ru 462 021 954
491 166 055
601 002 317
569 888 234
623 230 646
513 100 827
691 062 370
557 143 420
92 337
16 038 721
zh387 968 412
387 931 939
425 562 909
381 371 583
493 338 256
382 052 741
498 007 502
377 884 885
417 366 738
392 372 764

Les cellules situées au-dessus de la diagonale font référence au nombre de documents et de lignes par paire de langues. Les cellules situées en dessous de la diagonale font référence au nombre de tokens par paire de langues. Le premier nombre fait référence à la langue indiquée dans les en-têtes de colonne, tandis que le second renvoie à celle indiquée dans les en-têtes de rangée. Le nombre de tokens a été établi après traitement au moyen de l’outil de tokénisation fourni avec Moses. Pour le chinois, Jieba a été utilisé avant traitement au moyen de l’outil de tokénisation de Moses, les paramètres par défaut ayant été conservés.

Statistiques concernant les documents

Nombre total de documentsPaires de documents alignés
799 2761 727 539

Statistiques concernant le sous-corpus aligné

DocumentsLignesTokens anglais
86 30711 365 709334 953 817

Déni de responsabilité et conditions d’utilisation

Le déni de responsabilité ci-après, qui fait partie intégrante du corpus parallèle de l’ONU v1.0, s’applique au corpus (aucune autre restriction ne s’applique):

  • Le corpus parallèle de l’ONU est mis à la disposition des utilisateurs sans aucune garantie d’aucune sorte, ni explicite ni implicite. En particulier, l’Organisation ne garantit ni l’exactitude ni le caractère exhaustif de l’information figurant dans le corpus.
  • L’ONU ne saurait en aucun cas être tenue responsable de tout dommage, préjudice, perte ou obligation dont on ferait valoir qu’ils sont consécutifs à l’utilisation du corpus. L’utilisateur utilise le corpus à ses risques et périls. L’utilisateur reconnaît et convient que l’ONU ne saurait être tenue responsable du comportement de tel ou tel utilisateur. L’utilisateur que ne satisfait pas le contenu figurant dans le corpus n’a d’autre recours que de ne plus l’utiliser.
  • L’utilisateur est tenu de citer la source - l’Organisation des Nations Unies - lorsqu’il fait usage du corpus de documents de l’ONU. Les références au corpus parallèle de l’ONU doivent être exprimées comme suit : Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.
  • Rien dans les présentes conditions d’utilisation ne constitue ni ne saurait être considéré comme une limitation des privilèges et immunités des Nations Unies, ni comme une renonciation à ces privilèges et immunités, que l’ONU se réserve expressément.

Organisation et format des fichiers

Les documents sont organisés en dossiers, classés par langue, année de publication et cote. Les documents ayant une correspondance sont classés selon une arborescence parallèle et les versions traduites dans l’une des langues officielles peuvent être localisées (si elles existent) en suivant la même arborescence dans le sous-dossier de la langue pertinente.

En ce qui concerne les documents individuels, il a été décidé d’appliquer le format TEI utilisé dans le corpus parallèle JRC-Acquis. La structure des paragraphes d’origine a été conservée et les phrases ont été délimitées automatiquement. Les documents pour lesquels il existe plus d’une version par langue sont associés à autant de fichiers qu’il y a de versions, sachant qu’il n’y en a pas plus de 15.

Il existe deux types de distributions : dans le premier, un fichier correspond à un document ; dans le second, des bitextes au format texte brut englobent tous les documents correspondant à une paire de langues et peuvent être utilisés plus aisément par les algorithmes d’entraînement employés dans le cadre de la traduction automatique statistique.

Pour plus de détails sur les modalités de préparation du corpus, voir Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.

Ensembles de données (tests et développement)

Les données provenant des documents publiés en 2015 ont été mises de côté et des ensembles de test et de développement ont été constitués à partir d’elles pour toutes les paires de langues : 100 documents ont été sélectionnés de façon aléatoire - 50 pour l’ensemble de développement et 50 pour l’ensemble de test. Ainsi que cela est le cas pour le sous-corpus qui a fait l’objet d’un alignement complet, toutes les phrases des ensembles de test et de développement sont disponibles pour toutes les langues officielles de l’ONU, et les directions de traduction, quelles qu’elles soient, peuvent être évaluées.

Pour plus de détails sur les références de départ, voir Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.

Métadonnées associées aux documents

Les métadonnées ci-après accompagnent chaque document au format XML:

Cote
Chaque document de l’ONU est associé à une cote qui lui est propre. Les versions linguistiques d’un document portent la même cote. Les cotes se composent de lettres et de chiffres. Certains éléments de la cote ont une signification, d’autres non. En général, la cote n’indique pas le sujet sur lequel porte un document.
Numéro de travail
Il s’agit d’un identificateur unique propre à la version linguistique du document.
Date de publication
Il s’agit de la date de publication du document, qui s’applique à toutes les versions linguistiques. La date de publication ne correspond pas nécessairement à la date à laquelle chaque version linguistique a été diffusée.
Lieu de traitement
Il peut s’agir de New York, Genève ou Vienne.
Mots-clés
Les mots-clés renvoient aux domaines dont il est question dans le document, sur la base de la liste de sujets utilisés par le Système de diffusion électronique des documents (Sédoc), laquelle repose sur le thésaurus du Système d’information bibliographique de l’ONU.