Le corpus parallèle de l’ONU v1.0 se compose de documents destinés aux organes délibérants, y compris des documents officiels, qui sont dans le domaine public et qui sont pour la plupart publiés dans les six langues officielles de l’Organisation. Dans sa version actuelle, il regroupe des documents qui ont été produits et traduits manuellement entre 1990 et 2014 et qui ont été alignés phrase par phrase.
Le corpus a été constitué afin de donner suite à l’engagement que l’ONU a pris en faveur du multilinguisme et témoigne de l’importance croissante accordée à la traduction automatique statistique et au système de traduction automatique de l’ONU, Tapta4UN, par les services de traduction du Département de l’Assemblée générale et de la gestion des conférences (DGACM).
Le corpus vise à ouvrir l’accès à des ressources multilingues et à faciliter la recherche et les progrès relatifs à différentes tâches de traitement du langage naturel, y compris la traduction automatique. Pour des raisons de commodité, il est disponible sous forme de paires de langues (bitextes) et sous la forme d’un ensemble parallèle en six langues.
Les utilisateurs sont tenus de citer la source - l’Organisation des Nations Unies - lorsqu’ils font usage du corpus de documents de l’ONU. Les références au corpus parallèle de l’ONU doivent être exprimées comme suit: Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.
Pour de plus amples informations, s’adresser à gtext-support@unov.org.
Statistiques relatives aux paires de documents:
ar | en | es | fr | ru | zh | |
---|---|---|---|---|---|---|
ar | – | 111 241 18 539 207 | 113 065 18 578 118 | 112 605 18 281 635 | 111 896 18 863 363 | 91 345 15 595 948 |
en | 456 552 223 512 087 009 | – | 123 844 21 911 121 | 149 741 25 805 088 | 133 089 23 239 280 | 91 028 15 886 041 |
es | 459 383 823 593 671 507 | 590 672 799 678 778 068 | – | 125 098 21 915 504 | 115 921 19 993 922 | 91 704 15 428 381 |
fr | 452 833 187 597 651 233 | 668 518 779 782 912 487 | 674 477 239 688 418 806 | – | 133 510 22 381 416 | 91 613 15 206 689 |
ru | 462 021 954 491 166 055 | 601 002 317 569 888 234 | 623 230 646 513 100 827 | 691 062 370 557 143 420 | – | 92 337 16 038 721 |
zh | 387 968 412 387 931 939 | 425 562 909 381 371 583 | 493 338 256 382 052 741 | 498 007 502 377 884 885 | 417 366 738 392 372 764 | – |
Les cellules situées au-dessus de la diagonale font référence au nombre de documents et de lignes par paire de langues. Les cellules situées en dessous de la diagonale font référence au nombre de tokens par paire de langues. Le premier nombre fait référence à la langue indiquée dans les en-têtes de colonne, tandis que le second renvoie à celle indiquée dans les en-têtes de rangée. Le nombre de tokens a été établi après traitement au moyen de l’outil de tokénisation fourni avec Moses. Pour le chinois, Jieba a été utilisé avant traitement au moyen de l’outil de tokénisation de Moses, les paramètres par défaut ayant été conservés.
Statistiques concernant les documents
Nombre total de documents | Paires de documents alignés |
---|---|
799 276 | 1 727 539 |
Statistiques concernant le sous-corpus aligné
Documents | Lignes | Tokens anglais |
---|---|---|
86 307 | 11 365 709 | 334 953 817 |
Le déni de responsabilité ci-après, qui fait partie intégrante du corpus parallèle de l’ONU v1.0, s’applique au corpus (aucune autre restriction ne s’applique):
Les documents sont organisés en dossiers, classés par langue, année de publication et cote. Les documents ayant une correspondance sont classés selon une arborescence parallèle et les versions traduites dans l’une des langues officielles peuvent être localisées (si elles existent) en suivant la même arborescence dans le sous-dossier de la langue pertinente.
En ce qui concerne les documents individuels, il a été décidé d’appliquer le format TEI utilisé dans le corpus parallèle JRC-Acquis. La structure des paragraphes d’origine a été conservée et les phrases ont été délimitées automatiquement. Les documents pour lesquels il existe plus d’une version par langue sont associés à autant de fichiers qu’il y a de versions, sachant qu’il n’y en a pas plus de 15.
Il existe deux types de distributions : dans le premier, un fichier correspond à un document ; dans le second, des bitextes au format texte brut englobent tous les documents correspondant à une paire de langues et peuvent être utilisés plus aisément par les algorithmes d’entraînement employés dans le cadre de la traduction automatique statistique.
Pour plus de détails sur les modalités de préparation du corpus, voir Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.
Les données provenant des documents publiés en 2015 ont été mises de côté et des ensembles de test et de développement ont été constitués à partir d’elles pour toutes les paires de langues : 100 documents ont été sélectionnés de façon aléatoire - 50 pour l’ensemble de développement et 50 pour l’ensemble de test. Ainsi que cela est le cas pour le sous-corpus qui a fait l’objet d’un alignement complet, toutes les phrases des ensembles de test et de développement sont disponibles pour toutes les langues officielles de l’ONU, et les directions de traduction, quelles qu’elles soient, peuvent être évaluées.
Pour plus de détails sur les références de départ, voir Ziemski, M., Junczys-Dowmunt, M., et Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovénie, mai 2016.
Les métadonnées ci-après accompagnent chaque document au format XML: