El corpus paralelo de las Naciones Unidas (versión 1.0) se compone de los documentos oficiales y otros textos parlamentarios del dominio público de las Naciones Unidas. La mayoría de los documentos están disponibles en los seis idiomas oficiales de las Naciones Unidas. La presente versión del corpus contiene los textos redactados y traducidos manualmente desde 1990 hasta 2014, alineados por frases.
La creación del corpus obedece al compromiso de las Naciones Unidas con el multilingüismo, y a la importancia creciente de la traducción automática estadística en los servicios de traducción del Departamento de la Asamblea General y de Gestión de Conferencias (DAGGC), así como del sistema de traducción automática de las Naciones Unidas, denominado Tapta4UN.
La finalidad del corpus consiste en fomentar el acceso a un recurso lingüístico multilingüe y facilitar la investigación y el desarrollo en diversas labores de procesamiento del lenguaje natural, entre las cuales está la traducción automática. Para mayor flexibilidad, se distribuye no solo como corpus paralelo en seis idiomas sino también en paquetes de bitextos por pares de idiomas específicos.
Los usuarios del corpus de las Naciones Unidas deben acreditar que las Naciones Unidas son la fuente de los datos. Al citar el corpus paralelo de las Naciones Unidas se debe utilizar la siguiente referencia bibliográfica: Ziemski, M., Junczys-Dowmunt, M., y Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Eslovenia, mayo de 2016.
Puede remitir sus consultas a la dirección siguiente: gtext-support@unov.org.
Estadísticas para documentos alineados por pares:
ar | en | es | fr | ru | zh | |
---|---|---|---|---|---|---|
ar | – | 111.241 18.539.207 | 113.065 18.578.118 | 112.605 18.281.635 | 111.896 18.863.363 | 91.345 15.595.948 |
en | 456.552.223 512.087.009 | – | 123.844 21.911.121 | 149.741 25.805.088 | 133.089 23.239.280 | 91.028 15.886.041 |
es | 459.383.823 593.671.507 | 590.672.799 678.778.068 | – | 125.098 21.915.504 | 115.921 19.993.922 | 91.704 15.428.381 |
fr | 452.833.187 597.651.233 | 668.518.779 782.912.487 | 674.477.239 688.418.806 | – | 133.510 22.381.416 | 91.613 15.206.689 |
ru | 462.021.954 491.166.055 | 601.002.317 569.888.234 | 623.230.646 513.100.827 | 691.062.370 557.143.420 | – | 92.337 16.038.721 |
zh | 387.968.412 387.931.939 | 425.562.909 381.371.583 | 493.338.256 382.052.741 | 498.007.502 377.884.885 | 417.366.738 392.372.764 | – |
Las celdas situadas por encima de la diagonal indican el número de documentos y de líneas para cada par de idiomas. Las celdas situadas por debajo de la diagonal indican el número de tokens (unidades indivisibles de significado) para cada par de idiomas. La cifra superior se refiere al idioma indicado en la columna y la cifra inferior al idioma indicado en la fila. Los tokens se contabilizaron después de haber procesado el texto con el segmentador de tokens de Moses. Para los textos en chino se utilizó Jieba antes de aplicar el segmentador de Moses con los parámetros por defecto.
Estadísticas de documentos
Número total de documentos | Pares de documentos alineados |
---|---|
799.276 | 1.727.539 |
Estadísticas del subcorpus completo alineado
Documentos | Líneas | Tokens en inglés |
---|---|---|
86.307 | 11.365.709 | 334.953.817 |
La presente cláusula de exención de responsabilidad forma parte integrante del corpus paralelo de las Naciones Unidas (versión 1.0) y es de obligado cumplimiento para el uso del corpus (no se impone ninguna otra restricción):
Todos los documentos están organizados en carpetas por idioma, año de publicación y signatura. Las traducciones de cada documento a los demás idiomas se pueden encontrar siguiendo la estructura paralela de carpetas, es decir, para encontrar la traducción de un documento dado a cualquiera de los demás idiomas oficiales (si existe), basta con abrir la misma dirección de archivo (path) en la subcarpeta del idioma buscado.
Para los archivos de cada documento, se decidió utilizar el formato del corpus paralelo JRC-Acquis, basado en el formato TEI. Los documentos conservan la estructura de párrafos original y se han añadido automáticamente las marcas de segmentación de frases. Los documentos que están disponibles en varios idiomas contienen los hipervínculos para cada uno de los pares de idiomas, de los cuales el máximo posible es 15.
Además de esta distribución con un archivo por documento, también ponemos a disposición de los usuarios bitextos en formato de texto simple que contienen todos los documentos existentes para un par de idiomas dado. Estos archivos son más prácticos para entrenar sistemas de traducción automática estadística.
Si desea obtener más información sobre el proceso de preparación del corpus, sírvase consultar la publicación siguiente: Ziemski, M., Junczys-Dowmunt, M., y Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Eslovenia, mayo de 2016.
Con los datos de los documentos publicados en 2015 se crearon sets oficiales de desarrollo y de pruebas para todos los idiomas oficiales. De ese conjunto de documentos se hizo una selección aleatoria de 100 (50 para el set de desarrollo y 50 para el set de pruebas de cada par de idiomas). Al igual que en el subcorpus completo alineado, todas las frases que contienen los sets de desarrollo y de pruebas están disponibles en los seis idiomas oficiales, por lo que es posible evaluar cualquier traducción en ambas direcciones.
Los parámetros de referencia para traducción automática figuran en Ziemski, M., Junczys-Dowmunt, M., y Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Eslovenia, mayo de 2016.
Cada uno de los archivos en formato XML contiene los metadatos siguientes: