Naciones Unidas, Departamento de la Asamblea General y de Gestión de Conferencias

Corpus paralelo de las Naciones Unidas

Introducción

El corpus paralelo de las Naciones Unidas (versión 1.0) se compone de los documentos oficiales y otros textos parlamentarios del dominio público de las Naciones Unidas. La mayoría de los documentos están disponibles en los seis idiomas oficiales de las Naciones Unidas. La presente versión del corpus contiene los textos redactados y traducidos manualmente desde 1990 hasta 2014, alineados por frases.

La creación del corpus obedece al compromiso de las Naciones Unidas con el multilingüismo, y a la importancia creciente de la traducción automática estadística en los servicios de traducción del Departamento de la Asamblea General y de Gestión de Conferencias (DAGGC), así como del sistema de traducción automática de las Naciones Unidas, denominado Tapta4UN.

La finalidad del corpus consiste en fomentar el acceso a un recurso lingüístico multilingüe y facilitar la investigación y el desarrollo en diversas labores de procesamiento del lenguaje natural, entre las cuales está la traducción automática. Para mayor flexibilidad, se distribuye no solo como corpus paralelo en seis idiomas sino también en paquetes de bitextos por pares de idiomas específicos.

Los usuarios del corpus de las Naciones Unidas deben acreditar que las Naciones Unidas son la fuente de los datos. Al citar el corpus paralelo de las Naciones Unidas se debe utilizar la siguiente referencia bibliográfica: Ziemski, M., Junczys-Dowmunt, M., y Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Eslovenia, mayo de 2016.

Puede remitir sus consultas a la dirección siguiente: gtext-support@unov.org.

Descarga

Estadísticas del corpus

Estadísticas para documentos alineados por pares:

arenesfrruzh
ar111.241
18.539.207
113.065
18.578.118
112.605
18.281.635
111.896
18.863.363
91.345
15.595.948
en 456.552.223
512.087.009
123.844
21.911.121
149.741
25.805.088
133.089
23.239.280
91.028
15.886.041
es 459.383.823
593.671.507
590.672.799
678.778.068
125.098
21.915.504
115.921
19.993.922
91.704
15.428.381
fr 452.833.187
597.651.233
668.518.779
782.912.487
674.477.239
688.418.806
133.510
22.381.416
91.613
15.206.689
ru 462.021.954
491.166.055
601.002.317
569.888.234
623.230.646
513.100.827
691.062.370
557.143.420
92.337
16.038.721
zh387.968.412
387.931.939
425.562.909
381.371.583
493.338.256
382.052.741
498.007.502
377.884.885
417.366.738
392.372.764

Las celdas situadas por encima de la diagonal indican el número de documentos y de líneas para cada par de idiomas. Las celdas situadas por debajo de la diagonal indican el número de tokens (unidades indivisibles de significado) para cada par de idiomas. La cifra superior se refiere al idioma indicado en la columna y la cifra inferior al idioma indicado en la fila. Los tokens se contabilizaron después de haber procesado el texto con el segmentador de tokens de Moses. Para los textos en chino se utilizó Jieba antes de aplicar el segmentador de Moses con los parámetros por defecto.

Estadísticas de documentos

Número total de documentosPares de documentos alineados
799.2761.727.539

Estadísticas del subcorpus completo alineado

DocumentosLíneasTokens en inglés
86.30711.365.709334.953.817

Cláusula de exención de responsabilidad y condiciones de uso

La presente cláusula de exención de responsabilidad forma parte integrante del corpus paralelo de las Naciones Unidas (versión 1.0) y es de obligado cumplimiento para el uso del corpus (no se impone ninguna otra restricción):

  • El corpus paralelo de las Naciones Unidas se distribuye sin garantía explícita o implícita de ningún tipo. En particular, las Naciones Unidas no dan garantías de ninguna clase ni responden de que la información que contiene el corpus de las Naciones Unidas sea exacta o completa.
  • Las Naciones Unidas no asumirán responsabilidad alguna, en ninguna circunstancia, respecto de los daños, perjuicios, pérdidas o responsabilidades causados o recibidos que puedan derivarse del uso del corpus de las Naciones Unidas. Se entiende que el usuario utiliza el corpus de las Naciones Unidas por su cuenta y riesgo. El usuario reconoce y acepta específicamente que las Naciones Unidas no son responsables de los actos de ningún usuario. Si el usuario no estuviera conforme con alguno de los materiales que contiene el corpus de las Naciones Unidas, el remedio único y exclusivo al que podrá recurrir será dejar de utilizarlo.
  • Al utilizar el corpus de las Naciones Unidas, el usuario debe acreditar que las Naciones Unidas son la fuente de esa información. En la presente publicación se indica cómo citar y referenciar el corpus.
  • Nada de lo dispuesto en las presentes cláusulas se considerará una limitación o una renuncia a las prerrogativas e inmunidades de las Naciones Unidas, que están reservadas específicamente.

Organización y formato de los archivos

Todos los documentos están organizados en carpetas por idioma, año de publicación y signatura. Las traducciones de cada documento a los demás idiomas se pueden encontrar siguiendo la estructura paralela de carpetas, es decir, para encontrar la traducción de un documento dado a cualquiera de los demás idiomas oficiales (si existe), basta con abrir la misma dirección de archivo (path) en la subcarpeta del idioma buscado.

Para los archivos de cada documento, se decidió utilizar el formato del corpus paralelo JRC-Acquis, basado en el formato TEI. Los documentos conservan la estructura de párrafos original y se han añadido automáticamente las marcas de segmentación de frases. Los documentos que están disponibles en varios idiomas contienen los hipervínculos para cada uno de los pares de idiomas, de los cuales el máximo posible es 15.

Además de esta distribución con un archivo por documento, también ponemos a disposición de los usuarios bitextos en formato de texto simple que contienen todos los documentos existentes para un par de idiomas dado. Estos archivos son más prácticos para entrenar sistemas de traducción automática estadística.

Si desea obtener más información sobre el proceso de preparación del corpus, sírvase consultar la publicación siguiente: Ziemski, M., Junczys-Dowmunt, M., y Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Eslovenia, mayo de 2016.

Sets de pruebas y de desarrollo

Con los datos de los documentos publicados en 2015 se crearon sets oficiales de desarrollo y de pruebas para todos los idiomas oficiales. De ese conjunto de documentos se hizo una selección aleatoria de 100 (50 para el set de desarrollo y 50 para el set de pruebas de cada par de idiomas). Al igual que en el subcorpus completo alineado, todas las frases que contienen los sets de desarrollo y de pruebas están disponibles en los seis idiomas oficiales, por lo que es posible evaluar cualquier traducción en ambas direcciones.

Los parámetros de referencia para traducción automática figuran en Ziemski, M., Junczys-Dowmunt, M., y Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Eslovenia, mayo de 2016.

Metadatos de los documentos

Cada uno de los archivos en formato XML contiene los metadatos siguientes:

Signatura
Cada documento de las Naciones Unidas tiene una signatura única. Todas las traducciones de ese documento tienen la misma signatura. Las signaturas se componen de letras y números. Ciertos elementos de las signaturas tienen un significado concreto y otros no. En general, la signatura no indica necesariamente el tema del documento.
Número de trabajo de traducción
Es un identificador único para cada documento en un idioma concreto.
Fecha de publicación
Es la fecha de publicación original del documento con su signatura, y es igual para todos los idiomas. Esta fecha no coincide necesariamente con la fecha efectiva de publicación de cada una de las traducciones del documento.
Lugar de procesamiento
Puede ser Nueva York, Ginebra o Viena.
Palabras clave
Pueden referirse a un número indeterminado de temas con los que está relacionado el documento, y siguen la notación de temas del Sistema de Archivo de Documentos (ODS), que a su vez se basa en el Tesauro del Sistema de Información Bibliográfica de las Naciones Unidas.