English / Français / Español / Русский / 中文 / العربية

Организация Объединенных Наций, Департамент по делам Генеральной Ассамблеи и конференционному управлению

Параллельный корпус Организации Объединенных Наций

Описание

Параллельный корпус Организации Объединенных Наций (United Nations Parallel Corpus v1.0) составлен из общедоступных текстов официальных отчетов и других документов заседающих органов Организации Объединенных Наций. Почти все эти документы имеются на всех шести официальных языках Организации Объединенных Наций. В текущей версии корпуса использованы материалы Организации за 1990–2014 годы, переведенные и отредактированные специалистами служб письменного перевода и преобразованные в двуязычные («параллельные») тексты с выравниванием на уровне предложений.

Создание корпуса явилось частью усилий, прилагаемых Организацией Объединенных Наций в целях поощрения многоязычия, и было продиктовано все более широким использованием переводческими службами Департамента по делам Генеральной Ассамблеи и конференционному управлению (ДГАКУ) средств статистического машинного перевода (СМП), включая разработанное специально для Организации СМП-приложение Tapta4UN.

Цель корпуса — обеспечить доступ к многоязычным ресурсам, облегчить информационный поиск и ускорить выполнение различных задач обработки текстов на естественном языке, включая машинный перевод. Для удобства пользователя корпус предлагается также в виде готового комплекта двуязычных текстов («битекстов») на заданных языках и в виде собрания («подкорпуса») параллельных текстов, в котором каждый документ представлен на всех шести языках.

При использовании корпуса текстов Организации Объединенных Наций ссылка на Организацию Объединенных Наций как на источник информации обязательна. При упоминании Параллельного корпуса Организации Объединенных Наций просьба ссылаться на: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.

Дополнительную информацию можно получить, связавшись с нами по адресу: gtext-support@unov.org.

Загрузить

Статистика корпуса

Количественный анализ параллельных текстов в разбивке по языковым парам:

АрАИФРК
Ар111 241
18 539 207
113 065
18 578 118
112 605
18 281 635
111 896
18 863 363
91 345
15 595 948
А 456 552 223
512 087 009
123 844
21 911 121
149 741
25 805 088
133 089
23 239 280
91 028
15 886 041
И 459 383 823
593 671 507
590 672 799
678 778 068
125 098
21 915 504
115 921
19 993 922
91 704
15 428 381
Ф 452 833 187
597 651 233
668 518 779
782 912 487
674 477 239
688 418 806
133 510
22 381 416
91 613
15 206 689
Р 462 021 954
491 166 055
601 002 317
569 888 234
623 230 646
513 100 827
691 062 370
557 143 420
92 337
16 038 721
К387 968 412
387 931 939
425 562 909
381 371 583
493 338 256
382 052 741
498 007 502
377 884 885
417 366 738
392 372 764

В ячейках, расположенных выше диагонального ряда пустых клеток, указано количество документов и строк, имеющихся в каждой языковой паре. В ячейках, расположенных ниже диагонали, указано количество лексем («токенов») для каждой языковой пары. При этом в верхней части каждой ячейки указывается число лексем для языка, указанного в заголовке столбца, а в нижней части — число лексем для языка, указанного в заголовке строки. Лексемы были подсчитаны после обработки «битекстов» при помощи лексического анализатора Moses. Тексты на китайском языке были предварительно обработаны в системе Jieba, а затем проанализированы при помощи Moses с использованием стандартных настроек.

Количество документов в корпусе

ВсегоКоличество выровненных пар документов
799 2761 727 539

Подкорпус параллельных текстов для всех языков

ДокументыСтрокиАнглийские лексемы
86 30711 365 709334 953 817

Отказ от ответственности и условия пользования

Пользователь принимает следующий «Отказ от ответственности», являющийся неотъемлемой частью Параллельного корпусa Организации Объединенных Наций (United Nations Parallel Corpus v1.0) (другие ограничения не применяются):

  • Параллельный корпус Организации Объединенных Наций публикуется без каких-либо гарантий, явно выраженных или подразумеваемых. Организация Объединенных Наций особо указывает на то, что она не дает никаких гарантий или заверений относительно точности или полноты информации, содержащейся в Корпусе Организации Объединенных Наций.
  • Ни при каких обстоятельствах Организация Объединенных Наций не несет ответственности за какие-либо причиненные или понесенные потери, обязательства, вред или ущерб, возникшие якобы в результате использования Корпуса Организации Объединенных Наций. Риск, связанный с использованием Параллельного корпуса Организации Объединенных Наций, ложится исключительно на пользователя. Пользователь прямо подтверждает и соглашается, что Организация Объединенных Наций не несет ответственности за поведение любого пользователя. Если пользователь не удовлетворен материалами, содержащимися в Корпусе Организации Объединенных Наций, то единственное, что он может сделать, — это прекратить пользоваться Корпусом.
  • При использовании Корпуса Организации Объединенных Наций ссылка на Организацию Объединенных Наций как на источник информации обязательна. При оформлении библиографической записи просьба указывать следующую публикацию: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
  • Ничто в настоящих условиях не является и не может считаться ограничением или отказом от привилегий и иммунитетов Организации Объединенных Наций, которые защищены особыми положениями.

Структура и формат файлов

Для каждого языка создается отдельный каталог, внутри которого документы распределяются по подкаталогам по году выпуска, а затем – по условному обозначению публикации. Такая единая для всех языков система организации файлов позволяет без труда определить местонахождение (адрес) документа на языке оригинала в системе и затем отыскать его же в переводе на любой из официальных языков (если таковой имеется), используя аналогичный путь к файлу в каталоге искомого языка.

Для отдельных документов было решено использовать формат TEI Параллельного корпуса документов Европейского союза JRC-Acquis. Документы сохраняют первоначальную структуру деления текста на абзацы (пункты), которые затем автоматически разбиваются на отдельные предложения. Документы, существующие в переводе на несколько языков, соединены с соответствующими файлами для каждой из языковых пар, которых в общей сложности насчитывается не более 15.

В дополнение к пакету, структурированному по принципу «один документ — один файл», мы предлагаем также комплекты битекстов (без форматирования), объединяющие все документы, существующие в заданной языковой паре. Такие комплекты можно практически сразу начинать использовать в процессах «обучения» инструментов СМП.

Подробнее о процессе создания Корпуса см.: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.

Наборы данных для тестов и разработки

Официальные комплекты для разработки и тестирования были созданы по всем языковым парам с использованием данных документации 2015 года. Из этих документов методом произвольной выборки было отобрано 100 документов: 50 для разработки и 50 для тестирования. Как и в случае с многоязычным подкорпусом параллельных текстов, каждое предложение в комплектах для тестирования и разработки воспроизводится на всех официальных языках, что позволяет оценивать перевод в любом направлении.

Подробнее о базовых параметрах машинного перевода см. Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.

Метаданные документов

Каждому документу, преобразованному в файл в формате XML, в обязательном порядке присваиваются метаданные:

Symbol (Условное обозначение)
Каждый документ Организации Объединенных Наций имеет уникальное условное обозначение, которое сохраняется за ним во всех языковых версиях. Условные обозначения состоят из букв и цифр. Некоторые (но не все) элементы условного обозначения несут в себе определенную информацию о документе. Как правило, условное обозначение не отражает тему документа.
Translation job number (Номер переводческой работы)
Уникальный идентификатор для каждого языка.
Publication date (Дата публикации)
Дата первоначального опубликования документа под данным условным обозначением, одинакова для всех языков. Она может не совпадать с фактической датой выпуска каждого отдельного документа.
Processing place (Место публикации)
Это может быть Нью-Йорк, Женева или Вена.
Keywords (Ключевые слова)
Любые затрагиваемые в документе темы/вопросы, имеющиеся в словаре Системы официальной документации (СОД), который составлен на основе тезауруса Библиографической информационной системы Организации Объединенных Наций.