Параллельный корпус Организации Объединенных Наций (United Nations Parallel Corpus v1.0) составлен из общедоступных текстов официальных отчетов и других документов заседающих органов Организации Объединенных Наций. Почти все эти документы имеются на всех шести официальных языках Организации Объединенных Наций. В текущей версии корпуса использованы материалы Организации за 1990–2014 годы, переведенные и отредактированные специалистами служб письменного перевода и преобразованные в двуязычные («параллельные») тексты с выравниванием на уровне предложений.
Создание корпуса явилось частью усилий, прилагаемых Организацией Объединенных Наций в целях поощрения многоязычия, и было продиктовано все более широким использованием переводческими службами Департамента по делам Генеральной Ассамблеи и конференционному управлению (ДГАКУ) средств статистического машинного перевода (СМП), включая разработанное специально для Организации СМП-приложение Tapta4UN.
Цель корпуса — обеспечить доступ к многоязычным ресурсам, облегчить информационный поиск и ускорить выполнение различных задач обработки текстов на естественном языке, включая машинный перевод. Для удобства пользователя корпус предлагается также в виде готового комплекта двуязычных текстов («битекстов») на заданных языках и в виде собрания («подкорпуса») параллельных текстов, в котором каждый документ представлен на всех шести языках.
При использовании корпуса текстов Организации Объединенных Наций ссылка на Организацию Объединенных Наций как на источник информации обязательна. При упоминании Параллельного корпуса Организации Объединенных Наций просьба ссылаться на: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
Дополнительную информацию можно получить, связавшись с нами по адресу: gtext-support@unov.org.
Количественный анализ параллельных текстов в разбивке по языковым парам:
Ар | А | И | Ф | Р | К | |
---|---|---|---|---|---|---|
Ар | – | 111 241 18 539 207 | 113 065 18 578 118 | 112 605 18 281 635 | 111 896 18 863 363 | 91 345 15 595 948 |
А | 456 552 223 512 087 009 | – | 123 844 21 911 121 | 149 741 25 805 088 | 133 089 23 239 280 | 91 028 15 886 041 |
И | 459 383 823 593 671 507 | 590 672 799 678 778 068 | – | 125 098 21 915 504 | 115 921 19 993 922 | 91 704 15 428 381 |
Ф | 452 833 187 597 651 233 | 668 518 779 782 912 487 | 674 477 239 688 418 806 | – | 133 510 22 381 416 | 91 613 15 206 689 |
Р | 462 021 954 491 166 055 | 601 002 317 569 888 234 | 623 230 646 513 100 827 | 691 062 370 557 143 420 | – | 92 337 16 038 721 |
К | 387 968 412 387 931 939 | 425 562 909 381 371 583 | 493 338 256 382 052 741 | 498 007 502 377 884 885 | 417 366 738 392 372 764 | – |
В ячейках, расположенных выше диагонального ряда пустых клеток, указано количество документов и строк, имеющихся в каждой языковой паре. В ячейках, расположенных ниже диагонали, указано количество лексем («токенов») для каждой языковой пары. При этом в верхней части каждой ячейки указывается число лексем для языка, указанного в заголовке столбца, а в нижней части — число лексем для языка, указанного в заголовке строки. Лексемы были подсчитаны после обработки «битекстов» при помощи лексического анализатора Moses. Тексты на китайском языке были предварительно обработаны в системе Jieba, а затем проанализированы при помощи Moses с использованием стандартных настроек.
Количество документов в корпусе
Всего | Количество выровненных пар документов |
---|---|
799 276 | 1 727 539 |
Подкорпус параллельных текстов для всех языков
Документы | Строки | Английские лексемы |
---|---|---|
86 307 | 11 365 709 | 334 953 817 |
Пользователь принимает следующий «Отказ от ответственности», являющийся неотъемлемой частью Параллельного корпусa Организации Объединенных Наций (United Nations Parallel Corpus v1.0) (другие ограничения не применяются):
Для каждого языка создается отдельный каталог, внутри которого документы распределяются по подкаталогам по году выпуска, а затем – по условному обозначению публикации. Такая единая для всех языков система организации файлов позволяет без труда определить местонахождение (адрес) документа на языке оригинала в системе и затем отыскать его же в переводе на любой из официальных языков (если таковой имеется), используя аналогичный путь к файлу в каталоге искомого языка.
Для отдельных документов было решено использовать формат TEI Параллельного корпуса документов Европейского союза JRC-Acquis. Документы сохраняют первоначальную структуру деления текста на абзацы (пункты), которые затем автоматически разбиваются на отдельные предложения. Документы, существующие в переводе на несколько языков, соединены с соответствующими файлами для каждой из языковых пар, которых в общей сложности насчитывается не более 15.
В дополнение к пакету, структурированному по принципу «один документ — один файл», мы предлагаем также комплекты битекстов (без форматирования), объединяющие все документы, существующие в заданной языковой паре. Такие комплекты можно практически сразу начинать использовать в процессах «обучения» инструментов СМП.
Подробнее о процессе создания Корпуса см.: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
Официальные комплекты для разработки и тестирования были созданы по всем языковым парам с использованием данных документации 2015 года. Из этих документов методом произвольной выборки было отобрано 100 документов: 50 для разработки и 50 для тестирования. Как и в случае с многоязычным подкорпусом параллельных текстов, каждое предложение в комплектах для тестирования и разработки воспроизводится на всех официальных языках, что позволяет оценивать перевод в любом направлении.
Подробнее о базовых параметрах машинного перевода см. Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
Каждому документу, преобразованному в файл в формате XML, в обязательном порядке присваиваются метаданные: