联合国平行语料库(1.0版)由已进入公有领域的联合国正式记录和其他会议文件组成。这些文件多数都有联合国六种语文的文本。本语料库当前版本包含1990至2014年编写并经人工翻译的文字内容,包括以语句为单位对齐的文本。
创立语料库既是表明联合国对多种语文并用的承诺,也是因为统计机器翻译在大会和会议管理部(大会部)各笔译处和联合国统计机器翻译系统Tapta4UN中的作用越来越大。
语料库旨在提供多语种的语言资源,帮助在机器翻译等各种自然语言处理方面开展研究和取得进展。为了方便使用,本语料库还提供现成的特定语种双语文本和六语种平行语料子库。
用户在使用联合国语料库时,须表明联合国是信息来源方。在引用联合国平行语料库时,请注明如下出处:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016 (Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016),联合国平行语料库,语言资源和评测(LREC’16), ,2016年5月,斯洛文尼亚波尔托罗日)。
详细情况请洽询:gtext-support@unov.org。
双语种对齐文件统计数据:
阿文 | 英文 | 西文 | 法文 | 俄文 | 中文 | |
---|---|---|---|---|---|---|
阿文 | – | 111,241 18,539,207 | 113,065 18,578,118 | 112,605 18,281,635 | 111,896 18,863,363 | 91,345 15,595,948 |
英文 | 456,552,223 512,087,009 | – | 123,844 21,911,121 | 149,741 25,805,088 | 133,089 23,239,280 | 91,028 15,886,041 |
西文 | 459,383,823 593,671,507 | 590,672,799 678,778,068 | – | 125,098 21,915,504 | 115,921 19,993,922 | 91,704 15,428,381 |
法文 | 452,833,187 597,651,233 | 668,518,779 782,912,487 | 674,477,239 688,418,806 | – | 133,510 22,381,416 | 91,613 15,206,689 |
俄文 | 462,021,954 491,166,055 | 601,002,317 569,888,234 | 623,230,646 513,100,827 | 691,062,370 557,143,420 | – | 92,337 16,038,721 |
中文 | 387,968,412 387,931,939 | 425,562,909 381,371,583 | 493,338,256 382,052,741 | 498,007,502 377,884,885 | 417,366,738 392,372,764 | – |
表格对角线右上方的单元格中是各语种对的文件数和行数。对角线左下方的单元格中是各语种对的词例数:上边的数字对应所在列标头中的语种;下边的数字对应所在行标头中的语种。由Moses切词器处理后进行词例计数。中文文本在用默认设置的Moses切词器处理前,先用“结巴”切词处理。
文件统计数据
文件总数 | 对齐的文件对数目 |
---|---|
799,276 | 1,727,539 |
全语种对齐的语料子库统计数据
文件数 | 行数 | 英文词例数 |
---|---|---|
86,307 | 11,365,709 | 334,953,817 |
下列免责规定是联合国平行语料库(1.0版本)的组成部分,在使用语料库时须遵守这些规定(无其他限制):
所有文件按语种、出版年份和出版文号分门别类,存放在文件夹中。相对应的文件保存在结构平行的文件夹中,每份文件的任何一种联合国正式语文的译文(如果有)可通过该语种子文件夹的相同文件路径找到。
文件采用JRC-Acquis平行语料库的TEI兼容格式。文件保留原始的段落结构,并自动添加切句标签。对于有多语种文本的文件,各语种对都有相应的关联文档,最多有15个语种对。
除了每个文件有一个关联文档的配给方式,还为每个语种对提供了所有文件的纯文本双语文件,这样更容易用于统计机器翻译训练流水线。
取用了2015年印发的文件中的数据,为所有语种对制作了正式的开发包和测试包。从这些文件中随机选出100份文件,开发包和测试包各用50个。与全语种对齐语料子库的情况相同,开发包和测试包的每个语句都有联合国所有语种的文本,可对所有语种的互译进行评测。