联合国大会和会议管理部

联合国平行语料库

前言

联合国平行语料库(1.0版)由已进入公有领域的联合国正式记录和其他会议文件组成。这些文件多数都有联合国六种语文的文本。本语料库当前版本包含1990至2014年编写并经人工翻译的文字内容,包括以语句为单位对齐的文本。

创立语料库既是表明联合国对多种语文并用的承诺,也是因为统计机器翻译在大会和会议管理部(大会部)各笔译处和联合国统计机器翻译系统Tapta4UN中的作用越来越大。

语料库旨在提供多语种的语言资源,帮助在机器翻译等各种自然语言处理方面开展研究和取得进展。为了方便使用,本语料库还提供现成的特定语种双语文本和六语种平行语料子库。

用户在使用联合国语料库时,须表明联合国是信息来源方。在引用联合国平行语料库时,请注明如下出处:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016 (Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016),联合国平行语料库,语言资源和评测(LREC’16), ,2016年5月,斯洛文尼亚波尔托罗日)

详细情况请洽询:gtext-support@unov.org。

请填写您的联系方式和相关身份,并说明使用联合国语料库的用途。


语料库统计数据

双语种对齐文件统计数据:

阿文英文西文法文俄文中文
阿文111,241
18,539,207
113,065
18,578,118
112,605
18,281,635
111,896
18,863,363
91,345
15,595,948
英文 456,552,223
512,087,009
123,844
21,911,121
149,741
25,805,088
133,089
23,239,280
91,028
15,886,041
西文 459,383,823
593,671,507
590,672,799
678,778,068
125,098
21,915,504
115,921
19,993,922
91,704
15,428,381
法文 452,833,187
597,651,233
668,518,779
782,912,487
674,477,239
688,418,806
133,510
22,381,416
91,613
15,206,689
俄文 462,021,954
491,166,055
601,002,317
569,888,234
623,230,646
513,100,827
691,062,370
557,143,420
92,337
16,038,721
中文387,968,412
387,931,939
425,562,909
381,371,583
493,338,256
382,052,741
498,007,502
377,884,885
417,366,738
392,372,764

表格对角线右上方的单元格中是各语种对的文件数和行数。对角线左下方的单元格中是各语种对的词例数:上边的数字对应所在列标头中的语种;下边的数字对应所在行标头中的语种。由Moses切词器处理后进行词例计数。中文文本在用默认设置的Moses切词器处理前,先用“结巴”切词处理。

文件统计数据

文件总数对齐的文件对数目
799,2761,727,539

全语种对齐的语料子库统计数据

文件数行数英文词例数
86,30711,365,709334,953,817

免责规定和使用条款

下列免责规定是联合国平行语料库(1.0版本)的组成部分,在使用语料库时须遵守这些规定(无其他限制):

  • 我们不为联合国平行语料库提供任何明确或暗中的保证。具体而言,联合国对联合国语料库中的信息是否准确或完整不作任何保证或陈述。
  • 对据说因使用联合国语料库而造成或遭受的损失、责任、伤害或损害,联合国概不负责。用户自行承担使用联合国语料库的风险。用户明确承认并同意联合国不对任何用户的行为负责。如果用户不满意联合国语料库提供的资料,唯一仅有的补救办法是停止使用联合国语料库。
  • 用户在使用联合国语料库时,须承认联合国是信息来源方。引用时请使用本出版物。
  • 本规定的任何内容不构成、也不得视为明确或暗中限制或放弃联合国具体保留的特权和豁免。

文件存储方式和格式

所有文件按语种、出版年份和出版文号分门别类,存放在文件夹中。相对应的文件保存在结构平行的文件夹中,每份文件的任何一种联合国正式语文的译文(如果有)可通过该语种子文件夹的相同文件路径找到。

文件采用JRC-Acquis平行语料库的TEI兼容格式。文件保留原始的段落结构,并自动添加切句标签。对于有多语种文本的文件,各语种对都有相应的关联文档,最多有15个语种对。

除了每个文件有一个关联文档的配给方式,还为每个语种对提供了所有文件的纯文本双语文件,这样更容易用于统计机器翻译训练流水线。

关于语料库准备工作的详细信息,请参见:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016 (Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016),联合国平行语料库,语言资源和评测(LREC’16), ,2016年5月,斯洛文尼亚波尔托罗日)

测试包和开发包

取用了2015年印发的文件中的数据,为所有语种对制作了正式的开发包和测试包。从这些文件中随机选出100份文件,开发包和测试包各用50个。与全语种对齐语料子库的情况相同,开发包和测试包的每个语句都有联合国所有语种的文本,可对所有语种的互译进行评测。

关于机器翻译的基线结果,请参见:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016 (Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016),联合国平行语料库,语言资源和评测(LREC’16), ,2016年5月,斯洛文尼亚波尔托罗日)

文件元数据

每份XML文件格式的文件都内置下列元数据信息:

文号
联合国每份文件都有一个唯一文号。每份文件的联合国所有语种文本共用同一个文号。文号包含字母和数字。文号的某些部分有含义,其余部分无含义。一般而言,文号并不表明文件议题。
翻译工号
系唯一的单语文件标识符。
出版日期
系文件的原始出版日期,按文号提供,每份文件的联合国所有语种文本共用同一个出版日期。出版日期并不对应具体语种文件的印发日期。
处理地点
可以是纽约,也可以是日内瓦或维也纳。
关键词
关键词包括文件所涉及的联合国正式文件系统专题词汇表界定的若干专题。专题词汇表是根据联合国书目信息系统叙词表编制的。