يتألّف الإصدار الأول للمتن المتوازي لوثائق الأمم المتحدة (United Nations Parallel Corpus v1.0) من الوثائق الرسمية للأمم المتحدة وغيرها من الوثائق التداولية المتاحة للعموم. وتتاح غالبية هذه الوثائق باللغات الرسمية الست للأمم المتحدة. ويتضمن الإصدار الحالي من المتن محتوى أُنتج وتُرجم يدويا بين ١٩٩٠ و ٢٠١٤، بما في ذلك محاذاة النصوص على مستوى الجملة.
وقد أنشئ المتن كجزء من التزام الأمم المتحدة بالتعدد اللغوي وكرد فعل على تنامي أهمية الترجمة الآلية الإحصائية داخل دوائر الترجمة في إدارة شؤون الجمعية العامة والمؤتمرات وأهمية نظام Tapta4UN للترجمة الآلية داخل الأمم المتحدة.
والغاية من المتن هي إتاحة الوصول إلى الموارد اللغوية المتعددة اللغات وتيسير البحوث في مختلف مهام معالجة اللغات الطبيعية، بما في ذلك الترجمة الآلية، وإحراز التقدّم فيها. وتلبية للأغراض العملية، يتاح المتن أيضا على شكل نصوص متوازية خاصة بأزواج لغات معيّنة معدّة سلفا وعلى شكل مجموعات فرعية تتضمن المتن المتوازي للوثائق باللغات الست.
وينبغي للمستخدم، عند استخدامه متن الوثائق، أن يذكر الأمم المتحدة بصفتها مصدر المعلومات. وعند الإشارة إلى المتن المتوازي لوثائق الأمم المتحدة، يرجى ذكر هذا المرجع:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
ولمزيد من الاستفسارات، يرجى الاتصال عبر عنوان البريد الإلكتروني التالي: gtext-support@unov.org.
الإحصاءات المتعلّقة بالوثائق المتحاذية بحسب زوج اللغات:
العربية | الإنكليزية | الإسبانية | الفرنسية | الروسية | الصينية | |
---|---|---|---|---|---|---|
العربية | – | ٢٤١ ١١١ ٢٠٧ ٥٣٩ ١٨ | ٠٦٥ ١١٣ ١١٨ ٥٧٨ ١٨ | ٦٠٥ ١١٢ ٦٣٥ ٢٨١ ١٨ | ٨٩٦ ١١١ ٣٦٣ ٨٦٣ ١٦ | ٣٤٥ ٩١ ٩٤٨ ٥٩٥ ١٥ |
الإنكليزية | ٢٢٣ ٥٥٢ ٤٥٦ ٠٠٩ ٠٨٧ ٥١٢ | – | ٨٤٤ ١٢٣ ١٢١ ٩١١ ٢١ | ٧٤١ ١٤٩ ٠٨٨ ٨٠٥ ٢٥ | ٠٨٩ ١٣٣ ٢٨٠ ٢٣٩ ٢٣ | ٠٢٨ ٩١ ٠٤١ ٨٨٦ ١٥ |
الإسبانية | ٨٢٣ ٣٨٣ ٤٥٩ ٥٠٧ ٦٧١ ٥٩٣ | ٧٩٩ ٦٧٢ ٥٩٠ ٠٦٨ ٧٧٨ ٦٧٨ | – | ٠٩٨ ١٢٥ ٥٠٥ ٩١٥ ٢١ | ٩٢١ ١١٥ ٩٢٢ ٨٩٣ ١٩ | ٧٠٤ ٩١ ٣٨١ ٤٢٨ ١٥ |
الفرنسية | ١٨٧ ٨٣٣ ٤٥٢ ٢٣٣ ٦٥١ ٥٩٧ | ٧٧٩ ٥١٨ ٦٦٨ ٤٨٧ ٩١٢ ٧٨٢ | ٢٣٩ ٤٧٧ ٦٧٤ ٨٠٦ ٤١٨ ٦٨٨ | – | ٥١٠ ١٣٣ ٤١٦ ٣٨١ ٢٢ | ٦١٣ ٩١ ٦٨٩ ٢٠٦ ١٥ |
الروسية | ٩٥٤ ٠٢١ ٤٦٢ ٠٥٥ ١٦٦ ٤٩١ | ٣١٧ ٠٠٢ ٦٠١ ٢٣٤ ٨٨٨ ٥٦٩ | ٦٤٦ ٢٣٠ ٦٢٣ ٨٢٧ ١٠٠ ٥١٣ | ٣٧٠ ٠٦٢ ٦٩١ ٤٢٠ ١٤٣ ٥٥٧ | – | ٣٣٧ ٩٢ ٧٢١ ٠٣٨ ١٦ |
الصينية | ٤١٢ ٩٦٨ ٣٨٧ ٩٣٩ ٩٣١ ٣٨٧ | ٩٠٩ ٥٦٢ ٤٢٥ ٥٨٣ ٣٧١ ٣٨١ | ٢٥٦ ٣٣٨ ٤٩٣ ٧٤١ ٠٥٢ ٣٨٢ | ٥٠٢ ٠٠٧ ٤٩٧ ٨٨٥ ٨٨٤ ٣٧٧ | ٧٣٨ ٣٦٦ ٤١٧ ٧٦٤ ٣٧٢ ٣٩٢ | – |
تتضمّن الخلايا الواقعة فوق الخط المائل عدد الوثائق والأسطر لكل زوج من اللغات. وتتضمّن الخلايا الواقعة تحت الخط المائل عدد الوحدات اللغوية لكل زوج من اللغات. ويشير العدد العلوي إلى اللغة المذكورة في عنوان العمود والعدد السفلي إلى اللغة المذكورة في عنوان الصف. وقد أُحصيت الوحدات اللغوية بعد معالجة النصوص بواسطة مقطّع الوحدات اللغوية موزيس (Moses tokenizer). واستُخدم مقطّع الوحدات اللغوية جييبا (Jieba) للغة الصينية، قبل اللجوء إلى مقطّع الوحدات اللغوية موزيس (Moses tokenizer) باستخدام إعداداته الافتراضية.
إحصائيات الوثائق
العدد الإجمالي للوثائق | أزواج الوثائق المتحاذية |
---|---|
٢٧٦ ٧٩٩ | ٥٣٩ ٧٢٧ ١ |
الإحصاءات المتعلّقة بالمتن الفرعي الذي أُنجزت بالكامل عملية المحاذاة الخاصة به
الوثائق | الأسطر | الوحدات اللغوية باللغة الإنكليزية |
---|---|---|
٣٠٧ ٨٦ | ٧٠٩ ٣٦٥ ١١ | ٨١٧ ٩٥٣ ٣٣٤ |
يشكّل بيان إخلاء المسؤولية أدناه جزءا لا يتجزأ من الإصدار الأول للمتن المتوازي لوثائق الأمم المتحدة (United Nations Parallel Corpus v1.0)، ويجب احترامه في ما يتعلّق بمتن الوثائق (ولا تنطبق أي قيود أخرى):
نُظّمت جميع الوثائق في مجلدات بحسب اللغة وسنة النشر والرمز. ووضعت الوثائق المناظرة في هياكل تتضمّن مجلدات متوازية، ويمكن العثور على ترجمة وثيقة ما في أي من اللغات الرسمية (إذا ما وجدت) بالرجوع إلى مسار الملف ذاته في المجلّد الفرعي للغة المطلوبة.
وفيما يتعلق بفرادى الوثائق، تقرر اتّباع نسق النصوص المتّبع في مبادرة ترميز النصوص TEI المستند إلى متن الوثائق المتوازية المسمّى JRC-Acquis. وتحتفظ الوثائق بهيكل الفقرات الأصلي وأُضيف إليها تقسيم الجمل تلقائيا. وللوثائق المتوفرة بعدة لغات ملفات مناظرة مترابطة لكل زوج من اللغات، يوجد منها ١٥ ملف كحد أقصى.
وبالإضافة إلى نوع توزيع الوثائق القائم على تخصيص وثيقة واحدة لكل ملف، فإننا نوفّر وثائق بنسق نص عادي ووثائق بنسق نصوص متوازية بلغتين، تشمل جميع الوثائق في زوج لغات معيّن، جاهزة للاستخدام في مسارات التدريب على الترجمة الآلية الإحصائية.
وللحصول على مزيد من التفاصيل عن عملية إعداد متن الوثائق، يُرجى الرجوع إلى:
Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
وضعت البيانات المستقاة من الوثائق التي صدرت في عام ٢٠١٥ جانبا، وأُنشئت مجموعات رسمية لأغراض الاختبار والتطوير في كل أزواج اللغات. واختيرت ١٠٠ وثيقة عشوائيا من هذه الوثائق، ٥٠ وثيقة لمجموعة الاختبار و ٥٠ وثيقة لمجموعة التطوير. وكما هو الحال بالنسبة لمتن الوثائق الفرعي الذي أُنجزت بالكامل عملية المحاذاة الخاصة به، فإن جمل مجموعتي الاختبار والتطوير كلها متاحة في جميع اللغات الرسمية، ويمكن تقييم أي اتجاه من اتجاهات الترجمة.
وللرجوع إلى خط الأساس المتعلّق بالترجمة الآلية، يُرجى الرجوع إلى:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
أُدرجت المعلومات الوصفية التالية في كل وثيقة في نسق ملفات XML