English / Français / Español / Русский / 中文 / العربية

إدارة شؤون الجمعية العامة والمؤتمرات

المتن المتوازي لوثائق الأمم المتحدة

مقدمة

يتألّف الإصدار الأول للمتن المتوازي لوثائق الأمم المتحدة (United Nations Parallel Corpus v1.0) من الوثائق الرسمية للأمم المتحدة وغيرها من الوثائق التداولية المتاحة للعموم. وتتاح غالبية هذه الوثائق باللغات الرسمية الست للأمم المتحدة. ويتضمن الإصدار الحالي من المتن محتوى أُنتج وتُرجم يدويا بين ١٩٩٠ و ٢٠١٤، بما في ذلك محاذاة النصوص على مستوى الجملة.

وقد أنشئ المتن كجزء من التزام الأمم المتحدة بالتعدد اللغوي وكرد فعل على تنامي أهمية الترجمة الآلية الإحصائية داخل دوائر الترجمة في إدارة شؤون الجمعية العامة والمؤتمرات وأهمية نظام Tapta4UN للترجمة الآلية داخل الأمم المتحدة.

والغاية من المتن هي إتاحة الوصول إلى الموارد اللغوية المتعددة اللغات وتيسير البحوث في مختلف مهام معالجة اللغات الطبيعية، بما في ذلك الترجمة الآلية، وإحراز التقدّم فيها. وتلبية للأغراض العملية، يتاح المتن أيضا على شكل نصوص متوازية خاصة بأزواج لغات معيّنة معدّة سلفا وعلى شكل مجموعات فرعية تتضمن المتن المتوازي للوثائق باللغات الست.

وينبغي للمستخدم، عند استخدامه متن الوثائق، أن يذكر الأمم المتحدة بصفتها مصدر المعلومات. وعند الإشارة إلى المتن المتوازي لوثائق الأمم المتحدة، يرجى ذكر هذا المرجع:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.

ولمزيد من الاستفسارات، يرجى الاتصال عبر عنوان البريد الإلكتروني التالي: gtext-support@unov.org.

يرجى تقديم تفاصيل الاتصال وجهة الانتساب والغرض من استخدام متن وثائق الأمم المتحدة

الإحصاءات المتعلّقة بالمتن

الإحصاءات المتعلّقة بالوثائق المتحاذية بحسب زوج اللغات:

العربيةالإنكليزيةالإسبانيةالفرنسيةالروسيةالصينية
العربية٢٤١ ١١١
٢٠٧ ٥٣٩ ١٨
٠٦٥ ١١٣
١١٨ ٥٧٨ ١٨
٦٠٥ ١١٢
٦٣٥ ٢٨١ ١٨
٨٩٦ ١١١
٣٦٣ ٨٦٣ ١٦
٣٤٥ ٩١
٩٤٨ ٥٩٥ ١٥
الإنكليزية٢٢٣ ٥٥٢ ٤٥٦
٠٠٩ ٠٨٧ ٥١٢
٨٤٤ ١٢٣
١٢١ ٩١١ ٢١
٧٤١ ١٤٩
٠٨٨ ٨٠٥ ٢٥
٠٨٩ ١٣٣
٢٨٠ ٢٣٩ ٢٣
٠٢٨ ٩١
٠٤١ ٨٨٦ ١٥
الإسبانية٨٢٣ ٣٨٣ ٤٥٩
٥٠٧ ٦٧١ ٥٩٣
٧٩٩ ٦٧٢ ٥٩٠
٠٦٨ ٧٧٨ ٦٧٨
٠٩٨ ١٢٥
٥٠٥ ٩١٥ ٢١
٩٢١ ١١٥
٩٢٢ ٨٩٣ ١٩
٧٠٤ ٩١
٣٨١ ٤٢٨ ١٥
الفرنسية١٨٧ ٨٣٣ ٤٥٢
٢٣٣ ٦٥١ ٥٩٧
٧٧٩ ٥١٨ ٦٦٨
٤٨٧ ٩١٢ ٧٨٢
٢٣٩ ٤٧٧ ٦٧٤
٨٠٦ ٤١٨ ٦٨٨
٥١٠ ١٣٣
٤١٦ ٣٨١ ٢٢
٦١٣ ٩١
٦٨٩ ٢٠٦ ١٥
الروسية٩٥٤ ٠٢١ ٤٦٢
٠٥٥ ١٦٦ ٤٩١
٣١٧ ٠٠٢ ٦٠١
٢٣٤ ٨٨٨ ٥٦٩
٦٤٦ ٢٣٠ ٦٢٣
٨٢٧ ١٠٠ ٥١٣
٣٧٠ ٠٦٢ ٦٩١
٤٢٠ ١٤٣ ٥٥٧
٣٣٧ ٩٢
٧٢١ ٠٣٨ ١٦
الصينية٤١٢ ٩٦٨ ٣٨٧
٩٣٩ ٩٣١ ٣٨٧
٩٠٩ ٥٦٢ ٤٢٥
٥٨٣ ٣٧١ ٣٨١
٢٥٦ ٣٣٨ ٤٩٣
٧٤١ ٠٥٢ ٣٨٢
٥٠٢ ٠٠٧ ٤٩٧
٨٨٥ ٨٨٤ ٣٧٧
٧٣٨ ٣٦٦ ٤١٧
٧٦٤ ٣٧٢ ٣٩٢

تتضمّن الخلايا الواقعة فوق الخط المائل عدد الوثائق والأسطر لكل زوج من اللغات. وتتضمّن الخلايا الواقعة تحت الخط المائل عدد الوحدات اللغوية لكل زوج من اللغات. ويشير العدد العلوي إلى اللغة المذكورة في عنوان العمود والعدد السفلي إلى اللغة المذكورة في عنوان الصف. وقد أُحصيت الوحدات اللغوية بعد معالجة النصوص بواسطة مقطّع الوحدات اللغوية موزيس (Moses tokenizer). واستُخدم مقطّع الوحدات اللغوية جييبا (Jieba) للغة الصينية، قبل اللجوء إلى مقطّع الوحدات اللغوية موزيس (Moses tokenizer) باستخدام إعداداته الافتراضية.

إحصائيات الوثائق

العدد الإجمالي للوثائقأزواج الوثائق المتحاذية
٢٧٦ ٧٩٩٥٣٩ ٧٢٧ ١

الإحصاءات المتعلّقة بالمتن الفرعي الذي أُنجزت بالكامل عملية المحاذاة الخاصة به

الوثائقالأسطرالوحدات اللغوية باللغة الإنكليزية
٣٠٧ ٨٦٧٠٩ ٣٦٥ ١١٨١٧ ٩٥٣ ٣٣٤

بيان إخلاء المسؤولية وشروط الاستخدام

يشكّل بيان إخلاء المسؤولية أدناه جزءا لا يتجزأ من الإصدار الأول للمتن المتوازي لوثائق الأمم المتحدة (United Nations Parallel Corpus v1.0)، ويجب احترامه في ما يتعلّق بمتن الوثائق (ولا تنطبق أي قيود أخرى):


  • يُتاح المتن المتوازي لوثائق الأمم المتحدة بدون أي نوع من الضمانات، سواء كانت صريحة أو ضمنية. ولا تقدّم الأمم المتحدة أي ضمانات ولا بيانات بشأن دقة وتمام المعلومات الواردة في متن وثائق الأمم المتحدة.
  • لا يجوز في أي حال أن تكون الأمم المتحدة مسؤولة عن أي خسارة أو ضرر أو تلف حصل أو تُكبّد أو زُعم أنه نجم عن استخدام متن وثائق الأمم المتحدة. ويتحمّل المستخدم وحده مسؤولية استخدام متن وثائق الأمم المتحدة. ويعترف المستخدم ويقر تحديدا بعدم مسؤولية الأمم المتحدة عن سلوك أي مستخدم. وإذا كان أي مستخدم غير راضٍ عن المواد المقدمة في متن وثائق الأمم المتحدة، فسبيل الانتصاف الوحيد والحصري المتاح أمامه هو وقف استخدام متن وثائق الأمم المتحدة.
  • ينبغي للمستخدم، عند استخدامه متن الوثائق، أن يذكر الأمم المتحدة بصفتها مصدر المعلومات. وللاطلاع على المراجع، يرجى استخدام المنشور التالي: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
  • لا يرد في إخلاء المسؤولية هذا ما يشكّل أو يعتبر قيدا على امتيازات وحصانات الأمم المتحدة أو تنازلا عنها، سواء صراحة أو ضمنيا، وهذه الامتيازات والحصانات محفوظة على وجه الخصوص.

تنظيم الملفات ونسقها

نُظّمت جميع الوثائق في مجلدات بحسب اللغة وسنة النشر والرمز. ووضعت الوثائق المناظرة في هياكل تتضمّن مجلدات متوازية، ويمكن العثور على ترجمة وثيقة ما في أي من اللغات الرسمية (إذا ما وجدت) بالرجوع إلى مسار الملف ذاته في المجلّد الفرعي للغة المطلوبة.

وفيما يتعلق بفرادى الوثائق، تقرر اتّباع نسق النصوص المتّبع في مبادرة ترميز النصوص TEI المستند إلى متن الوثائق المتوازية المسمّى JRC-Acquis. وتحتفظ الوثائق بهيكل الفقرات الأصلي وأُضيف إليها تقسيم الجمل تلقائيا. وللوثائق المتوفرة بعدة لغات ملفات مناظرة مترابطة لكل زوج من اللغات، يوجد منها ١٥ ملف كحد أقصى.

وبالإضافة إلى نوع توزيع الوثائق القائم على تخصيص وثيقة واحدة لكل ملف، فإننا نوفّر وثائق بنسق نص عادي ووثائق بنسق نصوص متوازية بلغتين، تشمل جميع الوثائق في زوج لغات معيّن، جاهزة للاستخدام في مسارات التدريب على الترجمة الآلية الإحصائية.

وللحصول على مزيد من التفاصيل عن عملية إعداد متن الوثائق، يُرجى الرجوع إلى: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.

المجموعات المعدّة لأغراض الاختبار والتطوير

وضعت البيانات المستقاة من الوثائق التي صدرت في عام ٢٠١٥ جانبا، وأُنشئت مجموعات رسمية لأغراض الاختبار والتطوير في كل أزواج اللغات. واختيرت ١٠٠ وثيقة عشوائيا من هذه الوثائق، ٥٠ وثيقة لمجموعة الاختبار و ٥٠ وثيقة لمجموعة التطوير. وكما هو الحال بالنسبة لمتن الوثائق الفرعي الذي أُنجزت بالكامل عملية المحاذاة الخاصة به، فإن جمل مجموعتي الاختبار والتطوير كلها متاحة في جميع اللغات الرسمية، ويمكن تقييم أي اتجاه من اتجاهات الترجمة.

وللرجوع إلى خط الأساس المتعلّق بالترجمة الآلية، يُرجى الرجوع إلى:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.

البيانات الوصفية للوثائق

أُدرجت المعلومات الوصفية التالية في كل وثيقة في نسق ملفات XML

الرمز
لكل وثيقة من وثائق الأمم المتحدة رمز فريد يعرّفها. وتحمل جميع الصيغ اللغوية لوثيقة ما الرمز نفسه. وتشمل الرموز أحرفا وأرقاما. ولبعض عناصر الرمز معنى، في حين أن عناصر أخرى لا معنى لها. وبصورة عامة، لا يشير رمز الوثيقة بالضرورة إلى موضوعها.
رقم عمل الترجمة
رقم فريد لتعريف الوثيقة خاص بكل لغة.
تاريخ النشر
تاريخ النشر الأصلي للوثيقة بحسب رمزها، وهو ينطبق على جميع الصيغ اللغوية. ولا يوافق هذا التاريخ بالضرورة تاريخ إصدار فرادى الوثائق.
موقع معالجة الوثائق
المواقع الممكنة هي نيويورك وجنيف وفيينا.
الكلمات المفتاح
تشمل الكلمات المفتاح كل المواضيع التي تتناولها الوثيقة، بحسب قائمة مفردات نظام الوثائق الرسمية، الذي يستند إلى مكنز نظام الأمم المتحدة للمعلومات البيبليوغرافية.