تفاصيل الوثيقة

نوع الوثيقة : رسالة جامعية 
عنوان الوثيقة :
نهج قائم على المحولات المدربة مسبقاً للتلخيص الاستخراجي والتجريدي للنص العربي
Pre-trained Transformer-Based Approach for Extractive and Abstractive Summarization of Arabic Text
 
الموضوع : كلية الحاسبات وتقنية المعلومات 
لغة الوثيقة : العربية 
المستخلص : التلخيص التلقائي للنص هو موضوع بحث بارز في معالجة اللغة الطبيعية بسبب تنوع وانتشار مصادر المعلومات على الإنترنت. من خلال هذه الدراسة درسنا نوعي التلخيص: الاستخراجي والتجريدي. تعتمد طريقة التلخيص الاستخراجي على اختيار أهم العبارات والجمل من نص الإدخال الرئيسي لإنشاء ملخص جديد دون إعادة تنسيق هذه العبارات والجمل. من ناحية أخرى ، يعتمد التلخيص التجريدي على تلخيص النص الأصلي بعبارات وجمل مختلفة تماماً. تم نشر العديد من الأعمال حول التلخيص التلقائي للغة الإنجليزية للعثور على المنهجيات الأكثر تقدماً والحصول على نتائج متقدمة. ومع ذلك ، فإن البحث في تلخيص النص العربي يتقدم ببطء أكثر بسبب طبيعة اللغة العربية والحاجة إلى المزيد من مجموعات البيانات المرجعية الأساسية. أظهرت العديد من نماذج اللغة المدربة مسبقاً مؤخرًا أداءً ممتازًا في العديد من مهام معالجة اللغة الطبيعية. لقد عملنا على ضبط ومقارنة أداء نموذج { AraBERT} الأساسي ونموذج {QARiB} ونموذج {AraELECTRA}. تم تدريب هذه النماذج باستخدام مجموعات البيانات العربية {KALIMAT} و {EASC} للتلخيص الاستخراجي للنص العربي. ثم تم تقييم الملخصات التي تم إنشاؤها باستخدام حزمة تقييم {ROUGE} باستخدام مقاييس {ROUGE-1} و {ROUGE-2} و {ROUGE-L}. تم تحقيق أفضل النتائج باستخدام نموذج {AraBERT} ، الذي حصل على {0.44} و {0.26} و {0.44} على مجموعة بيانات {KALIMAT}. بالإضافة إلى ذلك ، من أجل تلخيص النص التجريدي العربي ، استخدمنا محول تحويل النص إلى نص نموذج {T5} ، والذي أسفر عن نتائج جيدة. استخدمنا مجموعة بيانات من {267000} مقالة عربية لصقل {AraT5} ، النسخة العربية التي تم إطلاقها حديثاً. تم تقييم النموذج من خلال درجات {ROUGE-1} و {ROUGE-2} و {ROUGE-L} و {BLEU} ، وكانت النتائج {0.494} و {0.339} و {0.469} و {0.4224} على التوالي. استخدمنا أيضاً مجموعة بيانات أخرى تحتوي على {300000 } مقالة وعناوين رئيسية وحققنا درجات التقييم التالية {0.53} و {0.3} و {0.36} و {0.48}. بالإضافة إلى ذلك ، كان نموذج {AraT5} متفوقاً على أحدث الأبحاث التي استخدمت نموذج التسلسل إلى التسلسل {Seq2Seq}. 
المشرف : د.أمل المنصور 
نوع الرسالة : رسالة ماجستير 
سنة النشر : 1445 هـ
2023 م
 
تاريخ الاضافة على الموقع : Friday, November 10, 2023 

الباحثون

اسم الباحث (عربي)اسم الباحث (انجليزي)نوع الباحثالمرتبة العلميةالبريد الالكتروني
ياسمين عينيهEinieh, Yasmin باحثماجستير 

الملفات

اسم الملفالنوعالوصف
 49526.pdf pdf 

الرجوع إلى صفحة الأبحاث