استخدام خوارزمية TSHD والتعلم العميق لاستخراج المعلومات النصية (حالة دراسية: السير الذاتية)
الملخص
يُعد استخراج المعلومات النصية أحد مهام معالجة اللغات الطبيعية الهامة، نظراً لدوره البارز في معالجة البيانات النصية غير المهيكلة واستخراج معلومات مفيدة منها وهيكلتها، مما يتيح المعالجة والتحليل الحاسوبي لها. تُعتبر نماذج الإجابة عن الاسئلة القائمة على الاستخراج النصي أحد تقنيات استخراج المعلومات الحديثة التي أثبتت فعاليتها.
يقدّم هذا البحث طريقة جديدة لتطوير آلية عمل نماذج استخراج المعلومات باالاستفادة من التقطيع باستخدام خوارزمية TSHD. حيث يتم تطبيق الخوارزمية لاستخراج محتويات مقاطع الوثيقة وموضوع كل مقطع، ومن ثم استخراج المعلومات بواسطة النماذج من المقاطع عوضاً عن الوثيقة كاملة.
حققت الطريقة المقترحة تحسين في نتائج تقييم مجموعة من نماذج استخراج المعلومات على هيكلية مجموعة البيانات squad 1.1 في مجال السير الذاتية، حيث ارتفعت قيمة مقياس Exact match بنسبة زيادة وصلت إلى 7.4%، كما ارتفعت قيمة مقياس F1 score بنسبة زيادة وصلت إلى 7.8%.