أقرت شركة OpenAI بأن نموذجها اللغوي الأحدث، GPT-5، لا يزال يعاني من مشكلة “الهلوسة”، وهي توليد إجابات تبدو منطقية لكنها تفتقر إلى الصحة، ورغم التحسن الملحوظ في هذا الجانب مقارنة بالإصدارات السابقة، ترى الشركة أن هذه الظاهرة جزء لا يتجزأ من طبيعة عمل النماذج اللغوية، ما يستدعي البحث عن حلول جذرية لها,
### جذور المشكلة في التدريب
تكمن أصول هذه الظاهرة في الطريقة التي تُدرَّب بها هذه الأنظمة، والتي تعتمد على التنبؤ بالكلمة التالية في سياق النص، ورغم أن هذه الآلية تحقق نجاحاً ملحوظاً في الجوانب اللغوية كالقواعد والأسلوب، إلا أنها تعاني قصوراً عند التعامل مع الحقائق الدقيقة أو المعلومات النادرة، وهو ما قد يؤدي إلى تقديم إجابات تبدو واثقة لكنها غير صحيحة على أرض الواقع,
### الدقة ليست الحل الوحيد
أظهرت الاختبارات الداخلية أن تحسين دقة الإجابات لا يضمن بالضرورة تقليل الأخطاء، ففي حين حققت بعض النماذج السابقة معدلات أعلى في الإجابات الصحيحة، إلا أنها أنتجت أيضاً نسبة كبيرة من الإجابات الخاطئة، أما GPT-5، فقد قدم أداءً أقل من حيث الدقة الإجمالية، لكنه أظهر قدرة أكبر على تجنب التخمين في غياب المعرفة، ما جعله أكثر حذراً وأقل عرضة لإنتاج “هلوسات”,
### إعادة النظر في معايير التقييم
ترى OpenAI أن جزءاً من المشكلة يكمن في أساليب تقييم الأداء المتبعة في هذا المجال، حيث تركز معظم المؤشرات على قياس نسبة الإجابات الصحيحة فقط، متجاهلة خطورة نشر معلومات خاطئة على أنها حقائق مؤكدة، لذلك تدعو الشركة إلى تطوير معايير تقييم جديدة تمنح النماذج مساحة للاعتراف بجهلها بدلاً من إجبارها على تقديم إجابات خاطئة بثقة,
### نحو نماذج أكثر موثوقية
بالنسبة للمستخدمين، فإن الرسالة الأساسية هي أن GPT-5 يمثل خطوة إيجابية نحو الحد من “الهلوسة”، لكنه لم يقضِ عليها تماماً، ولا يزال التحدي الأكبر يكمن في تطوير طرق التدريب والتقييم التي تضمن نماذج أكثر موثوقية، وتقلل الفجوة بين ما يبدو صحيحاً وما هو صحيح بالفعل,