«فشل ذكاء اصطناعي»: "شات جي بي تي" يواجه صعوبات في تلخيص الأبحاث العلمية بدقة

يُعدّ تلخيص النتائج العلمية المعقدة لجمهور غير متخصص من أهمّ المهام التي يقوم بها الصحفي العلمي يوميًا، وذُكِر إعداد ملخصات للنصوص المعقدة مرارًا وتكرارًا كأحد أفضل استخدامات نماذج اللغة الكبيرة، وهي نماذج الذكاء الاصطناعي التي تشغل روبوتات الدردشة.

مع وضع كل ذلك في الاعتبار، أجرى فريق الجمعية الأميركية لتقدم العلوم دراسة غير رسمية استمرت عامًا كاملًا، بهدف تحديد ما إذا كان “شات جي بي تي” قادرًا على إنتاج نوع من ملخصات الأخبار الموجزة التي يكتبها فريق “SciPak” التابع للجمعية بانتظام لمجلة “ساينس” العلمية، حيث تتبع هذه المقالات صياغة حددة ومبسطة تنقل المعلومات الأساسية، مثل فرضية الدراسة ومنهجيتها وسياقها، إلى الصحفيين الآخرين الذين قد يرغبون في الكتابة عنها.

هل يستطيع الذكاء الاصطناعي تلخيص الأبحاث العلمية بدقة؟

توصل باحثو الجمعية الأميركية لتقدم العلوم إلى أن “شات جي بي تي” قادر على “محاكاة بنية الموجز العلمي على غرار SciPak بشكل مقبول”، لكنه يقدم نصوصًا “تميل إلى التضحية بالدقة من أجل البساطة” و”تتطلب تدقيقًا دقيقًا للحقائق من قِبل كُتّاب SciPak”، وذلك بحسب تقرير لموقع “Ars Technica” المتخصص في أخبار التكنولوجيا، اطلعت عليه “العربية Business”.

رأي الخبراء في استخدام الذكاء الاصطناعي في الكتابة العلمية

أكدت أبيغيل آيزنشتات، الكاتبة لدى الجمعية الأميركية لتقدم العلوم، أن “هذه التقنيات قد تمتلك إمكانات كأدوات مساعدة للكتّاب العلميين، لكنها ليست جاهزة للاستخدام “بشكل أساسي” في الوقت الحالي بالنسبة لفريق SciPak”.

تفاصيل الدراسة: كيف تم اختبار “شات جي بي تي”؟

من ديسمبر 2023 إلى ديسمبر 2024، اختار باحثو الجمعية ما يصل إلى ورقتين بحثيتين أسبوعيًا لتلخيصهما بواسطة “شات جي بي تي” باستخدام ثلاثة محاور بحثية مختلفة ذات دقة متفاوتة، وركز الفريق على الأوراق البحثية التي تتضمن عناصر صعبة مثل المصطلحات التقنية، والرؤى المثيرة للجدل، والاكتشافات الرائدة، والمشاركين في التجارب العلمية، أو الصيغ غير التقليدية، واستخدمت الاختبارات النسخة “Plus” من أحدث نماذج “GPT” المتاحة للعامة خلال فترة الدراسة، والتي تشغل “شات جي بي تي”.

تقييم الملخصات: كم ورقة بحثية تم تحليلها؟

في المجمل، تم تلخيص 64 ورقة بحثية، وخضعت هذه الملخصات لتقييم كمّي ونوعي من قِبل كُتّاب “SciPak” أنفسهم، الذين أعدّوا الملخصات الأصلية لهذه الأوراق للجمعية.

تحيزات بشرية: هل أثرت على نتائج الدراسة؟

يشير الباحثون إلى أن تصميم هذه الاختبارات “لا يمكنه احتساب التحيزات البشرية”، والتي يمكننا القول إنها قد تكون ذات أهمية لدى الصحفيين الذين يُقيّمون أداةً تُهدد بالسيطرة على إحدى وظائفهم الأساسية.

نتائج الاستطلاع: هل يثق الصحفيون في ملخصات الذكاء الاصطناعي؟

مع ذلك، كانت نتائج الاستطلاع الكمّي بين هؤلاء الصحفيين مُتحيزة إلى حد كبير، ففي سؤال حول إمكانية دمج ملخصات “شات جي بي تي” مع بقية الملخصات التي تنتجها كصحفي، حصل الملخص في المتوسط على درجة 2.26 فقط على مقياس من 1 (“لا، إطلاقًا”) إلى 5 (“بالتأكيد”)، أما فيما يتعلق بمسألة “جاذبية” الملخصات، فقد حصلت ملخصات روبوت الدردشة على درجة 2.14 فقط على نفس المقياس، وفي كلا السؤالين، حصل ملخص واحد فقط على “5” من المُقيِّم البشري في أيٍّ منهما، مقارنةً بـ 30 تقييمًا بقيمة “1”.

أبرز عيوب ملخصات “شات جي بي تي” من وجهة نظر الصحفيين

طُلب من المقيمين البشريين أيضًا كتابة تقييمات نوعية للملخصات الفردية التي قيّموها، وفي هذه التقييمات، اشتكى الكُتّاب من أن “شات جي بي تي” غالبًا ما يخلط بين الارتباط والسببية، ويفشل في توفير السياق، ويميل إلى المبالغة في النتائج من خلال الإفراط في استخدام كلمات مثل “مُبتكر” و”جديد”.

نقاط القوة والضعف: تقييم شامل لأداء “شات جي بي تي” في تلخيص الأبحاث العلمية

بشكل عام، وجد الباحثون أن “شات جي بي تي” عادةً ما يكون جيدًا في “نسخ” ما كُتب في ورقة علمية، خاصةً إذا لم تكن تلك الورقة تحمل الكثير من التفاصيل الدقيقة، لكنه كان ضعيفًا في “ترجمة” تلك النتائج من خلال التعمق في المنهجيات أو القيود أو الدلالات الكبرة.

متى يكون “شات جي بي تي” أقل كفاءة في التلخيص؟

كانت نقاط الضعف هذه واضحة بشكل خاص بالنسبة للأوراق التي قدمت نتائج متعددة ومختلفة، أو عندما طُلب من روبوت الدردشة تلخيص ورقتين بحثيتين مرتبطتين في ملخص واحد.

جدول مقارنة: تقييم أداء “شات جي بي تي”

المعيار	تقييم “شات جي بي تي”
إمكانية الدمج مع ملخصات الصحفيين	2.26 (من 5)
الجاذبية	2.14 (من 5)
الدقة	تميل إلى التضحية بالدقة من أجل البساطة
السياق	غالبًا ما يفشل في توفير السياق