يواجه الصحفيون العلميون تحديًا يوميًا يتمثل في تبسيط الأبحاث المعقدة لجمهور أوسع، ويُعد استخدام نماذج اللغة الكبيرة (LLMs)، وهي تقنيات الذكاء الاصطناعي التي تشغل روبوتات الدردشة، أداة واعدة في هذا المجال، خاصة في تلخيص النصوص المعقدة.
في هذا السياق، أجرت الجمعية الأميركية لتقدم العلوم (AAAS) دراسة استمرت عامًا لتقييم قدرة “شات جي بي تي” على إنتاج ملخصات إخبارية موجزة، مشابهة لتلك التي يعدها فريق “SciPak” التابع للجمعية لمجلة “ساينس”، وتهدف هذه الملخصات إلى تقديم المعلومات الأساسية، مثل فرضية الدراسة ومنهجيتها وسياقها، للصحفيين الآخرين المهتمين بالكتابة عن هذه الأبحاث.
هل يستطيع “شات جي بي تي” تلخيص الأبحاث العلمية بدقة؟
توصلت الدراسة إلى أن “شات جي بي تي” قادر على محاكاة بنية الموجز العلمي، لكنه يميل إلى التضحية بالدقة من أجل البساطة، ويتطلب الأمر تدقيقًا دقيقًا من قبل كتاب “SciPak” للتحقق من الحقائق، بحسب تقرير لموقع “Ars Technica”، وعلقت أبيغيل آيزنشتات، الكاتبة لدى الجمعية الأميركية لتقدم العلوم، بأن هذه التقنيات قد تكون أدوات مساعدة قيمة للكتاب العلميين، لكنها ليست جاهزة للاستخدام بشكل كامل في الوقت الحالي.
منهجية الدراسة: تقييم دقة “شات جي بي تي” في تلخيص 64 ورقة بحثية
خلال الفترة من ديسمبر 2023 إلى ديسمبر 2024، قام الباحثون في الجمعية الأميركية لتقدم العلوم باختيار ما يصل إلى ورقتين بحثيتين أسبوعيًا لتلخيصهما بواسطة “شات جي بي تي”، باستخدام ثلاثة محاور بحثية مختلفة ذات دقة متفاوتة، وركز الفريق على الأوراق البحثية التي تتضمن عناصر صعبة مثل المصطلحات التقنية، والرؤى المثيرة للجدل، والاكتشافات الرائدة، والمشاركين في التجارب العلمية، أو الصيغ غير التقليدية، واستخدمت الاختبارات النسخة “Plus” من أحدث نماذج “GPT” المتاحة للعامة خلال فترة الدراسة.
في المجمل، تم تلخيص 64 ورقة بحثية، وخضعت هذه الملخصات لتقييم كمّي ونوعي من قِبل كُتّاب “SciPak” أنفسهم الذين أعدّوا الملخصات الأصلية لهذه الأوراق للجمعية، ويشير الباحثون إلى أن تصميم هذه الاختبارات قد لا يحسب التحيزات البشرية، والتي قد تكون ذات أهمية لدى الصحفيين الذين يُقيّمون أداةً قد تهدد وظائفهم.
النتائج: دقة محدودة وقابلية منخفضة للاستخدام
أظهرت نتائج الاستطلاع الكمّي أن الصحفيين لم يكونوا متحمسين لدمج ملخصات “شات جي بي تي” في عملهم، ففي سؤال حول إمكانية دمج ملخصات “شات جي بي تي” مع بقية الملخصات التي ينتجها الصحفي، حصل الملخص في المتوسط على درجة 2.26 فقط على مقياس من 1 (“لا، إطلاقًا”) إلى 5 (“بالتأكيد”)، وفيما يتعلق بمسألة “جاذبية” الملخصات، فقد حصلت ملخصات روبوت الدردشة على درجة 2.14 فقط على نفس المقياس، وفي كلا السؤالين، حصل ملخص واحد فقط على “5” من المُقيِّم البشري في أيٍّ منهما، مقارنةً بـ 30 تقييمًا بقيمة “1”.
في التقييمات النوعية، اشتكى الكُتّاب من أن “شات جي بي تي” غالبًا ما يخلط بين الارتباط والسببية، ويفشل في توفير السياق، ويميل إلى المبالغة في النتائج من خلال الإفراط في استخدام كلمات مثل “مُبتكر” و”جديد”، وبشكل عام، وجد الباحثون أن “شات جي بي تي” عادةً ما يكون جيدًا في “نسخ” ما كُتب في ورقة علمية، خاصةً إذا لم تكن تلك الورقة تحمل الكثير من التفاصيل الدقيقة، لكنه كان ضعيفًا في “ترجمة” تلك النتائج من خلال التعمق في المنهجيات أو القيود أو الدلالات الكبرة.
كانت نقاط الضعف هذه واضحة بشكل خاص بالنسبة للأوراق التي قدمت نتائج متعددة ومختلفة، أو عندما طُلب من روبوت الدردشة تلخيص ورقتين بحثيتين مرتبطتين في ملخص واحد، وبناءً على هذه النتائج، يمكن القول أن “شات جي بي تي” لا يزال بحاجة إلى تطوير كبير قبل أن يصبح أداة موثوقة للتلخيص العلمي.