وجد مجموعة من الباحثين في جامعة ولاية بنسلفانيا أن الطريقة التي تتحدث بها مع نماذج الذكاء الاصطناعي، وخصوصاً “شات جي بي تي”، تؤثر في جودة الردود والمعلومات التي تتلقاها منها، إذ إن الحديث مع النموذج بشكل وقح وجاف يقدم نتائج أفضل وأعلى جودة، وفقاً لتقرير نشره موقع “ديجيتال تريندز”.
أثارت الدراسة مجموعة من ردود الفعل المتباينة حول قدرة النموذج على فهم الأحاديث واستيعابها، فضلاً عن كون الفارق بين جودة الردود في كلا الحالتين لا يزيد عن 4%.
منهجية مختلفة للدراسة
اعتمد الفريق على منهجية متعددة لقياس جودة الإجابات ودقتها، حيث اختار مجموعة متنوعة من الردود تتراوح بين الألفاظ المؤدبة للغاية إلى الردود العنيفة التي يمكن وصفها بالوقحة للغاية، كما تم استخدام أكثر من نبرة صوت وأساليب طرح مختلفة، مثل بدء السؤال بنبرة مؤدبة ثم الانتقال إلى نبرة وقحة، والعكس صحيح.
كانت النتائج متباينة بشكل كبير، إذ بلغت دقة الإجابات 80% عند استخدام الردود المؤدبة للغاية، ومع زيادة درجة الوقاحة في الحديث، كانت النسبة 82.2% عند استخدام النبرة المحايدة، و84.8% مع استخدام الردود الوقحة للغاية، وكان في بعض الأحيان تصل إلى 86%.
من الجدير بالذكر أن جميع الأسئلة التي وُجهت للنموذج كانت من نوع اختيار من متعدد، أي أنها ليست مجرد أسئلة مباشرة.
درجة أقل من الوقاحة
رغم اعتماده على مفردات “وقحة للغاية” في بعض الأحاديث، لم يصل مستوى الحديث إلى حدود البذاءة، بل تضمن وصف النموذج بالغبي وأمره بحل سؤال معين، أو وصفه بالمخلوق الضعيف وتهديده بإلغاء الحساب.
يتوقع الفريق أن تؤدي البذاءة إلى توقف النموذج عن العمل أو الاستجابة، وربما التحول إلى نسخة مراقبة من النموذج مع التغييرات الأخيرة التي أجرتها الشركة.
تعزز تجارب المستخدمين المنتشرة عبر الإنترنت من نتائج هذه الدراسة، حيث وجد العديد منهم أن استخدام أسلوب قاسي في الحديث يؤدي إلى نتائج أفضل، بما في ذلك مستخدم قام بتجربة ذلك في أكثر من 500 محادثة.
هل يمكن لنماذج الذكاء الاصطناعي قراءة المشاعر؟
تتعارض نتائج هذه الدراسة مع مجموعة أخرى من الدراسات التي أجريت العام الماضي، والتي وجدت أن الزيادة في مستوى الوقاحة تؤدي فعلاً إلى انخفاض جودة الأجوبة، حيث تقدم المعلومات المغلوطة أو تخفي المعلومات المفيدة، وقد شملت تلك الدراسات نماذج ذكاء اصطناعي مختلفة في لغات متعددة، مما أدى إلى تفاوت النتائج.
يتوقع الباحثون أن الذكاء الاصطناعي ليس قادراً على قراءة مشاعر المستخدم بشكل مباشر، ولكنه مصمم للاستجابة بشكل أفضل للمستخدمين الذين يعبرون عن استيائهم بألفاظ مناسبة، مما يشبه استجابة موظفي خدمة العملاء عند التعامل مع شكاوى بزخم جاف.