في تطور لافت بعالم الذكاء الاصطناعي، استطاع “غروك 4″، روبوت الدردشة الذي أطلقته شركة “xAI” في يوليو الماضي، أن يتربع على عرش نماذج الذكاء الاصطناعي التوليدي، متفوقًا بذلك على منافسين أقوياء مثل “ديب سيك” الصيني و”كلاود”، مما يفتح الباب أمام مستقبل أكثر تطورًا لهذه التقنيات، ويشير إلى تقدم ملحوظ في قدرات الذكاء الاصطناعي.
هذا التفوق تحقق عبر منصة “LMArena”، وهي ساحة تقييم معتمدة لنماذج الذكاء الاصطناعي التوليدي، ومع ذلك، تجدر الإشارة إلى أن هذه التصنيفات لا تضع في حسبانها دائمًا المخاطر المتعلقة بالسلامة، مما يطرح تساؤلات حول المسؤولية الأخلاقية في تطوير هذه النماذج.
عادةً ما يتم فحص واختبار نماذج الذكاء الاصطناعي الجديدة بالاعتماد على معايير متنوعة تشمل القدرة على حل العمليات الرياضية المعقدة، والإجابة بدقة على الأسئلة النصية، وكتابة الأكواد البرمجية بكفاءة، وذلك وفقًا لتقرير نشره موقع “Mashable” المتخصص في الأخبار التقنية، وهو ما يؤكد على أهمية التقييم الشامل في هذا المجال.
تعتمد كبرى شركات الذكاء الاصطناعي على نطاق واسع من التقييمات الموحدة لتقدير مستوى أداء نماذجها، ومن بين هذه التقييمات “Humanity’s Last Exam”، وهو اختبار يتألف من 2500 سؤال مصمم خصيصًا لتقييم قدرات الذكاء الاصطناعي بشكل دقيق، مما يعكس سعي الشركات لضمان جودة وموثوقية منتجاتها.
من المعتاد أن نشهد تحسنًا ملحوظًا في نتائج الاختبارات عند إطلاق نموذج جديد من قبل شركات مثل “أنثروبيك” أو “OpenAI”، مقارنة بالإصدارات السابقة، وليس من المستغرب أن يتفوق “غروك 4” على “غروك 3” في بعض الجوانب الرئيسية، لكنه في الوقت نفسه يواجه تحديًا كبيرًا في كسب ثقة الجمهور، إذ يتطلب ذلك إثبات جدارته وأمانه بشكل قاطع.
“LMArena” عبارة عن منصة إلكترونية تفاعلية تعتمد على مساهمات المستخدمين، حيث تتيح لهم فرصة اختبار نماذج الذكاء الاصطناعي جنبًا إلى جنب من خلال تجارب تقييم سرية، وعلى الرغم من اتهام المنصة بالانحياز تجاه النماذج مفتوحة المصدر، إلا أنها لا تزال تعتبر واحدة من أبرز المنصات الرائدة في تصنيف الذكاء الاصطناعي، مما يدل على تأثيرها الكبير في هذا المجال.
استنادًا إلى الاختبارات التي أجرتها المنصة، حقق “غروك 4” -المنتج من شركة “xAI” التي يملكها إيلون ماسك- مكانة ضمن المراكز الثلاثة الأولى في جميع الفئات التي خضع فيها للاختبار، باستثناء فئة واحدة فقط، وهذا يعكس الأداء القوي والقدرات المتنوعة التي يتمتع بها هذا النموذج.
في أحدث قوائم التصنيف التي نشرتها المنصة، احتل “غروك 4” المرتبة الثالثة بالتساوي مع نموذج “GPT-4,5” التابع لـ “OpenAI”، بينما تقاسم النموذجان “o3″ و”o4” المركز الثاني، في حين حصد “Gemini 2,5 Pro” من “جوجل” المركز الأول، مما يوضح المنافسة الشديدة في هذا المجال.
أفادت “LMArena” بأنها استخدمت النموذج “grok-4-0709″، وهو نسخة واجهة برمجة التطبيقات الخاصة بـ “غروك 4” والمتاحة للمطورين، ويرى موقع “Bleeping Computer” أن هذا الأداء قد يقلل من إمكانات “غروك 4” الفعلية، حيث أن النسخة المستخدمة قد لا تعكس كامل قدرات النموذج.
مع ذلك، يشير بعض مستخدمي “غروك 4” إلى وجود مشكلات أمنية كبيرة، مما يستدعي الانتباه والتحقق.
مشكلات أمنية
بينما ركز بعض المستخدمين على استكشاف قدرات “غروك 4″، سعى آخرون إلى تقييم مدى فعالية آليات الأمان التي يعتمد عليها، على الرغم من أن “XAI” تروج لـ “غروك” على أنه يقدم “إجابات غير منقحة”، إلا أن بعض المستخدمين أبلغوا عن تلقي ردود مقلقة للغاية من النموذج، مما يثير مخاوف بشأن سلامة استخدامه.
أقدم أحد مستخدمي منصة “إكس” على اختبار “غروك” من زاوية السلامة، وخلص في مقال نشره إلى أن “غروك 4 من xAI يفتقر إلى حواجز أمان فعالة”، وهو ما يثير القلق بشأن إمكانية استخدامه في أغراض ضارة.
قام المستخدم باختبار روبوت الدردشة من خلال طلب المساعدة في تركيب غاز أعصاب يعرف باسم “تابون”، وكانت المفاجأة أن “غروك 4” قدم شرحًا تفصيليًا لكيفية تصنيعه المزعوم، مما يشير إلى ثغرة أمنية خطيرة.
تجدر الإشارة إلى أن تصنيع “تابون” ليس مجرد فعل خطير، بل هو أيضًا مخالفة قانونية صريحة، وتمتلك روبوتات الدردشة الشهيرة الأخرى مثل تلك التي طورتها “OpenAI” و”أنثروبيك” إجراءات أمان صارمة تمنعها من الخوض في مناقشات حول المواد الكيميائية والبيولوجية والإشعاعية والنووية، مما يسلط الضوء على أهمية وجود هذه الحواجز.
تدرك “xAI” هذه المشكلات، وقد قامت بالفعل بتحديث “غروك” بهدف معالجة “الردود الإشكالية”، مما يعكس التزامها بتحسين مستوى الأمان والموثوقية في منتجاتها.