«حماية استباقية» أنثروبيك تكشف عن آلية مبتكرة لتحصين نموذج كلود اللغوي ضد الاستغلال المسيء

في خطوة مبتكرة، كشفت شركة أنثروبيك عن إضافة فريدة لبعض نماذج الذكاء الاصطناعي “كلود” الحديثة، وهي القدرة على إنهاء الحوارات التي تتضمن محتوى ضارًا أو مسيئًا بشكل تلقائي، و الأمر المثير للاهتمام هو أن الشركة عزت هذا الإجراء ليس لحماية المستخدمين، بل لحماية النموذج نفسه من “التفاعلات النادرة والمتطرفة” على حد وصفهم، في خطوة تثير التساؤلات حول مستقبل العلاقة بين الذكاء الاصطناعي والبشر.

جدير بالذكر أن “أنثروبيك” أكدت أن “كلود” ليس كيانًا واعيًا أو قابلاً للتأذي، و لكنها أعلنت عن برنامج بحثي جديد تحت عنوان “رعاية النماذج” لتقييم الإجراءات التي قد تقلل من المخاطر الأخلاقية المحتملة في المستقبل، وذلك وفقًا لتقرير نشره موقع “تك كرانش” اطلعت عليه “العربية Business”

نطاق الميزة الجديدة

تقتصر هذه الميزة المستحدثة حاليًا على الإصدارين Claude 4 وClaude 4.1، ولا يتم تفعيلها إلا في الحالات القصوى، مثل:

الطلبات التي تتضمن محتوى جنسيًا يتعلق بالأطفال القصر.
محاولات الحصول على معلومات قد تستخدم في أعمال عنف أو إرهاب.

“ضيق واضح” في الاختبارات الداخلية

خلال الاختبارات التي أجرتها الشركة داخليًا، لوحظ أن نموذج Claude Opus 4 أظهر “ضيقًا واضحًا” عندما واجه مثل هذه الطلبات، مفضلاً تجاهلها بدلاً من الاستجابة لها.

آلية إنهاء المحادثة

وفقًا لتصريحات “أنثروبيك”، سيتم اللجوء إلى إنهاء المحادثة كحل أخير بعد استنفاد جميع المحاولات الأخرى لإعادة توجيه الحوار، أو إذا طلب المستخدم نفسه إيقاف النقاش.