أعلنت “أوبن إيه آي” عن إطلاق معيار جديد ومبتكر، أطلقت عليه اسم “GDPVal”، لتقييم أداء نماذج الذكاء الاصطناعي المختلفة، وذلك في سياق المهام والاستخدامات اليومية التي تتعلق بالأعمال الروتينية، وقد تم الكشف عن هذا المعيار الجديد في تقرير نشره موقع “تيك رادار” التقني المتخصص.
###
معيار GDPVal: قياس الأداء في مهام العالم الحقيقي
يعتمد معيار “GDPVal” بشكل أساسي على قياس وتقييم أداء نماذج الذكاء الاصطناعي المتنوعة، وذلك من خلال مقارنة أدائها في مهام العمل المعتادة التي تحدث في العالم الحقيقي، مع أداء العنصر البشري في 44 مهنة مختلفة، ويُعد هذا المعيار خطوة هامة نحو فهم أفضل لقدرات الذكاء الاصطناعي في بيئات العمل الفعلية.
###
تفوق Claude Opus 4.1 في الأداء
أظهرت نتائج الدراسة التي أجرتها “أوبن إيه آي” بالاعتماد على معيار “GDPVal” الجديد، أن نموذج “Claude Opus 4.1” من شركة “آنثروبيك” قد حقق الأداء الأفضل في إنجاز المهام المحددة، متفوقًا بذلك على نماذج الذكاء الاصطناعي الأخرى مثل “شات جي بي تي 5″ و”جيميناي” و”غروك”، ويؤكد هذا التفوق على التطور المستمر في قدرات نماذج الذكاء الاصطناعي المختلفة.
###
نتائج مقارنة الأداء بين النماذج
كشفت الدراسة عن تفاصيل دقيقة حول أداء كل نموذج من نماذج الذكاء الاصطناعي التي تم اختبارها، حيث أظهرت النتائج أن “Claude Opus 4.1” تفوق على الخبراء البشريين في إنجاز المهام بنسبة 47.6% من المرات، بينما حقق “شات جي بي تي 5″ نسبة 38.8%، و”غروك 4″ حقق نسبة 24.3%، و”جيميناي 2.5 برو” حقق نسبة 25.5%، وتوضح هذه الأرقام التفاوت في قدرات النماذج المختلفة، وتؤكد على أهمية إجراء مثل هذه الدراسات لتقييم الأداء.
| النموذج | نسبة التفوق على الخبراء البشريين |
| —————— | ———————————— |
| Claude Opus 4.1 | 47.6% |
| شات جي بي تي 5 | 38.8% |
| غروك 4 | 24.3% |
| جيميناي 2.5 برو | 25.5% |
###
Claude Opus 4.1 يتصدر في مختلف الصناعات
لم يقتصر تفوق “Claude Opus 4.1” على الأداء العام فحسب، بل امتد ليشمل مختلف الصناعات، حيث أظهر النموذج أداءً متميزًا في 8 من أصل 9 صناعات مختلفة، بما في ذلك القطاعات الحكومية والصحية والمساعدة الاجتماعية، وشملت المهام التي طُلبت من النموذج أشياء مثل كتابة رسائل البريد الإلكتروني، والرد على العملاء المنزعجين، وتحسين الجداول، وتدقيق الأسعار، ويشير هذا إلى قدرة النموذج على التكيف مع متطلبات العمل المختلفة في مجموعة واسعة من الصناعات.
###
مساعي أوبن إيه آي لتقييم نماذج الذكاء الاصطناعي
تأتي هذه الدراسة في إطار جهود “أوبن إيه آي” المستمرة لتحقيق دراسة معمقة لنماذج الذكاء الاصطناعي المختلفة، حتى وإن كانت منافسة لها، إذ طرحت الشركة منذ عدة أسابيع دراسة أخرى أظهرت أكثر الاستخدامات شيوعا في “شات جي بي تي”، وتؤكد هذه الجهود على التزام الشركة بتوفير رؤى شاملة حول قدرات وتطبيقات الذكاء الاصطناعي.
###
فريق الأبحاث الاقتصادية والتعاون مع الخبراء
يُذكر أن فريق الأبحاث الاقتصادية الموجود في شركة “أوبن إيه آي” كان مسؤولاً عن هذه الدراسة، وذلك بالتعاون مع الخبير الاقتصادي ديفيد ديمينج من مكتب البحوث الاقتصادية الوطني، ويشير هذا التعاون إلى أهمية الجمع بين الخبرة التقنية والاقتصادية لتقديم تقييم شامل وموثوق لأداء نماذج الذكاء الاصطناعي.
###
تحسينات مستقبلية في شات جي بي تي
تعمل “أوبن إيه آي” على تقديم مجموعة من التحسينات على نموذج “شات جي بي تي”، من بينها إمكانية الشراء مباشرة من داخل النموذج بالتعاون مع منصة “إيتسي” (Etsy) و”شوبيفاي” (Shopify)، فضلا عن طرح مزايا الرقابة الأبوية داخل “شات جي بي تي” للمراهقين، وتعكس هذه التحسينات التزام الشركة بتطوير نموذج “شات جي بي تي” ليصبح أكثر فائدة وأمانًا للمستخدمين من جميع الأعمار.