أعلنت ويكيميديا عن إطلاق قاعدة بيانات جديدة، تهدف إلى جعل المعارف الثرية المتوفرة في موسوعة ويكيبيديا أكثر سهولة للوصول والاستفادة من قبل نماذج الذكاء الاصطناعي.
تفاصيل المشروع والتقنيات المستخدمة
يُعرف هذا المشروع الرائد باسم “مشروع تضمين ويكيدا”، ويعتمد بشكل أساسي على تقنية البحث الدلالي القائم على المتجهات، وهي آلية متطورة تمكن الأنظمة الحاسوبية من فهم دلالات الكلمات والعلاقات المعقدة فيما بينها. تُطبق هذه التقنية المتقدمة على البيانات الشاسعة المتوفرة في ويكيبيديا ومنصاتها الشقيقة، والتي تضم ما يقارب 120 مليون مدخل معلوماتي فريد.
تسهيل الوصول عبر بروتوكول نموذج السياق
يتزامن إطلاق المشروع مع تقديم دعم حديث لبروتوكول “نموذج السياق” (MCP)، وهو معيار محوري يسهل على أنظمة الذكاء الاصطناعي التواصل بفعالية مع مصادر البيانات المختلفة، مما يتيح للمشروع تيسير الوصول إلى المعلومات من خلال استفسارات اللغة الطبيعية القادمة من نماذج اللغة الكبيرة (LLMs).
شركاء التنفيذ
تم تنفيذ هذا المشروع الطموح بواسطة فرع ويكيميديا في ألمانيا، وذلك بالتعاون الوثيق مع شركتين رائدتين؛ الأولى هي Jina.AI، المتخصصة في مجال البحث العصبي، والثانية هي DataStax، وهي شركة رائدة في تدريب البيانات في الوقت الفعلي، ومملوكة لشركة آي بي إم العالمية.
تطوير إمكانيات البحث والاسترجاع
لطالما وفرت ويكيدا بيانات قابلة للقراءة آليًا من ممتلكات ويكيميديا، لكن الأدوات السابقة كانت مقيدة بالبحث القائم على الكلمات الرئيسية واستعلامات SPARQL، وهي لغة استعلام متخصصة.
على النقيض، يعمل النظام الجديد بكفاءة أعلى مع أنظمة التوليد المعزز بالاسترجاع (RAG)، التي تمكن نماذج الذكاء الاصطناعي من استقطاب معلومات خارجية موثوقة، مما يمنح المطورين فرصة لا تقدر بثمن لبناء نماذجهم استنادًا إلى المعرفة المدققة والمتحقق منها من قبل محرري ويكيبيديا.
تنظيم البيانات والسياق الدلالي
لم يقتصر المشروع على تسهيل الوصول، بل تم تنظيم البيانات أيضًا بطريقة توفر سياقًا دلاليًا غنيًا، فعلى سبيل المثال، عند الاستعلام عن كلمة “عالم” في قاعدة البيانات، ستظهر قوائم تفصيلية تتضمن علماء نوويين بارزين، وعلماء آخرين عملوا في مختبرات بيل الشهيرة.
بالإضافة إلى ذلك، تتضمن القاعدة ميزات إضافية لتعزيز الفهم الدلالي، منها:
- ترجمات دقيقة لكلمة “عالم” إلى لغات متعددة.
- صور معتمدة من ويكيميديا لعلماء في بيئة عملهم.
- استخراج مفاهيم مرتبطة وذات صلة مثل “باحث” و”عالم متفوق”.
التوفر والفعاليات القادمة
باتت قاعدة البيانات متاحة للجمهور الآن عبر منصة Toolforge، وستستضيف ويكيدا أيضًا ندوة عبر الإنترنت للمطورين المهتمين بهذا المشروع في التاسع من أكتوبر، لتقديم المزيد من التفاصيل والدعم.
أهمية البيانات عالية الجودة في عصر الذكاء الاصطناعي
يأتي إطلاق هذا المشروع في توقيت حاسم، حيث يتسابق مطورو الذكاء الاصطناعي بشكل محموم للحصول على مصادر بيانات عالية الجودة، والتي تُعد ضرورية لتحسين أداء نماذج الذكاء الاصطناعي وتطويرها.
في ظل التطور المستمر، أصبحت أنظمة التدريب أكثر تعقيدًا، وغالبًا ما تُصمم كبيئات تدريب متكاملة بدلًا من مجرد مجموعات بيانات بسيطة، ومع ذلك، فإنها لا تزال تتطلب بيانات منظمة بعناية فائقة لضمان أفضل أداء ونتائج.
بالنسبة للتطبيقات التي تتطلب مستويات عالية من الدقة، أصبح الحصول على بيانات موثوقة أمرًا لا غنى عنه، ورغم أن بعض المصادر مثل ويكيبيديا قد تُستخف بها أحيانًا، إلا أن بياناتها تميل لأن تكون أكثر دقة وواقعية بكثير مقارنة بمجموعات البيانات الشاملة مثل Common Crawl، وهي مجموعة ضخمة من صفحات الويب المستخلصة من الإنترنت.
تكلفة البيانات الموثوقة
يمكن أن يؤدي السعي للحصول على بيانات عالية الجودة إلى تكاليف باهظة لمختبرات الذكاء الاصطناعي، وفي هذا السياق، تبرز بعض الأمثلة على التكاليف المترتبة:
الحدث | التفاصيل | التكلفة التقريبية |
---|---|---|
تسوية قضائية لشركة “أنثروبك” | دعوى قضائية مع مؤلفين تم استخدام أعمالهم كمادة تدريب. | 1.5 مليار دولار أمريكي. |
هذا المبلغ يعكس التحديات المالية التي قد تواجهها الشركات لتأمين البيانات اللازمة مع مراعاة حقوق الملكية الفكرية، ويسلط الضوء على قيمة المصادر المفتوحة مثل ويكيبيديا.
رؤية المشروع واستقلاليته
في تصريح صحفي، أكد فيليب سعدي، مدير مشروع ويكيدا للذكاء الاصطناعي، على استقلالية المشروع التامة عن مختبرات الذكاء الاصطناعي الكبرى أو عمالقة شركات التكنولوجيا.
وصرح سعدي قائلًا: “إن إطلاق هذا المشروع يبرهن أن الذكاء الاصطناعي القوي لا ينبغي أن يكون حكرًا على عدد قليل من الشركات، بل يمكن أن يكون مفتوحًا، وتعاونيًا، ومبنيًا لخدمة الجميع حقًا”.