جوجل تكشف عن Veo وImagen 3 أحدث نماذجها لإنشاء وسائط الذكاء الاصطناعي

كل شيء يعتمد على الذكاء الاصطناعي طوال الوقت في Google I/O! أعلنت شركة جوجل عن محركاتها الجديدة لإنشاء وسائط الذكاء الاصطناعي: Veo، والتي يمكنها إنتاج مقاطع فيديو "عالية الجودة" بدقة 1080 بكسل؛ وImagen 3، أحدث إطار عمل لتحويل النص إلى صورة.

لا يبدو أي منهما ثوريًا بشكل خاص، لكنهما وسيلة لـ Google لمواصلة الكفاح ضد نموذج فيديو Sora الخاص بـ OpenAI و Dall-E 3، وهي الأداة التي أصبحت عمليًا مرادفة للصور المولدة بواسطة الذكاء الاصطناعي.

تدعي Google أن Veo لديه "فهم متقدم للغة الطبيعية والدلالات المرئية" لإنشاء أي فيديو يدور في ذهنك. يمكن أن تستمر مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي "لأكثر من دقيقة". Veo قادر أيضًا على فهم التقنيات السينمائية والبصرية، مثل مفهوم الفاصل الزمني. ولكن في الواقع، ينبغي أن يكون ذلك بمثابة رهانات على طاولة نموذج إنشاء فيديو يعمل بالذكاء الاصطناعي، أليس كذلك؟

لإثبات أن Veo لا يسعى لسرقة وظائف الفنانين، عقدت Google أيضًا شراكة مع دونالد جلوفر وGilga، الاستوديو الإبداعي الخاص به، لإظهار قدرات النموذج. في مقطع فيديو ترويجي قصير جدًا، نرى جلوفر وطاقم العمل يستخدمون نصًا لإنشاء فيديو لسيارة مكشوفة تصل إلى منزل أوروبي، ومركب شراعي ينزلق عبر المحيط. وفقًا لجوجل، يمكن لـ Veo محاكاة فيزياء العالم الحقيقي بشكل أفضل من نماذجه السابقة، كما أنه قام بتحسين كيفية عرض لقطات عالية الوضوح.

يقول جلوفر في الفيديو، وهو يكسب راتبه من جوجل: "سيصبح الجميع مخرجًا، ويجب أن يصبح الجميع مخرجًا". "في قلب كل هذا هو مجرد رواية القصص. كلما اقتربنا من أن نكون قادرين على رواية قصصنا لبعضنا البعض، كلما زاد فهمنا لبعضنا البعض."

يبقى أن نرى ما إذا كان أي شخص سيرغب بالفعل في مشاهدة مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي، بعيدًا عن الفضول المرضي المتمثل في رؤية محاولة الآلة لإعادة إنشاء عمل الفنانين البشريين خوارزميًا. لكن هذا لا يمنع Google أو OpenAI من الترويج لهذه الأدوات والأمل في أن تكون مفيدة (أو على الأقل تحقيق قدر كبير من المال). سيكون Veo متاحًا داخل أداة VideoFX من Google اليوم لبعض منشئي المحتوى، وتقول الشركة إنه سيأتي أيضًا إلى YouTube Shorts ومنتجات أخرى. إذا أصبح Veo جزءًا مدمجًا من YouTube Shorts، فهذه ميزة واحدة على الأقل يمكن أن تتفوق عليها Google على TikTok.

أما بالنسبة لـ Imagen 3، فإن جوجل تقدم الوعود المعتادة: يُقال إنها نموذج الشركة "الأعلى جودة" لتحويل النص إلى صورة، مع "مستوى مذهل من التفاصيل" للحصول على "صور واقعية ونابضة بالحياة" وعدد أقل من الأعمال الفنية. سيكون الاختبار الحقيقي، بالطبع، هو معرفة كيفية تعامله مع المطالبات مقارنة بـ Dall-E 3. تقول Google إن Imagen 3 يتعامل مع النص بشكل أفضل من ذي قبل، كما أنه أكثر ذكاءً في التعامل مع التفاصيل من المطالبات الطويلة.

تعمل جوجل أيضًا مع فناني تسجيل مثل Wyclef Jean وBjorn لاختبار Music AI Sandbox، وهي مجموعة من الأدوات التي يمكن أن تساعد في إنشاء الأغاني والإيقاعات. لقد رأينا لمحة سريعة فقط عن هذا، ولكنها أدت إلى بعض العروض التوضيحية المثيرة للاهتمام:

يصبح الذكاء الاصطناعي أكثر ذكاءً يومًا بعد يوم. يبدو أن هذا هو أهم ما تعلمته من أحدث أدوات إنشاء الوسائط من Google. بالطبع إنهم يتحسنون! تنفق جوجل المليارات لجعل حلم الذكاء الاصطناعي حقيقة، كل ذلك في محاولة لامتلاك القفزة العظيمة التالية في مجال الحوسبة. هل أي من هذا سيجعل حياتنا أفضل بالفعل؟ هل سيكونون قادرين على إنتاج الفن بروح حقيقية؟ تحقق مرة أخرى من مؤتمر Google I/O كل عام حتى يظهر الذكاء الاصطناعي العام (AGI) فعليًا، أو تنهار حضارتنا.