Gemini 2.5 Flash ثورة الذكاء الاصطناعي في تحرير الصور تعرف عليها

أعلنت شركة جوجل رسميًا عن إطلاق نموذجها الجديد Gemini 2.5 Flash Image، الذي أطلق عليه مجتمع المطورين اسم "nano-banana"، في خطوة جريئة تعيد صياغة مستقبل إنتاج الصور بالذكاء الاصطناعي

هذا النموذج لا يقتصر فقط على توليد صور جذابة من النصوص، بل يتعداه إلى دمج عدة صور في مشهد واحد، وضمان استمرارية ظهور الشخصيات أو العناصر عبر مختلف اللقطات، بالإضافة إلى تعديل الصور باستخدام اللغة الطبيعية، مع الاستفادة الكاملة من قاعدة بيانات Gemini الضخمة لتحقيق دقة وواقعية لا مثيل لهما

لماذا هذا الإصدار تحديدًا مهم؟

عندما أطلقت جوجل Gemini 2.0 Flash في وقت سابق من هذا العام، أبدى المطورون إعجابهم بسرعة النموذج وتكلفته المنخفضة، لكنهم طالبوا في الوقت نفسه بجودة أعلى وقدرة أكبر على التحكم، وجاء الإصدار الجديد Gemini 2.5 Flash Image استجابة مباشرة لهذه المطالب، حيث يعالج ثلاثة تحديات أساسية

  • الثبات: الحفاظ على الهوية البصرية للشخصيات أو المنتجات أو العلامات التجارية في مختلف الصور
  • الدقة: القدرة على إجراء تعديلات دقيقة على أجزاء معينة من الصورة باستخدام أوامر نصية بسيطة
  • المعرفة السياقية: فهم أعمق للعالم الواقعي، مما يقلل من الأخطاء والمعلومات غير الدقيقة

أبرز المميزات

  • الحفاظ على تناسق ظهور الشخصيات في مشاهد متنوعة
  • دمج الصور المتعددة، وهي تقنية تعرف باسم multi-image fusion
  • إمكانية التحرير المباشر بالاعتماد على الأوامر النصية، مثل إزالة عنصر، تغيير تعبير الوجه، أو تحسين التفاصيل
  • الاستفادة من المعرفة الواقعية التي تتمتع بها نماذج جوجل اللغوية لإنتاج صور أكثر دقة ومصداقية
  • وجود قوالب جاهزة في Google AI Studio لتسهيل عملية التجربة والاستكشاف
  • إضافة علامة مائية غير مرئية باستخدام تقنية SynthID لضمان الاستخدام الأخلاقي

تطبيقات عملية

  • التسويق والإعلانات: إنشاء صور متسقة للمنتجات عبر مختلف الحملات الإعلانية
  • المحتوى الإبداعي: استخدام شخصيات متكررة في القصص المصورة أو مقاطع الفيديو
  • التجارة الإلكترونية: تصميم صور توضيحية جذابة للمنتجات في بيئات مختلفة
  • التعليم: تحويل الرسومات الأولية إلى مخططات تعليمية دقيقة ومفصلة
  • المطورون: بناء أدوات مخصصة لتحرير الصور داخل بيئة AI Studio

السعر والتوفر

يتوفر Gemini 2.5 Flash للمطورين والشركات بسعر 30 دولارًا لكل مليون رمز إخراج، ما يعني أن تكلفة الصورة الواحدة تبلغ حوالي 0.039 دولار فقط

أما بالنسبة لمستخدمي تطبيق Gemini، فيمكنهم الآن الاستفادة من هذه القدرات الجديدة مباشرةً من خلال الأوامر النصية، مع إضافة جوجل علامة مائية مرئية وأخرى رقمية غير مرئية بتقنية SynthID لضمان الشفافية والتأكيد على أن الصور تم إنشاؤها بواسطة الذكاء الاصطناعي

النموذج متاح الآن عبر

  • Gemini API لدمجه مباشرةً في التطبيقات
  • Google AI Studio لتجارب سريعة ومبسطة
  • Vertex AI للاستخدام المؤسسي على نطاق واسع