نشرت شركة جوجل فيديو تستعرض فيه أحدث من توصلت له من انشاء المقاطع من خلال الذكاء الاصطناعي التوليدي، ويحتوي الفيديو على نماذج من مقاطع تم تصميمها من خلال أداة لوميير Lumiere الجديدة المدمجة مع بارد، والتي جذبت الانتباه بسبب جودة ما يمكن أنشائه من خلال مدخلات نصية أو صور فقط.
تتحرك كبرى الشركات لتطوير أدوات للذكاء الاصطناعي التولدي بشكل مكثف في الفترة الحالية، ورغم تأخر جوجل نسبيًا عن الركب الذي يتصدر فيه Chat GPT من OpenAI، إلا أن عملاق محرك البحث حقق تقدمًا واضحًا في المرحلة الأخيرة.
ونشرت جوجل مقطع فيديو عبر القناة الرسمية على يوتيوب، تستعرض فيه الميزات التي يمكن لـ Lumiere تقديمها، والتي أثارت الانتباه كثيرًا بسبب جوده ما تم تطويره من خلال الأوامر النصية فقط.
بحسب The Verge يستخدم نموذج الذكاء الاصطناعي الجديد لجيل الفيديو من Google Lumiere نموذج تطوير جديد يسمى Space-Time-U-Net، أو STUNet، الذي يحدد مكان وجود الأشياء في الفيديو (الأماكن الفارغة) وكيف تتحرك وتتغير في الوقت نفسه (الزمن).
يُشير التقرير إلى أن هذه الطريقة تتيح لـ Lumiere إنشاء الفيديو في عملية واحدة بدلاً من تجميع الإطارات الثابتة الأصغر معًا.
يبدأ لوميير بإنشاء إطار أساسي من مكونات الصورة، بعد ذلك، يستخدم إطار عمل STUNet للبدء في تقدير المكان أو المساحات في الصورة التي ستتحرك فيها الكائنات داخل هذا الإطار لإنشاء المزيد من الإطارات التي تتدفق إلى بعضها البعض، مما يخلق مظهر الحركة السلسة.
تقول جول أن لوميير يقوم بإنشاء 80 إطارًا في الثانية مقارنة بـ 25 إطارًا من النموذج السابق.
يذكر The Verge أن الفيديو الذي نشرته جوجل يوضح أن أدوات إنشاء الفيديو وتحريره باستخدام الذكاء الاصطناعي قد انتقلت إلى مستوى آخر، بإنشاء مقاطع قريبة إلى حد كبير مع الواقعية.
نعم، لا تزال بعض المقاطع المقدمة يظهر بها لمسة صناعية أثناء الحركة، خاصة عند النظر عن كثب إلى نسيج الجلد أو إذا كان المشهد أكثر حركة، لكن في نموذج مثل فيديو السلحفاة، إنها تتحرك بشكل دقيق بدرجة كبيرة ويبدو واقعيًا.