أعلنت شركة Runway عن إطلاق نموذجها الجديد Gen-4.5 لتحويل النص إلى فيديو، مدعية أنه يحقق «دقة جسدية غير مسبوقة» وواقعية سينمائية. مع تحسينات في ديناميكيات السوائل والحركة الواقعية، يشتد السباق مع Sora من OpenAI لجعل التمييز بين الحقيقي والمزيف أصعب من أي وقت مضى.
محتويات المقالة:
- سباق الواقعية في توليد الفيديو
- Gen-4.5: دقة جسدية ومرئية فائقة
- الفيزياء الواقعية: الحركة والوزن والسوائل
- التحكم الأسلوبي والواقعية الصورية
- المنافسة مع Sora من OpenAI
- القيود والتحديات المستمرة
- أسئلة شائعة
سباق الواقعية في توليد الفيديو
تتطور تقنية تحويل النص إلى فيديو بوتيرة مذهلة، حيث تتنافس الشركات الناشئة وعمالقة التكنولوجيا على تطوير نماذج قادرة على إنتاج مقاطع فيديو واقعية بشكل لا يصدق بمجرد كتابة وصف نصي. في أحدث التطورات، تدعي شركة Runway، إحدى الشركات الرائدة في هذا المجال، أن أحدث نموذج لها، Gen-4.5، يولد صوراً أكثر دقة من سابقه، مما يطمس الخطوط الفاصلة بين المحتوى الحقيقي والمولد بالذكاء الاصطناعي.
Gen-4.5: دقة جسدية ومرئية فائقة
في إعلانها يوم الاثنين، قالت Runway إن نموذج Gen-4.5 يمكنه إنتاج «مخرجات سينمائية وواقعية للغاية». وأضاف الإعلان: «يحقق Gen-4.5 دقة جسدية غير مسبوقة ودقة بصرية فائقة». هذا يشير إلى قفزة كبيرة في قدرة النموذج على فهم العالم المادي ومحاكاته في الفيديو.
وذكرت الشركة أن النموذج الجديد أفضل في الالتزام بالتعليمات النصية (prompts)، مما يسمح له بإنتاج مشاهد مفصلة ومعقدة دون المساس بجودة الفيديو الإجمالية.
الفيزياء الواقعية: الحركة والوزن والسوائل
أحد أكبر التحديات في توليد الفيديو بالذكاء الاصطناعي هو محاكاة الحركة والفيزياء بشكل مقنع. غالباً ما تبدو الحركات في النماذج السابقة غير طبيعية أو تفتقر إلى الوزن. تدعي Runway أن Gen-4.5 يعالج هذه المشكلة بشكل مباشر.
تقول الشركة إن الكائنات المولدة بالذكاء الاصطناعي «تتحرك بوزن وزخم وقوة واقعية». بالإضافة إلى ذلك، تدعي الشركة أن السوائل «تتدفق بديناميكيات مناسبة». تعتبر محاكاة السوائل، مثل الماء أو الدخان، من أصعب التحديات التقنية، وتحقيق تقدم في هذا المجال يعد إنجازاً كبيراً.
التحكم الأسلوبي والواقعية الصورية
تقول Runway أيضاً إن نموذج Gen-4.5 أفضل في التعامل مع الأنماط المرئية المختلفة، مما يسمح له بإنتاج صور واقعية ومنمقة وسينمائية أكثر اتساقاً. هذا التنوع مهم للمبدعين الذين يرغبون في تحقيق مظهر أو شعور معين في مقاطع الفيديو الخاصة بهم.
ولكن الادعاء الأكثر جرأة هو أن الصور الواقعية التي تم إنشاؤها باستخدام Gen-4.5 يمكن أن تكون «لا يمكن تمييزها عن اللقطات الحقيقية بتفاصيل ودقة نابضة بالحياة». إذا كان هذا صحيحاً، فإنه يثير أسئلة مهمة حول مستقبل إنتاج المحتوى وإمكانية إساءة استخدام هذه التكنولوجيا لإنشاء تزييف عميق مقنع.
المنافسة مع Sora من OpenAI
تأتي هذه التطورات في الوقت الذي تكثف فيه OpenAI جهودها لجعل مقاطع الفيديو التي يولدها الذكاء الاصطناعي تبدو أكثر واقعية. سلطت OpenAI الضوء على الترقيات في الفيزياء مع إصدار نموذجها Sora 2 لتحويل النص إلى فيديو في سبتمبر، مؤكدة على قدرته على محاكاة ديناميكيات السوائل والطفو بدقة. المنافسة بين Runway و OpenAI تدفع حدود ما هو ممكن في هذا المجال بسرعة فائقة.
القيود والتحديات المستمرة
على الرغم من هذه التطورات المثيرة للإعجاب، لا يزال هناك بعض القيود. أقرت الشركة بأن النموذج قد لا يزال يواجه مشكلات في «ثبات الكائن» (object permanence) – أي الحفاظ على هوية الكائنات ثابتة طوال الفيديو حتى لو غابت عن المشهد مؤقتاً.
كما قد يواجه النموذج صعوبة في «التفكير السببي» (causal reasoning)، مما يعني أن التأثيرات قد تحدث قبل السبب، مثل فتح الباب قبل أن يستخدم شخص ما المقبض. هذه القيود تذكرنا بأنه على الرغم من أن الذكاء الاصطناعي قد قطع شوطاً طويلاً في محاكاة الواقع، إلا أنه لا يزال يفتقر إلى فهم حقيقي للعالم المادي وقوانينه بنفس الطريقة التي يفهمها البشر. يتم طرح Gen-4.5 لجميع المستخدمين تدريجياً، وسيكون من المثير للاهتمام رؤية كيف سيستخدمه المبدعون.
أسئلة شائعة
س: ما هو نموذج Runway Gen-4.5؟
ج: هو أحدث نموذج ذكاء اصطناعي من شركة Runway مصمم لتحويل الأوصاف النصية إلى مقاطع فيديو عالية الجودة وواقعية.
س: ما هي التحسينات الرئيسية في Gen-4.5؟
ج: التحسينات الرئيسية تشمل «دقة جسدية غير مسبوقة»، وفيزياء أكثر واقعية لحركة الكائنات وديناميكيات السوائل، والالتزام الأفضل بالتعليمات النصية المعقدة، وتحكم أسلوبي محسن.
س: هل يمكن تمييز مقاطع الفيديو المولدة بواسطة Gen-4.5 عن الحقيقة؟
ج: تدعي شركة Runway أن الصور الواقعية التي ينتجها النموذج يمكن أن تكون «لا يمكن تمييزها عن اللقطات الحقيقية» في بعض الحالات، مما يشير إلى مستوى عالٍ جداً من الواقعية الصورية.
س: ما هي القيود التي لا تزال موجودة في النموذج؟
ج: لا يزال النموذج يواجه تحديات في فهم «ثبات الكائن» (استمرار وجود الأشياء حتى لو لم تكن مرئية) و «التفكير السببي» (فهم العلاقة بين السبب والنتيجة بشكل صحيح).