أعلنت شركة «جوجل» يوم الخميس الموافق 26 مارس 2026 عن إطلاق أحدث ابتكاراتها في مجال الذكاء الاصطناعي التوليدي، وهو نموذج «جيميني 3.1 فلاش لايف»، والذي وصفته الشركة صراحة بأنه نموذج الصوت والحديث الأعلى جودة ضمن ترسانتها التقنية حتى الآن. تم تصميم هذا النموذج المتطور بعناية فائقة لدعم المحادثات الطبيعية وتوفير زمن استجابة منخفض للغاية، ليتم دمجه بسلاسة عبر أدوات المطورين، ومنصات الشركات الكبرى، والمنتجات اليومية الموجهة للمستهلكين. تأتي هذه الخطوة الجريئة في إطار سعي الشركة المستمر لتعزيز ريادتها في سباق الذكاء الاصطناعي العالمي، وتقديم حلول تتجاوز التفاعل النصي التقليدي إلى تفاعل صوتي يحاكي التواصل البشري بدقة غير مسبوقة.
معيار جديد في عالم الذكاء الاصطناعي الصوتي
يتوفر النموذج الجديد حاليا كنسخة معاينة متقدمة من خلال واجهة برمجة تطبيقات «جيميني لايف» في منصة «جوجل إي آي ستوديو» المخصصة للمطورين، مما يمنح المبرمجين فرصة مبكرة لدمج هذه التقنية في تطبيقاتهم. كما تم توفيره من خلال خدمة «جيميني إنتربرايز» لتجربة العملاء المخصصة لقطاع الأعمال، بالإضافة إلى ميزتي البحث المباشر و«جيميني لايف» لعموم المستهلكين. وفي هذا السياق، وصف ديميس هاسابيس، الرئيس التنفيذي لشركة «جوجل ديب ماين»، هذا الإطلاق الضخم بأنه
«قفزة كبيرة نحو بناء وكلاء صوتيين من الجيل القادم»
، مشيرا إلى أن التركيز الاستراتيجي للشركة ينصب الآن على جعل الصوت هو وسيلة التفاعل التكنولوجي الأساسية في المستقبل القريب.
أداء فائق في الاختبارات القياسية المعقدة
أثبت النموذج الجديد كفاءة عالية أذهلت الخبراء في الاختبارات القياسية المعقدة للذكاء الاصطناعي. ففي اختبار مقياس استدعاء الوظائف متعددة الخطوات، سجل النموذج نسبة نجاح مبهرة بلغت 90.8%. وفي مقياس تحدي الصوت المتعدد من شركة «سكيل إي آي»، والذي صمم خصيصا لاختبار قدرة الذكاء الاصطناعي على اتباع التعليمات والتفكير المنطقي وسط انقطاعات صوتية وضجيج يحاكي العالم الحقيقي، حقق النموذج نسبة 36.1% عند تفعيل ما يعرف بوضع «التفكير».
وأوضحت «جوجل» أن أبرز ما يميز النموذج هو الفهم النغمي المحسن؛ حيث يمتلك قدرة فريدة على التعرف على الفروق الصوتية الدقيقة، مثل التغيرات في طبقة الصوت وسرعة الكلام. والأهم من ذلك، يمتلك النظام القدرة على تعديل استجاباته ديناميكيا عندما يعبر المستخدمون عن إحباطهم أو ارتباكهم، مما يجعل المحادثة أكثر تفاعلا وتعاطفا، وكأنك تتحدث مع مساعد بشري حقيقي يدرك مشاعرك.
تجربة مستخدم محسنة وتوسع عالمي غير مسبوق
على صعيد المنتجات والتطبيقات الموجهة للمستهلكين الأفراد، يقدم «جيميني لايف» الآن تجربة خالية من التقطعات مع استجابات أسرع بكثير من الإصدارات السابقة. كما يمكن للنموذج الحفاظ على سياق المحادثة لفترة أطول بمرتين مقارنة بالنموذج السابق، مما يتيح للمستخدمين إجراء حوارات ممتدة، ومناقشة مواضيع معقدة دون الحاجة إلى تكرار المعلومات أو تذكير المساعد الذكي بما قيل سابقا.
ولا يقتصر الأمر على ذلك، بل يتيح هذا الإطلاق التكنولوجي توسعا عالميا لميزة البحث المباشر لتشمل أكثر من 200 دولة وإقليم حول العالم. وتأتي هذه الخطوة مدعومة بقدرات متعددة اللغات تكسر حواجز التواصل التقليدية، وتتيح للمستخدمين من مختلف أنحاء العالم الاستفادة من هذه التقنية الرائدة بلغاتهم الأم وبلهجاتهم المحلية بسلاسة تامة.
تبني واسع النطاق من قبل كبرى الشركات
لم يقتصر التأثير الإيجابي لنموذج «جيميني 3.1 فلاش لايف» على الأفراد فحسب، بل امتد بقوة ليشمل قطاع الأعمال والشركات. فقد سارعت شركات عالمية كبرى مثل «فيرايزون» للاتصالات، ومتاجر «هوم ديبوت»، وشركة «لايف كيت» إلى اختبار النموذج ودمجه ضمن آليات عملها اليومية وخدمات دعم العملاء.
- شركة فيرايزون: أكد ممثل عن الشركة أن القدرة المباشرة على تحويل الصوت إلى صوت جعلت الوكلاء الافتراضيين يبدون أكثر طبيعية من أي وقت مضى، وقضت تماما على مشاكل تأخر الاستجابة المزعجة عند نقل المعلومات الحيوية للعملاء عبر الهاتف.
- شركة هوم ديبوت: سلطت الضوء على قدرة النموذج الاستثنائية على التقاط التفاصيل المعقدة والدقيقة، مثل الرموز الأبجدية والرقمية للمنتجات، حتى في بيئات المتاجر الصاخبة التي تتميز بالضجيج المستمر. كما أشادت بقدرة النظام على دعم التبديل المباشر بين اللغات في الوقت الفعلي.
الأمان وحماية المحتوى المولد بالذكاء الاصطناعي
مع التطور السريع وتزايد القدرات التوليدية للصوت، تضع شركة «جوجل» مسألة الأمان والمسؤولية التقنية على رأس أولوياتها. ولضمان الشفافية، تم تزويد جميع المقاطع الصوتية التي يولدها نموذج «جيميني 3.1 فلاش لايف» بتقنية العلامة المائية المتطورة «سينث آي دي». وتعمل هذه التقنية المبتكرة كعلامة غير مرئية وغير مسموعة يتم دمجها بعمق في المخرجات الصوتية، مما يسمح للأدوات التقنية باكتشاف وتحديد المحتوى المولد بواسطة الذكاء الاصطناعي بدقة متناهية، وذلك لمنع التضليل وحماية موثوقية المعلومات.
الجدير بالذكر أن النموذج متاح الآن بالكامل من خلال منصة «جوجل إي آي ستوديو»، حيث يؤكد سجل تغييرات واجهة برمجة التطبيقات الخاص بها توفر معرف المعاينة الخاص بالنموذج للمطورين للبدء في صياغة مستقبل التطبيقات الصوتية الذكية.
الأسئلة الشائعة
ما هو نموذج جيميني 3.1 فلاش لايف؟
هو أحدث نموذج ذكاء اصطناعي صوتي من تطوير شركة جوجل، يتميز بجودة عالية وزمن استجابة منخفض لتسهيل المحادثات الطبيعية وجعلها تحاكي التفاعل البشري.
كيف يتعامل النموذج مع المشاعر البشرية أثناء المحادثة؟
يتميز النموذج بفهم نغمي دقيق؛ حيث يمكنه التعرف على طبقة الصوت وسرعة الكلام، وتعديل استجاباته ديناميكيا ليتماشى مع حالات المستخدمين مثل الإحباط أو الارتباك.
ما هي تقنية سينث آي دي المرفقة مع هذا النموذج؟
هي تقنية علامة مائية غير مرئية تدمجها جوجل في جميع الأصوات المولدة بواسطة هذا النموذج، لتسهيل اكتشاف المحتوى المصنوع بالذكاء الاصطناعي ومنع التضليل الصوتي.
هل النموذج متاح للمستخدمين العاديين أم للشركات فقط؟
النموذج متاح للجميع، حيث يمكن للمطورين استخدامه عبر منصة جوجل إي آي ستوديو، ويمكن للشركات الاستفادة منه في خدمة العملاء، كما يتوفر للمستهلكين عبر ميزتي البحث المباشر وجيميني لايف.