بازينجا

جيميناي 3.1 فلاش

جوجل تطلق نموذج «جيميناي 3.1 فلاش» لتحويل النص إلى كلام بقدرات تحكم استثنائية

Written by

Picture of فريقنا

فريقنا

Communications Consultant

أعلنت شركة جوجل عن إطلاق نموذجها الأحدث والأكثر تطورا لتحويل النص إلى كلام، والذي يوفر للمطورين وصناع المحتوى أدوات غير مسبوقة للتحكم الدقيق في نبرة الصوت والمشاعر عبر أكثر من 200 علامة صوتية، مع دعم لأكثر من 70 لغة وتضمين تقنيات العلامات المائية لضمان الموثوقية.

في خطوة تعكس التطور المتسارع في عالم الذكاء الاصطناعي التوليدي، أعلنت شركة «جوجل» يوم الأربعاء عن إطلاق نموذج «جيميناي 3.1 فلاش» المخصص لتحويل النص إلى كلام، والذي تصفه الشركة بأنه النموذج الأكثر قدرة على التعبير وتوفيرا لخيارات التحكم حتى يومنا هذا.

ويأتي هذا الإطلاق ليؤكد التزام الشركة بتوفير أدوات متقدمة للمطورين وصناع المحتوى. وقد أصبح النموذج الجديد متاحا الآن في نسخته التجريبية عبر واجهة برمجة تطبيقات جيميناي، بالإضافة إلى «استوديو جوجل للذكاء الاصطناعي»، ومنصة «فيرتكس إيه آي»، وتطبيق «جوجل فيدز» المخصص لمستخدمي مساحة عمل جوجل.

تحكم دقيق ومتقدم بفضل العلامات الصوتية

من أبرز الميزات التي يقدمها النموذج الجديد هي إمكانية التحكم الدقيق في مخرجات الصوت. حيث يقدم أكثر من 200 علامة صوتية يمكن للمطورين دمجها مباشرة في المدخلات النصية. هذه العلامات تتيح توجيه الأسلوب الصوتي، وسرعة التحدث، واللكنة، وصولا إلى التعبيرات العاطفية بمستوى غير مسبوق من الدقة.

وتتنوع هذه العلامات لتشمل مشاعر معقدة مثل «التصميم» و«الفضول»، وتصل إلى حد توجيه طريقة الإلقاء من خلال إضافة مؤثرات طبيعية مثل «الهمسات» و«الضحكات». وتطلق «جوجل» على هذه الإمكانية اسم «النهج التأليفي» في توليد الصوت، حيث يصبح المستخدم قادرا على رسم ملامح الشخصية الصوتية وكأنه مخرج مسرحي يوجه ممثليه، مما يفتح آفاقا واسعة لإنشاء محتوى صوتي غني ونابض بالحياة يتجاوز مجرد القراءة الآلية للنصوص.

تعدد اللغات ودعم المحادثات المعقدة

على صعيد التنوع اللغوي، صُمم نموذج «جيميناي 3.1 فلاش» ليكون أداة عالمية بامتياز؛ إذ يدعم أكثر من 70 لغة مختلفة، بما في ذلك اللغات واسعة الانتشار مثل الهندية واليابانية والألمانية، وغيرها من اللغات التي تخدم قاعدة مستخدمين عالمية ضخمة. ولتسهيل عملية البدء، يوفر النموذج 30 صوتا مسبق الصنع يمكن للمطورين استخدامها كنقاط انطلاق لتطوير أصواتهم المخصصة.

علاوة على ذلك، يتميز النموذج بقدرته على التعامل مع الحوارات التي تتضمن متحدثين متعددين بشكل أصلي ومدمج. هذه الميزة الثورية تعني الحفاظ على التدفق الطبيعي للمحادثات دون الحاجة إلى إجراء مكالمات منفصلة لواجهة برمجة التطبيقات لكل صوت على حدة. وتستهدف هذه الخاصية بشكل خاص صناع البودكاست، وكتاب السيناريوهات الدرامية، ومطوري واجهات المساعدات الصوتية الذكية، حيث تسهم في تقليل التعقيد البرمجي وتسريع عملية الإنتاج بشكل ملحوظ.

تفوق في الأداء وتصدر في التصنيفات العالمية

لم تقتصر إنجازات النموذج الجديد على الميزات التقنية فحسب، بل أثبت جدارته في اختبارات الأداء المستقلة. فوفقا لما أعلنه «استوديو جوجل للذكاء الاصطناعي»، حقق النموذج درجة تقييم بلغت 1211 نقطة على لوحة صدارة مقياس التحليل الاصطناعي المتخصص في تقنيات تحويل النص إلى كلام.

وقد أشارت منصة التحليل الاصطناعي إلى أن نموذج «جيميناي 3.1 فلاش» احتل المرتبة الثانية في لوحة صدارة الساحة الصوتية الخاصة بها، متفوقا بذلك على نموذج الإصدار الثالث من شركة «إليفن لابز» الشهيرة، وهو ما يعد دليلا واضحا على جودة المخرجات الصوتية التي تقدمها جوجل وقدرتها على المنافسة بقوة في هذا السوق سريع النمو.

موثوقية المحتوى من خلال تقنية العلامات المائية

في ظل المخاوف المتزايدة بشأن إساءة استخدام تقنيات الذكاء الاصطناعي وتوليد المحتوى المزيف، أولت «جوجل» اهتماما بالغا بجانب الأمان والموثوقية. حيث يتم تضمين علامة مائية رقمية في جميع المقاطع الصوتية التي يولدها النموذج باستخدام تقنية «سينث آي دي». وتعتبر هذه التقنية الابتكارية من جوجل بمثابة بصمة غير مرئية أو مسموعة للإنسان، صُممت خصيصا لتحديد المحتوى المولد بواسطة الذكاء الاصطناعي للمساعدة في منع انتشار المعلومات المضللة.

وتؤكد الشركة أن تضمين هذه العلامة المائية يتم بطريقة احترافية وعالية التقنية بحيث لا تؤدي إطلاقا إلى تدهور جودة الصوت، مما يضمن للمستخدمين الحصول على أنقى جودة صوتية ممكنة مع الحفاظ على معايير الأمان والشفافية في الوقت ذاته.

تفاصيل الوصول الفني وحدود الاستخدام

بالنسبة للمطورين والشركات الراغبة في استكشاف قدرات النموذج الجديد، يمكن الوصول إليه من خلال المعرف البرمجي المخصص للنسخة التجريبية عبر واجهة برمجة تطبيقات جيميناي. ويأتي النموذج بحد أقصى لرموز الإدخال يبلغ 8192 رمزا، بينما يصل حد رموز الإخراج إلى 16384 رمزا، مما يوفر مساحة واسعة للتعامل مع النصوص الطويلة والمعقدة في جلسة واحدة.

ويأتي هذا الإطلاق الهام بعد فترة وجيزة من طرح جوجل لنموذج آخر في 25 مارس، وهو نموذج جيميناي 3.1 فلاش المباشر، والذي تم بناؤه خصيصا لتطبيقات الذكاء الاصطناعي التي تعتمد على الصوت الحي وتتطلب معالجة الحوارات في الوقت الفعلي. لتكتمل بذلك منظومة جوجل الصوتية وتقدم حلولا شاملة تلبي كافة احتياجات السوق التكنولوجي المعاصر.

الأسئلة الشائعة

ما هو النموذج الجديد الذي أطلقته جوجل لتحويل النص إلى كلام؟

أطلقت جوجل نموذج «جيميناي 3.1 فلاش»، وهو نظام متطور لتحويل النص إلى كلام يتميز بقدرة تعبيرية فائقة ويتيح للمطورين التحكم في الأداء الصوتي من خلال أكثر من 200 علامة صوتية متخصصة.

كم عدد اللغات التي يدعمها النموذج؟

يدعم النموذج أكثر من 70 لغة عالمية، مثل الهندية واليابانية والألمانية، كما يشتمل على 30 صوتا مسبق الصنع وجاهزا للاستخدام الفوري من قبل صناع المحتوى.

كيف تتعامل جوجل مع مخاوف المعلومات المضللة في هذا النموذج؟

قامت جوجل بتضمين تقنية «سينث آي دي» في النموذج، وهي عبارة عن علامة مائية غير محسوسة تدمج في المقطع الصوتي للتعرف على المحتوى المولد بالذكاء الاصطناعي دون التأثير على جودة الصوت أو نقائه.

ما هي حدود الاستخدام المتاحة للمطورين في النموذج؟

يوفر النموذج سعة كبيرة للبيانات، حيث يبلغ الحد الأقصى لرموز الإدخال 8192 رمزا، في حين يصل الحد الأقصى لرموز الإخراج إلى 16384 رمزا، مما يعزز من كفاءته في معالجة الحوارات الطويلة.

شارك هذا الموضوع:

شارك هذا الموضوع:

اترك رد

اترك رد

الفئات

المنشورات الأخيرة

اكتشاف المزيد من بازينجا

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading