بازينجا

توربو كوانت

جوجل تطلق «توربو كوانت»: ثورة في تسريع نماذج الذكاء الاصطناعي وتقليص استهلاك الذاكرة

Written by

Picture of فريقنا

فريقنا

Communications Consultant

كشفت جوجل للأبحاث عن خوارزمية ضغط مبتكرة لا تحتاج إلى تدريب، قادرة على تقليل استهلاك ذاكرة نماذج اللغات الكبيرة بستة أضعاف وتسريع الأداء بثمانية أضعاف، مما يبشر بقفزة هائلة في كفاءة الذكاء الاصطناعي.

أعلنت إدارة الأبحاث في شركة جوجل عن إطلاق خوارزمية ضغط جديدة ومبتكرة تحمل اسم «توربو كوانت»، والتي تمثل طفرة نوعية في تقنيات تسريع نماذج اللغات الكبيرة. تتميز هذه الخوارزمية بقدرتها الفائقة على تقليص المساحة التي تستهلكها ذاكرة التخزين المؤقت للمفاتيح والقيم، والمعروفة تقنيا في مجال النماذج اللغوية، بما لا يقل عن 6 أضعاف. والأهم من ذلك، أن هذا الضغط الهائل يترافق مع تسريع عمليات حساب الانتباه بما يصل إلى 8 أضعاف، وكل ذلك يتحقق دون الحاجة إلى إعادة تدريب النموذج الأساسي أو إجراء أي عمليات ضبط دقيق، مما يجعلها أداة جاهزة للتطبيق الفوري.

تجاوز عنق الزجاجة في ذاكرة النماذج اللغوية

مع تطور النماذج اللغوية الكبيرة وزيادة قدرتها على معالجة نصوص أطول ومعلومات أكثر تعقيدا، برزت مشكلة استهلاك الذاكرة كعقبة رئيسية أمام المطورين. تعتمد هذه النماذج على تخزين سياق المحادثات والمعلومات السابقة في ذاكرة التخزين المؤقت للمفاتيح والقيم، ومع زيادة حجم البيانات المدخلة، تتضخم هذه الذاكرة بشكل هائل وتتسبب في إبطاء عمليات الاستنتاج وتوليد النصوص. جاءت خوارزمية «توربو كوانت» لتقدم حلا جذريا لهذه المشكلة، حيث صممت خصيصا للتعامل مع متطلبات الذاكرة العالية، مما يفتح آفاقا جديدة لتطبيقات الذكاء الاصطناعي التي تتطلب معالجة سريعة وفعالة في بيئات الإنتاج الفعلية.

نهج مزدوج مستوحى من نظرية شانون

يعود الفضل في تطوير هذه الخوارزمية الثورية إلى فريق من الباحثين المتميزين يضم أمير زندية، ومجيد دليري، ومجيد هاديان، ووهاب ميروكني. اعتمد الفريق في بناء الخوارزمية على نهج متطور يتكون من مرحلتين أساسيتين، مستمد من نظرية ترميز المصدر للعالم كلود شانون. تركز المرحلة الأولى، التي أطلق عليها الباحثون اسم «بولار كوانت»، على تدوير متجهات الإدخال بشكل عشوائي، ثم إعادة كتابة أزواج الإحداثيات على شكل طول وزاوية. تتيح هذه الطريقة إنتاج تمثيل مضغوط للبيانات يتجنب الاعتماد على الثوابت الدقيقة لكل كتلة، وهي الثوابت التي تؤدي عادة إلى تضخم حجم التخزين في عمليات التكميم التقليدية.

أما المرحلة الثانية من الخوارزمية، فتعتمد على تطبيق تحويل رياضي يعرف باسم «تحويل جونسون-ليندنشتراوس الكمي» بنظام 1 بت على الخطأ المتبقي من المرحلة الأولى. تعمل هذه الخطوة الدقيقة على تصحيح الانحياز الخفي في الجداء الداخلي، والذي من شأنه أن يؤدي إلى تدهور دقة درجات الانتباه في النماذج اللغوية إذا ترك دون معالجة. وقد لخص أحد الملخصات التقنية للمشروع هذه العملية ببراعة قائلا: «إن المرحلة الأولى تخزن الشكل الأساسي للذاكرة، بينما تخزن المرحلة الثانية ملاحظة تصحيح صغيرة جدا تكاد تكون مجانية».

أداء استثنائي وتوافق تام

أثبتت التجارب أن دمج كلتا المرحلتين يؤدي إلى ضغط ذاكرة التخزين المؤقت إلى حوالي 3 بتات لكل قناة فقط. وقد أشار التقرير البحثي إلى تحقيق «حياد مطلق في الجودة» عند مستوى 3.5 بت، بينما لم تظهر سوى تراجعات طفيفة جدا وغير مؤثرة عند مستوى 2.5 بت. وخلال الاختبارات المعملية التي أجريت باستخدام وحدات معالجة الرسومات القوية من نوع إنفيديا إتش 100، تمكنت نسخة 4 بت من الخوارزمية من تحقيق تسريع بلغ 8 أضعاف في حساب درجات الانتباه مقارنة بالنسخة القياسية غير المضغوطة ذات 32 بت.

تم التحقق من كفاءة الخوارزمية باستخدام معايير اختبار صارمة للنصوص الطويلة، مثل «لونغ بنش» و«زيرو سكرولز»، وجرى تطبيقها بنجاح على نماذج متقدمة مثل «جيما» و«ميسترال». ولا تقتصر فوائد هذه التقنية على الاستنتاج في النماذج اللغوية فحسب، بل تفوقت أيضا على تقنيات التكميم الحالية في مهام البحث عن أقرب جار، حيث حسنت من معدلات الاسترجاع وقلصت وقت الفهرسة إلى ما يقرب من الصفر.

جاهزية للعمل واستشراف المستقبل

نظرا لأن هذه الخوارزمية تتجاهل طبيعة البيانات ولا تتطلب أي ضبط مخصص لمجموعات بيانات معينة، يمكن إدراجها كطبقة جاهزة ضمن النماذج الحالية بسهولة تامة. وقد أكدت أبحاث جوجل في إعلانها أن هذه الطريقة مثالية لأعباء عمل الاستنتاج في بيئات الإنتاج الحية، بالإضافة إلى مهام البحث الدلالي واسع النطاق؛ وهي المجالات التي أصبحت فيها حركة مرور ذاكرة التخزين المؤقت تمثل عنق الزجاجة الرئيسي.

من الجدير بالذكر أن الورقة البحثية الخاصة بهذا الابتكار قد نُشرت لأول مرة على منصة أرخايف في أبريل 2025، ومن المقرر أن يتم تقديمها رسميا وعرض تفاصيلها التقنية المعمقة خلال المؤتمر الدولي لتمثيل التعلم في عام 2026، مما يؤكد أهميتها ومكانتها في صياغة مستقبل البنية التحتية للذكاء الاصطناعي.

الأسئلة الشائعة

ما هي خوارزمية توربو كوانت التي أطلقتها جوجل؟

هي خوارزمية ضغط مبتكرة لا تتطلب تدريبا مسبقا، صُممت لتقليص استهلاك الذاكرة في نماذج اللغات الكبيرة بستة أضعاف، وتسريع حسابات الانتباه بثمانية أضعاف دون الحاجة إلى ضبط دقيق للنماذج الأساسية.

كيف تعمل هذه الخوارزمية من الناحية التقنية؟

تعتمد على نهج من مرحلتين مستوحى من نظرية شانون؛ المرحلة الأولى تحول البيانات إلى طول وزاوية لتقليل مساحة التخزين، والمرحلة الثانية تستخدم تحويلا رياضيا بنظام 1 بت لتصحيح أي أخطاء محتملة في حسابات النماذج.

هل تؤثر الخوارزمية الجديدة على جودة النماذج اللغوية؟

أثبتت الاختبارات أن الخوارزمية تحافظ على حياد مطلق في الجودة عند مستوى 3.5 بت، مع حدوث تراجع طفيف للغاية وغير مؤثر عند تقليل الضغط إلى 2.5 بت، مما يعني أنها تحافظ على كفاءة النموذج بشكل شبه كامل.

ما هي الأجهزة والنماذج التي تم اختبار الخوارزمية عليها؟

تم اختبارها على وحدات معالجة الرسومات من نوع إنفيديا إتش 100، وجرى التحقق من كفاءتها باستخدام نماذج لغوية بارزة مثل جيما وميسترال ضمن معايير مخصصة للنصوص الطويلة.

شارك هذا الموضوع:

شارك هذا الموضوع:

اترك رد

اترك رد

الفئات

المنشورات الأخيرة

اكتشاف المزيد من بازينجا

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading