الإنتاجية, علوم

«ميتا» ومزاعم التحسين المفتعل!

Written by

فريقنا

Communications Consultant

نفت إحدى قيادات «ميتا» المزاعم بأن الشركة تلاعبت بتدريب نماذج لامّا 4 للحصول على نتائج فائقة في الاختبارات المعيارية. ويعكس هذا الجدل دور «معالجة اللغات الطبيعية» في تشكيل سمعة نماذج الذكاء الاصطناعي وموثوقيتها.

فريقنا

نفت إحدى قيادات «ميتا» المزاعم بأن الشركة تلاعبت بتدريب نماذج لامّا 4 للحصول على نتائج فائقة في الاختبارات المعيارية. ويعكس هذا الجدل دور «معالجة اللغات الطبيعية» في تشكيل سمعة نماذج الذكاء الاصطناعي وموثوقيتها.

محتويات المقالة:

خلفية الشائعة
الرد الرسمي من ميتا
أداء متباين للنماذج
تحديات الشفافية
دور المستخدمين في الحكم
مستقبل مصداقية النماذج
الأسئلة الشائعة

خلفية الشائعة

انتشرت مؤخراً إشاعات على منصات التواصل الاجتماعي تزعم أن «ميتا» استخدمت مجموعة اختبارات لغوية معيارية في تدريب نسختها المسمّاة «لامّا 4 مافريك» و«لامّا 4 سكاوت»، بغرض تحسين النتائج في تلك الاختبارات تحديداً وإظهار تفوّق زائف. وقد بدأت القصة من منشورٍ مجهول في منصة صينية، ادّعى كاتبُه أنه موظف سابق استقال احتجاجاً على هذه الممارسات.

أول تجربة صحفية مولدة بالكامل بالذكاء الاصطناعي

الرد الرسمي من ميتا

صرّح أحمد الضاحلي، نائب رئيس الذكاء الاصطناعي لدى «ميتا»، عبر منشورٍ له بأن الادعاءات «خاطئة تماماً». وأكد أن «ميتا» لم تُضمّن أي بيانات خاصة بالاختبارات ضمن مجموعة التدريب، مشدداً على أن استنتاج الأداء المتميز للنموذج من قبل بعض المنصات البحثية لا يعني التلاعب أو التزوير.

أداء متباين للنماذج

أثار مستخدمون شكوكاً بعدما لاحظوا تفاوتاً بين أداء «لامّا 4» الذي ظهر على منصة «إل إم أرينا» وأداء النسخة ذاتها المتاحة للتحميل العام. وذكروا أن النموذج في «إل إم أرينا» يحقّق نتائج أفضل بكثير عند تنفيذ مهام معينة. يُعزى ذلك، وفقاً لـ «ميتا»، إلى أن المنصة استخدمت نسخة تجريبية أحدث لا تزال في طور الاختبار.

تحديات الشفافية

تأتي هذه القضية في ظل دعوات متزايدة نحو الشفافية في مجال «معالجة اللغات الطبيعية»، حيث يطالب الباحثون والشركات بضرورة الكشف عن بيانات التدريب والتقنيات المستخدمة لضبط النماذج. فكلما زادت السرية، ارتفعت احتمالات ظهور نظريات المؤامرة أو التشكيك في نزاهة النتائج.

دور المستخدمين في الحكم

بينما تؤكد «ميتا» أن النسخ المختلفة هي مجرد مراحل تطوير، يشير مراقبون إلى أهمية تقييم المجتمع البحثي المستقل لأداء النماذج. من الضروري أن يشارك مستخدمو تلك النماذج في تقديم التغذية الراجعة، خصوصاً مع تعدد الاستخدامات العملية لهذه النماذج في الترجمة والتلخيص واسترجاع المعلومات.

الذكاء الاصطناعي والحيوانات: هل سنتمكن في 2025 إلى فهم لغة الكائنات الحية؟

مستقبل مصداقية النماذج

يوضح هذا الجدل مدى حساسية السباق نحو تطوير نماذج أكثر دقة في «معالجة اللغات الطبيعية». إذ تستثمر الشركات مبالغ ضخمة في الأبحاث والتطوير، وتتنافس على تحقيق تصدر في جداول التقييم العالمية. لكن في المقابل، تظلّ الموثوقية والشفافية عوامل حاسمة لضمان ثقة العملاء والمجتمع العلمي. قد نرى مستقبلاً بروتوكولات جديدة تفرضها الجهات المختصة لضبط طرق التدريب والتحقق، بحيث لا يبقى هناك مجال لاتهامات كهذه.

الأسئلة الشائعة

١. ما الفرق بين «لامّا 4 مافريك» و«لامّا 4 سكاوت»؟
نسختان مختلفتان من نموذج «لامّا 4» بنسخ تجريبية، تستخدم كلٌ منهما تعديلات أو تقنيات ضبط محددة.

٢. هل هناك دلائل قاطعة على تلاعب «ميتا»؟
حالياً لا توجد أدلة ملموسة تدعم هذه المزاعم، والنقاش يعتمد على إشاعات وتفسير نتائج الاختبارات.

٣. لماذا يختلف أداء النموذج في المنصات المختلفة؟
قد يعود ذلك للإصدارات المتعددة التي تجري عليها الشركة تجارب دورية، أو لطرق تهيئة مختلفة على كل منصة.

٤. ما خطورة استخدام اختباراتٍ معيارية في التدريب؟
يؤدي ذلك إلى «تعلّم متحيّز» يركّز على اجتياز الاختبارات دون تحقيق كفاءة حقيقية في مجالات أخرى.

٥. كيف تؤثر هذه القضية على المستخدمين؟
قد تشككهم في مصداقية النتائج وتدفعهم للبحث عن مصادر أخرى أو نماذج بديلة أكثر شفافية.