أظهرت اختبارات حديثة أن «نموذج o3 المتذبذب» من أوبن أيه آي يحقق نتائج أقل مما رُوِّج له سابقاً، ما يثير تساؤلات حول شفافية الاختبارات والمعايير.
محتويات المقالة:
- مقدمة
- اختلاف النتائج والتفسيرات
- تحديات التقييم الموحد
- الآثار على صناعة الذكاء الاصطناعي
- مستقبل النموذج والإصدارات القادمة
- الأسئلة الشائعة
مقدمة
أثار النموذج اللغوي o3 الذي طورته شركة أوبن أيه آي جدلاً جديداً في الأوساط التقنية بعد أن تبين أن نتائج اختبارات طرف ثالث أقل بكثير من تلك التي أعلنتها الشركة نفسها في وقت مبكر. ففي ديسمبر الماضي، صرّحت أوبن أيه آي بأن النموذج قادر على حل نحو ربع الأسئلة في مجموعة FrontierMath التي تتضمن مسائل رياضية صعبة، بنسبة تجاوزت 25%. ولكن تقارير مستقلة من مؤسسة Epoch AI أظهرت أن الأداء الحقيقي للنموذج أقرب إلى 10% فقط، وهو ما وصفته المؤسسة بأنه “مفارقة” مقارنة بما أعلنته أوبن أيه آي.
اختلاف النتائج والتفسيرات
بحسب شركة أوبن أيه آي، فإن الاختلاف يعود إلى أن الرقم المرتفع (25%) تحقق عند استخدام إصدار أكثر قوة من النموذج مع قدرة أعلى من الحوسبة أثناء وقت الاختبار. بينما أُطلق للجمهور نموذج آخر مُحسّن للسرعة والاستخدام العملي، لكنه أقل من ناحية قدرات الاستدلال العميقة. كما أشارت أوبن أيه آي إلى أن الاختلاف قد يرتبط أيضاً باعتماد مجموعة FrontierMath مختلفة (180 سؤالاً مقابل 290 سؤالاً في إصدار لاحق). هذا التفصيل يسلط الضوء على تحدٍ متكرر في عالم الذكاء الاصطناعي، وهو الاعتماد على أنواع مختلفة من مجموعات البيانات وطرق التقييم.
تحديات التقييم الموحد
وأعرب مختبر Epoch AI عن تفهّمه لاحتمالية هذه الفروقات، مشيراً إلى أن طريقة تشغيل النموذج أو تهيئته أثناء الاختبار قد تؤثر بشكل ملموس على النتائج. وبحسب ما نقل عن فريق ARC Prize Foundation الذي اختبر نسخة ما قبل الإصدار من o3، فإن النسخة التجارية التي طُرحت لاحقاً أصغر حجماً وتمت تهيئتها لتكون أسرع وأكثر تناسباً مع التطبيقات الواقعية، على حساب قدرات الحل العميقة التي قد تظهر في النسخة الأكبر.
هذا الجدل ليس الأول من نوعه في عالم النماذج اللغوية، إذ كثيراً ما تواجه شركات تقنية انتقادات حول طريقة عرضها لنتائج المقاييس والاختبارات التي قد تحمل مستوى من التحيز أو المبالغة بغرض جذب الانتباه. وقد شهدنا حالات مماثلة حين أعلنت شركات مثل xAI ومؤخراً ميتا عن نتائج مذهلة، ليتضح لاحقاً أن النسخة المتاحة فعلياً للمستخدمين لا تطابق الإصدار الذي خضع للاختبار.
الآثار على صناعة الذكاء الاصطناعي
وتوضح هذه الحادثة حاجة الصناعة المتزايدة لمعايير قياسية أكثر شفافية، ولجهات مستقلة تختبر النماذج في ظل ظروف موحدة. فمع تسارع تطوير نماذج كبيرة للغة تتنافس على تصدر السباق في معالجة النصوص والبيانات، يتنامى الشعور بضرورة تبني معايير واضحة لضمان مصداقية نتائج الاختبارات، وعدم اقتصار المسألة على إعلانات تسويقية.
مستقبل النموذج والإصدارات القادمة
في النهاية، تظل أوبن أيه آي من أبرز اللاعبين في مشهد الذكاء الاصطناعي العالمي. ويبقى نموذج o3، رغم الجدل، متقدماً في جوانب عديدة مثل فهم اللغة الطبيعية وتوليد النصوص بسرعة ملحوظة. لكن الحادثة الأخيرة تُذكرنا بأن أي إعلان لنتائج «خارقة» لا بد من تدقيقه في ظل اختلاف النسخ وطبيعة الاختبارات. وربما تكون النسخة المقبلة من o3، المسماة o3-pro، قادرة على سد الفجوة بين النسخة التجارية سريعة الاستجابة والنسخة الأكثر تعمقاً في العمليات الحسابية. إلى أن يحدث ذلك، سيبقى القطاع مترقباً لتطورات هذا النموذج الشهير ولكيفية تعامل أوبن أيه آي مع الانتقادات المتعلقة بالشفافية.
الأسئلة الشائعة
1. ما الاختلاف بين نتائج أوبن أيه آي ونتائج Epoch AI؟
أعلنت الشركة سابقاً عن 25%، فيما وجدت Epoch AI أن الأداء أقرب لـ10% في اختبار مستقل.
2. هل يعني ذلك أن أوبن أيه آي ضخمّت النتائج؟
أوبن أيه آي تقول إنها استخدمت إصداراً أقوى من النموذج في اختبارها الداخلي، مما يفسر الفارق.
3. ما دور نسخة o3 التجارية؟
النسخة التجارية تركز على السرعة والاستخدام العملي، على حساب عمق قدرات حل المسائل.
4. هل هذه الظاهرة شائعة في صناعة الذكاء الاصطناعي؟
نعم، كثير من الشركات تتعرض لانتقادات بشأن الاختلاف بين نسخ الاختبار والنسخ التجارية.
5. ما المتوقع في الإصدار المقبل o3-pro؟
تأمل الشركة أن يجمع بين سرعة الأداء والقدرة على حل المسائل المعقدة بمستوى أعلى من الدقة.