يواجه نموذج الذكاء الاصطناعي «كلود» التابع لشركة «أنثروبيك» أزمة ثقة متصاعدة بين أوساط المطورين والمستخدمين المحترفين، الذين أكدوا أن أداء النموذج قد تراجع بشكل ملحوظ ومتسارع. وتتزامن هذه الشكاوى المتعلقة بالجودة مع سلسلة من الانقطاعات المتكررة في الخدمة التي تعاني منها الشركة، مما أدى إلى عرقلة سير العمل اليومي للعديد من الشركات والمؤسسات التقنية خلال الأسابيع القليلة الماضية.
انقطاعات متكررة تزيد من حدة الأزمة
تجلت أحدث حلقات هذه الاضطرابات يوم الاثنين الماضي، عندما تعرضت منصة «كلود» وأداة «كلود كود» البرمجية لما وصف بـ «انقطاع رئيسي» تضمن ارتفاعا كبيرا في معدلات الأخطاء بين الساعة 15:31 والساعة 16:19 بالتوقيت العالمي المنسق. ورغم أن شركة «أنثروبيك» أعلنت عن حل المشكلة خلال أقل من ساعة، إلا أن هذا الحادث جاء في أعقاب انقطاعات مماثلة وقعت في يومي 6 و 7 من شهر أبريل، إضافة إلى فترة عدم استقرار طويلة استمرت لنحو 10 ساعات متواصلة في أوائل شهر مارس الماضي. ولم تقتصر المشاكل على ذلك فحسب، بل سجلت صفحة حالة النظام الخاصة بالشركة انقطاعا في خدمة تسجيل الدخول عبر البريد الإلكتروني في 11 أبريل.
وقد أدت هذه الانقطاعات المتعاقبة إلى تضخيم حالة الإحباط التي بدأت تتراكم منذ شهر فبراير الماضي، وهو الوقت الذي بدأ فيه المستخدمون يلاحظون انخفاضا حادا في جودة المنطق والتفكير والاستنتاج لدى نموذج الذكاء الاصطناعي، مما جعلهم يشككون في موثوقيته كأداة برمجية يعتمد عليها في المشاريع الهندسية المعقدة.
أرقام مقلقة من عملاق التقنية
جاء الانتقاد الأكثر تفصيلا وتوثيقا من ستيلا لورينزو، مديرة مجموعة الذكاء الاصطناعي في شركة «إيه إم دي» الرائدة، والتي قدمت تقريرا مفصلا عبر منصة «جيت هب» في الثاني من شهر أبريل. ووثقت لورينزو في تقريرها النتائج التي توصل إليها فريقها بعد تحليل دقيق شمل ما يقرب من 7000 جلسة عمل على أداة «كلود كود» وما يزيد عن 234760 استدعاء للأدوات البرمجية.
وكشف التحليل الميداني عن بيانات صادمة، حيث انخفضت «نسبة القراءة إلى التعديل» في الأداة بشكل حاد. وتوضح هذه النسبة مدى تكرار قيام النموذج بقراءة الشفرة البرمجية وفهمها قبل الشروع في تعديلها. وقد تراجعت هذه النسبة من 6.6 إلى 2.0، وهو ما يمثل انخفاضا هائلا بنسبة 70 بالمائة. علاوة على ذلك، ارتفعت حالات تخلي النموذج عن أداء المهام المطلوبة منه أو تهربه من المسؤولية من الصفر إلى متوسط 10 حالات يوميا بحلول أواخر شهر مارس.
ولاحظ فريق المهندسين أيضا أن نموذج الذكاء الاصطناعي بات يميل بشكل متزايد إلى إعادة كتابة ملفات برمجية كاملة بدلا من إجراء التعديلات المستهدفة والدقيقة المطلوبة منه، مما يشير إلى تراجع مستوى التفكير العميق لديه واعتماده على حلول سطحية سريعة. وفي هذا الصدد، كتبت لورينزو في تقريرها: «لقد تراجع أداء كلود إلى النقطة التي لم يعد من الممكن الوثوق به لأداء المهام الهندسية المعقدة».
استياء واسع وتبريرات الشركة
لم تقتصر الشكاوى على شركة «إيه إم دي» وحدها. فقد شهد مستودع «كلود كود» المفتوح المصدر طفرة غير مسبوقة في البلاغات المتعلقة بجودة الأداء، حيث يتجه شهر أبريل لتجاوز إجمالي البلاغات المسجلة في شهر مارس والبالغة 18 بلاغا، وهو الرقم الذي يمثل بدوره زيادة بمقدار 3.5 أضعاف مقارنة بمعدل البلاغات في شهري يناير وفبراير. وعلى منصة «ريديت» وغيرها من المنتديات التقنية، وصف المستخدمون النموذج بأنه أصبح «كسولا» و«قصير النظر»، حتى أن البعض أشار إلى أنهم لم يعودوا قادرين على التوصية باستخدام هذه الأداة لعملائهم ومؤسساتهم.
من جانبه، استجاب بوريس تشيرني، مبتكر ورئيس فريق أداة الذكاء الاصطناعي في شركة «أنثروبيك»، بشكل مباشر لمخاوف لورينزو في السادس من أبريل. وعزا تشيرني هذا التراجع الملحوظ في الأداء إلى التغييرات التي طرأت على واجهة المستخدم والإعدادات الافتراضية، نافيا إجراء أي تعديل على النموذج الأساسي نفسه. وأوضح أن التحديث الذي صدر في شهر فبراير، والذي يقوم بإخفاء محتوى التفكير من واجهة المستخدم، لا يؤثر على عملية التفكير ذاتها، ولا يؤثر على ميزانيات التفكير أو الطريقة التي يعمل بها المنطق الموسع خلف الكواليس، واصفا إياه بأنه تغيير شكلي في واجهة الاستخدام لا أكثر.
جدل حول تخصيص الموارد
على الرغم من دفاعه عن النموذج الأساسي، أقر تشيرني بأن ميزة التفكير التكيفي في الأداة كانت تخصص قدرا أقل من اللازم للمنطق في منعطفات محددة، مما أدى إلى إنتاج معلومات غير دقيقة في الحالات التي لم يتم فيها توليد أي عمليات تفكير، وأكد أن فريق النماذج في الشركة يحقق في هذه المشكلة. وفي الوقت ذاته، أظهرت البيانات الواردة من اختبارات «مارجين لاب» المستقلة بعض التباين الطفيف ولكنها لم تظهر أي تغيير جوهري في درجات نموذج «أوبوس 4.6» منذ شهر فبراير.
بالنسبة للمهندسة لورينزو، لم يكن هذا التفسير مقنعا بما فيه الكفاية. فقد أظهرت بياناتها أن العمق التقديري للتفكير قد انخفض بالفعل بنسبة 67 بالمائة بحلول أواخر شهر فبراير، أي قبل أن تبدأ عملية طرح التحديث الخاص بإخفاء عملية التفكير من الأساس. كما أشارت إلى أن تخصيص التفكير يبدو متغيرا بحسب الوقت من اليوم، وهو ما يتوافق مع سياسة تقنين الموارد الحساسة لحجم الضغط على الخوادم، وليس مجرد ميزانية ثابتة للتفكير كما تدعي الشركة. وفي أعقاب هذه الأزمة وتداعياتها، اتخذ الفريق الهندسي التابع لشركة «إيه إم دي» قرارا حاسما بالانتقال إلى خدمة منافسة في مجال البرمجة بالذكاء الاصطناعي.
الأسئلة الشائعة
ما هو سبب أزمة الثقة التي يواجهها نموذج كلود للذكاء الاصطناعي؟
يواجه النموذج أزمة ثقة بسبب انخفاض ملحوظ في جودة أدائه وقدراته على التفكير والاستنتاج، وتزايد حالات التهرب من أداء المهام، إضافة إلى سلسلة من الانقطاعات المتكررة في الخدمة التي أثرت سلبيا على سير عمل المطورين والشركات.
ماذا كشفت بيانات شركة «إيه إم دي» حول أداء الأداة البرمجية؟
كشفت البيانات، التي استندت إلى تحليل آلاف الجلسات ومئات الآلاف من الأوامر، عن انخفاض نسبة قراءة الشفرة قبل تعديلها بنسبة 70 بالمائة، وميل الأداة لكتابة ملفات كاملة بدلا من إجراء تعديلات دقيقة ومستهدفة، مما يشير إلى تراجع كبير في مستوى التفكير العميق.
كيف ردت شركة أنثروبيك على هذه الشكاوى المتعلقة بالجودة؟
صرحت الشركة بأن التراجع الملحوظ يعود إلى تغييرات في واجهة المستخدم وإخفاء محتوى التفكير، نافية تعديل النموذج الأساسي، لكنها أقرت في الوقت ذاته بوجود مشكلة في ميزة التفكير التكيفي التي تخصص موارد منطق أقل من اللازم في بعض الحالات، وتعهدت بالتحقيق فيها ومعالجتها.