محتويات المقالة:
- مقدمة: دروس خاطئة يتعلمها الذكاء الاصطناعي
- الاعتماد على «القوالب النحوية»
- كيف تحدث الأخطاء؟ مثال توضيحي
- التجارب تثبت الثغرة حتى في النماذج القوية
- المخاطر الأمنية واستغلال الثغرة
- التأثير على الموثوقية في التطبيقات الحيوية
- الحلول المقترحة والتقييم المستقبلي
- أسئلة شائعة
مقدمة: دروس خاطئة يتعلمها الذكاء الاصطناعي
تتعلم نماذج اللغة الكبيرة (LLMs)، مثل تلك التي تشغل ChatGPT وغيرها من أدوات الذكاء الاصطناعي، أحياناً الدروس الخاطئة، وفقاً لدراسة جديدة أجراها باحثون في معهد ماساتشوستس للتكنولوجيا (MIT). بدلاً من الإجابة على استفسار بناءً على المعرفة بالموضوع، قد يستجيب النموذج من خلال الاستفادة من الأنماط النحوية التي تعلمها أثناء التدريب. هذا الاكتشاف يثير مخاوف جدية حول موثوقية هذه النماذج، خاصة عند نشرها في مهام جديدة أو في مجالات حساسة.
وجد الباحثون أن النماذج يمكن أن تربط عن طريق الخطأ أنماط جمل معينة بمواضيع محددة، لذلك قد يقدم النموذج إجابة مقنعة من خلال التعرف على الصياغة المألوفة بدلاً من فهم السؤال فعلياً.
الاعتماد على «القوالب النحوية»
يتم تدريب نماذج اللغة الكبيرة على كمية هائلة من النصوص من الإنترنت. خلال هذه العملية، يتعلم النموذج فهم العلاقات بين الكلمات والعبارات. في عمل سابق، وجد الباحثون أن النماذج تلتقط أنماطاً في أجزاء الكلام التي تظهر معاً بشكل متكرر في بيانات التدريب. يطلقون على هذه الأنماط اسم «القوالب النحوية» (Syntactic Templates).
تحتاج النماذج إلى هذا الفهم للنحو، إلى جانب المعرفة الدلالية (المعنى)، للإجابة على الأسئلة. تقول شانتال شعيب، المؤلفة المشاركة في الدراسة: «في مجال الأخبار، على سبيل المثال، هناك أسلوب معين للكتابة. لذا، لا يتعلم النموذج الدلالات فحسب، بل يتعلم أيضاً البنية الأساسية لكيفية تجميع الجمل لاتباع أسلوب معين لهذا المجال».
لكن المشكلة التي حددها البحث هي أن النماذج تتعلم ربط هذه القوالب النحوية بمجالات محددة. قد يعتمد النموذج بشكل غير صحيح فقط على هذا الارتباط المكتسب عند الإجابة على الأسئلة، بدلاً من الاعتماد على فهم الاستفسار والموضوع.
كيف تحدث الأخطاء؟ مثال توضيحي
لتوضيح هذه الظاهرة، لنفترض أن نموذجاً تعلم أن سؤالاً مثل «أين تقع باريس؟» (Where is Paris located?) يتم تنظيمه نحوياً كـ (ظرف/فعل/اسم علم/فعل). إذا كانت هناك العديد من الأمثلة على هذا التركيب النحوي في بيانات التدريب تتعلق بأسئلة حول البلدان، فقد يربط النموذج هذا القالب النحوي بهذا النوع من الأسئلة.
المشكلة تظهر عندما يتم إعطاء النموذج سؤالاً جديداً بنفس البنية النحوية ولكن بكلمات لا معنى لها، مثل «بسرعة اجلس باريس غائم؟» (Quickly sit Paris clouded?). قد يجيب النموذج بـ «فرنسا» لمجرد أنه تعرف على البنية النحوية المألوفة، على الرغم من أن الإجابة لا معنى لها على الإطلاق في سياق السؤال الغريب.
التجارب تثبت الثغرة حتى في النماذج القوية
اختبر الباحثون هذه الظاهرة من خلال تصميم تجارب اصطناعية حيث يظهر قالب نحوي واحد فقط في بيانات تدريب النموذج لكل مجال. اختبروا النماذج عن طريق استبدال الكلمات بمرادفات، أو متضادات، أو كلمات عشوائية، مع الحفاظ على البنية النحوية الأساسية كما هي.
في كل حالة، وجدوا أن النماذج غالباً ما تستجيب بالإجابة الصحيحة المرتبطة بالبنية النحوية، حتى عندما كان السؤال هراءً تاماً.
وعلى العكس، عندما أعادوا هيكلة نفس السؤال باستخدام نمط نحوي جديد، غالباً ما فشلت النماذج في تقديم الاستجابة الصحيحة، على الرغم من أن المعنى الأساسي للسؤال ظل كما هو. استخدموا هذا النهج لاختبار نماذج مدربة مسبقاً مثل GPT-4 و Llama، ووجدوا أن هذا السلوك المكتسب نفسه خفض أداءها بشكل كبير.
المخاطر الأمنية واستغلال الثغرة
قد يكون لهذه الثغرة مخاطر أمنية خطيرة. يمكن لجهة خبيثة استغلال هذا الأمر لخداع النماذج لإنتاج محتوى ضار، حتى عندما تكون النماذج مزودة بضمانات لمنع مثل هذه الاستجابات.
وجد الباحثون أنه من خلال صياغة السؤال باستخدام قالب نحوي يربطه النموذج بمجموعة بيانات «آمنة» (واحدة لا تحتوي على معلومات ضارة)، يمكنهم خداع النموذج لتجاوز سياسة الرفض الخاصة به وتوليد محتوى ضار. يقول فينيث سورياكومار، المؤلف المشارك: «من هذا العمل، من الواضح أننا بحاجة إلى دفاعات أكثر قوة لمعالجة الثغرات الأمنية في نماذج اللغة الكبيرة… لقد حددنا ثغرة جديدة تنشأ بسبب الطريقة التي تتعلم بها النماذج».
التأثير على الموثوقية في التطبيقات الحيوية
هذا القصور يمكن أن يقلل من موثوقية النماذج التي تؤدي مهاماً مثل التعامل مع استفسارات العملاء، وتلخيص الملاحظات السريرية في المستشفيات، وتوليد التقارير المالية. تقول مرضية قاسمي، الأستاذة المشاركة في معهد ماساتشوستس للتكنولوجيا وكبيرة مؤلفي الدراسة: «هذا ناتج ثانوي لكيفية تدريبنا للنماذج، ولكن النماذج تُستخدم الآن عملياً في مجالات حساسة للسلامة تتجاوز بكثير المهام التي خلقت أنماط الفشل النحوية هذه. إذا لم تكن على دراية بتدريب النموذج كمستخدم نهائي، فمن المحتمل أن يكون هذا غير متوقع».
الحلول المقترحة والتقييم المستقبلي
بعد تحديد هذه الظاهرة، طور الباحثون إجراءً قياسياً لتقييم اعتماد النموذج على هذه الارتباطات غير الصحيحة. يمكن أن يساعد هذا الإجراء المطورين على تخفيف المشكلة قبل نشر النماذج.
في المستقبل، يريد الباحثون دراسة استراتيجيات التخفيف المحتملة، والتي قد تتضمن زيادة بيانات التدريب لتوفير مجموعة أوسع من القوالب النحوية لكل موضوع، لكسر الارتباط الخاطئ بين بنية الجملة والمحتوى. كما أنهم مهتمون باستكشاف هذه الظاهرة في نماذج التفكير المصممة لمعالجة المهام متعددة الخطوات.
أسئلة شائعة
1. ما هي «القوالب النحوية» التي يتحدث عنها البحث؟
هي أنماط متكررة في تركيب الجمل (مثل ترتيب الفعل والفاعل والمفعول به) التي تتعلمها نماذج الذكاء الاصطناعي أثناء التدريب.
2. ما هي المشكلة التي اكتشفها الباحثون؟
المشكلة هي أن النماذج قد تربط هذه القوالب بمواضيع معينة، وتعتمد على التعرف على القالب للإجابة، بدلاً من فهم معنى السؤال الفعلي.
3. كيف يمكن أن تكون هذه الثغرة خطيرة؟
يمكن أن تؤدي إلى إجابات خاطئة في تطبيقات حساسة (مثل الطب أو المالية)، ويمكن استغلالها لخداع النماذج لتوليد محتوى ضار بتغيير صياغة الأسئلة.