بازينجا

سلامة الذكاء الاصطناعي مفتوح المصدر

البيانات المفلترة تمنع الذكاء الاصطناعي من المهام الخطرة

Written by

Picture of فريقنا

فريقنا

Communications Consultant

أعلن باحثون من جامعة أكسفورد و EleutherAI ومعهد أمن الذكاء الاصطناعي في المملكة المتحدة عن تقدم كبير في حماية نماذج اللغة مفتوحة الوزن. من خلال تصفية المعرفة التي يحتمل أن تكون ضارة أثناء التدريب، تمكن الباحثون من بناء نماذج تقاوم التحديثات الخبيثة اللاحقة.

أعلن باحثون من جامعة أكسفورد و EleutherAI ومعهد أمن الذكاء الاصطناعي في المملكة المتحدة عن تقدم كبير في حماية نماذج اللغة مفتوحة الوزن. من خلال تصفية المعرفة التي يحتمل أن تكون ضارة أثناء التدريب، تمكن الباحثون من بناء نماذج تقاوم التحديثات الخبيثة اللاحقة.

محتويات المقالة:

مقدمة: تحدي حماية النماذج المفتوحة

قال المؤلف الرئيسي يارين غال، الأستاذ المشارك في تعلم الآلة في قسم علوم الكمبيوتر بجامعة أكسفورد: «لقد أحرز مجتمع البحث تقدمًا كبيرًا في مجال حماية الذكاء الاصطناعي على مدى السنوات القليلة الماضية، ولكن التحدي الهائل المتبقي هو حماية النماذج مفتوحة الوزن – كيف نبني نماذج يمكننا توزيعها على الجميع دون زيادة مخاطر سوء الاستخدام. دراستنا تخطو خطوة مهمة في هذا الاتجاه».

تضمين السلامة من البداية

يمثل هذا النهج تحولًا في نهج سلامة الذكاء الاصطناعي: بدلاً من تعديل الضمانات بأثر رجعي، يتم تضمين السلامة من البداية. تقلل الطريقة من المخاطر دون التضحية بالانفتاح، مما يتيح الشفافية والبحث دون المساس بالأمن.

خطر الانفتاح

تعتبر النماذج مفتوحة الوزن حجر الزاوية في أبحاث الذكاء الاصطناعي الشفافة والتعاونية. ومع ذلك، فإن الانفتاح يجلب المخاطر. فكما يمكن تحسين النماذج المفتوحة للتطبيقات الإيجابية، يمكن أيضًا تعديلها للضرر. نظرًا لأنه يمكن تنزيل هذه النماذج وتغييرها وإعادة توزيعها من قبل أي شخص، فإن تطوير حماية قوية ضد العبث أمر بالغ الأهمية.

التجربة: «الجهل العميق»

بدلاً من تدريب نموذج للأغراض العامة ثم إضافة عوامل تصفية، يبني هذا العمل ضمانات طوال عملية التدريب بأكملها عن طريق تصفية المعرفة غير المرغوب فيها من بيانات التدريب. ركز الفريق على بيئة التهديدات البيولوجية وقام بتصفية المحتوى المتعلق بالبيولوجيا من بيانات تدريب النموذج، بهدف حرمان النموذج من هذه المعرفة تمامًا، بدلاً من قمعها لاحقًا وهو ما يمكن عكسه بسهولة.

كان النموذج المفلتر قادرًا على مقاومة التدريب على ما يصل إلى 25,000 ورقة بحثية حول الموضوعات المتعلقة بالتهديدات البيولوجية (مثل علم الفيروسات والأسلحة البيولوجية)، مما يثبت فعاليته أكثر بعشر مرات من الطرق السابقة المتطورة.

كيف تعمل الطريقة؟

استخدم الفريق خط أنابيب تصفية متعدد المراحل يجمع بين قوائم حظر الكلمات الرئيسية ومصنف تعلم الآلة المدرب على اكتشاف المحتوى عالي الخطورة. سمح لهم ذلك بإزالة المواد ذات الصلة فقط – حوالي 8-9% من مجموعة البيانات – مع الحفاظ على اتساع وعمق المعلومات العامة. ثم قاموا بتدريب نماذج الذكاء الاصطناعي من الصفر باستخدام هذه البيانات المفلترة.

تقدم كبير لحوكمة الذكاء الاصطناعي العالمية

تأتي النتائج في لحظة حرجة لحوكمة الذكاء الاصطناعي العالمية. حذرت العديد من تقارير سلامة الذكاء الاصطناعي الأخيرة من أن النماذج الحدودية قد تكون قادرة قريبًا على المساعدة في إنشاء تهديدات بيولوجية أو كيميائية. وقد أعربت العديد من الحكومات عن قلقها بشأن عدم وجود ضمانات للنماذج المتاحة بشكل مفتوح، والتي لا يمكن استدعاؤها بمجرد إصدارها.

خاتمة: موازنة بين السلامة والابتكار

قال ستيفن كاسبر، المؤلف المشارك في الدراسة من معهد أمن الذكاء الاصطناعي في المملكة المتحدة: «من خلال إزالة المعرفة غير المرغوب فيها من البداية، لم يكن للنموذج الناتج أي أساس لاكتساب قدرات خطيرة، حتى بعد محاولات تدريب إضافية. وبالتالي، تُظهر دراستنا أن تصفية البيانات يمكن أن تكون أداة قوية في مساعدة المطورين على الموازنة بين السلامة والابتكار في الذكاء الاصطناعي مفتوح المصدر».

شارك هذا الموضوع:

شارك هذا الموضوع:

اترك رد

اترك رد

الفئات

المنشورات الأخيرة

اكتشاف المزيد من بازينجا

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading