سلامة الذكاء الاصطناعي

البيانات المفلترة تمنع الذكاء الاصطناعي من المهام الخطرة

Written by

فريقنا

Communications Consultant

أعلن باحثون من جامعة أكسفورد و EleutherAI ومعهد أمن الذكاء الاصطناعي في المملكة المتحدة عن تقدم كبير في حماية نماذج اللغة مفتوحة الوزن. من خلال تصفية المعرفة التي يحتمل أن تكون ضارة أثناء التدريب، تمكن الباحثون من بناء نماذج تقاوم التحديثات الخبيثة اللاحقة.

فريقنا

أعلن باحثون من جامعة أكسفورد و EleutherAI ومعهد أمن الذكاء الاصطناعي في المملكة المتحدة عن تقدم كبير في حماية نماذج اللغة مفتوحة الوزن. من خلال تصفية المعرفة التي يحتمل أن تكون ضارة أثناء التدريب، تمكن الباحثون من بناء نماذج تقاوم التحديثات الخبيثة اللاحقة.

محتويات المقالة:

مقدمة: تحدي حماية النماذج المفتوحة
تضمين السلامة من البداية
خطر الانفتاح
التجربة: «الجهل العميق»
كيف تعمل الطريقة؟
تقدم كبير لحوكمة الذكاء الاصطناعي العالمية
خاتمة: موازنة بين السلامة والابتكار

مقدمة: تحدي حماية النماذج المفتوحة

قال المؤلف الرئيسي يارين غال، الأستاذ المشارك في تعلم الآلة في قسم علوم الكمبيوتر بجامعة أكسفورد: «لقد أحرز مجتمع البحث تقدمًا كبيرًا في مجال حماية الذكاء الاصطناعي على مدى السنوات القليلة الماضية، ولكن التحدي الهائل المتبقي هو حماية النماذج مفتوحة الوزن – كيف نبني نماذج يمكننا توزيعها على الجميع دون زيادة مخاطر سوء الاستخدام. دراستنا تخطو خطوة مهمة في هذا الاتجاه».

تضمين السلامة من البداية

يمثل هذا النهج تحولًا في نهج سلامة الذكاء الاصطناعي: بدلاً من تعديل الضمانات بأثر رجعي، يتم تضمين السلامة من البداية. تقلل الطريقة من المخاطر دون التضحية بالانفتاح، مما يتيح الشفافية والبحث دون المساس بالأمن.

خطر الانفتاح

تعتبر النماذج مفتوحة الوزن حجر الزاوية في أبحاث الذكاء الاصطناعي الشفافة والتعاونية. ومع ذلك، فإن الانفتاح يجلب المخاطر. فكما يمكن تحسين النماذج المفتوحة للتطبيقات الإيجابية، يمكن أيضًا تعديلها للضرر. نظرًا لأنه يمكن تنزيل هذه النماذج وتغييرها وإعادة توزيعها من قبل أي شخص، فإن تطوير حماية قوية ضد العبث أمر بالغ الأهمية.

التجربة: «الجهل العميق»

بدلاً من تدريب نموذج للأغراض العامة ثم إضافة عوامل تصفية، يبني هذا العمل ضمانات طوال عملية التدريب بأكملها عن طريق تصفية المعرفة غير المرغوب فيها من بيانات التدريب. ركز الفريق على بيئة التهديدات البيولوجية وقام بتصفية المحتوى المتعلق بالبيولوجيا من بيانات تدريب النموذج، بهدف حرمان النموذج من هذه المعرفة تمامًا، بدلاً من قمعها لاحقًا وهو ما يمكن عكسه بسهولة.

كان النموذج المفلتر قادرًا على مقاومة التدريب على ما يصل إلى 25,000 ورقة بحثية حول الموضوعات المتعلقة بالتهديدات البيولوجية (مثل علم الفيروسات والأسلحة البيولوجية)، مما يثبت فعاليته أكثر بعشر مرات من الطرق السابقة المتطورة.

كيف تعمل الطريقة؟

استخدم الفريق خط أنابيب تصفية متعدد المراحل يجمع بين قوائم حظر الكلمات الرئيسية ومصنف تعلم الآلة المدرب على اكتشاف المحتوى عالي الخطورة. سمح لهم ذلك بإزالة المواد ذات الصلة فقط – حوالي 8-9% من مجموعة البيانات – مع الحفاظ على اتساع وعمق المعلومات العامة. ثم قاموا بتدريب نماذج الذكاء الاصطناعي من الصفر باستخدام هذه البيانات المفلترة.

تقدم كبير لحوكمة الذكاء الاصطناعي العالمية

تأتي النتائج في لحظة حرجة لحوكمة الذكاء الاصطناعي العالمية. حذرت العديد من تقارير سلامة الذكاء الاصطناعي الأخيرة من أن النماذج الحدودية قد تكون قادرة قريبًا على المساعدة في إنشاء تهديدات بيولوجية أو كيميائية. وقد أعربت العديد من الحكومات عن قلقها بشأن عدم وجود ضمانات للنماذج المتاحة بشكل مفتوح، والتي لا يمكن استدعاؤها بمجرد إصدارها.

خاتمة: موازنة بين السلامة والابتكار

قال ستيفن كاسبر، المؤلف المشارك في الدراسة من معهد أمن الذكاء الاصطناعي في المملكة المتحدة: «من خلال إزالة المعرفة غير المرغوب فيها من البداية، لم يكن للنموذج الناتج أي أساس لاكتساب قدرات خطيرة، حتى بعد محاولات تدريب إضافية. وبالتالي، تُظهر دراستنا أن تصفية البيانات يمكن أن تكون أداة قوية في مساعدة المطورين على الموازنة بين السلامة والابتكار في الذكاء الاصطناعي مفتوح المصدر».

البيانات المفلترة تمنع الذكاء الاصطناعي من المهام الخطرة

فريقنا

Communications Consultant

فريقنا

مقدمة: تحدي حماية النماذج المفتوحة

تضمين السلامة من البداية

خطر الانفتاح

التجربة: «الجهل العميق»

كيف تعمل الطريقة؟

تقدم كبير لحوكمة الذكاء الاصطناعي العالمية

خاتمة: موازنة بين السلامة والابتكار

شارك هذا الموضوع:

Related

شارك هذا الموضوع:

شارك هذا الموضوع:

اترك رد

اترك ردإلغاء الرد

الفئات

المنشورات الأخيرة

قيادة نسائية ترسم مستقبل التنقل: تويوتا تعين إدارات جديدة في «ووفن كابيتال»

أنثروبيك توقع اتفاقية تاريخية مع أستراليا لتعزيز حوكمة الذكاء الاصطناعي وتطوير البنية التحتية

الهجمات السيبرانية المدعومة بالذكاء الاصطناعي تقفز بنسبة 340% إثر التصعيد العسكري ضد إيران

أبل تختبر ميزة ثورية تتيح لمساعد سيري معالجة طلبات متعددة في أمر واحد ضمن نظام آي أو إس 27

جوجل للذكاء الاصطناعي الكمي تكشف: اختراق حماية بيتكوين وإيثريوم بات أقرب من المتوقع

أسرار «مشروع ماريو»: كيف خطط ديميس هاسابيس للانفصال بـ «ديب مايند» عن جوجل

روابط سريعة

روابط أخرى

اشترك في نشرتنا الإخبارية

اكتشاف المزيد من بازينجا