نویسندگان:
(1) دیویانشو کومار، Enkrypt AI;
(2) Anurakt Kumar، Enkrypt AI;
(3) Sahil Agarwa، Enkrypt AI;
(4) Prashanth Harshangi، Enkrypt AI.
جدول پیوندها
چکیده و 1 مقدمه
2 فرمولبندی مسئله و آزمایشها
3 تنظیم و نتایج آزمایش
4 نتیجه گیری و مراجع
الف. ضمیمه
4 نتیجه گیری
کار ما ایمنی LLM در برابر تلاشهای فرار از زندان را بررسی میکند. ما نشان دادهایم که چگونه مدلهای تنظیمشده و کوانتیزهشده در برابر تلاشهای فرار از زندان آسیبپذیر هستند و بر اهمیت استفاده از حفاظهای خارجی برای کاهش این خطر تأکید میکنیم. تنظیم دقیق یا کوانتیزه کردن وزن های مدل، مشخصات ریسک LLM ها را تغییر می دهد، و به طور بالقوه تراز ایمنی ایجاد شده از طریق RLHF را تضعیف می کند. این می تواند ناشی از فراموشی فاجعه بار باشد، جایی که LLM ها حافظه پروتکل های ایمنی را از دست می دهند، یا فرآیند تنظیم دقیق که تمرکز مدل را به موضوعات جدید به قیمت اقدامات ایمنی موجود تغییر می دهد.
فقدان اقدامات ایمنی در این مدلهای تنظیمشده و کوانتیزهشده نگرانکننده است و نیاز به ترکیب پروتکلهای ایمنی در طول فرآیند تنظیم دقیق را برجسته میکند. ما استفاده از این تستها را به عنوان بخشی از تست استرس CI/CD قبل از استقرار مدل پیشنهاد میکنیم. اثربخشی گاردریل ها در جلوگیری از فرار از زندان، اهمیت ادغام آنها با شیوه های ایمنی در هوش مصنوعی را برجسته می کند.