افزایش آسیب پذیری های LLM از تنظیم دقیق و کمی سازی: نتیجه گیری و مراجع

نویسندگان:

(1) دیویانشو کومار، Enkrypt AI;

(2) Anurakt Kumar، Enkrypt AI;

(3) Sahil Agarwa، Enkrypt AI;

(4) Prashanth Harshangi، Enkrypt AI.

چکیده و 1 مقدمه

2 فرمول‌بندی مسئله و آزمایش‌ها

3 تنظیم و نتایج آزمایش

4 نتیجه گیری و مراجع

الف. ضمیمه

4 نتیجه گیری

کار ما ایمنی LLM در برابر تلاش‌های فرار از زندان را بررسی می‌کند. ما نشان داده‌ایم که چگونه مدل‌های تنظیم‌شده و کوانتیزه‌شده در برابر تلاش‌های فرار از زندان آسیب‌پذیر هستند و بر اهمیت استفاده از حفاظ‌های خارجی برای کاهش این خطر تأکید می‌کنیم. تنظیم دقیق یا کوانتیزه کردن وزن های مدل، مشخصات ریسک LLM ها را تغییر می دهد، و به طور بالقوه تراز ایمنی ایجاد شده از طریق RLHF را تضعیف می کند. این می تواند ناشی از فراموشی فاجعه بار باشد، جایی که LLM ها حافظه پروتکل های ایمنی را از دست می دهند، یا فرآیند تنظیم دقیق که تمرکز مدل را به موضوعات جدید به قیمت اقدامات ایمنی موجود تغییر می دهد.

فقدان اقدامات ایمنی در این مدل‌های تنظیم‌شده و کوانتیزه‌شده نگران‌کننده است و نیاز به ترکیب پروتکل‌های ایمنی در طول فرآیند تنظیم دقیق را برجسته می‌کند. ما استفاده از این تست‌ها را به عنوان بخشی از تست استرس CI/CD قبل از استقرار مدل پیشنهاد می‌کنیم. اثربخشی گاردریل ها در جلوگیری از فرار از زندان، اهمیت ادغام آنها با شیوه های ایمنی در هوش مصنوعی را برجسته می کند.

Source link