جدول پیوندها
قسمت 1: چکیده و مقدمه
قسمت 2: زمینه
قسمت 3: حملات و اقدامات متقابل
قسمت 4: تنظیم آزمایشی
قسمت 5: مجموعه داده ها و ارزیابی
قسمت 6: حمله ، پارامترهای ضد اندازه گیری ، و پایه: آشفتگی های تصادفی
قسمت 7: نتایج و بحث
قسمت 8: انتقال حملات و اقدامات متقابل
قسمت 9: نتیجه گیری ، محدودیت ها و بیانیه اخلاق
قسمت 10: پیوست: رمزگذار صوتی قبل از آموزش و ارزیابی
قسمت 11: پیوست: حملات متقابل ، آموزش فرسایش داده ها و تأثیر سر و صدای تصادفی بر کمک
قسمت 12: پیوست: حملات تطبیقی و نمونه های کیفی
2
امنیت تراز با توجه به قابلیت های گسترده LLM ها ، نگرانی هایی در مورد پتانسیل آنها برای ایجاد آسیب مطرح شده است (بندر و همکاران ، 2021 ؛ بومازانی و همکاران ، 2021) ، و بحث در مورد تراز کردن این سیستم ها به ارزش های انسانی و اخلاق (Hendrycks et al. ، 2020). عسکل و همکاران. (2021) سه معیار – کمک مالی ، صداقت و بی ضرر (HHH) را پیشنهاد می کند – که یک سیستم مناسب با آن باید رعایت کند. برای آموزش سیستم مطابق با این معیارها ، توسعه دهندگان LLM از مکانیسم های آموزش ایمنی استفاده می کنند. اول ، مدل ها بر روی مقادیر زیادی از داده ها برای قابلیت های زبان عمومی آموزش دیده می شوند و به دنبال آن یک مرحله آموزش ایمنی برای جلوگیری از پاسخگویی سیستم به سؤالات مضر (Askell et al. ، …