تنظیمات مخالف و سر و صدای تصادفی آسیب پذیری های گفتار LLM را نشان می دهد

قسمت 1: چکیده و مقدمه

قسمت 2: زمینه

قسمت 3: حملات و اقدامات متقابل

قسمت 4: تنظیم آزمایشی

قسمت 5: مجموعه داده ها و ارزیابی

قسمت 6: حمله ، پارامترهای ضد اندازه گیری ، و پایه: آشفتگی های تصادفی

قسمت 7: نتایج و بحث

قسمت 8: انتقال حملات و اقدامات متقابل

قسمت 9: نتیجه گیری ، محدودیت ها و بیانیه اخلاق

قسمت 10: پیوست: رمزگذار صوتی قبل از آموزش و ارزیابی

قسمت 11: پیوست: حملات متقابل ، آموزش فرسایش داده ها و تأثیر سر و صدای تصادفی بر کمک

قسمت 12: پیوست: حملات تطبیقی ​​و نمونه های کیفی

4.5 پارامترهای حمله و اندازه گیری

ما از اندازه مرحله α = 0.00001 (معادله 1) استفاده می کنیم ، زیرا به طور تجربی دریافتیم که این تنظیم منجر به همگرایی حمله پایدار می شود. ما فقط با حملات نامشخص (بدون πx ، ϵ عمل در معادله 1) آزمایش می کنیم ، زیرا مشاهده کردیم که حتی بدون آنها ، حملات در SNR های بالا موفقیت آمیز بودند (ارائه هرگونه محدودیت ناکارآمد). ما حمله را برای حداکثر تکرارهای t = 100 با استفاده از هدف از دست دادن آنتروپی انجام می دهیم. ما در اولین وقوع یک پاسخ ناامن و مربوطه ، با استفاده از یک مدل اولویت انسانی ، از توقف اولیه استفاده می کنیم.[11] برای فیلتر کردن پاسخ های جنجالی تولید شده توسط مدل در حین حملات. برای اقدامات متقابل ، ما

جدول 1: نمونه هایی از پاسخ های مدل به هر دو سؤالات مضر و خوش خیم با برچسب های ایمنی ، ارتباط و کمک های مربوطه.جدول 1: نمونه هایی از پاسخ های مدل به هر دو سؤالات مضر و خوش خیم با برچسب های ایمنی ، ارتباط و کمک های مربوطه.

آزمایش با چند …

Source link