هری پاتر کیست؟ Unlearning تقریبی در LLM: شرح تکنیک ما

نویسندگان:

(1) رونن الدان، تحقیقات مایکروسافت (ایمیل: [email protected])

(2) مارک روسینوویچ، مایکروسافت آژور و هر دو نویسنده به طور مساوی در این کار مشارکت داشتند، (ایمیل: [email protected]).

2 شرح تکنیک ما

فرض کنید که یک مدل زبان مولد بر روی یک مجموعه داده X آموزش داده شده است. ما یک زیرمجموعه Y ⊂ X را اصلاح می کنیم که آن را unlearn target می نامیم. هدف ما تقلید تقریبی اثر آموزش مجدد مدل بر روی X \ Y است، با این فرض که آموزش مجدد مدل در X \ Y بسیار کند و گران است و آن را به یک رویکرد غیرعملی تبدیل می کند.

یکی از اولین ایده‌ها برای حذف مجموعه‌ای از متن که ممکن است به ذهن فرد بیاید این است که به سادگی به متن آموزش دهید و در عین حال تابع ضرر را نفی کنید: هر زمان که مدل ما با موفقیت کلمه بعدی را در متنی که می‌خواهیم حذف کنیم پیش‌بینی می‌کند، آن را جریمه می‌کنیم. با اعمال ضرری که با احتمال اختصاص داده شده به این توکن بزرگتر می شود.

متأسفانه، از نظر تجربی به نظر نمی‌رسد که نتایج امیدوارکننده‌ای در زمینه ما به همراه داشته باشد (با این حال، نشان داده شد که برخی از تنظیمات مربوط به حریم خصوصی مؤثر است. [JYY+22]). یک شهود برای محدودیت های این رویکرد با تکمیل ارائه می شود:

هری پاتر به سمت او رفت و گفت: «سلام. اسم من هست —-

اگر کلمه بعدی در متن است هری، یک ضرر منفی در این مثال به جای …

Source link