هری پاتر کیست؟ UnLearning تقریبی در LLM: نتایج

نویسندگان:

(1) رونن الدان، تحقیقات مایکروسافت (ایمیل: [email protected])

(2) مارک روسینوویچ، مایکروسافت آژور و هر دو نویسنده به طور مساوی در این کار مشارکت داشتند، (ایمیل: [email protected]).

4 نتیجه

ما روش خود را در دو تنظیمات آزمایش کردیم: Meta-llama/Llama-7b-hf-chat (یک مدل با پارامتر 7B توسط Meta)، و یک نسخه اصلاح شده در MSFT/Phi-1.5 (یک مدل با پارامتر 1.3B توسط مایکروسافت آموزش دیده داده های مصنوعی به تنهایی) که در آن ما هدف unlearn را با داده ها ترکیب کردیم تا مدل پایه خود را به دست آوریم. از آنجایی که نتایج روی دو مدل از پیش آموزش دیده از نظر کیفی بسیار مشابه بود، ما فقط یافته های خود را در مورد اولی ارائه می کنیم.

شکل 5 نمرات معیارهای رایج (ARC [YBS19]BoolQ [CLC+19]، هلاسواگ [ZHB+19]، OpenBookQA [MCKS18]PIQA [BHT+19] و WinoGrande [SLBBC19]) با استفاده از مجموعه LM Harness Eval [GTB+21] و نمرات ارزیابی ما برای چندین مرحله تنظیم دقیق. شرح دقیق‌تری از روش محاسبه نمرات آشنایی را می‌توان در پیوست 6.2 یافت.

شکل های 1 و 3 در بالا تصویری از تغییر رفتار مدل پس از تنظیم دقیق ارائه می دهند و مثال های بیشتری در پیوست ارائه شده است.

در حالی که هیچ اثری از آشنایی با هدف ناآموخته در اکثر پاسخ‌های مدل به درخواست‌های معیار ما یافت نشد، ما…

Source link