هری پاتر کیست؟ UnLearning تقریبی در LLMs: روش ارزیابی

نویسندگان:

(1) رونن الدان، تحقیقات مایکروسافت (ایمیل: [email protected])

(2) مارک روسینوویچ، مایکروسافت آژور و هر دو نویسنده به طور مساوی در این کار مشارکت داشتند، (ایمیل: [email protected]).

3 روش شناسی ارزشیابی

برای ارزیابی مناسب اثربخشی تکنیک بی‌آموزی، چارچوب ارزیابی ما بر دو بعد اصلی استوار است: حفظ قابلیت‌های مدل کلی و ریشه‌کن کردن دانش خاص و هدفمند.

3.1 حفظ قابلیت های عمومی

برای اطمینان از اینکه روش ما به قابلیت‌های کلی مدل آسیبی وارد نمی‌کند زمانی که درخواست‌ها به موضوعی که یاد نگرفته‌اند ارتباطی نداشته باشند، از معیارهای پذیرفته‌شده‌ای مانند WinoGrande، HellaSwag و piqa استفاده می‌کنیم تا عملکرد مدل را به‌طور عینی اندازه‌گیری کنیم و اطمینان حاصل کنیم که درک زبان‌شناختی فراگیر و گسترده مجموعه ای از قابلیت های دیگر دست نخورده باقی می ماند.

3.2 ریشه کن کردن دانش هدفمند

محور ارزیابی ما در تعیین میزان حفظ یا از دست دادن دانش مدل در مورد محتوای آموخته نشده نهفته است. این مؤلفه ارزیابی اساساً شامل مجموعه‌ای از تست‌های جعبه سیاه می‌شود که از دستورالعمل‌هایی استفاده می‌کند که به طور خاص برای استخراج دانش در مورد محتوای آموخته‌نشده (مخصوصاً جهان هری پاتر) به طور مستقیم و غیرمستقیم تنظیم شده‌اند.

3.2.1 بر اساس تکمیل…

Source link