نویسندگان:
(1) سوزانا سیا، دانشگاه جانز هاپکینز؛
(2) دیوید مولر؛
(3) کوین دو.
جدول پیوندها
3. MT In-Context کجا اتفاق می افتد؟
3.1. پوشش لایه از زمینه
یادگیری درون زمینه ای با یادگیری نظارت شده ویژه تکلیف از این جهت متفاوت است که در طول زمان آزمون، وظیفه مورد نظر باید ابتدا از زمینه شناسایی شود، سپس اجرا شود. در چه مرحله ای از محاسبات پیشخوران، یک مدل به سبک GPT از یک یادگیرنده درون متنی به یک مدل ترجمه تغییر می کند؟ برای بررسی این سوال، ماسک کردن لایه از متن را معرفی میکنیم که تمام وزنهای توجه را از یک لایه خاص به بعد به بافت (دستورالعملها یا درخواستها) پنهان میکند (شکل 1 را برای توضیح گرافیکی ببینید).
تحت این پوشش درمانی با پوشش علّی از لایه ℓ، مدل باید تنها برای تکمیل کار به بازنمایی جمله ورودی هدف از لایه ℓ + 1 تکیه کند. اگر بازنمایی جملات هدف قبلاً وظیفه هدف (ترجمه به یک زبان خاص) را رمزگذاری نکرده باشد، مدل در تولید ترجمه شکست خواهد خورد.
3.2. نتایج
ما در مورد یافته های اصلی مقاله بحث می کنیم: مدل ها برای انجام کار نیازی به حفظ توجه در تمام زمینه در هر لایه ندارند.
مدل های مختلف در لایه های مختلف به این نقطه فلات می رسند. در GPTNEO این نقطه در حدود…