ترجمه درون متنی در مدل های زبان بزرگ کجا اتفاق می افتد: MT درون متنی کجا اتفاق می افتد؟

نویسندگان:

(1) سوزانا سیا، دانشگاه جانز هاپکینز؛

(2) دیوید مولر؛

(3) کوین دو.

3. MT In-Context کجا اتفاق می افتد؟

3.1. پوشش لایه از زمینه

یادگیری درون زمینه ای با یادگیری نظارت شده ویژه تکلیف از این جهت متفاوت است که در طول زمان آزمون، وظیفه مورد نظر باید ابتدا از زمینه شناسایی شود، سپس اجرا شود. در چه مرحله ای از محاسبات پیشخوران، یک مدل به سبک GPT از یک یادگیرنده درون متنی به یک مدل ترجمه تغییر می کند؟ برای بررسی این سوال، ماسک کردن لایه از متن را معرفی می‌کنیم که تمام وزن‌های توجه را از یک لایه خاص به بعد به بافت (دستورالعمل‌ها یا درخواست‌ها) پنهان می‌کند (شکل 1 را برای توضیح گرافیکی ببینید).

تحت این پوشش درمانی با پوشش علّی از لایه ℓ، مدل باید تنها برای تکمیل کار به بازنمایی جمله ورودی هدف از لایه ℓ + 1 تکیه کند. اگر بازنمایی جملات هدف قبلاً وظیفه هدف (ترجمه به یک زبان خاص) را رمزگذاری نکرده باشد، مدل در تولید ترجمه شکست خواهد خورد.

3.2. نتایج

ما در مورد یافته های اصلی مقاله بحث می کنیم: مدل ها برای انجام کار نیازی به حفظ توجه در تمام زمینه در هر لایه ندارند.

مدل های مختلف در لایه های مختلف به این نقطه فلات می رسند. در GPTNEO این نقطه در حدود…

Source link