ترجمه درون متنی در مدل‌های زبان بزرگ کجا اتفاق می‌افتد: نتیجه‌گیری

نویسندگان:

(1) سوزانا سیا، دانشگاه جانز هاپکینز؛

(2) دیوید مولر؛

(3) کوین دو.

7. نتیجه گیری

ما شواهدی را نشان می‌دهیم که مدل‌های رمزگشای علی درون متنی، وظیفه ترجمه را در لایه‌های خاصی در طول استنتاج رو به جلو تعیین می‌کنند. برای مطالعه این موضوع، ما پوشش علّی توجه به خود را در زمینه از لایه ℓ به بعد معرفی کردیم (بخش 3). یافته‌ها در بین مدل‌های با اندازه‌های مختلف و در هر دو مدل تنظیم‌نشده و تنظیم‌شده دستورالعمل تعمیم می‌یابند. ما لایه‌های خاصی را به‌عنوان وظیفه حیاتی شناسایی می‌کنیم و نشان می‌دهیم که این با نقطه تشخیص وظیفه مدل (بخش 4.1) مطابقت دارد و تحت تأثیر افزایش تعداد نمونه‌ها (بخش 6.1) نشان داده شده به مدل‌ها نیست.

یافته مرکزی ما مبنی بر اینکه مدل‌ها نیازی به حفظ توجه در تمام زمینه در هر لایه ندارند، پیامدهای مستقیمی برای بازده استنتاج ترانسفورماتورها دارد، با تخمین زده شده تا 45٪ در هزینه برای مدل لاما با 5 مثال (بخش 5).

محدودیت ها و کار آینده ما تحقیقات گسترده‌ای را با تمرکز بر وظیفه ترجمه در یک جفت زبان با منبع بالا، با یک پسوند کوچک به en ↔ pt انجام داده‌ایم. در کار آینده، ما امیدواریم که این تحلیل را به سایر وظایف توالی یا طبقه بندی و همچنین وظایف جدید واقعی گسترش دهیم.

تکرارپذیری

Source link