نویسندگان:
(1) سوزانا سیا، دانشگاه جانز هاپکینز؛
(2) دیوید مولر؛
(3) کوین دو.
جدول پیوندها
7. نتیجه گیری
ما شواهدی را نشان میدهیم که مدلهای رمزگشای علی درون متنی، وظیفه ترجمه را در لایههای خاصی در طول استنتاج رو به جلو تعیین میکنند. برای مطالعه این موضوع، ما پوشش علّی توجه به خود را در زمینه از لایه ℓ به بعد معرفی کردیم (بخش 3). یافتهها در بین مدلهای با اندازههای مختلف و در هر دو مدل تنظیمنشده و تنظیمشده دستورالعمل تعمیم مییابند. ما لایههای خاصی را بهعنوان وظیفه حیاتی شناسایی میکنیم و نشان میدهیم که این با نقطه تشخیص وظیفه مدل (بخش 4.1) مطابقت دارد و تحت تأثیر افزایش تعداد نمونهها (بخش 6.1) نشان داده شده به مدلها نیست.
یافته مرکزی ما مبنی بر اینکه مدلها نیازی به حفظ توجه در تمام زمینه در هر لایه ندارند، پیامدهای مستقیمی برای بازده استنتاج ترانسفورماتورها دارد، با تخمین زده شده تا 45٪ در هزینه برای مدل لاما با 5 مثال (بخش 5).
محدودیت ها و کار آینده ما تحقیقات گستردهای را با تمرکز بر وظیفه ترجمه در یک جفت زبان با منبع بالا، با یک پسوند کوچک به en ↔ pt انجام دادهایم. در کار آینده، ما امیدواریم که این تحلیل را به سایر وظایف توالی یا طبقه بندی و همچنین وظایف جدید واقعی گسترش دهیم.
تکرارپذیری …