ترجمه درون متنی در مدل‌های زبان بزرگ کجا اتفاق می‌افتد: مشخص کردن افزونگی در لایه

نویسندگان:

(1) سوزانا سیا، دانشگاه جانز هاپکینز؛

(2) دیوید مولر؛

(3) کوین دو.

4. مشخص کردن افزونگی در لایه ها

اخیراً سجاد و همکاران. (2023) دریافتند که بسیاری از لایه‌ها در ترانسفورماتورهای از پیش آموزش دیده می‌توانند با آسیب کمی به وظایف پایین دست رها شوند. علاوه بر این، به خوبی شناخته شده است که مدل‌های ترانسفورماتور عصبی MT دارای چندین سر اضافی هستند که در زمان آزمایش ضروری نیستند (Voita و همکاران، 2019b؛ Michel et al., 2019؛ Behnke & Heafield، 2021). با این حال، مشخص نیست که آیا روندهای یکسانی برای مدل‌های MT درون بافتی وجود دارد یا خیر، و چگونه این افزونگی به مکان وظیفه در مقابل اجرای کار مرتبط است.

ما مشارکت لایه‌های توجه فردی را با انجام یک پوشش ساده به صورت لایه‌ای از تمام سرهای توجه به خود برای یک لایه مطالعه می‌کنیم. وقتی لایه j را ماسک می کنیم، مکانیسم توجه لایه j را می پوشانیم، یعنی MLP لایه j به جای خروجی سر توجه لایه j، مستقیماً روی خروجی لایه j-1 عمل می کند. انجام این کار به ما امکان می دهد تا بررسی کنیم که هر لایه چقدر بحرانی است، جایی که لایه های بحرانی به طور ضعیف به عنوان لایه هایی تعریف می شوند که هنگام پوشاندن تأثیر منفی زیادی دارند.

ما نتایج را برای هر لایه، همه مدل‌ها، با استفاده از سه ترکیب {0 مثال، بدون دستورالعمل}، {5 مثال، دستورالعمل}، {5 مثال، بدون دستورالعمل} در… رسم می‌کنیم.

Source link