نویسندگان:
(1) سوزانا سیا، دانشگاه جانز هاپکینز؛
(2) دیوید مولر؛
(3) کوین دو.
جدول پیوندها
4. مشخص کردن افزونگی در لایه ها
اخیراً سجاد و همکاران. (2023) دریافتند که بسیاری از لایهها در ترانسفورماتورهای از پیش آموزش دیده میتوانند با آسیب کمی به وظایف پایین دست رها شوند. علاوه بر این، به خوبی شناخته شده است که مدلهای ترانسفورماتور عصبی MT دارای چندین سر اضافی هستند که در زمان آزمایش ضروری نیستند (Voita و همکاران، 2019b؛ Michel et al., 2019؛ Behnke & Heafield، 2021). با این حال، مشخص نیست که آیا روندهای یکسانی برای مدلهای MT درون بافتی وجود دارد یا خیر، و چگونه این افزونگی به مکان وظیفه در مقابل اجرای کار مرتبط است.
ما مشارکت لایههای توجه فردی را با انجام یک پوشش ساده به صورت لایهای از تمام سرهای توجه به خود برای یک لایه مطالعه میکنیم. وقتی لایه j را ماسک می کنیم، مکانیسم توجه لایه j را می پوشانیم، یعنی MLP لایه j به جای خروجی سر توجه لایه j، مستقیماً روی خروجی لایه j-1 عمل می کند. انجام این کار به ما امکان می دهد تا بررسی کنیم که هر لایه چقدر بحرانی است، جایی که لایه های بحرانی به طور ضعیف به عنوان لایه هایی تعریف می شوند که هنگام پوشاندن تأثیر منفی زیادی دارند.
ما نتایج را برای هر لایه، همه مدلها، با استفاده از سه ترکیب {0 مثال، بدون دستورالعمل}، {5 مثال، دستورالعمل}، {5 مثال، بدون دستورالعمل} در… رسم میکنیم.