نویسندگان:
(1) سوزانا سیا، دانشگاه جانز هاپکینز؛
(2) دیوید مولر؛
(3) کوین دو.
جدول پیوندها
6. تجزیه و تحلیل بیشتر
در بخشهای بعدی، ما بر روی GPTNEO و BLOOM تمرکز میکنیم تا تجزیه و تحلیل عمیقتری بر روی پدیدههای اصلی ارائهشده در مقاله انجام دهیم.
6.1. آیا تعداد اعلان ها بر تشخیص کار تأثیر می گذارد؟
در بخش 3 ما پوشش زمینه را با تعداد ثابتی از اعلان ها مطالعه می کنیم. با این حال، مشخص نیست که آیا تعداد اعلانها بر سرعت و لایهای بودن مدل تأثیر میگذارد یا خیر. ما این نتایج را برای en→fr در شکل 5 برای GPTNEO و BLOOM ترسیم می کنیم. به طور کلی، متوجه میشویم که تعداد مثالهای سریع تأثیر کمی بر روی لایهای که وظیفه شناسایی میشود دارد. در حالی که زمانی که زمینه در اطراف لایههای میانی مدل پوشانده میشود، تغییراتی در عملکرد وجود دارد، فلات عملکرد نهایی بدون توجه به تعداد درخواستها در همان لایه رخ میدهد.
6.2. سازگاری لایه های وظیفه
به طور مستقیم، لایه های قبل از “تشخیص وظیفه” باید حاوی اطلاعاتی در مورد مکان یابی وظیفه MT باشند. برای آزمایش این شهود، سازگاری این لایهها را با آزمایشهای تنظیم دقیق سبک وزن بیشتر بررسی میکنیم. ما یک ماتریس انطباق با رتبه پایین (LoRA؛ Hu et al. (2021)) را برای هر لایه از طرح ریزی خروجی آموزش دادیم در حالی که بقیه موارد را حفظ کردیم.