ترجمه درون متنی در مدل‌های زبان بزرگ کجا اتفاق می‌افتد: تحلیل بیشتر

نویسندگان:

(1) سوزانا سیا، دانشگاه جانز هاپکینز؛

(2) دیوید مولر؛

(3) کوین دو.

6. تجزیه و تحلیل بیشتر

در بخش‌های بعدی، ما بر روی GPTNEO و BLOOM تمرکز می‌کنیم تا تجزیه و تحلیل عمیق‌تری بر روی پدیده‌های اصلی ارائه‌شده در مقاله انجام دهیم.

6.1. آیا تعداد اعلان ها بر تشخیص کار تأثیر می گذارد؟

در بخش 3 ما پوشش زمینه را با تعداد ثابتی از اعلان ها مطالعه می کنیم. با این حال، مشخص نیست که آیا تعداد اعلان‌ها بر سرعت و لایه‌ای بودن مدل تأثیر می‌گذارد یا خیر. ما این نتایج را برای en→fr در شکل 5 برای GPTNEO و BLOOM ترسیم می کنیم. به طور کلی، متوجه می‌شویم که تعداد مثال‌های سریع تأثیر کمی بر روی لایه‌ای که وظیفه شناسایی می‌شود دارد. در حالی که زمانی که زمینه در اطراف لایه‌های میانی مدل پوشانده می‌شود، تغییراتی در عملکرد وجود دارد، فلات عملکرد نهایی بدون توجه به تعداد درخواست‌ها در همان لایه رخ می‌دهد.

شکل 6. عملکرد لایه های Lora آموزش دیده بدون دستورالعمل برای GPTNeo و BLOOM در en↔fr. خط مشکی نقطه چین به تمرین تمام لایه ها با هم اشاره دارد، در حالی که خطوط تیره نارنجی (تست بدون دستورالعمل) و آبی (تست با دستورالعمل) به آموزش بدون تمرین اشاره دارد. لایه هایی که برای تنظیم دقیق سبک وزن بسیار مناسب هستند در لایه های قبلی قبل از این اتفاق می افتد شکل 6. عملکرد لایه های Lora آموزش دیده بدون دستورالعمل برای GPTNeo و BLOOM در en↔fr. خط مشکی نقطه چین به تمرین تمام لایه ها با هم اشاره دارد، در حالی که خطوط تیره نارنجی (تست بدون دستورالعمل) و آبی (تست با دستورالعمل) به آموزش بدون تمرین اشاره دارد. لایه هایی که برای تنظیم دقیق سبک وزن بسیار مناسب هستند در لایه های قبلی قبل از این اتفاق می افتد

6.2. سازگاری لایه های وظیفه

به طور مستقیم، لایه های قبل از “تشخیص وظیفه” باید حاوی اطلاعاتی در مورد مکان یابی وظیفه MT باشند. برای آزمایش این شهود، سازگاری این لایه‌ها را با آزمایش‌های تنظیم دقیق سبک وزن بیشتر بررسی می‌کنیم. ما یک ماتریس انطباق با رتبه پایین (LoRA؛ Hu et al. (2021)) را برای هر لایه از طرح ریزی خروجی آموزش دادیم در حالی که بقیه موارد را حفظ کردیم.

Source link