ترجمه درون متنی در مدل‌های زبان بزرگ کجا اتفاق می‌افتد: چکیده و پس‌زمینه

نویسندگان:

(1) سوزانا سیا، دانشگاه جانز هاپکینز؛

(2) دیوید مولر؛

(3) کوین دو.

چکیده

مدل‌های زبان بزرگ با نظارت شخصی توانایی انجام ترجمه ماشینی (MT) را از طریق یادگیری درون متنی نشان داده‌اند، اما اطلاعات کمی در مورد اینکه مدل با توجه به دستورالعمل‌های سریع و نمونه‌های نمایشی کجا این کار را انجام می‌دهد، نشان داده‌اند. در این کار، ما سعی می‌کنیم منطقه‌ای را مشخص کنیم که در آن مدل‌های زبان بزرگ از زبان‌آموزان درون متنی به مدل‌های ترجمه تغییر می‌کنند. از طریق یک سری آزمایش‌های لایه‌ای پوشاندن زمینه روی GPTNEO2.7B، BLOOM3B، LLAMA7B و LLAMA7B-CHAT، ما شواهدی از یک نقطه “تشخیص وظیفه” را نشان می‌دهیم که در آن وظیفه ترجمه در بازنمایی‌های ورودی کدگذاری می‌شود و توجه به متن وجود ندارد. دیگر لازم است ما بیشتر مطابقت بین عملکرد پایین را هنگام پوشاندن کل لایه‌ها و لایه‌های تشخیص کار مشاهده می‌کنیم. استفاده از این افزونگی منجر به 45 درصد صرفه جویی در محاسبات در هنگام درخواست با 5 مثال می شود، و تشخیص وظیفه در لایه 14/32 به دست می آید. آزمایش های تنظیم دقیق لایه ای ما نشان می دهد که موثرترین لایه ها برای تنظیم دقیق MT، لایه های حیاتی هستند. برای تشخیص وظیفه

یادگیری درون متنی (ICL) به پدیده ای اشاره دارد که در آن مولدهای بزرگ از پیش آموزش دیده…

Source link