ترجمه درون متنی در مدل‌های زبان بزرگ کجا اتفاق می‌افتد: کارایی استنتاج

نویسندگان:

(1) سوزانا سیا، دانشگاه جانز هاپکینز؛

(2) دیوید مولر؛

(3) کوین دو.

5. کارایی استنتاج

افزایش سرعت استنتاج ترانسفورماتور بسیار مورد توجه جامعه است (Fournier et al., 2023). ما پتانسیل افزایش سرعت زمان استنتاج را به عنوان یک نتیجه مستقیم از شناسایی جایی که تشخیص کار در مدل و افزونگی پردازش توجه به خود رخ می دهد برجسته می کنیم. نتایج ما نشان می‌دهد که می‌توانیم با حذف پردازش توکن‌های زمینه پس از یک نقطه مشخص در مدل، به سرعت‌های قابل‌توجهی در استنتاج دست یابیم، بدون اینکه تأثیری بر عملکرد پایین‌دستی نداشته باشد.

سپس، برای مدلی با nℓ لایه، میزان پردازش از نظر سرعت و حافظه ذخیره شده تقریباً (nℓ – r)/nℓ × (k/k + 1) است.

با استفاده از مثال LLAMA7B (32 لایه)، از شکل 2 می بینیم که مدل پس از پردازش نمونه ها در لایه 14 (ℓ = 14) به امتیاز سقف خود بسیار نزدیک است. اگر دیگر نیازی به پردازش مثال‌های بعد از ℓ = 14 نداشته باشیم، تحت اندازه سریع 5 پس انداز تقریباً 45٪ است.

برای مدل‌های تنظیم‌شده با دستورالعمل‌هایی که معمولاً در تولید به کار می‌روند، حتی اگر فرض کنیم که هیچ نمونه‌ای ارائه نشده است، صرفه‌جویی می‌تواند بی‌اهمیت باشد زیرا دستورالعمل‌های بسیار طولانی معمولاً در تلاش برای مدل ارائه می‌شوند.

Source link