نویسندگان:
(1) سوزانا سیا، دانشگاه جانز هاپکینز؛
(2) دیوید مولر؛
(3) کوین دو.
جدول پیوندها
5. کارایی استنتاج
افزایش سرعت استنتاج ترانسفورماتور بسیار مورد توجه جامعه است (Fournier et al., 2023). ما پتانسیل افزایش سرعت زمان استنتاج را به عنوان یک نتیجه مستقیم از شناسایی جایی که تشخیص کار در مدل و افزونگی پردازش توجه به خود رخ می دهد برجسته می کنیم. نتایج ما نشان میدهد که میتوانیم با حذف پردازش توکنهای زمینه پس از یک نقطه مشخص در مدل، به سرعتهای قابلتوجهی در استنتاج دست یابیم، بدون اینکه تأثیری بر عملکرد پاییندستی نداشته باشد.
سپس، برای مدلی با nℓ لایه، میزان پردازش از نظر سرعت و حافظه ذخیره شده تقریباً (nℓ – r)/nℓ × (k/k + 1) است.
با استفاده از مثال LLAMA7B (32 لایه)، از شکل 2 می بینیم که مدل پس از پردازش نمونه ها در لایه 14 (ℓ = 14) به امتیاز سقف خود بسیار نزدیک است. اگر دیگر نیازی به پردازش مثالهای بعد از ℓ = 14 نداشته باشیم، تحت اندازه سریع 5 پس انداز تقریباً 45٪ است.
برای مدلهای تنظیمشده با دستورالعملهایی که معمولاً در تولید به کار میروند، حتی اگر فرض کنیم که هیچ نمونهای ارائه نشده است، صرفهجویی میتواند بیاهمیت باشد زیرا دستورالعملهای بسیار طولانی معمولاً در تلاش برای مدل ارائه میشوند.