جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
2 پس زمینه
در این بخش، روشهای تولید و سرویس دهی LLMهای معمولی و زمانبندی سطح تکرار مورد استفاده در ارائه خدمات LLM را شرح میدهیم.
2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
وظیفه مدلسازی زبان مدلسازی احتمال فهرستی از نشانهها است (𝑥1، . . . , 𝑥𝑛). از آنجایی که زبان دارای ترتیب متوالی طبیعی است، معمول است که احتمال مشترک را در کل دنباله به عنوان حاصلضرب احتمالات شرطی (معروف به تجزیه خودبازگشتی) فاکتور کنیم. [3]):
نویسندگان:
(1) Woosuk Kwon، UC Berkeley با مشارکت برابر.
(2) Zhuohan Li، UC Berkeley…