جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
6.3 نمونه برداری موازی و جستجوی پرتو
ما اثربخشی اشتراکگذاری حافظه در PagedAttention را با دو روش نمونهگیری رایج ارزیابی میکنیم: نمونهبرداری موازی و جستجوی پرتو. در نمونه برداری موازی، تمام دنباله های موازی در یک درخواست می توانند حافظه پنهان KV را برای درخواست به اشتراک بگذارند. همانطور که در ردیف اول شکل 14 نشان داده شده است، با تعداد بیشتری از دنباله ها برای نمونه، vLLM بهبود بیشتری را نسبت به خطوط پایه Orca به ارمغان می آورد. به طور مشابه، ردیف دوم شکل 14 نتایج جستجوی تیر با عرض پرتوهای مختلف را نشان می دهد. از آنجایی که جستجوی پرتو امکان اشتراک گذاری بیشتر را فراهم می کند، vLLM مزایای عملکردی بیشتری را نشان می دهد. …