جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
6.2 نمونه گیری پایه
ما عملکرد vLLM را با نمونهگیری اولیه (یک نمونه در هر درخواست) روی سه مدل و دو مجموعه داده ارزیابی میکنیم. ردیف اول شکل 12 نتایج مربوط به مجموعه داده ShareGPT را نشان می دهد. منحنی ها نشان می دهند که با افزایش نرخ درخواست، تاخیر در ابتدا با سرعت تدریجی افزایش می یابد اما سپس ناگهان منفجر می شود. این را می توان به این دلیل نسبت داد که زمانی که نرخ درخواست از ظرفیت سیستم سرویس دهی فراتر می رود، طول صف بی نهایت به رشد خود ادامه می دهد و به همین ترتیب تاخیر درخواست ها نیز افزایش می یابد.
در مجموعه داده ShareGPT، vLLM می تواند 1.7×–2.7× درخواست بالاتر را حفظ کند…