جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
4.4 کاربرد در دیگر سناریوهای رمزگشایی
§4.3 نشان میدهد که چگونه PagedAttention و vLLM با الگوریتمهای رمزگشایی اولیه، مانند رمزگشایی حریصانه و نمونهبرداری، که از یک کاربر به عنوان ورودی استفاده میکنند و یک دنباله خروجی واحد تولید میکنند، مدیریت میکنند. در بسیاری از برنامه های موفق LLM [18, 34]، یک سرویس LLM باید سناریوهای رمزگشایی پیچیده تری ارائه دهد که الگوهای دسترسی پیچیده و فرصت های بیشتری برای اشتراک گذاری حافظه را نشان می دهد. کاربرد کلی vLLM بر روی آنها را در این بخش نشان می دهیم.
نمونه برداری موازی در دستیاران برنامه مبتنی بر LLM [6, 18]، یک LLM چندین خروجی نمونه برداری شده را برای یک ورودی تولید می کند…