جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
مدیر کش 4.2 KV
ایده کلیدی پشت مدیریت حافظه vLLM مشابه حافظه مجازی است [25] در سیستم عامل ها سیستم عامل حافظه را به صفحات با اندازه ثابت تقسیم می کند و صفحات منطقی برنامه های کاربر را به صفحات فیزیکی نگاشت می کند. صفحات منطقی پیوسته می توانند با صفحات حافظه فیزیکی غیرمرتبط مطابقت داشته باشند و به برنامه های کاربر اجازه می دهند به حافظه دسترسی پیدا کنند که انگار به هم پیوسته هستند. علاوه بر این، فضای حافظه فیزیکی لازم نیست از قبل به طور کامل رزرو شود، و سیستم عامل را قادر می سازد تا صفحات فیزیکی را به صورت پویا در صورت نیاز اختصاص دهد. vLLM از ایده های پشت حافظه مجازی برای مدیریت کش KV در یک سرویس LLM استفاده می کند.