جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
3.1 مدیریت حافظه در سیستم های موجود
از آنجایی که اکثر اپراتورها در چارچوب های یادگیری عمیق فعلی هستند [33, 39] نیاز به ذخیره تانسورها در حافظه پیوسته، سیستم های سرویس دهی قبلی LLM دارند [31, 60] همچنین حافظه نهان KV یک درخواست را به عنوان یک تانسور پیوسته در موقعیت های مختلف ذخیره کنید. با توجه به طولهای خروجی غیرقابل پیشبینی از LLM، آنها به صورت ایستا یک تکه از حافظه را برای یک درخواست بر اساس حداکثر طول توالی ممکن درخواست، صرف نظر از طول ورودی واقعی یا خروجی نهایی درخواست، اختصاص میدهند.
شکل 3 دو درخواست را نشان می دهد: درخواست A با 2048 حداکثر ممکن…