جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
5 اجرا
vLLM یک سیستم سرویس دهی سرتاسر با FastAPI است [15] frontend و یک موتور استنتاج مبتنی بر GPU. قسمت جلویی OpenAI API را گسترش می دهد [34] رابط، به کاربران امکان می دهد پارامترهای نمونه برداری را برای هر درخواست سفارشی کنند، مانند حداکثر طول توالی و عرض پرتو 𝑘. موتور vLLM در 8.5K خط پایتون و 2K خط کد C++/CUDA نوشته شده است. ما اجزای مرتبط با کنترل از جمله زمانبندی و مدیر بلوک را در پایتون توسعه میدهیم و در عین حال هستههای CUDA سفارشی را برای عملیاتهای کلیدی مانند PagedAttention توسعه میدهیم. برای مجری مدل، ما LLM های محبوب را پیاده سازی می کنیم …