جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
2.2 خدمات LLM و نسل خودرگرسیون
پس از آموزش، LLM ها اغلب به عنوان یک سرویس تولید مشروط (به عنوان مثال، تکمیل API) مستقر می شوند [34] یا چت بات [19, 35]). درخواست به یک سرویس LLM فهرستی از نشانههای اعلان ورودی (𝑥1، . . . . , 𝑥𝑛) را ارائه میکند، و سرویس LLM فهرستی از نشانههای خروجی را تولید میکند (𝑥𝑛+1، . . . . , 𝑥𝑛+ طبق EQ.) 1. ما به الحاق لیست های prompt و output به عنوان دنباله اشاره می کنیم.
به دلیل تجزیه در معادله 1، LLM تنها میتواند توکنهای جدید را یکی یکی نمونهبرداری و تولید کند، و فرآیند تولید هر توکن جدید به همه موارد بستگی دارد.