جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
4.5 برنامه ریزی و حق تقدم
هنگامی که ترافیک درخواست از ظرفیت سیستم فراتر می رود، vLLM باید زیر مجموعه ای از درخواست ها را اولویت بندی کند. در vLLM، ما خطمشی زمانبندی اولین خدمت (FCFS) را برای همه درخواستها اتخاذ میکنیم که از انصاف و جلوگیری از گرسنگی جلوگیری میکند. هنگامی که vLLM نیاز دارد درخواستها را از قبل انتخاب کند، اطمینان میدهد که اولین درخواستهای وارد شده ابتدا ارائه میشوند و آخرین درخواستها ابتدا از قبل ارائه میشوند.
خدمات LLM با یک چالش منحصر به فرد روبرو هستند: اعلان های ورودی برای یک LLM می توانند به طور قابل توجهی از نظر طول متفاوت باشند، و طول خروجی حاصل از قبل مشخص نیست، مشروط به هر دو اعلان ورودی…