چگونه vLLM زیرمجموعه ای از درخواست ها را اولویت بندی می کند

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

4.5 برنامه ریزی و حق تقدم

هنگامی که ترافیک درخواست از ظرفیت سیستم فراتر می رود، vLLM باید زیر مجموعه ای از درخواست ها را اولویت بندی کند. در vLLM، ما خط‌مشی زمان‌بندی اولین خدمت (FCFS) را برای همه درخواست‌ها اتخاذ می‌کنیم که از انصاف و جلوگیری از گرسنگی جلوگیری می‌کند. هنگامی که vLLM نیاز دارد درخواست‌ها را از قبل انتخاب کند، اطمینان می‌دهد که اولین درخواست‌های وارد شده ابتدا ارائه می‌شوند و آخرین درخواست‌ها ابتدا از قبل ارائه می‌شوند.

خدمات LLM با یک چالش منحصر به فرد روبرو هستند: اعلان های ورودی برای یک LLM می توانند به طور قابل توجهی از نظر طول متفاوت باشند، و طول خروجی حاصل از قبل مشخص نیست، مشروط به هر دو اعلان ورودی…

Source link