ارزیابی vLLM با نمونه برداری اولیه

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

6.2 نمونه گیری پایه

ما عملکرد vLLM را با نمونه‌گیری اولیه (یک نمونه در هر درخواست) روی سه مدل و دو مجموعه داده ارزیابی می‌کنیم. ردیف اول شکل 12 نتایج مربوط به مجموعه داده ShareGPT را نشان می دهد. منحنی ها نشان می دهند که با افزایش نرخ درخواست، تاخیر در ابتدا با سرعت تدریجی افزایش می یابد اما سپس ناگهان منفجر می شود. این را می توان به این دلیل نسبت داد که زمانی که نرخ درخواست از ظرفیت سیستم سرویس دهی فراتر می رود، طول صف بی نهایت به رشد خود ادامه می دهد و به همین ترتیب تاخیر درخواست ها نیز افزایش می یابد.

در مجموعه داده ShareGPT، vLLM می تواند 1.7×–2.7× درخواست بالاتر را حفظ کند…

Source link