چگونه vLLM الگوریتم های رمزگشایی را پیاده سازی می کند

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

5 اجرا

vLLM یک سیستم سرویس دهی سرتاسر با FastAPI است [15] frontend و یک موتور استنتاج مبتنی بر GPU. قسمت جلویی OpenAI API را گسترش می دهد [34] رابط، به کاربران امکان می دهد پارامترهای نمونه برداری را برای هر درخواست سفارشی کنند، مانند حداکثر طول توالی و عرض پرتو 𝑘. موتور vLLM در 8.5K خط پایتون و 2K خط کد C++/CUDA نوشته شده است. ما اجزای مرتبط با کنترل از جمله زمان‌بندی و مدیر بلوک را در پایتون توسعه می‌دهیم و در عین حال هسته‌های CUDA سفارشی را برای عملیات‌های کلیدی مانند PagedAttention توسعه می‌دهیم. برای مجری مدل، ما LLM های محبوب را پیاده سازی می کنیم …

Source link