چگونه می توان vLLM را در سناریوهای رمزگشایی دیگر اعمال کرد

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

4.4 کاربرد در دیگر سناریوهای رمزگشایی

§4.3 نشان می‌دهد که چگونه PagedAttention و vLLM با الگوریتم‌های رمزگشایی اولیه، مانند رمزگشایی حریصانه و نمونه‌برداری، که از یک کاربر به عنوان ورودی استفاده می‌کنند و یک دنباله خروجی واحد تولید می‌کنند، مدیریت می‌کنند. در بسیاری از برنامه های موفق LLM [18, 34]، یک سرویس LLM باید سناریوهای رمزگشایی پیچیده تری ارائه دهد که الگوهای دسترسی پیچیده و فرصت های بیشتری برای اشتراک گذاری حافظه را نشان می دهد. کاربرد کلی vLLM بر روی آنها را در این بخش نشان می دهیم.

نمونه برداری موازی در دستیاران برنامه مبتنی بر LLM [6, 18]، یک LLM چندین خروجی نمونه برداری شده را برای یک ورودی تولید می کند…

Source link