PagedAttention و vLLM توضیح دادند: آنها چه هستند؟

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

10 نتیجه گیری

این مقاله PagedAttention را پیشنهاد می‌کند، یک الگوریتم توجه جدید که به کلیدها و مقادیر توجه اجازه می‌دهد تا در حافظه صفحه‌دار غیرمرتبط ذخیره شوند، و vLLM، یک سیستم سرویس دهی LLM با توان عملیاتی بالا با مدیریت حافظه کارآمد که توسط PagedAttention فعال شده است را ارائه می‌کند. با الهام از سیستم‌های عامل، ما نشان می‌دهیم که چگونه تکنیک‌های تثبیت‌شده، مانند حافظه مجازی و کپی در نوشتن، می‌توانند برای مدیریت مؤثر کش KV و مدیریت الگوریتم‌های رمزگشایی مختلف در سرویس LLM تطبیق داده شوند. آزمایش‌های ما نشان می‌دهد که vLLM نسبت به سیستم‌های پیشرفته 2-4× بهبود عملکرد را به دست می‌آورد.

Source link