روش ما برای توسعه PagedAttention

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

4 روش

در این کار، ما یک الگوریتم توجه جدید به نام PagedAttention را توسعه می‌دهیم و یک موتور سرویس دهی LLM، vLLM، برای مقابله با چالش‌های ذکر شده در §3 می‌سازیم. معماری vLLM در شکل 4 نشان داده شده است. vLLM از یک زمانبندی متمرکز برای هماهنگی اجرای کارگران GPU توزیع شده استفاده می کند. مدیر کش KV به طور موثر حافظه پنهان KV را به صورت صفحه بندی شده مدیریت می کند که توسط PagedAttention فعال شده است. به طور خاص، مدیر کش KV، حافظه پنهان فیزیکی KV را روی کارگران GPU از طریق دستورالعمل‌های ارسال شده توسط زمان‌بندی متمرکز مدیریت می‌کند.

سپس، الگوریتم PagedAttention را در §4.1 شرح می دهیم.

Source link