رمزگشایی با PagedAttention و vLLM

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

4.3 رمزگشایی با PagedAttention و vLLM

سپس، مانند شکل 6، مثالی را مرور می کنیم تا نشان دهیم vLLM چگونه PagedAttention را اجرا می کند و حافظه را در طول فرآیند رمزگشایی یک دنباله ورودی واحد مدیریت می کند: 1 مانند حافظه مجازی OS، vLLM نیازی به رزرو حافظه برای حداکثر طول توالی تولید شده در ابتدا. در عوض، فقط بلوک‌های KV لازم را برای تطبیق حافظه پنهان KV تولید شده در طول محاسبات سریع ذخیره می‌کند.

در این حالت، The Prompt دارای 7 نشانه است، بنابراین vLLM 2 بلوک KV منطقی اول (0 و 1) را به 2 بلوک فیزیکی KV (7 و 1،…) نگاشت می کند.

Source link