اجرای توزیع شده vLLM

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

4.6 اجرای توزیع شده

بسیاری از LLM ها دارای اندازه پارامترهایی هستند که از ظرفیت یک GPU بیشتر است [5, 9]. بنابراین، لازم است آنها را در بین GPUهای توزیع شده پارتیشن بندی کرده و آنها را به صورت موازی مدل اجرا کنید. [28, 63]. این به یک مدیر حافظه نیاز دارد که بتواند حافظه توزیع شده را مدیریت کند. vLLM در تنظیمات توزیع شده با پشتیبانی از استراتژی موازی مدل تانسور سبک Megatron-LM در ترانسفورماتورها موثر است. [47]. این استراتژی به یک برنامه زمانبندی اجرای SPMD (Single Program Multiple Data) پایبند است که در آن لایه های خطی پارتیشن بندی می شوند.

جدول 1. اندازه مدل و پیکربندی سرور.جدول 1. اندازه مدل و پیکربندی سرور.

برای انجام ماتریس بلوک …

Source link