جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
4.6 اجرای توزیع شده
بسیاری از LLM ها دارای اندازه پارامترهایی هستند که از ظرفیت یک GPU بیشتر است [5, 9]. بنابراین، لازم است آنها را در بین GPUهای توزیع شده پارتیشن بندی کرده و آنها را به صورت موازی مدل اجرا کنید. [28, 63]. این به یک مدیر حافظه نیاز دارد که بتواند حافظه توزیع شده را مدیریت کند. vLLM در تنظیمات توزیع شده با پشتیبانی از استراتژی موازی مدل تانسور سبک Megatron-LM در ترانسفورماتورها موثر است. [47]. این استراتژی به یک برنامه زمانبندی اجرای SPMD (Single Program Multiple Data) پایبند است که در آن لایه های خطی پارتیشن بندی می شوند.
برای انجام ماتریس بلوک …