جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
2.3 تکنیک های دسته بندی برای LLMs
استفاده از محاسبات در ارائه خدمات LLM را می توان با دسته بندی چندین درخواست بهبود بخشید. از آنجایی که درخواستها وزنهای مدل یکسانی دارند، سربار وزنهای متحرک در بین درخواستهای یک دسته مستهلک میشود و زمانی که اندازه دسته به اندازه کافی بزرگ باشد، میتواند توسط سربار محاسباتی غلبه کند. با این حال، دستهبندی درخواستها به یک سرویس LLM به دو دلیل بیاهمیت است.
اول، درخواست ها ممکن است در زمان های مختلف وارد شوند. یک استراتژی دستهبندی ساده، یا باعث میشود درخواستهای قبلی منتظر درخواستهای بعدی باشند یا درخواستهای دریافتی را تا درخواستهای قبلی به تأخیر بیاندازد…