جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
7 مطالعات فرسایشی
در این بخش، جنبههای مختلف vLLM را بررسی میکنیم و انتخابهای طراحی را که با آزمایشهای فرسایشی انجام میدهیم، ارزیابی میکنیم.
7.1 Microbenchmark هسته
نگاشت بلوک پویا در PagedAttention بر عملکرد عملیات GPU مربوط به حافظه نهان ذخیره شده KV، یعنی بلوک خواندن/نوشتن و توجه تأثیر می گذارد. در مقایسه با سیستمهای موجود، هستههای GPU ما (§5) شامل هزینههای اضافی برای دسترسی به جدول بلوک، اجرای شاخههای اضافی و مدیریت طولهای دنباله متغیر است. همانطور که در شکل 18a نشان داده شده است، این امر منجر به 20 تا 26% تاخیر هسته توجه بیشتر در مقایسه با…