ارزیابی انتخاب‌های طراحی vLLM با آزمایش‌های Ablation

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

7 مطالعات فرسایشی

در این بخش، جنبه‌های مختلف vLLM را بررسی می‌کنیم و انتخاب‌های طراحی را که با آزمایش‌های فرسایشی انجام می‌دهیم، ارزیابی می‌کنیم.

7.1 Microbenchmark هسته

نگاشت بلوک پویا در PagedAttention بر عملکرد عملیات GPU مربوط به حافظه نهان ذخیره شده KV، یعنی بلوک خواندن/نوشتن و توجه تأثیر می گذارد. در مقایسه با سیستم‌های موجود، هسته‌های GPU ما (§5) شامل هزینه‌های اضافی برای دسترسی به جدول بلوک، اجرای شاخه‌های اضافی و مدیریت طول‌های دنباله متغیر است. همانطور که در شکل 18a نشان داده شده است، این امر منجر به 20 تا 26% تاخیر هسته توجه بیشتر در مقایسه با…

Source link