جدول پیوندها
چکیده و 1 مقدمه
2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور
2.2 خدمات LLM و نسل خودرگرسیون
2.3 تکنیک های دسته بندی برای LLMs
3 چالش حافظه در سرویس LLM
3.1 مدیریت حافظه در سیستم های موجود
4 روش و 4.1 PagedAttention
مدیر کش 4.2 KV
4.3 رمزگشایی با PagedAttention و vLLM
4.4 کاربرد در دیگر سناریوهای رمزگشایی
4.5 برنامه ریزی و حق تقدم
4.6 اجرای توزیع شده
5 اجرا
6 ارزیابی و 6.1 راه اندازی آزمایشی
6.2 نمونه گیری پایه
6.3 نمونه برداری موازی و جستجوی پرتو
6.4 پیشوند مشترک
6.5 چت بات
7 مطالعات فرسایشی
8 بحث
9 کارهای مرتبط
10 نتیجه گیری، تصدیق و مراجع
6 ارزیابی
در این بخش، عملکرد vLLM را تحت انواع بارهای کاری ارزیابی می کنیم.
6.1 راه اندازی آزمایشی
تنظیمات مدل و سرور ما از OPT استفاده می کنیم [62] مدل هایی با پارامترهای 13B، 66B و 175B و LLaMA [52] با پارامترهای 13B برای ارزیابی ما. 13B و 66B اندازه های محبوب برای LLM ها هستند همانطور که در تابلوی امتیازات LLM نشان داده شده است [38]، در حالی که 175B به اندازه GPT-3 معروف است [5] مدل برای همه آزمایشهایمان، از نمونههای A2 با پردازندههای گرافیکی NVIDIA A100 در Google Cloud Platform استفاده میکنیم. اندازه مدل دقیق و پیکربندی سرور در جدول 1 نشان داده شده است.
بارهای کاری. ما حجم کار را بر اساس …