ارزیابی عملکرد vLLM: چگونه انجام شد؟

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

6 ارزیابی

در این بخش، عملکرد vLLM را تحت انواع بارهای کاری ارزیابی می کنیم.

شکل 12. تولید توالی منفرد با مدل های OPT در مجموعه داده ShareGPT و Alpacaشکل 12. تولید توالی منفرد با مدل های OPT در مجموعه داده ShareGPT و Alpaca

شکل 13. میانگین تعداد درخواست های دسته ای هنگام ارائه OPT-13B برای ردیابی ShareGPT (2 reqs/s) و Alpaca (30 reqs/s).شکل 13. میانگین تعداد درخواست های دسته ای هنگام ارائه OPT-13B برای ردیابی ShareGPT (2 reqs/s) و Alpaca (30 reqs/s).

6.1 راه اندازی آزمایشی

تنظیمات مدل و سرور ما از OPT استفاده می کنیم [62] مدل هایی با پارامترهای 13B، 66B و 175B و LLaMA [52] با پارامترهای 13B برای ارزیابی ما. 13B و 66B اندازه های محبوب برای LLM ها هستند همانطور که در تابلوی امتیازات LLM نشان داده شده است [38]، در حالی که 175B به اندازه GPT-3 معروف است [5] مدل برای همه آزمایش‌هایمان، از نمونه‌های A2 با پردازنده‌های گرافیکی NVIDIA A100 در Google Cloud Platform استفاده می‌کنیم. اندازه مدل دقیق و پیکربندی سرور در جدول 1 نشان داده شده است.

بارهای کاری. ما حجم کار را بر اساس …

Source link