هنگامی که یک پیشوند در ترکیب قرار می گیرد، vLLM چقدر موثر است؟

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

6.4 پیشوند مشترک

ما کارآیی vLLM را برای مواردی که یک پیشوند در میان دستورهای ورودی مختلف به اشتراک گذاشته شده است، همانطور که در نشان داده شده است، بررسی می کنیم.

شکل 16. حجم کار ترجمه که در آن درخواست های ورودی یک پیشوند مشترک دارند. این پیشوند شامل (الف) 1 مثال با 80 توکن یا (ب) 5 نمونه با 341 توکن است.شکل 16. حجم کار ترجمه که در آن درخواست های ورودی یک پیشوند مشترک دارند. این پیشوند شامل (الف) 1 مثال با 80 توکن یا (ب) 5 نمونه با 341 توکن است.

شکل 17. عملکرد در حجم کاری chatbot.شکل 17. عملکرد در حجم کاری chatbot.

شکل 10. برای مدل، از LLaMA-13B استفاده می کنیم [52]، که چند زبانه است. برای حجم کاری، از WMT16 استفاده می کنیم [4] مجموعه داده ترجمه انگلیسی به آلمانی و ترکیب دو پیشوند که شامل یک دستورالعمل و چند نمونه ترجمه است. پیشوند اول شامل یک مثال واحد (یعنی یک شات) است در حالی که پیشوند دیگر شامل 5 مثال است (یعنی چند شات). همانطور که در شکل 16 (الف) نشان داده شده است، vLLM زمانی که پیشوند تک شات…

Source link