خدمات LLM و نسل خودرگرسیون: این به چه معناست

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

2.2 خدمات LLM و نسل خودرگرسیون

پس از آموزش، LLM ها اغلب به عنوان یک سرویس تولید مشروط (به عنوان مثال، تکمیل API) مستقر می شوند [34] یا چت بات [19, 35]). درخواست به یک سرویس LLM فهرستی از نشانه‌های اعلان ورودی (𝑥1، . . . . , 𝑥𝑛) را ارائه می‌کند، و سرویس LLM فهرستی از نشانه‌های خروجی را تولید می‌کند (𝑥𝑛+1، . . . . , 𝑥𝑛+ طبق EQ.) 1. ما به الحاق لیست های prompt و output به عنوان دنباله اشاره می کنیم.

به دلیل تجزیه در معادله 1، LLM تنها می‌تواند توکن‌های جدید را یکی یکی نمونه‌برداری و تولید کند، و فرآیند تولید هر توکن جدید به همه موارد بستگی دارد.

Source link