رویه‌های تولید و خدمت LLMهای معمولی: توضیحی سریع

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

2 پس زمینه

در این بخش، روش‌های تولید و سرویس دهی LLM‌های معمولی و زمان‌بندی سطح تکرار مورد استفاده در ارائه خدمات LLM را شرح می‌دهیم.

2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

وظیفه مدل‌سازی زبان مدل‌سازی احتمال فهرستی از نشانه‌ها است (𝑥1، . . . , 𝑥𝑛). از آنجایی که زبان دارای ترتیب متوالی طبیعی است، معمول است که احتمال مشترک را در کل دنباله به عنوان حاصلضرب احتمالات شرطی (معروف به تجزیه خودبازگشتی) فاکتور کنیم. [3]):

نویسندگان:

(1) Woosuk Kwon، UC Berkeley با مشارکت برابر.

(2) Zhuohan Li، UC Berkeley…

Source link