چالش های حافظه در خدمت LLM: موانعی که باید بر آنها غلبه کرد

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

3 چالش حافظه در سرویس LLM

اگرچه دسته بندی ریز دانه اتلاف محاسبات را کاهش می دهد و درخواست ها را قادر می سازد تا به روشی انعطاف پذیرتر دسته بندی شوند، تعداد درخواست هایی که می توانند با هم دسته بندی شوند هنوز توسط ظرفیت حافظه GPU محدود می شود، به ویژه فضای اختصاص داده شده برای ذخیره کش KV. به عبارت دیگر، توان عملیاتی سیستم سرویس دهی محدود به حافظه است. غلبه بر این محدودیت حافظه مستلزم پرداختن به چالش های زیر در مدیریت حافظه است:

کش KV بزرگ. اندازه KV Cache با تعداد درخواست ها به سرعت رشد می کند. به عنوان مثال، برای مدل OPT پارامتر 13B [62]،…

Source link