بکارگیری تکنیک حافظه مجازی و صفحه بندی: یک بحث

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

8 بحث

استفاده از حافظه مجازی و تکنیک صفحه‌بندی برای بارهای کاری دیگر GPU. ایده حافظه مجازی و صفحه‌بندی برای مدیریت حافظه نهان KV در سرویس LLM موثر است، زیرا حجم کار به تخصیص حافظه پویا نیاز دارد (از آنجایی که طول خروجی از قبل مشخص نیست) و عملکرد آن به ظرفیت حافظه GPU محدود می‌شود. با این حال، این به طور کلی برای هر بار کاری GPU صادق نیست. به عنوان مثال، در آموزش DNN، اشکال تانسور معمولاً ثابت هستند و بنابراین تخصیص حافظه را می توان زودتر از موعد بهینه کرد. برای مثال دیگر، در سرویس دهی به DNN هایی که LLM نیستند، افزایش …

Source link