سیستم‌های سرویس‌دهی مدل عمومی و بهینه‌سازی‌های حافظه توضیح داده شده است

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

سیستم های سرویس دهی مدل عمومی ارائه مدل در سال‌های اخیر، با سیستم‌های متعددی که برای مقابله با جنبه‌های مختلف استقرار مدل یادگیری عمیق پیشنهاد شده‌اند، یک حوزه تحقیقاتی فعال بوده است. کلیپر [11]سرویس تنسورفلو [33]نکسوس [45]، اینفرلاین [10]و ساعت [20] برخی از سیستم های سرویس دهی مدل کلی قبلی هستند. آن‌ها دسته‌بندی، ذخیره‌سازی، مکان‌یابی و زمان‌بندی را برای ارائه مدل‌های تک یا چندگانه مطالعه می‌کنند. اخیراً DVABatch [12] دسته بندی چند خروجی چند ورودی را معرفی می کند. ریف [21] و شپرد [61] پیشنهاد پیشدستی برای خدمت AlpaServe [28] از موازی سازی مدل برای …

Source link