تکنیک های دسته بندی برای LLM | HackerNoon

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

2.3 تکنیک های دسته بندی برای LLMs

استفاده از محاسبات در ارائه خدمات LLM را می توان با دسته بندی چندین درخواست بهبود بخشید. از آنجایی که درخواست‌ها وزن‌های مدل یکسانی دارند، سربار وزن‌های متحرک در بین درخواست‌های یک دسته مستهلک می‌شود و زمانی که اندازه دسته به اندازه کافی بزرگ باشد، می‌تواند توسط سربار محاسباتی غلبه کند. با این حال، دسته‌بندی درخواست‌ها به یک سرویس LLM به دو دلیل بی‌اهمیت است.

اول، درخواست ها ممکن است در زمان های مختلف وارد شوند. یک استراتژی دسته‌بندی ساده، یا باعث می‌شود درخواست‌های قبلی منتظر درخواست‌های بعدی باشند یا درخواست‌های دریافتی را تا درخواست‌های قبلی به تأخیر بیاندازد…

Source link