چگونه یک چت بات را در LLM خود پیاده سازی کردیم

چکیده و 1 مقدمه

2 پس زمینه و 2.1 مدل های زبان بزرگ مبتنی بر ترانسفورماتور

2.2 خدمات LLM و نسل خودرگرسیون

2.3 تکنیک های دسته بندی برای LLMs

3 چالش حافظه در سرویس LLM

3.1 مدیریت حافظه در سیستم های موجود

4 روش و 4.1 PagedAttention

مدیر کش 4.2 KV

4.3 رمزگشایی با PagedAttention و vLLM

4.4 کاربرد در دیگر سناریوهای رمزگشایی

4.5 برنامه ریزی و حق تقدم

4.6 اجرای توزیع شده

5 اجرا

6 ارزیابی و 6.1 راه اندازی آزمایشی

6.2 نمونه گیری پایه

6.3 نمونه برداری موازی و جستجوی پرتو

6.4 پیشوند مشترک

6.5 چت بات

7 مطالعات فرسایشی

8 بحث

9 کارهای مرتبط

10 نتیجه گیری، تصدیق و مراجع

6.5 چت بات

یک چت بات [8, 19, 35] یکی از مهمترین کاربردهای LLM است. برای پیاده‌سازی یک ربات چت، به مدل اجازه می‌دهیم با الحاق تاریخچه چت و آخرین درخواست کاربر در یک اعلان، یک پاسخ ایجاد کند. ما تاریخچه چت و درخواست کاربر را با استفاده از مجموعه داده ShareGPT ترکیب می کنیم. با توجه به طول متن محدود مدل OPT-13B، ما دستور را به آخرین 1024 توکن برش دادیم و به مدل اجازه دادیم حداکثر 1024 توکن تولید کند. ما حافظه پنهان KV را بین دورهای مکالمه مختلف ذخیره نمی کنیم زیرا انجام این کار فضای درخواست های دیگر بین مکالمه را اشغال می کند…

Source link