بهبود جاسازی متن با مدل های زبان بزرگ: تنظیم دقیق و ارزیابی مدل

نویسندگان:

(1) لیانگ وانگ، شرکت مایکروسافت، و مکاتبه به ([email protected])

(2) نان یانگ، شرکت مایکروسافت، و مکاتبات به ([email protected])

(3) Xiaolong Huang، Microsoft Corporation.

(4) لینجون یانگ، شرکت مایکروسافت؛

(5) Rangan Majumder، Microsoft Corporation;

(6) فورو وی، شرکت مایکروسافت و مکاتبات به ([email protected]).

چکیده و 1 مقدمه

2 کارهای مرتبط

3 روش

3.1 تولید داده مصنوعی

3.2 آموزش

4 آزمایش

4.1 آمار داده های مصنوعی

4.2 تنظیم دقیق و ارزیابی مدل

4.3 نتایج اصلی

4.4 بازیابی چند زبانه

5 تجزیه و تحلیل

5.1 آیا پیش‌آموزش ضدعفونی ضروری است؟

5.2 گسترش به جاسازی متن طولانی و 5.3 تجزیه و تحلیل فراپارامترهای آموزشی

6 نتیجه گیری و مراجع

A جزئیات پیاده سازی

B تجزیه و تحلیل آلودگی مجموعه تست

C درخواست برای تولید داده مصنوعی

د دستورالعمل برای آموزش و ارزشیابی

4.2 تنظیم دقیق و ارزیابی مدل

Mistral-7b از پیش آموزش دیده [19] نقطه بازرسی برای 1 دوره با استفاده از ضرر در معادله 2 به خوبی تنظیم شده است. ما دستورالعمل آموزشی را از RankLLaMA دنبال می کنیم [24] و از LoRA استفاده کنید [17] با رتبه 16. برای کاهش بیشتر نیاز به حافظه GPU، تکنیک هایی از جمله بررسی گرادیان، آموزش دقیق ترکیبی و DeepSpeed ​​ZeRO-3 هستند…

Source link