نویسندگان:
(1) لیانگ وانگ، شرکت مایکروسافت، و مکاتبه به ([email protected])
(2) نان یانگ، شرکت مایکروسافت، و مکاتبات به ([email protected])
(3) Xiaolong Huang، Microsoft Corporation.
(4) لینجون یانگ، شرکت مایکروسافت؛
(5) Rangan Majumder، Microsoft Corporation;
(6) فورو وی، شرکت مایکروسافت و مکاتبات به ([email protected]).
جدول پیوندها
چکیده و 1 مقدمه
2 کارهای مرتبط
3 روش
3.1 تولید داده مصنوعی
3.2 آموزش
4 آزمایش
4.1 آمار داده های مصنوعی
4.2 تنظیم دقیق و ارزیابی مدل
4.3 نتایج اصلی
4.4 بازیابی چند زبانه
5 تجزیه و تحلیل
5.1 آیا پیشآموزش ضدعفونی ضروری است؟
5.2 گسترش به جاسازی متن طولانی و 5.3 تجزیه و تحلیل فراپارامترهای آموزشی
6 نتیجه گیری و مراجع
A جزئیات پیاده سازی
B تجزیه و تحلیل آلودگی مجموعه تست
C درخواست برای تولید داده مصنوعی
د دستورالعمل برای آموزش و ارزشیابی
4.2 تنظیم دقیق و ارزیابی مدل
Mistral-7b از پیش آموزش دیده [19] نقطه بازرسی برای 1 دوره با استفاده از ضرر در معادله 2 به خوبی تنظیم شده است. ما دستورالعمل آموزشی را از RankLLaMA دنبال می کنیم [24] و از LoRA استفاده کنید [17] با رتبه 16. برای کاهش بیشتر نیاز به حافظه GPU، تکنیک هایی از جمله بررسی گرادیان، آموزش دقیق ترکیبی و DeepSpeed ZeRO-3 هستند…