نویسندگان:
(1) لیانگ وانگ، شرکت مایکروسافت، و مکاتبه به ([email protected])
(2) نان یانگ، شرکت مایکروسافت، و مکاتبات به ([email protected])
(3) Xiaolong Huang، Microsoft Corporation.
(4) لینجون یانگ، شرکت مایکروسافت؛
(5) Rangan Majumder، Microsoft Corporation;
(6) فورو وی، شرکت مایکروسافت و مکاتبات به ([email protected]).
جدول پیوندها
چکیده و 1 مقدمه
2 کارهای مرتبط
3 روش
3.1 تولید داده مصنوعی
3.2 آموزش
4 آزمایش
4.1 آمار داده های مصنوعی
4.2 تنظیم دقیق و ارزیابی مدل
4.3 نتایج اصلی
4.4 بازیابی چند زبانه
5 تجزیه و تحلیل
5.1 آیا پیشآموزش ضدعفونی ضروری است؟
5.2 گسترش به جاسازی متن طولانی و 5.3 تجزیه و تحلیل فراپارامترهای آموزشی
6 نتیجه گیری و مراجع
A جزئیات پیاده سازی
B تجزیه و تحلیل آلودگی مجموعه تست
C درخواست برای تولید داده مصنوعی
د دستورالعمل برای آموزش و ارزشیابی
4 آزمایش
4.1 آمار داده های مصنوعی
شکل 2 آمار داده های مصنوعی تولید شده ما را نشان می دهد. ما موفق به تولید 500 هزار نمونه با 150 هزار دستورالعمل منحصر به فرد با استفاده از سرویس Azure OpenAI هستیم [2]که 25 درصد آن توسط GPT-35-Turbo و بقیه توسط GPT-4 تولید می شود. کل مصرف توکن حدود 180 میلیون است. زبان غالب …