بهبود جاسازی متن با مدل های زبان بزرگ: آمار داده های ترکیبی

نویسندگان:

(1) لیانگ وانگ، شرکت مایکروسافت، و مکاتبه به ([email protected])

(2) نان یانگ، شرکت مایکروسافت، و مکاتبات به ([email protected])

(3) Xiaolong Huang، Microsoft Corporation.

(4) لینجون یانگ، شرکت مایکروسافت؛

(5) Rangan Majumder، Microsoft Corporation;

(6) فورو وی، شرکت مایکروسافت و مکاتبات به ([email protected]).

چکیده و 1 مقدمه

2 کارهای مرتبط

3 روش

3.1 تولید داده مصنوعی

3.2 آموزش

4 آزمایش

4.1 آمار داده های مصنوعی

4.2 تنظیم دقیق و ارزیابی مدل

4.3 نتایج اصلی

4.4 بازیابی چند زبانه

5 تجزیه و تحلیل

5.1 آیا پیش‌آموزش ضدعفونی ضروری است؟

5.2 گسترش به جاسازی متن طولانی و 5.3 تجزیه و تحلیل فراپارامترهای آموزشی

6 نتیجه گیری و مراجع

A جزئیات پیاده سازی

B تجزیه و تحلیل آلودگی مجموعه تست

C درخواست برای تولید داده مصنوعی

د دستورالعمل برای آموزش و ارزشیابی

4 آزمایش

4.1 آمار داده های مصنوعی

شکل 2: نوع کار و آمار زبان داده های مصنوعی تولید شده (برای تعاریف نوع کار به بخش 3.1 مراجعه کنید). دسته «سایر» شامل زبان‌های باقی‌مانده از فهرست زبان‌های XLM-R است.شکل 2: نوع کار و آمار زبان داده های مصنوعی تولید شده (برای تعاریف نوع کار به بخش 3.1 مراجعه کنید). دسته «سایر» شامل زبان‌های باقی‌مانده از فهرست زبان‌های XLM-R است.

شکل 2 آمار داده های مصنوعی تولید شده ما را نشان می دهد. ما موفق به تولید 500 هزار نمونه با 150 هزار دستورالعمل منحصر به فرد با استفاده از سرویس Azure OpenAI هستیم [2]که 25 درصد آن توسط GPT-35-Turbo و بقیه توسط GPT-4 تولید می شود. کل مصرف توکن حدود 180 میلیون است. زبان غالب …

Source link