بهبود جاسازی متن با مدل‌های زبان بزرگ: آیا پیش‌آموزش متضاد لازم است؟

نویسندگان:

(1) لیانگ وانگ، شرکت مایکروسافت، و مکاتبه به ([email protected])

(2) نان یانگ، شرکت مایکروسافت، و مکاتبات به ([email protected])

(3) Xiaolong Huang، Microsoft Corporation.

(4) لینجون یانگ، شرکت مایکروسافت؛

(5) Rangan Majumder، Microsoft Corporation;

(6) فورو وی، شرکت مایکروسافت و مکاتبات به ([email protected]).

چکیده و 1 مقدمه

2 کارهای مرتبط

3 روش

3.1 تولید داده مصنوعی

3.2 آموزش

4 آزمایش

4.1 آمار داده های مصنوعی

4.2 تنظیم دقیق و ارزیابی مدل

4.3 نتایج اصلی

4.4 بازیابی چند زبانه

5 تجزیه و تحلیل

5.1 آیا پیش‌آموزش ضدعفونی ضروری است؟

5.2 گسترش به جاسازی متن طولانی و 5.3 تجزیه و تحلیل فراپارامترهای آموزشی

6 نتیجه گیری و مراجع

A جزئیات پیاده سازی

B تجزیه و تحلیل آلودگی مجموعه تست

C درخواست برای تولید داده مصنوعی

د دستورالعمل برای آموزش و ارزشیابی

5 تجزیه و تحلیل

5.1 آیا پیش‌آموزش ضدعفونی ضروری است؟

شکل 3: اثرات پیش تمرینی متضاد. اعداد تفصیلی در جدول پیوست 6 آمده است.شکل 3: اثرات پیش تمرینی متضاد. اعداد تفصیلی در جدول پیوست 6 آمده است.

پیش‌آموزش متضاد با نظارت ضعیف یکی از عوامل کلیدی موفقیت مدل‌های جاسازی متن موجود است. به عنوان مثال، Contriever [18] دهانه های برش تصادفی را به عنوان جفت های مثبت برای قبل از تمرین در نظر می گیرد، در حالی که E5 [46] و BGE [48] جفت های متن را از منابع مختلف جمع آوری و فیلتر کنید.

Source link