اعمال نظارت طبیعی: ضمیمه الف – ضمیمه فصل 3

ضمیمه الف – ضمیمه فصل 3

الف.1 افزودن افت مدلسازی زبان به عقب به پیشآموزش به سبک GPT

کارهای قبلی (دونگ و همکاران، 2019) تلفات مختلف پیش‌آموزشی، از جمله زیان‌های مدل‌سازی زبان رو به جلو و عقب و فقدان مدل‌سازی زبان ماسک‌دار/پیوندی را ترکیب می‌کند. با این حال، کار کمی برای شناسایی اینکه آیا تلفات مدل‌سازی زبان رو به جلو و عقب برای این مدل‌های از پیش آموزش دیده برای دستیابی به عملکرد قوی در وظایف پایین دستی کافی است یا خیر، انجام شده است. این ایده تا حدی از الکترا (کلارک و همکاران، 2020) الهام گرفته شده است، جایی که آنها دریافتند که از دست دادن تمرین در هر موقعیت به کارایی تمرین کمک می کند و ما می خواهیم ببینیم که آیا تلفیق زیان های مدل سازی زبان به جلو و عقب می تواند به نتایج مشابهی دست یابد. بعلاوه، اگر بتوانیم به سادگی با دستکاری ماسک‌های توجه بدون وارد کردن پارامترهای اضافی، به دوسویه‌ای به سبک ELMo دست یابیم، می‌توانیم با تنظیم دقیق با مدل‌سازی زبان به عقب، نقاط بازرسی GPT از پیش آموزش‌دیده‌شده را برای دو طرفه بودن تطبیق دهیم. این مدل‌ها همچنین می‌توانند هنگام استفاده برای محاسبه احتمالات متن برای رتبه‌بندی مجدد خروجی‌ها به دلیل رویکرد دستیابی به دو جهته بودن، مزایایی داشته باشند.

در آزمایش‌ها، مدل‌های BERT را با 128 بعد پنهان در ویکی‌پدیا با استفاده از هر دو رو به جلو آموزش می‌دهیم.

Source link