بهبود یادگیری بازنمایی زبان از طریق پیش‌بینی ترتیب جملات

3.1 بهبود یادگیری بازنمایی زبان از طریق پیش‌بینی ترتیب جملات

3.1.1 مقدمه

پیش‌آموزش ترانسفورماتورهای بزرگ به یک سری پیشرفت‌ها در یادگیری بازنمایی زبان منجر شده است (رادفورد و همکاران، 2018؛ دولین و همکاران، 2019). بسیاری از وظایف غیر پیش پا افتاده NLP، از جمله آنهایی که داده های آموزشی محدودی دارند، از این مدل های از پیش آموزش دیده بهره زیادی برده اند. با توجه به اهمیت اندازه مدل ها، می پرسیم: آیا داشتن مدل های NLP بهتر به راحتی مدل های بزرگتر است؟

مشاهده می‌کنیم که صرفاً افزایش اندازه پنهان مدلی مانند BERT-large (Devlin et al., 2019) می‌تواند منجر به عملکرد بدتر شود. جدول 3.1 مثالی را نشان می دهد که در آن اندازه پنهان BERT-large را 2 برابر بزرگتر می کنیم اما نتایج بهتری به دست نمی آوریم.

جدول 3.1: عملکرد مدل در RACE (Lai et al., 2017)، مجموعه داده درک مطلب.  افزایش اندازه پنهان BERT-large منجر به عملکرد بدتر می شود.جدول 3.1: عملکرد مدل در RACE (Lai et al., 2017)، مجموعه داده درک مطلب.  افزایش اندازه پنهان BERT-large منجر به عملکرد بدتر می شود.

در این مقاله، با طراحی معماری A Lite BERT (ALBERT) که پارامترهای بسیار کمتری نسبت به معماری BERT سنتی دارد، به این مشکل می پردازیم.

آلبرت از دو تکنیک کاهش پارامتر استفاده می کند: فاکتورسازی ماتریس تعبیه شده (Grave et al., 2017; Baevski and Auli, 2019) و اشتراک گذاری پارامترهای متقابل (دهقانی و همکاران، 2019). برای بهبود بیشتر عملکرد ALBERT، ما همچنین یک ضرر خود نظارتی برای پیش‌بینی ترتیب جمله (SOP) معرفی می‌کنیم. SOP در درجه اول بر انسجام بین جملات تمرکز دارد و…

Source link