ساخت مدلهایی که زبان طبیعی را به خوبی درک و تولید میکنند، یکی از اهداف بزرگ تحقیقات یادگیری ماشین (ML) است و تأثیر مستقیمی بر ساخت سیستمهای هوشمند برای کاربردهای روزمره دارد. بهبود کیفیت مدلهای زبانی یک هدف کلیدی برای محققین است تا به سوی چنین هدفی پیشرفت کنند.
اغلب پارادایمهای رایج برای ساخت و آموزش مدلهای زبان، از معماریهای فقط رمزگشای اتورگرسیو (مثلاً PaLM یا GPT-3) استفاده میکنند، که در آن مدل برای پیشبینی کلمه بعدی برای یک عبارت پیشوندی آموزش داده میشود یا رمزگشای رمزگذار مبتنی بر فساد را در بر میگیرد. معماری ها (به عنوان مثال، T5، ST-MoE)، که در آن هدف آموزشی بازیابی زیرمجموعه کلمات پوشانده شده از ورودی است. از یک طرف، مدلهای مشابه T5 در کارهای تنظیم دقیق نظارت شده به خوبی عمل میکنند، اما با یادگیری درون متنی چند شات مشکل دارند. از سوی دیگر، مدلهای زبان اتورگرسیو برای نسلهای باز (مثلاً تولید گفتوگو با LaMDA) و یادگیری مبتنی بر سریع (مثلاً یادگیری درون متنی با PaLM) عالی هستند، اما ممکن است در وظایف تنظیم دقیق عمل کنند. بنابراین، فرصتی برای ایجاد یک چارچوب یکپارچه موثر برای مدلهای پیشآموزشی وجود دارد.
در «یکپارچهسازی پارادایمهای یادگیری زبان»، ما یک الگوی پیشآموزشی جدید به نام Unified Language Learner (UL2) ارائه میکنیم که عملکرد مدلهای زبان را به طور جهانی در مجموعههای داده و تنظیمات بهبود میبخشد. UL2 توابع هدف مختلف را برای آموزش مدلهای زبان بهعنوان وظایف حذف نویز قاببندی میکند، که در آن مدل باید دنبالههای فرعی گمشده یک ورودی مشخص را بازیابی کند. در طول پیش آموزش از یک رمان استفاده می کند مخلوط زدا کننده ها که نمونه هایی از مجموعه متنوعی از چنین اهدافی که هر کدام با پیکربندی های متفاوتی هستند. ما نشان میدهیم که مدلهایی که با استفاده از چارچوب UL2 آموزش دیدهاند، در حوزههای مختلف زبان، از جمله یادگیری چند شات مبتنی بر سریع و مدلهایی که برای کارهای پاییندستی بهخوبی تنظیم شدهاند، عملکرد خوبی دارند. علاوه بر این، ما نشان میدهیم که UL2 در تولید، درک زبان، بازیابی، درک متن طولانی و وظایف پاسخگویی به سؤال برتری دارد. در نهایت، ما هیجان زده هستیم که پست های بازرسی را برای بهترین عملکرد مدل پارامتر UL2 20 میلیاردی خود به صورت عمومی منتشر کنیم.
زمینه: اهداف و معماری مدل سازی زبان
توابع هدف مشترک برای مدلهای زبان آموزش را میتوان عمدتاً به عنوان تبدیل دادههای یادگیری که ورودیها را به اهداف ترسیم میکند، در نظر گرفت. مدل مشروط به اشکال مختلف ورودی برای پیشبینی نشانههای هدف است. برای این منظور، اهداف مختلف از خصوصیات مختلف ورودی ها استفاده می کنند.
هدف استاندارد مدلسازی زبان علّی (CausalLM) برای پیشبینی طول توالی کامل آموزش داده شده است و بنابراین، فقط نشانهها را در خروجی هدف تشخیص میدهد. هدف مدلسازی زبان پیشوند (PrefixLM) این فرآیند را با نمونهبرداری تصادفی از یک گستره پیوسته تغییر میدهد. ک نشانه هایی از متن نشانه گذاری شده داده شده برای تشکیل ورودی مدل، که به عنوان “پیشوند” نامیده می شود. هدف فساد دهانه، گسترههای پیوسته ورودیها را میپوشاند و مدل را برای پیشبینی این گسترههای پوشانده آموزش میدهد.
در جدول زیر، اهداف مشترکی را که در آن مدلهای زبانی پیشرفته آموزش داده میشوند، همراه با ویژگیهای مختلف ورودی، یعنی نحوه ارائه آن به مدل فهرست میکنیم. علاوه بر این، کارایی نمونه هر هدف را بر حسب توانایی مدل برای بهرهبرداری از سیگنالهای نظارتی از یک ورودی مشخص میکنیم، به عنوان مثال، چه مقدار از نشانههای ورودی به محاسبه ضرر کمک میکنند.
هدف، واقعگرایانه عملکرد |
ورودی ها (دو جهته) |
اهداف (علت) |
ورودی خواص |
مثال بهره وری |
CausalLM | هیچ یک | متن | N/A | seq_len کامل |
پیشوند LM | متن (تا موقعیت ک) | متن (بعد از موقعیت ک) | به هم پیوسته | seq_len – ک |
گسترش فساد | متن پوشیده شده | نقاب_نشانی | غیر پیوسته، ممکن است دو جهته باشد | به طور معمول پایین تر از دیگران است |
اهداف مشترک مورد استفاده در مدل های زبان امروزی. در سراسر، “متن” نشان دهنده متن نشانه گذاری شده است. |
UL2 از نقاط قوت هر یک از این توابع هدف از طریق چارچوبی استفاده می کند که بر هر یک از آنها تعمیم می دهد، که توانایی استدلال و یکسان سازی اهداف مشترک قبل از آموزش را ممکن می کند. بر اساس این چارچوب، وظیفه اصلی برای آموزش یک مدل زبان، یادگیری تبدیل دنباله ای از نشانه های ورودی به دنباله ای از نشانه های هدف است. سپس تمام توابع هدف معرفی شده در بالا را می توان به سادگی به روش های مختلف تولید ورودی و نشانه های هدف تقلیل داد. به عنوان مثال، هدف PrefixLM را می توان به عنوان تبدیلی در نظر گرفت که بخشی از آن را جابجا می کند ک توکن های پیوسته از ورودی ها به اهداف. در همین حال، هدف فساد دهانه، تبدیل دادهای است که باعث خرابی دهانهها (توکنهای بعدی در ورودی) میشود و آنها را با توکنهای ماسکی که به اهداف منتقل میشوند، جایگزین میکند.
شایان ذکر است که می توان معماری مدل و تابع هدف را که با آن آموزش داده شده است جدا کرد. بنابراین، آموزش معماریهای مختلف، مانند مدلهای رمزگشای-رمزگشای تک پشتهای و رمزگشای رمزگشای دو پشتهای، با هر یک از این اهداف امکانپذیر است.
مخلوطی از Denoisers
چارچوب UL2 را می توان برای آموزش یک مدل بر روی ترکیبی از اهداف قبل از آموزش و ارائه قابلیت ها و مزایای سوگیری استقرایی از وظایف مختلف قبل از آموزش استفاده کرد. آموزش در مورد مخلوط به مدل کمک می کند تا از نقاط قوت وظایف مختلف استفاده کند و نقاط ضعف دیگران را کاهش دهد. به عنوان مثال، هدف مخلوطزداییکنندهها میتواند بهشدت توانایی یادگیری مبتنی بر سریع مدل را در مقایسه با مدل T5-فقط فساد گستره بهبود بخشد.
UL2 با استفاده از ترکیبی از سه وظیفه حذف نویز آموزش داده می شود: (1) حذف نویز R (یا فساد در بازه منظم)، که از هدف فساد دهانه استاندارد T5 تقلید می کند. (2) ایکس زدایی (یا فساد دامنه شدید)؛ و (3) S-denoiseing (یا PrefixLM متوالی). در طول آموزش، از وظایف حذف نویز موجود بر اساس نسبتهای مشخص شده توسط کاربر (یعنی ترکیبهای مختلف حذفکنندههای R، X و S) نمونهبرداری میکنیم و ورودی و هدف را بهطور مناسب آماده میکنیم. سپس، یک نشانه پارادایم به ورودی اضافه می شود (یکی از [R]
، [X]
، یا [S]
) نشان دهنده کار حذف نویز در دست است.
مروری بر اهداف حذف نویز مورد استفاده در مخلوطزداییکنندههای UL2. |
بهبود معاوضه در پارادایم های یادگیری
بسیاری از پارادایم های رایج یادگیری زبان موجود معمولاً در یک نوع کار یا برنامه، مانند تنظیم دقیق عملکرد یا یادگیری درون متنی مبتنی بر سریع، برتری می یابند. در نمودار زیر، توابع هدف پایه را در وظایف مختلف در مقایسه با UL2 نشان میدهیم: CausalLM (به عنوان GPT مانند شناخته می شود), PrefixLM, Span Corrupt (همچنین در طرح به عنوان T5 نامیده می شودو یک تابع هدف پایه پیشنهاد شده توسط UniLM. ما از این اهداف برای آموزش معماریهای رمزگشا (سبز) و معماری رمزگذار-رمزگشا (آبی) استفاده میکنیم و ترکیبهای مختلف توابع هدف و معماری را در دو مجموعه اصلی از وظایف ارزیابی میکنیم:
- تنظیم دقیق، با اندازه گیری عملکرد در SuperGLUE (محور y نمودار زیر)
- یادگیری درون متنی، با اندازهگیری عملکرد مدل در مجموعهای از وظایف GEM 1-شات (مانند XSUM، SGD یا گفتگوی هدایتشده طرحواره و TOTTO) (محور x نمودار زیر).
برای اکثر پارادایم های یادگیری زبان موجود، بین کیفیت مدل در این دو مجموعه از کارها تعادل وجود دارد. ما نشان میدهیم که UL2 این مبادله را در یادگیری درون متنی و تنظیم دقیق پل میکند.
در هر دو تنظیمات فقط رمزگشا و رمزگذار-رمزگشا، UL2 در مقایسه با روشهای قبلی، تعادل قابلتوجهی را در عملکرد بین وظایف متمایز تنظیمشده دقیق و تولید متن با پایان باز 1 شات مبتنی بر سریع ایجاد میکند. (همه مدل ها از نظر هزینه های محاسباتی قابل مقایسه هستند، یعنی FLOP ها (مدل های EncDec 300M و مدل های Dec پارامترهای 150M هستند). |
UL2 برای تحریک چند شات و استدلال زنجیرهای از فکر
ما UL2 را افزایش می دهیم و یک مدل رمزگذار-رمزگشا با پارامتر 20 میلیاردی را در مجموعه عمومی C4 آموزش می دهیم و برخی از قابلیت های چشمگیر مدل UL2 20B را نشان می دهیم.
UL2 یک یادگیرنده قدرتمند درون زمینه ای است که هم در چند شات و هم از نظر زنجیره ای فکر (CoT) برتری دارد. در جدول زیر، ما UL2 را با سایر مدلهای پیشرفته (مانند T5 XXL و PaLM) برای درخواست چند عکس در مجموعه داده خلاصه XSUM مقایسه میکنیم. نتایج ما نشان میدهد که UL2 20B بهتر از PalM و T5 عمل میکند، که هر دوی آنها در یک محدوده هزینه محاسباتی قرار دارند.
مدل | ROUGE-1 | ROUGE-2 | RED-L |
LaMDA 137B | – | 5.4 | – |
پالم 62 بی | – | 11.2 | – |
پالم 540 بی | – | 12.2 | – |
پالم 8 بی | – | 4.5 | – |
T5 XXL 11B | 0.6 | 0.1 | 0.6 |
T5 XXL 11B + LM | 13.3 | 2.3 | 10.7 |
UL2 20B | 25.5 | 8.6 | 19.8 |
مقایسه UL2 با T5 XXL، PalM و LamDA 137B در خلاصه سازی 1 شات (XSUM) بر حسب ROUGE-1/2/L (بالاتر بهتر است)، که کیفیت را با مقایسه خلاصه های تولید شده با خلاصه های طلایی به عنوان مرجع نشان می دهد. . |
بیشتر نتایج CoT با استفاده از مدلهای زبانی بسیار بزرگتر، مانند GPT-3 175B، PALM 540B، یا LaMDA 137B به دست آمدهاند. ما نشان میدهیم که استدلال از طریق تحریک CoT را میتوان با UL2 20B به دست آورد، که هم در دسترس عموم است و هم چندین برابر کوچکتر از مدلهای قبلی که از تحریک زنجیرهای از فکر استفاده میکنند. این یک راه باز را برای محققان فراهم می کند تا تحقیقاتی را در مورد تحریک و استدلال CoT در مقیاسی در دسترس انجام دهند. در جدول زیر، نشان میدهیم که برای UL2، درخواست CoT از دستورات استاندارد در مسائل کلمات ریاضی با طیفی از مشکلات (GSM8K، SVAMP، ASDiv، AQuA و MAWPS) بهتر عمل میکند. ما همچنین نشان میدهیم که خودسازگاری عملکرد را بیشتر بهبود میبخشد.
نتایج زنجیرهای از فکر (CoT) و خودسازگاری (SC) بر روی پنج معیار استدلال حسابی. |
نتیجه گیری و مسیرهای آینده
UL2 عملکرد برتر را در انبوهی از کارهای تنظیم دقیق و چند شات نشان می دهد. ما به طور عمومی نقاط بازرسی بهترین مدل UL2 خود را با 20 میلیارد پارامتر منتشر میکنیم، که امیدواریم الهام بخش پیشرفت سریعتر در توسعه مدلهای زبان بهتر در کل جامعه یادگیری ماشین باشد.
سپاسگزاریها
کار در این زمینه با وین کیو تران، خاویر گارسیا، جیسون وی، زوئژی وانگ، هیونگ وون چونگ، دارا باهری، تال شوستر، هوآیکسیو استیون ژنگ، دنی ژو، نیل هولزبی و دونالد متزلر باعث افتخار و افتخار بود. ما همچنین از الکسی گریتسنکو، اندرو ام. دای، ژاکوب دولین، جای گوپتا، ویلیام فدوس، اورهان فیرات، سباستین گرهمان، نان دو، دیو اوتوس، سیاماک شاکری، اسلاو پتروف و کوک لی برای حمایت و گفتگو قدردانی می کنیم. ما از تیم Jax و T5X برای ایجاد چنین زیرساخت های فوق العاده ای که این تحقیق را امکان پذیر کرد، تشکر می کنیم.