یک زبان آموز یکپارچه منبع باز


ساخت مدل‌هایی که زبان طبیعی را به خوبی درک و تولید می‌کنند، یکی از اهداف بزرگ تحقیقات یادگیری ماشین (ML) است و تأثیر مستقیمی بر ساخت سیستم‌های هوشمند برای کاربردهای روزمره دارد. بهبود کیفیت مدل‌های زبانی یک هدف کلیدی برای محققین است تا به سوی چنین هدفی پیشرفت کنند.

اغلب پارادایم‌های رایج برای ساخت و آموزش مدل‌های زبان، از معماری‌های فقط رمزگشای اتورگرسیو (مثلاً PaLM یا GPT-3) استفاده می‌کنند، که در آن مدل برای پیش‌بینی کلمه بعدی برای یک عبارت پیشوندی آموزش داده می‌شود یا رمزگشای رمزگذار مبتنی بر فساد را در بر می‌گیرد. معماری ها (به عنوان مثال، T5، ST-MoE)، که در آن هدف آموزشی بازیابی زیرمجموعه کلمات پوشانده شده از ورودی است. از یک طرف، مدل‌های مشابه T5 در کارهای تنظیم دقیق نظارت شده به خوبی عمل می‌کنند، اما با یادگیری درون متنی چند شات مشکل دارند. از سوی دیگر، مدل‌های زبان اتورگرسیو برای نسل‌های باز (مثلاً تولید گفت‌وگو با LaMDA) و یادگیری مبتنی بر سریع (مثلاً یادگیری درون متنی با PaLM) عالی هستند، اما ممکن است در وظایف تنظیم دقیق عمل کنند. بنابراین، فرصتی برای ایجاد یک چارچوب یکپارچه موثر برای مدل‌های پیش‌آموزشی وجود دارد.

در «یکپارچه‌سازی پارادایم‌های یادگیری زبان»، ما یک الگوی پیش‌آموزشی جدید به نام Unified Language Learner (UL2) ارائه می‌کنیم که عملکرد مدل‌های زبان را به طور جهانی در مجموعه‌های داده و تنظیمات بهبود می‌بخشد. UL2 توابع هدف مختلف را برای آموزش مدل‌های زبان به‌عنوان وظایف حذف نویز قاب‌بندی می‌کند، که در آن مدل باید دنباله‌های فرعی گمشده یک ورودی مشخص را بازیابی کند. در طول پیش آموزش از یک رمان استفاده می کند مخلوط زدا کننده ها که نمونه هایی از مجموعه متنوعی از چنین اهدافی که هر کدام با پیکربندی های متفاوتی هستند. ما نشان می‌دهیم که مدل‌هایی که با استفاده از چارچوب UL2 آموزش دیده‌اند، در حوزه‌های مختلف زبان، از جمله یادگیری چند شات مبتنی بر سریع و مدل‌هایی که برای کارهای پایین‌دستی به‌خوبی تنظیم شده‌اند، عملکرد خوبی دارند. علاوه بر این، ما نشان می‌دهیم که UL2 در تولید، درک زبان، بازیابی، درک متن طولانی و وظایف پاسخگویی به سؤال برتری دارد. در نهایت، ما هیجان زده هستیم که پست های بازرسی را برای بهترین عملکرد مدل پارامتر UL2 20 میلیاردی خود به صورت عمومی منتشر کنیم.

زمینه: اهداف و معماری مدل سازی زبان
توابع هدف مشترک برای مدل‌های زبان آموزش را می‌توان عمدتاً به عنوان تبدیل داده‌های یادگیری که ورودی‌ها را به اهداف ترسیم می‌کند، در نظر گرفت. مدل مشروط به اشکال مختلف ورودی برای پیش‌بینی نشانه‌های هدف است. برای این منظور، اهداف مختلف از خصوصیات مختلف ورودی ها استفاده می کنند.

هدف استاندارد مدل‌سازی زبان علّی (CausalLM) برای پیش‌بینی طول توالی کامل آموزش داده شده است و بنابراین، فقط نشانه‌ها را در خروجی هدف تشخیص می‌دهد. هدف مدل‌سازی زبان پیشوند (PrefixLM) این فرآیند را با نمونه‌برداری تصادفی از یک گستره پیوسته تغییر می‌دهد. ک نشانه هایی از متن نشانه گذاری شده داده شده برای تشکیل ورودی مدل، که به عنوان “پیشوند” نامیده می شود. هدف فساد دهانه، گستره‌های پیوسته ورودی‌ها را می‌پوشاند و مدل را برای پیش‌بینی این گستره‌های پوشانده آموزش می‌دهد.

در جدول زیر، اهداف مشترکی را که در آن مدل‌های زبانی پیشرفته آموزش داده می‌شوند، همراه با ویژگی‌های مختلف ورودی، یعنی نحوه ارائه آن به مدل فهرست می‌کنیم. علاوه بر این، کارایی نمونه هر هدف را بر حسب توانایی مدل برای بهره‌برداری از سیگنال‌های نظارتی از یک ورودی مشخص می‌کنیم، به عنوان مثال، چه مقدار از نشانه‌های ورودی به محاسبه ضرر کمک می‌کنند.

هدف، واقعگرایانه
عملکرد
ورودی ها
(دو جهته)
اهداف
(علت)
ورودی
خواص
مثال
بهره وری
CausalLM هیچ یک متن N/A seq_len کامل
پیشوند LM متن (تا موقعیت ک) متن (بعد از موقعیت ک) به هم پیوسته seq_len – ک
گسترش فساد متن پوشیده شده نقاب_نشانی غیر پیوسته، ممکن است دو جهته باشد به طور معمول پایین تر از دیگران است
اهداف مشترک مورد استفاده در مدل های زبان امروزی. در سراسر، “متن” نشان دهنده متن نشانه گذاری شده است.

UL2 از نقاط قوت هر یک از این توابع هدف از طریق چارچوبی استفاده می کند که بر هر یک از آنها تعمیم می دهد، که توانایی استدلال و یکسان سازی اهداف مشترک قبل از آموزش را ممکن می کند. بر اساس این چارچوب، وظیفه اصلی برای آموزش یک مدل زبان، یادگیری تبدیل دنباله ای از نشانه های ورودی به دنباله ای از نشانه های هدف است. سپس تمام توابع هدف معرفی شده در بالا را می توان به سادگی به روش های مختلف تولید ورودی و نشانه های هدف تقلیل داد. به عنوان مثال، هدف PrefixLM را می توان به عنوان تبدیلی در نظر گرفت که بخشی از آن را جابجا می کند ک توکن های پیوسته از ورودی ها به اهداف. در همین حال، هدف فساد دهانه، تبدیل داده‌ای است که باعث خرابی دهانه‌ها (توکن‌های بعدی در ورودی) می‌شود و آنها را با توکن‌های ماسکی که به اهداف منتقل می‌شوند، جایگزین می‌کند.

شایان ذکر است که می توان معماری مدل و تابع هدف را که با آن آموزش داده شده است جدا کرد. بنابراین، آموزش معماری‌های مختلف، مانند مدل‌های رمزگشای-رمزگشای تک پشته‌ای و رمزگشای رمزگشای دو پشته‌ای، با هر یک از این اهداف امکان‌پذیر است.

مخلوطی از Denoisers
چارچوب UL2 را می توان برای آموزش یک مدل بر روی ترکیبی از اهداف قبل از آموزش و ارائه قابلیت ها و مزایای سوگیری استقرایی از وظایف مختلف قبل از آموزش استفاده کرد. آموزش در مورد مخلوط به مدل کمک می کند تا از نقاط قوت وظایف مختلف استفاده کند و نقاط ضعف دیگران را کاهش دهد. به عنوان مثال، هدف مخلوط‌زدایی‌کننده‌ها می‌تواند به‌شدت توانایی یادگیری مبتنی بر سریع مدل را در مقایسه با مدل T5-فقط فساد گستره بهبود بخشد.

UL2 با استفاده از ترکیبی از سه وظیفه حذف نویز آموزش داده می شود: (1) حذف نویز R (یا فساد در بازه منظم)، که از هدف فساد دهانه استاندارد T5 تقلید می کند. (2) ایکس زدایی (یا فساد دامنه شدید)؛ و (3) S-denoiseing (یا PrefixLM متوالی). در طول آموزش، از وظایف حذف نویز موجود بر اساس نسبت‌های مشخص شده توسط کاربر (یعنی ترکیب‌های مختلف حذف‌کننده‌های R، X و S) نمونه‌برداری می‌کنیم و ورودی و هدف را به‌طور مناسب آماده می‌کنیم. سپس، یک نشانه پارادایم به ورودی اضافه می شود (یکی از [R]، [X]، یا [S]) نشان دهنده کار حذف نویز در دست است.

مروری بر اهداف حذف نویز مورد استفاده در مخلوط‌زدایی‌کننده‌های UL2.

بهبود معاوضه در پارادایم های یادگیری
بسیاری از پارادایم های رایج یادگیری زبان موجود معمولاً در یک نوع کار یا برنامه، مانند تنظیم دقیق عملکرد یا یادگیری درون متنی مبتنی بر سریع، برتری می یابند. در نمودار زیر، توابع هدف پایه را در وظایف مختلف در مقایسه با UL2 نشان می‌دهیم: CausalLM (به عنوان GPT مانند شناخته می شود), PrefixLM, Span Corrupt (همچنین در طرح به عنوان T5 نامیده می شودو یک تابع هدف پایه پیشنهاد شده توسط UniLM. ما از این اهداف برای آموزش معماری‌های رمزگشا (سبز) و معماری رمزگذار-رمزگشا (آبی) استفاده می‌کنیم و ترکیب‌های مختلف توابع هدف و معماری را در دو مجموعه اصلی از وظایف ارزیابی می‌کنیم:

  1. تنظیم دقیق، با اندازه گیری عملکرد در SuperGLUE (محور y نمودار زیر)
  2. یادگیری درون متنی، با اندازه‌گیری عملکرد مدل در مجموعه‌ای از وظایف GEM 1-شات (مانند XSUM، SGD یا گفتگوی هدایت‌شده طرحواره و TOTTO) (محور x نمودار زیر).

برای اکثر پارادایم های یادگیری زبان موجود، بین کیفیت مدل در این دو مجموعه از کارها تعادل وجود دارد. ما نشان می‌دهیم که UL2 این مبادله را در یادگیری درون متنی و تنظیم دقیق پل می‌کند.

در هر دو تنظیمات فقط رمزگشا و رمزگذار-رمزگشا، UL2 در مقایسه با روش‌های قبلی، تعادل قابل‌توجهی را در عملکرد بین وظایف متمایز تنظیم‌شده دقیق و تولید متن با پایان باز 1 شات مبتنی بر سریع ایجاد می‌کند. (همه مدل ها از نظر هزینه های محاسباتی قابل مقایسه هستند، یعنی FLOP ها (مدل های EncDec 300M و مدل های Dec پارامترهای 150M هستند).

UL2 برای تحریک چند شات و استدلال زنجیره‌ای از فکر
ما UL2 را افزایش می دهیم و یک مدل رمزگذار-رمزگشا با پارامتر 20 میلیاردی را در مجموعه عمومی C4 آموزش می دهیم و برخی از قابلیت های چشمگیر مدل UL2 20B را نشان می دهیم.

UL2 یک یادگیرنده قدرتمند درون زمینه ای است که هم در چند شات و هم از نظر زنجیره ای فکر (CoT) برتری دارد. در جدول زیر، ما UL2 را با سایر مدل‌های پیشرفته (مانند T5 XXL و PaLM) برای درخواست چند عکس در مجموعه داده خلاصه XSUM مقایسه می‌کنیم. نتایج ما نشان می‌دهد که UL2 20B بهتر از PalM و T5 عمل می‌کند، که هر دوی آنها در یک محدوده هزینه محاسباتی قرار دارند.

مدل ROUGE-1 ROUGE-2 RED-L
LaMDA 137B 5.4
پالم 62 بی 11.2
پالم 540 بی 12.2
پالم 8 بی 4.5
T5 XXL 11B 0.6 0.1 0.6
T5 XXL 11B + LM 13.3 2.3 10.7
UL2 20B 25.5 8.6 19.8
مقایسه UL2 با T5 XXL، PalM و LamDA 137B در خلاصه سازی 1 شات (XSUM) بر حسب ROUGE-1/2/L (بالاتر بهتر است)، که کیفیت را با مقایسه خلاصه های تولید شده با خلاصه های طلایی به عنوان مرجع نشان می دهد. .

بیشتر نتایج CoT با استفاده از مدل‌های زبانی بسیار بزرگ‌تر، مانند GPT-3 175B، PALM 540B، یا LaMDA 137B به دست آمده‌اند. ما نشان می‌دهیم که استدلال از طریق تحریک CoT را می‌توان با UL2 20B به دست آورد، که هم در دسترس عموم است و هم چندین برابر کوچک‌تر از مدل‌های قبلی که از تحریک زنجیره‌ای از فکر استفاده می‌کنند. این یک راه باز را برای محققان فراهم می کند تا تحقیقاتی را در مورد تحریک و استدلال CoT در مقیاسی در دسترس انجام دهند. در جدول زیر، نشان می‌دهیم که برای UL2، درخواست CoT از دستورات استاندارد در مسائل کلمات ریاضی با طیفی از مشکلات (GSM8K، SVAMP، ASDiv، AQuA و MAWPS) بهتر عمل می‌کند. ما همچنین نشان می‌دهیم که خودسازگاری عملکرد را بیشتر بهبود می‌بخشد.

نتایج زنجیره‌ای از فکر (CoT) و خودسازگاری (SC) بر روی پنج معیار استدلال حسابی.

نتیجه گیری و مسیرهای آینده
UL2 عملکرد برتر را در انبوهی از کارهای تنظیم دقیق و چند شات نشان می دهد. ما به طور عمومی نقاط بازرسی بهترین مدل UL2 خود را با 20 میلیارد پارامتر منتشر می‌کنیم، که امیدواریم الهام بخش پیشرفت سریع‌تر در توسعه مدل‌های زبان بهتر در کل جامعه یادگیری ماشین باشد.

سپاسگزاریها
کار در این زمینه با وین کیو تران، خاویر گارسیا، جیسون وی، زوئژی وانگ، هیونگ وون چونگ، دارا باهری، تال شوستر، هوآیکسیو استیون ژنگ، دنی ژو، نیل هولزبی و دونالد متزلر باعث افتخار و افتخار بود. ما همچنین از الکسی گریتسنکو، اندرو ام. دای، ژاکوب دولین، جای گوپتا، ویلیام فدوس، اورهان فیرات، سباستین گرهمان، نان دو، دیو اوتوس، سیاماک شاکری، اسلاو پتروف و کوک لی برای حمایت و گفتگو قدردانی می کنیم. ما از تیم Jax و T5X برای ایجاد چنین زیرساخت های فوق العاده ای که این تحقیق را امکان پذیر کرد، تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور