در سالهای اخیر، مدلهای زبانی (LMs) در تحقیقات پردازش زبان طبیعی (NLP) برجستهتر شدهاند و در عمل نیز به طور فزایندهای تأثیرگذار میشوند. نشان داده شده است که افزایش مقیاس LM باعث بهبود عملکرد در طیف وسیعی از وظایف NLP می شود. برای مثال، بزرگکردن مدلهای زبان میتواند گیجی را در هفت مرتبه بزرگی از اندازههای مدل بهبود بخشد، و تواناییهای جدیدی مانند استدلال چند مرحلهای در نتیجه مقیاس مدل مشاهده شده است. با این حال، یکی از چالشهای مقیاسپذیری مداوم این است که آموزش مدلهای جدید و بزرگتر به مقادیر زیادی منابع محاسباتی نیاز دارد. علاوه بر این، مدلهای جدید اغلب از ابتدا آموزش داده میشوند و از وزنههای مدلهای قبلی استفاده نمیکنند.
در این پست وبلاگ، ما دو روش مکمل را برای بهبود مدلهای زبان موجود با حاشیه زیاد بدون استفاده از منابع محاسباتی عظیم بررسی میکنیم. ابتدا، در “قوانین مقیاس گذاری فراتر با 0.1٪ محاسبه اضافی”، ما UL2R را معرفی می کنیم، که مرحله دوم سبک وزنی از پیش تمرین است که از یک هدف ترکیبی از حذف کننده ها استفاده می کند. UL2R عملکرد را در طیف وسیعی از وظایف بهبود می بخشد و حتی عملکرد اضطراری را در کارهایی که قبلاً عملکرد تقریباً تصادفی داشتند باز می کند. دوم، در «مدلهای زبانی تنظیمشده با دستورالعملهای مقیاسبندی»، ما تنظیم دقیق یک مدل زبان را بر روی مجموعهای از مجموعه دادههایی که به عنوان دستورالعملها بیان شدهاند، بررسی میکنیم، فرآیندی که ما آن را «فلان» مینامیم. این رویکرد نه تنها عملکرد را افزایش میدهد، بلکه قابلیت استفاده از مدل زبان را برای ورودیهای کاربر بدون مهندسی کردن اعلانها نیز بهبود میبخشد. در نهایت، نشان میدهیم که Flan و UL2R میتوانند بهعنوان تکنیکهای مکمل در مدلی به نام Flan-U-PaLM 540B ترکیب شوند، که در مجموعهای از معیارهای ارزیابی چالش برانگیز، 10 درصد از مدل سازگار نشده PaLM 540B بهتر عمل میکند.
آموزش UL2R
به طور سنتی، بیشتر مدلهای زبانی از قبل بر روی یک هدف مدلسازی زبان علّی آموزش داده شدهاند که مدل را قادر میسازد کلمه بعدی را در یک دنباله پیشبینی کند (مثلاً GPT-3 یا PalM) یا یک هدف حذف نویز، که در آن مدل یاد میگیرد که اصل را بازیابی کند. جمله از یک دنباله خراب از کلمات، (به عنوان مثال، T5). اگرچه برخی معاوضهها در اهداف مدلسازی زبان وجود دارد، زیرا LMهای علّی در تولید طولانیشکل بهتر هستند و LMهای آموزشدیده بر روی یک هدف حذف نویز برای تنظیم دقیق بهتر هستند، در کار قبلی نشان دادیم که هدف مخلوطزداییکنندهها که شامل هر دو است. اهداف منجر به عملکرد بهتر در هر دو سناریو می شود.
با این حال، پیشآموزش یک مدل زبان بزرگ روی یک هدف متفاوت از ابتدا میتواند از نظر محاسباتی بازدارنده باشد. از این رو، ما تعمیر UL2 (UL2R) را پیشنهاد میکنیم، یک مرحله اضافی از ادامه پیشآموزش با هدف UL2 که فقط به مقدار نسبتاً کمی محاسبه نیاز دارد. ما UL2R را به Palm اعمال می کنیم و مدل زبان جدید حاصل را U-PaLM می نامیم.
در ارزیابیهای تجربی، متوجه شدیم که منحنیهای مقیاسبندی تنها با مقدار کمی آموزش UL2 به طور قابلتوجهی بهبود مییابند. به عنوان مثال، نشان میدهیم که با استفاده از UL2R در ایست بازرسی میانی PalM 540B، در حالی که از محاسبه 2 برابری کمتر (یا اختلاف 4.4 میلیون TPUv4 ساعت) استفاده میکنیم، به عملکرد آخرین بازرسی PALM 540B میرسیم. به طور طبیعی، اعمال UL2R در ایست بازرسی نهایی PalM 540B نیز منجر به بهبودهای اساسی می شود، همانطور که در مقاله توضیح داده شد.
![]() |
عملکرد مدل PaLM 540B و U-PaLM 540B را در مقابل 26 معیار NLP محاسبه کنید (در جدول 8 در مقاله ذکر شده است). U-PaLM 540B به آموزش Palm برای مقدار بسیار کمی از محاسبات ادامه می دهد، اما افزایش قابل توجهی در عملکرد ایجاد می کند. |
مزیت دیگری که ما از استفاده از UL2R مشاهده کردیم این است که در برخی کارها، عملکرد بسیار بهتر از مدل هایی است که صرفاً بر روی هدف مدل سازی زبان علی آموزش داده شده اند. به عنوان مثال، بسیاری از وظایف BIG-Bench وجود دارند که به عنوان “توانایی های نوظهور” توصیف شده اند، به عنوان مثال، توانایی هایی که فقط در مدل های زبانی به اندازه کافی بزرگ قابل مشاهده هستند. اگرچه معمولاً روشی که تواناییهای اضطراری پیدا میشوند با افزایش اندازه LM است، ما دریافتیم که UL2R در واقع میتواند تواناییهای اضطراری را بدون افزایش مقیاس LM ایجاد کند.
به عنوان مثال، در وظیفه Navigate از BIG-Bench، که توانایی مدل را برای انجام ردیابی وضعیت اندازه گیری می کند، همه مدل ها به جز U-PaLM با کمتر از 1023 FLOPهای آموزشی به عملکرد تقریبا تصادفی دست می یابند. عملکرد U-PaLM بیش از 10 امتیاز بالاتر از آن است. مثال دیگری از این کار Snarks از BIG-Bench است که توانایی مدل را در تشخیص طعنه می سنجد. باز هم، در حالی که همه مدل ها کمتر از 1024 FLOPهای آموزشی تقریباً عملکرد تصادفی دارند، U-PaLM حتی برای مدلهای 8B و 62B بسیار بالاتر است.
![]() |
برای دو توانایی از BIG-Bench که عملکرد تکلیف اضطراری را نشان میدهند، U-PaLM به دلیل استفاده از هدف UL2R در اندازه مدل کوچکتر به ظهور میرسد. |
تنظیم دقیق دستورالعمل
در مقاله دوم خود، ما تنظیم دقیق دستورالعمل را بررسی می کنیم، که شامل تنظیم دقیق LM ها در مجموعه ای از مجموعه داده های NLP است که به عنوان دستورالعمل ها بیان می شوند. در کار قبلی، ما تنظیم دقیق دستورالعملها را روی یک مدل پارامتر 137B در 62 کار NLP، مانند پاسخ به یک سؤال بیاهمیت، طبقهبندی احساسات یک فیلم، یا ترجمه یک جمله به اسپانیایی، اعمال کردیم.
در این کار ما یک مدل زبان پارامتر 540B را روی بیش از 1.8K کار تنظیم می کنیم. علاوه بر این، در حالی که تلاشهای قبلی فقط یک LM را با نمونههای چند شات (مثلاً MetaICL) یا صفر شات بدون نمونه (مثلاً FLAN، T0) دقیق تنظیم میکردند، ما ترکیبی از هر دو را بهخوبی تنظیم میکنیم. ما همچنین شامل زنجیره ای از داده های تنظیم دقیق فکر می شویم که مدل را قادر می سازد تا استدلال چند مرحله ای را انجام دهد. ما روش بهبود یافته خود را “Flan” برای تنظیم دقیق مدل های زبان می نامیم. قابل توجه است، حتی با تنظیم دقیق وظایف 1.8K، Flan فقط از بخش کوچکی از محاسبات در مقایسه با قبل از آموزش استفاده می کند (به عنوان مثال، برای PalM 540B، Flan تنها به 0.2٪ از محاسبات پیش از آموزش نیاز دارد).
![]() |
ما مدلهای زبان را روی وظایف 1.8K که بهعنوان دستورالعملها بیان شدهاند، بهخوبی تنظیم میکنیم و آنها را در کارهای دیده نشده که در تنظیم دقیق گنجانده نشدهاند، ارزیابی میکنیم. ما هم با و هم بدون نمونه (یعنی صفر و چند شات) و با و بدون زنجیره فکر تنظیم می کنیم و امکان تعمیم در طیف وسیعی از سناریوهای ارزیابی را فراهم می کنیم. |
در این مقاله، LMها را با طیف وسیعی از اندازهها تنظیم میکنیم تا اثر مشترک مقیاسگذاری هم اندازه LM و هم تعداد وظایف تنظیم دقیق را بررسی کنیم. به عنوان مثال، برای کلاس PalM از LM ها، که شامل مدل هایی از پارامترهای 8B، 62B، و 540B است. ما مدلهای خود را بر روی چهار مجموعه ارزیابی معیار چالشبرانگیز (MMLU، BBH، TyDiQA و MGSM) ارزیابی میکنیم و متوجه میشویم که هم مقیاسبندی تعداد پارامترها و هم تعداد وظایف تنظیم دقیق، عملکرد در کارهای دیده نشده را بهبود میبخشد.
![]() |
هر دو مقیاس کردن تا مدل پارامتر 540B و استفاده از وظایف تنظیم دقیق 1.8K عملکرد را در کارهای دیده نشده بهبود می بخشد. محور y میانگین نرمال شده در چهار مجموعه ارزیابی (MMLU، BBH، TyDiQA و MGSM) است. |
علاوه بر عملکرد بهتر، تنظیم دقیق دستورالعمل یک LM آن را قادر میسازد تا به دستورالعملهای کاربر در زمان استنتاج، بدون نمونههای چندتایی یا مهندسی سریع پاسخ دهد. این باعث می شود LM ها در طیف وسیعی از ورودی ها کاربر پسندتر باشند. به عنوان مثال، LM های بدون تنظیم دقیق دستورالعمل، گاهی اوقات می توانند ورودی را تکرار کنند یا دستورالعمل ها را دنبال نکنند، اما تنظیم دقیق دستورالعمل، چنین خطاهایی را کاهش می دهد.
![]() |
مدل زبان تنظیمشده آموزش ما، Flan-PaLM، در مقایسه با مدل PalM بدون تنظیم دقیق دستورالعمل، به دستورالعملها بهتر پاسخ میدهد. |
قرار دادن آنها در کنار هم
در نهایت، نشان میدهیم که UL2R و Flan میتوانند برای آموزش مدل Flan-U-PaLM ترکیب شوند. از آنجایی که Flan از دادههای جدید از وظایف NLP استفاده میکند و دستورالعملهای زیر را فعال میکند، ما Flan را به عنوان روش دوم بعد از UL2R اعمال میکنیم. ما دوباره روی چهار مجموعه معیار ارزیابی میکنیم و متوجه میشویم که مدل Flan-U-PaLM از مدلهای PalM فقط با UL2R (U-PaLM) یا فقط Flan (Flan-PaLM) بهتر عمل میکند. علاوه بر این، Flan-U-PaLM زمانی که با زنجیره فکری و خودسازگاری ترکیب میشود، به پیشرفتهترین حالت در معیار MMLU با امتیاز 75.4% دست مییابد.
![]() |
ترکیب UL2R و Flan (Flan-U-PaLM) منجر به بهترین عملکرد در مقایسه با استفاده از UL2R (U-PaLM) یا فقط Flan (Flan-U-PaLM) می شود. عملکرد میانگین نرمال شده در چهار مجموعه ارزیابی (MMLU، BBH، TyDiQA و MGSM) است. |
به طور کلی، UL2R و Flan دو روش مکمل برای بهبود مدل های زبانی از پیش آموزش دیده هستند. UL2R با استفاده از دادههای مشابه، LM را با هدف مخلوطزداییکننده تطبیق میدهد، در حالی که Flan از دادههای آموزشی بیش از 1.8K وظایف NLP استفاده میکند تا به مدل آموزش دهد تا دستورالعملها را دنبال کند. همانطور که LM ها حتی بزرگتر می شوند، تکنیک هایی مانند UL2R و Flan که عملکرد عمومی را بدون مقادیر زیاد محاسبات بهبود می بخشند، ممکن است به طور فزاینده ای جذاب شوند.
سپاسگزاریها
همکاری در این دو مقاله با هیونگ وون چانگ، وین کیو تران، دیوید آر سو، سیامک شاکری، خاویر گارسیا، هوآیکسیو استیون ژنگ، جینفنگ رائو، آکانکشا چاوددری، دنی ژو، دونالد متزلر، اسلاو پتروف، افتخاری بود. نیل هولزبی، کوک وی لی، مصطفی دهقانی، لو هو، شاین لانگپر، بارت زوف، یی تای، ویلیام فدوس، یون ژوان لی، ژوژی وانگ، مصطفی دهقانی، سیدارتا برهما، آلبرت وبسون، شیشیانگ شین گو، ژیویون دای، میراک سوز ، شینیون چن، شاران نارنگ، گاوراو میشرا، آدامز یو، وینسنت ژائو، یانپینگ هوانگ، اندرو دای، هونگکون یو، اد اچ چی، جف دین، جیکوب دولین، و آدام رابرتز.