مدل‌های زبان بهتر بدون محاسبات عظیم – وبلاگ هوش مصنوعی گوگل

در سال‌های اخیر، مدل‌های زبانی (LMs) در تحقیقات پردازش زبان طبیعی (NLP) برجسته‌تر شده‌اند و در عمل نیز به طور فزاینده‌ای تأثیرگذار می‌شوند. نشان داده شده است که افزایش مقیاس LM باعث بهبود عملکرد در طیف وسیعی از وظایف NLP می شود. برای مثال، بزرگ‌کردن مدل‌های زبان می‌تواند گیجی را در هفت مرتبه بزرگی از اندازه‌های مدل بهبود بخشد، و توانایی‌های جدیدی مانند استدلال چند مرحله‌ای در نتیجه مقیاس مدل مشاهده شده است. با این حال، یکی از چالش‌های مقیاس‌پذیری مداوم این است که آموزش مدل‌های جدید و بزرگ‌تر به مقادیر زیادی منابع محاسباتی نیاز دارد. علاوه بر این، مدل‌های جدید اغلب از ابتدا آموزش داده می‌شوند و از وزنه‌های مدل‌های قبلی استفاده نمی‌کنند.

در این پست وبلاگ، ما دو روش مکمل را برای بهبود مدل‌های زبان موجود با حاشیه زیاد بدون استفاده از منابع محاسباتی عظیم بررسی می‌کنیم. ابتدا، در “قوانین مقیاس گذاری فراتر با 0.1٪ محاسبه اضافی”، ما UL2R را معرفی می کنیم، که مرحله دوم سبک وزنی از پیش تمرین است که از یک هدف ترکیبی از حذف کننده ها استفاده می کند. UL2R عملکرد را در طیف وسیعی از وظایف بهبود می بخشد و حتی عملکرد اضطراری را در کارهایی که قبلاً عملکرد تقریباً تصادفی داشتند باز می کند. دوم، در «مدل‌های زبانی تنظیم‌شده با دستورالعمل‌های مقیاس‌بندی»، ما تنظیم دقیق یک مدل زبان را بر روی مجموعه‌ای از مجموعه داده‌هایی که به عنوان دستورالعمل‌ها بیان شده‌اند، بررسی می‌کنیم، فرآیندی که ما آن را «فلان» می‌نامیم. این رویکرد نه تنها عملکرد را افزایش می‌دهد، بلکه قابلیت استفاده از مدل زبان را برای ورودی‌های کاربر بدون مهندسی کردن اعلان‌ها نیز بهبود می‌بخشد. در نهایت، نشان می‌دهیم که Flan و UL2R می‌توانند به‌عنوان تکنیک‌های مکمل در مدلی به نام Flan-U-PaLM 540B ترکیب شوند، که در مجموعه‌ای از معیارهای ارزیابی چالش برانگیز، 10 درصد از مدل سازگار نشده PaLM 540B بهتر عمل می‌کند.

آموزش UL2R

به طور سنتی، بیشتر مدل‌های زبانی از قبل بر روی یک هدف مدل‌سازی زبان علّی آموزش داده شده‌اند که مدل را قادر می‌سازد کلمه بعدی را در یک دنباله پیش‌بینی کند (مثلاً GPT-3 یا PalM) یا یک هدف حذف نویز، که در آن مدل یاد می‌گیرد که اصل را بازیابی کند. جمله از یک دنباله خراب از کلمات، (به عنوان مثال، T5). اگرچه برخی معاوضه‌ها در اهداف مدل‌سازی زبان وجود دارد، زیرا LM‌های علّی در تولید طولانی‌شکل بهتر هستند و LM‌های آموزش‌دیده بر روی یک هدف حذف نویز برای تنظیم دقیق بهتر هستند، در کار قبلی نشان دادیم که هدف مخلوط‌زدایی‌کننده‌ها که شامل هر دو است. اهداف منجر به عملکرد بهتر در هر دو سناریو می شود.

مطالب پیشنهادی  زبان پایه در مقرون به صرفه رباتیک

با این حال، پیش‌آموزش یک مدل زبان بزرگ روی یک هدف متفاوت از ابتدا می‌تواند از نظر محاسباتی بازدارنده باشد. از این رو، ما تعمیر UL2 (UL2R) را پیشنهاد می‌کنیم، یک مرحله اضافی از ادامه پیش‌آموزش با هدف UL2 که فقط به مقدار نسبتاً کمی محاسبه نیاز دارد. ما UL2R را به Palm اعمال می کنیم و مدل زبان جدید حاصل را U-PaLM می نامیم.

در ارزیابی‌های تجربی، متوجه شدیم که منحنی‌های مقیاس‌بندی تنها با مقدار کمی آموزش UL2 به طور قابل‌توجهی بهبود می‌یابند. به عنوان مثال، نشان می‌دهیم که با استفاده از UL2R در ایست بازرسی میانی PalM 540B، در حالی که از محاسبه 2 برابری کمتر (یا اختلاف 4.4 میلیون TPUv4 ساعت) استفاده می‌کنیم، به عملکرد آخرین بازرسی PALM 540B می‌رسیم. به طور طبیعی، اعمال UL2R در ایست بازرسی نهایی PalM 540B نیز منجر به بهبودهای اساسی می شود، همانطور که در مقاله توضیح داده شد.

عملکرد مدل PaLM 540B و U-PaLM 540B را در مقابل 26 معیار NLP محاسبه کنید (در جدول 8 در مقاله ذکر شده است). U-PaLM 540B به آموزش Palm برای مقدار بسیار کمی از محاسبات ادامه می دهد، اما افزایش قابل توجهی در عملکرد ایجاد می کند.

مزیت دیگری که ما از استفاده از UL2R مشاهده کردیم این است که در برخی کارها، عملکرد بسیار بهتر از مدل هایی است که صرفاً بر روی هدف مدل سازی زبان علی آموزش داده شده اند. به عنوان مثال، بسیاری از وظایف BIG-Bench وجود دارند که به عنوان “توانایی های نوظهور” توصیف شده اند، به عنوان مثال، توانایی هایی که فقط در مدل های زبانی به اندازه کافی بزرگ قابل مشاهده هستند. اگرچه معمولاً روشی که توانایی‌های اضطراری پیدا می‌شوند با افزایش اندازه LM است، ما دریافتیم که UL2R در واقع می‌تواند توانایی‌های اضطراری را بدون افزایش مقیاس LM ایجاد کند.

به عنوان مثال، در وظیفه Navigate از BIG-Bench، که توانایی مدل را برای انجام ردیابی وضعیت اندازه گیری می کند، همه مدل ها به جز U-PaLM با کمتر از 1023 FLOPهای آموزشی به عملکرد تقریبا تصادفی دست می یابند. عملکرد U-PaLM بیش از 10 امتیاز بالاتر از آن است. مثال دیگری از این کار Snarks از BIG-Bench است که توانایی مدل را در تشخیص طعنه می سنجد. باز هم، در حالی که همه مدل ها کمتر از 1024 FLOPهای آموزشی تقریباً عملکرد تصادفی دارند، U-PaLM حتی برای مدل‌های 8B و 62B بسیار بالاتر است.

برای دو توانایی از BIG-Bench که عملکرد تکلیف اضطراری را نشان می‌دهند، U-PaLM به دلیل استفاده از هدف UL2R در اندازه مدل کوچک‌تر به ظهور می‌رسد.

تنظیم دقیق دستورالعمل

در مقاله دوم خود، ما تنظیم دقیق دستورالعمل را بررسی می کنیم، که شامل تنظیم دقیق LM ها در مجموعه ای از مجموعه داده های NLP است که به عنوان دستورالعمل ها بیان می شوند. در کار قبلی، ما تنظیم دقیق دستورالعمل‌ها را روی یک مدل پارامتر 137B در 62 کار NLP، مانند پاسخ به یک سؤال بی‌اهمیت، طبقه‌بندی احساسات یک فیلم، یا ترجمه یک جمله به اسپانیایی، اعمال کردیم.

مطالب پیشنهادی  استفاده از ML برای تقویت تعامل با برنامه سلامت مادر و کودک در هند

در این کار ما یک مدل زبان پارامتر 540B را روی بیش از 1.8K کار تنظیم می کنیم. علاوه بر این، در حالی که تلاش‌های قبلی فقط یک LM را با نمونه‌های چند شات (مثلاً MetaICL) یا صفر شات بدون نمونه (مثلاً FLAN، T0) دقیق تنظیم می‌کردند، ما ترکیبی از هر دو را به‌خوبی تنظیم می‌کنیم. ما همچنین شامل زنجیره ای از داده های تنظیم دقیق فکر می شویم که مدل را قادر می سازد تا استدلال چند مرحله ای را انجام دهد. ما روش بهبود یافته خود را “Flan” برای تنظیم دقیق مدل های زبان می نامیم. قابل توجه است، حتی با تنظیم دقیق وظایف 1.8K، Flan فقط از بخش کوچکی از محاسبات در مقایسه با قبل از آموزش استفاده می کند (به عنوان مثال، برای PalM 540B، Flan تنها به 0.2٪ از محاسبات پیش از آموزش نیاز دارد).

ما مدل‌های زبان را روی وظایف 1.8K که به‌عنوان دستورالعمل‌ها بیان شده‌اند، به‌خوبی تنظیم می‌کنیم و آن‌ها را در کارهای دیده نشده که در تنظیم دقیق گنجانده نشده‌اند، ارزیابی می‌کنیم. ما هم با و هم بدون نمونه (یعنی صفر و چند شات) و با و بدون زنجیره فکر تنظیم می کنیم و امکان تعمیم در طیف وسیعی از سناریوهای ارزیابی را فراهم می کنیم.

در این مقاله، LMها را با طیف وسیعی از اندازه‌ها تنظیم می‌کنیم تا اثر مشترک مقیاس‌گذاری هم اندازه LM و هم تعداد وظایف تنظیم دقیق را بررسی کنیم. به عنوان مثال، برای کلاس PalM از LM ها، که شامل مدل هایی از پارامترهای 8B، 62B، و 540B است. ما مدل‌های خود را بر روی چهار مجموعه ارزیابی معیار چالش‌برانگیز (MMLU، BBH، TyDiQA و MGSM) ارزیابی می‌کنیم و متوجه می‌شویم که هم مقیاس‌بندی تعداد پارامترها و هم تعداد وظایف تنظیم دقیق، عملکرد در کارهای دیده نشده را بهبود می‌بخشد.

هر دو مقیاس کردن تا مدل پارامتر 540B و استفاده از وظایف تنظیم دقیق 1.8K عملکرد را در کارهای دیده نشده بهبود می بخشد. محور y میانگین نرمال شده در چهار مجموعه ارزیابی (MMLU، BBH، TyDiQA و MGSM) است.

علاوه بر عملکرد بهتر، تنظیم دقیق دستورالعمل یک LM آن را قادر می‌سازد تا به دستورالعمل‌های کاربر در زمان استنتاج، بدون نمونه‌های چندتایی یا مهندسی سریع پاسخ دهد. این باعث می شود LM ها در طیف وسیعی از ورودی ها کاربر پسندتر باشند. به عنوان مثال، LM های بدون تنظیم دقیق دستورالعمل، گاهی اوقات می توانند ورودی را تکرار کنند یا دستورالعمل ها را دنبال نکنند، اما تنظیم دقیق دستورالعمل، چنین خطاهایی را کاهش می دهد.

مطالب پیشنهادی  هم افزایی استدلال و عمل در مدل های زبان – وبلاگ هوش مصنوعی گوگل

مدل زبان تنظیم‌شده آموزش ما، Flan-PaLM، در مقایسه با مدل PalM بدون تنظیم دقیق دستورالعمل، به دستورالعمل‌ها بهتر پاسخ می‌دهد.

قرار دادن آنها در کنار هم

در نهایت، نشان می‌دهیم که UL2R و Flan می‌توانند برای آموزش مدل Flan-U-PaLM ترکیب شوند. از آنجایی که Flan از داده‌های جدید از وظایف NLP استفاده می‌کند و دستورالعمل‌های زیر را فعال می‌کند، ما Flan را به عنوان روش دوم بعد از UL2R اعمال می‌کنیم. ما دوباره روی چهار مجموعه معیار ارزیابی می‌کنیم و متوجه می‌شویم که مدل Flan-U-PaLM از مدل‌های PalM فقط با UL2R (U-PaLM) یا فقط Flan (Flan-PaLM) بهتر عمل می‌کند. علاوه بر این، Flan-U-PaLM زمانی که با زنجیره فکری و خودسازگاری ترکیب می‌شود، به پیشرفته‌ترین حالت در معیار MMLU با امتیاز 75.4% دست می‌یابد.

ترکیب UL2R و Flan (Flan-U-PaLM) منجر به بهترین عملکرد در مقایسه با استفاده از UL2R (U-PaLM) یا فقط Flan (Flan-U-PaLM) می شود. عملکرد میانگین نرمال شده در چهار مجموعه ارزیابی (MMLU، BBH، TyDiQA و MGSM) است.

به طور کلی، UL2R و Flan دو روش مکمل برای بهبود مدل های زبانی از پیش آموزش دیده هستند. UL2R با استفاده از داده‌های مشابه، LM را با هدف مخلوط‌زدایی‌کننده تطبیق می‌دهد، در حالی که Flan از داده‌های آموزشی بیش از 1.8K وظایف NLP استفاده می‌کند تا به مدل آموزش دهد تا دستورالعمل‌ها را دنبال کند. همانطور که LM ها حتی بزرگتر می شوند، تکنیک هایی مانند UL2R و Flan که عملکرد عمومی را بدون مقادیر زیاد محاسبات بهبود می بخشند، ممکن است به طور فزاینده ای جذاب شوند.

سپاسگزاریها

همکاری در این دو مقاله با هیونگ وون چانگ، وین کیو تران، دیوید آر سو، سیامک شاکری، خاویر گارسیا، هوآیکسیو استیون ژنگ، جینفنگ رائو، آکانکشا چاوددری، دنی ژو، دونالد متزلر، اسلاو پتروف، افتخاری بود. نیل هولزبی، کوک وی لی، مصطفی دهقانی، لو هو، شاین لانگپر، بارت زوف، یی تای، ویلیام فدوس، یون ژوان لی، ژوژی وانگ، مصطفی دهقانی، سیدارتا برهما، آلبرت وبسون، شیشیانگ شین گو، ژیویون دای، میراک سوز ، شینیون چن، شاران نارنگ، گاوراو میشرا، آدامز یو، وینسنت ژائو، یانپینگ هوانگ، اندرو دای، هونگکون یو، اد اچ چی، جف دین، جیکوب دولین، و آدام رابرتز.

سئو PBN | خبر های جدید سئو و هک و سرور