روش‌های منبع باز پیشرفته برای تنظیم دستورالعمل – وبلاگ هوش مصنوعی گوگل

مدل‌های زبان اکنون قادر به انجام بسیاری از وظایف جدید پردازش زبان طبیعی (NLP) با خواندن دستورالعمل‌ها هستند، اغلب مواردی که قبلاً ندیده بودند. توانایی استدلال در مورد وظایف جدید بیشتر به مدل های آموزشی در طیف گسترده ای از دستورالعمل های منحصر به فرد، معروف به “تنظیم دستورالعمل” است که توسط FLAN معرفی شد و در T0، Super-Natural Instructions، MetaICL، و InstructGPT گسترش یافت. با این حال، بسیاری از داده هایی که این پیشرفت ها را هدایت می کنند، برای جامعه تحقیقاتی گسترده تر منتشر نشده باقی می مانند.

که در “مجموعه Flan: طراحی داده ها و روش ها برای تنظیم مؤثر دستورالعملما مجموعه‌ای جدیدتر و گسترده‌تر از وظایف، الگوها و روش‌های تنظیم دستورالعمل‌ها را برای ارتقای توانایی جامعه برای تجزیه و تحلیل و بهبود روش‌های تنظیم دستورالعمل، از نزدیک بررسی و منتشر می‌کنیم. این مجموعه برای اولین بار در Flan-T5 و Flan-PaLM مورد استفاده قرار گرفت، که دومی پیشرفت های قابل توجهی را نسبت به Palm بدست آورد. ما نشان می‌دهیم که آموزش یک مدل در این مجموعه نسبت به مجموعه‌های عمومی قابل مقایسه در همه معیارهای ارزیابی آزمایش‌شده، عملکرد بهتری را به همراه دارد، به‌عنوان مثال، بهبود ۳ درصدی در ۵۷ کار در مجموعه ارزیابی Massive Multitask Language Understanding (MMLU) و بهبود ۸ درصدی در BigBench. سخت (BBH). تجزیه و تحلیل نشان می‌دهد که این بهبودها هم از مجموعه وظایف بزرگ‌تر و متنوع‌تر و هم از به‌کارگیری مجموعه‌ای از آموزش‌های ساده و تکنیک‌های تقویت داده‌ها که ارزان و آسان برای پیاده‌سازی هستند ناشی می‌شوند: مخلوط کردن ضربات صفر، چند شات و زنجیره‌ای از اعلان‌های فکری در آموزش، غنی سازی وظایف با وارونگی ورودی، و متعادل کردن مخلوط وظایف. این روش‌ها با هم، مدل‌های زبانی به‌دست‌آمده را قادر می‌سازند تا با مهارت بیشتری در مورد کارهای دلخواه استدلال کنند، حتی آن‌هایی که نمونه‌های تنظیم دقیقی برای آن‌ها ندیده است. امیدواریم در دسترس قرار دادن این یافته‌ها و منابع برای عموم، تحقیق در مورد مدل‌های زبانی قدرتمندتر و همه‌منظوره را تسریع کند.

مجموعه داده های تنظیم دستورالعمل عمومی

از سال 2020، چندین مجموعه وظایف تنظیم دستورالعمل به سرعت منتشر شده است که در جدول زمانی زیر نشان داده شده است. تحقیقات اخیر هنوز حول مجموعه‌ای از تکنیک‌ها، با مجموعه‌های متفاوتی از وظایف، اندازه‌های مدل و قالب‌های ورودی که همگی نشان داده شده‌اند، ادغام نشده‌اند. این مجموعه جدید، که در زیر به عنوان “Flan 2022” نامیده می شود، مجموعه های قبلی از FLAN، P3/T0، و دستورالعمل های طبیعی را با گفتگوی جدید، ترکیب برنامه، و وظایف استدلال پیچیده ترکیب می کند.

جدول زمانی مجموعه‌های تنظیم دستورالعمل عمومی، از جمله: UnifiedQA، CrossFit، Natural Instructions، FLAN، P3/T0، MetaICL، ExT5، Super-Natural Instructions، mT0، Unnatural Instructions، Self-Instruct و OPT-IML Bench. جدول تاریخ انتشار، نام مجموعه کار، نام مدل، مدل(های) پایه که با این مجموعه تنظیم شده است، اندازه مدل، عمومی (سبز) یا غیر عمومی (قرمز) بودن مدل به دست آمده را توضیح می دهد. آنها با اعلان های صفر شات (“ZS”)، اعلان های چند شات (“FS”)، اعلان های زنجیره ای از فکر (“CoT”) با هم (“+”) یا جداگانه (“/”)، تعداد تمرین می کنند. از وظایف این مجموعه در Flan 2022، تعداد کل نمونه ها و چند روش قابل توجه مربوط به مجموعه های مورد استفاده در این آثار. توجه داشته باشید که تعداد کارها و مثال ها در مفروضات مختلف متفاوت است و به همین ترتیب تقریب ها نیز متفاوت هستند. تعداد هر یک با استفاده از تعاریف کار از آثار مربوطه گزارش شده است.

مجموعه Flan علاوه بر مقیاس‌بندی به وظایف آموزشی آموزنده‌تر، آموزش را با انواع مختلف مشخصات ورودی-خروجی، از جمله دستورالعمل‌ها (اعلام صفر شات)، دستورالعمل‌هایی با نمونه‌هایی از کار (تشویق چند عکس)، و دستورالعمل‌هایی که برای توضیح با پاسخ (زنجیره ای از افکار تحریک). به جز InstructGPT که مجموعه ای از داده های اختصاصی را به کار می گیرد، Flan 2022 اولین اثری است که به طور عمومی مزایای قوی ترکیب این تنظیمات را با هم در طول آموزش نشان می دهد. به جای مبادله بین تنظیمات مختلف، اختلاط تنظیمات اعلان در طول آموزش، تمام تنظیمات درخواست را در زمان استنتاج بهبود می بخشد، همانطور که در زیر نشان داده شده است هم برای وظایف نگه داشته شده و هم از مجموعه وظایف تنظیم دقیق.

آموزش به صورت مشترک با الگوهای اعلان صفر و چند شات عملکرد را در هر دو وظایف نگه‌داشته‌شده و نگه‌داشته‌شده بهبود می‌بخشد. ستاره ها اوج عملکرد را در هر تنظیم نشان می دهند. خطوط قرمز نشان‌دهنده ارزیابی درخواستی صفر شات است، یاس بنفش نشان‌دهنده ارزیابی درخواستی چند شات است.

ارزیابی روش های تنظیم آموزش

برای درک تأثیرات کلی تعویض یک مجموعه تنظیم دستورالعمل با مجموعه دیگر، مدل‌های T5 با اندازه معادل را در مجموعه‌های عمومی تنظیم دستورالعمل عمومی، از جمله Flan 2021، T0++، و دستورالعمل‌های Super-Natural تنظیم می‌کنیم. سپس هر مدل بر روی مجموعه‌ای از وظایف که قبلاً در هر یک از مجموعه‌های تنظیم دستورالعمل گنجانده شده است، مجموعه‌ای از پنج وظیفه زنجیره‌ای از فکر، و سپس مجموعه‌ای از 57 کار متنوع از معیار MMLU، هر دو با صفر ارزیابی می‌شود. دستورات شات و چند شات. در هر مورد، مدل جدید Flan 2022، Flan-T5، از کارهای قبلی بهتر عمل می‌کند و یک استدلال NLP همه منظوره قوی‌تر را نشان می‌دهد.

مقایسه مجموعه‌های تنظیم دستورالعمل عمومی در مجموعه‌های ارزیابی نگه‌داشته‌شده، زنجیره‌ای از فکر، و نگهداری‌شده، مانند BigBench Hard و MMLU. همه مدل ها به جز OPT-IML-Max (175B) توسط ما آموزش داده شده اند و از T5-XL با پارامترهای 3B استفاده می کنند. متن سبز نشان دهنده بهبود نسبت به بهترین مدل بعدی T5-XL (3B) است.

تنظیم دقیق تک کار

در تنظیمات کاربردی، پزشکان معمولاً مدل‌های NLP را به‌طور دقیق برای یک کار هدف، جایی که داده‌های آموزشی از قبل در دسترس است، به کار می‌گیرند. ما این تنظیم را بررسی می‌کنیم تا بفهمیم که چگونه Flan-T5 با مدل‌های T5 به عنوان نقطه شروع برای پزشکان کاربردی مقایسه می‌شود. سه تنظیمات با هم مقایسه می شوند: تنظیم دقیق T5 به طور مستقیم بر روی وظیفه هدف، استفاده از Flan-T5 بدون تنظیم دقیق بیشتر در کار هدف، و تنظیم دقیق Flan-T5 در وظیفه هدف. برای کارهای نگه‌داشته‌شده و نگه‌داشته‌شده، تنظیم دقیق Flan-T5 نسبت به تنظیم دقیق T5 به طور مستقیم پیشرفت‌هایی را ارائه می‌دهد. در برخی موارد، معمولاً جایی که داده های آموزشی برای یک کار هدف محدود است، Flan-T5 بدون تنظیم دقیق بیشتر از T5 بهتر عمل می کند. با تنظیم دقیق مستقیم

Flan-T5 در تنظیم دقیق تک وظیفه ای بهتر از T5 عمل می کند. ما T5 با تنظیم دقیق تک کاره (نوارهای آبی)، Flan-T5 با تنظیم دقیق تک کاره (قرمز) و Flan-T5 را بدون هیچ تنظیم دقیق دیگری (بژ) مقایسه می کنیم.

یک مزیت اضافی استفاده از Flan-T5 به عنوان نقطه شروع این است که آموزش به طور قابل توجهی سریعتر و ارزان تر است، سریعتر از تنظیم دقیق T5 همگرا می شود و معمولاً با دقت بالاتری به اوج می رسد. این نشان می‌دهد که ممکن است برای دستیابی به نتایج مشابه یا بهتر در یک کار خاص، داده‌های آموزشی کمتری لازم باشد.

Flan-T5 سریعتر از T5 در تنظیم دقیق تک کاره، برای هر یک از پنج وظیفه نگهداشته شده از Flan fine-tuning همگرا می شود. منحنی یادگیری Flan-T5 با خطوط ثابت و منحنی یادگیری T5 با خط چین نشان داده شده است. تمام وظایف در طول تنظیم دقیق Flan انجام می شود.

مزایای بهره وری انرژی قابل توجهی برای جامعه NLP وجود دارد که مدل های تنظیم شده با دستورالعمل مانند Flan-T5 را برای تنظیم دقیق تکلیف به جای مدل های معمولی تنظیم نشده بدون دستورالعمل استفاده می کند. در حالی که تنظیم دقیق قبل از آموزش و دستورالعمل از نظر مالی و محاسباتی گران است، اما هزینه‌ای یکباره است که معمولاً طی میلیون‌ها دوره تنظیم دقیق بعدی مستهلک می‌شود، که در مجموع می‌تواند برای برجسته‌ترین مدل‌ها گران‌تر شود. مدل‌های تنظیم‌شده با دستورالعمل، راه‌حل امیدوارکننده‌ای را در کاهش قابل توجه میزان مراحل تنظیم دقیق مورد نیاز برای دستیابی به عملکرد یکسان یا بهتر ارائه می‌دهند.

نتیجه

مجموعه جدید تنظیم دستورالعمل Flan محبوب ترین مجموعه های عمومی قبلی و روش های آنها را یکپارچه می کند، در حالی که الگوهای جدید و پیشرفت های ساده مانند آموزش با تنظیمات سریع ترکیبی را اضافه می کند. روش به‌دست‌آمده از دستورالعمل‌های Flan، P3 و Super-Natural در معیارهای نگه‌دارنده، زنجیره‌ای فکر، MMLU و BBH 3 تا 17 درصد در انواع صفر و چند شات بهتر عمل می‌کند. نتایج نشان می‌دهد که این مجموعه جدید به عنوان نقطه شروع کارآمدتری برای محققان و متخصصان علاقه‌مند به تعمیم دستورالعمل‌های جدید یا تنظیم دقیق در یک کار جدید است.

سپاسگزاریها

همکاری با Jason Wei، Barret Zoph، Le Hou، Hyung Won Chung، Tu Vu، Albert Webson، Denny Zhou و Quoc V Le در این پروژه یک افتخار بود.

سئو PBN | خبر های جدید سئو و هک و سرور