به سمت بهینه سازی فراپارامتر جهانی با ترانسفورماتورها

یکی از مهم‌ترین جنبه‌های یادگیری ماشین، بهینه‌سازی هایپرپارامتر است، زیرا یافتن فراپارامترهای مناسب برای یک کار یادگیری ماشینی می‌تواند عملکرد یک مدل را تغییر دهد یا آن را خراب کند. در داخل، ما مرتباً از Google Vizier به عنوان پلتفرم پیش‌فرض برای بهینه‌سازی هایپرپارامتر استفاده می‌کنیم. Google Vizier در طول استقرار خود در طول 5 سال گذشته بیش از 10 میلیون بار در کلاس وسیعی از برنامه‌های کاربردی، از جمله برنامه‌های یادگیری ماشین از دید، یادگیری تقویتی و زبان و همچنین برنامه‌های علمی مانند کشف پروتئین و شتاب سخت‌افزار استفاده شده است. . از آنجایی که Google Vizier قادر است الگوهای استفاده را در پایگاه داده خود پیگیری کند، چنین داده هایی که معمولاً از مسیرهای بهینه سازی تشکیل شده اند، نامیده می شوند. مطالعات، حاوی اطلاعات قبلی بسیار ارزشمند در مورد اهداف تنظیم فراپارامتر واقعی است و بنابراین برای توسعه الگوریتم های بهتر بسیار جذاب است.

در حالی که بسیاری از روش‌های قبلی برای فرایادگیری بر روی چنین داده‌هایی وجود داشته است، چنین روش‌هایی یک اشکال مشترک عمده دارند: روش‌های فرایادگیری آن‌ها به شدت به محدودیت‌های عددی مانند تعداد فراپارامترها و محدوده‌های ارزش آن‌ها بستگی دارد، و بنابراین نیاز به تمام وظایف دقیقاً از همان فضای جستجوی کل فراپارامتر (یعنی تنظیم مشخصات) استفاده کنید. اطلاعات متنی اضافی در مطالعه، مانند توضیحات و نام پارامترها، نیز به ندرت مورد استفاده قرار می گیرند، اما می توانند اطلاعات معنی داری در مورد نوع کار بهینه سازی شده در خود داشته باشند. چنین اشکالی برای مجموعه داده های بزرگتر که اغلب حاوی مقادیر قابل توجهی از چنین اطلاعات معناداری هستند تشدید می شود.

امروز در “به سوی یادگیری بهینه سازهای فراپارامتر جهانی با ترانسفورماتور”، ما هیجان زده هستیم که OptFormer، یکی از اولین چارچوب های مبتنی بر ترانسفورماتور برای تنظیم هایپرپارامتر، از داده های بهینه سازی در مقیاس بزرگ با استفاده از نمایش های مبتنی بر متن انعطاف پذیر آموخته شد. در حالی که آثار متعددی قبلاً توانایی‌های قوی ترانسفورماتور را در حوزه‌های مختلف نشان داده‌اند، تعداد کمی روی قابلیت‌های مبتنی بر بهینه‌سازی آن، به‌ویژه در فضای متن، دست زده‌اند. یافته های اصلی ما برای اولین بار برخی از توانایی های الگوریتمی جالب ترانسفورماتورها را نشان می دهد: 1) یک شبکه ترانسفورماتور واحد قادر به تقلید رفتارهای بسیار پیچیده از الگوریتم های متعدد در افق های طولانی است. 2) شبکه قادر است مقادیر هدف را با دقت بسیار زیادی پیش بینی کند، در بسیاری از موارد از فرآیندهای گاوسی که معمولاً در الگوریتم هایی مانند بهینه سازی بیزی استفاده می شود، پیشی می گیرد.

رویکرد: نشان دادن مطالعات به عنوان نشانه
روش جدید ما به جای استفاده از داده های عددی به عنوان رایج با روش های قبلی، در عوض از مفاهیم زبان طبیعی استفاده می کند و نشان می دهد. همه داده های مطالعه به عنوان دنباله ای از نشانه ها، از جمله اطلاعات متنی از ابرداده های اولیه. در انیمیشن زیر، این شامل «CIFAR10»، «نرخ یادگیری»، «نوع بهینه‌ساز» و «دقت» است که OptFormer را از یک کار طبقه‌بندی تصویر مطلع می‌کند. سپس OptFormer ابرپارامترهای جدیدی را برای امتحان کردن کار تولید می‌کند، دقت کار را پیش‌بینی می‌کند و در نهایت دقت واقعی را دریافت می‌کند که برای تولید فراپارامترهای دور بعدی استفاده می‌شود. با استفاده از پایگاه کد T5X، OptFormer در یک روش رمزگذار-رمزگشای معمولی با استفاده از پیش‌آموزش مولد استاندارد بر روی طیف گسترده‌ای از اهداف بهینه‌سازی فراپارامتر، از جمله داده‌های دنیای واقعی جمع‌آوری‌شده توسط Google Vizier، و همچنین هایپرپارامتر عمومی (HPO-B) و جعبه سیاه آموزش داده می‌شود. معیارهای بهینه سازی (BBOB).

OptFormer می تواند سبک رمزگذار-رمزگشای بهینه سازی هایپرپارامتر را با استفاده از نمایش های مبتنی بر توکن انجام دهد. در ابتدا ابرداده مبتنی بر متن (در کادر خاکستری) حاوی اطلاعاتی مانند عنوان، نام پارامترهای فضای جستجو و معیارهایی را برای بهینه‌سازی مشاهده می‌کند و مکرراً پیش‌بینی‌های پارامتر و ارزش هدف را خروجی می‌دهد.

سیاست های تقلید
از آنجایی که OptFormer بر روی مسیرهای بهینه سازی توسط الگوریتم های مختلف آموزش دیده است، اکنون ممکن است به طور همزمان از چنین الگوریتم هایی تقلید کند. با ارائه یک اعلان مبتنی بر متن در فراداده برای الگوریتم تعیین شده (به عنوان مثال “تکامل منظم”)، OptFormer رفتار الگوریتم را تقلید می کند.

OptFormer بر روی یک تابع آزمایشی غیرقابل مشاهده، منحنی های بهینه سازی تقریباً یکسانی را با الگوریتم اصلی تولید می کند. نوارهای خطای میانگین و انحراف استاندارد نشان داده شده است.

پیش بینی ارزش های عینی
علاوه بر این، OptFormer اکنون ممکن است مقدار هدف در حال بهینه سازی را پیش بینی کند (به عنوان مثال دقت) و تخمین های عدم قطعیت ارائه دهد. ما پیش‌بینی OptFormer را با یک فرآیند استاندارد گاوسی مقایسه کردیم و دریافتیم که OptFormer می‌تواند پیش‌بینی‌های بسیار دقیق‌تری انجام دهد. این را می توان از نظر کیفی در زیر مشاهده کرد، جایی که منحنی کالیبراسیون OptFormer از خط مورب ایده‌آل در یک تست خوب بودن و از نظر کمی از طریق معیارهای کل استاندارد مانند چگالی پیش‌بینی لاگ پیروی می‌کند.

ترکیب هر دو: بهینه سازی مبتنی بر مدل
اکنون می‌توانیم از قابلیت پیش‌بینی عملکرد OptFormer برای هدایت بهتر خط‌مشی تقلیدمان، مشابه تکنیک‌های موجود در بهینه‌سازی بیزی، استفاده کنیم. با استفاده از نمونه‌برداری تامپسون، ممکن است پیشنهادات خط‌مشی تقلید خود را رتبه‌بندی کنیم و فقط بهترین را بر اساس پیش‌بینی‌کننده تابع انتخاب کنیم. این یک خط‌مشی تقویت‌شده ایجاد می‌کند که قادر به عملکرد بهتر از الگوریتم بهینه‌سازی بیزی درجه صنعتی ما در Google Vizier در هنگام بهینه‌سازی اهداف معیار مصنوعی کلاسیک و تنظیم فراپارامترهای نرخ یادگیری یک خط لوله آموزشی استاندارد CIFAR-10 است.

ترک کرد: بهترین منحنی بهینه سازی تا کنون بر روی یک تابع کلاسیک روزنبراک. درست: بهترین منحنی بهینه‌سازی تا کنون بر روی فراپارامترها برای آموزش ResNet-50 در CIFAR-10 از طریق init2winit. هر دو مورد از 10 دانه در هر منحنی و نوارهای خطا در صدک های 25 و 75 استفاده می کنند.

نتیجه
در طول این کار، ما برخی از قابلیت‌های بهینه‌سازی مفید و ناشناخته ترانسفورماتور را کشف کردیم. در آینده، ما امیدواریم که راه را برای یک رابط جهانی بهینه سازی هایپرپارامتر و جعبه سیاه برای استفاده از داده های عددی و متنی برای تسهیل بهینه سازی در فضاهای جستجوی پیچیده، و ادغام OptFormer با بقیه اکوسیستم Transformer (مانند زبان، دید، کد) با استفاده از مجموعه عظیم Google از داده های AutoML آفلاین.

سپاسگزاریها
اعضای زیر DeepMind و تیم تحقیقاتی مغز گوگل این تحقیق را انجام دادند: Yutian Chen، Xingyou Song، Chansoo Lee، Zi Wang، Qiuyi Zhang، David Dohan، Kazuya Kawakami، Greg Kochanski، Arnaud Doucet، Marc’aurelio Ranzato، Sagi Perel، و ناندو دی فریتاس.

همچنین می‌خواهیم از کریس دایر، لوک متز، کوین مورفی، یانیس اسائل، فرانک هاتر و استبان رئال برای ارائه بازخورد ارزشمند تشکر کنیم و از سباستین پیندا آرانگو، کریستوف آنگرمولر و زکری نادو برای بحث‌های فنی در مورد معیارها تشکر کنیم. علاوه بر این، ما از دانیل گولووین، دائی پنگ، یینگجی میائو، جک پارکر هولدر، جی تان، لوسیو دری و الکساندرا فاوست برای چندین مکالمه مفید تشکر می کنیم.

در پایان از تام اسمال برای طراحی انیمیشن این پست تشکر می کنیم.