مدلهای یادگیری عمیق برای کارهای بصری (مثلاً طبقهبندی تصویر) معمولاً با دادههای یک تصویری منفرد آموزش داده میشوند. دامنه (به عنوان مثال، تصاویر طبیعی یا تصاویر تولید شده توسط کامپیوتر). به طور معمول، برنامهای که وظایف بصری را برای چندین دامنه تکمیل میکند، باید چندین مدل را برای هر دامنه جداگانه بسازد، آنها را به طور مستقل آموزش دهد (به این معنی که هیچ دادهای بین دامنهها به اشتراک گذاشته نمیشود)، و سپس در زمان استنتاج، هر مدل دادههای ورودی دامنه خاص را پردازش میکند. با این حال، لایههای اولیه بین این مدلها ویژگیهای مشابهی را ایجاد میکنند، حتی برای دامنههای مختلف، بنابراین میتواند کارآمدتر باشد – کاهش تأخیر و مصرف انرژی، سربار حافظه کمتر برای ذخیره پارامترهای هر مدل – برای آموزش مشترک چندین دامنه، رویکردی که به آن اشاره میشود. یادگیری چند دامنه ای (MDL). علاوه بر این، یک مدل MDL همچنین میتواند از مدلهای تک دامنه بهتر عمل کند انتقال دانش مثبت، زمانی است که آموزش اضافی در یک دامنه عملاً عملکرد دیگری را بهبود می بخشد. مخالف، انتقال دانش منفیبسته به رویکرد و ترکیب خاص دامنه های درگیر، نیز می تواند رخ دهد. در حالی که کار قبلی بر روی MDL اثربخشی یادگیری مشترک وظایف در چندین حوزه را ثابت کرده است، این شامل یک معماری مدل دست ساز است که برای اعمال در کارهای دیگر ناکارآمد است.
در «شبکههای عصبی چند مسیره برای طبقهبندی بصری چند دامنهای روی دستگاه»، یک مدل کلی MDL پیشنهاد میکنیم که میتواند: 1) به دقت بالا به طور کارآمد دست یابد (تعداد پارامترها و FLOPS را کم نگه دارد)، 2) یاد بگیرد که مثبت را افزایش دهد. انتقال دانش در حین کاهش انتقال منفی، و 3) بهینه سازی موثر مدل مشترک در حین رسیدگی به مشکلات مختلف دامنه خاص. به این ترتیب، ما یک رویکرد جستجوی معماری عصبی چند مسیره (MPNAS) برای ساخت یک مدل یکپارچه با معماری شبکه ناهمگن برای دامنههای متعدد پیشنهاد میکنیم. MPNAS رویکرد جستجوی معماری عصبی کارآمد (NAS) را از جستجوی تک مسیری به جستجوی چند مسیری با یافتن یک مسیر بهینه برای هر دامنه به طور مشترک گسترش می دهد. همچنین، ما یک تابع ضرر جدید به نام اولویتبندی دامنه متعادل تطبیقی (ABDP) معرفی میکنیم که با مشکلات خاص دامنه سازگار میشود تا به آموزش کارآمد مدل کمک کند. رویکرد MPNAS حاصل کارآمد و مقیاس پذیر است. مدل حاصل عملکرد را حفظ می کند در حالی که اندازه مدل و FLOPS را به ترتیب 78 و 32 درصد در مقایسه با رویکرد تک دامنه کاهش می دهد.
جستجوی معماری عصبی چند مسیری
برای تشویق انتقال دانش مثبت و جلوگیری از انتقال منفی، راهحلهای سنتی یک مدل MDL میسازند تا دامنهها بیشتر لایههایی را که ویژگیهای مشترک را در سراسر دامنهها یاد میگیرند (که استخراج ویژگی نامیده میشود) به اشتراک بگذارند، سپس چند لایه خاص دامنه را در بالای آن قرار دهند. با این حال، چنین رویکرد همگنی برای استخراج ویژگی نمیتواند حوزههایی با ویژگیهای بسیار متفاوت (مانند اشیاء در تصاویر طبیعی و نقاشیهای هنری) را مدیریت کند. از سوی دیگر، ساخت یک معماری ناهمگن یکپارچه برای هر مدل MDL زمانبر است و به دانش خاص دامنه نیاز دارد.
NAS یک پارادایم قدرتمند برای طراحی خودکار معماری های یادگیری عمیق است. الف را تعریف می کند فضای جستجو، از بلوک های ساختمانی بالقوه مختلفی تشکیل شده است که می تواند بخشی از مدل نهایی باشد. این الگوریتم جستجو بهترین معماری کاندید را از فضای جستجو که بهینه سازی می کند اهداف مدلبه عنوان مثال، دقت طبقه بندی. رویکردهای اخیر NAS (به عنوان مثال، TuNAS) با استفاده از نمونهبرداری از مسیر انتها به انتها، کارایی جستجو را به طور معناداری بهبود بخشیده است، که ما را قادر میسازد NAS را از یک دامنه به MDL مقیاس کنیم.
MPNAS با الهام از TuNAS معماری مدل MDL را در دو مرحله ایجاد می کند: جستجو و آموزش. در مرحله جستجو، برای یافتن یک مسیر بهینه برای هر دامنه به طور مشترک، MPNAS یک کنترل کننده یادگیری تقویتی (RL) جداگانه برای هر دامنه ایجاد می کند که از یک مسیر انتها به انتها (از لایه ورودی تا لایه خروجی) از ابر شبکه نمونه برداری می کند. به عنوان مثال، ابرمجموعه تمام زیرشبکه های ممکن بین گره های کاندید تعریف شده توسط فضای جستجو). در طی چندین بار تکرار، همه کنترلکنندههای RL مسیر را برای بهینهسازی پاداشهای RL در همه دامنهها بهروزرسانی میکنند. در پایان مرحله جستجو، برای هر دامنه یک زیرشبکه به دست می آوریم. در نهایت، تمام زیرشبکه ها برای ساختن یک معماری ناهمگن برای مدل MDL، که در زیر نشان داده شده است، ترکیب می شوند.
از آنجایی که زیرشبکه برای هر دامنه به طور مستقل جستجو می شود، بلوک ساختمان در هر لایه می تواند توسط چندین دامنه به اشتراک گذاشته شود (به عنوان مثال، گره های خاکستری تیره)، توسط یک دامنه (یعنی گره های خاکستری روشن) استفاده شود، یا توسط هیچ زیرشبکه ای استفاده نشود. به عنوان مثال، گره های نقطه چین). مسیر هر دامنه همچنین می تواند از هر لایه ای در حین جستجو رد شود. با توجه به اینکه زیرشبکه میتواند آزادانه انتخاب کند که از کدام بلوکها در طول مسیر استفاده کند، بهگونهای که عملکرد را بهینه کند (بهجای اینکه خودسرانه تعیین کند کدام لایهها همگن و کدام یک دامنه خاص هستند)، شبکه خروجی هم ناهمگن و هم کارآمد است.
نمونه معماری جستجو شده توسط MPNAS. مسیرهای چین دار تمام زیرشبکه های ممکن را نشان می دهند. مسیرهای جامد نشان دهنده زیرشبکه های انتخاب شده برای هر دامنه هستند (با رنگ های مختلف برجسته شده اند). گره ها در هر لایه نشان دهنده بلوک های ساختمانی نامزد تعریف شده توسط فضای جستجو هستند. |
شکل زیر معماری جستجو شده دو حوزه بصری را در بین ده دامنه چالش ویژوال دامنه دهگانه نشان میدهد. می توان مشاهده کرد که زیرشبکه این دو دامنه بسیار مرتبط (یکی قرمز و دیگری سبز) اکثر بلوک های ساختمانی را از مسیرهای همپوشانی خود به اشتراک می گذارند، اما هنوز تفاوت هایی وجود دارد.
بلوک های معماری دو دامنه (ImageNet و بافت های قابل توصیف) در میان ده دامنه چالش ویژوال دامنه دکاتلون. مسیر قرمز و سبز نشان دهنده زیرشبکه از ImageNet و بافت های قابل توصیف، به ترتیب. گره های صورتی تیره نشان دهنده بلوک های مشترک توسط چندین دامنه هستند. گره های صورتی روشن نشان دهنده بلوک های استفاده شده توسط هر مسیر هستند. این مدل بر اساس فضای جستجو مانند MobileNet V3 ساخته شده است. بلوک “dwb” در شکل نشان دهنده بلوک dwbottleneck است. بلوک “صفر” در شکل نشان می دهد که زیرشبکه از آن بلوک عبور می کند. |
در زیر شباهت مسیر بین دامنهها در بین ده دامنه چالش Visual Domain Decathlon را نشان میدهیم. شباهت با امتیاز شباهت جاکارد بین زیرشبکههای هر دامنه اندازهگیری میشود، جایی که بالاتر به معنای شبیهتر بودن مسیرها است. همانطور که انتظار میرود، دامنههایی که شبیهتر هستند، گرههای بیشتری را در مسیرهای تولید شده توسط MPNAS به اشتراک میگذارند که این نیز سیگنالی از انتقال دانش مثبت قوی است. به عنوان مثال، مسیرهای مربوط به دامنه های مشابه (مانند ImageNet، CIFAR-100، و گل VGG، که همگی شامل اشیاء در تصاویر طبیعی هستند) امتیاز بالایی دارند، در حالی که مسیرهای دامنه های غیرمشابه (مانند طبقه بندی عابر پیاده دایملر و تصاویر پویا UCF101، که به ترتیب شامل عابران پیاده در تصاویر خاکستری و فعالیت انسانی در تصاویر رنگی طبیعی می شود) امتیاز پایینی دارند.
ماتریس سردرگمی برای امتیاز شباهت جاکارد بین مسیرهای ده حوزه. مقدار امتیاز از 0 تا 1 متغیر است. مقدار بیشتر نشان می دهد که دو مسیر گره های بیشتری را به اشتراک می گذارند. |
آموزش یک مدل چند دامنه ای ناهمگن
در مرحله دوم، مدل حاصل از MPNAS از ابتدا برای همه دامنه ها آموزش داده می شود. برای این کار لازم است a تعریف شود متحد شده است تابع هدف برای همه دامنه ها برای مدیریت موفقیت آمیز دامنه های مختلف، ما الگوریتمی را طراحی کردیم که در طول فرآیند یادگیری به گونه ای تطبیق می یابد که تلفات در دامنه ها متعادل می شود، به نام اولویت بندی دامنه متعادل تطبیقی (ABDP).
در زیر دقت، اندازه مدل و FLOPS مدل آموزش دیده در تنظیمات مختلف را نشان می دهیم. ما MPNAS را با سه رویکرد دیگر مقایسه می کنیم:
- NAS مستقل از دامنه: جستجو و آموزش مدل برای هر دامنه به صورت جداگانه.
- تک مسیره چند سر: استفاده از یک مدل از پیش آموزش دیده به عنوان ستون فقرات مشترک برای همه دامنه ها با سرهای طبقه بندی مجزا برای هر دامنه.
- NAS چند سر: جستجوی یک معماری ستون فقرات یکپارچه برای همه دامنه ها با سرهای طبقه بندی مجزا برای هر دامنه.
از نتایج، می توانیم آن را مشاهده کنیم NAS مستقل از دامنه نیاز به ساخت بستهای از مدلها برای هر دامنه دارد که در نتیجه یک مدل بزرگ ایجاد میشود. با اينكه تک مسیره چند سر و NAS چند سر می تواند اندازه مدل و FLOPS را به طور قابل توجهی کاهش دهد، و دامنه ها را مجبور به اشتراک گذاری ستون فقرات یکسان کند، انتقال دانش منفی را معرفی می کند و دقت کلی را کاهش می دهد.
مدل | نسبت تعداد پارامترها | GFLOPS | دقت متوسط Top-1 |
NAS مستقل از دامنه | 5.7 برابر | 1.08 | 69.9 |
تک مسیره چند سر | 1.0x | 0.09 | 35.2 |
NAS چند سر | 0.7x | 0.04 | 45.2 |
MPNAS | 1.3 برابر | 0.73 | 71.8 |
تعداد پارامترها، gigaFLOPS و دقت Top-1 (%) مدلهای MDL در مجموعه دادههای Visual Decathlon. همه روشها بر اساس فضای جستجو مانند MobileNetV3 ساخته شدهاند. |
MPNAS می تواند یک مدل کوچک و کارآمد بسازد و در عین حال دقت کلی بالایی را حفظ کند. میانگین دقت MPNAS حتی 1.9٪ بیشتر از آن است NAS مستقل از دامنه رویکرد از آنجایی که مدل انتقال دانش مثبت را امکان پذیر می کند. شکل زیر دقت بالای 1 این رویکردها را در هر دامنه مقایسه می کند.
دقت بالای 1 هر دامنه ویژوال Decathlon. |
ارزیابی ما نشان میدهد که با استفاده از ABDP به عنوان بخشی از مراحل جستجو و آموزش، دقت top-1 از 69.96٪ به 71.78٪ (دلتا: +1.81٪) بهبود یافته است.
دقت برتر برای هر دامنه Visual Decathlon آموزش داده شده توسط MPNAS با و بدون ABDP. |
کار آینده
ما دریافتیم که MPNAS یک راه حل کارآمد برای ایجاد یک شبکه ناهمگن برای رسیدگی به عدم تعادل داده، تنوع دامنه، انتقال منفی، مقیاس پذیری دامنه، و فضای جستجوی بزرگ استراتژی های به اشتراک گذاری پارامتر ممکن در MDL است. با استفاده از یک فضای جستجو مانند MobileNet، مدل به دست آمده نیز سازگار با موبایل است. ما همچنان به گسترش MPNAS برای یادگیری چند کاره برای کارهایی که با الگوریتمهای جستجوی موجود سازگار نیستند ادامه میدهیم و امیدواریم دیگران از MPNAS برای ایجاد یک مدل چند دامنهای یکپارچه استفاده کنند.
سپاسگزاریها
این کار از طریق همکاری چند تیم در سراسر Google امکان پذیر است. مایلیم از مشارکت های جونجی که، جاشوا گریوز، گریس چو، رامین مهران، گابریل بندر، خوهوی جیا، برندان جو، یوکون ژو، لوسیانو سبایز، الک گو، اندرو هاوارد، جف گیلبرت، پیمان میلانفر و مینگ قدردانی کنیم. هسوان یانگ.