مداخله در بازخوانی های اولیه برای کاهش ویژگی های جعلی و سوگیری سادگی – وبلاگ تحقیقاتی گوگل

مدل‌های یادگیری ماشین در دنیای واقعی اغلب بر روی داده‌های محدودی آموزش داده می‌شوند که ممکن است حاوی سوگیری‌های آماری ناخواسته باشد. به عنوان مثال، در مجموعه داده تصاویر سلبریتی CELEBA، تعداد نامتناسبی از سلبریتی‌های زن موهای بور دارند، که منجر به این شد که طبقه‌بندی‌کننده‌ها به اشتباه «بلند» را به عنوان رنگ مو برای اکثر چهره‌های زن پیش‌بینی کنند – در اینجا، جنسیت یک ویژگی جعلی برای پیش‌بینی رنگ مو است. چنین سوگیری های ناعادلانه ای می تواند عواقب قابل توجهی در کاربردهای حیاتی مانند تشخیص پزشکی داشته باشد.

با کمال تعجب، کار اخیر گرایش ذاتی شبکه های عمیق را نیز کشف کرده است چنین سوگیری های آماری را تقویت می کند، از طریق به اصطلاح سوگیری سادگی یادگیری عمیق. این سوگیری تمایل شبکه‌های عمیق به شناسایی ویژگی‌های پیش‌بینی ضعیف در اوایل آموزش است، و همچنان بر روی این ویژگی‌ها لنگر می‌اندازند، و قادر به شناسایی ویژگی‌های پیچیده‌تر و بالقوه دقیق‌تر نیستند.

با در نظر گرفتن موارد فوق، ما راه حل های ساده و موثری را برای این چالش دوگانه ویژگی های جعلی و سوگیری سادگی با اعمال پیشنهاد می کنیم. قرائت های اولیه و فراموشی ویژگی. اول، در «استفاده از بازخوانی‌های اولیه برای میانجیگری تعصب ویژه در تقطیر»، نشان می‌دهیم که پیش‌بینی‌ها از لایه‌های اولیه یک شبکه عمیق (که به آن «خوانش‌های اولیه» گفته می‌شود) می‌تواند به طور خودکار مشکلات کیفیت نمایش‌های آموخته شده را نشان دهد. به ویژه، زمانی که شبکه بر ویژگی‌های جعلی تکیه می‌کند، این پیش‌بینی‌ها اغلب اشتباه، و با اطمینان بیشتر اشتباه هستند. ما از این اطمینان نادرست برای بهبود نتایج در تقطیر مدل استفاده می کنیم، محیطی که در آن یک مدل “معلم” بزرگتر آموزش یک مدل “دانشجو” کوچکتر را هدایت می کند. سپس در «غلبه بر تعصب سادگی در شبکه‌های عمیق با استفاده از غربال ویژگی»، ما مستقیماً روی این سیگنال‌های نشانگر با ایجاد «فراموش کردن» ویژگی‌های مشکل‌ساز شبکه و در نتیجه جستجوی ویژگی‌های بهتر و پیش‌بینی‌کننده‌تر مداخله می‌کنیم. این به طور قابل‌توجهی توانایی مدل را برای تعمیم به حوزه‌های دیده نشده در مقایسه با رویکردهای قبلی بهبود می‌بخشد. اصول هوش مصنوعی و شیوه‌های هوش مصنوعی مسئول ما نحوه تحقیق و توسعه این برنامه‌های کاربردی پیشرفته را راهنمایی می‌کند و به ما کمک می‌کند تا چالش‌های ناشی از سوگیری‌های آماری را برطرف کنیم.

انیمیشن مقایسه پاسخ های فرضی از دو مدل آموزش دیده با و بدون غربال ویژگی.

بازخوانی های اولیه برای تقطیر منحرف

ما ابتدا ارزش تشخیصی را نشان می دهیم قرائت های اولیه و کاربرد آنها در تقطیر منحرف، به عنوان مثال، اطمینان از اینکه مدل دانش آموز انعطاف پذیری مدل معلم را برای ویژگی های سوگیری از طریق تقطیر به ارث می برد. ما با یک چارچوب تقطیر استاندارد شروع می‌کنیم که در آن دانش‌آموز با ترکیبی از تطبیق برچسب (به حداقل رساندن تلفات آنتروپی متقاطع بین خروجی‌های دانش‌آموز و برچسب‌های حقیقت زمین) و تطبیق معلم (به حداقل رساندن تلفات واگرایی KL بین خروجی‌های دانش‌آموز و معلم برای هر ورودی داده شده).

فرض کنید کسی یک رمزگشای خطی را آموزش می دهد، به عنوان مثال، یک شبکه عصبی کمکی کوچک به نام به، در بالای یک نمایش متوسط ​​از مدل دانشجویی. ما به خروجی این رمزگشا خطی به عنوان بازخوانی اولیه نمایش شبکه اشاره می کنیم. یافته‌های ما این است که بازخوانی‌های اولیه در مواردی که حاوی ویژگی‌های جعلی هستند، خطاهای بیشتری ایجاد می‌کنند، و علاوه بر این، اطمینان در مورد آن خطاها بیشتر از اطمینان مرتبط با سایر خطاها است. این نشان می‌دهد که اعتماد به خطاهای بازخوانی‌های اولیه یک شاخص کاملاً خودکار و قوی از وابستگی مدل به ویژگی‌های بالقوه جعلی است.

نشان دادن استفاده از بازخوانی های اولیه (یعنی خروجی از لایه کمکی) در تقطیر منحرف. مواردی که با اطمینان در بازخوانی‌های اولیه اشتباه پیش‌بینی می‌شوند، در از دست دادن تقطیر وزن بیشتری دارند.

ما از این سیگنال برای تعدیل سهم معلم در از دست دادن تقطیر بر اساس هر نمونه استفاده کردیم و در نتیجه بهبودهای قابل توجهی در مدل دانش‌آموز آموزش دیده یافتیم.

ما رویکرد خود را بر روی مجموعه داده‌های معیار استاندارد که حاوی همبستگی‌های جعلی هستند (Waterbirds، CelebA، CivilComments، MNLI) ارزیابی کردیم. هر یک از این مجموعه‌های داده شامل گروه‌بندی داده‌هایی است که ویژگی‌هایی را به اشتراک می‌گذارند که به طور بالقوه با برچسب به شیوه‌ای جعلی مرتبط است. به عنوان مثال، مجموعه داده CelebA که در بالا ذکر شد شامل گروه‌هایی مانند {مرد بلوند، زن بلوند، مرد غیر بلوند، زن غیر بلوند} می‌شود، با مدل‌هایی که معمولاً بدترین عملکرد را در گروه {زن غیر بلوند} هنگام پیش‌بینی رنگ مو دارند. . بنابراین، معیار عملکرد مدل آن است بدترین دقت گروهی، یعنی کمترین دقت در بین تمام گروه های شناخته شده موجود در مجموعه داده. ما بدترین دقت گروهی مدل‌های دانش‌آموز را در همه مجموعه‌های داده بهبود دادیم. علاوه بر این، ما همچنین دقت کلی را در سه مورد از چهار مجموعه داده بهبود دادیم، که نشان می‌دهد بهبود ما در هر یک از گروه‌ها به قیمت دقت در سایر گروه‌ها تمام نمی‌شود. جزئیات بیشتر در مقاله ما موجود است.

مقایسه بدترین دقت گروه تکنیک های مختلف تقطیر نسبت به مدل معلم. روش ما در همه مجموعه داده ها از روش های دیگر بهتر عمل می کند.

غلبه بر تعصب سادگی با یک غربال ویژگی

در پروژه دوم و نزدیک به هم، ما مستقیماً در اطلاعات ارائه شده توسط بازخوانی‌های اولیه مداخله می‌کنیم تا یادگیری ویژگی و تعمیم را بهبود ببخشیم. گردش کار متناوب بین شناسایی ویژگی های مشکل ساز و پاک کردن ویژگی های شناسایی شده از شبکه فرضیه اصلی ما این است که ویژگی‌های اولیه بیشتر مستعد سوگیری سادگی هستند، و با پاک کردن (“الک”) این ویژگی‌ها، اجازه می‌دهیم بازنمایی ویژگی‌های غنی‌تر یاد بگیرند.

گردش کار آموزشی با ویژگی غربال. ما به طور متناوب بین شناسایی ویژگی های مشکل ساز (با استفاده از تکرار آموزشی) و پاک کردن آنها از شبکه (با استفاده از تکرار فراموشی) تغییر می کنیم.

ما مراحل شناسایی و پاک کردن را با جزئیات بیشتری شرح می دهیم:

  • شناسایی ویژگی های ساده: ما مدل اولیه و مدل بازخوانی (AUX بالا) را به روش معمولی از طریق انتشار به جلو و عقب آموزش می دهیم. توجه داشته باشید که بازخورد از لایه کمکی به شبکه اصلی منتشر نمی شود. این برای وادار کردن لایه کمکی به یادگیری از ویژگی های موجود است به جای ایجاد یا تقویت آنها در شبکه اصلی.
  • اعمال غربال ویژگی: هدف ما پاک کردن ویژگی های شناسایی شده در لایه های اولیه شبکه عصبی با استفاده از یک رمان جدید است. فراموش کردن از دست دادن، Lf ، که به سادگی آنتروپی متقاطع بین بازخوانی و توزیع یکنواخت روی برچسب ها است. اساساً، تمام اطلاعاتی که منجر به بازخوانی‌های غیر ضروری می‌شوند از شبکه اولیه پاک می‌شوند. در این مرحله شبکه کمکی و لایه های بالایی شبکه اصلی بدون تغییر نگه داشته می شوند.

ما می‌توانیم به طور خاص نحوه اعمال غربال ویژگی به مجموعه داده‌ای را از طریق تعداد کمی از پارامترهای پیکربندی کنترل کنیم. با تغییر موقعیت و پیچیدگی شبکه کمکی، پیچیدگی ویژگی های شناسایی شده و پاک شده را کنترل می کنیم. با اصلاح اختلاط مراحل یادگیری و فراموشی، میزان به چالش کشیدن مدل برای یادگیری ویژگی های پیچیده تر را کنترل می کنیم. این انتخاب‌ها، که وابسته به مجموعه داده‌ها هستند، از طریق جستجوی فراپارامتر برای به حداکثر رساندن دقت اعتبارسنجی، یک معیار استاندارد تعمیم، انجام می‌شوند. از آنجایی که «بدون فراموشی» (یعنی مدل پایه) را در فضای جستجو قرار می دهیم، انتظار داریم تنظیماتی را پیدا کنیم که حداقل به خوبی خط مبنا هستند.

در زیر ویژگی‌هایی را نشان می‌دهیم که توسط مدل پایه (ردیف میانی) و مدل خود (ردیف پایین) در دو مجموعه داده معیار – شناسایی فعالیت مغرضانه (BAR) و طبقه‌بندی حیوانات (NICO) آموخته شده‌اند. اهمیت ویژگی با استفاده از امتیازدهی اهمیت مبتنی بر گرادیان پس‌هک (GRAD-CAM)، با انتهای نارنجی-قرمز طیف نشان‌دهنده اهمیت بالا، در حالی که سبز-آبی اهمیت کم را نشان می‌دهد، برآورد شد. در زیر نشان داده شده است، مدل‌های آموزش‌دیده ما بر روی شی اصلی مورد علاقه تمرکز می‌کنند، در حالی که مدل پایه تمایل دارد بر ویژگی‌های پس‌زمینه تمرکز کند که ساده‌تر و به طور جعلی با برچسب مرتبط هستند.

امتیازدهی اهمیت ویژگی با استفاده از GRAD-CAM در تشخیص فعالیت (BAR) و معیارهای تعمیم طبقه بندی حیوانات (NICO). رویکرد ما (ردیف آخر) بر روی اشیاء مربوطه در تصویر تمرکز می‌کند، در حالی که خط پایه (ERM؛ ردیف میانی) به ویژگی‌های پس‌زمینه متکی است که به طور جعلی با برچسب مرتبط هستند.

از طریق این توانایی برای یادگیری بهتر ویژگی‌های قابل تعمیم، ما دستاوردهای قابل توجهی را در طیفی از خطوط پایه مرتبط در مجموعه داده‌های معیار ویژگی جعلی در دنیای واقعی نشان می‌دهیم: BAR، CelebA Hair، NICO و ImagenetA، با حاشیه تا 11% (شکل زیر را ببینید). جزئیات بیشتر در مقاله ما موجود است.

روش غربال ویژگی ما دقت را با حاشیه های قابل توجهی نسبت به نزدیکترین خط پایه برای طیفی از مجموعه داده های معیار تعمیم ویژگی بهبود می بخشد.

نتیجه

ما امیدواریم که کار ما بر روی بازخوانی‌های اولیه و استفاده از آن‌ها در غربال ویژگی برای تعمیم، توسعه کلاس جدیدی از رویکردهای یادگیری ویژگی‌های متخاصم را تحریک کند و به بهبود قابلیت تعمیم و استحکام سیستم‌های یادگیری عمیق کمک کند.

سپاسگزاریها

کار بر روی اعمال بازخوانی های اولیه برای تقطیر منحرف با همکاری شرکای دانشگاهی ما دورگا سیواسوبرامانیان، آنمول ردی و پروفسور گانش راماکریشنان در IIT بمبئی انجام شد. ما از Praneeth Netrapalli و Anshul Nasery برای بازخوردها و توصیه هایشان صمیمانه سپاسگزاری می کنیم. ما همچنین از Nishant Jain، Shreyas Havaldar، Rachit Bansal، Kartikeya Badola، Amandeep Kaur و کل گروه محققان پیش از دکتری در Google Research India برای شرکت در بحث های تحقیقاتی سپاسگزاریم. تشکر ویژه از تام اسمال برای ساخت انیمیشن مورد استفاده در این پست.