بازبینی ترانسفورماتور ماسک از دیدگاه خوشه‌بندی

تقسیم بندی پانوپتیک یک مشکل بینایی کامپیوتری است که به عنوان یک وظیفه اصلی برای بسیاری از برنامه های کاربردی دنیای واقعی عمل می کند. به دلیل پیچیدگی، کار قبلی اغلب تقسیم‌بندی پانوپتیک را به تقسیم‌بندی معنایی (تخصیص برچسب‌های معنایی، مانند «شخص» و «آسمان» به هر پیکسل در یک تصویر) و تقسیم‌بندی نمونه (شناسایی و تقسیم‌بندی فقط اشیاء قابل شمارش، مانند «تقسیم می‌کند. عابران پیاده» و «ماشین‌ها»، در یک تصویر)، و آن را به چند کار فرعی تقسیم می‌کند. هر کار فرعی به صورت جداگانه پردازش می‌شود و ماژول‌های اضافی برای ادغام نتایج هر مرحله زیرکار اعمال می‌شوند. این فرآیند نه تنها پیچیده است، بلکه در هنگام پردازش وظایف فرعی و هنگام ترکیب نتایج از مراحل مختلف وظایف فرعی، بسیاری از موارد اولیه طراحی شده را نیز معرفی می کند.

اخیراً، با الهام از Transformer و DETR، یک راه حل انتها به انتها برای تقسیم بندی پانوپتیک با ترانسفورماتورهای ماسک (توسعه ای از معماری ترانسفورماتور که برای تولید ماسک های تقسیم بندی استفاده می شود) در MaX-DeepLab پیشنهاد شده است. این راه حل از یک مسیر پیکسلی (شامل شبکه های عصبی کانولوشن یا ترانسفورماتورهای بینایی) برای استخراج ویژگی های پیکسل، یک مسیر حافظه (شامل ماژول های رمزگشای ترانسفورماتور) برای استخراج ویژگی های حافظه و یک ترانسفورماتور دو مسیره برای تعامل بین ویژگی های پیکسل و حافظه استفاده می کند. امکانات. با این حال، ترانسفورماتور دو مسیره، که از توجه متقاطع استفاده می کند، در ابتدا برای کارهای زبانی طراحی شده بود، جایی که توالی ورودی شامل ده ها یا صدها کلمه است. با این وجود، وقتی صحبت از وظایف بینایی، به‌ویژه مشکلات تقسیم‌بندی می‌شود، دنباله ورودی شامل ده‌ها هزار پیکسل است که نه تنها نشان‌دهنده بزرگی بسیار بزرگ‌تری از مقیاس ورودی است، بلکه نشان‌دهنده تعبیه سطح پایین‌تری در مقایسه با کلمات زبان است.

در «CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation»، ارائه شده در CVPR 2022، و «kMaX-DeepLab: k-means Mask Transformer» که در ECCV 2022 ارائه می شود، پیشنهاد می کنیم که توجه متقابل را دوباره تفسیر و طراحی کنیم. دیدگاه خوشه‌بندی (یعنی گروه‌بندی پیکسل‌ها با برچسب‌های معنایی یکسان) که بهتر با وظایف بینایی سازگار است. CMT-DeepLab بر اساس روش پیشرفته قبلی، MaX-DeepLab ساخته شده است، و از رویکرد خوشه بندی پیکسلی برای انجام توجه متقابل استفاده می کند، که منجر به یک نقشه توجه متراکم تر و قابل قبول تر می شود. kMaX-DeepLab با یک تغییر ساده در تابع فعال‌سازی، توجه متقابل را بیشتر شبیه به یک الگوریتم خوشه‌بندی k-means طراحی می‌کند. ما نشان می‌دهیم که CMT-DeepLab به بهبود عملکرد قابل توجهی دست می‌یابد، در حالی که kMaX-DeepLab نه تنها اصلاحات را ساده‌تر می‌کند، بلکه همچنین بدون افزایش زمان آزمایش، پیشرفته‌ترین را با حاشیه بزرگی افزایش می‌دهد. ما همچنین هیجان‌زده هستیم که انتشار منبع باز kMaX-DeepLab، بهترین مدل تقسیم‌بندی با عملکرد ما، در کتابخانه DeepLab2 را اعلام کنیم.

بررسی اجمالی

به‌جای اعمال مستقیم توجه متقاطع به وظایف بینایی بدون تغییر، پیشنهاد می‌کنیم آن را از دیدگاه خوشه‌بندی دوباره تفسیر کنیم. به طور خاص، ما توجه می کنیم که پرس و جو شی ماسک Transformer را می توان مراکز خوشه ای در نظر گرفت (که هدف آنها گروه بندی پیکسل ها با برچسب های معنایی یکسان است) و فرآیند توجه متقابل مشابه الگوریتم خوشه بندی k-means است که یک فرآیند تکراری را اتخاذ می کند. از (1) اختصاص پیکسل ها به مراکز خوشه، که در آن چندین پیکسل را می توان به یک مرکز خوشه اختصاص داد، و برخی از مراکز خوشه ممکن است هیچ پیکسل اختصاصی نداشته باشند، و (2) به روز رسانی مراکز خوشه با میانگین پیکسل های اختصاص داده شده به همان مرکز خوشه، اگر هیچ پیکسلی به آنها اختصاص داده نشود، مراکز خوشه به روز نمی شوند.

در CMT-DeepLab و kMaX-DeepLab، ما توجه متقابل را از دیدگاه خوشه‌بندی، که از مراحل تخصیص خوشه‌ای تکراری و به‌روزرسانی خوشه تشکیل می‌شود، دوباره فرموله می‌کنیم.

با توجه به محبوبیت الگوریتم خوشه بندی k-means، در CMT-DeepLab ما توجه متقاطع را به گونه ای طراحی می کنیم که عملیات softmax از نظر مکانی (یعنی عملیات softmax که در امتداد وضوح فضایی تصویر اعمال می شود) که در واقع مراکز خوشه را به آن اختصاص می دهد. پیکسل ها به جای آن در امتداد مراکز خوشه اعمال می شوند. در kMaX-DeepLab، ما softmax فضایی را به argmax خوشه‌ای ساده‌تر می‌کنیم (یعنی اعمال argmax در امتداد مراکز خوشه). توجه می کنیم که عملیات argmax همان تخصیص سخت (یعنی یک پیکسل تنها به یک خوشه اختصاص داده می شود) است که در الگوریتم خوشه بندی k-means استفاده می شود.

فرمول بندی مجدد توجه متقاطع ترانسفورماتور ماسک از منظر خوشه بندی به طور قابل توجهی عملکرد بخش بندی را بهبود می بخشد و خط لوله ترانسفورماتور ماسک پیچیده را برای تفسیرپذیرتر ساده می کند. ابتدا، ویژگی های پیکسل از تصویر ورودی با ساختار رمزگذار – رمزگشا استخراج می شوند. سپس، مجموعه‌ای از مراکز خوشه‌ای برای گروه‌بندی پیکسل‌ها استفاده می‌شود، که بر اساس تکالیف خوشه‌بندی بیشتر به‌روزرسانی می‌شوند. در نهایت، مراحل تخصیص خوشه‌بندی و به‌روزرسانی به‌طور مکرر انجام می‌شوند، و آخرین تخصیص مستقیماً به عنوان پیش‌بینی تقسیم‌بندی عمل می‌کند.

برای تبدیل یک رمزگشای ترانسفورماتور ماسک معمولی (شامل توجه متقاطع، خودتوجه چند سر و شبکه پیش‌خور) به توجه متقاطع k-means، ما به سادگی softmax فضایی را با خوشه‌ای جایگزین می‌کنیم. argmax.

معماری متا kMaX-DeepLab پیشنهادی ما از سه جزء تشکیل شده است: رمزگذار پیکسل، رمزگشای پیکسل پیشرفته و رمزگشای kMaX. رمزگذار پیکسل هر ستون فقرات شبکه ای است که برای استخراج ویژگی های تصویر استفاده می شود. رمزگشای پیکسل پیشرفته شامل رمزگذارهای ترانسفورماتور برای بهبود ویژگی‌های پیکسل، و نمونه‌برداری لایه‌ها برای تولید ویژگی‌های وضوح بالاتر است. سری رمزگشاهای kMaX مراکز خوشه را به (1) بردارهای تعبیه شده ماسک تبدیل می کنند که با ویژگی های پیکسل ضرب می شوند تا ماسک های پیش بینی شده تولید شوند و (2) پیش بینی های کلاس برای هر ماسک.

معماری متا kMaX-DeepLab.

نتایج

ما CMT-DeepLab و kMaX-DeepLab را با استفاده از معیار کیفیت پانوپتیک (PQ) در دو مورد از چالش برانگیزترین مجموعه داده های تقسیم بندی پانوپتیک، COCO و Cityscapes، در برابر MaX-DeepLab و دیگر روش های پیشرفته ارزیابی می کنیم. CMT-DeepLab به بهبود عملکرد قابل توجهی دست می یابد، در حالی که kMaX-DeepLab نه تنها اصلاح را ساده می کند، بلکه با 58.0٪ PQ در مجموعه COCO val، و 68.4٪ PQ، 44.0٪، پیشرفته ترین را با حاشیه بزرگی افزایش می دهد. ماسک میانگین دقت (mask AP)، 83.5% میانگین تقاطع بیش از اتحاد (mIoU) در مجموعه Value Cityscapes، بدون افزایش زمان تست یا استفاده از مجموعه داده خارجی.

مقایسه در مجموعه COCO val.
روش پی کیو APماسک میو
Panoptic-DeepLab 63.0٪ (-5.4٪) 35.3٪ (-8.7٪) 80.5٪ (-3.0٪)
Axial-DeepLab 64.4٪ (-4.0٪) 36.7٪ (-7.3٪) 80.6٪ (-2.9٪)
SWideRNet 66.4٪ (-2.0٪) 40.1٪ (-3.9٪) 82.2٪ (-1.3٪)
kMaX-DeepLab 68.4٪ 44.0٪ 83.5٪
مقایسه در مجموعه Cityscapes val.

طراحی شده از منظر خوشه‌بندی، kMaX-DeepLab نه تنها عملکرد بالاتری دارد، بلکه تجسم معقول‌تری از نقشه توجه برای درک مکانیسم کار آن دارد. در مثال زیر، kMaX-DeepLab به طور مکرر وظایف و به روز رسانی های خوشه بندی را انجام می دهد که به تدریج کیفیت ماسک را بهبود می بخشد.

نقشه توجه kMaX-DeepLab را می توان مستقیماً به عنوان یک بخش بندی پانوپتیک تجسم کرد، که برای مکانیسم کار مدل (اعتبار تصویر: coco_url و مجوز) قابل قبول تر است.

نتیجه گیری

ما راهی برای طراحی بهتر ترانسفورماتورهای ماسک برای وظایف بینایی نشان داده ایم. با تغییرات ساده، CMT-DeepLab و kMaX-DeepLab توجه متقابل را دوباره فرموله می کنند تا بیشتر شبیه یک الگوریتم خوشه بندی شوند. در نتیجه، مدل‌های پیشنهادی به عملکرد پیشرفته‌ای در مجموعه داده‌های چالش برانگیز COCO و Cityscapes دست می‌یابند. ما امیدواریم که انتشار منبع باز kMaX-DeepLab در کتابخانه DeepLab2، تحقیقات آینده را در مورد طراحی معماری ترانسفورماتورهای خاص چشم انداز تسهیل کند.

سپاسگزاریها

ما از بحث و حمایت ارزشمند Huiyu Wang، Dahun Kim، Siyuan Qiao، Maxwell Collins، Yukun Zhu، Florian Schroff، Hartwig Adam و Alan Yuille سپاسگزاریم.