تقسیم بندی پانوپتیک یک مشکل بینایی کامپیوتری است که به عنوان یک وظیفه اصلی برای بسیاری از برنامه های کاربردی دنیای واقعی عمل می کند. به دلیل پیچیدگی، کار قبلی اغلب تقسیمبندی پانوپتیک را به تقسیمبندی معنایی (تخصیص برچسبهای معنایی، مانند «شخص» و «آسمان» به هر پیکسل در یک تصویر) و تقسیمبندی نمونه (شناسایی و تقسیمبندی فقط اشیاء قابل شمارش، مانند «تقسیم میکند. عابران پیاده» و «ماشینها»، در یک تصویر)، و آن را به چند کار فرعی تقسیم میکند. هر کار فرعی به صورت جداگانه پردازش میشود و ماژولهای اضافی برای ادغام نتایج هر مرحله زیرکار اعمال میشوند. این فرآیند نه تنها پیچیده است، بلکه در هنگام پردازش وظایف فرعی و هنگام ترکیب نتایج از مراحل مختلف وظایف فرعی، بسیاری از موارد اولیه طراحی شده را نیز معرفی می کند.
اخیراً، با الهام از Transformer و DETR، یک راه حل انتها به انتها برای تقسیم بندی پانوپتیک با ترانسفورماتورهای ماسک (توسعه ای از معماری ترانسفورماتور که برای تولید ماسک های تقسیم بندی استفاده می شود) در MaX-DeepLab پیشنهاد شده است. این راه حل از یک مسیر پیکسلی (شامل شبکه های عصبی کانولوشن یا ترانسفورماتورهای بینایی) برای استخراج ویژگی های پیکسل، یک مسیر حافظه (شامل ماژول های رمزگشای ترانسفورماتور) برای استخراج ویژگی های حافظه و یک ترانسفورماتور دو مسیره برای تعامل بین ویژگی های پیکسل و حافظه استفاده می کند. امکانات. با این حال، ترانسفورماتور دو مسیره، که از توجه متقاطع استفاده می کند، در ابتدا برای کارهای زبانی طراحی شده بود، جایی که توالی ورودی شامل ده ها یا صدها کلمه است. با این وجود، وقتی صحبت از وظایف بینایی، بهویژه مشکلات تقسیمبندی میشود، دنباله ورودی شامل دهها هزار پیکسل است که نه تنها نشاندهنده بزرگی بسیار بزرگتری از مقیاس ورودی است، بلکه نشاندهنده تعبیه سطح پایینتری در مقایسه با کلمات زبان است.
در «CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation»، ارائه شده در CVPR 2022، و «kMaX-DeepLab: k-means Mask Transformer» که در ECCV 2022 ارائه می شود، پیشنهاد می کنیم که توجه متقابل را دوباره تفسیر و طراحی کنیم. دیدگاه خوشهبندی (یعنی گروهبندی پیکسلها با برچسبهای معنایی یکسان) که بهتر با وظایف بینایی سازگار است. CMT-DeepLab بر اساس روش پیشرفته قبلی، MaX-DeepLab ساخته شده است، و از رویکرد خوشه بندی پیکسلی برای انجام توجه متقابل استفاده می کند، که منجر به یک نقشه توجه متراکم تر و قابل قبول تر می شود. kMaX-DeepLab با یک تغییر ساده در تابع فعالسازی، توجه متقابل را بیشتر شبیه به یک الگوریتم خوشهبندی k-means طراحی میکند. ما نشان میدهیم که CMT-DeepLab به بهبود عملکرد قابل توجهی دست مییابد، در حالی که kMaX-DeepLab نه تنها اصلاحات را سادهتر میکند، بلکه همچنین بدون افزایش زمان آزمایش، پیشرفتهترین را با حاشیه بزرگی افزایش میدهد. ما همچنین هیجانزده هستیم که انتشار منبع باز kMaX-DeepLab، بهترین مدل تقسیمبندی با عملکرد ما، در کتابخانه DeepLab2 را اعلام کنیم.
بررسی اجمالی
بهجای اعمال مستقیم توجه متقاطع به وظایف بینایی بدون تغییر، پیشنهاد میکنیم آن را از دیدگاه خوشهبندی دوباره تفسیر کنیم. به طور خاص، ما توجه می کنیم که پرس و جو شی ماسک Transformer را می توان مراکز خوشه ای در نظر گرفت (که هدف آنها گروه بندی پیکسل ها با برچسب های معنایی یکسان است) و فرآیند توجه متقابل مشابه الگوریتم خوشه بندی k-means است که یک فرآیند تکراری را اتخاذ می کند. از (1) اختصاص پیکسل ها به مراکز خوشه، که در آن چندین پیکسل را می توان به یک مرکز خوشه اختصاص داد، و برخی از مراکز خوشه ممکن است هیچ پیکسل اختصاصی نداشته باشند، و (2) به روز رسانی مراکز خوشه با میانگین پیکسل های اختصاص داده شده به همان مرکز خوشه، اگر هیچ پیکسلی به آنها اختصاص داده نشود، مراکز خوشه به روز نمی شوند.
در CMT-DeepLab و kMaX-DeepLab، ما توجه متقابل را از دیدگاه خوشهبندی، که از مراحل تخصیص خوشهای تکراری و بهروزرسانی خوشه تشکیل میشود، دوباره فرموله میکنیم. |
با توجه به محبوبیت الگوریتم خوشه بندی k-means، در CMT-DeepLab ما توجه متقاطع را به گونه ای طراحی می کنیم که عملیات softmax از نظر مکانی (یعنی عملیات softmax که در امتداد وضوح فضایی تصویر اعمال می شود) که در واقع مراکز خوشه را به آن اختصاص می دهد. پیکسل ها به جای آن در امتداد مراکز خوشه اعمال می شوند. در kMaX-DeepLab، ما softmax فضایی را به argmax خوشهای سادهتر میکنیم (یعنی اعمال argmax در امتداد مراکز خوشه). توجه می کنیم که عملیات argmax همان تخصیص سخت (یعنی یک پیکسل تنها به یک خوشه اختصاص داده می شود) است که در الگوریتم خوشه بندی k-means استفاده می شود.
فرمول بندی مجدد توجه متقاطع ترانسفورماتور ماسک از منظر خوشه بندی به طور قابل توجهی عملکرد بخش بندی را بهبود می بخشد و خط لوله ترانسفورماتور ماسک پیچیده را برای تفسیرپذیرتر ساده می کند. ابتدا، ویژگی های پیکسل از تصویر ورودی با ساختار رمزگذار – رمزگشا استخراج می شوند. سپس، مجموعهای از مراکز خوشهای برای گروهبندی پیکسلها استفاده میشود، که بر اساس تکالیف خوشهبندی بیشتر بهروزرسانی میشوند. در نهایت، مراحل تخصیص خوشهبندی و بهروزرسانی بهطور مکرر انجام میشوند، و آخرین تخصیص مستقیماً به عنوان پیشبینی تقسیمبندی عمل میکند.
برای تبدیل یک رمزگشای ترانسفورماتور ماسک معمولی (شامل توجه متقاطع، خودتوجه چند سر و شبکه پیشخور) به توجه متقاطع k-means، ما به سادگی softmax فضایی را با خوشهای جایگزین میکنیم. argmax. |
معماری متا kMaX-DeepLab پیشنهادی ما از سه جزء تشکیل شده است: رمزگذار پیکسل، رمزگشای پیکسل پیشرفته و رمزگشای kMaX. رمزگذار پیکسل هر ستون فقرات شبکه ای است که برای استخراج ویژگی های تصویر استفاده می شود. رمزگشای پیکسل پیشرفته شامل رمزگذارهای ترانسفورماتور برای بهبود ویژگیهای پیکسل، و نمونهبرداری لایهها برای تولید ویژگیهای وضوح بالاتر است. سری رمزگشاهای kMaX مراکز خوشه را به (1) بردارهای تعبیه شده ماسک تبدیل می کنند که با ویژگی های پیکسل ضرب می شوند تا ماسک های پیش بینی شده تولید شوند و (2) پیش بینی های کلاس برای هر ماسک.
معماری متا kMaX-DeepLab. |
نتایج
ما CMT-DeepLab و kMaX-DeepLab را با استفاده از معیار کیفیت پانوپتیک (PQ) در دو مورد از چالش برانگیزترین مجموعه داده های تقسیم بندی پانوپتیک، COCO و Cityscapes، در برابر MaX-DeepLab و دیگر روش های پیشرفته ارزیابی می کنیم. CMT-DeepLab به بهبود عملکرد قابل توجهی دست می یابد، در حالی که kMaX-DeepLab نه تنها اصلاح را ساده می کند، بلکه با 58.0٪ PQ در مجموعه COCO val، و 68.4٪ PQ، 44.0٪، پیشرفته ترین را با حاشیه بزرگی افزایش می دهد. ماسک میانگین دقت (mask AP)، 83.5% میانگین تقاطع بیش از اتحاد (mIoU) در مجموعه Value Cityscapes، بدون افزایش زمان تست یا استفاده از مجموعه داده خارجی.
مقایسه در مجموعه COCO val. |
روش | پی کیو | APماسک | میو |
Panoptic-DeepLab | 63.0٪ (-5.4٪) | 35.3٪ (-8.7٪) | 80.5٪ (-3.0٪) |
Axial-DeepLab | 64.4٪ (-4.0٪) | 36.7٪ (-7.3٪) | 80.6٪ (-2.9٪) |
SWideRNet | 66.4٪ (-2.0٪) | 40.1٪ (-3.9٪) | 82.2٪ (-1.3٪) |
kMaX-DeepLab | 68.4٪ | 44.0٪ | 83.5٪ |
مقایسه در مجموعه Cityscapes val. |
طراحی شده از منظر خوشهبندی، kMaX-DeepLab نه تنها عملکرد بالاتری دارد، بلکه تجسم معقولتری از نقشه توجه برای درک مکانیسم کار آن دارد. در مثال زیر، kMaX-DeepLab به طور مکرر وظایف و به روز رسانی های خوشه بندی را انجام می دهد که به تدریج کیفیت ماسک را بهبود می بخشد.
نقشه توجه kMaX-DeepLab را می توان مستقیماً به عنوان یک بخش بندی پانوپتیک تجسم کرد، که برای مکانیسم کار مدل (اعتبار تصویر: coco_url و مجوز) قابل قبول تر است. |
نتیجه گیری
ما راهی برای طراحی بهتر ترانسفورماتورهای ماسک برای وظایف بینایی نشان داده ایم. با تغییرات ساده، CMT-DeepLab و kMaX-DeepLab توجه متقابل را دوباره فرموله می کنند تا بیشتر شبیه یک الگوریتم خوشه بندی شوند. در نتیجه، مدلهای پیشنهادی به عملکرد پیشرفتهای در مجموعه دادههای چالش برانگیز COCO و Cityscapes دست مییابند. ما امیدواریم که انتشار منبع باز kMaX-DeepLab در کتابخانه DeepLab2، تحقیقات آینده را در مورد طراحی معماری ترانسفورماتورهای خاص چشم انداز تسهیل کند.
سپاسگزاریها
ما از بحث و حمایت ارزشمند Huiyu Wang، Dahun Kim، Siyuan Qiao، Maxwell Collins، Yukun Zhu، Florian Schroff، Hartwig Adam و Alan Yuille سپاسگزاریم.