تاثیر ترازبندی ماسک-متن و مجموعه چند مقیاسی بر دقت تقسیم بندی Uni-OVSeg

نویسندگان:

(1) Zhaoqing Wang، دانشگاه سیدنی و AI2Robotics.

(2) Xiaobo Xia، دانشگاه سیدنی.

(3) Ziye Chen، دانشگاه ملبورن.

(4) Xiao He، AI2Robotics.

(5) Yandong Guo، AI2Robotics؛

(6) مینگ مینگ گونگ، دانشگاه ملبورن و دانشگاه هوش مصنوعی محمد بن زاید.

(7) Tongliang Liu، دانشگاه سیدنی.

چکیده و 1. مقدمه

2. آثار مرتبط

3. روش و 3.1. تعریف مشکل

3.2. پایه و 3.3. چارچوب Uni-OVSeg

4. آزمایشات

4.1. جزئیات پیاده سازی

4.2. نتایج اصلی

4.3. مطالعه ابلیشن

5. نتیجه گیری

6. تأثیرات و مراجع گسترده تر

الف. جزئیات چارچوب

ب. تقسیم بندی سریع

ج. تجسم

4.3. مطالعه ابلیشن

ما یک مطالعه فرسایشی گسترده انجام می دهیم تا سهم هر یک از اجزای چارچوب خود را نشان دهیم.

تراز ماسک-متن در مقایسه با خط پایه ساده، همانطور که در Tab نشان داده شده است. 3، Uni-OVSeg پیشنهادی ما به دستاوردهای قابل توجه 4.8% PQ و 9.5% mIoU در مجموعه داده COCO و 11.2% mIoU در مجموعه داده PASCAL Context-59 دست می یابد. این روش ما را نشان می دهد که به طور موثر اشیاء در تصاویر و موجودیت ها را در توضیحات متن تراز می کند و فضای جاسازی CLIP را از سطح تصویر به سطح پیکسل تعمیم می دهد. با توسل به پالایش توضیحات متن، متون جدید…

Source link