بخش بندی واژگان باز با نظارت ماسک-متن جفت نشده

نویسندگان:

(1) Zhaoqing Wang، دانشگاه سیدنی و AI2Robotics.

(2) Xiaobo Xia، دانشگاه سیدنی.

(3) Ziye Chen، دانشگاه ملبورن.

(4) Xiao He، AI2Robotics.

(5) Yandong Guo، AI2Robotics؛

(6) مینگ مینگ گونگ، دانشگاه ملبورن و دانشگاه هوش مصنوعی محمد بن زاید.

(7) Tongliang Liu، دانشگاه سیدنی.

چکیده و 1. مقدمه

2. آثار مرتبط

3. روش و 3.1. تعریف مشکل

3.2. پایه و 3.3. چارچوب Uni-OVSeg

4. آزمایشات

4.1. جزئیات پیاده سازی

4.2. نتایج اصلی

4.3. مطالعه ابلیشن

5. نتیجه گیری

6. تأثیرات و مراجع گسترده تر

الف. جزئیات چارچوب

ب. تقسیم بندی سریع

ج. تجسم

شکل 1. چارچوب پیشنهادی Uni-OVSeg تقسیم‌بندی واژگان باز را با نظارت ماسک-متن جفت نشده می‌آموزد. در مقایسه با حاشیه‌نویسی‌های تصویر-ماسک-متن پر زحمت، جمع‌آوری زوج‌های مستقل تصویر-ماسک و تصویر-متن آسان‌تر است. Uni-OVSeg با یک مجموعه وزن، با توجه به اعلان‌های بصری مختلف (به عنوان مثال، نقاط و جعبه‌ها)، می‌تواند اشیاء و موارد مختلف را از یک مجموعه باز از واژگان در دنیای واقعی تقسیم‌بندی و دسته‌بندی کند.شکل 1. چارچوب پیشنهادی Uni-OVSeg تقسیم‌بندی واژگان باز را با نظارت ماسک-متن جفت نشده می‌آموزد. در مقایسه با حاشیه‌نویسی‌های تصویر-ماسک-متن پر زحمت، جمع‌آوری زوج‌های مستقل تصویر-ماسک و تصویر-متن آسان‌تر است. Uni-OVSeg با یک مجموعه وزن، با توجه به اعلان‌های بصری مختلف (به عنوان مثال، نقاط و جعبه‌ها)، می‌تواند اشیاء و موارد مختلف را از یک مجموعه باز از واژگان در دنیای واقعی تقسیم‌بندی و دسته‌بندی کند.

چکیده

رویکردهای پیشرفته تقسیم‌بندی واژگان باز معمولاً به سه‌گانه تصویر-ماسک-متن متکی هستند، اما این حاشیه‌نویسی محدود کار فشرده است و در سناریوهای پیچیده دنیای واقعی با موانع مقیاس‌پذیری مواجه می‌شود. اگرچه برخی روش‌ها برای کاهش هزینه حاشیه‌نویسی تنها با نظارت متنی پیشنهاد شده‌اند، ناقص بودن نظارت به شدت تطبیق‌پذیری و عملکرد را محدود می‌کند. در این مقاله، با استفاده از جفت‌های مستقل تصویر-ماسک و تصویر-متن که به ترتیب به راحتی قابل جمع‌آوری هستند، تطابق دقیق بین ماسک‌ها و متون را آزاد می‌کنیم. با این …

Source link