چارچوب پایه و Uni-OVSeg برای تقسیم‌بندی واژگان باز

نویسندگان:

(1) Zhaoqing Wang، دانشگاه سیدنی و AI2Robotics.

(2) Xiaobo Xia، دانشگاه سیدنی.

(3) Ziye Chen، دانشگاه ملبورن.

(4) Xiao He، AI2Robotics.

(5) Yandong Guo، AI2Robotics؛

(6) مینگ مینگ گونگ، دانشگاه ملبورن و دانشگاه هوش مصنوعی محمد بن زاید.

(7) Tongliang Liu، دانشگاه سیدنی.

چکیده و 1. مقدمه

2. آثار مرتبط

3. روش و 3.1. تعریف مشکل

3.2. پایه و 3.3. چارچوب Uni-OVSeg

4. آزمایشات

4.1. جزئیات پیاده سازی

4.2. نتایج اصلی

4.3. مطالعه ابلیشن

5. نتیجه گیری

6. تأثیرات و مراجع گسترده تر

الف. جزئیات چارچوب

ب. تقسیم بندی سریع

ج. تجسم

3.2. پایه

ما یک خط پایه ساده را با استفاده از دانش تصویر-متن و تصویر-ماسک جفت معرفی می کنیم. به طور خاص، ما از یک مدل CLIP به عنوان رمزگذار بصری و متن استفاده می کنیم که روی تعداد زیادی جفت تصویر-متن آموزش داده شده است. پس از آن، ما از جفت های تصویر-ماسک برای به دست آوردن شاخه ای از تولید ماسک استفاده می کنیم و مجموعه ای از ماسک های باینری را پیش بینی می کنیم. برای انجام تقسیم‌بندی واژگان باز، ویژگی‌های تصویر CLIP را بر اساس این ماسک‌های پیش‌بینی‌شده برش داده و ترکیب می‌کنیم، که بیشتر توسط جاسازی‌های متن CLIP طبقه‌بندی می‌شوند. اگرچه این خط مبنا ساده تقسیم بندی واژگان باز را امکان پذیر می کند، …

Source link