نویسندگان:
(1) Zhaoqing Wang، دانشگاه سیدنی و AI2Robotics.
(2) Xiaobo Xia، دانشگاه سیدنی.
(3) Ziye Chen، دانشگاه ملبورن.
(4) Xiao He، AI2Robotics.
(5) Yandong Guo، AI2Robotics؛
(6) مینگ مینگ گونگ، دانشگاه ملبورن و دانشگاه هوش مصنوعی محمد بن زاید.
(7) Tongliang Liu، دانشگاه سیدنی.
جدول پیوندها
چکیده و 1. مقدمه
2. آثار مرتبط
3. روش و 3.1. تعریف مشکل
3.2. پایه و 3.3. چارچوب Uni-OVSeg
4. آزمایشات
4.1. جزئیات پیاده سازی
4.2. نتایج اصلی
4.3. مطالعه ابلیشن
5. نتیجه گیری
6. تأثیرات و مراجع گسترده تر
الف. جزئیات چارچوب
ب. تقسیم بندی سریع
ج. تجسم
3.2. پایه
ما یک خط پایه ساده را با استفاده از دانش تصویر-متن و تصویر-ماسک جفت معرفی می کنیم. به طور خاص، ما از یک مدل CLIP به عنوان رمزگذار بصری و متن استفاده می کنیم که روی تعداد زیادی جفت تصویر-متن آموزش داده شده است. پس از آن، ما از جفت های تصویر-ماسک برای به دست آوردن شاخه ای از تولید ماسک استفاده می کنیم و مجموعه ای از ماسک های باینری را پیش بینی می کنیم. برای انجام تقسیمبندی واژگان باز، ویژگیهای تصویر CLIP را بر اساس این ماسکهای پیشبینیشده برش داده و ترکیب میکنیم، که بیشتر توسط جاسازیهای متن CLIP طبقهبندی میشوند. اگرچه این خط مبنا ساده تقسیم بندی واژگان باز را امکان پذیر می کند، …