نویسندگان:
(1) Zhaoqing Wang، دانشگاه سیدنی و AI2Robotics.
(2) Xiaobo Xia، دانشگاه سیدنی.
(3) Ziye Chen، دانشگاه ملبورن.
(4) Xiao He، AI2Robotics.
(5) Yandong Guo، AI2Robotics؛
(6) مینگ مینگ گونگ، دانشگاه ملبورن و دانشگاه هوش مصنوعی محمد بن زاید.
(7) Tongliang Liu، دانشگاه سیدنی.
جدول پیوندها
چکیده و 1. مقدمه
2. آثار مرتبط
3. روش و 3.1. تعریف مشکل
3.2. پایه و 3.3. چارچوب Uni-OVSeg
4. آزمایشات
4.1. جزئیات پیاده سازی
4.2. نتایج اصلی
4.3. مطالعه ابلیشن
5. نتیجه گیری
6. تأثیرات و مراجع گسترده تر
الف. جزئیات چارچوب
ب. تقسیم بندی سریع
ج. تجسم
5. نتیجه گیری
در نتیجه، این مقاله یک چارچوب نوآورانه برای تقسیمبندی واژگان باز با نظارت ضعیف، به نام Uni-OVSeg پیشنهاد میکند. با استفاده از جفت تصویر-متن و تصویر-ماسک مستقل، Uni-OVSeg به طور موثری وابستگی به سه گانه تصویر-ماسک-متن سخت کار را کاهش می دهد، در عین حال به عملکرد بخش بندی چشمگیر در تنظیمات واژگان باز دست می یابد. با استفاده از LVLM برای اصلاح توضیحات متن و مجموعه چند مقیاسی برای افزایش کیفیت جاسازیهای منطقه، نویز را در مکاتبات متن ماسک کاهش میدهیم و به بهبود عملکرد قابل توجهی دست مییابیم. قابل ذکر است، …