تشخیص اشیا با واژگان باز بر روی بینایی منجمد و مدل‌های زبان - وبلاگ هوش مصنوعی گوگل - سئو PBN

ارسال شده توسط Weicheng Kuo و Anelia Angelova، دانشمندان تحقیقاتی، Google Research

تشخیص یک کار اساسی بینایی است که هدف آن بومی سازی و تشخیص اشیاء در یک تصویر است. با این حال، فرآیند جمع‌آوری داده‌های حاشیه‌نویسی دستی جعبه‌های محدودکننده یا ماسک‌های نمونه خسته‌کننده و پرهزینه است، که اندازه واژگان تشخیص مدرن را به تقریباً 1000 کلاس شی محدود می‌کند. این مرتبه کوچک‌تر از واژگانی است که مردم برای توصیف دنیای بصری استفاده می‌کنند و بسیاری از دسته‌ها را کنار گذاشته است. مدل‌های بینایی و زبان اخیر (VLM)، مانند CLIP، قابلیت‌های تشخیص بصری واژگان باز را از طریق یادگیری از جفت‌های تصویر-متن در مقیاس اینترنت نشان داده‌اند. این VLMها برای طبقه‌بندی صفر شات با استفاده از وزن‌های مدل منجمد بدون نیاز به تنظیم دقیق اعمال می‌شوند، که در تضاد کامل با پارادایم‌های موجود برای بازآموزی یا تنظیم دقیق VLM‌ها برای وظایف تشخیص واژگان باز است.

به طور شهودی، برای تراز کردن محتوای تصویر با توضیحات متن در طول آموزش، VLM ها ممکن است ویژگی های حساس به منطقه و ویژگی های متمایز را یاد بگیرند که قابل انتقال به تشخیص شی هستند. با کمال تعجب، ویژگی‌های یک VLM منجمد حاوی اطلاعات غنی است که هم برای توصیف اشکال شیء حساس به ناحیه (ستون دوم زیر) و هم برای طبقه‌بندی ناحیه (ستون سوم زیر) متمایز است. در واقع، گروه‌بندی ویژگی‌ها می‌تواند به خوبی مرزهای شی را بدون هیچ نظارتی مشخص کند. این به ما انگیزه می دهد تا استفاده از VLM های منجمد را برای تشخیص اشیا با واژگان باز با هدف گسترش تشخیص فراتر از مجموعه محدود دسته های حاشیه نویسی کشف کنیم.

ما پتانسیل دید منجمد و ویژگی های زبان را برای تشخیص واژگان باز بررسی می کنیم. گروه بندی ویژگی K-Means اطلاعات معنایی غنی و حساس به منطقه را نشان می دهد که در آن مرزهای شی به خوبی مشخص شده اند (ستون 2). همین ویژگی‌های منجمد می‌توانند مناطق حقیقت (GT) را به خوبی بدون تنظیم دقیق طبقه‌بندی کنند (ستون 3).

در «F-VLM: تشخیص اشیاء با واژگان باز بر روی مدل‌های بینایی و زبان منجمد»، ارائه‌شده در ICLR 2023، ما یک رویکرد تشخیص واژگان باز ساده و مقیاس‌پذیر را معرفی می‌کنیم که بر روی VLM‌های منجمد ساخته شده است. F-VLM پیچیدگی آموزشی یک آشکارساز واژگان باز را به کمتر از یک آشکارساز استاندارد کاهش می‌دهد و نیاز به تقطیر دانش، پیش‌آموزش متناسب با تشخیص، یا یادگیری با نظارت ضعیف را از بین می‌برد. ما نشان می‌دهیم که با حفظ دانش VLM‌های از قبل آموزش‌دیده شده به‌طور کامل، F-VLM فلسفه مشابهی با ViTDet حفظ می‌کند و یادگیری خاص آشکارساز را از دانش بینایی بیشتر در ستون فقرات آشکارساز جدا می‌کند. ما همچنین کد F-VLM را به همراه یک نسخه نمایشی در صفحه پروژه خود منتشر می کنیم.

یادگیری بر روی بینایی منجمد و مدل های زبان

ما می خواهیم تا حد امکان دانش VLM های از پیش آموزش دیده را با هدف به حداقل رساندن تلاش و هزینه مورد نیاز برای تطبیق آنها برای تشخیص واژگان باز حفظ کنیم. ما از یک رمزگذار تصویر VLM منجمد به عنوان ستون فقرات آشکارساز و یک رمزگذار متن برای ذخیره سازی جاسازی‌های متن شناسایی واژگان مجموعه داده آفلاین استفاده می‌کنیم. ما این ستون فقرات VLM را می گیریم و یک سر آشکارساز وصل می کنیم، که نواحی شی را برای محلی سازی پیش بینی می کند و امتیازهای تشخیص را که احتمال وجود جعبه شناسایی شده از یک دسته خاص را نشان می دهد، خروجی می دهد. امتیازهای تشخیص شباهت کسینوس ویژگی‌های ناحیه (مجموعه‌ای از جعبه‌های مرزی که سر آشکارساز خروجی می‌دهد) و جاسازی‌های متن دسته‌بندی است. تعبیه‌های متن دسته‌بندی با تغذیه نام دسته‌ها از طریق مدل متنی VLM از پیش آموزش‌دیده (که دارای هر دو مدل تصویر و متن) r به دست می‌آید.

رمزگذار تصویر VLM از دو بخش تشکیل شده است: 1) استخراج کننده ویژگی و 2) لایه ادغام ویژگی. ما از استخراج کننده ویژگی برای آموزش سر آشکارساز استفاده می کنیم، که تنها مرحله ای است که آموزش می دهیم (در داده های تشخیص استاندارد)، تا به ما اجازه دهد مستقیماً از وزنه های منجمد استفاده کنیم و دانش معنایی غنی را به ارث ببریم (مانند دسته های دم بلند مانند مارتینی، کلاه فدورا، نشان) از ستون فقرات VLM. تلفات تشخیص شامل رگرسیون جعبه و تلفات طبقه بندی می شود.

در زمان آموزش، F-VLM به سادگی یک آشکارساز است که آخرین لایه طبقه‌بندی با جاسازی‌های متن دسته‌بندی پایه جایگزین شده است.

شناسایی واژگان باز در سطح منطقه

توانایی انجام بازشناسی واژگان باز در سطح منطقه (یعنی سطح جعبه مرزی بر خلاف سطح تصویر) جدایی ناپذیر F-VLM است. از آنجایی که ویژگی‌های ستون فقرات منجمد شده‌اند، برای دسته‌های آموزشی (مانند دونات، گورخر) بیش از حد مناسب نیستند و می‌توانند مستقیماً برای طبقه‌بندی در سطح منطقه برش داده شوند. F-VLM این طبقه بندی واژگان باز را فقط در زمان آزمون انجام می دهد. برای به دست آوردن ویژگی های VLM برای یک منطقه، لایه ادغام ویژگی را روی ویژگی های خروجی ستون فقرات برش داده شده اعمال می کنیم. از آنجایی که لایه ادغام به ورودی های با اندازه ثابت نیاز دارد، به عنوان مثال، 7×7 برای ستون فقرات CLIP ResNet50 (R50)، ویژگی های منطقه را با لایه ROI-Align (در زیر نشان داده شده) برش داده و اندازه آن را تغییر می دهیم. برخلاف روش‌های تشخیص واژگان باز موجود، ما مناطق تصویر RGB را برش نمی‌دهیم و اندازه آنها را تغییر نمی‌دهیم و جاسازی‌های آنها را در یک فرآیند آفلاین جداگانه ذخیره نمی‌کنیم، بلکه سر آشکارساز را در یک مرحله آموزش می‌دهیم. این ساده‌تر است و باعث استفاده کارآمدتر از فضای ذخیره‌سازی دیسک می‌شود. علاوه بر این، ویژگی‌های ناحیه VLM را در طول آموزش برش نمی‌دهیم زیرا ویژگی‌های ستون فقرات ثابت هستند.

علیرغم اینکه هرگز در مناطق آموزش داده نشده است، ویژگی های منطقه برش داده شده قابلیت تشخیص واژگان باز خوب را حفظ می کند. با این حال، مشاهده می‌کنیم که ویژگی‌های منطقه برش‌خورده به اندازه کافی به کیفیت محلی‌سازی مناطق حساس نیستند، به عنوان مثال، یک جعبه ضعیف در مقابل کاملاً موضعی هر دو ویژگی‌های مشابهی دارند. این ممکن است برای طبقه بندی خوب باشد، اما برای تشخیص مشکل ساز است، زیرا ما به نمرات تشخیص نیاز داریم تا کیفیت محلی سازی را نیز منعکس کند. برای رفع این مشکل، میانگین هندسی را برای ترکیب امتیازات VLM با امتیازهای تشخیص برای هر منطقه و دسته اعمال می‌کنیم. نمرات VLM نشان دهنده احتمال بودن یک جعبه تشخیص با توجه به VLM از قبل آموزش دیده از یک دسته خاص است. نمرات تشخیص توزیع احتمال کلاس هر جعبه را بر اساس شباهت ویژگی‌های منطقه و جاسازی‌های متن ورودی نشان می‌دهد.

در زمان آزمایش، F-VLM از پیشنهادهای منطقه برای برش ویژگی های سطح بالای ستون فقرات VLM و محاسبه امتیاز VLM در هر منطقه استفاده می کند. سر آشکارساز آموزش دیده جعبه های تشخیص و ماسک ها را فراهم می کند، در حالی که نمرات تشخیص نهایی ترکیبی از نمرات تشخیص و VLM است.

ارزیابی

ما F-VLM را به معیار تشخیص واژگان باز محبوب LVIS اعمال می کنیم. در سطح سیستم، بهترین F-VLM به 32.8 میانگین دقت (AP) در دسته‌های نادر (APr) دست می‌یابد که با 6.5 ماسک APr و بسیاری از رویکردهای دیگر مبتنی بر تقطیر دانش، پیش‌آموزش، یا تمرین مشترک با نظارت ضعیف F-VLM ویژگی مقیاس پذیری قوی با ظرفیت مدل منجمد را نشان می دهد، در حالی که تعداد پارامترهای قابل آموزش ثابت است. علاوه بر این، F-VLM در وظایف تشخیص انتقال (به عنوان مثال، مجموعه داده های Objects365 و Ego4D) به سادگی با جایگزینی واژگان بدون تنظیم دقیق مدل، تعمیم و مقیاس بندی می کند. ما مدل‌های آموزش‌دیده LVIS را روی مجموعه‌داده‌های محبوب Objects365 آزمایش می‌کنیم و نشان می‌دهیم که این مدل می‌تواند بدون آموزش داده‌های تشخیص درون دامنه، بسیار خوب کار کند.

F-VLM از وضعیت هنر (SOTA) در معیار تشخیص واژگان باز LVIS و تشخیص شی انتقال عملکرد بهتری دارد. در محور x، ماسک متریک LVIS AP را در دسته‌های نادر (APr) و جعبه متریک Objects365 (O365) را در همه دسته‌ها نشان می‌دهیم. اندازه ستون فقرات آشکارساز به شرح زیر است: کوچک (R50)، پایه (R50x4)، بزرگ (R50x16)، بزرگ (R50x64). نامگذاری از قرارداد CLIP پیروی می کند.

ما F-VLM را در تشخیص واژگان باز و وظایف تشخیص انتقال تجسم می کنیم (در زیر نشان داده شده است). در LVIS و Objects365، F-VLM به درستی اشیاء جدید و معمولی را تشخیص می دهد. یکی از مزایای کلیدی تشخیص واژگان باز، آزمایش بر روی داده های خارج از توزیع با دسته بندی هایی است که کاربران در حال پرواز ارائه می دهند. برای تجسم بیشتر در مورد مجموعه داده های LVIS، Objects365 و Ego4D به مقاله F-VLM مراجعه کنید.

F-VLM واژگان باز و تشخیص انتقال. بالا: تشخیص واژگان باز در LVIS. ما فقط دسته بندی های جدید را برای وضوح نشان می دهیم. پایین: انتقال به مجموعه داده Objects365 تشخیص دقیق بسیاری از دسته ها را نشان می دهد. دسته‌های جدید شناسایی شدند: فدورا، مارتینی، پرچم، کلاه ایمنی فوتبال (LVIS). اسلاید (Objects365).

کارایی آموزش

ما نشان می‌دهیم که F-VLM می‌تواند با منابع محاسباتی بسیار کمتر در جدول زیر به عملکرد بالا دست یابد. در مقایسه با رویکرد پیشرفته، F-VLM می تواند با 226 برابر منابع کمتر و 57 برابر زمان ساعت دیواری سریعتر، عملکرد بهتری داشته باشد. جدا از صرفه جویی در منابع آموزشی، F-VLM دارای پتانسیل برای صرفه جویی قابل توجهی در حافظه در زمان تمرین با اجرای ستون فقرات در حالت استنتاج است. سیستم F-VLM تقریباً به سرعت یک آشکارساز استاندارد در زمان استنتاج کار می کند، زیرا تنها اضافه شده یک لایه تمرکز واحد روی ویژگی های منطقه شناسایی شده است.

روش	APr	دوره های آموزشی	هزینه آموزش (در هر ساعت هسته)	صرفه جویی در هزینه های آموزشی
SOTA	26.3	460	8000	1x
F-VLM	32.8	118	565	14 برابر
F-VLM	31.0	14.7	71	113x
F-VLM	27.7	7.4	35	226x

ما نتایج اضافی را با استفاده از دستور العمل های آموزشی کوتاهتر Detectron2 (دوره 12 و 36) ارائه می دهیم و با استفاده از ستون فقرات منجمد عملکرد قوی مشابهی را نشان می دهیم. تنظیمات پیش فرض با رنگ خاکستری مشخص شده است.

ستون فقرات	جیتر در مقیاس بزرگ	#دوران	اندازه دسته	APr
R50		12	16	18.1
R50		36	64	18.5
R50	✓	100	256	18.6
R50x64		12	16	31.9
R50x64		36	64	32.6
R50x64	✓	100	256	32.8

نتیجه

ما F-VLM را ارائه می‌دهیم – یک روش تشخیص واژگان باز ساده که از قدرت مدل‌های زبان بینایی بزرگ منجمد شده از قبل آموزش دیده برای تشخیص اشیاء جدید استفاده می‌کند. این کار بدون نیاز به تقطیر دانش، پیش‌آموزش متناسب با تشخیص، یا یادگیری با نظارت ضعیف انجام می‌شود. رویکرد ما صرفه جویی قابل توجهی در محاسبات ارائه می دهد و نیاز به برچسب های سطح تصویر را برطرف می کند. F-VLM در تشخیص واژگان باز در معیار LVIS در سطح سیستم به پیشرفته‌ترین پیشرفت‌ها دست می‌یابد و تشخیص انتقال بسیار رقابتی را در سایر مجموعه‌های داده نشان می‌دهد. ما امیدواریم که این مطالعه بتواند تحقیقات بیشتر در زمینه تشخیص اشیاء جدید را تسهیل کند و به جامعه کمک کند VLM های منجمد را برای طیف وسیع تری از وظایف بینایی کشف کند.

سپاسگزاریها

این کار توسط Weicheng Kuo، Yin Cui، Xiuye Gu، AJ Piergiovanni و Anelia Angelova انجام شده است. مایلیم از همکاران خود در Google Research برای مشاوره و بحث های مفیدشان تشکر کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور