Images V7 را باز کنید – اکنون دارای برچسب نقطه است – وبلاگ هوش مصنوعی گوگل

Open Images یک مجموعه داده بینایی کامپیوتری است که حدود 9 میلیون تصویر را با برچسب هایی پوشش می دهد که هزاران دسته شی را در بر می گیرد. محققان در سراسر جهان از Open Images برای آموزش و ارزیابی مدل‌های بینایی کامپیوتری استفاده می‌کنند. از زمان انتشار اولیه Open Images در سال 2016، که شامل برچسب‌هایی در سطح تصویر می‌شد که دسته‌های 6k را پوشش می‌داد، ما به‌روزرسانی‌های متعددی را برای غنی‌سازی حاشیه‌نویسی و گسترش موارد استفاده بالقوه از مجموعه داده ارائه کرده‌ایم. از طریق چندین نسخه، برچسب‌های سطح تصویر را برای بیش از 20 هزار دسته بر روی همه تصاویر و حاشیه‌نویسی جعبه محدود، روابط بصری، تقسیم‌بندی نمونه و روایت‌های محلی (صدای همگام، ردیابی ماوس، و شرح متن) در زیر مجموعه‌ای از 1.9 میلیون تصویر اضافه کرده‌ایم. .

امروز، ما خوشحالیم که انتشار Open Images V7 را اعلام کنیم، که مجموعه داده Open Images را با یک نوع حاشیه نویسی جدید به نام برچسب های سطح نقطه و شامل یک ابزار تجسم همه در یک جدید است که امکان کاوش بهتر داده های غنی موجود را فراهم می کند.

برچسب های نقطه ای

استراتژی اصلی که برای جمع‌آوری حاشیه‌نویسی‌های برچسب سطح نقطه جدید استفاده می‌شود، از یک مدل یادگیری ماشینی (ML) و تأیید انسانی بهره می‌برد. ابتدا، مدل ML نقاط مورد علاقه را انتخاب کرد و یک سوال بله یا خیر پرسید، به عنوان مثال، “این نقطه روی کدو تنبل است؟”. سپس، حاشیه نویسان انسانی به طور متوسط ​​1.1 ثانیه برای پاسخ دادن به سوالات بله یا خیر وقت صرف کردند. ما پاسخ‌های حاشیه‌نویس‌های مختلف را روی یک سؤال جمع‌آوری کردیم و به هر نقطه حاشیه‌نویسی یک برچسب نهایی «بله»، «نه» یا «نامطمئن» اختصاص دادیم.

برای هر تصویر مشروح، مجموعه‌ای از نکات را ارائه می‌کنیم که هر کدام یک برچسب «بله» یا «نه» برای یک کلاس مشخص دارد. این نقاط اطلاعات پراکنده ای را ارائه می دهند که می تواند برای کار تقسیم بندی معنایی استفاده شود. ما در مجموع 38.6 میلیون حاشیه نویسی جدید (12.4 میلیون با برچسب های “بله”) جمع آوری کردیم که 5.8 هزار کلاس و 1.4 میلیون تصویر را پوشش می دهد.

با تمرکز بر روی برچسب‌های نقطه، تعداد تصاویر حاشیه‌نویسی شده و دسته‌های تحت پوشش را افزایش دادیم. ما همچنین تلاش های حاشیه نویسان خود را بر جمع آوری کارآمد اطلاعات مفید متمرکز کردیم. در مقایسه با تقسیم‌بندی نمونه ما، نقاط جدید شامل 16 برابر کلاس‌های بیشتر است و تصاویر بیشتری را پوشش می‌دهد. نقاط جدید همچنین 9 برابر کلاس های بیشتری را نسبت به حاشیه نویسی جعبه ما پوشش می دهند. در مقایسه با مجموعه داده‌های تقسیم‌بندی موجود، مانند PASCAL VOC، COCO، Cityscapes، LVIS، یا ADE20K، حاشیه‌نویسی‌های ما طبقات و تصاویر بیشتری را نسبت به کارهای قبلی پوشش می‌دهند. حاشیه نویسی های برچسب نقطه ای جدید اولین نوع حاشیه نویسی در Open Images هستند که اطلاعات محلی سازی را برای هر دو چیز (اشیاء قابل شمارش مانند ماشین ها، گربه ها و کاتاماران) و دسته بندی چیزها (اشیاء غیرقابل شمارش مانند چمن، گرانیت و شن) ارائه می دهد. به طور کلی، داده های تازه جمع آوری شده تقریباً معادل دو سال تلاش انسان برای حاشیه نویسی است.

آزمایش‌های اولیه ما نشان می‌دهد که این نوع داده‌های پراکنده هم برای آموزش و هم برای ارزیابی مدل‌های تقسیم‌بندی مناسب هستند. آموزش یک مدل به طور مستقیم بر روی داده های پراکنده به ما امکان می دهد به کیفیتی قابل مقایسه با آموزش روی حاشیه نویسی های متراکم برسیم. به طور مشابه، نشان می‌دهیم که می‌توان متریک تقاطع بیش از اتحادیه (IoU) سنتی تقسیم‌بندی معنایی را روی داده‌های پراکنده به‌طور مستقیم محاسبه کرد. رتبه بندی در روش های مختلف حفظ می شود و مقادیر پراکنده IoU تخمین دقیقی از نسخه متراکم آن است. برای جزئیات بیشتر به مقاله ما مراجعه کنید.

در زیر، ما چهار تصویر نمونه را با برچسب‌های سطح نقطه نشان می‌دهیم که اطلاعات غنی و متنوعی را که این حاشیه‌نویسی ارائه می‌دهد را نشان می‌دهد. دایره‌ها ⭘ برچسب‌های «بله» و مربع هستند برچسب های “نه” هستند.

ویژوالایزرهای جدید

علاوه بر انتشار داده‌های جدید، تجسم‌های موجود حاشیه‌نویسی تصاویر باز را نیز گسترش دادیم. وب‌سایت Open Images اکنون شامل تجسم‌کننده‌های اختصاصی برای کاوش در حاشیه‌نویسی‌های روایت‌های محلی، حاشیه‌نویسی‌های جدید در سطح نقطه، و یک نمای همه‌جانبه جدید است. این نمای همه‌کاره جدید برای زیرمجموعه‌ای از 1.9 میلیون عکس با حاشیه‌نویسی متراکم در دسترس است و به شخص اجازه می‌دهد تا حاشیه‌نویسی‌های غنی را که Open Images در هفت نسخه انباشته کرده است، کشف کند. به طور متوسط ​​این تصاویر دارای حاشیه نویسی برای 6.7 برچسب تصویر (کلاس ها)، 8.3 کادر، 1.7 رابطه، 1.5 ماسک، 0.4 روایت محلی و 34.8 برچسب نقطه در هر تصویر هستند.

در زیر، دو تصویر نمونه را با حاشیه نویسی های مختلف در ویژوالایزر همه کاره نشان می دهیم. شکل‌ها برچسب‌های سطح تصویر، جعبه‌های مرزی، روابط جعبه، ماسک‌های نمونه، ردیابی و شرح ماوس روایت موضعی، و برچسب‌های سطح نقطه را نشان می‌دهند. این + کلاس ها دارای حاشیه نویسی مثبت (از هر نوعی) هستند، در حالی که کلاس ها فقط حاشیه نویسی منفی دارند (سطح تصویر یا سطح نقطه).

نتیجه

ما امیدواریم که این انتشار داده های جدید، تحقیقات بینایی کامپیوتری را قادر سازد تا سناریوهای متنوع و چالش برانگیزتری را پوشش دهد. همانطور که کیفیت مدل‌های تقسیم‌بندی معنایی خودکار نسبت به کلاس‌های رایج بهبود می‌یابد، می‌خواهیم به سمت دم بلند مفاهیم بصری حرکت کنیم و حاشیه‌نویسی‌های نقطه‌ای پراکنده گامی در این مسیر هستند. آثار بیشتر و بیشتری در حال بررسی نحوه استفاده از چنین حاشیه‌نویسی‌های پراکنده هستند (مثلاً به عنوان نظارت برای نمونه‌بندی یا تقسیم‌بندی معنایی)، و Open Images V7 به این جهت تحقیقاتی کمک می‌کند. ما مشتاقانه منتظریم ببینیم در آینده چه خواهید ساخت.

سپاسگزاریها

از ویتوریو فراری، جوردی پونت توست، آلینا کوزنتسوا، اشلشا سادرس و تیم حاشیه نویسان برای حمایتشان از ایجاد این انتشار داده جدید تشکر می کنیم.