Open Images یک مجموعه داده بینایی کامپیوتری است که حدود 9 میلیون تصویر را با برچسب هایی پوشش می دهد که هزاران دسته شی را در بر می گیرد. محققان در سراسر جهان از Open Images برای آموزش و ارزیابی مدلهای بینایی کامپیوتری استفاده میکنند. از زمان انتشار اولیه Open Images در سال 2016، که شامل برچسبهایی در سطح تصویر میشد که دستههای 6k را پوشش میداد، ما بهروزرسانیهای متعددی را برای غنیسازی حاشیهنویسی و گسترش موارد استفاده بالقوه از مجموعه داده ارائه کردهایم. از طریق چندین نسخه، برچسبهای سطح تصویر را برای بیش از 20 هزار دسته بر روی همه تصاویر و حاشیهنویسی جعبه محدود، روابط بصری، تقسیمبندی نمونه و روایتهای محلی (صدای همگام، ردیابی ماوس، و شرح متن) در زیر مجموعهای از 1.9 میلیون تصویر اضافه کردهایم. .
امروز، ما خوشحالیم که انتشار Open Images V7 را اعلام کنیم، که مجموعه داده Open Images را با یک نوع حاشیه نویسی جدید به نام برچسب های سطح نقطه و شامل یک ابزار تجسم همه در یک جدید است که امکان کاوش بهتر داده های غنی موجود را فراهم می کند.
برچسب های نقطه ای
استراتژی اصلی که برای جمعآوری حاشیهنویسیهای برچسب سطح نقطه جدید استفاده میشود، از یک مدل یادگیری ماشینی (ML) و تأیید انسانی بهره میبرد. ابتدا، مدل ML نقاط مورد علاقه را انتخاب کرد و یک سوال بله یا خیر پرسید، به عنوان مثال، “این نقطه روی کدو تنبل است؟”. سپس، حاشیه نویسان انسانی به طور متوسط 1.1 ثانیه برای پاسخ دادن به سوالات بله یا خیر وقت صرف کردند. ما پاسخهای حاشیهنویسهای مختلف را روی یک سؤال جمعآوری کردیم و به هر نقطه حاشیهنویسی یک برچسب نهایی «بله»، «نه» یا «نامطمئن» اختصاص دادیم.
برای هر تصویر مشروح، مجموعهای از نکات را ارائه میکنیم که هر کدام یک برچسب «بله» یا «نه» برای یک کلاس مشخص دارد. این نقاط اطلاعات پراکنده ای را ارائه می دهند که می تواند برای کار تقسیم بندی معنایی استفاده شود. ما در مجموع 38.6 میلیون حاشیه نویسی جدید (12.4 میلیون با برچسب های “بله”) جمع آوری کردیم که 5.8 هزار کلاس و 1.4 میلیون تصویر را پوشش می دهد.
با تمرکز بر روی برچسبهای نقطه، تعداد تصاویر حاشیهنویسی شده و دستههای تحت پوشش را افزایش دادیم. ما همچنین تلاش های حاشیه نویسان خود را بر جمع آوری کارآمد اطلاعات مفید متمرکز کردیم. در مقایسه با تقسیمبندی نمونه ما، نقاط جدید شامل 16 برابر کلاسهای بیشتر است و تصاویر بیشتری را پوشش میدهد. نقاط جدید همچنین 9 برابر کلاس های بیشتری را نسبت به حاشیه نویسی جعبه ما پوشش می دهند. در مقایسه با مجموعه دادههای تقسیمبندی موجود، مانند PASCAL VOC، COCO، Cityscapes، LVIS، یا ADE20K، حاشیهنویسیهای ما طبقات و تصاویر بیشتری را نسبت به کارهای قبلی پوشش میدهند. حاشیه نویسی های برچسب نقطه ای جدید اولین نوع حاشیه نویسی در Open Images هستند که اطلاعات محلی سازی را برای هر دو چیز (اشیاء قابل شمارش مانند ماشین ها، گربه ها و کاتاماران) و دسته بندی چیزها (اشیاء غیرقابل شمارش مانند چمن، گرانیت و شن) ارائه می دهد. به طور کلی، داده های تازه جمع آوری شده تقریباً معادل دو سال تلاش انسان برای حاشیه نویسی است.
آزمایشهای اولیه ما نشان میدهد که این نوع دادههای پراکنده هم برای آموزش و هم برای ارزیابی مدلهای تقسیمبندی مناسب هستند. آموزش یک مدل به طور مستقیم بر روی داده های پراکنده به ما امکان می دهد به کیفیتی قابل مقایسه با آموزش روی حاشیه نویسی های متراکم برسیم. به طور مشابه، نشان میدهیم که میتوان متریک تقاطع بیش از اتحادیه (IoU) سنتی تقسیمبندی معنایی را روی دادههای پراکنده بهطور مستقیم محاسبه کرد. رتبه بندی در روش های مختلف حفظ می شود و مقادیر پراکنده IoU تخمین دقیقی از نسخه متراکم آن است. برای جزئیات بیشتر به مقاله ما مراجعه کنید.
در زیر، ما چهار تصویر نمونه را با برچسبهای سطح نقطه نشان میدهیم که اطلاعات غنی و متنوعی را که این حاشیهنویسی ارائه میدهد را نشان میدهد. دایرهها ⭘ برچسبهای «بله» و مربع هستند ☐ برچسب های “نه” هستند.
ویژوالایزرهای جدید
علاوه بر انتشار دادههای جدید، تجسمهای موجود حاشیهنویسی تصاویر باز را نیز گسترش دادیم. وبسایت Open Images اکنون شامل تجسمکنندههای اختصاصی برای کاوش در حاشیهنویسیهای روایتهای محلی، حاشیهنویسیهای جدید در سطح نقطه، و یک نمای همهجانبه جدید است. این نمای همهکاره جدید برای زیرمجموعهای از 1.9 میلیون عکس با حاشیهنویسی متراکم در دسترس است و به شخص اجازه میدهد تا حاشیهنویسیهای غنی را که Open Images در هفت نسخه انباشته کرده است، کشف کند. به طور متوسط این تصاویر دارای حاشیه نویسی برای 6.7 برچسب تصویر (کلاس ها)، 8.3 کادر، 1.7 رابطه، 1.5 ماسک، 0.4 روایت محلی و 34.8 برچسب نقطه در هر تصویر هستند.
در زیر، دو تصویر نمونه را با حاشیه نویسی های مختلف در ویژوالایزر همه کاره نشان می دهیم. شکلها برچسبهای سطح تصویر، جعبههای مرزی، روابط جعبه، ماسکهای نمونه، ردیابی و شرح ماوس روایت موضعی، و برچسبهای سطح نقطه را نشان میدهند. این + کلاس ها دارای حاشیه نویسی مثبت (از هر نوعی) هستند، در حالی که – کلاس ها فقط حاشیه نویسی منفی دارند (سطح تصویر یا سطح نقطه).
![]() |
![]() |
نتیجه
ما امیدواریم که این انتشار داده های جدید، تحقیقات بینایی کامپیوتری را قادر سازد تا سناریوهای متنوع و چالش برانگیزتری را پوشش دهد. همانطور که کیفیت مدلهای تقسیمبندی معنایی خودکار نسبت به کلاسهای رایج بهبود مییابد، میخواهیم به سمت دم بلند مفاهیم بصری حرکت کنیم و حاشیهنویسیهای نقطهای پراکنده گامی در این مسیر هستند. آثار بیشتر و بیشتری در حال بررسی نحوه استفاده از چنین حاشیهنویسیهای پراکنده هستند (مثلاً به عنوان نظارت برای نمونهبندی یا تقسیمبندی معنایی)، و Open Images V7 به این جهت تحقیقاتی کمک میکند. ما مشتاقانه منتظریم ببینیم در آینده چه خواهید ساخت.
سپاسگزاریها
از ویتوریو فراری، جوردی پونت توست، آلینا کوزنتسوا، اشلشا سادرس و تیم حاشیه نویسان برای حمایتشان از ایجاد این انتشار داده جدید تشکر می کنیم.