نویسندگان:
(1) تونی لی، استنفورد با مشارکت برابر.
(2) میچیهیرو یاسوناگا، استنفورد با مشارکت برابر.
(3) چنلین منگ، استنفورد با مشارکت برابر.
(4) یفان مای، استنفورد؛
(5) جون سونگ پارک، استنفورد؛
(6) آگریم گوپتا، استنفورد؛
(7) یونژی ژانگ، استنفورد؛
(8) دیپاک نارایانان، مایکروسافت؛
(9) هانا بنیتا توفل، الف آلفا;
(10) مارکو بلاژنته، الف آلفا;
(11) Minguk Kang، POSTECH.
(12) Taesung Park، Adobe;
(13) Jure Leskovec، Stanford;
(14) Jun-Yan Zhu، CMU;
(15) لی فی فی، استانفورد;
(16) جیاجون وو، استنفورد؛
(17) استفانو ارمون، استنفورد;
(18) پرسی لیانگ، استنفورد.
جدول پیوندها
چکیده و 1 مقدمه
2 چارچوب اصلی
3 جنبه
4 سناریو
5 معیارها
6 مدل
7 آزمایش و نتایج
8 کارهای مرتبط
9 نتیجه گیری
10 محدودیت
مشارکت های نویسنده، تقدیرنامه ها و مراجع
یک دیتاشیت
B جزئیات سناریو
C جزئیات متریک
جزئیات مدل D
E روش ارزیابی انسانی
B جزئیات سناریو
ب.1 سناریوهای موجود
MS-COCO. ام اس کوکو [21] یک مجموعه داده تصویری برچسبدار در مقیاس بزرگ است که شامل تصاویری از انسان و اشیاء روزمره است. نمونههایی از شرح عبارتند از: «اتوبوس بزرگی که در کنار یک ساختمان بسیار بلند نشسته است»، «مردی که آماده است در زمین تاب بخورد در حالی که داور نگاه میکند»، «تخت دو طبقه با قفسهای باریک که زیر آن نشسته است». ما از 2014 استفاده می کنیم …