Crossmodal-3600 - شرح چند زبانه مرجع برای تصاویر متنوع جغرافیایی - سئو PBN

ارسال شده توسط Ashish Thapliyal، مهندس نرم افزار، و Jordi Pont-Tuset، محقق تحقیقاتی، Google Research

زیرنویس تصویر وظیفه یادگیری ماشینی است که به طور خودکار یک توصیف زبان طبیعی روان برای یک تصویر مشخص ایجاد می کند. این وظیفه برای بهبود دسترسی برای کاربران کم بینا مهم است و یک وظیفه اصلی در تحقیقات چندوجهی است که شامل مدل‌سازی بینایی و زبان می‌شود.

با این حال، مجموعه داده‌ها برای شرح تصاویر عمدتاً به زبان انگلیسی در دسترس هستند. فراتر از آن، تنها چند مجموعه داده وجود دارد که تعداد محدودی از زبان‌ها را پوشش می‌دهند که تنها بخش کوچکی از جمعیت جهان را نشان می‌دهند. علاوه بر این، این مجموعه داده ها دارای تصاویری هستند که به شدت غنا و تنوع فرهنگ ها را از سراسر جهان نشان نمی دهند. این جنبه‌ها مانع از تحقیقات در مورد زیرنویس تصویر برای زبان‌های مختلف شده است و مستقیماً مانع استقرار راه‌حل‌های دسترسی برای مخاطبان بالقوه زیادی در سراسر جهان شده است.

امروز مجموعه داده ارزیابی زیرنویس تصویر Crossmodal 3600 (XM3600) را به عنوان معیاری قوی برای شرح تصاویر چندزبانه ارائه کرده و در دسترس عموم قرار می دهیم که محققان را قادر می سازد مشارکت های تحقیقاتی را به طور قابل اعتماد در این زمینه نوظهور مقایسه کنند. XM3600 261375 عنوان مرجع تولید شده توسط انسان را به 36 زبان برای مجموعه ای از 3600 عکس از نظر جغرافیایی متنوع ارائه می دهد. نشان می‌دهیم که زیرنویس‌ها از کیفیت بالایی برخوردار هستند و سبک آن در زبان‌ها سازگار است.

مجموعه داده Crossmodal 3600 شامل شرح‌های مرجع به 36 زبان برای هر یک از مجموعه‌ای از 3600 عکس از نظر جغرافیایی متنوع است. همه تصاویر با مجوز تحت مجوز CC-BY 2.0 استفاده می شوند.

مروری بر مجموعه داده Crossmodal 3600
ایجاد مجموعه داده‌های آموزشی و ارزیابی بزرگ به زبان‌های مختلف، یک تلاش منابع فشرده است. کار اخیر نشان داده است که ساخت مدل‌های زیرنویس تصویر چندزبانه آموزش‌دیده بر روی داده‌های ترجمه‌شده ماشینی با زیرنویس انگلیسی به عنوان نقطه شروع امکان‌پذیر است. با این حال، برخی از قابل اعتمادترین معیارهای خودکار برای نوشتن شرح تصاویر، زمانی که برای مجموعه‌های ارزیابی با شرح تصاویر ترجمه‌شده اعمال می‌شوند، بسیار کمتر مؤثر هستند، و در نتیجه توافق ضعیف‌تری با ارزیابی‌های انسانی در مقایسه با مورد انگلیسی دارد. به این ترتیب، ارزیابی مدل قابل اعتماد در حال حاضر تنها می تواند بر اساس ارزیابی گسترده انسانی باشد. متأسفانه، چنین ارزیابی‌هایی معمولاً نمی‌توانند در تلاش‌های تحقیقاتی مختلف تکرار شوند، و بنابراین مکانیسم سریع و قابل اعتمادی برای ارزیابی خودکار پارامترها و پیکربندی‌های مدل (مثلاً مدل تپه‌نوردی) یا مقایسه چندین خط تحقیق ارائه نمی‌دهند.

XM3600 261375 عنوان مرجع تولید شده توسط انسان را به 36 زبان برای یک مجموعه جغرافیایی متنوع از 3600 تصویر از مجموعه داده های Open Images ارائه می دهد. ما کیفیت زیرنویس‌های تولید شده را با مقایسه آنها با زیرنویس‌های ارائه‌شده دستی با استفاده از معیار CIDEr اندازه‌گیری می‌کنیم، که از 0 (مرتبط با زیرنویس‌های مرجع) تا 10 (کاملاً مطابق با زیرنویس‌های مرجع) است. هنگام مقایسه جفت مدل‌ها، همبستگی قوی بین تفاوت‌های نمرات CIDEr خروجی‌های مدل و ارزیابی‌های انسانی در کنار هم در مقایسه خروجی‌های مدل مشاهده کردیم. ساخت XM3600 ابزاری قابل اعتماد برای مقایسه خودکار با کیفیت بالا بین مدل‌های زیرنویس تصویر در زبان‌های مختلف فراتر از انگلیسی است.

انتخاب زبان
ما 30 زبان را فراتر از انگلیسی، تقریباً بر اساس درصد محتوای وب انتخاب کردیم. علاوه بر این، ما پنج زبان دیگر را انتخاب کردیم که شامل زبان‌هایی است که منابع کمتری دارند و دارای گویشوران بومی زیادی هستند یا زبان‌های اصلی اصلی از قاره‌هایی که در غیر این صورت پوشش داده نمی‌شوند. در نهایت، ما انگلیسی را نیز به عنوان خط پایه در نظر گرفتیم، بنابراین در مجموع 36 زبان، همانطور که در جدول زیر فهرست شده است، به دست آمد.

عربی	بنگالی*	چینی ها	کروات	کوسکو کچوا*	کشور چک
دانمارکی	هلندی	انگلیسی	فیلیپینی	فنلاندی	فرانسوی
آلمانی	یونانی	عبری	هندی	مجارستانی	اندونزیایی
ایتالیایی	ژاپنی	کره ای	مائوری*	نروژی	فارسی
لهستانی	پرتغالی	رومانیایی	روسی	اسپانیایی	سواحیلی*
سوئدی	تلوگو*	تایلندی	ترکی	اوکراینی	ویتنامی

لیست زبان های استفاده شده در XM3600. *زبان‌هایی با منابع کم با بسیاری از گویشوران بومی، یا زبان‌های اصلی اصلی از قاره‌هایی که در غیر این صورت پوشش داده نمی‌شوند.

انتخاب تصویر
تصاویر از میان تصاویر موجود در مجموعه داده Open Images که دارای فراداده مکان هستند، انتخاب شدند. از آنجایی که مناطق زیادی وجود دارد که در آنها بیش از یک زبان صحبت می شود و برخی از مناطق به خوبی توسط این تصاویر پوشش داده نمی شوند، ما الگوریتمی را طراحی کردیم تا مطابقت بین تصاویر انتخاب شده و مناطقی که زبان های مورد نظر در آن صحبت می شوند را به حداکثر برسانیم. الگوریتم با انتخاب تصاویر با داده‌های جغرافیایی مربوط به زبان‌هایی که کوچک‌ترین استخر را داریم (مثلاً فارسی) شروع می‌کند و آنها را به ترتیب افزایش اندازه مخزن تصویر کاندیدشان پردازش می‌کند. اگر در منطقه ای که به یک زبان صحبت می شود تصاویر کافی وجود نداشته باشد، به تدریج شعاع انتخاب جغرافیایی را به موارد زیر گسترش می دهیم: (i) کشوری که در آن زبان صحبت می شود. (2) قاره ای که در آن زبان صحبت می شود. و به عنوان آخرین راه حل، (iii) از هر کجای دنیا. این استراتژی موفق شد تعداد تصویر هدف ما 100 تصویر را از یک منطقه مناسب برای اکثر 36 زبان، به جز فارسی (که در آن از 14 تصویر در سطح قاره استفاده می شود) و هندی (که در آن همه 100 تصویر در سطح جهانی هستند، ارائه دهد، زیرا تصاویر درون منطقه به بنگالی و تلوگو اختصاص داده شد).

نمونه تصاویری که تنوع جغرافیایی تصاویر مشروح را نشان می دهد. تصاویر مورد استفاده تحت مجوز CC BY 2.0.

نسل زیرنویس
در مجموع، تمام 3600 تصویر (100 تصویر در هر زبان) در تمام 36 زبان حاشیه نویسی شده اند، که هر کدام به طور متوسط دو حاشیه نویسی در هر زبان دارند و در مجموع 261375 عنوان را به دست می آورند.

حاشیه نویس ها در دسته های 15 تصویری کار می کنند. صفحه اول همه 15 تصویر را با شرح‌های آنها به زبان انگلیسی نشان می‌دهد که توسط یک مدل شرح‌نویسی آموزش داده شده برای خروجی یک سبک ثابت از فرم “ انجام <فعالیت> در <محیط>“، اغلب با ویژگی‌های شیء، مانند به عنوان یک فرد “خندان”، ماشین “قرمز”، و غیره. از حاشیه نویسان خواسته می شود که کیفیت عنوان را برای یک مقیاس 4 درجه ای از “عالی” تا “بد”، به علاوه گزینه ای برای “اطلاعات_نه_کافی” ارزیابی کنند. این مرحله حاشیه نویس ها را مجبور می کند تا کیفیت زیرنویس را به دقت ارزیابی کنند و آنها را به درونی کردن سبک زیرنویس ها وادار می کند. صفحه های زیر تصاویر را دوباره اما به صورت جداگانه و بدون شرح انگلیسی نشان می دهند و از حاشیه نویسان خواسته می شود برای هر تصویر زیرنویس های توصیفی را به زبان مقصد تولید کنند.

اندازه دسته ای تصویر 15 انتخاب شد تا حاشیه نویسان سبک را بدون به خاطر سپردن توضیحات دقیق درونی کنند. بنابراین، ما از ارزیاب‌ها انتظار داریم که شرح‌ها را فقط بر اساس محتوای تصویر و فاقد آثار ترجمه تولید کنند. به عنوان مثال در مثال زیر، عنوان اسپانیایی به “شماره 42” و عنوان تایلندی به “تبدیل‌ها” اشاره می‌کند، که هیچ کدام در زیرنویس انگلیسی ذکر نشده است. حاشیه‌نویس‌ها همچنین پروتکلی برای استفاده در هنگام ایجاد زیرنویس‌ها ارائه کردند، بنابراین به یکنواختی سبک در بین زبان‌ها دست یافتند.

عکس برایان سولیس	انگلیسی	• یک ماشین اسپرت قدیمی در یک نمایشگاه با بسیاری دیگر از ماشین های اسپورت قدیمی
		• خودروهای کلاسیک مارک دار در یک ردیف در نمایشگاه

	اسپانیایی	• ماشین اسپرت کلاسیک در نمایشگاه ماشین گالری – (ماشین اسپرت کلاسیک در نمایشگاه ماشین گالری)
		• ماشین مسابقه ای نقره ای کوچک با شماره 42 در یک نمایشگاه اتومبیل – (ماشین مسابقه ای کوچک نقره ای با شماره 42 در نمایشگاه اتومبیل)

	تایلندی	• کانورتیبل های چند رنگی که در کنار هم در نمایشگاه پارک شده اند – (تبدیل های چند رنگ در نمایشگاه ردیف شده اند)
		• چندین ماشین مسابقه ای قدیمی در نمایشگاه صف می کشند – (چند ماشین مسابقه ای قدیمی در نمایشگاه صف می کشند.)

نمونه زیرنویس‌ها به سه زبان مختلف (از 36 – فهرست کامل شرح‌ها را در ضمیمه A مقاله Crossmodal-3600 مشاهده کنید)، ایجاد حاشیه‌نویسی‌هایی را نشان می‌دهد که از نظر سبک در همه زبان‌ها سازگار هستند، در حالی که عاری از مصنوعات ترجمه مستقیم هستند (مثلاً ، اسپانیایی “شماره 42” یا تایلندی “تبدیل” در هنگام ترجمه مستقیم از نسخه های انگلیسی امکان پذیر نخواهد بود). تصویر مورد استفاده تحت مجوز CC BY 2.0.

عنوان کیفیت و آمار
ما دو تا پنج مطالعه آزمایشی در هر زبان برای عیب‌یابی فرآیند تولید شرح و اطمینان از کیفیت بالا انجام دادیم. سپس به صورت دستی زیرمجموعه ای تصادفی از زیرنویس ها را ارزیابی کردیم. ابتدا نمونه ای متشکل از 600 تصویر را به صورت تصادفی انتخاب کردیم. سپس برای اندازه‌گیری کیفیت زیرنویس‌ها در یک زبان خاص، برای هر تصویر، یکی از زیرنویس‌های ایجاد شده به‌صورت دستی را برای ارزیابی انتخاب کردیم. دریافتیم که:

برای 25 زبان از 36 زبان، درصد زیرنویس‌هایی که به‌عنوان «خوب» یا «عالی» رتبه‌بندی شده‌اند، بالای 90 درصد است و بقیه همه بالای 70 درصد هستند.
برای ۲۶ زبان از ۳۶ زبان، درصد زیرنویس‌هایی که به‌عنوان «بد» رتبه‌بندی شده‌اند، زیر ۲ درصد است و بقیه همه زیر ۵ درصد هستند.

برای زبان‌هایی که از فاصله برای جدا کردن کلمات استفاده می‌کنند، تعداد کلمات در هر عنوان می‌تواند برای برخی از زبان‌های چسبنده مانند کوسکو کچوا و چک به 5 یا 6 کلمه و برای یک زبان تحلیلی مانند ویتنامی تا 18 کلمه باشد. تعداد کاراکترها در هر عنوان نیز به شدت متفاوت است – از اواسط دهه 20 برای کره ای تا اواسط دهه 90 برای اندونزیایی – بسته به الفبا و خط زبان.

ارزیابی تجربی و نتایج
ما به طور تجربی توانایی حاشیه‌نویسی XM3600 را برای رتبه‌بندی تغییرات مدل زیرنویس تصویر با آموزش چهار نوع مدل زیرنویس تصویر چندزبانه و مقایسه تفاوت‌های CIDEr خروجی مدل‌ها نسبت به مجموعه داده XM3600 برای بیش از 30 زبان، در کنار هم اندازه‌گیری کردیم. ارزیابی های انسانی ما همبستگی قوی بین تفاوت های CIDEr و ارزیابی های انسانی مشاهده کردیم. این نتایج از استفاده از مراجع XM3600 به عنوان ابزاری برای دستیابی به مقایسه خودکار با کیفیت بالا بین مدل‌های زیرنویس تصویر در زبان‌های مختلف فراتر از انگلیسی پشتیبانی می‌کند.

استفاده های اخیر
اخیراً PaLI از XM3600 برای ارزیابی عملکرد مدل فراتر از انگلیسی برای نوشتن شرح تصویر، بازیابی تصویر به متن و بازیابی متن به تصویر استفاده کرد. نکات کلیدی که آنها هنگام ارزیابی در XM3600 یافتند این بود که زیرنویس چند زبانه از مقیاس‌بندی مدل‌های PaLI، به‌ویژه برای زبان‌های کم منبع، بسیار سود می‌برد.

سپاسگزاریها
مایلیم از نویسندگان همکار این اثر قدردانی کنیم: شی چن و رادو سوریکوت.

سئو PBN | خبر های جدید سئو و هک و سرور