محققان اماراتی می گویند که صدا سس مخفی در کمک به هوش مصنوعی در درک ویدیوها است

نویسندگان:

(1) Shehan Munasinghe، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛

(2) روسیرو توهارا، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛

(3) محمد معز، محمد بن زاید دانشگاه هوش مصنوعی;

(4) هانونا عبدالرشید، دانشگاه محمد بن زاید هوش مصنوعی؛

(5) سلمان خان، دانشگاه محمد بن زاید هوش مصنوعی و دانشگاه ملی استرالیا؛

(6) مبارک شاه، دانشگاه فلوریدا مرکزی;

(7) فهد خان، محمد بن زاید دانشگاه هوش مصنوعی و دانشگاه لینشوپینگ.

یادداشت ویرایشگر: این قسمت 8 از 10 مطالعه ای است که به جزئیات توسعه یک مدل هوش مصنوعی هوشمند برای ویدیوها می پردازد. بقیه را در ادامه بخوانید.

مواد تکمیلی

4.4. پاسخگویی به سوال تصویری صفر شات

برای PG-Video-LLaVA، قابلیت‌های پاسخگویی به سؤالات صفر شات (QA) به صورت کمی با استفاده از چندین مجموعه داده QA با پایان باز مورد ارزیابی قرار گرفت: MSRVTT-QA[40]، MSVD-QA [39]، TGIF-QA [16]و ActivityNet-QA [44]. این مجموعه داده‌ها معیارهایی برای ارزیابی توانایی یک مدل برای ایجاد پاسخ‌های دقیق بدون تنظیم دقیق داده‌های خاص هستند. ما با استفاده از Vicuna-13b-v1.5، یک روش ارزیابی صفر شات را برای ارزیابی درک مدل و دقت پیش‌بینی، با امتیازات اتخاذ کردیم.

جدول 3. پاسخ به سوال مبتنی بر ویدئو Zeroshot: مقایسه PG-Video-LLaVA با سایر مدل های تولید کننده ویدئو. آخرین مدل‌های موجود برای همه رویکردها استفاده می‌شوند و معیارها با استفاده از Vicuna LLM منبع باز محاسبه می‌شوند. PG-Video-LLaVA بهتر از روش‌های مکالمه مبتنی بر ویدیوی پیشنهادی قبلی عمل می‌کند.جدول 3. پاسخ به سوال مبتنی بر ویدئو Zeroshot: مقایسه PG-Video-LLaVA با سایر مدل های تولید کننده ویدئو. آخرین مدل‌های موجود برای همه رویکردها استفاده می‌شوند و معیارها با استفاده از Vicuna LLM منبع باز محاسبه می‌شوند. PG-Video-LLaVA بهتر از روش‌های مکالمه مبتنی بر ویدیوی پیشنهادی قبلی عمل می‌کند.

شکل 5. نتایج کیفی برای گنجاندن حالت صوتی: این شکل خط لوله پردازش صوتی یکپارچه را نشان می دهد که پاسخگویی به سؤالات ویدیویی را با نشانه های صوتی تقویت می کند. این مقایسه‌های جانبی را ارائه می‌کند که نشان می‌دهد چگونه نشانه‌های صوتی زمینه بیشتری را ارائه می‌دهند، که منجر به تفسیر دقیق‌تری از محتوای ویدیو می‌شود، همانطور که در مثال‌های بالا مشاهده می‌شود.شکل 5. نتایج کیفی برای گنجاندن حالت صوتی: این شکل خط لوله پردازش صوتی یکپارچه را نشان می دهد که پاسخگویی به سؤالات ویدیویی را با نشانه های صوتی تقویت می کند. این مقایسه‌های جانبی را ارائه می‌کند که نشان می‌دهد چگونه نشانه‌های صوتی زمینه بیشتری را ارائه می‌دهند، که منجر به تفسیر دقیق‌تری از محتوای ویدیو می‌شود، همانطور که در مثال‌های بالا مشاهده می‌شود.

در مقیاس 1 تا 5 اختصاص داده شده است. نتایج در جدول 3 ارائه شده است.

در مقایسه با …

Source link