نویسندگان:
(1) Shehan Munasinghe، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛
(2) روسیرو توهارا، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛
(3) محمد معز، محمد بن زاید دانشگاه هوش مصنوعی;
(4) هانونا عبدالرشید، دانشگاه محمد بن زاید هوش مصنوعی؛
(5) سلمان خان، دانشگاه محمد بن زاید هوش مصنوعی و دانشگاه ملی استرالیا؛
(6) مبارک شاه، دانشگاه فلوریدا مرکزی;
(7) فهد خان، محمد بن زاید دانشگاه هوش مصنوعی و دانشگاه لینشوپینگ.
یادداشت ویرایشگر: این قسمت 8 از 10 مطالعه ای است که به جزئیات توسعه یک مدل هوش مصنوعی هوشمند برای ویدیوها می پردازد. بقیه را در ادامه بخوانید.
جدول پیوندها
مواد تکمیلی
4.4. پاسخگویی به سوال تصویری صفر شات
برای PG-Video-LLaVA، قابلیتهای پاسخگویی به سؤالات صفر شات (QA) به صورت کمی با استفاده از چندین مجموعه داده QA با پایان باز مورد ارزیابی قرار گرفت: MSRVTT-QA[40]، MSVD-QA [39]، TGIF-QA [16]و ActivityNet-QA [44]. این مجموعه دادهها معیارهایی برای ارزیابی توانایی یک مدل برای ایجاد پاسخهای دقیق بدون تنظیم دقیق دادههای خاص هستند. ما با استفاده از Vicuna-13b-v1.5، یک روش ارزیابی صفر شات را برای ارزیابی درک مدل و دقت پیشبینی، با امتیازات اتخاذ کردیم.
در مقیاس 1 تا 5 اختصاص داده شده است. نتایج در جدول 3 ارائه شده است.
در مقایسه با …