مدل هوش مصنوعی توسط محققان اماراتی عربی که قادر به شناسایی اشیاء در ویدئوها هستند ساخته شده است

نویسندگان:

(1) Shehan Munasinghe، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛

(2) روسیرو توهارا، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛

(3) محمد معز، محمد بن زاید دانشگاه هوش مصنوعی;

(4) هانونا عبدالرشید، دانشگاه محمد بن زاید هوش مصنوعی؛

(5) سلمان خان، دانشگاه محمد بن زاید هوش مصنوعی و دانشگاه ملی استرالیا؛

(6) مبارک شاه، دانشگاه فلوریدا مرکزی;

(7) فهد خان، محمد بن زاید دانشگاه هوش مصنوعی و دانشگاه لینشوپینگ.

یادداشت ویرایشگر: این قسمت 7 از 10 مطالعه ای است که به جزئیات توسعه یک مدل هوش مصنوعی هوشمند برای ویدیوها می پردازد. بقیه را در ادامه بخوانید.

مواد تکمیلی

4.3. زمینه سازی فضایی در فیلم ها

برای ارزیابی کمی قابلیت زمین‌سازی فضایی PG-Video-LLaVA، ارزیابی‌های کمی از قابلیت‌های زمین‌بندی فضایی PGVideo-LLaVA را با استفاده از دو معیار که از مجموعه آزمایشی VidSTG مشتق شده‌اند، انجام دادیم. [48] و HC-STVG [34] مجموعه داده ها با توجه به تازگی

جدول 1. محک زدن عملکرد مدل های مکالمه مبتنی بر ویدئو. ارزیابی عملکرد مقایسه ای PG-Video-LLaVA در برابر مدل های مختلف با استفاده از چارچوب معیار از Video-ChatGPT [22]. این معیارها شامل درستی، جهت گیری جزئیات، درک زمینه ای، درک زمانی و سازگاری است. خط لوله ارزیابی به روز شده دارای Vicuna-13b-v1.5 است [7] برای تکرارپذیری افزایش یافته، جایگزین GPT-3.5-Turbo. نتایج نشان می‌دهد که PG-Video-LLaVA در مقایسه با مدل‌های بنیادی و پیشرفت‌های اخیر در این زمینه، عملکرد مطلوبی را در تمام معیارها، به ویژه در درک متنی و زمانی، به دست می‌آورد.جدول 1. محک زدن عملکرد مدل های مکالمه مبتنی بر ویدئو. ارزیابی عملکرد مقایسه ای PG-Video-LLaVA در برابر مدل های مختلف با استفاده از چارچوب معیار از Video-ChatGPT [22]. این معیارها شامل درستی، جهت گیری جزئیات، درک زمینه ای، درک زمانی و سازگاری است. خط لوله ارزیابی به روز شده دارای Vicuna-13b-v1.5 است [7] برای تکرارپذیری افزایش یافته، جایگزین GPT-3.5-Turbo. نتایج نشان می‌دهد که PG-Video-LLaVA در مقایسه با مدل‌های بنیادی و پیشرفت‌های اخیر در این زمینه، عملکرد مطلوبی را در تمام معیارها، به ویژه در درک متنی و زمانی، به دست می‌آورد.

شکل 3. مقایسه نتایج کیفی Video-ChatGPT در مقابل PG-Video-LLaVA (ما) تجزیه و تحلیل کیفی توصیفات ویدیویی تولید شده توسط مدل های Video-ChatGPT، PG-Video-LLaVA (7B) و PG-Video-LLaVA (13B). تکامل در عملکرد مدل مشهود است، با پیشرفت در دقت اطلاعات، غنای جزئیات توصیفی، و همسویی با زمینه ویدیو و توالی رویدادها، همانطور که ما از خط اصلی Video-ChatGPT به پیشرفته تر PG-Video LLaVA (13B) حرکت می کنیم. ) مدل.شکل 3. مقایسه نتایج کیفی Video-ChatGPT در مقابل PG-Video-LLaVA (ما) تجزیه و تحلیل کیفی توصیفات ویدیویی تولید شده توسط مدل های Video-ChatGPT، PG-Video-LLaVA (7B) و PG-Video-LLaVA (13B). تکامل در عملکرد مدل مشهود است، با پیشرفت در دقت اطلاعات، غنای جزئیات توصیفی، و همسویی با زمینه ویدیو و توالی رویدادها، همانطور که ما از خط اصلی Video-ChatGPT به پیشرفته تر PG-Video LLaVA (13B) حرکت می کنیم. ) مدل.

با ادغام زمین‌سازی فضایی در مدل‌های مکالمه ویدیویی، ماهیت مدولار خط لوله اتصال زمین خود را برجسته می‌کنیم، که می‌تواند با دیگر مدل‌های مکالمه ویدیویی پیشرفته ترکیب شود. برای مجموعه داده VidSTG،

شکل 4. نتایج کیفی برای زمین‌گذاری ویدئو: نمایش بصری قابلیت اتصال به زمین قابلیت‌های مکالمه ویدئویی پیشرفته PG-Video-LLaVA. مناطق برجسته شده در هر فریم ویدیو نشان دهنده توانایی مدل برای شناسایی و مکان یابی مکانی موضوعات کلیدی ذکر شده در توضیحات متنی مانند زرافه، مجسمه و ژیمناست روی یک پرتو تعادل است.شکل 4. نتایج کیفی برای زمین‌گذاری ویدئو: نمایش بصری قابلیت اتصال به زمین قابلیت‌های مکالمه ویدئویی پیشرفته PG-Video-LLaVA. مناطق برجسته شده در هر فریم ویدیو نشان دهنده توانایی مدل برای شناسایی و مکان یابی مکانی موضوعات کلیدی ذکر شده در توضیحات متنی مانند زرافه، مجسمه و ژیمناست روی یک پرتو تعادل است.

جدول 2. عملکرد PG-Video-LLaVA و سایر مدل‌ها در زمینه زمین‌سازی فضایی: با استفاده از معیارهای VidSTG و HCSTVG ارزیابی شده است، نتایج قابلیت‌های زمین‌بندی فضایی مطلوب PG-Video-LLaVA را نشان می‌دهد، همانطور که با توانایی آن در تولید پاسخ‌های توصیفی دقیق و اثبات می‌شود. به طور موثر عبارات ارجاع دهنده را در فریم های ویدئویی قرار دهید. جدول پیشرفت مدل را به ویژه در نسخه 13B نشان می دهد که عملکرد آن را در میان سایر مدل های مکالمه ویدیویی SoTA نشان می دهد.جدول 2. عملکرد PG-Video-LLaVA و سایر مدل‌ها در زمینه زمین‌سازی فضایی: با استفاده از معیارهای VidSTG و HCSTVG ارزیابی شده است، نتایج قابلیت‌های زمین‌بندی فضایی مطلوب PG-Video-LLaVA را نشان می‌دهد، همانطور که با توانایی آن در تولید پاسخ‌های توصیفی دقیق و اثبات می‌شود. به طور موثر عبارات ارجاع دهنده را در فریم های ویدئویی قرار دهید. جدول پیشرفت مدل را به ویژه در نسخه 13B نشان می دهد که عملکرد آن را در میان سایر مدل های مکالمه ویدیویی SoTA نشان می دهد.

ما به‌طور انتخابی درخواست‌های بازجویی را برای ارزیابی زمینه‌سازی پردازش کردیم…

Source link