محققان اماراتی سیستم جدیدی را کشف کردند که به هوش مصنوعی در درک ویدیوها کمک می کند

نویسندگان:

(1) Shehan Munasinghe، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛

(2) روسیرو توهارا، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛

(3) محمد معز، محمد بن زاید دانشگاه هوش مصنوعی;

(4) هانونا عبدالرشید، دانشگاه محمد بن زاید هوش مصنوعی؛

(5) سلمان خان، دانشگاه محمد بن زاید هوش مصنوعی و دانشگاه ملی استرالیا؛

(6) مبارک شاه، دانشگاه فلوریدا مرکزی;

(7) فهد خان، محمد بن زاید دانشگاه هوش مصنوعی و دانشگاه لینشوپینگ.

یادداشت ویرایشگر: این قسمت 4 از 10 مطالعه ای است که به جزئیات توسعه یک مدل هوش مصنوعی هوشمند برای ویدیوها می پردازد. بقیه را در ادامه بخوانید.

مواد تکمیلی

3.2. معماری

در طراحی معماری ما، استخراج ویژگی های مکانی-زمانی از Video-ChatGPT الهام گرفته شده است. [22]با استفاده از وضوح بالاتر 336×336 پیکسل برای رمزگذاری ویژگی‌های سطح فریم، بهبود بیشتری دارد.

36×336 پیکسل برای رمزگذاری ویژگی‌های سطح فریم. در معماری PG-Video-LLaVA، ما یک پرسپترون چندلایه (MLP) قابل یادگیری را پیاده سازی کرده ایم که به عنوان g تعیین شده است تا به عنوان اتصال دهنده متقابل ما عمل کند. این MLP به طور پیچیده ای طراحی شده است تا ویژگی های سطح ویدیو را در فضای تعبیه شده رمزگشای زبان نمایش دهد. این از LLaVA-1.5 الهام گرفته شده است [18]با هدف بهینه سازی …

Source link