نویسندگان:
(1) Shehan Munasinghe، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛
(2) روسیرو توهارا، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛
(3) محمد معز، محمد بن زاید دانشگاه هوش مصنوعی;
(4) هانونا عبدالرشید، دانشگاه محمد بن زاید هوش مصنوعی؛
(5) سلمان خان، دانشگاه محمد بن زاید هوش مصنوعی و دانشگاه ملی استرالیا؛
(6) مبارک شاه، دانشگاه فلوریدا مرکزی;
(7) فهد خان، محمد بن زاید دانشگاه هوش مصنوعی و دانشگاه لینشوپینگ.
یادداشت ویرایشگر: این قسمت 4 از 10 مطالعه ای است که به جزئیات توسعه یک مدل هوش مصنوعی هوشمند برای ویدیوها می پردازد. بقیه را در ادامه بخوانید.
جدول پیوندها
مواد تکمیلی
3.2. معماری
در طراحی معماری ما، استخراج ویژگی های مکانی-زمانی از Video-ChatGPT الهام گرفته شده است. [22]با استفاده از وضوح بالاتر 336×336 پیکسل برای رمزگذاری ویژگیهای سطح فریم، بهبود بیشتری دارد.
36×336 پیکسل برای رمزگذاری ویژگیهای سطح فریم. در معماری PG-Video-LLaVA، ما یک پرسپترون چندلایه (MLP) قابل یادگیری را پیاده سازی کرده ایم که به عنوان g تعیین شده است تا به عنوان اتصال دهنده متقابل ما عمل کند. این MLP به طور پیچیده ای طراحی شده است تا ویژگی های سطح ویدیو را در فضای تعبیه شده رمزگشای زبان نمایش دهد. این از LLaVA-1.5 الهام گرفته شده است [18]با هدف بهینه سازی …