نویسندگان:
(1) Shehan Munasinghe، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛
(2) روسیرو توهارا، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛
(3) محمد معز، محمد بن زاید دانشگاه هوش مصنوعی;
(4) هانونا عبدالرشید، دانشگاه محمد بن زاید هوش مصنوعی؛
(5) سلمان خان، دانشگاه محمد بن زاید هوش مصنوعی و دانشگاه ملی استرالیا؛
(6) مبارک شاه، دانشگاه فلوریدا مرکزی;
(7) فهد خان، محمد بن زاید دانشگاه هوش مصنوعی و دانشگاه لینشوپینگ.
یادداشت ویرایشگر: این بخش 10 از 10 مطالعه ای است که به جزئیات توسعه یک مدل هوش مصنوعی هوشمند برای ویدیوها می پردازد. بقیه را در ادامه بخوانید.
جدول پیوندها
مواد تکمیلی
الف. یکپارچه سازی مدالیت صوتی
در اینجا، جزئیات پیاده سازی یکپارچه سازی مدالیت صوتی را در PG-Video-LLaVA بیان می کنیم.
الف.1. فیلتر کردن رونوشت صوتی
برای تولید رونوشت های صوتی، ابتدا با استفاده از پیشرفته ترین Whisper آزمایش کردیم [24] مستقیما با این حال، رونوشتهای بهدستآمده بسیار پر سر و صدا، حاوی توهم و متنهای ناخواسته مانند اشعار آهنگها بودند. ارسال این رونوشت های صوتی خام به طور مستقیم به LLM بدون هیچ گونه فیلترینگ می تواند بر عملکرد کلی مدل تأثیر منفی بگذارد. بنابراین، یک روش پیش پردازش برای فیلتر کردن متن پر سر و صدا و نگه داشتن تنها بخشهای…