چه چیزی لازم است تا هوش مصنوعی مانند ما ویدیوها را تماشا، گوش کند و درک کند؟

نویسندگان:

(1) Shehan Munasinghe، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛

(2) روسیرو توهارا، محمد بن زاید دانشگاه هوش مصنوعی و مشارکت برابر؛

(3) محمد معز، محمد بن زاید دانشگاه هوش مصنوعی;

(4) هانونا عبدالرشید، دانشگاه محمد بن زاید هوش مصنوعی؛

(5) سلمان خان، دانشگاه محمد بن زاید هوش مصنوعی و دانشگاه ملی استرالیا؛

(6) مبارک شاه، دانشگاه فلوریدا مرکزی;

(7) فهد خان، محمد بن زاید دانشگاه هوش مصنوعی و دانشگاه لینشوپینگ.

یادداشت ویرایشگر: این بخش 10 از 10 مطالعه ای است که به جزئیات توسعه یک مدل هوش مصنوعی هوشمند برای ویدیوها می پردازد. بقیه را در ادامه بخوانید.

مواد تکمیلی

الف. یکپارچه سازی مدالیت صوتی

در اینجا، جزئیات پیاده سازی یکپارچه سازی مدالیت صوتی را در PG-Video-LLaVA بیان می کنیم.

الف.1. فیلتر کردن رونوشت صوتی

برای تولید رونوشت های صوتی، ابتدا با استفاده از پیشرفته ترین Whisper آزمایش کردیم [24] مستقیما با این حال، رونوشت‌های به‌دست‌آمده بسیار پر سر و صدا، حاوی توهم و متن‌های ناخواسته مانند اشعار آهنگ‌ها بودند. ارسال این رونوشت های صوتی خام به طور مستقیم به LLM بدون هیچ گونه فیلترینگ می تواند بر عملکرد کلی مدل تأثیر منفی بگذارد. بنابراین، یک روش پیش پردازش برای فیلتر کردن متن پر سر و صدا و نگه داشتن تنها بخش‌های…

Source link