جدول پیوندها
چکیده و 1 مقدمه
2. کارهای مرتبط
3. LLaVA-Phi و 3.1. آموزش
3.2. نتایج کیفی
4. آزمایشات
5. نتیجه گیری، محدودیت، و آثار و مراجع آینده
پیشرفت های سریع در مدل های زبان بزرگ (LLM) به طور قابل توجهی باعث توسعه مدل های زبان بینایی بر اساس LLM شده است. این مدلها که نشاندهنده انحراف از قابلیتهای دوران preLLM هستند، مجهز به مهارتهای پیشرفته پاسخگویی به سؤال و درک بصری هستند. این پیشرفت با استفاده از LLM به عنوان ماژول های رمزگذاری زبان فعال می شود. تحقیقات قابل توجه در این حوزه شامل خانواده LLaVA است [24, 25, 26, 32]، خانواده BLIP [8, 20]، MiniGPT-4 [37]، و دیگران. هر کدام پیشرفت های قابل توجهی را در مدیریت گفتگوهای بصری محور نشان داده اند. با این حال، محدودیت رایج این مدلهای زبان بینایی منبع باز (VLM) نیازهای محاسباتی قابل توجه آنها است که معمولاً از پارامترهای 7B تا 65B متغیر است. این نیاز چالش هایی را برای استقرار بر روی لبه یا دستگاه های تلفن همراه، به ویژه در برنامه های بلادرنگ ایجاد می کند. جوزا [33]که پیشرو در این زمینه است، سه نسخه از مدل های ویژن زبان، از جمله جمینی-نانو جمع و جور با پارامترهای 1.8B/3.25B را برای گوشی های هوشمند منتشر کرده است. با این حال، مدل ها و داده های آنها منبع باز نیستند. دیگری…