جدول پیوندها
چکیده و 1 مقدمه
2. کارهای مرتبط
3. LLaVA-Phi و 3.1. آموزش
3.2. نتایج کیفی
4. آزمایشات
5. نتیجه گیری، محدودیت، و آثار و مراجع آینده
چکیده
در این مقاله، ما LLaVA-φ (LLaVA-Phi)، یک دستیار کارآمد چند وجهی را معرفی میکنیم که از قدرت مدل زبان کوچک اخیراً پیشرفته، Phi-2، برای تسهیل گفتگوهای چندوجهی استفاده میکند. LLaVA-Phi پیشرفت قابل توجهی را در قلمرو مدل های فشرده چند وجهی نشان می دهد. این نشان میدهد که حتی مدلهای زبانی کوچکتر، با کمتر از 2.7B پارامتر، میتوانند بهطور موثر در گفتگوهای پیچیدهای شرکت کنند که هم عناصر متنی و هم عناصر بصری را ادغام میکنند، به شرطی که با مجموعههای با کیفیت بالا آموزش ببینند. مدل ما عملکرد قابل ستایشی را در معیارهای در دسترس عموم ارائه می دهد که شامل درک بصری، استدلال و ادراک مبتنی بر دانش است. فراتر از عملکرد قابل توجه آن در وظایف گفتگوی چندوجهی، مدل ما راههای جدیدی را برای برنامههای کاربردی در محیطها و سیستمهای حساس به زمان که نیاز به تعامل بلادرنگ دارند، مانند عوامل تجسمیافته، باز میکند. این پتانسیل مدلهای زبانی کوچکتر را برای دستیابی به سطوح پیچیدهای از درک و تعامل، و در عین حال حفظ بهرهوری بیشتر منابع، برجسته میکند. این پروژه در آدرس …