معرفی LLaVA-Phi: یک دستیار فشرده بینایی-زبان مجهز به یک مدل زبان کوچک

چکیده و 1 مقدمه

2. کارهای مرتبط

3. LLaVA-Phi و 3.1. آموزش

3.2. نتایج کیفی

4. آزمایشات

5. نتیجه گیری، محدودیت، و آثار و مراجع آینده

چکیده

در این مقاله، ما LLaVA-φ (LLaVA-Phi)، یک دستیار کارآمد چند وجهی را معرفی می‌کنیم که از قدرت مدل زبان کوچک اخیراً پیشرفته، Phi-2، برای تسهیل گفتگوهای چندوجهی استفاده می‌کند. LLaVA-Phi پیشرفت قابل توجهی را در قلمرو مدل های فشرده چند وجهی نشان می دهد. این نشان می‌دهد که حتی مدل‌های زبانی کوچک‌تر، با کمتر از 2.7B پارامتر، می‌توانند به‌طور موثر در گفتگوهای پیچیده‌ای شرکت کنند که هم عناصر متنی و هم عناصر بصری را ادغام می‌کنند، به شرطی که با مجموعه‌های با کیفیت بالا آموزش ببینند. مدل ما عملکرد قابل ستایشی را در معیارهای در دسترس عموم ارائه می دهد که شامل درک بصری، استدلال و ادراک مبتنی بر دانش است. فراتر از عملکرد قابل توجه آن در وظایف گفتگوی چندوجهی، مدل ما راه‌های جدیدی را برای برنامه‌های کاربردی در محیط‌ها و سیستم‌های حساس به زمان که نیاز به تعامل بلادرنگ دارند، مانند عوامل تجسم‌یافته، باز می‌کند. این پتانسیل مدل‌های زبانی کوچک‌تر را برای دستیابی به سطوح پیچیده‌ای از درک و تعامل، و در عین حال حفظ بهره‌وری بیشتر منابع، برجسته می‌کند. این پروژه در آدرس …

Source link