LLaVA-Phi: چگونه آن را با استفاده از مجموعه گسترده ای از معیارهای آکادمیک ارزیابی کردیم

چکیده و 1 مقدمه

2. کارهای مرتبط

3. LLaVA-Phi و 3.1. آموزش

3.2. نتایج کیفی

4. آزمایشات

5. نتیجه گیری، محدودیت، و آثار و مراجع آینده

4. آزمایشات

ما LLaVA-Phi را با استفاده از مجموعه گسترده‌ای از معیارهای آکادمیک که به‌طور خاص برای مدل‌های چند وجهی طراحی شده‌اند، به دقت ارزیابی کردیم. این شامل تست هایی برای پاسخگویی به سوالات عمومی مانند VQA-v2 بود [12]، VizWizQA [14]، ScienceQA [28]و TextQA [31]و همچنین ارزیابی های تخصصی تر مانند POPE [22] برای ارزیابی توهم شی، و MME [10]، MMBench [27]، و MMVet [36] برای ارزیابی جامع توانایی‌های چندوجهی متنوع، مانند درک بصری و استدلال متعارف بصری.

این معیارها برای به چالش کشیدن و بررسی دقیق وظایف پیچیده چند وجهی ساختار دقیقی دارند. ما LLaVA-Phi را با انواع مدل‌های پیشرفته و بزرگ زبان بینایی، همانطور که در جدول 1 توضیح داده شده است، محک زدیم. توجه به این نکته مهم است که هم روش ما و هم LLaVA1.5 از مجموعه داده‌های موجود عمومی برای قبل استفاده می‌کنند. -آموزش و تنظیم دقیق آموزش تصویری.

مدل ما ظرفیتی برای پاسخگویی به سؤالات مبتنی بر بصری نشان داد و از بسیاری از مدل‌های چندوجهی بزرگ موجود پیشی گرفت. شایان ذکر است که LLaVA-Phi از مدل هایی که از پارامتر 7B یا بزرگتر استفاده می کنند عملکرد بهتری داشت.

Source link