جدول پیوندها
چکیده و 1 مقدمه
2. کارهای مرتبط
3. LLaVA-Phi و 3.1. آموزش
3.2. نتایج کیفی
4. آزمایشات
5. نتیجه گیری، محدودیت، و آثار و مراجع آینده
4. آزمایشات
ما LLaVA-Phi را با استفاده از مجموعه گستردهای از معیارهای آکادمیک که بهطور خاص برای مدلهای چند وجهی طراحی شدهاند، به دقت ارزیابی کردیم. این شامل تست هایی برای پاسخگویی به سوالات عمومی مانند VQA-v2 بود [12]، VizWizQA [14]، ScienceQA [28]و TextQA [31]و همچنین ارزیابی های تخصصی تر مانند POPE [22] برای ارزیابی توهم شی، و MME [10]، MMBench [27]، و MMVet [36] برای ارزیابی جامع تواناییهای چندوجهی متنوع، مانند درک بصری و استدلال متعارف بصری.
این معیارها برای به چالش کشیدن و بررسی دقیق وظایف پیچیده چند وجهی ساختار دقیقی دارند. ما LLaVA-Phi را با انواع مدلهای پیشرفته و بزرگ زبان بینایی، همانطور که در جدول 1 توضیح داده شده است، محک زدیم. توجه به این نکته مهم است که هم روش ما و هم LLaVA1.5 از مجموعه دادههای موجود عمومی برای قبل استفاده میکنند. -آموزش و تنظیم دقیق آموزش تصویری.
مدل ما ظرفیتی برای پاسخگویی به سؤالات مبتنی بر بصری نشان داد و از بسیاری از مدلهای چندوجهی بزرگ موجود پیشی گرفت. شایان ذکر است که LLaVA-Phi از مدل هایی که از پارامتر 7B یا بزرگتر استفاده می کنند عملکرد بهتری داشت.