نویسندگان:
(1) Yichen Zhu، Midea Group;
(2) Minjie Zhu، Midea Group و East China Normal University.
(3) نینگ لیو، گروه Midea.
(4) Zhicai Ou، Midea Group;
(5) Xiaofeng Mou، Midea Group.
جدول پیوندها
چکیده و 1 مقدمه
2. کارهای مرتبط
3. LLaVA-Phi و 3.1. آموزش
3.2. نتایج کیفی
4. آزمایشات
5. نتیجه گیری، محدودیت، و آثار و مراجع آینده
3.2. نتایج کیفی
ما چندین مثال ارائه می کنیم که قابلیت های تعمیم قابل توجه LLaVA-Phi را نشان می دهد و خروجی های آن را با مدل های LLaVA-1.5-13B مقایسه می کند. در شکل 1، یک میم نمایش داده می شود و از دستیار visionlanguage می خواهیم توضیح دهد که چرا این میم طنز محسوب می شود. در حالی که LLaVA-1.5-13B تفسیر معقولی بر اساس تصویر ارائه می دهد، پاسخ LLaVA-Phi همدلانه تر است و با مرتبط کردن «رفتار آرام» سگ با «استرس یا خستگی» که معمولاً با «هفته کاری جدید» همراه است، طنز را برجسته می کند. ‘.
در مثال دوم، همانطور که در شکل 2 نشان داده شده است، به مدل دستور دادیم تا کد پایتون را برای تبدیل جدول اکسل به نمودار میله ای تولید کند. دستورالعمل برای ایجاد یک طرح در مقابل، LLaVA-Phi با دقت …