LLaVA-Phi: نتایج کیفی – نگاهی به قابلیت های قابل توجه تعمیم آن بیندازید

نویسندگان:

(1) Yichen Zhu، Midea Group;

(2) Minjie Zhu، Midea Group و East China Normal University.

(3) نینگ لیو، گروه Midea.

(4) Zhicai Ou، Midea Group;

(5) Xiaofeng Mou، Midea Group.

چکیده و 1 مقدمه

2. کارهای مرتبط

3. LLaVA-Phi و 3.1. آموزش

3.2. نتایج کیفی

4. آزمایشات

5. نتیجه گیری، محدودیت، و آثار و مراجع آینده

3.2. نتایج کیفی

ما چندین مثال ارائه می کنیم که قابلیت های تعمیم قابل توجه LLaVA-Phi را نشان می دهد و خروجی های آن را با مدل های LLaVA-1.5-13B مقایسه می کند. در شکل 1، یک میم نمایش داده می شود و از دستیار visionlanguage می خواهیم توضیح دهد که چرا این میم طنز محسوب می شود. در حالی که LLaVA-1.5-13B تفسیر معقولی بر اساس تصویر ارائه می دهد، پاسخ LLaVA-Phi همدلانه تر است و با مرتبط کردن «رفتار آرام» سگ با «استرس یا خستگی» که معمولاً با «هفته کاری جدید» همراه است، طنز را برجسته می کند. ‘.

در مثال دوم، همانطور که در شکل 2 نشان داده شده است، به مدل دستور دادیم تا کد پایتون را برای تبدیل جدول اکسل به نمودار میله ای تولید کند. دستورالعمل برای ایجاد یک طرح در مقابل، LLaVA-Phi با دقت …

Source link