LLaVA-Phi: محدودیت ها و آنچه می توانید در آینده انتظار داشته باشید

چکیده و 1 مقدمه

2. کارهای مرتبط

3. LLaVA-Phi و 3.1. آموزش

3.2. نتایج کیفی

4. آزمایشات

5. نتیجه گیری، محدودیت، و آثار و مراجع آینده

5. نتیجه گیری، محدودیت و کارهای آینده

ما LLaVA-Phi را معرفی می کنیم، یک دستیار زبان بینایی که با استفاده از مدل زبان فشرده Phi-2 توسعه یافته است. کار ما نشان می‌دهد که چنین مدل‌های زبان بینایی کوچک وقتی با روش آموزشی LLaVA و مجموعه داده‌های انتخابی از داده‌های باکیفیت ترکیب می‌شوند، می‌توانند به طور موثر در معیارهای استاندارد عمل کنند. هدف اصلی پروژه ما کمک به جامعه در ایجاد مدل‌های سبک وزن و چندوجهی با قابلیت استدلال زبان بینایی است که برای عملکرد بر روی دستگاه‌های لبه بهینه شده است. این نوآوری راه را برای استقرار دستیارهای چند وجهی در برنامه های حساس به زمان، مانند رباتیک هموار می کند. [35, 38].

محدودیت ها با توجه به اینکه Phi-2 از codegenmono استفاده می کند [29] توکنایزر و مدل ما به طور خاص برای دنبال کردن دستورالعمل های چند زبانه تنظیم نشده است، معماری LLaVA-Phi ما قادر به پردازش دستورالعمل ها به چندین زبان از جمله چینی نیست.

آثار آینده. از آنجایی که مدل‌های زبان در مقایسه با مدل‌های سنتی زبان بینایی از نظر اندازه بسیار کوچک‌تر شده‌اند، برای تحقیق در دسترس‌تر و مقرون به صرفه‌تر شده‌اند.

Source link