جدول پیوندها
چکیده و 1 مقدمه
2. کارهای مرتبط
3. LLaVA-Phi و 3.1. آموزش
3.2. نتایج کیفی
4. آزمایشات
5. نتیجه گیری، محدودیت، و آثار و مراجع آینده
5. نتیجه گیری، محدودیت و کارهای آینده
ما LLaVA-Phi را معرفی می کنیم، یک دستیار زبان بینایی که با استفاده از مدل زبان فشرده Phi-2 توسعه یافته است. کار ما نشان میدهد که چنین مدلهای زبان بینایی کوچک وقتی با روش آموزشی LLaVA و مجموعه دادههای انتخابی از دادههای باکیفیت ترکیب میشوند، میتوانند به طور موثر در معیارهای استاندارد عمل کنند. هدف اصلی پروژه ما کمک به جامعه در ایجاد مدلهای سبک وزن و چندوجهی با قابلیت استدلال زبان بینایی است که برای عملکرد بر روی دستگاههای لبه بهینه شده است. این نوآوری راه را برای استقرار دستیارهای چند وجهی در برنامه های حساس به زمان، مانند رباتیک هموار می کند. [35, 38].
محدودیت ها با توجه به اینکه Phi-2 از codegenmono استفاده می کند [29] توکنایزر و مدل ما به طور خاص برای دنبال کردن دستورالعمل های چند زبانه تنظیم نشده است، معماری LLaVA-Phi ما قادر به پردازش دستورالعمل ها به چندین زبان از جمله چینی نیست.
آثار آینده. از آنجایی که مدلهای زبان در مقایسه با مدلهای سنتی زبان بینایی از نظر اندازه بسیار کوچکتر شدهاند، برای تحقیق در دسترستر و مقرون به صرفهتر شدهاند.