LLaVA-Phi: آموزشی که ما آن را انجام می دهیم

چکیده و 1 مقدمه

2. کارهای مرتبط

3. LLaVA-Phi و 3.1. آموزش

3.2. نتایج کیفی

4. آزمایشات

5. نتیجه گیری، محدودیت، و آثار و مراجع آینده

3. LLaVA-Phi

معماری کلی شبکه ما مشابه LLaVA-1.5 است. ما از CLIP ViT-L/14 از پیش آموزش دیده با وضوح 336×336 به عنوان رمزگذار بصری استفاده می کنیم. یک MLP دو لایه برای بهبود اتصال رمزگذار بصری و LLM اتخاذ شده است.

3.1. آموزش

نظارت بر تنظیم دقیق در Phi-2. مدل Phi-2 که به صورت عمومی منتشر شده است، تحت تنظیم دقیق قرار نگرفته است. تحقیقات قبلی نشان می دهد که حتی مقدار کمی از داده های با کیفیت بالا می تواند به طور قابل توجهی عملکرد را در زمینه هایی مانند ریاضیات، استدلال زبان، و وظایف کدگذاری افزایش دهد. در پرتو این، ما از تنظیم دقیق نظارت شده برای آموزش بیشتر Phi-2 با استفاده از مجموعه ای از داده های برتر استفاده کردیم. این داده ها در قالب Vicuna سازماندهی شدند. برای داده های تنظیم دقیق نظارت شده (SFT)، از ShareGPT از یک پلت فرم منبع باز استفاده کردیم. آموزش در دو دوره انجام شد، که با نرخ یادگیری اولیه 3e-5 شروع شد، که در طول زمان به صورت خطی کاهش یافت. یافته‌های ما نشان می‌دهد که اگرچه این مرحله ممکن است اختیاری باشد، استفاده از SFT در Phi-2 منجر به پیشرفت‌های متوسطی در اکثر معیارها می‌شود.

شکل 3. LLaVA-Phi قادر به انجام OCR دقیق بر روی معادلات ریاضی و حل آنها است.شکل 3. LLaVA-Phi قادر به انجام OCR دقیق بر روی معادلات ریاضی و حل آنها است.

آموزش LLaVA-Phi. رویکرد آموزشی ما …

Source link