جدول پیوندها
چکیده و 1. مقدمه
2 جزئیات معماری و 2.1 ترکیب پراکنده کارشناسان
3 نتیجه
3.1 معیارهای چند زبانه، 3.2 عملکرد طولانی مدت و 3.3 معیارهای سوگیری
4 دستورالعمل تنظیم دقیق
5 تحلیل مسیریابی
6 نتیجه گیری، قدردانی ها و مراجع
3.1 معیارهای چند زبانه
در مقایسه با Mistral 7B، ما به طور قابل توجهی نسبت داده های چند زبانه را در طول دوره پیش آموزش نمونه برداری می کنیم. ظرفیت اضافی به Mixtral اجازه می دهد تا در معیارهای چند زبانه عملکرد خوبی داشته باشد و در عین حال دقت بالایی را در زبان انگلیسی حفظ کند. به طور خاص، همانطور که در جدول 4 نشان داده شده است، Mixtral به طور قابل توجهی بهتر از Llama 2 70B در زبان های فرانسوی، آلمانی، اسپانیایی و ایتالیایی است.
3.2 عملکرد طولانی مدت
برای ارزیابی قابلیتهای Mixtral برای مقابله با زمینه طولانی، آن را در کار بازیابی کلید عبور که در [23]، یک کار مصنوعی طراحی شده برای اندازه گیری توانایی مدل برای بازیابی کلید عبور که به طور تصادفی در یک اعلان طولانی درج شده است. نتایج در شکل 4 (سمت چپ) نشان می دهد که Mixtral بدون توجه به طول زمینه یا موقعیت کلید عبور در دنباله، به دقت بازیابی 100% دست می یابد. شکل 4 (راست) نشان می دهد که گیجی Mixtral در زیر مجموعه ای از مجموعه داده اثبات شمع [2] با افزایش اندازه زمینه به طور یکنواخت کاهش می یابد.
3.3 معیارهای تعصب
برای شناسایی احتمالی …