معیارهای چند زبانه Mixtral، عملکرد طولانی مدت و معیارهای تعصب

چکیده و 1. مقدمه

2 جزئیات معماری و 2.1 ترکیب پراکنده کارشناسان

3 نتیجه

3.1 معیارهای چند زبانه، 3.2 عملکرد طولانی مدت و 3.3 معیارهای سوگیری

4 دستورالعمل تنظیم دقیق

5 تحلیل مسیریابی

6 نتیجه گیری، قدردانی ها و مراجع

3.1 معیارهای چند زبانه

در مقایسه با Mistral 7B، ما به طور قابل توجهی نسبت داده های چند زبانه را در طول دوره پیش آموزش نمونه برداری می کنیم. ظرفیت اضافی به Mixtral اجازه می دهد تا در معیارهای چند زبانه عملکرد خوبی داشته باشد و در عین حال دقت بالایی را در زبان انگلیسی حفظ کند. به طور خاص، همانطور که در جدول 4 نشان داده شده است، Mixtral به طور قابل توجهی بهتر از Llama 2 70B در زبان های فرانسوی، آلمانی، اسپانیایی و ایتالیایی است.

جدول 4: مقایسه Mixtral با Llama در معیارهای چند زبانه. در چالش های ARC، Hellaswag و MMLU، Mixtral در 4 زبان: فرانسوی، آلمانی، اسپانیایی و ایتالیایی بهتر از Llama 2 70B عمل می کند.جدول 4: مقایسه Mixtral با Llama در معیارهای چند زبانه. در چالش های ARC، Hellaswag و MMLU، Mixtral در 4 زبان: فرانسوی، آلمانی، اسپانیایی و ایتالیایی بهتر از Llama 2 70B عمل می کند.

3.2 عملکرد طولانی مدت

برای ارزیابی قابلیت‌های Mixtral برای مقابله با زمینه طولانی، آن را در کار بازیابی کلید عبور که در [23]، یک کار مصنوعی طراحی شده برای اندازه گیری توانایی مدل برای بازیابی کلید عبور که به طور تصادفی در یک اعلان طولانی درج شده است. نتایج در شکل 4 (سمت چپ) نشان می دهد که Mixtral بدون توجه به طول زمینه یا موقعیت کلید عبور در دنباله، به دقت بازیابی 100% دست می یابد. شکل 4 (راست) نشان می دهد که گیجی Mixtral در زیر مجموعه ای از مجموعه داده اثبات شمع [2] با افزایش اندازه زمینه به طور یکنواخت کاهش می یابد.

شکل 4: عملکرد برد بلند Mixtral. (سمت چپ) Mixtral دارای 100% دقت بازیابی وظیفه Passkey بدون در نظر گرفتن محل کلید عبور و طول دنباله ورودی است. (راست) با افزایش طول زمینه، گیجی Mixtral در مجموعه داده اثبات شمع به طور یکنواخت کاهش می یابد.شکل 4: عملکرد برد بلند Mixtral. (سمت چپ) Mixtral دارای 100% دقت بازیابی وظیفه Passkey بدون توجه به محل کلید عبور و طول دنباله ورودی است. (راست) با افزایش طول زمینه، گیجی Mixtral در مجموعه داده اثبات شمع به طور یکنواخت کاهش می یابد.

3.3 معیارهای تعصب

برای شناسایی احتمالی …

Source link