چگونه تنظیم دقیق دستورالعمل Mixtral را افزایش می دهد – آموزش بالاتر از رقبا

چکیده و 1. مقدمه

2 جزئیات معماری و 2.1 ترکیب پراکنده کارشناسان

3 نتیجه

3.1 معیارهای چند زبانه، 3.2 عملکرد طولانی مدت و 3.3 معیارهای سوگیری

4 دستورالعمل تنظیم دقیق

5 تحلیل مسیریابی

6 نتیجه گیری، قدردانی ها و مراجع

4 دستورالعمل تنظیم دقیق

ما Mixtral را آموزش می دهیم – آموزش با استفاده از تنظیم دقیق نظارت شده (SFT) در مجموعه داده دستورالعمل و به دنبال آن بهینه سازی اولویت مستقیم (DPO) [25] در یک مجموعه داده بازخورد زوجی. Mixtral – Instruct در MT-Bench به امتیاز 8.30 می رسد [33] (جدول 2 را ببینید)، که آن را به بهترین مدل وزن باز تا دسامبر 2023 تبدیل می کند. ارزیابی انسانی مستقل انجام شده توسط LMSys در شکل 6 گزارش شده است. [3] و نشان می دهد که Mixtral – Instruct بهتر از گپ GPT-3.5-Turbo، Gemini Pro، Claude-2.1 و Llama 2 70B عمل می کند.

شکل 6: LMSys Leaderboard. (عکس از 22 دسامبر 2023) Mixtral 8x7B Instruct v0.1 به رتبه Arena Elo 1121 با عملکرد بهتر از Claude-2.1 (1117)، تمام نسخه های GPT-3.5-Turbo (1117 بهترین)، Gemini Pro (1111) و L می رسد. -2-70b-chat (1077). Mixtral در حال حاضر بهترین مدل وزن باز با اختلاف زیادی است.شکل 6: LMSys Leaderboard. (عکس از 22 دسامبر 2023) Mixtral 8x7B Instruct v0.1 به رتبه Arena Elo 1121 با عملکرد بهتر از Claude-2.1 (1117)، تمام نسخه های GPT-3.5-Turbo (1117 بهترین)، Gemini Pro (1111) و L می رسد. -2-70b-chat (1077). Mixtral در حال حاضر بهترین مدل وزن باز با اختلاف زیادی است.


[3] https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard


نویسندگان:

(1) آلبرت کیو جیانگ;

(2) Alexandre Sablayrolles;

(3) آنتوان روکس;

(4) آرتور منش;

(5) بلانش ساواری;

(6) کریس بامفورد;

(7) Devendra Singh Chaplot;

(8) Diego de las Casas;

(9) اما بو هانا;

(10) Florian Bressand;

(11) جیانا لنگیل؛

(12) گیوم بور;

(13) Guillaume Lamp;

(14) Lélio Renard Lavaud;

(15) Lucile Saulnier;

(16) ماری آن لاشو;

(17) Pierre Stock;

(18) ساندیپ سوبرامانیان;

(19)…

Source link