جدول پیوندها
چکیده و 1. مقدمه
2 جزئیات معماری و 2.1 ترکیب پراکنده کارشناسان
3 نتیجه
3.1 معیارهای چند زبانه، 3.2 عملکرد طولانی مدت و 3.3 معیارهای سوگیری
4 دستورالعمل تنظیم دقیق
5 تحلیل مسیریابی
6 نتیجه گیری، قدردانی ها و مراجع
4 دستورالعمل تنظیم دقیق
ما Mixtral را آموزش می دهیم – آموزش با استفاده از تنظیم دقیق نظارت شده (SFT) در مجموعه داده دستورالعمل و به دنبال آن بهینه سازی اولویت مستقیم (DPO) [25] در یک مجموعه داده بازخورد زوجی. Mixtral – Instruct در MT-Bench به امتیاز 8.30 می رسد [33] (جدول 2 را ببینید)، که آن را به بهترین مدل وزن باز تا دسامبر 2023 تبدیل می کند. ارزیابی انسانی مستقل انجام شده توسط LMSys در شکل 6 گزارش شده است. [3] و نشان می دهد که Mixtral – Instruct بهتر از گپ GPT-3.5-Turbo، Gemini Pro، Claude-2.1 و Llama 2 70B عمل می کند.
[3] https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
نویسندگان:
(1) آلبرت کیو جیانگ;
(2) Alexandre Sablayrolles;
(3) آنتوان روکس;
(4) آرتور منش;
(5) بلانش ساواری;
(6) کریس بامفورد;
(7) Devendra Singh Chaplot;
(8) Diego de las Casas;
(9) اما بو هانا;
(10) Florian Bressand;
(11) جیانا لنگیل؛
(12) گیوم بور;
(13) Guillaume Lamp;
(14) Lélio Renard Lavaud;
(15) Lucile Saulnier;
(16) ماری آن لاشو;
(17) Pierre Stock;
(18) ساندیپ سوبرامانیان;
(19)…