جدول پیوندها
چکیده و 1. مقدمه
2 جزئیات معماری و 2.1 ترکیب پراکنده کارشناسان
3 نتیجه
3.1 معیارهای چند زبانه، 3.2 عملکرد طولانی مدت و 3.3 معیارهای سوگیری
4 دستورالعمل تنظیم دقیق
5 تحلیل مسیریابی
6 نتیجه گیری، قدردانی ها و مراجع
2 جزئیات معماری
Mixtral بر اساس معماری ترانسفورماتور است [31] و از همان تغییراتی که در توضیح داده شد استفاده می کند [18]، با استثناهای قابل توجه که Mixtral از طول زمینه کاملاً متراکم 32 هزار توکن پشتیبانی می کند و بلوک های پیشخور با لایه های Mixture-of-Expert جایگزین می شوند (بخش 2.1). پارامترهای معماری مدل در جدول 1 خلاصه شده است.
2.1 ترکیبی پراکنده از کارشناسان
ما یک نمای کلی از لایه Mixture of Experts ارائه می دهیم (شکل 1). برای بررسی عمیق تر، نگاه کنید [12]. خروجی ماژول MoE برای یک ورودی مشخص x توسط مجموع وزنی خروجی های شبکه های خبره تعیین می شود، جایی که وزن ها توسط خروجی شبکه دروازه ای داده می شود. به عنوان مثال n شبکه خبره {E0, Ei , …, En−1} داده می شود، خروجی لایه خبره به صورت زیر داده می شود:
لایههای MoE را میتوان به طور موثر بر روی پردازندههای گرافیکی تکی با هستههای تخصصی با کارایی بالا اجرا کرد. مثلا مگابلاک ها [13] عملیات شبکه پیشخور (FFN) لایه MoE را به صورت ماتریس پراکنده بزرگ میفرستد…