آشنایی با لایه ترکیبی کارشناسان در میکسترال

چکیده و 1. مقدمه

2 جزئیات معماری و 2.1 ترکیب پراکنده کارشناسان

3 نتیجه

3.1 معیارهای چند زبانه، 3.2 عملکرد طولانی مدت و 3.3 معیارهای سوگیری

4 دستورالعمل تنظیم دقیق

5 تحلیل مسیریابی

6 نتیجه گیری، قدردانی ها و مراجع

2 جزئیات معماری

Mixtral بر اساس معماری ترانسفورماتور است [31] و از همان تغییراتی که در توضیح داده شد استفاده می کند [18]، با استثناهای قابل توجه که Mixtral از طول زمینه کاملاً متراکم 32 هزار توکن پشتیبانی می کند و بلوک های پیشخور با لایه های Mixture-of-Expert جایگزین می شوند (بخش 2.1). پارامترهای معماری مدل در جدول 1 خلاصه شده است.

جدول 1: معماری مدل.جدول 1: معماری مدل.

2.1 ترکیبی پراکنده از کارشناسان

ما یک نمای کلی از لایه Mixture of Experts ارائه می دهیم (شکل 1). برای بررسی عمیق تر، نگاه کنید [12]. خروجی ماژول MoE برای یک ورودی مشخص x توسط مجموع وزنی خروجی های شبکه های خبره تعیین می شود، جایی که وزن ها توسط خروجی شبکه دروازه ای داده می شود. به عنوان مثال n شبکه خبره {E0, Ei , …, En−1} داده می شود، خروجی لایه خبره به صورت زیر داده می شود:

لایه‌های MoE را می‌توان به طور موثر بر روی پردازنده‌های گرافیکی تکی با هسته‌های تخصصی با کارایی بالا اجرا کرد. مثلا مگابلاک ها [13] عملیات شبکه پیشخور (FFN) لایه MoE را به صورت ماتریس پراکنده بزرگ می‌فرستد…

Source link