تحلیل مسیریابی الگوهای انتخاب متخصص را در Mixtral نشان می دهد

چکیده و 1. مقدمه

2 جزئیات معماری و 2.1 ترکیب پراکنده کارشناسان

3 نتیجه

3.1 معیارهای چند زبانه، 3.2 عملکرد طولانی مدت و 3.3 معیارهای سوگیری

4 دستورالعمل تنظیم دقیق

5 تحلیل مسیریابی

6 نتیجه گیری، قدردانی ها و مراجع

5 تحلیل مسیریابی

در این بخش، یک تحلیل کوچک بر روی انتخاب خبره توسط روتر انجام می دهیم. به طور خاص، ما علاقه مندیم که ببینیم آیا در طول آموزش، برخی از متخصصان در برخی از حوزه های خاص (مانند ریاضیات، زیست شناسی، فلسفه و غیره) تخصص دارند یا خیر.

برای بررسی این موضوع، توزیع کارشناسان منتخب را در زیر مجموعه‌های مختلف مجموعه داده اعتبارسنجی The Pile اندازه‌گیری می‌کنیم [14]. نتایج در شکل 7 برای لایه های 0، 15 و 31 ارائه شده است (لایه های 0 و 31 به ترتیب اولین و آخرین لایه های مدل هستند). با کمال تعجب، الگوهای آشکاری را در تعیین تکلیف کارشناسان بر اساس موضوع مشاهده نمی کنیم. به عنوان مثال، در همه لایه ها، توزیع تکالیف کارشناسی برای مقالات ArXiv (نوشته شده در لاتکس)، برای زیست شناسی (PubMed Abstracts)، و برای اسناد فلسفه (PhilPapers) بسیار مشابه است.

فقط برای DM Mathematics، ما به توزیع کمی متفاوت از کارشناسان توجه می کنیم. این واگرایی احتمالاً نتیجه ماهیت ترکیبی مجموعه داده و پوشش محدود آن از …

Source link