نویسندگان:
(1) Wanyun Cui ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.
(2) Qianle Wang ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.
جدول پیوندها
چکیده و 1 مقدمه
2 کار مرتبط
3 تعیین تأثیر پارامترها بر عملکرد مدل و 4. آموزش دقیق با دقت مختلط
5 شیوع ناهمگونی پارامتر در LLMS
6 آزمایش کمیت و 6.1 جزئیات پیاده سازی
6.2 تأثیر کمیت LLM پایه
6.3 تأثیر کمیت LLM چت
6.4 مقایسه معیارهای انتخاب پارامتر ، نتیجه گیری و منابع
چکیده
در این مقاله پدیده ناهمگونی پارامتر در مدلهای بزرگ زبان (LLMS) نشان داده شده است. ما می دانیم که یک زیر مجموعه کوچک از پارامترهای “گیلاس” تأثیر نامتناسب بر عملکرد مدل نشان می دهد ، در حالی که اکثریت قریب به اتفاق پارامترها تأثیر کمتری دارند. این ناهمگونی در خانواده ها ، مقیاس ها و انواع مختلف مدل شیوع دارد. با انگیزه این مشاهدات ، ما CherryQ را پیشنهاد می کنیم ، یک روش کمیت جدید که بهینه سازی پارامترهای با دقت مختلط را متحد می کند. CherryQ پارامترهای گیلاس بحرانی را با دقت بالا شناسایی و حفظ می کند در حالی که تهاجمی پارامترهای باقیمانده را به دقت کم می کند. آزمایش های گسترده …