::: اطلاعات
نویسندگان:
(1) Wanyun Cui ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.
(2) Qianle Wang ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.
:::
جدول پیوندها
چکیده و 1 مقدمه
2 کار مرتبط
3 تعیین تأثیر پارامترها بر عملکرد مدل و 4. آموزش دقیق با دقت مختلط
5 شیوع ناهمگونی پارامتر در LLMS
6 آزمایش کمیت و 6.1 جزئیات پیاده سازی
6.2 تأثیر کمیت LLM پایه
6.3 تأثیر کمیت LLM چت
6.4 مقایسه معیارهای انتخاب پارامتر ، نتیجه گیری و منابع
6. آزمایش های کمیت
در بخش آزمایشی ، ما اثربخشی CherryQ را برای هر دو LLM های پایه و LLM های CHAT نشان می دهیم. ما همچنین معیارهای مختلف انتخاب پارامتر گیلاس را برای برجسته کردن ناهمگونی مبتنی بر ضربه مقایسه می کنیم.
6.1 جزئیات اجرای
بازنمایی پارامتر: بر اساس این مشاهدات که پارامترهای گیلاس نسبت بسیار کمی را اشغال می کنند ، برای هر ردیف پارامترها در هر ماتریس پارامتر ، ما فقط پارامترهای 1/256 برتر را با بالاترین تأثیر به عنوان پارامترهای گیلاس در نظر می گیریم و دقت FP16 خود را حفظ می کنیم. به عنوان مثال ، اندازه ماتریس پارامتر LLAMA2-7B 4096 4096 است. بنابراین ما 16 پارامتر با بالاترین ضربه برای هر ردیف را انتخاب می کنیم ، که …