کمیت مدلهای بزرگ زبان: آیا می توانیم دقت را حفظ کنیم؟

::: اطلاعات
نویسندگان:

(1) Wanyun Cui ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.

(2) Qianle Wang ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.

:::

چکیده و 1 مقدمه

2 کار مرتبط

3 تعیین تأثیر پارامترها بر عملکرد مدل و 4. آموزش دقیق با دقت مختلط

5 شیوع ناهمگونی پارامتر در LLMS

6 آزمایش کمیت و 6.1 جزئیات پیاده سازی

6.2 تأثیر کمیت LLM پایه

6.3 تأثیر کمیت LLM چت

6.4 مقایسه معیارهای انتخاب پارامتر ، نتیجه گیری و منابع

6. آزمایش های کمیت

در بخش آزمایشی ، ما اثربخشی CherryQ را برای هر دو LLM های پایه و LLM های CHAT نشان می دهیم. ما همچنین معیارهای مختلف انتخاب پارامتر گیلاس را برای برجسته کردن ناهمگونی مبتنی بر ضربه مقایسه می کنیم.

6.1 جزئیات اجرای

بازنمایی پارامتر: بر اساس این مشاهدات که پارامترهای گیلاس نسبت بسیار کمی را اشغال می کنند ، برای هر ردیف پارامترها در هر ماتریس پارامتر ، ما فقط پارامترهای 1/256 برتر را با بالاترین تأثیر به عنوان پارامترهای گیلاس در نظر می گیریم و دقت FP16 خود را حفظ می کنیم. به عنوان مثال ، اندازه ماتریس پارامتر LLAMA2-7B 4096 4096 است. بنابراین ما 16 پارامتر با بالاترین ضربه برای هر ردیف را انتخاب می کنیم ، که …

Source link