پازل گیج کننده: چگونه کمیت بیت بر دقت AI تأثیر می گذارد

نویسندگان:

(1) Wanyun Cui ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.

(2) Qianle Wang ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.

چکیده و 1 مقدمه

2 کار مرتبط

3 تعیین تأثیر پارامترها بر عملکرد مدل و 4. آموزش دقیق با دقت مختلط

5 شیوع ناهمگونی پارامتر در LLMS

6 آزمایش کمیت و 6.1 جزئیات پیاده سازی

6.2 تأثیر کمیت LLM پایه

6.3 تأثیر کمیت LLM چت

6.4 مقایسه معیارهای انتخاب پارامتر ، نتیجه گیری و منابع

6.2 تأثیر کمیت LLM پایه

در این بخش ، ما نتایج آزمایشی اصلی را نشان می دهیم که اثربخشی CherryQ در Llama2 را نشان می دهد [23]بشر ما CherryQ را با هر دو کار گیج کننده و پایین دست ارزیابی می کنیم و عملکرد آن را در برابر روشهای کمیته ای پیشرفته مقایسه می کنیم.

6.2.1 نتایج گیج کننده

ما دنبال می کنیم [8, 21] برای ارزیابی گیج کننده CherryQ در دو شرکت بسیار مورد استفاده: C4 و Wikitext2 [19]بشر ما از تقسیم اعتبارسنجی C4 برای جلوگیری از نشت داده استفاده می کنیم. ما نتایج کمیت 3 بیتی را با استفاده از رویکردهای مختلف کمیت در جدول 1 نشان می دهیم. ما نتایج مقیاس های مختلف مدل و اندازه گروه های مختلف را نشان می دهیم.

از نتایج ، Cherryq به طور مداوم از همه بهتر است …

Source link