آیا مدل های سبک chatgpt می توانند از کمیت زنده بمانند؟

نویسندگان:

(1) Wanyun Cui ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.

(2) Qianle Wang ، دانشگاه دارایی و اقتصاد شانگهای ، با سهم برابر.

چکیده و 1 مقدمه

2 کار مرتبط

3 تعیین تأثیر پارامترها بر عملکرد مدل و 4. آموزش دقیق با دقت مختلط

5 شیوع ناهمگونی پارامتر در LLMS

6 آزمایش کمیت و 6.1 جزئیات پیاده سازی

6.2 تأثیر کمیت LLM پایه

6.3 تأثیر کمیت LLM چت

6.4 مقایسه معیارهای انتخاب پارامتر ، نتیجه گیری و منابع

6.3 تأثیر کمیت LLM چت

ما آزمایشاتی را در مورد ویکونا -1.5 انجام می دهیم [5]بشر ما کمیت 3 بیتی را با اندازه گروه = 128 برای CherryQ و سایر خطوط استفاده می کنیم.

ارزیابی برای ارزیابی عملکرد مدلهای چت باز کمی ، ما از یک مقایسه جفت در ویکونا استفاده می کنیم [26]، که شامل 80 نمونه آزمایش است. ما پاسخ های ایجاد شده توسط مدل های کمیت شده را در برابر مدل های تولید شده توسط Vicuna-1.5 اصلی 16 بیتی مقایسه می کنیم. ارزیابی با استفاده از GPT-4 انجام می شود ، که به طور خودکار پاسخ مدل کمیت را به عنوان “پیروزی” ، “کراوات” یا “از دست دادن” نسبت به پاسخ مدل FP16 طبقه بندی می کند. برای خلاص شدن از تأثیر سفارش ارزیابی ، ما را دنبال می کنیم [17] به …

Source link