GPT4All: آموزش مدل، دسترسی به مدل، و ارزیابی مدل

چکیده و 1. مقدمه

2 مدل اصلی GPT4All

2.1 گردآوری و مدیریت داده ها

2.2 آموزش مدل، 2.3 دسترسی به مدل و 2.4 ارزیابی مدل

3 از یک مدل به یک اکوسیستم

3.1 GPT4All-J: رشد مخزن و پیامدهای مجوز LLaMA

3.2 GPT4All-Snoozy: ظهور اکوسیستم GPT4All

3.3 وضعیت فعلی GPT4All

4 آینده GPT4All

محدودیت ها و مراجع

2.2 آموزش مدل

مدل اصلی GPT4All یک نوع تنظیم شده از LLaMA 7B بود. به منظور آموزش کارآمدتر، وزن‌های پایه LLaMA را منجمد کردیم و تنها مجموعه کوچکی از وزنه‌های LoRA (هو و همکاران، 2021) را در طول فرآیند تنظیم دقیق آموزش دادیم. فراپارامترهای مدل دقیق و کد آموزشی را می توان در مخزن کد مرتبط ما یافت[1].

2.3 دسترسی به مدل

ما همه داده‌ها، کد آموزشی و وزن‌های مدل را به‌طور عمومی منتشر کردیم تا جامعه بر اساس آن بسازد. علاوه بر این، ما یک نسخه کوانتیزه‌شده 4 بیتی از این مدل را ارائه کردیم که به کاربران امکان می‌داد آن را روی سخت‌افزار کالای خود بدون انتقال داده به یک سرویس شخص ثالث اجرا کنند.

هزینه‌های تحقیق و توسعه ما با حدود 800 دلار هزینه GPU (اجاره‌شده از Lambda Labs و Paperspace) و 500 دلار در OpenAI API تحت سلطه بود. مدل نهایی GPT4All ما می تواند در حدود هشت ساعت در آزمایشگاه Lambda DGX A100 آموزش ببیند.

Source link