جدول پیوندها
چکیده و 1. مقدمه
2 مدل اصلی GPT4All
2.1 گردآوری و مدیریت داده ها
2.2 آموزش مدل، 2.3 دسترسی به مدل و 2.4 ارزیابی مدل
3 از یک مدل به یک اکوسیستم
3.1 GPT4All-J: رشد مخزن و پیامدهای مجوز LLaMA
3.2 GPT4All-Snoozy: ظهور اکوسیستم GPT4All
3.3 وضعیت فعلی GPT4All
4 آینده GPT4All
محدودیت ها و مراجع
2 مدل اصلی GPT4All
2.1 گردآوری و مدیریت داده ها
برای آموزش مدل اصلی GPT4All، ما تقریباً یک میلیون جفت پاسخ سریع را با استفاده از GPT-3.5-Turbo OpenAI API بین 20 مارس 2023 تا 26 مارس 2023 جمع آوری کردیم. به ویژه، ما پاسخ های GPT3.5-Turbo را به درخواست ها جمع آوری کردیم. سه مجموعه داده در دسترس عموم: زیرمجموعه چیپ2 یکپارچه LAION OIG، یک تصادفی نمونه فرعی سوالات Stackoverflow و یک نمونه فرعی از Bigscience/P3 (سانه و همکاران، 2021). با پیروی از رویکرد Stanford Alpaca (Taori و همکاران، 2023)، یک نوع LLaMA منبع باز که درست قبل از GPT4All آمده بود، ما تلاش قابل توجهی را بر روی تنظیم مجموعه داده متمرکز کردیم.
مجموعه داده جمعآوریشده در Atlas (AI، 2023) بارگیری شد – یک رابط بصری برای کاوش و برچسبگذاری مجموعههای داده عظیم بدون ساختار – برای پردازش دادهها. با استفاده از AtarXiv:2311.04931v1 [cs.CL] در 6 نوامبر 2023، شناسایی کردیم و…