مدل اصلی GPT4All: چگونه داده‌ها را جمع‌آوری کردیم و سپس آن‌ها را مدیریت کردیم

چکیده و 1. مقدمه

2 مدل اصلی GPT4All

2.1 گردآوری و مدیریت داده ها

2.2 آموزش مدل، 2.3 دسترسی به مدل و 2.4 ارزیابی مدل

3 از یک مدل به یک اکوسیستم

3.1 GPT4All-J: رشد مخزن و پیامدهای مجوز LLaMA

3.2 GPT4All-Snoozy: ظهور اکوسیستم GPT4All

3.3 وضعیت فعلی GPT4All

4 آینده GPT4All

محدودیت ها و مراجع

2 مدل اصلی GPT4All

2.1 گردآوری و مدیریت داده ها

برای آموزش مدل اصلی GPT4All، ما تقریباً یک میلیون جفت پاسخ سریع را با استفاده از GPT-3.5-Turbo OpenAI API بین 20 مارس 2023 تا 26 مارس 2023 جمع آوری کردیم. به ویژه، ما پاسخ های GPT3.5-Turbo را به درخواست ها جمع آوری کردیم. سه مجموعه داده در دسترس عموم: زیرمجموعه چیپ2 یکپارچه LAION OIG، یک تصادفی نمونه فرعی سوالات Stackoverflow و یک نمونه فرعی از Bigscience/P3 (سانه و همکاران، 2021). با پیروی از رویکرد Stanford Alpaca (Taori و همکاران، 2023)، یک نوع LLaMA منبع باز که درست قبل از GPT4All آمده بود، ما تلاش قابل توجهی را بر روی تنظیم مجموعه داده متمرکز کردیم.

مجموعه داده جمع‌آوری‌شده در Atlas (AI، 2023) بارگیری شد – یک رابط بصری برای کاوش و برچسب‌گذاری مجموعه‌های داده عظیم بدون ساختار – برای پردازش داده‌ها. با استفاده از AtarXiv:2311.04931v1 [cs.CL] در 6 نوامبر 2023، شناسایی کردیم و…

Source link