مدل جدید هوش مصنوعی بهتر از PalM-2 قدرتمند گوگل است

Inflection AI، سازندگان PI AI Personal Assistant ایجاد یک مدل زبان بزرگ و قدرتمند جدید به نام Inflection-2 را اعلام کردند که از مدل زبان PalM گوگل در طیف وسیعی از مجموعه داده‌های محک زدن بهتر است.

دستیار شخصی پی

Pi یک دستیار شخصی است که در وب و به عنوان یک برنامه برای دستگاه های تلفن همراه اندروید و اپل در دسترس است.

همچنین می توان آن را به عنوان یک مخاطب در واتس اپ اضافه کرد و از طریق پیام مستقیم فیس بوک و اینستاگرام به آن دسترسی داشت.

Pi طراحی شده است تا یک دستیار چت بات باشد که می تواند به سؤالات پاسخ دهد، در مورد هر چیزی از محصولات، علم یا محصولات تحقیق کند و می تواند مانند یک همراه بحث که مشاوره ارائه می دهد عمل کند.

LLM جدید به زودی پس از انجام تست ایمنی در هوش مصنوعی PI گنجانده می شود.

مدل زبان بزرگ عطف-2

Inflection-2 یک مدل زبان بزرگ است که از مدل PalM 2 Large گوگل که در حال حاضر پیچیده ترین مدل گوگل است، بهتر عمل می کند.

Inflection-2 در چندین معیار آزمایش شد و با PalM 2 و LLaMA 2 Meta و سایر مدل های زبان بزرگ (LLM) مقایسه شد.

به عنوان مثال، Google’s Palm 2 به سختی از Inflection-2 در مجموعه سؤالات طبیعی، مجموعه داده ای از سؤالات دنیای واقعی، عبور کرد.

PalM 2 امتیاز 37.5 و Inflection-2 امتیاز 37.3 را به دست آوردند که هر دو از LLaMA 2 که امتیاز 33.0 را کسب کردند بهتر عمل کردند.

MMLU – درک گسترده زبان چند وظیفه ای

Inflection AI نمرات محک زدن روی مجموعه داده MMLU را منتشر کرد که برای آزمایش LLM ها به روشی شبیه آزمایش انسان طراحی شده است.

این آزمون روی 57 موضوع در STEM (علوم، فناوری، مهندسی و ریاضی) و طیف گسترده ای از موضوعات دیگر مانند حقوق است.

هدف مجموعه داده شناسایی این است که LLM کجا قوی‌ترین و کجا ضعیف است.

با توجه به مقاله تحقیقاتی این مجموعه داده محک:

ما آزمایش جدیدی را برای اندازه‌گیری دقت چندکاره یک مدل متنی پیشنهاد می‌کنیم.

این آزمون شامل 57 وظیفه از جمله ریاضیات ابتدایی، تاریخ ایالات متحده، علوم کامپیوتر، حقوق و غیره است.

برای دستیابی به دقت بالا در این آزمون، مدل ها باید دانش گسترده جهانی و توانایی حل مسئله را داشته باشند.

ما متوجه شدیم که در حالی که اکثر مدل‌های اخیر دقت تصادفی تقریباً تصادفی دارند، بزرگترین مدل GPT-3 به طور میانگین تقریباً 20 درصد نسبت به شانس تصادفی بهبود می‌یابد.

با این حال، در هر یک از 57 کار، بهترین مدل‌ها هنوز نیاز به بهبودهای اساسی دارند تا بتوانند به دقت در سطح متخصص برسند.

مدل‌ها نیز عملکرد کج‌تری دارند و اغلب نمی‌دانند چه زمانی اشتباه می‌کنند.

بدتر از آن، آنها هنوز در برخی موضوعات مهم اجتماعی مانند اخلاق و قانون دقت تقریباً تصادفی دارند.

با ارزیابی جامع وسعت و عمق درک آکادمیک و حرفه ای یک مدل، آزمون ما می تواند برای تجزیه و تحلیل مدل ها در بسیاری از وظایف و شناسایی کاستی های مهم استفاده شود.

اینها امتیازات داده های محک MMLU به ترتیب ضعیف ترین تا قوی ترین هستند:

  • LLaMA 270b 68.9
  • GPT-3.5 70.0
  • Grok-1 73.0
  • PalM-2 بزرگ 78.3
  • Claude-2 _CoT 78.5
  • عطف-2 79.6
  • GPT-4 86.4

همانطور که در بالا مشاهده می شود، فقط GPT-4 امتیاز بالاتر از Inflection-2 دارد.

MBPP – کد و عملکرد استدلال ریاضی

Inflection AI یک مقایسه سر به سر بین GPT-4، PalM 2، LLaMA و Inflection-2 در آزمون های استدلال ریاضی و کد انجام داد و با توجه به اینکه به طور خاص برای حل مسائل ریاضی آموزش ندیده بود، به طرز شگفت انگیزی خوب عمل کرد.

مجموعه داده محک مورد استفاده MBPP (برنامه نویسی اصلی پایتون) نامیده می شود. این مجموعه داده شامل بیش از 1000 مشکل برنامه نویسی پایتون است.

چیزی که نمرات را به ویژه قابل توجه می کند این است که هوش مصنوعی Inflection در برابر PaLM-2S آزمایش شده است، که یک مدل زبان بزرگ متفاوت است که به طور خاص برای کدنویسی تنظیم شده است.

امتیازات MBPP:

  • LLaMA-2 70B: 45.0
  • PalM-2S: 50.0
  • عطف-2: 53.0

تصویری از نمرات کامل MBPP

مدل جدید هوش مصنوعی بهتر از PalM-2 قدرتمند گوگل است

تست مجموعه داده HumanEval

Inflection-2 همچنین از PaLM-2 در مجموعه داده حل مسئله HumanEval که توسط OpenAI توسعه و منتشر شده بود، بهتر عمل کرد.

Hugging Face این مجموعه داده را توصیف می کند:

مجموعه داده HumanEval منتشر شده توسط OpenAI شامل 164 مشکل برنامه نویسی با علامت تابع، رشته مستندات، بدنه و چندین تست واحد است.

آنها برای اطمینان از اینکه در مجموعه آموزشی مدل‌های تولید کد گنجانده نمی‌شوند، دست‌نویس شدند.

مشکلات برنامه نویسی به زبان پایتون نوشته شده اند و حاوی متن طبیعی انگلیسی در نظرات و رشته های مستند هستند.

این مجموعه داده توسط مهندسان و محققان در OpenAI ساخته شده است.

این نمرات است:

  • LLaMA-2 70B: 29.9
  • PalM-2S: 37.6
  • عطف-2: 44.5
  • GPT-4: 67.0

همانطور که در بالا مشاهده می شود، تنها GPT-4 امتیاز بالاتر از Inflection-2 را کسب کرد. با این حال باید مجدداً متذکر شد که Inflection-2 برای حل این نوع مشکلات تنظیم نشده است که این امتیازات را به یک دستاورد چشمگیر تبدیل می کند.

اسکرین شات نمرات کامل HumanEval

مدل جدید هوش مصنوعی بهتر از PalM-2 قدرتمند گوگل است

هوش مصنوعی عطف توضیح می دهد که چرا این امتیازات قابل توجه هستند:

نتایج در مورد معیارهای ریاضی و کدنویسی.

در حالی که هدف اصلی ما برای Inflection-2 بهینه سازی برای این توانایی های کدنویسی نبود، ما شاهد عملکرد قوی در هر دو مدل از قبل آموزش دیده خود هستیم.

این امکان وجود دارد که قابلیت‌های کدگذاری مدل خود را با تنظیم دقیق بر روی یک مجموعه داده با کد سنگین بیشتر افزایش دهیم.

یک LLM حتی قدرتمندتر در راه است

در اطلاعیه هوش مصنوعی Inflection آمده است که Inflection-2 بر روی 5000 پردازنده گرافیکی NVIDIA H100 آموزش داده شده است. آنها در حال برنامه ریزی برای آموزش یک مدل حتی بزرگتر بر روی یک کلاستر 22000 GPU هستند، چندین سفارش بزرگتر از کلاستر 5000 GPU که Inflection-2 روی آن آموزش داده شده بود.

گوگل و OpenAI با رقابت شدیدی از سوی استارت آپ های بسته و متن باز روبرو هستند. هوش مصنوعی Inflection به رده های بالای استارت آپ هایی با هوش مصنوعی قدرتمند در دست توسعه می پیوندد.

دستیار شخصی PI یک پلتفرم هوش مصنوعی محاوره‌ای با فناوری زیربنایی است که از هنر پیشرفته برخوردار است و امکان قدرتمندتر شدن حتی از سایر پلتفرم‌هایی که برای دسترسی به آن‌ها هزینه می‌کنند، می‌باشد.

اطلاعیه رسمی را بخوانید:

Inflection-2: The Next Step Up

از دستیار شخصی PI به صورت آنلاین بازدید کنید

تصویر ویژه توسط Shutterstock/Malchevska

سئو PBN | خبر های جدید سئو و هک و سرور