OpenAI ادعا می کند که مدل جدید “o1” می تواند مانند یک انسان استدلال کند

OpenAI از آخرین مدل زبان خود، “o1” رونمایی کرده است که از پیشرفت‌ها در قابلیت‌های استدلال پیچیده حمایت می‌کند.

در اطلاعیه ای، این شرکت ادعا کرد که مدل جدید o1 آن می تواند با عملکرد انسان در آزمون های ریاضی، برنامه نویسی و دانش علمی مطابقت داشته باشد.

با این حال، تاثیر واقعی همچنان حدس و گمان است.

مطالبات فوق العاده

بر اساس OpenAI، o1 می تواند در چالش های برنامه نویسی رقابتی که توسط Codeforces میزبانی می شود، در صدک 89 امتیاز کسب کند.

این شرکت اصرار دارد که مدلش می تواند در سطحی عمل کند که آن را در بین 500 دانش آموز برتر ملی در آزمون نخبگان ریاضی دعوتی آمریکا (AIME) قرار دهد.

علاوه بر این، OpenAI بیان می‌کند که o1 از میانگین عملکرد متخصصان موضوع انسانی که دارای مدرک دکترا در آزمون ترکیبی فیزیک، شیمی و زیست‌شناسی هستند، فراتر می‌رود.

اینها ادعاهای خارق‌العاده‌ای هستند و تا زمانی که شاهد بررسی باز و آزمایش در دنیای واقعی نباشیم، مهم است که شک داشته باشیم.

یادگیری تقویتی

پیشرفت ادعا شده، فرآیند یادگیری تقویتی o1 است، که برای آموزش مدل برای شکستن مسائل پیچیده با استفاده از رویکردی به نام “زنجیره فکر” طراحی شده است.

با شبیه‌سازی منطق گام به گام انسان‌مانند، تصحیح اشتباهات و تنظیم استراتژی‌ها قبل از خروجی پاسخ نهایی، OpenAI ادعا می‌کند که o1 مهارت‌های استدلالی برتر را در مقایسه با مدل‌های زبان استاندارد توسعه داده است.

مفاهیم

مشخص نیست که استدلال ادعایی o1 چگونه می تواند درک پرس و جوها – یا تولید پاسخ ها – را در سراسر ریاضیات، کدنویسی، علوم و سایر موضوعات فنی افزایش دهد.

از منظر سئو، هر چیزی که تفسیر محتوا و توانایی پاسخگویی مستقیم به سوالات را بهبود بخشد، می تواند تاثیرگذار باشد. با این حال، عاقلانه است که تا زمانی که شاهد آزمایش عینی شخص ثالث نباشیم، محتاط باشیم.

OpenAI باید فراتر از معیارها حرکت کند و شواهد عینی و قابل تکرار برای حمایت از ادعاهای خود ارائه دهد. افزودن قابلیت‌های o1 به ChatGPT در خلبان‌های برنامه‌ریزی‌شده در دنیای واقعی باید به نمایش موارد استفاده واقعی کمک کند.


تصویر ویژه: JarTee/Shutterstock

Source link