OpenAI از آخرین مدل زبان خود، “o1” رونمایی کرده است که از پیشرفتها در قابلیتهای استدلال پیچیده حمایت میکند.
در اطلاعیه ای، این شرکت ادعا کرد که مدل جدید o1 آن می تواند با عملکرد انسان در آزمون های ریاضی، برنامه نویسی و دانش علمی مطابقت داشته باشد.
با این حال، تاثیر واقعی همچنان حدس و گمان است.
مطالبات فوق العاده
بر اساس OpenAI، o1 می تواند در چالش های برنامه نویسی رقابتی که توسط Codeforces میزبانی می شود، در صدک 89 امتیاز کسب کند.
این شرکت اصرار دارد که مدلش می تواند در سطحی عمل کند که آن را در بین 500 دانش آموز برتر ملی در آزمون نخبگان ریاضی دعوتی آمریکا (AIME) قرار دهد.
علاوه بر این، OpenAI بیان میکند که o1 از میانگین عملکرد متخصصان موضوع انسانی که دارای مدرک دکترا در آزمون ترکیبی فیزیک، شیمی و زیستشناسی هستند، فراتر میرود.
اینها ادعاهای خارقالعادهای هستند و تا زمانی که شاهد بررسی باز و آزمایش در دنیای واقعی نباشیم، مهم است که شک داشته باشیم.
یادگیری تقویتی
پیشرفت ادعا شده، فرآیند یادگیری تقویتی o1 است، که برای آموزش مدل برای شکستن مسائل پیچیده با استفاده از رویکردی به نام “زنجیره فکر” طراحی شده است.
با شبیهسازی منطق گام به گام انسانمانند، تصحیح اشتباهات و تنظیم استراتژیها قبل از خروجی پاسخ نهایی، OpenAI ادعا میکند که o1 مهارتهای استدلالی برتر را در مقایسه با مدلهای زبان استاندارد توسعه داده است.
مفاهیم
مشخص نیست که استدلال ادعایی o1 چگونه می تواند درک پرس و جوها – یا تولید پاسخ ها – را در سراسر ریاضیات، کدنویسی، علوم و سایر موضوعات فنی افزایش دهد.
از منظر سئو، هر چیزی که تفسیر محتوا و توانایی پاسخگویی مستقیم به سوالات را بهبود بخشد، می تواند تاثیرگذار باشد. با این حال، عاقلانه است که تا زمانی که شاهد آزمایش عینی شخص ثالث نباشیم، محتاط باشیم.
OpenAI باید فراتر از معیارها حرکت کند و شواهد عینی و قابل تکرار برای حمایت از ادعاهای خود ارائه دهد. افزودن قابلیتهای o1 به ChatGPT در خلبانهای برنامهریزیشده در دنیای واقعی باید به نمایش موارد استفاده واقعی کمک کند.
تصویر ویژه: JarTee/Shutterstock