OpenAI مخفیانه سرمایه‌گذاری شده است مجموعه داده‌های معیاری مرتبط با مدل o3

افشاگری ها مبنی بر اینکه OpenAI مخفیانه سرمایه گذاری کرده و به مجموعه داده های معیار FrontierMath دسترسی داشته است، نگرانی هایی را در مورد اینکه آیا از آن برای آموزش مدل استدلال استدلالی هوش مصنوعی o3 خود و اعتبار نمرات بالای مدل استفاده شده است، ایجاد کرده است.

علاوه بر دسترسی به مجموعه داده های محک، OpenAI بودجه ایجاد آن را نیز تامین کرد، واقعیتی که از ریاضیدانانی که در توسعه FrontierMath مشارکت داشتند پنهان مانده بود. Epoch AI با تأخیر بودجه OpenAI را تنها در مقاله نهایی منتشر شده در Arxiv.org فاش کرد که معیار را اعلام کرد. در نسخه های قبلی این مقاله هیچ اشاره ای به دخالت OpenAI حذف نشده بود.

اسکرین شات از مقاله FrontierMath

OpenAI مخفیانه سرمایه‌گذاری شده است مجموعه داده‌های معیاری مرتبط با مدل o3

نمای نزدیک از قدردانی

نسخه قبلی مقاله که فاقد تأیید بود

مدل OpenAI 03 در معیار FrontierMath امتیاز بالایی کسب کرد

اخبار مربوط به دخالت مخفی OpenAI سوالاتی را در مورد نمرات بالای بدست آمده توسط مدل هوش مصنوعی استدلال o3 ایجاد می کند و باعث ناامیدی پروژه FrontierMath می شود. Epoch AI با شفافیت در مورد آنچه اتفاق افتاده و آنچه آنها انجام می دهند برای بررسی اینکه آیا مدل o3 با مجموعه داده FrontierMath آموزش داده شده است پاسخ داد.

دادن دسترسی OpenAI به مجموعه داده غیرمنتظره بود، زیرا هدف اصلی آن آزمایش مدل‌های هوش مصنوعی است، اما اگر مدل‌ها از قبل سؤالات و پاسخ‌ها را بدانند، این کار انجام نمی‌شود.

پستی در ساب ردیت r/singularity این ناامیدی را بیان کرد و به سندی اشاره کرد که ادعا می‌کرد ریاضیدانان از دخالت OpenAI اطلاعی نداشتند:

“Frontier Math، معیار ریاضی پیشرفته اخیر، توسط OpenAI تامین مالی می‌شود. گفته می شود که OpenAI به مشکلات و راه حل ها دسترسی دارد. این ناامید کننده است زیرا این معیار به عنوان وسیله ای برای ارزیابی مدل های مرزی با حمایت ریاضیدانان مشهور به عموم فروخته شد. در واقعیت، Epoch AI در حال ساخت مجموعه داده ها برای OpenAI است. آنها قبلا هیچ رابطه ای با OpenAI فاش نکرده بودند.

بحث Reddit به انتشاری اشاره کرد که مشارکت عمیق‌تر OpenAI را آشکار کرد:

ریاضیدانانی که مشکلات را برای FrontierMath ایجاد کردند (به طور فعال) (2) در مورد بودجه از OpenAI اطلاع رسانی نشدند.

… اکنون Epoch AI یا OpenAI علناً نمی گویند که OpenAI به تمرین ها یا پاسخ ها یا راه حل ها دسترسی دارد. من به طور دست دوم شنیده ام که OpenAI به تمرین ها و پاسخ ها دسترسی دارد و آنها از آنها برای اعتبار سنجی استفاده می کنند.

Tamay Besiroglu (LinkedIn Profile)، مدیر مرتبط در Epoch AI، اذعان کرد که OpenAI به مجموعه داده‌ها دسترسی دارد، اما همچنین اظهار داشت که مجموعه داده‌ای “Holdout” وجود دارد که OpenAI به آن دسترسی ندارد.

وی در سند مورد اشاره نوشت:

Tamay از Epoch AI اینجاست.

ما در عدم شفافیت بیشتر در مورد دخالت OpenAI اشتباه کردیم. ما تا زمان راه‌اندازی o3 از افشای این مشارکت محدود بودیم، و در آینده نزدیک باید برای شفاف‌سازی هر چه سریع‌تر مشارکت‌کنندگان معیار، سخت‌تر مذاکره می‌کردیم. قرارداد ما به طور خاص ما را از افشای اطلاعات در مورد منبع بودجه و این واقعیت که OpenAI به بسیاری از مجموعه داده‌ها دسترسی دارد، اما نه همه، باز می‌دارد. ما صاحب این خطا هستیم و متعهد هستیم که در آینده بهتر عمل کنیم.

در مورد استفاده از آموزش: ما تصدیق می‌کنیم که OpenAI به بخش بزرگی از مسائل و راه‌حل‌های FrontierMath دسترسی دارد، به استثنای مجموعه نگهدارنده‌ای که توسط OpenAI دیده نمی‌شود که ما را قادر می‌سازد تا به طور مستقل قابلیت‌های مدل را تأیید کنیم. با این حال، ما توافق شفاهی داریم که از این مواد در آموزش مدل استفاده نشود.

OpenAI همچنین به طور کامل از تصمیم ما برای حفظ یک مجموعه نگهدارنده مجزا و نادیده حمایت کرده است – یک محافظ اضافی برای جلوگیری از تطبیق بیش از حد و اطمینان از اندازه‌گیری دقیق پیشرفت. از روز اول، FrontierMath به عنوان یک ابزار ارزیابی تصور و ارائه شد، و ما معتقدیم که این ترتیبات منعکس کننده این هدف هستند. “

حقایق بیشتر درباره OpenAI و FrontierMath فاش شد

الیوت گلیزر (پروفایل لینکدین/پروفایل ردیت)، ریاضیدان اصلی در Epoch AI تأیید کرد که OpenAI مجموعه داده را دارد و به آنها اجازه داده شد از آن برای ارزیابی مدل زبان بزرگ o3 OpenAI استفاده کنند، که آخرین وضعیت هوش مصنوعی آنهاست که به آن اشاره شده است. به عنوان یک مدل هوش مصنوعی استدلالی او نظر خود را ارائه کرد که نمرات بالای بدست آمده توسط مدل o3 “مشروع” هستند و Epoch AI در حال انجام یک ارزیابی مستقل برای تعیین اینکه آیا o3 برای آموزش به مجموعه داده FrontierMath دسترسی داشته است یا خیر، که می تواند نمرات بالای مدل را در نور متفاوت

او نوشت:

«ریاضی دان اصلی عصر اینجاست. بله، OAI این را تامین مالی کرده و مجموعه داده ای را در اختیار دارد که به آنها اجازه می دهد O3 را در داخل ارزیابی کنند. ما هنوز به طور مستقل ادعای 25٪ آنها را تأیید نکرده ایم. برای انجام این کار، ما در حال حاضر در حال توسعه یک مجموعه داده نگهدارنده هستیم و می‌توانیم مدل آنها را بدون مواجهه قبلی با این مشکلات آزمایش کنیم.

نظر شخصی من این است که امتیاز OAI قانونی است (یعنی آنها بر روی مجموعه داده آموزش ندیده اند)، و آنها هیچ انگیزه ای برای دروغ گفتن در مورد عملکردهای معیار داخلی ندارند. با این حال، تا زمانی که ارزیابی مستقل ما کامل نشود، نمی‌توانیم آنها را تضمین کنیم.»

گلیزر همچنین به اشتراک گذاشته بود که Epoch AI قرار است o3 را با استفاده از مجموعه داده “holdout” که OpenAI به آن دسترسی نداشت آزمایش کند و گفت:

“ما قصد داریم o3 را با OAI ارزیابی کنیم که قبلاً در معرض مشکلات ماندگاری قرار نگرفته است. این بدون هوا خواهد بود.»

پست دیگری در Reddit توسط گلیزر توضیح داد که چگونه “هولد اوت مجموعه” ایجاد شد:

زمانی که ارزیابی مجموعه Holdout واقعاً انجام شد، فرآیند را واضح‌تر توضیح می‌دهیم، اما مسائل Holdout را به‌طور تصادفی از مجموعه بزرگ‌تری انتخاب می‌کنیم که به FrontierMath اضافه می‌شود. فرآیند تولید در غیر این صورت با آنچه همیشه بوده یکسان است.»

در انتظار پاسخ

این همان جایی است که درام تا زمانی که ارزیابی Epoch AI تکمیل شود، نشان می دهد که آیا OpenAI مدل استدلال هوش مصنوعی خود را با مجموعه داده آموزش داده است یا نه یا فقط از آن برای محک زدن استفاده کرده است.

تصویر ویژه توسط Shutterstock/Antonello Marangi

Source link