افشاگری ها مبنی بر اینکه OpenAI مخفیانه سرمایه گذاری کرده و به مجموعه داده های معیار FrontierMath دسترسی داشته است، نگرانی هایی را در مورد اینکه آیا از آن برای آموزش مدل استدلال استدلالی هوش مصنوعی o3 خود و اعتبار نمرات بالای مدل استفاده شده است، ایجاد کرده است.
علاوه بر دسترسی به مجموعه داده های محک، OpenAI بودجه ایجاد آن را نیز تامین کرد، واقعیتی که از ریاضیدانانی که در توسعه FrontierMath مشارکت داشتند پنهان مانده بود. Epoch AI با تأخیر بودجه OpenAI را تنها در مقاله نهایی منتشر شده در Arxiv.org فاش کرد که معیار را اعلام کرد. در نسخه های قبلی این مقاله هیچ اشاره ای به دخالت OpenAI حذف نشده بود.
اسکرین شات از مقاله FrontierMath
نمای نزدیک از قدردانی
نسخه قبلی مقاله که فاقد تأیید بود
مدل OpenAI 03 در معیار FrontierMath امتیاز بالایی کسب کرد
اخبار مربوط به دخالت مخفی OpenAI سوالاتی را در مورد نمرات بالای بدست آمده توسط مدل هوش مصنوعی استدلال o3 ایجاد می کند و باعث ناامیدی پروژه FrontierMath می شود. Epoch AI با شفافیت در مورد آنچه اتفاق افتاده و آنچه آنها انجام می دهند برای بررسی اینکه آیا مدل o3 با مجموعه داده FrontierMath آموزش داده شده است پاسخ داد.
دادن دسترسی OpenAI به مجموعه داده غیرمنتظره بود، زیرا هدف اصلی آن آزمایش مدلهای هوش مصنوعی است، اما اگر مدلها از قبل سؤالات و پاسخها را بدانند، این کار انجام نمیشود.
پستی در ساب ردیت r/singularity این ناامیدی را بیان کرد و به سندی اشاره کرد که ادعا میکرد ریاضیدانان از دخالت OpenAI اطلاعی نداشتند:
“Frontier Math، معیار ریاضی پیشرفته اخیر، توسط OpenAI تامین مالی میشود. گفته می شود که OpenAI به مشکلات و راه حل ها دسترسی دارد. این ناامید کننده است زیرا این معیار به عنوان وسیله ای برای ارزیابی مدل های مرزی با حمایت ریاضیدانان مشهور به عموم فروخته شد. در واقعیت، Epoch AI در حال ساخت مجموعه داده ها برای OpenAI است. آنها قبلا هیچ رابطه ای با OpenAI فاش نکرده بودند.
بحث Reddit به انتشاری اشاره کرد که مشارکت عمیقتر OpenAI را آشکار کرد:
ریاضیدانانی که مشکلات را برای FrontierMath ایجاد کردند (به طور فعال) (2) در مورد بودجه از OpenAI اطلاع رسانی نشدند.
… اکنون Epoch AI یا OpenAI علناً نمی گویند که OpenAI به تمرین ها یا پاسخ ها یا راه حل ها دسترسی دارد. من به طور دست دوم شنیده ام که OpenAI به تمرین ها و پاسخ ها دسترسی دارد و آنها از آنها برای اعتبار سنجی استفاده می کنند.
Tamay Besiroglu (LinkedIn Profile)، مدیر مرتبط در Epoch AI، اذعان کرد که OpenAI به مجموعه دادهها دسترسی دارد، اما همچنین اظهار داشت که مجموعه دادهای “Holdout” وجود دارد که OpenAI به آن دسترسی ندارد.
وی در سند مورد اشاره نوشت:
Tamay از Epoch AI اینجاست.
ما در عدم شفافیت بیشتر در مورد دخالت OpenAI اشتباه کردیم. ما تا زمان راهاندازی o3 از افشای این مشارکت محدود بودیم، و در آینده نزدیک باید برای شفافسازی هر چه سریعتر مشارکتکنندگان معیار، سختتر مذاکره میکردیم. قرارداد ما به طور خاص ما را از افشای اطلاعات در مورد منبع بودجه و این واقعیت که OpenAI به بسیاری از مجموعه دادهها دسترسی دارد، اما نه همه، باز میدارد. ما صاحب این خطا هستیم و متعهد هستیم که در آینده بهتر عمل کنیم.
در مورد استفاده از آموزش: ما تصدیق میکنیم که OpenAI به بخش بزرگی از مسائل و راهحلهای FrontierMath دسترسی دارد، به استثنای مجموعه نگهدارندهای که توسط OpenAI دیده نمیشود که ما را قادر میسازد تا به طور مستقل قابلیتهای مدل را تأیید کنیم. با این حال، ما توافق شفاهی داریم که از این مواد در آموزش مدل استفاده نشود.
OpenAI همچنین به طور کامل از تصمیم ما برای حفظ یک مجموعه نگهدارنده مجزا و نادیده حمایت کرده است – یک محافظ اضافی برای جلوگیری از تطبیق بیش از حد و اطمینان از اندازهگیری دقیق پیشرفت. از روز اول، FrontierMath به عنوان یک ابزار ارزیابی تصور و ارائه شد، و ما معتقدیم که این ترتیبات منعکس کننده این هدف هستند. “
حقایق بیشتر درباره OpenAI و FrontierMath فاش شد
الیوت گلیزر (پروفایل لینکدین/پروفایل ردیت)، ریاضیدان اصلی در Epoch AI تأیید کرد که OpenAI مجموعه داده را دارد و به آنها اجازه داده شد از آن برای ارزیابی مدل زبان بزرگ o3 OpenAI استفاده کنند، که آخرین وضعیت هوش مصنوعی آنهاست که به آن اشاره شده است. به عنوان یک مدل هوش مصنوعی استدلالی او نظر خود را ارائه کرد که نمرات بالای بدست آمده توسط مدل o3 “مشروع” هستند و Epoch AI در حال انجام یک ارزیابی مستقل برای تعیین اینکه آیا o3 برای آموزش به مجموعه داده FrontierMath دسترسی داشته است یا خیر، که می تواند نمرات بالای مدل را در نور متفاوت
او نوشت:
«ریاضی دان اصلی عصر اینجاست. بله، OAI این را تامین مالی کرده و مجموعه داده ای را در اختیار دارد که به آنها اجازه می دهد O3 را در داخل ارزیابی کنند. ما هنوز به طور مستقل ادعای 25٪ آنها را تأیید نکرده ایم. برای انجام این کار، ما در حال حاضر در حال توسعه یک مجموعه داده نگهدارنده هستیم و میتوانیم مدل آنها را بدون مواجهه قبلی با این مشکلات آزمایش کنیم.
نظر شخصی من این است که امتیاز OAI قانونی است (یعنی آنها بر روی مجموعه داده آموزش ندیده اند)، و آنها هیچ انگیزه ای برای دروغ گفتن در مورد عملکردهای معیار داخلی ندارند. با این حال، تا زمانی که ارزیابی مستقل ما کامل نشود، نمیتوانیم آنها را تضمین کنیم.»
گلیزر همچنین به اشتراک گذاشته بود که Epoch AI قرار است o3 را با استفاده از مجموعه داده “holdout” که OpenAI به آن دسترسی نداشت آزمایش کند و گفت:
“ما قصد داریم o3 را با OAI ارزیابی کنیم که قبلاً در معرض مشکلات ماندگاری قرار نگرفته است. این بدون هوا خواهد بود.»
پست دیگری در Reddit توسط گلیزر توضیح داد که چگونه “هولد اوت مجموعه” ایجاد شد:
زمانی که ارزیابی مجموعه Holdout واقعاً انجام شد، فرآیند را واضحتر توضیح میدهیم، اما مسائل Holdout را بهطور تصادفی از مجموعه بزرگتری انتخاب میکنیم که به FrontierMath اضافه میشود. فرآیند تولید در غیر این صورت با آنچه همیشه بوده یکسان است.»
در انتظار پاسخ
این همان جایی است که درام تا زمانی که ارزیابی Epoch AI تکمیل شود، نشان می دهد که آیا OpenAI مدل استدلال هوش مصنوعی خود را با مجموعه داده آموزش داده است یا نه یا فقط از آن برای محک زدن استفاده کرده است.
تصویر ویژه توسط Shutterstock/Antonello Marangi