آیا OpenAI GPT-4o Hype یک ترول در گوگل بود؟

OpenAI موفق شد در هفته های منتهی به بزرگترین رویداد سال گوگل (Google I/O) توجه گوگل را به خود جلب کند. زمانی که اعلان بزرگ به آنجا رسید تنها چیزی که آنها باید نشان می دادند یک مدل زبان بود که کمی بهتر از نسخه قبلی با بخش “جادویی” بود که حتی در مرحله تست آلفا هم نبود.

OpenAI ممکن است باعث شود کاربران احساس کنند که مادری برای روز مادر جاروبرقی دریافت می کند، اما مطمئناً موفق شد توجه مطبوعات را برای رویداد مهم Google به حداقل برساند.

حرف O

اولین اشاره ای که وجود دارد حداقل یک ترولینگ در حال انجام است، نام مدل جدید GPT است، 4 “o” با حرف “o” مانند نام رویداد Google، I/O.

OpenAI می گوید که حرف O مخفف Omni است، که به معنای همه چیز است، اما مطمئناً به نظر می رسد که یک زیرمتن برای این انتخاب وجود دارد.

GPT-4o بیش از حد به عنوان جادو فروخته شد

سام آلتمن در توییتی در روز جمعه قبل از اعلام، وعده “موارد جدید” را داد که برای او “جادویی” بود:

“نه gpt-5، نه یک موتور جستجو، اما ما سخت در حال کار روی چیزهای جدیدی بوده ایم که فکر می کنیم مردم دوست خواهند داشت! برای من مانند جادو است.»

گرگ براکمن، بنیانگذار OpenAI در توییتی نوشت:

«معرفی GPT-4o، مدل جدید ما که می‌تواند متن، صدا و ویدیو را در زمان واقعی استدلال کند.

این بسیار همه کاره است، بازی کردن با آن سرگرم کننده است و گامی به سوی شکل بسیار طبیعی تر تعامل انسان و کامپیوتر (و حتی تعامل انسان-کامپیوتر-رایانه) است.

خود اعلامیه توضیح داد که نسخه‌های قبلی ChatGPT از سه مدل برای پردازش ورودی صدا استفاده می‌کردند. یک مدل برای تبدیل ورودی صوتی به متن. مدل دیگری برای تکمیل کار و خروجی نسخه متنی آن و مدل سوم برای تبدیل خروجی متن به صدا. پیشرفت GPT-4o این است که اکنون می‌تواند ورودی و خروجی صدا را در یک مدل پردازش کند و همه آن‌ها را در همان مدت زمانی که یک انسان برای گوش دادن و پاسخ دادن به یک سؤال طول می‌کشد، خروجی دهد.

اما مشکل اینجاست که قسمت صوتی هنوز آنلاین نیست. آنها هنوز در حال کار بر روی کارکردن نرده های محافظ هستند و هفته ها طول می کشد تا نسخه آلفا برای چند کاربر برای آزمایش منتشر شود. انتظار می رود نسخه های آلفا احتمالاً دارای اشکال باشند در حالی که نسخه های بتا به طور کلی به محصولات نهایی نزدیک تر هستند.

OpenAI این تاخیر ناامید کننده را اینگونه توضیح داد:

ما تشخیص می‌دهیم که روش‌های صوتی GPT-4o خطرات جدیدی را به همراه دارد. امروز ما ورودی های متن و تصویر و خروجی متن را به صورت عمومی منتشر می کنیم. در هفته‌ها و ماه‌های آینده، ما روی زیرساخت‌های فنی، قابلیت استفاده از طریق آموزش پس از آموزش و ایمنی لازم برای انتشار سایر روش‌ها کار خواهیم کرد.

مهمترین بخش GPT-4o، ورودی و خروجی صدا، تمام شده است اما سطح ایمنی هنوز برای انتشار عمومی آماده نیست.

برخی از کاربران ناامید شدند

اجتناب ناپذیر است که یک محصول ناقص و بیش از حد فروش باعث ایجاد احساسات منفی در رسانه های اجتماعی شود.

مهندس هوش مصنوعی مازیار پناهی (نمایه لینکدین) ناامیدی خود را در توییتر نوشت:

من در حال آزمایش GPT-4o (Omni) جدید در ChatGPT هستم. من تحت تاثیر قرار نمی گیرم! نه حتی کمی! سریع‌تر، ارزان‌تر، چندوجهی‌تر، اینها برای من نیستند.
مفسر کد، این تنها چیزی است که برایم مهم است و مثل قبل تنبل است!»

او پیگیر شد:

“من درک می کنم که برای استارتاپ ها و مشاغل ارزان تر، سریع تر، صدا و غیره بسیار جذاب هستند. اما من فقط از چت استفاده می کنم، و در آنجا نیز تقریباً یکسان است. حداقل برای دستیار تجزیه و تحلیل داده ها.

همچنین، من فکر نمی کنم که چیزی بیشتر از 20 دلارم دریافت کنم. امروز نه!”

در فیس‌بوک و X افراد دیگری وجود دارند که احساسات مشابهی را ابراز می‌کنند، اگرچه بسیاری دیگر از آنچه احساس می‌کردند بهبود در سرعت و هزینه استفاده از API است، خوشحال بودند.

آیا OpenAI GPT-4o را بیش از حد به فروش رساند؟

با توجه به اینکه GPT-4o در وضعیت ناتمام قرار دارد، نمی توان این تصور را از دست داد که زمان انتشار آن با Google I/O منطبق است و از آن کم می کند. انتشار آن در آستانه روز بزرگ گوگل با یک محصول نیمه تمام ممکن است به طور ناخواسته این تصور را ایجاد کرده باشد که GPT-4o در وضعیت فعلی یک بهبود تکراری جزئی است.

در وضعیت فعلی، این یک گام انقلابی به جلو نیست، اما هنگامی که بخش صوتی مدل از مرحله آزمایش آلفا خارج شد و از مرحله آزمایش بتا عبور کرد، می‌توانیم درباره انقلاب‌ها در مدل زبان بزرگ صحبت کنیم. اما ممکن است تا زمانی که این اتفاق بیفتد، گوگل و آنتروپیک قبلاً پرچمی را روی آن کوه گذاشته باشند.

اعلامیه OpenAI تصویر ضعیفی از مدل جدید ترسیم می کند و عملکرد آن را در همان سطح GPT-4 Turbo ارتقا می دهد. تنها نقطه روشن پیشرفت های قابل توجه در زبان های دیگر به جز انگلیسی و برای کاربران API است.

OpenAI توضیح می دهد:

  • عملکرد GPT-4 Turbo بر روی متن به زبان انگلیسی و کد، با بهبود قابل توجهی در متن در زبان‌های غیرانگلیسی مطابقت دارد، در حالی که در API بسیار سریع‌تر و 50 درصد ارزان‌تر است.

در اینجا رتبه‌بندی‌هایی در شش معیار وجود دارد که نشان می‌دهد GPT-4o در اکثر تست‌ها به سختی از GPT-4T عبور می‌کند، اما در یک معیار مهم برای درک مطلب از GPT-4T عقب‌تر است.

اینم نمرات:

  • MMLU (درک گسترده زبان چند وظیفه ای)
    این معیاری برای دقت چندوظیفه ای و حل مسئله در بیش از پنجاه موضوع مانند ریاضیات، علوم، تاریخ و حقوق است. GPT-4o (با امتیاز 88.7) کمی جلوتر از GPT4 Turbo (86.9) است.
  • GPQA (معیار پرسش و پاسخ Google-Proof سطح فارغ التحصیلان)
    این 448 سوال چند گزینه ای است که توسط متخصصان انسانی در زمینه های مختلف مانند زیست شناسی، شیمی و فیزیک نوشته شده است. GPT-4o امتیاز 53.6 را کسب کرد که کمی از GPT-4T (48.0) پیشی گرفت.
  • ریاضی
    GPT 4o (76.6) با چهار امتیاز (72.6) از GPT-4T جلوتر است.
  • HumanEval
    این معیار کد نویسی است. GPT-4o (90.2) تا حدودی سه امتیاز از GPT-4T (87.1) بهتر عمل می کند.
  • MGSM (معیار ریاضی کلاس چندزبانه)
    این آزمون مهارت های ریاضی در سطح مدرسه LLM را در ده زبان مختلف آزمایش می کند. امتیاز GPT-4o 90.5 در مقابل 88.5 برای GPT-4T.
  • DROP (استدلال گسسته روی پاراگراف ها)
    این یک معیار متشکل از 96 هزار سؤال است که درک مدل زبان را بر روی محتوای پاراگراف ها آزمایش می کند. GPT-4o (83.4) تقریباً سه امتیاز کمتر از GPT-4T (86.0) دارد.

آیا OpenAI گوگل را با GPT-4o ترول کرد؟

با توجه به نامگذاری تحریک آمیز مدل با حرف o، سخت است که در نظر نگیریم که OpenAI در تلاش است تا توجه رسانه ها را در پیشبرد کنفرانس مهم I/O گوگل بدزدد. خواه قصدش این بود یا نه، OpenAI به شدت در به حداقل رساندن توجه به کنفرانس جستجوی آتی گوگل موفق شد.

آیا مدل زبانی که به سختی از پیشینیان خود بهتر عمل می کند، ارزش آن همه تبلیغات و توجه رسانه ای را دارد؟ اعلامیه معلق بر پوشش خبری رویداد بزرگ گوگل تسلط داشت، بنابراین برای OpenAI پاسخ واضح است که بله، ارزش تبلیغات را داشت.

تصویر ویژه توسط Shutterstock/BeataGFX