OpenAI ChatGPT 4o Omni را معرفی کرد

ChatGPT نسخه جدیدی از ChatGPT را معرفی کرد که می تواند ورودی های صوتی، تصویری و متنی را بپذیرد و همچنین خروجی هایی در صدا، تصویر و متن تولید کند. OpenAI نسخه جدید ChatGPT 4o را فراخوانی می‌کند که “o” مخفف “omni” است که یک کلمه ترکیبی به معنای “همه” است.

ChatGPT 4o (Omni)

OpenAI این نسخه جدید ChatGPT را پیشرفتی به سوی تعاملات طبیعی تر انسان و ماشین توصیف کرد که به ورودی های کاربر با همان سرعتی که مکالمات انسان با انسان پاسخ می دهد، پاسخ می دهد. نسخه جدید با ChatGPT 4 Turbo در زبان انگلیسی مطابقت دارد و به طور قابل توجهی بهتر از Turbo در سایر زبان ها عمل می کند. بهبود قابل توجهی در عملکرد API وجود دارد، افزایش سرعت و عملکرد 50٪ با هزینه کمتر.

در این اطلاعیه توضیح داده شده است:

همانطور که در معیارهای سنتی اندازه‌گیری می‌شود، GPT-4o عملکردی در سطح توربو GPT-4 در زمینه هوشمندی متن، استدلال و کدنویسی به دست می‌آورد، در حالی که واترمارک‌های جدید را روی قابلیت‌های چندزبانه، صوتی و بینایی تنظیم می‌کند.

پردازش صوتی پیشرفته

روش قبلی برای برقراری ارتباط با صدا شامل پل زدن سه مدل مختلف برای مدیریت رونویسی ورودی‌های صوتی به متن بود که در آن مدل دوم (GPT 3.5 یا GPT-4) آن را پردازش می‌کند و متن را خروجی می‌دهد و مدل سوم که متن را دوباره به صدا رونویسی می‌کند. گفته می شود که این روش در ترجمه های مختلف تفاوت های ظریف خود را از دست می دهد.

OpenAI نکات منفی رویکرد قبلی را که (احتمالاً) با رویکرد جدید برطرف شده است، توضیح داد:

این فرآیند به این معنی است که منبع اصلی هوش، GPT-4، اطلاعات زیادی را از دست می‌دهد – نمی‌تواند مستقیماً لحن، چندین بلندگو یا صداهای پس‌زمینه را مشاهده کند، و نمی‌تواند خنده، آواز خواندن یا ابراز احساسات را تولید کند. ”

نسخه جدید به سه مدل مختلف نیاز ندارد زیرا همه ورودی‌ها و خروجی‌ها با هم در یک مدل برای ورودی و خروجی صوتی انتها به انتها مدیریت می‌شوند. جالب اینجاست که OpenAI بیان می‌کند که هنوز توانایی‌های کامل مدل جدید را کشف نکرده‌اند یا به طور کامل محدودیت‌های آن را درک نکرده‌اند.

حفاظ های جدید و یک نسخه تکراری

OpenAI GPT 4o دارای نرده‌های محافظ و فیلترهای جدید برای ایمن نگه داشتن آن و جلوگیری از خروجی صدای ناخواسته برای ایمنی است. با این حال، اعلامیه امروز می‌گوید که آنها فقط قابلیت‌های ورودی متن و تصویر و خروجی متن و صدای محدود را در هنگام راه‌اندازی ارائه می‌کنند. GPT 4o برای هر دو سطح رایگان و پولی در دسترس است و کاربران پلاس 5 برابر محدودیت پیام بیشتر دریافت می کنند.

قرار است قابلیت‌های صوتی در عرض چند هفته برای کاربران ChatGPT Plus و API منتشر شود.

در این اطلاعیه توضیح داده شده است:

ما تشخیص می‌دهیم که روش‌های صوتی GPT-4o خطرات جدیدی را به همراه دارد. امروز ما ورودی های متن و تصویر و خروجی متن را به صورت عمومی منتشر می کنیم. در هفته‌ها و ماه‌های آینده، ما روی زیرساخت‌های فنی، قابلیت استفاده از طریق آموزش پس از آموزش و ایمنی لازم برای انتشار سایر روش‌ها کار خواهیم کرد. به عنوان مثال، در زمان راه اندازی، خروجی های صوتی به مجموعه ای از صداهای از پیش تعیین شده محدود می شود و از سیاست های ایمنی موجود ما تبعیت می کند.

اطلاعیه را بخوانید:

سلام GPT-4o

تصویر ویژه توسط Shutterstock/Photo For Everything

سئو PBN | خبر های جدید سئو و هک و سرور