OpenAI GPT-4 در اواسط مارس 2023 وارد می شود و بسیار بزرگ است

آندریاس براون، مدیر ارشد فناوری مایکروسافت آلمان، تأیید کرد که GPT-4 ظرف یک هفته از 9 مارس 2023 عرضه می شود و چندوجهی خواهد بود. هوش مصنوعی چندوجهی به این معنی است که می‌تواند در انواع ورودی‌ها مانند ویدئو، تصاویر و صدا عمل کند.

مدل های زبان بزرگ چندوجهی

نکته مهم این اعلامیه این است که GPT-4 چند وجهی است (SEJ پیش بینی کرد GPT-4 در ژانویه 2023 چند وجهی است).

Modality اشاره ای به نوع ورودی است که (در این مورد) یک مدل زبان بزرگ به آن می پردازد.

چند وجهی می تواند متن، گفتار، تصاویر و ویدئو را در بر گیرد.

GPT-3 و GPT-3.5 فقط در یک حالت، متن کار می کنند.

بر اساس گزارش خبری آلمان، GPT-4 ممکن است حداقل در چهار حالت، تصویر، صدا (شنیداری)، متن و ویدئو کار کند.

به نقل از دکتر آندریاس براون، مدیر ارشد فناوری مایکروسافت آلمان:

“ما هفته آینده GPT-4 را معرفی خواهیم کرد، در آنجا مدل های چندوجهی خواهیم داشت که امکانات کاملا متفاوتی را ارائه می دهند – به عنوان مثال ویدئوها…”

این گزارش فاقد مشخصات GPT-4 بود، بنابراین مشخص نیست که آیا آنچه در مورد چندوجهی به اشتراک گذاشته شده مختص GPT-4 است یا فقط به طور کلی.

هولگر کن، مدیر استراتژی تجاری مایکروسافت، چندوجهی‌ها را توضیح داد، اما گزارش‌ها مشخص نبود که او به چندوجهی بودن یا چندوجهی GPT-4 در کلیات اشاره می‌کند.

من معتقدم ارجاعات او به چند وجهی مختص GPT-4 بود.

این گزارش به اشتراک گذاشته شده است:

کن توضیح داد که هوش مصنوعی چندوجهی در مورد چیست، که می تواند متن را نه تنها به عکس، بلکه به موسیقی و ویدئو نیز ترجمه کند.

واقعیت جالب دیگر این است که مایکروسافت در حال کار بر روی “معیارهای اطمینان” تا هوش مصنوعی خود را با حقایق ثابت کنند تا قابل اعتمادتر شود.

مایکروسافت Kosmos-1

چیزی که ظاهراً در ایالات متحده کمتر گزارش شده است این است که مایکروسافت یک مدل زبان چندوجهی به نام Kosmos-1 را در ابتدای مارس 2023 منتشر کرد.

به گزارش پایگاه خبری آلمان Heise.de:

این تیم مدل از پیش آموزش‌دیده‌شده را تحت آزمایش‌های مختلفی قرار داد، با نتایج خوبی در طبقه‌بندی تصاویر، پاسخ‌گویی به سؤالات در مورد محتوای تصویر، برچسب‌گذاری خودکار تصاویر، تشخیص متن نوری و وظایف تولید گفتار.

… استدلال بصری، یعنی نتیجه گیری در مورد تصاویر بدون استفاده از زبان به عنوان یک مرحله میانی، به نظر می رسد یک کلید در اینجا باشد…

Kosmos-1 یک مدال چندوجهی است که حالت‌های متن و تصاویر را ادغام می‌کند.

GPT-4 فراتر از Kosmos-1 است زیرا حالت سومی را اضافه می کند، ویدیو، و همچنین به نظر می رسد که مدالیته صدا را نیز شامل می شود.

در چندین زبان کار می کند

به نظر می رسد GPT-4 در همه زبان ها کار می کند. توضیح داده شده است که می توانید یک سؤال را به زبان آلمانی دریافت کنید و به زبان ایتالیایی پاسخ دهید.

این یک مثال عجیب است زیرا، چه کسی سؤالی را به زبان آلمانی می‌پرسد و می‌خواهد پاسخی به زبان ایتالیایی دریافت کند؟

این چیزی است که تایید شد:

«…تکنولوژی به حدی رسیده است که اساساً «در همه زبان‌ها کار می‌کند»: می‌توانید سؤالی را به آلمانی بپرسید و به زبان ایتالیایی پاسخ بگیرید.

با چندوجهی، مایکروسافت (-OpenAI) مدل ها را جامع خواهد کرد.

من معتقدم که نقطه پیشرفت این است که این مدل با توانایی خود در انتقال دانش به زبان های مختلف از زبان فراتر می رود. بنابراین اگر پاسخ به زبان ایتالیایی باشد، آن را می داند و می تواند پاسخ را به زبانی که سوال پرسیده شده است ارائه دهد.

این امر آن را شبیه به هدف هوش مصنوعی چندوجهی گوگل به نام MUM می کند. گفته می‌شود که مادر می‌تواند پاسخ‌هایی را به زبان انگلیسی ارائه کند که داده‌ها فقط به زبان دیگری مانند ژاپنی وجود دارد.

برنامه های کاربردی GPT-4

در حال حاضر هیچ اطلاعیه ای درباره مکان نمایش GPT-4 وجود ندارد. اما Azure-OpenAI به طور خاص ذکر شد.

گوگل در تلاش است تا با ادغام یک فناوری رقیب در موتور جستجوی خود به مایکروسافت برسد. این پیشرفت این تصور را تشدید می کند که گوگل در حال عقب ماندن و عدم رهبری در زمینه هوش مصنوعی مصرف کننده است.

گوگل در حال حاضر هوش مصنوعی را در چندین محصول مانند Google Lens، Google Maps و سایر مناطقی که مصرف کنندگان با Google در تعامل هستند، ادغام کرده است.

فقط روشی که مایکروسافت آن را پیاده سازی می کند بیشتر قابل مشاهده است.

گزارش اصلی آلمانی را اینجا بخوانید:

مایکروسافت آلمان می‌گوید GPT-4 هفته آینده عرضه می‌شود – و چندوجهی خواهد بود

تصویر برجسته توسط Shutterstock/Master1305

سئو PBN | خبر های جدید سئو و هک و سرور