آنچه تاکنون می دانیم

در کنفرانس توسعه دهندگان Google I/O در ماه می 2023، ساندار پیچای، مدیر عامل شرکت، سیستم هوش مصنوعی (AI) آینده این شرکت، Gemini را معرفی کرد.

مدل زبان بزرگ (LLM) توسط بخش Google DeepMind (تیم مغز + DeepMind) در حال توسعه است. این می تواند با سیستم های هوش مصنوعی مانند ChatGPT از OpenAI رقابت کند و احتمالاً از آنها بهتر عمل کند.

در حالی که جزئیات کمیاب است، در اینجا چیزی است که می توانیم از آخرین مصاحبه ها و گزارش های مربوط به Google Gemini جمع آوری کنیم.

Google Gemini چندوجهی خواهد بود

پیچای بیان کرد که Gemini نقاط قوت سیستم AlphaGo DeepMind را که به دلیل تسلط بر بازی پیچیده Go معروف است، با قابلیت های مدل سازی زبان گسترده ترکیب می کند.

او گفت که از ابتدا به گونه ای طراحی شده است که چندوجهی باشد، متن، تصاویر و دیگر انواع داده را یکپارچه کند. این می تواند توانایی های مکالمه طبیعی تری را به شما بدهد.

پیچای همچنین به قابلیت‌های آینده مانند حافظه و برنامه‌ریزی اشاره کرد که می‌تواند کارهایی را که نیاز به استدلال دارند را فعال کند.

Gemini می تواند از ابزارها و API ها استفاده کند

جفری دین، دانشمند ارشد گوگل، در به‌روزرسانی بیوگرافی حرفه‌ای خود در تابستان گفت که جمینی یکی از «مدل‌های چندوجهی نسل بعدی» است که او رهبری می‌کند.

او اظهار داشت که از Pathways، زیرساخت هوش مصنوعی جدید گوگل، برای افزایش مقیاس آموزش در مجموعه داده های متنوع استفاده خواهد کرد.

این نشان می دهد که Gemini به طور بالقوه بزرگترین مدل زبانی است که تا به امروز ایجاد شده است، که احتمالاً از اندازه GPT-3 با بیش از 175 میلیارد پارامتر فراتر رفته است.

با اندازه ها و قابلیت های مختلف عرضه خواهد شد

جزئیات بیشتر از Demis Hassabis، مدیر عامل DeepMind ارائه شده است.

در ماه ژوئن، او به Wired گفت که تکنیک‌های AlphaGo، مانند یادگیری تقویتی و جستجوی درخت، ممکن است به Gemini توانایی‌های جدیدی مانند استدلال و حل مسئله بدهد.

Hassabis اظهار داشت که Gemini یک “سری مدل” است که در اندازه ها و قابلیت های مختلف در دسترس خواهد بود.

او همچنین اشاره کرد که Gemini ممکن است از حافظه، بررسی واقعیت در برابر منابعی مانند جستجوی گوگل و یادگیری تقویتی بهبود یافته برای افزایش دقت و کاهش محتوای توهم‌آمیز خطرناک استفاده کند.

نتایج اولیه جوزا امیدوار کننده است

در مصاحبه سپتامبر تایم، Hassabis تکرار کرد که Gemini قصد دارد مقیاس و نوآوری را ترکیب کند.

او گفت که تلفیق برنامه ریزی و حافظه در مراحل اولیه اکتشافی است.

Hassabis همچنین اظهار داشت که Gemini ممکن است از روش‌های بازیابی برای خروجی کل بلوک‌های اطلاعات به جای تولید کلمه به کلمه استفاده کند تا سازگاری واقعی را بهبود بخشد.

او فاش کرد که Gemini بر روی کارهای چندوجهی DeepMind مانند سیستم زیرنویس تصویر Flamingo ساخته شده است.

به طور کلی، Hassabis گفت که Gemini “نتایج اولیه بسیار امیدوارکننده” را نشان می دهد.

چت ربات های پیشرفته به عنوان دستیاران شخصی جهانی

پیچای در مصاحبه‌ای با Wired که چند روز بعد منتشر شد، واضح‌ترین نشانه را در مورد اینکه Gemini چگونه در نقشه راه محصول گوگل قرار می‌گیرد، ارائه کرد.

او بیان کرد که سیستم‌های هوش مصنوعی محاوره‌ای مانند بارد «وضعیت پایانی» نیستند، بلکه نقاطی هستند که به سمت چت‌بات‌های پیشرفته‌تر می‌روند.

پیچای گفت Gemini و تکرارهای آینده در نهایت تبدیل به “دستیارهای شخصی جهانی باورنکردنی” خواهند شد که در زندگی روزمره مردم در زمینه هایی مانند سفر، کار و سرگرمی ادغام می شوند.

او تکرار کرد که جمینی نقاط قوت متن و تصویر را با هم ترکیب خواهد کرد و اظهار داشت که چت ربات‌های امروزی در مقایسه با چند سال آینده «بی‌اهمیت» به نظر می‌رسند.

رقبا به عملکرد Gemini علاقه مند هستند

مدیر عامل OpenAI توییتی را منتشر کرد که به نظر می‌رسد پاسخی به مقاله‌ای است که گفته می‌شد Google Gemini می‌تواند از GPT-4 بهتر عمل کند.

هیچ پاسخ رسمی به سوال بعدی ایلان ماسک مبنی بر صحت اعداد ارائه شده توسط SemiAnalysis وجود نداشت.

شرکت‌هایی را انتخاب کنید که دسترسی زودهنگام به جمینی دارند

سرنخ های بیشتر در مورد پیشرفت Gemini در این هفته: اطلاعات گزارش کرد که گوگل به گروه کوچکی از توسعه دهندگان خارج از گوگل دسترسی زودهنگام به Gemini داده است.

این نشان می دهد که Gemini ممکن است به زودی برای نسخه بتا و ادغام با سرویس هایی مانند Google Cloud Vertex AI آماده شود.

متا در حال کار بر روی LLM برای رقابت با OpenAI

در حالی که اخبار مربوط به Gemini تا کنون امیدوار کننده است، گوگل تنها شرکتی نیست که ظاهراً آماده راه اندازی یک LLM جدید برای رقابت با OpenAI است.

به گفته وال استریت ژورنال، متا همچنین در حال کار بر روی یک مدل هوش مصنوعی است که با مدل GPT که قدرت ChatGPT را تامین می کند، رقابت می کند.

متا اخیراً از انتشار Llama 2، یک مدل AI منبع باز، با همکاری مایکروسافت خبر داد. به نظر می رسد این شرکت به ایجاد مسئولیت پذیری هوش مصنوعی که در دسترس تر است اختصاص داده است.

شمارش معکوس برای Google Gemini

آنچه تاکنون می دانیم نشان می دهد که Gemini می تواند نشان دهنده پیشرفت قابل توجهی در پردازش زبان طبیعی باشد.

ادغام آخرین تحقیقات هوش مصنوعی DeepMind با منابع محاسباتی عظیم گوگل، تاثیر بالقوه را چالش برانگیز می کند.

اگر Gemini انتظارات را برآورده کند، می‌تواند باعث تغییر در هوش مصنوعی تعاملی شود و با جاه‌طلبی‌های گوگل برای «ارائه هوش مصنوعی به روش‌های مسئولانه برای میلیاردها نفر» همسو شود.

آخرین اخبار متا و گوگل چند روز پس از اولین انجمن بینش هوش مصنوعی منتشر می شود، جایی که مدیران عامل فناوری به طور خصوصی با بخشی از سنای ایالات متحده برای گفتگو در مورد آینده هوش مصنوعی ملاقات کردند.


تصویر ویژه: VDB Photos/Shutterstock