در کنفرانس توسعه دهندگان Google I/O در ماه می 2023، ساندار پیچای، مدیر عامل شرکت، سیستم هوش مصنوعی (AI) آینده این شرکت، Gemini را معرفی کرد.
مدل زبان بزرگ (LLM) توسط بخش Google DeepMind (تیم مغز + DeepMind) در حال توسعه است. این می تواند با سیستم های هوش مصنوعی مانند ChatGPT از OpenAI رقابت کند و احتمالاً از آنها بهتر عمل کند.
در حالی که جزئیات کمیاب است، در اینجا چیزی است که می توانیم از آخرین مصاحبه ها و گزارش های مربوط به Google Gemini جمع آوری کنیم.
Google Gemini چندوجهی خواهد بود
پیچای بیان کرد که Gemini نقاط قوت سیستم AlphaGo DeepMind را که به دلیل تسلط بر بازی پیچیده Go معروف است، با قابلیت های مدل سازی زبان گسترده ترکیب می کند.
او گفت که از ابتدا به گونه ای طراحی شده است که چندوجهی باشد، متن، تصاویر و دیگر انواع داده را یکپارچه کند. این می تواند توانایی های مکالمه طبیعی تری را به شما بدهد.
پیچای همچنین به قابلیتهای آینده مانند حافظه و برنامهریزی اشاره کرد که میتواند کارهایی را که نیاز به استدلال دارند را فعال کند.
Gemini می تواند از ابزارها و API ها استفاده کند
جفری دین، دانشمند ارشد گوگل، در بهروزرسانی بیوگرافی حرفهای خود در تابستان گفت که جمینی یکی از «مدلهای چندوجهی نسل بعدی» است که او رهبری میکند.
او اظهار داشت که از Pathways، زیرساخت هوش مصنوعی جدید گوگل، برای افزایش مقیاس آموزش در مجموعه داده های متنوع استفاده خواهد کرد.
این نشان می دهد که Gemini به طور بالقوه بزرگترین مدل زبانی است که تا به امروز ایجاد شده است، که احتمالاً از اندازه GPT-3 با بیش از 175 میلیارد پارامتر فراتر رفته است.
با اندازه ها و قابلیت های مختلف عرضه خواهد شد
جزئیات بیشتر از Demis Hassabis، مدیر عامل DeepMind ارائه شده است.
در ماه ژوئن، او به Wired گفت که تکنیکهای AlphaGo، مانند یادگیری تقویتی و جستجوی درخت، ممکن است به Gemini تواناییهای جدیدی مانند استدلال و حل مسئله بدهد.
Hassabis اظهار داشت که Gemini یک “سری مدل” است که در اندازه ها و قابلیت های مختلف در دسترس خواهد بود.
او همچنین اشاره کرد که Gemini ممکن است از حافظه، بررسی واقعیت در برابر منابعی مانند جستجوی گوگل و یادگیری تقویتی بهبود یافته برای افزایش دقت و کاهش محتوای توهمآمیز خطرناک استفاده کند.
نتایج اولیه جوزا امیدوار کننده است
در مصاحبه سپتامبر تایم، Hassabis تکرار کرد که Gemini قصد دارد مقیاس و نوآوری را ترکیب کند.
او گفت که تلفیق برنامه ریزی و حافظه در مراحل اولیه اکتشافی است.
Hassabis همچنین اظهار داشت که Gemini ممکن است از روشهای بازیابی برای خروجی کل بلوکهای اطلاعات به جای تولید کلمه به کلمه استفاده کند تا سازگاری واقعی را بهبود بخشد.
او فاش کرد که Gemini بر روی کارهای چندوجهی DeepMind مانند سیستم زیرنویس تصویر Flamingo ساخته شده است.
به طور کلی، Hassabis گفت که Gemini “نتایج اولیه بسیار امیدوارکننده” را نشان می دهد.
چت ربات های پیشرفته به عنوان دستیاران شخصی جهانی
پیچای در مصاحبهای با Wired که چند روز بعد منتشر شد، واضحترین نشانه را در مورد اینکه Gemini چگونه در نقشه راه محصول گوگل قرار میگیرد، ارائه کرد.
او بیان کرد که سیستمهای هوش مصنوعی محاورهای مانند بارد «وضعیت پایانی» نیستند، بلکه نقاطی هستند که به سمت چتباتهای پیشرفتهتر میروند.
پیچای گفت Gemini و تکرارهای آینده در نهایت تبدیل به “دستیارهای شخصی جهانی باورنکردنی” خواهند شد که در زندگی روزمره مردم در زمینه هایی مانند سفر، کار و سرگرمی ادغام می شوند.
او تکرار کرد که جمینی نقاط قوت متن و تصویر را با هم ترکیب خواهد کرد و اظهار داشت که چت رباتهای امروزی در مقایسه با چند سال آینده «بیاهمیت» به نظر میرسند.
رقبا به عملکرد Gemini علاقه مند هستند
مدیر عامل OpenAI توییتی را منتشر کرد که به نظر میرسد پاسخی به مقالهای است که گفته میشد Google Gemini میتواند از GPT-4 بهتر عمل کند.
آیا اعداد اشتباه هستند؟
— ایلان ماسک (@elonmusk) 30 آگوست 2023
هیچ پاسخ رسمی به سوال بعدی ایلان ماسک مبنی بر صحت اعداد ارائه شده توسط SemiAnalysis وجود نداشت.
شرکتهایی را انتخاب کنید که دسترسی زودهنگام به جمینی دارند
سرنخ های بیشتر در مورد پیشرفت Gemini در این هفته: اطلاعات گزارش کرد که گوگل به گروه کوچکی از توسعه دهندگان خارج از گوگل دسترسی زودهنگام به Gemini داده است.
این نشان می دهد که Gemini ممکن است به زودی برای نسخه بتا و ادغام با سرویس هایی مانند Google Cloud Vertex AI آماده شود.
متا در حال کار بر روی LLM برای رقابت با OpenAI
در حالی که اخبار مربوط به Gemini تا کنون امیدوار کننده است، گوگل تنها شرکتی نیست که ظاهراً آماده راه اندازی یک LLM جدید برای رقابت با OpenAI است.
به گفته وال استریت ژورنال، متا همچنین در حال کار بر روی یک مدل هوش مصنوعی است که با مدل GPT که قدرت ChatGPT را تامین می کند، رقابت می کند.
متا اخیراً از انتشار Llama 2، یک مدل AI منبع باز، با همکاری مایکروسافت خبر داد. به نظر می رسد این شرکت به ایجاد مسئولیت پذیری هوش مصنوعی که در دسترس تر است اختصاص داده است.
شمارش معکوس برای Google Gemini
آنچه تاکنون می دانیم نشان می دهد که Gemini می تواند نشان دهنده پیشرفت قابل توجهی در پردازش زبان طبیعی باشد.
ادغام آخرین تحقیقات هوش مصنوعی DeepMind با منابع محاسباتی عظیم گوگل، تاثیر بالقوه را چالش برانگیز می کند.
اگر Gemini انتظارات را برآورده کند، میتواند باعث تغییر در هوش مصنوعی تعاملی شود و با جاهطلبیهای گوگل برای «ارائه هوش مصنوعی به روشهای مسئولانه برای میلیاردها نفر» همسو شود.
آخرین اخبار متا و گوگل چند روز پس از اولین انجمن بینش هوش مصنوعی منتشر می شود، جایی که مدیران عامل فناوری به طور خصوصی با بخشی از سنای ایالات متحده برای گفتگو در مورد آینده هوش مصنوعی ملاقات کردند.
تصویر ویژه: VDB Photos/Shutterstock