من 8 مورد از جدیدترین محصولات و به‌روزرسانی‌های هوش مصنوعی گوگل را در I/O 2024 امتحان کردم

پنجره زمینه طولانی بهبودیافته حتی می‌تواند هنگام پاسخ به یک درخواست، اطلاعات را از چندین سند بیرون بکشد. در پانل کناری در Docs، من برای نوشتن یک نامه نمونه به یک نامزد شغلی بالقوه کمک خواستم – در درخواستی که به سند شرح شغل و نمونه کارها PDF متقاضی پیوند دادم، که هر دو در Drive من بودند. €» و فوراً یک پیش نویس ایمیل دریافت کرد که جزئیات مربوطه را از هر دو سند در نظر گرفت.

Gemini 1.5 Pro تنها مدل جدید براق ما نیست، اما من باید Imagen 3 را که به تازگی معرفی شده است، با بالاترین کیفیت مدل متن به تصویر ما، امتحان کنم. یکی از توانایی‌های جدیدی که در مورد آن هیجان‌زده بودم، توانایی آن در تولید متن و حروف تزئینی بود، بنابراین من آن را به سرعت انجام دادم. من با درخواست یک الفبای سبک شروع کردم – مانند حروفی که به صورت مربا روی نان تست نوشته شده اند، یا با بادکنک های نقره ای شناور در آسمان. Imagen 3 الفبای کاملی از حروف را ایجاد کرد که می‌توانم از آن برای تایپ منوهای (خوشمزه) خودم استفاده کنم.

بعد از اینترلود Imagen 3، با دموهای Gemini بیشتری ادامه دادم. در یکی از آنها، من می‌توانم روکش Gemini را روی یک تلفن Android بکشم و در مورد هر چیزی که روی صفحه است سؤال بپرسم. این واقعاً نشان داد که چگونه ما نه تنها آنچه را که می‌توانید از Gemini بپرسید گسترش می‌دهیم، بلکه در حال آگاه کردن زمینه Gemini نیز هستیم، بنابراین می‌تواند نیازهای شما را پیش‌بینی کند و پیشنهادات مفیدی ارائه دهد.

مورد استفاده در اینجا یک دفترچه راهنمای فر طولانی بود. چه یک نسخه نمایشی یا واقعی باشد، این چیزی نیست که من از خواندن آن هیجان زده باشم. به‌جای مرور سند، جمینی را برداشتم و بلافاصله پیشنهاد «این پی‌دی‌اف را بپرسید» دریافت کردم. من سؤالاتی مانند “چگونه ساعت را به روز کنم” را آزمایش کردم و به سرعت پاسخ های دقیق دریافت کردم. با ویدیوهای یوتیوب هم به خوبی کار کرد. به جای تماشای یک ویدیوی تمرینی 20 دقیقه ای، یک سوال سریع درباره نحوه اصلاح پلانک ها پرسیدم، پاسخ گرفتم و در راه رفتن به نسخه آزمایشی بعدی بودم، جایی که حالت مکالمه جدیدی به نام Gemini Live را آزمایش کردم که به شما امکان می دهد با آن صحبت کنید. Gemini در برنامه، نیازی به تایپ نیست.

صحبت کردن با Gemini تجربه متفاوتی نسبت به رابط چت بات سنتی بود: پاسخ های Gemini بسیار محاوره ای تر از پاراگراف های متون و لیست های نقطه ای است که معمولاً دریافت می کنید. در نسخه ی نمایشی من، متوجه شدم که شما حتی می توانید جمینی را در وسط یک پاسخ قطع کنید. پس از پرسیدن لیستی از فعالیت های کودک برای تعطیلات تابستانی، توانستم فهرستی از پیشنهادات را برای بررسی عمیق تر در مورد موادی که برای بستن یک پیراهن به آن نیاز دارم قطع کنم.

نسخه ی نمایشی Project Astra — یا “Agent Advanced seeing and talking agent” همه چیز را یک قدم فراتر برد تا نشان دهد که پروژه های هوش مصنوعی محاوره ای ما به کجا می روند.

Source link