Quantization برای یادگیری تقویتی سریع و پایدار از نظر محیطی

ارسال شده توسط Srivatsan Krishnan، محقق دانشجو، و الکساندرا فاوست، دانشمند تحقیقات ارشد کارکنان، تحقیقات گوگل، تیم مغز یادگیری تقویتی عمیق (RL) همچنان به پیشرفت های بزرگی در حل مسائل تصمیم گیری متوالی در دنیای واقعی مانند ناوبری با بالون، فیزیک هسته ای، رباتیک و بازی ها ادامه می دهد. علیرغم وعده آن، یکی از …

ادامه مطلب

وبلاگ هوش مصنوعی گوگل: مشاهده سنتز با ترانسفورماتورها

ارسال شده توسط Carlos Esteves و Ameesh Makadia، دانشمندان پژوهشگر، Google Research یک مشکل دیرینه در تقاطع بینایی کامپیوتر و گرافیک کامپیوتری، سنتز نما وظیفه ایجاد نماهای جدید از یک صحنه از چندین عکس از آن صحنه است. این مورد توجه بیشتری را به خود جلب کرده است [1, 2, 3] از زمان معرفی میدان …

ادامه مطلب

تخصیص آنلاین قوی با فرود آینه دوگانه

ارسال شده توسط سانتیاگو بالسیرو، پژوهشگر کارکنان، تحقیقات گوگل، و دانشیار در دانشگاه کلمبیا، و وهاب میرورکنی، دانشمند برجسته، تحقیقات گوگل ظهور فناوری های دیجیتال تصمیم گیری را در بخش های تجاری مانند خطوط هوایی، خرده فروشی آنلاین و تبلیغات اینترنتی تغییر داده است. امروزه، تصمیمات بلادرنگ باید به طور مکرر در محیط های بسیار …

ادامه مطلب

مقیاس بندی زبان-آموزش تصویر در بیش از 100 زبان

ارسال شده توسط شی چن و شیائو وانگ، مهندسان نرم افزار، تحقیقات گوگل مدل‌های زبان پیشرفته (به عنوان مثال، GPT، GLaM، PaLM و T5) قابلیت‌های متنوعی را نشان داده‌اند و با افزایش تعداد پارامترهای خود، به نتایج چشمگیری در سراسر وظایف و زبان‌ها دست یافته‌اند. مدل‌های زبان بینایی (VL) می‌توانند از مقیاس‌بندی مشابه برای رسیدگی …

ادامه مطلب

برنامه ریزی سلسله مراتبی عمیق از پیکسل

ارسال شده توسط Danijar Hafner، محقق دانشجو، Google Research تحقیقات در مورد چگونگی تصمیم گیری عوامل مصنوعی به سرعت از طریق پیشرفت در یادگیری تقویتی عمیق تکامل یافته است. در مقایسه با مدل‌های ML مولد مانند GPT-3 و Imagen، عوامل مصنوعی می‌توانند مستقیماً بر محیط خود از طریق اقداماتی مانند حرکت دادن بازوی ربات بر …

ادامه مطلب

بازبینی ترانسفورماتور ماسک از دیدگاه خوشه‌بندی

ارسال شده توسط Qihang Yu، محقق دانشجو، و Liang-Chie Chen، دانشمند پژوهشی، تحقیقات گوگل تقسیم بندی پانوپتیک یک مشکل بینایی کامپیوتری است که به عنوان یک وظیفه اصلی برای بسیاری از برنامه های کاربردی دنیای واقعی عمل می کند. به دلیل پیچیدگی، کار قبلی اغلب تقسیم‌بندی پانوپتیک را به تقسیم‌بندی معنایی (تخصیص برچسب‌های معنایی، مانند …

ادامه مطلب

بازنویسی زیرنویس‌های تصویر برای پاسخ‌گویی به سؤالات تصویری ایجاد داده

ارسال شده توسط Soravit Beer Changpinyo و Doron Kukliansky، مهندسان ارشد نرم افزار، Google Research پاسخگویی به سوال بصری (VQA) یک کار مفید یادگیری ماشینی (ML) است که به یک مدل برای پاسخ به یک سوال بصری در مورد یک تصویر نیاز دارد. چیزی که آن را چالش برانگیز می کند، ماهیت چند وظیفه ای …

ادامه مطلب

به سوی قابلیت اطمینان در سیستم های یادگیری عمیق

ارسال شده توسط داستین تران و بالاجی لاکشمینارایانان، دانشمندان پژوهشگر، تحقیقات گوگل مدل‌های یادگیری عمیق پیشرفت چشمگیری در بینایی، زبان و سایر روش‌ها داشته‌اند، به‌ویژه با افزایش پیش‌آموزش در مقیاس بزرگ. چنین مدل‌هایی زمانی دقیق‌تر هستند که برای داده‌های آزمایشی که از توزیع مشابه مجموعه آموزشی آن‌ها استخراج شده‌اند، اعمال شوند. با این حال، در …

ادامه مطلب