امروز ، Google DeepMind خانواده جدیدی از مدل های جمینی را که برای روباتیک طراحی شده اند ، اعلام کرد. Gemini Robotics یک مدل Vision-Language-Action (VLA) است که زبان و تصاویر طبیعی را به عنوان اقدامات ورودی و خروجی می گیرد و به روبات ها اجازه می دهد تا از نظر جسمی حرکت کنند و وظایف خود را انجام دهند. مدل دوم Gemini Robotics-er ، یک مدل استدلال است که مهارت هایی مانند شناسایی اشیاء و قطعات آنها را در فضای سه بعدی تقویت می کند.
نگاهی بیندازید که روبات ها با استفاده از این مدل های جمینی چه کاری می توانند انجام دهند ، از اریگامی تاشو گرفته تا بسته بندی ناهار گرفته تا کلمات املایی با کاشی های Scrabble.