نویسندگان:
(1) یان ، UC سن دیگو ، [email protected]؛
(2) Zhengyuan Yang ، شرکت مایکروسافت ، [email protected] با کمک های برابر ؛
(3) Wanrong Zhu ، UC سانتا باربارا ، [email protected]؛
(4) کوین لین ، شرکت مایکروسافت ، [email protected]؛
(5) لینجی لی ، شرکت مایکروسافت ، [email protected]؛
(6) Jianfeng Wang ، شرکت مایکروسافت ، [email protected]؛
(7) جیانوی یانگ ، شرکت مایکروسافت ، [email protected]؛
(8) Yiwu Zhong ، دانشگاه ویسکانسین-مدیسون ، [email protected]؛
(9) جولیان مک آولی ، UC سن دیگو ، [email protected]؛
(10) Jianfeng Gao ، شرکت مایکروسافت ، [email protected]؛
(11) Zicheng Liu ، شرکت مایکروسافت ، [email protected]؛
(12) Lijuan Wang ، شرکت مایکروسافت ، [email protected]بشر
یادداشت ویرایشگر: این قسمت 1 مقاله ای است که در مورد استفاده از یک هوش مصنوعی تولیدی برای حرکت در تلفن های هوشمند ارزیابی می شود. می توانید بقیه مقاله را از طریق جدول پیوندها در زیر بخوانید.
جدول پیوندها
چکیده
ما MM-Navigator ، یک عامل مبتنی بر GPT-4V را برای کار ناوبری کاربری گرافیکی تلفن هوشمند (GUI) ارائه می دهیم. MM-Navigator می تواند به عنوان کاربران انسانی با یک صفحه نمایش هوشمند در تعامل باشد و اقدامات بعدی را برای انجام دستورالعمل های داده شده تعیین کند. یافته های ما نشان می دهد که مدل های بزرگ چند حالته (LMM) ، به طور خاص GPT-4V ، اکسل در صفر-شات …