یک رویکرد زبان بینایی برای درک اساسی رابط کاربری – وبلاگ هوش مصنوعی گوگل

درک محاسباتی رابط های کاربر (UI) گامی کلیدی برای دستیابی به رفتارهای UI هوشمند است. قبلاً، ما وظایف مختلف مدل‌سازی رابط کاربری، از جمله شرح ویجت، خلاصه‌سازی صفحه، و زمین‌بندی فرمان را بررسی کردیم که سناریوهای تعامل متنوعی مانند اتوماسیون و دسترسی را بررسی می‌کنند. ما همچنین نشان دادیم که چگونه یادگیری ماشینی می‌تواند با تشخیص آشفتگی قابلیت لمس و ارائه بینش‌هایی برای بهبود طراحی UI، به متخصصین تجربه کاربر کمک کند تا کیفیت رابط کاربری را بهبود بخشند. این آثار همراه با کارهایی که توسط دیگران در این زمینه ایجاد شده‌اند نشان داده‌اند که چگونه شبکه‌های عصبی عمیق می‌توانند تجربیات کاربر نهایی و عمل طراحی تعامل را تغییر دهند.

با این موفقیت‌ها در پرداختن به تکالیف UI، یک سوال طبیعی این است که آیا می‌توانیم درک اساسی از رابط‌های کاربری به دست آوریم که می‌تواند برای وظایف UI خاص مفید باشد. به عنوان اولین تلاش ما برای پاسخ به این سوال، ما یک مدل چند وظیفه ای را برای رسیدگی به طیف وسیعی از وظایف UI به طور همزمان ایجاد کردیم. اگرچه این کار تا حدودی پیشرفت کرد، اما چند چالش باقی مانده است. مدل‌های رابط کاربری قبلی به شدت به سلسله‌مراتب نمای رابط کاربری متکی هستند – به عنوان مثال، ساختار یا ابرداده یک صفحه رابط کاربری تلفن همراه مانند مدل شیء سند برای یک صفحه وب – که به مدل اجازه می‌دهد مستقیماً اطلاعات دقیقی از اشیاء رابط کاربری روی صفحه (مثلاً انواع آنها) به دست آورد. ، محتوای متن و موقعیت). این ابرداده به مدل‌های قبلی برتری‌هایی نسبت به همتایان فقط بینایی خود داده است. با این حال، سلسله مراتب نماها همیشه قابل دسترسی نیستند و اغلب با توضیحات اشیاء از دست رفته یا اطلاعات ساختار نامناسب خراب می شوند. در نتیجه، علیرغم دستاوردهای کوتاه مدت استفاده از سلسله مراتب دید، ممکن است در نهایت عملکرد و کاربرد مدل را مختل کند. علاوه بر این، مدل‌های قبلی مجبور بودند با اطلاعات ناهمگن در میان مجموعه‌های داده و وظایف رابط کاربری سروکار داشته باشند، که اغلب منجر به معماری‌های مدل پیچیده‌ای می‌شد که مقیاس‌بندی یا تعمیم در بین وظایف دشوار بود.

در «Spotlight: Mobile UI Understanding with Vision-Language Models with a Focus» که برای انتشار در ICLR 2023 پذیرفته شده است، ما یک رویکرد فقط چشم انداز را ارائه می دهیم که هدف آن دستیابی به درک کلی رابط کاربری به طور کامل از پیکسل های خام است. ما یک رویکرد یکپارچه را برای نشان دادن وظایف مختلف رابط کاربری معرفی می‌کنیم، که اطلاعات مربوط به آن را می‌توان به صورت جهانی با دو روش اصلی نمایش داد: دید و زبان. حالت بینایی آنچه را که یک فرد از صفحه رابط کاربری می بیند، به تصویر می کشد، و حالت زبان می تواند زبان طبیعی یا هر توالی نشانه مرتبط با کار باشد. ما نشان می‌دهیم که Spotlight به‌طور قابل‌توجهی دقت را در طیف وسیعی از وظایف UI، از جمله شرح‌نویسی ویجت، خلاصه‌سازی صفحه، زمین‌گذاری فرمان و پیش‌بینی قابلیت لمس، بهبود می‌بخشد.

مدل Spotlight

ورودی مدل Spotlight شامل سه مورد است: تصویر صفحه، منطقه مورد نظر روی صفحه، و شرح متنی کار. خروجی یک توضیح متنی یا پاسخ در مورد منطقه مورد نظر است. این نمایش ساده ورودی و خروجی مدل برای ثبت وظایف مختلف رابط کاربری گویا است و به معماری مدل های مقیاس پذیر اجازه می دهد. این طراحی مدل به طیفی از راهبردها و تنظیمات یادگیری، از تنظیم دقیق تکلیف، یادگیری چند کاره و یادگیری چند تکه اجازه می دهد. مدل Spotlight، همانطور که در شکل بالا نشان داده شده است، از بلوک‌های ساختمانی معماری موجود مانند ViT و T5 استفاده می‌کند که از قبل در حوزه زبان بینایی با منابع بالا آموزش دیده‌اند، که به ما امکان می‌دهد از موفقیت این موارد استفاده کنیم. مدل های دامنه عمومی

از آنجایی که وظایف UI اغلب مربوط به یک شی یا ناحیه خاص روی صفحه است، که نیاز به یک مدل برای تمرکز بر روی شی یا ناحیه مورد علاقه دارد، ما یک Focus Region Extractor را به یک مدل زبان بینایی معرفی می کنیم که مدل را قادر می سازد تا با توجه به زمینه صفحه، روی منطقه تمرکز کنید.

به طور خاص، ما یک خلاصه‌کننده منطقه طراحی می‌کنیم که با استفاده از جستارهای توجه تولید شده از جعبه مرزی منطقه، یک نمایش نهفته از یک منطقه صفحه را بر اساس رمزگذاری‌های ViT به دست می‌آورد (برای جزئیات بیشتر به مقاله مراجعه کنید). به طور خاص، هر مختصات (یک مقدار اسکالر، به عنوان مثال، سمت چپ، بالا، راست یا پایین) کادر محدود، که به عنوان یک کادر زرد در تصویر نشان داده شده است، ابتدا از طریق یک پرسپترون چند لایه (MLP) به عنوان مجموعه ای از بردارهای متراکم جاسازی می شود. ، و سپس به مدل ترانسفورماتور در امتداد جاسازی نوع مختصات آنها تغذیه می شود. بردارهای متراکم و جاسازی‌های نوع مختصات مربوطه آن‌ها برای نشان دادن وابستگی آنها به هر مقدار مختصات، کد رنگی دارند. پرس و جوهای مختصات سپس به خروجی کدگذاری صفحه توسط ViT از طریق توجه متقاطع توجه می کنند و خروجی توجه نهایی ترانسفورماتور به عنوان نمایش منطقه برای رمزگشایی پایین دستی توسط T5 استفاده می شود.

یک منطقه هدف روی صفحه با استفاده از جعبه محدود کننده آن برای جستجو در کدگذاری های صفحه از ViT از طریق مکانیسم های توجه خلاصه می شود.

نتایج

ما مدل Spotlight را با استفاده از دو مجموعه داده بدون برچسب (یک مجموعه داده داخلی مبتنی بر پیکره C4 و یک مجموعه داده داخلی تلفن همراه) با 2.5 میلیون صفحه رابط کاربری تلفن همراه و 80 میلیون صفحه وب از قبل آموزش می‌دهیم. سپس مدل از پیش آموزش‌دیده‌شده را برای هر یک از چهار کار پایین‌دستی (شرح‌نویسی، خلاصه‌سازی، زمینه‌سازی، و قابلیت ضربه زدن) به‌طور جداگانه تنظیم می‌کنیم. برای شرح‌نویسی ویجت و وظایف خلاصه‌سازی صفحه، ما نمرات CIDEr را گزارش می‌کنیم، که اندازه‌گیری می‌کند که توضیح متن مدل چقدر شبیه به مجموعه‌ای از مراجع ایجاد شده توسط ارزیاب‌های انسانی است. برای زمین‌بندی فرمان، دقتی را گزارش می‌کنیم که درصد دفعاتی را که مدل با موفقیت یک شی هدف را در پاسخ به فرمان کاربر تعیین می‌کند، اندازه‌گیری می‌کند. برای پیش‌بینی قابلیت ضربه‌پذیری، امتیازات F1 را گزارش می‌کنیم که توانایی مدل را در تشخیص اشیای قابل لمس از غیرقابل استفاده اندازه‌گیری می‌کند.

در این آزمایش، ما Spotlight را با چندین مدل معیار مقایسه می کنیم. Widget Caption از سلسله مراتب مشاهده و تصویر هر شی UI برای ایجاد یک توضیح متنی برای شی استفاده می کند. به طور مشابه، Screen2Words از سلسله مراتب مشاهده و عکس صفحه و همچنین ویژگی های کمکی (به عنوان مثال، توضیحات برنامه) برای ایجاد خلاصه ای برای صفحه استفاده می کند. در همین راستا، VUT اسکرین شات ها و سلسله مراتب مشاهده را برای انجام چندین کار ترکیب می کند. در نهایت، مدل اصلی Tappability از ابرداده‌های شیء از سلسله مراتب دید و اسکرین شات برای پیش‌بینی قابلیت لمس شی استفاده می‌کند. Taperception، یک مدل پیگیری از Tappability، از یک رویکرد پیش‌بینی قابلیت لمسی فقط بینایی استفاده می‌کند. ما دو نوع مدل Spotlight را با توجه به اندازه بلوک ساختمان ViT آن شامل B/16 و L/16 بررسی می‌کنیم. Spotlight در چهار کار مدل‌سازی رابط کاربری به‌شدت از پیشرفته‌ترین فناوری‌ها فراتر رفت.

مدل عنوان بندی خلاصه سازی زمین کردن قابلیت ضربه زدن
خطوط پایه
عنوان ویجت 97
Screen2Words 61.3
ولی 99.3 65.6 82.1
درک مخروطی 85.5
قابلیت ضربه زدن 87.9
نور افکن ب/16 136.6 103.5 95.7 86.9
L/16 141.8 106.7 95.8 88.4

سپس راه‌اندازی چالش‌برانگیزتری را دنبال می‌کنیم که در آن از مدل می‌خواهیم چندین کار را به طور همزمان بیاموزد زیرا یک مدل چند کاره می‌تواند به طور قابل‌توجهی ردپای مدل را کاهش دهد. همانطور که در جدول زیر نشان داده شده است، آزمایشات نشان داد که مدل ما هنوز به صورت رقابتی عمل می کند.

مدل عنوان بندی خلاصه سازی زمین کردن قابلیت ضربه زدن
چند وظیفه ای VUT 99.3 65.1 80.8
Spotlight B/16 140 102.7 90.8 89.4
Spotlight L/16 141.3 99.2 94.2 89.5

برای درک اینکه چگونه منطقه Summarizer Spotlight را قادر می‌سازد تا بر روی یک منطقه هدف و نواحی مربوطه روی صفحه تمرکز کند، وزن‌های توجه (که نشان می‌دهد توجه مدل در عکس صفحه کجاست) را برای هر دو عنوان ویجت و وظایف خلاصه‌سازی صفحه تجزیه و تحلیل می‌کنیم. در شکل زیر، برای کار عنوان کردن ویجت، مدل «انتخاب تیم چلسی» را برای چک باکس سمت چپ، که با یک کادر قرمز رنگ مشخص شده است، پیش‌بینی می‌کند. ما می‌توانیم از نقشه حرارتی توجه آن (که توزیع وزن‌های توجه را نشان می‌دهد) در سمت راست ببینیم که مدل یاد می‌گیرد که نه تنها به منطقه هدف کادر چک توجه کند، بلکه متن «چلسی» در سمت چپ را نیز برای تولید نشان می‌دهد. عنوان. برای مثال خلاصه‌سازی صفحه، مدل با توجه به اسکرین شات سمت چپ، «صفحه نمایش آموزش یک برنامه یادگیری» را پیش‌بینی می‌کند. در این مثال، منطقه هدف کل صفحه است و مدل یاد می‌گیرد که به بخش‌های مهم در آن توجه کند. صفحه نمایش برای خلاصه سازی

برای کار عنوان کردن ویجت، نقشه حرارتی توجه مدل را نشان می‌دهد که به چک باکس، یعنی شی مورد نظر، و برچسب متنی در سمت چپ آن هنگام ایجاد عنوان برای شیء توجه می‌کند. کادر قرمز رنگ در شکل برای اهداف تصویری است.
برای کار خلاصه‌سازی صفحه که منطقه هدف کل صفحه را در بر می‌گیرد، نقشه حرارتی توجه مدل را نشان می‌دهد که به مکان‌های مختلف روی صفحه که به تولید خلاصه کمک می‌کند، توجه می‌کند.

نتیجه

ما نشان می‌دهیم که Spotlight از روش‌های قبلی که هم از اسکرین‌شات‌ها و هم از سلسله‌مراتب مشاهده به‌عنوان ورودی استفاده می‌کنند، بهتر عمل می‌کند، و نتایج پیشرفته‌ای را در چندین وظایف UI نماینده ایجاد می‌کند. این وظایف از دسترسی، اتوماسیون تا طراحی و ارزیابی تعامل را شامل می شود. رویکرد ما برای درک رابط کاربری تلفن همراه، نیاز به استفاده از سلسله مراتب دید را کاهش می‌دهد، به معماری اجازه می‌دهد به راحتی مقیاس‌بندی شود و از موفقیت مدل‌های زبان بینایی بزرگ که برای دامنه عمومی از قبل آموزش داده شده‌اند، بهره‌مند شود. در مقایسه با تلاش‌های اخیر مدل‌های زبان بینایی بزرگ مانند Flamingo و PaLI، Spotlight نسبتاً کوچک است و آزمایش‌های ما این روند را نشان می‌دهد که مدل‌های بزرگ‌تر عملکرد بهتری دارند. Spotlight را می توان به راحتی برای کارهای بیشتر رابط کاربری اعمال کرد و به طور بالقوه در بسیاری از وظایف تعامل و تجربه کاربر پیش رفت.

تصدیق

ما از ماندار جوشی و تائو لی برای کمک آنها در پردازش مجموعه داده های پیش از آموزش وب و چین-یی چنگ و فارست هوانگ برای بازخوردشان برای تصحیح مقاله تشکر می کنیم. با تشکر از تام اسمال برای کمک او در ایجاد فیگورهای متحرک در این پست.

سئو PBN | خبر های جدید سئو و هک و سرور