استفاده از مدل‌های زبان بزرگ برای تقویت کنفرانس‌های ویدئویی با تصاویر پویا – وبلاگ هوش مصنوعی گوگل

استفاده از مدل‌های زبان بزرگ برای تقویت کنفرانس‌های ویدئویی با تصاویر پویا – وبلاگ هوش مصنوعی گوگل

پیشرفت‌های اخیر در کنفرانس ویدئویی، ارتباطات ویدئویی از راه دور را از طریق ویژگی‌هایی مانند زیرنویس زنده و حذف نویز به طور قابل توجهی بهبود بخشیده است. با این حال، موقعیت‌های مختلفی وجود دارد که تقویت بصری پویا برای انتقال بهتر اطلاعات پیچیده و ظریف مفید است. به عنوان مثال، هنگام بحث در مورد اینکه در یک رستوران ژاپنی چه چیزی باید سفارش دهید، دوستان شما می توانند تصاویری را به اشتراک بگذارند که به شما کمک می کند در مورد سفارش “سوکیاکی” اعتماد به نفس بیشتری داشته باشید. یا وقتی در مورد سفر اخیر خانوادگی خود به سانفرانسیسکو صحبت می کنید، ممکن است بخواهید عکسی از آلبوم شخصی خود را نشان دهید.

در «زیرنویس‌های بصری: تقویت ارتباطات کلامی با تصاویر بصری در پرواز»، که در ACM CHI 2023 ارائه شد، سیستمی را معرفی می‌کنیم که از نشانه‌های کلامی برای تقویت ارتباطات ویدیویی همزمان با تصاویر بصری در زمان واقعی استفاده می‌کند. ما یک مدل زبان بزرگ را برای پیشنهاد فعالانه تصاویر مرتبط در مکالمات واژگان باز با استفاده از مجموعه داده‌ای که برای این منظور تهیه کرده‌ایم، تنظیم کردیم. ما زیرنویس‌های بصری منبع باز را به عنوان بخشی از پروژه ARChat، که برای نمونه‌سازی سریع ارتباطات تقویت‌شده با رونویسی بلادرنگ طراحی شده است، باز کردیم.

Visual Captions ارتباط کلامی با تصاویر بصری را تسهیل می کند. این سیستم حتی در برابر اشتباهات معمولی که ممکن است اغلب در رونویسی گفتار به متن بلادرنگ ظاهر شوند، قوی است. به عنوان مثال، خارج از زمینه، مدل رونویسی کلمه “اسکله” را به عنوان “جفت” اشتباه فهمیده است، اما Visual Captions همچنان تصاویری از اسکله سانتا مونیکا را توصیه می کند.

طراحی فضایی برای تقویت ارتباط کلامی با تصاویر پویا

ما از 10 شرکت کننده داخلی دعوت کردیم که هر کدام دارای سوابق فنی و غیر فنی مختلف، از جمله مهندسان نرم افزار، محققان، طراحان UX، هنرمندان تجسمی، دانشجویان و غیره بودند تا در مورد نیازها و خواسته های خاص خود برای یک سرویس افزایش بصری بالقوه در زمان واقعی صحبت کنند. در دو جلسه، نمونه‌های اولیه سیستم پیش‌بینی‌شده را با دقت پایین معرفی کردیم و سپس دموی ویدیویی از سیستم‌های متن به تصویر موجود را معرفی کردیم. این بحث ها یک فضای طراحی با هشت بعد را برای تقویت بصری مکالمات بلادرنگ، که در زیر با عنوان D1 تا D8 مشخص شده است، ارائه کرد.

تقویت‌های بصری می‌تواند همزمان یا ناهمزمان با مکالمه باشد (D1: Temporal)، می‌تواند برای بیان و درک محتوای گفتار (D2: Subject) استفاده شود، و می‌تواند با استفاده از طیف گسترده‌ای از محتوای بصری مختلف، انواع بصری و بصری استفاده شود. منابع (D3: Visual). چنین تقویت بصری ممکن است بسته به مقیاس جلسات (D4: مقیاس) و اینکه آیا جلسه در تنظیمات هم‌مکانی یا از راه دور است (D5: Space) متفاوت باشد. این عوامل همچنین بر اینکه آیا تصاویر باید به صورت خصوصی نمایش داده شوند، بین شرکت‌کنندگان به اشتراک گذاشته شوند یا عمومی برای همه، تأثیر می‌گذارند (D6: Privacy). شرکت‌کنندگان همچنین راه‌های مختلفی را شناسایی کردند که می‌خواهند در حین گفتگو با سیستم تعامل داشته باشند (D7: Initiation). به عنوان مثال، افراد سطوح مختلفی از «فعالیت» را پیشنهاد کردند، که نشان‌دهنده درجه‌ای است که کاربران می‌خواهند مدل ابتکار عمل را به دست بگیرد. در نهایت، شرکت‌کنندگان روش‌های مختلفی از تعامل را متصور شدند، به عنوان مثال، استفاده از گفتار یا حرکات برای ورودی. (D8: تعامل).

طراحی فضایی برای تقویت ارتباط کلامی با تصاویر پویا.

با اطلاع از این بازخورد اولیه، ما زیرنویس‌های بصری را برای تمرکز بر تولید طراحی کردیم همزمان تصاویری از نظر معنایی مرتبط محتوای بصری، نوع، و منبع. در حالی که شرکت‌کنندگان در این جلسات اکتشافی اولیه در مکالمات از راه دور یک به یک شرکت می‌کردند، استقرار زیرنویس‌های تصویری در طبیعت اغلب به صورت یک به چند (مثلاً فردی ارائه‌ای برای مخاطبان) و چند به یک خواهد بود. – سناریوهای زیادی (به عنوان مثال، بحث بین افراد متعدد در یک جلسه).

از آنجایی که تصویری که به بهترین شکل مکالمه را تکمیل می کند، به شدت به زمینه بحث بستگی دارد، ما به مجموعه آموزشی مخصوص این هدف نیاز داشتیم. بنابراین، ما مجموعه داده ای از 1595 چهار برابر جمع آوری کردیم زبان (1)، محتوای بصری (2)، نوع (3)، و منبع (4) در زمینه های مختلف، از جمله مکالمات روزانه، سخنرانی ها، و راهنمای سفر. به عنوان مثال، “من دوست دارم آن را ببینم!” مربوط به محتوای بصری “چهره خندان”، نوع بصری “ایموجی” و منبع بصری “جستجوی عمومی” است. “آیا او درباره سفر ما به مکزیک به شما گفت؟” مربوط به محتوای بصری «عکسی از سفر به مکزیک»، نوع تصویری «عکس» و منبع بصری «آلبوم شخصی» است. ما این مجموعه داده VC1.5K را به صورت عمومی برای جامعه تحقیقاتی منتشر کردیم.

مدل پیش‌بینی قصد بصری

برای پیش‌بینی اینکه چه تصاویری می‌تواند مکمل مکالمه باشد، یک مدل پیش‌بینی قصد بصری را بر اساس یک مدل زبان بزرگ با استفاده از مجموعه داده VC1.5K آموزش دادیم. برای آموزش، ما هر هدف بصری را در قالب ” تجزیه کردیم<Visual Type> of <Visual Content> from <Visual Source>“.

{"prompt": "<Previous Two Sentences> →", 
  "completion": 
"<Visual Type 1> of "<Visual Type 1> from "<Visual Source 1>;
 <Visual Type 2> of "<Visual Type 2> from "<Visual Source 2>; 
  ... \?"}

با استفاده از این قالب، این سیستم می تواند مکالمات واژگانی باز را مدیریت کند و محتوای بصری، منبع بصری و نوع بصری را به صورت متنی پیش بینی کند. به طور حکایتی، ما متوجه شدیم که از رویکردهای مبتنی بر کلیدواژه، که نمی‌توانند با مثال‌های واژگانی باز مانند «خاله شما امی این شنبه به دیدار شما می‌آیند» عملکرد بهتری داشته باشد، و نمی‌توانند انواع بصری مرتبط یا منابع بصری را پیشنهاد کنند.

نمونه‌هایی از پیش‌بینی‌های هدف بصری توسط مدل ما.

ما از 1276 (80٪) نمونه از مجموعه داده VC1.5K برای تنظیم دقیق مدل زبان بزرگ و 319 نمونه (20٪) باقی مانده به عنوان داده های آزمایشی استفاده کردیم. ما عملکرد مدل دقیق تنظیم شده را با متریک دقت توکن اندازه گیری کردیم، یعنی درصد نشانه هایی در یک دسته که به درستی توسط مدل پیش بینی شده بود. در طول آموزش، مدل ما به دقت توکن آموزشی 97 درصد و دقت نشانه اعتبارسنجی 87 درصد رسید.

کارایی

برای ارزیابی سودمندی مدل آموزش زیرنویس‌های تصویری، از 89 شرکت‌کننده دعوت کردیم تا 846 کار را انجام دهند. از آنها خواسته شد تا بازخورد خود را در مقیاس «1 – کاملاً مخالفم» تا «7 – کاملاً موافقم» برای شش عبارت کیفی ارائه کنند. اکثر شرکت‌کنندگان ترجیح می‌دهند که تصویر را در طول مکالمه داشته باشند (Q1، 83٪ ≥ 5– تا حدودی موافق). علاوه بر این، آنها تصاویر نمایش داده شده را مفید و آموزنده در نظر گرفتند (Q2، 82% ≥ 5–تا حدودی موافق)، با کیفیت بالا (Q3، 82% ≥ 5–تا حدودی موافق)، و مرتبط با سخنرانی اصلی (Q4، 84%) ≥ 5-تا حدودی موافقم). شرکت‌کنندگان همچنین دریافتند که نوع دیداری پیش‌بینی‌شده (Q5، 87٪ ≥ 5-تا حدودی موافق) و منبع دیداری (Q6، 86٪ ≥ 5-تا حدودی موافق) با توجه به زمینه گفتگوی مربوطه، دقیق هستند.

نتایج ارزیابی فنی مدل پیش‌بینی بصری رتبه‌بندی شده توسط شرکت‌کنندگان در مطالعه.

با این مدل پیش‌بینی هدف بصری تنظیم‌شده، Visual Captions را در پلتفرم ARChat توسعه دادیم، که می‌تواند ویجت‌های تعاملی جدیدی را مستقیماً در جریان دوربین پلت‌فرم‌های کنفرانس ویدیویی، مانند Google Meet، اضافه کند. همانطور که در گردش کار سیستم در زیر نشان داده شده است، Visual Captions به طور خودکار گفتار کاربر را ضبط می کند، آخرین جملات را بازیابی می کند، آنها را هر 100 میلی ثانیه به مدل پیش بینی قصد بصری وارد می کند، تصاویر مربوطه را بازیابی می کند، و سپس تصاویری را در زمان واقعی پیشنهاد می کند.

گردش کار سیستم Visual Captions.

Visual Captions در هنگام پیشنهاد تصاویر بصری سه سطح پیش‌پذیری را ارائه می‌دهد:

  • نمایش خودکار (پیش‌فعالیت بالا): سیستم به‌طور مستقل تصاویر بصری را به صورت عمومی برای همه شرکت‌کنندگان جلسه جستجو و نمایش می‌دهد. بدون نیاز به تعامل کاربر
  • پیشنهاد خودکار (فعالیت متوسط): تصاویر پیشنهادی در یک نمای پیمایش خصوصی نشان داده می شوند. سپس کاربر روی تصویری کلیک می کند تا به صورت عمومی نمایش داده شود. در این حالت، سیستم به طور فعال تصاویر بصری را توصیه می کند، اما کاربر تصمیم می گیرد چه زمانی و چه چیزی را نمایش دهد.
  • بر حسب تقاضا-پیشنهاد (فعالیت کم): سیستم فقط در صورتی تصاویر بصری را پیشنهاد می کند که کاربر کلید فاصله را فشار دهد.

ارزیابی کمی و کیفی: مطالعات کاربر

ما زیرنویس‌های تصویری را در هر دو مطالعه آزمایشگاهی کنترل‌شده ارزیابی کردیم (n = 26) و مطالعات استقرار در طبیعت (n = 10). شرکت‌کنندگان دریافتند که تصاویر بلادرنگ با کمک به توضیح مفاهیم ناآشنا، حل ابهامات زبانی و جذاب‌تر کردن مکالمات، مکالمات زنده را تسهیل می‌کنند. شرکت‌کنندگان همچنین ترجیحات متفاوتی را برای تعامل با سیستم در محل گزارش کردند و سطوح مختلفی از کنش‌پذیری در سناریوهای مختلف اجتماعی ترجیح داده می‌شد.

رتبه‌بندی‌های شاخص بار وظیفه شرکت‌کنندگان و مقیاس لیکرت (از 1 – کاملاً مخالفم تا 7 – کاملاً موافقم) چهار مکالمه بدون شرح تصویری (“بدون VC”) و سه حالت شرح تصویری: نمایش خودکار، پیشنهاد خودکار، و روشن -پیشنهاد تقاضا

نتیجه گیری و مسیرهای آینده

این کار سیستمی را برای تقویت بصری ارتباط کلامی در زمان واقعی پیشنهاد می‌کند، به نام Visual Captions، که با استفاده از مجموعه داده‌ای از 1595 هدف بصری جمع‌آوری‌شده از 246 شرکت‌کننده، آموزش داده شد که 15 دسته موضوع را پوشش می‌دهد. ما مجموعه داده آموزشی VC1.5K را به صورت عمومی در اختیار جامعه پژوهشی قرار می دهیم تا از تحقیقات بیشتر در این فضا حمایت کنیم. ما همچنین Visual Captions را در ARChat مستقر کرده‌ایم که با رونویسی جلسات و افزایش جریان‌های ویدئویی دوربین، کنفرانس‌های ویدیویی را در Google Meet تسهیل می‌کند.

زیرنویس بصری نشان دهنده گامی مهم در جهت تقویت ارتباط کلامی با تصاویر بصری در حال پرواز است. با درک اهمیت نشانه های بصری در مکالمات روزمره، می توانیم ابزارهای ارتباطی موثرتری ایجاد کنیم و نحوه ارتباط افراد را بهبود ببخشیم.

سپاسگزاریها

این کار یک همکاری بین چندین تیم در Google است. مشارکت کنندگان کلیدی این پروژه عبارتند از Xingyu “Bruce” Liu، Vladimir Kirilyuk، Xiuxiu Yuan، Peggy Chi، Alex Olwal و Ruofei Du.

مایلیم از کسانی که در تیم ARChat کمک کردند، از جمله جیسون میز، مکس اسپیر، نا لی، جون ژانگ، جینگ جین، یوان رن، آدارش کودل، پینگ یو، دارسی فیلیپون، و ازگی اوزتلکان، تشکر کنیم. ما همچنین می‌خواهیم از بسیاری از افرادی که با آنها بحث‌های روشنگرانه داشته‌ایم و کسانی که بازخورد خود را در مورد این نسخه ارائه کردند، از جمله اریک ترنر، یندا ژانگ، فیتونگ تان، دانهانگ تانگ و شهرام ایزدی تشکر کنیم. ما همچنین می‌خواهیم از بازبینان CHI خود برای بازخورد روشنگرانه‌شان تشکر کنیم.