پیشرفتهای اخیر در کنفرانس ویدئویی، ارتباطات ویدئویی از راه دور را از طریق ویژگیهایی مانند زیرنویس زنده و حذف نویز به طور قابل توجهی بهبود بخشیده است. با این حال، موقعیتهای مختلفی وجود دارد که تقویت بصری پویا برای انتقال بهتر اطلاعات پیچیده و ظریف مفید است. به عنوان مثال، هنگام بحث در مورد اینکه در یک رستوران ژاپنی چه چیزی باید سفارش دهید، دوستان شما می توانند تصاویری را به اشتراک بگذارند که به شما کمک می کند در مورد سفارش “سوکیاکی” اعتماد به نفس بیشتری داشته باشید. یا وقتی در مورد سفر اخیر خانوادگی خود به سانفرانسیسکو صحبت می کنید، ممکن است بخواهید عکسی از آلبوم شخصی خود را نشان دهید.
در «زیرنویسهای بصری: تقویت ارتباطات کلامی با تصاویر بصری در پرواز»، که در ACM CHI 2023 ارائه شد، سیستمی را معرفی میکنیم که از نشانههای کلامی برای تقویت ارتباطات ویدیویی همزمان با تصاویر بصری در زمان واقعی استفاده میکند. ما یک مدل زبان بزرگ را برای پیشنهاد فعالانه تصاویر مرتبط در مکالمات واژگان باز با استفاده از مجموعه دادهای که برای این منظور تهیه کردهایم، تنظیم کردیم. ما زیرنویسهای بصری منبع باز را به عنوان بخشی از پروژه ARChat، که برای نمونهسازی سریع ارتباطات تقویتشده با رونویسی بلادرنگ طراحی شده است، باز کردیم.
![]() |
Visual Captions ارتباط کلامی با تصاویر بصری را تسهیل می کند. این سیستم حتی در برابر اشتباهات معمولی که ممکن است اغلب در رونویسی گفتار به متن بلادرنگ ظاهر شوند، قوی است. به عنوان مثال، خارج از زمینه، مدل رونویسی کلمه “اسکله” را به عنوان “جفت” اشتباه فهمیده است، اما Visual Captions همچنان تصاویری از اسکله سانتا مونیکا را توصیه می کند. |
طراحی فضایی برای تقویت ارتباط کلامی با تصاویر پویا
ما از 10 شرکت کننده داخلی دعوت کردیم که هر کدام دارای سوابق فنی و غیر فنی مختلف، از جمله مهندسان نرم افزار، محققان، طراحان UX، هنرمندان تجسمی، دانشجویان و غیره بودند تا در مورد نیازها و خواسته های خاص خود برای یک سرویس افزایش بصری بالقوه در زمان واقعی صحبت کنند. در دو جلسه، نمونههای اولیه سیستم پیشبینیشده را با دقت پایین معرفی کردیم و سپس دموی ویدیویی از سیستمهای متن به تصویر موجود را معرفی کردیم. این بحث ها یک فضای طراحی با هشت بعد را برای تقویت بصری مکالمات بلادرنگ، که در زیر با عنوان D1 تا D8 مشخص شده است، ارائه کرد.
تقویتهای بصری میتواند همزمان یا ناهمزمان با مکالمه باشد (D1: Temporal)، میتواند برای بیان و درک محتوای گفتار (D2: Subject) استفاده شود، و میتواند با استفاده از طیف گستردهای از محتوای بصری مختلف، انواع بصری و بصری استفاده شود. منابع (D3: Visual). چنین تقویت بصری ممکن است بسته به مقیاس جلسات (D4: مقیاس) و اینکه آیا جلسه در تنظیمات هممکانی یا از راه دور است (D5: Space) متفاوت باشد. این عوامل همچنین بر اینکه آیا تصاویر باید به صورت خصوصی نمایش داده شوند، بین شرکتکنندگان به اشتراک گذاشته شوند یا عمومی برای همه، تأثیر میگذارند (D6: Privacy). شرکتکنندگان همچنین راههای مختلفی را شناسایی کردند که میخواهند در حین گفتگو با سیستم تعامل داشته باشند (D7: Initiation). به عنوان مثال، افراد سطوح مختلفی از «فعالیت» را پیشنهاد کردند، که نشاندهنده درجهای است که کاربران میخواهند مدل ابتکار عمل را به دست بگیرد. در نهایت، شرکتکنندگان روشهای مختلفی از تعامل را متصور شدند، به عنوان مثال، استفاده از گفتار یا حرکات برای ورودی. (D8: تعامل).
![]() |
طراحی فضایی برای تقویت ارتباط کلامی با تصاویر پویا. |
با اطلاع از این بازخورد اولیه، ما زیرنویسهای بصری را برای تمرکز بر تولید طراحی کردیم همزمان تصاویری از نظر معنایی مرتبط محتوای بصری، نوع، و منبع. در حالی که شرکتکنندگان در این جلسات اکتشافی اولیه در مکالمات از راه دور یک به یک شرکت میکردند، استقرار زیرنویسهای تصویری در طبیعت اغلب به صورت یک به چند (مثلاً فردی ارائهای برای مخاطبان) و چند به یک خواهد بود. – سناریوهای زیادی (به عنوان مثال، بحث بین افراد متعدد در یک جلسه).
از آنجایی که تصویری که به بهترین شکل مکالمه را تکمیل می کند، به شدت به زمینه بحث بستگی دارد، ما به مجموعه آموزشی مخصوص این هدف نیاز داشتیم. بنابراین، ما مجموعه داده ای از 1595 چهار برابر جمع آوری کردیم زبان (1)، محتوای بصری (2)، نوع (3)، و منبع (4) در زمینه های مختلف، از جمله مکالمات روزانه، سخنرانی ها، و راهنمای سفر. به عنوان مثال، “من دوست دارم آن را ببینم!” مربوط به محتوای بصری “چهره خندان”، نوع بصری “ایموجی” و منبع بصری “جستجوی عمومی” است. “آیا او درباره سفر ما به مکزیک به شما گفت؟” مربوط به محتوای بصری «عکسی از سفر به مکزیک»، نوع تصویری «عکس» و منبع بصری «آلبوم شخصی» است. ما این مجموعه داده VC1.5K را به صورت عمومی برای جامعه تحقیقاتی منتشر کردیم.
مدل پیشبینی قصد بصری
برای پیشبینی اینکه چه تصاویری میتواند مکمل مکالمه باشد، یک مدل پیشبینی قصد بصری را بر اساس یک مدل زبان بزرگ با استفاده از مجموعه داده VC1.5K آموزش دادیم. برای آموزش، ما هر هدف بصری را در قالب ” تجزیه کردیم<Visual Type> of <Visual Content> from <Visual Source>
“.
{"prompt": "<Previous Two Sentences> →", "completion": "<Visual Type 1> of "<Visual Type 1> from "<Visual Source 1>; <Visual Type 2> of "<Visual Type 2> from "<Visual Source 2>; ... \𝑛"}
با استفاده از این قالب، این سیستم می تواند مکالمات واژگانی باز را مدیریت کند و محتوای بصری، منبع بصری و نوع بصری را به صورت متنی پیش بینی کند. به طور حکایتی، ما متوجه شدیم که از رویکردهای مبتنی بر کلیدواژه، که نمیتوانند با مثالهای واژگانی باز مانند «خاله شما امی این شنبه به دیدار شما میآیند» عملکرد بهتری داشته باشد، و نمیتوانند انواع بصری مرتبط یا منابع بصری را پیشنهاد کنند.
![]() |
نمونههایی از پیشبینیهای هدف بصری توسط مدل ما. |
ما از 1276 (80٪) نمونه از مجموعه داده VC1.5K برای تنظیم دقیق مدل زبان بزرگ و 319 نمونه (20٪) باقی مانده به عنوان داده های آزمایشی استفاده کردیم. ما عملکرد مدل دقیق تنظیم شده را با متریک دقت توکن اندازه گیری کردیم، یعنی درصد نشانه هایی در یک دسته که به درستی توسط مدل پیش بینی شده بود. در طول آموزش، مدل ما به دقت توکن آموزشی 97 درصد و دقت نشانه اعتبارسنجی 87 درصد رسید.
کارایی
برای ارزیابی سودمندی مدل آموزش زیرنویسهای تصویری، از 89 شرکتکننده دعوت کردیم تا 846 کار را انجام دهند. از آنها خواسته شد تا بازخورد خود را در مقیاس «1 – کاملاً مخالفم» تا «7 – کاملاً موافقم» برای شش عبارت کیفی ارائه کنند. اکثر شرکتکنندگان ترجیح میدهند که تصویر را در طول مکالمه داشته باشند (Q1، 83٪ ≥ 5– تا حدودی موافق). علاوه بر این، آنها تصاویر نمایش داده شده را مفید و آموزنده در نظر گرفتند (Q2، 82% ≥ 5–تا حدودی موافق)، با کیفیت بالا (Q3، 82% ≥ 5–تا حدودی موافق)، و مرتبط با سخنرانی اصلی (Q4، 84%) ≥ 5-تا حدودی موافقم). شرکتکنندگان همچنین دریافتند که نوع دیداری پیشبینیشده (Q5، 87٪ ≥ 5-تا حدودی موافق) و منبع دیداری (Q6، 86٪ ≥ 5-تا حدودی موافق) با توجه به زمینه گفتگوی مربوطه، دقیق هستند.
![]() |
نتایج ارزیابی فنی مدل پیشبینی بصری رتبهبندی شده توسط شرکتکنندگان در مطالعه. |
با این مدل پیشبینی هدف بصری تنظیمشده، Visual Captions را در پلتفرم ARChat توسعه دادیم، که میتواند ویجتهای تعاملی جدیدی را مستقیماً در جریان دوربین پلتفرمهای کنفرانس ویدیویی، مانند Google Meet، اضافه کند. همانطور که در گردش کار سیستم در زیر نشان داده شده است، Visual Captions به طور خودکار گفتار کاربر را ضبط می کند، آخرین جملات را بازیابی می کند، آنها را هر 100 میلی ثانیه به مدل پیش بینی قصد بصری وارد می کند، تصاویر مربوطه را بازیابی می کند، و سپس تصاویری را در زمان واقعی پیشنهاد می کند.
![]() |
گردش کار سیستم Visual Captions. |
Visual Captions در هنگام پیشنهاد تصاویر بصری سه سطح پیشپذیری را ارائه میدهد:
- نمایش خودکار (پیشفعالیت بالا): سیستم بهطور مستقل تصاویر بصری را به صورت عمومی برای همه شرکتکنندگان جلسه جستجو و نمایش میدهد. بدون نیاز به تعامل کاربر
- پیشنهاد خودکار (فعالیت متوسط): تصاویر پیشنهادی در یک نمای پیمایش خصوصی نشان داده می شوند. سپس کاربر روی تصویری کلیک می کند تا به صورت عمومی نمایش داده شود. در این حالت، سیستم به طور فعال تصاویر بصری را توصیه می کند، اما کاربر تصمیم می گیرد چه زمانی و چه چیزی را نمایش دهد.
- بر حسب تقاضا-پیشنهاد (فعالیت کم): سیستم فقط در صورتی تصاویر بصری را پیشنهاد می کند که کاربر کلید فاصله را فشار دهد.
ارزیابی کمی و کیفی: مطالعات کاربر
ما زیرنویسهای تصویری را در هر دو مطالعه آزمایشگاهی کنترلشده ارزیابی کردیم (n = 26) و مطالعات استقرار در طبیعت (n = 10). شرکتکنندگان دریافتند که تصاویر بلادرنگ با کمک به توضیح مفاهیم ناآشنا، حل ابهامات زبانی و جذابتر کردن مکالمات، مکالمات زنده را تسهیل میکنند. شرکتکنندگان همچنین ترجیحات متفاوتی را برای تعامل با سیستم در محل گزارش کردند و سطوح مختلفی از کنشپذیری در سناریوهای مختلف اجتماعی ترجیح داده میشد.
![]() |
رتبهبندیهای شاخص بار وظیفه شرکتکنندگان و مقیاس لیکرت (از 1 – کاملاً مخالفم تا 7 – کاملاً موافقم) چهار مکالمه بدون شرح تصویری (“بدون VC”) و سه حالت شرح تصویری: نمایش خودکار، پیشنهاد خودکار، و روشن -پیشنهاد تقاضا |
نتیجه گیری و مسیرهای آینده
این کار سیستمی را برای تقویت بصری ارتباط کلامی در زمان واقعی پیشنهاد میکند، به نام Visual Captions، که با استفاده از مجموعه دادهای از 1595 هدف بصری جمعآوریشده از 246 شرکتکننده، آموزش داده شد که 15 دسته موضوع را پوشش میدهد. ما مجموعه داده آموزشی VC1.5K را به صورت عمومی در اختیار جامعه پژوهشی قرار می دهیم تا از تحقیقات بیشتر در این فضا حمایت کنیم. ما همچنین Visual Captions را در ARChat مستقر کردهایم که با رونویسی جلسات و افزایش جریانهای ویدئویی دوربین، کنفرانسهای ویدیویی را در Google Meet تسهیل میکند.
زیرنویس بصری نشان دهنده گامی مهم در جهت تقویت ارتباط کلامی با تصاویر بصری در حال پرواز است. با درک اهمیت نشانه های بصری در مکالمات روزمره، می توانیم ابزارهای ارتباطی موثرتری ایجاد کنیم و نحوه ارتباط افراد را بهبود ببخشیم.
سپاسگزاریها
این کار یک همکاری بین چندین تیم در Google است. مشارکت کنندگان کلیدی این پروژه عبارتند از Xingyu “Bruce” Liu، Vladimir Kirilyuk، Xiuxiu Yuan، Peggy Chi، Alex Olwal و Ruofei Du.
مایلیم از کسانی که در تیم ARChat کمک کردند، از جمله جیسون میز، مکس اسپیر، نا لی، جون ژانگ، جینگ جین، یوان رن، آدارش کودل، پینگ یو، دارسی فیلیپون، و ازگی اوزتلکان، تشکر کنیم. ما همچنین میخواهیم از بسیاری از افرادی که با آنها بحثهای روشنگرانه داشتهایم و کسانی که بازخورد خود را در مورد این نسخه ارائه کردند، از جمله اریک ترنر، یندا ژانگ، فیتونگ تان، دانهانگ تانگ و شهرام ایزدی تشکر کنیم. ما همچنین میخواهیم از بازبینان CHI خود برای بازخورد روشنگرانهشان تشکر کنیم.