مدل‌سازی و بهبود پایداری متن در زیرنویس‌های زنده – وبلاگ تحقیقاتی گوگل - سئو PBN

ارسال شده توسط Vikas Bahirwani، پژوهشگر، و سوزان خو، مهندس نرم افزار، واقعیت افزوده گوگل

فناوری تشخیص خودکار گفتار (ASR) مکالمات را با زیرنویس‌های زنده در نرم‌افزار کنفرانس از راه دور، برنامه‌های کاربردی تلفن همراه و نمایشگرهای سر پوشیده در دسترس‌تر کرده است. با این حال، برای حفظ پاسخگویی در زمان واقعی، سیستم‌های زیرنویس زنده اغلب پیش‌بینی‌های موقتی را نشان می‌دهند که با دریافت گفته‌های جدید به‌روزرسانی می‌شوند. این می تواند باعث شود بی ثباتی متن (یک “سوسو زدن” که در آن متن نمایش داده شده قبلی به روز می شود، که در زیرنویس های سمت چپ در ویدیوی زیر نشان داده شده است)، که می تواند تجربه خواندن کاربران را به دلیل حواس پرتی، خستگی و مشکل در پیگیری مکالمه مختل کند.

در «مدل‌سازی و بهبود پایداری متن در زیرنویس‌های زنده»، ارائه‌شده در ACM CHI 2023، ما این مشکل پایداری متن را از طریق چند مشارکت کلیدی رسمی‌سازی می‌کنیم. ابتدا، ناپایداری متن را با استفاده از یک متریک سوسو زدن مبتنی بر دید که از کنتراست روشنایی و تبدیل فوریه گسسته استفاده می‌کند، کمیت می‌کنیم. دوم، ما همچنین یک الگوریتم پایداری را برای تثبیت رندر زیرنویس‌های زنده از طریق هم‌ترازی نشانه‌گذاری شده، ادغام معنایی و انیمیشن روان معرفی می‌کنیم. در نهایت، ما یک مطالعه کاربر (N = 123) برای درک تجربه بینندگان با زیرنویس زنده انجام دادیم. تجزیه و تحلیل آماری ما یک همبستگی قوی بین متریک سوسو زدن پیشنهادی ما و تجربه بینندگان را نشان می‌دهد. علاوه بر این، نشان می‌دهد که تکنیک‌های تثبیت‌کننده پیشنهادی ما به‌طور قابل‌توجهی تجربه بینندگان را بهبود می‌بخشد (به عنوان مثال، زیرنویس‌های سمت راست در ویدیوی بالا).

زیرنویس‌های خام ASR در مقابل زیرنویس‌های تثبیت‌شده

متریک

با الهام از کار قبلی، ما یک معیار مبتنی بر سوسو زدن را برای تعیین کمیت ثبات متن و ارزیابی عینی عملکرد سیستم‌های زیرنویس زنده پیشنهاد می‌کنیم. به طور خاص، هدف ما تعیین کمیت سوسو زدن در یک ویدیوی زیرنویس زنده در مقیاس خاکستری است. ما با مقایسه تفاوت در روشنایی بین فریم‌های جداگانه (قاب‌های شکل‌های زیر) که ویدیو را تشکیل می‌دهند، به این امر دست می‌یابیم. تغییرات بصری بزرگ در روشنایی واضح است (به عنوان مثال، اضافه کردن کلمه “روشن” در شکل پایین)، اما تغییرات ظریف (به عنوان مثال، به روز رسانی از “… این طلا. خوب..” به “… این طلا خوب است”) ممکن است تشخیص آن برای خوانندگان دشوار باشد. با این حال، تبدیل تغییر در روشنایی به فرکانس های تشکیل دهنده آن، تغییرات آشکار و ظریف را آشکار می کند.

بنابراین، برای هر جفت فریم به هم پیوسته، تفاوت روشنایی را با استفاده از تبدیل فوریه گسسته به فرکانس های تشکیل دهنده آن تبدیل می کنیم. سپس هر یک از فرکانس های پایین و بالا را جمع می کنیم تا سوسو زدن در این جفت را کمی کنیم. در نهایت، از تمام جفت‌های فریم میانگین می‌گیریم تا یک سوسو زدن به ازای هر ویدیو را دریافت کنیم.

به عنوان مثال، در زیر می‌توانیم ببینیم که دو فریم یکسان (بالا) سوسو زدن 0 را ارائه می‌دهند، در حالی که دو فریم غیر یکسان (پایین) یک سوسو زدن غیر صفر دارند. شایان ذکر است که مقادیر بالاتر متریک نشان دهنده سوسو زدن زیاد در ویدیو و در نتیجه تجربه کاربری بدتر از مقادیر کمتر متریک است.

تصویری از متریک سوسو زدن بین دو فریم یکسان.

تصویر سوسو زدن بین دو فریم غیر یکسان.

الگوریتم پایداری

برای بهبود پایداری زیرنویس‌های زنده، الگوریتمی پیشنهاد می‌کنیم که توالی توکن‌هایی را که قبلاً رندر شده‌اند (مثلاً «قبلی» در شکل زیر) و توالی جدید پیش‌بینی‌های ASR را به عنوان ورودی می‌گیرد و یک متن تثبیت‌شده به‌روزرسانی شده را خروجی می‌کند (مثلاً « متن به روز شده (با تثبیت)” در زیر). هم جنبه درک زبان طبیعی (NLU) و هم جنبه ارگونومیک (نمایش، چیدمان و غیره) تجربه کاربر را در تصمیم گیری در مورد زمان و نحوه تولید یک متن به روز شده پایدار در نظر می گیرد. به طور خاص، الگوریتم ما برای رسیدن به این هدف، هم‌ترازی نشانه‌ای، ادغام معنایی و انیمیشن صاف را انجام می‌دهد. در ادامه، یک نشانه به عنوان یک کلمه یا نقطه گذاری تولید شده توسط ASR تعریف می شود.

ما (الف) متن رندر شده قبلی، (ب) طرح پایه متن به روز شده را بدون الگوریتم ادغام ما، و (ج) متن به روز شده را که توسط الگوریتم تثبیت ما ایجاد شده است نشان می دهیم.

الگوریتم ما با شناسایی سه دسته از تغییرات (که در زیر با رنگ های قرمز، سبز و آبی مشخص شده اند)، چالش تولید متن به روز شده تثبیت شده را برطرف می کند:

قرمز: اضافه کردن نشانه‌ها به انتهای زیرنویس‌هایی که قبلاً رندر شده‌اند (مثلاً «چطور»).
سبز: افزودن/حذف نشانه‌ها، در وسط زیرنویس‌هایی که قبلاً رندر شده‌اند.
- B1: اضافه کردن نشانه ها (به عنوان مثال، “من” و “دوستان”). اینها ممکن است بر درک کلی شرح‌ها تأثیر بگذارند یا نه، اما ممکن است منجر به تغییر طرح‌بندی شوند. چنین تغییراتی در طرح‌بندی در زیرنویس‌های زنده مورد نظر نیستند، زیرا باعث ایجاد لرزش قابل توجه و تجربه کاربری ضعیف‌تر می‌شوند. در اینجا «من» به درک مطلب اضافه نمی کند، اما «دوستان» به درک مطلب اضافه می کند. بنابراین، تعادل به‌روزرسانی‌ها و ثبات به‌ویژه برای توکن‌های نوع B1 مهم است.
- B2: حذف نشانه ها، به عنوان مثال، “in” در جمله به روز شده حذف می شود.
آبی: زیرنویس مجدد نشانه‌ها: این شامل ویرایش‌هایی می‌شود که ممکن است بر درک کلی زیرنویس‌ها تأثیر بگذارد یا نداشته باشد.

C1: اسامی خاص مانند “disney land” به “Disneyland” به روز می شوند.
C2: مختصرهای دستوری مانند “it’s” به “It was” به روز می شوند.

طبقات تغییرات بین متن نمایش داده شده قبلی و متن به روز شده.

تراز، ادغام و هموارسازی

برای به حداکثر رساندن ثبات متن، هدف ما این است که با استفاده از به‌روزرسانی‌هایی که در عین اطمینان از زیرنویس‌های دقیق و معنادار، حداقل تغییرات را در طرح‌بندی موجود ایجاد می‌کنند، دنباله قدیمی را با دنباله جدید تراز کنیم. برای دستیابی به این هدف، ما از یک نوع الگوریتم Needleman-Wunsch با برنامه‌نویسی پویا برای ادغام دو دنباله بسته به کلاس توکن‌ها که در بالا تعریف شد استفاده می‌کنیم:

نشانه های مورد A: ما مستقیماً نشانه‌های مورد A را اضافه می‌کنیم و در صورت نیاز، خطوط را برای تناسب با زیرنویس‌های به‌روزرسانی شده، شکسته می‌کنیم.
نشانه های مورد B: مطالعات اولیه ما نشان داد که کاربران ثبات را به دقت برای شرح‌های نمایش داده شده قبلی ترجیح می‌دهند. بنابراین، ما فقط نشانه‌های مورد B را در صورتی به‌روزرسانی می‌کنیم که به‌روزرسانی‌ها طرح‌بندی خط موجود را خراب نکنند.
نشانه های مورد C: ما شباهت معنایی نشانه‌های مورد C را با تبدیل جملات اصلی و به‌روز شده به جاسازی‌های جمله، اندازه‌گیری محصول نقطه‌ای آن‌ها، و به‌روزرسانی آن‌ها تنها در صورتی که از نظر معنایی متفاوت باشند (شباهت <0.85) مقایسه می‌کنیم و به‌روزرسانی باعث شکست خط جدید نمی‌شود.

در نهایت، ما از انیمیشن ها برای کاهش لرزش بصری استفاده می کنیم. برای تثبیت بیشتر طرح کلی زیرنویس‌های زنده، پیمایش صاف و محو شدن نشانه‌های جدید اضافه شده را اجرا می‌کنیم.

ارزیابی کاربر

ما یک مطالعه کاربری با 123 شرکت‌کننده انجام دادیم تا (1) همبستگی معیار سوسو زدن پیشنهادی ما را با تجربه بینندگان از زیرنویس‌های زنده بررسی کنیم، و (2) اثربخشی تکنیک‌های تثبیت را ارزیابی کنیم.

ما به‌طور دستی 20 ویدیو را در YouTube انتخاب کردیم تا پوشش وسیعی از موضوعات از جمله کنفرانس‌های ویدیویی، مستندها، گفتگوهای دانشگاهی، آموزش‌ها، اخبار، کمدی و موارد دیگر را به دست آوریم. برای هر ویدیو، یک کلیپ 30 ثانیه‌ای با حداقل 90 درصد گفتار انتخاب کردیم.

ما چهار نوع رندر از زیرنویس‌های زنده را برای مقایسه آماده کردیم:

ASR خام: گفتار به نوشتار خام از یک API گفتار به متن حاصل می شود.
Raw ASR + thresholding: فقط در صورتی که امتیاز اطمینان آن بالاتر از 0.85 باشد، نتیجه موقت گفتار به متن را نمایش می دهد.
زیرنویس‌های تثبیت‌شده: زیرنویس‌ها با استفاده از الگوریتم ما که در بالا توضیح داده شد با تراز و ادغام.
زیرنویس‌های تثبیت‌شده و روان: زیرنویس‌های تثبیت‌شده با انیمیشن روان (پیمایش + محو شدن) برای ارزیابی اینکه آیا تجربه نمایش نرم‌شده به بهبود تجربه کاربر کمک می‌کند یا خیر.

ما رتبه‌بندی‌های کاربران را با درخواست از شرکت‌کنندگان برای تماشای زیرنویس‌های زنده ضبط‌شده جمع‌آوری کردیم و ارزیابی‌های خود را در مورد راحتی، حواس‌پرتی، سهولت خواندن، سهولت دنبال کردن ویدیو، خستگی، و اینکه آیا زیرنویس‌ها به تجربه آن‌ها آسیب می‌زند، ارزیابی کردیم.

همبستگی بین متریک سوسو زدن و تجربه کاربر

ما ضریب اسپیرمن را بین متریک سوسو زدن و هر یک از اندازه‌گیری‌های رفتاری محاسبه کردیم (مقادیر از 1- تا 1 است که مقادیر منفی نشان‌دهنده رابطه منفی بین دو متغیر، مقادیر مثبت نشان‌دهنده رابطه مثبت و صفر نشان‌دهنده عدم وجود رابطه است). در زیر نشان داده شده است، مطالعه ما همبستگی آماری معنی‌دار (0.001 < ) را بین متریک سوسو زدن ما و رتبه‌بندی کاربران نشان می‌دهد. مقادیر مطلق ضریب حدود 0.3 است که نشان دهنده یک رابطه متوسط است.

اندازه گیری رفتاری	همبستگی با متریک سوسو زدن*
راحتی	-0.29
حواس پرتی	0.33
آسان برای خواندن	-0.31
آسان برای دنبال کردن فیلم ها	-0.29
خستگی	0.36
تجربه مختل شده	0.31

تست های همبستگی اسپیرمن متریک سوسو زدن پیشنهادی ما. *پ < 0.001.

تثبیت زیرنویس‌های زنده

روش پیشنهادی ما (شرح‌های صاف تثبیت‌شده) به‌طور مداوم رتبه‌بندی بهتری دریافت کرد، که با آزمون Mann-Whitney U اندازه‌گیری شد.پ < 0.01 در شکل زیر)، در پنج مورد از شش بیانیه نظرسنجی فوق الذکر. به این معنا که کاربران زیرنویس‌های تثبیت‌شده با هموارسازی را راحت‌تر و خواندن آسان‌تر می‌دانستند، در حالی که نسبت به سایر انواع رندر، حواس‌پرتی، خستگی و اختلال کمتری در تجربه خود احساس می‌کردند.

رتبه بندی کاربران از 1 (کاملاً مخالفم) – 7 (کاملاً موافقم) در اظهارات نظرسنجی. (**: p<0.01، ***: p<0.001؛ ****: p<0.0001؛ ns: غیر معنی دار)

نتیجه گیری و جهت گیری آینده

بی ثباتی متن در زیرنویس زنده به طور قابل توجهی تجربه خواندن کاربران را مختل می کند. این کار یک معیار مبتنی بر دید را برای مدل‌سازی ثبات زیرنویس پیشنهاد می‌کند که از نظر آماری به طور قابل‌توجهی با تجربه کاربران مرتبط است، و الگوریتمی برای تثبیت رندر زیرنویس‌های زنده. راه حل پیشنهادی ما می‌تواند به طور بالقوه در سیستم‌های ASR موجود ادغام شود تا قابلیت استفاده از زیرنویس‌های زنده را برای کاربران مختلف، از جمله کسانی که نیاز به ترجمه دارند یا کسانی که نیاز به دسترسی شنیداری دارند، افزایش دهد.

کار ما نشان دهنده گامی اساسی در جهت اندازه گیری و بهبود پایداری متن است. این را می توان برای شامل معیارهای مبتنی بر زبان که بر ثبات کلمات و عبارات استفاده شده در زیرنویس های زنده در طول زمان تمرکز می کند، تکامل یافت. این معیارها ممکن است انعکاسی از ناراحتی کاربر را ارائه دهد زیرا به درک و درک زبان در سناریوهای دنیای واقعی مربوط می شود. ما همچنین علاقه مند به انجام مطالعات ردیابی چشم هستیم (به عنوان مثال، ویدیوهای نشان داده شده در زیر) برای ردیابی الگوهای نگاه بینندگان، مانند تثبیت چشم و ساکاد، که به ما امکان می دهد انواع خطاهایی را که بیشتر حواس پرت می کنند و چگونگی بهبود پایداری متن را درک کنیم. برای آنها

تصویری از ردیابی نگاه بیننده هنگام خواندن شرح‌های خام ASR.

تصویری از ردیابی نگاه بیننده هنگام خواندن زیرنویس‌های تثبیت شده و صاف.

با بهبود پایداری متن در زیرنویس‌های زنده، می‌توانیم ابزارهای ارتباطی مؤثرتری ایجاد کنیم و نحوه ارتباط افراد را در مکالمات روزمره به زبان‌های آشنا یا از طریق ترجمه، بهبود ببخشیم.

سپاسگزاریها

این کار یک همکاری بین چندین تیم در Google است. مشارکت کنندگان کلیدی عبارتند از Xingyu “Bruce” Liu، Jun Zhang، Leonardo Ferrer، Susan Xu، Vikas Bahirwani، Boris Smus، Alex Olwal و Ruofei Du. مایلیم از همکارانمان که کمک کردند، از جمله نیشا باتیا، مکس اسپیر، و دارسی فیلیپون تشکر کنیم. همچنین مایلیم از لین لی، ایوان پارکر و بازبینان CHI 2023 تشکر کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور