فناوری تشخیص خودکار گفتار (ASR) مکالمات را با زیرنویسهای زنده در نرمافزار کنفرانس از راه دور، برنامههای کاربردی تلفن همراه و نمایشگرهای سر پوشیده در دسترستر کرده است. با این حال، برای حفظ پاسخگویی در زمان واقعی، سیستمهای زیرنویس زنده اغلب پیشبینیهای موقتی را نشان میدهند که با دریافت گفتههای جدید بهروزرسانی میشوند. این می تواند باعث شود بی ثباتی متن (یک “سوسو زدن” که در آن متن نمایش داده شده قبلی به روز می شود، که در زیرنویس های سمت چپ در ویدیوی زیر نشان داده شده است)، که می تواند تجربه خواندن کاربران را به دلیل حواس پرتی، خستگی و مشکل در پیگیری مکالمه مختل کند.
در «مدلسازی و بهبود پایداری متن در زیرنویسهای زنده»، ارائهشده در ACM CHI 2023، ما این مشکل پایداری متن را از طریق چند مشارکت کلیدی رسمیسازی میکنیم. ابتدا، ناپایداری متن را با استفاده از یک متریک سوسو زدن مبتنی بر دید که از کنتراست روشنایی و تبدیل فوریه گسسته استفاده میکند، کمیت میکنیم. دوم، ما همچنین یک الگوریتم پایداری را برای تثبیت رندر زیرنویسهای زنده از طریق همترازی نشانهگذاری شده، ادغام معنایی و انیمیشن روان معرفی میکنیم. در نهایت، ما یک مطالعه کاربر (N = 123) برای درک تجربه بینندگان با زیرنویس زنده انجام دادیم. تجزیه و تحلیل آماری ما یک همبستگی قوی بین متریک سوسو زدن پیشنهادی ما و تجربه بینندگان را نشان میدهد. علاوه بر این، نشان میدهد که تکنیکهای تثبیتکننده پیشنهادی ما بهطور قابلتوجهی تجربه بینندگان را بهبود میبخشد (به عنوان مثال، زیرنویسهای سمت راست در ویدیوی بالا).
زیرنویسهای خام ASR در مقابل زیرنویسهای تثبیتشده |
متریک
با الهام از کار قبلی، ما یک معیار مبتنی بر سوسو زدن را برای تعیین کمیت ثبات متن و ارزیابی عینی عملکرد سیستمهای زیرنویس زنده پیشنهاد میکنیم. به طور خاص، هدف ما تعیین کمیت سوسو زدن در یک ویدیوی زیرنویس زنده در مقیاس خاکستری است. ما با مقایسه تفاوت در روشنایی بین فریمهای جداگانه (قابهای شکلهای زیر) که ویدیو را تشکیل میدهند، به این امر دست مییابیم. تغییرات بصری بزرگ در روشنایی واضح است (به عنوان مثال، اضافه کردن کلمه “روشن” در شکل پایین)، اما تغییرات ظریف (به عنوان مثال، به روز رسانی از “… این طلا. خوب..” به “… این طلا خوب است”) ممکن است تشخیص آن برای خوانندگان دشوار باشد. با این حال، تبدیل تغییر در روشنایی به فرکانس های تشکیل دهنده آن، تغییرات آشکار و ظریف را آشکار می کند.
بنابراین، برای هر جفت فریم به هم پیوسته، تفاوت روشنایی را با استفاده از تبدیل فوریه گسسته به فرکانس های تشکیل دهنده آن تبدیل می کنیم. سپس هر یک از فرکانس های پایین و بالا را جمع می کنیم تا سوسو زدن در این جفت را کمی کنیم. در نهایت، از تمام جفتهای فریم میانگین میگیریم تا یک سوسو زدن به ازای هر ویدیو را دریافت کنیم.
به عنوان مثال، در زیر میتوانیم ببینیم که دو فریم یکسان (بالا) سوسو زدن 0 را ارائه میدهند، در حالی که دو فریم غیر یکسان (پایین) یک سوسو زدن غیر صفر دارند. شایان ذکر است که مقادیر بالاتر متریک نشان دهنده سوسو زدن زیاد در ویدیو و در نتیجه تجربه کاربری بدتر از مقادیر کمتر متریک است.
![]() |
تصویری از متریک سوسو زدن بین دو فریم یکسان. |
![]() |
تصویر سوسو زدن بین دو فریم غیر یکسان. |
الگوریتم پایداری
برای بهبود پایداری زیرنویسهای زنده، الگوریتمی پیشنهاد میکنیم که توالی توکنهایی را که قبلاً رندر شدهاند (مثلاً «قبلی» در شکل زیر) و توالی جدید پیشبینیهای ASR را به عنوان ورودی میگیرد و یک متن تثبیتشده بهروزرسانی شده را خروجی میکند (مثلاً « متن به روز شده (با تثبیت)” در زیر). هم جنبه درک زبان طبیعی (NLU) و هم جنبه ارگونومیک (نمایش، چیدمان و غیره) تجربه کاربر را در تصمیم گیری در مورد زمان و نحوه تولید یک متن به روز شده پایدار در نظر می گیرد. به طور خاص، الگوریتم ما برای رسیدن به این هدف، همترازی نشانهای، ادغام معنایی و انیمیشن صاف را انجام میدهد. در ادامه، یک نشانه به عنوان یک کلمه یا نقطه گذاری تولید شده توسط ASR تعریف می شود.
![]() |
ما (الف) متن رندر شده قبلی، (ب) طرح پایه متن به روز شده را بدون الگوریتم ادغام ما، و (ج) متن به روز شده را که توسط الگوریتم تثبیت ما ایجاد شده است نشان می دهیم. |
الگوریتم ما با شناسایی سه دسته از تغییرات (که در زیر با رنگ های قرمز، سبز و آبی مشخص شده اند)، چالش تولید متن به روز شده تثبیت شده را برطرف می کند:
- قرمز: اضافه کردن نشانهها به انتهای زیرنویسهایی که قبلاً رندر شدهاند (مثلاً «چطور»).
- سبز: افزودن/حذف نشانهها، در وسط زیرنویسهایی که قبلاً رندر شدهاند.
- B1: اضافه کردن نشانه ها (به عنوان مثال، “من” و “دوستان”). اینها ممکن است بر درک کلی شرحها تأثیر بگذارند یا نه، اما ممکن است منجر به تغییر طرحبندی شوند. چنین تغییراتی در طرحبندی در زیرنویسهای زنده مورد نظر نیستند، زیرا باعث ایجاد لرزش قابل توجه و تجربه کاربری ضعیفتر میشوند. در اینجا «من» به درک مطلب اضافه نمی کند، اما «دوستان» به درک مطلب اضافه می کند. بنابراین، تعادل بهروزرسانیها و ثبات بهویژه برای توکنهای نوع B1 مهم است.
- B2: حذف نشانه ها، به عنوان مثال، “in” در جمله به روز شده حذف می شود.
- آبی: زیرنویس مجدد نشانهها: این شامل ویرایشهایی میشود که ممکن است بر درک کلی زیرنویسها تأثیر بگذارد یا نداشته باشد.
- C1: اسامی خاص مانند “disney land” به “Disneyland” به روز می شوند.
- C2: مختصرهای دستوری مانند “it’s” به “It was” به روز می شوند.
![]() |
طبقات تغییرات بین متن نمایش داده شده قبلی و متن به روز شده. |
تراز، ادغام و هموارسازی
برای به حداکثر رساندن ثبات متن، هدف ما این است که با استفاده از بهروزرسانیهایی که در عین اطمینان از زیرنویسهای دقیق و معنادار، حداقل تغییرات را در طرحبندی موجود ایجاد میکنند، دنباله قدیمی را با دنباله جدید تراز کنیم. برای دستیابی به این هدف، ما از یک نوع الگوریتم Needleman-Wunsch با برنامهنویسی پویا برای ادغام دو دنباله بسته به کلاس توکنها که در بالا تعریف شد استفاده میکنیم:
- نشانه های مورد A: ما مستقیماً نشانههای مورد A را اضافه میکنیم و در صورت نیاز، خطوط را برای تناسب با زیرنویسهای بهروزرسانی شده، شکسته میکنیم.
- نشانه های مورد B: مطالعات اولیه ما نشان داد که کاربران ثبات را به دقت برای شرحهای نمایش داده شده قبلی ترجیح میدهند. بنابراین، ما فقط نشانههای مورد B را در صورتی بهروزرسانی میکنیم که بهروزرسانیها طرحبندی خط موجود را خراب نکنند.
- نشانه های مورد C: ما شباهت معنایی نشانههای مورد C را با تبدیل جملات اصلی و بهروز شده به جاسازیهای جمله، اندازهگیری محصول نقطهای آنها، و بهروزرسانی آنها تنها در صورتی که از نظر معنایی متفاوت باشند (شباهت <0.85) مقایسه میکنیم و بهروزرسانی باعث شکست خط جدید نمیشود.
در نهایت، ما از انیمیشن ها برای کاهش لرزش بصری استفاده می کنیم. برای تثبیت بیشتر طرح کلی زیرنویسهای زنده، پیمایش صاف و محو شدن نشانههای جدید اضافه شده را اجرا میکنیم.
ارزیابی کاربر
ما یک مطالعه کاربری با 123 شرکتکننده انجام دادیم تا (1) همبستگی معیار سوسو زدن پیشنهادی ما را با تجربه بینندگان از زیرنویسهای زنده بررسی کنیم، و (2) اثربخشی تکنیکهای تثبیت را ارزیابی کنیم.
ما بهطور دستی 20 ویدیو را در YouTube انتخاب کردیم تا پوشش وسیعی از موضوعات از جمله کنفرانسهای ویدیویی، مستندها، گفتگوهای دانشگاهی، آموزشها، اخبار، کمدی و موارد دیگر را به دست آوریم. برای هر ویدیو، یک کلیپ 30 ثانیهای با حداقل 90 درصد گفتار انتخاب کردیم.
ما چهار نوع رندر از زیرنویسهای زنده را برای مقایسه آماده کردیم:
- ASR خام: گفتار به نوشتار خام از یک API گفتار به متن حاصل می شود.
- Raw ASR + thresholding: فقط در صورتی که امتیاز اطمینان آن بالاتر از 0.85 باشد، نتیجه موقت گفتار به متن را نمایش می دهد.
- زیرنویسهای تثبیتشده: زیرنویسها با استفاده از الگوریتم ما که در بالا توضیح داده شد با تراز و ادغام.
- زیرنویسهای تثبیتشده و روان: زیرنویسهای تثبیتشده با انیمیشن روان (پیمایش + محو شدن) برای ارزیابی اینکه آیا تجربه نمایش نرمشده به بهبود تجربه کاربر کمک میکند یا خیر.
ما رتبهبندیهای کاربران را با درخواست از شرکتکنندگان برای تماشای زیرنویسهای زنده ضبطشده جمعآوری کردیم و ارزیابیهای خود را در مورد راحتی، حواسپرتی، سهولت خواندن، سهولت دنبال کردن ویدیو، خستگی، و اینکه آیا زیرنویسها به تجربه آنها آسیب میزند، ارزیابی کردیم.
همبستگی بین متریک سوسو زدن و تجربه کاربر
ما ضریب اسپیرمن را بین متریک سوسو زدن و هر یک از اندازهگیریهای رفتاری محاسبه کردیم (مقادیر از 1- تا 1 است که مقادیر منفی نشاندهنده رابطه منفی بین دو متغیر، مقادیر مثبت نشاندهنده رابطه مثبت و صفر نشاندهنده عدم وجود رابطه است). در زیر نشان داده شده است، مطالعه ما همبستگی آماری معنیدار (0.001 < ) را بین متریک سوسو زدن ما و رتبهبندی کاربران نشان میدهد. مقادیر مطلق ضریب حدود 0.3 است که نشان دهنده یک رابطه متوسط است.
اندازه گیری رفتاری | همبستگی با متریک سوسو زدن* |
راحتی |
-0.29 |
حواس پرتی |
0.33 |
آسان برای خواندن |
-0.31 |
آسان برای دنبال کردن فیلم ها |
-0.29 |
خستگی |
0.36 |
تجربه مختل شده |
0.31 |
تست های همبستگی اسپیرمن متریک سوسو زدن پیشنهادی ما. *پ < 0.001. |
تثبیت زیرنویسهای زنده
روش پیشنهادی ما (شرحهای صاف تثبیتشده) بهطور مداوم رتبهبندی بهتری دریافت کرد، که با آزمون Mann-Whitney U اندازهگیری شد.پ < 0.01 در شکل زیر)، در پنج مورد از شش بیانیه نظرسنجی فوق الذکر. به این معنا که کاربران زیرنویسهای تثبیتشده با هموارسازی را راحتتر و خواندن آسانتر میدانستند، در حالی که نسبت به سایر انواع رندر، حواسپرتی، خستگی و اختلال کمتری در تجربه خود احساس میکردند.
![]() |
رتبه بندی کاربران از 1 (کاملاً مخالفم) – 7 (کاملاً موافقم) در اظهارات نظرسنجی. (**: p<0.01، ***: p<0.001؛ ****: p<0.0001؛ ns: غیر معنی دار) |
نتیجه گیری و جهت گیری آینده
بی ثباتی متن در زیرنویس زنده به طور قابل توجهی تجربه خواندن کاربران را مختل می کند. این کار یک معیار مبتنی بر دید را برای مدلسازی ثبات زیرنویس پیشنهاد میکند که از نظر آماری به طور قابلتوجهی با تجربه کاربران مرتبط است، و الگوریتمی برای تثبیت رندر زیرنویسهای زنده. راه حل پیشنهادی ما میتواند به طور بالقوه در سیستمهای ASR موجود ادغام شود تا قابلیت استفاده از زیرنویسهای زنده را برای کاربران مختلف، از جمله کسانی که نیاز به ترجمه دارند یا کسانی که نیاز به دسترسی شنیداری دارند، افزایش دهد.
کار ما نشان دهنده گامی اساسی در جهت اندازه گیری و بهبود پایداری متن است. این را می توان برای شامل معیارهای مبتنی بر زبان که بر ثبات کلمات و عبارات استفاده شده در زیرنویس های زنده در طول زمان تمرکز می کند، تکامل یافت. این معیارها ممکن است انعکاسی از ناراحتی کاربر را ارائه دهد زیرا به درک و درک زبان در سناریوهای دنیای واقعی مربوط می شود. ما همچنین علاقه مند به انجام مطالعات ردیابی چشم هستیم (به عنوان مثال، ویدیوهای نشان داده شده در زیر) برای ردیابی الگوهای نگاه بینندگان، مانند تثبیت چشم و ساکاد، که به ما امکان می دهد انواع خطاهایی را که بیشتر حواس پرت می کنند و چگونگی بهبود پایداری متن را درک کنیم. برای آنها
تصویری از ردیابی نگاه بیننده هنگام خواندن شرحهای خام ASR. |
تصویری از ردیابی نگاه بیننده هنگام خواندن زیرنویسهای تثبیت شده و صاف. |
با بهبود پایداری متن در زیرنویسهای زنده، میتوانیم ابزارهای ارتباطی مؤثرتری ایجاد کنیم و نحوه ارتباط افراد را در مکالمات روزمره به زبانهای آشنا یا از طریق ترجمه، بهبود ببخشیم.
سپاسگزاریها
این کار یک همکاری بین چندین تیم در Google است. مشارکت کنندگان کلیدی عبارتند از Xingyu “Bruce” Liu، Jun Zhang، Leonardo Ferrer، Susan Xu، Vikas Bahirwani، Boris Smus، Alex Olwal و Ruofei Du. مایلیم از همکارانمان که کمک کردند، از جمله نیشا باتیا، مکس اسپیر، و دارسی فیلیپون تشکر کنیم. همچنین مایلیم از لین لی، ایوان پارکر و بازبینان CHI 2023 تشکر کنیم.