اندازه‌گیری کیفیت ویدیوی ادراکی YouTube

پلتفرم‌های اشتراک‌گذاری ویدیوی آنلاین، مانند YouTube، برای بهینه‌سازی و بهبود تجربه کاربر، نیاز به درک کیفیت ویدیوی ادراکی (یعنی درک ذهنی کاربر از کیفیت ویدیو) دارند. ارزیابی کیفیت ویدیو (VQA) تلاش می‌کند تا پلی بین سیگنال‌های ویدیویی و کیفیت ادراکی با استفاده از مدل‌های ریاضی عینی برای تقریب نظرات ذهنی کاربران ایجاد کند. معیارهای سنتی کیفیت ویدیو، مانند نسبت پیک سیگنال به نویز (PSNR) و ترکیب ارزیابی چند روشی ویدیویی (VMAF)، مبتنی بر مرجع هستند و بر تفاوت نسبی بین ویدیوهای هدف و مرجع تمرکز دارند. چنین معیارهایی، که بر روی محتوای حرفه‌ای تولید شده (مثلاً فیلم‌ها) به بهترین وجه کار می‌کنند، فرض می‌کنند که ویدیوی مرجع کیفیتی بکر دارد و می‌توان کیفیت مطلق ویدیوی مورد نظر را از تفاوت نسبی القا کرد.

با این حال، اکثر ویدیوهایی که در یوتیوب آپلود می شوند، محتوای تولید شده توسط کاربر (UGC) هستند که به دلیل تنوع بسیار زیاد در محتوای ویدیویی و کیفیت اصلی، چالش های جدیدی را به همراه دارند. اکثر آپلودهای UGC بکر نیستند و همین مقدار تفاوت نسبی می تواند تأثیرات کیفیت ادراکی بسیار متفاوتی را نشان دهد. برای مثال، مردم نسبت به آپلودهای با کیفیت پایین حساسیت کمتری نسبت به اعوجاج آپلودهای با کیفیت پایین دارند. بنابراین، نمرات کیفیت مبتنی بر مرجع زمانی که برای موارد UGC استفاده می شود، نادرست و ناسازگار می شوند. علاوه بر این، علیرغم حجم بالای UGC، در حال حاضر مجموعه داده های ارزیابی کیفیت ویدیوی UGC (UGC-VQA) محدودی با برچسب های کیفیت وجود دارد. مجموعه داده‌های موجود UGC-VQA یا از نظر اندازه کوچک هستند (به عنوان مثال، LIVE-Qualcomm دارای 208 نمونه گرفته شده از 54 صحنه منحصر به فرد است)، در مقایسه با مجموعه داده‌هایی با میلیون‌ها نمونه برای طبقه‌بندی و شناسایی (مثلاً ImageNet و YouTube-8M)، یا تنوع محتوا کافی باشد (نمونه برداری بدون در نظر گرفتن اطلاعات محتوا، مانند LIVE-VQC و KoNViD-1k).

در «ویژگی‌های غنی برای ارزیابی کیفیت ادراکی ویدیوهای UGC»، منتشر شده در CVPR 2021، توضیح می‌دهیم که چگونه می‌خواهیم مشکل ارزیابی کیفیت UGC را با ساختن یک مدل کیفیت ویدیوی جهانی (UVQ) که شبیه ارزیابی کیفی ذهنی است، حل کنیم. مدل UVQ از شبکه‌های فرعی برای تجزیه و تحلیل کیفیت UGC از اطلاعات معنایی سطح بالا تا تحریف‌های پیکسلی سطح پایین استفاده می‌کند و یک امتیاز کیفیت قابل اعتماد با منطق (استفاده از برچسب‌های کیفیت جامع و قابل تفسیر) ارائه می‌کند. علاوه بر این، برای پیشرفت UGC-VQA و تحقیقات فشرده‌سازی، مجموعه داده منبع باز YouTube-UGC را که حاوی 1.5 هزار نمونه UGC نماینده از میلیون‌ها ویدیوی UGC (توزیع شده تحت مجوز Creative Commons) در YouTube است، تقویت می‌کنیم. مجموعه داده به‌روزرسانی شده حاوی برچسب‌های واقعی برای ویدیوهای اصلی و نسخه‌های رمزگذاری‌شده مربوطه است که به ما امکان می‌دهد رابطه بین محتوای ویدیو و کیفیت ادراکی آن را بهتر درک کنیم.

ارزیابی کیفیت ویدیوی ذهنی

برای درک کیفیت ویدیوی ادراکی، از یک پلتفرم جمع‌سپاری داخلی برای جمع‌آوری میانگین امتیازات نظر (MOS) با مقیاس 1 تا 5 استفاده می‌کنیم که در آن 1 پایین‌ترین کیفیت و 5 بالاترین کیفیت است، برای موارد استفاده بدون مرجع. ما برچسب‌های حقیقت پایه را از مجموعه داده YouTube-UGC جمع‌آوری می‌کنیم و عوامل UGC را که بر ادراک کیفیت تأثیر می‌گذارند به سه دسته سطح بالا دسته‌بندی می‌کنیم: (1) محتوا، (2) تحریف‌ها و (3) فشرده‌سازی. برای مثال، ویدیویی که محتوای معنی‌داری ندارد، MOS با کیفیت بالا دریافت نمی‌کند. همچنین، تحریف‌های ایجاد شده در مرحله تولید ویدئو و مصنوعات فشرده‌سازی ویدئویی که توسط پلتفرم‌های شخص ثالث معرفی می‌شوند، به عنوان مثال، رمزگذاری یا انتقال، کیفیت کلی را کاهش می‌دهند.

MOS= 2.052 MOS= 4.457
ترک کرد: ویدیویی بدون محتوای معنادار، MOS با کیفیت بالا دریافت نمی‌کند. درست: ویدیویی که ورزش های شدید را نشان می دهد، MOS بالاتری را نشان می دهد.
MOS= 1.242 MOS= 4.522
ترک کرد: یک ویدیوی بازی تار یک MOS با کیفیت بسیار پایین دریافت می کند. درست: ویدئویی با رندر حرفه ای (کنتراست بالا و لبه های تیز که معمولا در مرحله تولید ویدئو معرفی می شود) یک MOS با کیفیت بالا را نشان می دهد.
MOS= 2.372 MOS= 4.646
ترک کرد: یک ویدیوی به شدت فشرده یک MOS با کیفیت پایین دریافت می کند. درست: یک ویدیو بدون آرتیفکت فشرده سازی یک MOS با کیفیت بالا را نشان می دهد.

نشان می‌دهیم که ویدیوی بازی سمت چپ در ردیف دوم شکل بالا دارای کمترین MOS (1.2) است، حتی کمتر از ویدیوی بدون محتوای معنی‌دار. توضیح احتمالی این است که بینندگان ممکن است انتظارات کیفیت ویدیویی بالاتری برای ویدیوهایی داشته باشند که ساختار روایی واضحی دارند، مانند ویدیوهای بازی، و مصنوعات تاری به طور قابل توجهی کیفیت ادراکی ویدیو را کاهش می‌دهند.

چارچوب مدل UVQ

یک روش متداول برای ارزیابی کیفیت ویدئو، طراحی ویژگی های پیچیده و سپس ترسیم این ویژگی ها به یک MOS است. با این حال، طراحی ویژگی های مفید دست ساز دشوار و زمان بر است، حتی برای کارشناسان حوزه. همچنین، مفیدترین ویژگی‌های دست ساز موجود از نمونه‌های محدود خلاصه شده‌اند، که ممکن است در موارد گسترده‌تر UGC عملکرد خوبی نداشته باشند. در مقابل، یادگیری ماشین در UGC-VQA برجسته‌تر می‌شود، زیرا می‌تواند به طور خودکار ویژگی‌ها را از نمونه‌های در مقیاس بزرگ بیاموزد.

یک رویکرد ساده، آموزش یک مدل از ابتدا بر روی مجموعه داده‌های با کیفیت UGC موجود است. با این حال، این ممکن است امکان پذیر نباشد زیرا مجموعه داده های UGC با کیفیت محدودی وجود دارد. برای غلبه بر این محدودیت، ما یک مرحله یادگیری خود نظارتی را در مدل UVQ در طول آموزش اعمال می کنیم. این مرحله با نظارت شخصی ما را قادر می‌سازد تا ویژگی‌های جامع مرتبط با کیفیت را، بدون MOS واقعی، از میلیون‌ها ویدیوی خام بیاموزیم.

به دنبال مقوله‌های مرتبط با کیفیت که از VQA ذهنی خلاصه شده‌اند، مدل UVQ را با چهار زیرشبکه جدید توسعه می‌دهیم. سه زیرشبکه اول که ما آنها را ContentNet، DistortionNet و CompressionNet می نامیم، برای استخراج ویژگی های کیفی (یعنی محتوا، اعوجاج و فشرده سازی) استفاده می شود و زیرشبکه چهارم که AggregationNet نام دارد، ویژگی های استخراج شده را برای ایجاد یک امتیاز کیفیت واحد ترسیم می کند. ContentNet به روش یادگیری نظارت شده با برچسب‌های محتوای خاص UGC که توسط مدل YouTube-8M ایجاد می‌شود، آموزش دیده است. DistortionNet برای تشخیص اعوجاج های رایج، به عنوان مثال، تاری گاوسی و نویز سفید فریم اصلی آموزش دیده است. CompressionNet بر روی مصنوعات فشرده سازی ویدئو تمرکز می کند، که داده های آموزشی آن ویدئوهایی هستند که با نرخ بیت های مختلف فشرده شده اند. CompressionNet با استفاده از دو نوع فشرده از محتوای یکسان که به مدل وارد می‌شود، آموزش داده می‌شود تا سطوح فشرده‌سازی مربوطه را پیش‌بینی کند (با امتیاز بالاتر برای مصنوعات فشرده‌سازی قابل توجه‌تر)، با این فرض ضمنی که نسخه با نرخ بیت بالاتر سطح فشرده‌سازی پایین‌تری دارد.

زیرشبکه‌های ContentNet، DistortionNet و CompressionNet بر روی نمونه‌های مقیاس بزرگ و بدون امتیاز کیفیت زمینی آموزش داده می‌شوند. از آنجایی که وضوح ویدئو نیز یک فاکتور کیفیت مهم است، زیرشبکه‌های حساس به وضوح (CompressionNet و DistortionNet) مبتنی بر وصله هستند (یعنی هر فریم ورودی به چندین وصله جدا از هم تقسیم می‌شود که به طور جداگانه پردازش می‌شوند)، که امکان ثبت تمام جزئیات را فراهم می‌کند. در وضوح بومی بدون کاهش مقیاس. این سه زیرشبکه ویژگی‌های کیفی را استخراج می‌کنند که سپس توسط زیرشبکه چهارم، AggregationNet، به هم متصل می‌شوند تا امتیازات کیفیت را با MOS-حقیقت دامنه از YouTube-UGC پیش‌بینی کنند.

چارچوب آموزشی UVQ.

تجزیه و تحلیل کیفیت ویدیو با UVQ

پس از ساخت مدل UVQ، از آن برای تجزیه و تحلیل کیفیت ویدیوی نمونه‌های استخراج‌شده از YouTube-UGC استفاده می‌کنیم و نشان می‌دهیم که شبکه‌های فرعی آن می‌توانند یک امتیاز کیفیت واحد همراه با شاخص‌های کیفیت سطح بالا ارائه دهند که می‌تواند به ما در درک مسائل کیفیت کمک کند. برای مثال، DistortionNet چندین مصنوع بصری، به عنوان مثال، لرزش و تاری لنز، را برای ویدیوی میانی زیر تشخیص می‌دهد، و CompressionNet تشخیص می‌دهد که ویدیوی پایین به شدت فشرده شده است.

ContentNet برچسب های محتوا را با احتمالات مربوطه در پرانتز اختصاص می دهد، به عنوان مثال، ماشین (0.58)، وسیله نقلیه (0.42)، ماشین اسپورت (0.32)، ورزش موتوری (0.18)، مسابقه (0.11).
DistortionNet چندین اعوجاج بصری را با احتمالات مربوطه در پرانتز شناسایی و دسته بندی می کند، به عنوان مثال، لرزش (0.112)، کمی رنگ (0.111)، تاری لنز (0.108)، denoise (0.107).
CompressionNet سطح فشرده سازی بالای 0.892 را برای ویدیوی بالا تشخیص می دهد.

علاوه بر این، UVQ می‌تواند بازخورد مبتنی بر پچ را برای یافتن مشکلات کیفیت ارائه دهد. در زیر، UVQ گزارش می دهد که کیفیت اولین پچ (پچ در زمان t = 1) با سطح فشرده سازی پایین خوب است. با این حال، مدل آرتیفکت های فشرده سازی سنگین را در پچ بعدی (پچ در زمان t = 2) شناسایی می کند.

پچ در زمان t = 1 پچ در زمان t = 2
سطح فشرده سازی = 0.000 سطح فشرده سازی = 0.904
UVQ یک افت کیفیت ناگهانی (سطح فشرده سازی بالا) را برای یک پچ محلی تشخیص می دهد.

در عمل، UVQ می‌تواند یک گزارش تشخیصی ویدیویی ایجاد کند که شامل توضیحات محتوا (به عنوان مثال، بازی ویدیویی استراتژی)، تجزیه و تحلیل اعوجاج (مثلاً، ویدیو تار یا پیکسل‌شده) و سطح فشرده‌سازی (به عنوان مثال، فشرده‌سازی کم یا زیاد) باشد. در زیر، UVQ گزارش می‌دهد که کیفیت محتوا، با توجه به ویژگی‌های فردی، خوب است، اما کیفیت فشرده‌سازی و اعوجاج پایین است. هنگام ترکیب هر سه ویژگی، کیفیت کلی متوسط ​​به پایین است. ما می بینیم که این یافته ها نزدیک به منطقی است که توسط کارشناسان داخلی خلاصه شده است، و نشان می دهد که UVQ می تواند از طریق ارزیابی کیفیت استدلال کند، در حالی که یک نمره کیفیت واحد ارائه می دهد.

گزارش تشخیص UVQ. ContentNet (CT): بازی ویدیویی، بازی ویدیویی استراتژی، World of Warcraft، و غیره DistortionNet (DT): نویز ضربی، تاری گاوسی، اشباع رنگ، پیکسلات و غیره CompressionNet (CP): 0.559 (فشرده سازی متوسط ​​به بالا). امتیاز کیفیت پیش بینی شده در [1, 5]: (CT، DT، CP) = (3.901، 3.216، 3.151)، (CT+DT+CP) = 3.149 (کیفیت متوسط-پایین).

نتیجه

ما مدل UVQ را ارائه می‌کنیم که گزارشی با امتیازات و بینش‌های کیفیت تولید می‌کند که می‌تواند برای تفسیر کیفیت ادراکی ویدیوی UGC استفاده شود. UVQ ویژگی‌های جامع مرتبط با کیفیت را از میلیون‌ها ویدیوی UGC می‌آموزد و دیدگاهی ثابت از تفسیر کیفیت هم برای موارد بدون مرجع و هم برای موارد مرجع ارائه می‌کند. برای کسب اطلاعات بیشتر، مقاله ما را بخوانید یا از وب سایت ما دیدن کنید تا ویدیوهای YT-UGC و داده های کیفیت ذهنی آنها را ببینید. ما همچنین امیدواریم که مجموعه داده های YouTube-UGC بهبود یافته امکان تحقیقات بیشتری را در این فضا فراهم کند.

سپاسگزاریها

این کار از طریق همکاری چند تیم Google امکان پذیر شد. مشارکت کنندگان کلیدی عبارتند از: Balu Adsumilli، Neil Birkbeck، Joong Gon Yim از YouTube و Junjie Ke، حسین طالبی، پیمان میلانفر از Google Research. از Ross Wolf، Jayaprasanna Jayaraman، Carena Church، و Jessie Lin برای کمک‌هایشان تشکر می‌کنیم.