پلتفرمهای اشتراکگذاری ویدیوی آنلاین، مانند YouTube، برای بهینهسازی و بهبود تجربه کاربر، نیاز به درک کیفیت ویدیوی ادراکی (یعنی درک ذهنی کاربر از کیفیت ویدیو) دارند. ارزیابی کیفیت ویدیو (VQA) تلاش میکند تا پلی بین سیگنالهای ویدیویی و کیفیت ادراکی با استفاده از مدلهای ریاضی عینی برای تقریب نظرات ذهنی کاربران ایجاد کند. معیارهای سنتی کیفیت ویدیو، مانند نسبت پیک سیگنال به نویز (PSNR) و ترکیب ارزیابی چند روشی ویدیویی (VMAF)، مبتنی بر مرجع هستند و بر تفاوت نسبی بین ویدیوهای هدف و مرجع تمرکز دارند. چنین معیارهایی، که بر روی محتوای حرفهای تولید شده (مثلاً فیلمها) به بهترین وجه کار میکنند، فرض میکنند که ویدیوی مرجع کیفیتی بکر دارد و میتوان کیفیت مطلق ویدیوی مورد نظر را از تفاوت نسبی القا کرد.
با این حال، اکثر ویدیوهایی که در یوتیوب آپلود می شوند، محتوای تولید شده توسط کاربر (UGC) هستند که به دلیل تنوع بسیار زیاد در محتوای ویدیویی و کیفیت اصلی، چالش های جدیدی را به همراه دارند. اکثر آپلودهای UGC بکر نیستند و همین مقدار تفاوت نسبی می تواند تأثیرات کیفیت ادراکی بسیار متفاوتی را نشان دهد. برای مثال، مردم نسبت به آپلودهای با کیفیت پایین حساسیت کمتری نسبت به اعوجاج آپلودهای با کیفیت پایین دارند. بنابراین، نمرات کیفیت مبتنی بر مرجع زمانی که برای موارد UGC استفاده می شود، نادرست و ناسازگار می شوند. علاوه بر این، علیرغم حجم بالای UGC، در حال حاضر مجموعه داده های ارزیابی کیفیت ویدیوی UGC (UGC-VQA) محدودی با برچسب های کیفیت وجود دارد. مجموعه دادههای موجود UGC-VQA یا از نظر اندازه کوچک هستند (به عنوان مثال، LIVE-Qualcomm دارای 208 نمونه گرفته شده از 54 صحنه منحصر به فرد است)، در مقایسه با مجموعه دادههایی با میلیونها نمونه برای طبقهبندی و شناسایی (مثلاً ImageNet و YouTube-8M)، یا تنوع محتوا کافی باشد (نمونه برداری بدون در نظر گرفتن اطلاعات محتوا، مانند LIVE-VQC و KoNViD-1k).
در «ویژگیهای غنی برای ارزیابی کیفیت ادراکی ویدیوهای UGC»، منتشر شده در CVPR 2021، توضیح میدهیم که چگونه میخواهیم مشکل ارزیابی کیفیت UGC را با ساختن یک مدل کیفیت ویدیوی جهانی (UVQ) که شبیه ارزیابی کیفی ذهنی است، حل کنیم. مدل UVQ از شبکههای فرعی برای تجزیه و تحلیل کیفیت UGC از اطلاعات معنایی سطح بالا تا تحریفهای پیکسلی سطح پایین استفاده میکند و یک امتیاز کیفیت قابل اعتماد با منطق (استفاده از برچسبهای کیفیت جامع و قابل تفسیر) ارائه میکند. علاوه بر این، برای پیشرفت UGC-VQA و تحقیقات فشردهسازی، مجموعه داده منبع باز YouTube-UGC را که حاوی 1.5 هزار نمونه UGC نماینده از میلیونها ویدیوی UGC (توزیع شده تحت مجوز Creative Commons) در YouTube است، تقویت میکنیم. مجموعه داده بهروزرسانی شده حاوی برچسبهای واقعی برای ویدیوهای اصلی و نسخههای رمزگذاریشده مربوطه است که به ما امکان میدهد رابطه بین محتوای ویدیو و کیفیت ادراکی آن را بهتر درک کنیم.
ارزیابی کیفیت ویدیوی ذهنی
برای درک کیفیت ویدیوی ادراکی، از یک پلتفرم جمعسپاری داخلی برای جمعآوری میانگین امتیازات نظر (MOS) با مقیاس 1 تا 5 استفاده میکنیم که در آن 1 پایینترین کیفیت و 5 بالاترین کیفیت است، برای موارد استفاده بدون مرجع. ما برچسبهای حقیقت پایه را از مجموعه داده YouTube-UGC جمعآوری میکنیم و عوامل UGC را که بر ادراک کیفیت تأثیر میگذارند به سه دسته سطح بالا دستهبندی میکنیم: (1) محتوا، (2) تحریفها و (3) فشردهسازی. برای مثال، ویدیویی که محتوای معنیداری ندارد، MOS با کیفیت بالا دریافت نمیکند. همچنین، تحریفهای ایجاد شده در مرحله تولید ویدئو و مصنوعات فشردهسازی ویدئویی که توسط پلتفرمهای شخص ثالث معرفی میشوند، به عنوان مثال، رمزگذاری یا انتقال، کیفیت کلی را کاهش میدهند.
![]() |
![]() |
MOS= 2.052 | MOS= 4.457 |
ترک کرد: ویدیویی بدون محتوای معنادار، MOS با کیفیت بالا دریافت نمیکند. درست: ویدیویی که ورزش های شدید را نشان می دهد، MOS بالاتری را نشان می دهد. |
![]() |
![]() |
MOS= 1.242 | MOS= 4.522 |
ترک کرد: یک ویدیوی بازی تار یک MOS با کیفیت بسیار پایین دریافت می کند. درست: ویدئویی با رندر حرفه ای (کنتراست بالا و لبه های تیز که معمولا در مرحله تولید ویدئو معرفی می شود) یک MOS با کیفیت بالا را نشان می دهد. |
![]() |
![]() |
MOS= 2.372 | MOS= 4.646 |
ترک کرد: یک ویدیوی به شدت فشرده یک MOS با کیفیت پایین دریافت می کند. درست: یک ویدیو بدون آرتیفکت فشرده سازی یک MOS با کیفیت بالا را نشان می دهد. |
نشان میدهیم که ویدیوی بازی سمت چپ در ردیف دوم شکل بالا دارای کمترین MOS (1.2) است، حتی کمتر از ویدیوی بدون محتوای معنیدار. توضیح احتمالی این است که بینندگان ممکن است انتظارات کیفیت ویدیویی بالاتری برای ویدیوهایی داشته باشند که ساختار روایی واضحی دارند، مانند ویدیوهای بازی، و مصنوعات تاری به طور قابل توجهی کیفیت ادراکی ویدیو را کاهش میدهند.
چارچوب مدل UVQ
یک روش متداول برای ارزیابی کیفیت ویدئو، طراحی ویژگی های پیچیده و سپس ترسیم این ویژگی ها به یک MOS است. با این حال، طراحی ویژگی های مفید دست ساز دشوار و زمان بر است، حتی برای کارشناسان حوزه. همچنین، مفیدترین ویژگیهای دست ساز موجود از نمونههای محدود خلاصه شدهاند، که ممکن است در موارد گستردهتر UGC عملکرد خوبی نداشته باشند. در مقابل، یادگیری ماشین در UGC-VQA برجستهتر میشود، زیرا میتواند به طور خودکار ویژگیها را از نمونههای در مقیاس بزرگ بیاموزد.
یک رویکرد ساده، آموزش یک مدل از ابتدا بر روی مجموعه دادههای با کیفیت UGC موجود است. با این حال، این ممکن است امکان پذیر نباشد زیرا مجموعه داده های UGC با کیفیت محدودی وجود دارد. برای غلبه بر این محدودیت، ما یک مرحله یادگیری خود نظارتی را در مدل UVQ در طول آموزش اعمال می کنیم. این مرحله با نظارت شخصی ما را قادر میسازد تا ویژگیهای جامع مرتبط با کیفیت را، بدون MOS واقعی، از میلیونها ویدیوی خام بیاموزیم.
به دنبال مقولههای مرتبط با کیفیت که از VQA ذهنی خلاصه شدهاند، مدل UVQ را با چهار زیرشبکه جدید توسعه میدهیم. سه زیرشبکه اول که ما آنها را ContentNet، DistortionNet و CompressionNet می نامیم، برای استخراج ویژگی های کیفی (یعنی محتوا، اعوجاج و فشرده سازی) استفاده می شود و زیرشبکه چهارم که AggregationNet نام دارد، ویژگی های استخراج شده را برای ایجاد یک امتیاز کیفیت واحد ترسیم می کند. ContentNet به روش یادگیری نظارت شده با برچسبهای محتوای خاص UGC که توسط مدل YouTube-8M ایجاد میشود، آموزش دیده است. DistortionNet برای تشخیص اعوجاج های رایج، به عنوان مثال، تاری گاوسی و نویز سفید فریم اصلی آموزش دیده است. CompressionNet بر روی مصنوعات فشرده سازی ویدئو تمرکز می کند، که داده های آموزشی آن ویدئوهایی هستند که با نرخ بیت های مختلف فشرده شده اند. CompressionNet با استفاده از دو نوع فشرده از محتوای یکسان که به مدل وارد میشود، آموزش داده میشود تا سطوح فشردهسازی مربوطه را پیشبینی کند (با امتیاز بالاتر برای مصنوعات فشردهسازی قابل توجهتر)، با این فرض ضمنی که نسخه با نرخ بیت بالاتر سطح فشردهسازی پایینتری دارد.
زیرشبکههای ContentNet، DistortionNet و CompressionNet بر روی نمونههای مقیاس بزرگ و بدون امتیاز کیفیت زمینی آموزش داده میشوند. از آنجایی که وضوح ویدئو نیز یک فاکتور کیفیت مهم است، زیرشبکههای حساس به وضوح (CompressionNet و DistortionNet) مبتنی بر وصله هستند (یعنی هر فریم ورودی به چندین وصله جدا از هم تقسیم میشود که به طور جداگانه پردازش میشوند)، که امکان ثبت تمام جزئیات را فراهم میکند. در وضوح بومی بدون کاهش مقیاس. این سه زیرشبکه ویژگیهای کیفی را استخراج میکنند که سپس توسط زیرشبکه چهارم، AggregationNet، به هم متصل میشوند تا امتیازات کیفیت را با MOS-حقیقت دامنه از YouTube-UGC پیشبینی کنند.
![]() |
چارچوب آموزشی UVQ. |
تجزیه و تحلیل کیفیت ویدیو با UVQ
پس از ساخت مدل UVQ، از آن برای تجزیه و تحلیل کیفیت ویدیوی نمونههای استخراجشده از YouTube-UGC استفاده میکنیم و نشان میدهیم که شبکههای فرعی آن میتوانند یک امتیاز کیفیت واحد همراه با شاخصهای کیفیت سطح بالا ارائه دهند که میتواند به ما در درک مسائل کیفیت کمک کند. برای مثال، DistortionNet چندین مصنوع بصری، به عنوان مثال، لرزش و تاری لنز، را برای ویدیوی میانی زیر تشخیص میدهد، و CompressionNet تشخیص میدهد که ویدیوی پایین به شدت فشرده شده است.
![]() |
ContentNet برچسب های محتوا را با احتمالات مربوطه در پرانتز اختصاص می دهد، به عنوان مثال، ماشین (0.58)، وسیله نقلیه (0.42)، ماشین اسپورت (0.32)، ورزش موتوری (0.18)، مسابقه (0.11). |
![]() |
DistortionNet چندین اعوجاج بصری را با احتمالات مربوطه در پرانتز شناسایی و دسته بندی می کند، به عنوان مثال، لرزش (0.112)، کمی رنگ (0.111)، تاری لنز (0.108)، denoise (0.107). |
![]() |
CompressionNet سطح فشرده سازی بالای 0.892 را برای ویدیوی بالا تشخیص می دهد. |
علاوه بر این، UVQ میتواند بازخورد مبتنی بر پچ را برای یافتن مشکلات کیفیت ارائه دهد. در زیر، UVQ گزارش می دهد که کیفیت اولین پچ (پچ در زمان t = 1) با سطح فشرده سازی پایین خوب است. با این حال، مدل آرتیفکت های فشرده سازی سنگین را در پچ بعدی (پچ در زمان t = 2) شناسایی می کند.
![]() |
![]() |
![]() |
پچ در زمان t = 1 | پچ در زمان t = 2 |
سطح فشرده سازی = 0.000 | سطح فشرده سازی = 0.904 |
UVQ یک افت کیفیت ناگهانی (سطح فشرده سازی بالا) را برای یک پچ محلی تشخیص می دهد. |
در عمل، UVQ میتواند یک گزارش تشخیصی ویدیویی ایجاد کند که شامل توضیحات محتوا (به عنوان مثال، بازی ویدیویی استراتژی)، تجزیه و تحلیل اعوجاج (مثلاً، ویدیو تار یا پیکسلشده) و سطح فشردهسازی (به عنوان مثال، فشردهسازی کم یا زیاد) باشد. در زیر، UVQ گزارش میدهد که کیفیت محتوا، با توجه به ویژگیهای فردی، خوب است، اما کیفیت فشردهسازی و اعوجاج پایین است. هنگام ترکیب هر سه ویژگی، کیفیت کلی متوسط به پایین است. ما می بینیم که این یافته ها نزدیک به منطقی است که توسط کارشناسان داخلی خلاصه شده است، و نشان می دهد که UVQ می تواند از طریق ارزیابی کیفیت استدلال کند، در حالی که یک نمره کیفیت واحد ارائه می دهد.
![]() |
گزارش تشخیص UVQ. ContentNet (CT): بازی ویدیویی، بازی ویدیویی استراتژی، World of Warcraft، و غیره DistortionNet (DT): نویز ضربی، تاری گاوسی، اشباع رنگ، پیکسلات و غیره CompressionNet (CP): 0.559 (فشرده سازی متوسط به بالا). امتیاز کیفیت پیش بینی شده در [1, 5]: (CT، DT، CP) = (3.901، 3.216، 3.151)، (CT+DT+CP) = 3.149 (کیفیت متوسط-پایین). |
نتیجه
ما مدل UVQ را ارائه میکنیم که گزارشی با امتیازات و بینشهای کیفیت تولید میکند که میتواند برای تفسیر کیفیت ادراکی ویدیوی UGC استفاده شود. UVQ ویژگیهای جامع مرتبط با کیفیت را از میلیونها ویدیوی UGC میآموزد و دیدگاهی ثابت از تفسیر کیفیت هم برای موارد بدون مرجع و هم برای موارد مرجع ارائه میکند. برای کسب اطلاعات بیشتر، مقاله ما را بخوانید یا از وب سایت ما دیدن کنید تا ویدیوهای YT-UGC و داده های کیفیت ذهنی آنها را ببینید. ما همچنین امیدواریم که مجموعه داده های YouTube-UGC بهبود یافته امکان تحقیقات بیشتری را در این فضا فراهم کند.
سپاسگزاریها
این کار از طریق همکاری چند تیم Google امکان پذیر شد. مشارکت کنندگان کلیدی عبارتند از: Balu Adsumilli، Neil Birkbeck، Joong Gon Yim از YouTube و Junjie Ke، حسین طالبی، پیمان میلانفر از Google Research. از Ross Wolf، Jayaprasanna Jayaraman، Carena Church، و Jessie Lin برای کمکهایشان تشکر میکنیم.