نمایه سازی چندسطحی شبکه های عمیق مبتنی بر موقعیت و گفتگو: پیشینه و کارهای مرتبط

نویسندگان:

(1) دینش کومار ویشواکارما، آزمایشگاه تحقیقات بیومتریک، گروه فناوری اطلاعات، دانشگاه فناوری دهلی، دهلی، هند؛

(2) مایانک جیندال، آزمایشگاه تحقیقات بیومتریک، گروه فناوری اطلاعات، دانشگاه فنی دهلی، دهلی، هند

(3) آیوش میتال، آزمایشگاه تحقیقات بیومتریک، گروه فناوری اطلاعات، دانشگاه فنی دهلی، دهلی، هند

(4) آدیتیا شارما، آزمایشگاه تحقیقات بیومتریک، گروه فناوری اطلاعات، دانشگاه فنی دهلی، دهلی، هند.

این بخش روش های گذشته برای طبقه بندی ژانر فیلم و انگیزه های پشت مطالعه ما را مورد بحث قرار می دهد. محتوای ویدیویی عمدتاً به (1) فریم های ویدیویی (تصاویر) و (2) صوتی (گفتار {گفتگوها} + غیر گفتار {آواز}) تقسیم بندی می شود. برای تجزیه و تحلیل محتوای ویدیویی، مطالعات مختلفی در گذشته انجام شده است که عمدتاً بر روی شناختی تمرکز دارد [3]–[7] یا عاطفی [8] سطوح به صورت جداگانه برای یک مطالعه مؤثرتر، هر دو سطح باید در نظر گرفته شوند تا در یک کار طبقه بندی ژانر بهتر عمل کنند.

در مطالعات گذشته، بسیاری از رویکردهای مبتنی بر شناخت بر اساس ویژگی‌های سطح پایین، از جمله اختلالات بصری، میانگین طول شات، تغییر تدریجی در شدت نور در فریم‌های ویدیو، و اوج‌ها در…

Source link