یک روش خلاصه و سپس جستجو برای پاسخ به سؤال ویدیویی طولانی: نتیجه‌گیری

5. نتیجه گیری

ما Long Story Short را معرفی کردیم، یک روش خلاصه و سپس جستجو برای درک روایت کلی و جزئیات مربوط به QA روایت ویدیویی. رویکرد ما زمانی مؤثر است که زمینه QA گسترده باشد و تعامل سطح بالا با چنین زمینه‌ای برای حل QA مذکور ضروری باشد، که در QAهای ویدیویی طولانی وجود دارد. همچنین، ما پیشنهاد می‌کنیم که با بررسی پس از بررسی هم‌ترازی بصری با CLIPCheck، زمینه بصری پاسخ تولید شده توسط مدل را افزایش دهیم. روش شات صفر ما رویکردهای پیشرفته نظارت شده را در معیارهای MovieQA و DramaQA بهبود می بخشد. ما قصد داریم کد و داده های نمودار تولید شده را برای عموم منتشر کنیم.

دو جهت تحقیقاتی ممکن فراتر از این کار وجود دارد: اول، ارائه توضیحات بصری که با داستان همسوتر باشد با شناسایی مجدد شخصیت و وضوح مرجع مشترک، کیفیت ورودی GPT-3 را بهبود می بخشد. دوم، می توان یک جستجوی چند هاپ پویا تری طراحی کرد که اطلاعات جهانی و محلی را به شیوه ای سلسله مراتبی ترکیب می کند.

Source link