یک روش خلاصه و سپس جستجو برای پاسخ به سؤال ویدیویی طولانی: روش

این مقاله در arxiv تحت مجوز CC 4.0 موجود است.

نویسندگان:

(1) Jiwan Chung، دانشگاه MIR Lab Yonsei (https://jiwanchung.github.io/)؛

(2) Youngjae Yu، دانشگاه MIR Lab Yonsei (https://jiwanchung.github.io/).

  • چکیده و مقدمه
  • روش
  • آزمایش
  • کار مرتبط
  • نتیجه
  • محدودیت ها و مراجع
  • A. جزئیات آزمایش
  • ب. نمونه های سریع

2. روش

شکل 2: نتیجه کیفی مدل پیشنهادی داستان کوتاه (LSS) پیشنهادی ما را نشان می‌دهد که شاخص فیلم‌های ویدئویی خام را تولید و بازیابی می‌کند.  هنگامی که مدل پاسخ نهایی را از (i) خلاصه تولید شده و (ii) بافت متن بازیابی شده پیش بینی می کند، CLIPCheck پاسخ های هر داوطلب را برای تجدید نظر در پاسخ نهایی سؤال تأیید می کند.شکل 2: نتیجه کیفی مدل پیشنهادی داستان کوتاه (LSS) پیشنهادی ما را نشان می‌دهد که شاخص فیلم‌های ویدئویی خام را تولید و بازیابی می‌کند.  هنگامی که مدل پاسخ نهایی را از (i) خلاصه تولید شده و (ii) بافت متن بازیابی شده پیش بینی می کند، CLIPCheck پاسخ های هر داوطلب را برای تجدید نظر در پاسخ نهایی سؤال تأیید می کند.

2.1. نسل طرح

با توجه به خلاصه داستان و سؤال، مایلیم کلیپ نسبتاً کوتاه مربوط به سؤال را از ویدیوی طولانی بازیابی کنیم. مدل‌های زبان متنی با پایان باز تولید می‌کنند که نامنظم و اغلب پر سر و صدا است. برای بازیابی قسمت دقیق ویدیو، مدل را به سمت خروجی شاخص‌های طرح به جای فرم متن هدایت می‌کنیم.

ممکن است به دلیل ماهیت باز بودن مدل‌های زبان، شاخص‌های تولید شده همچنان پر سر و صدا باشند. هنگامی که مدل یک پاسخ را به صورت متنی ارائه می دهد، از rouge-l استفاده می کنیم [19] امتیاز برای یافتن نامزدهای قطعه طرح که شباهت آنها با جمله تولید شده بالاتر از آستانه مشخص شده α ≥ 0.5 باشد.

2.3. بررسی بصری

Source link