یک روش خلاصه و سپس جستجو برای پاسخ به سؤال ویدیویی طولانی: آزمایش‌ها

3. آزمایشات

برای همه آزمایش‌ها، از GPT-3 استفاده می‌کنیم [1] (text-davinci-003) به عنوان مدل زبان ستون فقرات. مگر اینکه خلاف آن ذکر شده باشد، ما از مرز کلیپ حقیقت زمین برای بخش‌بندی ویدیوها استفاده می‌کنیم. همه انواع LSS از هیچ داده آموزشی استفاده نمی کنند و بنابراین روش های صفر شات هستند.

جدول 1: ارزیابی در تقسیم اعتبار MovieQA.  مجموعه داده به طور متوسط ​​تراز GT را با 3 دقیقه کلیپ ویدیویی فراهم می کند: ما همچنین جستجوی ما را گزارش می کنیم که کل زمینه فیلم را بدون تراز GT جستجو می کند.  (V) نشان دهنده ویدیو و (S) نشان دهنده زیرنویس است.جدول 1: ارزیابی در تقسیم اعتبار MovieQA.  مجموعه داده به طور متوسط ​​با 3 دقیقه کلیپ ویدیویی، تراز GT را فراهم می کند: ما همچنین جستجوی ما را گزارش می دهیم که کل زمینه فیلم را بدون تراز GT جستجو می کند.  (V) نشان دهنده ویدیو و (S) نشان دهنده زیرنویس است.

جدول 2: ارزیابی تقسیم اعتبار PororoQA.  طرح تولید شده توسط ماشین (+Plot) نزدیک به حاشیه نویسی های انسانی (Base) عمل می کند.جدول 2: ارزیابی تقسیم اعتبار PororoQA.  طرح تولید شده توسط ماشین (+Plot) نزدیک به حاشیه نویسی های انسانی (Base) عمل می کند.

جدول 3: ارزیابی در سطوح سه و چهار تقسیم اعتبار سنجی DramaQA.  CLIPCheck به پیشرفته ترین روش ها در خطوط پایه و یک رویکرد مبتنی بر فوری دست می یابد [35] از وارد کردن توضیحات تصویرجدول 3: ارزیابی در سطوح سه و چهار تقسیم اعتبار سنجی DramaQA.  CLIPCheck به پیشرفته ترین روش ها در خطوط پایه و یک رویکرد مبتنی بر فوری دست می یابد [35] از وارد کردن توضیحات تصویر

جدول 4: مطالعه Ablation در تقسیم اعتبار MovieQA.جدول 4: مطالعه Ablation در تقسیم اعتبار MovieQA.

3.1. ارزیابی داستان کوتاه

MovieQA [27] یک مجموعه داده QA در مقیاس بزرگ است که از 408 فیلم تهیه شده است. منابع اطلاعاتی متعددی در مجموعه داده وجود دارد. زیرنویس‌ها، اسکریپت‌ها، DVS، کلیپ‌های ویدیویی و طرح‌ها. ما چهار خط مبنا تحت نظارت پیشرفته را گزارش می کنیم. A2A [20]، PAMN [11]UniversalQA [10]و DHTCN [21].

جدول 1 بهبود LSS صفر شات را نسبت به رویکردهای نظارت شده قبلی نشان می دهد. همچنین، جستجوی ما حتی بدون برچسب شاخص بخش حقیقت زمین، عملکرد قوی را نشان می دهد. CLIPCheck کمی دقت در تقسیم ویدیو را بهبود می بخشد. با این حال، تفاوت حاشیه ای است، زیرا MovieQA اغلب به جای تطبیق بصری کلی، مستلزم زمینه سازی مبتنی بر شخصیت است. در نهایت، ما با فرضیه صفر آزمایش می کنیم: بدون زمینه آزمایش می کند که آیا GPT-3 با به خاطر سپردن هر واقعیت، MovieQA را حل می کند یا خیر. هیچ زمینه ای بدتر از LSS عمل نمی کند و فرضیه صفر را رد می کند.

PororoQA [13] یک مجموعه داده QA داستان ویدیویی است که از یک مجموعه کارتونی ساخته شده است. خط مبنا تحت نظارت، طرح تولید شده توسط انسان و زمین را می گیرد…

Source link