یک روش خلاصه و سپس جستجو برای سؤال ویدیویی طولانی پاسخ به جزئیات آزمایش

A. جزئیات آزمایش

بودجه محاسباتی Long Story Short از GPT-3 (پارامترهای 175B) از طریق OpenAI API به عنوان ستون فقرات استفاده می کند. یک درخواست متوسط ​​برای خلاصه کردن یک بخش ویدیو 3000 توکن پردازش می‌کند، در حالی که یک درخواست QA معمولاً 4000 توکن می‌گیرد. برای CLIPCheck، ما ویژگی‌های CLIP را استخراج می‌کنیم و شباهت کسینوس را با استفاده از یک پردازنده گرافیکی NVIDIA A6000 محاسبه می‌کنیم: پردازش فریم‌های ویدیو برای تقسیم اعتبارسنجی MovieQA 0.5 ساعت طول می‌کشد.

فراپارامترها. همه هایپرپارامترها با تجزیه و تحلیل یک نمونه آموزشی از پیش تعریف شده اند. برای جستجوی روایی، از آستانه شباهت جمله α ≥ 0.5 برای یافتن قطعات طرح زمانی که GPT-3 یک نمایه واحد تولید نمی کند استفاده می کنیم. ما از آستانه آنتروپی باینری E ≥ 0.4 در CLIPCheck استفاده می کنیم. ما هر آزمایش را فقط یک بار اجرا می کنیم، زیرا روش ما قطعی است و در مقدار اولیه مستعد تصادفی نیست.

طرح تقسیم بندی ویدیو. حاشیه‌نویسی‌های مرزی از پیش تعریف‌شده برای همه مجموعه داده‌هایی که در این مقاله استفاده می‌کنیم وجود دارد. همچنین، همه قطعات طرح به نوبه خود دارای بخش های کلیپ تراز هستند زیرا ما خلاصه سازی را روی هر کلیپ تقسیم شده با مرزهای از پیش تعریف شده انجام می دهیم. همچنین، قبل از اعمال LSS، بخش‌های کلیپ را فیلتر می‌کنیم که 1. خیلی کوتاه هستند، 2. قاب تصویر تراز شده ندارند، یا 3. متن متنی ندارند تا مطمئن شویم که می‌توانیم کلیپ را بازیابی کنیم…

Source link