جدول پیوندها
چکیده و 1. مقدمه
2 کارهای مرتبط
3 مقدماتی
4 روش
4.1 نمونه کلید و ویرایش مشترک
4.2 ویرایش انتشار از طریق TokenFlow
5 نتیجه
5.1 ارزیابی کیفی و 5.2 ارزیابی کمی
5.3 مطالعه فرسایش
6 بحث
7 تصدیق و مراجع
A جزئیات پیاده سازی
جزئیات پیاده سازی
StableDiffusion. ما از Stable Diffusion به عنوان مدل متن به تصویر از پیش آموزش دیده خود استفاده می کنیم. ما از نقطه بازرسی StableDiffusion-v-2-1 استفاده می کنیم که از طریق صفحه وب رسمی HuggingFace ارائه شده است.
وارونگی DDIM در همه آزمایشهایمان، از نمونهگیری قطعی DDIM با 50 مرحله استفاده میکنیم. برای معکوس کردن ویدیو از تومانیان و همکاران پیروی می کنیم. (2023) و از وارونگی DDIM با مقیاس هدایت بدون طبقهبندی 1 و 1000 گام رو به جلو استفاده کنید. و نشانه های ورودی توجه به خود را از این فرآیند مشابه Qi و همکاران استخراج کنید. (2023).
زمان اجرا. از آنجایی که ما ماژول توجه را در اکثر فریمهای ویدیو محاسبه نمیکنیم (یعنی فقط خروجی توجه به خود را روی فریمهای کلیدی محاسبه میکنیم)، روش ما در زمان اجرا کارآمد است و نمونهبرداری از ویدیو زمان هر فریم را کاهش میدهد. ویرایش 20% فرآیند وارونگی با 1000 مرحله، گلوگاه اصلی روش ما از نظر زمان اجرا است، و در بسیاری از موارد مقدار بسیار کمتری از مراحل کافی است (مثلا 50). جدول 3 زمان اجرا را گزارش می دهد…