جزئیات پیاده سازی TokenFlow: همه چیزهایی که ما استفاده کردیم

چکیده و 1. مقدمه

2 کارهای مرتبط

3 مقدماتی

4 روش

4.1 نمونه کلید و ویرایش مشترک

4.2 ویرایش انتشار از طریق TokenFlow

5 نتیجه

5.1 ارزیابی کیفی و 5.2 ارزیابی کمی

5.3 مطالعه فرسایش

6 بحث

7 تصدیق و مراجع

A جزئیات پیاده سازی

جزئیات پیاده سازی

StableDiffusion. ما از Stable Diffusion به عنوان مدل متن به تصویر از پیش آموزش دیده خود استفاده می کنیم. ما از نقطه بازرسی StableDiffusion-v-2-1 استفاده می کنیم که از طریق صفحه وب رسمی HuggingFace ارائه شده است.

وارونگی DDIM در همه آزمایش‌هایمان، از نمونه‌گیری قطعی DDIM با 50 مرحله استفاده می‌کنیم. برای معکوس کردن ویدیو از تومانیان و همکاران پیروی می کنیم. (2023) و از وارونگی DDIM با مقیاس هدایت بدون طبقه‌بندی 1 و 1000 گام رو به جلو استفاده کنید. و نشانه های ورودی توجه به خود را از این فرآیند مشابه Qi و همکاران استخراج کنید. (2023).

زمان اجرا. از آنجایی که ما ماژول توجه را در اکثر فریم‌های ویدیو محاسبه نمی‌کنیم (یعنی فقط خروجی توجه به خود را روی فریم‌های کلیدی محاسبه می‌کنیم)، روش ما در زمان اجرا کارآمد است و نمونه‌برداری از ویدیو زمان هر فریم را کاهش می‌دهد. ویرایش 20% فرآیند وارونگی با 1000 مرحله، گلوگاه اصلی روش ما از نظر زمان اجرا است، و در بسیاری از موارد مقدار بسیار کمتری از مراحل کافی است (مثلا 50). جدول 3 زمان اجرا را گزارش می دهد…

Source link