نحوه تبدیل مدل های متن به تصویر استاتیک به ژنراتور پویانمایی پویا

نویسندگان:

(1) Yuwei Guo، دانشگاه چینی هنگ کنگ.

(2) سیوان یانگ، آزمایشگاه هوش مصنوعی شانگهای با نویسنده مسئول.

(3) Anyi Rao، دانشگاه استنفورد.

(4) ژنگ یانگ لیانگ، آزمایشگاه هوش مصنوعی شانگهای؛

(5) Yaohui Wang، آزمایشگاه هوش مصنوعی شانگهای.

(6) یو کیائو، آزمایشگاه هوش مصنوعی شانگهای.

(7) منیش آگراوالا، دانشگاه استنفورد؛

(8) داهوا لین، آزمایشگاه هوش مصنوعی شانگهای؛

(9) بو دای، دانشگاه چینی هنگ کنگ و دانشگاه چینی هنگ کنگ.

چکیده و 1 مقدمه

2 مربوط به کار

3 مقدماتی

  1. AnimateDiff

4.1 کاهش اثرات منفی داده های آموزشی با آداپتور دامنه

4.2 با موشن ماژول Motion Priors را بیاموزید

4.3 با MotionLora با الگوهای حرکتی جدید سازگار شوید

4.4 AnimateDiff در عمل

5 آزمایش و 5.1 نتایج کیفی

5.2 مقایسه کیفی

5.3 مطالعه ابلیتی

5.4 نسل قابل کنترل

6 نتیجه گیری

7 بیانیه اخلاق

8 بیانیه تکرارپذیری، تصدیق و مراجع

شکل 1: AnimateDiff مستقیماً مدل‌های شخصی‌سازی‌شده متن به تصویر (T2I) را با یک ماژول حرکتی از پیش آموزش‌دیده به مولدهای انیمیشن مربوطه تبدیل می‌کند. ردیف اول: با ترکیب AnimateDiff با سه T2I شخصی سازی شده در حوزه های مختلف نتیجه می شود. ردیف دوم: نتایج ترکیب بیشتر AnimateDiff با MotionLoRA (ها) برای دستیابی به کنترل‌های نوع شات. بهترین مشاهده با Acrobat Reader. برای پخش کلیپ های انیمیشن روی تصاویر کلیک کنید.شکل 1: AnimateDiff مستقیماً مدل‌های شخصی‌سازی‌شده متن به تصویر (T2I) را با یک ماژول حرکتی از پیش آموزش‌دیده به مولدهای انیمیشن مربوطه تبدیل می‌کند. ردیف اول: با ترکیب AnimateDiff با سه T2I شخصی سازی شده در حوزه های مختلف نتیجه می شود. ردیف دوم: نتایج ترکیب بیشتر AnimateDiff با MotionLoRA (ها) برای دستیابی به کنترل‌های نوع شات. بهترین مشاهده با Acrobat Reader. برای پخش کلیپ های انیمیشن روی تصاویر کلیک کنید.

چکیده

با پیشرفت مدل‌های انتشار متن به تصویر (T2I) (به عنوان مثال، انتشار پایدار) و تکنیک‌های شخصی‌سازی مربوطه مانند DreamBooth و LoRA، همه می‌توانند تخیل خود را به تصاویر با کیفیت بالا با قیمتی مقرون‌به‌صرفه نشان دهند.

Source link