حوزه هوش مصنوعی در حال رونق است. تولید تصویر یکی از برجسته ترین حوزه ها است. رقبای زیادی مانند Stable Diffusion، Midjourney و DALL-E در بازار وجود دارد. همه این محصولات مبتنی بر رویکرد شبکه های انتشار هستند. برخلاف مدلهای انتشار GPT که اغلب بهعنوان مبهم دیده میشوند، هدف این داستان ابهامزدایی از پیچیدگی مدلهای انتشار و توضیح نحوه کارکرد آنها به روشی آسان اما جامع است. برویم
مبانی
شبکههای Diffusion شبکههای عصبی مصنوعی هستند که به شما اجازه میدهند تا وظایف مختلف تولید را حل کنید. شناخته شده ترین برنامه تولید تصویر است. در این داستان، بگذارید فقط روی این نوع نسل تمرکز کنیم. وظایف نسل بی شماری وجود دارد: image2image، image2video، text2vide، video+image2video، و غیره. اما همه آنها بر اساس ساختار مشابهی هستند.
شبکه انتشار از 3 بلوک ساختمانی (شبکه های عصبی) تشکیل شده است:
- فرآیند انتشار: فرآیند تولید تصویر.
- شرطی سازی: راهی برای محدود کردن نسل به یک موضوع معین.
- فضای پنهان: ترفندی که باعث میشود مدل در محدودیتهای سختافزاری اجرا شود.
فرآیند انتشار
مفهوم فرآیندهای انتشار برگرفته از فیزیک است که نحوه انتشار ذرات در یک محیط در طول زمان را توصیف می کند. در زمینه ماشین …