تولید تصویر: با استفاده از شبکه های انتشار توضیح داده شد

حوزه هوش مصنوعی در حال رونق است. تولید تصویر یکی از برجسته ترین حوزه ها است. رقبای زیادی مانند Stable Diffusion، Midjourney و DALL-E در بازار وجود دارد. همه این محصولات مبتنی بر رویکرد شبکه های انتشار هستند. برخلاف مدل‌های انتشار GPT که اغلب به‌عنوان مبهم دیده می‌شوند، هدف این داستان ابهام‌زدایی از پیچیدگی مدل‌های انتشار و توضیح نحوه کارکرد آنها به روشی آسان اما جامع است. برویم

مبانی

شبکه‌های Diffusion شبکه‌های عصبی مصنوعی هستند که به شما اجازه می‌دهند تا وظایف مختلف تولید را حل کنید. شناخته شده ترین برنامه تولید تصویر است. در این داستان، بگذارید فقط روی این نوع نسل تمرکز کنیم. وظایف نسل بی شماری وجود دارد: image2image، image2video، text2vide، video+image2video، و غیره. اما همه آنها بر اساس ساختار مشابهی هستند.

شبکه انتشار از 3 بلوک ساختمانی (شبکه های عصبی) تشکیل شده است:

  1. فرآیند انتشار: فرآیند تولید تصویر.
  2. شرطی سازی: راهی برای محدود کردن نسل به یک موضوع معین.
  3. فضای پنهان: ترفندی که باعث می‌شود مدل در محدودیت‌های سخت‌افزاری اجرا شود.

فرآیند انتشار

مفهوم فرآیندهای انتشار برگرفته از فیزیک است که نحوه انتشار ذرات در یک محیط در طول زمان را توصیف می کند. در زمینه ماشین …

Source link