Generative AI's Next Frontier is Video | دانش مرکز داده - سئو PBN

(بلومبرگ) — هوش مصنوعی با تصاویر ثابت پیشرفت قابل توجهی داشته است. برای ماه‌ها، سرویس‌هایی مانند Dall-E و Stable Diffusion تصاویری زیبا، گیرا و گاهی ناراحت‌کننده خلق کرده‌اند. اکنون استارتاپی به نام Runway AI Inc. قدم بعدی را برمی‌دارد: ویدیوی تولید شده توسط هوش مصنوعی.

روز دوشنبه، Runway مستقر در نیویورک، در دسترس بودن سیستم Gen 2 خود را اعلام کرد که قطعه‌های کوتاهی از ویدیو را از چند کلمه درخواست کاربر تولید می‌کند. کاربران می‌توانند شرحی از آنچه می‌خواهند ببینند را تایپ کنند، برای مثال: «گربه‌ای که زیر باران راه می‌رود» و یک کلیپ ویدیویی تقریباً 3 ثانیه‌ای ایجاد می‌کند که دقیقاً آن یا چیزی نزدیک را نشان می‌دهد. به طور متناوب، کاربران می توانند یک تصویر را به عنوان یک نقطه مرجع برای سیستم و همچنین یک درخواست آپلود کنند.

محصول برای همه در دسترس نیست Runway که ابزارهای فیلم و تدوین مبتنی بر هوش مصنوعی را تولید می کند، در دسترس بودن سیستم هوش مصنوعی Gen 2 خود را از طریق لیست انتظار اعلام کرد. افراد می توانند برای دسترسی به آن در یک کانال خصوصی Discord ثبت نام کنند که این شرکت قصد دارد هر هفته کاربران بیشتری را به آن اضافه کند.

راه‌اندازی محدود نمایانگر پرمخاطب‌ترین نمونه از تولید متن به ویدیو در خارج از آزمایشگاه است. هر دو شرکت آلفابت، گوگل و متا پلتفرمز، سال گذشته تلاش‌های خود را برای تبدیل متن به ویدیو به نمایش گذاشتند – با کلیپ‌های ویدیویی کوتاهی که شامل موضوعاتی مانند خرس عروسکی در حال شستن ظرف‌ها و قایق بادبانی در دریاچه بود – اما هیچ‌کدام برنامه‌ای برای این کار اعلام نکرده‌اند. کار را فراتر از مرحله تحقیق حرکت دهید.

Runway از سال 2018 روی ابزارهای هوش مصنوعی کار می کند و در اواخر سال گذشته 50 میلیون دلار جمع آوری کرد. این استارت آپ به ایجاد نسخه اصلی Stable Diffusion، یک مدل هوش مصنوعی متن به تصویر کمک کرد که از آن زمان به بعد توسط شرکت Stability AI محبوبیت پیدا کرد و توسعه یافت.

هوش مصنوعی مولد قدم بعدی را برمی دارد

در یک نمایش زنده انحصاری هفته گذشته با یکی از بنیانگذاران و مدیر اجرایی Runway، کریس والنزوئلا، این گزارشگر ژنرال 2 را آزمایش کرد و “تصویربرداری پهپاد از منظره بیابانی” را پیشنهاد کرد. در عرض چند دقیقه، ژنرال 2 یک ویدیوی چند ثانیه ای و کمی تحریف شده تولید کرد، اما به نظر غیرقابل انکار به نظر می رسید که فیلم های هواپیماهای بدون سرنشین از یک منظره بیابانی گرفته شده است. آسمان آبی و ابرهایی در افق وجود دارد، و خورشید طلوع می کند (یا شاید غروب می کند)، در گوشه سمت راست قاب ویدیو، پرتوهای آن تپه های شنی قهوه ای زیر را برجسته می کند.

چندین ویدیوی دیگر که Runway از طریق دستورات خود تولید کرده است، برخی از نقاط قوت و ضعف کنونی سیستم را نشان می‌دهد: تصویر نزدیک از یک کره چشم واضح و بسیار شبیه انسان به نظر می‌رسد، در حالی که کلیپی از یک کوهنورد در حال قدم زدن در جنگل نشان می‌دهد که ممکن است هنوز هم باشد. مشکلاتی در ایجاد پاها و حرکات راه رفتن با ظاهر واقعی دارند. والنزوئلا گفت، این مدل هنوز به درستی «نمی‌داند» که چگونه اجسام در حال حرکت را به‌طور دقیق به تصویر بکشد.

او گفت: “شما می توانید یک تعقیب و گریز با ماشین ایجاد کنید، اما گاهی اوقات ماشین ها ممکن است پرواز کنند.”

در حالی که درخواست‌های طولانی ممکن است منجر به تصویری دقیق‌تر با مدل متن به تصویر مانند DALL-E یا Stable Diffusion شود، Valenzuela گفت که با Gen 2 ساده‌تر بهتر است. او Gen 2 را راهی برای ارائه به هنرمندان، طراحان و فیلم‌سازان می‌داند. ابزار دیگری که می تواند به آنها در فرآیندهای خلاقانه کمک کند و چنین ابزارهایی را نسبت به گذشته مقرون به صرفه تر و در دسترس تر کند.

این محصول بر اساس یک مدل هوش مصنوعی موجود به نام Gen 1 ساخته شده است که Runway آزمایش آن را به صورت خصوصی در Discord در فوریه آغاز کرد. Valenzuela گفت که در حال حاضر هزاران کاربر دارد. این مدل هوش مصنوعی کاربران را ملزم می‌کند که ویدیویی را به‌عنوان منبع ورودی آپلود کنند که از آن (همراه با راهنمایی کاربر مانند یک پیام متنی یا یک عکس ثابت) برای تولید یک ویدیوی جدید و بی‌صدا 3 ثانیه‌ای استفاده می‌کند. برای مثال، می‌توانید تصویری از گربه‌ای را که در حال تعقیب یک اسباب‌بازی است، همراه با متن «سبک قلاب‌بافی زیبا» آپلود کنید، و Gen 1 ویدیویی از یک گربه قلاب‌بافی در حال تعقیب یک اسباب‌بازی تولید می‌کند.

ویدیوهای ایجاد شده با مدل Gen 2 AI نیز بی صدا هستند، اما Valenzuela گفت که این شرکت در حال انجام تحقیقات در زمینه تولید صدا است به این امید که در نهایت سیستمی ایجاد کند که بتواند هم تصویر و هم صدا تولید کند.

اولین نسل دوم نشان می‌دهد که استارت‌آپ‌ها با سرعت و ظلم در حال پیشروی در به اصطلاح هوش مصنوعی مولد هستند، سیستم‌هایی که ورودی‌های کاربر را دریافت می‌کنند و محتوای جدیدی مانند متن یا تصاویر تولید می‌کنند. چندین مورد از این سیستم‌ها – مانند Stable Diffusion، همراه با OpenAI Inc. که تولید کننده تصویر Dall-E و ربات چت ChatGPT است – در ماه‌های اخیر در دسترس عموم قرار گرفته‌اند و بسیار محبوب شده‌اند. در عین حال، گسترش آنها نگرانی های حقوقی و اخلاقی را ایجاد کرده است.

نقطه ضعف هوش مصنوعی پیشرفته

هانی فرید، کارشناس پزشکی قانونی دیجیتال و استاد دانشگاه کالیفرنیا، برکلی، نگاهی به چند ویدیوی تولید شده توسط Gen 2 انداخت و آنها را “فوق العاده جالب” تلفظ کرد، اما اضافه کرد که فقط زمان زیادی است که ویدیوهایی با این ساخته شوند. نوعی از تکنولوژی مورد سوء استفاده قرار می گیرد.

فرید گفت: «مردم سعی خواهند کرد با این کار کارهای بد انجام دهند.

Runway از ترکیبی از هوش مصنوعی و اعتدال انسانی استفاده می‌کند تا کاربران را از تولید ویدیوهایی با Gen 2 که شامل هرزه‌نگاری، محتوای خشونت‌آمیز یا نقض حق نسخه‌برداری است، جلوگیری کند، اگرچه چنین روش‌هایی بی‌خطا نیستند.

مانند بقیه صنعت هوش مصنوعی، این فناوری به سرعت در حال پیشرفت است. در حالی که کیفیت تصویر Gen 2 در حال حاضر کمی تار و لرزان است، و به راحتی می توان حس کرد که چیز متفاوتی در مورد ویدیوی ایجاد شده توسط Gen 2 وجود دارد، Valenzuela انتظار دارد که به سرعت بهبود یابد.

او گفت: «زود است. “مدل با گذشت زمان بهتر می شود.”

سئو PBN | خبر های جدید سئو و هک و سرور