(بلومبرگ) — هوش مصنوعی با تصاویر ثابت پیشرفت قابل توجهی داشته است. برای ماهها، سرویسهایی مانند Dall-E و Stable Diffusion تصاویری زیبا، گیرا و گاهی ناراحتکننده خلق کردهاند. اکنون استارتاپی به نام Runway AI Inc. قدم بعدی را برمیدارد: ویدیوی تولید شده توسط هوش مصنوعی.
روز دوشنبه، Runway مستقر در نیویورک، در دسترس بودن سیستم Gen 2 خود را اعلام کرد که قطعههای کوتاهی از ویدیو را از چند کلمه درخواست کاربر تولید میکند. کاربران میتوانند شرحی از آنچه میخواهند ببینند را تایپ کنند، برای مثال: «گربهای که زیر باران راه میرود» و یک کلیپ ویدیویی تقریباً 3 ثانیهای ایجاد میکند که دقیقاً آن یا چیزی نزدیک را نشان میدهد. به طور متناوب، کاربران می توانند یک تصویر را به عنوان یک نقطه مرجع برای سیستم و همچنین یک درخواست آپلود کنند.
محصول برای همه در دسترس نیست Runway که ابزارهای فیلم و تدوین مبتنی بر هوش مصنوعی را تولید می کند، در دسترس بودن سیستم هوش مصنوعی Gen 2 خود را از طریق لیست انتظار اعلام کرد. افراد می توانند برای دسترسی به آن در یک کانال خصوصی Discord ثبت نام کنند که این شرکت قصد دارد هر هفته کاربران بیشتری را به آن اضافه کند.
راهاندازی محدود نمایانگر پرمخاطبترین نمونه از تولید متن به ویدیو در خارج از آزمایشگاه است. هر دو شرکت آلفابت، گوگل و متا پلتفرمز، سال گذشته تلاشهای خود را برای تبدیل متن به ویدیو به نمایش گذاشتند – با کلیپهای ویدیویی کوتاهی که شامل موضوعاتی مانند خرس عروسکی در حال شستن ظرفها و قایق بادبانی در دریاچه بود – اما هیچکدام برنامهای برای این کار اعلام نکردهاند. کار را فراتر از مرحله تحقیق حرکت دهید.
Runway از سال 2018 روی ابزارهای هوش مصنوعی کار می کند و در اواخر سال گذشته 50 میلیون دلار جمع آوری کرد. این استارت آپ به ایجاد نسخه اصلی Stable Diffusion، یک مدل هوش مصنوعی متن به تصویر کمک کرد که از آن زمان به بعد توسط شرکت Stability AI محبوبیت پیدا کرد و توسعه یافت.
هوش مصنوعی مولد قدم بعدی را برمی دارد
در یک نمایش زنده انحصاری هفته گذشته با یکی از بنیانگذاران و مدیر اجرایی Runway، کریس والنزوئلا، این گزارشگر ژنرال 2 را آزمایش کرد و “تصویربرداری پهپاد از منظره بیابانی” را پیشنهاد کرد. در عرض چند دقیقه، ژنرال 2 یک ویدیوی چند ثانیه ای و کمی تحریف شده تولید کرد، اما به نظر غیرقابل انکار به نظر می رسید که فیلم های هواپیماهای بدون سرنشین از یک منظره بیابانی گرفته شده است. آسمان آبی و ابرهایی در افق وجود دارد، و خورشید طلوع می کند (یا شاید غروب می کند)، در گوشه سمت راست قاب ویدیو، پرتوهای آن تپه های شنی قهوه ای زیر را برجسته می کند.
چندین ویدیوی دیگر که Runway از طریق دستورات خود تولید کرده است، برخی از نقاط قوت و ضعف کنونی سیستم را نشان میدهد: تصویر نزدیک از یک کره چشم واضح و بسیار شبیه انسان به نظر میرسد، در حالی که کلیپی از یک کوهنورد در حال قدم زدن در جنگل نشان میدهد که ممکن است هنوز هم باشد. مشکلاتی در ایجاد پاها و حرکات راه رفتن با ظاهر واقعی دارند. والنزوئلا گفت، این مدل هنوز به درستی «نمیداند» که چگونه اجسام در حال حرکت را بهطور دقیق به تصویر بکشد.
او گفت: “شما می توانید یک تعقیب و گریز با ماشین ایجاد کنید، اما گاهی اوقات ماشین ها ممکن است پرواز کنند.”
در حالی که درخواستهای طولانی ممکن است منجر به تصویری دقیقتر با مدل متن به تصویر مانند DALL-E یا Stable Diffusion شود، Valenzuela گفت که با Gen 2 سادهتر بهتر است. او Gen 2 را راهی برای ارائه به هنرمندان، طراحان و فیلمسازان میداند. ابزار دیگری که می تواند به آنها در فرآیندهای خلاقانه کمک کند و چنین ابزارهایی را نسبت به گذشته مقرون به صرفه تر و در دسترس تر کند.
این محصول بر اساس یک مدل هوش مصنوعی موجود به نام Gen 1 ساخته شده است که Runway آزمایش آن را به صورت خصوصی در Discord در فوریه آغاز کرد. Valenzuela گفت که در حال حاضر هزاران کاربر دارد. این مدل هوش مصنوعی کاربران را ملزم میکند که ویدیویی را بهعنوان منبع ورودی آپلود کنند که از آن (همراه با راهنمایی کاربر مانند یک پیام متنی یا یک عکس ثابت) برای تولید یک ویدیوی جدید و بیصدا 3 ثانیهای استفاده میکند. برای مثال، میتوانید تصویری از گربهای را که در حال تعقیب یک اسباببازی است، همراه با متن «سبک قلاببافی زیبا» آپلود کنید، و Gen 1 ویدیویی از یک گربه قلاببافی در حال تعقیب یک اسباببازی تولید میکند.
ویدیوهای ایجاد شده با مدل Gen 2 AI نیز بی صدا هستند، اما Valenzuela گفت که این شرکت در حال انجام تحقیقات در زمینه تولید صدا است به این امید که در نهایت سیستمی ایجاد کند که بتواند هم تصویر و هم صدا تولید کند.
اولین نسل دوم نشان میدهد که استارتآپها با سرعت و ظلم در حال پیشروی در به اصطلاح هوش مصنوعی مولد هستند، سیستمهایی که ورودیهای کاربر را دریافت میکنند و محتوای جدیدی مانند متن یا تصاویر تولید میکنند. چندین مورد از این سیستمها – مانند Stable Diffusion، همراه با OpenAI Inc. که تولید کننده تصویر Dall-E و ربات چت ChatGPT است – در ماههای اخیر در دسترس عموم قرار گرفتهاند و بسیار محبوب شدهاند. در عین حال، گسترش آنها نگرانی های حقوقی و اخلاقی را ایجاد کرده است.
نقطه ضعف هوش مصنوعی پیشرفته
هانی فرید، کارشناس پزشکی قانونی دیجیتال و استاد دانشگاه کالیفرنیا، برکلی، نگاهی به چند ویدیوی تولید شده توسط Gen 2 انداخت و آنها را “فوق العاده جالب” تلفظ کرد، اما اضافه کرد که فقط زمان زیادی است که ویدیوهایی با این ساخته شوند. نوعی از تکنولوژی مورد سوء استفاده قرار می گیرد.
فرید گفت: «مردم سعی خواهند کرد با این کار کارهای بد انجام دهند.
Runway از ترکیبی از هوش مصنوعی و اعتدال انسانی استفاده میکند تا کاربران را از تولید ویدیوهایی با Gen 2 که شامل هرزهنگاری، محتوای خشونتآمیز یا نقض حق نسخهبرداری است، جلوگیری کند، اگرچه چنین روشهایی بیخطا نیستند.
مانند بقیه صنعت هوش مصنوعی، این فناوری به سرعت در حال پیشرفت است. در حالی که کیفیت تصویر Gen 2 در حال حاضر کمی تار و لرزان است، و به راحتی می توان حس کرد که چیز متفاوتی در مورد ویدیوی ایجاد شده توسط Gen 2 وجود دارد، Valenzuela انتظار دارد که به سرعت بهبود یابد.
او گفت: «زود است. “مدل با گذشت زمان بهتر می شود.”