در اقدامی جسورانه که تنشهای فزاینده بین هنرمندان و توسعهدهندگان هوش مصنوعی را برجسته میکند، یک گروه معترض به نام “Sora PR Puppets” دسترسی به مدل منتشر نشده متن به ویدئو OpenAI، Sora، در پلتفرم Hugging Face را فاش کرد. این اقدام نافرمانی، شیوههای استثماری ادعایی در برنامه دسترسی اولیه OpenAI را روشن میکند و نگاهی نادر به قابلیتهای مدل Sora ارائه میدهد.
درک سورا: مدل متن به ویدیو OpenAI
Sora مدل پیشرفته متن به ویدیو OpenAI است که برای تولید ویدیوهای با کیفیت بالا از توضیحات متنی طراحی شده است. با تکیه بر فناوریهای موجود در مدلهای DALL·E و GPT، Sora از تکنیک بازنویسی برای تولید ویدیوهایی استفاده میکند که دقیقاً به درخواستهای کاربر پایبند هستند. این مدل میتواند صحنههای پیچیدهای با شخصیتهای متعدد، حرکات خاص و پسزمینههای دقیق خلق کند و درک دینامیک دنیای فیزیکی را نشان دهد.
نشت و پیامدهای آن
نسخه فاش شده Sora به کاربران اجازه می دهد تا کلیپ های ویدیویی 1080p و 10 ثانیه ای تولید کنند که طبق گزارش ها در زمان های رندر سریع تر از آنچه قبلا فاش شده بود. قابل ذکر است، این کلیپ ها دارای واترمارک OpenAI بودند که نشان دهنده منشأ آنهاست. در دسترس بودن موقت Sora در Hugging Face چندین ساعت طول کشید تا اینکه OpenAI برای قطع دسترسی مداخله کرد.