پیشرفت اخیر در هوش مصنوعی مولد امکان ایجاد محتوای جدید در چندین حوزه مختلف از جمله متن، دید و صدا را باز کرده است. این مدلها اغلب بر این واقعیت تکیه میکنند که دادههای خام ابتدا به عنوان دنبالهای از نشانهها به یک فرمت فشرده تبدیل میشوند. در مورد صدا، کدکهای صوتی عصبی (مانند SoundStream یا EnCodec) میتوانند به طور موثر شکل موجها را به یک نمایش فشرده فشرده کنند، که میتواند برای بازسازی تقریبی سیگنال صوتی اصلی معکوس شود. چنین نمایشی شامل دنبالهای از نشانههای صوتی گسسته است که ویژگیهای محلی صداها (مثلاً واجها) و ساختار زمانی آنها (مثلاً عروض) را نشان میدهد. با نمایش صدا بهعنوان دنبالهای از نشانههای مجزا، تولید صدا را میتوان با مدلهای توالی به دنباله مبتنی بر ترانسفورماتور انجام داد – این امر پیشرفت سریع در ادامه گفتار (مثلاً با AudioLM)، تبدیل متن به گفتار (مثلاً با SPEAR-TTS)، و تولید کلی صدا و موسیقی (به عنوان مثال، AudioGen و MusicLM). بسیاری از مدلهای صوتی تولیدی، از جمله AudioLM، بر رمزگشایی رگرسیون خودکار متکی هستند که توکنها را یکی یکی تولید میکند. در حالی که این روش به کیفیت صوتی بالایی دست می یابد، استنتاج (یعنی محاسبه خروجی) می تواند کند باشد، به خصوص هنگام رمزگشایی دنباله های طولانی.
برای پرداختن به این موضوع، در “SoundStorm: Efficient Parallel Audio Generation”، ما روش جدیدی را برای تولید صدای کارآمد و با کیفیت پیشنهاد می کنیم. SoundStorm با تکیه بر دو عنصر جدید به مشکل تولید توکن های صوتی طولانی می پردازد: 1) معماری سازگار با ماهیت خاص نشانه های صوتی که توسط کدک عصبی SoundStream تولید می شود، و 2) یک طرح رمزگشایی با الهام از MaskGIT که اخیراً پیشنهاد شده است. روشی برای تولید تصویر، که برای کار بر روی توکن های صوتی طراحی شده است. در مقایسه با رویکرد رمزگشایی خودکار AudioLM، SoundStorm میتواند توکنها را به صورت موازی تولید کند، در نتیجه زمان استنتاج را برای دنبالههای طولانی 100 برابر کاهش میدهد و صدایی با همان کیفیت و سازگاری بالاتر در شرایط صدا و آکوستیک تولید میکند. علاوه بر این، ما نشان میدهیم که SoundStorm، همراه با مرحله مدلسازی متن به معنایی SPEAR-TTS، میتواند دیالوگهای باکیفیت و طبیعی را ترکیب کند و به فرد اجازه میدهد محتوای گفتاری (از طریق رونوشتها)، صدای گوینده (از طریق اعلانهای صوتی کوتاه) را کنترل کند. ) و چرخش های بلندگو (از طریق حاشیه نویسی رونوشت)، همانطور که در مثال های زیر نشان داده شده است:
متن ورودی (رونویسی برای هدایت تولید صدا به صورت پررنگ استفاده می شود) | امروز صبح یک اتفاق واقعا خنده دار برای من افتاد. | اوه وای چی؟ | خب من طبق معمول بیدار شدم | اوهوم | رفتم پایین تا صبحانه بخورم | آره | شروع کرد به خوردن 10 دقیقه بعد فهمیدم نیمه شب بود. | اوه به هیچ وجه، این خیلی خنده دار است! | دیشب خوب نخوابیدم | وای نه. چی شد؟ | من نمی دانم. به نظر نمی رسید یک جورهایی بخوابم، تمام شب مدام تکان می خوردم و می چرخیدم. | این خیلی بد است. شاید باید سعی کنید امشب زودتر بخوابید یا شاید بتوانید سعی کنید یک کتاب بخوانید. | بله، ممنون از پیشنهادات، امیدوارم حق با شما باشد. | مشکلی نیست امیدوارم یک شب راحت بخوابی | ||
ورودی: اعلان صوتی |
|
|
||
خروجی: فرمان صوتی + صدای تولید شده |
|
|
طراحی SoundStorm
در کار قبلی خود در AudioLM، نشان دادیم که تولید صدا را می توان به دو مرحله تجزیه کرد: 1) مدل سازی معنایی، که نشانه های معنایی را از نشانه های معنایی قبلی یا یک سیگنال شرطی تولید می کند (به عنوان مثال، رونوشت مانند SPEAR-TTS، یا یک متن اعلان مانند MusicLM)، و 2) مدلسازی صوتی، که توکنهای صوتی را از نشانههای معنایی تولید میکند. با SoundStorm ما به طور خاص به این مرحله دوم مدلسازی صوتی میپردازیم و رمزگشایی اتورگرسیو کندتر را با رمزگشایی موازی سریعتر جایگزین میکنیم.
SoundStorm متکی بر یک Conformer مبتنی بر توجه دو طرفه است، یک معماری مدل که یک ترانسفورماتور را با کانولوشن ترکیب میکند تا ساختار محلی و جهانی دنبالهای از نشانهها را به تصویر بکشد. به طور خاص، این مدل برای پیشبینی نشانههای صوتی تولید شده توسط SoundStream با توجه به دنبالهای از نشانههای معنایی تولید شده توسط AudioLM به عنوان ورودی آموزش دیده است. هنگام انجام این کار، مهم است که این واقعیت را در نظر بگیرید که در هر مرحله زمانی تی، SoundStream تا س نشانه هایی برای نمایش صدا با استفاده از روشی به نام کوانتیزاسیون برداری باقیمانده (RVQ)، همانطور که در زیر در سمت راست نشان داده شده است. شهود کلیدی این است که کیفیت صدای بازسازی شده به تدریج افزایش می یابد زیرا تعداد توکن های تولید شده در هر مرحله از 1 به 1 می رسد. س.
در زمان استنتاج، با توجه به نشانههای معنایی به عنوان سیگنال شرطیسازی ورودی، SoundStorm با پوشاندن همه نشانههای صوتی شروع میشود و توکنهای ماسکشده را در چندین تکرار پر میکند، از نشانههای درشت در سطح RVQ شروع میشود. q = 1 و سطح به سطح را با نشانه های ظریف تر تا رسیدن به سطح ادامه دهید q = Q.
دو جنبه حیاتی SoundStorm وجود دارد که تولید سریع را امکانپذیر میسازد: 1) توکنها بهطور موازی در طی یک تکرار واحد در سطح RVQ پیشبینی میشوند و، 2) معماری مدل به گونهای طراحی شده است که پیچیدگی فقط به میزان خفیفی تحت تأثیر تعداد قرار میگیرد. از سطوح س. برای پشتیبانی از این طرح استنتاج، در طول آموزش از یک طرح پوششی با دقت طراحی شده برای تقلید از فرآیند تکراری استفاده شده در استنتاج استفاده می شود.
معماری مدل SoundStorm. تی تعداد مراحل زمانی و س تعداد سطوح RVQ استفاده شده توسط SoundStream. نشانههای معنایی که به عنوان شرطیسازی استفاده میشوند با فریمهای SoundStream مطابق با زمان هستند. |
اندازه گیری عملکرد SoundStorm
ما نشان میدهیم که SoundStorm با کیفیت مولد صوتی AudioLM مطابقت دارد و هر دو مرحله AudioLM (مدل آکوستیک درشت) و مرحله سه (مدل آکوستیک خوب) را جایگزین میکند. علاوه بر این، SoundStorm صدا را 100 برابر سریعتر از مولد آکوستیک سلسله مراتبی سلسله مراتبی AudioLM (نیمه بالا پایین) با کیفیت منطبق و سازگاری بهبود یافته از نظر هویت بلندگو و شرایط صوتی (نیمه پایین پایین) تولید می کند.
زمانهای رمزگشایی SoundStream، SoundStorm و مراحل مختلف AudioLM در TPU-v4. |
سازگاری صوتی بین صدای اعلان و تولید شده. ناحیه سایه دار محدوده بین چارکی را نشان می دهد. |
ایمنی و کاهش خطر
ما تصدیق میکنیم که نمونههای صوتی تولید شده توسط مدل ممکن است تحت تأثیر سوگیریهای ناعادلانه موجود در دادههای آموزشی قرار گیرند، به عنوان مثال از نظر لهجهها و ویژگیهای صدا. در نمونههای تولید شده خود، نشان میدهیم که میتوانیم به طور قابل اعتماد و مسئولانه ویژگیهای بلندگو را از طریق درخواست کنترل کنیم، با هدف اجتناب از تعصبات ناعادلانه. تجزیه و تحلیل کامل هر گونه داده آموزشی و محدودیت های آن حوزه ای از کار آینده در راستای اصول هوش مصنوعی مسئول ما است.
به نوبه خود، توانایی تقلید یک صدا می تواند کاربردهای مخرب متعددی داشته باشد، از جمله دور زدن شناسایی بیومتریک و استفاده از مدل به منظور جعل هویت. بنابراین، بسیار مهم است که تدابیری را در برابر سوء استفاده احتمالی ایجاد کنیم: برای این منظور، ما تأیید کردهایم که صدای تولید شده توسط SoundStorm توسط طبقهبندیکننده اختصاصی با استفاده از همان طبقهبندیکنندهای که در مقاله اصلی AudioLM ما توضیح داده شده، قابل تشخیص است. از این رو، به عنوان جزئی از یک سیستم بزرگتر، ما معتقدیم که SoundStorm بعید است خطرات اضافی را برای مواردی که در مقالات قبلی ما در AudioLM و SPEAR-TTS مورد بحث قرار گرفت، معرفی کند. در عین حال، آرام کردن حافظه و نیازهای محاسباتی AudioLM میتواند تحقیقات در حوزه تولید صدا را برای جامعه وسیعتری قابل دسترستر کند. در آینده، ما قصد داریم روشهای دیگری را برای تشخیص گفتار سنتز شده، به عنوان مثال، با کمک واترمارک صوتی، بررسی کنیم تا هرگونه استفاده بالقوه محصول از این فناوری به شدت از اصول هوش مصنوعی ما پیروی کند.
نتیجه
ما SoundStorm را معرفی کردهایم، مدلی که میتواند به طور موثر صدای با کیفیت بالا را از توکنهای شرطیسازی گسسته ترکیب کند. در مقایسه با مولد صوتی AudioLM، SoundStorm دو مرتبه سریعتر است و هنگام تولید نمونههای صوتی طولانی، ثبات زمانی بالاتری به دست میآورد. با ترکیب یک مدل نشانه متن به معنایی مشابه SPEAR-TTS با SoundStorm، میتوانیم سنتز متن به گفتار را در زمینههای طولانیتر مقیاسبندی کنیم و دیالوگهای طبیعی را با چرخشهای متعدد گوینده ایجاد کنیم، و هم صدای گویندگان و هم محتوای تولید شده را کنترل کنیم. . SoundStorm به تولید گفتار محدود نمی شود. به عنوان مثال، MusicLM از SoundStorm برای ترکیب خروجی های طولانی تر به طور موثر استفاده می کند (همانطور که در I/O مشاهده می شود).
قدردانی
اثری که در اینجا توضیح داده شده توسط زالان بورسوس، مت شریفی، دیمین وینسنت، یوجین خاریتونوف، نیل زگیدور و مارکو تالیاساکی نوشته شده است. ما از همه بحث ها و بازخوردهایی که در مورد این کار از همکاران خود در Google دریافت کردیم سپاسگزاریم.