تولید صوت موازی کارآمد – وبلاگ هوش مصنوعی گوگل

تولید صوت موازی کارآمد – وبلاگ هوش مصنوعی گوگل

پیشرفت اخیر در هوش مصنوعی مولد امکان ایجاد محتوای جدید در چندین حوزه مختلف از جمله متن، دید و صدا را باز کرده است. این مدل‌ها اغلب بر این واقعیت تکیه می‌کنند که داده‌های خام ابتدا به عنوان دنباله‌ای از نشانه‌ها به یک فرمت فشرده تبدیل می‌شوند. در مورد صدا، کدک‌های صوتی عصبی (مانند SoundStream یا EnCodec) می‌توانند به طور موثر شکل موج‌ها را به یک نمایش فشرده فشرده کنند، که می‌تواند برای بازسازی تقریبی سیگنال صوتی اصلی معکوس شود. چنین نمایشی شامل دنباله‌ای از نشانه‌های صوتی گسسته است که ویژگی‌های محلی صداها (مثلاً واج‌ها) و ساختار زمانی آنها (مثلاً عروض) را نشان می‌دهد. با نمایش صدا به‌عنوان دنباله‌ای از نشانه‌های مجزا، تولید صدا را می‌توان با مدل‌های توالی به دنباله مبتنی بر ترانسفورماتور انجام داد – این امر پیشرفت سریع در ادامه گفتار (مثلاً با AudioLM)، تبدیل متن به گفتار (مثلاً با SPEAR-TTS)، و تولید کلی صدا و موسیقی (به عنوان مثال، AudioGen و MusicLM). بسیاری از مدل‌های صوتی تولیدی، از جمله AudioLM، بر رمزگشایی رگرسیون خودکار متکی هستند که توکن‌ها را یکی یکی تولید می‌کند. در حالی که این روش به کیفیت صوتی بالایی دست می یابد، استنتاج (یعنی محاسبه خروجی) می تواند کند باشد، به خصوص هنگام رمزگشایی دنباله های طولانی.

برای پرداختن به این موضوع، در “SoundStorm: Efficient Parallel Audio Generation”، ما روش جدیدی را برای تولید صدای کارآمد و با کیفیت پیشنهاد می کنیم. SoundStorm با تکیه بر دو عنصر جدید به مشکل تولید توکن های صوتی طولانی می پردازد: 1) معماری سازگار با ماهیت خاص نشانه های صوتی که توسط کدک عصبی SoundStream تولید می شود، و 2) یک طرح رمزگشایی با الهام از MaskGIT که اخیراً پیشنهاد شده است. روشی برای تولید تصویر، که برای کار بر روی توکن های صوتی طراحی شده است. در مقایسه با رویکرد رمزگشایی خودکار AudioLM، SoundStorm می‌تواند توکن‌ها را به صورت موازی تولید کند، در نتیجه زمان استنتاج را برای دنباله‌های طولانی 100 برابر کاهش می‌دهد و صدایی با همان کیفیت و سازگاری بالاتر در شرایط صدا و آکوستیک تولید می‌کند. علاوه بر این، ما نشان می‌دهیم که SoundStorm، همراه با مرحله مدل‌سازی متن به معنایی SPEAR-TTS، می‌تواند دیالوگ‌های باکیفیت و طبیعی را ترکیب کند و به فرد اجازه می‌دهد محتوای گفتاری (از طریق رونوشت‌ها)، صدای گوینده (از طریق اعلان‌های صوتی کوتاه) را کنترل کند. ) و چرخش های بلندگو (از طریق حاشیه نویسی رونوشت)، همانطور که در مثال های زیر نشان داده شده است:

متن ورودی (رونویسی برای هدایت تولید صدا به صورت پررنگ استفاده می شود) امروز صبح یک اتفاق واقعا خنده دار برای من افتاد. | اوه وای چی؟ | خب من طبق معمول بیدار شدم | اوهوم | رفتم پایین تا صبحانه بخورم | آره | شروع کرد به خوردن 10 دقیقه بعد فهمیدم نیمه شب بود. | اوه به هیچ وجه، این خیلی خنده دار است! دیشب خوب نخوابیدم | وای نه. چی شد؟ | من نمی دانم. به نظر نمی رسید یک جورهایی بخوابم، تمام شب مدام تکان می خوردم و می چرخیدم. | این خیلی بد است. شاید باید سعی کنید امشب زودتر بخوابید یا شاید بتوانید سعی کنید یک کتاب بخوانید. | بله، ممنون از پیشنهادات، امیدوارم حق با شما باشد. | مشکلی نیست امیدوارم یک شب راحت بخوابی
ورودی: اعلان صوتی

خروجی: فرمان صوتی + صدای تولید شده

طراحی SoundStorm

در کار قبلی خود در AudioLM، نشان دادیم که تولید صدا را می توان به دو مرحله تجزیه کرد: 1) مدل سازی معنایی، که نشانه های معنایی را از نشانه های معنایی قبلی یا یک سیگنال شرطی تولید می کند (به عنوان مثال، رونوشت مانند SPEAR-TTS، یا یک متن اعلان مانند MusicLM)، و 2) مدل‌سازی صوتی، که توکن‌های صوتی را از نشانه‌های معنایی تولید می‌کند. با SoundStorm ما به طور خاص به این مرحله دوم مدل‌سازی صوتی می‌پردازیم و رمزگشایی اتورگرسیو کندتر را با رمزگشایی موازی سریع‌تر جایگزین می‌کنیم.

SoundStorm متکی بر یک Conformer مبتنی بر توجه دو طرفه است، یک معماری مدل که یک ترانسفورماتور را با کانولوشن ترکیب می‌کند تا ساختار محلی و جهانی دنباله‌ای از نشانه‌ها را به تصویر بکشد. به طور خاص، این مدل برای پیش‌بینی نشانه‌های صوتی تولید شده توسط SoundStream با توجه به دنباله‌ای از نشانه‌های معنایی تولید شده توسط AudioLM به عنوان ورودی آموزش دیده است. هنگام انجام این کار، مهم است که این واقعیت را در نظر بگیرید که در هر مرحله زمانی تی، SoundStream تا س نشانه هایی برای نمایش صدا با استفاده از روشی به نام کوانتیزاسیون برداری باقیمانده (RVQ)، همانطور که در زیر در سمت راست نشان داده شده است. شهود کلیدی این است که کیفیت صدای بازسازی شده به تدریج افزایش می یابد زیرا تعداد توکن های تولید شده در هر مرحله از 1 به 1 می رسد. س.

در زمان استنتاج، با توجه به نشانه‌های معنایی به عنوان سیگنال شرطی‌سازی ورودی، SoundStorm با پوشاندن همه نشانه‌های صوتی شروع می‌شود و توکن‌های ماسک‌شده را در چندین تکرار پر می‌کند، از نشانه‌های درشت در سطح RVQ شروع می‌شود. q = 1 و سطح به سطح را با نشانه های ظریف تر تا رسیدن به سطح ادامه دهید q = Q.

دو جنبه حیاتی SoundStorm وجود دارد که تولید سریع را امکان‌پذیر می‌سازد: 1) توکن‌ها به‌طور موازی در طی یک تکرار واحد در سطح RVQ پیش‌بینی می‌شوند و، 2) معماری مدل به گونه‌ای طراحی شده است که پیچیدگی فقط به میزان خفیفی تحت تأثیر تعداد قرار می‌گیرد. از سطوح س. برای پشتیبانی از این طرح استنتاج، در طول آموزش از یک طرح پوششی با دقت طراحی شده برای تقلید از فرآیند تکراری استفاده شده در استنتاج استفاده می شود.

معماری مدل SoundStorm. تی تعداد مراحل زمانی و س تعداد سطوح RVQ استفاده شده توسط SoundStream. نشانه‌های معنایی که به عنوان شرطی‌سازی استفاده می‌شوند با فریم‌های SoundStream مطابق با زمان هستند.

اندازه گیری عملکرد SoundStorm

ما نشان می‌دهیم که SoundStorm با کیفیت مولد صوتی AudioLM مطابقت دارد و هر دو مرحله AudioLM (مدل آکوستیک درشت) و مرحله سه (مدل آکوستیک خوب) را جایگزین می‌کند. علاوه بر این، SoundStorm صدا را 100 برابر سریعتر از مولد آکوستیک سلسله مراتبی سلسله مراتبی AudioLM (نیمه بالا پایین) با کیفیت منطبق و سازگاری بهبود یافته از نظر هویت بلندگو و شرایط صوتی (نیمه پایین پایین) تولید می کند.

زمان‌های رمزگشایی SoundStream، SoundStorm و مراحل مختلف AudioLM در TPU-v4.
سازگاری صوتی بین صدای اعلان و تولید شده. ناحیه سایه دار محدوده بین چارکی را نشان می دهد.

ایمنی و کاهش خطر

ما تصدیق می‌کنیم که نمونه‌های صوتی تولید شده توسط مدل ممکن است تحت تأثیر سوگیری‌های ناعادلانه موجود در داده‌های آموزشی قرار گیرند، به عنوان مثال از نظر لهجه‌ها و ویژگی‌های صدا. در نمونه‌های تولید شده خود، نشان می‌دهیم که می‌توانیم به طور قابل اعتماد و مسئولانه ویژگی‌های بلندگو را از طریق درخواست کنترل کنیم، با هدف اجتناب از تعصبات ناعادلانه. تجزیه و تحلیل کامل هر گونه داده آموزشی و محدودیت های آن حوزه ای از کار آینده در راستای اصول هوش مصنوعی مسئول ما است.

به نوبه خود، توانایی تقلید یک صدا می تواند کاربردهای مخرب متعددی داشته باشد، از جمله دور زدن شناسایی بیومتریک و استفاده از مدل به منظور جعل هویت. بنابراین، بسیار مهم است که تدابیری را در برابر سوء استفاده احتمالی ایجاد کنیم: برای این منظور، ما تأیید کرده‌ایم که صدای تولید شده توسط SoundStorm توسط طبقه‌بندی‌کننده اختصاصی با استفاده از همان طبقه‌بندی‌کننده‌ای که در مقاله اصلی AudioLM ما توضیح داده شده، قابل تشخیص است. از این رو، به عنوان جزئی از یک سیستم بزرگتر، ما معتقدیم که SoundStorm بعید است خطرات اضافی را برای مواردی که در مقالات قبلی ما در AudioLM و SPEAR-TTS مورد بحث قرار گرفت، معرفی کند. در عین حال، آرام کردن حافظه و نیازهای محاسباتی AudioLM می‌تواند تحقیقات در حوزه تولید صدا را برای جامعه وسیع‌تری قابل دسترس‌تر کند. در آینده، ما قصد داریم روش‌های دیگری را برای تشخیص گفتار سنتز شده، به عنوان مثال، با کمک واترمارک صوتی، بررسی کنیم تا هرگونه استفاده بالقوه محصول از این فناوری به شدت از اصول هوش مصنوعی ما پیروی کند.

نتیجه

ما SoundStorm را معرفی کرده‌ایم، مدلی که می‌تواند به طور موثر صدای با کیفیت بالا را از توکن‌های شرطی‌سازی گسسته ترکیب کند. در مقایسه با مولد صوتی AudioLM، SoundStorm دو مرتبه سریع‌تر است و هنگام تولید نمونه‌های صوتی طولانی، ثبات زمانی بالاتری به دست می‌آورد. با ترکیب یک مدل نشانه متن به معنایی مشابه SPEAR-TTS با SoundStorm، می‌توانیم سنتز متن به گفتار را در زمینه‌های طولانی‌تر مقیاس‌بندی کنیم و دیالوگ‌های طبیعی را با چرخش‌های متعدد گوینده ایجاد کنیم، و هم صدای گویندگان و هم محتوای تولید شده را کنترل کنیم. . SoundStorm به تولید گفتار محدود نمی شود. به عنوان مثال، MusicLM از SoundStorm برای ترکیب خروجی های طولانی تر به طور موثر استفاده می کند (همانطور که در I/O مشاهده می شود).

قدردانی

اثری که در اینجا توضیح داده شده توسط زالان بورسوس، مت شریفی، دیمین وینسنت، یوجین خاریتونوف، نیل زگیدور و مارکو تالیاساکی نوشته شده است. ما از همه بحث ها و بازخوردهایی که در مورد این کار از همکاران خود در Google دریافت کردیم سپاسگزاریم.