تولید صدای واقعی نیازمند مدل سازی اطلاعات است که در مقیاس های مختلف نمایش داده می شود. برای مثال، همانطور که موسیقی عبارات پیچیده موسیقایی را از نتهای فردی میسازد، گفتار ساختارهای زمانی محلی، مانند واجها یا هجاها را در کلمات و جملات ترکیب میکند. ایجاد توالیهای صوتی با ساختار و منسجم در همه این مقیاسها چالشی است که با جفت کردن صدا با رونویسیهایی که میتوانند فرآیند تولید را هدایت کنند، چه رونوشتهای متنی برای سنتز گفتار یا نمایشهای MIDI برای پیانو، برطرف شده است. با این حال، این رویکرد هنگام تلاش برای مدلسازی جنبههای رونویسی نشده صدا، مانند ویژگیهای بلندگو که برای کمک به افراد مبتلا به اختلالات گفتاری لازم است، صدای خود را بازیابی کنند یا اجزای سبکی اجرای پیانو، شکسته میشود.
در «AudioLM: رویکرد مدلسازی زبان برای تولید صدا»، چارچوب جدیدی برای تولید صدا پیشنهاد میکنیم که یاد میگیرد گفتار واقعی و موسیقی پیانو را فقط با گوش دادن به صدا تولید کند. صدای تولید شده توسط AudioLM سازگاری طولانی مدت (مانند نحو در گفتار، ملودی در موسیقی) و وفاداری بالا را نشان می دهد، از سیستم های قبلی بهتر عمل می کند و مرزهای تولید صدا را با برنامه های کاربردی در سنتز گفتار یا موسیقی به کمک رایانه پیش می برد. با پیروی از اصول هوش مصنوعی خود، مدلی را نیز برای شناسایی صدای مصنوعی تولید شده توسط AudioLM ایجاد کرده ایم.
از مدل های زبان متنی تا صوتی
در سالهای اخیر، مدلهای زبانی که بر روی مجموعههای متنی بسیار بزرگ آموزش دیدهاند، تواناییهای مولد استثنایی خود را نشان دادهاند، از گفتگوی باز تا ترجمه ماشینی یا حتی استدلال عقل سلیم. آنها همچنین ظرفیت خود را برای مدلسازی سیگنالهای دیگر به جز متون، مانند تصاویر طبیعی نشان دادهاند. شهود کلیدی پشت AudioLM این است که از چنین پیشرفتهایی در مدلسازی زبان برای تولید صدا بدون آموزش دادههای حاشیهنویسی استفاده کند.
با این حال، هنگام انتقال از مدلهای زبان متنی به مدلهای زبان صوتی، باید به برخی از چالشها پرداخت. اول، باید با این واقعیت کنار آمد که نرخ داده برای صدا به طور قابل توجهی بالاتر است، بنابراین منجر به توالی های بسیار طولانی تر می شود – در حالی که یک جمله نوشته شده را می توان با چند ده کاراکتر نشان داد، شکل موج صوتی آن معمولاً شامل صدها هزار مقدار است. دوم، یک رابطه یک به چند بین متن و صدا وجود دارد. این به این معنی است که یک جمله می تواند توسط گویندگان مختلف با سبک های گفتاری، محتوای احساسی و شرایط ضبط متفاوت ارائه شود.
برای غلبه بر هر دو چالش، AudioLM از دو نوع نشانه صوتی استفاده می کند. اولین، نشانه های معنایی از w2v-BERT، یک مدل صوتی تحت نظارت خود استخراج شده اند. این نشانهها هم وابستگیهای محلی (مثلاً آوایی در گفتار، ملودی محلی در موسیقی پیانو) و هم ساختار بلندمدت جهانی (مانند نحو زبان و محتوای معنایی در گفتار، هارمونی و ریتم در موسیقی پیانو) را در نظر میگیرند، در حالی که به شدت سیگنال صوتی را کاهش میدهند. تا امکان مدل سازی توالی های طولانی فراهم شود.
با این حال، صدای بازسازی شده از این نشانه ها وفاداری ضعیفی را نشان می دهد. برای غلبه بر این محدودیت، علاوه بر نشانه های معنایی، به آن ها نیز تکیه می کنیم توکن های صوتی تولید شده توسط یک کدک عصبی SoundStream، که جزئیات شکل موج صوتی (مانند ویژگی های بلندگو یا شرایط ضبط) را ثبت می کند و امکان سنتز با کیفیت بالا را فراهم می کند. آموزش سیستمی برای تولید نشانه های معنایی و صوتی به طور همزمان به کیفیت صوتی بالا و ثبات طولانی مدت منجر می شود.
آموزش یک مدل زبان فقط صوتی
AudioLM یک مدل صوتی خالص است که بدون هیچ متن یا نمایش نمادین موسیقی آموزش داده شده است. AudioLM یک دنباله صوتی را به صورت سلسله مراتبی، از نشانه های معنایی گرفته تا نشانه های صوتی ظریف، با زنجیر کردن چندین مدل Transformer، یکی برای هر مرحله، مدل می کند. هر مرحله برای پیشبینی رمز بعدی بر اساس نشانههای گذشته آموزش داده میشود، همانطور که یک مدل زبان متن را آموزش میدهیم. مرحله اول این کار را بر روی نشانه های معنایی انجام می دهد تا ساختار سطح بالای دنباله صوتی را مدل کند.
در مرحله دوم، کل دنباله نشانه معنایی را به همراه نشانه های آکوستیک درشت گذشته به هم متصل می کنیم و هر دو را به عنوان شرطی سازی به مدل آکوستیک درشت تغذیه می کنیم، که سپس نشانه های آینده را پیش بینی می کند. این مرحله ویژگی های آکوستیک مانند ویژگی های بلندگو در گفتار یا تایم در موسیقی را مدل می کند.
در مرحله سوم، توکن های آکوستیک درشت را با مدل آکوستیک خوب پردازش می کنیم که جزئیات بیشتری را به صدای نهایی اضافه می کند. در نهایت، ما توکنهای صوتی را به رمزگشای SoundStream میدهیم تا یک شکل موج را بازسازی کنیم.
پس از آموزش، میتوان AudioLM را روی چند ثانیه صدا شرطی کرد، که به آن امکان میدهد ادامه ثابتی ایجاد کند. به منظور نشان دادن کاربرد کلی چارچوب AudioLM، دو وظیفه از حوزه های صوتی مختلف را در نظر می گیریم:
- ادامه سخنرانی، جایی که انتظار می رود مدل ویژگی های سخنران، عروض و شرایط ضبط اعلان را حفظ کند و در عین حال محتوای جدیدی تولید کند که از نظر نحوی صحیح و از نظر معنایی سازگار باشد.
- ادامه پیانو، جایی که از مدل انتظار می رود موسیقی پیانویی تولید کند که از نظر ملودی، هارمونی و ریتم با آهنگ هماهنگ باشد.
در ویدیوی زیر میتوانید به نمونههایی گوش دهید که از مدل خواسته میشود به گفتار یا موسیقی ادامه دهد و محتوای جدیدی تولید کند که در طول آموزش دیده نشده است. در حین گوش دادن، توجه داشته باشید که هر چیزی که بعد از خط عمودی خاکستری می شنوید توسط AudioLM ایجاد شده است و این مدل هرگز متن یا رونویسی موسیقی ندیده است، بلکه فقط از صدای خام یاد گرفته است. نمونه های بیشتری را در این صفحه وب منتشر می کنیم.
برای تأیید نتایج خود، از ارزیابهای انسانی خواستیم که به کلیپهای صوتی کوتاه گوش دهند و تصمیم بگیرند که آیا این یک ضبط اصلی از گفتار انسان است یا یک ادامه مصنوعی تولید شده توسط AudioLM. بر اساس رتبهبندیهای جمعآوریشده، ما نرخ موفقیت 51.2٪ را مشاهده کردیم که از نظر آماری تفاوت معنیداری با نرخ موفقیت 50٪ بهدستآمده در هنگام تخصیص برچسبها بهطور تصادفی ندارد. این بدان معنی است که گفتار تولید شده توسط AudioLM برای شنونده معمولی به سختی از گفتار واقعی تشخیص داده می شود.
کار ما روی AudioLM برای اهداف تحقیقاتی است و در حال حاضر برنامهای برای انتشار گستردهتر آن نداریم. در راستای اصول هوش مصنوعی خود، ما به دنبال درک و کاهش این احتمال بودیم که افراد بتوانند نمونههای گفتار کوتاهی را که توسط AudioLM ترکیب شدهاند به عنوان گفتار واقعی تفسیر کنند. برای این منظور، طبقهبندیکنندهای را آموزش دادیم که میتواند گفتار مصنوعی تولید شده توسط AudioLM را با دقت بسیار بالا (98.6٪) تشخیص دهد. این نشان می دهد که علیرغم اینکه برای برخی شنوندگان (تقریباً) قابل تشخیص نیستند، ادامه تولید شده توسط AudioLM با یک طبقه بندی کننده صوتی ساده بسیار آسان است. این اولین گام بسیار مهم برای کمک به محافظت در برابر سوء استفاده بالقوه از AudioLM است، با تلاشهای آتی که به طور بالقوه به بررسی فناوریهایی مانند «واترمارک» صوتی میپردازند.
نتیجه
ما AudioLM را معرفی میکنیم، یک رویکرد مدلسازی زبان برای تولید صدا که هم انسجام طولانیمدت و هم کیفیت صدای بالا را ارائه میکند. آزمایشها بر روی تولید گفتار نه تنها نشان میدهند که AudioLM میتواند گفتار منسجم نحوی و معنایی را بدون هیچ متنی تولید کند، بلکه ادامههای تولید شده توسط مدل تقریباً از گفتار واقعی انسان قابل تشخیص نیستند. علاوه بر این، AudioLM فراتر از گفتار است و می تواند سیگنال های صوتی دلخواه مانند موسیقی پیانو را مدل کند. این امر توسعههای آینده را برای انواع دیگر صدا (مانند گفتار چند زبانه، موسیقی چندصدایی و رویدادهای صوتی) و همچنین ادغام AudioLM در چارچوب رمزگذار-رمزگشا برای کارهای شرطی مانند تبدیل متن به گفتار یا گفتار به گفتار تشویق میکند. ترجمه
قدردانی
اثری که در اینجا توضیح داده شده توسط زالان بورسوس، رافائل مارینیر، دیمین وینسنت، یوجین خاریتونوف، اولیویه پیتکوین، مت شریفی، اولیویه تبول، دیوید گرانژیر، مارکو تالیاساکی و نیل زگیدور نوشته شده است. ما از همه بحث ها و بازخوردهایی که در مورد این کار از همکاران خود در Google دریافت کردیم سپاسگزاریم.