یک رویکرد مدلسازی زبان برای تولید صدا

تولید صدای واقعی نیازمند مدل سازی اطلاعات است که در مقیاس های مختلف نمایش داده می شود. برای مثال، همانطور که موسیقی عبارات پیچیده موسیقایی را از نت‌های فردی می‌سازد، گفتار ساختارهای زمانی محلی، مانند واج‌ها یا هجاها را در کلمات و جملات ترکیب می‌کند. ایجاد توالی‌های صوتی با ساختار و منسجم در همه این مقیاس‌ها چالشی است که با جفت کردن صدا با رونویسی‌هایی که می‌توانند فرآیند تولید را هدایت کنند، چه رونوشت‌های متنی برای سنتز گفتار یا نمایش‌های MIDI برای پیانو، برطرف شده است. با این حال، این رویکرد هنگام تلاش برای مدل‌سازی جنبه‌های رونویسی نشده صدا، مانند ویژگی‌های بلندگو که برای کمک به افراد مبتلا به اختلالات گفتاری لازم است، صدای خود را بازیابی کنند یا اجزای سبکی اجرای پیانو، شکسته می‌شود.

در «AudioLM: رویکرد مدل‌سازی زبان برای تولید صدا»، چارچوب جدیدی برای تولید صدا پیشنهاد می‌کنیم که یاد می‌گیرد گفتار واقعی و موسیقی پیانو را فقط با گوش دادن به صدا تولید کند. صدای تولید شده توسط AudioLM سازگاری طولانی مدت (مانند نحو در گفتار، ملودی در موسیقی) و وفاداری بالا را نشان می دهد، از سیستم های قبلی بهتر عمل می کند و مرزهای تولید صدا را با برنامه های کاربردی در سنتز گفتار یا موسیقی به کمک رایانه پیش می برد. با پیروی از اصول هوش مصنوعی خود، مدلی را نیز برای شناسایی صدای مصنوعی تولید شده توسط AudioLM ایجاد کرده ایم.

از مدل های زبان متنی تا صوتی
در سال‌های اخیر، مدل‌های زبانی که بر روی مجموعه‌های متنی بسیار بزرگ آموزش دیده‌اند، توانایی‌های مولد استثنایی خود را نشان داده‌اند، از گفتگوی باز تا ترجمه ماشینی یا حتی استدلال عقل سلیم. آنها همچنین ظرفیت خود را برای مدل‌سازی سیگنال‌های دیگر به جز متون، مانند تصاویر طبیعی نشان داده‌اند. شهود کلیدی پشت AudioLM این است که از چنین پیشرفت‌هایی در مدل‌سازی زبان برای تولید صدا بدون آموزش داده‌های حاشیه‌نویسی استفاده کند.

با این حال، هنگام انتقال از مدل‌های زبان متنی به مدل‌های زبان صوتی، باید به برخی از چالش‌ها پرداخت. اول، باید با این واقعیت کنار آمد که نرخ داده برای صدا به طور قابل توجهی بالاتر است، بنابراین منجر به توالی های بسیار طولانی تر می شود – در حالی که یک جمله نوشته شده را می توان با چند ده کاراکتر نشان داد، شکل موج صوتی آن معمولاً شامل صدها هزار مقدار است. دوم، یک رابطه یک به چند بین متن و صدا وجود دارد. این به این معنی است که یک جمله می تواند توسط گویندگان مختلف با سبک های گفتاری، محتوای احساسی و شرایط ضبط متفاوت ارائه شود.

برای غلبه بر هر دو چالش، AudioLM از دو نوع نشانه صوتی استفاده می کند. اولین، نشانه های معنایی از w2v-BERT، یک مدل صوتی تحت نظارت خود استخراج شده اند. این نشانه‌ها هم وابستگی‌های محلی (مثلاً آوایی در گفتار، ملودی محلی در موسیقی پیانو) و هم ساختار بلندمدت جهانی (مانند نحو زبان و محتوای معنایی در گفتار، هارمونی و ریتم در موسیقی پیانو) را در نظر می‌گیرند، در حالی که به شدت سیگنال صوتی را کاهش می‌دهند. تا امکان مدل سازی توالی های طولانی فراهم شود.

با این حال، صدای بازسازی شده از این نشانه ها وفاداری ضعیفی را نشان می دهد. برای غلبه بر این محدودیت، علاوه بر نشانه های معنایی، به آن ها نیز تکیه می کنیم توکن های صوتی تولید شده توسط یک کدک عصبی SoundStream، که جزئیات شکل موج صوتی (مانند ویژگی های بلندگو یا شرایط ضبط) را ثبت می کند و امکان سنتز با کیفیت بالا را فراهم می کند. آموزش سیستمی برای تولید نشانه های معنایی و صوتی به طور همزمان به کیفیت صوتی بالا و ثبات طولانی مدت منجر می شود.

آموزش یک مدل زبان فقط صوتی
AudioLM یک مدل صوتی خالص است که بدون هیچ متن یا نمایش نمادین موسیقی آموزش داده شده است. AudioLM یک دنباله صوتی را به صورت سلسله مراتبی، از نشانه های معنایی گرفته تا نشانه های صوتی ظریف، با زنجیر کردن چندین مدل Transformer، یکی برای هر مرحله، مدل می کند. هر مرحله برای پیش‌بینی رمز بعدی بر اساس نشانه‌های گذشته آموزش داده می‌شود، همانطور که یک مدل زبان متن را آموزش می‌دهیم. مرحله اول این کار را بر روی نشانه های معنایی انجام می دهد تا ساختار سطح بالای دنباله صوتی را مدل کند.

در مرحله دوم، کل دنباله نشانه معنایی را به همراه نشانه های آکوستیک درشت گذشته به هم متصل می کنیم و هر دو را به عنوان شرطی سازی به مدل آکوستیک درشت تغذیه می کنیم، که سپس نشانه های آینده را پیش بینی می کند. این مرحله ویژگی های آکوستیک مانند ویژگی های بلندگو در گفتار یا تایم در موسیقی را مدل می کند.

در مرحله سوم، توکن های آکوستیک درشت را با مدل آکوستیک خوب پردازش می کنیم که جزئیات بیشتری را به صدای نهایی اضافه می کند. در نهایت، ما توکن‌های صوتی را به رمزگشای SoundStream می‌دهیم تا یک شکل موج را بازسازی کنیم.

پس از آموزش، می‌توان AudioLM را روی چند ثانیه صدا شرطی کرد، که به آن امکان می‌دهد ادامه ثابتی ایجاد کند. به منظور نشان دادن کاربرد کلی چارچوب AudioLM، دو وظیفه از حوزه های صوتی مختلف را در نظر می گیریم:

  • ادامه سخنرانی، جایی که انتظار می رود مدل ویژگی های سخنران، عروض و شرایط ضبط اعلان را حفظ کند و در عین حال محتوای جدیدی تولید کند که از نظر نحوی صحیح و از نظر معنایی سازگار باشد.
  • ادامه پیانو، جایی که از مدل انتظار می رود موسیقی پیانویی تولید کند که از نظر ملودی، هارمونی و ریتم با آهنگ هماهنگ باشد.

در ویدیوی زیر می‌توانید به نمونه‌هایی گوش دهید که از مدل خواسته می‌شود به گفتار یا موسیقی ادامه دهد و محتوای جدیدی تولید کند که در طول آموزش دیده نشده است. در حین گوش دادن، توجه داشته باشید که هر چیزی که بعد از خط عمودی خاکستری می شنوید توسط AudioLM ایجاد شده است و این مدل هرگز متن یا رونویسی موسیقی ندیده است، بلکه فقط از صدای خام یاد گرفته است. نمونه های بیشتری را در این صفحه وب منتشر می کنیم.

برای تأیید نتایج خود، از ارزیاب‌های انسانی خواستیم که به کلیپ‌های صوتی کوتاه گوش دهند و تصمیم بگیرند که آیا این یک ضبط اصلی از گفتار انسان است یا یک ادامه مصنوعی تولید شده توسط AudioLM. بر اساس رتبه‌بندی‌های جمع‌آوری‌شده، ما نرخ موفقیت 51.2٪ را مشاهده کردیم که از نظر آماری تفاوت معنی‌داری با نرخ موفقیت 50٪ به‌دست‌آمده در هنگام تخصیص برچسب‌ها به‌طور تصادفی ندارد. این بدان معنی است که گفتار تولید شده توسط AudioLM برای شنونده معمولی به سختی از گفتار واقعی تشخیص داده می شود.

کار ما روی AudioLM برای اهداف تحقیقاتی است و در حال حاضر برنامه‌ای برای انتشار گسترده‌تر آن نداریم. در راستای اصول هوش مصنوعی خود، ما به دنبال درک و کاهش این احتمال بودیم که افراد بتوانند نمونه‌های گفتار کوتاهی را که توسط AudioLM ترکیب شده‌اند به عنوان گفتار واقعی تفسیر کنند. برای این منظور، طبقه‌بندی‌کننده‌ای را آموزش دادیم که می‌تواند گفتار مصنوعی تولید شده توسط AudioLM را با دقت بسیار بالا (98.6٪) تشخیص دهد. این نشان می دهد که علیرغم اینکه برای برخی شنوندگان (تقریباً) قابل تشخیص نیستند، ادامه تولید شده توسط AudioLM با یک طبقه بندی کننده صوتی ساده بسیار آسان است. این اولین گام بسیار مهم برای کمک به محافظت در برابر سوء استفاده بالقوه از AudioLM است، با تلاش‌های آتی که به طور بالقوه به بررسی فناوری‌هایی مانند «واترمارک» صوتی می‌پردازند.

نتیجه
ما AudioLM را معرفی می‌کنیم، یک رویکرد مدل‌سازی زبان برای تولید صدا که هم انسجام طولانی‌مدت و هم کیفیت صدای بالا را ارائه می‌کند. آزمایش‌ها بر روی تولید گفتار نه تنها نشان می‌دهند که AudioLM می‌تواند گفتار منسجم نحوی و معنایی را بدون هیچ متنی تولید کند، بلکه ادامه‌های تولید شده توسط مدل تقریباً از گفتار واقعی انسان قابل تشخیص نیستند. علاوه بر این، AudioLM فراتر از گفتار است و می تواند سیگنال های صوتی دلخواه مانند موسیقی پیانو را مدل کند. این امر توسعه‌های آینده را برای انواع دیگر صدا (مانند گفتار چند زبانه، موسیقی چندصدایی و رویدادهای صوتی) و همچنین ادغام AudioLM در چارچوب رمزگذار-رمزگشا برای کارهای شرطی مانند تبدیل متن به گفتار یا گفتار به گفتار تشویق می‌کند. ترجمه

قدردانی
اثری که در اینجا توضیح داده شده توسط زالان بورسوس، رافائل مارینیر، دیمین وینسنت، یوجین خاریتونوف، اولیویه پیتکوین، مت شریفی، اولیویه تبول، دیوید گرانژیر، مارکو تالیاساکی و نیل زگیدور نوشته شده است. ما از همه بحث ها و بازخوردهایی که در مورد این کار از همکاران خود در Google دریافت کردیم سپاسگزاریم.

سئو PBN | خبر های جدید سئو و هک و سرور