گوگل در Interspeech 2023 – وبلاگ تحقیقاتی گوگل

این هفته، بیست و چهارمین کنفرانس سالانه انجمن بین المللی ارتباطات گفتار (INTERSPEECH 2023) در دوبلین ایرلند برگزار می شود که یکی از گسترده ترین کنفرانس های جهان در زمینه تحقیق و فناوری درک و پردازش زبان گفتاری است. کارشناسان در زمینه های تحقیقاتی مرتبط با گفتار برای شرکت در ارائه های شفاهی و جلسات پوستر و ایجاد همکاری در سراسر جهان گرد هم می آیند.

ما هیجان زده هستیم که یک حامی پلاتینی INTERSPEECH 2023، جایی که ما بیش از 20 نشریه تحقیقاتی را به نمایش خواهیم گذاشت و از تعدادی کارگاه آموزشی و جلسات ویژه حمایت خواهیم کرد. از شرکت‌کنندگان حضوری استقبال می‌کنیم که برای ملاقات با محققان ما به غرفه Google Research مراجعه کنند و در پرسش و پاسخ و نمایش برخی از آخرین فناوری‌های گفتاری ما شرکت کنند، که به بهبود دسترسی و ایجاد راحتی در ارتباطات برای میلیاردها کاربر کمک می‌کند. علاوه بر این، شرکت‌کنندگان آنلاین تشویق می‌شوند از غرفه مجازی ما در Topia دیدن کنند، جایی که می‌توانید اطلاعات به‌روز درباره تحقیقات و فرصت‌های Google را دریافت کنید. بازدید کنید @GoogleAI حساب توییتر برای اطلاع از فعالیت های غرفه گوگل (به عنوان مثال، دموها و جلسات پرسش و پاسخ). همچنین می‌توانید درباره تحقیقات Google ارائه شده در INTERSPEECH 2023 در زیر اطلاعات بیشتری کسب کنید (وابسته‌های Google در پررنگ).

هیئت مدیره و کمیته سازماندهی

هیئت مدیره ISCA، رئیس کمیته فنی: بووانا رام بادران

صندلی های منطقه شامل:
تجزیه و تحلیل سیگنال های گفتاری و صوتی: ریچارد رز
سنتز گفتار و تولید زبان گفتاری: راب کلارک
مناطق ویژه: تارا سایناث

رویدادهای ماهواره ای

سخنرانی اصلی – برنده مدال ISCA

بحث نظرسنجی

فشرده سازی گفتار در عصر هوش مصنوعی
بلندگو: جان اسکوگلند

مقالات جلسه ویژه

رمزگذارهای آبشاری برای تنظیم دقیق مدل‌های ASR در گفتار همپوشانی
ریچارد رز، اسکار چانگ، اولیویه سیوهان

TokenSplit: استفاده از بازنمایی‌های گفتار گسسته برای جداسازی و تشخیص گفتار مستقیم، اصلاح‌شده و مشروط با رونوشت
هاکان اردوغان، اسکات ویزدمژوانکای چانگ*، زالان بورسوس، مارکو تالیاساکی، نیل زغیدور، جان آر. هرشی

اوراق

DeePMOS: میانگین پسین عمیق-نظر-امتیاز گفتار
شینیو لیانگ، فردریک کاملین، کریستین شولدسایکات چاترجی

O-1: خودآموزی با اوراکل و 1-بهترین فرضیه
مورالی کارتیک بسکار، اندرو روزنبرگ، بووانا رام بادران، کارتیک اودهخاسی

بررسی مجدد مدل پایه یادگیری انتقال کارآمد گفتار با استفاده از روش‌های فیچر فیوژن
ژویوان هوو، خ چای سیم، دونگ سونگ هوانگ، تسندسورن منخدالایی، Tara N. Sainath، پدرو مورنو

MOS در مقابل AB: ارزیابی مطمئن سیستم‌های تبدیل متن به گفتار با استفاده از خطاهای استاندارد خوشه‌ای
جاشوا کمپ، تام کنتر، لو فینکلشتاین، راب کلارک

LanSER: زبان-مدل پشتیبانی از تشخیص احساسات گفتار
تائیسیک گونگ، جاش بلانیچ، کریشنا سوماندپالی، ارشا نگارانی، برایان ایوف، برندن تو

تطبیق دامنه مدولار برای جریان ASR مبتنی بر Conformer
کیوجیا لی، بو لی، دونگ سونگ هوانگ، Tara N. Sainath، پدرو ام. بالابر

در مورد آموزش یک سرکوبگر اکو آکوستیک باقیمانده عصبی برای بهبود ASR
سانکاران پنچاپازان، تورج زکی زاده شبستری، آرون نارایانان

MD3: مجموعه داده‌های چند گویش‌ای دیالوگ‌ها
یاکوب آیزنشتاین، وینود کومار پرابهاکاران، کلارا ریورا، دوروتیا دمزکی، دویان شارما

NAM دو حالته: تزریق متن Top-K موثر برای ASR انتها به انتها
زلین وو، تسندسورن منخدالایی، پت روندون، شانه های جولان، خ چای سیم، کریستوفر لی

استفاده از تزریق متن برای بهبود تشخیص شناسه های شخصی در گفتار
یوچای بلاو، روهان آگراوال، لیور مدمونی، گری وانگ، اندرو روزنبرگ، ژهوای چن، زوریک گخمان، گنادی بریوزکین، پریسا حقانی، بووانا رام بادران

چگونه می توان قابلیت انتقال مدل مدل های گفتاری از پیش آموزش دیده را تخمین زد؟
Zih-Ching Chen، Chao-Han Huck Yang*، بو لی، یو ژانگ، نانشین چن، شو یین چانگ، روهیت پرابهاوالکار، هونگ یی لی، تارا ن. سایناث

بهبود بازنمایی مشترک گفتار-متن بدون تراز
کال پیسر، ژونگ منگ، کهو، روهیت پرابهاوالکار، اندرو روزنبرگ، تارا ن. سایناث، مایکل پیچنی، کیونگهیون چو

تزریق متن برای حروف بزرگ و پیش‌بینی نوبتی در مدل‌های گفتاری
شان بیجوادیه، شو یین چانگ، ویران وانگ، ژونگ منگ، هائو ژانگ، تارا ن. سایناث

پخش جریانی Parrotron برای تبدیل گفتار به گفتار روی دستگاه
اولگ ریباکوف، فادی بیادسی، شیا ژانگ، لیانگ جیانگ، فینیکس میدولارک، شیوانی آگراوال

تقسیم بندی معنایی با مدل های زبان دو جهته، ASR طولانی را بهبود می بخشد
دبلیو رونی هوانگ، هائو ژانگ، شانکار کومار، شو یین چانگ، Tara N. Sainath

رونویسی خودکار آوایی جهانی به الفبای آوایی بین المللی
چیهیرو تاگوچی، یوسوکه ساکای، پریسا حقانی، دیوید چیانگ

Conformer مخلوطی از متخصص برای پخش جریانی ASR چند زبانه
کهو، بو لی، Tara N. Sainath، یو ژانگ، فرانسوا بیوفیس

وارونگی طیف نگاری زمان واقعی در تلفن همراه
اولگ ریباکوف، مارکو تالیاساکی، یونپنگ لی، لیانگ جیانگ، شیا ژانگ، فادی بیادسی

کوانتیزه کنفورمر 2 بیتی برای تشخیص خودکار گفتار
اولگ ریباکوف، فینیکس میدولارک، شائوجین دینگ، دیوید کیو، جیان لی، دیوید ریم، یانژانگ او

LibriTTS-R: یک مجموعه متن به گفتار چند بلندگوی بازیابی شده
یوما کویزومی، هیگا ذن، شیگکی کاریتا، یفان دینگ، کوهی یاتابه، نوبویوکی موریوکا، میشل باکیانی، یو ژانگ، وی هان، انکور باپنا

PronScribe: رونویسی آوایی چندوجهی بسیار دقیق از گفتار و متن
یانگ یومتیو پرز*، انکور باپنا، فادی هایک، سیامک تزاری، یو ژانگ

برچسب آموزش بازنمایی گفتار آگاهانه برای شناسایی زبان
شیخار وشیشت، شيخار بهاردواج، سریرام گاناپاتی، انکور باپنا، مین مامان، وی هان، ورا اکسلرود، پارتا تالوکدار


* کار در Google انجام شد

سئو PBN | خبر های جدید سئو و هک و سرور