چگونه گوگل این ویژگی را ایجاد کرد

این تیم کار بر روی صدای تطبیقی ​​را پس از اینکه جهان به دلیل همه گیری همه گیر به ویدئو کنفرانس و در نهایت کار هیبریدی روی آورد، شروع کرد. در آن زمان، به دلیل کمبود زنجیره تامین، به‌دست آوردن سخت‌افزار جدید اتاق جلسه چالش برانگیز بود. Huib می‌گوید: «به‌علاوه، بسیاری از سازمان‌ها اتاق‌های کنفرانس ویدیویی کافی برای شروع نداشتند، یا منابع لازم برای تجهیزات اختصاصی اتاق جلسه را نداشتند».

تیم ها باید بتوانند فضاهای ملاقات موقت و بدون ازدحام در اطراف یک لپ تاپ واحد ایجاد کنند. اما ایجاد امکان پیوستن به همه از دستگاه‌های خود و در عین حال خاموش کردن «فریادها» بسیار سخت‌تر از آن چیزی است که به نظر می‌رسد.

“تنظیم صوتی سینما را تصور کنید. شما چندین بلندگو در اطراف خود دارید، و این یک تجربه صوتی خوب است، زیرا همه آنها به یک منبع صدا متصل هستند، بنابراین در یک هماهنگی مورد نظر پخش می شوند. اکنون، اگر چندین دستگاه در اتاق داشته باشید که یک صدا را بدون همگام سازی پخش می کنند، وحشتناک به نظر می رسد. شما چندین کپی از یک صدا دریافت می کنید – مثل اینکه در یک کلیسای جامع بزرگ ایستاده اید. و به همین ترتیب، وقتی در اتاقی با چندین میکروفون در دستگاه‌های مختلف صحبت می‌کنید، صدا را همزمان دریافت می‌کنند، اما در یک ساعت نیستند.

سپس مشکل اکو وجود دارد. احتمالاً متوجه شده اید که گاهی اوقات در هنگام استفاده از ابزار کنفرانس ویدیویی پژواک صدای خود را دریافت می کنید. هنریک می‌گوید: «دلیل اینکه شما همیشه آن را دریافت نمی‌کنید این است که دستگاه‌هایی که جلسات را اجرا می‌کنند دارای یک لغو اکو در داخل هستند». این یک الگوریتم پردازش سیگنال است که سعی می‌کند بفهمد کدام قسمت از صدای سیگنال میکروفون از بلندگوهای همان دستگاه می‌آید و کدام قسمت آن صدای شماست. وقتی چندین لپ‌تاپ در یک اتاق دارید که صدا را پخش می‌کنند و میکروفون‌های یکدیگر را تغذیه می‌کنند، ۱۰ برابر سخت‌تر می‌شود.

برای حل این معمای صوتی، تیم زمان زیادی را صرف کردند تا در یک اتاق قرار بگیرند و بفهمند چگونه لپ‌تاپ‌هایشان را بفهمند که در کنار یکدیگر هستند. در ابتدا، آنها پیوستن افراد به گروه های از پیش تعیین شده خاص در جلسه را آزمایش کردند. هنریک می‌گوید: «این آشکارا مستعد خطا بود، اما به ما کمک کرد تا تجربه همگام‌سازی همه میکروفون‌ها و بلندگوهای لپ‌تاپ را آزمایش کنیم.»

سپس از سونوگرافی استفاده کردند. با انتشار صداهای با فرکانس بالا غیرقابل تشخیص برای گوش انسان، لپ‌تاپ‌ها می‌توانند حضور لپ‌تاپ‌های دیگر را در مجاورت نزدیک تشخیص دهند و به عنوان یک گروه شروع به کار کنند. این امر نیاز کاربران را به پیکربندی دستی دستگاه‌های خود یا انتخاب اتاقی که در آن بودند، از بین می‌برد. «اما این واقعاً مشکل بود، زیرا اولتراسوند باید به طور قابل اعتماد روی هر دستگاهی کار کند، و اگر صدا از اتاق بعدی نشت کند، دقیق باشد.» هنریک می گوید در، نباید فکر کند که در یک اتاق هستید. این تیم نوع جدیدی از اولتراسوند را برای افزایش دقت انتخاب کردند و فرکانس و حجم صدا را برای بهینه سازی دسترسی بدون شنیدن تنظیم کردند.

هنگامی که Meet تشخیص داد چندین لپ‌تاپ وجود دارد، صدای تطبیقی ​​به‌طور خودکار فعال می‌شود و همه میکروفون‌ها و بلندگوهای لپ‌تاپ را بدون خاموش کردن بلندگوها همگام‌سازی می‌کند. بسته به اینکه چه کسی صحبت می کند بین میکروفون ها جابجا می شود تا از بازخورد و اکو جلوگیری کند. علاوه بر این، Meet از پردازش باطن و حذف‌کننده ابر برای بهبود کیفیت صدا و حذف نویز پس‌زمینه قبل از انتقال صدا به سایر شرکت‌کنندگان استفاده می‌کند.

در سرتاسر Google، جلسات هر روز قبلاً از صدای تطبیقی ​​استفاده می‌کنند – بسیاری از شرکت‌کنندگان حتی متوجه این موضوع نمی‌شوند. “این یکی از آن فناوری هایی است که بار شناختی را از کاربر حذف می کند. احمد علی، سرپرست طراحی تعامل Meet، می‌گوید: آن‌ها نباید قبل از پیوستن به جلسه فکر کنند که آیا در تنظیمات مناسبی هستند یا خیر. صرف نظر از اینکه مهندسی پشت آن چقدر پیچیده و شگفت انگیز است، از دیدگاه کاربر نهایی، هر زمان که لپ تاپ خود را باز می کنند و به یک جلسه می پیوندند، کار می کند.

Source link