دستیارهای مجازی چگونه کار می کنند؟

صحبت کردن با Google Assistant برای من یک لحظه واقعی “وای، ما رسماً در آینده هستیم” است، اغلب به حدی که باعث می شود از خودم بپرسم: دستیارهای مجازی فعال با صدا چگونه کار می کنند؟ به طور خاص، چگونه آنها می فهمند که کسی چه می پرسد، سپس یک پاسخ صحیح، مفید و حتی لذت بخش ارائه می دهد؟ به عنوان مثال، چند هفته پیش، قبل از اینکه به سوال اصلی خود برسم، که طبیعتاً مربوط به غذا بود، داشتم با Assistant بازی می کردم. گفتم: “هی گوگل، غذای مورد علاقه شما چیست؟” پاسخ دستیار سریع بود: “من همیشه تشنه دانش هستم.” به‌عنوان گیلاس در بالا، نسخه نوشتاری که به‌عنوان صحبت دستیار ظاهر می‌شد، دارای یک شکلک چنگال و چاقو در انتهای جمله بود.

دستیار می تواند به انواع مختلفی از پرس و جوها پاسخ دهد. چه در مورد بزرگترین پستاندار جهان کنجکاو باشید یا اگر بستنی فروشی مورد علاقه شما باز است، به احتمال زیاد Assistant می تواند به شما پاسخ دهد. و تیمی که روی Assistant کار می‌کند دائماً به این فکر می‌کند که چگونه پاسخ‌های خود را بهتر، سریع‌تر و مفیدتر از همیشه کند. برای کسب اطلاعات بیشتر، با دانشمند برجسته فرانسوایز بیوفایز، مهندس و محقق در تیم گفتار Google صحبت کردم تا مقدمه ای در مورد چگونگی درک سؤالات صوتی توسط دستیار و سپس ارائه پاسخ های رضایت بخش (و اغلب جذاب) ارائه کنم.

فرانسوا، دقیقاً در گوگل چه کار می کنید؟

من تیم تشخیص گفتار در Google را رهبری می کنم. کار من ساختن سیستم‌های تشخیص گفتار برای همه محصولاتی است که در Google با صدا ارائه می‌شوند. کاری که تیم من انجام می دهد به دستیار اجازه می دهد تا کاربرانش را بشنود، سعی کند بفهمد کاربرانش چه می خواهند و سپس اقدام کند. همچنین به ما این امکان را می‌دهد تا در هنگام صحبت افراد در ویدیوهای YouTube و در Meet زیرنویس بنویسیم و به کاربران امکان می‌دهد پیام‌های متنی را به دوستان و خانواده خود دیکته کنند. فناوری تشخیص گفتار پشت همه این تجربیات است.

چرا اینقدر کلیدی است که تشخیص گفتار با Assistant به بهترین شکل ممکن کار کند؟

Assistant بر این اساس است که بفهمد کسی چه گفته است و سپس بر اساس آن درک اقدام کند. این بسیار مهم است که تعامل بسیار روان است. شما فقط تصمیم می گیرید کاری را با صدا انجام دهید که در صورت سودمندی می توانید با انگشتان خود انجام دهید. اگر با یک ماشین صحبت کنید و مطمئن نباشید که می تواند شما را به سرعت درک کند، لذت از بین می رود.

پس چگونه ماشین می‌فهمد که شما چه می‌پرسید؟ چگونه یاد گرفت که کلمات گفتاری را در وهله اول تشخیص دهد؟

همه چیز در تشخیص گفتار، یادگیری ماشینی است. یادگیری ماشینی نوعی فناوری است که در آن از یک الگوریتم برای کمک به “مدل” برای یادگیری از داده ها استفاده می شود. روشی که ما یک سیستم تشخیص گفتار می‌سازیم با نوشتن قوانینی مانند این نیست: اگر شخصی صحبت می‌کند و صدایی «ک» تولید می‌کند که 10 تا 30 میلی‌ثانیه طول می‌کشد و سپس صدایی «آ» که 50 تا 80 میلی‌ثانیه طول می‌کشد، ممکن است کسی می خواهد بگوید “گربه.” یادگیری ماشینی هوشمندتر از این است. بنابراین، در عوض، ما یک دسته از قطعات صوتی را به مدل ارائه می‌کنیم و به مدل می‌گوییم، در اینجا، شخصی گفت: “این گربه خوشحال است.” در اینجا، شخصی گفت: “آن سگ خسته است.” به تدریج، مدل تفاوت را یاد خواهد گرفت. و همچنین تغییرات قطعه های اصلی را درک می کند، مانند «این گربه خسته است» یا «این سگ خوشحال نیست»، مهم نیست چه کسی آن را می گوید.

مدل هایی که امروزه در Assistant برای انجام این کار استفاده می کنیم، شبکه های عصبی عمیق هستند.

یک شبکه عصبی عمیق چیست؟

این یک نوع مدل است که از نحوه عملکرد مغز انسان الهام گرفته شده است. مغز شما از نورون ها برای به اشتراک گذاشتن اطلاعات استفاده می کند و باعث می شود بقیه بدن شما عمل کند. در شبکه‌های عصبی مصنوعی، «نورون‌ها» همان‌هایی هستند که ما آن‌ها را واحدهای محاسباتی یا بیت‌هایی از کد می‌نامیم که با یکدیگر ارتباط برقرار می‌کنند. این واحدهای محاسباتی در لایه ها گروه بندی می شوند. این لایه ها می توانند روی هم قرار گیرند تا امکانات پیچیده تری برای درک و عمل ایجاد کنند. در نهایت با این «شبکه‌های عصبی» مواجه می‌شوید که می‌توانند بزرگ و درگیر شوند، بنابراین، شبکه‌های عصبی عمیق.

برای Assistant، یک شبکه عصبی عمیق می‌تواند یک ورودی، مانند صدای فردی که صحبت می‌کند، دریافت کند و آن اطلاعات را در لایه‌هایی پردازش کند تا به متن تبدیل شود. این همان چیزی است که ما آن را «تشخیص گفتار» می‌نامیم. سپس، متن توسط لایه‌های دیگری پردازش می‌شود تا آن را به قطعاتی از اطلاعات تجزیه کند که به «دستیار» کمک می‌کند تا نیازهای شما را بفهمد و با نمایش نتیجه یا انجام یک عمل به شما کمک کند. از طرف شما. این همان چیزی است که ما آن را «پردازش زبان طبیعی» می نامیم

فهمیدم. بیایید بگوییم من از Assistant چیزی کاملاً ساده می‌پرسم، مانند: «Hey Google، نزدیک‌ترین پارک سگ کجاست؟» چگونه می‌تواند حرف‌های من را بفهمد و به سؤال من پاسخ دهد؟

اولین قدم این است که «دستیار» آن «Hey Google» را پردازش کند و متوجه شود، «اوه، به نظر می‌رسد این شخص اکنون با من صحبت می‌کند و چیزی از من می‌خواهد».

«دستیار» بقیه صداها را می‌گیرد، سؤال را پردازش می‌کند و متن را از آن دریافت می‌کند. همانطور که این کار را انجام می دهد، سعی می کند بفهمد جمله شما در مورد چیست. چه نوع قصدی دارید؟

برای تعیین این موضوع، Assistant متن سوال شما را با شبکه عصبی دیگری که سعی در شناسایی معنایی، یعنی معنای سوال شما دارد، تجزیه می کند.

در این صورت، متوجه می‌شود که این سؤالی است که باید آن را جستجو کنید – این شما نیستید که چراغ‌هایتان را روشن کنید یا چیزی شبیه به آن. و از آنجایی که این یک سوال مبتنی بر مکان است، اگر تنظیمات شما اجازه دهد، دستیار می‌تواند داده‌های جغرافیایی دستگاه شما را به Google Maps ارسال کند تا نتایج پارک سگ در نزدیکی شما را بازگرداند.

سپس Assistant پاسخ‌های احتمالی خود را بر اساس مواردی مانند اینکه چقدر مطمئن است که شما را به درستی درک کرده و پاسخ‌های مختلف بالقوه‌اش چقدر مرتبط هستند، مرتب می‌کند. در مورد بهترین پاسخ تصمیم می گیرد، سپس آن را در قالب مناسب برای دستگاه شما ارائه می دهد. ممکن است فقط یک بلندگو باشد، در این صورت می تواند اطلاعات گفتاری را به شما بدهد. اگر نمایشگری در جلوی خود دارید، می تواند نقشه ای را با مسیرهای پیاده روی به شما نشان دهد.

برای اینکه موضوع را کمی پیچیده‌تر کنیم: اگر بخواهم چیزی مبهم‌تر بپرسم، مانند «هی گوگل، محبوب‌ترین سگ چیست؟» از کجا می‌توان فهمید که منظورم نژاد سگ، نام سگ است. یا محبوب ترین سگ معروف؟

در مثال اول، Assistant باید بفهمد که شما به دنبال یک مکان (“کجاست”) و آنچه که به دنبال آن هستید (“یک پارک سگ”) هستید، بنابراین منطقی است که از Maps برای کمک استفاده کنید. در این حالت، «دستیار» تشخیص می‌دهد که این سؤال بازتر است و در عوض از «جستجو» فراخوانی می‌کند. چیزی که واقعاً به آن می انجامد، شناسایی بهترین تفسیر است. یکی از چیزهایی که مفید است این است که Assistant می‌تواند میزان رضایت کاربران قبلی را از پاسخ‌های مشابه به سؤالات مشابه رتبه‌بندی کند – که می‌تواند به آن کمک کند تصمیم بگیرد که چقدر از تفسیر خود مطمئن است. در نهایت، این سوال به جستجو می‌رود و نتایج با هر قالب‌بندی که برای دستگاه شما بهترین است به شما پیشنهاد می‌شود.

همچنین شایان ذکر است که گروهی در تیم Assistant وجود دارد که روی توسعه شخصیت خود کار می کند، از جمله با نوشتن پاسخ به سوالات رایج آشنایی با شما، مانند آنچه در مورد غذای مورد علاقه دستیار مطرح کردید. .

یکی دیگر از مواردی که من در مورد آن تعجب کرده ام، پرس و جوهای چند زبانه است. اگر کسی سؤالی بپرسد که دارای بیت‌ها و باب‌های زبان‌های مختلف است، «دستیار» چگونه آنها را درک می‌کند؟

این قطعا پیچیده تر است. تقریباً نیمی از جهان به بیش از یک زبان صحبت می کنند. من مثال خوبی برای این هستم من بلژیکی هستم و شوهرم ایتالیایی است. من در خانه با خانواده ام ایتالیایی صحبت می کنم. اما اگر من فقط با بچه هایم باشم، ممکن است با آنها به زبان فرانسوی صحبت کنم. در محل کار، من انگلیسی صحبت می کنم. من از صحبت کردن با دستیارم به انگلیسی، حتی زمانی که در خانه هستم، اهمیتی نمی‌دهم. اما من با شوهرم انگلیسی صحبت نمی کنم زیرا زبان ما ایتالیایی است. اینها انواع کنوانسیون هایی هستند که در خانواده های چند زبانه برقرار می شوند.

ساده‌ترین راه برای رسیدگی به مواردی که در آن فرد به دو زبان صحبت می‌کند این است که «دستیار» کمی به آنچه می‌گوید گوش دهد و سعی کند تشخیص دهد که به کدام زبان صحبت می‌کند. دستیار می تواند این کار را با استفاده از مدل های مختلف انجام دهد که هر کدام به درک یک زبان خاص اختصاص دارد. راه دیگر برای انجام آن، آموزش مدلی است که بتواند درک کند زیاد زبان ها به طور همزمان این فناوری است که ما در حال توسعه آن هستیم. در بسیاری از موارد، افراد در یک جمله از یک زبان به زبان دیگر تغییر می کنند. داشتن یک مدل واحد که بفهمد آن زبان‌ها چیست، راه‌حلی عالی برای آن است – می‌تواند هر چیزی را که به ذهنش می‌رسد را انتخاب کند.

سئو PBN | خبر های جدید سئو و هک و سرور