نحوه استفاده از سیستم ASR برای خصوصیات دقیق رونویسی محصول دیجیتال خود

عکس نمایه Georgian.io Hacker Noon

با تشکر از پیشرفت در تشخیص گفتار ، شرکت ها اکنون می توانند طیف وسیعی از محصولات را با قابلیت دقیق رونویسی در قلب خود بسازند. سیستم عامل های هوشمند مکالمه ، دستیاران شخصی و ابزارهای ویرایش صدا و تصویر ، به عنوان مثال ، همه به رونویسی گفتار به متن متکی هستند. با این حال ، شما اغلب باید با استفاده از داده های تحت نظارت ، این سیستم ها را برای هر دامنه ای که می خواهید رونویسی کنید ، آموزش دهید. در عمل ، شما برای شروع کار در یک دامنه جدید به حجم زیادی از صدای رونویسی شده نیاز دارید که شبیه آنچه که در حال رونویسی هستید.

به تازگی ، فیس بوک wav2vec 2.0 را منتشر کرده است که راهی برای رفع این چالش دارد. wav2vec 2.0 به شما امکان می دهد سیستم های رونویسی را با استفاده از قبل آموزش دهید فقط صدا – بدون رونویسی مربوطه – و سپس فقط از یک مجموعه داده کوچک رونویسی شده برای آموزش استفاده کنید.

در این وبلاگ ، ما نحوه کار با wav2vec 2.0 را با نتایج عالی به اشتراک می گذاریم.

سیستم تشخیص خودکار گفتار پایان به انتها چیست؟

قبل از اینکه به wav2vec 2.0 شیرجه بزنیم ، بیایید چند قدم به عقب برگردیم تا چند اصطلاح کلیدی را که باید درک کنید را ببینید تا ببینید چه چیزی wav2vec 2.0 را بسیار خاص می کند. ابتدا ، بیایید سیستمهای تشخیص خودکار گفتار را از انتها به انتها بررسی کنیم.

یک سیستم تشخیص خودکار گفتار پایان به پایان (ASR) شکل موج صوتی گفتار را می گیرد و خروجی …

سئو PBN | خبر های جدید سئو و هک و سرور