کار با Wav2vec2 قسمت 1: تنظیم دقیق XLS-R برای تشخیص خودکار گفتار

معرفی

هوش مصنوعی متا معرفی شد wav2vec2 XLS-R (“XLS-R”) در پایان سال 2021. XLS-R یک مدل یادگیری ماشینی (“ML”) برای یادگیری بازنمایی گفتار بین زبانی است. و بر روی بیش از 400000 ساعت صوت گفتاری در دسترس عموم در 128 زبان آموزش دیده بود. پس از انتشار، این مدل نشان دهنده یک جهش بر هوش مصنوعی متا بود XLSR-53 مدل بین زبانی که در حدود 50000 ساعت صوتی گفتاری در 53 زبان آموزش داده شده است.

\ این راهنما مراحل تنظیم دقیق XLS-R را برای تشخیص خودکار گفتار (“ASR”) با استفاده از یک نوت بوک Kaggle. این مدل در اسپانیایی شیلی تنظیم می شود، اما مراحل کلی را می توان برای تنظیم دقیق XLS-R در زبان های مختلف مورد نظر دنبال کرد.

\ اجرای استنتاج بر روی مدل تنظیم شده در یک آموزش همراه توضیح داده خواهد شد که این راهنما را اولین قسمت از دو قسمت می کند. چون این راهنمای تنظیم دقیق کمی طولانی شد، تصمیم گرفتم یک راهنمای استنتاج جداگانه ایجاد کنم.

\ فرض بر این است که شما پیشینه ML موجود دارید و مفاهیم اولیه ASR را درک می کنید. مبتدیان ممکن است برای دنبال کردن/درک مراحل ساخت مشکل داشته باشند.

کمی پیش زمینه در XLS-R

مدل اصلی wav2vec2 که در سال 2020 معرفی شد، در 960 ساعت از قبل آموزش داده شد. کتابداری صدای گفتار مجموعه داده و ~53200 ساعت LibriVox صوتی گفتار مجموعه داده ….