من ده سال است که آیفون دارم و آن را دوست دارم. برخلاف برخی افراد، من واقعاً از سیری لذت می برم و اغلب از آن استفاده می کنم. اما پس از ده سال، سیری متوجه نشده است که وقتی متن های من را رونویسی می کند، باید بداند که نام همسرم آرون نیست، ارین است. من اجرای گفتار به نوشتار را که نیاز به منابع زیادی دارد، می بخشم، اما بعد از اینکه یک بار آن اشتباه را تصحیح کردم و یک متن اصلاح شده ارسال کردم، آن تصحیح باید در تاریخچه تصحیح در تلفن من ذخیره می شد – یک فایل کوچک که توسط یک پست استفاده می شود. پردازش مدل ترانسفورماتور، همراه با سرنخ های دیگر، احتمال این اشتباه را بسیار کمتر می کند. من میدانم که فراخوانی گفتار آیفون به عملکرد نوشتاری Siri بسیار سادهتر است، اما این همان چیزی است که بچههای من به هوش مصنوعی در آیفون من فکر میکنند.
سیستمهای گفتار به متن اغلب با همآواییها دست و پنجه نرم میکنند – کلماتی که صداهای یکسانی دارند اما املا و معانی متفاوتی دارند. این خطاها می توانند ناامید کننده باشند، به خصوص زمانی که بر نام های شخصی یا اصطلاحات رایج تأثیر بگذارند. کلید رفع این مشکل در تعمیرات اساسی موتور تشخیص گفتار نیست، بلکه در یک لایه پردازش متن پس از رونویسی سبک وزن است که با اصلاحات کاربر در طول زمان سازگار می شود. در اینجا کد مبتنی بر PyTorch است که من برای رسیدگی به این موضوع طراحی کردم.
فوق العاده جمع و جور است و پس از کامپایل کردن برای تلفن همراه، به راحتی بر روی تلفن نصب می شود. میدونم…