خیلی طولانی، اشاره و کلیک کنید. هوش مصنوعی مولد UX سنتی را تغییر می دهد و انواع الگوهای طراحی جدید و هیجان انگیز در حال ظهور هستند. گسترش LLM ها رابط صوتی آزاردهنده ای را که زمانی آزاردهنده بود، به چیزی واقعاً جذاب تبدیل کرده است و میله ای برای اتصال کاربر به برنامه شما ایجاد می کند. شما برای LLM نیاز ندارید همه چیز، اما من انجام دهید به شدت آنها را برای دستیارهای صوتی توصیه می کنیم.
اما حتی با وجود هوش مصنوعی عالی، صدا هنوز سخت است. هنگام ساخت قابلیت ضبط صدا در قسمت جلو، به سرعت با چند چالش رایج روبرو خواهید شد: ضبط صدا از کاربر، پردازش آن برای استفاده در سمت سرور، و ادغام آن با باطنی مانند GraphQL. در این پست شما را از طریق یک روش ساده برای ضبط و ارسال صدا برای رونویسی با استفاده از ترکیبی از جاوا اسکریپت راهنمایی می کنم. MediaRecorder
API و مدل Whisper OpenAI.
روشی که من در اینجا نشان می دهم برای کاربردهای در مقیاس تولید ایده آل نیست، اما این روش است است سریع ترین و موثرترین راه برای نمونه سازی اولیه ویژگی های صوتی برای MVP بعدی شما.
برخی از تعاریف
هنگام ضبط صدا از مرورگر دو موضوع کلیدی وجود دارد که باید درک کنید:
-
الف MediaStream نشاندهنده جریانی از محتوای رسانهای است که از دستگاهی مانند میکروفون، وبکم یا محتوای راه دور که از طریق کابل شبکه وارد میشود، میآید. پشتیبانی از انواع …