میزبانی هوش مصنوعی خود با چت صوتی دو طرفه آسان‌تر از چیزی است که فکر می‌کنید!

ادغام LLM ها با قابلیت های صوتی فرصت های جدیدی را در تعاملات شخصی سازی شده با مشتری ایجاد کرده است.

این راهنما شما را در راه اندازی یک سرور محلی LLM راهنمایی می کند که از تعاملات صوتی دو طرفه با استفاده از Python، Transformers، Qwen2-Audio-7B-Instruct و Bark پشتیبانی می کند.

پیش نیازها

قبل از شروع، موارد زیر را نصب خواهید کرد:

  • پایتون: نسخه 3.9 یا بالاتر.
  • PyTorch: برای اجرای مدل ها.
  • ترانسفورماتورها: امکان دسترسی به مدل Qwen را فراهم می کند.
  • شتاب گرفتن: در برخی محیط ها مورد نیاز است.
  • FFmpeg و pydub: برای پردازش صدا.
  • FastAPI: برای ایجاد وب سرور.
  • Uvicorn: سرور ASGI برای اجرای FastAPI.
  • پارس: برای سنتز متن به گفتار.
  • چند قسمتی و سایپی: برای دستکاری صدا.

FFmpeg را می توان از طریق نصب کرد apt install ffmpeg در لینوکس یا brew install ffmpeg در MacOS.

می توانید وابستگی های پایتون را با استفاده از pip نصب کنید: pip install torch transformers accelerate pydub fastapi uvicorn bark python-multipart scipy

مرحله 1: تنظیم محیط

ابتدا، اجازه دهید محیط پایتون خود را راه اندازی کنیم و دستگاه PyTorch خود را انتخاب کنیم:

import torch

device = 'cuda' if torch.cuda.is_available() else 'cpu'

این کد بررسی می‌کند که آیا یک GPU سازگار با CUDA (Nvidia) موجود است یا خیر و دستگاه را بر اساس آن تنظیم می‌کند.

اگر چنین GPU در دسترس نباشد، PyTorch در عوض روی CPU اجرا می شود که بسیار کندتر است.

برای جدیدتر…

Source link