ادغام LLM ها با قابلیت های صوتی فرصت های جدیدی را در تعاملات شخصی سازی شده با مشتری ایجاد کرده است.
این راهنما شما را در راه اندازی یک سرور محلی LLM راهنمایی می کند که از تعاملات صوتی دو طرفه با استفاده از Python، Transformers، Qwen2-Audio-7B-Instruct و Bark پشتیبانی می کند.
پیش نیازها
قبل از شروع، موارد زیر را نصب خواهید کرد:
- پایتون: نسخه 3.9 یا بالاتر.
- PyTorch: برای اجرای مدل ها.
- ترانسفورماتورها: امکان دسترسی به مدل Qwen را فراهم می کند.
- شتاب گرفتن: در برخی محیط ها مورد نیاز است.
- FFmpeg و pydub: برای پردازش صدا.
- FastAPI: برای ایجاد وب سرور.
- Uvicorn: سرور ASGI برای اجرای FastAPI.
- پارس: برای سنتز متن به گفتار.
- چند قسمتی و سایپی: برای دستکاری صدا.
FFmpeg را می توان از طریق نصب کرد apt install ffmpeg
در لینوکس یا brew install ffmpeg
در MacOS.
می توانید وابستگی های پایتون را با استفاده از pip نصب کنید: pip install torch transformers accelerate pydub fastapi uvicorn bark python-multipart scipy
مرحله 1: تنظیم محیط
ابتدا، اجازه دهید محیط پایتون خود را راه اندازی کنیم و دستگاه PyTorch خود را انتخاب کنیم:
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
این کد بررسی میکند که آیا یک GPU سازگار با CUDA (Nvidia) موجود است یا خیر و دستگاه را بر اساس آن تنظیم میکند.
اگر چنین GPU در دسترس نباشد، PyTorch در عوض روی CPU اجرا می شود که بسیار کندتر است.
برای جدیدتر…