سلام علاقه مندان به AI!
به نسخه چهارم خوش آمدید “این هفته در مهندسی هوش مصنوعی”!
از زمان رونق Deepseek ، همه شرکت های پیشرو در هوش مصنوعی مدلهای خود را به روز کرده و عوامل هوش مصنوعی خود را به سمت چپ ، راست و مرکز آزاد می کنند.
ما به همه این به روزرسانی ها به همراه برخی از ابزارهای لازم می دانیم تا نمایندگان و برنامه های AI را آسان تر کنیم.
سری Qwen: خانواده مدل منبع باز در عملکرد چند زبانه به نقاط عطف جدید می رسند
Qwen اکوسیستم مدل زبان منبع باز خود را گسترش داده است و چهار مدل از پارامترهای 1.8B تا 72B را معرفی کرده است و پیشرفت قابل توجهی در قابلیت های هوش مصنوعی چند زبانه دارد.
معماری فنی:
- طراحی خانواده مدل: انواع متمایز از جمله Qwen-Chat ، Code-Qwen ، Math-Qwen-Chat ، Qwen-VL و Qwen-Audio-Chat با بهینه سازی های هدفمند معرفی شده است.
- پردازش متن: پنجره زمینه توکن 32K گسترش یافته از طریق پیشگویی مداوم با بهینه سازی طناب اجرا می شود.
- مقیاس آموزش: پیش از پیش روی 2-3 تریلیون نشانه با بهینه سازی چند زبانه است.
معیارهای عملکرد:
- راندمان حافظه: استفاده از منابع بهینه از 5.8 گیگابایت (مدل 1.8B) تا 61.4 گیگابایت (مدل 72B).
- رسیدگی به متن: تأیید شده از طریق “سوزن در یک یونجه” با دقت مداوم در زمینه های طولانی.
- بهینه سازی آموزش:…