Deepseek vs Chatgpt vs Perplexity vs Qwen vs Claude vs DeepMind: بیشتر عوامل هوش مصنوعی و ابزارهای جدید AI

سلام علاقه مندان به AI!

به نسخه چهارم خوش آمدید “این هفته در مهندسی هوش مصنوعی”!

از زمان رونق Deepseek ، همه شرکت های پیشرو در هوش مصنوعی مدلهای خود را به روز کرده و عوامل هوش مصنوعی خود را به سمت چپ ، راست و مرکز آزاد می کنند.

ما به همه این به روزرسانی ها به همراه برخی از ابزارهای لازم می دانیم تا نمایندگان و برنامه های AI را آسان تر کنیم.

سری Qwen: خانواده مدل منبع باز در عملکرد چند زبانه به نقاط عطف جدید می رسند

Qwen اکوسیستم مدل زبان منبع باز خود را گسترش داده است و چهار مدل از پارامترهای 1.8B تا 72B را معرفی کرده است و پیشرفت قابل توجهی در قابلیت های هوش مصنوعی چند زبانه دارد.

معماری فنی:

  • طراحی خانواده مدل: انواع متمایز از جمله Qwen-Chat ، Code-Qwen ، Math-Qwen-Chat ، Qwen-VL و Qwen-Audio-Chat با بهینه سازی های هدفمند معرفی شده است.
  • پردازش متن: پنجره زمینه توکن 32K گسترش یافته از طریق پیشگویی مداوم با بهینه سازی طناب اجرا می شود.
  • مقیاس آموزش: پیش از پیش روی 2-3 تریلیون نشانه با بهینه سازی چند زبانه است.

معیارهای عملکرد:

  • راندمان حافظه: استفاده از منابع بهینه از 5.8 گیگابایت (مدل 1.8B) تا 61.4 گیگابایت (مدل 72B).
  • رسیدگی به متن: تأیید شده از طریق “سوزن در یک یونجه” با دقت مداوم در زمینه های طولانی.
  • بهینه سازی آموزش:

Source link