YaFSDP – یک ابزار آموزشی LLM که استفاده از GPU را 20٪ کاهش می دهد – اکنون منتشر شده است

توسعه مدل‌های زبان بزرگ مستلزم سرمایه‌گذاری قابل توجهی در زمان و منابع GPU است که مستقیماً به هزینه‌های بالا تبدیل می‌شود. هر چه مدل بزرگ‌تر باشد، این چالش‌ها بارزتر می‌شوند.

اخیراً Yandex راه حل جدیدی را معرفی کرده است: YaFSDP، ابزاری منبع باز که نوید انقلابی در آموزش LLM با کاهش قابل توجه مصرف منابع GPU و زمان آموزش را می دهد. در سناریوی پیش‌آموزشی که شامل مدلی با 70 میلیارد پارامتر است، استفاده از YaFSDP می‌تواند منابع تقریباً 150 GPU را ذخیره کند. این به معنای صرفه جویی بالقوه ماهانه تقریباً 0.5 تا 1.5 میلیون دلار است که بستگی به ارائه دهنده یا پلتفرم GPU مجازی دارد.

Yandex YaFSDP را در دسترس عموم قرار داده است GitHub.

چالش آموزش توزیع شده LLM

آموزش LLM در چندین GPU شامل عملیات پیچیده ای است که منجر به ناکارآمدی و مصرف بالای حافظه می شود. یکی از مسائل اصلی نیاز به ارسال و دریافت مقادیر انبوه داده بین پردازنده‌های گرافیکی است. به عنوان مثال، در یک عملیات معمولی all_reduce، دو برابر مقدار داده های گرادیان نسبت به پارامترهای شبکه باید ارتباط برقرار شود. در مورد مدل Llama 70B، این به معنای انتقال 280 گیگابایت داده در هر تکرار است.

علاوه بر این، وزن‌ها، گرادیان‌ها و حالت‌های بهینه‌ساز در سراسر پردازنده‌های گرافیکی تکراری می‌شوند که منجر به یک …

Source link