AWS تراشه هوش مصنوعی سفارشی Trainium2، ارتقا مرکز داده را راه اندازی کرد

فهرست مطالب:

شرکت خدمات وب آمازون (AWS) امروز (سه شنبه، 3 دسامبر) اعلام کرد که جدیدترین تراشه هوش مصنوعی سفارشی خود، Trainium2، اکنون از طریق دو سرویس ابری جدید برای آموزش و استقرار مدل های بزرگ هوش مصنوعی در دسترس است.

در کنفرانس AWS re:Invent خود در لاس وگاس، AWS جدید خود را اعلام کرد ابر محاسباتی الاستیک آمازون (EC2) نمونه‌های Trn2، با 16 تراشه Trainium2، 20.8 پیک پتافلاپ محاسباتی را ارائه می‌کنند که آن را برای آموزش و استقرار مدل‌های زبان بزرگ (LLM) با میلیاردها پارامتر ایده‌آل می‌کند.

AWS همچنین یک پیشنهاد جدید EC2 به نام EC2 Trn2 UltraServers را معرفی کرد که دارای 64 تراشه Trainium2 به هم پیوسته است و تا 83.2 پیک پتافلاپ محاسباتی را انجام می دهد که آموزش و استقرار بزرگترین مدل های هوش مصنوعی جهان را ممکن می کند.

را مقیاس بزرگ ارائه‌دهنده ابر همچنین با Anthropic، خالق Claude LLM، برای ساخت یک خوشه EC2 از Trn2 UltraServers که شامل صدها هزار تراشه Trainium2 است، همکاری می‌کند – و به Anthropic اجازه می‌دهد تا مدل‌های آینده‌اش را بسازد و روی آن‌ها مستقر کند. به گفته AWS، این تلاش که Project Rainier نام دارد، اگزافلاپس Anthropic را پنج برابر بیشتر از آنچه برای آموزش مدل‌های هوش مصنوعی فعلی خود استفاده می‌کرد، ارائه می‌کند.

AWS تراشه هوش مصنوعی سفارشی Trainium2، ارتقا مرکز داده را راه اندازی کرد

AWS امروز همچنین برنامه‌های خود را برای نسل بعدی تراشه هوش مصنوعی خود اعلام کرد Trainium3گدی هات، مدیر ارشد مهندسی محصول و مشتری در آزمایشگاه آناپورنا AWS گفت که انتظار می‌رود دو برابر عملکرد و 40 درصد کارآمدتر انرژی نسبت به Trainium2 باشد. Trainium3 3 نانومتری در اواخر سال 2025 عرضه خواهد شد.

تحلیلگران نظر خود را در مورد Trainium2 بیان می کنند

امروز AWS با اعلان‌های تراشه‌های هوش مصنوعی سفارشی خود، پیشنهادات هوش مصنوعی خود را تقویت کرده و جایگزین ارزان‌قیمت جدیدی برای پردازنده‌های گرافیکی انویدیا ارائه می‌کند. تحلیلگران می گویند که AWS پتانسیل جذب مشتریان به خدمات جدید Trainium2 خود را دارد زیرا شرکت ها به طور فزاینده ای هوش مصنوعی را اتخاذ می کنند.

من فکر می‌کنم این کاتالیزوری است که باعث می‌شود مشتریان به Trainium2 به‌عنوان یک جایگزین نگاه کنند، مخصوصاً زمانی که به قیمت حساس هستند.»

جیم هیر، تحلیلگر گارتنر، گفت که برخی از بارهای کاری هوش مصنوعی می توانند روی CPU ها اجرا شوند. بسیاری از بارهای کاری هوش مصنوعی به GPUهایی مانند Nvidia نیاز دارند که AWS از آن پشتیبانی می کند. اما Trainium2 – که عملکرد بهتری را ارائه می دهد و نسبت به تراشه نسل اول Trainium AWS کارآمدتر است – به دلیل مزایای عملکرد قیمت، گزینه دیگری را در اختیار مشتریان AWS قرار می دهد.

AWS که برنامه‌های خود را برای ساخت Trainium2 اعلام کرد یک سال پیشگفت که نمونه‌های جدید EC2 Trn2 مبتنی بر Trainium2 30 تا 40 درصد عملکرد قیمتی بهتری نسبت به نسل فعلی نمونه‌های EC2 مبتنی بر GPU ارائه می‌کنند.

«مشتریان به طور طبیعی فکر می‌کنند که برای هر هوش مصنوعی به سراغ GPU می‌روند، اما وقتی مشتریان از آزمایش هوش مصنوعی کنار می‌روند، فکر می‌کنند، این عالی است. هار به Data Center Knowledge گفت: ببینید چه کاری می‌توانم با هوش مصنوعی انجام دهم؟» تا «چگونه این کار را در مقیاس به کار ببرم، و آن را به روشی بسیار مقرون‌به‌صرفه‌تر انجام دهم.»

هار افزود: “Trainium2 عملکرد قیمت بهتری را ارائه می دهد.” من فکر می‌کنم این کاتالیزوری است که باعث می‌شود مشتریان به Trainium2 به‌عنوان یک جایگزین نگاه کنند، مخصوصاً زمانی که به قیمت حساس هستند.»

مت کیمبال، تحلیلگر Moor Insights & Strategy، گفت که نمونه‌های Trn2 با حداکثر عملکرد ۲۰.۸ پتافلاپ، آن را در موقعیت رقابتی با پردازنده‌های گرافیکی Nvidia و AMD قرار می‌دهد. او گفت و توانایی Trn2 UltraServers برای ارائه بیش از 80 پتافلاپ اوج عملکرد، آنها را به گزینه خوبی برای آموزش مدل های بزرگ تبدیل می کند.

کیمبال گفت، برای برخی از سازمان های سازمانی، پروژه AWS با Anthropic، Trainium2 را به عنوان جایگزینی مناسب برای آموزش هوش مصنوعی تایید می کند. او گفت که برخی از شرکت‌هایی که قبلاً تراشه هوش مصنوعی داخلی AWS را نادیده می‌گرفتند، زیرا این تراشه از Nvidia نبود، ممکن است به آن نگاه دقیق‌تری داشته باشند.

هر چقدر هم که احمقانه به نظر برسد، بسیاری از سازمان‌های سازمانی در پذیرش فناوری‌های جدید محافظه‌کارانه‌تر عمل می‌کنند، بنابراین تراشه‌های بزرگی مانند Trainium نادیده گرفته می‌شوند، زیرا آنها متعلق به شرکتی نیستند که در سال گذشته «پدرخوانده هوش مصنوعی» لقب گرفته است. کیمبال گفت. این همکاری به سازمان‌های فناوری اطلاعات می‌گوید که نه تنها Trainium – به‌عنوان یک برند، و Trainium2 به‌عنوان یک تراشه – مشروع است، بلکه از برخی از سخت‌ترین نیازهای هوش مصنوعی در صنعت پشتیبانی می‌کند، زیرا Anthropic به دنبال OpenAI است.

چشم انداز رقابتی در استراتژی تراشه های ابری و AWS

AWS و رقبای ابری آن Google Cloud و Microsoft Azure همگی با تراشه‌سازان بزرگ Nvidia، AMD و Intel همکاری می‌کنند – و خدماتی را ارائه می‌دهند که توسط پردازنده‌هایشان پشتیبانی می‌شوند. اما سه غول ابری ساخت تراشه های سفارشی خود را نیز سودمند و مقرون به صرفه می دانند.

به عنوان مثال، هر سه ارائه‌دهنده ابری، دارند پردازنده های داخلی خود را ساخته اند برای بارهای کاری عمومی و شتاب دهنده های هوش مصنوعی داخلی برای آموزش هوش مصنوعی و خدمات استنباط.

هات از AWS در مصاحبه ای گفت: استراتژی تراشه AWS این است که به مشتریان انتخاب های زیادی بدهد. AWS نسل اول تراشه Trainium خود را برای آموزش هوش مصنوعی به بازار عرضه کرد 2022 و Inferentia2، تراشه استنتاج هوش مصنوعی نسل دوم خود را در دسترس قرار داد 2023.

علاوه بر ارائه خدمات جدید EC2 مبتنی بر Trainium2، این شرکت همچنین چندین نمونه EC2 را ارائه می دهد که پشتیبانی می کنند پردازنده های گرافیکی انویدیا و یک نمونه EC2 که از یک پشتیبانی می کند شتاب دهنده اینتل گائودی.

اولتراسرورهای آمازون EC2 Trn2

نتیجه: مشتریان Trainium2 از عملکرد بالا و کمترین هزینه برای حجم کاری خود لذت خواهند برد. او افزود که Trainium2 برای پشتیبانی از آموزش و استقرار مدل‌های بینایی LLM، چندوجهی و کامپیوتری طراحی شده است.

هات گفت: «همه ما به دنبال این هستیم که به مشتریان حق انتخاب بدهیم. «مشتریانی که بار کاری متناسب با GPU دارند، ممکن است GPU را انتخاب کنند. مشتریانی که می خواهند بهترین عملکرد قیمت را از تراشه های خود داشته باشند، Trainium/Inferentia را انتخاب می کنند.

به عنوان مثال، با Trainium2، Claude Haiku 3.5 LLM Anthropic در مقایسه با سایر تراشه‌های جایگزین 60 درصد افزایش سرعت می‌گیرد.

AWS نوآوری های جدید زیرساخت مرکز داده را اعلام کرد

در re:Invent روز دوشنبه، AWS همچنین بهبود زیرساخت‌های جدید مرکز داده را در طراحی نیرو، خنک‌کننده و سخت‌افزار اعلام کرد که از بار کاری هوش مصنوعی بهتر پشتیبانی می‌کند و انعطاف‌پذیری و کارایی انرژی را بهبود می‌بخشد.

AWS گفت که پیشرفت‌های جدید مرکز داده شامل سیستم خنک‌کننده کارآمدتر است که شامل نصب خنک‌کننده مایع و کاهش فن‌ها می‌شود که منجر به کاهش 46 درصدی مصرف انرژی مکانیکی می‌شود. AWS همچنین گفت که ژنراتورهای پشتیبان قادر خواهند بود با دیزل تجدید پذیر کار کنند که باعث کاهش انتشار گازهای گلخانه ای می شود.

برای پشتیبانی از بارهای کاری هوش مصنوعی با چگالی بالا، AWS گفت که نوآوری‌های مهندسی را توسعه داده است که به آن امکان می‌دهد از افزایش شش برابری چگالی توان رک طی دو سال آینده پشتیبانی کند. به گفته AWS، این تا حدی توسط یک قفسه برق جدید ارائه می شود که به طور موثر برق مرکز داده را در سراسر یک رک ارائه می دهد.

به گفته این شرکت، سرورهای جدید هوش مصنوعی از خنک کننده مایع برای خنک کردن کارآمدتر تراشه های با چگالی بالا مانند Trainium2 و راه حل های ابررایانه هوش مصنوعی مانند Nvidia GB200 NVL72 بهره خواهند برد.

کوین میلر، معاون مرکز داده جهانی AWS، به Data Center Knowledge گفت: «ما در گذشته از مقدار بسیار کمی از خنک‌کننده مایع استفاده کرده‌ایم». اما ما اکنون در مرحله‌ای هستیم که شروع به افزایش سریع ظرفیت خنک‌کننده مایع می‌کنیم.»

AWS همچنین اتوماسیون را در سیستم های کنترل خود بهبود بخشیده است تا انعطاف پذیری را بهبود بخشد. او گفت که سیستم‌های کنترل، نرم‌افزاری که بر اجزای هر مرکز داده نظارت می‌کند، می‌تواند سریع‌تر مشکلات را عیب‌یابی کند تا از خرابی یا سایر مسائل جلوگیری کند.

میلر گفت: «در برخی موارد، تلاش‌های عیب‌یابی دستی که ساعت‌ها (در گذشته) طول می‌کشید، اکنون در عرض دو ثانیه اتفاق می‌افتد، زیرا نرم‌افزار ما به‌طور خودکار به همه حسگرها نگاه می‌کند، تصمیم‌گیری می‌کند و سپس اقدامات اصلاحی انجام می‌دهد.

میلر گفت AWS قبلاً این نوآوری‌های جدید را که AWS آن‌ها را “اجزای مرکز داده” می‌نامد، در برخی از مراکز داده AWS نصب کرده است. او گفت که AWS به نصب این اجزای مرکز داده جدید در مراکز داده جدید و موجود ادامه خواهد داد.

ولادیمیر کروا، تحلیلگر IDC، گفت که بهبود مرکز داده AWS قابل توجه است زیرا انعطاف پذیری و بهره وری عملیاتی و انرژی را بهبود می بخشد.

«آنچه قدرتمند است یک جزء واحد نیست. برای ایجاد تأثیر واقعی، ترکیبی از همه آنها است.


Source link