متا در حال ساخت سریعترین ابررایانه هوش مصنوعی جهان است

متا (که قبلاً با نام فیس بوک شناخته می شد) در حال تلاش برای ساخت سریع ترین ابررایانه هوش مصنوعی جهان است.

SuperCluster تحقیقاتی هوش مصنوعی (RSC) دارای 16000 پردازنده گرافیکی Nvidia A100 خواهد بود و قرار است در اواسط سال 2022 تکمیل شود.

این شرکت قبلاً استفاده از سخت افزار را برای آموزش بینایی کامپیوتری بزرگ و مدل های پردازش زبان طبیعی (NLP) آغاز کرده است.

مارک زاکربرگ می‌گوید: «تجاربی که ما برای متاورس می‌سازیم به قدرت محاسباتی عظیمی نیاز دارد (پنجمیلیون‌ها عملیات/ثانیه!) و RSC مدل‌های جدید هوش مصنوعی را قادر می‌سازد که می‌توانند از تریلیون‌ها مثال بیاموزند، صدها زبان را درک کنند و موارد دیگر. رئیس هیئت مدیره، مدیرعامل و سهامدار کنترل کننده شرکت.

برخلاف ابرکامپیوتر هوش مصنوعی قبلی متا که در سال 2017 راه اندازی شد، RSC قادر به آموزش مدل های یادگیری ماشینی بر روی داده های دنیای واقعی است که از پلتفرم های رسانه های اجتماعی این شرکت منشأ می گیرند.

کلمه m

متا بیش از یک دهه است که در تحقیقات هوش مصنوعی مشارکت داشته است. آزمایشگاه تحقیقات هوش مصنوعی فیس بوک (FAIR) را در سال 2013 تأسیس کرد که در ادامه ابزارهایی برای طراحی چت بات، روش هایی برای فراموش کردن اطلاعات غیر ضروری سیستم های هوش مصنوعی و «پوست مصنوعی» که به روبات ها حس لامسه می دهد، توسعه داد.

مهمترین سهم آزمایشگاه در این زمینه بدون شک PyTorch است، یک چارچوب یادگیری عمیق منبع باز که به عنوان چیزی استاندارد ظاهر شد و اکنون به طور گسترده توسط توسعه دهندگان و دانشمندان داده در پلتفرم های مختلف استفاده می شود.

متا اولین ابررایانه اختصاصی هوش مصنوعی خود را در سال 2017 راه اندازی کرد که با 22000 پردازنده گرافیکی Nvidia V100 ساخته شده بود.

این دستگاه به طور قابل توجهی توسط جانشین خود پیشی گرفته است، به طوری که متا ادعا می کند RSC در حال حاضر سه برابر عملکرد بیشتری را در گردش های کاری NLP در مقیاس بزرگ ارائه می دهد و کمتر از نیمی از ردپای سخت افزاری نهایی خود را استفاده می کند.

فاز اول این پروژه شامل 760 سیستم سرور Nvidia DGX A100 با مجموع 6080 پردازنده گرافیکی است که با استفاده از فابریک کوانتومی 200 گیگابیت بر ثانیه InfiniBand انویدیا متصل شده اند.

سطح ذخیره سازی به 185PB حافظه تمام فلش از Pure Storage و 46PB حافظه پنهان در سرورهای Penguin Computing Altus مجهز شده است. داده های آموزشی از طریق سرویس ذخیره سازی هدفمند خود FAIR به نام فروشگاه تحقیقاتی هوش مصنوعی (AIRStore) ارائه می شود.

پس از تکمیل RSC، همان فابریک InfiniBand 16000 GPU را به هم متصل می‌کند که این بزرگترین استقرار DGX A100 تا به امروز است. این توسط یک سیستم ذخیره سازی و ذخیره سازی با پهنای باند 16 ترابایت بر ثانیه ارائه می شود و انتظار می رود نزدیک به 5 اگزافلاپس محاسبات دقیق ترکیبی را ارائه دهد.

فیس‌بوک می‌گوید: «ما می‌خواستیم این زیرساخت بتواند مدل‌هایی را با بیش از یک تریلیون پارامتر در مجموعه داده‌هایی به بزرگی یک اگزابایت آموزش دهد – که برای ایجاد حس مقیاس، معادل 36000 سال ویدیوی با کیفیت بالا است. مدیر برنامه کوین لی و مهندس نرم افزار Shubho Sengupta در پستی در وبلاگ این شرکت گفتند.

برخلاف ابررایانه قبلی خود که تنها از مجموعه داده های منبع باز و در دسترس عموم استفاده می کرد، دستگاه جدید متا از داده های آموزشی دنیای واقعی که مستقیماً از کاربران پلتفرم های این شرکت به دست می آید استفاده خواهد کرد.

به همین دلیل، متا می‌گوید RSC از ابتدا با حفظ حریم خصوصی و امنیت طراحی شده است: این ابررایانه از اینترنت جدا شده است، بدون اتصال مستقیم ورودی یا خروجی، و ترافیک می‌تواند فقط از مراکز داده تولید متا جریان یابد. داده‌های کاربر ناشناس است و کل مسیر داده از سیستم‌های ذخیره‌سازی تا GPU رمزگذاری می‌شود.

امیدواریم RSC به ما کمک کند تا سیستم‌های هوش مصنوعی کاملاً جدیدی بسازیم که می‌تواند به عنوان مثال، ترجمه‌های صوتی بلادرنگ را برای گروه‌های بزرگی از مردم، که هر کدام به زبان متفاوتی صحبت می‌کنند، قدرت بخشد تا بتوانند به‌طور یکپارچه در یک پروژه تحقیقاتی همکاری کنند یا یک بازی واقعیت افزوده بازی کنند. لی و سنگوپتا گفتند.

در نهایت، کار انجام شده با RSC، راه را به سوی ساخت فناوری‌ها برای پلتفرم محاسباتی بزرگ بعدی هموار می‌کند – متاورس، جایی که برنامه‌ها و محصولات مبتنی بر هوش مصنوعی نقش مهمی ایفا خواهند کرد.

نویسندگان گفتند که RSC همچنین برای کمک به شناسایی بهتر «محتوای مضر» استفاده خواهد شد – پیشرفت‌های اخیر متا در این زمینه شامل معرفی آموزش چند شات (FSL) برای تشخیص آسان‌تر پست‌هایی است که تلاش می‌کنند خط‌مشی آن را در موارد جدید و جدید نقض کنند. راه های غیر منتظره

بلوز زنجیره تامین

کمبود عرضه تراشه بر پروژه های زیرساختی بی شماری تأثیر گذاشته است و RSC نیز از این قاعده مستثنی نبود.

لی و سنگوپتا گفتند: «RSC به‌عنوان یک پروژه کاملاً از راه دور شروع شد که تیم آن را از یک سند مشترک ساده به یک خوشه فعال در حدود یک سال و نیم تبدیل کرد».

«COVID-19 و محدودیت‌های عرضه ویفر در سراسر صنعت همچنین مشکلات زنجیره تأمین را به همراه داشت که دسترسی به همه چیز از تراشه‌ها گرفته تا قطعاتی مانند اپتیک و پردازنده‌های گرافیکی و حتی مصالح ساختمانی را دشوار می‌کرد – که همه آنها باید مطابق با پروتکل‌های ایمنی جدید حمل می‌شدند. .

برای ساخت موثر این خوشه، باید آن را از ابتدا طراحی می‌کردیم، بسیاری از کنوانسیون‌های کاملاً جدید متا را ایجاد می‌کردیم و در طول مسیر به موارد قبلی بازنگری می‌کردیم. ما مجبور شدیم قوانین جدیدی را در مورد طراحی های مرکز داده خود بنویسیم – از جمله خنک کننده، قدرت، چیدمان قفسه، کابل کشی و شبکه (شامل یک صفحه کنترل کاملا جدید)، از جمله ملاحظات مهم دیگر.