یک چیز کاملاً واضح است: هر مرکز داده به یک مرکز داده هوش مصنوعی تبدیل خواهد شد. و عامل اصلی تمایز این است که آنها چقدر سریع می توانند به آنجا برسند.
مدتی است که از نوشتن برای Data Center Knowledge لذت بردهام و همچنین گزارش وضعیت مرکز داده AFCOM را در هشت سال گذشته تألیف کردهام. در طی آن سالها، من شاهد رشد و تغییر این صنعت برای سازگاری با روندهای جدید بودهام. با این حال، هیچ چیز به اندازه آنچه در سال گذشته دیده بودیم هیجان انگیز و تکان دهنده نبوده است. سوال این است: آیا تراکم رک می تواند سرعت خود را حفظ کند؟
برای مفهوم سازی معمای تراکم رک امروزی، می خواهم ما را به عقب برگردانم. هشت سال پیش، در اولین گزارش وضعیت مرکز داده ما، پاسخ دهندگان نشان دادند که میانگین چگالی آنها 6.1 کیلووات در هر رک است. با توجه به انواع معمولی از بارهای کاری که مراکز داده پشتیبانی می شوند، این معیار کاملاً مورد انتظار است. در حالی که برنامه های کاربردی با تراکم بالا یک چیز بودند، اکثر مراکز داده هنوز برنامه های بسیار سنتی مانند سرورهای ایمیل، پایگاه های داده و سایر خدمات مهم تجاری را اجرا می کردند.
در طول یک سال گذشته، همه چیز تغییر کرده است. در گزارش سال 2024، پاسخ دهندگان نشان دادند که چگالی متوسط رک به 12 کیلووات افزایش یافته است. اکثر پاسخ دهندگان (60٪) به طور فعال برای افزایش تراکم در قفسه های خود (58٪) کار می کنند، در درجه اول با بهبود جریان هوا، به دنبال آن مهار (42٪) و خنک کننده مایع (40٪). من مطمئن هستم که شما می توانید حدس بزنید که چه چیزی باعث همه اینها می شود. بر اساس این گزارش، اکثر پاسخ دهندگان (53 درصد) معتقدند که بارهای کاری جدید هوش مصنوعی (هوش مصنوعی مولد) «قطعاً» ظرفیت مورد نیاز برای صنعت کولوکیشن را افزایش خواهد داد.
در اینجا قسمت دیوانه کننده است: حتی اگر چگالی دو برابر شده است، حداقل طبق گزارش ما، هنوز برای پشتیبانی از هوش مصنوعی و معماری با چگالی بالا کافی نیست. برای درک این موضوع، یک سیستم NVIDIA DGX H100 تا 10.2 کیلووات در هر رک مصرف می کند. بر اساس یافتههای ما، یک مرکز داده سنتی تنها میتواند یکی از این واحدهای پیشرفته را در رک خود با وجود رشد تراکم پشتیبانی کند. این سرعت سریع تکامل به نیروی محرکه نوآوری در صنعت ما تبدیل شده است. مهم ترین تفاوت این است که به طرز باورنکردنی سریع اتفاق می افتد.
آیا خنک کننده مایع و مبدل های حرارتی درب عقب جوابگو هستند؟
یکی از مربیان من، پیتر گراس، یک بار گفت: “صنعت مراکز داده تا زمانی که ده سال از عمرش می گذرد عاشق نوآوری است.” چالش این است که ما قطعا ده سال فرصت نداریم. ما حتی ده ماه دیگر فرصت نداریم.
چیزی که به چگالی مربوط می شود باید تغییر کند. ما اکنون از اپراتورهای مرکز داده می خواهیم که از پشتیبانی از 6 تا 12 کیلووات در هر رک به 40، 50، 60 و حتی بیشتر KW در هر رک حرکت کنند. در حالی که جریان هوا و مهار روشهای عالی برای بهبود کارایی و چگالی هستند، ما به سرعت در حال رسیدن به محدودیتهای فیزیک جریان هوا هستیم.
بنابراین، مرحله منطقی بعدی این است که به آن روی بیاوریم خنک کننده مایع. در شفافیت کامل، من سال گذشته را در زمینه هوش مصنوعی و استنتاج مولد، به ویژه تمرکز بر مرکز داده و فضای هممکانی گذراندهام. ما شرکای مرکز داده را به سفری خارقالعاده بردهایم تا آمادگی بیشتری برای پشتیبانی از هوش مصنوعی مولد و موارد استفاده با تراکم بالا داشته باشیم. خبر خوب این است که سازندگان قفسهها، فناوریهای خنککننده مایع مستقیم به تراشه و راهحلهایی مانند مبدلهای حرارتی درب عقب راه طولانی را پیمودهاند.
با توجه به پست Vertiv، «برخلاف خنککننده هوا، که همچنان سختتر به کار خود ادامه میدهد، مکانیسم خنککننده مبدل حرارتی درب عقب یا محلول خنککننده مستقیم مایع تراشه، نتایج خنکسازی بهتری را با کار کمتر ایجاد میکند و منجر به مصرف انرژی کمتر و انتشار کربن کمتر میشود. این فناوریها همچنین میتوانند با هم برای هدایت 100 درصد بار حرارتی به سیال مورد استفاده قرار گیرند.
برد ویلسون، معاون فناوری Vertiv، گفت: «تکثیر حجمهای کاری فشردهتر هوش مصنوعی، عصر خنکسازی مایع را آغاز میکند.
در حالی که خنک کننده مستقیم به تراشه در نهایت نشان دهنده قابل توجه ترین افزایش راندمان خنک کننده از زمان معرفی متریک PUE است، مبدل های حرارتی درهای عقب راه حلی موثر و کم مصرف برای کاربردهای با چگالی متوسط یا بالا – از جمله هوای موجود هستند. ویلسون گفت: مراکز داده خنک شده که به دنبال استراتژی خنک کننده مایع هستند.
من یک طرفدار بزرگ هستم مبدل های حرارتی درب عقبکه معمولاً درهای رادیاتور مانندی هستند که به پشت قفسه ها متصل می شوند و امکان تبادل مستقیم حرارت یا آب سرد یا خنک کننده را فراهم می کنند. اینها راه حل های فوق العاده ای هستند که می توانند در معماری های سنتی ادغام شوند. برای پشتیبانی از معماری با تراکم بالا، لازم نیست کل اکوسیستم خود را پاره کرده و جایگزین کنید. در واقع، این دقیقاً همان کاری است که یکی از رهبران مرکز داده انجام داد.
قدم گذاشتن بر “GaaS” – ایجاد تسهیلاتی برای پشتیبانی از بیش از 3000 پردازنده گرافیکی H100
برای پشتیبانی از آخرین موارد استفاده در مورد هوش مصنوعی، باید فراتر از هیاهو حرکت کنیم و به پیاده سازی های واقعی نگاه کنیم. بنابراین، بیایید به کسی نگاه کنیم که واقعاً دید خود را اجرا کرده است.
در Data Center World 2024، کن مورانو، رئیس و مدیر عامل Scott Data، در مورد ایجاد یک مرکز داده با وسعت 110000 فوت مربع، مجهز به بیش از 3000 پردازنده گرافیکی NVIDIA H100 ارائه خواهد کرد. سخنرانی او انتقال یک مرکز از SCIF (تاسیسات اطلاعات محفظه حساس) وزارت دفاع به یک مرکز داده را پوشش میدهد که استانداردهای Tier III مؤسسه Uptime را برآورده میکند، با تاکید بر ادغام خدمات فناوری که GPU را به عنوان یک سرویس (GaaS) تسهیل میکند و کولوکیشن HPC در مقیاس بزرگ
کن مورانو، رئیس و مدیر عامل مرکز داده اسکات، میگوید: «سابقه عملیاتی موفق ما، همراه با فرهنگ کارآفرینی ما، اسکات دیتا را برای استفاده از سیگنالهای اولیه بازار برای سرمایهگذاریهای عمدی در زیرساختهایمان قرار داد. “این سرمایه گذاری یک مورد تجاری محکم را نشان داد، اما همچنین ارزش های اصلی بلندمدت ما را برای نوآوری فنی و پیشرو در فضای بازار خود مجدداً تأیید کرد.”
در صحبت با کن، متوجه شدیم که او با انگیزه بازار و مشتریان شرکتی اش بوده است. بسیاری از کسب و کارها در حال حاضر حیاتی ترین خدمات خود را با شرکای محل سکونت خود دارند. گام منطقی بعدی پشتیبانی از بار کاری هوش مصنوعی با چگالی بالا است. با این حال، بزرگترین چالش این است که این شرکای مرکز داده برای پشتیبانی از بار کاری با چگالی بالا آماده یا مجهز نبودند. و به همین دلیل مرکز داده اسکات به این سفر رفت.
و پس از دیدن تعداد زیادی از افراد مرکز داده در رویداد NVIDIA، تعجب نخواهم کرد اگر امکانات بیشتری به سرعت قابلیتهای محاسباتی با چگالی بالا خود را گسترش دهند.
نگاه به آینده و اجرای یک چشم انداز جدید
توجه به این نکته مهم است که آنچه ما به عنوان یک صنعت تجربه می کنیم بسیار بیشتر از یک تغییر تکنولوژی است. آنچه ما شاهد آن هستیم تغییر در نحوه تعامل بشر با داده ها است. برای اولین بار، می توانیم یک سوال به داده ها بپرسیم و یک پاسخ “آگاهانه” دریافت کنیم. محتوای اصلی بر اساس درخواست ما تولید می شود. پشت آن مقدار فوق العاده ای از محاسبات برای ایجاد مدل های زبان بزرگ و انجام آموزش استنتاج وجود دارد. امکانات ما در قلب این انقلاب خواهد بود. وظیفه شما یافتن راههای خلاقانه، نوآورانه و پایدار برای حمایت از این دوره جدید زیرساخت دیجیتال خواهد بود.
بگذارید برای شما مثالی بزنم. اخیراً، سازنده Vertiv به ما توصیه کرده است که “از درهای عقب شروع کنید، سپس خنک کننده مستقیم به تراشه را در نظر بگیرید.” آنها در این رویکرد کاملاً حق دارند. حتی جنسن هوانگ، مدیرعامل انویدیا در اجلاس اقتصادی SIEPR در سال 2024 اظهار داشت که سرورهای DGX نسل بعدی انویدیا خنک کننده مایع خواهند بود.