تراکم رک مرکز داده دو برابر شده است. و هنوز کافی نیست | دانش مرکز داده

یک چیز کاملاً واضح است: هر مرکز داده به یک مرکز داده هوش مصنوعی تبدیل خواهد شد. و عامل اصلی تمایز این است که آنها چقدر سریع می توانند به آنجا برسند.

مدتی است که از نوشتن برای Data Center Knowledge لذت برده‌ام و همچنین گزارش وضعیت مرکز داده AFCOM را در هشت سال گذشته تألیف کرده‌ام. در طی آن سال‌ها، من شاهد رشد و تغییر این صنعت برای سازگاری با روندهای جدید بوده‌ام. با این حال، هیچ چیز به اندازه آنچه در سال گذشته دیده بودیم هیجان انگیز و تکان دهنده نبوده است. سوال این است: آیا تراکم رک می تواند سرعت خود را حفظ کند؟

برای مفهوم سازی معمای تراکم رک امروزی، می خواهم ما را به عقب برگردانم. هشت سال پیش، در اولین گزارش وضعیت مرکز داده ما، پاسخ دهندگان نشان دادند که میانگین چگالی آنها 6.1 کیلووات در هر رک است. با توجه به انواع معمولی از بارهای کاری که مراکز داده پشتیبانی می شوند، این معیار کاملاً مورد انتظار است. در حالی که برنامه های کاربردی با تراکم بالا یک چیز بودند، اکثر مراکز داده هنوز برنامه های بسیار سنتی مانند سرورهای ایمیل، پایگاه های داده و سایر خدمات مهم تجاری را اجرا می کردند.

در طول یک سال گذشته، همه چیز تغییر کرده است. در گزارش سال 2024، پاسخ دهندگان نشان دادند که چگالی متوسط ​​رک به 12 کیلووات افزایش یافته است. اکثر پاسخ دهندگان (60٪) به طور فعال برای افزایش تراکم در قفسه های خود (58٪) کار می کنند، در درجه اول با بهبود جریان هوا، به دنبال آن مهار (42٪) و خنک کننده مایع (40٪). من مطمئن هستم که شما می توانید حدس بزنید که چه چیزی باعث همه اینها می شود. بر اساس این گزارش، اکثر پاسخ دهندگان (53 درصد) معتقدند که بارهای کاری جدید هوش مصنوعی (هوش مصنوعی مولد) «قطعاً» ظرفیت مورد نیاز برای صنعت کولوکیشن را افزایش خواهد داد.

در اینجا قسمت دیوانه کننده است: حتی اگر چگالی دو برابر شده است، حداقل طبق گزارش ما، هنوز برای پشتیبانی از هوش مصنوعی و معماری با چگالی بالا کافی نیست. برای درک این موضوع، یک سیستم NVIDIA DGX H100 تا 10.2 کیلووات در هر رک مصرف می کند. بر اساس یافته‌های ما، یک مرکز داده سنتی تنها می‌تواند یکی از این واحدهای پیشرفته را در رک خود با وجود رشد تراکم پشتیبانی کند. این سرعت سریع تکامل به نیروی محرکه نوآوری در صنعت ما تبدیل شده است. مهم ترین تفاوت این است که به طرز باورنکردنی سریع اتفاق می افتد.

آیا خنک کننده مایع و مبدل های حرارتی درب عقب جوابگو هستند؟

یکی از مربیان من، پیتر گراس، یک بار گفت: “صنعت مراکز داده تا زمانی که ده سال از عمرش می گذرد عاشق نوآوری است.” چالش این است که ما قطعا ده سال فرصت نداریم. ما حتی ده ماه دیگر فرصت نداریم.

چیزی که به چگالی مربوط می شود باید تغییر کند. ما اکنون از اپراتورهای مرکز داده می خواهیم که از پشتیبانی از 6 تا 12 کیلووات در هر رک به 40، 50، 60 و حتی بیشتر KW در هر رک حرکت کنند. در حالی که جریان هوا و مهار روش‌های عالی برای بهبود کارایی و چگالی هستند، ما به سرعت در حال رسیدن به محدودیت‌های فیزیک جریان هوا هستیم.

بنابراین، مرحله منطقی بعدی این است که به آن روی بیاوریم خنک کننده مایع. در شفافیت کامل، من سال گذشته را در زمینه هوش مصنوعی و استنتاج مولد، به ویژه تمرکز بر مرکز داده و فضای هم‌مکانی گذرانده‌ام. ما شرکای مرکز داده را به سفری خارق‌العاده برده‌ایم تا آمادگی بیشتری برای پشتیبانی از هوش مصنوعی مولد و موارد استفاده با تراکم بالا داشته باشیم. خبر خوب این است که سازندگان قفسه‌ها، فناوری‌های خنک‌کننده مایع مستقیم به تراشه و راه‌حل‌هایی مانند مبدل‌های حرارتی درب عقب راه طولانی را پیموده‌اند.

با توجه به پست Vertiv، «برخلاف خنک‌کننده هوا، که همچنان سخت‌تر به کار خود ادامه می‌دهد، مکانیسم خنک‌کننده مبدل حرارتی درب عقب یا محلول خنک‌کننده مستقیم مایع تراشه، نتایج خنک‌سازی بهتری را با کار کمتر ایجاد می‌کند و منجر به مصرف انرژی کمتر و انتشار کربن کمتر می‌شود. این فناوری‌ها همچنین می‌توانند با هم برای هدایت 100 درصد بار حرارتی به سیال مورد استفاده قرار گیرند.

برد ویلسون، معاون فناوری Vertiv، گفت: «تکثیر حجم‌های کاری فشرده‌تر هوش مصنوعی، عصر خنک‌سازی مایع را آغاز می‌کند.

در حالی که خنک کننده مستقیم به تراشه در نهایت نشان دهنده قابل توجه ترین افزایش راندمان خنک کننده از زمان معرفی متریک PUE است، مبدل های حرارتی درهای عقب راه حلی موثر و کم مصرف برای کاربردهای با چگالی متوسط ​​یا بالا – از جمله هوای موجود هستند. ویلسون گفت: مراکز داده خنک شده که به دنبال استراتژی خنک کننده مایع هستند.

من یک طرفدار بزرگ هستم مبدل های حرارتی درب عقبکه معمولاً درهای رادیاتور مانندی هستند که به پشت قفسه ها متصل می شوند و امکان تبادل مستقیم حرارت یا آب سرد یا خنک کننده را فراهم می کنند. اینها راه حل های فوق العاده ای هستند که می توانند در معماری های سنتی ادغام شوند. برای پشتیبانی از معماری با تراکم بالا، لازم نیست کل اکوسیستم خود را پاره کرده و جایگزین کنید. در واقع، این دقیقاً همان کاری است که یکی از رهبران مرکز داده انجام داد.

قدم گذاشتن بر “GaaS” – ایجاد تسهیلاتی برای پشتیبانی از بیش از 3000 پردازنده گرافیکی H100

برای پشتیبانی از آخرین موارد استفاده در مورد هوش مصنوعی، باید فراتر از هیاهو حرکت کنیم و به پیاده سازی های واقعی نگاه کنیم. بنابراین، بیایید به کسی نگاه کنیم که واقعاً دید خود را اجرا کرده است.

در Data Center World 2024، کن مورانو، رئیس و مدیر عامل Scott Data، در مورد ایجاد یک مرکز داده با وسعت 110000 فوت مربع، مجهز به بیش از 3000 پردازنده گرافیکی NVIDIA H100 ارائه خواهد کرد. سخنرانی او انتقال یک مرکز از SCIF (تاسیسات اطلاعات محفظه حساس) وزارت دفاع به یک مرکز داده را پوشش می‌دهد که استانداردهای Tier III مؤسسه Uptime را برآورده می‌کند، با تاکید بر ادغام خدمات فناوری که GPU را به عنوان یک سرویس (GaaS) تسهیل می‌کند و کولوکیشن HPC در مقیاس بزرگ

کن مورانو، رئیس و مدیر عامل مرکز داده اسکات، می‌گوید: «سابقه عملیاتی موفق ما، همراه با فرهنگ کارآفرینی ما، اسکات دیتا را برای استفاده از سیگنال‌های اولیه بازار برای سرمایه‌گذاری‌های عمدی در زیرساخت‌هایمان قرار داد. “این سرمایه گذاری یک مورد تجاری محکم را نشان داد، اما همچنین ارزش های اصلی بلندمدت ما را برای نوآوری فنی و پیشرو در فضای بازار خود مجدداً تأیید کرد.”

در صحبت با کن، متوجه شدیم که او با انگیزه بازار و مشتریان شرکتی اش بوده است. بسیاری از کسب و کارها در حال حاضر حیاتی ترین خدمات خود را با شرکای محل سکونت خود دارند. گام منطقی بعدی پشتیبانی از بار کاری هوش مصنوعی با چگالی بالا است. با این حال، بزرگترین چالش این است که این شرکای مرکز داده برای پشتیبانی از بار کاری با چگالی بالا آماده یا مجهز نبودند. و به همین دلیل مرکز داده اسکات به این سفر رفت.

و پس از دیدن تعداد زیادی از افراد مرکز داده در رویداد NVIDIA، تعجب نخواهم کرد اگر امکانات بیشتری به سرعت قابلیت‌های محاسباتی با چگالی بالا خود را گسترش دهند.

نگاه به آینده و اجرای یک چشم انداز جدید

توجه به این نکته مهم است که آنچه ما به عنوان یک صنعت تجربه می کنیم بسیار بیشتر از یک تغییر تکنولوژی است. آنچه ما شاهد آن هستیم تغییر در نحوه تعامل بشر با داده ها است. برای اولین بار، می توانیم یک سوال به داده ها بپرسیم و یک پاسخ “آگاهانه” دریافت کنیم. محتوای اصلی بر اساس درخواست ما تولید می شود. پشت آن مقدار فوق العاده ای از محاسبات برای ایجاد مدل های زبان بزرگ و انجام آموزش استنتاج وجود دارد. امکانات ما در قلب این انقلاب خواهد بود. وظیفه شما یافتن راه‌های خلاقانه، نوآورانه و پایدار برای حمایت از این دوره جدید زیرساخت دیجیتال خواهد بود.

بگذارید برای شما مثالی بزنم. اخیراً، سازنده Vertiv به ما توصیه کرده است که “از درهای عقب شروع کنید، سپس خنک کننده مستقیم به تراشه را در نظر بگیرید.” آنها در این رویکرد کاملاً حق دارند. حتی جنسن هوانگ، مدیرعامل انویدیا در اجلاس اقتصادی SIEPR در سال 2024 اظهار داشت که سرورهای DGX نسل بعدی انویدیا خنک کننده مایع خواهند بود.