این روزها اجتناب از موضوع هوش مصنوعی (AI) و یادگیری ماشینی (ML) دشوار است. همه جا هست حتی اخبار جریان اصلی به طور منظم آن را پوشش می دهند، عمدتاً با کنجکاوی از پتانسیل گسترده آن برای نوآوری بی حد و حصر و به عنوان نیرویی که روش های قدیمی انجام کارها را مختل می کند.
نکته جالب در مورد این روند این است که مفهوم AI/ML به خودی خود جدید نیست. به عنوان یک فناوری، از سال 1956 زمانی که محققان محاسباتی پیشرفته در دانشگاه دارتموث برای اولین بار اصطلاح “AI” را ابداع کردند، وجود داشته است. هوش مصنوعی/ML در طول هفت دهه گذشته چرخههای سرمایهگذاری و بیعلاقگی زیادی را پشت سر گذاشته است. با این حال، به نظر می رسد که این جدیدترین چرخه دارای قدم هایی است و احتمالاً پیشرفت خواهد کرد، که پیامدهایی برای توسعه دهندگان برنامه و ارائه دهندگان زیرساخت اساسی خواهد داشت.
اما همانطور که AI/ML قدرتمند شده است، پشتیبانی از آن به عنوان یک حجم کاری لزوما برای اپراتورهای زیرساخت شبکه جدید نیست. بسیاری از بارهای کاری دیگر در طول سال ها، از جمله صدا، ویدئو، ذخیره سازی، محاسبات با کارایی بالا (HPC) و پایگاه های داده با عملکرد بالا (HPD) به سخت شدن شبکه های IP و اترنت برای بهبود قابلیت اطمینان، تاخیر کمتر، تضمین انتقال بدون تلفات و افزایش کمک کرده اند. کارایی. AI/ML بهعنوان حجم کاری در شبکه، ویژگیها و رفتارهای مشابه HPC و HPD را نشان میدهد، به این معنی که ارائهدهندگان و اپراتورهای شبکه میتوانند پایگاه دانش موجود خود را برای اطمینان از اجرای AI/ML همانطور که باید اعمال کنند.
همچنین افزونههای استاندارد صنعتی وجود دارند که امکان انتقال بدون تلفات را به شکل اترنت همگرا و تقویتشده (همچنین به عنوان «اترنت بدون تلفات» نیز میشناسند) وجود دارد که در حال حاضر بهطور گسترده برای ارائه توان عملیاتی بالا و تأخیر کم و در عین حال اجتناب از افت ترافیک در شرایطی که ازدحام رخ میدهد، در دسترس است. این مطمئناً یک تغییر دریایی نسبت به داستان مبدأ ساده اترنت به عنوان یک فناوری بهترین تلاش است که به دلیل اکوسیستم جهانی مبتکران و فروشندگانی که پشت آن جمع شدهاند، به پروتکل شبکهسازی واقعی برای مصرفکنندگان و شرکتها تبدیل شده است.
آنچه متخصصان شبکه باید درباره AI/ML بدانند
این بدان معنا نیست که هیچ چیز منحصر به فردی یا چالش برانگیز در مورد پشتیبانی از AI/ML به عنوان حجم کاری وجود ندارد. استقرار و مدیریت بارهای کاری AI/ML یک پیشنهاد تنظیم و فراموش کردن آن نیست زیرا AI/ML در مقیاس دارای دو مرحله استقرار مجزا است که هر کدام مجموعه ای از الزامات خاص خود را دارند.
مرحله اول است یادگیری عمیق جایی که انسانها رایانههای AI/ML را برای پردازش مقادیر زیادی داده از طریق مدلها و چارچوبهای یادگیری آموزش میدهند. هدف این است که ماشینها در نهایت بتوانند الگوهای پیچیده در تصاویر، متن، صداها و سایر دادهها را برای تولید بینش، توصیهها یا حتی محصولات پیشرفتهتر تشخیص دهند. این به طور کلی یک مرحله محاسباتی فشرده است که به قدرت پردازشی عظیم و شبکهای با کارایی بالا از نظر سرعت و ظرفیت نیاز دارد. اکنون به موقع است که هر دو فناوری اترنت 400 و 800 گیگابیتی به طور گسترده در آخرین نسل پلت فرم های شبکه در دسترس هستند.
مرحله دوم است استنتاج، که بخش کاربردی AI/ML است. ChatGPT یک مثال بارز است که شامل جستجوی انسانها از ماشینها به زبان طبیعی میشود و این پلتفرمها به همان شکل پاسخ میدهند. ماشینها باید بتوانند برای موارد استفاده مانند تشخیص زبان یا تصویر به سرعت پاسخ دهند تا از تجربه کاربر بهینه اطمینان حاصل شود. کاهش تأخیر شبکه و کاهش یا حذف تراکم شبکه از الزامات کلیدی در این مرحله است. فناوری هایی مانند آخرین نسخه دسترسی مستقیم به حافظه از راه دور از طریق اترنت همگرا (RoCEv2) توانایی خود را به عنوان راهی برای دستیابی به یک شبکه بدون تلفات که از دستگاه های توان عملیاتی بالا و تأخیر کم برای انتقال اطلاعات بین رایانه ها در حافظه به-استفاده می کند، ثابت می کند. سطح حافظه، بدون بارگذاری بر پردازنده های محاسباتی.
یک شبکه برای مدیریت همه آنها
صرف نظر از مرحله، افزایش اندازه و پیچیدگی خوشه های AI/ML اجتناب ناپذیر است. این امر مستلزم آن است که صنعت شبکه رویکرد خود را در مورد چگونگی ایجاد شبکههای مقیاسپذیر و پایدار بهینهسازی شده برای AI/ML توسعه دهد.
امروزه، سازمانهای فناوری اطلاعات معمولاً شبکههای جداگانهای را بر اساس حجم کاری یا فناوری پردازنده اجرا میکنند. بر کسی پوشیده نیست که AI/ML بر روی کامپیوترهای مجهز به واحدهای پردازش گرافیکی (GPU) که پردازندههای بسیار تخصصی هستند، به بهترین شکل اجرا میشود. پروتکل شبکه انتخابی برای GPU ها اغلب InfiniBand بوده است، یک فناوری back-end که برای فعال کردن ارتباطات سرور به سرور با سرعت بالا طراحی شده است. برعکس، فناوری اطلاعات از اترنت به عنوان یک فناوری فرانتاند برای پشتیبانی از انواع بارهای کاری دیگر که توسط واحدهای پردازش مرکزی (CPU) در همه جا حاضر میشوند، استفاده میکند.
روند رو به رشد IT ساده کردن عملیات در هر کجا که ممکن است، از جمله کاهش تعداد شبکههای خاص حجم کاری است. هدف کلی کاهش پیچیدگی، کاهش هزینه های عملیاتی و فعال کردن بهترین شیوه های رایج است. در دسترس بودن گسترده فناوری اترنت همگرا/بدون تلفات این امر را به واقعیت تبدیل کرده است. سازمانهای فناوری اطلاعات میتوانند از شبکههای اترنت موجود خود برای پشتیبانی از خوشههای کوچکتر AI/ML (ساخته شده با پردازندههای گرافیکی نسبتاً کمی) با افزودن چند سوئیچ برگ جدید و ایجاد تغییرات جزئی در پیکربندی استفاده کنند.
با این حال، برای پشتیبانی از کلاسترهای AI/ML در مقیاس بزرگ، باید معیاری برای اثبات آینده وجود داشته باشد تا اترنت به پروتکل شبکه انتخابی تبدیل شود. این شامل شبکههای 400/800G (یا حتی بالاتر) میشود که از طریق سیلیکون شبکهای با پهنای باند فوقالعاده بالا تحویل داده میشوند که امروزه میتواند به 51.2 ترابیت در هر تراشه برسد. علاوه بر این، ارائه دهندگان شبکه در حال پختن در سس مخصوص هستند تا رفتار بدون تلفات در اترنت را بهبود بخشند (به عنوان مثال، توسعه فناوری هایی مانند پارچه های توزیع شده برنامه ریزی شده (DSF)).
چرا فقط “برو به ابر” نیست؟
البته، یکی از گزینههای شرکتها این است که کل محاسبات، ذخیرهسازی و زیرساخت شبکه AI/ML خود را به یک یا چند ارائهدهنده ابر عمومی که این را به عنوان یک سرویس ارائه میدهند، برون سپاری کنند. ارائهدهندگان ابر عمومی سرمایهگذاریهای قابلتوجهی بر روی پردازندههای گرافیکی انجام دادهاند، که این امکان را برای مشتریانشان فراهم میکند که به سرعت افزایش پیدا کنند، زیرا در دسترس بودن GPU در بازار بسیار محدود است. با این حال، مانند هر بحث ابری عمومی و ترکیبی، هر مشتری باید عوامل مختلفی را برای تعیین بهترین مسیر خود در هنگام ساخت خوشههای AI/ML در نظر بگیرد. این شامل هزینه ها، حاکمیت داده ها، مجموعه مهارت های موجود، زمان ارزش گذاری و سایر عوامل می شود.
چه طور باید شروع کرد
مانند رم، AI/ML در یک روز ساخته نشد. همانطور که قبلاً ذکر شد، مسیر پذیرش انبوه AI/ML مسیری طولانی با تناسبهای فراوان بوده است و در طول مسیر شروع میشود. شرکت ها باید این را در نظر داشته باشند که سفرهای AI/ML خود را آغاز می کنند. چند بهترین روش برای کمک به آنها ممکن است شامل موارد زیر باشد:
یکی، از کوچک شروع کنید و با آنچه که قبلاً دارند شروع کنید، زیرا سخت افزار و نرم افزار شبکه موجود ممکن است برای پشتیبانی از AI/ML به عنوان حجم کاری در مراحل اولیه با چند ارتقا و تنظیمات کافی باشد.
دو، سوالات زیادی بپرسید و گزینه های آنها را بسنجید. بسیاری از فروشندگان شبکه های مختلف طیف گسترده ای از راه حل های متناسب با AI/ML را ارائه می دهند. راههای زیادی برای نزدیک شدن به چالش AI/ML وجود دارد، بنابراین برای شرکتها مهم است که به صورت استراتژیک با فروشندگان روی راهحلهای معقول و عملی که برای نیازهای آنها بهینه شدهاند، کار کنند.
سه، هنگامی که آماده هستند، سرمایه گذاری را برای اثبات شبکه خود در آینده برای AI/ML و سایر حجم کاری که هنوز ظاهر نشده اند، انجام دهند. شبکهسازی بیش از هر زمان دیگری در حال پیشرفت است و زمان بسیار خوبی برای شرکتها است تا در مدرنسازی زیرساختهای شبکهشان برای هر آیندهای سرمایهگذاری کنند.
درباره نویسنده: توماس شایب معاون مدیریت محصول برای شبکهسازی مرکز داده سیسکو است. او بیش از دو دهه تجربه در صنعت شبکه با تخصص تخصصی در مرکز داده و فناوری های اتصال نوری دارد. او همچنین به عنوان یکی از اعضای هیئت مدیره اتحاد اترنت خدمت کرده و در رویدادها و کنفرانس های صنعتی مختلف سخنرانی کرده است.