خطای پشتیبان‌گیری مرکز داده به گردن یک نفر است، نه رهبری NYSE | دانش مرکز داده

به گزارش بلومبرگ نیوز، دوشنبه شب یکی از کارکنان بورس نیویورک (NYSE) پس از تکمیل پشتیبان گیری از معاملات روز، سیستم پشتیبان سازمان را به صورت دستی خاموش نکرد. نزدیک به دو روز

این دومین خرابی سیستم پرمخاطب به دلیل خطای انسانی در این ماه است، که نشان می‌دهد اندازه سازمان ممکن است بهترین شیوه‌ها را در مرکز داده و مدیریت بازیابی فاجعه تضمین نکند.

دو هفته پیش، اداره هوانوردی فدرال (FAA) با قطعی مواجه شد که باعث توقف پروازهای داخلی و هزاران تاخیر و لغو پرواز شد. این خطا به دلیل حذف یک فایل خراب در سیستم های اصلی و پشتیبان FAA توسط پیمانکار ایجاد شد.

خرابی سیستم این هفته از دوشنبه شب زمانی آغاز شد که کارمندان NYSE اتصال سیستم معاملاتی را به مرکز داده Cermak در شیکاگو، جایی که NYSE از داده‌های معاملات روزانه نسخه پشتیبان تهیه می‌کند، قطع نکرد. سیستم ها معتقد بودند که معاملات روز سه شنبه ادامه معاملات روز دوشنبه است. این امر باعث نوسانات شدید قیمت در بورس شد. NYSE هنوز خسارات مالی ناشی از این نظارت بر سیستم ها را افشا نکرده است.

پیامدهای NYSE: شرکت‌های سرمایه‌گذاری برای جبران زیان‌های ناشی از نوسانات غیرقابل پیش‌بینی قیمت ناشی از مشکل سیستم‌ها، ادعاهایی را به سازمان معاملات سهام ارائه می‌کنند. برخی تخمین می زنند که هزینه این خطای بازیابی فاجعه می تواند به صدها میلیون برسد.

مشکلات مربوط به بازیابی فاجعه مرکز داده با پشتیبانی C-Suite برطرف شد

هر دو FAA و NYSE فردی را به عنوان منبع خرابی سیستم ها شناسایی کردند. با این حال، تحلیلگران بر این باورند که هر دو مشکل 100٪ قابل اجتناب بودند.

دنیس هان، تحلیلگر Omdia می گوید: «اتوماسیون خطای انسانی را حذف می کند دانش مرکز داده. “اگر این [disaster recovery system] باید به صورت دستی خاموش شود، این مضحک است و مشکل را می طلبد.

هان ادامه داد که شرکت ها به خوبی انجام می دهند:

  1. از طریق فناوری‌های هوش مصنوعی در نرم‌افزار، هوش بیشتری به اتوماسیون اضافه کنید.
    هان می گوید: «فروشندگان پشتیبان امروزی به طور فزاینده ای هوش مصنوعی را به سیستم های خود اضافه می کنند تا پیکربندی های نادرست را شناسایی کنند.
  2. شبح خطای انسانی را از طریق خرید C-suite برای اتوماسیون سیستم ها حذف کنید.
    در حالی که FAA و NYSE هر دو بلایای اخیر خود را زیر پای افراد گذاشته اند، هان می گوید که در نهایت رهبری استراتژیک مقصر است.
    “این [the NYSE systems error] به احتمال زیاد یک پیکربندی نادرست در زمان‌بندی سیستم‌های DR است. DCIM می توانست کمک کند، اما معمولا سطح بالاتر از این به نظر می رسد [staffer-level] مسئله.”
  3. از اتوماسیون هوش مصنوعی برای ایمن سازی پشتیبان گیری و در عین حال جلوگیری از حملات سایبری استفاده کنید.
    هان می‌گوید: «بدانید که همین فناوری‌های هوش مصنوعی در خنثی کردن حملات باج‌افزار و محافظت از داده‌های بازیابی در سیستم‌های پشتیبان‌گیری و DR امروزی بسیار ارزشمند هستند.

در حالی که چندین سال است که بخش‌هایی از هوش مصنوعی در نرم‌افزار DCIM مورد استفاده قرار می‌گیرد، سیستم‌های جدیدی برای مدیریت زیرساخت مرکز داده در حال ظهور هستند که حول فناوری هوش مصنوعی، به‌ویژه در اتوماسیون و مدل‌سازی پیش‌بینی‌کننده طراحی شده‌اند.

در مقاله‌ای اخیر، مارک گارنر، معاون بخش انرژی امن در اشنایدر الکتریک، گفت: علاوه بر قابلیت‌های ابری، سیستم DCIM نسل بعدی باید «به دریاچه داده متصل شود تا از هوش مصنوعی استفاده کند و بینش‌های عمیق ارائه دهد».

آیا DCIM تقویت شده با هوش مصنوعی می تواند از خرابی سیستم NYSE جلوگیری کند؟ با یک جزء پشتیبان خودکار از یک سیستم بازیابی فاجعه که در DCIM یکپارچه شده است، بله.

چگونه اتوماسیون پشتیبان گیری مبتنی بر هوش مصنوعی خطرات خرابی سیستم را حذف می کند

نشریه خواهر ما AI Business به موضوع یادگیری الگوهای پشتیبان گیری سیستم های هوش مصنوعی برای پیش بینی و جلوگیری از خطاهای فاجعه بار سیستم یا خرابی های کامل پرداخت. در اینجا گزیده ای از مقاله اخیر در این زمینه آمده است:

برای موقعیت‌هایی که تداوم کسب‌وکار به پشتیبان‌گیری نیاز دارد، پشتیبان‌گیری‌های مبتنی بر خط‌مشی آنچه را که JG Heithcock، مدیر مهندسی نرم‌افزار در Google توصیف می‌کند، به عنوان «تمرکز قوی بر الگوریتم‌ها» برای تسهیل تعدادی از مزیت‌های هوش مصنوعی توصیف می‌کند.

به‌جای زمان‌بندی دقیق کارها در یک توالی از پیش تعریف‌شده در یک زمان معین، این نوع هوشمندی پشتیبان سازمان‌ها را قادر می‌سازد تا ملزومات پشتیبان‌گیری خود را مشخص کنند – از کدام ماشین‌ها، به دفعات و کجا پشتیبان‌گیری کنند – سپس به سیستم اجازه می‌دهد آنها را مدیریت کند. به طور خاص، ترکیبی از یادگیری ماشین و الگوریتم های استاتیک مسئول موارد زیر است:

پشتیبان گیری غیر متوالی: راه‌حل‌های پشتیبان‌گیری هوشمند، عملکرد خود را در توالی‌های مختلف بر اساس در دسترس بودن دستگاه‌ها ارائه می‌کنند، که برای لپ‌تاپ، تبلت و گوشی‌های هوشمند نوسان دارد. اگر لپ‌تاپ کارمند خاصی برای پشتیبان‌گیری روزانه در ساعت هشت صبح در دسترس نباشد، سیستم از دیگری نسخه پشتیبان تهیه می‌کند در حالی که «هنوز به دنبال این است که ببیند آیا [the first machine] هایثکاک گفت: آنلاین شده است.

سلسله مراتب ترجیحی پشتیبان: بخشی از قابلیت‌های تصمیم‌گیری هوش مصنوعی که این سیستم‌ها را تقویت می‌کند، برای تعیین اینکه کدام پشتیبان‌ها از نظر اهمیت بیشتر از سایرین هستند، اعمال می‌شود. به عنوان مثال، اگر یک خط مشی خواستار پشتیبان گیری روزانه باشد و یک کارمند سه روز آفلاین بوده باشد، در حالی که دیگری فقط یک روز و نیم آفلاین بوده است، سیستم به عنوان اولویت از اولی نسخه پشتیبان تهیه می کند. هیثکاک خاطرنشان کرد: «این بخش فعال یا بخش هوش مصنوعی است. او می‌خواهد فهرست اولویت‌های خود را تنظیم کند تا ابتدا به افرادی برسد که بیشتر از همه خارج از سیاست هستند.»

اولویت بندی های زمانی: یکی دیگر از جنبه‌های مهم هوش ماشینی که توسط پشتیبان‌گیری‌های هوشمند استفاده می‌شود، توانایی اولویت‌بندی مشاغل بر اساس مدت زمانی است که طول می‌کشد. اگر دو کار باید همزمان انجام شوند (یعنی تفاوت کمی در زمان آخرین نسخه پشتیبان وجود دارد) اما “Able کسی خواهد بود که می توانید در 10 دقیقه از او نسخه پشتیبان تهیه کنید و فرد دو ساعت از شما وقت می گیرد، پس از آن نسخه پشتیبان تهیه می کند. [former] هیثکاک گفت: ابتدا با او کار را تمام کنم و زمان بیشتری برای انجام کار دیگر داشته باشم.

خط پایانی: با حرکت سازمان ها به سمت مدرن شدن، وابستگی انحصاری به مداخله انسانی منجر به صدها میلیون دلار خسارت می شود، مانند مورد NYSE. انسان‌ها و سیستم‌ها می‌توانند هماهنگ کار کنند، اما واضح است که بدون اتوماسیون و تجزیه و تحلیل پیش‌بینی‌کننده هوش مصنوعی، شرکت‌ها ممکن است فجایع خود را به دلیل تعهد به «wetware» یا هوش انسانی به تنهایی ایجاد کنند.