به گزارش سی ان ان، قطعی دیروز که باعث توقف بیش از 7000 پرواز فرود در ایالات متحده شد، توسط یک پرونده فاسد در سیستم های اولیه و پشتیبان اداره هوانوردی فدرال ایالات متحده (FAA) رخ داد.
در حالی که قطعی مرکز داده نیست، قطع سیستم FAA درس های زیادی برای صنعت مرکز داده دارد، از جمله نیاز به مقابله با “paleoware” (همچنین به عنوان نرم افزار قدیمی شناخته می شود) و سیستم های نگهداری نشده قبل از تبدیل شدن به یک مشکل اصلی. ردیابی قطعهایی که ارائهدهندگان خدمات ابری در شش ماه گذشته تجربه کردهاند، بسیاری از آنها به دلیل تجهیزات معیوب مانند قطعی اخیر مرتبط با خنککننده علیبابا، و باتری لیتیوم یونی کاکائو/قطعی ناشی از آتش سوزی بوده است. همچنین مهم است که توجه داشته باشید که برای برخی از خاموشی ها، CSP ها هیچ دلیلی ندارند.
اظهارات کنونی رهبران پیرامون قطع FAA تنها یک نقطه از شکست را در یک سیستم غیرقابل اجرا مقصر می دانند. با این حال، پیچیدگی نقشی که در تحریک تنها محرک خاموشی دارد، وجود دارد.
پیت بوتیگیگ، وزیر حمل و نقل ایالات متحده، به آندریا میچل، از NBC News می گوید: «این یک سیستم فوق العاده پیچیده است. “بنابراین اشکالات یا عوارض همیشه اتفاق می افتد.”
چگونه سیستم های پیچیده شکست می خورند
بیایید عمیقتر به موضوع پیچیدگی سیستمها بپردازیم تا بینشهای کلیدی برای مدیریت مرکز داده و زمان آپدیت را کشف کنیم.
کتابی کلاسیک که توسط دکتر ریچارد آی کوک، MD، آزمایشگاه فناوری های شناختی، دانشگاه شیکاگو نوشته شده است، با عنوان “چگونه سیستم های پیچیده شکست می خورند” 18 ملاحظات کلیدی را برای مدیریت سیستم های پیچیده برجسته می کند. در اینجا گزیده ای از برجسته ترین نکات قابل اجرا در مراکز داده آورده شده است:
فاجعه مستلزم چندین شکست است – شکست های تک نقطه ای کافی نیستند.
به خاطر سادگی، بسیاری از سازمان ها یک پس از مرگ ساده و یدکی از قطع شدن مرکز داده ارائه می کنند. با این حال، کاهش عملیاتی خرابی های سیستم های پیچیده است که از فجایع جلوگیری می کند. دکتر کوک نوشت: “بیشتر مسیرهای شکست اولیه توسط اجزای ایمنی طراحی شده سیستم مسدود می شوند.” «مسیرهایی که به سطح عملیاتی میرسند، معمولاً توسط تمرینکنندگان مسدود میشوند.»
سیستم های پیچیده با وجود نقص های ذاتی اجرا می شوند.
مهم نیست که یک فرآیند چقدر واضح است یا یک اتوماسیون چقدر “خودکار” است، مداخله انسانی و دانش سازمانی برای زمان ثابت و عملیات روان ضروری است. نمونه موردی: CNN با یک منبع آشنا با قطعی FAA مصاحبه کرد. این منبع گفت: “سیستم NOTAM نمونه ای از زیرساخت های قدیمی است که به دلیل تعمیرات اساسی.”
این منبع به CNN گفت: «به دلیل نگرانیهای بودجه و انعطافپذیری بودجه، این بهروزرسانی فناوری متوقف شده است. “من فرض می کنم اکنون آنها واقعاً برای انجام این کار پول پیدا می کنند.”
پزشکان انسانی عنصر سازگار سیستم های پیچیده هستند.
سازگاری های پیچیده سیستم شامل تنظیم قطعات / اجزای آسیب پذیر است. تمرکز منابع حیاتی در مناطق با بیشترین تقاضا؛ ایجاد برای عقب نشینی سریع یا بازیابی از خطاهای غیرمنتظره سیستم؛ توسعه سیستمهای تشخیص زودهنگام برای هشدار به اپراتورها در مورد نیاز به انعطافپذیری بیشتر سیستم.
یکی از کاربردهای این مفاهیم در دنیای مرکز داده، DCIM است. حتی با وجود دید قدرتمندی که سیستمهای DCIM به کاربران میدهند، تخصص مهندسی در سطح رک و دانش سازمانی ممکن است عناصر کلیدی بین سازمان شما و یک حادثه خرابی شدید باشند.