درس های آموخته شده از آتش سوزی مرکز داده

ساعت 5 صبح است. شما به خوبی در تخت خوابیده اید. تلفن زنگ می زند. این یکی از همکاران توضیح می دهد که در مرکز داده شما آتش سوزی وجود دارد. چند لباس می‌اندازی و به سر کار می‌روی.

آنچه در آنجا می بینید ناراحت کننده است. آتش سوزی باعث ایجاد یک وضعیت اضطراری شد قدرت پایین و سیستم هالون خاموش شد و گاز هالون را برای محافظت از تجهیزات تخلیه کرد. این یک آشفتگی است.

در این مورد، پایان خوشی داشت. مدیریت صحیح حوادث همراه با تداوم کسب و کار خوب و فرآیندهای بازیابی فاجعه، امکان بازگرداندن سریع همه خدمات آنلاین را فراهم می کند. سپس کارکنان بازبینی انجام دادند تا مشخص شود چه چیزی خوب پیش رفته است و چه چیزی باید بهبود یابد.

جیمز مونک، مدیر زیرساخت های فناوری و عملیات در دانشگاه لیهای، پنسیلوانیا، کل ماجرا را طی جلسه ای در مرکز داده جهانی توضیح داد. او شگفتی‌های مختلفی را که او و تیمش با آن مواجه شدند، درس‌های زیادی که آموخته‌اند، و اخلاقیات داستان را بیان کرد: تیم‌های آماده چگونه می‌توانند تحت فشار بسیار زیاد با یکدیگر همکاری کنند تا از تأثیر مخرب بلایا بر عملیات جلوگیری کنند.

واکنش به حادثه: گام های اول

برخی از آتش سوزی های مرکز داده ممکن است آنقدر جدی باشند که ورود به آن غیرممکن باشد محل. خوشبختانه آتش سوزی در این مورد نسبتاً جزئی بود. با این حال، زنجیره ای از وقایع را رقم زد که باعث شد بدتر از آنچه بود به نظر برسد.

مربوط:تاریخچه AWS Cloud و مرکز داده قطع می شود

مونک می‌دانست که وحشت نکند. او و تیمش اغلب برای این لحظه از طریق مانورهای بازیابی فاجعه و تداوم کسب و کار آماده شده بودند.

او گفت: «ما فقط باید فرآیند مدیریت حادثه را دنبال می‌کردیم.

این فرآیند مشخص می‌کرد که چه کسی وضعیت اضطراری را اعلام کرد، رویه‌هایی که باید دنبال شود، چه کسی در نهایت مسئول حل و فصل حادثه بود، و اولویت‌هایی که از نظر اینکه کدام یک از عملیات‌ها و ردیف‌های خدماتی باید ابتدا بازیابی یا رسیدگی شوند و چه کسی می‌توانست منتظر بماند.

گردش‌های کاری واضح برای ارتباطات حادثه نیز بخشی از معادله بود، و همچنین صرف زمان پس از حل برای بررسی علل ریشه‌ای، درس‌های آموخته‌شده، و انجام هرگونه تجدید نظر در روش‌های واکنش به حادثه موجود برای مقابله بهتر در دفعه بعدی که فاجعه رخ می‌دهد، بود.

مانک افزود: «کارکنان نقش خود را به خوبی انجام دادند و بخشی از رویکرد هماهنگ، تفرقه بینداز و حکومت کن. ما تیم‌های فنی را ترتیب دادیم تا روی بازیابی منابع تمرکز کنند و تیم دیگری که وظیفه رهبری را با به‌روزرسانی‌ها و ارتباط با جامعه گسترده‌تر کالج را برعهده داشت.»

آتش‌سوزی مرکز داده: جدول زمانی حادثه

زنگ ساعت کمی بعد از ساعت 5 صبح به صدا درآمد و در نتیجه برق کل مرکز داده قطع شد و سیستم اطفاء حریق گاز هالون را به داخل تاسیسات پمپ کرد. مونک و دیگران قبل از ساعت 6 صبح در محل حاضر شدند. آنها اولویت های از پیش تعیین شده خود را برای بازگرداندن برق و دسترسی آنلاین به منابع حیاتی و برنامه های کاربردی اولویت دار دنبال کردند. کمی بعد از ساعت 10 صبح، بیشترین منابع حیاتی بودند بازگشت آنلاین. تیم از طریق فهرست اولویت ها به کار خود ادامه داد. تا ساعت 5 بعدازظهر، همه خدمات یک بار دیگر در دسترس بودند.

مربوط:غیر معمول ترین و منحصر به فرد ترین مراکز داده جهان

روز بعد، مخازن هالون از مرکز داده خارج شدند و برای پر کردن مجدد فرستاده شدند. پنج روز بعد، مخازن پر شده نصب شدند. این آخرین عنصر مورد نیاز برای بازگرداندن سیستم آتش نشانی به عملکرد کامل بود.

مونک گفت: «هفت روز پس از این حادثه، سیستم اطفاء حریق مجدداً پیکربندی شد، بازرسی را پشت سر گذاشت و به صورت آنلاین ارائه شد.

بررسی حادثه

هنگامی که گاز پراکنده شد، گرد و غبار نشست و خدمات عادی از سر گرفته شد، زمان آن رسیده بود که مونک آن را “بازنگری بی عیب و نقص” می نامد.

او توضیح داد: «بهترین رویکرد، تمرکز بر بهبود مستمر هنگام بحث در مورد مشاهدات و یافته‌ها، چه مثبت و چه منفی است.

همه چیز مستند شده بود و جلساتی با اعضای تیم خاص در مورد اقدامات پیگیری برای حل مشکلات برنامه ریزی شد. 35 مورد از فهرست کارها وارد سیستم فروش بلیط شد.

مونک بر ارزش تأکید بر آنچه که درست انجام شد تأکید کرد. در این مورد، سیستم اطفاء حریق همانطور که طراحی شده بود کار می کرد، کارکنان با وجود شرایط برفی به سرعت در محل حاضر شدند و از نرم افزار کنفرانس ویدئویی برای اطلاع همه افراد استفاده شد.

علاوه بر این، کارکنان وحشت نکردند و همه به درستی فرآیندهای واکنش به حادثه را رعایت کردند. بنابراین، قطعنامه در یک روز برای همه خدمات اتفاق افتاد.

Monek گفت: «ما خوشحال بودیم که فرآیند روشن کردن مرکز داده ما به خوبی کار می‌کرد.

با این حال، مناطقی که نیاز به بهبود دارند منزوی شدند. بزرگترین چالش های تجربه شده در طول این حادثه مربوط به ذخیره سازی شبکه منطقه ای (SAN).

مونک گفت: «در حالی که بیشتر افزونگی های تعبیه شده در خدمات به عنوان طراحی کار می کرد، بسیاری از خدمات در دسترس نبودند. مشکلات SAN علت اصلی بسیاری از سرویس‌ها مانند ورود به سیستم، وب‌سایت‌ها، سرویس‌های ابری و غیرقابل دسترس بودن سیستم تلفن بود.»

از آنجایی که وب‌سایت‌های لیهای و خدمات کتابخانه و فناوری (LTS) از کار افتاده بودند، کانال‌های کلیدی برای برقراری ارتباط مؤثر با جامعه کالج در دسترس نبود. بعلاوه، سیستم ویدئویی چون مستقیماً به برق مرکز داده متصل بود، کار نمی‌کرد. لیست های تلفن نیز غیرقابل دسترسی بودند زیرا فقط به صورت آنلاین در دسترس بودند. در نهایت، مونک خاطرنشان کرد که سردرگمی در مورد اینکه کدام خدمات مهم‌ترین هستند وجود دارد. با وجود تمام این موانع، تیم مرکز داده همه چیز را ظرف یک روز حل کرد.

درس های آموخته شده

Monek چندین درس آموخته شده را به دلیل تجربه آتش سوزی در مرکز داده بیان کرد. او اکنون به دنبال کردن یک فرآیند مدیریت حادثه بدون توجه به اندازه حادثه، و همچنین ارزش اسناد بازیابی فاجعه و داشتن لیست تماس های موجود فراتر از فهرست آنلاین، اعتقاد راسخ دارد.

مشخص شد که در چنین شرایطی به تیم های فنی و رهبری جداگانه نیاز است. شخصی باید فرد مورد علاقه رهبری سازمان باشد، تماس‌های او را بپذیرد و به‌روزرسانی‌های منظم را به آنها ارائه دهد. آن تیم همچنین مسئولیت دارد که به طور مؤثر این خبر را به همه ذینفعانی که تحت تأثیر قطعی قرار گرفته اند، برساند.

مونک گفت: «ما ایجاد یک لیست عملیات دقیق تر برای حوادث آینده و آزمایش کامل انعطاف پذیری را مفید یافتیم. نکته اصلی این است که به تیم های خود اعتماد کنید.

قطع شدن مرکز داده پرهزینه است

سختگیری فرآیندهای بازیابی فاجعه Lehigh کاملاً مستدل است. قطع شدن مراکز داده گرانتر از همیشه است.

بیل کلیمن، رئیس برنامه جهانی مرکز داده، گفت: «زمانی که خاموشی رخ می دهد، گران تر می شود، روندی که احتمالاً با افزایش وابستگی به خدمات دیجیتال ادامه خواهد یافت. با بیش از دو سوم تمام خاموشی ها که بیش از 100000 دلار هزینه دارند، زمینه تجاری برای سرمایه گذاری بیشتر در انعطاف پذیری – و آموزش – قوی تر می شود.

در حالی که آتش سوزی نسبتاً نادر است، قطع برق همچنان عادی است. بررسی های موسسه Uptime نشان می دهد که 55 درصد از اپراتورهای مرکز داده در سایت خود دچار اختلال شده اند در سه سال گذشته علاوه بر این، 4 درصد از اپراتورها در سه سال گذشته دچار قطعی شدید شده اند و 6 درصد نیز گفته اند که با قطعی جدی مواجه شده اند.

کریس براون، مدیر ارشد فناوری مؤسسه Uptime، گفت: «فرکانس کمتری از خاموشی‌های جدی یا شدید اخیراً وجود دارد، اما مواردی که رخ می‌دهند اغلب بسیار گران هستند.


Source link