Resilience سس مخفی Uptime است

ایجاد یک سازمان تاب آور می تواند تفاوت بین مرگ و زندگی باشد زیرا به تداوم کسب و کار و زمان کار. هنگامی که سفر خود را به سمت انعطاف‌پذیری آغاز می‌کنید، می‌خواهید با استفاده از سیاست‌ها، فرآیندها، افراد و فناوری برای دستیابی به اهداف خود از یک رویکرد چند جانبه استفاده کنید.

در این جلسه کلیدی آرشیو شده، Alapan Arnab، vCISO و مشاور امنیت سایبری و انعطاف‌پذیری مشاوره Apedemak، روش‌هایی را برای آنلاین نگه داشتن عملیات در مواجهه با هر چالشی بررسی می‌کند.

این بخش بخشی از رویداد مجازی زنده ما با عنوان “راهنمای امنیت و انعطاف پذیری زیرساخت” بود که این رویداد توسط Network Computing و Data Center Knowledge در 7 نوامبر 2024 ارائه شد.

متنی از ویدئو در زیر آمده است. ویرایش های جزئی برای وضوح انجام شده است.

خرگوش آلاپان: به طرف مقابل بروید، وقتی حادثه ای دارید چه اتفاقی می افتد؟ واکنش حادثه در واقع مجموعه ای از رویدادهای مجزا است که در نحوه انجام بازیابی کلی با هم جمع می شوند. برای بهبود سیستماتیک زمان خود برای بهبودی، باید همه این عناصر را داشته باشید و هر یک از آنها را با نیازهای سازمان خود هماهنگ کنید.

با شروع از سمت چپ با حادثه، که تشخیص است، می‌توانید به مواردی مانند ابزار مشاهده‌پذیری نگاه کنید. همچنین می‌توانید به گزارش‌ها و همبستگی رویدادها نگاه کنید، زیرا ممکن است در نهایت با انواع مختلفی از ابزارهای مشاهده‌پذیری مواجه شوید که سطوح مختلفی از اطلاعات را در اختیار شما قرار می‌دهند. مرتبط با ابزار اطراف تشخیص هشدار است.

مرتبط:چگونه دستگاه های شبکه ناامن می توانند مراکز داده را در معرض حمله قرار دهند

دانستن اینکه مشکلی از طریق ابزار مشاهده پذیری اشتباه شده است یک چیز است، اما برای تیم هایی که باید نسبت به آن واکنش نشان دهند یک چیز دیگر است. هشدارها از پیام‌ها و ایمیل‌های تیم شما و همچنین تماس‌های تلفنی و پیام‌های متنی دریافت می‌شوند. ابزارهایی وجود دارند که به صورت خودکار صفحه را انجام می دهند.

ابزارهایی برای مدیریت تیم های اطراف ریکاوری شما وجود دارد. این شامل افرادی است که در تعطیلات تعطیل هستند یا دور هستند و افرادی که شیفت کار می کنند. چگونه همه این قطعات را در سازمان گسترده تر مدیریت می کنید؟ هنگامی که به شما هشدار داده شد، گام بعدی این است که تیم بازیابی خود را جمع آوری کنید.

اینجاست که فرآیندهای حادثه و کتاب‌های بازی بازیابی تمرکز می‌شوند تا اطمینان حاصل شود که مونتاژ شده نقش‌ها و مسئولیت‌های خود را می‌داند. آنها باید بدانند که چگونه شروع به بررسی علت اختلال کنند. این نیاز به آموزش دارد و نیاز به مهارت در تیم ریکاوری دارد.

بخشی از آن شناخت محیط و مستندات است که به وضوح کمک می کند. توانایی خواندن گزارش‌هایی که از مدیریت گزارش شما می‌آیند، و دانستن اینکه چه مسائل رایجی در محیط یا محیط‌های فنی وجود دارد، کمک می‌کند. البته سوابق را تغییر دهید، زیرا در بسیاری از موارد حوادث به دلیل تغییر ایجاد می شود.

مرتبط:چگونه یک ریاست جمهوری دوم ترامپ می تواند صنعت مرکز داده را شکل دهد؟

پس از بررسی واضح است که راه حل است. یکی از بخش‌های رفع مشکل می‌تواند انزوا باشد. می‌توانید درباره انجام دستورالعمل‌های بازیابی از کتاب بازی بازیابی خود صحبت کنید و به اتوماسیون در بازیابی خود نگاه کنید. این بخش از بازیابی همچنین می تواند برای استفاده از محیط هایی مانند محیط های بازیابی فاجعه شما باشد.

می‌توانید به طور بالقوه مشکل را جدا کنید، به بازیابی فاجعه بازیابی کنید و سپس به رفع مشکل ادامه دهید. اکنون، سرویس پشتیبان‌گیری می‌شود و پس از آن با یک حادثه با اولویت پایین‌تر مواجه می‌شوید. در نهایت اعتبار سنجی است. من یک مثال خوب از اعتبار سنجی را به شما می گویم که تجربه زیادی با آن داشته ام.

فرض کنید سرویس را برگردانید، اما این سرویس دارای عناصر دیگری است که بازیابی نشده اند. داشتن تست خودکار به شما کمک می کند تا زنجیره کامل خدمات در حال اجرا را تأیید کنید. آخرین بخش بهبودی، انطباق و یادگیری از پس از مرگ این اختلال است.

این به شما امکان می دهد تا واقعاً علت اصلی شکست را که یک عنصر کلیدی است، درک کنید. یکی از موارد کلیدی که باید برجسته شود این است که بیش از یک علت اصلی وجود دارد. دلیل اصلی لزوماً یک مورد واحد نیست زیرا ممکن است چندین مورد کمک کننده باشد.

مرتبط:چگونه طراحی مرجع مرکز داده می تواند برنامه ریزی زیرساخت شما را ساده کند

شما باید بپرسید که چرا این چند بار اتفاق افتاده است، که واقعا می تواند به شما کمک کند تا به علت اصلی برسید. دلایل می تواند ناشی از قصد باشد، مانند مسائل سایبری شما. این می تواند به دلیل خرابی های کنترلی، مانند خطاها، مشکلات طراحی، شکست فرآیندها و حتی تصادفات باشد.

اما تلاش برای درک اینکه چرا پاسخ بسیار واضح تری در مورد همه عوامل مؤثر به شما می دهد. اصلاح چیزی است که پس از بهبودی باید آن را اجرا کنید تا راه حلی طولانی مدت داشته باشید. همچنین مهم است که توجه داشته باشید که اصلاح می تواند برای بسیاری از سیستم های دیگر در سازمان مورد نیاز باشد.

بنابراین، ممکن است در یک محیط دچار شکست شده باشید، اما همان شکست ممکن است در چندین مکان مورد نیاز باشد.

برای اطلاعات بیشتر، رویداد مجازی زنده بایگانی شده “راهنمای امنیت و انعطاف پذیری زیرساخت” را تماشا کنید


Source link