انتقل إلى المحتوى الرئيسي

ما هي إدارة الحوادث؟

إدارة الحوادث (IM) هي العملية التي تستخدمها فرق تكنولوجيا المعلومات للاستجابة لانقطاع خدمة غير مخطط له. تحدث الانقطاعات غير المتوقعة بسبب حوادث مثل فقدان أو تدهور الاتصال بالشبكة، أو عدم تنفيذ مهمة مجدولة (مثل مهمة النسخ الاحتياطي)، أو واجهة برمجة تطبيقات (API) غير مستجيبة. تسعى عملية إدارة الحوادث إلى استعادة التشغيل المعتاد لخدمة تكنولوجيا المعلومات بسرعة وتقليل التأثير على الأعمال. وهذه العملية، يقوم الفريق باكتشاف الحوادث والتحقيق فيها، ويحل المشكلات، ويوثق الخطوات التي يتخذها لاستعادة الخدمة.

لماذا تُعد إدارة الحوادث مهمة؟

توجِّه إدارة الحوادث فرق تكنولوجيا المعلومات حول الاستجابة الأنسب لأي حادث. وتقوم بإنشاء نظام بحيث يمكن لفرق تكنولوجيا المعلومات التقاط جميع التفاصيل ذات الصلة لمزيد من التعلم. يمكنك اعتبار إدارة الحوادث بمثابة دليل الإرشادات لاستعادة العمليات العادية بأسرع ما يمكن مع تقليل التعطيل للعملاء الداخليين والخارجيين إلى الحد الأدنى.

ومن دون وجود أنظمة مطبقة، يؤدي التعافي من الحوادث حتمًا إلى تكرار الأخطاء، وإساءة استخدام الموارد، وتأثير سلبي أكبر على المؤسسة. نناقش فيما يلي بعض الطرق التي تستفيد من خلالها من إدارة الحوادث.

تقليل وقوع الحوادث

من خلال امتلاك دليل إرشادات لاتباعه في حالة وقوع حادث، يمكن للفرق حل الحوادث بأسرع ما يمكن. في الوقت نفسه، تعمل إدارة الحوادث أيضًا على تقليل حدوثها بمرور الوقت. عندما تحدد المخاطر في وقت مبكر من عملية إدارة الحوادث (IM)، فإن ذلك يقلل من فرصة وقوع الحوادث في المستقبل. يساعد التقاط الأدلة الجنائية الكاملة للحادث في المعالجة الاستباقية ويساعد على منع وقوع حوادث مماثلة لاحقًا.

تحسين الأداء

عندما تستخدم مراقبة فعالة وحساسة في إدارة حوادث تكنولوجيا المعلومات، يمكنك تحديد الانخفاضات الطفيفة في الجودة والتحقيق فيها. يمكنك أيضًا اكتشاف طرق جديدة لتحسين الأداء. وبمرور الوقت، يمكن لفريق تكنولوجيا المعلومات الخاص بك الحكم على جودة أنماط تحديد حوادث الخدمة، مما قد يؤدي إلى المعالجة التنبؤية والخدمة المستمرة.

التعاون الفعال

غالبًا ما تضطر الفرق المختلفة إلى العمل معًا من أجل التعافي من الحوادث. يمكنك تحسين التعاون بشكل كبير من خلال تحديد إرشادات الاتصال لجميع الأطراف ضمن إطار عمل الاستجابة للحوادث. يمكنك أيضًا إدارة مشاعر أصحاب المصلحة بشكل أكثر فعالية.

ما هي الأحداث التي تتطلب إدارة الحوادث؟

لا يقتصر استخدام مصطلح إدارة الحوادث على مجال تكنولوجيا المعلومات. خارج نطاق تكنولوجيا المعلومات، ستسمع عن إدارة الحوادث (IM) في مجالات مثل خدمات الطوارئ، وإدارة الأحداث واسعة النطاق، وعمليات المصانع.

لأغراض هذه المقالة، نشير إلى إدارة الحوادث (IM) في سياق إدارة خدمات تكنولوجيا المعلومات (ITSM). في هذا السياق، تركز إدارة الحوادث على أنشطة الإدارة المتعلقة بجودة الخدمة وخدمة العملاء نفسها.

وفيما يلي نناقش أحداث تكنولوجيا المعلومات المختلفة ضمن نطاق IM في إدارة ITSM.

الحادث

ضمن إدارة الحوادث، يمكن تعريف الحوادث بأنها أحداث غير متوقعة تتسبب في انخفاض الجودة المتوقعة أو المتفق عليها لخدمة تكنولوجيا المعلومات. ويمكن أن يكون حجم الحادث صغيرًا أو كبيرًا، ويمكنك الإشارة إلى مدى خطورته. على سبيل المثال، قد يكون الانخفاض في جودة الخدمة في حده الأدنى ومقتصرًا على موقع جغرافي محدد. أو قد تشهد الخدمة انقطاعًا كاملًا عبر مناطق متعددة.

المشكلة

تشير المشكلة إلى السبب الجذري للحادث، والذي يتم اكتشافه بعد مزيد من التحقيق ويكون ضروريًا لحل الحادث بالكامل. على سبيل المثال، إذا كان خادم الويب يعمل ببطء، فقد تكون المشكلة عبارة عن تكوين خاطئ لجهاز التوجيه في مركز البيانات أو كابل شبكة مقطوع في المحيط.

التغيير

في إدارة IM، يشير التغيير إلى عندما تتغير الخدمة نفسها لتحسين الجودة أو إضافة ميزات جديدة، على سبيل المثال. خلال فترة التغيير، يجب التعامل مع عملية الانتقال بعناية لتجنب أو تقليل تعطيل العمليات التجارية العادية. يتضمن ذلك إبلاغ العملاء بانقطاعات الخدمة المتوقعة أو المحتملة.

طلب الخدمة

طلب الخدمة هو طلب يبدؤه العميل ضمن حدود شروط الاتفاقية المبرمة بين المزود والعميل. ويجب تنفيذ الطلب دون الإخلال بالعمليات العادية.

كيف تعمل إدارة الحوادث؟

تستخدم إدارة الحوادث مجموعة من العمليات الموثقة التي تحدد بوضوح ما يجب القيام به لتقليل التأثير السلبي ومدة تعطل تكنولوجيا المعلومات. وإلى جانب الإدارة الفنية للخلل الذي حدث، فإنها تشمل أيضًا إدارة توقعات العملاء، والمستخدمين، وأصحاب المصلحة أثناء وقوع الحادث.

بالنسبة إلى العملاء، تحدد اتفاقيات مستوى الخدمة (SLA) بوضوح ضمانات وقت التشغيل المتوقعة، وأوقات الحل، وقنوات الاتصال الخاصة بالحوادث. ويتطلب ذلك إدارة شاملة للحوادث من جانب مزود الخدمة للوفاء بشروط وأحكام اتفاقيات مستوى الخدمة الخاصة بهم.

اقرأ عن اتفاقيات مستوى الخدمة (SLA)»

أطر عمل إدارة حوادث تكنولوجيا المعلومات

هناك العديد من أطر العمل التي تستخدمها المؤسسات لنمذجة إدارة الحوادث (IM) الخاصة بها. مثالان على ذلك هما إدارة الحوادث من مكتبة البنية التحتية لتكنولوجيا المعلومات (ITIL 4) وإطار عمل الأمن السيبراني من المعهد الوطني للمعايير والتكنولوجيا (NIST). يمكن استخدام أطر العمل هذه كما هي أو توسيعها للتكيف مع بيئات الأعمال الفريدة، والخدمات، ومعايير اتصالات العملاء وأصحاب المصلحة.

غالبًا ما تُستخدم برامج إدارة الحوادث لنشر إطار عمل داخل المؤسسة. يعتمد إطار العمل الدقيق المستخدم على الخدمات المقدمة.

ما هي الخطوات في عملية إدارة الحوادث؟

تعتمد الخطوات المتبعة في عمليات إدارة الحوادث على إطار العمل المستخدم داخل المؤسسة. نناقش تاليًا الخطوات الرئيسية في العديد من أطر عمل دورة حياة إدارة الحوادث الشائعة.

تحديد المخاطر

يحدد التعرف على الأصول والأنظمة والبيانات والموارد الحيوية الأخرى أين تكمن أكبر المخاطر التي تواجه الأعمال. وفي سياق تقديم الخدمات للعملاء، يتضمن ذلك تحديد أنظمتهم وأصولهم الأكثر قيمة.

حماية الأصول

بمجرد تحديد الأصول، تقوم المؤسسات بتعزيز ضوابط الأمان والأداء. على سبيل المثال، يمكن نشر تطبيق عبر عدة مناطق لضمان التوافر المستمر في حالة حدوث انقطاعات إقليمية. 

اكتشاف الحوادث

يجب وضع أنظمة لمراقبة حالة الأصول الحيوية بحيث يمكن تحديد أي حوادث في الوقت الفعلي. يجب أن تكون المؤسسات استباقية في مراقبة الحالات الشاذة؛ وعادةً ما يكون من غير المفضل معرفة حدوث انقطاع لأول مرة من خلال إبلاغ العميل عنه بنفسه. لذا، يتم التركيز على المعالجة الاستباقية.

الاستجابة للحوادث

بمجرد اكتشاف حادث ما، يجب عليك إيقاف أي تعطيل على الفور. إذا لم يكن ذلك ممكنًا، يمكنك اتباع عملية لاحتواء التأثير أو الحد منه. قد تضطر أيضًا إلى تنشيط أنظمة ثانوية حتى يمكن استئناف العمليات حتى لو لم يكن هناك حل سريع.  قد يكون الكثير من هذا مؤتمتًا، اعتمادًا على طبيعة الحادث وأدوات إدارة الحوادث الحالية.

التعافي من الحوادث

في مرحلة التعافي، يبدأ تحليل الحادث. يمكنك استخلاص الدروس المستفادة، وصياغة خطط استجابة محسنة، ومعالجة المشاكل والعمليات. قد تحتاج الحوادث الكبرى إلى جهود تعافٍ كبيرة. توضح الصورة التالية إحدى عمليات إدارة الحوادث التي تستخدمها Amazon Web Services (AWS).

ما أفضل ممارسات إدارة الحوادث؟

تساعد أفضل الممارسات المؤسسات على العمل في أقصى مستويات النضج داخل وحدة أعمال معينة أو مجال استراتيجي. ومن خلال اتباع أفضل الممارسات في أنظمة إدارة الحوادث، يمكنك تقديم أفضل خدمة ممكنة لعملائك.

تطوير سياسات التصعيد

يجب أن تكون قادرًا على تصنيف الحوادث وفقًا لأولوياتها وخطورتها لتوجيه الجداول الزمنية، وعمليات المعالجة، والتحقيقات. يجب عليك تفعيل سياسات التصعيد عندما لا تسير الاستجابة للحوادث كما هو متوقع أو في حال وقوع حادث كبير ذي أولوية أو خطورة عالية. من دون هذه السياسات، قد يهدر فريقك الوقت في تحديد من يجب الاتصال به وما يجب القيام به.

تخطيط الاتصالات بالتفصيل

يجب إبقاء أصحاب المصلحة، بدءًا من فريق تكنولوجيا المعلومات ووصولًا إلى المستخدمين النهائيين، على اطلاع دائم بحالة الحوادث. من المفيد أيضًا وجود قنوات اتصال واضحة حتى يعرف المتأثرون إلى أين يتوجهون للحصول على التحديثات أو للإبلاغ عن حوادث جديدة. من خلال وضع خطط اتصال واضحة، يمكنك بناء الثقة وتجنب إلقاء اللوم في غير محله. يتم دائمًا التعامل مع الحوادث الحرجة بدبلوماسية. 

إجراء تحليل السبب الجذري

بعد حل الحادث، يجب عليك إجراء تحليل للسبب الجذري لفهم سبب وقوع الحادث في المقام الأول. يساعد ذلك في تحديد الثغرات أو نقاط الضعف في النظام، والتي يمكنك معالجتها لمنع وقوع حوادث مماثلة في المستقبل. تعتبر الدروس المستفادة من كل حادث مفيدة في التحسين المستمر للبنية التحتية لتكنولوجيا المعلومات والعمليات.

اعتماد ممارسات هندسة الفوضى

هندسة الفوضى هي تخصص في هندسة البرمجيات حيث يتم إخضاع الأنظمة عمدًا لظروف معطِّلة، مثل أعطال الخادم، أو تأخيرات الشبكة، أو محدودية الموارد. بناء الفوضى داخل الأنظمة يختبر مرونتها ويعزز أيضًا عمليات الاستجابة للحوادث وإدارتها في المؤسسة. ويُعد هذا أسلوبًا مشابهًا لنشر الاختراق الأخلاقي في إدارة حوادث الأمن السيبراني.

كيف يمكن لـ AWS دعم إدارة الحوادث الخاصة بك؟

تمتلك AWS مجموعة من الخدمات التي تساعد المؤسسات على توفير إدارة فعالة للحوادث داخل بيئات AWS والبيئات الهجينة.

تقدم خدمة اكتشاف الحوادث والاستجابة لها من AWS لعملاء دعم الشركات من AWS مراقبة استباقية وإدارة للحوادث لأعباء العمل المحددة الخاصة بهم. وبالعمل مع الخبراء، يمكنك تحديد المقاييس الحيوية، والإنذارات، وجداول تحديد الأولويات لنظام إدارة حوادث تكنولوجيا المعلومات لتسريع التعافي في حالة وقوع حادث.

تساعد الخدمات المُدارة من AWS في حماية معلومات مؤسستك، بالإضافة إلى بنيتها التحتية، من خلال إمكانات الاستجابة للحوادث وحلها من AWS. يمكن استخدام AMS كطريقة للاستعانة بمصادر خارجية لإدارة حوادث تكنولوجيا المعلومات الخاصة بك على AWS، حتى تتمكن مؤسستك من التركيز على أعمالها الأساسية. إليك ما يمكنك فعله باستخدام AMS:

  • طلب المساعدة بشأن المشكلات والطلبات التشغيلية في أي وقت من خلال مركز دعم AWS في وحدة تحكم AWS.

  • الحصول على دعم على مدار الساعة طوال أيام الأسبوع مع وقت استجابة يعتمد على مستوى الخدمة المحدد لحسابك (Plus وPremium).

  • تلقي إشعارات استباقية بالتنبيهات والأسئلة المهمة باستخدام نفس الآليات.

وكجزء من AWS Well-Architected Framework، نقدم أيضًا إرشادات واضحة لإدارة الحوادث السحابية. إنه مورد جيد للمساعدة في تخطيط إدارة الحوادث للمؤسسات التي تقدم خدمات تكنولوجيا المعلومات الخاصة بها والتي تستخدم خدمات AWS السحابية. تُعد خدمة الاستجابة للحوادث الأمنية من AWS موردًا آخر مفيدًا للحوادث المتعلقة بالأمان.

ابدأ في إدارة الحوادث على AWS من خلال إنشاء حساب اليوم.

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

جار التحميل
جار التحميل
جار التحميل
جار التحميل
جار التحميل

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages