a11y-skip-to-main-content

Apa itu Manajemen Insiden?

Apa itu Manajemen Insiden?

Manajemen insiden (IM) adalah proses yang digunakan tim IT untuk merespons gangguan layanan yang tidak direncanakan. Gangguan tidak terduga terjadi karena insiden, seperti kehilangan atau degradasi konektivitas jaringan, tugas terjadwal (seperti tugas pencadangan) yang tidak dilakukan, atau API yang tidak responsif. Proses manajemen insiden mencoba memulihkan operasi reguler layanan IT dengan cepat dan meminimalkan dampak bisnis. Dalam prosesnya, tim mendeteksi dan menginvestigasi insiden, menyelesaikan masalah, dan mendokumentasikan langkah-langkah yang mereka ambil untuk memulihkan layanan.

Mengapa Manajemen Insiden Penting?

Manajemen insiden memandu tim IT mengenai respons yang paling tepat untuk insiden apa pun. Manajemen insiden menciptakan sistem, sehingga tim IT dapat menangkap semua detail yang relevan untuk pembelajaran lebih lanjut. Anda dapat mempertimbangkan manajemen insiden sebagai playbook untuk memulihkan operasi normal secepat mungkin dengan gangguan minimal pada klien internal dan eksternal.

Tanpa adanya sistem, pemulihan insiden pasti akan menyebabkan kesalahan yang berulang, sumber daya yang disalahgunakan, dan dampak negatif yang lebih besar pada organisasi. Berikutnya, kami membahas beberapa keuntungan yang dapat Anda peroleh dari manajemen insiden.

Mengurangi Kejadian Insiden

Dengan memiliki playbook yang dapat dijadikan acuan jika terjadi insiden, tim dapat menyelesaikan insiden secepat mungkin. Pada saat yang sama, manajemen insiden juga mengurangi kejadian dari waktu ke waktu. Saat Anda mengidentifikasi risiko sejak dini dalam proses IM, hal ini mengurangi kemungkinan insiden pada masa mendatang. Menangkap forensik insiden secara lengkap membantu remediasi proaktif dan membantu mencegah insiden serupa terjadi di kemudian hari.

Meningkatkan Performa

Saat menggunakan pemantauan yang efektif dan sensitif dalam manajemen insiden IT, Anda dapat mengidentifikasi serta menginvestigasi penurunan kecil dalam kualitas. Anda juga dapat menemukan cara baru untuk meningkatkan performa. Seiring waktu, tim IT Anda dapat menilai kualitas pola identifikasi insiden layanan, yang dapat mengarah pada remediasi prediktif dan layanan berkelanjutan.

Kolaborasi yang Efektif

Tim yang berbeda sering harus bekerja sama untuk pemulihan insiden. Anda dapat meningkatkan kolaborasi secara signifikan dengan menguraikan pedoman komunikasi untuk semua pihak dalam kerangka kerja respons insiden. Anda juga dapat mengelola sentimen pemangku kepentingan secara lebih efektif.

Apa Saja Peristiwa yang Membutuhkan Manajemen Insiden?

Istilah manajemen insiden tidak digunakan secara eksklusif di bidang IT. Di luar IT, Anda akan mendengar IM di bidang-bidang, seperti layanan darurat, manajemen peristiwa skala besar, dan operasi pabrik.

Untuk tujuan artikel ini, kami merujuk ke IM dalam konteks manajemen layanan IT (ITSM). Dalam konteks ini, manajemen insiden berfokus pada kegiatan manajemen mengenai kualitas layanan dan layanan pelanggan itu sendiri.

Berikutnya, kami membahas berbagai peristiwa IT dalam lingkup IM di ITSM.

Insiden

Dalam manajemen insiden, insiden dapat didefinisikan sebagai peristiwa tidak terduga yang menyebabkan penurunan kualitas layanan IT yang diharapkan atau disepakati. Skala insiden dapat berupa kecil atau besar, dan Anda dapat menunjukkan kekritisannya. Misalnya, penurunan kualitas layanan dapat bersifat minimal dan terbatas pada wilayah geografis tertentu. Atau layanan mungkin mengalami pemadaman total di banyak wilayah.

Masalah

Masalah mengacu pada penyebab yang mendasari insiden, yang ditemukan setelah investigasi lebih lanjut dan diperlukan untuk penyelesaian insiden penuh. Misalnya, jika server web berjalan lambat, masalahnya mungkin adanya kesalahan konfigurasi router di pusat data atau kabel jaringan yang terputus di perimeter.

Perubahan

Dalam IM, perubahan mengacu pada saat layanan itu sendiri berubah untuk meningkatkan kualitas atau menambahkan fitur baru, misalnya. Selama periode perubahan, rollover harus ditangani dengan hati-hati untuk menghindari atau meminimalkan gangguan pada operasi bisnis normal. Hal ini termasuk memberi tahu klien tentang antisipasi atau potensi gangguan layanan.

Permintaan Layanan

Permintaan layanan adalah permintaan yang diajukan oleh pelanggan dalam batas-batas ketentuan perjanjian penyedia-klien. Permintaan harus dilakukan tanpa mengganggu operasi normal.

Bagaimana Cara Kerja Manajemen Insiden?

Manajemen insiden menggunakan serangkaian proses terdokumentasi yang secara jelas menguraikan hal-hal yang perlu dilakukan untuk meminimalkan dampak negatif dan durasi gangguan IT. Terlepas dari manajemen teknis tentang apa yang salah, manajemen insiden juga mencakup manajemen ekspektasi pelanggan, pengguna, dan pemangku kepentingan selama insiden.

Untuk pelanggan, perjanjian tingkat layanan (SLA) secara jelas menentukan jaminan waktu aktif, waktu penyelesaian, dan saluran komunikasi yang diharapkan untuk insiden. SLA membutuhkan manajemen insiden yang komprehensif dari pihak penyedia layanan agar memenuhi syarat dan ketentuan SLA mereka.

Baca tentang SLA »

Kerangka Kerja Manajemen Insiden IT

Ada berbagai kerangka kerja yang digunakan organisasi untuk memodelkan IM mereka. Dua contohnya adalah Manajemen Insiden dari Pustaka Infrastruktur IT (ITIL) 4 dan Kerangka Keamanan Siber dari National Institute of Standards and Technology (NIST). Kerangka kerja ini dapat digunakan apa adanya atau diperluas agar beradaptasi dengan lingkungan bisnis, layanan, serta standar komunikasi pelanggan dan pemangku kepentingan yang unik.

Perangkat lunak manajemen insiden sering digunakan untuk men-deploy kerangka kerja dalam suatu organisasi. Kerangka kerja tepat yang digunakan tergantung pada layanan yang ditawarkan.

Apa Saja Langkah-Langkah dalam Proses Manajemen Insiden?

Langkah-langkah yang terlibat dalam proses manajemen insiden tergantung pada kerangka kerja yang digunakan dalam organisasi. Selanjutnya, kami membahas langkah-langkah utama dalam banyak kerangka kerja siklus hidup manajemen insiden umum.

Identifikasi Risiko

Mengidentifikasi aset, sistem, data, dan sumber daya penting lainnya menentukan di mana letak risiko terbesar bagi bisnis. Dalam konteks memberikan layanan kepada klien, identifikasi ini melibatkan identifikasi sistem dan aset mereka yang paling berharga.

Lindungi Aset

Setelah aset diidentifikasi, organisasi memperkuat kontrol keamanan dan performa. Misalnya, aplikasi dapat di-deploy di beberapa wilayah untuk ketersediaan berkelanjutan jika terjadi pemadaman regional. 

Deteksi Insiden

Sistem harus tersedia untuk memantau keadaan aset penting, sehingga setiap insiden dapat diidentifikasi secara waktu nyata. Organisasi harus proaktif dalam memantau anomali; biasanya organisasi tidak suka mengetahui adanya pemadaman dari laporan pelanggan. Penekanannya adalah pada remediasi proaktif.

Respons Insiden

Setelah insiden terdeteksi, Anda harus segera menghentikan gangguan apa pun. Jika hal ini tidak memungkinkan, Anda dapat mengikuti proses untuk menahan atau membatasi dampaknya. Anda mungkin juga harus mengaktifkan sistem sekunder, sehingga operasi dapat dilanjutkan bahkan jika tidak ada perbaikan cepat.  Sebagian besar sistem sekunder ini bisa jadi otomatis, tergantung pada sifat insiden dan alat manajemen insiden saat ini.

Pulihkan dari Insiden

Pada fase pemulihan, analisis insiden dimulai. Anda menangkap pelajaran yang didapat, merumuskan rencana respons yang lebih baik, dan meremediasi masalah serta proses. Insiden besar mungkin memerlukan upaya pemulihan yang signifikan. Gambar berikut menunjukkan salah satu proses manajemen insiden yang digunakan Amazon Web Services (AWS).

Apa Saja Praktik Terbaik Manajemen Insiden?

Praktik terbaik membantu organisasi untuk beroperasi pada tingkat yang paling matang dalam unit bisnis atau area strategis tertentu. Dengan mengikuti praktik terbaik dalam sistem manajemen insiden, Anda dapat memberikan layanan terbaik kepada pelanggan Anda.

Kembangkan Kebijakan Eskalasi

Anda harus dapat mengategorikan insiden sesuai dengan prioritas dan tingkat keparahannya untuk memandu lini masa, remediasi, dan investigasi. Anda harus memberlakukan kebijakan eskalasi saat respons insiden tidak berjalan seperti yang diharapkan atau jika terjadi insiden besar dengan prioritas atau tingkat keparahan yang tinggi. Tanpa kebijakan ini, tim Anda mungkin membuang waktu untuk memutuskan siapa yang harus dihubungi dan apa yang harus dilakukan.

Rencanakan Komunikasi secara Detail

Pemangku kepentingan, mulai dari tim IT hingga pengguna akhir Anda, harus terus mendapat informasi tentang status insiden. Penting juga untuk memiliki saluran komunikasi yang jelas, sehingga mereka yang terkena dampak tahu harus pergi ke mana untuk mendapatkan pembaruan atau melaporkan insiden baru. Dengan memiliki rencana komunikasi yang jelas, Anda dapat membangun kepercayaan dan menghindari terjadinya kesalahpahaman. Insiden kritis selalu ditangani dengan diplomasi. 

Lakukan Analisis Akar Penyebab

Setelah menyelesaikan suatu insiden, Anda harus melakukan analisis akar penyebab untuk memahami alasan insiden itu terjadi sejak awal. Hal ini membantu mengidentifikasi celah atau kerentanan dalam sistem, yang dapat Anda atasi untuk mencegah insiden serupa pada masa mendatang. Pelajaran yang dipetik dari setiap insiden sangat membantu untuk terus meningkatkan infrastruktur dan proses IT.

Adopsi Praktik Rekayasa Chaos

Rekayasa chaos adalah disiplin dalam rekayasa perangkat lunak di mana sistem sengaja mengalami gangguan—seperti kegagalan server, latensi jaringan, atau keterbatasan sumber daya. Membangun chaos ke dalam sistem menguji ketahanan sistem dan juga memperkuat respons insiden serta proses manajemen organisasi. Hal ini adalah teknik yang mirip dengan deployment peretasan etis dalam manajemen insiden keamanan siber.

Bagaimana AWS Dapat Mendukung Persyaratan Manajemen Insiden Anda?

AWS memiliki berbagai layanan yang membantu organisasi memberikan manajemen insiden yang efektif dalam lingkungan AWS dan hibrida.

Deteksi dan Respons Insiden AWS menawarkan pemantauan proaktif dan manajemen insiden untuk beban kerja yang dipilih bagi pelanggan AWS Enterprise Support. Saat bekerja dengan para ahli, Anda menentukan metrik penting, alarm, dan jadwal prioritas untuk sistem manajemen insiden IT guna mempercepat pemulihan jika terjadi insiden.

AWS Managed Services (AMS) membantu melindungi informasi organisasi Anda, serta infrastrukturnya, dengan respons insiden AWS dan kemampuan resolusi. AMS dapat digunakan sebagai cara untuk mengalihdayakan manajemen insiden IT AWS Anda, sehingga organisasi dapat fokus pada bisnis inti. Berikut adalah hal dapat Anda lakukan dengan AMS:

  • Meminta bantuan terkait masalah operasional dan permintaan kapan pun melalui Pusat Dukungan AWS di konsol AWS

  • Mengakses dukungan 7x24 jam dengan waktu respons sesuai dengan Tingkat Layanan akun yang Anda pilih (Plus, Premium)

  • Menerima notifikasi proaktif dari peringatan dan pertanyaan penting menggunakan mekanisme yang sama

Sebagai bagian dari Kerangka Kerja AWS Well-Architected, kami juga memberikan panduan yang jelas untuk manajemen insiden cloud. Panduan ini adalah sumber daya yang bagus untuk membantu merencanakan manajemen insiden bagi organisasi yang menawarkan layanan IT mereka sendiri yang menggunakan layanan AWS Cloud. Panduan Respons Insiden Keamanan AWS adalah materi lain yang berguna untuk insiden terkait keamanan.

Mulai Manajemen Insiden di AWS dengan Membuat Akun Sekarang Juga.

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Memuat
Memuat
Memuat
Memuat
Memuat

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages