Pular para o conteúdo principal

O que é o gerenciamento de incidentes?

O que é o gerenciamento de incidentes?

O gerenciamento de incidentes (IM, na sigla em inglês) constitui o processo empregado pelas equipes de TI para responder a uma interrupção não programada de serviços. As interrupções inesperadas ocorrem devido a incidentes como a perda ou o comprometimento da conectividade de rede, a omissão de uma tarefa programada (por exemplo, uma tarefa de backup) ou a ausência de resposta de uma API. O processo de gerenciamento de incidentes busca restabelecer prontamente o funcionamento regular dos serviços de TI, visando reduzir os impactos às atividades comerciais. Durante esse processo, cabe à equipe a detecção e investigação de incidentes, a resolução de problemas e a documentação das medidas adotadas para o restabelecimento do serviço.

Por que o gerenciamento de incidentes é importante?

O gerenciamento de incidentes orienta as equipes de TI sobre a resposta mais adequada para qualquer incidente. Esse processo cria um sistema para que as equipes de TI possam capturar todos os detalhes relevantes para aprendizado posterior. É possível considerar o gerenciamento de incidentes como o manual de estratégias para restabelecer a normalidade das operações com a máxima rapidez, minimizando impactos para clientes internos e externos.

Sem a implementação de sistemas, a recuperação de incidentes resulta inevitavelmente em erros repetidos, desperdício de recursos e maiores prejuízos para a organização. A seguir, abordaremos algumas maneiras pelas quais você se beneficia do gerenciamento de incidentes.

Redução da ocorrência de incidentes

Ao ter um manual para orientar as ações durante um incidente, as equipes conseguem solucionar ocorrências com a máxima agilidade. Ao mesmo tempo, o gerenciamento de incidentes também reduz a frequência de ocorrências ao longo do tempo. A identificação precoce de riscos no processo de gerenciamento de incidentes diminui a probabilidade de ocorrências futuras. A coleta de dados forenses completos do incidente contribui para a correção proativa e ajuda a prevenir a reincidência de eventos similares no futuro.

Aprimoramento de performance

Quando se utiliza um monitoramento eficiente e preciso no gerenciamento de incidentes de TI, é possível identificar e investigar quedas sutis na qualidade. Além disso, é possível identificar novas formas de aprimorar a performance. Com o tempo, a equipe de TI poderá avaliar a qualidade dos padrões de identificação de incidentes de serviço, possibilitando a correção preditiva e a prestação de serviços ininterruptos.

Colaboração eficaz

Frequentemente, diferentes equipes precisam trabalhar juntas para restabelecer os serviços após um incidente. É possível aprimorar a colaboração significativamente ao definir diretrizes de comunicação para todas as partes dentro da estrutura de resposta a incidentes. Além disso, você pode gerenciar o sentimento das partes interessadas de forma mais assertiva.

Quais são os eventos que exigem gerenciamento de incidentes?

O termo gerenciamento de incidentes não é de uso exclusivo do setor de TI. Além do setor de tecnologia, o termo em campos como serviços de emergência, gerenciamento de eventos de grande escala e operações industriais.

Para os fins deste artigo, referimo-nos ao gerenciamento de incidentes (IM, na sigla em inglês) no contexto do gerenciamento de serviços de TI (ITSM, na sigla em inglês). Nesse contexto, o gerenciamento de incidentes concentra-se nas atividades gerenciais referentes à qualidade dos serviços e à própria experiência de atendimento ao cliente.

A seguir, abordaremos os diversos eventos de TI abrangidos pelo IM no contexto de ITSM.

Incidente

No âmbito do gerenciamento de incidentes, os incidentes podem ser definidos como qualquer evento imprevisto que provoque uma redução na qualidade prevista ou estabelecida em contrato para o serviço de TI. A magnitude do incidente pode variar de pequena a grande, sendo possível indicar o seu nível de criticidade. Por exemplo, a redução na qualidade do serviço pode ser pequena e restrita a uma localidade geográfica específica. Ou, ainda, o serviço pode apresentar uma indisponibilidade completa em inúmeras regiões.

Problema

Um problema refere-se à causa-raiz do incidente, que é descoberta após uma investigação mais aprofundada e é necessária para a resolução completa do incidente. Por exemplo, se um servidor web apresentar lentidão, o problema pode originar-se em uma falha de configuração de roteador no data center ou em um cabo de rede rompido no perímetro.

Alteração

No âmbito do IM, uma alteração diz respeito à alteração do próprio serviço com o objetivo de aprimorar a qualidade ou implementar novos recursos. Durante o período da alteração, a transição precisa ser gerenciada cuidadosamente a fim de evitar ou mitigar impactos nas atividades operacionais rotineiras. Isso inclui avisar os clientes sobre interrupções de serviço previstas ou potenciais.

Solicitação de serviço

Uma solicitação de serviço consiste em uma solicitação iniciada pelo cliente, respeitando as cláusulas e termos do acordo firmado entre o provedor e o cliente. A solicitação deve ser executada sem interromper as operações rotineiras.

Como o gerenciamento de incidentes funciona?

O gerenciamento de incidentes usa um conjunto de processos documentados que descrevem com clareza as ações necessárias para minimizar os impactos negativos e a duração de interrupções de TI. Além do gerenciamento técnico acerca das causas do incidente, ele também compreende a gestão das expectativas de clientes, usuários e partes interessadas durante um incidente.

No que tange aos clientes, os acordos de serviço (SLAs, na sigla em inglês) definem com clareza as garantias de tempo de atividade esperadas, os prazos de resolução e os canais de comunicação pertinentes aos incidentes. É necessário um gerenciamento de incidentes abrangente por parte do provedor de serviços para cumprir os termos e as condições do SLA.

Saiba mais sobre SLAs »

Estruturas de gerenciamento de incidentes de TI

Existem diversas estruturas que as organizações usam para modelar o gerenciamento de incidentes. Dois exemplos dessas estruturas são o gerenciamento de incidentes da IT Infrastructure Library (ITIL) 4 e o Cybersecurity Framework do National Institute of Standards and Technology (NIST). Essas estruturas podem ser usadas conforme apresentadas ou ampliadas para se adaptarem a ambientes de negócios, serviços e padrões de comunicação com clientes e partes interessadas que sejam exclusivos.

Os softwares de gerenciamento de incidentes são frequentemente usados para implementar uma estrutura em uma organização. A estrutura específica a ser empregada está condicionado à natureza dos serviços prestados.

Quais são as etapas do processo de gerenciamento de incidentes?

As etapas envolvidas nos processos de gerenciamento de incidentes dependem da estrutura utilizada na organização. A seguir, abordaremos as principais etapas presentes em muitas estruturas comuns do ciclo de vida de gerenciamento de incidentes.

Identificação de riscos

A identificação de ativos, sistemas, dados e outros recursos críticos ajuda a determinar onde estão os principais riscos para a empresa. No contexto da prestação de serviços aos clientes, isso envolve a identificação dos ativos e dos sistemas mais valiosos.

Proteção dos ativos

Após a identificação dos ativos, as organizações reforçam os controles de segurança e de performance. Por exemplo, uma aplicação pode ser implantada em várias regiões para garantir a disponibilidade contínua em caso de interrupções regionais. 

Detecção de incidentes

É necessário que existam sistemas para monitorar o estado dos ativos críticos, de forma que quaisquer incidentes possam ser identificados em tempo real. As organizações devem ser proativas no monitoramento de anomalias. Geralmente, não é recomendável saber de uma interrupção primeiro por meio de um cliente que a reportou por conta própria. O foco principal recai sobre a correção proativa.

Resposta a incidentes

Assim que um incidente for detectado, você deve interromper imediatamente qualquer interrupção. Caso isso não seja possível, você pode seguir um processo para conter ou limitar o impacto. Pode ser necessário ativar sistemas secundários para que as operações sejam retomadas, mesmo que não haja uma solução rápida.  Muito desse processo pode ser automatizado, dependendo da natureza do incidente e das ferramentas de gerenciamento de incidentes atuais.

Recuperação após incidentes

Durante a etapa de recuperação, começa a análise do incidente ocorrido. Você registra as lições aprendidas, formula planos de resposta aprimorados, e corrige problemas e processos. Incidentes de grande proporção podem demandar esforços significativos de recuperação. A imagem a seguir apresenta um dos processos de gerenciamento de incidentes adotados pela Amazon Web Services (AWS).

Quais são as práticas recomendadas para o gerenciamento de incidentes?

As práticas recomendadas auxiliam as organizações a operarem no nível máximo de maturidade em uma unidade de negócios ou área estratégica específica. Ao seguir as práticas recomendadas em sistemas de gerenciamento de incidentes, você pode fornecer o melhor serviço possível aos clientes.

Desenvolvimento de políticas de encaminhamento

Você deve ser capaz de categorizar incidentes de acordo com a prioridade e a severidade para orientar cronogramas, correções e investigações. Você deve acionar políticas de encaminhamento quando a resposta a incidentes não estiver ocorrendo conforme o esperado ou se ocorrer um incidente de grandes proporções com alta prioridade ou severidade. Sem essas políticas, a equipe poderá desperdiçar tempo decidindo quem deve ser contatado e quais medidas tomar.

Planejamento detalhado das comunicações

As partes interessadas, desde a equipe de TI até os usuários finais, devem ser mantidas informadas sobre o status dos incidentes. Além disso, é importante contar com canais de comunicação claros, de modo que as pessoas impactadas saibam a quem recorrer para obter atualizações ou para reportar novos incidentes. Ao implementar planos de comunicação claros, é possível estabelecer confiança e evitar atribuições de culpa indevidas. Os incidentes críticos são sempre gerenciados com diplomacia. 

Execução da análise de causa-raiz

Após a resolução de um incidente, você deve executar a análise de causa-raiz para compreender a razão pela qual o incidente ocorreu originalmente. Isso auxilia na identificação de brechas ou de vulnerabilidades no sistema, que podem ser tratadas para evitar incidentes semelhantes no futuro. As lições aprendidas com cada incidente auxiliam no aprimoramento contínuo da infraestrutura e dos processos de TI.

Adoção de práticas de engenharia do caos

A engenharia do caos é uma disciplina da engenharia de software na qual os sistemas são intencionalmente submetidos a condições disruptivas, como falhas de servidor, latências de rede ou limitações de recursos. A inserção do caos nos sistemas testa a resiliência deles, além de reforçar os processos de gerenciamento e de resposta a incidentes da organização. Esta é uma técnica semelhante à implementação de hacker ético no gerenciamento de incidentes de segurança cibernética.

De que maneira a AWS pode atender aos seus requisitos de gerenciamento de incidentes?

A AWS conta com diversos serviços que auxiliam organizações a fornecer um gerenciamento de incidentes eficaz em ambientes da AWS e híbridos.

A Detecção e Resposta a Incidentes da AWS oferece aos clientes do AWS Enterprise Support monitoramento proativo e gerenciamento de incidentes para as workloads selecionadas. Ao trabalhar com especialistas, você define métricas críticas, alarmes e cronogramas de priorização para um sistema de gerenciamento de incidentes de TI a fim de acelerar a recuperação em caso de incidentes.

O AWS Managed Services (AMS) auxilia na proteção das informações da organização, bem como sua infraestrutura, com as funcionalidades de resposta e resolução de incidentes da AWS. O AMS pode ser usado como uma forma de terceirizar o gerenciamento de incidentes de TI da AWS, permitindo que sua organização se concentre nas atividades principais. A seguir, apresentamos o que é possível fazer com o AMS:

  • Solicitar ajuda com problemas operacionais e outras solicitações a qualquer momento por meio do AWS Support Center no console da AWS

  • Ter acesso ao suporte 24 horas por dia e 7 dias por semana, com o tempo de resposta variando conforme o nível de serviço da conta selecionado (Plus ou Premium)

  • Receber notificações proativas de alertas e perguntas importantes usando os mesmos mecanismos

Como parte do AWS Well-Architected Framework, nós também fornecemos orientação clara para o gerenciamento de incidentes na nuvem. Trata-se de um excelente recurso para auxiliar no planejamento do gerenciamento de incidentes em organizações que oferecem serviços próprios de TI utilizando serviços da Nuvem AWS. O guia de Resposta a Incidentes de Segurança da AWS é outro material útil para incidentes relacionados à segurança.

Comece a usar o gerenciamento de incidentes na AWS ao criar uma conta hoje mesmo.

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Carregando
Carregando
Carregando
Carregando
Carregando

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages