모니터링? 인시던트 관리? 합쳐야 하는 5가지 이유

모니터링과 인시던트 관리

얼럿나우(AlertNow)는 여러 가지 모니터링 툴을 연동해 모든 알람을 통합 관리할 수 있는데요, 그러다 보니 종종 모니터링 툴이 아니냐는 질문을 받습니다. 얼럿나우는 모니터링 툴이 아닌 인시던트 관리 솔루션입니다. IT 서비스 관리에 있어 모니터링과 인시던트 관리는 각각 무엇인지 알아보겠습니다.

모니터링(Monitoring)의 사전적 정의는 ‘어떤 것을 감시하고 관찰한다’로 IT 분야에서 모니터링은 서비스 운영 중 발생할 수 있는 이슈 및 오류에 대비하기 위해 관련 데이터를 수집하고 기록하는 것을 말합니다. IT 모니터링은 크게 두 가지, 인프라(Infrastructure)와 애플리케이션(Application) 영역으로 나눌 수 있는데요. 인프라 모니터링에서는 리소스의 사용량이나 현재 상태 등을 중점적으로 본다면 애플리케이션 모니터링에서는 성능과 품질 관점에서 지연이나 에러가 발생하지 않는지 등을 체크합니다. 복잡한 IT 환경에서 서비스를 안정적으로 운영하기 위해서는 이처럼 지속적인 모니터링을 통해 이슈가 없는지 확인하고, 있다면 빠르게 개선하는 것이 필요합니다.

대표적인 모니터링 툴로는 데이터독(DataDog), 뉴 렐릭(New Relic) 등이 있습니다. 또한 Amazon CloudWatch, Azure Monitor, Google Cloud Monitoring 등 클라우드 컴퓨팅 플랫폼에서도 모니터링 솔루션을 제공하고 있습니다. 국내를 중심으로 제니퍼(JENNIFER), 와탭(WhaTap), 제니우스(Zenius) 등 한국 기업이 만든 모니터링 툴들도 널리 사용되고 있습니다.

인시던트 관리(Incident Management)는 IT 서비스 중단이나 품질 저하를 일으킬 수 있는 IT 이슈를 관리해 서비스 품질을 최대한 높은 수준으로 유지하는 것입니다. 일반적으로 모니터링 결과를 참조해 인시던트 관리를 하기 때문에 인시던트 관리가 모니터링보다 포괄적인 개념이라고 할 수 있겠습니다.

모니터링을 통해 애플리케이션이나 네트워크 등에 이상 현상이 감지되면 이것을 사람이 알 수 있도록 알림을 보냅니다. 그런데 모니터링 알림이 왔다고 해서 무조건 크리티컬한 이슈나 서비스 장애가 발생한 것은 아닙니다. 그렇기 때문에 모니터링에서 알려주는 이상 현상들 간의 우선순위를 정하고, 어떤 팀이 보는 것이 좋을지 등을 구별하는 작업이 필요합니다. 해결이 되었다면 그 마무리까지 확인하고 이슈를 종결시키는 모든 과정, 이것을 인시던트 관리라고 합니다.

이러한 과정을 자동화해주는 툴이 바로 인시던트 관리 툴입니다. 얼럿나우(AlertNow) 외에도 페이저듀티(PagerDuty), 옵스지니(Opsgenie), 스플렁크 온 콜(Splunk On-Call) 등이 있는데요. 와탭, 제니퍼 등 국내 모니터링 툴과의 통합 기능을 제공하는 것은 얼럿나우가 유일합니다. 인시던트 관리와 자동화 툴에 대한 더 자세한 내용은 아래 글을 확인해 주세요!

모니터링과 인시던트 관리 통합하기

모니터링과 인시던트 관리의 개념은 조금 다르지만 목적은 동일합니다. IT 서비스가 항상 좋은 품질로 유지되도록 하는 것이죠. 모니터링과 인시던트 관리를 통합해 운영한다면 더 효율적인 서비스 운영이 가능합니다. 얼럿나우의 예시를 통해 모니터링과 인시던트 관리를 통합했을 때 누릴 수 있는 5가지 장점을 소개하겠습니다.

1. 효율적인 모니터링 알람 관리

모니터링 대상이나 서비스, 운영 팀에 따라 여러 가지 모니터링 툴을 사용하는 경우가 많은데요. 일일이 확인하려고 보면 일단 알람이 정말 많고, 중복된 알람이 발생한다거나 담당자가 부재중이라거나 하는 등 수동으로 관리하기에는 많은 한계를 느끼게 될 것입니다.

얼럿나우를 사용하면 다양한 모니터링 환경에서 발생하는 알람들을 모아 더 효율적으로 관리할 수 있습니다. 3중 필터링 기능이 있어 중복 알람을 제거되고 미리 설정된 기준에 따라 긴급도가 결정되는데요, 얼럿나우에서는 이를 ‘인시던트’라고 정의합니다. 인시던트의 본뜻이 ‘확인이 필요한 IT 이슈’인데, 얼럿나우가 모니터링 알람을 모아 인시던트로 정리한다고 생각한다면 이해가 쉬울 것 같습니다.

" 중복 알람이 제거되어 알람이 80% 감소했고, 그 결과 운영비용을 10% 이상 절감할 수 있었습니다. 스케줄링 기능이 있어 특정 담당자에게만 업무가 집중되지 않아 만족스럽습니다. "

2. 이슈 전달의 정확도 향상

어떤 모니터링 대상에서 발생한 이슈인지에 따라 담당자가 다를 텐데요. 얼럿나우는 새로운 인시던트가 생성되면 정해진 담당자에게만 자동으로 알림이 전달됩니다. 꼭 한 명의 담당자가 아니라 팀 단위가 될 수도 있고, 스케줄에 따라 담당자가 자동으로 변경될 수도 있습니다.

그런데 담당자가 휴가를 갔다거나 등의 이유로 부재중일 수도 있죠. 이렇게 첫 번째 담당자가 알림을 확인하지 못할 경우 자동으로 두 번째 담당자로 단계가 올라갑니다. 이러한 에스컬레이션 기능으로 이슈가 누락되지 않고 정확하고 빠르게 전달될 수 있습니다. 특히 얼럿나우는 더 정교한 에스컬레이션 기능을 제공하고 있어 상황에 맞게 유연한 활용이 가능합니다.

" 팀원 모두가 같은 알람을 받는 것이 아니라 특정 담당자에게만 필터링해 전달하고 있습니다. 만약 담당자가 놓쳤다면 다음 담당자에게 자동으로 에스컬레이션이 되도록 설정이 가능합니다. "

3. 다양한 알림 채널 활용

이슈가 더 정확하고 빠르게 전달될 수 있는 또 하나의 이유는 바로 다양한 알림 채널입니다. 얼럿나우에서는 이메일, 문자뿐 아니라 카카오톡, 텔레그램, 업무 메신저, 모바일 앱 등의 알림 채널을 활용할 수 있는데요. 카카오톡이나 텔레그램과 같이 담당자가 실제로 자주 사용하는 채널으로 알람을 전달하기 때문에 긴급한 이슈를 빠르게 전달할 수 있습니다.

긴급도에 따라, 담당자에 따라, 시간대에 따라 채널을 가장 효율적으로 배치할 수도 있습니다. 업무 시간 중이라면 업무 메신저로 알림을 가게 하고 퇴근 시간 이후에는 카카오톡으로 보낸다던가, 긴급한 이슈는 웨이크업 콜로 전달하고 긴급도가 낮은 이슈는 이메일로만 전달하는 식으로 말이죠. 이와 같이 다양한 알림 채널을 활용하면 담당자가 중요한 이슈를 먼저 확인할 수 있고, 쏟아지는 알람에 누락되는 이슈가 발생할 일도 없습니다.

" 문자나 이메일뿐 아니라 카카오톡이나 업무 메신저, 보이스콜 등 다양한 알림 수단을 제공해 놓치는 알람이 없어졌습니다. 중요도에 따라 알림 수신방법을 다르게 설정하면 불필요한 알림의 소음에서 해방될 수 있습니다. "

4. MTTA / MTTR 지표 개선

인시던트가 발생했을 때 이를 인지하고 해결하기까지의 시간을 각각 MTTA / MTTR이라고 합니다.

  • MTTA : Mean Time To Acknowledge, 인시던트 생성에서 확인까지의 시간
  • MTTR : Mean Time To Resolve, 인시던트 생성에서 종료까지의 시간

얼마나 신속하게 이슈에 대응했는지를 알 수 있는 지표인데요. 모니터링 툴과 인시던트 관리 툴을 통합하여 사용한다면 이 지표들을 훨씬 개선할 수 있습니다.

실제로 얼럿나우 팀에서 얼럿나우 도입 후 MTTA / MTTR 변화 추이를 조사해 보았는데요, 기존 대비 MTTA는 99.96%, MTTR은 99.7% 대폭 감소했습니다.

얼럿나우 도입 후 MTTA / MTTR 추이

" 300개 이상의 모니터링 툴을 하나로 통합해 얼럿나우 하나로 알람을 받아볼 수 있어 효율적입니다. 저녁시간에 발생하는 중요한 알람은 보이스콜로 수신하도록 해 MTTA를 단축할 수 있었습니다. "

5. 팀원들의 생산성 향상

모니터링과 인시던트 관리의 통합은 팀원들의 생산성 향상에도 큰 도움을 줍니다. 운영팀이라면 쏟아지는 모니터링 알람이 자동으로 인시던트로 정리되어 전달되고, 중요한 이슈를 놓치지 않고 빠르게 대응할 수 있습니다. 반복 작업이 줄어들기 때문에 더 중요한 일에 집중할 수 있습니다.

운영팀이 없는 회사라면 개발자들이 운영팀의 역할을 담당하는 경우가 많은데요. 서비스 개발에 집중해야 하는데 알람을 계속 받으면 집중이 흐트러지겠죠. 얼럿나우를 사용하면 내가 몰라도 되는 알림은 받지 않고 해결해야 할 중요한 알림만 받아 빠르고 정확하게 대응할 수 있습니다.

생산성을 향상시켜 줄 또 하나의 기능은 바로 자동 리포트입니다. 이슈 해결 과정을 모두 기록하고 자동 리포트와 인사이트를 제공하는 것인데요. 이를 통해 별도로 보고서를 작성할 필요 없이 바로 퍼포먼스 성과를 확인하고 시각화된 리포트를 활용할 수 있습니다.

" 얼럿나우를 통해 정말 중요한, 본인이 해결해야 되는 알람만 받고 있어 이슈 해결이 더욱 빨라진 것은 물론 업무 효율이 높아졌습니다. "

지금까지 모니터링과 인시던트 관리의 차이점과 이 두 가지를 통합했을 때 얻을 수 있는 5가지 장점을 소개했습니다. 결국 모니터링도 인시던트 관리도 우리 서비스를 안정적으로 운영하고 고객들에게 더 좋은 경험을 제공하기 위함인데요. 아직 모니터링만 하고 계시다면 이제는 인시던트 관리 자동화 툴 얼럿나우와 모니터링 툴을 통합해 더 효과적으로 모니터링 알람과 IT 이슈를 관리하시기 바랍니다. 우리 서비스의 IT 이슈를 신속하게 해결하고 최고의 서비스와 고객 경험을 제공하는 비즈니스로 빠르게 성장할 수 있을 것입니다.