고가용성 시스템 구축, BCP (Business Continuity Plan – 업무 연속성 계획) 환경 구축 때 빠지지 않고 나오는 용어가 RTO / RPO 개념 입니다. 먼저 2개 용어에 대해 풀어서 이야기 해보겠습니다.
- RTO (Recovery Time Objectives – 복구 시간 목표)
- 조직에서 재해 발생 후 애플리케이션과 프로세스를 복구하는 데 걸리는 목표 시간을 RTO(복구 시간 목표)라고 합니다. 복구 타임라인은 비즈니스의 다운타임 허용 수준을 결정하는 중요한 매개변수입니다. RTO는 “재해 발생 후 심각한 비즈니스 손실과 고객의 분노를 일으키지 않고 애플리케이션을 가동 중지하고 다시 실행할 수 있는 시간”이라는 질문에 답합니다. 이 주요 지표는 복구와 허용 가능한 데이터 손실 사이의 기간을 계산하는 데 도움이 될 수 있습니다. 그러나 RTO의 목표는 재해 발생과 복구 사이의 기간을 결정하는 것만이 아닙니다. 또한 IT 팀이 응용 프로그램 및 데이터를 복원하기 위해 수행해야 하는 복구 단계를 정의합니다. IT가 우선 순위가 높은 애플리케이션을 복구하기 위해 장애 조치 서비스에 투자했다면 단 몇 초 만에 RTO를 달성할 수 있습니다.
- RPO (Recovery Point Objectives – 복구 지점 목표)
- 간단히 말해서 RPO(복구 시점 목표)는 비즈니스에서 손실을 감당할 수 있는 데이터의 양이며 비즈니스에 심각한 피해를 입히지 않고 계속 작동할 수 있습니다. RPO는 다운타임 동안 허용 가능한 데이터 손실 허용 기간으로 비즈니스 연속성을 보장합니다. 회사에서 “허용 가능한” 시간을 정의하는 것은 비즈니스 연속성 계획에서 매우 중요합니다. RPO가 길수록 다운타임 연장으로 인한 데이터 손실 가능성이 커집니다. RPO는 “기업이 손실을 감당할 수 있는 데이터의 양은 얼마입니까?”라는 질문에 답하려고 합니다. 즉, RPO는 비즈니스 운영을 정상으로 재개하기 위해 복구해야 하는 데이터의 수명을 결정합니다.
위에 설명드린 내용을 그림으로 표현하면 아래와 같습니다.
결론적으로 복구 시점과 서비스 시점이 장애 발생 시점에 가까워 질 수도록 비용이 천문학적으로 증가하게 됩니다. 그래서 적정한 수준의 시간을 설정 합니다. 예를 들어 RPO 24시간 (데이터 유실 인정 시간) + RTO 48시간 (서비스 및 시스템 복구 시간) 형태로 정의 합니다. (아래 그림 참고)