M;N 방식 MSCS Cluster에서 PM을 위해 Shutdown과 Start UP 순서

cluster1

MSCS Cluster 환경에서 서버 이동등 물리적 이동을 위해 서버를 Shutdown 후 Start UP을 해야 하는 경우 1:1 Cluster 방식의 순서는 Shutdown 일 경우 Standby 서버를 먼저 끄고, 다음으로 Active 서버를 꺼야 하지만, 이때, Active 된 서버의 Cluster 관리자에서 공유 리소스에 대해서 Off 항목으로 해제해주고 shutdown을 권장 합니다.

1:1 MSCS Cluster 구성인 경우.

1. Shutdown 진행.

1. Standby 서버의 Shutdown을 먼저 진행.

2. Active 서버의 Shutdown 이전에 Cluster 관리자에서 공유된 리소스 Off-line 진행. 

(미 반환 리소스 반환을 위해)

2. Start Up 진행.

1. Active 서버를 먼저 Start UP하고, Off-line 시킨 공유 리소스를 Cluster 관리자에서 On-line 처리.

2. Standby 서버를 Start Up 후 fail-over 정상 동작 유무 확인.

위 시나리오는 1:1 형식의 Cluster 시스템 구성일 때, 사용하는 방법으로, 크게 어려운 부분은 없다. 하지만 M;N 방식의 Cluster 방식이고, M:N 방식 Cluster fail-over 옵션이 Auto 라면 어떻게 될까 ? fail-over 옵션이 Auto가 아닌 지정된 Standby 서버로 구성되어 있다면 또 어떤 순서일까 ?

위 2가지 시나리오에 대해서 아래에 차례로 풀어보기로 하자.

-. M:N 환경의 MSCS Cluster 환경이면서, Standby 서버로 fail-over 기능이 Auto 일 경우.

Fail-over 기능이 Auto로 되어 있다면, MSCS 시스템이 판단하여, 여유 리소스가 있다고 판단되는 서버로 자동으로 Fail-Over를 시키기 때문에, Shutdown 및 Start Up 순서가 틀려지게 된다.

-. Shutdowns  진행시.

1. N 대의 Standby 서버의 전원을 OFF 한다.

2. M 대의 Active 서버를 Node 01 번부터 차례로 Shutdown 처리 한다.

-. 반드시 Shutdown 이전에, Cluster 관리자에서 공유 리소스에 대해서 Off-line 해야 한다.

-. 이유 : 마지막 서버의 공유 해제 부담을 줄이기 위해서 반드시 리소스 공유를 해주는걸 권장 한다.

3. 만일 5대의 Active 서버가 있다면, Node 01부터 Node04번까지 Shutdown을 진행하여, 모든 Active된 공유 리소스를 마지막  Node 05 서버로 몰아놓는다.

4. 마지막  Node 05 서버의 Shutdown 진행 전, Cluster 관리자에서 공유된 리소스를 모두 Off-line 처리 한다.

-. 이때 다른 Node 공유 리소스까지 모두 가지고 있기때문에 상당히 많은 시간이 필요로 한다.

-. 공유 리소스를 이렇게 강제 해제하지 않을 경우 Shutdown 시도 시 상당히 많은 시간을 멍하게 있어야 한다.

-. Start Up 진행 시.

1. Node 01부터 Node 05까지 차례대로, Start Up 시킨다.

2. Node 05 서버에서 각 Node 자원을 Fail-over 시킨다.

   (node 01부터 node 04까지 자기 리소스 fail-over 받음)

3. 모든 리소스가 정상적으로 fail-over 되었다면, 나머지 N 대의 Standby 서버를 Start Up 시킨다.

4. 시스템 정상 유무를 체크 한다.

-. M:N 환경의 MSCS Cluster 환경이면서, Standby 서버로 fail-over 기능이 지정 Standby 일 경우.

-. Shutdown 진행 시.

1. N 대의 Standby 서버를 Off 한다.

2. M 대의 Active 서버의 각 Node 별로 Shutdown을 진행 한다.

-. 반드시, Shutdown 이전에 Cluster 관리자에서 공유 리소스에 대해서 Off line 처리 한다.

3. 별다른 작업 없이 동일한 방법으로 마지막 Node 서버까지 Shutdown 진행 한다.

-. Start Up 진행 시.

1. M 대의 Active 서버를 Start Up 시킨다. (절대로 Standby 서버를 Start Up 하시면 안된다.)

2. Start Up 된 서버 순서대로 Cluster 관리자에서 Off line 된 공유 리소스를 On line으로 변경 한다.

-. 반드시 공유 스토리지가 먼제 Start Up 되어 있어, 공유 폴더가 Mount 되어 있어야 한다.

3. 모든 리소스가 정상적으로 mount 된게 확인된다면, 다른 Active Node 서버들도 동일하게 작업 한다.

4. 모든 Active 서버가 Start On 되었다면, 마지막으로 Standby 서버를 Start Up 시킨다.

위의 방법은 언뜻 보면 당연하다고 생각할 수 있는 부분이지만, M:N 방식의 Cluster 구성을 했다는건 그만큼 중요 시스템일거라 생각되며, 이런 중요 서버들에 대해서 재 검증 차원에서 issues 진행을 했네요.

Share

댓글 남기기

이메일은 공개되지 않습니다.

Post comment