Microsoft 서버 클러스터링 환경에서 클러스터 관리자(CLUADMIN)를 실행하는 데 연결 중 '응답 없음' 이 발생하거나 리소스 그룹 이동을 시도하였을 때, 그룹 리소스에 할당된 디스크가 정상적으로 Online 되지 않고 실패하는 경우 디스크 성능 이슈를 점검해 볼 필요가 있습니다.

예를 들어, 클러스터 리소스로 사용하는 Storage Disk 의 쓰기 캐쉬 기능에 문제가 발생하였거나 디스크에 물리적 손상이 있을 경우, 디스크 성능 저하로 인해 다음과 같은 현상이 나타날 수 있으며 점검해 볼 사항에 대해서 아래와 같이 정리하였습니다.


[환경]
Windows Server 2003


[현상]
1. 클러스터 환경에서 리소스 그룹을 이동하였을 때, Passive Node 로 리소스가 이동하여 정상 온라인 되지 않고 디스크 온라인 실패 발생


2. 이벤트 로그를 확인하여 아래와 같은 디스크 관련 경고/오류가 빈번하게 발생할 수 있습니다.

이벤트 형식: 경고
이벤트 원본: Ntfs
이벤트 ID: 50
설명:
{지연된 데이터 쓰기 실패}  파일의 모든 데이터를 저장하지 못했습니다. 데이터가 손실되었습니다. 이 오류는 컴퓨터 하드웨어 또는 네트워크 연결 오류 때문일 수 있습니다. 다른 곳에서 이 파일을 저장하십시오.


이벤트 형식: 경고
이벤트 원본: Ftdisk
이벤트 범주: 디스크
이벤트 ID: 57
설명:
시스템에서 데이터를 트랜잭션 로그로 플러시하지 못했습니다. 데이터 손상이 발생할 수도 있습니다.


이벤트 형식: 오류
이벤트 원본: Ntfs
이벤트 범주: 디스크
이벤트 ID: 55
설명:
디스크의 파일 시스템 구조가 잘못되었으며 사용할 수 없습니다. (G:) 볼륨에서 chksdk 유틸리티를 사용하십시오.


이벤트 형식: 정보
이벤트 원본: Application Popup
이벤트 범주: 없음
이벤트 ID: 26
설명:
응용 프로그램 팝업: Windows - 지연된 쓰기 실패 : 파일 G:\에 대한 모든 데이터를 저장하지 못했습니다. 데이터가 손실되었습니다. 사용자 컴퓨터의 하드웨어 또는 네트워크 연결 오류 때문에 발생했습니다. 이 파일을 다른 곳에 저장해 보십시오.


3. 클러스터 로그(cluster.log)를 확인해 보면 디스크 쓰기 실패 오류가 발생할 수 있습니다.

ERR  [CP] CppWriteCheckpoint unable to create directory Q:\MSCS\b*, error 21


ERROR_LOCK_VIOLATION
# The process cannot access the file because another process has locked a portion of the file.


4. 탐색기, 작업 관리자, MMC 등 프로세스를 사용하는 동안 간헐적으로 응답 없음 상태 후 정상으로 돌아오는 현상 반복


[Action Plan]
1. 시스템 성능 분석
 가. 전반적인 시스템 성능 로그를 분석을 진행하며 특히 내/외장 디스크 성능 분석을 통해 I/O 처리 성능을 확인합니다.
    - %Idel Time, Avg. Disk Read(Write) Queue Length, Avg. Disk sec/Write, Disk Reads(Write) Bytes/sec 등...
 
2. H/W 시스템 점검
 가. 시스템 장치 오류나 성능 점검을 진행하며 특히 디스크 관련 계통 장치 문제점이 없는지 확인해 볼 필요가 있습니다.
    - 내/외장 스토리지 Disk, Controller, Write cache 등... 관련 장치 점검 필요


작성자 : Lai Go / 작성일자 : 2010.05.26

Posted by Lai Go