IT

IT System Preventive Maintenance(예방정비)

Keserasera 2022. 12. 13. 13:22
728x90
반응형

IT System Preventive Maintenance(예방정비)

Preventive Maintenance 란?

게임, 증권, 은행, 쇼핑몰 앱이나 사이트에서 이따금씩 주말 몇시부터 몇시까지(주로 새벽시간) 운영서비스를 일시 중단한다는 공지 팝업 창을 띄우는 것을 본 적이 있을 것이다. 해당 서비스와 관련된 서버의 안정적인 운영을 위해 사용자가 서비스를 거의 이용하지 않는 시간을 이용, 정기적인 장애 예방 활동 작업을 하는 것이다.

어느 정도 사이즈가 되는 기업들은 다양한 업무 프로세스가 존재하고 그 프로세스를 운영하기 위한 수많은 IT 시스템들이 존재한다. 기업 내 여러 자원들을 효율적으로 관리하기 위한 전사적 자원 관리 시스템인 ERP(Enterprise Resource Planning), 제조 기업인 경우 생산 프로세스에 맞춰 제품의 제조 정보나 제조 시설 내 다양한 장비를 관리하기 위한 생산관리시스템인 MES(Manufacturing Execution System), 임직원들의 기본적인 인사 정보를 관리하기 위한 인사관리시스템 HRS(Human Resource System) 등.. 이러한 IT 시스템을 24시간 365일 계속 Running 하다보면 예상치 못한 보안(해킹) 문제, 메모리 풀 이슈로 인한 시스템 성능 저하, 심각하게는 서버가 Down 되는 상황이 발생할 수 있다.

 

PM활동 세부사항

이러한 장애 상황에 대비하기 위해 분기나 최소 반기에는 한번 씩 IT System들이 운영되는 서버에 대한 예방 정비 활동을 해야 한다.

  • Power Recycle: 서버 Power 를 Off후 On 하는 Reboot 과정을 통해서 서버에 존재하는 Garbage data 를 Refresh
  • Driver Update: H/W와 미들웨어 S/W 간 연동에 이상이 없도록 최신 Driver(펌웨어)를 적용하여 H/W의 인식 오류문제 예방
  • Security & Patch: Windows, Unix , Linux 등 서버 OS에 대한 중요 update(Patch)가 나와 있을 때 이를 항상 최신 버전으로 반영(Upgrade)하여 보안이나 일부 error의 hole로 부터 취약한 점을 예방
  • HA Failover Test: 서비스의 일시적인 중단이 발생해도 재빠른 백업을 위한 서버의 이중화 HA(High Availability)에 대한 Failover 동작을 검증 및 개선 * failover 1선 시스템이 장애나 운용시간 종료로 가동 중단 시 2선 시스템이 기능 넘겨받아 운영되는 백업 모드
  • 서버 쪽의 점검 뿐 아니라 이 기종 Application system 간의 연동(Integration)이 제대로 되어있는지 Sender/Receiver 쪽 동작 확인

PM순서

DB, Application 서버의 Host name, IP, 서비스, 용도, OS, PM 대상 여/부 등 List-up을 해 놓고 Rebooting 시 OS, DBMS, Web Application Server, Application level 순으로 Check-up 한다

728x90
반응형
LIST