[장애대처]Hardware 오류

2020. 6. 11. 08:44OS/Linux

1. 이벤트
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 0
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: event severity: corrected
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: Error 0, type: corrected
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: section_type: PCIe error
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: port_type: 4, root port
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: version: 1.16
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: command: 0x0010, status: 0x0546
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: device_id: 0000:05:00.3
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: slot: 0
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: secondary_bus: 0x00
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: vendor_id: 0x10df, device_id: 0x0720
Jan 13 00:47:59 test01 kernel: {1}[Hardware Error]: class_code: 000200

2. 증상
위 2번 Line과 마찬가지로 서비스에 영향이 없음.

3. 확인 방법
- section_type : PCIe error
(PCI 오류로 의심을 시작)
- device_id : 0000:05:00.3
(장치의 ID를 이용하여 어떤 장비에 문제가 생긴것인지 확인)
# lspci >> PCI 디바이스 정보 확인
# dmidecode >> 하드웨어 정보 확인
1. dmidecode 명령을 임시 txt 파일로 옮겨둔다.
#cd /Admin
#dmidecode > dmidecode.txt
2. vi를 이용하여 임시 txt 파일을 연다.
#vi dmidecode.txt
3. 오픈한 파일에서 0000:05:00.3을 검색한다.
/0000:05:00.03
4. 검색후 나온 결과를 토대로 어느 부분에서 에러메시지가 발생한것인지 확인이 가능하다.ㅏ
ex) Onboard Device
Reference Designation: Emulex OCI14000-LOM
Type: Ethernet
Status: Enabled
Type Instance: 4
Bus Address: 0000:05:00.3
5. iLo에 접속한다
6. 각 메뉴에서 필요한 정보를 확인하여 정상여부를 체크한다.

 

728x90

'OS > Linux' 카테고리의 다른 글

[장애대처]Hardware 오류2  (0) 2020.06.11
[Command]telnet  (0) 2020.06.11
[Command]tcp warpper  (0) 2020.06.11
[장애대처]sshd  (0) 2020.06.10
[Command]sosreport  (0) 2020.06.10