Inspur i48M6, i24M6 Operation and Maintenance Manual

  • このチャットアシスタントは、浪潮英信サーバーのCMCログ収集と分析ガイドの内容を理解しています。サーバーのログに関するご質問にお答えします。このガイドでは、システムイベントログ、浪潮独自のIDLログ、監査ログ、そして便利な「一键收集ログ」機能などについて解説されています。お気軽にご質問ください。
  • システムイベントログとは何ですか?
    浪潮故障診断ログ(IDL)とは何ですか?
    監査ログにはどのような情報が記録されますか?
    「一键收集ログ」機能とは何ですか?
浪潮英信服务器
CMC 日志收集和分析指
文档版本 1.1
发布日期 2021-10-29
版权所有 © 2021 浪潮电子信息产业股份有限公司。保留一切权利。
未经本公司事先书面许可,任何单位和个人不得以任何形式复制、传播本手册的部分或
全部内容。
内容声明
您购买的产品、服务或特性等应受浪潮集团商业合同和条款的约束。本文档中描述的全
部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,
潮集团对本文档的所有内容不做任何明示或默示的声明或保证。文档中的示意图与产品
实物可能有差别,请以实物为准。本文档仅作为使用指导,不对使用我们产品之前、
间或之后发生的任何损害负责,包括但不限于利益损失、信息丢失、业务中断、人身伤
害,或其他任何间接损失。本文档默认读者对服务器产品有足够的认识,获得了足够的
培训,在操作、维护过程中不会造成个人伤害或产品损坏。文档所含内容如有升级或更
新,恕不另行通知。
商标说明
Inspur 浪潮、Inspur、浪潮、英信是浪潮集团有限公司的注册商标。
本手册中提及的其他所有商标或注册商标,由各自的所有人拥有。
技术支持
技术服务电话:4008600011
址:中国济南市浪潮路 1036
浪潮电子信息产业股份有限公司
编:250101
符号约定
在本文中可能出现下列符号,它们所代表的含义如下。
符号 说明
如不当操作,可能会导致死亡或严重人身伤害。
符号 说明
如不当操作,可能会导致人员损伤
如不当操作,可能会导致设备损坏或数据丢失。
为确保设备成功安装或配置,而需要特别关注的操作或信息。
对操作内容的描述进行必要的补充和说明。
变更记录
版本 时间 变更内容
V1.0 2021-06-18 首版发布
V1.1 2021-10-29 优化格式
1 概述 ............................................................................................................ 1
1.1 文档用途 ........................................................................................................... 1
1.2 目标读者 ........................................................................................................... 1
1.3 适用范围 ........................................................................................................... 1
2 系统事件日志 ............................................................................................... 2
2.1 功能特性 ........................................................................................................... 2
2.2 记录内容和分类 ................................................................................................. 2
2.3 获取方法 ........................................................................................................... 4
2.4 日志含义分析示例.............................................................................................. 5
3 浪潮故障诊断日志(IDL).................................................................................. 7
3.1 功能特性 ........................................................................................................... 7
3.2 获取方法 ........................................................................................................... 7
3.3 IDL 日志处理建议 ............................................................................................ 10
3.4 IDL 日志分析示例 ............................................................................................ 10
4 审计日志 .................................................................................................... 11
4.1 功能特性 ......................................................................................................... 11
4.2 获取方法 ......................................................................................................... 11
4.3 日志含义分析示例............................................................................................ 13
5 当前告警 .................................................................................................... 15
6 一键收集日志 ............................................................................................. 17
6.1 功能特性 ......................................................................................................... 17
6.2 获取方法 ......................................................................................................... 17
7 日志分析对比示例 ....................................................................................... 21
1
1 概述
1.1 文档用途
本文档详细介绍了 CMC 各日志类型的功能特点,获取方法以及分析示例。相关技术人员能够
通过此文档了解各类型日志收集信息的查看和分析方法,有效进行故障诊断
1.2 目标读者
本手册主要适用于以下人员:
技术支持工程师
产品维护工程师
服务器管理用户
建议由具备服务器知识的专业工程师参考本手册进行服务器运维操作。
1.3 适用范围
本手册适用于以下产品:
1-1 适用范围
产品型号 两路服务器 四路服务器 AI服务器 多节点服务器
浪潮英信服务器 i24M6
浪潮英信服务器 i48M6
因机型不同,Web 界面及个别功能或有差异,请以实际使用机型展示效果为准
2
2 系统事件日志
2.1 功能特性
系统事件日志提供主要设备状态变化的历史记录,用于故障诊断。CMC 够记录基于 IPMI
传感器的事件历史记录,IPMI 规范定义的 IPMI 标准的事件均会被记录。系统事件日志的功
能特性如下:
最多支持 3639 个条目。
支持循环模式,且为默认模式。当 SEL 已满时,最旧的日志将被丢弃新产生日志被保
留。
操作清除 SEL 时,1SEL 被清除”的日志将被记录在 SEL 中。
支持通过 Web GUI IPMI CMD 导出 SEL
支持通过 SNMP TrapSyslog 通知事件到远程客户端。
2.2 记录内容和分类
系统事件日志记录遵循 IPMI 规范,当 IPMI 标准事件被触发后,CMC 会记录系统事件日志。
系统事件日志按照日志输出内容可分为阈值型、通用离散型和传感器特定离散型。
2-1 事件日志类型说明
类型 描述 事件举例
阈值型
传感器会设定一定的阈
值,根据传感器当前读值
与阈值比较,触发日志告
警。例如:温度、电压,
风扇转速等传感器。
传感器:所有阈值类传感器。
事件:根据当前传感器读数与阈值比较,
支持以下6种事件类型:
Upper Non Recoverable
Threshold
Upper Critical Threshold
Upper Non Critical Threshold
Lower Non Recoverable
Threshold
Lower Critical Threshold
Lower Non Critical Threshold
3
类型 描述 事件举例
说明:实例传感器支持的事件类型取决于
传感器的设置。
通用离散型
表示一些和部件类型无
关的通用离散型传感器
日志告警。例如:在位、
拔插、可预测性故障。
传感器:风扇状态、ME状态等。
事件:根据当前传感器状态码,有以下几
种事件:
State Deasserted
State Asserted
Predictive Failure deasserted
Predictive Failure asserted
传感器特定离散
特定离散型传感器的离
散量,指示离散状态信
息。例如:CPU状态、内
存状态、硬盘状态,PCIe
卡状态等传感器。
传感器:CPU状态等。
事件:根据当前传感器状态码,有以下几
种事件:
IERR
Thermal Trip
FRB1/BIST failure
FRB2/Hang in POST failure
FRB3/Processor
Startup/Initialization failure
Configuration Error
SM BIOS ‘Uncorrectable
CPU-complex Error
Processor Presence detected
Processor disabled
Terminator Presence Detected
Processor Automatically
Throttled
Machine Check Exception
Correctable Machine Check Error
4
2.3 获取方法
通过 CMC Web GUI 获取。
在导航栏中选择日志和告警>系统事件日志打开如下2-1 所示页 面 ,该 页面显示所有基
于传感器的日志,用户可以配置事件类型、传感器类型以及事件发生时间段参数,对系统事
件日志进行过滤
2-1 系统事件日志_Web
2-2 系统事件日志
参数
描述
事件
ID
SEL
中的事件ID
时间戳
事件生成时间
传感器名称
传感器名称,可通过
ipmitool sdr elist查看该设备上所有传感器名称
传感器类型
IPMI2.0
中定义的传感器类型,例如:
Management Subsystem Health//管理子系统健康状态传感器
Module//节点在位信息传感器
Power Unit//PSU状态传感器
FAN//风扇传感器
描述
事件详细信息
5
2-3 系统事件日志操作说明
参数 描述
过滤
选择事件类型、传感器和起止日期以进行过滤搜索。
动作:您可以用过滤器选项(事件类型、传感器名称、起止时间),
查看设备中记录的特定事件。
下载事件日志 下载事件日志到本地。
清除事件日志 该选项将删除所有现有传感器日志记录,并新增1条“SEL被清除”
日志。
通过 IPMItool 获取:
使用 IPMItool 命令 sel list 或者 sel elist,可列出当前设备上所有传感器的历史事件记录
如下2-22-3 所示。显示的日志信息包含 ID日期时间传感器名称描述和状态
2-2 系统事件日志_IPMI_sel list
2-3 系统事件日志_IPMI_sel elist
2.4 日志含义分析示例
温度过高告警示例:
2-4 温度过高告警示例
事件 系统事件日志
6
温度过高 |2020-11-06T11:05:35+08:00|Outlet_Temp|temperature|upper_non_cri
tical_going_high-asserted
节点健康状态告警示例
2-5 节点健康状态告警示例
事件 系统事件日志
节点健康状
态告警
2020-11-06T14:56:31+08:00|NODE8_Status|management_subsyste
m_health|management_controller_unavailable-asserted
7
3 浪潮故障诊断日志(IDL)
3.1 功能特性
浪潮故障诊断日志 IDL 是浪潮 CMC 独有的日志类型用于记录 CMC 设备上基于 IPMI 传感器
的事件历史记录。IDL 日志信息与系统事件日志信息一一对应,相比于系事件日志信息而
言,IDL 信息提供的信息更多、更全,每条日志都有相应的处理建议,能更有效的帮助用户
进行日志诊断和分析。IDL 日志可以按照日期、严重性、设备、关键字等方式进行过滤,可
执行日志下载和日志清除操作,点击每条日志后侧按钮可获取关于本条日志的处理建议以及
相应的操作步骤。
3.2 获取方法
IDL 日志可以从 CMC Web 获取。在导航栏中选择日志和告警>IDL 日志”打开如下3-1
所示页面,该页面显示此设备上的 CMC IDL 日志列表。
3-1 IDL 日志
8
3-1 IDL 日志特性
参数
描述
序号
IDL
日志中的事件ID
级别
事件错误等级,包括信息
、告警和严重
设备类型
告警事件关联的
实体部件,部件类型如下:
FAN
INTRUSION
CPU
PSU
ADDIN CARD
MEMORY
DISK
SYS FW PROGRESS
EVENT LOG
WATCHDOG1
SYSTEM EVENT
POWER BUTTON
MAINBOARD
PCIE
BMC
PCH
CABLE
SYS RESTART
BOOT ERROR
BIOS BOOT
OS STATUS
ACPI STATUS
IPMI WATCHDOG
LAN
SUB SYSTEM
BIOS OPTIONS
GPU
RAID
FW UPDATE
SYSTEM
SNMP TEST
SMTP TEST
事件描述
告警事件的详细描述
产生时间
IDL
日志产生时间。
状态
显示日志的状态,触发
日志或解除日志
事件码
告警事件的唯一故障编码,长度为
8个字节。参 考 3-3 IDL
事件码说明。
主机名
服务器
系统主机名
9
参数
描述
处理建议
针对此告警事件的处理建议
3-2 IDL 日志操作说明
参数 描述
过滤
选择严重性和起止日期以进行过滤搜索。
动作:您可以用过滤器选项(事件严重性级别、时间关键字),查
看设备中记录的特定事件。
下载日志 下载IDL日志到本地。
清除IDL日志 点击清除IDL日志”按钮将清除该CMC上所有IDL日志信息。
3-3 IDL 事件码说明
字节 含义
6-7
部件类型。
16进制数与部件对应关系,例如:
04: FAN
05: INTRUSION
07: CPU
08: PSU
0B: ADDIN_CARD
0C: MEMORY
0D: DISK
4-5 部件的序号,指在此部件类型中的序号
2-3 事件的偏移量,表示事件类型。
0-1
告警级别。
16进制数与告警级别对应关系:
00: INFO
01: WARNING
02: CRITICAL
10
3.3 IDL 日志处理建议
通过点击相应告警事件右侧的处理建议按钮,可以查看对该告警事件的处理建议,告警示例
如下3-2 所示。
3-2 IDL 告警事件处理建议
3.4 IDL 日志分析示例
系统开机 IDL 日志示例
3-4 温度过高 IDL 日志示例
事件 IDL日志
温度过高
|Warning|MAINBOARD|Outlet_Temp reading 30.00 higher than
threshold 20.00(UpperNon-Critical-Going
High)FanID:Speed=>0:8333;1:8282;2:7541;3:6617;4:7584;5:66
50;6:7541;7:6650;8:7500;9:6585;|2020-11-06T11:05:35+08:00|
Assert|15FF0701|produceSN
节点健康状态告警:
3-5 节点健康状态告警 IDL 日志示例
事件 IDL日志
节点健康
状态告警
|Critical|SUB SYSTEM NODE8_Status management controller
unavailable|2020-11-06T14:56:31+08:00|Assert|280D0302|produceSN
11
4 审计日志
4.1 功能特性
CMC 可以记录审计日志,审计日志可以通过 CMC Web GUI 进行查看。审计日志可按照起止
日期进行过滤。可显示当前审计日志总条数。审计日志的功能特性如下
通过 SSHWebIPMIRedfish 接口登陆系统进行管理的关键行为会被记录,其范围
包括但不限于登录、注销用户管理、口令管理、授权管理、核心安全配置(如访问控
制策略、自动更新策略、安全监控策略、审计功能等)的变更、固件更新和恢复等。
审计日志支持的大小是 200K,如果超过 200K,较老的日志将会被备份到 CMC 中。当
前的审计日志可通过 Web 进行查看,较老的审计日志可通过一键收集日志功能下载。
4.2 获取方法
在导航栏中选择日志和告警>审计日志,打开如下4-1 所示界面,该页面显示 CMC 审计
日志。可以通过设置起止时间对审计日志进行筛选
12
4-1 审计日志
4-1 审计日志
参数
序号
序号,序号越小的操作发生越早
产生时间
日志产生时间
软件接口
Web
Redfish
RESTful
CLI
IPMI
用户
日志事件操作用户,adminsysadmin或者
当硬件接口显示为HOST时,用户显示为NA
13
参数
IP
或硬件接口
或硬件接口,硬件接口包括SerialHOSTIPMBUSB
事件描述
4-2 审计日志和系统日志具体配置参数
参数 描述
过滤
选择起止日期以进行过滤搜索。
动作:您可以用过滤器选项(起止时间),查看设备中记录的特
定事件。
4.3 日志含义分析示例
以下示例为节点开关机、Web 操作和设置记录的审计日志信息
节点开关机审计日志示例
4-3 节点开关机审计日志示例
操作 审计日志示例
节点开机
Power on
2020-11-06T11:04:58+08:00|WEB|admin|100.3.2.6|Operation:Powe
r On (Node 8 Success )
节点关机
Power off
2020-11-06T11:03:29+08:00|WEB|admin|100.3.2.6|Operation:Powe
r Force Off (Node 8 Success )
Web 操作和设置
4-4 Web 操作登录、注销审计日志示例
操作 审计日志示例
Web登录 2020-11-06T11:30:22+08:00|WEB|admin|100.3.2.6|Login Success
from IP:100.3.2.6 user:admin
14
Web注销 100 2020-11-06T11:30:13+08:00|WEB|admin|100.3.2.6| Logout
Success from IP:100.3.2.6 user:admin
4-5 Web 设置审计日志示例
操作 审计日志示例
Web修改
CMC设置
2020-11-06T13:57:22+08:00|WEB|admin|100.3.2.6
Operation:{ "id": 1, "service_id": 1, "service_name": "web",
"state": 1, "non_secure_port": "80", "secure_port": "443",
"time_out": "900", "maximum_sessions": "", "active_session": "",
"singleport_status": 0 } Modify Service Configuration Success
Web传感器
阈值调整
2020-11-06T14:01:25+08:00|WEB |admin
100.3.2.6|Operation:{ "id": 1, "sensor_number": 1, "name":
"Outlet_Temp", "sensor_type_number": 1, "owner_lun": 0,
"settable_flag": 2056, "lower_non_recoverable_threshold": "NA",
"lower_critical_threshold": "NA", "lower_non_critical_threshold":
"NA", "higher_non_critical_threshold": "30",
"higher_critical_threshold": "NA",
"higher_non_recoverable_threshold": "NA" } Set Sensor threshold
Success
15
5 当前告警
当系统事件日志中产生告警信息,会添加告警日志,同时点亮系统告警灯。当前告警页面显
示该系统中的未解除告警信息,当故障解除时此日志会自动去掉,同时告警灯熄灭
当前告警可通过 CMC Web 进行查看。在导航栏中选择“日志和告警>当前告警”打开如下
5-1 所示页面该页面显示当前系统的告警信息。点击每条日志后侧 按钮可获取关于本
条日志的处理建议以及相应的操作步骤
5-1 当前告警
5-1 当前告警
参数
描述
级别
告警级别,包括信息
、告警和严重
序号
告警
序号
设备类型
告警事件关联的
实体部件,部件类型如下:
FAN
INTRUSION
CPU
PSU
ADDIN CARD
MEMORY
DISK
SYS FW PROGRESS
EVENT LOG
WATCHDOG1
SYSTEM EVENT
POWER BUTTON
MAINBOARD
PCIE
BMC
PCH
/