NF8480M6

Inspur NF8480M6 Operation and Maintenance Manual

  • このチャットアシスタントは、浪潮英信サーバーのBMCログ収集と分析マニュアルの内容を理解しています。サーバーのログに関するご質問にお答えします。システムイベントログ、IDLログ、監査ログ、一键收集ログなど、マニュアルに記載されている各種ログの種類、取得方法、分析例についてご質問ください。
  • システムイベントログはどこで確認できますか?
    IDLログとは何ですか?
    監査ログにはどのような情報が記録されますか?
    一键收集日志機能とは何ですか?
浪潮英信服务器
BMC 日志收集和分析指
文档版本 V2.7
发布日期 2022-10-27
版权所有© 2021-2022 浪潮电子信息产业股份有限公司。保留一切权利。
未经本公司事先书面许可,任何单位和个人不得以任何形式复制、传播本手册的部分或
全部内容。
内容声明
您购买的产品、服务或特性等应受浪潮集团商业合同和条款的约束。本文档中描述的全
部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,
潮集团对本文档的所有内容不做任何明示或默示的声明或保证。文档中的示意图与产品
实物可能有差别,请以实物为准。本文档仅作为使用指导,不对使用我们产品之前、
间或之后发生的任何损害负责,包括但不限于利益损失、信息丢失、业务中断、人身伤
害,或其他任何间接损失。本文档默认读者对服务器产品有足够的认识,获得了足够的
培训,在操作、维护过程中不会造成个人伤害或产品损坏。文档所含内容如有升级或更
新,恕不另行通知。
商标说明
Inspur 浪潮、Inspur、浪潮、英信是浪潮集团有限公司的注册商标。
本手册中提及的其他所有商标或注册商标,由各自的所有人拥有。
技术支持
技术服务电话:4008600011
址:中国济南市浪潮路 1036
浪潮电子信息产业股份有限公司
编:250101
符号约定
在本文中可能出现下列符号,它们所代表的含义如下。
符号 说明
如不当操作,可能会导致死亡或严重人身伤害。
符号 说明
如不当操作,可能会导致人员损伤
如不当操作,可能会导致设备损坏或数据丢失。
为确保设备成功安装或配置,而需要特别关注的操作或信息。
对操作内容的描述进行必要的补充和说明。
变更记录
版本 时间 变更内容
V1.0 2021-02-07 首版发布。
V2.0 2021-06-30 格式内容整体优化。
V2.1 2021-09-01
增加因机型不同,Web界面及个别功能或有差
异的说明。
V2.2 2021-09-20 新增4款产品型号到表格1-1产品型号列表。
V2.3 2021-11-14 新增2款产品型号到表格1-1产品型号列表。
V2.4 2022-01-21 更新扉页和前言的内容。
V2.5 2022-03-12 统一所有表格的宽度。
V2.6 2022-06-03 新增2款产品型号到表格1-1产品型号列表。
V2.7 2022-10-27
更新表4-2审计日志和系统日志具体配置参数
的参数名称。
1 概述 ............................................................................................................ 1
1.1 文档用途 ........................................................................................................... 1
1.2 目标读者 ........................................................................................................... 1
1.3 适用范围 ........................................................................................................... 1
2 系统事件日志 ............................................................................................... 3
3 浪潮故障诊断日志(IDL).................................................................................. 8
4 审计日志 .................................................................................................... 13
5 当前告警 .................................................................................................... 18
6 一键收集日志 ............................................................................................. 21
7 日志分析对比示例 ....................................................................................... 25
1
1 概述
1.1 文档用途
本文档详细介绍了 BMC 各日志类型的功能特点,获取方法以及分析示例。相关技术人员能够
通过此文档了解各类型日志信息的收集查看和分析方法,有效进行故障诊断
1.2 目标读者
本手册主要适用于以下人员:
技术支持工程师
产品维护工程师
服务器管理用户
建议由具备服务器知识的专业工程师参考本手册进行服务器运维操作。
1.3 适用范围
本手册适用于以下产品
1-1 产品型号列表
产品型号 两路服务器 四路服务器 AI服务器 多节点服务器
浪潮英信服务器NF8260M6
浪潮英信服务器NF8480M6
浪潮英信服务器NF5280M6
浪潮英信服务器NF5180M6
浪潮英信服务器NF5270M6
浪潮英信服务器NF5260M6
浪潮英信服务器NF5466M6
浪潮英信服务器NF5266M6
浪潮英信服务器NF5468M6
浪潮英信服务器NF5488M6
浪潮英信服务器NF5688M6
浪潮英信服务器i24M6
2
产品型号 两路服务器 四路服务器 AI服务器 多节点服务器
浪潮英信服务器i48M6
浪潮英信服务器SA5280M6
浪潮英信服务器SA5112M6
浪潮英信服务器SA5270M6
浪潮英信服务器SA5212M6
浪潮英信服务器SN5160FM6
浪潮英信服务器SN5264FM6
浪潮英信服务器i24LM6
浪潮英信服务器NF5260FM6
因机型不同,Web 界面及个别功能或有差异,请以实际使用机型展示效果为准。
3
2 系统事件日志
功能特性:
系统事件日志提供主要设备状态变化的历史记录,用于故障诊断。BMC 能够记录基于 IPMI
感器的事件历史记录,IPMI 规范定义的 IPMI 标准的事件均会被记录。系统事件日志的功能
特性如下:
最多支持 3639 个条目。
支持循环模式(默认模式。当 SEL 已满时,最旧的日志将被丢弃新产生日志被
保留。
操作清除 SEL 时,1SEL 被清除”的日志将被记录在 SEL 中。
支持通过 Web GUI IPMI CMD 导出 SEL
支持通过 SNMP TrapSyslog 通知事件到远程客户端。
记录内容和分类:
系统事件日志记录遵循 IPMI 规范,当 IPMI 标准事件被触发后,BMC 会记录系统事件日志。
系统事件日志按照日志输出内容可分为阈值型、通用离散型和传感器特定离散型。
2-1 事件日志类型说明
类型 描述 事件举例
阈值型
传感器会设定一定的
阈值,根据传感器当
前读值与阈值比较,
触发日志告警。例
如:温度、电压,风
扇转速等传感器。
传感器:所有阈值类传感器
事件:根据当前传感器读数与阈值比较,
持以下6种事件类型
Upper Non Recoverable Threshold
Upper Critical Threshold
Upper Non Critical Threshold
Lower Non Recoverable Threshold
Lower Critical Threshold
Lower Non Critical Threshold
说明:实例传感器支持的事件类型取决于传
感器的设置。
4
类型 描述 事件举例
通用离散
表示一些和部件类型
无关的通用离散型传
感器日志告警。例
如:在位、拔插、可
预测性故障。
传感器:风扇状态、ME状态等
事件:根据当前传感器状态码,有以下几种
事件
State Deasserted
State Asserted
Predictive Failure deasserted
Predictive Failure asserted
传感器特定离散
特定离散型传感器的
离散量,指示离散状
态信息。例如:CPU
状态、内存状态、硬
盘状态、PCIe卡状态
等传感器。
传感器:CPU状态
事件:根据当前传感器状态码,有以下几种
事件
IERR
Thermal Trip
FRB1/BIST failure
FRB2/Hang in POST failure
FRB3/Processor
Startup/Initialization failure
Configuration Error
SM BIOS ‘Uncorrectable CPU-
complex Error’
Processor Presence detected
Processor disabled
Terminator Presence Detected
Processor Automatically Throttled
Machine Check Exception
Correctable Machine Check Error
获取方法:
通过 BMC Web GUI 获取。
导航栏中选择日志和告警>系统事件日志打开2-1 所示页面,该页面显示所有基于
5
传感器的日志,用户可以配置事件类型、传感器类型以及事件发生时间段参数,对系统事件
日志进行过滤。
2-1 系统事件日志-Web
2-2 系统事件日志
参数 描述
事件ID SEL中的事件ID
时间戳 事件生成时间。
传感器名称 传感器名称,可通过ipmitool sdr elist查看该设备上所有传感器名
称。
传感器类型
IPMI 2.0中定义的传感器类型,例如:
Temperature//温度传感器
Voltage//电压传感器
Processor//CPU状态传感器
Power Supply//PSU状态传感器
Memory//内存状态传感器
Drive Slot//硬盘状态传感器
Critical Interrupt//PCIe状态传感器
描述 事件详细信息。
6
2-3 系统事件日志操作说明
参数 描述
过滤
选择事件类型、传感器和起止日期以进行过滤搜索。
动作:您可以用过滤器选项(事件类型、传感器名称、起止时
间),查看设备中记录的特定事件。
下载事件日志 下载事件日志到本地。
清除事件日志 该选项将删除所有现有传感器日志记录并新增1条“sel被清除”
日志。
通过 ipmitool 获取。
使用 ipmitool 命令 sel list 或者 sel elist,可列出当前设备上所有传感器的历史事件记录
2-22-3 所示。显示的日志信息包含 ID日期、时间、传感器名称、描述和状态
2-2 系统事件日志_IPMI_sel list
2-3 系统事件日志_IPMI_sel elist
日志含义分析示例:
开关机系统事件日志示例
2-4 开关机系统事件日志示例
事件 系统事件日志
开机 |2020-02-11T00:10:23+08:00 | System ACPI Power State
ACPI_PWR | S0/G0: working | Asserted
7
温度过高告警示例。
2-5 温度过高告警示例
事件 系统事件日志
出风口温度过高 |2020-02-11T00:10:23+08:00|Outlet_Temp|temperature |
upper_non_critical_going_high-asserted
PCIe故障示例
2-6 PCIe故障示例
事件 系统事件日志
PCIe故障 | 2020-02-11T00:10:23+08:00 | Critical Interrupt #0xe4 |
Bus Correctable error | Asserted
8
3 浪潮故障诊断日志(IDL)
功能特性:
浪潮故障诊断日志 IDL 是浪潮 BMC 独有的日志类型,用于记录 BMC 设备上基于 IPMI 传感
器的事件历史记录。IDL 日志信息与系统事件日志信息一一对应,相比于系统事件日志信息
而言,IDL 信息提供的信息更多更全,每条日志都有相应的处理建议,能更有效帮助用户进
行日志诊断和分析。IDL 日志可以按照日期严重性设备关键字等方式进行过滤,可执行
日志下载和日志清除操作,点击每条日志后侧按钮可获取关于本条日志的处理建议以及相应
的操作步骤。
获取方法:
IDL 日志可以从 BMC Web 获取。在导航栏中选择日志和告警>IDL 日志”打开如3-1
示页面,该页面显示此设备上的 BMC IDL 日志列表
3-1 IDL 日志
3-1 IDL 日志特性
参数 描述
序号 IDL日志中的事件ID
级别 事件错误等级,包括信息告警和严重。
设备类型 告警事件关联的实体部件,部件类型如下:
9
参数 描述
FAN
INTRUSION
CPU
PSU
ADDIN CARD
MEMORY
DISK
SYS FW PROGRESS
EVENT LOG
WATCHDOG1
SYSTEM EVENT
POWER BUTTON
MAINBOARD
PCIe
BMC
PCH
CABLE
SYS RESTART
BOOT ERROR
BIOS BOOT
OS STATUS
ACPI STATUS
IPMI WATCHDOG
LAN
SUB SYSTEM
BIOS OPTIONS
GPU
10
参数 描述
RAID
FW UPDATE
SYSTEM
SNMP TEST
SMTP TEST
事件描述 告警事件的详细描述。
产生时间 IDL日志产生时间。
状态 显示日志的状态,触发日志或解除日志
事件码 告警事件的唯一故障编码,长度为8个字节。参考3-3 IDL事件码
说明
主机名 服务器系统主机名。
处理建议 针对此告警事件的处理建议
3-2 IDL 日志操作说明
参数 描述
过滤
选择严重性和起止日期以进行过滤搜索。
动作:您可以用过滤器选项(事件严重性级别、时间关键字),查
看设备中记录的特定事件。
下载日志 下载IDL日志到本地。
清除IDL日志 点击清除日志按钮将清除该BMC上所有IDL日志信息。
3-3 IDL 事件码说明
字节 含义
6-7
部件类型。
16进制数与部件对应关系,例如:
04FAN
05INTRUSION
07CPU
08PSU
11
字节 含义
0BADDIN_CARD
0CMEMORY
0DDISK
4-5 部件的序号,指在此部件类型中的序号
2-3 事件的偏移量,表示事件类型。
0-1
告警级别。
16进制数与告警级别对应关系:
00INFO
01WARNING
02CRITICAL
03ALERT
IDL 日志处理建议:
通过点击相应告警事件右侧的处理建议按钮,可以查看对该告警事件的处理建议,告警示例
3-2 所示。
3-2 IDL 告警事件处理建议
IDL 日志分析示例:
系统开机 IDL 日志示例
12
3-4 开机 IDL 日志示例
事件 IDL日志
系统开机 |Info|ACPI STATUS|ACPI_PWR S0/G0 working | 2000-01-
02T06:27:25+08:00|Assert|22FF0000| IEIB4055D3199E1
温度过高。
3-5 温度过高 IDL 日志示例
事件 IDL日志
温度过高
| Warning| MAINBOARD| Outlet_Temp reading 36.00 higher than
threshold 35.00 (Upper Non-Critical - Going
High)FanID:Speed=>0:NA;1:NA;2:NA;3:NA;4:NA;5:NA;6:NA;7:NA;
| 2000-01-02T06:27:25+08:00 | Assert| 15FF0701|IEIB4055D3199E1
PCIe故障
3-6 PCIe故障 IDL 日志示例
事件 IDL日志
PCIe故障
|Critical|PCIE| PCIe_Status Bus Correctable Error Occured
PCIE Location:#I350_LAN(Bus138-Dev0-Func0) | 2000-01-
02T06:27:25+08:00 | Assert|17000701|IEIB4055D3199E1
13
4 审计日志
功能特性:
BMC 可以记录审计日志,审计日志可以通过 BMC Web GUI 进行查看。审计日志可按照起止
日期进行过滤,可显示当前审计日志总条数。审计日志的功能特性如下
通过 SSHWebIPMIRedfish 接口登陆系统进行管理的关键行为会被记录,
范围包括但不限于登录、注销用户管理密码管理授权管理、核心安全配置(如
访问控制策略、自动更新策略、安全监控策略、审计功能等)的变更、固件更新和
恢复等。
审计日志支持的大小是 200K如果超过 200K较老的日志将会被备份到 BMC 中。
当前的审计日志可通过 Web 进行查看,较老的审计日志可通过一键收集日志功能
下载。
获取方法:
导航栏中选择日志和告警>审计日志”,打开如4-1 所示界面,该页面显示 BMC 审计
日志。可以通过设置起止时间对审计日志进行筛选
4-1 审计日志
14
4-1 审计日志
参数 描述
序号 审计日志序号,序号越小的操作发生越早。
产生时间 审计日志产生时间。
软件接口
软件接口,包括
Web
REDFISH
RESTFUL
CLI
IPMI
KVM
VMEDIA_CD
VMEDIA_HD
用户
用户,记录日志事件操作用户,如adminsysadmin或者
NA等。
说明:当硬件接口显示为HOST时,用户显示为NA
IP或硬件接口 IP或硬件接口,硬件接口包括SERIALHOSTIPMB
USBSSIF
事件描述 事件详细信息。
4-2 审计日志和系统日志具体配置参数
参数 描述
筛选
选择起止日期以进行过滤搜索。
动作:您可以用过滤器选项(起止时间),查看设备中记录的特
定事件。
日志含义分析示例:
以下示例为 KVM 操作,Web 操作,开关机操作记录的审计日志信息
KVM 操作审计日志示例。
15
4-3 KVM 操作审计日志示例
KVM操作 日志示例
电源重启 |KVM|100.2.76.115|admin|Send Reset Server CMD
立即关闭 |KVM|100.2.76.115|admin|Send Immediate
Shutdown CMD
有序关闭 |KVM|100.2.76.115|admin|Send Orderly
Shutdown CMD
电源开启 |KVM|100.2.76.115|admin|Send Power On CMD
电源循环 |KVM|100.2.76.115|admin|Send Power Cycle CMD
设置启动选项-PXE |KVM|100.2.76.115|admin|Set Boot Option To
PXE(Next time only)或(Always
设置启动选项-Hard Disk |KVM|100.2.76.115|admin|Set Boot Option To
Hard Disk/USB(Next time only)或(Always
设置启动选项-CD/DVD |KVM|100.2.76.115|admin|Set Boot Option To
CD/DVD(Next time only)或(Always
设置启动选项-BIOS Set up |KVM|100.2.76.115|admin|Set Boot Option To
BIOS Setup(Next time only)或(Always
设置鼠标模式-绝对模式
|KVM|100.2.76.115|admin|Set mouse mode to
absolute success from IP:100.2.76.115
user:admin
设置鼠标模式-相对模式
|KVM|100.2.76.115|admin|Set mouse mode to
relative success from IP:100.2.76.115
user:admin
设置鼠标模式-其他模式 |KVM|100.2.76.115|admin|Set mouse mode to
other success from IP:100.2.76.115 user:admin
登入/登出KVM |KVM|100.2.76.115|root|Login Success from
IP:100.2.76.115 user:root(Logout)
通过KVM挂载镜像
|VMEDIA_CD|100.2.76.115|root|Logout Success
form IP:100.2.76.115 user:root(或Logout
|VMEDIA_HD|100.2.76.115|root|Logout Success
form IP:100.2.76.115 user:root(或Logout
KVM主用户关闭另一个用户
|KVM|(MasterIP)|(username)|Master
session(IP:MasterIP user:username) closed slave
session(IP:slaveIP user:slave username)
Web 操作和设置
16
4-4 Web 操作登录注销审计日志示例
操作 审计日志示例
Web登录 2000-01-02T06:19:42+08:00|WEB| admin|100.2.76.125|Login
Success from IP:100.2.76.125 user:admin
Web注销 2020-02-11T00:22:13+08:00|WEB| admin|100.2.76.125|Logout
Success from IP:100.2.76.125 user:admin
4-5 Web 操作审计日志示例
操作 审计日志示例
Web修改
BMC设置
2020-02-11T00:24:44+08:00|WEB|
admin|100.2.76.125|Operation:{ "id": 1, "service_id": 1,
"service_name": "web", "state": 1, "interface_name": "both",
"non_secure_port": "80", "secure_port": "443", "time_out": "900",
"maximum_sessions": "", "active_session": "", "singleport_status":
0 } Modify Service Configuration Success
Web传感器
阈值调整
2020-02-11T00:26:37+08:00|WEB|
admin|100.2.76.125|Operation:{ "id": 1, "sensor_number": 1,
"name": "Outlet_Temp", "sensor_type_number": 1, "owner_lun": 0,
"settable_flag": 2056, "lower_non_recoverable_threshold": "NA",
"lower_critical_threshold": "NA", "lower_non_critical_threshold":
"NA", "higher_non_critical_threshold": "76",
"higher_critical_threshold": "NA",
"higher_non_recoverable_threshold": "NA" } Set Sensor threshold
Success
开关机审计日志示例。
4-6 开机关机审计日志示例
操作 审计日志示例
开机
Power on
2000-01-01T09:10:33.500000+08:00 ProductSN spx_restservice:
[2405 : 2405 INFO]|WEB|100.2.76.25|root|Operation:Power On
Success
/