Inspur NF5488M5 ユーザーマニュアル

  • 浪潮NF5488M5 AIサーバーのユーザーマニュアルに関するご質問にお答えします。マニュアルの内容は、サーバーの仕様、ハードウェア操作、ソフトウェア設定、トラブルシューティング、メンテナンスなど多岐に渡ります。ご不明な点がございましたら、お気軽にご質問ください。
  • サーバーの電源の入れ方は?
    サーバーの電源の切り方は?
    CMOSクリアの方法を教えてください。
    推奨される動作環境温度は?
    最大メモリ容量は?
浪潮英信服务器用户手册
NF5488M5
V2.3
尊敬的浪潮英信服务器用户:
衷心感谢您选用浪潮英信服务器!
本手册介绍了此款服务器的技术特性与系统的设置、安装,有助于您更详细的了
解和便捷的使用此款服务器。
请将我方产品的包装物交废品收购站回收利用,以利于污染预防,造福人类。
浪潮拥有本手册的版权。
未经浪潮许可,任何单位和个人不得以任何形式复制本用户手册。浪潮保留随时
修改本手册的权利。
本手册中的内容如有变动恕不另行通知。
如果您对本手册有疑问或建议,请向浪潮垂询。
浪潮
2021 8
和“英信”是浪潮集团有限公司的注册商标。 本手册中提及
的其他所有商标或注册商标,由各自的所有人拥有。
版本说明
文档版本:2.3
日期:2022 6月 24日
摘 要
手册介绍本服务器的规格信息、硬件操作、软件设置、服务条款、故障诊断等与维护工
作密切相关的内容。
本指南认定读者对服务器产品有足够的认识,获得了足够的培训,在操作、维护过程中
不会造成个人伤害或产品损坏。
目标受众
本手册主要适用于以下人员:
技术支持工程师
产品维护工程师
建议由具备服务器知识的专业工程师参考本手册进行服务器运维操作。
目 录
1 安全说明 ............................................................................................................................ 1
2 产品规格介绍 ..................................................................................................................... 4
2.1 简介 ................................................................................................................................ 4
2.2 特性和规格 ...................................................................................................................... 5
3 组件识别 ............................................................................................................................ 6
3.1 前面板组件...................................................................................................................... 6
3.2 前控板按键与指示灯 ....................................................................................................... 6
3.3 硬盘托架上的指示灯 ....................................................................................................... 7
3.4 后面板组件 ...................................................................................................................... 7
3.5 主板组件 ......................................................................................................................... 8
3.6 GPU 模组 ........................................................................................................................ 9
4 操作 ................................................................................................................................. 10
4.1 接通服务器电源 ............................................................................................................ 10
4.2 断开服务器电源 ............................................................................................................ 10
4.3 拆卸服务器 .................................................................................................................... 10
4.4 取下检修面板 ................................................................................................................ 11
4.5 安装检修面板 ................................................................................................................ 11
4.6 安装服务器 .................................................................................................................... 11
4.7 拆卸 GPU BOX .............................................................................................................. 12
4.8 拆卸 IO BOX ................................................................................................................. 13
5 设置 ................................................................................................................................. 14
5.1 最佳环境 ....................................................................................................................... 14
5.2 机架警告 ....................................................................................................................... 16
5.3 查看服务器包装箱中的物品 .......................................................................................... 16
5.4 安装硬件选件 ................................................................................................................ 17
5.5 将服务器装入机架 ......................................................................................................... 17
5.6 安装操作系统 ................................................................................................................ 17
6 硬件选件安装 ................................................................................................................... 18
6.1 简介 .............................................................................................................................. 18
6.2 处理器选件 .................................................................................................................... 18
6.3 内存选件 ....................................................................................................................... 21
6.4 硬盘选件 ....................................................................................................................... 22
6.5 电源选件 ....................................................................................................................... 24
6.6 导风罩选件 .................................................................................................................... 24
7 布线 ................................................................................................................................. 26
8 BIOS 设置 ........................................................................................................................ 27
8.1 常用操作 ....................................................................................................................... 27
8.2 BIOS 参数说明 .............................................................................................................. 44
8.3Firmware Update ........................................................................................................... 89
9 BMC 设置 ........................................................................................................................ 94
9.1 主板 BMC 设置 ............................................................................................................. 94
9.2 Switch BMC 设置 ................................................................................................... 122
10 常见故障及诊断排除 .................................................................................................... 147
10.1 常见硬件问题 ............................................................................................................ 147
10.2 常见系统软件问题 ..................................................................................................... 150
11 更换电池 ...................................................................................................................... 151
12 管制标准通告 ............................................................................................................... 152
12.1 管制标准标识号 ........................................................................................................ 152
12.2 联邦通信委员会通告 ................................................................................................. 152
12.3 欧盟管制通告 ............................................................................................................ 152
12.4 韩国通告 ................................................................................................................... 153
12.5 欧盟家庭用户废旧设备处置 ..................................................................................... 153
12.6 中国通告 ................................................................................................................... 153
12.7 电池更换通告 ............................................................................................................ 154
13 静电放电 ...................................................................................................................... 155
13.1 防止静电放电 ............................................................................................................ 155
13.2 防止静电释放的接地方法 .......................................................................................... 155
14 服务条款 ...................................................................................................................... 156
安全说明
1
1 安全说明
警告:以下警告表示存在可能导致财产损失、人身伤害或死亡的潜在危险。
1 本系统中的电源设备可能会产生高电压和危险电能,从而导致人身伤害。请勿自行
卸下主机盖以拆装、更换系统内部的任何组件,除非另外得到浪潮的通知,否则只
有经过浪潮培训的维修技术人员才有权拆开主机盖及拆装、更换内部组件。
2 请将设备连接到适当的电源,仅可使用额定输入标签上指明的外部电源类型为设备
供电,为保护您的设备免受电压瞬间升高或降低所导致的损坏,请使用相关的稳压
设备或不间断电源设备。
3 勿将两根或两根以上电源线互相连接使用,如需更长的电源线,请联系浪潮客服
4 请务必使用随机配备的供电组件如电源线、电源插座(如果随机配备)等,为了
备及使用者的安全,不要随意更换电源电缆或插头。
5 为防止系统漏电造成电击危险,务必将系统和外围设备的电源电缆插入已正确接地
的电源插座。请将三芯电源线插头插入接地良好、伸手可及的三芯交流电源插座中,
务必使用电源线的接地插脚,不要使用转接插头或拔下电缆的接地插脚,在未安装
接地导线及不确定是否已有适当接地保护的情况下,请勿操作使用本设备,可与电
工联系咨询。
6 勿将任何物体塞入系统的开孔处。如果塞入物体,可能会导致内部组件短路而引
起火灾或电击。
7 请将系统置于远离散热片和有热源的地方,切勿堵塞通风孔。
8 勿让食物或液体散落在系统内部或其它组件上,不要在高潮湿、高灰尘的环境中
使用产品。
9 用错误型号的电池更换会有爆炸危险,需要更换电池时,请先向制造商咨询并使用
制造商推荐型号相同或相近的电池,切勿拆开、挤压、刺戳电池或使其外部接点短
路,不要将其丢入火中或水中,也不要暴露在温度超过 60 摄氏度的环境中,请勿
尝试打开或维修电池,务必合理处置用完的电池,不要将用完的电池及可能包含电
池的电路板及其它组件与其它废品放在一起,有关电池回收请与当地废品回收处理
机构联系。
10 在机柜中安装设备之前,请先在独立机柜上安装正面和侧面支脚;对于与其它机柜
相连的机柜,则先安装正面支脚。如果在机柜中安装设备之前未相应地安装支脚,
2
在某些情况下可能会导致机柜翻倒,从而可能造成人身伤害,因此,在机柜中安装
设备之前,请务必先安装支脚。在机柜中安装设备及其它组件后,一次仅可将一个
组件通过其滑动部件从机柜中拉出。同时拉出多个组件可能会导致机柜翻倒而造成
严重的人身伤害。
11 请勿独自移动机柜。考虑到机柜的高度和重量,至少应由两人来完成移动机柜任务。
12 机柜带电工作时请勿对供电铜排进行直接触操作, 严禁将供电铜排进行直接短接。
注意: 为了您更好地使用设备,以下注意事项将帮助您避免可能会损坏部件或导致数
据丢失等问题的出现:
1 如果出现以下任何情况,请从电源插座拔下产品的电源线插头,并与浪潮的客户服
务部门联系:
1)电源线缆或电源插头已损坏
2)产品被水淋湿。
3)产品跌落或损坏。
4)物体落入产品内部。
5)按照操作说明进行操作时,产品不能正常工作。
2 如果系统受潮,请按以下步骤处置:
1)关闭系统和设备电源,断开它们与电源插座的连接,等待 10 20 秒钟,然
后打开主机盖。
2)将设备移至通风处,使系统至少干燥 24 小时,并确保系统完全干燥。
3)合上主机盖,将系统重新连接至电源插座,然后开机。
4)如果运行失败或异常,请与浪潮联系,获得技术帮助。
3 注意系统电缆和电源电缆的位置,将其布线在不会被踩到或碰落的地方,确保不要
将其它物品放置在电缆上。
4 卸下主机盖或接触内部组件之前,应先让设备冷却;为避免损坏主板,请在系统关
闭后等待 5 秒钟,然后再从主板上卸下组件或断开系统外围设备的连接。
5 如果设备中安装了调制解调器、电信或局域网选件,请注意以下事项:
1)如果出现雷电天气,请勿连接或使用调制解调器。否则可能遭受雷击。
2)切勿在潮湿环境中连接或使用调制解调器。
3)切勿将调制解调器或电话电缆插入网络接口控制器 (NIC) 插座。
安全说明
3
4)打开产品包装、接触或安装内部组件或接触不绝缘的调制解调器电缆或插孔
之前,请断开调制解调器电缆。
6 为防止静电释放损坏设备内部的电子组件,请注意以下事项:
1拆装、接触设备内任何电子组件前应先导去身上的静电。您可通过触摸金属
接地物(如机箱上未上漆的金属表面)导去身上的静电,以防止身上静电对
敏感组件的静电释放。
2)对不准备安装使用的静电敏感组件,请不要将其从防静电包装材料中取出。
3工作中请定期触摸接地导体或机箱上未上漆的金属表面,以便导去身上可能
损坏内部组件的静电。
7 经浪潮同意,拆装系统内部组件时,请注意以下事项:
1)关闭系统电源并断开电缆,包括断开系统的任何连接。
断开电缆时,请抓住电缆的连接器将其拔出,切勿拉扯电缆。
2)卸下主机盖或接触内部组件之前,应先让产品冷却。
3)拆装、接触设备内任何电子组件前应先通过触摸金属接地物体导去身上的静电。
4)拆装过程中动作幅度不宜过大,以免损坏组件或划伤手臂。
5)小心处理组件和插卡,切勿触摸插卡上的组件或接点。拿取插卡或组件时
应抓住插卡或组件的边缘或其金属固定支架。
8 机柜产品在安装使用过程中,应注意以下事项:
1)机柜完成安装后,请确保支脚已固定到机架并支撑到地面,并且机架的所有
重量均已落在地面上。
2)务必按照从下到上的顺序装入机柜,并且首先安装最重的部件。
3)从机柜中拉出组件时,应轻轻用力,确保机柜保持平衡和稳定。
4)按下组件滑轨释放闩锁并将组件滑入或滑出时,请务必小心,滑轨可能夹伤
您的手指。
5)切勿让机柜中的交流电源分支电路过载。机柜负载总和不应超过分支电路额
定值的 80%。
6)确保机柜中组件保持良好的通风。
7)维修机柜中的组件时,请勿踩踏在其它任何组件上。
9、收到服务器后,请参照上盖拆卸运输螺丝指示标签,将机箱两侧的的运输螺丝拆
卸后再上架安装;
4
2 产品规格介绍
2.1 简介
AI 服务器 NF5488M5 系列产品具有高扩展、高性能、高能效,可灵活部署
等特性,AI 计算性能可达每秒一千万亿次,适用于图像视频、语音识别、金融分析、
智能客服等典型 AI 应用场景。随着数据的海量增长与模型更新迭代速度加快,AI 科
研机构、商业公司亟待提高 AI 计算力来缩短模型训练与开发周期,同时也希望更快捷、
经济地部署 AI 基础设施,实现 AI 基础架构与原有 IT 基础设施的兼容,节省数据中心
空间并降低成本。NF5488M5 采用业界最先进的 NVIDIA NVSwitch 互联结构,在 4U
空间内可搭载 8 GPU,任意两个 GPU 之间可以直接进行数据 P2P 交互,可实现每
秒一千万亿次的 AI 计算性能;同时配置 2 28 核的顶配 CPU,配合 3UPI 连接设
计,提供顶级通用计算性能。 4U 尺寸使其适用于更广泛的数据中心部署环境,特别
适合于空间受限的机柜上架场景;同时 NF5488M5 使用更加灵活的集群部署方案,
并能实现从硬件到应用的集成部署。此外,系统内采用 54V 供电方案,能效更高;分
层分区域散热通道设计以及智PID 调控策略,可获得最佳的散热效率。NF5488M5
能够帮助 AI 用户高效完成 AI基础设施和开发环境的构建,在享受更高计算性能的同
时降低部署、运行成本。
组件识别
5
2.2 特性和规格
处理器
处理器类型 2 颗全新一代英特尔 ®至强 ®可扩展处理器,TDP 205W
芯片组
芯片组类型 Intel® C620 series chipset (Lewisburg-2)
内存
内存类型 DDR4 RDIMM/LRDIMM 2933MHz
内存插槽数 24 个
内存总容量 最大支持 2TB
GPU
HGX2 baseboard 8* NVIDIA® GPU,Up to 400W TDP, NVSwitch 全连接拓扑,
任意 2 GPU 之间 600GB/s P2P 互联高带宽
I/O 接口
USB 接口 前置 2 个 USB3.0 接口,后置 1 个 SUV 串口 ( 包含 2 个 USB2.0 接口 )
串行接口 miniSAS HD
VGA 接口 1 个前置 VGA 接口、1 个 SUV 串口 ( 包含 1 个 VGA 接口 )
管理网口 前置 1 个,后置 1 个 RJ45 IPMI 管理口
PCIE 支持 5 个 25W low-profile PCIE card,其中 4 个 x16,1 个 x8
显示控制器
控制器类型 Aspeed 2500 内部集成,最大分辨率支持 1900*1200
硬盘
硬盘类型
支持 SATA/NVMe 硬盘,最大支持:
置 8 个 SATA SSD 或 4 个拔 NVMe SSD (supports VROC)和 4 个
SATA SSD,
内置 2 个 SATA 总线 M.2 SSD,
后置 4 个企业级 M.2 NVMe
电源
规格 4 个 3000W 80Plus 铂金 PSU,支持 2*2 冗余模式
电源输入 请以主机铭牌标签上的电源输入值为准。
物理规格
包装箱外尺寸 W(宽)722 mm;H(高)368mm;D(深)1168 mm
主机尺寸 W(宽)448mm;H(高)175.5mm;D(深)850mm
产品重量 满配净重 62kg 毛重:95kg。(毛重包括:主机 + 包装箱 + 导轨 + 配件盒)
环境参数
工作环境温度 5℃ -35℃
贮存运输温度 -40℃ -60℃
工作湿度 20% -80%相对湿度
贮存运输湿度 20% -93%(40℃)相对湿度
6
3 组件识别
3.1 前面板组件
编号 模块名称
1 前控板按键与指示灯
2 UID 灯及按键
3 系统重启按键
4 系统故障指示灯
5-12 硬盘 0-7
13 USB3.0 插槽 x2
14 BMC 管理接口
15 网络接口 X2
16 VGA 接口
17 UID 灯及按键
18 BMC debug 口
19 GPU BOX
3.2 前控板按键与指示灯
组件识别
7
编号 模块名称 说明
1 开关按键及指示灯
开机状态下,亮绿色灯
待机状态下,亮橙色灯
长按强制关机
2 UID 灯及按键 开启 / 关闭 UID,亮蓝色灯
3 系统重启按键 短按强制系统重启
4 系统故障指示灯
正常不亮
电源发生故障,常亮红色
电源状态异常,红色闪烁
3.3 硬盘托架上的指示灯
编号 模块名称 说明
1 硬盘故障报警指示灯
常亮红色:硬盘出现故障
常亮蓝色:硬盘定位
常亮粉色:配合 RAID Rebuilding
2 硬盘活动状态指示灯 常亮绿色:正常
绿色闪烁:硬盘进行读写活动
3.4 后面板组件
编号 模块名称
1 PSU0
2 PSU1
3 PSU2
4 PSU3
5 FAN 0-5
6 I/O Box A
7 I/O Box B
8
3.5 主板组件
编号 模块名称
1 内存插槽(对应 CPU1)
2 内存插槽(对应 CPU0)
3 CPU1
4 CPU0
5 主板提手 1
6 Slimline 接口 x12
7 硬盘背板电源接口
8 硬盘背板讯号接口 J91
9 硬盘背板讯号接口 J92
10 M.2 riser 插槽
11 右耳前面板接口
12 PCH SD 卡插槽
13 BMC SD 卡插槽
14 CLR_CMOS
15 主板提手 0
16 UID 按键
17 BMC debug
18 BMC 管理口 /USB3.0 插槽 x2
19 10G 板载网口 x2
20 VGA 接口
21 TPM 接口
22 KVM 接口
23 MINISAS 接口 0
24 MINISAS 接口 1
25 MINISAS 接口 2
26 MB PDB 接口
组件识别
9
清除 CMOS 跳线位置见【3.5 主板组件】。
跳线编号 作用描述 跳线功能
CLR_CMOS CMOS 清除跳线 管脚 1-2 短接,正常状态;管脚 2-3 短接,清除 CMOS。
注意:
清除 CMOS 时必须关闭系统,并切断电源,短接 Pin2-3 后需要保持 5 秒钟;然
后重新用跳线帽将 CLR_CMOS 跳线的 Pin1、Pin2 针脚短接(默认设置状态),恢复
到原来状态。
3.6 GPU 模组
GPU 模组的顺序 GPU0-GPU7,如下图所示:
10
4 操作
4.1 接通服务器电源
插入电源线插头,按下 “电源开关按键”按钮。
4.2 断开服务器电源
警告!为减少人身伤害、电击或设备损坏的危险,请拔出电源线插头以断开服务器电
源。前面板的 “电源开关按键”按钮不能彻底切断系统电源。在切断交流电源前,部
分电源和一些内部电路仍带电。
注:如果安装的是热插拔设备,则不必断开服务器电源。
1. 备份服务器数据。
2. 正常关闭操作系统。
3. 拔下电源线插头。
系统现在即处于断电状态。
4.3 拆卸服务器
1. 按照上架安装指南用螺丝刀拧开两侧耳翼内的 4 颗松不脱螺钉。
2. 将服务器从机架中缓缓拉出,安装两侧的搬抬把手,然后搬抬到防静电平台上
警告!为减少人身伤害或设备损坏的危险,将组件从机架中拉出之前应保证机架足够
稳固,服务器单体重量大于 60kg,取下时需要至少 4 人以上搬抬或使用辅助设备。
操作
11
4.4 取下检修面板
警告!为减少设备表面过热而造成人身伤害的危险,请在驱动器和内部系统组件散热
后再触摸它们。
注意:为充分散热,请不要在未安装检修面板、导风罩、风扇的情况下运行服务器。
如果服务器支持热插拔组件,请最大限度地减少打开检修面板的时间。
卸下组件:
1. 如果执行非热插拔安装或维护步骤,则关闭服务器电源。
2. 将服务器从机架中拉出。
3. 使用螺丝刀拧松机盖锁定器上的安全保护螺钉。
4. 提起机盖锁定器手柄,然后卸下检修面板。
4.5 安装检修面板
1. 将检修面板放在服务器上面,并打开机盖锁定器。将面板向后拉。
2. 向下按机盖锁定器。检修面板将滑到闭合位置。
3. 使用螺丝刀拧紧机盖锁定器上的安全保护螺钉。
4.6 安装服务器
1、在执行安装或维护步骤后,按照上架安装指南搬抬服务器机箱至导轨上,将
服务器向后推入机架;
2、用螺丝刀紧固两侧耳翼内的松不脱螺钉,将服务器机箱固定到机架上。
12
警告!服务器单体重量大于 60kg,安装时需要至少 4 人以上搬抬或使用辅助设备
4.6 拆卸 GPU BOX
1、打开 GPU BOX 机箱两侧把手,如图中①所示;
注意:打开把手前检查机箱两侧运输螺丝是否拆卸,若没有拆卸请拆卸装运螺丝后再
打开 GPU BOX 机箱两侧把手,避免损坏把手;
2、 GPU BOX 向主机箱外侧抽出,当抽出至两侧按钮露出时,同时按住两侧按钮,
GPU BOX 继续拉出至机箱外,GPU BOX 较重,需两人般抬;
操作
13
4.7 拆卸 IO BOX
按下 IO BOX 把手上锁附按钮,打开把手,将 IO BOX 从机箱中拉出;
14
5 设置
5.1 最佳环境
将服务器安装到机架中时,请选择符合本节所述的环境标准的位置。
5.1.1 空间要求与通风要求
为方便进行维修操作和正常通风,在决定机架的安装位置时请遵守以下空间和通
风要求:
在机架前方至少留出 63.5 厘米 (25 英寸 ) 的空隙。
在机架后方至少留出 76.2 厘米 (30 英寸 ) 的空隙。
在两排机架的背面之间至少留出 121.9 厘米 (48 英寸 ) 的空隙。
浪潮服务器从前盖吸入凉风,从后盖排出热风。因此,机架的前后盖都必须通风
良好,以使周围的空气进入机柜并将热气从机柜排出。
意:为了避免散热不充分而使损坏设备,请勿阻塞通风口。
当服务器或机架组件未将机架的垂直空间填满时,组件之间的间隙将导致穿过机
架和服务器的气流发生变化。请使用空闲面板遮盖所有间隙,以保持通风良好。
意:始终使用空闲面板来填充机架中的垂直空闲空间。这种布置可以确保通风良好。
使用不带空闲面板的机架将导致散热不充分,从而会导致因温度过高而造成的损坏。
注意 : 如果使用的是第三方机架,请遵照以下附加要求来确保通风良好,并防止损坏
设备 :
前盖和后盖一如果 42U 的机架上配有闭合的前盖和后盖,则必须留出总面积为
5,350 平方厘米(830 平方英寸)、从上到下均匀分布的孔,以确保气流充足(相当
于要求通风口占 64% 的面积)。
侧面一所安装的机架组件与机架的侧面板之间的空隙必须至少为 7 厘米 (2.75 英寸 )。
5.1.2 温度要求
为确保设备能够持续安全可靠地运行,请将系统安装或放置在通风良好、温度可
控制的环境中。
对于大多数服务器产品而言,操作环境下建议的最高温度 ((TM RA) 35℃
/