Inspur NF5498A5 ユーザーマニュアル

  • こんにちは!私は浪潮NF5498A5 AIサーバーのユーザーマニュアルを読み込みました。このサーバーの高性能、高拡張性、Cambricon MLU-Linkインターコネクトなどの機能についてご質問があれば、お気軽にお尋ねください。
  • NF5498A5サーバーの電源をオン/オフする方法は?
    NF5498A5サーバーのハードウェアコンポーネントを交換する手順は?
    NF5498A5サーバーの一般的なハードウェアの問題とトラブルシューティング方法は?
    NF5498A5サーバーのファームウェアをアップグレードする方法は?
    静電気放電からNF5498A5サーバーを保護する方法は?
浪潮英信服务器 NF5498A5
用户手册
文档版本 V1.2
发布日期 2023-02-24
版权所有 © 2022-2023 潮电子信息产业股份有限公司。保留一切权利。
未经本公司事先书面许可,任何单位和个人不得以任何形式复制、传播本手册的部分或
全部内容。
环境保护
请将我方产品的包装物交废品收购站回收利用,以利于污染预防,共同营造绿色家园。
商标说明
Inspur 浪潮、Inspur、浪潮、英信是浪潮集团有限公司的注册商标。
本手册中提及的其他所有商标或注册商标,由各自的所有人拥有。本手册中未特别标明
™或®标志。
安全声明
服务器产品安全一直是浪潮关注的焦点,保障产品安全是浪潮的关键战略之一。为使您
更清晰地了解服务器产品,请注意如下安全风险声明。
在调整用途或淘汰服务器时,为了保护数据隐私,建议从 BIOSBMC 中恢复固件
出厂设置、删除信息、清除日志。同时,建议采用安全擦除工具对硬盘数据进行全
面安全擦除(可使用浪潮 ISQP 软件对硬盘等数据进行安全擦除,具体机型与 ISQP
软件适配情况请咨询厂商)。
服务器开源软件声明的获取,请直接联系浪潮客户服务人员咨询。
部分用于生产、装备、返厂检测维修的接口、命令,定位故障的高级命令,如使用
不当,将可能导致设备异常或者业务中断,故不在本资料中说明。如需要,请向浪
潮申请。
浪潮服务器的外部接口未使用私有协议进行通信。
公司产品不会主动获取或使用用户的个人数据仅在您同意使用特定功能或服务时,
在业务运营或故障定位的过程中可能会获取或使用用户的某些个人数据(如告警邮
件接收地址、IP 地址)公司产品在涉及个人数据的收集、存储、使用、传输、
除等全生命周期的处理活动中,已在产品功能上部署了必要的安全保护措施,同时
您也有义务根据所适用国家或地区的法律法规制定必要的用户隐私政策并采取足
够的措施以确保用户的个人数据受到充分的保护。
浪潮高度重视产品数据安全,公司产品在涉及系统运行和安全数据的全生命周期处
理活动中已严格按照相关法律法规及监管要求,在产品功能上部署了必要的安全
保护措施。作系统运行和安全数据处理者,您有义务根据所适用国家或地区的法
法规制定必要的数据安全政策并采取足够的措施以确保系统运行和安全数据受
到充分的保护。
浪潮将一如既往的严密关注产品与解决方案的安全性,为客户提供更满意的服务。浪潮
已全面建立产品安全漏洞应急和处理机制,确保第一时间处理产品安全问题。若您在
产品使用过程中发现任何安全问题,或者寻求有关产品安全漏洞的必要支持,请直接联
系浪潮客户服务人员。
内容声明
您购买的产品、服务或特性等应受浪潮集团商业合同和条款的约束。本文档中描述的全
部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,
潮集团对本文档的所有内容不做任何明示或默示的声明或保证。文档中的示意图与产品
实物可能有差别,请以实物为准。本文档仅作为使用指导,不对使用我们产品之前、
间或之后发生的任何损害负责,包括但不限于利益损失、信息丢失、业务中断、人身伤
害,或其他任何间接损失。本文档默认读者对服务器产品有足够的认识,获得了足够的
培训,在操作、维护过程中不会造成个人伤害或产品损坏。文档所含内容如有升级或更
新,恕不另行通知。
技术支持
技术服务电话:4008600011
址:中国济南市浪潮路 1036
浪潮电子信息产业股份有限公司
箱:lckf@inspur.com
编:250101
前言
摘要
本手册介绍本服务器的规格信息、硬件操作、服务条款、故障诊断等与维护工作密切相
关的内容。
目标受众
本手册主要适用于以下人员:
技术支持工程师
产品维护工程师
建议由具备服务器知识的专业工程师参考本手册进行服务器运维操作。
注意
如您未采购装机服务,请在设备开箱前自行检查外包装箱。如发现包装箱严重损坏、
水浸、封条或压敏胶带已开封,请视购机方式进行问题反馈。供应商渠道购入设备,
请直接与您的供应商联系;浪潮直营渠道购入设备,请直接拨打服务电话
4008600011,联系浪潮技术支持处理。
请不要随意拆装服务器组件、请不要随意扩配及外接其它设备。如需操作,请务必
在浪潮的官方授权和指导下进行。
在拆装服务器组件前,请务必断开服务器连接的所有电缆。
请使用浪潮认证的驱动程序进OS 环境搭建。您可访问浪潮官网
https://www.inspur.com/进行驱动下载,进入浪潮官网首页,顶部导航栏选择
“支持下载>产品支持>驱动下载”,根据页面提示查找产品对应的驱动程序。
如使用非浪潮认证的驱动程序,可能会引起兼容性问题并影响产品的正常使用,
对此浪潮将不承担任何责任或义务。
BIOSBMC 的设置对配置您的服务器至关重要,如果没有特殊的需求,请您使用
系统出厂时的默认值,请勿随意更改参数设置。首次登录时,请及时修改 BMC
户密码。
符号约定
在本文中可能出现下列符号,它们所代表的含义如下。
符号 说明
如不当操作,可能会导致死亡或严重的人身伤害。
如不当操作,可能会导致人员损伤。
如不当操作,可能会导致设备损坏或数据丢失。
为确保设备成功安装或配置,而需要特别关注的操作或信息。
对操作内容的描述进行必要的补充和说明。
变更记录
版本 时间 变更内容
V1.0 2022-05-05 首版发布
V1.1 2022-06-13 更新“1.1 警告声明”
V1.2 2023-02-24
更新“安全声明”、1.1 警告声明”、7
见故障及诊断排除”和“8.7.3 交流供电的建
议”
目录
1 安全说明 ...................................................................................................... 1
1.1 警告声明 ........................................................................................................... 1
1.2 注意事项 ........................................................................................................... 2
2 产品规格介绍 ............................................................................................... 4
2.1 简介 ................................................................................................................. 4
2.2 特性和规格 ....................................................................................................... 5
2.3 电源效率 ........................................................................................................... 7
3 组件识别 ...................................................................................................... 8
3.1 前面板 .............................................................................................................. 8
3.2 后面板 .............................................................................................................. 9
3.3 按键与指示灯 .................................................................................................. 10
3.3.1 前面板按键与指示灯 .............................................................................. 10
3.3.2 后面板按键与指示灯 .............................................................................. 11
3.3.3 硬盘托架上的指示灯 .............................................................................. 12
3.4 接口说明 ......................................................................................................... 12
3.5 主板布局 ......................................................................................................... 13
3.5.1 清除 CMOS 跳线介绍 ............................................................................. 14
3.6 物理结构 ......................................................................................................... 15
4 操作 .......................................................................................................... 16
4.1 将服务器装入机架............................................................................................ 16
4.2 接通/断开服务器电源 ....................................................................................... 16
4.3 拆装前的准备工作............................................................................................ 17
4.4 更换系统组件 .................................................................................................. 18
4.4.1 更换机箱上盖 ........................................................................................ 19
4.4.2 更换导风罩 ........................................................................................... 20
4.4.3 更换热插拔风扇 .................................................................................... 21
4.4.4 更换热插拔电源 .................................................................................... 22
4.4.5 更换 I/O Box模块 ................................................................................. 23
4.4.6 更换热插拔硬盘 .................................................................................... 24
4.4.7 更换 GPU Box ....................................................................................... 27
4.4.8 更换 PCIe 扩展卡 .................................................................................. 28
4.4.9 更换内存 .............................................................................................. 30
4.4.10 更换处理器和散热器 .............................................................................. 32
4.5 固件升级和配置 ............................................................................................... 37
4.6 布线 ............................................................................................................... 37
5 更换电池 .................................................................................................... 43
6 静电放电 .................................................................................................... 45
6.1 防止静电放电 .................................................................................................. 45
6.2 防止静电释放的接地方法 .................................................................................. 45
7 常见故障及诊断排除 ................................................................................... 46
7.1 常见硬件问题 .................................................................................................. 46
7.1.1 开机不加电 ........................................................................................... 46
7.1.2 加电无显示 ........................................................................................... 46
7.1.3 前面板指示灯告警 ................................................................................. 47
7.1.4 开机后卡在自检或其它界面 .................................................................... 48
7.1.5 电源模块指示灯不亮或亮琥珀色 ............................................................. 48
7.1.6 硬盘指示灯异常 .................................................................................... 48
7.1.7 系统风扇噪音过大 ................................................................................. 49
7.1.8 服务器存在报警声 ................................................................................. 50
7.1.9 键盘、鼠标不可用 ................................................................................. 50
7.1.10 USB 接口问题 ....................................................................................... 51
7.2 常见系统软件问题............................................................................................ 51
7.2.1 安装 OS 常见问题 .................................................................................. 51
7.2.2 PXE 启动失败 ....................................................................................... 52
7.2.3 内存容量显示异常 ................................................................................. 53
7.2.4 OS 下网络异常 ...................................................................................... 53
8 服务器入厂/运行条件环境要求 ..................................................................... 54
8.1 环境温度 ......................................................................................................... 54
8.2 可靠性 ............................................................................................................ 54
8.3 海拔、气压 ..................................................................................................... 54
8.4 交变湿热、湿度 ............................................................................................... 55
8.5 设备运行环境要求............................................................................................ 55
8.6 电磁辐射与安规环境要求 .................................................................................. 57
8.7 设备供电要求 .................................................................................................. 59
8.7.1 交流供电要求 ........................................................................................ 59
8.7.2 直流供电要求 ........................................................................................ 59
8.7.3 交流供电的建议 .................................................................................... 60
8.7.4 高压直流供电 ........................................................................................ 60
8.7.5 高压直流供电要求 ................................................................................. 60
8.7.6 高压直流供电建议 ................................................................................. 61
9 服务条款 .................................................................................................... 62
附录 ................................................................................................................ 63
硬盘钕含量参考表............................................................................................ 63
术语表 ............................................................................................................ 64
缩略语表 ......................................................................................................... 69
1
1 安全说明
1.1 警告声明
以下警告表示存在可能导致财产损失、人身伤害或死亡的潜在危险。
本系统中的电源设备可能会产生高电压和危险电能,从而导致人身伤害。请勿自行卸下
机箱上盖以拆装、更换系统内部的任何组件,除非另外得到浪潮的通知,否则只有经过
浪潮培训的维修技术人员才有权拆开机箱上盖及拆装、更换内部组件。
请将设备连接到适当的电源,仅可使用符合主机铭牌标签上所要求规格的外部电源为设
备供电,为保护您的设备免受电压瞬间升高或降低所导致的损坏,请使用相关的稳压设
备或不间断电源设备。
请勿将两根或两根以上电源线互相连接使用,如需更长的电源线,请联系浪潮客服
请务必使用随机配备的供电组件如电源线、电源插座(如果随机配备)等,为了设备及
使用者的安全,不要随意更换电源电缆或插头。
为防止系统漏电造成电击危险,务必将系统和外围设备的电源电缆插入已正确接地的电
源插座。请将三芯电源线插头插入接地良好、伸手可及的三芯交流电源插座中,务必使
用电源线的接地插脚,不要使用转接插头或拔下电缆的接地插脚,在未安装接地导线及
不确定是否已有适当接地保护的情况下,请勿操作使用本设备,可与电工联系咨询。
切勿将任何物体塞入系统的开孔处。如果塞入物体,可能会导致内部组件短路而引起火
灾或电击。
请将系统置于远离散热片和有热源的地方,切勿堵塞通风孔。
切勿让食物或液体散落在系统内部或其它组件上,不要在高潮湿、高灰尘的环境中使用
产品。
用错误型号的电池更换会有爆炸危险,需要更换电池时,请先向制造商咨询并使用制造
商推荐型号相同或相近的电池,切勿拆开、挤压、刺戳电池或使其外部接点短路,不要
将其丢入火中或水中,也不要暴露在温度超过 60 摄氏度的环境中,请勿尝试打开或维
修电池,务必合理处置用完的电池,不要将用完的电池及可能包含电池的电路板及其它
组件与其它废品放在一起,有关电池回收请与当地废品回收处理机构联系。
在机柜中安装设备之前,请先在独立机柜上安装正面和侧面支脚;对于与其它机柜相连
的机柜,则先安装正面支脚。如果在机柜中安装设备之前未相应地安装支脚,在某些情
况下可能会导致机柜翻倒,从而可能造成人身伤害,因此,在机柜中安装设备之前,请
2
务必先安装支脚。在机柜中安装设备及其它组件后,一次仅可将一个组件通过其滑动部
件从机柜中拉出。同时拉出多个组件可能会导致机柜翻倒而造成严重的人身伤害。
请勿独自移动机柜。考虑到机柜的高度和重量,至少应由两人来完成移动机柜任务。
机柜带电工作时请勿对供电铜排进行直接触操作,严禁将供电铜排进行直接短接。
本设备不适合在儿童可能会出现的场所使用
1.2 注意事项
为了您更好地使用设备,以下注意事项将帮助您避免可能会损坏部件或导致数据丢失等问题
的出现:
如果出现以下任何情况,请从电源插座拔下产品的电源线插头,并与浪潮的客户
服务部门联系:
- 电源线缆或电源插头已损坏
- 产品被水淋湿。
- 产品跌落或损坏。
- 物体落入产品内部。
- 按照操作说明进行操作时,产品不能正常工作。
如果系统受潮,请按以下步骤处置:
a. 关闭系统和设备电源,断开它们与电源插座的连接,等待 10~20 秒钟,然后打开
机箱上盖。
b. 将设备移至通风处,使系统至少干燥 24 小时,并确保系统完全干燥。
c. 合上机箱上盖,将系统重新连接至电源插座,然后开机。
d. 如果运行失败或异常,请与浪潮联系,获得技术帮助。
注意系统电缆和电源电缆的位置,将其布线在不会被踩到或碰落的地方,确保不要将其
它物品放置在电缆上。
卸下机箱上盖或接触内部组件之前,应先让设备冷却;为避免损坏主板,请在系统关闭
后等待 5秒钟,然后再从主板上卸下组件或断开系统外围设备的连接。
如果设备中安装了调制解调器、电信或局域网选件,请注意以下事项:
- 如果出现雷电天气,请勿连接或使用调制解调器否则可能遭受雷击。
- 切勿在潮湿环境中连接或使用调制解调器。
3
- 切勿将调制解调器或电话电缆插入网络接口控制器(NIC)插座。
- 打开设备、接触或安装内部组件或接触不绝缘的调制解调器电缆或插孔之前,请断
开调制解调器电缆。
为防止静电释放损坏设备内部的电子组件,请注意以下事项:
- 拆装、接触设备内任何电子组件前应先导去身上的静电。您可通过触摸金属接地物
(如机箱上未上漆的金属表面)导去身上的静电,以防止身上静电对敏感组件的静
电释放。
- 对不准备安装使用的静电敏感组件,请不要将其从防静电包装材料中取出。
- 工作中请定期触摸接地导体或机箱上未上漆的金属表面,以便导去身上可能损坏内
部组件的静电。
经浪潮同意,拆装系统内部组件时,请注意以下事项:
- 关闭系统电源并断开电缆,包括断开系统的任何连接。断开电缆时,请抓住电缆的
连接器将其拔出,切勿拉扯电缆。
- 卸下机箱上盖或接触内部组件之前,应先让产品冷却。
- 拆装、接触设备内任何电子组件前应先通过触摸金属接地物体导去身上的静电。
- 拆装过程中动作幅度不宜过大,以免损坏组件或划伤手臂。
- 小心处理组件和插卡,切勿触摸插卡上的组件或点。拿取插卡或组件时,应抓
住插卡或组件的边缘或其金属固定支架。
机柜产品在安装使用过程中,应注意以下事项:
- 机柜完成安装后,请确保支脚已固定到机架并支撑到地面,并且机架的所有重量均
已落在地面上。
- 务必按照从下到上的顺序装入机柜,并且首先安装最重的部件。
- 从机柜中拉出组件时,应轻轻用力,确保机柜保持平衡和稳定。
- 按下组件导轨释放闩锁并将组件滑入或滑出时,请务必小心,导轨可能夹伤您的手
指。
- 切勿让机柜中的交流电源分支电路过载。机柜负载总和不应超过分支电路额定值的
80%
- 确保机柜中组件保持良好的通风。
- 维修机柜中的组件时,请勿踩踏在其它任何组件上。
4
2 产品规格介绍
2.1 简介
浪潮 AI 服务器 NF5498A5 系列产品具有高扩展、高性能、高能效可灵活部署等特性,AI
计算性能可达每秒五千万亿次,适用于图像视频、语音识别、金融分析、智能客服等典型 AI
应用场景。随着数据的海量增长与模型更新迭代速度加快,AI 科研机构、商业公司亟待提高
AI 计算力来缩短模型训练与开发周期,同时也希望更快捷、经济地部署 AI 基础设施,实现 AI
基础架构与原有 IT 基础设施的兼容,节省数据中心空间并降低成本。NF5498A5 采用
Cambricon高速互联技术 MLU-Link 互联结构,4U 空间可搭载 8Cambricon MLU290-
M5/MLU370-M8 的高速互联 GPU。任意两个 GPU 之间可以直接进行数据 P2P 交互,可实
448GB/s 的传输带宽;同时配置 2AMD EPYC 7003 系列 PCIe 4.0 CPU,配合 XGMI-
2总线互联设计,提供顶级通用计算性能。4U 尺寸、冗余供电设计使其适用于更广泛的数据
中心部署环境,为客户提供极高的可靠性和稳定性;同NF5498A5 使用更加灵活的集群部
署方案,并能实现从硬件到应用的集成部署。此外,系统内采用 54V_VR 供电方案,能效更
高;分层分区域散热通道设计以及智能 PID 调控策略,可获得最佳的散热效率。NF5498A5
能够帮助 AI 用户高效完成 AI 基础设施和开发环境的构建,在享受高计算性能的同时降低部
署、运行成本。
2-1 NF5498A5 设备外观
5
关键功能和特性:
支持两颗 AMD Milan 处理器,最大支持到 CPU TDP 280W
支持 32 DDR4 内存插槽。每个处理器支持 16 DDR4 内存插槽。支持
2933MHz/3200MHz 内存。
最大可支持 5PCIe x16 标卡。
存储扩展仓内置:1PCIe SAS/RAID 子卡
主板集成 AST2500 BMC 芯片,标配 KVM 功能。
支持热插拔液晶显示模块,支持移动设备远程 BMC 监控。
43000W 54V PSU,支持 N+N冗余。
6个风扇模组,支持 N+1转子冗余,风扇防回流挡门设计。
2.2 特性和规格
2-1 特性和规格
组件 描述
上市时间 2022-07
规格 4U机架式
处理器
支持2AMD EPYC 7003系列CPU
最大热设计功率280W
GPU
支持8Cambricon MLU290-M5/MLU370-M8 GPU
支持单GPU TDP 350W,有条件支持450W
支持Cambricon高速互联技术MLU-Link连接拓扑
内存
支持RDIMMLRDIMM内存
最大支持32根内存
内存最大速度可达3200MT/s
内存总容量最大支持4TB
6
组件 描述
存储
前置面板支持82.5英寸SAS/SATA SSD,最大支持42.5
英寸NVMe SSD
前置PCIe卡支持M.2 SSD
后置面板支持4个企业级M.2 NVMe SSD
I/O接口
2个前置USB 3.0接口
1个前置VGA接口
1个前置BMC Debug接口
1个后置RJ45 BMC管理网口
1个后置RJ45 Switch BMC管理网口
显示控制器
AST2500内部集成
分辨率最大支持1920 × 1200
网络 PCIe网卡
I/O扩展
支持4张后置PCIe Gen4 x16 75W low-profile PCIe Card
支持1张前置PCIe Gen4 x16 75W low-profile PCIe Card
风扇
后置68086风扇,支持N+1转子冗余
内置26056风扇
电源
支持43000W 80Plus铂金PSU
支持2+2冗余模式
系统管理
智能管理系统(ISBMC
浪潮物理基础设施管理平台(ISPIM
Inspur Server Intelligent Boot (ISIB)
操作系统
RHEL 8.X
CentOS 8.X
Ubuntu 20.04
7
组件 描述
主机尺寸
(高××深)
175.35mm × 448mm × 885.5mm(不含挂耳)
175.35mm × 483mm × 899.3mm(含挂耳)
外包装箱尺寸
(长××高)
1190mm × 760mm × 353mm(包装箱尺寸)
1200mm × 800mm × 473mm(带托盘整体尺寸)
重量
满配净重:65kg
毛重:97kg
(毛重包括:主机+包装箱+导轨+配件盒+托盘)
2.3 电源效率
2-2 铂金电源
额定功率 @20% Load @50% Load @100% Load PF@50% Load
3000W 90% 94% 91% 0.98
8
3 组件识别
3.1 前面板
3-1 前面板视图 1
编号 模块名称 编号 模块名称
1 硬盘0~3 7 GPU Box
2 BMC Debug接口 8 Micro-USB接口 × 2
3 VGA接口 9 系统故障指示灯
4 PCIe x16插槽 10 系统重启按键
5
USB 3.0接口 × 2
11
UID按键及指示灯
6
硬盘4~7
12
电源开关按键及指示灯
9
3-2 前面板视图 2
编号 模块名称 编号 模块名称
1 硬盘0~3 8 GPU Box
2 BMC Debug接口 9 micro-USB接口 × 2
3 VGA接口 10 系统故障指示灯
4 PCIe x16插槽 11 系统重启按键
5 USB 3.0接口 × 2 12 UID按键及指示灯
6 硬盘4~7 13 电源开关按键及指示灯
7
QSFP-DD接口 × 8
3.2 后面板
3-3 后面板视图
编号 模块名称 编号 模块名称
1 PSU0 6 I/O Box B
10
编号 模块名称 编号 模块名称
2 PSU1 7 UID按键及指示灯
3 Fan 0~5 8 BMC管理网口
4 PSU2 9 I/O Box A
5 PSU3
3.3 按键与指示灯
3.3.1 前面板按键与指示灯
3-4 前面板按键与指示灯视图
序号 模块名称 说明
1 电源开关按键及指示灯
开机状态下,亮绿色灯
待机状态下,亮橙色灯
长按5s强制关机
2 UID按键及指示灯
开启/关闭UID,亮蓝色灯
长按6s BMC系统重启
3 系统重启按键 短按强制系统重启
4 系统故障指示灯
正常不亮
系统发生故障,常亮红色
11
序号 模块名称 说明
系统状态异常,红色闪烁
3.3.2 后面板按键与指示灯
3-5 后面板按键与指示灯视图
序号 模块名称 说明
1 风扇电源指示灯
正常亮绿色,风扇工作正常
发生故障时,不亮
2 风扇故障指示灯
正常不亮,风扇工作正常
发生故障时,常亮红色
3 PSU指示灯
绿色常亮:工作状态正常
熄灭:PSU没有AC输入
琥珀色常亮:PSU发生保护类事件导致关机
琥珀色1Hz闪烁:PSU发生告警类事件并维持工作
绿色1Hz闪烁:PSU处于拔出系统状态,但有AC输入
绿灯0.33Hz闪烁,2秒绿,1秒灭:PSU工作在冷冗
余休眠状态
绿灯2Hz闪烁:PSU工作在FW刷新状态
/