Inspur InCloud Sphere Operation and Maintenance Manual

InCloud Sphere 6.5.1
运维手
济南浪潮数据技术有限公
2022 年 4 月
I
目录
目录............................................................................................................................ I
1概述 .........................................................................................................................1
1.1 文档简介 .......................................................................................................1
1.2 适用范围 ...................................................................................................... 1
1.3 术语表 .......................................................................................................... 1
2解决方案说明 ........................................................................................................ 3
2.1 部件定位及主要功能 ...................................................................................3
2.2 部署方式说明 ..............................................................................................4
3系统维护建议 ....................................................................................................... 10
3.1 InCloud Sphere 介绍 .......................................................................................10
3.2 账号管理 .....................................................................................................11
3.3 告警处理 .................................................................................................... 12
3.4 例行维护 .................................................................................................... 14
3.5 重大变更 .................................................................................................... 15
4业务部署建议 ....................................................................................................... 17
4.1 业务部署 .....................................................................................................17
II
4.2 扩容建议 .................................................................................................... 18
4.3 数据管理 .................................................................................................... 19
5高危操作 .............................................................................................................. 20
5.1 严禁操作 .................................................................................................... 20
5.1.1 iNode 虚拟磁盘严禁操作 ...........................................................20
5.2 iNode 高危操作 ............................................................................................20
5.2.1 系统相关高危操作 ...................................................................20
5.2.2 虚拟机相关高危操作 .............................................................. 27
5.2.3 物理节点相关高危操作 ...........................................................32
5.3 iCenter 高危操作 ..........................................................................................37
5.3.1 业务操作相关高危操作 ........................................................... 37
5.3.2 iCenter 配置更改类高危操作 .................................................... 39
5.4 SDS 高危操作 .............................................................................................. 42
5.4.1 存储相关高危操作 ...................................................................42
6典型异常维护 .......................................................................................................45
6.1 iCenter 管理平台异常 .................................................................................. 45
6.2 主机异常 .................................................................................................... 47
6.3 网络异常 .................................................................................................... 48
III
6.4 存储异常 .................................................................................................... 49
6.5 虚拟机异常 ................................................................................................ 50
7组件维护 ...............................................................................................................51
7.1 iCenter 管理平台 .......................................................................................... 51
7.2 NTP .............................................................................................................. 51
7.3 VNC..............................................................................................................54
7.4 数据存储链路 ............................................................................................ 56
7.5 虚拟机性能 ................................................................................................ 60
7.6 监控/告警 ...................................................................................................62
7.7 日志 ............................................................................................................65
8 ICS 巡检方法 ......................................................................................................... 67
8.1 平台登录 .................................................................................................... 67
8.2 告警筛查 .................................................................................................... 69
8.3 关键巡查 .................................................................................................... 70
8.3.1 计算池 ...................................................................................... 70
8.3.2 存储池 ......................................................................................73
InCloud Sphere 6.5.1
运维手册 1概述
1
1概述
1.1 文档简介
本文档是整套 InCloud Sphere 6.5.1 企业版系统运维建议手册,依据此手册,
InCloud Sphere 6.5.1 企业版系统运维提供指导性建议
1.2 适用范围
本文档适用于技术服务商、系统实施人员和运维管理人员等。
1.3 术语表
1.3- 1 术语表
序号
术语
说明性定义
1
InCloud Sphere
浪潮服务器虚拟化软件。
2
iCenter 管理节点
InCloud Sphere 软件的管理控制台,
iCenter用户可以管理 iNode 节点,
并且部署、管理和监视虚拟机。
3
iNode 计算节点
安装 InCloud Sphere 软件的计算、存
储、网络服务,承载并运行虚拟机。
4
HA
高可用
InCloud Sphere 6.5.1
运维手册 1概述
2
5
虚拟机 (VM)
完全由软件组成的计算机,可以像物
理计算机一样运行自己的操作系统
和应用程序;VM 的行为方式完全类
似于物理计算机,并且包含自己的虚
(基于软件的)CPURAM硬盘
和网络接口卡 (NIC)
InCloud Sphere 6.5.1
运维手册 2解决方案说明
3
2解决方案说明
2.1 部件定位及主要功能
2.1- 1 功能表
部件
定位
iCenter
管理节点
iNode
计算节点
ICS
Compute
计算虚拟化
组件
ICS
Storage
存储虚拟化
组件
InCloud Sphere 6.5.1
运维手册 2解决方案说明
4
ICS
Network
网络虚拟化
组件
2.2 部署方式说明
2.2- 1 部署方式
部署方式
支持场景
iCenter 单物理
机部署
推荐部署在两路服务器上,物理服务
器性能要求不高;
中小规模部署
iCenter 单虚拟
化部署
推荐部署在两路服务器的本地存储
上;
中小规模部署
iCenter 双机热
备物理机部署
推荐部署在两路服务器上,物理服务
器性能要求不高,两台服务器配置相同;
大规模虚拟化环境,对业务连续性要
求较高环境部署
iCenter 双机热
推荐部署在两路服务器的本地存储
InCloud Sphere 6.5.1
运维手册 2解决方案说明
5
备虚拟化部署
上;
大规模虚拟化环境,对业务连续性要
求较高环境部署
ALLINONE 部署
推荐部署在四路或者八路高性能服务
器上;
5-6 台主机以下,且多为 4路或 8路服
务器,POC 或小规模部署。
ALLINONE 双机
热备物理机部署
推荐部署在两路服务器的本地存储
上;
大规模虚拟化环境,对业务连续性要
求较高环境部署
【注意】推荐部署使用 iCenter 双机热备物理机部署或 iCenter 双机热备
虚拟化部署或者是 ALLINONE 双机热备物理机部署;iCenter 单物理机部署、iCenter
单虚拟机部署、ALLINONE 部署这三种部署方式容易遇到单节点故障,导致服务
不可用,因此不建议使用。
1iCenter 单物理机部署:
InCloud Sphere 6.5.1
运维手册 2解决方案说明
6
2.2- 1 单物理部署
iCenter 部署在独立的物理机上,这使得 iCenter 在运行过程中与虚拟
机互不影响;
iCenter 性能好,不受虚拟机影响也不影响虚拟机,但不支持 iCenter
故障迁移,同时容易遇到单管理节点故障,导致管理服务不可用;
该部署方式适合中小规模虚拟化环境;
2iCenter 单虚拟化部署:
2.2- 2 单虚拟化部署
iCenter 部署在其中一台服务器的本地存储上,节约了 iCenter 的部署
成本;
节约了部署成本,但不支持 iCenter 故障迁移,同时容易遇到单管理
节点故障,导致管理服务不可用;
InCloud Sphere 6.5.1
运维手册 2解决方案说明
7
该部署方式适合中小规模虚拟化环境;
3iCenter 双机热备物理机部署:
2.2- 3 iCenter 双机热备物理机部署
iCenter 分别部署在两台独立的物理机上,两台服务器配置相同,这
使得 iCenter 在运行过程中与虚拟机互不影响;当主管理节点宕机,另一台
管理节点迅速接管整套系统,保证管理节点的高可用;
iCenter 的运行效率和性能同时得到了双重保障,还支持故障迁移,
使得容错率得到很大提升,极大的保证了业务的有效持续性和稳定性,但
是需要的物理资源较多;
该部署方式适用于对业务连续性要求较高的大规模虚拟化环境;
4iCenter 双机热备虚拟化部署:
2.2- 4 iCenter 双机热备虚拟化部署
InCloud Sphere 6.5.1
运维手册 2解决方案说明
8
iCenter 虚拟化部署在两台服务器的本地存储上,节约了 iCenter 的部
署成本;
该部署方式支持故障迁移,且性能稳定,同时节约了双机热备的部
署成本,但是需要占用较多的本地存储资源;
该部署方式适用于对业务连续性要求较高的大规模虚拟化环境;
5ALLINONE 部署:
2.2- 5 ALLINONE 部署
计算节点和管理节点将会部署在同一物理服务器上,节约了 iCenter
的部署成本;
该部署方式不但节省了一个管理节点,同时又能达到物理主机的性
能,运行效率较高。但该部署方式不支iCenter 故障迁移,但是需要较多
的本地存储资源;
该部署方式适用于 POC 测试或小规模部署;
6ALLINONE 双机热备物理机部署:
InCloud Sphere 6.5.1
运维手册 2解决方案说明
9
2.2- 6 ALLINONE 双机热备物理机部署
计算节点和管理节点同时部署在同一物理服务器上,节约了 iCenter
的部署成本,且两台 ALLINONE 部署的物理机互为主备;当主管理节点宕机,
另一台管理节点迅速接管整套系统,保证管理节点的高可用;
iCenter 的运行效率和性能同时得到了双重保障,还支持故障迁移,
使得容错率得到很大提升,极大的保证了业务的有效持续性和稳定性,但
是需要较多的本地存储资源;
该部署方式适用于对业务连续性要求较高的大规模虚拟化环境;
【注意】ALLINONE 即为 iCenter + iNode
InCloud Sphere 6.5.1
运维手册 3系统维护建议
10
3系统维护建议
3.1 InCloud Sphere
3.1- 1 基础架构
InCloud Sphere:提供虚拟基础设施的资源自动化发放能力,聚焦于 IT 资源
的池化和资源的获取,并对企业 IT 管理提供开放的管理接口。具有以下特点:
统一资源池
1. 多厂商存储、服务器、网络池化
2. 按需分配资源
应用自动化管理
1. 应用部署模板化、自动化
2. 应用所需资源按需调度
InCloud Sphere 6.5.1
运维手册 3系统维护建议
11
系统诊断专家
1. 资源监控
2. 拓扑,告警,日志,容量,设备状态
3. 识别系统弱点
主要功能包括:
虚拟机:虚拟机控制台接入、虚拟机资源管理、模板管理等功能
计算池:池化物理 CPU、内存等设备资源,以集群作为一个管理单位。
存储池:提供基于主机的存储虚拟化服务。将不同类型的存储设备抽象为
逻辑存储资源,以提供统一全面的存储服务。
网络池:可以帮助用户根据业务需求对虚拟网络资源进行统一管理和配置,
资源类型包括虚拟交换机、网络以及不同的网络策略。
监控:告警列表、告警设置、告警统计、性能监控等功能。
任务:监控系统中所有的任务执行情况。
系统:时间管理、 license 管理、备份管理、用户管理等。
3.2 账号管理
3.2- 1 账号管理
序号
内容
优先级
InCloud Sphere 6.5.1
运维手册 3系统维护建议
12
1
记录并管理好 iCenteriNode 的登录账号和密码。
2
对于不同运维人员建议创建不同的账号,分别进
行管理。
说明:
1.非管理员权限的用户登录帐号密码丢失可通过管理员帐号进行
重置。
2.管理员 admin 默认密码为 Cloud@s1 新建用户统一使用系统提供的
默认密码:1q@W3e$R(可通过密码策略进行修改)
3.3 告警处理
1. 登录 iCenter 检查是否有新增告警,如存在次要、重要告警,请按照告
警帮助进行处理,如仍不能解决,请及时联系浪潮技术支持。
2. 对于一般及以下等级的告警,每周须按照告警帮助处理 1次,对不
自行解决的告警,请联系浪潮技术支持。
3. 重点关注内容。
3.3- 1 关注内容
序号
类别
关注内容
优先级
1
告警
紧急&重要告警须及时处理。
InCloud Sphere 6.5.1
运维手册 3系统维护建议
13
2
Licen
se
License 如即将过期,需及时处
理并申请新的 license
3
资 源
占用
存储资源、计算资源使用了超
80%,建议启动扩容。
4
虚 拟
虚拟机资源使用率告警、虚拟
机宕机告警等。
5
服 务
服务器网卡异常、重启、数据
服务异常等紧急告警需要及时
理。
6
数 据
存储
数据存储状态异常,虚拟机运
行异常。
7
NTP
时间同步异常,影响虚拟机业
务。
8
链 路
不稳定
数据存储和主机间的链路不稳
定告警或者无冗余链路。
InCloud Sphere 6.5.1
运维手册 3系统维护建议
14
3.4 例行维护
3.4- 1 例行维护
序号
模块
维护建议
建议频次
1
用户虚
拟机
重点业务虚拟机例行
重启。
1/3 个月
2
管理虚
拟机
例行进行主备倒换。
1/每月
3
服务器
设备
硬件系统体检。
1/两周
4
存储设
存储的深度巡检和告
警处理,指示灯检查
1/每周
5
服务器
设备
BMC 侧的告警信息处
理,指示灯检查。
1/每天
6
网络设
网络设备告警和异常,
指示灯检查。
1/每天
InCloud Sphere 6.5.1
运维手册 3系统维护建议
15
3.5 重大变更
3.5- 1 重大变更
序号
专项场景
维护建议
1
系 统 上 下
为保障系统安全客户,在异常掉电前
按照 InCloud Sphere 产品文档描述对用户
VM管理 VM 进行安全下电后再对整个
系统进行下电。
2
部件更换
硬件故障时先将 VM 进行迁移,在
非核心工作时间参考产品部件更换章节
进行操作(请勿直接拔插物理刀片服务
器) 。
3
网络整改
在进行物理网络调整(如:物理链路
调整、交换机维护/升级等操作)时建议
先关闭虚拟机和主机再调整,否则会造成
主机重启或者系统异常。
4
重 大 业 务
上线
重大业务上线建议先在测试集群
行小规模业务试点,根据压力情况分批、
合理部署。
InCloud Sphere 6.5.1
运维手册 3系统维护建议
16
6
业务迁移
存储迁移、大规格(大于 16G 内存)
VM 迁移建议在业务低(低 IO 压力) 峰
期进行。
7
系统升级
系统升级前须分析并闭环所有的
警信前知浪潮技术人员
升级。
/