影响因素
稳定性参考指标
从业务场景而言,稳定可靠的两个重要参考指标如下:
- 业务连续性。平台业务在各层面的因素下,能够持续稳定运行的时间和能力。一旦核心关键业务受到连续性影响,用户的业务宕机无法继续提供服务,业务中断期间会带来较大的财产或名誉损失。
- 数据安全性。平台业务在各层面的因素下,能够持续保持数据安全不受影响,不受损失的能力。一旦核心关键业务受到数据安全损失,数据发生损坏或无法修复,导致不可逆转的损失。
相关影响因素
- 软件稳定性
- 系统容错能力:在物理机任一部件,例如CPU、内存、磁盘、网络出现故障,在存储坏掉一块或多块硬盘性能出现下降,在网络出现网卡故障、模块故障、网络波动、网络丢包等异常情况下,云平台上的业务还能继续运行的容错能力。
- 系统自恢复能力:在物理机断电重启、存储断电重启、交换机断电重启的场景下,能够快速自愈,自动恢复的能力。
- 软件Bug:云平台软件在正常使用过程中,软件自身的Bug导致的业务连续性和数据安全性风险。例如,虚拟化组件本身的问题。
- 硬件稳定性
- 非标硬件在平台业务持续运行过程中,会带来较大的稳定性隐患。
- 例如,性能不及预期的CPU、SSD缓存盘会在业务压力飙升的情况下,导致业务性能急剧下降,进而出现业务云主机IO错误。
- 方案稳定性
- 整体的方案规划和资源投入层面如果仅为了成本考虑,忽略了稳定性可靠性的规划,会带来极大的稳定性风险挑战。
- 在底层硬件设施到上层业务各个层面如果漏失了高可用规划、灾备规划、故障演练规划,则会在后续发生故障时,容易导致平台极不稳定。
- 负载稳定性
- 高负载压力:平台业务在CPU、内存、磁盘IO、网络IO等高负载场景下,能够持续提供业务稳定运行的能力。
- 在物理机CPU负载超过80%,内存使用超过80%,存储磁盘IO发生阻塞、网络IO发生阻塞的情况下,业务的稳定性会急剧衰弱,容易引发不可控的风险。
- 存储容量:在物理机系统盘、云主机系统盘、云主机数据盘、主存储的真实容量持续写入,在容量写满的情况下,会导致云主机业务暂停,影响业务的连续性。
- 人员稳定性
- 人员是在平台规划建设和日常运营中的最不稳定性因素。
- 人因失误导致的业务中断和数据丢失风险很高,尤其是运维层面,缺失规范的运维管理制度、缺失规范的变更操作流程、缺失规范的运维操作知识。
- 专业知识缺失、监控巡检执行不力、安全意识薄弱、风险判断失误等都可能导致业务系统存在重大风险。
- 环境稳定性
- 平台环境在安全攻击、电力保障、基础网络层面存在的隐患也会导致业务存在不稳定风险。