高可用影响因素
减少风险数量
- 从源头远离风险,做到与风险载体无关系,也就不必关心该风险发生后的故障影响面。
- ZStack Cloud云平台完全采用管理面与数据面分离,当管理面故障后不影响正常云主机业务运行,使用管理面数据库备份可在最短时间内恢复管理服务;支持在线无缝升级;采用非OpenStack体系,减少了组件间复杂的流程关系,物理机代理及管理面故障等均不影响业务运行。
降低风险变故障的概率
- 需要将风险看成一个对象,对其层层设卡,增加风险变故障的门槛和难度。
- ZStack Cloud云平台提供完备的告警监控能力,可以对管理节点、物理机、云主机、存储、网络等全方位监控,在最快时间发现风险。
- 提供一键巡检,快速检查云平台风险隐患,第一时间处理风险,极大成都降低了风险变故障的概率。
减小故障影响范围
- 将一个整体拆分成 N 个小的个体,每个个体之间进行相互隔离,单个个体出问题不影响其他个体,大幅度减小故障影响面。
- ZStack Cloud云平台将一组服务器主机合并为一个具有共享资源池的集群,并持续对集群内所有的服务器主机与虚拟机运行状况进行检测,提供完全的资源隔离、当一个物理机故障,不会影响其他物理机上的云主机运行。每个云主机是独立的个体,单个云主机故障完全不影响其他云主机。
缩短故障影响时长
- 故障影响时长由故障发现时间和故障恢复时间决定,因此要早发现早恢复。
- 发现故障方式分为:事前的预警,事后的告警。尽可能的在事发前发现问题,给恢复业务争取时间甚至将风险扼杀在摇篮中。
- 恢复故障方式分为:切换,回滚,扩容,降级 、 限流,BUG 修复等。故障出现时第一优先原则为快速恢复,如切换、回滚、扩容。
- ZStack Cloud云平台支持对接第三方邮箱、短信、HTTP应用、钉钉等,确保发生故障第一时间通知负责人,最短时间内处理故障;
- 提供快照、云主机镜像、云盘镜像、灾备管理、CDP等功能保证发生故障时第一时间能进行故障恢复。