三、云平台上稳定性和持久内存的易用性增强
时间:2022-04-11 01:24:01 | 来源:行业动态
时间:2022-04-11 01:24:01 来源:行业动态
主机多平面故障检测
当计算集群发生大规模故障时,计算资源急剧收缩,可能存在资源不足的情况,此时疏散可能给云平台造成更大的伤害。另外,计算节点上云主机根据承载的业务不同,有的业务应用实例价值高,有的就可能没那么重要。
如何保障高价值的业务优先恢复?
这就需要通过定义用户业务实例的优先级,然后通过排队、熔断、限流、降级重试等策略保障用户业务的可用性,从而保障云平台业务的稳定性。
PMEM设备虚拟机离线迁移实现原理
PMEM设备虚拟机离线迁移实现时序图
浪潮云海技术团队和英特尔中国CESG ESS部门及英特尔中国OpenStack社区研发团队共同合作,对持久化内存(PMEM)进行了深入研究,完善并深度优化PMEM设备虚拟机的相关功能,例如支持PMEM设备虚拟机离线迁移,支持将已有的PMEM数据的虚拟机迁移到目标PMEM服务器节点上。
PMEM设备管理
为了更进一步实现异构加速器设备的管理,浪潮云海技术团队编写了PMEM设备的驱动程序,并将其贡献到OpenStack Cyborg社区,以支持通过智能加速器设备管理项目统一管理PMEM设备,支持PMEM设备的自动发现、自动上报、Nova创建虚拟机智能调度,更好支持虚拟机在创建时请求PMEM设备。