主机级别的可用性--不常见故障也屏蔽
时间:2022-04-15 02:36:01 | 来源:行业动态
时间:2022-04-15 02:36:01 来源:行业动态
高可用是关键应用的基本要求之一,系统故障带来的不仅会有业务停顿、服务中断,还可能有业务数据丢失和实际业务损失。浪潮服务器产品部总经理徐振说,TS860M5采用了浪潮新一代关键应用主机M13的设计技术,两款产品的很多部件是通用的,很多天梭M13主机的高可用技术也被应用到TS860M5这款产品上,可以说,TS860M5提供的是主机级别的可用性保证。
前代产品天梭TS860采用了多链路并联容错模型,在芯片级、链路级、模块级、系统级四方面采用了60余项RAS技术,达到99.999%的高可用水平,保证数据在计算、存储、I/O等各个环节都有冗余和保护措施。
TS860M5在这些技术的基础上,又将可用性做了进一步增强,系统部件和模块加大了冗余备份,具体包括全局时钟冗余、BMC镜像冗余以及三重电源隔离保护机制等十几项新技术。
徐振说,这款产品的可用技术已经覆盖了主要的常见故障,设计着重考虑主要解决那些不常见、但是危害性大的硬件和软件故障,"堵住系统每一个小的泄漏点"。例如服务器时钟故障,计算机时钟如同人体的脉搏,只有脉搏跳动有力且保持全局一致,计算机系统才能正常工作,现代服务器的时钟设计已经在多个层面进行了加强,几乎不存在故障的可能,TS860M5采用全局时钟冗余技术,又增加了一层保障。
此外,TS860M5还增加了很多面向管理员的RAS设计,帮助管理员进行故障诊断和排除。浪潮工程师为TS860M5设计了黑盒模块以及嵌入式示波器。黑盒模块可以记录下宕机前整个系统的状态以及系统日志,帮助管理员更好的进行故障回溯。数字示波器则可以让管理员在系统运行时查看主板不同模块的电信号波形,系统潜在故障往往会造成主板信号质量下降,该模块可以帮助管理员探查主板及其他部件的隐患。