云计算 频道

X86架构破解云数据中心四大困惑

  云数据中心困惑之三:RAS特性

  X86架构非常好的实践之道:移植来自安腾的20多条RAS特性

  RAS特性即“可靠性、可用性、可服务性”(Reliability, Availability and Serviceability)。

  云计算中心的RAS特性也是一个不容忽视的问题。一方面,对于云服务提供商来说,高的RAS特性很重要,数据中心服务器故障导致应用停用将给客户和终端用户造成损失,最终导致用户流失。另一方面,对于用户自己的数据中心来说,高RAS特性就更重要了,业务应用的停用,尤其是关键业务,比如金融行业业务支撑系统,一旦出现故障,将会造成十分巨大的损失。调研数据表明,服务器宕机1分钟,平均会使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元,证券业损失45万美元,这是真正的一刻值千金啊。

  随着至强在高端服务器领域的不断应用,除了基本的高性能以外,使用者对至强的RAS要求也越来越高,希望至强成为一个高效、节能、可靠的关键应用基础平台。从至强7500开始,包括其后的E7系列,Intel将英特尔安腾平台的、可与RISC架构平台相抗衡的20多个高级RAS特性移植到X86处理器中,并首次在至强平台上实现了IA64上才有的MCA恢复功能,提供更强的可靠性。

  MCA恢复功能可以检测处理器、内存和I/O的错误,并与操作系统协作纠正,帮助系统从严重错误中恢复,避免了因为内存等的一点硬件错误,就导致整个系统的瘫痪。下图为其工作原理:

云数据中心困惑之三:RAS特性
▲图3 MCA恢复功能的工作原理

0
相关文章