面向关键任务 Nehalem-EX RAS特性详解
【IT168评测中心】在上一篇文章中,我们分析了Nehalem-EX处理器相对于通常的Nehalem处理器的不同:面向多路平台。由于定位不同,Nehalem-EX的内部架构也和普通处理器不同,此外,Nehalem-EX和通常的x86处理器很不同的一个地方是,它面向Mission Critical(关键任务)市场,相对于性能,这些市场上更加重要的是平台的可靠性。Nehalem-EX增加了相当多的RAS(Reliability, Availability, Serviceability:可靠性、可用性、稳定性)特性来满足关键任务计算的需求:
传统的x86处理器难以进入关键领域的原因,就在于其RAS特性不足,可靠性不够,用户不敢在上面跑相关应用。Nehalem-EX的出现,将x86系统的可靠性带到了一个全新的水平,如图上所示,这些RAS特性非常多,大致总结如下:
Nehalem-EX RAS Features | ||||||
类别 | 功能 | 特性 | 说明 | |||
数据保护 | 降低关键级别错误 全系统数据错误检测 限制错误所致影响 | Parity checking and ECC 奇偶校验与ECC | ||||
Memory Themal Throttling 内存热量监控 | 防止内存过热 | |||||
Memory demand & patrol scrubbing 内存按需/轮询检查 | 提高全系统数据可靠性 | |||||
Corrupt data containment 污染数据隔离 | 限制错误数据造成的影响 | |||||
QPI viral mode QPI病毒模式 | 标记为Viral的数据包将被限制在QPI总线内而不会发送到设备上 | |||||
QPI rolling CRC QPI持续CRC校验 | QPI CRC校验扩展到两个连续的包 | |||||
高可用性 | 恢复失效数据链接 从失效部件迁移 从不可修正错误中恢复 故障预测 | Intel SMI Lane Failover 串行内存接口信道容错 | ||||
Intel SMI Clock Failover 串行内存接口时钟容错 | ||||||
Intel SMI & QPI Packet Retry SMI & QPI包重发 | ||||||
QPI Clock Failover QPI时钟容错 | ||||||
QPI Self-Healing QPI自愈 | ||||||
SDDC plus random bit error recovery 内存SDDC纠错与任意位错误恢复 | ||||||
Memory Mirroring 内存镜像 | ||||||
Memory DIMM and Rank Sparing 内存DIMM和Rank热备 | ||||||
Dynamic CPU and memory migration CPU/内存动态迁移 | 需要操作系统支持 | |||||
MCA-recovery with OS support MCA恢复 | 需要操作系统支持 | |||||
计划宕机时间最小化 | 分区模块化 替换失效组件 | Static System partitioning 静态系统分区 | 需要操作系统支持 | |||
MCA error logging (CMCI) with OS predictive failure analysis 用于操作系统失效分析预测的MCA错误记录 | ||||||
Physical Memory Board Hot Add/remove 物理内存卡热添加/热移除 | ||||||
Dynamic/OS Memory On-lining(capacity change) 动态内存在线(容量变更) | 需要操作系统支持 | |||||
Physical CPU Board Hot Add/remove 物理CPU卡热添加/热移除 | 需要操作系统支持 | |||||
OS CPU on-lining(capacity change) 动态CPU在线(容量变更) | 需要操作系统支持 |
在Intel正式宣传的文档中,提到的RAS特性就是上面22条,集中解决三个方面的问题:一是数据保护,利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。二是高可用性,包括各种主要部件的备、镜像和热切换等,以保证系统的高可用性。三是计划宕机时间最小化,包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。
wordend相关阅读:- 透视八核心至强 Nehalem-EX处理器解析
- 8路CPU128线程 Nehalem-EX处理器再曝光
- 英特尔提前展示下一代多路至强处理器
要提高RAS,首先,就要在硬件层保障信号传输的正确性,Nehalem-EX建立了一个CMCI(Corrected Machine Check Interrupts)架构,以保证纯硬件的数据纠错:
当发生硬件无法完全纠正的错误的时候,Nehalem-EX进而提供了一系列需要联合OS/firmware进行的错误隔离以及错误恢复:
对无法纠正的数据,使用一个Poison(毒药)标记,OS/firmware可以知道这些数据在硬件层次上无法恢复,从而可以决定进行Retry或者丢弃
这些特性形成了一个完整的MCA架构(Machine Check Architecture):
Recoverable MCA系统可以在多个椭圆、方块表示的多个状态之间切换,并不会宕机
MCA是一个原来只在IA64架构处理器上才有的功能,MCA功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,在OS配合的情况可以对系统进行热维护,保障系统的不间断运行。据表示,包括微软Windows Server、RedHat、SUSELinux以及VMware等平台都已经支持这一功能。
wordend相关阅读:- 透视八核心至强 Nehalem-EX处理器解析
- 8路CPU128线程 Nehalem-EX处理器再曝光
- 英特尔提前展示下一代多路至强处理器