新浪科技

从统一渲染诞生说起 AMD如何面对显卡岔路口

天极网

关注

第1页 从统一渲染诞生说起 AMD如何面对显卡岔路口

2011年对经历已经十几年发展历史的GPU图形产业来说,可谓平淡而又不平凡的一年,尽管GPU领域的大佬仍然是我们熟悉的那两家的厂商:NVIDIA以及已经更名易主的ATI,诸如S3等一干小厂或已湮灭或已被收编,如果未有Intel这样的巨鳄级厂商介入,GPU产业格局暂时难以发生天翻地覆的变化,而这个看似平静的产业又隐藏着些许危机,从2011年Q2的市场表现来看,独立显卡市场在2011年第二季度受到经济不景气以及CPU整合图形核心份额上升的双重影响,出货量大幅下降,传统DIY领域的萎缩势头似乎难以改变。

面对这种境况,GPU厂商也在积极的寻找转型的机遇,以NVIDIA为例,早在几年前就看到移动设备领域的发展潜力,突破传统的图形芯片市场,转攻智能手机和平板电脑芯片市场。得益于GPU图形领域的技术优势,又恰好迎来了移动设备发展的高峰期,基于Arm架构的Tegra处理器逐渐得到了客户及用户的认可,其第二代产品Tegra 2已经广泛应用于手机、平板电脑哦这样的移动设备,在收购了基带芯片厂商Icera后,NVIDIA的野心已经昭显于众人,也许年末发布的四核Kal-El Tegra 3将迎来真正的爆发。

谈到NVIDIA,我们不得不又谈到另一家GPU图形巨头:AMD,经历了并购ATI事件之后,AMD成为了全球唯一一家产品线覆盖CPU、芯片组及GPU的芯片厂商,众多A饭也期盼到了期待已久的3A平台,不过在Fusion APU融合加速处理器推出之后AMD彻底舍弃ATI,最终我们和这个存在了四分之一个世纪的品牌说声:永别了。

如今的AMD虽然身兼数职,但总给我们一种“不给力”的感觉,CUP领域被Intel酷睿系列压制,被对手秒杀全家的惨剧屡见不鲜,在显卡领域,无论市场份额还是GPU性能王者宝座均拱手让于对手NVIDIA。我们仿佛再也看不到当年"AMD"及“ATi”的影子。

以前的AMD却总在探索最新技术,HyperTransport总线、CPU整合整合内存控制器,X86-64架构,L3缓存这些,ATI也推出了全球首款统一渲染架构GPU,而如今AMD却总是扮演着追随者的角色,甚至变得有些不思进取,CPU依旧沿用多年来的K8架构,GPU自推出R600统一渲染架构以来也一直是小修小补。

我们不禁想问,为何如今的AMD如此保守?从当初的技术先行探索者变为跟随者,一切不妨让我们从统一渲染架构诞生的2007年说起,

第2页 从统一渲染诞生说起 AMD如何面对显卡岔路口

在竞争激烈的图形芯片领域,2007年被业内人士寄以厚望。微软当时推出的新一代操作系统Vista将个人电脑的3D门槛大大提高;具有革命意义的DirectX 10以及众多诱人的DX10游戏更促进了显示卡的更新换代。而在这一年诞生了GPU图形领域革命性的技术改进:统一渲染架构,这项创新设计来自当时还未被收购的ATI。

全球第一款统一渲染架构GPU:XENOS

统一渲染架构,从硬件的角度来说,就是指不再有Vertex Shader(顶点单元)、Pixel Shader(像素单元)的划分,而是将传统的Vertex Shader、Pixel Shader进行统一分装。此时的GPU不再分配单独的渲染管线,所有的运算单元都可以处理任何一种Shader运算,而这种运算单元就是经常提到的统一渲染单元(Unified Shader)。

统一渲染架构的出现避免了传统GPU架构中Pixel Shader和Vertex Shader资源分配不合理的现象,也使得GPU的利用率更高。统一渲染单元的概念一直沿用至今,一般来说统一渲染单元的数量越多,GPU的3D渲染执行能力就越强,所以统一渲染单元的数量也就成了判断显卡性能的一个主要标准。

作为全球首款统一渲染架构GPU,Xenos具备48个“4D+1D”(矢量+标量)的Unified Shader,其ALU单元为SIMD结构,每16个着色单元被合并为一个着色矩阵,调配哪几组Shader单元负责处理何种指令或者进行什么类型的计算,则由一个被称为thread arbiter(线程仲裁器)的部分来控制。

这种类似的SIMD架构可以追溯到R300(Radeon 9700)时代,而到了DX10统一渲染架构出现的时代,AMD也只是在此基础上进行的扩展和革新。Xenos中每个矩阵内部同一周期内只能执行同一类别的指令,要么Pixel Shader要么是Vertex Shader,虽然不太灵活,但还是实现了统一渲染架构,大大提高了Shader单元的负载平衡。

就算以今天的眼光来看,Xenos仍是一款设计极其出色的GPU,超前的设计理念,先进的技术特性,除了创新性的统一渲染架构,内嵌式显存(ERAM)设计也是堪称经典。Xenos甚至还引入了如今DX11 API最关进的技术:Tessellation(曲面细分),ATI在图形GPU设计领域的大胆创新精神在Xenos这款GPU芯片上展现的淋漓尽致,Xenos也导致微软在未来几年的次世代主机大战中出尽风头,尽管晚了将近一年时间上市,PS3采用的RSX GPU面对Xenos仍然无法取得绝对优势。

第3页 从统一渲染诞生说起 AMD如何面对显卡岔路口

2006年7月份被AMD收购,ATI主要忙收购之后的事宜,研发精力大打折扣,反倒被没有统一渲染架构设计经验的NVIDIA在同年7月份抢先发布G80核心的GeForce 8800 GTX显卡,掀开了桌面统一渲染GPU架构的序幕。

在实现统一渲染单元的过程中,NVIDIA将传统GPU架构中VS和PS中的4D矢量 ALU重新设计为功能更全的1D标量ALU,每一个ALU都有自己的专属指令发射器,所有运算全部转化为1D标量运算,可在一个周期内完成乘加操作。这种1D标量的ALU被NVIDIA称为流处理器(Stream Processors,SP)。

这种1D标量式的流处理器架构称为多指令多数据流架构(MIMD),完全区别于传统GPU的SIMD架构。MIMD架构最大好处是灵活、NVIDIA异步架构将核心频率和流处理器频率分离,流处理频率进行了大幅提升,达到两倍于核心频率的水平,同时大幅增加流处理器数量的方法很好的解决了执行效率的问题。不过MIMD架构设计的复杂度和所占用的晶体管数都要远高于SIMD架构。

直到G80架构出现半年之后的2007年5月15日,AMD/ATI才正式发布了基于统一渲染架构桌面GPU产品:R600/Radeon HD 2900 XT,R600依然采用SIMD的架构设计思路,沿用Xenos使用的“4D+1D”VLIW5架构设计。

R600沿用了Xenos的“4D+1D”VLIW5架构。每个ALU可以执行任意的1D+1D+1D+1D+1D或1D+4D或2D+3D指令运算,Co-isuue(矢量和标量并行执行)技术在这里更加灵活多变,ATI将这些ALU称作流处理器单元(Stream Processing Units,SPU,区别于SP),每一个SPU中都有5个ALU。

由于每个流处理器单元每个周期只能执行一条指令(这也是传统SIMD架构的弊端),但是每个每个流处理器中却拥有5个ALU,如果遇到类似1D标量类似的短指令,执行效率只有1/5,其余4个ALU都将闲置。为了尽可能的提高效率,AMD引入了VLIW5体系(Very Long Instruction Word,超长指令集)的设计,可以将多个短指令合并为一组长的指令交给流处理器单元去执行,比如5条1D指令或者1条3D指令和两条1D指令可以合并为一组5D VLIW指令。SIMD架构用较少的晶体管数实现了更多的流处理器数量和更高的理论运算能力,不过在执行效率相对低下。

从R600时代开始,AMD就沿用了“4D+1D”VLIW5架构设计不变,充分借助SIMD架构占用晶体管少的优势,从提升制程及晶体管数量的方法压制竞争对手NVIDIA,从R600的80nm制程到RV870时代的40nm制程,AMD对芯片制程升级一直保持着相当积极的态度,通过与台积电(TSMC)的紧密合作,AMD总是第一时间推出最新制程的芯片产品。但除此之外我们真的很难看到其他改变,也许AMD同样沿用了处理器产品线的策略“以不变来应付万变”,用最低的研发成本来对抗竞争对手的新品。

第4页 从统一渲染诞生说起 AMD如何面对显卡岔路口

Radeon HD2900 核心代号:RV600 发布日期:2007年5月15日

R600时期,ATI刚刚经历并购事件,可谓正处于动荡时期,所以在新产品的研发上面收到一定干扰,不过我们仍能从R600的设计中看到当初ATI那种“敢打敢拼”的创新精神。除了我们之前讲到的统一渲染架构以及“4D+1D”VLIW5架构,R600还拥有创纪录的1024-bit环形总线技术,R600本身就拥有512bit显存位宽,AMD在此基础上又引入了Ring bus环形总线,可以等效1024-bit位宽,可惜限制于生产工艺,环形总线技术并未大规模普及。

Radeon HD 3800 核心代号:RV670 发布日期:2007年11月15日

经历R600的试水失败之后,AMD很快便推出了全新的RV670。RV670架构本质上没有改变,更像是R600架构的工艺改进版。RV670直接由原来的80nm、65nm一步跨入55nm制程工艺,核心面积因此大幅减少。其晶体管数量降至6.6亿,核心面积则从原来的408平方毫米减少至192平方毫米。另外去掉了1024-bit环线总线改用256bit,另外RV670还增加了对DX10.1 API和PCI-E 2.0支持,增加了RV 670缺失的UVD解码引擎,可完整支持主流高清编码的硬解。

Radeon HD 3000系列产品同样是一代顶级显卡性能表现不济的产品,但是AMD做到了让核心面积大幅缩小的改进,虽然在性能方面AMD并没有占尽优势,但是AMD却得到了成本上良好的控制。而Radeon HD 4000则正是ATI真正显现他们SIMD架构优势的时候:

Radeon HD 4000 核心代号:RV770 发布日期:2008年06月23日

虽然改进版的RV670依然没能给AMD带来任何生机,但接下来的RV770却是AMD的扬眉之作。2008年6月份,AMD发布了基于RV770架构的第二代DX10.1显卡,RV770的SIMD阵列由RV670的4组增加到10组,纹理单元也相应地增加到10组,整体规格是上一代架构的2.5倍,流处理器单元达到了800个,SP单元的急剧增加也大幅提升了RV770的性能,AMD的VLIW5架构容易增加流处理器单元的优势渐渐显现出来。AMD依旧对VLIW5架构进行些小修补,另外RV770还放弃了使用多年的环形总线,估计是因为高频率下数据存取命中率的问题,回归了交叉总线设计,有效提高了显存利用率,并节约了显存带宽。

RV770最为成功的并非它的架构设计而是AMD的市场策略。通过对55nm制程工艺的熟练掌握,RV770在规格翻了一倍多的同时并没有大幅增加核心面积,晶体管数量从6.6亿增加到9.56亿的同时功耗控制也非常出色(TDP功耗为110W,支持自动降频),所以RV770的成本很低,显卡上市直接切入消费者的心理价位,AMD的小核心策略赢得了市场成功。

Radeon HD 5000 核心代号:Cypress(RV870) 发布日期:2009年9月23日

在RV770算是一代成功的产品,也堪称SIMD架构达到的巅峰,而在2009年微软发布新一代操作系统Window7的时候,AMD也准时推出了全球DX11图形GPU——Cypress。借助趋于成熟的40nm新工艺,AMD将两颗RV770封装在一起,Cypress流处理器数量达到了疯狂的1600个,我们不得不感叹显卡”堆核“时代的到来。为了迎合DX11,Cypress加入了DX11的关键要素:曲面细分单元,使之可以更高效率的细分出更多的多边形和曲面。还增加了Eyefinity Display Contorllers,可以实现六屏输出,

不过总得来说,Cypress相对RV770在架构方面改进有限,主要是新增了DX11新特性,另外利用40nm和新一代GDDR5显存在功耗控制方面相对出色。不过由于AMD并未全新设计整体架构,而自R600时代沿用的架构已渐显老态,仅通过加入一组Tessellation单元的方式支持DX11 API,Cypress"先天短腿"导致DX11性能不足的弊端开始显现,在DX11游戏的比拼中完全落败于NVIDIA稍后推出的 Fermi GF100系列GPU,要不是后者陷于40nm制程良品率的问题中难以自拔,相信Cypress的日子不会如此好过。

Radeon HD 6800 核心代号:Barts 发布日期:2009年9月23日

Cypress在DX11 GPU可谓第一个“吃螃蟹”,但其曲面细分能力的低下导致AMD在与NVIDIA的竞争中相当被动,稍晚发布的NVIDIA FERMI GF100系列采用全新架构,加入了针对DX11特别设计的PolyMorph Engine,得益于PolyMorph Engine,NVIDIA GTX400系列在需要大量复杂Tessellation运算的程序中表现相当强势。

为了扭转被动局面,AMD发布了号称“北方群岛”Radeon HD6800。核心代号为:Barts的HD6800并没有进行大规模的重新设计,基本沿用了R600以来的VLIW5式SIMD流处理器结构,核心控制器却变成了两个,同时控制器指令缓存也变成了两份,Tessellator单元数量仍为1组,但规格升级为增强型的Tessllator Gen7。通过上述改进,Radeon HD6800系列显卡改进了中低等级别的曲面细分性能,但如果面对特别复杂的高级别Tessellator运算时几乎无任何改进。

Radeon HD6800可以看做AMD对Cypress DX11性能缺陷的一种弥补,但事实上还是“换汤不换药”,通过升级曲面细分单元的方法无法根本改变其DX11性能贫弱的本质,而当NVIDIA摆脱40m良品率危机,推出升级版的GTX500系列显卡是,AMD真正的危机才算到来;哦。

第5页 从统一渲染诞生说起 AMD如何面对显卡岔路口

从上面的分析我们可以看出,从R600时代起,AMD就沿用了VLIW5架构不变,通过升级制程,堆积晶体管,加入DX11处理单元的方式来升级GPU,通过最小的研发成本来对抗NVIDIA。虽然4D+1D设计方式在运算时间的灵活度和执行效率不如NVIDIA的全1D式设计,但是所带来的好处就是流处理器单元的设计复杂度低,因此ATI可以将流处理器的数增加的更多,由此我们才会看到现在RV770所能达到的800个流处理器的恐怖数量。甚至到HD5000时代的1600个流处理器以及HD6000时代更多的流处理器数量。

同频下性能对比:HD2900XT/HD3850(745/1650MHz)

同频下性能对比:HD4650/HD5550(600/1400MHz)

当然,SIMD架构的设计思路也为ATI今后的发展带来了相当大的负面影响,实际上从R600时代其,AMD GPU产品的处理效能提升幅度就相当有限,从我们的文章《320SP谁称霸 看AMD四世显卡同堂较量》就能看出一些端倪,扣除纹理单元,显存带宽差异来带的误差,实际上规格接近的几代理论性能上我们完全看不出差距,是因为核心架构完全没有改变所致,五年来改进的只有制造工艺。

除此之外,AMD在并行运算方面也落后对手太多,虽然早在HD2000时代AMD便开始宣传统一架构显卡的并行计算能力以及使用GPU进行物理加速的可能性,但是时至今日我们可以看到AMD在这一方面仍然没能够提供出完美的解决方案。当然你或许会认为这是AMD拥有处理器技术的缘故,但是我们仍然不能否认AMD在开发GPU的并行计算能力方面却是远远落后于NVIDIA。

第6页 从统一渲染诞生说起 AMD如何面对显卡岔路口

革新VLIW 4架构:尝试改变的Cayman

也许是看到了DX11领域的被动局面,AMD于2010年12月15日推出了核心代号:Cayman的Radeon HD 6900,短短一年多的时间内,AMD就推出了多达3代产品,在其历史上也相当罕见。而Cayman终于抛弃了我们已经看到厌烦的VLIW5架构,带来了略带新鲜感的VLIW4架构。

与其说是革新,不如说是稍作调整,因为整个Cayman最根本的流处理器单元依然是基于VILW体系,只不过由5D调整为4D。每个流处理器单元由4个ALU、一个分支单元、一个通用目的寄存器组成,其中四个流处理器的整数、浮点执行功能完全相同,可以执行四路并行发射,但是特殊功能占据四个发射位中的三个。

VLIW4流处理器单元中的ALU单元减为4个,数量虽然少了但是这种设计减少了指令调度和寄存器管理,反而提升了利用率。虽然VLIW4架构有着更好的利用率,能将性能与核心面积比提高10%,简化调度与寄存器管理,逻辑核心也可以很好地重复使用。不过,5D到4D的转换,相比1D的纯标量架构执行效率依然相差甚远。

除此之外,Cayman还增强了曲面细分性能、增强画质抗锯齿(EQAA)、增强各向异性过滤与纹理过滤、加入全新功耗管理等等。限于篇幅,这里就不在过多介绍了。总的来说,Cayman核心算是AMD自统一渲染架构出现以来底层架构最大的一次改变,虽然这种改变并不算彻底,但是不难看出AMD已经走在被迫改变的路上。

第7页 从统一渲染诞生说起 AMD如何面对显卡岔路口

全文总结:我们通篇文章介绍了AMD自R600以来推出的所有芯片组及产品,大家在文章中见到最频繁的字眼莫过于”VLIW 5“,的确通过我们的分析来看,从R600进入统一渲染GPU架构时代开始,AMD就死死守住VLIW 5D式SIMD流处理器结构不放,后代产品都是在前代产品的基础上进行规模扩充、特性革新以及架构微调而来。AMD可谓充分领略的中国那句俗语”一招鲜,吃遍天“,通过不断的制程升级,AMD所作的事情实质也就是:升级制程堆流处理器,将上代的顶级显卡变为下代的中低端显卡,另外通过“打补丁”的方法加入诸如DX11这样的新要素。

不可否认,AMD的保守策略在市场端取得了一定收获,VLIW式SIMD架构自由其独到之处:设计简单、不浪费晶体管、规模易于扩充、温度功耗控制理想、架构换代快、容易加入新特性等等,甚至在RV770时代,将VLIW 5D式SIMD流处理器结构潜力发挥到极致的HD4800系列显卡相比对手取得了全面的领先。

但是,无论愿不愿意承认,随着技术不断的发展,AMD依赖数年的的VLIW式SIMD架构是时候寿终正寝了。RV770的成功就已经警示AMD这一架构的潜力已被挖掘殆尽,是时候做点东西出来了,但如今的AMD已经丧失了当年ATI那种敢于创新的气魄,仍然死守着VLIW式SIMD架构不放,甚至连NVIDIA陷于40nm良品率将近一年时间这样的好机会都白白错过,而在NVIDIA缓过劲来以后,AMD陷入了全面的被动。

进入DX11时代之后,全新API和新特性带来了以往DirectX 版本看不到的东西,尤其是大量的图形特效可以靠GPU的计算能力进行加速,这一切在要求传统图形渲染能力的同时,对GPU的计算能力也要求十分苛刻。而VLIW架构天生的缺点就在于此,虽然3D图形渲染没有问题,但是面向未来,AMD是不是也该做点什么呢?。

AMD Graphics Core Next全新图形架构设计图

在前不久的AMD Fusion开发者峰会上,AMD首席技术官兼图形业务执行副总裁Eric Demers登台演讲,其中着重提到自R600之后AMD数代产品沿袭已久的VLIW架构将会大规模革新…..

由于缺乏开发代号,全新的图形架构目前被称作Graphics Core Next(GCN)。Graphics Core Next是AMD未来GPU架构的基础,包括所有桌面独立显卡以及APU融合的集成显卡。新架构将会以未来市场需求为导向,最大化的发挥GPU的功能,这也是自R600以来,AMD图形架构最大规模的一次变革。在新架构中,传统的图形性能表现和特性发展依然占据很重要的地位,不过GPU的计算能力将会得到前所未有的增强。很明显AMD将转而更趋向于对手NVIDIA的发展方向。

当然,AMD也强调了新架构会找到图形和计算性能之间的最佳平衡点,图形和计算架构并不是单独进化,而是隶属于更大的体系Fusion系统架构的一部分,也就意味着今后GPU、CPU会联系得越来越紧密,协同加速。事实上,经过多年的发展,尤其是统一渲染架构出现以后,GPU的用途不再仅仅是图形处理,并行计算能力被不断挖掘,在应付某些高负载并行处理任务的时候更像是一颗广义的CPU。

在未来的发展道路上,AMD的着重点不再是CPU和GPU的单方面发展,而是它们融合之后的协同运作。就近阶段来看,Bulldozer推土机承载了未来的CPU部分,而GPU部分就是Graphics Core Next全新图形架构。

加载中...