Fermi二代GF110显示核心特性解析

天极网

天极网官方账号 2010.12.0718:05

关注

GF110与GF100从表面上看似乎没有什么大的区别，架构没有任何改变，那么NVIDIA为什么当初的GTX480不做满512个CUDA核心？是因为留了一手打击对手还是因为工艺的原因？我想兴许两方面原因都可能有。

GF100芯片透视图

这次GTX580在半导体芯片的纹理过滤及内轴的压缩上进行了很大的优化，所以GTX580做满了fermi全架构产品。算法的改变以及工艺的优化是否能在性能获得了非常大的提升？这是我们拭目以待的，请关注后面的评测数据。

GF110核心规格：

-512个CUDA核心

-4个GPC(图形处理器集群)

-4个Raster Engine(光栅化引擎)

-16个SM(流处理器簇)

-16个PolyMorph Engine(多形体引擎)

-64个纹理单元

-48个光栅单元

-384bit GDDR5显存控制器

GF110被NVIDIA定义为CUDA计算与图形架构，在GF110上，NVIDIA引入了GPU图形处理器集群的全新概念，摈弃了过去的TPC概念。GF10由四组GPC构成，每组GPC内部包含了除了ROP单元以外的SM阵列、PolyMorph Engine等基本图形运算单元，可以将顶点、几何、光栅、纹理以及像素等处理资源进行有机整合。兴许我们可以将一组GPC看成是一个可以执行绝大部分指令的GPU核心，而GF110就是由四个这样的核心组成。

GF110关键词解析：多边形引擎

从以上的架构图等大家可以看出来，GF110与GF100在架构方面并没有本事上的区别。而在GTX480首测的时候，我们已经对GF100的架构作了详细讲解，所以今天，我想就几个点再次拎出来再给大家做一个简单的回顾。

GF100关键词之Raster Engine和Polymorph Engine

NVIDIA认为成熟的GT200架构已经无法适应大规模的tessellation计算，决定为DX11产品设计全新的图形架构。而并行化的Raster Engine和Polymorph Engine就是并行处理架构上的关键模块。

Polymorph Engine运算过程

顶点拾取、曲面细分、观察口转换、属性设置和流式输出是Polymorph Engine工作的五个阶段。任意阶段的运算都会被发送至一组SM。该SM将执行游戏的着色程序并将计算结果返回至Polymorph Engine的下一个阶段。所有阶段性计算完成之后，结果再传输给Raster Engine。

Raster Engine运算过程

每个Polymorph Engine都拥有专属的顶点获取单元以及tessellator，很大得提高了几何性能。另外，四个并行的Raster Engine与之遥相呼应，他们在每个时钟周期内设置最多四个三角形。

GF100关键词之创新SM阵列

在GF110中，一个GPC由四组SM阵列组成，每一组SM阵列具备32个流处理器、一个PolyMorph Engine多形体引擎、16个Store单元、四个SFU单元和纹理单元、两个Warp调度器和指令发送器、能配置为48KB Shared Memory+16KB L1缓存或者16KB Shared Memory+48KB L1缓存的共享内存/L1缓存。在AMD统一渲染架构的GPU中，类似SM等级的部件是SIMD Core，例如RV870拥有20个SIMD Core。

GF110关键词之纹理单元

在GF110中，每个SM配备了四个纹理单元，共计64个。和上一代GT200以及竞争对手Cypress的80个纹理单元想必，GF110的纹理单元数量不但没有提升，反而下降了。NVIDIA通过将纹理单元移植到SM中的设计来提升纹理单元的使用效率和时钟频率。一个纹理单元在一个时钟周期内能够计算一格纹理地址并获取四个纹理采样，可以支持包括双线性、三线性在内的各项异性过滤模式。

GF110关键词之Shared Memory和L1/L2 cache

GF110的L1/L2缓存

在G80和GT200中，每个SM都有16KB的shared memory。而fermi中，每个SM拥有16KB的shared memory，能配置为48KB shared memory+16KB L1 cache或者16KB shared memory+48KB L1 cache的模式。程序员可以自己编写一段小程序，把shared memory 当成cache来使用，由软件负责实现数据的读写和一致性管理。而在GF100中，其提供了768KB的一体化L2 cache，L2 cache为左右的Load/Store以及纹理请求提供高速缓存。L2 chche上读取的数据都是连贯的，它实现了GPU高效横跨数据共享，对于那些无法预知数据地址的算法，例如物理结算期、光线追踪以及稀疏矩阵乘法都可以从Fermi的内存设计中获益。

GF110关键词之ROP单元

GF110包含六个ROP分区，一格ROP分区包括了8个ROP单元，共计48个ROP单元。一格ROP单元能在一个时钟周期内输出一格32位整数像素，理论上，由于ROP的压缩效率和ROP单元数量的提升，GF110在8x抗锯齿下的性能会得到明显改善。相信大家在GTX480发布之后就看到了相关数据，不过在本次的测试中，我们主要针对GTX580对GTX480的性能提升，抗锯齿部分采用4X且并没有对比。

GF110关键词解析：Tessellation

在AMD发布第二代HD6800系列之后，NVIDIA紧跟其后发布GTX580显卡，这次并没有落下。显然，二代DX11显卡同样具备以下特性：

1. Tessellation：镶嵌式细分曲面技术

2. Multi-Threading：多线程处理

3. DirectCompute 11：计算着色器

4. ShaderModel 5.0：着色器模型5.0版

5. Texture Compression：纹理压缩

当GTX480发布出来之后。

DX11特性解读之Tessellation

最初Tessellation这个词眼出现在AMD显卡中，AMD也抢占DX11市场半年之久，可是在DX11发展初期大肆宣扬“曲面细分”的却是NVIDIA。DX8/9/10时代，大部分的重点都是侧重在画面渲染这一块，没有侧重在三角形几何图形的处理上面。在过去的这些年中，画面渲染进步了100倍，但是三角形几何图形的处理却仅仅进步了3倍。到了DX11，微软推出这样一个API，所以尽管AMD早先发布半年，但NVIDIA才是真正抢占了DX11市场先机。

在以前，我们通过一个前端电路控制模块来汇集，获取和对三角形光栅化。在那个几何运算并不复杂的时代，像这种固定的流水线操作可以达到几何运算性能，并不会因为并行核心的增删而改变。随着几何运算的复杂性逐步增加，DX11引入了Tessellation，NVIDIA认为成熟的GT200架构已经无法适应大规模的Tessellation计算，所以GF100全新架构的诞生也就势在必行，而GF110的应运而生则使GTX580在各方面的表现更加趋于完美。

并行化的Raster Engine和PolyMorph Engine就是并行处理架构上的关键模块。可扩展的PolyMorph Engine能实现较高的三角形速率，每个PolyMorph Engine均拥有专属的顶点获取单元以及Tessellator，很好的提升了几何性能。与之呼应的是四个并行的Raster Engine，它们能在每个时钟周期内设置最多四个三角形，并且在三角形获取，曲面细分以及光栅操作方面具备很强的性能。

Tessellation实现原理(整合于网络)

Tessellation技术是一种能够在图形芯片内部自动创造顶点，使模型细化，从而获得更好画面效果的技术。Tessellation能自动创造出数百倍与原始模型的顶点，这些不是虚拟的顶点，而是实实在在的顶点，效果是等同于建模的时候直接设计出来的。

下面这张图算是比较简单明了的体现出了曲面细分的一些东西。我们看到，三角形越多，我们看到的画面就越趋于真实。

Tessellation技术是完全可编程的，它提供了多种插值顶点位置的方法来创造各种曲面：

1. N-Patch曲面，就是和当年TruForm技术一样，根据基础三角形顶点的法线决定曲面;

2. 贝塞尔曲面，根据贝塞尔曲线的公式计算顶点的位置;

3. B-Spline、NURBs、NUBs曲线(这三种曲线均为CAD领域常用曲线，在Maya中均有相应工具可以生成)

4. 通过递归算法接近Catmull-Clark极限曲面。

NVIDIA特色技术：光线追踪

特色技术之光线追踪

光线追踪其实并不是什么新技术，只是由于门槛过高，民用级显卡还无法驾驭它。光线追踪是一项可以大幅增加场面真实感的渲染技术，能够利用计算机构建出以假乱真的视觉画面。我们可以简单得这样认为：光线追踪直接操控屏幕的背光，让每个像素都对应真实场景的光反射。如果从人眼的角度来看，光线追踪与真实视觉的远离相同，区别仅在于真实视觉系统中，光线的数量可以分解为无穷大，但是在计算机的视觉系统中，光线的数量是有限的，只不过当光线的数量达到一定临界点时，人眼就无法再加以区分。

GF110图形架构为光线追踪作了特别的优化，由于其在硬件上支持循环操作，即与光线追踪的工作轨迹同步，L1/L2缓存也提供了效率和带宽。

光线追踪渲染图

光线追踪渲染图

光线追踪渲染图

光线追踪渲染图

NVIDIA特色技术：3D立体环绕

完善软硬兼施——3D立体环绕

特色技术之3D Vision Surround

一年前的暑假，卖场里到处摆放的是NVIDIA的3D游戏演示，还记得那个游戏的名字叫《鬼泣4》。随着下半年《阿凡达》的热映，3D的脚步离我们越来越近。

在GTX480发布的时候，NVIDIA方面对3D的概念又一次推到一个新高，不过当时不管在游戏方面还是自身软硬件方面都还不够完善。不过经过半年之久，购买一块NVIDIA显卡配上最便宜的红蓝眼镜就可以享受3D。

随着3D相机，3D显示器，3D电视机等产品的推出，以及各种游戏的3D版本上市推动了3D普及速度。而普及之后价格的平民化必将是趋势。

如果你想组建3D vision surround则需要以下配备：三台具备120Hz刷新率的显示器+NVIDIA 3D立体环境+SLI系统+Dual Link标准的DVI线缆。

3D装备

无论从3D立体技术的原理还是目前3D立体技术的成熟度，还是用户不断追求更真实的游戏体验的推力，乃至3D立体产业的发展趋势来看，我们都有理由相信3D立体显示技术奖在未来占据更重要的位置。而游戏的发展趋势则更加不用说了。也许你会为了玩游戏而买一台ipad或者itouch，或许你会认为将来的游戏手持设备平台，家用游戏机与电脑游戏平台三个平台上都会有一个稳定的发展。在游戏的模式上，体感和多模式也是发展的趋势。但是视觉的冲击上绝对属于3D。

以往通过DirectX的升级我们能够看到更多以往无法体验的性能和画面特质，因此DirectX API一直对显示核心有着深入的影响，随着Windows7的发布，微软也为我们带来了最新一代DirectX 11，但是我们发现了一个有趣的现象，DirectX 10技术发展至今，已经近三年时间，不过许多最新发布的游戏大作依然采用DX9 API或提供DX9模式。游戏画面的提升已经达到一个很高水平，于是NVIDIA将创新重点转换到了通用计算，并通过优化通用计算架构来进行物理运算，使玩家游戏时的用户体验。

《蝙蝠侠》中的爆破场景

物理特效能够增强3D游戏的互动性和真实性，游戏场景中物体的真实物理运动才可以让体验者产生到更加逼真的游戏体验。目前游戏中最常用的3D物理加速技术分为两种，第一种是Intel旗下、AMD推崇的Havok物理加速引擎，在AMD宣布Radeon HD显卡支持Haovk GPU加速之前，所有Havok游戏都是基于CPU物理运算开发的，采用该技术的游戏已经有几百款，但在游戏大作中，我们已经很久没有看到Havok的身影了。第二种物理引擎则是近期非常火热，隶属于NVIDIA门下的PhysX物理加速技术，与Havok相比，PhysX虽然也可以利用CPU进行物理运算，但运行效率却远不及NVIDIA GPU，但支持PhysX GPU加速的游戏新作已经越来越多。

《镜之边缘》中的爆破场景

随着THQ、EA、2K、SEGA等游戏大厂和著名游戏引擎的加入，PhysX物理加速技术将会被融入未来更多的游戏大作中，除了虚幻竞技场三、尖峰战士、镜之边缘等PhysX游戏外，圣域2堕落天使、雪域危机、一舞成名等单机、网络游戏中，都充分体现出了PhysX物理加速技术的有优势，支持PhysX的游戏越来越多，PhysX GPU加速的应用将在今后的游戏中得到更多的实际应用。

《一舞成名》中的服装物理效果

《雪域危机》中的流体物理特效

《圣域2》中的魔法物理特效