MCPLive > 杂志文章 > AMD Radeon HD 6970/6950显卡评测

AMD Radeon HD 6970/6950显卡评测

2011-02-17《微型计算机》评测室《微型计算机》2011年1月下

AMD自R600以来的4D+1D(VLIW4针)架构终于走到了尽头——AMD在新发布的代号为Cayman的Radeon HD 6970/6950显卡中全面采用了新的4D架构,令人耳目一新。

Radeon HD 6970/6950的设计目标和重大调整

众所周知,AMD自R600以来一直在沿用4D+1D架构,包括后来的RV670、RV770、RV870都是在这个架构基础上进行改良。在Radeon HD 6870/6850发布之前,有传闻称AMD将使用全新的4D架构,后来的事儿大家也都知道了——Radeon HD 6870/6850仍然沿用了4D+1D架构。但此消息并非空穴来风,此次AMD终于在Radeon HD 6970/6950上使用了全新的4D架构,堪称自R600之后重要的架构调整转变。我们曾经在Radeon HD 6870/6850评测时说过,使用了相当长时间的4D+1D架构虽然表现不错,但效率上存在一定问题,需要作出改变以适应未来发展。另外,DirectX 11时代已经全面来临,AMD也需要加强显卡在DirectX 11方面的应用能力,以满足未来游戏不断发展的需求。

鉴于上述需求,Radeon HD 6970/6950在架构上作出了如下重要调整:首先,将之前的4D+1D的架构改用4D结构,放弃了比较“胖”的执行特殊计算任务的“T-Stream”单元。这样的好处是在一定程度上提高了晶体管的使用率,可以提升每平方毫米核心的性能;其次,增强了曲面细分计算的能力,以更好地应对未来的游戏需求;再者,在MLAA抗锯齿基础上(Radeon HD 6870/6850开始引入)采用了新的EQAA抗锯齿模式;后,新增了方便用户调节显卡功耗的PowerTune技术,对GPU的功耗有了更为深入的监控和管理(有关Cayman图形架构的说明请参看后文介绍)。

Radeon HD 6970/6950家族及规格

AMD第二代DirectX 11 Radeon HD 6900系列显卡目前只有一个核心,也就是Cayman,这款核心的产品暂时只有Radeon HD 6970和Radeon HD 6950。根据AMD的惯例,未来还可能有一颗更为低端的Radeon HD 6930以及双核心的Radeon HD 6990。

Radeon HD 6970是目前AMD单核心显卡中的旗舰产品,将接替之前的Radeon HD 5870,直接竞争对手是GeForce GTX 570,在国内官方定价为2999元。它内建1536个流处理算术逻辑单元(Stream Procesing Unit,SPU)、24个SIMD阵列、96个纹理单元以及32个ROP(光栅处理单元),大浮点计算能力达到了2.7TFLOPs。该卡搭载2GB/GDDR5/256-bit显存,核心频率和显存频率分别为880MHz和5500MHz。根据AMD给出的数据,Radeon HD 6970在PowerTune大满载功耗下是250W,一般游戏满载功耗是190W,空载功耗只有20W,需要8pin+6pin的外接供电。


Radeon HD 6970采用了全新的4D架构

Radeon HD 6950定位稍低,将接替之前的Radeon HD 5850,国内官方价格是2399元。在这个价位上,Radeon HD 6950没有直接竞争对手,但按照定位,它的对手应该是GeForce GTX 470或者GeForce GTX 570。较Radeon HD 6970而言,Radeon HD 6950通过屏蔽部分流处理算数逻辑单元的方式在规格上做了一定缩减。它内建1408个流处理算术逻辑单元、22个SIMD阵列、88个纹理单元、32个ROP。该卡同样搭载2GB/GDDR5/256-bit显存,但核心频率和显存频率分别被降低到800MHz和5000MHz,大浮点计算能力为2.25TFLOPs。根据AMD给出的数据,Radeon HD 6950在PowerTune大满载功耗下是200W,一般游戏满载功耗是140W,空载功耗也只有20W,需要双6pin的外接供电。

Radeon HD 6970/6950性能测试

采用全新VLIW4针架构的Radeon HD 6970/6950能否给我们带来惊喜,是否能够战胜NVIDIA同级别产品,特别是GeForce GTX 570。我们组建了英特尔Core i7 965 Extreme平台进行测试,告诉你详细和真实的的测试结果。你将了解到Radeon HD 6970/6950的游戏性能、曲面细分性能、抗锯齿性能和功耗表现,以及它们和AMD上一代定位相近产品及各自的竞争对手(Radeon HD 6870/5870/5850和GeForce GTX 580/570/480/470)的性能对比进行测试。


请点击图片,浏览清晰大图。

既然Radeon HD 6970/6950在架构上进行了优化,那么其效率会在哪些方面有所提升呢?我们将选取3DMark Vantage、《孤岛惊魂2》和《孤岛危机》这三款热门的DirectX 10/10.1游戏和软件对Radeon HD 6970/6950的DirectX 10/10.1性能进行测试,来验证其DirectX 10/10.1游戏性能。当然,我们为看重的仍是其DirectX 11游戏性能,为此将选取包括新的3DMark 11在内的DirectX 11游戏和基准软件测试,例如《尘埃2》和《异形大战铁血战士》等。

Radeon HD 6970/6950另一大改进就是提升了曲面细分性能,那么它们的曲面细分性能会有多大幅度的提升呢?面对竞争对手强大的曲面细分性能,它们有多大的胜算?我们将用Unigine Heaven Benchmark来深度考察它们的曲面细分性能,分为三个等级。

高等级的设置为“DirectX 11+Shader(High)+Tessellation(Extreme)”,表示显卡运行在高画质、极致Tessellation等级的DirectX 11模式下,这是考验显卡在极致Tessellation画面下的性能。这主要是在考验显卡的理论极限Tessellation性能,目前已发布的DirectX 11游戏尚未应用如此“变态”的Tessellation设计;中等等级设置为“DirectX 11+Shader(High)+Tessellation(normal)”,表示显卡运行在高画质、正常Tessellation等级的DirectX 11模式下,这更符合当前DirectX 11游戏对Tessellation的应用;低等级的设置是“DirectX 11+Shader(High)+Tessellation(Disabled)”,表示显卡运行在高画质、关闭Tessellation特效的DirectX 11模式下,这是考验显卡在关闭Tessellation以后在DirectX 11游戏中运行的情况。

测试平台

 CPU  英特尔Core i7 965 Extreme
 主板   华硕 GENE Ⅱ
 内存  金邦DDR3 1333 2GB×3
 电源  Tt 1000W
 系统  Windows 7 64bit旗舰版

Radeon HD 6970/6950的抗锯齿性能是大家关心的话题,我们将根据不同的游戏,开启4倍或者8倍抗锯齿,以验证Radeon HD 6970/6950的抗锯齿的性能。评判的依据是考察显卡在开启抗锯齿以后,性能下降了多少。同时,由于Radeon HD 6900系列在Radeon HD 6800系列的MLAA抗锯齿的基础上新增加了EQAA抗锯齿,因此我们将以《孤岛惊魂2》为例,来看看Radeon HD 6970在不同抗锯齿模式下(分别为8AA、8AA+EQAA、8AA+MLAA和8AA+EQAA+MLAA)的性能表现和画质对比。

Radeon HD 6970

Radeon HD 6970 vs. Radeon HD 5870

Radeon HD 6870在架构上的小幅优化,让我们看到了其强劲的实力—— 一款价格不超过2000元的高端显卡的性能已经接近单核心旗舰Radeon HD 5870。而如今Radeon HD 6970则依托全新设计的VLIW4针架构,在游戏性能上全面超越Radeon HD 5870,平均领先幅度在10%左右,例如在《异形大战铁血战士》中的领先幅度为10%。相比Radeon HD 5870,Radeon HD 6970的SPU数量减少了,但游戏性能却提升了,这充分说明新架构的优势。

值得注意的是,Radeon HD 6970在3DMark系列等基准测试软件中性能表现比游戏中的效率更高,领先Radeon HD 5870 15%左右,例如在3DMark Vantage和3DMark 11中的领先幅度都达到了15%。而在实际游戏中,Radeon HD 6970的领先幅度则有所下降,例如在《孤岛危机》和《尘埃2》中,其领先幅度分别为10%和8%。这说明AMD的后续驱动还需要进一步对Radeon HD 6970进行优化。

Radeon HD 6970 vs. Radeon HD 6950

相比定位稍低的Radeon HD 6950,Radeon HD 6970无论是在SPU数量、频率和纹理单元数量上都占据优势,因此其性能表现更好,平均领先幅度在12%左右。总的来看,Radeon HD 6970对Radeon HD 6950保持了较大的优势,两者在实际游戏中的性能差距基本符合两者的定位。此外从测试来看,Radeon HD 6950的性能已经和上代单核心旗舰Radeon HD 5870不相上下。

Radeon HD 6970 vs. GeForce GTX 570

在和同档次GeForce GTX 570的较量中,Radeon HD 6970继续保持在3DMark基准软件中的优势,在3DMark 11的测试中领先对手6%。由于Radeon HD 6970对架构进行了优化,大幅度增加了纹理单元的数量,因此在大量使用精美纹理贴图的游戏中的性能表现不俗,例如在《孤岛危机》中,其领先GeForce GTX 570 7%。

在DirectX 11游戏的测试中,除了《异形大战铁血战士》、《地铁2033》和《潜行者:普里皮亚季》(在4AA以后,Radeon HD 6970更具优势),Radeon HD 6970在另外三款DirectX 11游戏中落后GeForce GTX 570 24%左右,例如在《尘埃2》和《战地2:叛逆联队》中,落后幅度分别为15%和16%。这从一个侧面说明,相比专为DirectX 11游戏优化设计的GeForce GTX 570,Radeon HD 6970在DirectX 11游戏中的优势并不明显,甚至比较吃亏。总的来看,Radeon HD 6970和GeForce GTX 570互有胜负,GeForce GTX 570稍占优势。

Radeon HD 6950

Radeon HD 6950 vs. Radeon HD 5850

和上一代定位相同的Radeon HD 5850相比,Radeon HD 6950亦实现了全面的性能超越,平均领先幅度在20%以上,例如在《潜行者:普里皮亚季》和《失落的星球2》中,其分别领先Radeon HD 5850 16%和22%左右。

Radeon HD 6950 vs. GeForce GTX 570/470

事实上,在2399元价位上,NVIDIA目前缺乏相对应的产品,未来很可能是GeForce GTX 560。

而此次AMD希望借助Radeon HD 6950/6970实现错位竞争的策略,来夹击GeForce GTX 570。相比GeForce GTX 570,Radeon HD 6950没有什么优势,平均落后幅度在30%以上。而和GeForce GTX 470相比,Radeon HD 6950除了在《失落的星球2》等少数几个游戏落后以外,其余游戏都保持领先,幅度在10%左右。

抗锯齿表现

在开启了全屏抗锯齿以后,Radeon HD 6970/6950的性能损失幅度并不算大,基本和GeForce GTX 570持平,保持在20%左右。这说明改进的后端渲染单元提升了Radeon HD 6970/6950的抗锯齿性能。以Radeon HD 6970和GeForce GTX 570为例,Radeon HD 6970在《孤岛危机》和《孤岛惊魂2》中开启了8倍抗锯齿以后,性能分别下降了12%和27%;GeForce GTX 570则为20%和23%。

开启EQAA和MLAA的方法是进入催化剂控制中心→显卡→3D→全部,你可以在催化剂的界面中间看到“模式”(默认为“使用应用程序设置”)和“形态过滤”。如果你要开启MLAA选项,就勾选“形态过滤”;如果你要开启EQAA选项,就将“模式”设置为“增强应用程序设置”即可。如果你要同时开启EQAA和MLAA的话,就同时对上述两项设置进行设置。

表2:Radeon HD 6970在《孤岛惊魂2》中开启MLAA和EQAA后的性能比较

  《孤岛惊魂2》
 1920×1080 8AA  76.43
 1920×1080 8AA+EQAA  67.81
 1920×1080 8AA+
 EQAA+MLAA
 49.64
 1920×1080 8AA+MLAA  55.23

此外,我们还就AMD显卡新的EQAA和MLAA抗锯齿进行了测试。仅从耗费显卡资源的角度出发,MLAA是比较耗费资源的。Radeon HD 6970在开启8AA+MLAA以后,性能下降了47%,在开启8EQAA以后,性能下降了35%;在开启了8AA以后,性能下降了27%。当我们同时开启EQAA和MLAA时(8AA+EQAA+MLAA),性能下降幅度是大的,达到了52%。而从画质来看,EQAA和MLAA在物体边缘处的处理的确要清楚一些,但这些不太明显的画质提升在游戏中是很难发现的。

曲面细分性能表现

Radeon HD 6970/6950另一大特点就是对曲面细分功能进行了升级,一改以往AMD显卡对曲面细分功能支持不太好的缺点。以Radeon HD 6970运行Unigine Heaven Benchmark为例,其在1920×1080 Shader(High)、Tessellation(normal)模式下可以获得56.5fps的帧率,相比Radeon HD 5870足足提升了65%,和GeForce GTX 570相比只低了3%,几乎可以忽略不计。由于“Tessellation(normal)”的设置更符合当前DirectX 11游戏对曲面细分的应用,因此测试结果说明Radeon HD 6970可以胜任当前DirectX 11游戏的曲面细分应用。此外,在1920×1080 Shader(High)、Tessellation(Disabled)设置下,Radeon HD 6970的性能甚至超出GeForce GTX 570 12%,Radeon HD 6970的理论DirectX 11游戏性能令人满意,这也和3DMark 11的测试结果吻合。

而在1920×1080 Shader(High)、Tessellation(Extreme)模式下,由于曲面细分等级达到高,GeForce GTX 570强悍的曲面细分性能被体现出来,领先Radeon HD 6970 28%。好在Radeon HD 6970此时也能获得34fps的帧率,能够保证流畅性。

功耗表现

优秀的功耗表现一直是AMD Radeon HD 5000/6000系列引以为傲的资本,虽然Radeon HD 6970/6950的晶体管数量有所提升,但功耗表现也还算令人满意。相比GeForce GTX 570,Radeon HD 6970的待机系统功耗和满载系统功耗分别低了15W和17W,Radeon HD 6950则分别低了23W和62W。而在温度测试中,Radeon HD 6970的待机温度和满载温度分别为45℃和88℃,Radeon HD 6950则为40℃和85℃,满载温度还是偏高。当然,在满载时散热器处于全速状态,显卡的噪音还是比较明显的。

进入催化剂控制中心,进入显卡→ATI Overdrive→Power Control settings,可以对Radeon HD 6970/6950的功耗进行调节。

我们还利用AMD的PowerTune功能对Radeon HD 6970进行了测试。当Radeon HD 6970处于默认状态时,其待机功耗和满载功耗分别为90W和324W,待机温度和满载温度分别为45℃和88℃;当我们将显卡功耗调至20%时,Radeon HD 6970的待机功耗和满载功耗分别为90W和370W,待机温度和满载温度分别为45℃和89℃,功耗和温度较默认状态都有所上升。此时在《孤岛惊魂2》(运行在1920×1080 Veryhigh和1920×1080 Veryhigh+8AA)模式下进行测试,Radeon HD 6970几乎没有性能增长。

当我们将显卡功耗调至-20%时,Radeon HD 6970的待机功耗和满载功耗分别为85W和236W,待机温度和满载温度分别为36℃和73℃,较默认状态有了大幅下降,功耗和温度表现令人满意。不过此时在《孤岛惊魂2》的测试下,Radeon HD 6970只能在1920×1080 Veryhigh和1920×1080 Veryhigh+8AA模式下分别获得96.86fps和70.84fps,游戏性能较默认状态下降了8%。


请点击图片,浏览清晰大图。

就PowerTune的测试来看,如果你在乎功耗和性能的平衡的话,选择默认状态是好的;如果你更在乎功耗表现的话,可以将显卡负载调低至-20%,此时系统功耗和温度有明显下降,而8%左右的性能损失也在可以接受的范围内。

Radeon HD 6970/6950:错位竞争的典范

期待已久的4D架构为Radeon HD 6970/6950增加了新的动力,其性能特别是曲面细分性能较AMD上一代产品有了质的提升,PowerTune的引入更是为未来显卡的节能设计树立了典范。

但和玩家对4D架构的期待值不太相符的是,Radeon HD 6970在面对GeForce GTX 570时并没有表现出令人折服的性能,甚至在不少游戏中落后。两者的性能只能说互有胜负,GeForce GTX 570稍占优势。反倒是Radeon HD 6950,其表现和价格更让人心动,在2399元价位上,它没有竞争对手。虽然它的性能不及GeForce GTX 570,但在面对GeForce GTX 470时仍有不小的优势。再加上其低功耗的表现,Radeon HD 6950有望成为新一代高端性价比的代表和典范。

除此之外,根据一些玩家的破解情况来看,Radeon HD 6950还拥有摇身一变成为Radeon HD 6970的潜质。这似乎又为我们重现了之前Radeon 9500Pro刷新为Radeon 9700的故事,也再现了Radeon HD 4830刷新成Radeon HD 4850的精彩。这样一来市场上Radeon HD 6950就变得相当抢手,性价比大增。另据一些业内人士的消息来看,目前Radeon HD 6950的产量似乎不高,且大量的Cayman核都被用于制造Radeon HD 6970。再加上Radeon HD 6950超高的性价比,导致这款显卡变得相当抢手。

未来,AMD还将借助Cayman核心发布双核心产品Radeon HD 6990,巩固卡皇宝座。而Radeon HD 6950也即将面临NVIDIA新产品的有力挑战——代号为GF114核心的GeForce GTX 560已经蓄势待发。总体而言,AMD此次发布的Radeon HD 6970/6950让我们看到了4D架构的威力和潜力。作为敲门砖,Radeon HD 6970/6950的积极意义非常重大。这让我们对AMD未来的产品充满了期待。

首批上市的Radeon HD 6970/6950显卡一览

蓝宝石HD 6970 2G产品资料

 核心频率  880MHz
 显存频率  5500MHz
 参考价格  2999元

蓝宝石HD 6950 2G产品资料

 核心频率  800MHz
 显存频率  5000MHz
 参考价格  2299元

迪兰恒进HD 6970产品资料

 核心频率  880MHz
 显存频率  5500MHz
 参考价格  2999元

迪兰恒进HD 6950产品资料

 核心频率  800MHz
 显存频率  5000MHz
 参考价格  2299元

Radeon HD 6970/6950图形技术解读

从4D+1D到4D:深入理解AMD 4D架构

Radeon HD 6970/6950为重要的改变就是从传统的4D+1D架构转变为4D架构,那么这样转变后的好处在哪里?AMD为什么要作出这样的调整?竞争对手NVIDIA又采用的是什么架构呢?

4D+1D架构的不足

AMD显卡传统的4D+1D结构可以在每次计算中处理一个像素的所有色彩或者坐标信息,不过考虑到有时候还需要一些特殊计算,比如sin、cos等,AMD还特别设计了一个ALU单元,称之为ALU.trans。这个特殊的单元和传统的用于计算四个ALU组成了AMD的4D+1D架构。

从理论上来看,4D+1D架构的效能是非常出色的。因为它一次计算就能处理一个像素所有的色彩或者坐标信息。但现实和理想总是有差距的,像素点并不是总需要计算位置或者色彩。一些像素实际上只需要改变色彩,坐标不变,或者只是运动一下,色彩信息没有变化,亦或者只是色彩中的某个数据需要计算,其他的不需要。总之,在实际计算中,并不是所有的信息都需要计算,这就造成了4D+1D架构中的部分单元的闲置。在严重的情况下,4D+1D架构在遇到全部由1D组成的计算需求时,性能只有理论值的1/5。

AMD工程师很早就在思考解决上述问题的办法,在R600以及后续的4D+1D计算中,AMD开始允许指令合并,也就是说几个不同的指令可以合并在一起进入流处理单元并进行计算。这样可以在部分场景下提升显卡的性能。比如说,两个2D指令接踵而来,传统计算是先计算一个2D,再计算另外一个2D,这样4D+1D架构的性能只有理论性能的40%,但一些新的设计可以允许这两个2D指令合并成一次计算,变成2D+2D,这样就能发挥80%的性能。与此类似的还有3D+1D、1D+1D+1D+1D+1D、1D+4D等特殊的复杂计算。

虽然AMD利用了种种手段对4D+1D架构进行了优化,但改进的4D+1D架构的效率还是不够理想,在很多情况下部分晶体管都在打瞌睡。AMD的SIMD架构虽然效率不一定高,但好处是规模扩充相当容易,比如AMD的4D+1D流处理单元作为一个整体,只需要一个指令发射端就可以解决问题。Cypress拥有1600个流处理算数单元,320个指令发射端就可以了。但NVIDIA的MIMD 1D架构,每个ALU都需要发射端等辅助设计,晶体管开销巨大。再加上缓存、线程调度器、寄存器等周边设计,1D架构在芯片体积和规模上都有比较明显的劣势。这也是造成NVIDIA DircetX 11显卡功耗较高的一个主要原因。

放弃4D+1D,转向4D

从RV670开始,AMD一直奉行小核心策略,在一定程度上避开了工艺难度问题。但为了保证不错的性能,对晶体管效率就必须有很高要求。因此,AMD在研发了很长一段时间的SIMD架构后,掌握了大量显卡计算中的信息和数据,认为继续保持这样的4D+1D结构对晶体管利用率的提升已经没有太大帮助了。因此,AMD在新的Cayman中,将4D+1D改进为4D结构,抛弃了之前的1D。

在4D(左)和4D+1D(右)架构下,一个SPU在一个时钟周期内可以完成的浮点计算和整数计算性能的对比。

AMD放弃的1D,是一个体积比较大的、用于一些特殊计算的ALU.trans(NVIDIA称之为SFU)。在放弃这个单元后,AMD重新设计了Cayman剩余的4D,将这四个4D单元变为对等的四个ALU。不仅如此,这四个ALU通过“合纵连横”,接管了之前ALU.trans的计算任务,比如一些特殊计算,可能需要占用3个ALU,但考虑到4D+1D本身就不太高的效率,这样的取舍从理论上来说是可能提升晶体管利用率的。根据AMD给出的数据,在改变成4D结构后,整个单元的每平方毫米性能可以提升10%。

不过效率的提升代价也相当明显。以定位相同的Radeon HD 5870为例,其具备1600个流处理算数逻辑单元(SPU),需要320个指令发射端(Radeon HD 5870是4D+1D架构,5D×320)。而Radeon HD 6970具备1536个流处理算数逻辑单元,SPU数量减少了,但指令发射端数量却增加到了384个(4D×384)。再加上周边一些辅助单元,整个晶体管规模就变得更为庞大。现在的Cayman晶体管数量达到了26.4亿,相比之前的Cypress的21.5亿提升了约23%,当然功耗也会随之提升。

更好地理解4D架构:像素计算方法

从本质上来说,显卡计算的目标就是屏幕上显示的像素点。例如一台24英寸显示器分辨率为1080p(1920×1080),如果你用这台显示器玩游戏的话,显卡必须保证在一秒钟之内至少有24张1080p的图像计算出来,然后才能在显示器上看到流畅的画面。

单独将一个像素拆分来看可以发现,其由两个部分构成:色彩和坐标。色彩方面自然是RGB三原色,再加上一个特殊的透明度参数,也就是A,终组成RGBA四个数据的组合。每一个像素点,都需要这四个参数才能终确定色彩的信息。我们再来看看坐标,在显终端上,像素是以二维方式存在的,即只存在X和Y两个坐标。但我们都知道,之所以称之为3D计算,就是因为显卡在初对物体建模的时候,是按照3D空间的形状来处理的。我们现在在屏幕上看到的2D画面,只是3D场景的一个投影而已——只不过这个投影是根据观察者也就是游戏玩家所需要的视角来不断变换的。这说明屏幕上每一个像素,先需要XYZ三维坐标才能确定位置,后通过光栅化的方法将其转换为XY二维场景。二维场景中已经包含了类似“近大远小”的深度信息。

但这还不够,很多点并非单独的点,它们还需要包含其他信息,比如3D计算中不同坐标系之间的变换,就需要确定不同坐标系之间的计算方法。传统的XYZ三维坐标并不包含坐标系信息,因此还得加上一个数据,这就诞生了XYZW——齐次坐标。齐次坐标是目前计算机图形学应用的重要的手段,可以大大简化几何变换的计算,确定像素位置,还能够对向量和点进行有效区分。

我们现在就可以总结计算机计算中对某一个点的计算方法了。对点来说,色彩信息有四个:RGBA;坐标信息也有四个:XYZW。初的分离式渲染架构(比如Radeon 9700等老显卡,分为顶点引擎和像素引擎),是分开处理像素渲染和顶点渲染的,他们的像素渲染确定的就是利用RGBA数据,顶点坐标变换的处理是利用XYZW数据。在统一渲染时代后,无论是RGBA还是XYZW,从“外形上”来看,都需要四次计算才能满足需求,因此,在AMD传统的SIMD架构上,基本的结构是4D,也就是一次计算可以处理这四个信息。

NVIDIA的1D架构

相比AMD的SIMD架构,NVIDIA采用了MIMD(多指令多数据流)的设计,这种设计保证了显卡随时处于高效率运转。数据在进入NVIDIA显卡的流处理单元之前,就已经被全部拆分为1D,然后送入1D流处理单元。


NVIDIA目前的DirectX 11显卡均采用1D架构设计

比如进来一个3D数据,拆分为三个1D,计算三次;进来一个2D数据,拆分为2个1D数据,计算2次;在差劲的情况下,进来的全部都是4D数据,每个数据在AMD的显卡中,一次就可以完成,但NVIDIA显卡需要四次计算。从理论来说,MIMD 1D计算方法的效率虽然接近100%,但问题是大量多数据需要多次计算。因此NVIDIA设计了分频的核心——流处理器频率比核心频率高出一倍左右,再加上庞大的流处理单元数量,也保证了相当高的性能。

双头鹰:更强的双图形引擎

对曲面细分技术的支持一直是AMD显卡的弱项,受到不少外界的批评。AMD认为,曲面细分只是DirectX 11游戏的一个方面,对它的使用并非越高越好。在游戏中,过重的曲面细分系数并不会带来图形画质的明显提升,反而会由于过大的计算负荷导致显卡性能大跌。在之前的Cypress中,AMD设计了一个曲面细分单元。这样的设计只是达到了DirectX 11“拥有”曲面细分的基本需求。当然,在AMD推出第一代显卡时,DirectX 11游戏尚未发布,游戏要求也不高,因此AMD这样的设计也符合当时游戏的需求。在DirectX 11时代正式来临后,AMD就需要重新考虑显卡对DirectX 11的支持特别是对曲面细分的支持了。

因此在Cayman中,我们看到了AMD全面加强了DirectX 11设计。首当其冲的就是受关注的曲面细分性能。相比上代产品单曲面细分单元和NVIDIA的大量曲面细分设计而言,AMD经过衡量,确定了自己的曲面细分设计方法。AMD针对Cayman的曲面细分设计并不过于突出,而是有序加强。AMD将Cayman中负责曲面细分单元的图形引擎(Graphics Engine)由之前的Cypress的一个提升至2个,随之而来的则是负责曲面细分的几何单元、顶点单元以及曲面细分器数量也变成双份。除此之外,光栅器和多级Z缓冲设计也都变成双份。整个双图形引擎的设计,提高了Cayman在处理三角形时的能力。现在Cayman能够实现多三角形的并行处理,理论上可以得到相对Cypress高达3倍的曲面细分性能提升。

Cayman(上)、Barts(中)和Cypress(下)在曲面细分设计上的差异,Cayman的曲面细分性能强,Barts其次,Cypress垫底。

另外,Cayman在其他方面也有一定改进。比如后端单元的能力被进一步加强,能够实现合并操作,在16bit、32bit计算时的性能上都至少提升了2倍,其中32bit浮点性能提升了多4倍。后端单元的性能直接决定了显卡的抗锯齿性能,Cayman在抗锯齿性能上应该会更为优秀。

在通用计算方面,Cayman重要的变化就是双精度性能由之前单精度性能的1/5提升到现在的1/4,当然这种变化多数都是由架构4D+1D改进到4D带来的。另外一些在通用计算上的变化包括可以执行Shader合并读操作、改进了流控制、可以直接从LDS读取数据(之前需要先载入寄存器)、可以读写本地显存数据等。总之,这些改进提升了Cayman在通用计算上的表现,特别在一些特殊应用场合会有更为出色的表现。

EQAA:更新的抗锯齿技术

AMD近在抗锯齿技术上的创新相当积极,在Barts系列上AMD推出了全新的MLAA技术。作为初次技术探索,AMD为我们展示了其在新技术研发上的实力。在新的Cayman显卡上,AMD又马不停蹄地带来了EQAA(Enhanced Quality Anti-Aliasing)技术。

从技术本质本身来说,EQAA并非AMD首创,在NVIDIA的G80上,我们就看到了和EQAA基本相当的CSAA技术。这两项技术都来源于MSAA,但通过覆盖采样和色彩采样分开选择,通过更多的覆盖采样点,获得更好的画质。

AMD的EQAA目前有2×EQAA、4×EQAA和8×EQAA三种模式,其中2×EQAA类似2×MSAA搭配2个额外的覆盖采样点(2×MSAA本身还包括2个覆盖采样点);4×EQAA则是4×MSAA搭配4个额外覆盖采样点(4×MSAA本身还包括4个覆盖采样点);8×EQAA是8×MSAA搭配额外8个覆盖采样点(8×MSAA本身还包括8个覆盖采样点)。相比NVIDIA的CSAA,AMD的EQAA增加了覆盖采样点的数量,比如8×CSAA只有8个覆盖采样点,和4×EQAA相同,但同级8xEQAA的覆盖采样点则多达16个,理论上EQAA的画质会稍微好一点。

PowerTune:更智能的电源管理

在节能省电的大潮下,能耗管理、电源管理技术成为众多高端产品的特殊符号。在显卡方面,AMD的PowerPlay技术能很好让显卡在2D状态下节约电能,但AMD还不满足,在Cayman上,又引入了更为节能且能够让用户手动进行控制的PowerTune技术。

传统的PowerPlay设置了三种功耗状态:3D满载、3D轻载、2D待机,这三种功耗状态对应着高功耗、中等功耗和低功耗。在AMD看来,很多应用程序并不需要让显卡进行3D满载全负荷计算,但由于功耗设置的步进问题,在性能要求超过中等功耗后,显卡就工作在功耗高的满载状态,这对节能来说是不利的。

因此,AMD引入了PowerTune技术,PowerTune通过在中等功耗和满载功耗两档次之间引入更多的工作模式,让显卡在一些3D负荷较低的场景中自动降低频率。以Radeon HD 6950为例,核心频率波动频率范围是650MHz~780MHz,在3D应用中显卡频率会自动在此范围内切换,起到智能节能的作用。

除此之外,PowerTune还能监控显卡的功耗情况,当显卡功耗超出设定上限后,PowerTune会自动降低显卡频率,将显卡功耗控制在限定值之内,保证显卡不会由于过热而烧毁。当然,为了让显卡可玩性更高,满足一些玩家和功耗敏感用户的需求,AMD在催化剂控制中心中还特别对PowerTune给出了上下限设置,其中上限为+20%,下限为-20%,默认为0。当用户调整这个数值时,显卡的核心频率会有波动幅度的变化。

总的来说,PowerTune是一种相当先进的功耗控制方式,和NVIDIA在GeForce GTX 580/570上引入的功耗检测和控制系统类似,但它功能又更为全面一些。PowerTune通过对显卡核心各个部分的监控,在性能、频率和功耗之间作出合适的取舍,可以智能调节动态功耗。我们认为,这种能耗控制的方法必将成为未来显卡的主流设计。

分享到:

用户评论

共有评论(3)

用户名:

密码: