问鼎显卡性能之王!NV旗舰GTX280全球同步首发

问鼎显卡性能之王!NV旗舰GTX280全球同步首发
1前言回顶部

前言

  nVidia又出击了,当大家还在为GeForce 9800GX2性能保持怀疑,与HD3870x2显卡性能争夺面红耳赤的时候,nVidia又提前给我们带来了新一代旗舰产品——GeForce GTX 280显卡。拥有目前顶级显卡1倍数量的流处理,NV史无前例的512bit显存位宽、14亿个晶体管数量,支持物理加速这些都是GeForce GTX 280还没上市之前就给大家留下的深刻印象。凭借这些,GeForce GTX 280显卡毫无疑问的成为了当今显卡的性能之王。

    如今,GeForce GTX 280终于登上了舞台,Geforce GTX 280 显卡采用了 65nm技术,全新的第二代统一架构,显卡集成14亿晶体管电路,核心频率  602MHz,其240颗流处理器频率为1296MHz。GTX 280 显卡配备了1GB GDDR3显存,采用了512-bit位宽,有效显存频率2214MHz, 显存带宽高达141.7GB/s。 GTX 280拥有80个纹理单元和32个光栅化单元,提供48.2 G/秒纹理数据处理能力......

图片

  除了强劲的3D性能之外,GeForce GTX 280同时给我们带来了在并行运算方面的革命,重新设计的第二代统一架构,240个完整的ALU,高达933GFOLPS浮点处理器能力,第二代Dual Issue、支持双精度这些都是专门为科学计算而优化的。加上目前日趋完善的CUDA环境,GeForce GTX 280的革新远不是简单的3D性能提升。

2第1节 G80/G92第一代统一处理架构回顾回顶部

第1节  G80/G92第一代统一处理架构回顾

  1.1 Geforce8800采用Unified Shader架构:

  DirectX 10最大的革新就是统一渲染架构(Unified Shader Architecture)。之前的GPU架构还是沿用的分离式渲染架构,在G80核心推出之前的G71和ATI的R580都是采用这样的架构,顶点渲染和像素渲染各自独立进行,而且一旦当架构确定下来,顶点和像素shader单元的比例就会固定下来。不过分离式渲染架构设计更为简便而且经验丰富,例如NVIDIA的NV40发成到后来的G70/G71,又或者是R420到R580,性能都得到显而易见的提升。

图片

  微软认为这种分离渲染架构不够灵活,不同的GPU,其像素渲染单元和顶点渲染单元的比例不一样,大大限制了开发人员自由发挥的空间。不同的应用程序和游戏对像素渲染和顶点渲染的需求不一样,导致GPU的运算资源得不到充分利用。微软在DirectX%2010中提出了统一渲染架构,在通用和独立的shader单元中可以执行不同的shader程序,包括vertex、pixel和在DirectX%2010中首次提出的geomery%20shader。而且随着这些通用独立的shader单元功能的不断完善,日后有望执行更多的shader程序,例如物理效果。

  相对顶点渲染来说,像素渲染将面临大规模使用纹理所带来的材质延迟,这是统一渲染架构急待解决的问题。不过在Geforce880 GPU里面,这种情况得到很大的改善,分组的steam processor都用联立一定数量的texture单元和L1/L2高速缓存。

图片

图片
(更多的纹理意味着物体表面精度更真实)

  Shader%20Modle%204.0无论是vertex还是pixel指令,最大指令长度相当于Shader%20Modle%203.0的128倍(64K),越长越复杂的指令可以产生越真实的画面,Shader%20Modle%204.0的寄存器也激增到4096个,Constant寄存器采用16×4096阵列。input寄存器采用16/32规格等,上述指标都比以前的DirectX有明显的改进。Shader%20Modle%204.0允许程序员在渲染物体时使用128个纹理,而DirectX%209只提供4/16规格,更多的纹理意味着物体表面精度更真实,游戏开发者拥有更广泛的选择。

31.2%20传统Pipeline模型%20VS%20Unified%20Shader模型回顶部

  1.2%20传统Pipeline模型%20VS%20Unified%20Shader模型

  Geforce8800%20GPU的研发工作从2002年夏天正式开始。Geforce8800%20GPU的设计当时有四大目标。显而易见的超过当代的GPUs、提升图像质量、提供强大的物理和浮点处理性能,适应DirectX的发展推出新概念的GPU%20Pipeline。

名称

架构

制造工艺

晶体管数目

DirectX支持

GeForce256

NV10

0.22%20Micron

23%20Million

7.0

GeForce2%20GTS

NV15

0.18%20Micron

25%20Million

7.0

GeForce3

NV20

0.15%20Micron

57%20Million

8.0

GeForce4%20Ti4600

NV25

0.15%20Micron

63%20Million

8.0

GeForce%20FX%205900

NV35

0.13%20Micron

135%20Million

9.0

GeForce%206800%20Ultra

NV40

0.13%20Micron

222%20Million

9.0C

GeForce%207800GTX

G70

0.11%20Micron

302 Million

9.0C

GeForce%207900GTX

G71

0.09%20Micron

278 Million

9.0C

GeForce%208800GTX

G80

0.09%20Micron

671%20Million

10

  传统经典的Pipeline模型,不同种类属性的vertices,包括index、commands和textures,线性缓冲区的Setup引擎自上而下的经过vertex%20shading、 pixel%20shading和ROP,最后被写进frame%20buffer。事实上Geforce7系列GPU拥有超过200个连续的阶段。

  显而易见的,采用了Unified pipeline设计的Geforce8800 GPU可以有效的减少pipeline的层数,同时将传统经典pipeline自上而下的线性顺序变成连续的循环导向的过程。input经过unified shader core作为output写进去寄存器,同时返回到shader core再进行下次操作。

图片
(G70架构图)

  在不同应用程序和游戏中,vertex shader和pixel shader的需求比例不尽相同, 十分不幸地在Geforce8800 GPU之前,GPU里面的vertex shader和pixel shader的比例是固定。显然unified的实际适应性更强,从下面的例子我们可以看到在unified shader架构的威力,大大提升了GPU的硬件使用率,尽量避免shader空闲的情况发生。

41.3 为什么需要Unified shader架构?回顶部

  1.3 为什么需要Unified shader架构?

图片

图片

图片

  在典型的HDR代表游戏《上古卷轴4:湮灭》中,7900GTX在2048x1536并开启HDR的情况下,FPS惨不忍睹。独立渲染的草丛或者树叶是由庞大数量的多边形构成,对GPU的vertex shader和geomery shader提出严酷要求,相对来说并不需要太多像素操作,如此一来大规模的像素渲染被闲置而顶点模块处于不堪重负状态。Unified shader架构则可以帮我们解决硬件资源上的限制,Unified shader架构也尽量降低了shader单元的闲置率。

51.4 G80里面的核心部件-Streaming Processors回顶部

  1.4 G80里面的核心部件-Streaming Processors

  在Geforce8800 GPU的unified shader架构里面,Streaming Processors(SPs) 是最为核心的单位,Geforce8800GTX拥有128个streaming processor,运行在1350Mhz的频率下。每个streaming  processor均能处理vertex、pixel、geometry等操作,是一个通用的浮点处理器。 这些浮点处理器都可以随时有计划的编排分组成不同的工作量。

图片

 

  Steam Processing架构的运作

  对geometry shader有了一定认识以后,我们现在具体看看Steam Processing架构的运作。

  Geoforc8800 GPU通过一定数量的SP去完成shader操作,相邻的SP可以十分方便的分组发挥并行操作的威力,在Geforce8800 GPU架构中,每16个SP分为一组。

  不同属性基础的数据流在整合了专门高速指令解和执行逻辑的SP和一些类似的操作中执行,内建的Cache快速的存储SP的输出,而这些Cache又可以作为input被其他的SP读取。SIMD操作非常高效地在已被分组的SP集合里面执行。

图片

  下图可以看到streaming processors和联立的texture Flitering(TF)和texture addressing(TA)。显然内建的L1/L2 Cache确保了平衡的设计,这是一个典型的Geforce8800 GPU unified shader设计。128个streaming processors并行构成了8800GTX的shader架构。每个SP都是通用的、不相关的和标量地,可以同时进行MAD和MUL操作,支持IEEE 754精度的浮点。

61.5 Geometry shader(几何着色器)回顶部

  1.5 Geometry shader(几何着色器)

图片

  geomery shading是DirectX10的新特性,streaming  processors可以处理几何运算,大大减轻了CPU在几何运算的负载。GPU分派器和控制逻辑可以动态的指派streaming processpors进行vertex、pixel、geometry等操作,因为他们是通用的。显然unified shader设计可以建立更加平衡的shader工作机制,但是传统的pipeline定义不再适用,在未来,可能其他特性的预算也可以通过unified streaming processor去完成。我们看看geomery shader的情况。

  Input Assembler(IA)从顶点缓冲区上的输入流中接收顶点数据,并且把数据项转换为规范的格式。vertex shader通常用来把顶点从模型空间变换到平面空间,vertex shader读取一个顶点,输出一个顶点。Pixel Shader读取单一pixel属性,输出包含颜色和Z信息的的片断。而geometry shader是DirectX10提出的,把同一区域的所有顶点作为输入,产生新的顶点或者区域。此外数据流输出(steam output)把geometry shader输出的顶点信息复制为4个连续的输出缓冲子集。理论上来说,steam output的输出能力Input Assembler的输入能力相匹配。

  Shader就是一段可以改变像素、顶点和几何学特征的小程序。Vertex Shader是专门处理多边形顶点的。那么Geometry shader就是专门用来处理场景中的几何图形。在过去Vertex Shader每一次运行只能处理一个顶点的数据,并且每次只能输出一个顶点的结果。在整个游戏场景中,绘制的几何图形的任务量非常庞大,如果仅仅依靠Vertex Shader单一来完成,效率会极其低下。

图片

  现在DX10的设计师们在顶点与像素的处理过程中又加入了(Geometry shader)几何着色器。它可以根据顶点的信息来批量处理几何图形,对Vertex附近的数据进行函数处理,快速创造出新的多边形。通过steam out将这些结果传递给其他Shader或buffer,将CPU从复杂庞大的几何运算中解放出来。大爆炸,粒子效果,瀑布流水等复杂又关联的场景都可以用Geometry shader很逼真的表现出来。

71.6 Texture和math-相互没有关联的多线程操作回顶部

  1.6 Texture和math-相互没有关联的多线程操作

  Texture寻址、过滤和fetching都会耗尽相当多GPU的核心时钟。如果在架构需要在一个数学操作之前进行Texture的操作,例如是16x各向异性过滤,系统的延时将会大大增加。Geforce8800 GPU作出重大的改进,在进行相当的独立算术运算的时候,“隐藏”了Texture fetch的延迟。

图片

  在Geforce7系列的GPU中,Texture寻址计算是采用隔行扫描进行的,这种设计在遇到texture fetch的时候就会遇到瓶颈。Geforce8800 GPU可以完全独立的进行texture操作和shader算术运算。

图片

  在Geforce8800架构开发的初期,NVIDIA工程师分析了数百种包含越来越多的标量计算的shader程序以后发现,一些混合了矢量和标量的指令,特别是一些比较长的shader很难有效的在矢量的架构中处理操作。标量计算在矢量的流水线中编译非常困难。

  NVIDIA和ATI的都可以处理两个指令,在R580中,ATI采用的3+1架构可以处理一个2x2的矢量指令和由1x3矢量指令和1x1标量指令的混合,在Geforce6/7中,可以操作2+2和3+1的双指令操作。但是这些跟Geforce8800 GPU的标量设计那么高效。NVIDIA的工程师作出评估,128个标量处理器的标量架构拥有两倍性能于32个复合的矢量处理器架构。

81.7 Early-Z技术回顶部

  1.7 Early-Z技术

  当代的GPU都会采用Z-buffer去记录哪些像素是可见,而哪些像素是被遮挡而不可见。一个3D Frame最终要转换成为2D图像才能表示在屏幕上面,来自GPU连续的顶点流(vertices)会构建这个frame,从这个顶点流获取相应的2D坐标去生成多边形。多边形的连续产生会覆盖原来的区域,因而Z-buffer的信息就是告诉ROP, 哪些像素是可见哪些是不可见的。提前进行的Early-Z对比可以节省大量资源,因为同一个区域被多个多边形覆盖的次数轻而易举地达到原来的四倍甚至更高。

图片

图片

  目前甚少方法可以利用Z-buffer信息去挑选或者排出被遮挡像素的渲染,Z-Cull就是这样的一个方法。Z-comparision通常会发生在ROP的后期。问题就产生,意味着pixel要通过完整的ROP管线才能被发现是否可见。一些复杂的包含数千步骤的shader程序,即使是被遮挡的pixel也全部通过流水线,这显然浪费了GPU的性能。Early-Z移去不可见像素在它们进入流水线之前,这样显然会提高性能,NVIDIA认为这个操作提升22%附近的性能。

91.8 G80的填充率计算:回顶部

  1.8 G80的填充率计算:

图片

  数据很方便的在不同的SP之间的output和input之间移动,例如vertex data处理完以后,output可以作为input发送到Geometry Theard。

  每个在8800GTX运行的SP都运行在1.35Ghz,并能同时执行一个MAD和MUL的标量操作,因而8800GTX就用有520 gigaflops的shader处理能力,不过这并不是8800GTX的全部实力,因为指令发送100%适用于矢量操作, 而标量和矢量混合的shader程序编码比特定的组合指令发送更有效率(3+1或者2+2)

  texture过滤单元和SP互不相关的传送64%20pixel每个时钟,这等于每个时钟完成32%20pixel的寻址或者是32%20pixels%202x各向异性过滤,或者是每时钟32pixels的双线过滤。

  基本上,FB16双向材质过滤可以实现每时钟32pixel来操作,如果是FP2:1的各向异性过滤也可以每时钟16pixels来完成。texture单元运行在575Mhz的时钟频率,这也就是8800GTX的核心时钟频率。

  在575Mhz的运行频率上面,双线过滤或者是2:1的各向异性过滤的填充率达到575Mhzx32=18.4billion texels/s的水准,2:1的各向异性过滤相当于两个双向过滤取样一起整体输出到一个像素,因而8800GTX拥有36.8billion texels/s的双向过滤的填充率。

101.9 G80的ROP(Raster Operation partitions)回顶部

  1.9 G80的ROP(Raster Operation partitions)

  8800GTX拥有6组ROP(Raster Operation partitions),每组可以处理4个像素,因而一共可以每时钟可以处理24个包含颜色和Z信息的像素。如果是Z-only处理,则可以实现每时钟192个单像素的处理。如果是4x 多取样反锯齿MSAA(multisampled antialiasing)打开,则可以完成48个Z-only操作。 

图片

  G80的ROP支持超级采样和多点采样和适用(Adaptive)的这三种抗锯齿(antialiasing)的模式,  因而G80是首个在单GPU环境下实现8x、 8xQ、16x和16xQ等antialiasing模式的GPU。NVIDIA引入了CSAA,Coverage Sampling Antialisaing-新的全屏抗锯齿选项,同时包含coverage取样和geometry取样。CSAA有新的选项分别是8x、8xQ、16x和16xQ, 全面提升了全屏抗锯齿的等级。得益于G80强大的性能,在某些游戏开启16x高质量的AA模式以后,速度并不会大幅降低,系统花销可以维持在4x AA的级别。

图片

  G80的ROPs支持FP16和FP32的混合,无论是FP16还是FP32都能够进行多采样抗锯齿(multisampled%20antialiasing),因而从G80开始,NVIDIA的GPU首次实现HDR+AA的模式。8个支持DirectX10的多渲染目标MRTs(Multiple%20Render%20Targets)引用在G80,可以进行色彩和Z操作。DirectX10支持两种新格式的HDR、第一种格式是R11G11B10,特别的为存储texture的浮点格式优化,另外一种这是每个颜色通道占用9bit,RGB各占9bit,专门为渲染目标(render%20target)而设计。 

  每组ROP拥有64bit的显存接口界面,完全支持DDR1、DDR2、DDR3、GDDR3和GDDR4显存,因而8800GTX一共拥有384bit的显存接口界面,也就是我们所说的384bit的显存位宽,8800GTX一共拥有784M的本地显存,运行在900Mhz时钟频率的GDDR3显存一共提供86.4GB/S的恐怖显存带宽。

11第2节%20GT200第二代统一架构特点回顶部

第2节%20GT200第二代统一架构特点: 提高性能同时提升了效率

  GeForce%20GTX%20280显卡的出现终于给我们带来了全新的第二代统一架构。而第二代统一架构最大的特点就是在全部继承第一代统一架构的优点后,提升各单元处理器能力的同时也提升了效率,真正意义上把同一架构发挥至极点。为了适应未来并行运算的需要,GeForce%20GTX%20280显卡开创性的提供了2种不同的架构——并行处理架构与图形处理器架构。


完整的GT200架构

  从上面的架构图可以看出,GeForce%20GTX%20200系列可以分为四个层,最上面一层包括了图形处理器所需要的几何着色器(Geometry%20Shader)、顶点着色器(Vertex%20shader)以及像素着色器(Pixel%20shader)。中间一层包括了10组TPCs(计算处理器群集),每组TPC里面又包含了3组SMs(流处理器组),每组SM里面就包含了8个流处理器单元或计算单元。这样一来,GeForce%20GTX%20200显卡就一共包含了240个流处理器单元或计算单元。在TPCs下面就是纹理单元以Atomic单元(在并行计算中负责处理冲突的单元)。在下面就是ROPs(光栅化处理器引擎)以及显存接口。

核心规格GeForce%209800GTXGeForce GTX%20280核心代号

G92-420

GT200-D10U

工艺制程

65nm65nm核心晶体管数量

7.54亿14亿核心时钟频率

675Mhz602核心Shader频率

1688Mhz1296Mhz核心/Shader比率

1:2.5

1:2.15

显存时钟频率

2200Mhz2200Mhz显存类型

GDDR3GDDR3显存位宽

256bit

512bit

显存带宽

70.4GB/S

142GB/S

显存容量

512MB1024MBStream%20Processor

128

240

纹理单元

64

80

ROPs

16

32

接口总线

PCIE%202.0PCIE%202.0Shader%20Model标准

4.0

4.0

DirectX标准

10

10

互联技术

3-Way SLI3-Way SLI视频回放技术

PureVideo%20HD%20II/VP2PureVideo%20HD%20II/VP2

  从上面的规格对比表中可以看出,GeForce%20GTX%20280比起GeForce%209800GTX,主要的改进有以下几点:

  1、大幅度增加了晶体管数量,浮点处理器能力接近1000GFlops。

  2、Stream%20processor数量也由上代的128个增加到240个,性能增加的同时跟纹理单元保持更好的平衡,能更好的适用目前及未来的游戏。

  3、显存位宽也有成本的增加,终于突破了512bit,在搭配GDDR3的情况下,显存带宽达到了惊人的142GB/S、

  4、GeForce%20GTX%20280的ROPs单元跟纹理单元也增加值32个和80个。

  上面多点都是GT200核心的GeForce%20GTX%20280系列所具备的特点,同时,作为目前新的旗舰产品,GeForce%20GTX%20280仍然支持nVIDIA的3-Way%20SLi以及第二代PureVideo%20HD高清引擎。

12第3节%20图形处理器:性能成倍提升回顶部

第3节 图形处理器:性能成倍提升

  3.1%20优化的shader/TF比值%20适应未来的需求

  在图形处理方面,GeForce%20GTX%20200可以说有了成倍的性能增加,不仅在流处理数量方面的成倍增加,在跟图形处理器息息相关的几何着色器(Geometry%20Shader)及数据流输出(Stream%20Output)、ROPs、纹理填充率以及寄存器方面都有长足的进步。


GeForce%20GTX%20280图形架构


TPC(计算处理器群集)中多添加了一组SM

  目前,越来越多的游戏以及应用程序都需要大量的shaders,未来在shaders以及纹理单元上寻找一个最佳的平衡搭配,GeForce%20GTX%20280显卡在每组TPC中,多添加了一次SM,然后保持TF的数量不变,这样一来shaders与TF的比值要比上代产品提高50%,非常适合目前以及未来的游戏和应用程序的需求。

133.2%20提升几何着色器及Stream%20Output的表现回顶部

    3.2%20提升几何着色器及数据流输出(Stream%20Output)的表现

  从G80的架构图中,我们可以看到其统一渲染架构除了像素和顶点之外还包括了几何着色器(Geometry%20Shader),这是GPU中首次加入这样的运算单元。几何着色器也是SM4.0中新加入的内容,它第一次允许程序在图像处理器中创建新数据。这一革命性的事件使得GPU在系统中的角色由只可处理已有数据的处理器变成了可以以极快速度既可处理又可生成数据的处理器。在以前图形系统上无法实现的复杂算法现如今变成了现实。如此一来类似模板阴影(Stencil%20Shadow)、动态立方体贴图(Dynamic%20Cube%20Map)、虚拟位移贴图(Displacement%20Mapping)等依靠CPU或多通道渲染(Multi-Pass%20Rendering)的算法效率提升了很多。

  几何着色器可以根据顶点的信息来批量处理几何图形,对顶点附近的数据进行函数处理,快速创造出新的多边形。通过steam%20out将这些结果传递给像素或者是缓冲区,将CPU从复杂庞大的几何运算中解放出来。大爆炸、粒子效果、瀑布流水、毛发渲染等复杂又关联的场景都可以用几何着色器很逼真的表现出来。

  在DirectX%2010之前,几何体必须在写入内存之前被光栅化并送入像素着色器(pixel%20shader)。DirectX%2010引入了一个叫做数据流输出(Stream%20Output)的新特性,它允许数据从顶点着色器或几何着色器中直接被传入显存。这种输出可以被传回渲染流水线重新处理。当几何着色器与数据流输出结合使用时,GPU不仅可以处理新的图形算法,还可以提高一般运算和物理运算的效率。

  随着DX10游戏的流行,在DX10规范中首次引用的几何着色器(Geometry%20Shader)作用用来越显著。为了提升GT200的游戏表现,GeForce%20GTX%20280内部的输出缓冲限制已显著升至上代产品的6倍,提供了更快的几何着色器(Geometry%20Shader)速度以及数据流输出(Stream%20Output)表现。


测试DEMO美杜莎很大程度上依赖几何着色器及数据流输出的表现

143.3%20加倍的寄存器文件回顶部

    3.3%20加倍的寄存器文件

  在上代旗舰G80核心中,在每组流处理集(SM)里面添加了高速的本地缓存用于存放shaders之间计算完的活跃数据。但随着编程的复杂度增加,shaders的处理器能力也得到了成倍的增加,一次可完成上千条指令。寄存器的容量就成为了整个核心的瓶颈,当SM内寄存器的容量不足以保存全部处理后的活跃数据时,溢出的数据就会直接存放到显卡的显存当中,而本地显存较大的延时会严重影响性能。为了解决这个问题,适应未来更复杂的编程需求,在GT200核心的寄存器容量直接提升至上代产品的2倍,大大减少了数据溢出到本地显存的机率,使GT200的运算性能更强,运算效率更高。

153.4%20升级ROPs(光栅化处理器)回顶部

  3.4%20升级ROPs(光栅化处理器)

  前面我们说过G80的ROP支持超级采样和多点采样和Adaptive的这三种抗锯齿的模式, %20因而G80是首个在单GPU环境下实现8x、 8xQ、16x和16xQ等抗锯齿模式的GPU。同时G80的ROPs支持(frame%20buffer)FP16和FP32的浮点像素混合,无论是FP16还是FP32都能够进行多采样抗锯齿,因而从G80开始,NVIDIA的GPU首次实现HDR+AA的模式。

  最新的%20GeForce%20GTX%20200系列GPU%20ROPs不仅全部支持上代产品的特性,而且还实现了最大32%20pixels输出每时钟,等同于八个ROP分区中每个ROP分区输出4%20pixels每时钟,同时每个ROP分区在8X%20MSAA下支持32%20色彩和Z采样每时钟。像素方面采用了U8(未签名8%20bit整数)数据格式,像素的混合比率是上代产品的2倍。跟仅有6个ROP分区以及支持24%20pixels输出每时钟,12%20pixels混合每时钟的上代产品相比,GTX%20280提升到支持32%20pixels输出和混合每时钟。能给用户带来更绚丽更真实的视觉效果。


在Geforce%20GTX%20280架构中共有8组ROPs分区

163.5%20提高了纹理表现回顶部

   %203.5%20提高了纹理表现

  在第一代统一架构G80核心中,GeForce%208800GTX显卡8个TPCs允许64%20pixel的纹理过滤每时钟,32%20pixel的寻址每时钟或者是32%20pixels%202x各向异性过滤(8bit%20整数),或者是每时钟32%20pixels的双线过滤(8bit%20整数或16bit浮点)。在后来推出的G92核心中,NVIDIA改进了纹理填充率的表现,GeForce%209800GTX显卡能允许64%20pixel的纹理过滤和寻址每时钟,支持64%20pixel的双线性过滤每时钟(8bit%20整数),或每时钟32%20pixels的双线过滤(16bit浮点)。

  GeForce%20GTX%20280再次提升了纹理的过滤与寻址能力。在每个TPCs(流处理集组)中提供了一个双四纹理(共8个)处理单元,能够提供每时钟8%20pixels的双线数寻址和过滤,FB16双向材质过滤可以实现每时钟4%20pixel来操作,如果是FP2:1的各向异性过滤也可以每时钟4%20pixels来完成。内部集成的10个TPCs能同时完成每时钟80%20pixels的双线数寻找和过滤。除此之外,GeForce%20GTX%20280还创建了一个非常高效的程序来管理,使其纹理过滤表现能达到理论最大值,性能上较上代GeForce%209系列显卡有22%的提升。

芯片组

理论双线性过滤

3DMark%20multitex结果

测试结果/理论数值

GeForce %209系列

33600

25600

76.2%

GeForce%20GTX%20200系列

51840

48266

93.1%

17第4节%20并行处理架构:GPU将比CPU更主要回顶部

第4章%20并行处理架构:GPU将比CPU更主要

  除了在图形处理方面的升级,GeForce%20GTX%20280同样是一款非常出色处理器并行架构处理器。跟上代产品相比,GT%20200是一款更纯粹的为并行计算优化的核心,浮点运算能力也达到了933GFlops,是目前CPU处理器的10倍左右。而NVIDIA提出的CPU+GPU的异构运算平台在目前众多领域有着非常大的优势。随着越来越多的应用程序对GPU并行运算的支持,相信未来GPU重要性超过CPU也并非天方夜谭。


并行处理器在各个方面都有优势

  NVIDIA方面,上代G8X图形核心就采用了先进的统一渲染架构,拥有多达128个流处理器,引入几何着色器功能……这一切简直就是专为GPGPU运算而生!为了最大程度的发挥几何着色器的威力,G80还专门设置了一个名为流输出层(Stream%20Output%20State)的部件来配合它使用。这个层的功能是将Vertex%20Shader和Pixel%20Shader处理完成的数据输出给用户,由用户进行处理后再反馈给流水线继续处理。它可以直接读写本地显存。我们可以通过Stream%20Out把GPU拆成两段,只利用前面的一段几何运算单元。对某些科学研究,也可以通过stream%20out来利用GPU的数学运算能力,等于在CPU之外又平白多得了一个数学协处理器。我们可以这样理解G80图形核心的几何着色器和Stream%20Out单元:GS提供了改变图形数量的能力,Stream%20out提供了硬件Multi-pass的支持。可以预见,今后围绕这些全新的功能,又会有一批新的GPU通用计算程序出台。

   %20GeForce%20GTX%20280的推出,再次把并行运算带到了新的高度。从GeForce%20GTX%20280的并行计算架构来看,与图形运算最大的区别在于,顶部省掉了专为图形处理的几何着色器(Geometry%20Shader)、Vertex%20Shader和Pixel%20Shader单元,取而代之的是一个基于硬件的线程管理器在顶部通过TPCs管理调度全部的线程。也就是说全部的线程都是由硬件管理调度的,而且在每个SM(流处理器组)里面都包含了一个本地高速16K的缓存,便于数据的交换。在架构的底部去掉了跟图形有关的ROPs(光栅化引擎),但仍然保留了tex%20L2缓存与显存接口,用于数据与显存间的交换。而且额外增加了一个Atomic单元,用于处理器数据间的冲突。

  GeForce%20GTX%20280的统一架构还提供了2种不同的处理器类型,例如,对于整个TPCs来说,它的构造是一个MIMD(多指令流多数据流)模型,这是一种全面的并行处理,典型的是多处理机。而对于内部的SMs来说,是一个SIMT(单指令多线程)结构。SIMT在纯SIMD(单指令多)设计的性能和编程应用性上都有所提高。除此之外,从程序员的角度来看,%20由于采用硬件方面管理,SIMT还允许每个线程采用自己独立的路径和分支,所以没有必要手动管理分支内部的矢量宽度。

  上代产品不支持双精度的问题也得到了解决,GeForce%20GTX%20280支持双精度浮点运算,符合IEEE%20754精度规范。

18第5节%20面向未来:CUDA应用方向回顶部

第5节%20面向未来:CUDA应用方向

  随着显卡的发展,GPU越来越强大,第一代统一渲染架构的GTX%20280核心中就已经拥有240个单独的ALU,因此非常适合并行计算,而且浮点处理能力也远远优于目前的多核CPU,加上GPU为显示图像做了优化。在众多计算领域上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了,因此NVidia推出CUDA,让显卡可以用于图像计算以外的目的。CUDA(Compute%20Unified%20Device%20Architecture)工具包是一种针对支持CUDA功能的GPU(图形处理器)的C语言开发环境,未来还将发布Fortran语言版本。

  CUDA(Compute%20Unified%20Device%20Architecture)是一个新的基础架构,这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。跟以往的GPGPU概念不同的是,CUDA是一个完整的解决方案,包含了API、C编译器等,能够利用显卡核心的片内L1%20Cache共享数据,使数据不必经过内存-显存的反复传输,shader之间甚至可以互相通信。对数据的存储也不再约束于以往GPGPU的纹理方式,存取更加灵活,可以充分利用stream%20out特性。以上几点都将大大提高GPGPU应用的效率。例如,在游戏中我们可以使用CUDA来让GPU承担整个物理计算,而玩家将会获得另他们感到惊奇的性能和视觉效果。另外,用于产品开发和巨量数据分析的商业软件也可以通过它来使用一台工作站或者服务器完成以前需要大规模的计算系统才能完成的工作。这一技术突破使得客户可以任何地方进行实时分析与决策。同时,一些以前需要很先进的计算技术来达到的强大计算能力的科学应用程序,也不再受限在计算密度上;使用CUDA的计算可以在现有的空间里为平台提供更强大的计算性能。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力,使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。

  CUDA工具包推出已有1年,它的推出马上受到了众多软件/游戏开发商以及科研机构和程序爱好者的欢迎,NVIDIA方面也将发布最新的CUDA%202.0版本。相信在未来,CUDA将会受到越来越多的领域的支持。目前,支持CUDA环境的GPU主要有采用统一渲染架构的显示核心。

19BadaBoom视频压缩——最快的视频编码软件回顶部

  BadaBoom视频压缩

  一直以来,视频编码的转化都是令用户非常头疼的一件事,一款顶级的处理器在转换容量巨人的视频文件的时候,慢如蜗牛的速度令人难以忍受,这也主要受目前CPU性能的制约。目前,NVIDIA与许多软件开发商在推广支持GPU加速的视频压缩软件,Badaboom就是一款支持GPU加速的视频转换软件,可以把mpeg2的视频转换为ipod或者iphone这样的所使用的H.264视频格式,据称速度方面是目前CPU转化的10倍以上,为了验证其真实性,我们就做了一次相关的评测。

  由于目前这个版本仅支持GPU加速,所以我们并不能拿来与CPU进行同平台对比,考虑到目前参差不齐的编码软件,测试结果仅做主观参考,从软件显示的编码速度来看,编码帧数达到了130帧每秒,一个160M的MPEG-2文件压缩至iphone标准视频仅1分钟内就可以编码完成。这个速度相信已经超过了目前所有的CPU版本编码软件。

20Folding@home性能是CPU的100倍!回顶部

  Folding@home

  Folding@home是斯坦福大学的一个分布式计算计划可以利用分布于全球的计算机模拟复杂的蛋白质折叠效应,是一款典型的科学计算程序,目前已经推出了支持CUDA环境的版本。该项目的客户端程序可以使用客户机的CPU或NVIDIA%20CUDA%20enable%20GPU或者AMD%20Radeon对同一以项目进行求解,为了让大家最清楚的了解CUDA的GeForce%20GTX%20200系列GPU在科学计算方面与CPU和其他计算解决方案在性能上的区别。我们利用这款软件对GTX%20280做了一次评测,测试所采用的处理器为Intel%2045nm四核处理器QX9770,超频至3.6GHz(400x9)。


支持CPU版本运行速度非常慢


支持CUDA版本的Folding@home

  从测试的过程可以看出,支持CUDA的Folding@home的性能非常强大,能明显的感觉到远超过CPU版本,测试结果也达到了669.7ns/day。这个成绩基本上是目前CPU的100倍左右,GPU强大的并行处理能力在这体现无疑。

21Photoshop%20CS4支持GPU加速回顶部

  Photoshop%20CS4支持GPU加速

  在加州圣克拉拉举行的2008年春季Editor's%20Day上,NVIDIA和Adobe带来了新的希望:代号“Stonehenge”(巨石阵)的Adobe%20Photoshop%20Creative%20Suite%20Next(也就是CS4)会加入对GPU、物理加速的支持。

  如果您的计算机具有基于%20AGP%20或%20PCI%20的视频卡,则该计算机可能具有%20GPU(图形处理器)。%20如果您的%20GPU%20支持%20DirectX%209.x、Pixel%20Shader%20(PS)%201.3%20或更高版本,以及%20Vertex%20Shader%20(VS)%201.1%20或更高版本,则可以使用%20GPU%20加速效果,如“卷边”、“折射”和“波纹(圆形)”。%20这些效果充分利用了%20GPU%20卡的增强视频处理功能,给图像增加了三维真实感。%20

  有了GPU加速支持,用Photoshop打开一个2GB、4.42亿像素的图像文件将非常简单,就像在Intel%20Skulltrail八核心系统上打开一个500万像素文件一样迅速,而对图片进行缩放、旋转也不会存在任何延迟;另外还有一个3D加速Photoshop全景图演示,这项当今最耗时的工作再也不会让人头疼了。
根据我们最新了解的消息,Adobe%20CS4套装将在今年10月1日正式发布,其中当然包括支持GPU和物理加速的Photoshop%20CS4


还可处理3D图片

22IE小插件Piclens让2D变3D回顶部

  IE小插件Piclens让2D变3D
  http://www.piclens.com/site/ie/

   %20Cooliris推出的Piclens插件可以让google图片搜索以及youTube变为3D模式,通过用GPU硬件加速来实现图片浏览。但就是这么一个实用的小插件,没有GPU也是不行的。


可以把普通的2D搜索界面转化为3D界面


点击可以跳转到与图片相关联的页面

   %20当我们使用一块GeForce%209600GT进行GPU加速时,cooliris满速率运行可达60fps,但换用集成显卡时,这个数值还不到24fps,前后的差距至少达到了2.5倍,集显与独显的产品在日常应用中终于体现出来了。

23连PDF都需要GPU加速回顶部

  连PDF都需要GPU加速
  http://www.adobe.com/cn/

   %20早在2007年,Adobe就与NVIDIA展开合作,推出了支持GPU加速的PDF版本,Adobe Acrobat 8及Adobe Reader 8系列产品提供全新的页面显示着色技术,利用GPU来加速PDF格式下的绘图及显示功能,除了在效能上有所增进外,还可以利用GPU的可编程特性,进一步加强PDF文件中的2D内容展示效果。

  据Adobe平台产品营销总Pam Deziel表示,NVIDIA GeForce与Quadro GPU使用者可利用PDF档案进行更多样的作业,同时也能更有效率。包括平移、卷动、缩放等,实际上Adobe Reader 8每一项运用到GPU的功能都有着显著的效能增进。使用者过去避免使用的一些应用,例如可进行极精细比例缩放的地图,现在都可以轻易地显示。


打开同样复杂的一幅图表,利用GPU加速你可能会获得更快的浏览速度

  同样一个容量达到50MB的期刊读物电子版PDF文件,在使用传统方式打开时,读取时间为8秒。而使用GPU硬件加速功能时,打开时间不超过3秒,且在浏览时不会有拖沓感,PDF文件也变得流畅异常了。

24Google%20Earth独显与集显也有区别回顶部

  Google%20Earth独显与集显也有区别
  http://earth.google.com/intl/zh-cn/index.html

   %20Google%20earth,是一款3D地图显示软件,它能够将地球上某一区域的地貌,以3D图像的形式展现出来。很显然,这类软件将会逐渐成为我们今后生活的必备软件。

   %20在Google%20earth的设置界面,如果你拥有一个性能强劲的显卡,那么可以将画质设置为最高,这是在没有GPU加速功能的PC上无法体验的速度感。


没有GPU加速状态下


GPU加速状态下

   %20当我们以最高画质量为限查找地图街景时,带有GPU的PC系统可以流畅地进行地图缩放。而同样的场景、同样的搜索速度、同样的处理器,在没有GPU加速时,运转速度简直无法忍受,在Fraps显示的速率上,使用GPU加速和不使用GPU加速情况下,速度落差达到了几十倍之巨,由此可见,GPU的作用和意义绝不仅限于游戏。

25Google%20picasa显卡加速更强大回顶部

  Google%20picasa显卡加速更强大
  http://picasa.google.com/intl/zh-CN/download/index.html

  Google%20Picasa2是一款可帮助您在计算机上立即找到、修改和共享所有图片的软件,软件附带了常见的图片处理功能。


图片的处理以及旋转同样可以通过GPU加速

  在使用NVIDIA显卡的电脑上使用Picasa软件,通过GPU加速,图片的拖放或文件夹切换,图片生成的速度都非常快,这跟我们采用NVIDIA的显卡是息息相关的。如果换用没有GPU加速的平台,搜索图片时生成速度是有明显差异的。

26PICTOMIO速度更快回顶部

  PICTOMIO速度更快
  http://www.pictomio.com/Default.aspx

   %20Pictomio是一个类似于Picasa的图片浏览和管理软件,它提供了极其华丽3D图片浏览效果。如果PC中具备GPU,那么完全可以利用强大的GPU将浏览方式变更为3D模式,无缝缩放、渐变式切换,效果十分惊叹。但如果没有GPU,平面的交互效果实在是太过让人失望了。

   %20如你所见,视频功能的日渐丰富是当今计算机发展的主流趋势,这些软件通过GPU%20的提升可以明显的得到更快、更连贯的显示效果。而这些性能的改变单靠提升CPU的运算性能,是无法完全实现的。可以说,GPU强大的浮点运算能力转化为全新的应用方式,将成为PC机正在经历的一场全新变革;我们的数字生活也将会因GPU的改变而步入全新的视觉时代。

27第6节%20GTX280:最先进的物理特效回顶部

第6节%20GTX280:最先进的物理特效

  随着NVIDIA收购AGEIA公司,业界最先进的PhysX物理加速技术的加入,让大家对于GPU支持物理加速期待已久。随着GeForce%20GTX%20280显卡的面世,最新的PhysX物理加速技术终于浮出了水面,按照NVIDIA自己宣称的PhysX是目前最先进的物理加速引擎。

  PhysX是目前支持平台最多的物理加速引擎,他可以支持目前主流的X86处理器、AGEIA公司的PPU、东芝公司的Cell以及支持CUDA环境的GPU。其中,最令人期待的就是支持CUDA的版本。借助于目前强大的GPU并行运算能力,支持CUDA环境的PhysX物理加速引擎能给用户带来最为真实的性能体验。

  随着物理引擎的加入,以后我们就可以在游戏中体验最为真实自然的服装、毛发、烟雾、爆炸等画面,可以进一步的解放目前不堪重负的CPU。

28第7节%20新的代言人:美杜莎DEMO欣赏回顶部

第7节%20新的代言人:美杜莎DEMO欣赏

  戈耳工美杜莎是希腊神话中的蛇发女妖三姐妹,居住在遥远的西方,是海神福耳库斯的女儿。她们的头上和脖子上布满鳞甲,头发是一条条蠕动的毒蛇,长着野猪的獠牙,还有一双铁手和金翅膀,任何看到她们的人都会立即变成石头。宙斯之子珀尔修斯知道这个秘密,因此背过脸去,用光亮的盾牌作镜子,找出美杜莎,在雅典娜和赫耳墨斯的帮助下割下了她的头。从美杜莎的躯体里跳出双翼飞马珀伽索斯和巨人克律萨俄耳,他们都是波塞冬的后代。珀尔修斯躲避美杜莎两个姐姐的追杀时,在空中遇到狂风的袭击,被吹得左右摇晃,从美杜莎的头颅上滴下的鲜血落到利比亚沙漠中,成为毒蛇。%20

  在蛇发女妖三姐妹中,只有美杜莎是凡身,她的姐姐丝西娜和尤瑞艾莉都是魔身。据说美杜莎曾经是一位美丽的少女,因吹嘘自己比雅典娜长得漂亮而被这位智慧女神夺去了她的所有美丽,只留给她一个丑陋的妖怪之躯。%20

  本作是由NVIDIA自主开发的一款全3D实时渲染3D%20DEMO,在DEMO中,NVIDIA将目前GTX%20280显卡所支持的特效发挥的淋漓尽致,画面效果、人物模型、包括人物皮肤、衣服、烟雾、光影都做的非常逼真。在DEMO中我们还可以实时观测到画面所采用的3D多边形。

29回顶部

30回顶部

31第8节%20最强DX10显卡GTX280揭秘回顶部

第8节%20最强DX10显卡GTX280揭秘

  GeFore GTX 280显卡在体积上仍然保持着上代旗舰产品的体型,外观设计也基本上保持一致,硕大的散热器把PCB板包裹的严严实实,更加深了其神秘感。GeFore GTX 280显卡作为目前的顶级显卡,基于全新的GT200-D10U核心,仍然采用了65nm工艺制程,拥有240个运行在1296MHz的流处理器,显存位宽也提升至其所未有的512bit,Rops与纹理单元也提升至64/80个,默认核心/显存频率为602/2200MHz。

图片

  NVIDIA的高端显卡都流行凹槽设计,GeFore GTX 280采用了酷劲十足的切面设计。

图片

  继上代旗舰GeForce 9800 GX2之后,nVida再次把背面PCB也全部包裹起来。

图片
接口方面也与9800GX2保持一致

32回顶部

图片
SLI接口也有了防尘罩

图片

图片

图片
大小跟9800GTX保持一致

33第9节 GTX280内部结构惊人回顶部

第9节 GTX280内部结构惊人

图片

图片
硕大的散热器占据了2/3的体积

图片
PCB板看起来非常单薄

图片

图片

  作为一款顶级显卡,GeForce%20GTX%20280在供电的做工跟用料上自然不用多说,不计成本的大量采用了陶瓷贴片电容以及封闭式电感。采用VOLTERRA的数字供电方案,主控芯片为VT1165MF搭配5颗VT1165SF芯片为GTX200核心提供5相供电,显存方面也采用了2两相供电。


显示核心封装了起来

图片
NVIO二代芯片

  GeForce%20GTX%20280显卡再次给我们带来了全新的NVIO芯片,第一次采用NVIO分离设计的G80核心获得了众多FANS的欢迎,全新升级的NVIO二代芯片在接口方面更丰富,支持DisplayPort接口,并且带来真正双Dual-Link%20XHD%20DVI%2010bit每通道的色彩输出能力。

  显存方面搭配的是16颗现代GDDR3显存颗粒,组成512bit/1GB显存规格。显存编号为H5RS5223CFR,这也是目前现代推出的最强PC用显存,运行频率为2200MHz。

图片

  由于晶体管数量有了成倍的增加,GT200核心面积也达到了前所未有的高度,达到了564mm2,而封装面积接近于4枚1元的硬币大小。

图片 %20
封装面积45mm%20*%2045mm=2025mm2

34第10节%20正式版GTX280显卡鉴赏—讯景首款GTX280回顶部

第10节%20正式版GTX280显卡鉴赏

  首款正式版GTX280:讯景GTX280欣赏

  讯景是首批推出GeForce GTX 280显卡的厂商之一,从图片可以看出,这款显卡的完成度是非常高的,显卡大面积的贴上了彩贴,使这款旗舰显卡更添阳刚之气。频率方面也保持了公版的规格,为602/2200/1296MHz。

图片

图片

图片

图片

35映众GeForce GTX 280鉴赏回顶部

  映众GeForce GTX 280鉴赏

图片

  作为AIC厂商的映众,也在第一时间推出了旗下的GeForce GTX 280显卡,这款显卡除了在散热器上面打上了LOGO外,其他地方无公版无疑。频率方面也是公版的602/2200/1296MHz。

图片

图片

36影驰超频版GTX280鉴赏回顶部

  影驰超频版GTX280鉴赏

图片

  影驰这款显卡最大的特点就是采用了超频规格,这也是目前已知的首款超频版GeForce%20GTX280显卡,频率方面为620/2200/1400MHz。在外观上,这款显卡采用了颇具内涵的图腾图案。

37丽台GTX280显卡鉴赏回顶部

  丽台GTX280显卡鉴赏

  丽台的GeForce%20GTX280显卡同样是一款公版规范的显卡。不过,此次丽台是同时推出了自己的GTX280以及GTX260显卡,相信马上就有GTX260上市的消息。

38盈通GTX280显卡鉴赏回顶部

  盈通GTX280显卡鉴赏

  盈通是目前我们收到的唯一一款通路品牌,这款显卡仍然采用公版设计,相信上市后,在价格上会比其他品牌更具优势,喜欢的用户可以关注下。

39第11节%20评测平台及评测方法简介回顶部

第11节%20评测平台及评测方法简介

评测平台%20CPU%20

Intel%20Core%202 %20QX9770(OC%20400x9=3.6G、12MB%20L2 Cache%20)

主板%20

华硕%20X48

内存%20

威刚 DDR2-1066%201GB%20x%202%20(5-5-5-15)

硬盘%20希捷%207200.10%20SATA%20500G

显卡%20

GeForce%208800U
GeForce%209800GTX
GeForce%209800%20GX2
GeForce%20GTX%20280%20(602/2200/1296)
Radeon HD3870x2

软件平台%20系统软件%20

   Windows%20Vista%20旗舰英文版%20+%20DirectX%2010

驱动程序%20  AMD显卡:AMD%20Catalyst%208.5%20For%20Vista
   %20NVIDIA显卡:ForceWare%20175.16%20For%20Vista
   %20NVIDIA显卡:ForceWare%20177.34%20For%20Vista

评测软件

 

  • 3DMark2006%20Ver.110%20
  • 3DMark%20Vantage%20Ver:100%20
  • Need%20For%20Speed:Pro%20Street%20
  • World%20In%20Conflict%20
  • Company%20Of%20Heroes:Opposing%20Fronts%20
  • Call%20OF%20Duty%204%20
  • Half%20Life%202%20EPISODE%20TWO%20
  • Bioshock

  在测试平台上面,我们采用了顶级的四核平台,为了避免处理器带来的瓶颈,我们把处理器超频至3.6GHz。分辨率我们选择了目前顶级的画质设定,以来考察这个等级的显卡性能水平,二来针对第二代统一架构带来的优化进行实战。所有测试中,帧数在10帧以下的成绩我们都记为0分。

40第12节%20GTX280显卡3DMarkVantage测试对比回顶部

第12节%20GTX280显卡3D性能对比评测

  3DMarkVantage测试成绩对比

  新的3DMark测试工具——3DMark%20Vantage并没有提供对显卡DirectX%209性能的测试部分,因为FutureMark认为,作为DirectX%209.0C的测试工具,3DMark%202006就已经很好的反映显卡的DirectX%209性能,因此3DMark%20Vantage是一款完全针对DirectX%2010开发的测试软件,用户也需要安装支持DirectX%2010的Windows%20Vista才能运行,看来Windows%20XP和DirectX%209显卡用户是和这款3D测试工具无缘了。

  3DMark%20Vantage主要包括了Graphics%20Test和CPU%20Test两个测试部分,它们各自带有两个测试场景,其中Graphic%20Test包括Jane%20Nash、New%20Calico,主要针对显卡的3D图形渲染性能。而CPU%20Test就包括AI和Physics两个部分,分别测试处理器的AI运算和物理加速性能,在现在的游戏发展中,除了图形3D性能以外AI和物理运算都是游戏中极其重要的部分,在新的3DMark中对这四项目都进行了测试,无疑更能反映整个平台的游戏性能。


主要分了四个测试项目

  3DMark%20Vantage%20总得分标准:

  3DMark=1/(显卡权重系数%20/%20显卡总分+CPU权重系数 /%20CPU总分)

  3DMark%20Vantage认为不同级别的测试模式,显卡和CPU之间的权重比例是不一样的,因此四个测评模式下的评分标准也不一致,下面我们来看看四个模式中,显卡和CPU的权重比为多少:

 

Entry

Performance

High

Extreme

显卡权重系数

0.75

0.75

0.850.95

CPU权重系数

0.25

0.25

0.150.05

  测试结果:

41对比评测-3DMark06性能评测回顶部

   对比评测-3DMark06性能评测

  3DMark06%20分项计算公式:%20

  HDR/SM3.0%20得分%20=%20100%20x%200.5%20x%20(SM3%20GT1%20fps%20+%20SM3%20GT2%20fps)%20
  CPU%20得分%20=%202500%20x%20Sqrt(%20CPU1%20fps *%20CPU2%20fps)
  SM2.0%20得分%20=%20120%20x%200.5%20x%20(SM2%20GT1%20fps%20+%20SM2%20GT2%20fps)

  *%20Sqrt即平方根

  测试相关公式:

  SM3.0%20硬件设备GS得分%20=%200.5%20x%20(SM2S%20+%20HDRSM3S)
  SM2.0%20硬件设备GS得分%20=%200.75%20x%20SM2S%20

  3DMark06%20总分的计算公式:

  3DMark06%20总分%20=%202.5%20x%201.0/((%201.7/GS%20+%200.3/CPU得分)/2)

  (太平洋电脑网3Dmark06本地下载地址)

  3DMark06的标准评测包括两个HDR评测两个SM3.0图形评测。3Dmark06还首次使用了AGEIA公司的PhysX物理引擎,用CPU模拟物理引擎计算,这是3Dmark06的一个闪亮的特色。CPU评测的成绩被强制加入到总分里面去,Futuremark揭示了未来游戏发展的方向,CPU/GPU应该获得更好的平衡。而评测中,我们选择了标准分辨率1920x1200,开启AA/AF特效。

42《孤岛危机》Crysis性能对比评测回顶部

   《孤岛危机》Crysis性能对比评测

  测试画质说明

  如果说著名的FarCry《孤岛惊魂》敞开了第一代DX9游戏的大门,那么同样是由CryTek公司制作的FarCry续集——Crysis《孤岛危机》,将很有可能为大家敞开DX10游戏的另一道大门。

  由于Crysis是目前对显卡要求最高的DX10游戏,因此在本次评测中,我们将分辨率锁定在1680x1050、1920x1200、2560x1600所有的画面设置都调至高,同时关闭/开启AA和AF两组测试。为了避免测试误差,我们使用了目前最新的Benchmark测试,画质全部设置为HIGH。

43英雄连《Company%20Of%20Heroes》性能对比评测回顶部

  英雄连《Company%20Of%20Heroes》性能对比评测%20

  测试画质设定


测试版本为2.201

  上图是关于英雄连《Company%20Of%20Heroes》的测试画质设定:Shadow%20Quality设置为DirecetX%2010模式、全部特效都开启至最高。

44DX10游戏对比评测:《ASSASSINS%20CREED》回顶部

  DX10游戏对比评测:《ASSASSINS%20CREED》

  故事背景设定为12世纪末的欧洲,玩家扮演身手不凡的刺客Altair,为了结束帮派斗争而进行一项项暗杀任务。游戏已第三人称视角表现,游戏风格不乏《波斯王子》的熟悉感觉,不过本作将会以极为华丽的游戏画面重新包装起来,对于喜欢第三人称动作游戏的玩家本作绝对吸引。

   测试画质设定如上:我们将所有画质调至最高,画面质量、阴影、图形细节等设置为参数"3",分辨率选择为1680x1050、1920x1200、2560x1600。


测试场景选择

  我们选择了画面一开头的场景为测试地点,利用Fraps记下平均帧数,反复测试3次取最大值为评测成绩。

45DX10游戏性能评测:《冲突世界》回顶部

  DX10游戏性能评测:《World%20in%20conflict》冲突世界

  游戏说明

图片

  本作是一款以虚拟全球冷战为故事背景的RTS游戏,游戏支持DX9与DX10特效间的转换。在这款游戏中,我们把画面选项设定为非常高(DX10),以自带BenchMark工具测试。

图片

46DX10游戏:《PT%20Boats》鱼雷快艇:海洋骑士回顶部

  DX10游戏性能评测:《PT%20Boats》鱼雷快艇:海洋骑士

  游戏说明:

  表现海战的游戏在游戏行业中并不多见,这主要是因为水的透明效果和对光的折射、反射、散射等现象较难进行3D处理,而依靠DirectX%2010的支持,在3D游戏中处理水的效果也终于能够实现。

  海战是所有军事迷最感兴趣的部分,对于军事类游戏自然也不例外,《鱼雷快艇》这款游戏描绘的是二战时期的海战故事,玩家操控鱼雷快艇可以体会到高速度、机动性强的攻击感受。当然,在游戏中,玩家千万不要忘了对自己的保护,鱼雷快艇没有很好的防御功能,只能采用快打快跑的战术。


应用的全新的DX10特效

  由于本作是首款支持DX10特效的海战类游戏,在画面的要求上是比较高的。在游戏设置中,我们选择了1680x1050%20NOAA%20、1920x1200%204AA、2560x1600%204AA。

47《使命召唤4》Call%20OF%20Duty%204对比测试回顶部

  《使命召唤4》Call%20OF%20Duty%204对比测试

  画质说明

  关于Call%20OF%20Duty4的画面设置如上,所有特效开至游戏能够支持的最高级别,同时关闭垂直同步。


测试场景

  我们选择了大雨滂沱的快乐歌运输号,在直升机至船上的那段场景,用Fraps记下平均帧数,每个分辨率跑两次以两次测试平均值的最大值为成绩。

48《半条命2:第二章》详细对比评测回顶部

  《半条命2:第二章》详细对比评测%20

  画质设置介绍

  《半条命2:第二章》引擎在HDR和游戏解说系统上继续增强。《半条命2:第二章》引擎当中的游戏子引擎将支持豪华的室外场景,树叶渲染上将采用Alpha覆盖技术,提供更好的树叶细节和反锯齿效果。《半条命2:第二章》引擎引入全新的粒子系统,将提供动态软阴影效果。《半条命2:第二章》引擎当中的物理子引擎也经过重新设计,提供大场景大范围的物理效果。下面是关于《半条命2:第二章》的画质设定及评测说明。

  我们将游戏的特效全部开至最高,分辨率为1680x1050、1920x1200%204AA、2560x1600%204AA。

  《半条命2:第二章》的评测我们选择了崖边的场景,测试过程中,我们跑到崖边等待游戏画面的闪光至震荡完毕,用Fraps记下3次的成绩取其平均值的最大值为测试成绩。

49《极品飞车11》性能详细对比评测回顶部

  《极品飞车11》性能详细对比评测

  画质设置介绍

  评测画质如上面设置,所有特效开至最高,分辨率锁定1680x1050、1920x1200%204AA。


测试赛道

50《Unreal%20Tournament%203》详细对比评测回顶部

  《Unreal%20Tournament%203》虚幻竞技场3%20详细对比评测

  画质设置介绍%20

  关于虚幻竞技场3游戏的详细画质设定如下,如下图。

  纹理贴图细节“Texture%20Detail”、环境的细节“World%20Detail”全开,关闭垂直同步“Enable%20V-Sync”等等。由于UT3目前在游戏中VISTA系统下ATI仍不能很好的打开抗锯齿特效,所以我们并没有在控制面板中强制打开抗锯齿特效,测试分辨率为1680x1050、1920x1200、2560x1600。

51F.E.A.R性能对比测试回顶部

   F.E.A.R性能测试画质设定

  我们将所有的画质特效开至最高,分辨率锁定1600x200和1920x1440。开启AA/AF特效,我们采用了游戏自带的测试工具来进行评测。

 

52第13节%20GTX280功耗方面的改进回顶部

第13节%20GTX280功耗方面的改进

  在功耗方面,GeForce%20GTX%20280同样也做了非常大的改进,相对于峰值236W的功耗水平,GeForce%20GTX%20280会随着显卡运行的环境而进行不同程度的降幅。这个技术类似于ATI目前的Powerplay技术,BIOS里面设置了4个不同等级的运行频率。通过调节显卡运行的频率来达到降低功耗的目前。目前,GeForce%20GTX%20280支持四种不同的运行频率。分别是:空载或2D模式下,最低功耗为25W;高清视频模式下为35W;3D运行模式下236W;还有就是HybridPower模式下可以关闭显卡的运行。

  可以看到,目前NVIDIA的高端系列显卡都将支持其独门的HybridPower技术,HybridPower混合动力是NVIDIA最新发布的混合SLI技术中的一项新技术。主板芯片组能根据目前的运行环境,通过SMBUS总线,向显示芯片组发送动作指令,来控制集成/独立显卡的运转。这是一项专为高端用户解决噪音及功耗问题的新技术。当然,此项技术也要有专门的主板芯片组支持。目前,已知的芯片组有NVIDIA面向AMD平台的nForce%20780a%20SLI/nForce%20750a%20SLI主板芯片组。在需要时,混合动力(HybridPower)技术能够将图形性能全部释放出来,也可以在做日常计算处理的时候关闭独立显卡,切换到低噪音低功耗的工作状态。而在做日常计算处理任务的时候,比如浏览网页、编辑文档或者观看高清视频,它将智能转换到低功耗、低噪音状态。%20

53显卡功耗对比评测回顶部

  显卡功耗对比评测

  从上面可以看出,虽然GeForce%20GTX%20280在性能上“堪称无敌”,但其在功耗的控制上也是可圈可点的,为了进一步考察GTX280的表现,我们做了一次简单的整机平台对比评测,评测平台仍然采用的是3D测试平台,测试数据为整机功耗。在测试当中,我们加入了一款双芯单卡的HD3870x2的测试属数据作为参考,测试环境分为:主板BIOS待机、主机空载、高清回放以及3DMark%2006测试。

  图片
主板BIOS待机(左图为GTX280)

图片  图片
系统空载(左图为GTX280)

图片  图片
高清回放(左图为GTX280)

图片  图片
3DMark 06测试(左图为GTX280)

  从测试结果来看,GeForce GTX 280显卡,在功耗表现方面基本上与AMD-ATI HD3870x2显卡保持在一个水平,新加入的功耗控制技术也发挥了积极的作用。这突出表现在主板BIOS以及系统空载的情况下面。尤其在系统空载的情况下,GeForce GTX 280显卡的功耗表现甚至比目前主流的8800GT显卡还要低。

54PConline评测室总结:回顶部

PConline评测室总结:

  Unified Shader架构的进一步优化以及参数的提高、拥有240个流处理器的Geforce GTX 280性能并没有令我们失望。1680x1050主流分辨率也基本上成为GTX280这个等级的显卡入门分辨率,而专门为目前及未来的DX10游戏优化的GTX280显卡,即使在目前极其苛刻的画质下(2560x1600 4AA)也保持着较高的帧数,与第一代统一架构产品相比,Geforce GTX 280的优势随着分辨率和AA/AF选项的打开而扩大,这也证明了我们选择这个等级的分辨率测试的正确性。在测试的6个DX10游戏中,Geforce GTX 280在1920x1200 4AA/2560x1600 4AA画质下,性能甚至有了成倍的提升,这突出表现在DX10 3D基准测试软件3D Mark Vantage中,得分是目前9800GTX显卡的2倍多。

图片

  不过不可否认,NVIDIA的上代旗舰,拥有双G92核心的GeForce 9800 GX2显卡在部分游戏中仍然拥有一定的优势,但这个优势基本上也仅保持在较低的分辨率下或低画质下,而随着未来DX10游戏的流行,游戏的画面将会越来越复杂,对显卡shaders的需求也会越来越高,较低的流处理数量以及显存位宽自然会捉襟见肘。而全新优化了FB/TEX比值以及改进几何着色器及数据流输出(Stream Output)表现的GeForce GTX 280拥有更好的前景。可以说,GeForce GTX 280是一款真正意义上“高瞻远瞩”的显卡产品,他进一步的成熟运用了DX10带来的Unified Shader架构。

    市场方面,GeForce GTX 280会替代GeForce 9800 GX2显卡占领高端市场。面向次级市场,NVIDIA还会推出一款全新的产品,同样是基于GT200核心,但无论流处理数量、时钟频率、ROP数目、显存带宽和显存容量都跟旗舰的GTX 280拉开了足够的距离。Geforce GTX 260 显卡集成 14亿个晶体管,其核心频率576MHz。虽然集成数量众多的晶体管,但其中相当部分是被关闭的 。显卡总共拥有192颗流处理器单元,其流处理器频率1242MHz。显卡配备了896MB GDDR3 显存,其显存频率达到了1998MHz ,可以提供111.9GB/s 的数据传输带宽,最大功耗为182W,3D性能方面超过目前的9800GTX显卡没有多大问题,如此一来,9800GTX沦为中端也已成定局。

图片

    除了3D性能,GeForce GTX 280令人期待的地方还有很多,例如支持CUDA的PhisX物理加速引擎,能让我们体验更加真实的游戏特效的同时也进一步的解放我们的CPU。CUDA方面,随着GPU的发展,GPU越来越强大运算的速度也越来越受到软件开发商、游戏开发商以及科研人员的关注,相信将会有大批的软件涌入市场,而GPU强大的并行处理器能力也会令我们的工作效率有成倍的提高,而显卡仅局限于3D游戏的局面也将会成为历史。

相关内容