 





问鼎显卡性能之王!NV旗舰GTX280全球同步首发

2023-09-23 23:58:00

1前言回顶部

前言

　　nVidia又出击了，当大家还在为GeForce 9800GX2性能保持怀疑，与HD3870x2显卡性能争夺面红耳赤的时候，nVidia又提前给我们带来了新一代旗舰产品——GeForce GTX 280显卡。拥有目前顶级显卡1倍数量的流处理，NV史无前例的512bit显存位宽、14亿个晶体管数量，支持物理加速这些都是GeForce GTX 280还没上市之前就给大家留下的深刻印象。凭借这些，GeForce GTX 280显卡毫无疑问的成为了当今显卡的性能之王。

如今，GeForce GTX 280终于登上了舞台，Geforce GTX 280 显卡采用了 65nm技术，全新的第二代统一架构，显卡集成14亿晶体管电路，核心频率 602MHz，其240颗流处理器频率为1296MHz。GTX 280 显卡配备了1GB GDDR3显存，采用了512-bit位宽，有效显存频率2214MHz，显存带宽高达141.7GB/s。 GTX 280拥有80个纹理单元和32个光栅化单元，提供48.2 G/秒纹理数据处理能力......

　　除了强劲的3D性能之外，GeForce GTX 280同时给我们带来了在并行运算方面的革命，重新设计的第二代统一架构，240个完整的ALU，高达933GFOLPS浮点处理器能力，第二代Dual Issue、支持双精度这些都是专门为科学计算而优化的。加上目前日趋完善的CUDA环境，GeForce GTX 280的革新远不是简单的3D性能提升。

2第1节 G80/G92第一代统一处理架构回顾回顶部

第1节 G80/G92第一代统一处理架构回顾

　　1.1 Geforce8800采用Unified Shader架构：

　　DirectX 10最大的革新就是统一渲染架构（Unified Shader Architecture）。之前的GPU架构还是沿用的分离式渲染架构，在G80核心推出之前的G71和ATI的R580都是采用这样的架构，顶点渲染和像素渲染各自独立进行，而且一旦当架构确定下来，顶点和像素shader单元的比例就会固定下来。不过分离式渲染架构设计更为简便而且经验丰富，例如NVIDIA的NV40发成到后来的G70/G71，又或者是R420到R580，性能都得到显而易见的提升。

　　微软认为这种分离渲染架构不够灵活，不同的GPU，其像素渲染单元和顶点渲染单元的比例不一样，大大限制了开发人员自由发挥的空间。不同的应用程序和游戏对像素渲染和顶点渲染的需求不一样，导致GPU的运算资源得不到充分利用。微软在DirectX%2010中提出了统一渲染架构，在通用和独立的shader单元中可以执行不同的shader程序，包括vertex、pixel和在DirectX%2010中首次提出的geomery%20shader。而且随着这些通用独立的shader单元功能的不断完善，日后有望执行更多的shader程序，例如物理效果。

　　相对顶点渲染来说，像素渲染将面临大规模使用纹理所带来的材质延迟，这是统一渲染架构急待解决的问题。不过在Geforce880 GPU里面，这种情况得到很大的改善，分组的steam processor都用联立一定数量的texture单元和L1/L2高速缓存。

（更多的纹理意味着物体表面精度更真实）

　　Shader%20Modle%204.0无论是vertex还是pixel指令，最大指令长度相当于Shader%20Modle%203.0的128倍（64K），越长越复杂的指令可以产生越真实的画面，Shader%20Modle%204.0的寄存器也激增到4096个，Constant寄存器采用16×4096阵列。input寄存器采用16/32规格等，上述指标都比以前的DirectX有明显的改进。Shader%20Modle%204.0允许程序员在渲染物体时使用128个纹理，而DirectX%209只提供4/16规格，更多的纹理意味着物体表面精度更真实，游戏开发者拥有更广泛的选择。

31.2%20传统Pipeline模型%20VS%20Unified%20Shader模型回顶部

　　1.2%20传统Pipeline模型%20VS%20Unified%20Shader模型

　　Geforce8800%20GPU的研发工作从2002年夏天正式开始。Geforce8800%20GPU的设计当时有四大目标。显而易见的超过当代的GPUs、提升图像质量、提供强大的物理和浮点处理性能，适应DirectX的发展推出新概念的GPU%20Pipeline。

名称

架构

制造工艺

晶体管数目

DirectX支持

GeForce256

NV10

0.22%20Micron

23%20Million

7.0

GeForce2%20GTS

NV15

0.18%20Micron

25%20Million

7.0

GeForce3

NV20

0.15%20Micron

57%20Million

8.0

GeForce4%20Ti4600

NV25

0.15%20Micron

63%20Million

8.0

GeForce%20FX%205900

NV35

0.13%20Micron

135%20Million

9.0

GeForce%206800%20Ultra

NV40

0.13%20Micron

222%20Million

9.0C

GeForce%207800GTX

G70

0.11%20Micron

302 Million

9.0C

GeForce%207900GTX

G71

0.09%20Micron

278 Million

9.0C

GeForce%208800GTX

G80

0.09%20Micron

671%20Million

　　传统经典的Pipeline模型，不同种类属性的vertices，包括index、commands和textures，线性缓冲区的Setup引擎自上而下的经过vertex%20shading、 pixel%20shading和ROP，最后被写进frame%20buffer。事实上Geforce7系列GPU拥有超过200个连续的阶段。

　　显而易见的，采用了Unified pipeline设计的Geforce8800 GPU可以有效的减少pipeline的层数，同时将传统经典pipeline自上而下的线性顺序变成连续的循环导向的过程。input经过unified shader core作为output写进去寄存器，同时返回到shader core再进行下次操作。

（G70架构图）

　　在不同应用程序和游戏中，vertex shader和pixel shader的需求比例不尽相同，十分不幸地在Geforce8800 GPU之前，GPU里面的vertex shader和pixel shader的比例是固定。显然unified的实际适应性更强，从下面的例子我们可以看到在unified shader架构的威力，大大提升了GPU的硬件使用率，尽量避免shader空闲的情况发生。

41.3 为什么需要Unified shader架构？回顶部

　　1.3 为什么需要Unified shader架构？

　　在典型的HDR代表游戏《上古卷轴4:湮灭》中，7900GTX在2048x1536并开启HDR的情况下，FPS惨不忍睹。独立渲染的草丛或者树叶是由庞大数量的多边形构成，对GPU的vertex shader和geomery shader提出严酷要求，相对来说并不需要太多像素操作，如此一来大规模的像素渲染被闲置而顶点模块处于不堪重负状态。Unified shader架构则可以帮我们解决硬件资源上的限制，Unified shader架构也尽量降低了shader单元的闲置率。

51.4 G80里面的核心部件－Streaming Processors回顶部

　　1.4 G80里面的核心部件－Streaming Processors

　　在Geforce8800 GPU的unified shader架构里面,Streaming Processors(SPs) 是最为核心的单位，Geforce8800GTX拥有128个streaming processor，运行在1350Mhz的频率下。每个streaming processor均能处理vertex、pixel、geometry等操作，是一个通用的浮点处理器。这些浮点处理器都可以随时有计划的编排分组成不同的工作量。

　　Steam Processing架构的运作

　　对geometry shader有了一定认识以后，我们现在具体看看Steam Processing架构的运作。

　　Geoforc8800 GPU通过一定数量的SP去完成shader操作，相邻的SP可以十分方便的分组发挥并行操作的威力，在Geforce8800 GPU架构中，每16个SP分为一组。

　　不同属性基础的数据流在整合了专门高速指令解和执行逻辑的SP和一些类似的操作中执行，内建的Cache快速的存储SP的输出，而这些Cache又可以作为input被其他的SP读取。SIMD操作非常高效地在已被分组的SP集合里面执行。

　　下图可以看到streaming processors和联立的texture Flitering（TF）和texture addressing（TA）。显然内建的L1/L2 Cache确保了平衡的设计，这是一个典型的Geforce8800 GPU unified shader设计。128个streaming processors并行构成了8800GTX的shader架构。每个SP都是通用的、不相关的和标量地，可以同时进行MAD和MUL操作，支持IEEE 754精度的浮点。

61.5 Geometry shader（几何着色器）回顶部

　　1.5 Geometry shader（几何着色器）

　　geomery shading是DirectX10的新特性，streaming processors可以处理几何运算，大大减轻了CPU在几何运算的负载。GPU分派器和控制逻辑可以动态的指派streaming processpors进行vertex、pixel、geometry等操作，因为他们是通用的。显然unified shader设计可以建立更加平衡的shader工作机制，但是传统的pipeline定义不再适用，在未来，可能其他特性的预算也可以通过unified streaming processor去完成。我们看看geomery shader的情况。

　　Input Assembler（IA）从顶点缓冲区上的输入流中接收顶点数据，并且把数据项转换为规范的格式。vertex shader通常用来把顶点从模型空间变换到平面空间，vertex shader读取一个顶点，输出一个顶点。Pixel Shader读取单一pixel属性，输出包含颜色和Z信息的的片断。而geometry shader是DirectX10提出的，把同一区域的所有顶点作为输入，产生新的顶点或者区域。此外数据流输出（steam output）把geometry shader输出的顶点信息复制为4个连续的输出缓冲子集。理论上来说，steam output的输出能力Input Assembler的输入能力相匹配。

　　Shader就是一段可以改变像素、顶点和几何学特征的小程序。Vertex Shader是专门处理多边形顶点的。那么Geometry shader就是专门用来处理场景中的几何图形。在过去Vertex Shader每一次运行只能处理一个顶点的数据，并且每次只能输出一个顶点的结果。在整个游戏场景中，绘制的几何图形的任务量非常庞大，如果仅仅依靠Vertex Shader单一来完成，效率会极其低下。

　　现在DX10的设计师们在顶点与像素的处理过程中又加入了（Geometry shader)几何着色器。它可以根据顶点的信息来批量处理几何图形，对Vertex附近的数据进行函数处理，快速创造出新的多边形。通过steam out将这些结果传递给其他Shader或buffer，将CPU从复杂庞大的几何运算中解放出来。大爆炸，粒子效果，瀑布流水等复杂又关联的场景都可以用Geometry shader很逼真的表现出来。

71.6 Texture和math－相互没有关联的多线程操作回顶部

　　1.6 Texture和math－相互没有关联的多线程操作

　　Texture寻址、过滤和fetching都会耗尽相当多GPU的核心时钟。如果在架构需要在一个数学操作之前进行Texture的操作，例如是16x各向异性过滤，系统的延时将会大大增加。Geforce8800 GPU作出重大的改进，在进行相当的独立算术运算的时候，“隐藏”了Texture fetch的延迟。

　　在Geforce7系列的GPU中，Texture寻址计算是采用隔行扫描进行的，这种设计在遇到texture fetch的时候就会遇到瓶颈。Geforce8800 GPU可以完全独立的进行texture操作和shader算术运算。

　　在Geforce8800架构开发的初期，NVIDIA工程师分析了数百种包含越来越多的标量计算的shader程序以后发现，一些混合了矢量和标量的指令，特别是一些比较长的shader很难有效的在矢量的架构中处理操作。标量计算在矢量的流水线中编译非常困难。

　　NVIDIA和ATI的都可以处理两个指令，在R580中，ATI采用的3＋1架构可以处理一个2x2的矢量指令和由1x3矢量指令和1x1标量指令的混合，在Geforce6/7中，可以操作2＋2和3＋1的双指令操作。但是这些跟Geforce8800 GPU的标量设计那么高效。NVIDIA的工程师作出评估，128个标量处理器的标量架构拥有两倍性能于32个复合的矢量处理器架构。

81.7 Early-Z技术回顶部

　　1.7 Early-Z技术

　　当代的GPU都会采用Z－buffer去记录哪些像素是可见，而哪些像素是被遮挡而不可见。一个3D Frame最终要转换成为2D图像才能表示在屏幕上面，来自GPU连续的顶点流（vertices)会构建这个frame，从这个顶点流获取相应的2D坐标去生成多边形。多边形的连续产生会覆盖原来的区域，因而Z－buffer的信息就是告诉ROP，哪些像素是可见哪些是不可见的。提前进行的Early-Z对比可以节省大量资源，因为同一个区域被多个多边形覆盖的次数轻而易举地达到原来的四倍甚至更高。

　　目前甚少方法可以利用Z－buffer信息去挑选或者排出被遮挡像素的渲染，Z-Cull就是这样的一个方法。Z－comparision通常会发生在ROP的后期。问题就产生，意味着pixel要通过完整的ROP管线才能被发现是否可见。一些复杂的包含数千步骤的shader程序，即使是被遮挡的pixel也全部通过流水线，这显然浪费了GPU的性能。Early-Z移去不可见像素在它们进入流水线之前，这样显然会提高性能，NVIDIA认为这个操作提升22％附近的性能。

91.8 G80的填充率计算：回顶部

　　1.8 G80的填充率计算：

　　数据很方便的在不同的SP之间的output和input之间移动，例如vertex data处理完以后，output可以作为input发送到Geometry Theard。

　　每个在8800GTX运行的SP都运行在1.35Ghz，并能同时执行一个MAD和MUL的标量操作，因而8800GTX就用有520 gigaflops的shader处理能力，不过这并不是8800GTX的全部实力，因为指令发送100％适用于矢量操作，而标量和矢量混合的shader程序编码比特定的组合指令发送更有效率（3＋1或者2＋2）

　　texture过滤单元和SP互不相关的传送64%20pixel每个时钟，这等于每个时钟完成32%20pixel的寻址或者是32%20pixels%202x各向异性过滤，或者是每时钟32pixels的双线过滤。

　　基本上，FB16双向材质过滤可以实现每时钟32pixel来操作，如果是FP2:1的各向异性过滤也可以每时钟16pixels来完成。texture单元运行在575Mhz的时钟频率，这也就是8800GTX的核心时钟频率。

　　在575Mhz的运行频率上面，双线过滤或者是2：1的各向异性过滤的填充率达到575Mhzx32＝18.4billion texels/s的水准，2：1的各向异性过滤相当于两个双向过滤取样一起整体输出到一个像素，因而8800GTX拥有36.8billion texels/s的双向过滤的填充率。

101.9 G80的ROP（Raster Operation partitions）回顶部

　　1.9 G80的ROP（Raster Operation partitions）

　　8800GTX拥有6组ROP（Raster Operation partitions），每组可以处理4个像素，因而一共可以每时钟可以处理24个包含颜色和Z信息的像素。如果是Z－only处理，则可以实现每时钟192个单像素的处理。如果是4x 多取样反锯齿MSAA（multisampled antialiasing）打开，则可以完成48个Z－only操作。

　　G80的ROP支持超级采样和多点采样和适用（Adaptive）的这三种抗锯齿（antialiasing）的模式，因而G80是首个在单GPU环境下实现8x、 8xQ、16x和16xQ等antialiasing模式的GPU。NVIDIA引入了CSAA，Coverage Sampling Antialisaing－新的全屏抗锯齿选项，同时包含coverage取样和geometry取样。CSAA有新的选项分别是8x、8xQ、16x和16xQ，全面提升了全屏抗锯齿的等级。得益于G80强大的性能，在某些游戏开启16x高质量的AA模式以后，速度并不会大幅降低，系统花销可以维持在4x AA的级别。

　　G80的ROPs支持FP16和FP32的混合，无论是FP16还是FP32都能够进行多采样抗锯齿（multisampled%20antialiasing），因而从G80开始，NVIDIA的GPU首次实现HDR+AA的模式。8个支持DirectX10的多渲染目标MRTs（Multiple%20Render%20Targets)引用在G80，可以进行色彩和Z操作。DirectX10支持两种新格式的HDR、第一种格式是R11G11B10，特别的为存储texture的浮点格式优化，另外一种这是每个颜色通道占用9bit，RGB各占9bit，专门为渲染目标（render%20target）而设计。

　　每组ROP拥有64bit的显存接口界面，完全支持DDR1、DDR2、DDR3、GDDR3和GDDR4显存，因而8800GTX一共拥有384bit的显存接口界面，也就是我们所说的384bit的显存位宽，8800GTX一共拥有784M的本地显存，运行在900Mhz时钟频率的GDDR3显存一共提供86.4GB/S的恐怖显存带宽。

11第2节%20GT200第二代统一架构特点回顶部

第2节%20GT200第二代统一架构特点：提高性能同时提升了效率

　　GeForce%20GTX%20280显卡的出现终于给我们带来了全新的第二代统一架构。而第二代统一架构最大的特点就是在全部继承第一代统一架构的优点后，提升各单元处理器能力的同时也提升了效率，真正意义上把同一架构发挥至极点。为了适应未来并行运算的需要，GeForce%20GTX%20280显卡开创性的提供了2种不同的架构——并行处理架构与图形处理器架构。

完整的GT200架构

　　从上面的架构图可以看出，GeForce%20GTX%20200系列可以分为四个层，最上面一层包括了图形处理器所需要的几何着色器（Geometry%20Shader）、顶点着色器（Vertex%20shader）以及像素着色器（Pixel%20shader）。中间一层包括了10组TPCs（计算处理器群集），每组TPC里面又包含了3组SMs（流处理器组），每组SM里面就包含了8个流处理器单元或计算单元。这样一来，GeForce%20GTX%20200显卡就一共包含了240个流处理器单元或计算单元。在TPCs下面就是纹理单元以Atomic单元（在并行计算中负责处理冲突的单元）。在下面就是ROPs（光栅化处理器引擎）以及显存接口。

核心规格GeForce%209800GTXGeForce GTX%20280核心代号

G92-420

GT200-D10U

工艺制程

65nm65nm核心晶体管数量

7.54亿14亿核心时钟频率

675Mhz602核心Shader频率

1688Mhz1296Mhz核心/Shader比率

1：2.5

1：2.15

显存时钟频率

2200Mhz2200Mhz显存类型

GDDR3GDDR3显存位宽

256bit

512bit

显存带宽

70.4GB/S

142GB/S

显存容量

512MB1024MBStream%20Processor

128

240

纹理单元

ROPs

接口总线

PCIE%202.0PCIE%202.0Shader%20Model标准

4.0

DirectX标准

互联技术

3-Way SLI3-Way SLI视频回放技术

PureVideo%20HD%20II/VP2PureVideo%20HD%20II/VP2

　　从上面的规格对比表中可以看出，GeForce%20GTX%20280比起GeForce%209800GTX，主要的改进有以下几点：

　　1、大幅度增加了晶体管数量，浮点处理器能力接近1000GFlops。

　　2、Stream%20processor数量也由上代的128个增加到240个，性能增加的同时跟纹理单元保持更好的平衡，能更好的适用目前及未来的游戏。

　　3、显存位宽也有成本的增加，终于突破了512bit，在搭配GDDR3的情况下，显存带宽达到了惊人的142GB/S、

　　4、GeForce%20GTX%20280的ROPs单元跟纹理单元也增加值32个和80个。

　　上面多点都是GT200核心的GeForce%20GTX%20280系列所具备的特点，同时，作为目前新的旗舰产品，GeForce%20GTX%20280仍然支持nVIDIA的3-Way%20SLi以及第二代PureVideo%20HD高清引擎。

12第3节%20图形处理器：性能成倍提升回顶部

第3节图形处理器：性能成倍提升

　　3.1%20优化的shader/TF比值%20适应未来的需求

　　在图形处理方面，GeForce%20GTX%20200可以说有了成倍的性能增加，不仅在流处理数量方面的成倍增加，在跟图形处理器息息相关的几何着色器（Geometry%20Shader）及数据流输出（Stream%20Output）、ROPs、纹理填充率以及寄存器方面都有长足的进步。

GeForce%20GTX%20280图形架构

TPC（计算处理器群集）中多添加了一组SM

　　目前，越来越多的游戏以及应用程序都需要大量的shaders，未来在shaders以及纹理单元上寻找一个最佳的平衡搭配，GeForce%20GTX%20280显卡在每组TPC中，多添加了一次SM，然后保持TF的数量不变，这样一来shaders与TF的比值要比上代产品提高50%，非常适合目前以及未来的游戏和应用程序的需求。

133.2%20提升几何着色器及Stream%20Output的表现回顶部

3.2%20提升几何着色器及数据流输出（Stream%20Output）的表现

　　从G80的架构图中，我们可以看到其统一渲染架构除了像素和顶点之外还包括了几何着色器（Geometry%20Shader），这是GPU中首次加入这样的运算单元。几何着色器也是SM4.0中新加入的内容，它第一次允许程序在图像处理器中创建新数据。这一革命性的事件使得GPU在系统中的角色由只可处理已有数据的处理器变成了可以以极快速度既可处理又可生成数据的处理器。在以前图形系统上无法实现的复杂算法现如今变成了现实。如此一来类似模板阴影（Stencil%20Shadow）、动态立方体贴图（Dynamic%20Cube%20Map）、虚拟位移贴图（Displacement%20Mapping）等依靠CPU或多通道渲染（Multi-Pass%20Rendering）的算法效率提升了很多。

　　几何着色器可以根据顶点的信息来批量处理几何图形，对顶点附近的数据进行函数处理，快速创造出新的多边形。通过steam%20out将这些结果传递给像素或者是缓冲区，将CPU从复杂庞大的几何运算中解放出来。大爆炸、粒子效果、瀑布流水、毛发渲染等复杂又关联的场景都可以用几何着色器很逼真的表现出来。

　　在DirectX%2010之前，几何体必须在写入内存之前被光栅化并送入像素着色器(pixel%20shader)。DirectX%2010引入了一个叫做数据流输出（Stream%20Output）的新特性，它允许数据从顶点着色器或几何着色器中直接被传入显存。这种输出可以被传回渲染流水线重新处理。当几何着色器与数据流输出结合使用时，GPU不仅可以处理新的图形算法，还可以提高一般运算和物理运算的效率。

　　随着DX10游戏的流行，在DX10规范中首次引用的几何着色器（Geometry%20Shader）作用用来越显著。为了提升GT200的游戏表现，GeForce%20GTX%20280内部的输出缓冲限制已显著升至上代产品的6倍，提供了更快的几何着色器（Geometry%20Shader）速度以及数据流输出（Stream%20Output）表现。

测试DEMO美杜莎很大程度上依赖几何着色器及数据流输出的表现

143.3%20加倍的寄存器文件回顶部

3.3%20加倍的寄存器文件

　　在上代旗舰G80核心中，在每组流处理集（SM）里面添加了高速的本地缓存用于存放shaders之间计算完的活跃数据。但随着编程的复杂度增加，shaders的处理器能力也得到了成倍的增加，一次可完成上千条指令。寄存器的容量就成为了整个核心的瓶颈，当SM内寄存器的容量不足以保存全部处理后的活跃数据时，溢出的数据就会直接存放到显卡的显存当中，而本地显存较大的延时会严重影响性能。为了解决这个问题，适应未来更复杂的编程需求，在GT200核心的寄存器容量直接提升至上代产品的2倍，大大减少了数据溢出到本地显存的机率，使GT200的运算性能更强，运算效率更高。

153.4%20升级ROPs（光栅化处理器）回顶部

　　3.4%20升级ROPs（光栅化处理器）

　　前面我们说过G80的ROP支持超级采样和多点采样和Adaptive的这三种抗锯齿的模式， %20因而G80是首个在单GPU环境下实现8x、 8xQ、16x和16xQ等抗锯齿模式的GPU。同时G80的ROPs支持（frame%20buffer）FP16和FP32的浮点像素混合，无论是FP16还是FP32都能够进行多采样抗锯齿，因而从G80开始，NVIDIA的GPU首次实现HDR+AA的模式。

　　最新的%20GeForce%20GTX%20200系列GPU%20ROPs不仅全部支持上代产品的特性，而且还实现了最大32%20pixels输出每时钟，等同于八个ROP分区中每个ROP分区输出4%20pixels每时钟，同时每个ROP分区在8X%20MSAA下支持32%20色彩和Z采样每时钟。像素方面采用了U8（未签名8%20bit整数）数据格式，像素的混合比率是上代产品的2倍。跟仅有6个ROP分区以及支持24%20pixels输出每时钟，12%20pixels混合每时钟的上代产品相比，GTX%20280提升到支持32%20pixels输出和混合每时钟。能给用户带来更绚丽更真实的视觉效果。

在Geforce%20GTX%20280架构中共有8组ROPs分区

163.5%20提高了纹理表现回顶部

%203.5%20提高了纹理表现

　　在第一代统一架构G80核心中，GeForce%208800GTX显卡8个TPCs允许64%20pixel的纹理过滤每时钟，32%20pixel的寻址每时钟或者是32%20pixels%202x各向异性过滤（8bit%20整数），或者是每时钟32%20pixels的双线过滤（8bit%20整数或16bit浮点）。在后来推出的G92核心中，NVIDIA改进了纹理填充率的表现，GeForce%209800GTX显卡能允许64%20pixel的纹理过滤和寻址每时钟，支持64%20pixel的双线性过滤每时钟（8bit%20整数），或每时钟32%20pixels的双线过滤（16bit浮点）。

　　GeForce%20GTX%20280再次提升了纹理的过滤与寻址能力。在每个TPCs（流处理集组）中提供了一个双四纹理(共8个)处理单元，能够提供每时钟8%20pixels的双线数寻址和过滤，FB16双向材质过滤可以实现每时钟4%20pixel来操作，如果是FP2:1的各向异性过滤也可以每时钟4%20pixels来完成。内部集成的10个TPCs能同时完成每时钟80%20pixels的双线数寻找和过滤。除此之外，GeForce%20GTX%20280还创建了一个非常高效的程序来管理，使其纹理过滤表现能达到理论最大值，性能上较上代GeForce%209系列显卡有22%的提升。

芯片组

理论双线性过滤

3DMark%20multitex结果

测试结果/理论数值

GeForce %209系列

33600

25600

76.2%

GeForce%20GTX%20200系列

51840

48266

93.1%

17第4节%20并行处理架构：GPU将比CPU更主要回顶部

第4章%20并行处理架构：GPU将比CPU更主要

　　除了在图形处理方面的升级，GeForce%20GTX%20280同样是一款非常出色处理器并行架构处理器。跟上代产品相比，GT%20200是一款更纯粹的为并行计算优化的核心，浮点运算能力也达到了933GFlops，是目前CPU处理器的10倍左右。而NVIDIA提出的CPU+GPU的异构运算平台在目前众多领域有着非常大的优势。随着越来越多的应用程序对GPU并行运算的支持，相信未来GPU重要性超过CPU也并非天方夜谭。

并行处理器在各个方面都有优势

　　NVIDIA方面，上代G8X图形核心就采用了先进的统一渲染架构，拥有多达128个流处理器，引入几何着色器功能……这一切简直就是专为GPGPU运算而生！为了最大程度的发挥几何着色器的威力，G80还专门设置了一个名为流输出层(Stream%20Output%20State)的部件来配合它使用。这个层的功能是将Vertex%20Shader和Pixel%20Shader处理完成的数据输出给用户，由用户进行处理后再反馈给流水线继续处理。它可以直接读写本地显存。我们可以通过Stream%20Out把GPU拆成两段，只利用前面的一段几何运算单元。对某些科学研究，也可以通过stream%20out来利用GPU的数学运算能力，等于在CPU之外又平白多得了一个数学协处理器。我们可以这样理解G80图形核心的几何着色器和Stream%20Out单元：GS提供了改变图形数量的能力，Stream%20out提供了硬件Multi-pass的支持。可以预见，今后围绕这些全新的功能，又会有一批新的GPU通用计算程序出台。

%20GeForce%20GTX%20280的推出，再次把并行运算带到了新的高度。从GeForce%20GTX%20280的并行计算架构来看，与图形运算最大的区别在于，顶部省掉了专为图形处理的几何着色器（Geometry%20Shader）、Vertex%20Shader和Pixel%20Shader单元，取而代之的是一个基于硬件的线程管理器在顶部通过TPCs管理调度全部的线程。也就是说全部的线程都是由硬件管理调度的，而且在每个SM（流处理器组）里面都包含了一个本地高速16K的缓存，便于数据的交换。在架构的底部去掉了跟图形有关的ROPs（光栅化引擎），但仍然保留了tex%20L2缓存与显存接口，用于数据与显存间的交换。而且额外增加了一个Atomic单元，用于处理器数据间的冲突。

　　GeForce%20GTX%20280的统一架构还提供了2种不同的处理器类型，例如，对于整个TPCs来说，它的构造是一个MIMD（多指令流多数据流）模型，这是一种全面的并行处理，典型的是多处理机。而对于内部的SMs来说，是一个SIMT（单指令多线程）结构。SIMT在纯SIMD（单指令多）设计的性能和编程应用性上都有所提高。除此之外，从程序员的角度来看，%20由于采用硬件方面管理，SIMT还允许每个线程采用自己独立的路径和分支，所以没有必要手动管理分支内部的矢量宽度。

　　上代产品不支持双精度的问题也得到了解决，GeForce%20GTX%20280支持双精度浮点运算，符合IEEE%20754精度规范。

18第5节%20面向未来：CUDA应用方向回顶部

第5节%20面向未来：CUDA应用方向

　　随着显卡的发展，GPU越来越强大，第一代统一渲染架构的GTX%20280核心中就已经拥有240个单独的ALU，因此非常适合并行计算，而且浮点处理能力也远远优于目前的多核CPU，加上GPU为显示图像做了优化。在众多计算领域上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了，因此NVidia推出CUDA，让显卡可以用于图像计算以外的目的。CUDA(Compute%20Unified%20Device%20Architecture)工具包是一种针对支持CUDA功能的GPU（图形处理器）的C语言开发环境，未来还将发布Fortran语言版本。

　　CUDA（Compute%20Unified%20Device%20Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。跟以往的GPGPU概念不同的是，CUDA是一个完整的解决方案，包含了API、C编译器等，能够利用显卡核心的片内L1%20Cache共享数据，使数据不必经过内存-显存的反复传输，shader之间甚至可以互相通信。对数据的存储也不再约束于以往GPGPU的纹理方式，存取更加灵活，可以充分利用stream%20out特性。以上几点都将大大提高GPGPU应用的效率。例如，在游戏中我们可以使用CUDA来让GPU承担整个物理计算，而玩家将会获得另他们感到惊奇的性能和视觉效果。另外，用于产品开发和巨量数据分析的商业软件也可以通过它来使用一台工作站或者服务器完成以前需要大规模的计算系统才能完成的工作。这一技术突破使得客户可以任何地方进行实时分析与决策。同时，一些以前需要很先进的计算技术来达到的强大计算能力的科学应用程序，也不再受限在计算密度上；使用CUDA的计算可以在现有的空间里为平台提供更强大的计算性能。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力，使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。

　　CUDA工具包推出已有1年，它的推出马上受到了众多软件/游戏开发商以及科研机构和程序爱好者的欢迎，NVIDIA方面也将发布最新的CUDA%202.0版本。相信在未来，CUDA将会受到越来越多的领域的支持。目前，支持CUDA环境的GPU主要有采用统一渲染架构的显示核心。

19BadaBoom视频压缩——最快的视频编码软件回顶部

　　BadaBoom视频压缩

　　一直以来，视频编码的转化都是令用户非常头疼的一件事，一款顶级的处理器在转换容量巨人的视频文件的时候，慢如蜗牛的速度令人难以忍受，这也主要受目前CPU性能的制约。目前，NVIDIA与许多软件开发商在推广支持GPU加速的视频压缩软件，Badaboom就是一款支持GPU加速的视频转换软件，可以把mpeg2的视频转换为ipod或者iphone这样的所使用的H.264视频格式，据称速度方面是目前CPU转化的10倍以上，为了验证其真实性，我们就做了一次相关的评测。

　　由于目前这个版本仅支持GPU加速，所以我们并不能拿来与CPU进行同平台对比，考虑到目前参差不齐的编码软件，测试结果仅做主观参考，从软件显示的编码速度来看，编码帧数达到了130帧每秒，一个160M的MPEG-2文件压缩至iphone标准视频仅1分钟内就可以编码完成。这个速度相信已经超过了目前所有的CPU版本编码软件。

20Folding@home性能是CPU的100倍！回顶部

　　Folding@home

　　Folding@home是斯坦福大学的一个分布式计算计划可以利用分布于全球的计算机模拟复杂的蛋白质折叠效应，是一款典型的科学计算程序，目前已经推出了支持CUDA环境的版本。该项目的客户端程序可以使用客户机的CPU或NVIDIA%20CUDA%20enable%20GPU或者AMD%20Radeon对同一以项目进行求解，为了让大家最清楚的了解CUDA的GeForce%20GTX%20200系列GPU在科学计算方面与CPU和其他计算解决方案在性能上的区别。我们利用这款软件对GTX%20280做了一次评测，测试所采用的处理器为Intel%2045nm四核处理器QX9770，超频至3.6GHz（400x9）。

支持CPU版本运行速度非常慢

支持CUDA版本的Folding@home

　　从测试的过程可以看出，支持CUDA的Folding@home的性能非常强大，能明显的感觉到远超过CPU版本，测试结果也达到了669.7ns/day。这个成绩基本上是目前CPU的100倍左右，GPU强大的并行处理能力在这体现无疑。

21Photoshop%20CS4支持GPU加速回顶部

　　Photoshop%20CS4支持GPU加速

　　在加州圣克拉拉举行的2008年春季Editor's%20Day上，NVIDIA和Adobe带来了新的希望：代号“Stonehenge”(巨石阵)的Adobe%20Photoshop%20Creative%20Suite%20Next(也就是CS4)会加入对GPU、物理加速的支持。

　　如果您的计算机具有基于%20AGP%20或%20PCI%20的视频卡，则该计算机可能具有%20GPU（图形处理器）。%20如果您的%20GPU%20支持%20DirectX%209.x、Pixel%20Shader%20(PS)%201.3%20或更高版本，以及%20Vertex%20Shader%20(VS)%201.1%20或更高版本，则可以使用%20GPU%20加速效果，如“卷边”、“折射”和“波纹（圆形）”。%20这些效果充分利用了%20GPU%20卡的增强视频处理功能，给图像增加了三维真实感。%20

　　有了GPU加速支持，用Photoshop打开一个2GB、4.42亿像素的图像文件将非常简单，就像在Intel%20Skulltrail八核心系统上打开一个500万像素文件一样迅速，而对图片进行缩放、旋转也不会存在任何延迟；另外还有一个3D加速Photoshop全景图演示，这项当今最耗时的工作再也不会让人头疼了。
根据我们最新了解的消息，Adobe%20CS4套装将在今年10月1日正式发布，其中当然包括支持GPU和物理加速的Photoshop%20CS4

还可处理3D图片

22IE小插件Piclens让2D变3D回顶部

　　IE小插件Piclens让2D变3D
　　http://www.piclens.com/site/ie/

%20Cooliris推出的Piclens插件可以让google图片搜索以及youTube变为3D模式，通过用GPU硬件加速来实现图片浏览。但就是这么一个实用的小插件，没有GPU也是不行的。

可以把普通的2D搜索界面转化为3D界面

点击可以跳转到与图片相关联的页面

%20当我们使用一块GeForce%209600GT进行GPU加速时，cooliris满速率运行可达60fps，但换用集成显卡时，这个数值还不到24fps，前后的差距至少达到了2.5倍，集显与独显的产品在日常应用中终于体现出来了。

23连PDF都需要GPU加速回顶部

　　连PDF都需要GPU加速
　　http://www.adobe.com/cn/

%20早在2007年，Adobe就与NVIDIA展开合作，推出了支持GPU加速的PDF版本，Adobe Acrobat 8及Adobe Reader 8系列产品提供全新的页面显示着色技术，利用GPU来加速PDF格式下的绘图及显示功能，除了在效能上有所增进外，还可以利用GPU的可编程特性，进一步加强PDF文件中的2D内容展示效果。

　　据Adobe平台产品营销总Pam Deziel表示，NVIDIA GeForce与Quadro GPU使用者可利用PDF档案进行更多样的作业，同时也能更有效率。包括平移、卷动、缩放等，实际上Adobe Reader 8每一项运用到GPU的功能都有着显著的效能增进。使用者过去避免使用的一些应用，例如可进行极精细比例缩放的地图，现在都可以轻易地显示。

打开同样复杂的一幅图表，利用GPU加速你可能会获得更快的浏览速度

　　同样一个容量达到50MB的期刊读物电子版PDF文件，在使用传统方式打开时，读取时间为8秒。而使用GPU硬件加速功能时，打开时间不超过3秒，且在浏览时不会有拖沓感，PDF文件也变得流畅异常了。

24Google%20Earth独显与集显也有区别回顶部

　　Google%20Earth独显与集显也有区别
　　http://earth.google.com/intl/zh-cn/index.html

%20Google%20earth，是一款3D地图显示软件，它能够将地球上某一区域的地貌，以3D图像的形式展现出来。很显然，这类软件将会逐渐成为我们今后生活的必备软件。

%20在Google%20earth的设置界面，如果你拥有一个性能强劲的显卡，那么可以将画质设置为最高，这是在没有GPU加速功能的PC上无法体验的速度感。

没有GPU加速状态下

GPU加速状态下

%20当我们以最高画质量为限查找地图街景时，带有GPU的PC系统可以流畅地进行地图缩放。而同样的场景、同样的搜索速度、同样的处理器，在没有GPU加速时，运转速度简直无法忍受，在Fraps显示的速率上，使用GPU加速和不使用GPU加速情况下，速度落差达到了几十倍之巨，由此可见，GPU的作用和意义绝不仅限于游戏。

25Google%20picasa显卡加速更强大回顶部

　　Google%20picasa显卡加速更强大
　　http://picasa.google.com/intl/zh-CN/download/index.html

　　Google%20Picasa2是一款可帮助您在计算机上立即找到、修改和共享所有图片的软件，软件附带了常见的图片处理功能。

图片的处理以及旋转同样可以通过GPU加速

　　在使用NVIDIA显卡的电脑上使用Picasa软件，通过GPU加速，图片的拖放或文件夹切换，图片生成的速度都非常快，这跟我们采用NVIDIA的显卡是息息相关的。如果换用没有GPU加速的平台，搜索图片时生成速度是有明显差异的。

26PICTOMIO速度更快回顶部

　　PICTOMIO速度更快
　　http://www.pictomio.com/Default.aspx

%20Pictomio是一个类似于Picasa的图片浏览和管理软件，它提供了极其华丽3D图片浏览效果。如果PC中具备GPU，那么完全可以利用强大的GPU将浏览方式变更为3D模式，无缝缩放、渐变式切换，效果十分惊叹。但如果没有GPU，平面的交互效果实在是太过让人失望了。

%20如你所见，视频功能的日渐丰富是当今计算机发展的主流趋势，这些软件通过GPU%20的提升可以明显的得到更快、更连贯的显示效果。而这些性能的改变单靠提升CPU的运算性能，是无法完全实现的。可以说，GPU强大的浮点运算能力转化为全新的应用方式，将成为PC机正在经历的一场全新变革；我们的数字生活也将会因GPU的改变而步入全新的视觉时代。

27第6节%20GTX280：最先进的物理特效回顶部

第6节%20GTX280：最先进的物理特效

　　随着NVIDIA收购AGEIA公司，业界最先进的PhysX物理加速技术的加入，让大家对于GPU支持物理加速期待已久。随着GeForce%20GTX%20280显卡的面世，最新的PhysX物理加速技术终于浮出了水面，按照NVIDIA自己宣称的PhysX是目前最先进的物理加速引擎。

　　PhysX是目前支持平台最多的物理加速引擎，他可以支持目前主流的X86处理器、AGEIA公司的PPU、东芝公司的Cell以及支持CUDA环境的GPU。其中，最令人期待的就是支持CUDA的版本。借助于目前强大的GPU并行运算能力，支持CUDA环境的PhysX物理加速引擎能给用户带来最为真实的性能体验。

　　随着物理引擎的加入，以后我们就可以在游戏中体验最为真实自然的服装、毛发、烟雾、爆炸等画面，可以进一步的解放目前不堪重负的CPU。

28第7节%20新的代言人：美杜莎DEMO欣赏回顶部

第7节%20新的代言人：美杜莎DEMO欣赏

　　戈耳工美杜莎是希腊神话中的蛇发女妖三姐妹，居住在遥远的西方，是海神福耳库斯的女儿。她们的头上和脖子上布满鳞甲，头发是一条条蠕动的毒蛇，长着野猪的獠牙，还有一双铁手和金翅膀，任何看到她们的人都会立即变成石头。宙斯之子珀尔修斯知道这个秘密，因此背过脸去，用光亮的盾牌作镜子，找出美杜莎，在雅典娜和赫耳墨斯的帮助下割下了她的头。从美杜莎的躯体里跳出双翼飞马珀伽索斯和巨人克律萨俄耳，他们都是波塞冬的后代。珀尔修斯躲避美杜莎两个姐姐的追杀时，在空中遇到狂风的袭击，被吹得左右摇晃，从美杜莎的头颅上滴下的鲜血落到利比亚沙漠中，成为毒蛇。%20

　　在蛇发女妖三姐妹中，只有美杜莎是凡身，她的姐姐丝西娜和尤瑞艾莉都是魔身。据说美杜莎曾经是一位美丽的少女，因吹嘘自己比雅典娜长得漂亮而被这位智慧女神夺去了她的所有美丽，只留给她一个丑陋的妖怪之躯。%20

　　本作是由NVIDIA自主开发的一款全3D实时渲染3D%20DEMO，在DEMO中，NVIDIA将目前GTX%20280显卡所支持的特效发挥的淋漓尽致，画面效果、人物模型、包括人物皮肤、衣服、烟雾、光影都做的非常逼真。在DEMO中我们还可以实时观测到画面所采用的3D多边形。

29回顶部

30回顶部

31第8节%20最强DX10显卡GTX280揭秘回顶部

第8节%20最强DX10显卡GTX280揭秘

　　GeFore GTX 280显卡在体积上仍然保持着上代旗舰产品的体型，外观设计也基本上保持一致，硕大的散热器把PCB板包裹的严严实实，更加深了其神秘感。GeFore GTX 280显卡作为目前的顶级显卡，基于全新的GT200-D10U核心，仍然采用了65nm工艺制程，拥有240个运行在1296MHz的流处理器，显存位宽也提升至其所未有的512bit，Rops与纹理单元也提升至64/80个，默认核心/显存频率为602/2200MHz。