PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

荣耀与辉煌:回顾显卡发展史的兴衰荣辱

  [复制链接]
跳转到指定楼层
1#
点击数:78471|回复数:189
本帖最后由 hyenax1950xtx 于 2013-4-14 13:30 编辑

前言:

本文在于给大家呈现一个图形行业发展历程,很多刚刚接触这一领域的玩家并不清楚这个行业曾经有过太多值得回味的故事、有着太多的梦想、荣耀和沉浮,当我们看着现在的Nvidia和AMD包括Intel的图形芯片时,又可曾了解他们的历史,了解这三位巨人的脚下曾经也有过巨人,在不算太遥远的年代,这个行业的纷争如同我们历史上的春秋时期一样,玩家可以选择的产品远不止A卡和N卡。

纵观PC图形处理器的发展史,没有一个芯片制造商能够永远站在最高峰,在腥风血雨的道路上,Trident曾被S3狠狠的教育、S3在3dfx面前才知道什么是真正的3D、3dfx又被Nvidia彻底的征服,而厚积薄发的ATI也曾将不可一世的Nvidia请下王座,PC图形处理器的发展史一点也不输给CPU的发展史,现在就让我们坐上哆啦A梦的时光机,细细品味PC图形处理器这瓶浓郁芬芳的老酒。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

参与人数 19活跃度 +115 收起 理由
brent24 + 5 小白受教育了!
kululu + 5 詳細分析~不頂不行
wl00560 + 5 专门来顶贴的
haierccc + 5 经典好文!
醉梦寻花 + 5 很给力!
蕾丝黄瓜 + 5 感谢hyenax1950xtx 版主您撰写的文章.
lqcmiw + 5 很给力!
whgp05 + 5 很给力!
TouchNet + 10 很给力!
donnyng + 5 没买过几片的路过。。。
strikerzhj827 + 5 期待处理器篇 感谢分享
mytdl + 5 很给力!
einstein86 + 5 神马都是浮云
十万铁甲 + 5 赞一个!
哇噻噻 + 20 給H大大搞费~
liaobot + 5 我很赞同
flhssnake + 5 很给力! 给你稿费
xf20062006 + 5 赞一个!
ggxuelei + 5 很给力!

查看全部评分

2#
hyenax1950xtx  楼主| 发表于 2013-4-11 21:53 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-5-24 15:49 编辑

PC图形处理器的制造商:

在了解PC图形处理器的过程中,我们需要先要了解芯片制造商,芯片制造商之间的角逐决定了这个行业的发展

芯片制造商的数量远远超过了我们现在所熟知的I/A/N的数目,我们不能逐个品味,也就只能挑选曾经风声水起的一些进行介绍了。

卖廉价货的霸主:Trident



泰鼎微系统(Trident Microsystems, Inc.),简称“泰鼎”或“Trident”,是一家供应平面屏幕显示屏(包括液晶显示屏、等离子显示屏、HDTV等等..)之图像处理器(Video Processor)芯片的公司,过去也曾是提供个人电脑显卡芯片与声卡芯片的厂商。

这是SVGA时代的巨人,其市场占有率绝对可以令现在的Intel、Nvidia、AMD咂舌,凭借Trident 8900/9000系列牢牢的坐稳了市场,在硬件加速时代凭借Trident 9680也能够媲美对手S3的产品,但True Color模式的性能仍然不如对手,从而Trident开始走下历史的主流舞台。

后期只能依靠Trident 3DImage系列的9750/9850的彩霸卡在市场上摸爬,直到1999年憋出一片像那么一回事的3D 加速卡Trident 9880(Blade 3D),这是一款面向低端市场的显示核心,采用2X AGP总线接口设计,符合PCI 2.1标准,支持DME(直接内存执行)、230MHz的RAMDAC、8M 105MHz的SGRAM 、128位3D加速引擎,可支持32位真彩色,支持微软DirectX 6.0的DXT1/DXT2压缩贴图格式和非均向过滤贴图(ATF),设有4K双路联合贴图缓存,并支持4X的写块操作。贴图引擎中整合了多重解析、远景修正、半透明处理以及多达11层的MIP映射等功能。最大支持16位的Z Buffer,三角形生成速度最高达250万/秒,像素填充率达1.1亿/秒,这与当时主流高档显卡的性能极为接近。此外, Blade 3D集成了DVD和AC3解码技术,并且提供TV-OUT接口。但其性能已经无法匹敌同一时期其它厂商的产品,只能在300元市场上同快要退市RIVA 128/128ZX厮杀,我就曾经买过Trident 9880其表现还是可以的。但由于Intel突然杀进低端集成芯片市场,让Trident在低端市场这样的栖身之地也无法安保,只能找到别的芯片组制造商VIA和ALi进行合作,将Trident 9880集成到他们的芯片组上。

到了2001年憋出来的Trident 9880(Blade XP/T64)又是300元的市场,当然其性能也毫无亮点,后期Blade XP4/XP4E/XP8/XP10更是石沉大海。



风雨飘摇的Trident终在2003年6月宣布公司将于年底进行重大改组将从前的显示绘图芯片部门完全售与XGI,从此转往平面显示图像处理器发展(机顶盒芯片)。并在2012年1月4日,Trident宣布申请破产保护,一代霸主终于给自己画上了圆满的句号。

一直玩不转新技术的霸主:S3



S3是1989年成立的老牌显卡制造商,其立足点是Sight、Sound、Speed(视频、音频、速度),说起S3,这是最让我感到遗憾的一位,S3是一个有着悠久历史的图形芯片制造商,是2D时代无可争议的霸主,其市场占有率也不是现在的Intel、Nvidia、AMD能够比拟的,其在2D画质领域造诣到现在也是能够让人津津乐道的,凭借这个优势S3一举击溃了Trident,其经典的产品比Trident多多了。

说到S3的崛起,还源自S3 Vision 805和S3 Trio32这两款早期典型代表产品。其中S3 Vision 805可以构成低价位的32位图形卡,而S3 Trio32则是一款低档图形加速卡。并且使用S3 Trio32的图形加速卡显示缓存可扩充到2MB,刷新率能支持75Hz,还可以支持Windows 3.1  DCI显示接口。让S3获得辉煌成就的正是后期到来的S3 765又叫Trio64V+,高速的2D性能和只需要66MHz CPU主频的VCD软解压实力,迅速成为586(Pentium MMX)时代的装机标配,加上早期的Voodoo仅仅只具备3D加速功能,几乎人人都拿S3 Trio64V+作为自己的2D卡,包括我自己。



S3于1995年推出的ViRGE为2D及DRAM帧缓冲显卡带来了新标准,而一个循环的EDO计时使得当时的ViRGE/325成为了最高评分的DRAM基础2D加速卡,做为第一代3D加速卡的典型代表,是在主流的2D图形加速芯片(Trio64+)中加入简陋的3D加速引擎的产物,支援DirectDraw、Direct3D、软件MPEG加速、平面、透视、阴影效果、双/三线性材质贴图等简单的3D功能,在实际应用中效果并不明显,被戏称为“3D减速卡”。依赖S3当时的影响和便宜的价格,以及优秀的2D性能使得这款显卡也创下了不菲的成绩,虽然它在3D方面也只是Voodoo卡的标配。



不堪失败的S3,于1998年推出了其真正意义上的第一块3D加速卡Savage 3D,128位总线结构及单周期三线性多重贴图技术,最大像素填充率达到了125M Pixels/s,三角形生成率也达到了每秒500万个。支持Direct3D与OpenGL,最大显存容量可达8MB SGRAM或SDRAM,支持AGP 4×规范,同时也支持当时流行反射和散射、Alpha混合、多重纹理、衬底纹理、边缘抗锯齿、16/24位Z-buffering、Tri-linear Filtering(三线性过滤技术)等技术,S3还是在它的身上引入了很具意义的S3TC材质压缩技术。不过S3那个糟糕的驱动在其3D性能上已经形成并一直深远的影响着S3的产品,按照Savage 3D的规格来说其性能并不至于会落后对手一代,一些测试项目中还是能够和TNT一较高下的。



显然驱动上的问题并未引起S3的重视,他们又马不停蹄的搞出了Savage 4,Savage4采用0.25微米制程,提供32位的贴图处理,可达2K×2K最大材质分辨率。内建300MHz RAMDAC 、32位Z-Buffer、8位元Stencil Buffer。 当时唯一可同步使用单一周期多重材质贴图( Single Pass Multi-Texturing)及单一周期三线性滤化(Single-Cycle Trilin eat)功能的卡,在执行Quak Ⅱ、Unreal及Half-Life等高阶游戏时可达到更好的效果。但糟糕OpenGL支持使得Savage 4也并不全面,受到糟糕驱动的影响Savage 4又未能完全发挥出自己的实力,只能降价销售,图便宜买过Savage 4 Pro的我,第一次知道驱动糟糕能把人坑到什么地步,还好后期修复了不少算是能用了,不过其优秀的2D性能和DVD播放能力还是值得称道的。



糟糕的驱动还没有完结,这次是1999年7月发布的Savage 2000,它采用了全新的核心架构,采用0.18微米制程,128bit显存带宽,核心采用2X2架构,每条像素流水线每个周期能处理两个多重纹理像素,总共4个。是较GeForce 256之后第二张支援DX7和支援硬件T&L(S3称之为S3TL)的显示卡,350 MHz RAMDAC。老实说,我当时对Savage 2000是充满了期待的,因为这是Nvidia凭借Geforce 256即将要一统江湖的时候,唯一能与之叫板的显卡,Savage 2000 SDR可以说在表现正常的时候和Geforce 256 SDR是不分高下的,Savage2000的S3TL引擎与Geforce256 T&L类似,它们之间并不一样,彼此都有互胜之处。Geforce256 T&L在同一时间内处理8个不同的光源时会出现性能下降的情况,而S3TL则不会出现这种问题。S3TL和T&L的共通点都是能够独立处理几何转换和光源处理,通过Diectx7 T&L层编写代码可以支持硬件T&L以及SSE、3DNOW!指令集,使Geforce256和Savage2000的渲染速度提高,释放出CPU运算负荷。但是我们可以从目前的Geforce256测试中看得出,如果游戏不支持T&L而采用自己的软件T&L引擎,那么它们都一样帮不上忙。因为T&L不支持Lightmap加速,对于采用了独特Lighting引擎的Quake3,并没有什么作用,可能会花费多余的运算时间,使游戏性能下降。但其驱动糟糕到什么程度呢?先不论S3TL到最后S3被收购时都没能在驱动里面打开,其引以为傲的S3TC技术在加入DX并成为标准技术后,也未能正常使用,还跑不过Geforce 256。



S3在发布Savage 2000以前收购了著名的板卡制造商Diamond,生产的第一款板卡Diamond Viper II正式Savage 2000,Geforce 256的出现干掉的可不仅仅只是S3,但同一时期唯一能够叫板Nvidia的正是Savage 2000,非常可惜的是空有一身武力的Savage 2000死于驱动,最终不能为S3扭转败局,江河日下的S3被芯片组制造商VIA收购,而又收购了Cyrix和IDT的VIA,实际是即Intel之后的第二家能够同时生产独立显卡、芯片组和x86 CPU的厂商,今天的AMD只是第四家而已。VIA总共收购了两个X86团队,一个是Cyrix,另一个就是IDT的人马小组,初期未能上市的CyrixIII是由Cyrix设计小组设计的,但是设计周期过长,提升频率很费劲,而且Cyrix的老毛病浮点效率偏低,结果试制品出现的时候就已经面对的是毒龙和赛扬了,又没有对应的高端产品,结果根本就没量产,VIA将这支团队解散,而后启用IDT的人马小组,正式上市CyrixIII到现在的VIA的所有X86产品都是这是IDT的人马小组设计的。

被VIA收购以后的S3并未去积极修复驱动确保Savage 2000的延续,而是埋头生产集成显卡,长久的一段时间内S3斗毫无作为,直到2004年才不声不响的发布DeltaChrome系列,共有三款产品:高端DeltaChrome F1、中端DeltaChrome S8和低端DeltaChrome S4,这三款产品均采用8-pipe、DX 9图形核心,0.13微米制程,而这三款产品的初衷却非当初Savage 2000那样的豪言壮语,而是显示技术被同为集成型芯片组竞争对手的SiS Mirage系列和Xabre系列慢慢追过,和自带Intel Graphics Media Accelerator 900显示核心的915系列芯片组的落后差距愈来愈大,VIA不得不重新研发独立显卡,为预备将来将新技术融合在集成型主板而生。没出意外,VIA(S3)又带来了一些新的玩具,低耗电、完整支持HDTV、硬件旋转屏幕等。2006年,VIA(S3)又发布了第二代DX9 PCIe 3D显卡 Chrome S27 和 S25,这二款系列产品采用全新的90nm制程, 改进 3D 引擎,加强和更新的视频输出和特殊效果, 例如HDMI 和 HDCP,以及2008年的S3 Chrome 440 GTX,但反人类的驱动依然没有画上休止符,直到2011年7月6日,为了拿专利和苹果打官司的宏达电宣布以3亿美金买下S3 Graphics,也许,我们能够期待的是S3能够在移动图形领域再次复活。

一直都靠吃老本的霸主:3dfx



1994年,硅谷图形(Silicon Graphics)、数字设备公司(Digital Equipment Corporation)、MIPS计算机系统(MIPS Computer Systems)和Pellucid等公司联合成立了3DFX,并将其目标定位为以合理的价格提供世界上性能最高的3D游戏显卡。3dfx的灿烂和辉煌在显卡发展史上就像昙花一样绽放而过,虽然没有别人的历史悠久,但它却开出了最美丽的花朵,1995年11月6日,人类历史上最伟大的显卡——基于SST-1架构的Voodoo横空出世,标志着PC彻底进入3D时代,仅仅两年时间就告诉了S3什么叫做真正的3D,确立了业界的霸主地位。

Voodoo应该是世界上市场占有率最高的3D芯片,当年它的市场份额高达85%,在Quake2、Doom等经典游戏中,当时的Voodoo几乎是玩家们唯一的选择,毕竟众多3D游戏都为3dfx专用的Glide3D API进行优化开发。3dfx为了避开S3和Trident的锋芒,巧妙的将Voodoo采用子卡形式,配合主卡的2D显示使用,专门的3D芯片可以在相同的开发成本下,提供更佳的3D性能,配合先进的Glide3D API从而也迎来了一个3dfx的Voodoo王朝。后来发行的Voodoo Rush实际上就将Voodoo芯片组合Alliance 2D芯片集成在同一块显示卡上。3D功能没有改变,但是2D速度偏慢,且兼容性不如Voodoo,也就给S3留下了喘息的机会。



1997年3月31日3dfx剥离出其板卡制造部门,独立为Quantum3D(量子三维)公司,目前为美国军用电子设备制造商。把3dfx推向颠峰的就是1997年11月发布的Voodoo 2,Voodoo 2依然是一款纯3D加速卡,不具备2D显示功能。不过相比第一代Voodoo显卡,Voodoo 2使用了很多革新的技术,首先是时钟频率由Voodoo的50/50MHz一下提高到90/90MHz,提高了将近一半。显存数量的也从Voodoo的4MB一下扩充到了8MB或12MB,像素填充率也达到90M Pixels/s,更为重要的是首次采用了“单周期双纹理”技术,使Voodoo2在相同时钟周期内能能比Voodoo多处理一倍的数据,提性能得到成倍的提升。并且Voodoo 2还加入了SLI技术(和现在Nvidia使用的SLI并不一样),可以说Voodoo 2是当时每一位玩家都梦寐以求的显卡,Voodoo 2 SLI更是如此,我也有幸用Voodoo 2和S3 Trio64V+的组合完美的体验了Diablo 2。



3Dfx改名为3dfx,并发布了基于Avenger 复仇者架构的Voodoo 3,想坐吃老本不思进取的3dfx,没有把大把的钞票拿去好好研发Voodoo 3,而是拿去收购了STB(当时与Diamond齐名的板卡制造厂商),Voodoo从此走上自主经营品牌显卡的路线,而不再只是一家芯片提供商,这种自断渠道的行为不仅把自己的盟友退给了Nvidia,过高的显卡制造成本把临危寿命的Voodoo 3也拉下了水,Voodoo 3充其量不过是Voodoo 2和Banshee的结合体和提频版,最老火的是只有16MB显存且不支持真正的AGP和32位色彩渲染,同时还不开放Glide3D API的授权也不积极支持微软的D3D技术,无形中又给自己树了一个大敌:微软



被Nvidia的TNT2蚕食得市场已经日薄西山的3dfx,在其粉丝的一片呼唤中,于1999年11月终于发布了基于VSA-100的Voodoo 4 4500,VSA-100说起来还是吃老本,3dfx玩起了胶水的把戏,希望能够用性能并不怎样的VSA-100进SLI串联来击败Nvidia,理论最大支持32颗VSA-100绘图芯片串联,VSA-100绘图芯片由1400万个晶体管所组成,采用0.25微米制程,由6层金属层构成。VSA-100拥有32位RGBA色彩着色、24位深度缓冲区(Z、W轴)、8位模板缓冲区(Stencil Buffer)、32位材质贴图、材质分辨率高达2048×2048、支持微软DirecxX的DXTC材质压缩及3dfx日前公布的FXT1材质压缩技术、4倍速AGP架构及DVD硬件解压缩加速等功能,VSA-100唯一值得表扬的就是3D绘图处理功能终追赶上主流的3D绘图芯片的水平,最头大的问题是对D3D的消极支持和对Glide3D API过度依赖导致其不支持硬件T&L,而解构又类似NVIDIA Riva TNT2 Ultra,主要的差别在于更高的工作频率和很多看起来像是全新的功能。

实际上,Voodoo 4仅是在Voodoo 3系列显卡上增加了AGP材质处理,和更大的材质处理功能,支持32位色深,24位Z缓冲和8位模板缓冲。如果这款显卡在1999年11月上市,那么3dfx还不至于如此,但直到2000年夏天Voodoo 4显卡才上市,这时候和那些早在一年前就已上市的竞争对手相比,其唯一无可争辩的优点就只剩下价格和Voodoo的号召力了。



采用两颗VSA-100芯片制造的Voodoo 5 5500,绝对是初代火炉和电炉的代表,但直到2000年6月才发布,虽然依靠两块强大的VSA-100芯片,Voodoo5 5500完全不怵它的对手GeForce 2和Radeon 256,但是高昂的价格和糟糕的SLI驱动使人们对它敬而远之。而最致命的,则是它缺少了硬件T&L,当3dfx信心满满的准备为微软的XBOX游戏机制造显示芯片的时候,微软却选择了3dfx年轻的对手nVIDIA的图形芯片,同年8月,nVIDIA控告3dfx侵权,整个Voodoo 王朝成为了过去式。



作为最后的挣扎,3dfx打出了最后一张王牌,怪兽级的显卡Voodoo5 6000发布了!集成了四片VSA-100,拥有128M的SDRAM显存,拥有1.33G像素/秒和1.33G纹理像素/秒的填充能力的Voodoo5 60000一时间让3dfx再次在理论上登上性能的王座。梦幻级拥有四颗VSA-100芯片的Voodoo 6000,仅存于世的50片样子成为玩家手中的高额藏品。



2000年12月25日被其主要竞争对手NVIDIA收购,NVIDIA为此仅仅付出里7000万美元现金以及100万股票。其实我从不为3dfx感到惋惜,因为其创新的能力在Voodoo 2时代就永远的凝固在时间的长河中。

图形界的一朵奇葩:Matrox



Matrox Electronic Systems Ltd是一家加拿大公司,中文名为迈创。公司位在加拿大的魁北克省(Quebec)南部的多瓦勒(Dorval)市,该公司专注于个人计算机内的显示卡,而创办人为Lorne Trottier与Branko Branko Matić,该公司的命名也来自于此:Matić的"Ma"与Trottier的"tro",最后再加上x(x取自英文“excellence,优秀、卓越”的x)就成了Matrox。Matrox Electronic Systems 成立于 1976 年加拿大的蒙特利尔。

Matrox几乎从不授权别人生产自己的芯片,一直都是自己生产,其产品的过人之处通常和“完美画质”四个字以及多路输出功能挂钩,在视频和色彩方面一直都远超民用级,3D性能并不出彩,产品的价格则是各种仰视,但最让人意外的是它现在还活着。过去很长一段时间,Matrox的显卡一直有着最佳的2D显示性能,因此被ZD Davis的PC绘图视频测试软件认定为2D显示性能的测试基准,以Matrox的性能表现为100分,测试其它业者的显卡能获取几分。Matrox的显卡+骚尼的特丽珑=完美画质,人们心中一直是这么认为也是一直这么去测试。当时3D Mark 2000的最后一项环境凹凸贴图也只有Matrox的显卡能跑。

Matrox早期的产品如Ultima、Impression和Athena等几个系列的产品主要针对Compaq、IBM、HP等品牌机设计制造,走进大家视野的就是MGA Mystique 220,220表示显卡输出带宽最高支持220MHz,在当时来说是比较强悍的,显卡使用2MB WRAM显存,可扩展到4MB,在那个时代曾是画质和价格最理想的平衡点。



Matrox的MGA Millenium I&II是Matrox在PC上巅峰,MGA Millenium=2D画质的极限,尤其是当时Nvidia显卡的2D画质一直为人所诟病,并且一直到Geforce 4 TI的时代才得到解决,相当长的一段时间内Matrox都在和Nvidia打画质和速度的嘴炮。如果说S3的显卡是Voodoo 1&2的标配,那么MGA Millenium I&II就是高帅富配置了。(MGA Millenium I&II的图片,很遗憾,我没找到)

1998年4月发布的Matrox MGA G100是Matrox第一代3D图形芯片,最大支持8MB SGRAM,分辨率可高达1600×1200,真正支持Bi-linear Filtering(双线性过滤)及Tri-linear Filtering(三线性过滤),虽然它的2D性能相当出色,但3D性能却略稍于其它对手,加上价格昂贵,反响并不高。



同年5月发布的Millennium G200内置可编程的浮点安装和填充引擎,支持Direct3D和OpenGL,支持多纹理贴图和高精度的32位Z-Buffering。使用了一种被称为 VCQ(Vibrant Color Quality Rendering)的技术,能够提供高质量的色彩输出,并且采用了新的SRA(Symmetric Rendering Architecture,对称渲染结构)技术,提高了2D加速和视频操作的性能。但是在3D性能上还远远不及RIVA TNT以及Voodoo2,而且价格高昂、不能良好支持OpenGL也是其美中不足的地方。



Matrox能够和3dfx、Nvidia三足鼎立的产品就是1999年3月发布的Millennium G400,这款产品2D完美度比前代更高,3D方面亦新增支援环境映射。G400最大卖点就是高质素2D画质、3D环境映射、凹凸贴图和双显示输出。G400分为单VGA接口输出与双VGA接口输出版本,并且分别有搭配16MB和32MB显存的版本,支持SDRAM或SGRAM显存,另外可通过外接专用扩展卡令G400支持DVI输出。后期Matrox公司推出了基于G400的频率提升版Matrox Millennium G400 DualHead MAX(简称G400 MAX),其性能丝毫不亚于Voodoo 3 3500和Riva TNT2 Ultra,尤其是在高负载下完胜对手,但其昂贵的价格和屎一样的OpenGL支持能力,使得这款优秀的芯片未能胜出角逐,G400 MAX可以说是性能和画质的制高点。为什么说Matrox几乎都是自己生产显卡而不是“完全”,原因就在G400的实际生产企业有两家:Matrox的自产卡与唯一的第三方授权商技嘉,而技嘉所生产的G400系列显卡只能在技嘉自家生产的主板上使用,但价格低于Matrox的自产卡,我就曾咬牙购买过技嘉的G400。后期的核心工艺改良版Millennium G450并不出彩,其性能仅仅领先G400不到25%,这在2000年是无法与Geforce 256相抗衡的,就在Matrox粉丝们期盼G800发布的时候,G450的改良版G550来了,粉丝们对Matrox的失望一点也不亚于Voodoo粉丝们的绝望。



Matrox最让人扼腕叹息的要数2002年3月份发布的MGA Parhelia 512,沉寂了两年之久的Matrox首次公布了Parhelia(幻日) 512显示芯片规格,这是业内首款512位的GPU,并且还是微软发布DirectX 9.0的样卡!没有任何预兆,Parhelia(幻日)  512的出现照耀了Matrox的粉丝,也刺瞎了其它玩家的氪金眼,让我们看看这款显卡的技术:四重顶点处理单元阵列、硬件位移贴图、36阶光影处理阵列、64 SuperSample 材质滤镜,16倍高色差抗锯齿功能(FSAA)、环境游戏(我们现在三屏的前身3072x768)、超锐利显示(Ultra-Sharp Display)、10bit Gigacolor亿彩技术、字体沟纹柔化。这些火星级的专业级功能出现在民用卡上也注定了,Matrox和Nvidia要展开一场画质与速度的较量,最终也不知是高昂的价格没能让玩家买账,还是过度迷信FPS速度的理念根深蒂固,最终拥有“超级速度”的GeForce4 Ti战胜了没有过多在DX9上倾注游戏单元Parhelia(幻日) 512,而犹如天神下凡的Radeon 9700 Pro更是给了Parhelia(幻日) 512致命的一击。



如今的Matrox采用扁平化的市场,目标客户非常广泛,但大多是基于多屏需求的市场。

没有得到女神的眷顾:SiS(XGI)





矽统科技股份有限公司(Silicon Integrated Systems,简称SiS) 是芯片设计公司,1987年成立,坐落于台湾新竹科学园区。并于1997年8月于台湾证券交易所正式挂牌上市(代号2363)。SiS和VIA一样是芯片组的制造商,但不同于VIA,SiS是有自己的图形芯片研发团队的,在收购了rise之后,SiS是第三家具有x86 CPU、独立显卡和芯片组制造能力的厂商。SiS的图形芯片,大多是为了整合芯片组而设计的,但也不乏其特色的产品。

SIS6326为硅统公司推出的首款独立显卡,于1997年发布。SIS6326支援PCI和AGP 1X接口,并搭载4MB~8MB不等的显示内存。SIS6326显示核心采用32位元VLIW架构、208针脚PQFP封装,SiS 6326一大特点就是内置了DVD硬件加速功能,内建Run length与zigzag解码器、IDCT(Inverse Discrete Cosine Transform,反离散余弦转换)逻辑电路、Motion compensation数位逻辑电路,不需要其它DVD硬件加速芯片辅助就支援DVD/MPEG-Ⅱ影像加速,对比软件模拟可降低80%处理器使用率,这在当时是很有实用性的,因此在播放DVD时比起其他显卡更具优势。SIS6326纵使没有出众的3D性能,但影片播放效果出色。它支援MPEG-2硬件加速,不需要其它辅助芯片,使当时低阶的Celeron处理器也可顺利播放DVD。它也支持NTSC或PAL的电视信号输出。其低廉的售价使它在低端市场赢得不小的份额,其市场寿命也长达1997~2002年。中华民国政府过去在推动扩大内需采购时,曾大量采用SIS6326显卡作为当时政府、学校采购电脑的主要显示输出设备。



SiS300是继SIS6326,SiS推出的第二代绘图芯片,于1999年在Computex Taipei 99发布,于2000年正式推出市场。SiS300的绘图引擎称为Rendering Engine。引擎利用MIP map表现出远近的层次,支持各种3D特效,同时搭配高精密度的Z-testing,并通过支持大容量显示内存来满足需要。亦支援最大64MB大容量显示内存,也是当时支援最大内存容量的显卡。SiS300亦继承了SiS6326的优良DVD硬件加速。SiS300更可配合当时随卡附赠的3D立体眼镜,令3D游戏更真实。但由于延迟了发布,当SiS300在2000年正式推出市场后,已被强劲的nVidia TNT2盖过气势。其后SiS推出SIS305作出应对。

SiS305是继SIS300后,SiS于2002年推出的绘图芯片。SiS305是因为SiS300的失败, SIS迫不及待推出的产品,前者是后者的加强版。显示核心是128位元架构,内建渲染和设置引擎。核心频率是150MHz,可以提供100M/s的像素填充率。曾经有无良商人,将SIS305显卡冒充为NVIDIA的TNT2 M64显卡。纵使显卡BIOS上的贴纸印着M64的字样。进入系统检测后,显示出是一张SiS305显卡。

SiS315 由SiS设计,于2000年发布。由于其在相对低廉的价格下提供了不错的3D加速性能,并具备较优秀的视频回放效果,亦取得了少量的市场销量。随后,SiS将此核心技术整合至SiS 650整合型芯片组,而代号则変为Mirage 1。而SiS 661FX亦整合了此图形核心技术。SIS315采用了第二代贴图技术,每秒可以产生四百万个三角形、一亿个绘图点的填充率,三角图形建置的引擎,而且其百分之百的硬件加速功能,在处理3D影像时,效果相当不错。此外SiS315还特别设计了一个最佳化的3D PIPELINE结构,以减少在贴图读写时的额外负担。



Xabre(代号为SiS 330)是全球第一款AGP 8X的GPU,由SiS的多媒体事业部设计,架构超越nVidia同级产品。但由于驱动有问题,显卡厂商不太愿意推出采用此GPU的显卡。SiS本来想推出Xabre II,厂商反应冷淡。最后,SiS将多媒体事业部与Trident的绘图卡部门合并,另组新公司,名为XGI Technology Inc.,推出Volari系列GPU,亦即Xabre的后代。Xabre400作为第一款正式支持AGP8X的家用显卡,其独创的FMC(Frictionless Memory Control)架构、具备硬件Pixel Shader和软件模拟Vertex Shader,4条渲染流水线、其中每条流水线配备2个贴图单元等技术令到Xabre400底打败它的主要对手GeForce4 MX440,有些测试项目甚至赶上Radeon8500LE,但其同样面对驱动的问题,不过最重要的问题是这款生不逢时的产品出现在了Nvidia和ATI的高压挤压下,使得渠道的推广举步维艰



图诚科技股份有限公司(XGI Technology Inc.)是位于台湾新竹市的集成电路设计公司,2003年由硅统科技的多媒体事业部分离成立,并合并了泰鼎微系统的绘图卡部门,产品以绘图芯片为主。图诚科技的英文名称XGI是"eXtreme Graphics Innovation"的缩写。旗下最著名的品牌是Volari系列显示芯片。

2004年9月16日,图形芯片界新生力量XGI公司在北京召开新闻发布会,正式向业界及媒体宣告进军中国大陆市场。面对众多业内知名厂商代表和新闻媒体的记者,XGI展示了旗下Volari V8、Volari V5、Volari V3XT、Volari V3系列产品,并且对最新的PCI Express产品规划进行详细阐述。但这些却不能打破Nvidia和ATI垄断的格局,当SIS用自己在SIS 315上积淀的技术去挑战GeForce2 MX、Radeon 7500两位市场明星的时候,就发现即使是在低端,nVidia和ATI已经远远将其它品牌的最高端抛在了身后,这也注定了XGI的悲剧命运,可以说是壮志未酬身先死,其产品在僵化掉的市场中无法寻求到一席生存之地,可以说得不到女神眷顾的SiS(XGI)是生不逢时,如若在2000年以前推出对应时代的产品,那么说不定真的可以三分天下有其一。



2006年3月6日,ATI宣布并购XGI在中国上海的联盟公司远弘科技(MacroSynergy),同时还接收了XGI位于美国加州圣塔克拉拉的分部和工作人员。2010年10月1日,硅统全面购并图诚,合并旗下显示芯片部门。到今天SiS仍然还在为他的产品提供Windows 7的驱动支持。

被业余推倒的专业:3Dlabs



3DLABS(三维实验室)成立于1984年,曾是一家无厂半导体公司,目前已歇业。3DLABS总部位于美国加利福尼亚州的森尼韦尔。3DLABS主要开发高端绘图芯片。其著名产品是Wildcat与Oxygen系列显卡。

公司前身创建于1984年,早期公司名为benchMark Technology,1988年与DuPont公司合并,旗下成立DuPont Pixel,开始为升阳开发IRISGL工作站显卡,在1994年4月从DuPont分离正式更名为3DLABS,专为个人电脑开发绘图芯片。1995年发表当时世界最快的商业OpenGL显示芯片GLINT 300SX。1996年10月在美国NASDAQ上市。其后在1998年7月收购了Dynamic Pictures,2000年7月收购了Intense3D。3DLABS曾是OpenGL架构评估委员会(OpenGL ARB)与Khronos Group的成员。它是该组织的重要一员,尤其是在开发OpenGL 2.0和不间断改进OpenGL API方面。在1999年之前,3DLABS一直是一家还跟得上时代的主流显示芯片制造商,但由于Permedia3研发不顺利,被NVIDIA迅速甩离主流显卡芯片制造商的地位。但旗下的Wildcat及Oxygen系列专业显卡在相当长的一个时期里都是图形工作站的上选甚至是唯一的选择。

3DLabs的第一代3D卡Permedia,虽然还不能算真正的3D加速卡,但凭借其对OpenGL的完美支持,使其成为相当不错的入门级专业卡。



1997年5月发布的Permedia 2的3D性能同样敌不过红得发紫Voodoo,但出色的图形质量其性能在当时堪称顶级,以及OpenGL的支持同样是相当不错的入门级专业卡,Permedia 2图形芯片也为图形工作站平民化做了很大贡献。



1998年8月的Permedia3,上市时间较晚,在3D性能上并无可圈可点之处,上市之后市场反响平平,不过它在3D设计中的表现却不容轻视,是一块定位于入门级的专业3D加速卡。



3DLabs的真正专业卡是Oxygen系列和Wildcat,其产品做工用料精湛,下面是一张Dynamic Pictures Oxygen402的照片,丝毫不逊于Voodoo 5 5500的霸气外观。



而对于Wildcat的野猫卡,我并没有太多的概念,从以前的测评中可以看出在专业卡市场上的实力







对D3D技术的不敏感和对OpenGL过度依赖,使得3Dlabs的产品随着OpenGL一起被边缘化,当Nvidia用5年专业显卡独家销售权从ELSA换来了驱动编写团队后,Quadro的性能得到了极大的增强使得3Dlabs单一化的经营受到极大的冲击,使其在专业显卡市场上逐步消亡,终致Nvidia在专业卡市场成就霸业。3Dlabs最后在2002年6月被创新科技收购,成为旗下子公司。2009年1月与创新科技的个人数位娱乐部门合并,更名为ZiiLABS(籽亿)公司并于2009年12月推出名为“Zii TRINITY”的概念智能手机。它采用ZMS-05处理器,并有500万像素镜头。

剑走偏锋的霸业之路:PowerVR



如今大名顶顶的PowerVR也生产过PC图形显示卡,英国公司Videologic最初创立了PowerVR,PowerVR是Imagination Technologies(LSE:IMG) 的软硬件影像处理开发部门。

PowerVR早期比较有名的就是PCX2芯片,PCX2的性能比PCX1有了一定提升,速度并不慢,可以在运行转为它们优化的Quake2的时候效果很好,硬件指标上也胜过Voodoo,达到每秒120万多边形和6000万像素的填充速度,在同时代产品中首屈一指。同时支持D3D、OpengGL,SGL,其中SGL是OpenGL的部分子集特为PowerVR进行了专有扩展。但是在实际使用中,由于驱动使兼容性较差,许多游戏运行有问题,并且对CPU要求较高(甚至不如更低平台上voodoo的速度),导致销售受到了很大影响,但在Voodoo2之前的一段时间里市场占有率却达到第二,芯片由日本NEC制造。PCX2的优秀程度甚至还让Matrox生产了唯一不是自己芯片的显卡。



此后Videologic与Sega合作,为Sega的新游戏机设计图形芯片,实际就是PowerVR二代,所对应的DC版核心是PVR250DC,桌面版产品叫做Neon250,采用它的Dreamcast于1998年2月推出。但是因此极大地导致了Neon250的PC桌面产品的延期,比预期Neon250发布时间晚了一年有余,比DC推出时间则晚了一年半。这是因为NEC更看重长期的订单量大、市场稳固的游戏机图形芯片的制造,游戏机一般3-5年更新换代一次,而风云多变的PC市场平均6个月为一周期,从长远利益考虑,显然NEC更愿意为了上百万订单的游戏机市场投入更多精力。这款芯片同时也有对应于Sega的街机NAOMI(New Arcade Operation Machine Idea)的版本,相应的图形核心名为CLX2,搭载16MB显存,250万多边形每秒,5亿像素每秒,这款街机板于1998年问世。而2000年问世的NAOMI2则搭配两颗CLX2,搭配VideoLogic的ELEN芯片做为几何变换和光影效果加速器,搭载32MB显存,画面效果相当不错。

但随着Sega的DC被骚尼的PS成功狙击,Videologic便被Sega坑了一把,VideoLogic后来变为声、显卡制造,从VideoLogic分出来的Imagination Technologies成为VideoLogic、PowerVR、Ensigma、Metagence这四者的母公司,其中Ensigma、Metagence是面向DSP设计。Imagination Technologies将PowerVR技术授权给了STMicroelectronics(意法半导体),称为PowerVR三代的Kyro诞生。

PowerVR的第二次出彩是其第三代产品kyro和kyro II,Kyro II的上市时间是2001年初仅仅只比kyro晚几个月,当时正是NVIDIA GeForce 2与ATI Radeon 256打的你死我活的时候。Kyro II采用当时流行的0.18nm工艺,仍然是一款基于DirectX 7的显示核心,不支持T&L技术看上去有些不可思议。即便如此,Kyro II还是有很多不错的特性,其中有包括可以节省显存带宽的Tile Based Rendering技术,而内置32bit真彩色处理引擎,能够进一步节省显存带宽,最多支持8层纹理贴图、独特的瓦片渲染机制,超越GeForce2 Ti的执行效率,优秀的2D显示素质等等,这些技术使得Kyro II在一些高色深的3D测试中表现非常抢眼。但不知为何意法半导体一定只要大力神来生产,于是,高昂的售价,难觅的踪影就成为了Kyro Ⅱ的标志,Kyro和kyro II的兼容性不太好,与某些游戏有冲突,容易引起渲染错误或性能下降也是其一大软肋。随着GeForce 2 MX的逐渐流行,GPU也开始走进了低端DIYer的电脑,在nVidia的围剿中,KyroⅡ逐渐被人们忘却。随着KyroⅡ的彻底失败,意法半导体也宣布退出个人PC图形市场,自此再也不见踪影,被很多人翘首期待的Kyor3也胎死腹中。



如今的PowerVR早已转向掌上图形市场并且取得了巨大的成功,Intel和APPLE都具有它的股份也使用它的产品作为自己的图形芯片,最典型的就是APPLE公司的iPhone手机上广泛采用,不论是肾5还是肾4S,以及iPad等,都是PowerVR的产品。PowerVR规模和实力无法与nVIDIA、AMD(ATI)相比,之所以能一直生存下来的原因是及时转向适合自己发展方向的领域即移动市场,走精、专的路线,很好地发挥了自己的技术优势,同时也避免了桌面图形市场的残酷竞争,是非常明智的。

不是这个领域的霸主:Intel



说起Intel,相信每个人都是如雷贯耳,要说Intel的显卡,大家都还只是停留在核心显卡和集成显卡上,很多人并不知道Intel也曾经生产过独立显卡。

Intel于1997年7月收购了 Chips and Technologies 公司。这间公司专注研发笔记本电脑的2D显示核心。通过收购这间公司,Intel得到了2D显示核心的技术。3D技术方面是在Real3D公司的协助下研发的。Real3D是大名鼎鼎的洛克西德·马丁的子公司,而Intel持有该公司的20%股权,所以得以与REAL3D合作研发显示核心。1998年2月发布的Intel i740支持AGP 2X,有8MB显存。像素填充率是55Mpixels/s,支持DVD解压,亦支持3D加速,包括OpenGL。i740是第一款采用HyperPipelined 3D架构的显示核心,亦是64bit架构。它采用0.35微米公艺制造,核心频率与AGP接口同步,即是默认值为66MHz。通过提高AGP接口的频率,就可以将核心超频。除了3D图形显示外,i740提供出色的2D显示和视频播放效果。i740的另一个目的是推广AGP标准。i740是第一款AGP 2X显示卡,i740的高销量使其他显示核心厂商接纳AGP标准。在游戏应用中,i740的性能约为Voodoo2的一半,亦低过Voodoo。Intel写驱动优化测试软件早已不是什么新闻,就在它的i740上,3D Winbench 98的标准检查程序中,它的性能竟然与Voodoo2处于同一水平,所以有人认为显卡的驱动程序欺骗了该检查程序。

借着Intel的霸主地位和便宜的价格,很多厂商都推出了有关i740的产品,产品价价持续下降,使到i740的销量颇高,亦提高了Intel在图形核心市场的占有率。但Intel原先预计i740有不错的性能,可惜事与愿违,不能在独立显卡市场取得一席之地。亦令Intel意识到主流市场才是其目标。其后,Intel将i740图形核心集成到芯片组内,成为i810和i815集成式芯片组,再度提高其市场占有率。



在1999年4月27日,英特尔公布了Intel740的后续版本:Intel 752(常被简称为i752)。它的核心架构是128bit,核心频率为100MHz,显示存储器频率为133MHz,最大支持16MB显示存储器。核心拥有两条像素流水线,多边形生成率为每秒300万个,像素填充率是每秒1亿。立体功能方面,核心支持环境雾化、单周期纹理合成和16bit深度缓冲。特效方面,它支持凸凹纹理映射和纹理压缩。但英特尔在发售前决定将i752集成在主机版上,取消独立型显卡,所以i752只有工程开发版的独立显卡产品流传于市场上。集成i752显卡的主板系统存储器会通过Dynamic Video Memory Technology技术成为显示存储器。这个技术会从系统存储器划出1MB作为显示存储器,有需要时,驱动程序会弹性地划出更多。这个技术有点像现时的HyperMemory技术。
后来,Intel752改为Intel754以支持AGP 4X,集成于i810E芯片组中,其他规格与i752相同。

自此之后我们再也没有听闻过Intel的独立显卡,一直持续到十年后的larrabee,Larrabee是 Intel 已经取消研发的显卡,原预计在2008年第三季推出样本,在2009年正式发布,最终在 2010年5月宣布中止。

与现时的GPGPU不同,larrabee是建基于x86架构,内有多个称为IA的核心,数量亦可以随意增加或减少(12-32 个),官方报称浮点性能可达到 TeraFLOPS级别。此外,还有矢量处理单元,用作支持 SIMD。它与中央处理器相似,有一个缓存架构。核心亦支援一套新的矢量指令集,用作矢量内存、整数和浮点计算。由于是通用核心,亦可以支援物理加速。在 2008 年8 月,Intel 称核心数量是 8 的倍数,总数最少是 8 个,最多 32 个。图形 API 方面,它支援主流的 DirectX 和 OpenGL,Intel 亦会推出自家的标准。目的是充分发挥多x86核心的性能。浮点运算方面,支援 IEEE 标准的单双精度。显示内存接口与 ATI 的 Radeon R600 相似,探用环形总线,每个方向是 512-bit。各x86核心亦使用此总线互相通讯。针对影像方面,Larrabee 核心内有专门的 VPU 元件。显示核心内的微核心,是旧有的Pentium P54C核心,但会采用当时最新的制程45nm或32nm制造。另外,加上 512-bit SIMD 单元,内存寻址能力亦达到 64-bit,与现代的处理器相若,所有的 32 个核心,频率会是 2GHz。Intel 声称,这时显示核心的效能可以达到 2 TeraFLOPS。处理器采用顺序而非乱序架构,纵使是采用旧的处理器核心打造,但每一个核心的矢量处理单元是 16 宽幅,现时的 Core 2 Duo 只是 4 宽幅。若果以Larrabee拥有 10 个核心去计算,每个周期一共可以支援160个矢量运算;Core 2 Duo 双核心处理器只可以支援 8 个。所以,Larrabee 的 浮点 运算性能比传统的处理器强。但在单指令流数据中,主流处理器始终较有优势。Core 2 Duo 是每一个周期处理四个,Larrabee 只是 2 个。L2 缓冲内存方面,每一个核心将会拥有 256KB。Larrabee 并非是单纯建基于旧的 Pentium 核心,还新增了矢量运算单元、矢量寄存器和 L2 缓冲内存。在每一个标量单元中,会分别有一个主要和辅助指令管线。前者可以处理x86或者是新引入的 Larrabee 指令集;后者用来处理简单的 ALU 计算或者 X86 指令集的子集命令。与NVIDIA的GeForce 8相似,每一个矢量运算单元在一个周期中,只会运算一个颜色数据,务求提升单元的使用率。不过,在数据流通方面,一切都是以代码形式出现。而传统的 显示核心,一般都会使用专门的逻辑芯片,去管理显示内存。Intel曾经聘请了专注光线跟踪的研究员,希望Larrabee核心可以支援相关技术。由于NVIDIA的黄仁勋经常为了自己的CUDA造势对Larrabee大造文章,Intel称他是Larrabee的公关经理,而且不带薪酬。



虽然Larrabee冲击图形市场的美梦被击碎,但Larrabee却并没有死,2011年12月发布的28nm级首款显卡AMD Radeon HD7970采用的Tahiti XT芯片上我们就看到了Larrabee架构的影子,Intel于2012年11月12日正式推出的首款60核处理器Xeon Phi正是Larrabee的延续,Xeon Phi协处理器在很大程度上继承了流产的独立显卡项目Larrabee的遗志,外部造型看似显卡,其实是和Tesla系列、FirePro S系列类似的专用加速计算卡,其架构采用顺序、双发射x86,支持64位运算,每个核心支持最多四个线程,最多61个核心、244个线程,并且每个核心都搭配一个512-bit SIMD矢量引擎。其基于英特尔消费级GPU技术Larrabee,在超级计算机市场与Nvidia、AMD竞争,因为更简单、更专业的GPU处理器可以更有效地处理某些超级计算任务,从而提高性能并减少能耗,首批Xeon Phi客户包括剑桥大学等科研机构。Intel对于Xeon PHi也没有一味夸大加速计算的优势,而是首先澄清了一个误解(实质是指责NVIDIA对Tesla系列的夸大宣传,用加速计算的结果和单线程结果对比,几十乃至几百倍的提升就轻松得来。)。Intel拿出了一段Fortran代码,先运行未优化的单线程代码,然后优化并以Xeon Phi运行,性能差异达到了恐怖的300倍,在另一个C++的例子中,109倍的提升被证明其实只有2-2.5倍。



(这里不会过多介绍下面三家的产品,因为他们的产品几乎涵盖贯穿了整个PC图形处理器的发展史,它们的产品将留到下一个章节去介绍)

厚积薄发的霸主:ATI



冶天科技(英语:ATI Technologies Inc.)公司由五位加拿大的移民在1985年8月20日创办,他们分别是来自中国广东的何国源(Kwok Yuen Ho)、香港的刘理凯(Lee Ka Lau)、刘百行(P. H. Lau)、班尼·刘(Benny Lau)及来自荷兰的艾卓安·哈托(Adrian Hartog)。公司原名是Array Technology Inc.,五个月后更名为Array Technologies Inc.,1985年12月18日正式更名为ATI Technologies Inc。1993年11月,ATI成功在多伦多证券交易所上市。ATI原先是一间原始设备制造商,为大型个人电脑制造商制造显示芯片,例如IBM。从1987年7月开始,ATI自立成为显卡零售商,销售ATI EGA Wonder和VGA Wonder显卡。

在1997年,ATI成功收购当时他的最大竞争对手Tseng Labs,为公司加入40位新的工程师。在2000年,ATI收购ArtX,一间制造Flipper显示芯片的公司,而Flipper芯片是任天堂GameCube的核心。往后,ATI为任天堂设计显示芯片,用于其Wii主机。较早前,ATI已为微软的Xbox 360设计显示芯片。

1987年,ATI推出了EGA Wonder 显卡系列,无论在技术上还是功能上相比IBM自家的图形适配器都有很大提升,是一种能应用与市场上任何一种图形界面、软件和显示器的单卡,为传统PC提供了更高速度的显示图像,并引起了很多PC制造商和个人用户的兴趣,并成为当时ATI主要的零售产品。1988年,采用ISA总线的VGA Wonder受到了更多用户的欢迎,衍生了许多产品,并成就了后来著名的All in Wonder系列。



不过早一些的EGA Wonder主显示芯片并非ATI自行设计,而是采用了当时的CHIPS P86C435芯片,而显卡的时钟芯片才真正出自ATI自家的16800-0,另外显卡还配备了256KB显存,所以显示速度方面得到了很大改善。直到1988年VGA Wonder的推出,ATI才真正意义上有了自己第一款图形卡。显卡基于ISA总线,基于ATI自行生产的118800-1主显示芯片设计,搭配ATI 18830-2时钟芯片以及inmos A-G171S-35C DAC芯片的组合,配备512KB至1MB显存,相比EGA Wonder性能上又有了提高。



随着时间的推移,ATI也和前面提到那些一起加入到了第一代3D图形卡的角逐中,从第一代的3D Rage、3D Rage II、Rage 128、Rage 128 Pro、Rage Fury MAXX,ATI可以说是没有太多亮点,ATI擅于制造低端的OEM显卡,原因是其优良的DVD播放效果和低廉的价格,但糟糕的驱动阻碍了它的发展,从曙光女神计划的失败到被Riva TNT2蚕食得OEM市场,当时的人们普遍认为ATI也会随其它芯片制造商的大流而消亡。一直到Radeon 256的出现,ATI终于走上了主流的道路,并奠定了和Nvidia争霸的二强局面。

随着Radeon 7500/8500的优秀表现,ATI终在DX9的时代,坐上了图形市场的头把交椅,那就是犹如天神下凡的R300,但ATI的的辉煌也就定格在了这一刻,也不知是不是XBOX360的订单打乱了ATI的脚步,后期的R420/R520都是一直被Nvidia牵着鼻子走,而其遗作R580/R580+确因为架构过于超前,在应属于它们的时代没能大幅领先对手。

发展于Trident的时代,成长于S3的2D世界,走过3dfx的3D王朝,壮大于Nvidia霸权,一路艰辛坎坷的ATi,每一步都走得不容易,终在2006年7月24日,ATI被AMD以54亿美元收购,于10月25日收购完成,最终收购价格为43亿美元现金,另加5800万AMD普通股购买ATI所有普通股,摩根士丹利还另外贷款25亿美元予AMD。收购后,AMD也保留了一段时间的ATI品牌,作为旗下绘图卡业务的子品牌。直到2010年8月,在发布Radeon HD 6000系列显卡的同时,AMD宣布将放弃ATI品牌。

硅谷的斗士:AMD



如今我们使用的A卡,就是AMD收购ATI得来的,但ATI的灵魂早已消逝,从ATI被收购开始起,AMD所发布的显卡风格早已不是ATI的风格,而是彻头彻尾的AMD风格。AMD从和Intel的竞争中就证明了自己是一位不屈不挠的斗士,即使收购了ATI之后面对Nvidia也是如此。

严格意义上来说AMD并未称霸过图形界,一定要算的话,代号Cypress的HD5000系列曾在市场上超过了Nvidia产品的占有率,但仅仅局限在Nvidia没有同代产品与之竞争的大环境下。

个人认为AMD收购ATI是其发展史上最大的败笔,为什么这么说呢,因为这个问题要全面的去看待:
1、当时的ATI根本不值43亿美金的天价,至于为何能卖到这个价钱,也只有那位“鲁博士”知道;
2、收购ATI根本就是和3dfx收购STB那种化友为敌的方式如出一辙,没有收购ATI的AMD和Nvidia的关系非常近,凭借Nvidia nForce芯片组的超级市场运作,对AMD处理器的帮助可不仅仅只是推波助澜的作用,这个愚蠢的决定导致AMD将要同时在两个领域面对两个强大的对手;
3、收购ATI并不是AMD唯一的选择,当时业内疯传的消息是Intel将要收购ATI,而Nvidia也就顺理成章的和AMD谈合并,并由业内传奇人物黄仁勋出任CEO;
4、收购ATI是花钱的行为,巨额的43亿让并不算很富裕的AMD背上了沉重的债务,这个债务不仅影响到AMD后期的显卡产品没有足够资金去研发大规模的架构,也阻碍了AMD在显卡架构发展上对新技术的使用,更严重的是,导致了AMD的在自有晶圆厂工艺发展上的滞后使得AMD的主营业务x86 CPU从此一蹶不振,最终AMD不得不同阿布扎比的Advanced Technology Investment Company(ATIC)合组Global Foundries,接管德累斯顿的两座晶圆厂,时至今日AMD扔饱受Global Foundries制造水平巨坑带来的影响,而其图形产品也不得不选择台积电(TSMC)为其代工。
5、ATI被收购时尚在襁褓中R600是一大巨坑,无限延期发布后其性能仅仅只能和竞争对手早已发布的同代中高端产品勉强持平,而同一时期的K10处理器一发布就携带着各种BUG,自此AMD开始从风光无限转向下坡路,到2012年其股票差点跌破1美元。
6、如果说当时AMD选择和Nvidia合并,那么大量的现金就会流入晶圆厂,就算Intel收购了ATI,那么其第一代产品R600依然还是巨坑,至少能够为新公司赢取2年的时间去对付Intel的Core和显卡产品,起码不至于变成现在AMD和Nvidia这样的加起来只能算Intel零头的窘迫局面。

不过好在AMD对市场脉搏的把握要远好于ATI,市场上叫好又叫座的HD4000和HD5000系列获得了不小的成功,而AMD终于迎来了一位靠谱的CEO:罗纳德,裁员、驱动、GE计划、挖角等等手段使得AMD获得了新的生机,当Radeon HD7970 GHz Edition面对Geforce GTX TITAN时,也没有脑子充血的去搞对应产品来竞争,而是专心完善推土机架构、GCN架构的软件环境,这无疑是AMD十年来唯一一次明智的决定,随着获得任天堂、骚尼和微软的新一代游戏主机订单,AMD未来的道路让人看到了希望,期待它会走得更好。

图形界的常青树:Nvidia



Nvidia(全称为nVIDIA Corporation,NASDAQ:NVDA,官方中文名称英伟达),由黄仁勋、克里斯·马拉科夫斯基和卡蒂斯·普里姆于1993年1月美国加州创办(随后成为德拉威州企业)。

说起Nvidia,我们就不得不谈谈它的老板:黄仁勋(英文名:Jen-Hsun Huang,1963年2月17日-),台裔美国人,黄总可以说是图形业内了乔布斯了,谈到图形芯片制造商的时候,很少会有人去关注它们的老板,而Nvidia恰恰就是一个例外,可以说既有技术背景又懂销售和管理的黄总的成功代表了Nvidia的成功,Nvidia身上无处没有黄总的特点、性格和影子。



名不见经传的Nvidia在1995年5月发布了旗下的第一款产品NV1(STG2000X),授权SGS Thomson Microelectronics生产,NV1拥有完整的2D/3D核心基于二次曲面贴图作为立体图形的实现方式,并且整合了一个具有350MIPS的声音处理核心,并首次在显卡上采用VRAM做显存储器。但由于NV1不支持Direct3D API接口标准标准,导致它被终被市场遗弃。



NV1的失败花光了NVIDIA筹措来的第一笔投资,黄总只得劝非核心的员工离职,并许诺将来公司情况好转了,再聘他们回来。公司的规模也从100多人,一下子变成30多人。在危难时刻,挽救黄总的是Sega的700万美元订金,这家日本游戏机公司看好NVIDIA芯片对于游戏的良好集成,请他们开发土星游戏机的显示芯片。不幸的是,由于继续固执于正方形技术,NV2芯片还没有开发完成就被世嘉放弃。唯一值得庆幸的是,这700万美元帮助NVIDIA撑到了Win95时代的到来。

眼光独到的黄总利用微软的Direct 5开创了自己的霸业之路,并提出了和摩尔定律并称的显卡芯片领域的“黄氏定律”,即显卡芯片每6个月性能提升一倍。找对了方向的黄总,在沉默了近3年之后推出了NV3,即Riva 128,并大胆采用当时仍处于试验阶段的AGP概念。而不久后的Riva 128zx,则是国人都非常熟悉的“小影霸”。并且,报据黄氏定律,他在1998 年秋和1999年2月分别推出了TNT和TNT2,从此一举占据了显卡芯片市场的主流位置,把所有的竞争对手都挤到边缘领域。同样在6个月后,1999年底,黄仁勋又出人意料地推出全新架构的显示芯片.即GeForce256,率先将显示芯片业带入GPU 时代。从此图形市场成了整个Nvidia的天下,即使是在Geforce FX5800失意之际,倾注全身之力而击的Geforce 6800 Ultra又打了ATI一个措手不及,重夺市场,并一直保持到今天。

要说Nvidia的特色,这和黄总左右逢源的市场把握能力息息相关,不自己制造板卡的模式降低了成本也获得了大量的渠道帮助,TNT2的细分模式成功了覆盖了市场的每一个角落,而Nvidia让人可怕的地方除了市场运作和强大的研发实力,就是市场推广能力了,无论是和Matrox的画质之争,还是和Intel的CPU/GPU主导之争,包括和ATI的技术支持之争,Nvidia从未落过下风,Geforce FX5800的硬伤能被Nvidia说活了,而Radeon X800XT的DX9.0b却被Nvidia死咬着穷追猛打,就算是后期和AMD的DX10.1支持之争也能化攻为守,最夸张的是在不支持DX11的真空期里面居然能靠没几个游戏支持的PhysX技术去面对来自HD5000猛烈进攻而没有大幅丢掉市场,如果换成别的任何一家,估计都是灾难性的打击。

时至今日,Nvidia的产品线已经延伸到了ARM处理器领域,其Tegra 3处理器获得了市场的广泛认同,在Nvidia的发展蓝图上,不管是Tegra还是下代的Maxwell都让人充满了期待。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
3#
hyenax1950xtx  楼主| 发表于 2013-4-12 14:23 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-13 17:02 编辑

PC图形处理器的发展历代:

要说PC图形处理器发展史的划分,每个人都有每个人的划法,在这里我就以自己的方式进行划分,大致分为:古代史、春秋史和现代史。接下来的时间,我将会通过历史上的经典产品来为大家展现PC图形处理器的发展历程。

古代史:

现代PC图形处理器进化始于第一个3D扩展程序卡在1995年的引进,以及广泛采用的32位操作系统和价格平易近人的个人PC出现。在这之前的很长一段时间是让人沉闷的2D时代,这段时间可以看成1976年~1995年的漫长推进过程,在这之后3D图形卡、3D加速卡、GPU以及现代化的GPGPU纷纷涌现而出,从最初的3D游戏领域逐渐走进军事、机器人技术、空间模拟器以及医学成像等等。

Atari 2600是雅达利(Atari)在1977年10月发行的一款游戏机,在当年风行一时,成为电子游戏第二世代的代表主机,是现代显卡的雏形。当中经典的游戏包括Adventure、碰碰弹子台、爆破彗星和Pac-Man等。



增强图形适配器(Enhanced Graphics Adapter或EGA)是IBM PC计算机显示标准定义,在显示性能方面(颜色和解析度)介于CGA和VGA之间。它是IBM在1984年为其新型PC-AT计算机引入的技术。EGA可以在高达640x350的分辨率下达到16色。EGA包含一个16KB的只读存储器(ROM)来扩展系统BIOS以便实现附加的显示功能,并包含一个Motorola MC6845视频地址生成器。在640x350高分辨率模式下,16种颜色的任何一个可以通过调色板机制被赋予一个唯一的RGB代码。EGA允许用户在64个调色板颜色(每个像素红、绿、蓝各2BIT)中选择要显示的颜色。 每个像素可以有16种颜色(每个像素用4比特表示)。16种颜色可以从64色调色板选择。




EGA在早期的DOS时代,我们能够看到的就是白字黑底,对显示性能的要求是极低的,这个状态一直持续到80286时期,随着设备性能的发展,人们开始在PC上设计图形软件甚至一些游戏,对显示性能的要求越来越高,就像彩色电影的出现一样,彩色的显示也应运而生,越来越无法满足需求的EGA也就变成了VGA。从最早应用在8080、8088以及80286上,仅能识别黑白两色的EGA,到286时代能够十倍三原色和黑白的CGA,显示技术发生了很大的变化。不过CGA依旧整合在主板上,并不像现在的独立显卡,直到VGA标准才出现如今显卡的雏形,从主板上分离开来。



VGA(Video Graphics Array)即视频图形阵列,是IBM在1987年随PS/2(PS/2 原是“Personal System 2”的意思,“个人系统2”,是IBM公司在1987年推出的一种个人电脑)机推出的。PS/2电脑上使用的键盘鼠标接口就是现在的PS/2接口。因为标准不开放,PS/2电脑在市场中失败了。只有PS/2接口一直沿用到今天)一起推出的使用模拟信号的一种视频传输标准,在当时具有分辨率高、显示速率快、颜色丰富等优点,在彩色显示器领域得到了广泛的应用。这个标准对于现今的个人电脑市场已经十分过时。即使如此,VGA仍然是最多制造商所共同支持的一个标准,个人电脑在加载自己的独特驱动程序之前,都必须支持VGA的标准。例如,微软Windows系列产品的开机画面仍然使用VGA显示模式,这也说明其在显示标准中的重要性和兼容性。


在这个时期Trident的8900和9000几乎就是ISA/16色显卡的代名词,也是3D显卡最初的鼻祖。它们使显卡不再只是集成在主板上的一块普通芯片,实现真正的独立,为显卡进一步的长足发展开创了可能性。





早期的SVGA卡就是CirrusLogic GD5428

显示器显示模式​Super VGA的缩写形式。VGA线使用的是15针接口,传输的是模拟信号,所以VGA采集卡采集的信号时模拟信号,VGA由于其良好的性能在当前的数码高清设备中非常流行,并对显示设备进行VGA扩充,使其显存提高至1M并使其支持更高分辨率如800X600或1024X768,这些扩充的模式就称之为VESA的Super VGA模式,就是SVGA模式。




在SVGA时代呼风唤雨的正是S3的Trio64v+/Trio64v2

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
4#
hyenax1950xtx  楼主| 发表于 2013-4-12 16:15 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-13 13:47 编辑

DirectX 6.0/6.1时代

DirectX 6.0推出时,其最大的竞争对手Glide已逐步走向了没落,DirectX则得到多数厂商认可。当时主要代表显卡就有Nvidia的Riva TNT系列以及3DFX的Voodoo3系列。DirectX 6.0下可以渲染出高分辨率的32位色3D效果。就是这一点,采用PCI总线技术的Voodoo系列败下阵来,因为它只能支持800x600下的16位色渲染,而Nvidia一开始就使用先进的AGP总线结构,高规格,新技术,并且每次发布新品都给用户更高性能的享受。DirectX 6.0的另外一大特色便是支持标准纹理压缩算法,对于当时的3D游戏而言,3D显卡在性能上无法满足大量纹理的需求,使用压缩技术自然是一条捷径。

春秋史:

    人们对于3D画面的追求使得CPU已经不堪重负,人们迫切需要专门为3D画面进行计算的独立显卡,因此进入了3D加速卡时代,这个时代最大的特点是各家都有自己的3D API接口技术,比较多见的就是3dfx的Glide、微软的DirectX、OpenGL、PowerVR的PowerSGL、ATi的3DCIF等

应用程序接口(英语:Application Programming Interface,简称:API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。由于近年来软件的规模日益庞大,常常会需要把复杂的系统划分成小的组成部分,编程接口的设计十分重要。程序设计的实践中,编程接口的设计首先要使软件系统的职责得到合理划分。良好的接口设计可以降低系统各部分的相互依赖,提高组成单元的内聚性,降低组成单元间的耦合程度,进而提高系统的维护性和扩展性。

3D APIAPI是Application Programming Interface的缩写,是应用程序接口的意思,而3D API则是指显卡与应用程序直接的接口。3D API能让编程人员所设计的3D软件只要调用其API内的程序,从而让API自动和硬件的驱动程序沟通,启动3D芯片内强大的3D图形处理功能,从而大幅度地提高了3D程序的设计效率。


初出茅庐的Riva 128/128ZX

3D加速卡最辉煌的年代莫过于Voodoo和Voodoo 2,这个在上面已经有所介绍,同一时期在市场上比较多见的就是Nvidia的Riva 128,RIVA 128是Nvidia的第三代显示芯片,核心代号NV3,于1997年底发布。经历了NV1、NV2的失败后,NVIDIA集中力量研发NV3,进攻个人电脑市场。当时适逢微软发展Direct 3D,各家显示核心厂商也准备发展各自的显示标准,而Nvidia则支持微软的Direct 3D标准,从而有了微软强大的后盾。它是128bit的显卡,填充率是100Mpixel/s,并首次拥有硬件三角生成引擎,每秒能生成500万个三角形。RIVA 128拥有4MB显存支援AGP 1X接口。RIVA 128的效能超越了3dfx的Voodoo和ATI的Rage Pro,纵使画质一般,但价格低廉,成OEM的最爱,戴尔和Gateway等电脑厂商都预装了RIVA 128显卡。零售市场上,多间显卡厂商都推出有关产品,不到一年,就卖出了100万张。半年后,NVIDIA发布了RIVA 128ZX,拥有8MB显存,并发布了OpenGL驱动。此外,NV3支援OpenGL,在雷神之锤中有不错的表现。雷神之锤因为不采用GLIDE,使3dfx的GLIDE变得无用武之地,间接令NVIDIA取得优势。随后,id Software授权其他游戏厂商使用雷神之锤II引擎。其后维尔福软件公司使用该引擎,推出了半条命。由于RIVA 128能良好支援OpenGL,市场占有率节节上升。另外,3dfx的GLIDE逐渐失去优势,原先只支援GLIDE的古墓丽影II:西安匕首和极品飞车3,都推出了Direct3D版本,使所有支援Direct3D的显卡,都能完美地执行这些游戏。



3dfx的终结者Riva TNT

Nvidia的RIVA TNT,核心代号NV4,于1998年10月发布。这个系列被称为“3dfx的终结者”。TNT是TwiN Texel的意思。TwiN Texel就是拥有2条32位像素流水线的架构,每条流水线有1个TMU,每个周期可并行处理两个像素,所以显示核心时脉达90MHz的RIVA TNT填充率能达到250M Texels/s;同时它还首次拥有24位深度缓冲,并拥有16MB显存。NVIDIA的目标是让RIVA TNT的效能能达到3dfx Voodoo2的两倍。但受制于0.25微米制程还没有成熟,RIVA TNT的制造工艺是0.35微米制程。这令到核心频率比原先预计的110MHz大幅降低,只有90MHz,在这一频率上RIVA TNT的综合效能并不及Voodoo2。RIVA TNT是当时最快的显示核心之一,多间显卡厂商都加入了NVIDIA阵营,包括德国的Elsa和美国的Canopus。同期,NVIDIA成为OpenGL Architecture Review Board(OpenGL ARB)的成员。后来,NVIDIA意识到驱动程式的重要性,开始为RIVA TNT编写全新的驱动程式,这就是著名的“雷管”(Detonator)。



王霸之路的经典Riva TNT2

随后基于NV5核心的Riva TNT2才是让Nvidia称霸全球的开始,于1999年4月的德国CeBIT展览上正式发表。与Voodoo 3相比,它并不仅仅只是一块游戏卡,专为DirectX与OpenGL编程设计。由于完整支援OpenGL,所以能进行3DS MAX动画制作。NV5采用0.25微米制程来制造,频率提高到125MHz。TNT2比上代TNT引擎有长足进步,使用了第二代单周期多重贴图运算,硬体设计乎合DirectX 7.0的需要。其后,一些TNT2 Ultra更采用0.22微米制程,频率进一步提升,亦完全击败Voodoo 3。TNT2在市场上可谓是呼风唤雨撒豆成兵,从TNT2开始NVIDIA 对产品进行了市场化细分,在高中低端,面向多种不同的用户,TNT2芯片衍生出TNT2 Vanta、TNT2 M64、TNT2、TNT2 Pro、TNT2 Ultra等不同的型号产品,搭配不同显存的容量,产品线覆盖到市场的每一个角落,Riva TNT2系列应该是Nvidia历史上市场占有率最高的型号。



1999年7月,基于NV6核心的TNT2 M64/M64 Pro发布,M64代表只有TNT2 128位的一半即64位,采用0.22微米制程,同期发布的还有性能更低的TNT2 Vanta,TNT2 M64凭借TNT2的号召力和相对低廉的价格,在市场上斩获颇丰,和Vanta一起几乎成了中低端机型的标配,凭借0.22微米的制程M64可轻松从100MHz的频率超到M64 Pro的125MHz频率,而Vanta更是可以通过修改摇身一变成为M64。当时由于Nvidia不自己生产板卡的策略,使得各路大厂的TNT2产品犹如百花齐放,而这些大厂如丽台、ELSA更是自己编写TNT2的驱动,性能甚至可以超过雷管达到15%的提升,因此买通路公版卡来刷大厂的BIOS风靡一时,虽然我没购买过Riva TNT2但也曾经和朋友一起刷过TNT2 M64的BIOS刷成丽台的卡,可玩性非常之高

1999年8月,NVIDIA宣布与ALi合作推出整合TNT2 M64的Aladdin TNT2芯片组。Aladdin TNT2是由M1631北桥和M1535D南桥组成的,北桥整合了TNT2 M64,但无法提供AGP接口。南桥提供四个USB接口及一个ATA 66 IDE控制器。支援66/100/133MHz的总线,最大1.5GB的PC100内存,支援AMR、AC97等技术标准。Aladdin TNT2同时支持一个本地帧缓冲区及统一的内存模式,由于本地帧缓冲区的数据总线可以不受其他通信线路的影响,所以对速度的提高大有益处。在使用统一内存模式(UMA)的时候,Aladdin TNT2芯片组具有800MB/s或1.06GB/s的内存带宽。Aladdin TNT2可以以较低的价格却换来较高质量的3D加速效能。



这里我只是介绍了Nvidia的产品,整个春秋史显然不止这些,不过我已经在上面介绍芯片制造商的时候有过说明,这里就不再复述了,就以TOM’s的评测作为收官吧,注意那些不支持32位色的显卡



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
5#
hyenax1950xtx  楼主| 发表于 2013-4-12 16:54 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-17 00:11 编辑

DirectX 7.0/7.1时代

DirectX 7.0的发布又一次把显卡市场进行重新整合,DirectX 7.0最大的特色就是支持T&L,中文名称是“坐标转换和光源”。我们知道,在3D游戏中的任何一个物体都有一个坐标,物体运动时,它的坐标发生变化,其实就是坐标转换;3D游戏中亦需要灯光,没有灯光就没有3D物体的表现,灯光的3D渲染是最消耗资源的。这也成就了nVIDIA GeForce 256与ATI Radeon 256的辉煌,3DFX则彻底退出市场竞争。

DirectX 8.0/8.1时代

DirectX 8.0的时代是一场显卡革命,它首次引入了“像素渲染”概念,同时具备像素渲染引擎(Pixel Shader)与顶点渲染引擎(Vertex Shader),通过Vertex Shader和Pixel Shader的渲染,可以很容易的营造出真实的水面动态波纹光影效果。随后,Madonion(现在的Futuremark)发布了基于DirectX 8.0的3Dmark2001显卡测试软件,它支持DirectX 8.0的全部特效。然而DirectX 8.0的普及之路并不顺畅,这与巨大的成本压力有着很大关系。Nvidia的Geforce3 Ti系列迟迟未能在主流市场普及,而后续升级到DirectX 8.1的Geforce4 Ti4200以及Radeon 8500系列也在成本上差强人意。DirectX 8.0亦只不过在2003年年末才得到普及。


现代史

说起显卡的现代史,其实就是微软的Direct3D API一统江湖的年代,DX7的硬件T&L技术使得GPU诞生,从此不再是3D加速卡,微软的这个统治一直持续到现在。

划破时代束缚的Geforce 256

Nvidia于1999年8月发布GeForce 256(核心代号NV10)是由Nvidia研发的第五代显示核心。此核心常简称为GeForce,这也是NVIDIA第一个以"GeForce"为名的显示核心,是现今Geforce GTX680的祖宗。GeForce 256与前代(RIVA TNT2)相比增加了Pixel Shader流水线的数目,支持硬体T&L引擎,亦支持MPEG-2硬体影象加速。GeForce 256凭着它的功能和速度,在各路厂商的竞争中取得了很好销量,令NVIDIA的电脑图形工业霸主地位更坚固。NVIDIA的成功,使3dfx,Matrox和S3 Graphics都成了牺牲品。就在GeForce 256发布后的几个月,竞争对手S3亦发布了 Savage 2000 Diamond Viper II。此产品自带了硬体T&L,价格比GeForce 256便宜。但是,有缺陷的驱动使T&L不能正常运作,而S3亦不打算对此修正。一年后,只有ATi的Radeon显卡能有实力孤军作战。NVIDIA在产品宣传中,称GeForce 256为世界上第一个GPU,这是NVIDIA首创的词汇,GPU即是Graphics Processing Unit的缩写。后期NVIDIA亦以GeForce 256为基础,首次为专业工作站生产Quadro。Quadro拥有一些平民GeForce没有的特别功能。由于采用相同显示核心,很多人发现GeForce 256经过修改也能很好的处理工作站应用,价格亦比Quadro便宜。纵使GeForce 256是一张昂贵的游戏卡,但比专业卡便宜得多,被誉为"平民专业卡"。

Nvidia率先将硬体T&L集成到显核中。T&L原先由CPU负责,或者由另一个独立处理机处理(例如一些旧式工作站显卡)。较强劲的3dfx Voodoo2 和 Rendition Verite显示核心已集成几何(三角形)建构,但硬体T&L仍是一大进步,原因是显示核心从CPU接管了大量工作。它的渲染性能比当时的高端显卡,例如RIVA TNT2,ATI Rage 128,3dfx Voodoo 3,和Matrox Millennium G400 MAX强得多了。但在1999年很少应用支持T&L,硬体T&L根本没有价值。硬体T&L只是有益于一些立体第一人称射击游戏,Quake III Arena 和 Unreal Tournament。3Dfx和其他竞争者认为一个快速CPU可以解决T&L的问题,而并不需要显卡硬体支持。当时GeForce 256已经相当昂贵,而在一些非游戏应用上,性能则相当差,真是名副其实游戏玩家的显卡。其后的GeForce 2充分显示出硬体T&L的重要性。GeForce 2 MX 比GeForce256相仿,而价钱则是后者的一半而已。GeForce 256显示核心采用0.22微米制程制造,是256-bit显示架构,拥有4条像素流水线。每一条有4个像素单元,1个材质单元。三角形生成率是每秒1500万个,像素生成率则是每秒4亿8000万个。它拥有2300万个晶体管,数量已超过了PentiumIII,本应采用0.18微米制程去解决热量问题,但为了加速上市,唯有采用旧的工艺。但凭著四条像素流水线,性能依然强劲。GeForce 256一般配置为32MBSDRAM(中高端)或DDR SDRAM(高端)。由于DDR带宽是SDRAM的两倍,所以能提供较佳性能,尤其在高分辨率的情况下。某些厂商曾推出64MB版本,但非常罕见。从"NV1x"架构可看出,GeForce 256的存储器带宽是相当不足的,尤其是SDR SDRAM版本。还有,它没有存储器带宽节省技术(参考ATi的HyperZ)。GeForce 256的存储器带宽可谓史上最少,令它达不到应有的性能。纵使GeForce4 MX(NV17)仍是"NV1x"家族产品,但架构成熟。结果轻量级的GeForce4 MX 440彻底打败GeForce2 Ultra。GeForce 256和GeForce 2都很长寿和普及,原因是支持硬体T&L。在1999年和2000年,它的竞争者包括ATI Rage 128,Voodoo 3,Matrox G400和STM PowerVR Kyro。由于它们缺乏对T&L的支持,产品生命周期并不长。 未来发表的GeForce 2与GeForce 4 MX都是以GeForce 256为基础的改进产品,支持DirectX 7,亦被2004年的主流游戏支持。



锁定胜局的Geforce 2

到了2000年5月,NVIDIA发布了代号为NV15的新一代图形核心,由于其纹理填 充率达到了创纪录1.6Giga texels/sec,也是第一个纹理填充率过亿的GPU,所以NVIDIA将其命名为GeForce2 GTS以纪念其特殊的历史含义(Giga texels/sec三个单词的开头缩写)。GeForce 2 GTS(NV15)是整个家族第一款显卡。由于额外增加了的第二个TMU(texture map unit),令像素流水线数目达到每个四条。而核心速度亦由GeForce 256的120MHz提升到200Mhz。GeForce 2 GTS的性能是前代GeForce 256的3.3倍。其他硬件上的增加包括更新了图像处理管线,名为HDVP (high definition video processor)。HDVP支持高分辨率动态图像播放,虽然强劲的CPU还是必须的。在立体标准检查程序和游戏中,GTS比前辈(GeForce 256 SDR)快40%,而又比GeForce 256 DDR快10%。在OpenGL游戏(例如Quake III)中,GTS在16bpp和32bpp真彩显视模式中,也胜过ATi的Radeon 256和3dfx的Voodoo 5显卡。但在Direct3D游戏中,Radeon有时在32-bit颜色模式中胜出。从"NV1x"结构可看出,GeForce 2的存储器带宽是相当不足的。还有,它没有存储器带宽节省技术,而ATi则有HyperZ优化。"NV1x"系列显卡的存储器带宽可谓史上最少,令它达不到应有的性能。而Radeon则比较有效率。当时大部分游戏都只是单层贴图,纵使GeForce 2和Radeon支持DirectX 7,但都不能在多材质贴图得到任何益处。



GeForce 2 GTS核心有三个修正版本,第一个是GeForce 2 Ultra, 于2000年尾推出。它的功能与GTS一样,但Ultra版本的核心和显示记忆体频率比较高。它的性能绝对比Radeon 256和Voodoo 5高,比GeForce 3第一个产品还高。原先的GeForce 3材质填充率比GeForce 2 Ultra低,但在2001年年尾推出的GeForce 3 Ti500就超越了GeForce 2 Ultra。一些人推测GeForce 2 Ultra是用来对抗3DFX的Voodoo 5 6000。其后的测试报告显示出Ultra的性能绝对比Voodoo 5 6000高,导致Voodoo 5 6000永远不能接触消费者市场。其余的更新版本是GeForce 2 Pro和GeForce 2 Ti(即"titanium,使用 0.15 制程")。它们的性能介乎于GTS和Ultra版本。它们的定位是价钱较便宜,但比较低级。这是由于要区分GeForce 3。它并没有低级市场版本。由于其纹理处理性能强大,开发者利用纹理环境参数和纹理函数,就可以作出一些数学运算。利用纹理库和寄存器组合器,开发者、可以访问数据,利用寄存器组合器进行计算,这通常用于求数学上扩散方程的解。这是通用显示核心(GPGPU)的最早利用。



GeForce 2系列中最成功的显卡就是GeForce 2 MX,它是一张我们现在所说的甜点卡。而GeForce 2 MX家族成了Nvidia的主流产品达两年半之久,GeForce 2 MX的3D架构和功能与GTS相同,但移除了两条像素流水线,存储器带宽只有GTS的一半。GeForce 2 MX能支持真正的双显示输出(TwinView)。对手ATI用Radeon VE对抗(稍后用Radeon 7000),它并不支持T&L。而Radeon SDR则稍迟发表,价钱又太贵。除了早发表和极佳的性价比之外,GeForce 2 MX和剩余的产品线都采用单一而又稳定的驱动程序,而ATI的驱动程序则比较不稳定。GeForce 2 MX表现得非常好,使之比GTS(或其他后续形号)更胜任成为主流产品。电脑游戏方面,MX完全取代旧有的TNT2显卡。随后Nvidia将MX产品线分拆为MX400和MX200,分别代表性能级和价钱级。MX200的显存位宽是64bit,采用SDR作为显存,严重影响其性能发挥,MX400的显存位宽是128bit,采用SDR作为显存,DDR版本的位宽则是64bit。而成就GeForce 2 MX400的游戏就是当年大红大紫的CS,几乎是每一位CS玩家的标配。




向霸权说不的Radeon 256

2000年4月,就在大家认为以后只有Nvidia显卡可以玩的时候,ATI携带着划时代产品——Radeon(镭)显示核心来了,显示核心代号Radeon R100,首款采用此核心的是Radeon 256显卡,采用0.18微米工艺制造,拥有3千万颗晶体管,具有2条着色管线,每个着色管线具有3个光栅处理器。除了同样拥有T&L外,该芯片首次支持DirectX 7.0以及DirectX 8.0的部分特性,具备当时先进的硬件几何变形,光照效果和图像剪切等功能,并可以搭配DDR显存,在性能上完全可以与对手的旗舰产品一较高下,Radeon 256还有个特点是VIVO和DVD硬件辅助播放功能,Radeon 100最大的功能是支持三重纹理贴图,事实上在Radeon纸面发布测试结果的时候,相当多的测试显示其性能比NVIDIA当时最高端GeForce 2 GTS都要好。但不幸的是,Geforce 2 GTS使用了在应用程序中广泛受到支持的每周期两重纹理贴图,由于支持三重纹理贴图的应用程序太少,Geforce2 GTS在Radeon 256正式上市时发布了强化版的雷管驱动,使得Radeon 256之前测试的性能领先全部消失。

ATI也将Radeon根据当时的市场情况划分为多个版本,包括Radeon(标准版)、Radeon SE(高频版)、Radeon VE(双头显示,精简Chrisma引擎和硬件T&L,只具有一条着色管线)以及Radeon LE(省去HYPER-Z技术)。当时的Radeon系列显卡包括:Radeon LE 、Radeon 32MB(SDR)、Radeon 64MB(SDR)、Radeon 32MB(DDR)、Radeon 64MB DDR VIVO以及Radeon VE等等型号。

ATI在后期将Radeon 256进行了提频,改名叫Radeon 7500销售,在性能上挫败了对手了Geforce 2 GTS,即使是后期发布Geforce 2 Ti也只能说和Radeon 7500互有胜负

自此Geforce VS Radeon两大系列的对决拉开了序幕,Geforce VS Radeon代表了整个显卡发展的现代史,一直鏖战到今天。



世界首款DX8芯片:GeForce 3

GeForce 3(核心代号是NV20)是Nvidia的第八代显示核心,在2001年2月的Macworld Expo Tokyo 2001上发布[,它是全球第一款支持DirectX 8的显示芯片。它拥有4条像素流水线,可同时处理最多8个纹理,即4×2架构,像素填充率是800 Mpixels/s。GeForce3上还采用了更先进的反锯齿技术,SSAA(超采样反锯齿)。最大改进之处是其可编程T&L技术,nFiniteFX SHADER引擎正式被引入,完整实现了对Pixel shaders和Vertex shaders 处理单元的硬件支持,对很多光影效果提供硬件支持,GeForce 3没有推出移动平台的产品,其专业版名为Quadro DCC,基于GeForce 3标准版。Geforce 3默认核心频率为200MHz,拥有4条管线,每管线2个TMU(纹理贴图单元),这和Geforce 2是一样的,所不同的是Geforce 3还拥有一个Vertex shaders 单元,以及4个Pixel shaders单元,这也是和Geforce 2本质的区别。Geforce3还采用了第一代的“光速显存架构”(Light Speed Memory Architecture)采用了一系列新技术来充分利用显存提供的带宽。光速显存架构采用的第一个技术是“显存交错控制”技术,由芯片内核集成的专门的显存控制单元来完成。光速显存架构另一个技术是“无损Z压缩算法”,在不降低画质的前提下大大降低了Z-缓存数据对显存带宽的占用。除此之外,Geforce 3中还加入了一个被称之为Z轴吸收选择(Z-Occlusion Culling)的技术来达到隐面消除技术(HSR)的效果以尽量减少不必要的资源消耗。

不过Geforce 3上市后在当时大部分DX7以及QUAKE3游戏的主流分辨率中,GeForce 3并没有能完全超过GeForce 2 ULTRA,确实出乎所有人意料。但由于首次使用交错内存结构,超高的内存效率使得GeForce 3在高分辨率下还是有很强的优势。此后随时间的推着移,大量DX8游戏上市,人们才意识到在画面Geforce 3特效方面带来的革新与震撼。

该系列第一款产品是GeForce 3于2001年2月28日发布,而由于成品率问题一直迟迟未进入市场,在4月初,有少部分制程是A3的GeForce3出现在市场上,其芯片还有一些Bug未解决,如在某些游戏下性能大幅降低。正式开始销售是在5月底,其制程已更新为A5,某些品牌亦开始回收A3制程的产品。GeForce3的DirectX 7性能并未完全超过GeForce2 Ultra,其优势在于硬件支持DX8及其可编程T&L技术。在9月份Nvidia同时发布了GeForce3 Ti 200及其上一代的GeFoece2 Ti两款显示核心。GeForce3 Ti 200的核心及显示存储器的频率都有所降低,供电线路有所简化,是平价版本。紧接着在10月份,NVIDIA又推出了高级的GeForce3 Ti 500,采用8层PCB板,频率亦达到240MHz,同竞争对手的Radeon 8500进行竞争,也轻易的超过了GeForce2 Ultra。后期也有厂商推出了采用GeForce 3标准版6层PCB的Ti 500,以降低成本。GeForce3系列还有一个优点,即是三款型号都可以通过简单更改电阻而变为专业版的Quadro DCC,有厂商的GeForce 3产品都带有硬件跳线,用家只要加入跳线帽即可轻松将显卡变为价值1000美元的Quadro DCC,某些配备128MB显示存储器的型号变身后性能甚至比Quadro DCC本尊更高,造成Quadro DCC被市场冷落的现象。GeForce3系列的后续产品是GeForce 4,其NV25架构与GeForce3的NV20架构几乎完全相同,基本可以看成是GeForce 3的改名版,而实际上Nvidia的产品发布路线图中也曾将GeForce 4归为GeForce 3系列,如GeForce 4 MX早期名称是GeForce 3 MX。

Geforce 3中的经典卡要数Geforce 3 Ti 200了,由于是标准版的降频版(核心/显存频率从200/230 MHz降至175/200 MHz),较低的默认频率也给了GeForce3 Ti200相当大的超频空间,并且硬件上完整支持DX8,从而成为当时2000元左右最具性价比的高端产品。



DX8.1时代闪耀的明星:Radeon 8500

2001年8月发布了基于R200核心的Radeon 8500,同时也是ATI的第八代产品。如果说DirectX 7.0时代是ATI一直再追赶NVIDIA,那么到了DX 8.1则是ATI多年厚积薄发爆发的时候。Radeon 8500采用了0.15微米的制造工艺,核心/显存频率达到275MHz/550MHz,采用DDR显存,依靠改良的Hyper-Z II技术,使内存带宽高达12GB/s!新一代的Smartshader引擎,超越GF3首度支持DX 8.1的全部特性,Radeon8500成为了全球首块完整支持DX 8.1的图形芯片,再加上Charisma Engine II、Pixel Tapestry II、Turform、Smoothvision等诸多的先进技术的推波助澜,使得Radeon8500在规格上成为当时最强的产品。性能上,Radeon 8500在各项指标也都超过了GeForce 3。

Radeon 8500最令人扫兴的事就是最初发布的驱动程序。发布时,显卡的性能十分差。最初的驱动程序充满臭虫,一些功能甚至是不完整的。驱动程序不能完全支持显核的功能。例如抗锯齿功能只在Direct3D的情况下有效,而且性能十分差。早期的驱动程序不能在很多的电脑游戏中完美地运行,显示出很多错误画面,例如多边形被误放和闪烁的纹理。几个评测网站揭露出Radeon 8500的真正性能比标准检查程序所测出的低很多。评论者发现ATI侦测出可执行文件Quake3.exe,强行将纹理过滤品质调低。HardOCP的Kyle Bennett首先发现这个问题,他将Quake3.exe改名为Quack.exe。结果,图像品质提高了,性能却慢了。尽管如此,纵使使用了加强型Detonator4驱动程序,Radeon 8500的性能依然胜过GeForce 3。

同Geforce 3 Ti 200一样,ATI也推出了Radeon 8500的降频版,Radeon 8500LE,和Geforce 3 Ti 200一样,较低的默认频率也给了Radeon 8500LE相当大的超频空间,使其也成为玩家们津津乐道的明星产品。



ATI从Radeon 7500开始玩起了马甲战术,所以Radeon 8500也不能幸免,其简化版改名叫Radeon 9000、9000 Pro、9100、9200以及9250等等,虽然Radeon 8500面对Geforce 3 Ti 500也不发憷,但是真正让ATI难以招架的是GeForce4 MX系列。尽管Radeon 9100的性能完全在其之上,但是价格上的差距还是使ATI在市场份额争夺中节节败退。Radeon 9000此时可谓临危授命,它可以看成是Radeon 8500的简化版。在保证4条渲染流水线数目不变的前提下,Radeon 9000只为每条渲染流水线配备了1个材质贴图单元,而且Vertex Shader的数量从2组减少到1组。毫无疑问,这对于整体性能有着不小的影响,但是其市场效果还是值得肯定。而后,ATI又推出采用AGP 8X接口的Radeon 9200,其实质还是与Radeon 9000完全相同。

这一时期ATI最大的进步就是ATI所推出的Catalyst(催化剂)驱动计划,这个名称一致沿用至今,ATI驱动在以前和那些消逝的品牌一样给人的印象是更新缓慢,且时不时出现莫名其妙的Bug,其拙劣的的驱动程序导致显卡不能发挥应有性能。而当催化剂驱动推出之后,这一局面得到了很大的改观。更为重要的是,催化剂驱动的推出配合ATI板卡制造授权开放意味着第三方厂商的ATI显卡也可以享受到ATI的驱动更新服务,消费者不再执着地追求ATI原厂显卡,也不必为了使用最新驱动而强行刷新原厂显卡的VGA BIOS。此外,Catalyst 3.0版本之后,用户明显感觉ATI显卡的兼容性得到很大的改善,这也是其改变业界形象的重要一步。ATI将催化剂驱动定义为“承诺+信心+能力”。所谓“承诺”是指ATI将会经常升级Catalyst催化剂驱动,并承诺每年至少升级8~10次,以改进ATI显卡的性能。此外,ATI的最终用户可以反馈给ATI一些在使用Catalyst驱动过程中所遇到的问题。而“信心与能力”是指ATI将确保与多个主流3D游戏互相优化,让用户更受到最佳的兼容性、画质与速度。很明显,ATI将兼容性与画质放在了一定的高度,这让ATI Fans感到十分高兴。在本身提供众多3D细节设置功能的同时,催化剂驱动还加强与第三方ATI工具的合作。

DX8时代的统治者:GeForce 4 Ti

由于Radeon 8500的出现,让Nvidia感受到了多年未体验到的痛楚,即在高端市场上被略微领先,于是2002年2月,NVIDIA 发布了研发代号为NV25的GeForce 4 Ti系列显卡,也是DX 8时代下最强劲的GPU图形处理器,晶体管数量高达6300万,为改良的TSMC 0.15微米工艺生产,采用了新的PBGA封装,运行频率达到了300MHz。架构实际基于GeForce 3改进而成。它拥有4条像素流水线,每条流水线包含2个材质贴图单元,即4x2架构。T&L方面,GeForce 4 Ti采用了nfiniteFX II引擎,它是从GeForce 3的第一代发展而成。GeForce 4 Ti还拥有2个Vertex shaders单元,以及4个Pixel shader单元,这表示同一时间可以处理更多顶点,这并不是全新的设计,皆因Xbox中的显核亦使用了个顶点着色引擎。纵使GeForce 4 Ti架构与GeForce 3分别不多,但是依然有性能提升,原因是功能的改进与微调。



2002年尾,NV25核心被新推出的NV28核心取代,原因是为了支持AGP 8X。基于此核心的有三款型号:Ti 4200-8X、Ti 4800SE、Ti 4800。Ti 4800的频率与Ti 4600相同,只是支持AGP 8X,在北美地区的早期名称即为Ti 4600-8X,但由于售价昂贵,该芯片只有极少数的厂商推出过,如微星,青云,eVGA,PNY和Point of View等。Ti 4800SE的频率与Ti 4400相同,同样在北美地区的早期名称为Ti 4400-8X,性能稍逊于Ti 4600,相比Ti 4800倒是有很多厂商推出了相关产品。中阶的Ti 4200-8X则非常畅销。直到ATi于2002年尾发布Radeon 9500 Pro,它的地位才被取代。Ti 4200于DirectX 8.1的环境下,性能比低端的GeForce FX 5200和中端的FX 5600强,与中端的Radeon 9600的旗鼓相当 ,凭借过低售价和厚道规格,Geforce 4 Ti 4200成为Nvidia历史最为厚道的产品,它是显卡历史上唯一以旗舰级型号一半的售价提供最顶级显卡80%以上性能和100%规格的显卡,随意的超频可以让它再次回到旗舰级显卡的行列,虽然也有显卡和它一样具备和旗舰级的规格但是售价确没法比,在DX9时代虽然Geforce FX5900XT有接近Ti 4200的性能,但是绝对性能还是太弱,玩家们依然选择他们最爱的Ti 4200,就算在今天去看待这些产品,依然没有一款能够超越哪怕是持平Ti 4200缔造的传说。



严格意义上来说GeForce 4 MX不能算作是GeForce 4系列,因为GeForce4 MX (NV17)就只是一个称号。很多人批评GeForce 4 MX的名称误导了其真正的功能。发布前人们以为是GeForce 3的低级版,发布后人们才知道它只是GeForce 2 Ti,而显示存储器控制器和抗锯齿功能则属于GF4 Ti系列、并配备两个RAMDAC。GeForce4 MX不同GeForce4 Ti,前者并不支持可编程化顶点和像素着色器。但这不会影响它的运算速度,只是不支持新的DX8特效。虽然如此,它也能很好的运行高端的CAD软件,在非游戏应用中,均有不俗的表现(最值得注意的例子是AutoCAD,GeForce 4 MX只比Ti版本慢数个百分比,但价格就相差好几倍)。GeForce4 MX 440在性能上能轻易胜过旧的GeForce 2 Ultra和MX,而且更省电和更便宜,GeForce 4 MX系列有三个形号:MX420、MX440和MX460,MX460的性能并不弱,但由于价格接近一代神卡GeForce 4 Ti 4200,因此很快就消亡了,MX420的性能只比GeForce 2 MX400稍微好点,因此活跃在OEM市场中,真正在中低端市场得到大力发展正是MX440,性能足以胜过它的对手Radeon 7500,和已经停产的GeForce 2 Ti/Ultra,ATI于2002年9月发布的Radeon 9000 Pro,性能与MX440相近,但就完整支持DirectX 8,而且单一材质填充率更高,但9000始终未能打破MX440在OEM市场的垄断。





可以说整个DX7/8时代,是以Nvidia的胜利而告终,但这仅仅只是表面现象,ATI和Nvidia的争霸战却在酝酿着一场风暴。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
6#
hyenax1950xtx  楼主| 发表于 2013-4-12 20:10 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-29 02:05 编辑

DirectX 9.0/9.0b/9.0c时代

2002年底微软发布DirectX 9.0,随后又更新为DirectX 9.0b和DirectX 9.0c,传统的硬件T&L单元被取消,DirectX 9.0的出现也使得OpenGL API在游戏开发领域的应用走到了尾声,基于OpenGL API开发的游戏屈指可数。新的特色是提升了Vertex Shader和Pixel Shader的版本,从而展现出更为强大的性能。DirectX 9.0中包含了NURBS和Displacement Mapping(置换式贴图)这两项关键的技术。NURBS在3Dmax中是很常见的,但是运用到3D游戏后,我们所看到的画面将更加接近真实。NURBS就是专门做曲面物体的一种造型方法,可以用它做出各种复杂的曲面造型和表现特殊的效果,如人的皮肤,面貌或流线型的跑车等。而Displacement Mapping技术借助在平面的多边形上加上一些数据,可以帮材质加上深浅高低的轮廓视觉效果。总体而言,DirectX 9.0是对于DirectX 8.1版本的补充,出现这一现象是因为当时的3D显卡技术的发展滞后于DirectX接口。

来到了DX9时代,有一些问题不得不提前说明,众所周知,从DirectX 6时代确立优势地位以来,经过DirectX 7、8两代的发展,伴随着与微软的良好合作,Nvidia成为了桌面PC独立显示核心的霸主,市场占有率成倍提升。在收购了3DFX以后,Nvidia又通过GeForce 3、4两代产品在市场占有率方面击败了另一个对手ATI ,而且,通过雄厚的技术实力,其每半年更新一代的做法也令对手疲于奔命。随着GeForce 4的成功,NVIDIA 也处于历史上的最巅峰时期之一,产品不仅局限于PC显示核心,更延伸到主版芯片组,电视游戏机领域。不过Nvidia的一家独大也引起了一些业内人士的不满,他们指责Nvidia是图形业内的Intel。当然这也使与Nvidia一贯合作良好的微软有所注意,尤其是Nvidia在DirectX 8标准制定过程中的某些做法以及开发自主的CG语言等,使得微软不等不重新审视这个昔日的合作伙伴,两家公司的开始逐渐变得貌合神离。后来,在Nvidia为微软提供XBOX硬件解决方案的过程中,其产品随着制造工艺的进步,硬件产品的制造成本是逐渐下降,但是Nvidia与微软的合同中并未考虑这一点,等到微软意识到这一点后,希望修改合同中的部分内容,但却遭到了Nvidia的断然拒绝。作为微软的回应,DirectX 9规范的制定过程中,微软没有考虑任何Nvidia的意见。在参考了ATI 的部分提议后,微软将24BIT渲染精度、着重于Shader并行处理性能等作为DirectX 9的主要特点。除此之外,在年底发布的3DMARK03中,微软的影响也是显而易见,NVIDIA 这时再也按耐不住,对3DMARK的开发公司Futuremark进行了公开的指责。



天神下凡:Radeon 9700Pro

ATI凭借着Radeon 8500的成功,终于第一获得高端产品的性能制高点,但很快就被Nvidia推出了GeForce 4 Ti请下王座。原先ATI曾方言要推出8500XT (R250)来对抗Nvidia的高端产品,尤其是最强的Ti 4600。根据预先发布的消息,8500XT的核心和显示存储器的频率将会是300MHz。这其实是ATI分析讨论后发出来的烟雾弹,用于迷惑Nvidia的产品研发周期。

就在Nvidia认为自己的Geforce 4 Ti已成功让对手ATI无法喘息之时,也就是在Geforce 4 Ti发布完的短短4个月后,ATI突然宣布秘密开发已久代号R300的Radeon 9700 Pro,基于R300核心的Radeon 9700 Pro犹如天神下凡一样的降临,并且同Matrox Parhelia 512一样加入对DirectX 9.0的所有支持,给了Nvidia一大盆冷水,Nvidia对DirectX 8.0/8.1寿命的错误估计,导致了GeForce 4系列依然采用DX8架构,使得完美支持DX9的Radeon 9700格外耀眼,这也是ATI进入3D战场以来真正意义上的首次领先。

R3xx芯片是由ATI的西岸团队设计(ArtX Inc.的前身),而第一个产品就是Radeon 9700 Pro(ATI的内部代号:R300 - ArtX的内部代号:Khan),它于2002年8月推出。R300的架构设计简洁而高效与前代的产品Radeon 8500 (R200),在很多地方存有差别。Radeon 9700 Pro的核心以0.15微米的制程制造,与Radeon 8500相似。但是,精炼的架构和较先进的工艺都令芯片的晶体管数量和频率都得到双倍提升。其中一个重要的转变,是利用了反转芯片针脚栅格数组技术制造核心。这是一种从未在制造显卡时使用过的技术。这个技术可以令核心能以较快的速度冷却,因为核心直接接触到散热器,而核心就能以更高频率运作。Radeon 9700 Pro的核心/显存频率达到325/620MHz,首次采用256bit的显存位宽令显卡带宽接近20 GB/s的空前水平。规格上R300完全支持AGP 8X,采用全新的256bit显存控制器,第三代Hyper-Z技术能有效节约显存带宽,而SMOOTHVISION 2.0也提供了全新的AA模式,性能画质都达到了一个新的高度,一举登上当时的3D性能王座,核心拥有1.1亿个晶体管,是当时最大型和最复杂的核心。一个较慢的核心,事实上,早在R200发布之初,R300就已经完成了样品。ATI之所以一直忍气吞声、按兵不动,其目的就是要麻痹NVIDIA。果然,面对突如其来的R300,NV方面毫无准备,只能加速NV30的研发进程,最后拿出屡次延期发布的GeForce FX 5800仓促应战。Radeon 9700 Pro击败的不仅仅只有GeForce FX 5800 Ultra,还有Matrox的Parhelia 512,幻日比R300早几个月推出,曾是图形芯片制造工艺的顶峰(八千万个晶体管,核心频率是220 MHz)。

Radeon 9700 Pro的先进架构运行效率十分高,对比它在2002年时的旧对手而言,性能当然是非常强大。在低负载模式时它能比昔日的皇者GeForce 4 Ti 4600快上15-20%,但当运行抗锯齿(AA)和各异向性过滤(AF)运算时,它能比Ti 4600快上40-100%。在当时来说,这就天神下凡的效应,Radeon 9700 Pro对AA和AF的推动可谓功不可没。由于Radeon 9700 Pro早已有了样品,使得工程师们得到充裕的时间去进行驱动的优化研究,使得Radeon 9700 Pro一发布就获得了相当完美的驱动支持。R300在性能与画质上的跃增,造就了R300成为历史上继Voodoo和GeForce 256之后空前成功的产品之一。并且Nvidia反击计划中的GeForce FX 5800不只推出时间较晚还没有获得对等的性能,尤其是使用pixel shading的时候,性能大幅落后于Radeon 9700 Pro。这一切都使得R300成为历史上最长寿的显示芯片,R300推出3年后的新游戏还能够提供合理的性能。

Radeon 9700 Pro的优秀还不止于此,R350作为一款在架构、技术之上无创新的芯片,和R300核心绝对有千丝万缕的联系。在架构上,Radeon 9800 Pro和Radeon 9700 Pro可谓如出一辙,同样使用8×1的渲染流水线架构,保留了256-bit的显存界面。核心工作频率从Radeon 9700 Pro的325MHz提高到了 380MHz,显存频率则从310MHz提高到了340MHz(680MHz DDR),分别提高了17%和10%。Radoen 9800 Pro和Radeon 9700 Pro之间的性能差距主要也来源于此。除了频率上的增进,Radeon 9800 Pro在图形技术特性上也作稍微改进-----SMARTSHADER和SMOOTHVISION技术从2.0提高到了2.1,并加入了全新的F-BUFFER技术,可以使用无限长指令的PixelShader编程。另外纹理压缩技术HYPERZ III也升级到了HYPERZ III+,进一步提高渲染效率。因此注定了玩家们可以通过购买Radeon 9700 Pro来修改成Radeon 9800 Pro甚至Radeon 9800 XT,而价格却远低于他们。



数月之后,Radeon 9500和Radeon 9500 Pro推出。Radeon 9500系列是是ATI效仿其对手市场策略的产物,目的是占领中高端市场。它也采用R300图形核心,只是将流水线以及显存的支持部分有所修改的,因此它也完全支持完全支持AGP 8X,并且提供了完整DX9的支持。不过只搭配128位宽DDR显存总线,工作频率同为275/550MHz。拥有Radeon 9500 PRO和Radeon 9500两个不同版本。二者的区别在于,Radeon 9500 PRO核心非常接近于Radeon 9700,同样配备8个渲染流水线,搭配128MB的DDR显存,而Radeon 9500仅仅有4个渲染流水线,显存仅仅有64MB。可以说玩家们成为Radeon 9500的疯狂簇拥并不仅仅只是因为它价格相对低廉,而是有机会通过修改电阻、刷新显卡Firmware等软件修改方式和硬件修改方式将显卡被屏蔽掉的渲染管线打开,并使用256Bit的显存带宽,成为拥有256BIT带宽完整的Radeon 9700 Pro或128bit的Radeon 9700 Pro,甚至改造成为身价更高的FireGL Z1专业显卡。

同改Geforce为Quadro的方式不同,绝大多数玩家并不需要专业性能,而Radeon 9500改造带给玩家们的甜头却是实实在在的,这次是真正让玩家们尝到了DIY的甜头。由于Radeon 9500改造的事件大大冲击了ATI的高端显卡市场,ATI不得不重新设计板卡及加快新品的更新换代,用Radeon 9600代替Radeon 9500来消除所来的的负面影响。



Radeon 9600/9600 Pro/9600 XT在中端市场上的表现也是相当不错的,尤其适用TSMC 0.13微米制程的Radeon 9600 XT频率很高,全系列同样完整地支持DirectX 9.0,不过仅仅配置2个可编程顶点描景管道,而且像素渲染流水线缩减为4条,同时显存位宽也只有128Bit DDR。



“50”这个数字对ATI的影响是深远的,并且一直延续到现在,而编织这个神话的就是在中低端市场上称王称霸的Radeon 9550,在ATI的历史上它成为了绝对的经典,甚至达到了ATI自己想要复制和模仿都无法企及的高度,从规格上来说,Radeon 9550只有4条流水线,其性能也比较平庸,但价格却低廉而实在,能让大家惊呼Radeon 9550神话的是那不可思议的超频能力和性能提升幅度,核心默认250MHz频率的Radeon 9550几乎每一块都能达到400MHz,幅度高达60%,而一些做工优秀的Radeon 9550随意就能达到450MHz,部分体质较好的可以超过500MHz,达到了触碰旗舰卡边缘的实力,这种价格与实力高度错位的配比,让Radeon 9550受欢迎程度几乎达到了不可理喻的地步,基本上Radeon 9550=“性价比显卡”。



大家常常用“小强”来称呼Radeon 9550使得厂商也跟着起哄。



那一台让人无法忘怀的电吹风:Geforce FX 5800 Ultra

Nvidia原本计划于2002年11月18日发布Geforce FX,但由于采用当时领先的0.13微米制程(台积电代工)及GDDR2显示存储器(三星制造)的成品率太低,Nvidia临时改进了NV25核心使其支持AGP 8X,称为NV28核心,即Ti 4600更新为Ti 4800来临时应对竞争对手的Radeon 9700 Pro,但终究是上一代产品,性能完全不敌竞争对手,使ATi罕有的取得了之前从未获得过的性能之王。 GeForce FX正式上市前的这段时间NVIDIA相当尴尬,只能通过优化驱动来减小与ATi产品的差距。

GeForce FX正式开始上市是在2003年3月份,首批有两个型号,FX 5800 Ultra与FX 5800。前者负责取代上代的Ti 4800,频率达到核心500MHz/显示存储器1000MHz,是当时市面上频率最高的显卡,首次超前使用三星刚刚开始量产的GDDR2作为显存,时钟频率虽比DDR高,但功秏也提高,显存延迟也变得得严重。所以就算使用了新技术,但只有128Bit位宽,完全不能发挥NV30应有的性能,在与竞争对手Radeon 9700 Pro对比的多个媒体评测中只是勉强取得了胜利,但为此付出的代价相当大,即使NV30支持分频技术,但由于采用两倍于上代产品的晶体管制造,它的运行温度很高,消耗了两倍于同等ATi显卡的电能。FX 5800 Ultra采用史无前例的占据两个PCI槽位的FX Flow散热系统的噪音也相当高。FX 5800 Ultra的性能王座只坐了不到一个月,ATi在FX 5800 Ultra发布不久迅速推出了Radeon 9800 Pro予以还击,其性能完胜FX 5800 Ultra。现时FX 5800 Ultra被认为是NVIDIA公司自成立以来除NV1外第二失败的产品。低一个档次的FX 5800频率稍低,负责取代上代的Ti 4800 SE,散热器则为普通风扇,噪音稍小,但同样需要占据2个PCI盘。

GeForce FX 5800系列显卡采用第二代CineFX引擎,支持Intellisample技术,ForceWare统一软件环境。提供了FP16和FP32精度模式。这两种模式前一种意味着低精度渲染(和竞争对手相对而言),另一种是低性能模式。32比特支持也使得晶体管数量大幅增加。着色性能通常也只有竞争对手ATi产品的一半或是更低。作为兼容微软DirectX标准上享有盛誉的NVIDIA,为此次误判微软下一代规范,付出了沉痛的代价。Nvidia开始掩饰GeForce FX的缺点。这个时候备受关注的“FX Only”演示程序Dawn发布了。但是当这个程序被破解之后,人们发现在Radeon 9700显卡上运行的速度甚至更快。随后,NVIDIA在驱动上进行了更多的修改和“优化”,但是NVIDIA的稳定和高效驱动的传奇已经不在了。后期,NVIDIA通过对指令的重新排序部分地缩小了性能差距,但是着色性能依旧较弱,而且对特定硬件指令十分敏感。Nvidia不得不向微软的低头认错,更新DirectX规范来生成对GeForce FX架构优化的指令代码。



在2003年3月,NVIDIA还发布了代号NV31的FX 5600 Ultra与FX 5600,同时发布的还有代号NV34的FX 5200 Ultra与FX 5200,定位于中阶与主流市场,对手是ATi的Radeon 9600与Radeon 9200,其中NV31与NV30的基本特性完全相同,同为CineFX引擎,支持Intellisample技术,但其采用了128位的DDR显示存储器,显核及存储器频率均有所降低,拥有四条像素管线。稍后NVIDIA又针对OEM市场发布FX 5600简化版,其PCB用料简化,频率降低(不同国家地区有不同的三种名称:FX 5600 SE/XT/LE)。FX 5600 Ultra的性能不足以撼动Radeon 9600 Pro,所以在5月份NVIDIA推出了新版FX 5600系列,核心采用覆晶技术,提升了50MHz的频率达到400MHz,显示存储器亦提升到800MHz,与此同时之前的FX 5600简化版开始走入零售市场。



和Radeon 9550不同,NV34的FX 5200是不择不扣的一代坑爹卡,不支持Intellisample技术,虽然像素管线和FX 5600同为四条,但FX 5200除了支持DirectX 9与上代产品相比毫无优势,其性能比GeForce4 MX 440 SE还要低,根本就不能流畅运行游戏。竞争对手ATi在当时没有支持DirectX 9的同级别低级产品,造成FX 5200相当畅销,在2003年至2004年期间占据了整个低级市场,后期更推出了FX 5200简化版,直到2004年ATi发布Radeon 9550后被终结。



提频大战:Radeon 9800 Pro/9800 XT VS Geforce FX 5900 Ultra/5950 Ultra


为了应对Radeon 9800 Pro,NVIDIA在NV30推出两个月后迅速推出了核心代号NV35的FX 5900 Ultra与FX 5900来取代。由此导致FX 5800 Ultra与FX 5800的寿命相当短,不久就停产。这次NVIDIA迅速吸取了之前的教训,重新采用技术成熟的256bitDDR显示。NV35同时还改进了之前的技术,CineFX升级为CineFX 2.0,主要是改进了浮点Pixel Shader的运算能力,改善了各项异性过滤的图像质量等。Intellisample升级为Intellisample HTC,它增加了色彩、高级纹理和Z轴压缩算法来提升图像质量,另外1:4的无损压缩技术也在256位显存带宽的帮助下得到了很好的发挥。它还加入了UltraShadow技术用来加速Volumetric Shadow的速度,它允许程序员约束光源使物体的阴影在一个特定的范围内,这样就加速了阴影的计算速度。而之前的产品可以通过软件模拟来实现该技术,但性能会有所降低。NV35相比NV30在内存带宽、反锯齿填充率、图形优化功能上分别有所提升和改进。FX 5900 Ultra和FX 5900的散热系统相比FX 5800 Ultra小了许多,由于发热量的降低,使其不用采用FX Flow的大型散热系统,噪音也没有之前这么严重,它同样支持分频技术,在2D下的频率降低以节约电能。



虽然Radeon 9800采用的R350核心在架构上并没有太多的改进,制造工艺依然维持0.15微米,但频率的提高让它的性能比Radeon 9700更上一层楼。虽然GeForce FX 5900搭配的显存位宽升级到256bit,性能提高不少,但核心架构的缺陷让它无法抵挡高频率Radeon 9800系列产品的攻势。



ATI不久又改进其Radeon 9800 Pro产品,于10月中旬发布了Radeon 9800 XT,NVIDIA为了应对马上在10月下旬又推出了代号NV38的FX 5950 Ultra,它采用更先进的制造工艺,使其能获得更高的频率,NV38显卡只改进了PCB供电设计,其他特性与NV35完全相同,它在与Radeon 9800 XT在初期的较量中勉强势均力敌,但绝对性能依然偏弱,只在少数项目中取得领先。





对比GeForce FX 5950 Ultra与Radeon 9800 XT,我们却能发现奇怪的一幕。在大多数基于DirectX 8.1的游戏中,两者的差距微乎其微,而在执行DirectX 9.0游戏时,Radeon 9800XT具有明显的优势。不仅如此,ATI旗下的Radeon 9600系列也具有类似的优势,令Nvidia的GeForce FX 5700/5600系列受到很大的打击。从官方公布的消息来看,GeForce FX 5950 Ultra与Radeon 9800 XT在DirectX 9.0执行方面存在一定的差异,这甚至是导致性能差距的重要原因。尽管两者都是支持Pixel Shader 2.0与Vertex Shader 2.0,但是渲染精度、指令数量、Shader长度等都不相同。原本Nvidia GeForce FX相对于Radeon 9700 Pro的一个主要优点就是可以执行长度达1024指令的Pixel Shader程序,但是ATI随后发布的Radeon 9800系列可以执行任意指令长度的Pixel Shader程序,这比GeForce FX5950又进了一步。这一切都归功于ATI的F-buffer技术,主要用于存储渲染流程中的中间结果,这样就避免了把所有的像素都写入帧缓存,提高了工作效率。同时GeForce FX系列的AA抗压性让人诟病,GeForce FX 5950 Ultra甚至还不能战胜Radeon 9700 Pro。对比同级别的显卡,Nvidia在OpenGL性能上有着很大的优势,而ATI的D3D速度更为出色,之所以出现这种局面并非是单纯的技术原因,厂商之间的“合作”与“牵制”起了决定性作用。



陈桥兵变黄袍加身:Geforce 6800 Ultra

在ATI春风得意之际,Nvidia给了ATI一个狠狠的报复,瞬间把Geforce FX带来的一切阴霾全部吹得烟消云散,换来的是黄袍加身稳坐卡皇。

从今天眼光来看,2004年4月14日推出的NV40绝对是一款不记代价的复仇之作,Geforce 6800 Ultra相对于Geforce FX 5950 Ultra是其发展史上性能跨度最大的,Nvidia对GeForce 6投入的工程研发人员不下500人,研发经费数以亿美元计算,由IBM fishkill工厂亲自操刀的应用冗余晶体管技术完成0.13微米的铜互连工艺。架构相对于NV30可以说是天翻地覆的变化,其最大的特点可以用“加倍”来形容,整体上讲,NV40的晶体管为2.22个,是对手上一代R300的2倍。内部架构方面,像素着色器单元、ROP单元、TMU单元,也是对手的两倍。而且NV40还率先提供了对DriectX 9.0C中SM3.0技术的完整支持。IntelliSample 3.0技术支持Rotated-Grid Antialiasing,令对象在旋转移动时减少锯齿的产生,NV40最大支持4个样本取样,而在驱动程序中的8X模式其实是由4x Mutisample 和 2x Super Sampling合并而成。NVIDIA的PureVideo技术数个专用的视频处理器和软件的组合。这使到显示核心能硬件处理高分辨率视频,例如H.264、VC-1、WMV和MPEG-2格式的影片。它不但能提高图像质素,还能降低处理器资源占用,降低系统的功耗。子像素处理能缩放视频到不同大小,画质比软件提供的高。DX9.0C带来的SM3.0比SM2.0有数个改进:支持标准FP32(32-bit 浮点)精度、动态分支、增加效率和更长的指令长度,这些都是主要的改良项目。Shader Model 3.0迅速被游戏开发者接受,因为转换SM 2.0/2.0A/2.0B的着色指令到3.0版本是一件容易的事情,这亦使到整个GeForce 6产品线都得到显著的性能改进。

开发历时18个月的采用NV40核心的GeForce 6800系列显卡创造了很多项第一:
1、性能之王,NV40核心拥有16条像素渲染管线和6条顶点着色单元;
2、首款支持DX9C标准的显卡;
3、率先推出支持PCI-E的显卡;
4、多卡互联的SLI技术重现。

GeForce 6产品线的第一个成员就是6800系列,用来满足高性能游戏市场。GeForce 6的第一个形号是GeForce 6800 Ultra (NV40),在早期的对决中与近似价钱的ATI显卡对决时,6800系列显卡是处于不利地位的。之后,新的驱动程序都改善了两间公司产品的性能。ATI的Radeon X800XT PE,是6800 Ultra的直接竞争对手。6800 Ultra在大部分的综合和游戏中,性能都与对手不相伯仲。各张卡在不同的游戏应用中,都表现出各自的优点。NVIDIA的显卡主要在OpenGL应用中取胜,而ATI在大部分的Direct3D应用中取胜。这样,整体而言GeForce 6800 Ultra的性能与Radeon X800 XT相似,GeForce 6800 GT的性能则胜过Radeon X800 Pro。



让Geforce 6系列家族真正大放异彩的是在6800 Ultra发布后的几个月后于2004年8月12日正式发布代号NV43的GeForce 6600。它拥有的像素流水线和顶点着色器数目只有6800 GT的一半;显示存储器带宽亦只有128-bit。较低性能和成本的6600是GeForce 6系列的主流产品。6600的着色架构保持与6800系列相同,最为重要的是支持SLI。6600系列有三个成员:GeForce 6600LE、6600和6600GT,6600GT的性能比GeForce FX 5950 Ultra和Radeon 9800 XT稍快,此外,在不打开抗锯齿功能时,6600GT的性能亦与高端的GeForce 6800相仿。发布时,6600家族只支持PCI-E接口,一个月后,利用桥接芯片,支持AGP接口的形号亦开始推出。Geforce 6600GT拥有超过6800一半的规格,而其价格却要比一块6800 Ultra的一半还要少,凭借支持SLI的技术,6600GT在中端市场大放异彩,虽然糟糕的SLI的驱动经常失效,但仍然无法阻止玩家们的购买热情。



在Geforce 6系列家族中还有两款型号也让玩家们热衷,就是Geforce 6800标准版和6800 LE,从名字的命名上,大家应该略知一二了,没错,他们可以打开被屏蔽的渲染管线,获得16条管线和6个顶点处理器成为完整的Geforce 6800GT,再度刮起一股改造之风。

没有光环加身的卡皇:Radeon X800 XT PE/X850 XT PE

ATi代号R420的Radeon X800XT于2004年推出继承R300衣钵的显卡,以台积电0.13微米Low-k制程生产。只支持DirectX 9.0b,不支持DirectX 9.0c,虽说早期并没有那么多DX9.0C的游戏,但这却是R420无法弥补的硬伤。核心与Radeon 9800 XT相似,新的核心只做了些改进,所以不支持 ShaderModel 3.0、HDR等功能,换汤不换药的设计完全是靠R300的优秀基因撑起一片天空,但是R420却远没有R300幸福,不支持DX9.0C、不支持多卡互联、没有桥接芯片提供AGP支持,可以说X800XT一上战场就武器尽失,只能依靠绝对性能去硬拼,最后堡垒就是在功耗控制方面ATI依然占据很大的优势。



早期R420家族有两款产品,X800 XT和X800 Pro,原定对手是Geforce 6800 Ultra和6800 GT,但在性能竞争中败下阵来,ATI又回炉BIOS放出频率更高的X800 XT PE对付Geforce 6800 Ultra,被砍掉管线的X800 Pro显然不是6800 GT的对手,ATI放出R480/R481核心,具有原生的PCI-E接口和R481核心则具备原生的AGP接口,其他技术规格则一模一样。它们的衍生物自然是X850 Pro、X850 XT和X850 XT PE。



前面提到X800 Pro/X850 Pro都被屏蔽了管线,它们和被再度阉割的X800 GTO/X850 GTO一起也都成了开管爱好者的宠儿,通过打开完整的16条管线即可获得同X800 XT/X850 XT一样的性能,甚至在超频后达到X800 XT PE/X850 XT PE的旗舰级水准。

尽管旗舰级行列的产品赢得了绝对性能的胜利,但是中端和低端市场却是一片狼藉,X700/X600根本就无力和Geforce 6600系列对抗,反到是Radeon 9550的PCI-E接口版X550席卷了整个低端装机市场,而X550始终没有Radeon 9550那么耀眼。



这一次的对决,可以说是以ATI完败而收场,好在R300的优秀基因,ATI不至于惨淡收场





稳坐王位达半年之久:GeForce 7800 GTX

在GeForce 6系列大获成功之后,Nvidia没有放慢自己脚步,而是在2005年6月正式发布核心代号为G70的Geforce 7800 GTX,核心采用较成熟的TSMC 0.11微米制程,3D引擎升级为CineFX 4.0,全系列绘图芯片是原生PCI-E,并没有原生AGP产品推出过。与GeForce 6一样,支持DirectX 9.0C、Shader Model 3.0、OpenGL 2.0、HDR,由于管线数达到空前的24条,其内部集成了3.02个亿晶体管,核心面积超过300平方毫米,也是当时业内最复杂图形核心。

G70实质只是NV40的进化版,但是Nvidia故意而为之的命名方式却把ATI吓得不浅,迫使ATI去选择尚不成熟的90nm工艺,导致Radeon X1000系列被延期了半年之久,而这段真空期让GeForce 7800 GTX的王伟坐得稳如泰山。

在新技术层面上G70并没有NV40那么多光环,但是其半年之久的王座地位让人们又再次看到了Nvidia的强悍与骄傲。



核心代号G73的GeForce 7600 GT,时钟频率560/1400MHz,官方规格采用136Ball 1.4ns GDDR3存储器,原定对手为ATi的X1600 XT,后来因7600GT性能太过强悍,逼使ATi把X1600XT降价,推出X1800 GTO上下夹击。迫使ATi重整了中阶产品线,以RV560和RV530组成的X1650Pro、X1650 GT、X1650 XT对抗7600系列入侵。



GeForce 7300系列的性能十分强悍,终于在低端市场将Radeon 9550和他的马甲Radeon X550请下了神坛成为新的霸主。



临危受命而又姗姗来迟的X1800 XT

被SLI、DX9.0C搞得很受伤的ATI,在全新的Radeon X1000架构做到了完美支持SM3.0、全面支持CrossFire双卡互联和Avivo视频加速解决方案。在硬件架构上ATI首次采用了Ultra-Theareding Dispatch Processor动态流控制,全面提高了SM3.0的执行效能,并且突破性的支持HDR+AA技术,可以说在架构上已经领先于GeForce 7系列。

代号R520核心具有全新的绘图引擎,称为Ultra-Threaded Pixel Shader Engine,它比以前的绘图核心更有效率,核心有3亿2千万颗晶体管,16条Pixel Shader流水线及8个Vertex Shader引擎的架构,ATI破天荒的使用比Nvidia还要超前的90nm工艺,使得X1800 XT拥有很高的核心频率,所以X1800 XT在只拥有16条像素流水线的情况下,性能能就超越拥有24条像素流水线的GeForce 7800 GTX。携带着完整DX9.0C支援的X1800 XT在Pixel Shader方面支持Pixel Shader 3.0,新的绘图引擎能把一个很长的Pixel指令,分拆为很多较短的指令,然后再分给各个Pixel Shader Unit运算,由于指令被分拆成很多的小段,各个Unit的运算时间相若。不像以往指令比较长,各小段的复杂程度有分别,造成一些Unit比较快完成运算,而等待另一个Unit的运算结果,造成闲置和浪费。新的绘图引擎能同时处理512个指令,并支持4*4=16像素的Pixel Block,提高了Dynamic Branching的效率。这个引擎如果发现了有Unit处于闲置,会立即指示新的指令,不会造成浪费。如果闲置的原因是等待其他Unit的运算结果,它会被冻结此Unit,发布ALUs来运行其他指令。在Vertex Shader方面新的绘图核心支持Vertex Shader 3.0,可运行1个128Bit Floating Point Data或是四个32Bit的组合,每个Vertex Shader单元能在每时钟频率能生成两个Vertices。显存控制器方面虽然R520的存储器带宽是256Bit,但内部架构却是512Bit。它其实是由两个256Bit环型管道、四个Ring Stop及8组32Bit的Memory Client所组成。每一个Ring Stop会负责2颗32Bit的存储器颗粒,而数据的存储是会通过Ring Stop直至到达指定存储器。由于两个环的走向是相对的,多数通过一个Ring Stop就能到达指定存储器。R520的存储器读取架构是当某单元需要从存储器读取数据时,该单元会向存储器控制器作出读取要求,但数据不会回传到存储器控制器,而是通过Ring Bus传到该单元,由于不用回传数据,效率也得到了提高。同时采用新的Anti-Aliasing模式,新的AA模式称为Adaptive AA。这模式是Super-Sample AA和Multi-Sampling的结合,能在画质及性能上取得平衡。核心能因应每个对象的透明度情况去选择最合适的AA模式。透明的话就采用Super-Sample AA来达至最佳效果,不透明的话就用Multi-Sampling来取得最佳性能,R520最高支持12X AA。

可以说R520同R420不同,带着各种光环效益的Radeon X1800 XT有着诸多新的特性,并未在和早期Geforce 7800 GTX的对决中显现出来也没有捞到什么便宜,却被早有准备的Nvidia放出了高频版的7800GTX 512MB给击退,一出手就吃了一个哑巴亏。究其原因,大刀阔斧的改进没有抓住重点,各种眼花缭乱的新技术反而成了Radeon X1800 XT的累赘



以小搏大的旗舰级芯片:Geforce 7900 GTX

如果说你还在感叹Geforce GTX 680的GK104核心过小,那么说明你不懂Nvidia,你不懂G71,到了G70时代,ATI可以说完全是被Nvidia牵着鼻子走,G70光是这个名字就把ATI坑得够呛,而G71的出现则完全是让ATI摸不着头脑,G71核心架构与G70没有本质区别,但新发布的顶级核心在晶体管数量上反而低于其前任,这在历史上恐怕还是第一次,这也反映出了NVIDIA的魄力与对局势的准确把握的魄力,G71拥有2.78亿个晶体管,较G70下降10%,而且由于采用了成熟的90nm工艺,核心面积仅有196mm2,使得制造成本显著下降,良品率更高。同时可以在降低功耗、发热的同时,大幅度提高核心的运行频率,7900GTX(650MHz)的核心频率比7800GTX(430MHz)高出了220MHz,提升达50%,这在显示芯片的发展史上是第一次出现。至于Nvidia对G71的用意,ATI显然没有看透,将更多的资源倾注进X1900系列中而浑然不觉随后发布8个月发布的G80才是Nvidia真正的大杀器。



凭借小而精悍的G71,Nvidia对抗Radeon X1950 XTX的砝码变成了双芯卡,并且在Radeon X1950 XTX发布初期一度超越对手不少。



一代天骄:Radeon X1950 XTX

Radeon X1900系列与Geforce 7对阵,ATI几乎占据全面优势,但持续时间不长便被NVIDIA G80系列打破。按照ATI自己统计,像素渲染已成为游戏运算的瓶颈。自从DirectX 8于2001年推出,可编程的渲染引擎被引入,像素渲染开始被大量使用。同时,像素渲染的复杂程度亦不断的增加。渲染指令分为两类,一个是从显示存储器中提取数据作纹理渲染;另一种是利用数学运算作渲染。在2001年时,两种渲染指令所占用的资源是相近的。但往后几年,数学运算型渲染占用的资源越来越大。到了2006年,比例达到了5:1。根据预测,比例还会持续上升。有鉴于此,ATI将像素处理器和纹理处理器的比例设成3:1,这样做是确保纹理处理器有足够带宽,又会有较多像素处理器作数学运算型渲染,代号R580+的X1950 XTX拥有16条流水线,48个像素处理单元,8个顶点渲染管线,核心速度650Mhz,采用GDDR4存储器,存储器速度2000Mhz,存储器容量512 MB,这让X1950 XTX展现出了过人的优势,在很多新游戏中性能表现非常突出,强大的硬件规格让HDR+AA技术也能够在高分辨率下流畅运行!被喻为最后的ATi显卡,一代天骄Radeon X1950 XTX顺势而生,X1950XTX率先支持更快和更低功秏的GDDR4显示记忆体,使显核潜能发挥得更淋漓尽至。从X1950XTX CrossFire和7950GX2 Quad SLI的测试可看出,ATI以双显击败了nVidia的四显,可得知Pixel Shader在游戏的比重非常的大。为了避免前两代CrossFire产品上所犯下的错误,ATI将X1900 CrossFire迅速推向了市场,这使得X1900 CrossFire超越了7800GTX 512MB SLI成为性能最强的游戏配置!X1950 Pro和X1650 XT都内置了 Composting Engine,配置变得简单,不再需要主卡和接线。



在ATI对3:1的黄金比例鼓吹下,Radeon X1900系列可谓遍地开花,和X1950 XTX规格一样没有采用GDDR4显存的X1950XT,拥有12条流水线、36个像素处理单元的X1950Pro,X1950 GT、X1900 XT等,







拥有8条流水线、24个像素处理单元,5个顶点渲染管线,核心速度600Mhz的X1650XT和自己降频版X1650GT,性能强劲,夺回了被Geforce 7300GT和7600GT蚕食得大部分市场,X1650 Pro对抗GeForce 7600GS,由于X1300的失利,X1650变相为将中端卡降格为高级低级卡,对抗GeForce 7300GT。



X1900系列的改进是正确,但创新的3:1架构未在它应该有的时刻发挥出效能,导致ATI用大核心去对付对手的小核心,而性能却没有显著的提高,当我们发现Radeon X1950 XTX在新游戏中的表现达到Geforce 7900 GTX一倍以上的性能时,ATI早已被AMD收购,至此Radeon X1950 XTX这位DX9时代的一代天骄只能在粉丝们缅怀中继续称霸。





(PS:虽然我的ID中带有X1950 XTX,但实际我最喜欢的显卡还是Matrox的G400 MAX,当时取名的时候手滑了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
7#
hyenax1950xtx  楼主| 发表于 2013-4-13 02:33 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-29 02:07 编辑

DirectX 10

整个DirectX 10发展的初期,可以说是Nvidia的独角戏,G80压倒性的性能优势加上ATI至AMD的青黄不接,以及R600的失败,让这个时期的显卡发展可以说是窒息的,压倒性的性能优势没有给Nvidia的粉丝们带来一丝实质性的好处,反而让无良的厂商将Geforce 8800 Ultra卖到9999人民币的天价。

DirectX 10最大的革新就是统一渲染架构(Unified Shader Architecture)。彻底结束了管线时代开启了今天我们所看到的的Shader时代,管线时代的各类图形硬件和API均采用分离渲染架构,即顶点渲染和像素渲染各自独立进行,前者的任务是构建出含三维坐标信息的多边形顶点,后者则是将这些顶点从三维转换为二维,这样便可以通过视觉欺骗在屏幕上显示出“三维”的场景。与此对应,GPU中也有专门的顶点渲染单元和像素渲染单元来分别执行这两项工作(由于工作量不同,这两种渲染单元的数量不相等,顶点渲染单元通常只有像素渲染单元的1/3~1/2)。在过去几年中,这种分离式设计对计算机图形领域的发展做出了一定的贡献。不过,微软认为这种分离渲染架构不够灵活,不同的GPU,其像素渲染单元和顶点渲染单元的比例不一样,软件开发人员在编写代码时必须考虑这个比例,这就大大限制了开发人员自由发挥的空间。另外,不同的图形游戏或软件对像素渲染和顶点渲染的需求不一样,导致GPU的运算资源得不到充分利用。为此,微软在DirectX 10中提出了统一渲染架构的思想:在相同物理类型的渲染单元上执行不同类型的渲染程序。换句话说,只用一种渲染单元,让它既能完成顶点渲染,也能完成像素渲染,甚至还能实现几何渲染。这样一来,渲染单元可以得到最大程度的利用,减少了资源闲置的情形。

从DirectX 8开始,Shader Model(渲染单元模式)在DirectX体系中的地位就日趋重要,其版本和渲染单元的规格也成为了决定显卡性能高低的关键因素。随着DirectX 10时代的到来,Shader Model也升级到了4.0版本。与当时如日中天的Shader Model 3.0相比,Shader Model 4.0中的指令长度被提升到大于64K(即64×1024)的水平,这是SM 3.0规格(渲染指令长度允许大于512)的128倍。显然,SM 4.0在为渲染出电影级别的游戏画面做准备。由于渲染指令长度大幅提升,SM 4.0中相应的寄存器规格也有所增强,如Constant寄存器采用16×4096阵列、tmp寄存器则有4096个、input寄存器采用16/32规格等,上述指标都比以前的DirectX有明显的改进。其次,SM 4.0在纹理数量方面也有提高。DirectX 10允许程序员在渲染物体时使用128个纹理,而DirectX 9只提供4/16规格,更多的纹理意味着物体表面精度更接近真实,游戏开发者拥有更广泛的选择。

人类图形芯片发展史上的里程碑:Geforce 8800GTX

Nvidia代号G80的GeForce 8800 GTX于2006年11月推出,G80是全球首款支持DirectX 10的显示芯片,同时也是相当恐怖的一款GPU,核心拥有6.81亿个晶体(G71的2.5倍),64个Texture Filtering Unit,具备128个颠覆传统的Shader架构标量流处理器(也就是我们现在所说的SP),每16个为一组,每一组有8个材质过滤单元和4个材质寻址单元,每一组流处理器都拥有L1和l2缓冲记忆体,32个Texture Address Unit和 24个光栅操作单元。核心频率是575MHz,但Shader部分的频率是1.35GHz,运算性能高达519 gigaflops,G80配备384bit显存位宽,显存容量最大为768MB,显存频率1800MHz,功耗达185W,需要两组外接 6 pin 电源。G80可同时运行过千个线程,nVIDIA称之为GigaThread技术,Nvidia也参考了ATI的设计,使其显示核心能进行异类运算工作,例如物理运算和图像编码。

G80的强化画质引擎称为Lumenex,它支持Anti-Aliasing(反锯齿技术)、High Dynamic Range和Anisotropic Filtering(各向异性过滤)。反锯齿方面,将同时利用覆盖采样和几何采样。这个新模式称为Coverage Sample Anti-aliasing(CSAA),程度分为8x、8xQ、16x和16xQ。其中的Q版本画质较高。CSAA 16x的画质比常规反锯齿4x好,但是性能趺幅相近。纵使CSAA 16x图像质素高,但当游戏采用大量模板阴影时,会影响到CSAA运算效率。
各向异性过滤方面,G80加入了Angular LOD控制,能有效加强锐利度。图像输出方面,G80支持10-Bit(十亿种色彩)图像输出,比上一代的8-Bit(一干六百万种色彩)图像输出质素大幅提升,但比ATI迟了一代。

G80的出现不仅让Nvidia在传统的桌面领域战胜了对手,而Tesla得出现更让Nvidia进入了超算的领域。同时在推出G80之际也推出了名为CUDA(Compute Unified Device Architecture)的GPU通用计算环境技术,并一直沿用至今。



2007年5月8日,GeForce 8800 Ultra凭借新的制程再次冲击了频率新高,在拉高和8800 GTX的性能差距后也拉高了价格。



GeForce 8600系列采用G84显示核心,定位是中端。它拥有32个SP,16个Texture Filtering Unit,16个Texture Address Unit和 8个光栅操作单元。值得注意的是,在G80核心中,每个可编程运算单元有4个Texture Addressing Unit、而在G84和G86核心中,每个可编程运算单元有8个Texture Addressing Unit。所以G84和G86核心不是单纯的从G80简化而来得,Nvidia的双架构研发开始成形。整个8600系列有两款显卡形号,它们是Geforce 8600 GTS和8600 GT版本。当中的分别是GTS版本显示核心和存储器的频率较高。还有,GTS版本是强制性支持HDCP,而GT版本则可有可无。显存方面,G84核心最高支持GDDR4显存,而显存位宽只有128bit,是高端G80的三分一,图像方面支持第二代的PureVideo HD。



可以说G80对现代图形芯片的影响是极为深远的,G80代入了很多对游戏性能无关的单元,使得GPU的发展有了更为广阔的领域,同时也影响了AMD和对独立显卡不怎么感冒的Intel,但是副作用也是明显的,扩张式提升的功耗和发热直接推动了电源行业和散热器行业的发展。另一深远的影响则是心知肚明的Nvidia将核心的研发分为两个方向去发展,一个偏计算一个偏游戏,并且一直保持到现在。

第二台让人难以忘怀的电吹风:Radeon HD2900 XT

可以说微软在Windows Vista上的失败,使得DX10难以普及,拥有DX10性能的G80很长一段时间内面对着无DX10游戏可运行的尴尬的场面,这种大环境可以说直接或间接的拯救了AMD,凭借Radeon X1900非凡的DX9.0C性能,AMD一直熬到了G80发布后的6个月,才发布代号为R600的Radeon HD2900 XT。

命途多舛的R600,从2006年发表Radeon X1000 Series的时候,据说Radeon R600图形处理器(GPU)已经在开发阶段,且会于2006年的年尾发表。但是之后R600的信息变的非常少。一般最令人印象深刻无疑是2900XTX显卡的OEM版本。该卡长度达到了12英寸,而当时最高端的显卡亦不过是9英寸长。而在2006年的年尾,越来越多Radeon R600已达最终开发阶段的谣传在网页上出现,而其中一个网站甚至发布R600与GeForce 8800 GTX的性能测试比较的网页,并指出R600比竞争对手的性能测试成绩大部分都多出5%至10%。但之后发现这则性能测试并不可靠,自从这个网站提供错误的显卡信息,在2007年3月该网站就无法链接。而之后其他的谣言认为R600会于2007年第1季发表。最后,NVIDIA于2006年年尾发布了GeForce 8系列的GeForce 8800显卡。在2007年第1季,像是CES或是CeBIT这类的大型机展也拒绝展示基于R600的显卡的相关数据。官方透露出在CeBIT展之后才会发表这类显卡,而R600的发表日会延后至2007年第2季。很快的在3月底,ATI宣布于4月23日至4月24日在非洲的突尼斯会举行一次发表活动,打算邀请约200名记者的事件,但后来知道是一件受不公开协议保护的活动,该协议限制记者不准报道每一个细节。在此同时,更有传言指最后的规格与不同的显卡阵容,包括所有的性能区间与价格的所有不同路线的显卡会统一在2007年5月14日发表。在5月初的时候,根据ATI显卡的合作伙伴HIS透露,所有的Radeon HD 2900 XT显卡会附送Valve的Half-Life 2: Episode Two, Portal和Team Fortress游戏的免费下载。这表示购买此显卡的用户可以玩Day of Defeat:Source这款游戏。最后,Radeon HD 2000系列显卡在2007年5月14日正式发表,目前该产品线的尖端产品Radeon HD 2900 XT 拥有 512 MB GDDR3 存储器,同时报告其他不同的产品线,其中也包括便携式产品。

R600与G80一样,都属于完整支持DX10的硬件设计。64个US共320SP,浮点运算能力达到了475GFLOPS,大大超过了G80 345GFLOPS的水平。512位回环总线为芯片提供了更大的显示带宽。采用了新的UVD视频方案,支持对VC-1与AVC/H.264的硬件解码。对Vista的HDMI音视频输出完整支持,通过DVI——HDMI的转接口能够同时输出5.1环绕立体声的音频和HDTV的视频信号。从规格上看,R600全线与对手可以说是旗鼓相当,但ATI一贯的驱动问题在R600发布前都在困扰着测试人员。与G80将SP调度机制集成在显示芯片内的设计思路不同,对于SP的应用,R600更需要驱动的支持以提升每个US的5SP的独立工作效率,目前尚未成熟的驱动未能百分之百发挥R600的真正实力。R600的设计既向目前的工艺水平妥协以换取理论上更强大的性能,同时完全按照DX10的规格进行超前的硬件设计,可以说又是一款非常平衡的产品。

512bit的显存位宽、320SP的设计等等规格,都给了人们一个无穷的遐想,都认为R600就会粉碎G80的统治,但AMD(ATI)给大家开了一个很大的玩笑,复杂的VLIW架构使得驱动编写异常困难,虽然HD2900XT并非旗舰但性能仅仅只能和8800 GTS玩一玩,离8800 GTX和8800 Ultra都相去甚远,复杂的设计造就了HD2900XT夸张的功耗和噪音,让刚刚进入图形市场的AMD一上阵几乎快要被逼入绝境,也把ATI的AIC一哥Sapphire(蓝宝石)的东家柏能逼得不得不去搞个N卡品牌Zotec(索泰)出来。



虽然说HD2900XT在性能上是失败,但其在工业设计上的成就却获得了玩家们的亲睐,奢华的用料和做工让HD2900XT成为玩家手中的藏品,尤其是后期没有上市的HD2900XTX,更是玩家手中不可多得的瑰宝。



尽管HD2900XT在高端市场上一败涂地,但中端市场上HD2600 XT GDDR4却和Geforce 8600GT杀得难解难分,成为这个时期AMD产品中唯一的亮点。



这一时期,一代天骄Radeon X1950XTX开始发威,完全将当初的对手Geforce 7950GX2踩在脚下,并且全系列的产品都大幅优于曾经的对手,这大概也算ATI对它的用户一个最完美的交代吧,而HD2900XT不仅绝对性能偏弱,就联DX10性能也完全不行,而Geforce 8600/8500系列和Radeon 2600/2400系列基本跑不动DX10游戏。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
8#
hyenax1950xtx  楼主| 发表于 2013-4-13 03:52 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-13 17:15 编辑

DirectX 10.1

来到了DX10.1的时代,其实DX10.1更多的只是对DX10的一个补充,但Windows Vista的惨淡导致整个DX10/DX10.1的游戏很少,整个市场还是以Windows XP的DX9.0C为主。

DirectX 10.1主要更新内容一览:

1、应用程序可控制超级采样和多重采样的使用,并选择在特定场景出现的采样模板,DirectX 10.1中的一个新的特性就是允许Shader控制反锯齿缓存的读取,而在之前只允许访问多重采样的颜色缓存,这一机制允许更先进的反锯齿技术存在,更有利于着色器的效能发挥硬件的优势;
2、直接对压缩的纹理材质渲染,“着色与纹理增强”对画面影响最为明显;
3、支持Shader Mode 4.1;
4、更新指令支持立方体纹理贴图阵列,立方体贴图阵列实际上是DirectX 10当中Texture Arrays(纹理阵列)的进化版;
5、Separate Blend Modes per-MRT(每MRT独立混合模式)—MRT即多重渲染目标;
6、Increased Vertex Shader Inputs&Outputs(提升顶点着色输入和输出);
7、Gather 4的改进源自于ATI在R520时代使用的Fetch 4技术
8、改进是LOD指令为GPU查找已过滤纹理的细节程度,这项指令可以达成客户定制的纹理过滤技术,以对性能和画质进行优化

其实整个DX10.1的年代几乎都是AMD的显卡才会支持,而Nvidia的显卡在支持AMD支持DX11之后才开始支持DX10.1,DX10.1没能挽救Windows Vista同样也没能给AMD带来多少好处,与DX9.0B升级DX9.0C时代广泛受到欢迎的区别太大。

G71灵魂附体:RV670

RV670可以说是AMD的过渡作品,目的是为了支撑后期发布的Radeon HD4000系列,所以AMD学起了Nvidia在G70过渡至G71的把戏,将R600从80nm工艺直接跨过65nm进入到55nm来制造RV670,从ATI的命名习惯上就可以看出,单个“R”是旗舰级核心,而“RV”是小一号的核心,AMD推翻了从前和Nvidia争夺旗舰级性能的模式,改而走成本更低的小核心战略,这一战略的意义非常深远,它使得资金穷困的AMD能够继续在图形市场上保持竞争力,同时对DX版本升级支持的热忱使得整个游戏行业得到了推动和发展,但它的副作用也是明显的,它使得AMD的在图形芯片的扩展应用上一直落后于Nvidia。

Radeon HD3000系列是使用R600核心为基础,破天荒的把工艺走在了Nvidia的前面,使用TSMC 55 nm制造而成导致RV670的面积要比R600小54%,而G92比G80小大约36%,良品率明显高于NVIDIA的高端产品,成本和售价自然更为理想。在DX9.0C吃过大亏的ATI在AMD这里一改面目,积极的在Nvidia的前面首次完整的支持了DirectX 10.1与Shader Model 4.1,其中的强制4AA、FP32纹理过滤都是目前D3D10硬件都已经具备的特性,而Gather4其实就是RV530就引入的Fetch4。真正是DX10.1新引入的特性主要是cube map array、程序员控制AA取样模板、INT16 Blending、MS Buffer读/写。提供完整的VC-1与H.264的硬件解压。核心制造工艺方面。AMD表示,因为新显示核心的显示存储器已作出改善,而采用256-bit存储器亦可以降低成本,增强竞争力,所以HD3870/3850显示控制器采用256bit,而不是原来HD2900 XT的512bit。显卡接口方面,RV670采用较新的PCI-E 2.0。CrossFire方面,最多可以支持四卡连接。为了降低电力消耗,AMD从移动平台引入了PowerPlay技术。在2D模式的时候,显示核心频率会降到300MHz,这一切都让RV670给AMD死气沉沉的市场注入一股新的活力。

2007年12月,RV670的芯片正式发布,值得注意的是AMD在本系列上,对ATI一直惯用的LE、GT、GTO、PRO、XT、GT、XTX等番号后缀全部去掉换成了四位数字的分类,以HD3870为例:
1、第一个”3“代表了芯片的朝代;
2、第二个”8“代表了芯片本朝代内的规模,早期”8“就是最高规模的芯片,现在”9“代表最高规模的芯片;
3、第三个”7“代表了芯片的细分程度,”7“代表最高等级,也有”9“代表最高等级的,但目前仅有一款HD4890是,其它的”9“都和”3“一样代表了芯片的二次阉割。
全新的命名清晰明了,简单易懂,这一点我觉得很值得称赞。

就如上面所说,RV670首批带来了两个型号:Radeon HD3870/HD3850,二者的硬件规模一样,HD3870的频率更高采用GDDR4的显存,而HD3850采用GDDR3的显存。在性能上,HD3870压制了8800 GTS、而HD3850压制了8800 GTS 320和8600 GTS,由于HD3850和HD3870同核心但频率偏低,因此HD3850获得了不错超频空间,被玩家们所喜爱。





就同两颗G71组成Geforce 7950 GX2压制Radeon X1950 XTX一样,HD3870也组成了两颗核心的HD3870 x2去压制Geforce 8800 Ultra,并且成功扳倒了Geforce 8800 Ultra的王座,使得AMD重新坐上了性能王座的头把交椅,但这一优势很快被两个月后Geforce 9800 GX2挑落。



拥有120SP的代号RV635的HD3650由于规格和HD2600 XT一样,频率比HD2600 XT还要低,自然性能也有些许不如,但对DX10性能的强化使得HD3650也获得了一些玩家的喜爱。



而在国内市场上,引起中端市场腥风血雨的就是特供版的Radeon HD3690,和HD3850仅仅只是128bit和256bit显存位宽的区别,使其成功填补了HD3650和HD3850之间巨大性能空挡,而Nvidia方面却没有与之对应的产品,使得HD3690一时间获得玩家们的喜爱。



换了马甲我依然还能再战!G92

到了2007年底,Nvidia推出其历史上番号最多的经典核心:G92,G92的产品线番号非常混乱,从最初的Geforce 8系列到Geforce 9系列再到OEM版本的Geforce 100系列最后终止于Geforce 200系列,每一款核心基本都有两个以上的番号,有的番号还有多种核心,但得益于G80的优秀基因,使得G92的经典产品很多。

G92系列最先发布的型号为代号G92-270的8800 GT,在规格上创下了很多个第一:NVIDIA首颗65nm工艺的GPU、首次支持PCI Express 2.0带宽翻倍、高端GPU第一次提供高清硬件加速技术等。核心拥有112个SP支持256bit的显存位宽,规格/性能介于8800 GTS和8800 GTX之间,而设计功耗仅105W,几乎下降了一半,一上市就击败了原本定位更高的8800 GTS,后期改名叫9800 GT还有代号G92B的55nm版,对阵AMD的Radeon HD3870/HD4830/HD4750。





G92核心另一经典就是代号为G92-150拥有96个SP支持192bit显存位宽的8800 GS,支持384MB和768MB的显存,后期更名叫9600 GSO,由于规格较高,不仅给竞争对手Radeon HD3850施加了不小的压力,还给自家的9600 GT造成了不小的麻烦,由于默频较低其超频空间也很大,成为了市场中的一代经典型号,但Nvidia显然不愿意看到9600 GT的市场遭到冲击又不想损失掉这一大蛋糕,因而Nvidia在9600 GSO番号不变的情况下,把核心从G92降级成了9600 GT使用的G94,而SP也从96个下降到48个,性能大减,但凭借9600 GSO这个名号的号召力坑了不少人。



G92的完整核心番号最多,有四个名称,均为128SP,256bit显存位宽,65nm的有两个版本,55nm的也有两个版本:
1、G92-400的8800 GTS
2、G92-420的9800 GTX
3、G92B的9800 GTX+
4、G92-421的GTS250
性能均不及上代的8800 GTX和8800 Ultra,其中9800 GTX更是发生过价格被Radeon HD4850一夜之间的腰斩的情况,早有准备的Nvidia在Radeon HD4850上市以后就立即放出了频率更高性能更强的9800 GTX+来压制,后期9800 GTX+再次更名为GTS250同HD4770/HD4850/HD4860/HD5750竞争。





G92核心还有自己的双芯版,是一张显卡上集成了两个G92-450核心,采用65nm制程。它有两块PCB板,互相采用SLI线缆连在一起,通过一颗BR04芯片将一条PCI-E分给两个GPU使用。如果将两个核心合并计算,它有2×128个流处理器和2×512MB GDDR3显存,但核心之间并不共享显存,实际可用的还是512MB/256bit,对性能造成较大的影响,如同9800 GTX(但在当时是市面上最快的显卡)。核心频率600MHz、Shader频率1500MHz、显存频率1000MHz、显存位宽2×256-bit。视频输出方面,它有两个DVI-I和一个HDMI接口,并支持HDCP。如果有两张GeForce 9800 GX2显卡,系统就可以组成Quad SLI,不过在多个媒体评测中不敌9800 GTX+ 3 Way SLI,造成4<3的尴尬。9800 GX2显卡的待机温度非常高,一般为70度至80度,满载时甚至接近100度,而且它没有在BIOS设置分频功能,电能消耗甚至比GTX 295还要大,它的对手主要是同样拥有两颗显示核心的ATI HD 3870 X2。



G92家族的小弟版G94代表作就是9600 GT,上一代的GeForce 8中端显卡,只拥有128-bit存储器带宽,令其DirectX 9的性能反而比GeForce 7还要差,DirectX 10的性能亦差强人意。所以9600 GT支持256-bit存储器,也是Nvidia首款中端显卡拥有256-bit存储器带宽。另外,公板采用三相供电,有电源控制芯片控制供电相的数目,达到类似ATI 的PowerPlay 节能效果。ROPs方面,利用新的压缩技术,提升了纹理填充率。PureVideo HD方面,此核心可以同时处理两条影片,新增对HDR的调整,以及加强肤色的色泽表现。9600GT虽然定位高于9600GSO,但在部分测试项目中却低于后者。而在推出初期,这两个产品的竞争者是ATI的Radeon HD 3850,此时双方势均力敌,但后期ATI将竞争者变成异常强大的Radeon HD4830/HD4750后,9600系列便在竞争中明显处于劣势,导致HD4830迅速占领了中端显卡市场,2009年初,NVIDIA推出了新款9600 GT系列,称为节能版,最大的特点就是去掉了外接电源接口,但一些超频版的9600 GT满载功耗达110W左右,且生产厂商并未对其配备外接电源接口,如果使用接口版本为PCI-E 1.0或1.1的主板,将容易遇到供电不足提示,无法发挥显卡最大性能。



G92家族的低端型号为G96的9500 GT和9400 GT,他们分别是8600 GT和8500 GT的升级版,也同样保持了性能差强人意的表现,相比竞争对手的同价位产品,性能太低,但由于自G80时代开创的品牌号召力,这两款产品同样横扫了低端市场。





在Radeon HD3000系列铺货的时候,Nvidia的G92产品新还未完全铺开,只能以G80的产品线去应对,过高的功耗使得Radeon HD3000系列在局势很不利的情况下闯出了一片自己的天地。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
9#
hyenax1950xtx  楼主| 发表于 2013-4-13 17:01 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-29 02:11 编辑

人类多晶硅芯片发展史上的里程碑:Geforce GTX280

G92本身对于G80来说只是换汤不换药的改进,2008年6月16日Nvidia发布的核心代号为GT200的怪兽级Geforce GTX280才是G80的正统继承人,GT200采用Nvidia的第二代统一渲染架构,采用很成熟的TSMC 65nm工艺制程,创造性的达到了14亿晶体管,芯片面积突破性达到了576mm²,拥有240个SP,支持双精度和FP64浮点运算,达到32个ROPs,80个TMUs,在GT200的核心中,总共有十组SP阵列,每个阵列中有24个SP,而其中又以8个SP为一组,每一组SP都拥有独立的本地存储器,即为8个流处理器共用1个本地存储器,本地存储器的容量由16KB提升到32KB。另外,每一个数组都有其独立的L1 Cache,也就是24个SP共用一个L1 Cache。加起来,GT200核心拥有240个SP。GTX 200有两个计算模式。一个是绘图模式,另一个是并发处理模式。比较特别的是线程排序器,当线程在读写存储器的时候,为了不耽误整个计算,会直接计算另一项数据,这样可以提升并发处理的效率,提升GPGPU的性能。而GT200的显存位宽也从G80的384bit上升到了512bit。

除此以外,GT200还带了PhysX to GPU的技术。2008年2月,NVIDIA收购了AGEIA公司,取得有关的PhysX物理引擎技术。AGEIA的PhysX引擎必须以自家的物理加速卡作硬件加速,或者以CPU作软件加速。随着NVIDIA收购AGEIA,公司己着手改装有关引擎,使之可以通过显示核心加速该引擎。现在,NVIDIA已推出用于显卡加速的PhysX物理引擎驱动程序,在3DMark Vantage的测试中,CPU的得分受惠于显示核心硬件加速了物理引擎,分数大幅上升。PhysX应用最为广泛的是CPU进行计算,而采用该引擎进行GPU的游戏始终太少。



随后不久,Nvidia就发布了GT200的向下阉割版Geforce GTX260,但这并不是我们所熟知的那块GTX260+,而是首批拥有192个SP,448bit位宽的初代,它在上市后不久就面对了来自AMD的Radeon HD4870的极大压力,价格也被腰斩,市场反响并不好。



受制于65nm制程大,过于庞大的核心体积,使得GT200的良率并不高,导致利润率下降,而功耗也难控制,所以在2009年1月8日开幕的CES 2009电子大展Nvidia推出了55nm版本的GTX 260+核心及两款新卡GTX 285、GTX 295。采用GT200b核心的GTX285相当于GTX 280的55nm重置版,同样拥有240个流处理器、512-bit显存位宽和1GB GDDR3显存,核心频率648MHz,Shader频率1476MHz,显存频率2482MHz,频率超过GTX 280获得了更高的性能,功耗也由GTX 280的236W降至183W,并只需要2个6PIN外接供电接口。GTX285作为当时性能最强的核心而存在。



为了夺回被Radeon HD4870 X2占据了半年之久的性能王位,Geforce GTX295应运而生,GTX295拥有两颗55nm GT200b(并非GTX285而是GTX275)核心,产品设计与GeForce 9800GX2相近。通过NF200接桥芯片将两核心相连。GTX 295共拥有480个流处理器,配备1792MB的GDDR3显存,位宽448bit x2,核心频率576MHz,流处理器1242MHz,显存频率1998MHz。仅支持DirectX 10。整卡功耗达289W,需要1个6pin及1个8pin外接供电接口。卡上提供了一个SLI桥接接口,用作支持双卡并联的Quad SLI模式。最早的GTX295的设计需要2片PCB,而于2009年5月推出的新版本设计只需1片,频率不变但能改善散热效率、减低成本,但单PCB版没有板载HDMI接口。



Geforce GTX275于2009年4月推出,与GeForce GTX 285同样使用55nm GT200b核心拥有完整的240个SP,但显存位宽由512Bit减少至448Bit,显存容量也由1GB减至896MB,另外Raster Operations Unit由32个屏蔽至28个。由于频率较高,所以性能比GeForce GTX 280还要好,直接面对AMD同一时期发布的Radeon HD4890,如果没有55nm的GT200b核心,那么GTX280的皇位将会受到来自HD4890的挑战,这个结果显然Nvidia是不能接受的,但Geforce GTX275比GTX285更低的售价一发布就立即获得了市场的欢迎,其相对GTX285更低频率和完整的240SP使得Geforce GTX275拥有非常好的超频性能,很轻易就能获得GTX285的效能。



整个GT200b产品线最受玩家们喜爱的就是新版的Geforce GTX260+,从旧版192SP提升至216SP决定了其自身默认性能就相当高,并且还拥有不俗的超频性能,千元以上的价格让它很快走进了玩家们的机器中,这款产品不仅在和HD4870 1G的对决中胜出,还扛住了HD4890和携带着DX11大举入侵的HD5770的冲击,一直等到GTX460的出现才寿终正寝,可以说是Nvidia的显卡中又一经典产品。



GT200b的产品线并没有中端产品,这一空挡是由G92接管的,但它却拥有Nvidia在DX10时代唯一的几款DX10.1产品,采用TSMC 40nm工艺制造于2009年11月发布的GT215核心,番号GT240,拥有96个处理器,核心频率550MHZ,最高支持128位1GB GDDR5显示存储器,并支持DirectX 10.1,俗称”小白卡“,因为其发布时间在AMD已经发布DX11芯片之后,而性能却不怎么给力,无法战胜前辈9600 GT,还具有过高的价格,无论从哪个方面看GT240都不值得选购,长期被Nvidia唱衰的DX10.1在GT240身上去宣传本身就是一个笑话,但为什么我会将它列入经典产品呢?这还得从PhysX说起,由于PhysX名叫物理加速,实质却是物理减速,因为单卡在游戏中开启PhysX to GPU后会不堪重负,那么后期价格便宜的GT240 GDDR3仅需要PCE-E 4x的接口就可以做到一片PhysX GPU加速子卡,40nm的工艺使得它的功耗能够得到控制,但还不仅于此,由于GT240可以支持早期被玩家们破解的驱动,使得AMD显卡的用户可以使用GT240作为自己的PhysX GPU加速子卡,一时间二手的GT240成为人们争抢的对象。



吹响反攻的号角:RV770

从RV670奠定的基调,RV770从代号看就知道是一款小核心战略的产物,自RV670发布后的7个月,也就是在GT200发布的一周后,AMD上演了一场显卡发展史上的绝地大反攻,这可以说AMD给自己的粉丝们交了一份喜出望外的答卷,一扫之前人们对VLIW架构效率过低的印象,那么让我们来品味一下RV770。

RV770相对于RV670的变化很大,其SP数量达到了800个,是R600/RV670 320个2.5倍,TMUs也从16个上升到40个也是2.5倍,晶体管数目从6.67亿上升到9.65亿,ROPs不变,同为TSMC 55nm而其核心面积仅从190mm²上升到260mm²,仅增加了40%。EV770的浮点处理能力是首个超过1TeraFLOPs的核心,这还只是HD4850的,而HD4870的则达到了1.2TeraFLOPs。此次AMD也一直在强调RV770的功耗,因为仅为160W远不及GT200的236W,为了进一步控制显卡的功耗,AMD在RV770上还采了第二代PowerPlay技术,能根据需求自动调节电能,在跑3D程序时核心/显存频率会达到最高,在2D/待机时频率会下降,AMD通过对电压和频率的节流控制,实现最高效率带来最高性能的目的。新一代的节能技术拥有Self-Aware图形引擎,能够自动关闭未使用的单元,还具有高级频率节能和电压调整能力,非常重要的一点是,开始引入了显存频率的自动缩放,而在上一代的PowerPlay中,只能实现对核心频率的调整。

RV770拥有诸多改进,RV770的渲染引擎改进主要集中在Stream Processing Units(流处理器单元)、Texture Units(纹理单元及缓存)、Render Back-Ends(像素输出部分):
Stream Processing Units(流处理器单元):同RV670一样,每个Stream Processing Units都有5个SP,RV770的每16个SP组成一个SIMD阵列,每个SIMD阵列包含80SP,一共10个,相对于RV670的4个SMID阵列可谓是鸟枪换炮。
Texture Units(纹理单元及缓存):每个SIMD阵列对应一个纹理单元,内部包含4个Texture Address Unit、4个Texture Filter Unit,因此10个纹理单元一共有40个TAU和40个TFU达到1:1,而RV670为2:1的32/16个,同时纹理缓存带宽提高了两倍,效率增加了70%。每个SIMD内部还增加了一个Local Data Share(类似于GT200的L1 Cache)的16kb Cache实现SIMD内部的数据交换。
Render Back-Ends(像素输出部分):而其Z-buffer采样从原来的每组8个增加到每组16个,翻了一倍,虽然还是4组16个,但其抗锯齿(AA)效能还是大幅提升,抗锯齿(AA)算法的最后处理又交给SIMD阵列来完成,SP到800个大幅度增加对AA性能的提升非常明显。

还有一大改进就是显存控制器的部分,Radeon HD4870成为历史上首款采用GDDR5显存的显卡,而Radeon HD4850采用的还是GDDR3显存,和HD3870/HD3850通过显存和频率来划分一样,可以说AMD对于GDDR5显存是一次豪赌,并且还赌赢了,如果GDDR5不能按照预期使用,那么对于Radeon HD4870的影响将是灾难性的。视频方面RV770还提供了UVD2(Unified Video Decoder 2)和AVT(Accelerated Video Transcoding)。RV770还彻底摒弃了一直处于争议的R600 Ringbus环形内存控制器总线,使用AMD擅长的Crossbar总线。

RV770的产品线上经典产品非常多,这在AMD的产品历史上并不多见。

Radeon HD4870/HD4850带给人们的不仅仅只是强悍的性能表现,最大的幸福是非常亲民的价格而且让N Fans大大获益,这么说吧,HD4850的首发价格是1399元,在性能上HD4850在No AA/No AF下小胜9800 GTX一点点,在打开AA/AF(包括4至8倍)夸张达到了15%以上的差距包括Nvidia为了应对HD4850的提频版9800 GTX+在打开AA/AF(包括4至8倍)后也达到10%以上,而在此之前,9800 GTX的价格是2600元以上,这让9800 GTX无地自容随后调整至和HD4850一样的价格,9800 GTX+则进入1599的价格区间。



同样的事情在Radeon HD4870对阵Geforce GTX260时也一样,用不到70%的价格买到了还要更好的性能,更夸张的是不到50%的价格买到了GTX280有接近90%的性能,因此Radeon HD4870/HD4850一上市就基本卖脱销了,可见玩家对其的喜爱。



随后AMD又放出了Radeon HD4870 X2并在性能王座上一直坐到Geforce GTX295的到来才结束。



RV770最火爆的产品要属的Radeon HD4830,HD4830本身的性能并不弱,可以说和9800 GT持平,开启更高的AA/AF(包括4至8倍)后强出9800 GT高达10%~20%,比HD4850更低的频率让它具备了不错的超频性能,而亲民的价格让它广受好评,但还不仅于此,在原有640SP的基础上,市场上还有一些800SP的HD4830,这让HD4830的销量异常火爆。



低端市场上的Radeon HD4550/HD4650/Radeon HD4670,在性能上的大幅优胜横扫了长期盘踞在此的Geforce 9500 GT/9400 GT,HD4650和HD4670的差别仅仅是频率,都具有和HD3850一样的320SP,性能也差不多,但AA/AF效能更高。



进入到2009年2月,AMD发布了RV770的升级版代号RV790的Radeon HD4890,搭载1G 3800MHz频率的GDDR5显存,HD4890不是AMD用来挑战GTX285霸权的产品,规格和RV770没有变化,也是一样的55nm制程,却运行在更高的频率上自然系能更强,我们不能简单的把RV790看做RV770的高频版,因为RV790的主要改进是在VRM供电这一块,也就预示着RV790实质是年内发布的Cypress(RV870)的高频试水型号,在性能上RV790依然具有高抗压性的优点,直接对阵几乎同时发布的GTX275,首发时,HD4890在普通负载下的性能和GTX280差不多,略弱于GTX275,但在高负载下的性能强过GTX280有10%,GTX275有7%,更超过了GTX285有2%,而HD4890的频率可以运行到非常高,几乎所有的HD4890都运行在1000MHz的频率下,其受欢迎程度超过了后期的Radeon HD4870 1GB



RV790有一款特供核心,就是代号为RV790 GT的Radeon HD4860,搭载512MB GDDR5显存,SP个数从800减少至640SP,频率也相对HD4890降低,性能和价格刚好定位在HD4850和HD4870 512MB之间,对GTS250形成压制,而HD4860的本身还不限于此,不少厂商生产的HD4860由于采用和HD4890一样的PCB,因此可以通过刷HD4890的BIOS获得HD4890的频率和电压,性能直接超过HD4870 512MB。个人认为作为替代HD4770在中国大陆销售的HD4860非常优秀,我就曾经刷过五片HD4860刷成HD4890。



作为Cypress(RV870)试水产品的还不仅只是RV790,2009年4月AMD还发布了RV740核心,是第一款采用40nm工艺制造的产品,同样搭载GDDR5显存,核心频率提升到750MHz,SP个数也是640SP,性能略弱于HD4850,但功耗比HD4850低了至少60W,新的工艺使得HD4770具备不俗的超频能力,但并未在中国大陆上市。在中国大陆上市的又是特供版的RV740,SP个数缩减至480SP,番号为HD4750,性能和HD4830差不多,部分HD4750可以通过刷新BIOS完全打开原有的640SP,也很受到玩家们的喜爱。





RV770整个家族都广受人们喜爱,价格平易近人,性能强劲,可玩性高,对AMD的意义也很重大,直接降低了Nvidia的利润,并且迫使对手去推出55nm的版本进而拖慢了Fermi的进度。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
10#
hyenax1950xtx  楼主| 发表于 2013-4-13 21:46 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-29 02:26 编辑

DirectX 11

2009年10月23日,微软高调发布了操作系统Windows 7,该操作系统相对于之前的Vista系统有相当大的进步,特别是在内存占用率以及运行速度方面得到显著改善,并且加入了DirectX 11等新技术。推出DirectX 11的目的很明确,就是能够充分利用显卡资源,从而在游戏以及通用计算方面达到更高的执行效率。

从DirectX 9到DirectX 10,微软几乎将API打破重来以构建全新的渲染体系,Di rectX 10也成为了第一种影响硬件设计的图形API——统一渲染架构代替传统的分离渲染,从而赋予GPU更高的渲染效率和可编程能力,也为通用计算提供良好的基础,之后的DirectX 10.1就属于功能上的小升级。而到DirectX 11,微软引入了更多的新技术,但同时又保有DirectX 10.1的全部特性,换句话说,DirectX 11实际上就是DirectX 10.1的扩展集,所有DirectX 10.1硬件所遵循的API对于DirectX 11同样适用。DirectX 11不仅只是简单的升级,它带来相当多的新颖特性,比如引入通用计算着色器(ComputeShader),允许GPU从事更多的通用计算工作,而不仅仅是3D运算,这可以鼓励开发人员更好地将GPU作为并行处理器使用。还有就是引入多线程渲染、提高GPU的工作效率;新增的镶嵌技术(Tessellation)来自AMD,可以帮助开发人员创建出更为细腻流畅的模型,实现高质量实时渲染和预渲染场景。

DirectX 11最引人注目的变化就是Shader Model 5.0的变化:在DirectX 10 SM 4.0版本拥有的顶点着色引擎、像素着色引擎、几何着色器基础上,DirectX 11新增了外壳着色器(Hull Shader,简称HS)、镶嵌器(Tessellator)和域着色器(Domain Shader)三个新的着色引擎;而在像素渲染环节,DirectX 11则新增了计算着色器(Computer Shader,简称CS),这些新增的部分也就是DirectX 11的关键所在。

DirectX 11新增的Compute Shader计算着色器拥有核心地位。与DX10中引入的GS几何着色器不同的是,CS并不是渲染管线的一部分,它的主要用途在于增强GPU的通用计算能力。为开发者带来多种多样的灵活渲染,这项先进技术应该正中游戏开发商们的下怀:它们的兴趣大多是寻求先进技术来增强游戏引擎,比如增强抗锯齿性能或无规则透明度的性能,带来更先进的Deferred Shading(延迟着色)技术、后处理效果(Post processing effect)等等,CS都可以大放异彩。除了上述这些特殊的渲染应用,游戏开发者可能还希望让GPU完成诸如IK(inverse kinematics,逆运动学)、物理计算、人工智能计算等过去由CPU完成的通用计算,而利用CS在GPU上执行这些算法时,可以获得非常理想的效率。

DirectX 11的到来为又再次推动了通用计算,通用计算的开发接口比较常见的就是Nvidia的CUDA、AMD的FireStream、Khronos的OpenCL和微软的Direct Compute,应用最为广泛的就是Khronos的OpenCL,而Nvidia的CUDA也比较受到欢迎,如今的AMD显然已经放弃了FireStream,转而大力支持Khronos的OpenCL和微软的Direct Compute,2013年发布的《古墓丽影 9》中的Tressfx就是采用DirectCompute语言制作

不同于DirectX 10窘境,Windows 7广受好评,直接使得DirectX 11是DirectX发展史上最受欢迎的一代,而支援DirectX 11的显卡也就顺势而来。



历史上的再度反超:HD5870

2009年9月23日,在微软发布Windows 7的前一个月,AMD高调发布了其代号为Cypress(不少人还是习惯叫它RV870)的首款支持DX11的芯片,采用TSMC 40nm工艺制造,集成21.5亿晶体管,核心面积334mm²,相比RV770,Cypress将SP从800个暴增到1600个,TMUs和ROPs都翻了一倍,SIMD阵列几乎没有变动,不同的地方是能够处理单精度与双精度的 FMA(Fused Multiply Add)指令运算,它提供的精度比 MAD (Multiply Add) 还要高,提供对DirectX 11的支持,Cypress还大大优化了SAD(Sum of Absolute Differences)算法,指令执行效率可提升12倍,这主要表现在视频编码方面,并且还可支持OpenCL底层扩展指令,同时还加入了DirectX 11位操作指令(bit-level ops)支持,可执行Bit count、insert、extract等指令。

Cypress的Graphics Engine(图形引擎)架构也得到了优化和增强,包含Tessellator(可编程镶嵌单元)、Geometry Assembler(几何装配器)、Vertex Assembler(顶点装配器)、Rasterizer(光栅器)以及Hierarchical Z(多级Z缓冲器)。与RV770不同的是,Rasterizer(光栅器)以及Hierarchical Z(多级Z缓冲器)数量扩增了一倍,Tessellator(可编程镶嵌单元)也得到了强化。

后端部分,Cypress的Memory Control(显存控制器)链接了8组ROPs单元,每组提供32bit的通道一共是256bit,每一单元使用128kb的L2 Cache。
采用新的GDDR5温度补偿机制,并增加EDC(Error Detection Code)校验,支持Cyclic redundancy check(循环冗余校验),降低BUG率,提高显存的工作频率。Cypress还采用了新的AF算法(Anisotropic Filtering,各向异性过滤),实现了完美无角度纹理过滤,并且新算法在提升画质的同时并不会造成性能的损失,同时还改进了AA效能,使得纹理单元可直接读取AA色彩缓存。而Cypress还携带了独门秘籍Eyefinity宽域技术,单卡三屏,定制版六屏,4 Ways CFX时达到24屏。

但Cypress相对于RV770的改进还是有限,只是在对支持DX10的基础上扩展支持DX11,但无疑这一决定是相当明智的,应为当时毕竟还是DX9.0C和DX10游戏的天下,小幅修改可以使得Cypress快速上市,并提供相当不错的DX11性能,这一优势竟然被延续了长达七个月之久。

首款Radeon HD5000系列的产品,于2009年9月23日发布,代号为Cypress XT番号Radeon HD5870,拥有1600个SP,核心频率和HD4890一样为850MHz,显存方面为1G 256bit的GDDR5显存,运行频率4800MHz,其公版卡全长达26.7cm,比Radeon HD4870 X2还要长。Cypress的公版卡充满了工业设计的美感,并且性能非常强大,上市以后就在和Radeon HD4870 X2和Geforce GTX295两块双芯卡在战斗。



代号Cypress Pro的Radeon HD5850,由于价格相对便宜,立即受到了中高端玩家们的欢迎,1440个SP相比HD5870少得并不多,但其更低频率决定了它拥有很大的超频空间,性能提升幅度很大,而代号Cypress LE的Radeon HD5830,由于阉割了16个ROPs,使得其1280SP的性能完全得不到应有的发挥,成为这一代中最失败的产品。



Cypress XT的双芯版就是Radeon HD5970,有趣的是,这款显卡是和Nvidia的Geforce GT240同一天发布的,鲜明的对比衬托了Nvidia的无奈,HD5970是一代寂寞的卡皇,在它的继承人Radeon HD6990出现之前是没有对手的。



代号Juniper XT的Radeon HD5770,拥有Cypress XT一半的规模和性能,却只有不到40%的价格,由于支持DX11搭配1GB的GDDR5显存,一上市就大受欢迎,直接对阵Radeon HD4870 1G和Geforce GTX260+,而代号Juniper Pro的Radeon HD5750拥有Cypress Pro一半的规模和性能仍然只有不到40%的价格,性能对阵GTS250属于压倒性的优势。Juniper系列的芯片非常优秀,以至于AMD在它的身上也玩起了马甲的把戏,一年后直接改名成Radeon HD6770/HD6750上市,盘踞整个中低端市场长达三年多,从GTS250打到GTS450、GTX550ti再到今天的GT640和GTX650,至今仍在销售,可以说完美重现了G92的风范,但仍然无法媲美Radeon 9550。





低端市场上Radeon HD5670/HD5550/HD5450对应对手的产品,在很长一段时间内都属于压倒性的优势,几乎横扫市场。





整个Radeon HD5000的产品可以说是作威作福了长达了7个月以上,Nvidia直到13个月之后才算发布完其完整的DX11产品线,这也使得AMD首次在图形市场上超过了Nvidia的占有率。





怪兽不仅仅只会煎鸡蛋:Fermi

从这一代开始Nvidia开始改用物理学家的名字来称呼自己的显卡朝代,之前的研发代号也都是物理学家名字只不过都没有拿出来顶替核芯代号,Fermi系列的首款芯片正是代号为GF100的Geforce GTX480,这位怀揣着30亿晶体管梦想的大家伙,采用TSMC 40nm工艺制造,核心面积虽然没有GT200夸张,但也达到了529mm²,由于过于复杂,受制于产品良率、功耗或发热量等因素,Geforce GTX480成为Nvidia历史上第一款规格不完整的旗舰级核心。

GF100的改动非常大,一一介绍的话篇幅实在不够,简单来说:
1、GPC架构,GF100拥有4个GPC,每个GPC包含一个Raster Engine(光栅引擎)和四个Streaming Multiprocessor(流处理器集群),除了后端的ROPs单元,GPC几乎囊括了所有的关键图形单元,这完全就是一个独立的GPU。
2、并行几何处理的改进,包括并行化的Raster Engine(光栅引擎)和PolyMorph Engine(多形体引擎),在每个SM中,都有一个PE引擎,主要负责Vertex Fetch(顶点拾取)、Tessellation(曲面细分)、Viewport Transform(视口变换)、Attribute Setup(属性设定)和Stream Output(流式输出)五个阶段运算。
3、Raster Engine(光栅引擎)由Edge Setup(边缘设置)、Rasterizer(光栅器)和Z-Cull(Z剔除)三步组成。
4、此外GF100还拥有硬件抖动采样(jittered sampling)、光线追踪(Ray tracing)、平滑粒子流体力学(Smoothed Particle Hydrodynamics)和NVIDIA 3D Vision Surround等功能

GF100的这一架构基础直接影响到了下一代的Kepler架构,而Kepler的改动基本只是基于Streaming Multiprocessor(流处理器集群)的改动。

2010年3月26日首款发布的GF100系列产品,包含了Geforce GTX480和GTX470,分别拥有480/448个SP,GTX480的核心频率700MHz,Shader频率1400MHz,显频率3696MHz,384bit 1.5GB GDDR5显存,GTX470的核心频率607MHz,Shader频率1214MHz,显频率3348MHz,320bit 1.25GB GDDR5显存,首发时GTX480的性能强过Radeon HD5870有11~13%,而GTX470弱于HD5870有8~13%,强过HD5850有6~9%。由于功耗和发热过大,也让一些玩家用GTX480去生煎鸡蛋,但几乎快要二倍于对手的功耗和核心面积,让GF100赢得很没有光彩。





2010年11月8日推出GF110-375,是GF100的完整版,同时改进了EDA电路设计,并首次采用Vapor Chamber均热板散热技术,降低了功耗和发热,这就是一代王者Geforce GTX580,核心频率770MHz,Shader频率1544MHz,显存频率频率4008MHz,它坐稳单芯卡皇的位置达一年。



2010年12月7日推出GF100-275,是GTX470的升级版,一上市就替代了原来的旗舰GTX480,并早于AMD的Radeon HD6970发布,相比GTX580更亲民的价格和超频能力使它颇受欢迎。



2011年3月24日推出的GeForce GTX 590,采用两个GF110-351核心(GF110-375的降频版),每颗核心独享1536MB GDDR5显示存储器,中间通过NF200-P-SLI-A3芯片桥接,公版为P1020单PCB设计,双8 Pin供电,提供三个双链结DVI-I(支持3D Vision Surround)与一个Mini DisplayPort,同样采用能源监测芯片控制功耗以及均热板散热技术。由于Fermi架构功耗与发热量的限制,每个核心的频率降至625MHz,Shader频率降至1251MHz,显存钟频率降至3414MHz。在和其对手Radeon HD6990的对决中可以说是基本打平,谁也不能完胜谁,未能终结HD5970的统治是其最大的遗憾。



Fermi时代的甜点核心是GF104和GF114,他们的SM单元和GF100/GF110有了不同,可以说是缩减了双精度性能而提高了图形单元的效率,他们一共拥有多达七个型号:
GTX560ti:2011年1月25日推出,GF114、384SP、32ROPs、256bit 1GB GDDR5;
GTX560:2011年5月17日推出,GF114、336SP、32ROPs、256bit 1GB GDDR5;
GTX460 v2:推出时间不详,GF104、336SP、24ROPs,192bit 1GB GDDR5;
GTX460 1G: 2010年7月12日推出、GF104、336SP、32ROPs、256bit 1GB GDDR5;
GTX460 768MB:2010年7月12日推出、GF104、336SP、24ROPs、192bit 768MB GDDR5;
GTX560SE:2012年3月13日推出,GF114、288SP、24ROPs、192bit 1GB GDDR5;
GTX460SE:2010年11月15日推出,GF104、288SP、32ROPs、256bit 1GB GDDR5;
这其中最受欢迎的就是GTX460 1G和GTX560ti,尤其是GTX460 1G,其性能和价格在上市初期准确击中Radeon HD5850和HD5770的性能空挡,并且具有非凡的超频实力,在核心频率超频到850MHz以上时其性能可以超过HD5850的公版性能,一时间超频爱好者蜂拥而至,更有趣的是,由于GTX460 1G过于给力的表现让玩家们爱不释手甚至挑战各种价位更高的卡,使得玩家们开始调侃喜欢N卡的玩家有两种,一种是N Fans一种是460党,称之为经典一点也不为过。



GTX560ti的表现同样值得赞扬,原本定位于对阵Radeon HD6870但性能超出了预期,其性能更接近价位更高的HD6950,上市初期唯一的竞争对手就是即将退市的HD5870,后期AMD发布了特供版的HD6930来对阵GTX560ti,但扔不能撼动其地位,在没有Kepler接班人的青黄不接的年代面对降价的HD6950和HD7850时已力不从心,但仍不失为一代经典。



GF100和GF110还有二次阉割的版本,就是GTX465和GTX560ti 448,GTX560ti 448的直接竞争对手就是HD6950,但面对能开核的对手让GTX560ti 448在对阵中显得很吃力,GTX465的情况要更好一些,因为GTX465同样能够开核,但因产量过低,又被GTX460 1G的光芒所遮蔽,很快就退出了市场。



Fermi系列的中低端核心表现并不怎么样,没有出彩的地方。

一个不应该出现的架构:Cayman

Cypress的表现对于AMD来说可以说是辉煌的,R600架构在2007年带给AMD的就是一个茶几,上面摆放了满满杯具,而Cypress带给AMD的就是厨房,不是餐具就是洗具。按照13个月的研发周期来说,AMD完全可以甩掉VLIW架构长久以来带来的负面影响,但仅仅只是被TSMC的32nm工艺坑掉并不能完全说明问题,AMD在这个问题上没有缩减芯片的规模去选择40nm来提前推出GCN架构的产品可以说是决策上的一大败笔,不管从哪个角度去看,VLIW4D架构都是不伦不类的,其留给后者的基因仅仅只有一个Dual Graphics Engines(双图形引擎),对比VLIW5D架构的同期产品,Cayman(HD6900的核心)在Barts(HD6800的核心)的面前可以说不管性能、功耗都毫无亮点可寻,而VLIW4D的架构也是被淘汰最快的架构,除了HD6900系列使用也就只剩APU在用了。

对于Cayman的变化,我实在不想浪费篇幅去介绍,首批上市的Radeon HD6000系列,是仍然采用VLIW5D架构的Barts核心,于2010年10月22日发布,原本以为其番号会是Radeon HD6700系列,谁知道被Juniper核心穿上马甲顶上了,其核心有三款产品,分别是HD6870/HD6850/HD6790,这是一代经典核心,因为它既没有”先进“的VLIW4D也没有”超前“Dual Graphics Engines(双图形引擎),仅仅只是改变了Tessellation单元、AA模式、AF质量和简化的UI,让它在17亿晶体管、更少的SP和更低的功耗环境下,完成了接近Cypress的性能。

拥有完整的规格Barts XT番号为Radeon HD6870,拥有1120个SP,核心和Shader频率900MHz,显存频率4200MHz,搭载256bit 1GB GDDR5显存,性能表现超过HD5850和GTX470,迫使Nvidia推出GTX560与其竞争,但性能上互有胜负,GTX560退市后更是没有敌手,后期直接占据Radeon HD7770和HD7850的性能空挡,即使面对Kepler的GTX650ti也不逊色,尤其是在其价格跌破千元之后被抢购一空。



Barts XT同期发布的还有代号为Barts Pro的Radeon HD6850,其直接竞争对手就是如日中天的GTX460 1G,不仅默认性能略强于GTX460 1G,其超频性能也不亚于GTX460 1G,但在功耗上充满优势,即使对手从GTX460 1G变更成GTX460 v2、GTX560SE也坐稳了中端市场,面对28nm GCN架构的Radeon HD7770时也让HD7770脸上很无光,称为经典一点也不为过,至今仍在销售。



代号为Barts LE的Radeon HD6790采用和HD5830一模一样的阉割方式,也不知是不是AMD出于HD5830前车之鉴的考虑,将其移除了HD6800的番号,改到HD6700,相比HD5830拥有亲民得多的价格,而其竞争对手也远没有GTX460 1G那么给力,可以说HD6790将GTX550ti压制得死死的。



于2010年11月12日发布Cayman核心,也拥有三款产品,分别为Radeon HD6970/HD6950/HD6930

代号为Cayman XT的Radeon HD6970为这一系列的旗舰级核心,拥有完整规模的1536SP,核心和Shader频率880MHz,显存频率5500MHz,搭载256bit 2GB GDDR5显存,性能上和GTX570基本持平,后期VLIW4D架构的驱动得到正常发挥后,略强于GTX570,但GTX570比它更受到市场的喜爱,因为它的超频幅度不如GTX570。



同期发布代号为Cayman Pro的Radeon HD6950境遇却不同,因为HD6950可以开核还能超频,和GTX465只有少量能够开核不同,由于采用几乎和HD6970一模一样的PCB导致基本每一片公版HD6950都可以从1408SP开核变成HD6970的1536SP同时还拥有HD6970的频率,其双BIOS的设计更是为开核推波助澜,就联一些非公版设计的HD6950也能开核,加上其搭载有256bit 2GB GDDR5的显存,使得HD6950很受欢迎。



中国大陆特供版代号为Cayman LE的Radeon HD6930也很受市场的欢迎,由于采用HD6870的万能PCB和降低至1GB的显存使得成本和售价都得到了下降,仅仅只是阉割到1280SP对HD6930的性能影响并不算大,但卸掉了重负的HD6930超频性能非常强大,搭载上更好的散热就能轻松达到HD6970的性能,AMD显然也意识到了这一点,对HD6930在CCC控制中心的频率上限加以限制,但这种小把戏并不能阻止玩家,HD6930的出现对GTX560ti的市场形成了一定冲击,但由于上市时间较晚且属于特供核心使得HD6930并未掀起多大的风浪。



代号为Antilles的Radeon HD6990于2011年3月9日推出,采用两颗Cayman XT核心,接过了HD5970的大旗,同GTX590竞争。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
11#
hyenax1950xtx  楼主| 发表于 2013-4-14 03:11 | 只看该作者
本帖最后由 hyenax1950xtx 于 2013-4-14 04:03 编辑

结语:

来到DX11.1的时代,我们的回顾也就结束了,因为Geforce GTX600系列和Radeon HD7000系列还在销售,至于谁是这一时代的经典产品出于销售的考虑不便评说。

整个图形芯片的发展史根本不是本文寥寥数语就能描述完的,而本文的目的也仅仅在于给大家呈现一个发展历程,图形芯片的发展带给我们消费者的是各种炫彩夺目的游戏,而游戏的背后正是这些参与过的人的努力才能走到今天,在这个过程中,有人欢笑过、有人悲伤过、有人称霸过、有人落魄过,只是希望大家能记住他们在这几十年中走过的兴衰荣辱,他们为图形技术领域作出的贡献不可磨灭。

对于未来图形芯片的发展,个人从Intel的Broadwell、Nvidia的Maxwell、AMD的HSA观察中,发现CPU和GPU的高速融合,必将导致其中一个会变成另一个协处理器,而ARM架构所带来的平台融合将会再次掀起一场图形芯片发展史中的”战国时代“,到时谁将会胜出主宰一切不得而知,就让我们拭目以待吧。

(PS:鉴于时间、精力、水平有限,文中出现的失误、疏漏、偏颇之处在所难免,文中除了自己的感受也参考了一些别人的看法,还请广大老鸟玩家批评指正。)

评分

参与人数 1活跃度 +5 收起 理由
左下角 + 5 应该分成上中下 多图杀猫 很给力.

查看全部评分

12#
lzf19750908 发表于 2013-4-14 08:48 | 只看该作者
感谢版主的时光机,我的第一块显卡是TNT2 的64位阉割版
13#
shadowsray 发表于 2013-4-14 08:56 | 只看该作者
先顶再读!多图杀猫!难道是沙发!?
14#
googlo 发表于 2013-4-14 10:02 | 只看该作者
XGI Volari V8 用户路过,这块卡现在还在家里某个箱子里呢。。。挺喜欢,可惜了。
15#
XEON16 发表于 2013-4-14 10:46 | 只看该作者
传说中的神回顾啊
16#
litongda007 发表于 2013-4-14 11:00 | 只看该作者
如此好文,顶版主。俺学习到了不少知识!
17#
killua1109 发表于 2013-4-14 11:07 | 只看该作者
一定要顶  本人刚开始接触计算机的时候就是TNT2了,看回很多旧卡,以前的回忆又回来了,微星的GF4 MX460啊 当年不吃不喝几个月+压岁钱跑去电脑城败的货  发现MSI微星的卡真的是不错
18#
v724 发表于 2013-4-14 11:08 | 只看该作者
好贴mark!!
19#
zhubo88597171 发表于 2013-4-14 11:10 | 只看该作者
前排占座,先回复再看
20#
Epic 发表于 2013-4-14 11:11 | 只看该作者
前排占座看H大
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部