从芯片设计和逻辑组合来看你的GPU，浅谈Kepler VS Tahiti

heren3 · 发表于 2012-8-8 17:21

ericafountaine 发表于 2012-8-8 16:54
GK104主要砍了SFU和寄存器。而Tahiti却正好有很多这些。

所以我认为这次的局面，很像是当年GF100与Cypre ...

AMD看到NV每次推一款GPU，专业卡上坑了不少的人傻钱多，游戏卡这边用广告也揽去不少很眼红
于是逐渐朝着NV的MIMD做

结果彻底被NV坑了，没想到NV出这么一招

当年AMD在Barts上面干过阉割双精度浮点这档子事，减少了好多晶体管，貌似反响不好或者干的没NV出色

N54]YL.M · 发表于 2012-8-8 17:24

太专业.....

rs0071345 · 发表于 2012-8-8 18:08

GK104的常规游戏性能不错

cafeteria · 发表于 2012-8-8 18:10

此文太牛了

flhssnake · 发表于 2012-8-8 18:52

.............看不懂麻将too 哎哎哎哎好文章

windingway · 发表于 2012-8-8 19:51

也就是说这一代FirePro卡有可能翻身打败Quadro甚至Tesla咯？

nighttob · 发表于 2012-8-8 20:03

本帖最后由 nighttob 于 2012-8-8 20:05 编辑

windingway 发表于 2012-8-8 19:51
也就是说这一代FirePro卡有可能翻身打败Quadro甚至Tesla咯？

Kepler这代的Quadro还没出来，Quadro 410用的GK107，我就当它没出来吧……FirePro W9000双精度是998GFlops，GK104的Tesla型号K10双精度才190GFlops，绝对是完秒……上代Tesla M2090是665GFlops。
让GK104跑双精度真是难为黄老板了，Wiki上说GK100造出来的Tesla K20双精度能到1728GFlops，不过这得啥时候……

ashuiashui · 发表于 2012-8-8 22:15

楼主码字辛苦
的确是很好的文章

南风咖啡 · 发表于 2012-8-8 23:06

好文，写的很辛苦，分2次才看完，顶一下！

idle · 发表于 2012-8-8 23:16

太强大了，好技术的分析，深入浅出啊

蓝天翔燕 · 发表于 2012-8-8 23:20

shanshan709229 发表于 2012-8-8 11:01
这文章....只能说受教了自身能力有待加强啊懂得越多才越觉得自己无知

深有同感，玩DIY玩得越多，就越需要深入学习！

dzx1213 · 发表于 2012-8-8 23:23

楼主辛苦码字，不忍心看帖不顶，顶一个。确实学到很多东西。

小小玄 · 发表于 2012-8-9 00:22

刚好打玩DOTA 去硬派看了下然后转过来看这个帖子
写的真的很棒说实话其实AMD的口号就能看的出来融聚未来···但是作为一般的家庭用户，包括学生（大部分的使用者）来说。稍稍口袋有点钱的都爱买N卡。游戏毕竟才是大家更换显卡的动力
（当然是不是绝对）

sd1601788 · 发表于 2012-8-9 00:26

大概看了下，许多不明白的地方跳开了，什么特点，怎么运算的，真心不懂，只求网友给的实际对比就好
不过楼主写得很认真，特别是形象的麻将牌比喻，让我印像深刻，了解了下各自的特点
这代看好GK104,我是游戏党

hyenax1950xtx · 发表于 2012-8-9 09:26

ericafountaine 发表于 2012-8-8 15:34
其实我本来不想说什么的，不过不说我觉得对不起良心，还是注册了个号来说。

1. 其实老黄的双线设计，并不 ...

发帖目的就是交流和学习，谢谢提出与指正。

1、研发时长的这个理解的，但我指的的单双线是指同一时期市场的产品，G71是G70~G80的过度，除了NV35是因为NV30不给力改造出来的情况下，之前的NV40时代也没有出现过这种现象，个人理解在G70对R520强势的时候，NV没有直接投放G80而是改进了G70推出G71这就是一个市场策略，起码在较长时间内填补了G80下面的中低端市场。

2、关于UTDP和ACE之间的变化还有，不甚了解，因为找不到资料，也一直想了解。

ericafountaine · 发表于 2012-8-9 10:15

heren3 发表于 2012-8-8 17:21
AMD看到NV每次推一款GPU，专业卡上坑了不少的人傻钱多，游戏卡这边用广告也揽去不少很眼红
于是逐渐朝着N ...

Barts没割SFU

Evergreen的SFU和费米的区别很大，后者的和普通ALU一起在SM里面（8/32），接受Warp Scheduler调度；前者和4个ALU一起绑定为一个SIMD Core，依靠UTDP调度。所以从原理上来说，Evergreen要砍SFU真心是件蛋疼的事。

成绩也能看出来了，Barts的通用性能也不差嘛。估计也只是割寄存器而已。

ericafountaine · 发表于 2012-8-9 10:40

hyenax1950xtx 发表于 2012-8-9 09:26
发帖目的就是交流和学习，谢谢提出与指正。

1、研发时长的这个理解的，但我指的的单双线是指同一时期市 ...

其实主要是“竖着”和“横着”的区别……

以Cayman为例，UTDP实际上是一个4-WAY VLIW SIMD指令发射单元，每个SIMD CORE有64个ALU，64/4=16个Streaming Processor（他们蛋疼地把每个ALU算作一个“Shader Processor”）。Cayman中，每个UTDP管12个SIMD CORE，VLIW指令到了Streaming Processor解包，给4个ALU。

ACE下面管CU，每个CU是一个4-WAY SIMD，每个SIMD又有4 LANE，每CU与每SIMD CORE同为64ALU。ACE的指令到了CU之后就分4，不像VLIW一样到了最后ALU才分4，也不用解包（所以指令其实更多）。

简单点说，前者是16*4=64，后者是4*16=64……

hyenax1950xtx · 发表于 2012-8-9 10:43

aibo 发表于 2012-8-8 17:08
不是传说GK110有5个GPC，每个GPC有3组SMX。
总共5*3*192=2880sp么。

目前看到的GK110是阉了一组SMX的情况，所以只有15组完整为16，如果GPC为5个话，那么绝对不科学，GPC的个数必须为16能除尽的数字，也就是只有16、8、4、2、1这5个。

ericafountaine · 发表于 2012-8-9 10:48

嘛，说白了Cayman从头到尾都是SIMD（但是Command Processor到2*UTDP又不是？这个不清楚了，只知道按架构推定，CP肯定具有有限的分派机能的），而GCN从ACE到CU是MIMD，从CU到4-WAY SIMD是SIMD。

好久不聊这些都记不清楚了，抱歉。

hyenax1950xtx · 发表于 2012-8-9 11:00

ericafountaine 发表于 2012-8-9 10:40
其实主要是“竖着”和“横着”的区别……

以Cayman为例，UTDP实际上是一个4-WAY VLIW SIMD指令发射单元 ...

Cayman的指令要到Shader Processor才开始解封，这个也是之前VLIW架构下，UTDP的指令发射模板吧，区别只是每个UTDP管理的管的SIMD Core数目不同麽？
Tahiti的ACE指令到CU以后，会被拆封成4路Wavefront，然后配发给GCN集群去执行，那么Scheduler主要就是控制周期，这么理解对麽？