PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

从芯片设计和逻辑组合来看你的GPU,浅谈Kepler VS Tahiti

  [复制链接]
41#
heren3 发表于 2012-8-8 17:21 | 只看该作者
ericafountaine 发表于 2012-8-8 16:54
GK104主要砍了SFU和寄存器。而Tahiti却正好有很多这些。

所以我认为这次的局面,很像是当年GF100与Cypre ...

AMD看到NV每次推一款GPU,专业卡上坑了不少的人傻钱多,游戏卡这边用广告也揽去不少很眼红
于是逐渐朝着NV的MIMD做

结果彻底被NV坑了,没想到NV出这么一招

当年AMD在Barts上面干过阉割双精度浮点这档子事,减少了好多晶体管,貌似反响不好或者干的没NV出色
42#
N54]YL.M 发表于 2012-8-8 17:24 | 只看该作者
太专业.....
43#
rs0071345 发表于 2012-8-8 18:08 | 只看该作者
GK104的常规游戏性能不错
44#
cafeteria 发表于 2012-8-8 18:10 | 只看该作者
此文太牛了
45#
flhssnake 发表于 2012-8-8 18:52 | 只看该作者
.............看不懂麻将too  哎哎哎哎 好文章
46#
windingway 发表于 2012-8-8 19:51 | 只看该作者
也就是说这一代FirePro卡有可能翻身打败Quadro甚至Tesla咯?
47#
nighttob 发表于 2012-8-8 20:03 | 只看该作者
本帖最后由 nighttob 于 2012-8-8 20:05 编辑
windingway 发表于 2012-8-8 19:51
也就是说这一代FirePro卡有可能翻身打败Quadro甚至Tesla咯?


Kepler这代的Quadro还没出来,Quadro 410用的GK107,我就当它没出来吧……FirePro W9000双精度是998GFlops,GK104的Tesla型号K10双精度才190GFlops,绝对是完秒……上代Tesla M2090是665GFlops。
让GK104跑双精度真是难为黄老板了,Wiki上说GK100造出来的Tesla K20双精度能到1728GFlops,不过这得啥时候……
48#
ashuiashui 发表于 2012-8-8 22:15 | 只看该作者
楼主码字辛苦
的确是很好的文章
49#
南风咖啡 发表于 2012-8-8 23:06 | 只看该作者
好文,写的很辛苦,分2次才看完,顶一下!
50#
idle 发表于 2012-8-8 23:16 | 只看该作者
太强大了,好技术的分析,深入浅出啊
51#
蓝天翔燕 发表于 2012-8-8 23:20 | 只看该作者
shanshan709229 发表于 2012-8-8 11:01
这文章....只能说受教了  自身能力有待加强啊 懂得越多才越觉得自己无知

深有同感,玩DIY玩得越多,就越需要深入学习!
52#
dzx1213 发表于 2012-8-8 23:23 | 只看该作者
楼主辛苦码字,不忍心看帖不顶,顶一个。确实学到很多东西。
53#
小小玄 发表于 2012-8-9 00:22 | 只看该作者
刚好打玩DOTA 去硬派看了下 然后转过来看这个帖子
写的真的很棒 说实话其实AMD的口号就能看的出来 融聚未来···但是作为一般的家庭用户,包括学生(大部分的使用者)来说。稍稍口袋有点钱的都爱买N卡 。游戏毕竟才是大家更换显卡的动力
(当然是不是绝对)
54#
sd1601788 发表于 2012-8-9 00:26 | 只看该作者
大概看了下,许多不明白的地方跳开了,什么特点,怎么运算的,真心不懂,只求网友给的实际对比就好
不过楼主写得很认真,特别是形象的麻将牌比喻,让我印像深刻,了解了下各自的特点
这代看好GK104,我是游戏党
55#
hyenax1950xtx  楼主| 发表于 2012-8-9 09:26 | 只看该作者
ericafountaine 发表于 2012-8-8 15:34
其实我本来不想说什么的,不过不说我觉得对不起良心,还是注册了个号来说。

1. 其实老黄的双线设计,并不 ...

发帖目的就是交流和学习,谢谢提出与指正。

1、研发时长的这个理解的,但我指的的单双线是指同一时期市场的产品,G71是G70~G80的过度,除了NV35是因为NV30不给力改造出来的情况下,之前的NV40时代也没有出现过这种现象,个人理解在G70对R520强势的时候,NV没有直接投放G80而是改进了G70推出G71这就是一个市场策略,起码在较长时间内填补了G80下面的中低端市场。

2、关于UTDP和ACE之间的变化还有,不甚了解,因为找不到资料,也一直想了解。
56#
ericafountaine 发表于 2012-8-9 10:15 | 只看该作者
heren3 发表于 2012-8-8 17:21
AMD看到NV每次推一款GPU,专业卡上坑了不少的人傻钱多,游戏卡这边用广告也揽去不少很眼红
于是逐渐朝着N ...

Barts没割SFU

Evergreen的SFU和费米的区别很大,后者的和普通ALU一起在SM里面(8/32),接受Warp Scheduler调度;前者和4个ALU一起绑定为一个SIMD Core,依靠UTDP调度。所以从原理上来说,Evergreen要砍SFU真心是件蛋疼的事。

成绩也能看出来了,Barts的通用性能也不差嘛。估计也只是割寄存器而已。
57#
ericafountaine 发表于 2012-8-9 10:40 | 只看该作者
hyenax1950xtx 发表于 2012-8-9 09:26
发帖目的就是交流和学习,谢谢提出与指正。

1、研发时长的这个理解的,但我指的的单双线是指同一时期市 ...

其实主要是“竖着”和“横着”的区别……

以Cayman为例,UTDP实际上是一个4-WAY VLIW SIMD指令发射单元,每个SIMD CORE有64个ALU,64/4=16个Streaming Processor(他们蛋疼地把每个ALU算作一个“Shader Processor”)。Cayman中,每个UTDP管12个SIMD CORE,VLIW指令到了Streaming Processor解包,给4个ALU。

ACE下面管CU,每个CU是一个4-WAY SIMD,每个SIMD又有4 LANE,每CU与每SIMD CORE同为64ALU。ACE的指令到了CU之后就分4,不像VLIW一样到了最后ALU才分4,也不用解包(所以指令其实更多)。

简单点说,前者是16*4=64,后者是4*16=64……
58#
hyenax1950xtx  楼主| 发表于 2012-8-9 10:43 | 只看该作者
aibo 发表于 2012-8-8 17:08
不是传说GK110有5个GPC,每个GPC有3组SMX。
总共5*3*192=2880sp么。

目前看到的GK110是阉了一组SMX的情况,所以只有15组完整为16,如果GPC为5个话,那么绝对不科学,GPC的个数必须为16能除尽的数字,也就是只有16、8、4、2、1这5个。
59#
ericafountaine 发表于 2012-8-9 10:48 | 只看该作者
嘛,说白了Cayman从头到尾都是SIMD(但是Command Processor到2*UTDP又不是?这个不清楚了,只知道按架构推定,CP肯定具有有限的分派机能的),而GCN从ACE到CU是MIMD,从CU到4-WAY SIMD是SIMD。

好久不聊这些都记不清楚了,抱歉。
60#
hyenax1950xtx  楼主| 发表于 2012-8-9 11:00 | 只看该作者
ericafountaine 发表于 2012-8-9 10:40
其实主要是“竖着”和“横着”的区别……

以Cayman为例,UTDP实际上是一个4-WAY VLIW SIMD指令发射单元 ...

Cayman的指令要到Shader Processor才开始解封,这个也是之前VLIW架构下,UTDP的指令发射模板吧,区别只是每个UTDP管理的管的SIMD Core数目不同麽?
Tahiti的ACE指令到CU以后,会被拆封成4路Wavefront,然后配发给GCN集群去执行,那么Scheduler主要就是控制周期,这么理解对麽?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部