PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

AMD Ryzen 7 1800X评测直播帖

  [复制链接]
1#
chungexcy 发表于 2017-3-14 23:29 | 显示全部楼层
本帖最后由 chungexcy 于 2017-3-14 23:40 编辑
royalk 发表于 2017-3-14 20:40
跑了一下你提供的这个版本,Ryzen 8C16T 4G峰值可以达到400GFLOPS,记得当时跑6700K 4G默认频率是302GFLOP ...

如下图和我的对比,他那个版本是后来更新的,再次优化了fma3的性能,速度有大幅提升,skylake能跑出理论极限(aida64 gpgpu 32位浮点)的86%。你之前在84楼里帮我测试过的。


这软件只看支持的最高指令集,ryzen用的是fma3,效率和haswell的一样,大约算出来是78%。你的6700k在4.5g时,能跑到499gFLOPS。

我专门做了一个测试用图(根据程序算出来的图片特定大小),400gflops要跑两分钟,理论上可以跑出最高效率。开一个命令行运行run.bat。链接:http://pan.baidu.com/s/1eSJxbKu 密码:u8av

89楼有我双路的运行效率可供对比。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
chungexcy 发表于 2017-3-14 23:37 | 显示全部楼层
tx97 发表于 2017-3-14 17:45
http://pan.baidu.com/s/1dEJOMsx
我找的支持opencl、avx的版本,也不知道是不是最新的
...

你这个程序是最新的,但模型还是以前的,现在的新模型一直都不支持。你可以对比一下我90楼里面的那些提到的成绩。

3#
chungexcy 发表于 2017-3-15 12:16 | 显示全部楼层
royalk 发表于 2017-3-15 11:52
406GFLOPS,看来都差不多。。。

嗯,这个值是filter的话,算出来是79%的理论极限效率,ipc=1.6,略好于haswell一点点

4#
chungexcy 发表于 2017-3-15 12:20 | 显示全部楼层
本帖最后由 chungexcy 于 2017-3-15 12:31 编辑
txgy 发表于 2017-3-15 11:18
双精度浮点计算的公式如下:
Num cores * Core clock (base clock) * 8 (for AVX2) * 2 (for FMA3)
6700k ...

嗯。这程序是单精度计算,6700k的理论值是512gflops,1800x@4g也是这个。

至于优化,这位大神是专门针对里面大量的3x3矩阵计算优化的,效率比mkl还好一大截。。。不过现在mkl 2017了。

感觉那个网站测试的有点怪,intel自己的成绩都没有这么高。

https://software.intel.com/en-us/intel-mkl/benchmarks#DGEMM
5#
chungexcy 发表于 2017-3-15 13:06 | 显示全部楼层
本帖最后由 chungexcy 于 2017-3-15 13:08 编辑
royalk 发表于 2017-3-15 12:38
是filter,浮点ipc基本达到broadwell的水平吧,与跑渲染的结果基本吻合。

大概误差范围之内。刚才试了试1230v3@3.1g,filter是326gflops,效率是82.6%,不过是8线程。28线程的e5下,效率也只有78%了。

6#
chungexcy 发表于 2017-3-15 13:13 | 显示全部楼层
royalk 发表于 2017-3-15 12:52
broadwell-e 8c16t 4G 816GFLOPS,比ryzen翻倍

那ipc就一样了。我算了一下,这个极限优化的程序,skylake只比haswell效率高4%,实际速度快5%不到。

7#
chungexcy 发表于 2017-3-15 14:43 | 显示全部楼层
royalk 发表于 2017-3-15 14:25
那这么说,ryzen在跑这个程序的时候,AVX单元只有一半在工作?

不是啊。ryzen内部把这个256位的fma3,给拆成两半,分别同时交给自己的两个128位fma运算了。不过intel有两个原生256位,所以能同时运算两组256位fma。

至于ipc,你要当成ryzen 256位指令集的ipc=0.8也好;或者看内部指令集的ipc=1.6也好。


8#
chungexcy 发表于 2017-3-15 16:22 | 显示全部楼层
royalk 发表于 2017-3-15 15:16
哦哦,这么说AMD的所谓支持256位,也只是残废的变相支持而已。。。

说是这么说,但是极少有软件能把avx的IPC优化超过1,这时ryzen反而差距极小。就像x265的最新版,优化Intel两年多了,ryzen开箱性能,和Haswell差距小于20%,skylake小于40%,不过这个差距以后还会扩大。

9#
chungexcy 发表于 2017-3-15 17:24 | 显示全部楼层
tx97 发表于 2017-3-15 17:17
e5-2680v4,我的那个程序14c28t能跑到1400G,是跑的FMA,不知道有没有参考价值?
另外开28c56t还是这个成 ...

我猜你那个大概是当成类似双路关超线程的结果。这个程序不支持numa,也就是Windows下最多64线程,比如4路72核只能跑着一个CPU的18核上,但双路的28c56t一起跑没问题,双路36c36t,关了ht也能一起跑。

10#
chungexcy 发表于 2017-3-16 12:00 | 显示全部楼层
tx97 发表于 2017-3-15 17:52
下半年要买个4路的服务器,64c128t,到时候在win里面看看能跑满多少线程。
...

关超线程到64c64t,大概会损失10%的性能,但是应该能跑满4个cpu

11#
chungexcy 发表于 2017-3-20 13:51 | 显示全部楼层
royalk 发表于 2017-3-20 12:40
可以跑FMA了,功耗达到和OCCT一个级别

这下功耗有多少了?顺便更新一下84楼截图的功耗数据吧
12#
chungexcy 发表于 2017-3-20 14:40 | 显示全部楼层
royalk 发表于 2017-3-20 14:21
1.41v 4G到200w左右了

唉。。。看来性能只有一半的情况下,功耗还差不多。。。

13#
chungexcy 发表于 2017-3-22 13:05 | 显示全部楼层
本帖最后由 chungexcy 于 2017-3-22 13:06 编辑
haomingci3 发表于 2017-3-22 01:56
Sandra 2016 SP1算数处理器Dhrystone整数是不是用了AVX2,我看到7700K默频这个的成绩并没有击败1700的默 ...

我用sandra2015,简单试了一下我的5200u,和软件自带的3120m对比了一下。avx2提升了10%,avx(fma3?)提升了25%,频率大概有10%的劣势吧?
可以看出,优化及其有限,但是这正好反应了,avx在实际软件中,并不是都能大幅提高。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部