AMD Ryzen 7 1800X评测直播帖

chungexcy · 发表于 2017-3-14 23:29

本帖最后由 chungexcy 于 2017-3-14 23:40 编辑

royalk 发表于 2017-3-14 20:40
跑了一下你提供的这个版本，Ryzen 8C16T 4G峰值可以达到400GFLOPS，记得当时跑6700K 4G默认频率是302GFLOP ...

如下图和我的对比，他那个版本是后来更新的，再次优化了fma3的性能，速度有大幅提升，skylake能跑出理论极限（aida64 gpgpu 32位浮点）的86%。你之前在84楼里帮我测试过的。

这软件只看支持的最高指令集，ryzen用的是fma3，效率和haswell的一样，大约算出来是78%。你的6700k在4.5g时，能跑到499gFLOPS。

我专门做了一个测试用图(根据程序算出来的图片特定大小)，400gflops要跑两分钟，理论上可以跑出最高效率。开一个命令行运行run.bat。链接：http://pan.baidu.com/s/1eSJxbKu 密码：u8av

89楼有我双路的运行效率可供对比。

chungexcy · 发表于 2017-3-14 23:37

tx97 发表于 2017-3-14 17:45
http://pan.baidu.com/s/1dEJOMsx
我找的支持opencl、avx的版本，也不知道是不是最新的
...

你这个程序是最新的，但模型还是以前的，现在的新模型一直都不支持。你可以对比一下我90楼里面的那些提到的成绩。

chungexcy · 发表于 2017-3-15 12:16

royalk 发表于 2017-3-15 11:52
406GFLOPS，看来都差不多。。。

嗯，这个值是filter的话，算出来是79％的理论极限效率，ipc＝1.6，略好于haswell一点点

chungexcy · 发表于 2017-3-15 12:20

本帖最后由 chungexcy 于 2017-3-15 12:31 编辑

txgy 发表于 2017-3-15 11:18
双精度浮点计算的公式如下：
Num cores * Core clock (base clock) * 8 (for AVX2) * 2 (for FMA3)
6700k ...

嗯。这程序是单精度计算，6700k的理论值是512gflops，1800x@4g也是这个。

至于优化，这位大神是专门针对里面大量的3x3矩阵计算优化的，效率比mkl还好一大截。。。不过现在mkl 2017了。

感觉那个网站测试的有点怪，intel自己的成绩都没有这么高。

https://software.intel.com/en-us/intel-mkl/benchmarks#DGEMM

chungexcy · 发表于 2017-3-15 13:06

本帖最后由 chungexcy 于 2017-3-15 13:08 编辑

royalk 发表于 2017-3-15 12:38
是filter，浮点ipc基本达到broadwell的水平吧，与跑渲染的结果基本吻合。

大概误差范围之内。刚才试了试1230v3@3.1g，filter是326gflops，效率是82.6%，不过是8线程。28线程的e5下，效率也只有78％了。

chungexcy · 发表于 2017-3-15 13:13

royalk 发表于 2017-3-15 12:52
broadwell-e 8c16t 4G 816GFLOPS，比ryzen翻倍

那ipc就一样了。我算了一下，这个极限优化的程序，skylake只比haswell效率高4%，实际速度快5%不到。

chungexcy · 发表于 2017-3-15 14:43

royalk 发表于 2017-3-15 14:25
那这么说，ryzen在跑这个程序的时候，AVX单元只有一半在工作？

不是啊。ryzen内部把这个256位的fma3，给拆成两半，分别同时交给自己的两个128位fma运算了。不过intel有两个原生256位，所以能同时运算两组256位fma。

至于ipc，你要当成ryzen 256位指令集的ipc＝0.8也好；或者看内部指令集的ipc＝1.6也好。

chungexcy · 发表于 2017-3-15 16:22

royalk 发表于 2017-3-15 15:16
哦哦，这么说AMD的所谓支持256位，也只是残废的变相支持而已。。。

说是这么说，但是极少有软件能把avx的IPC优化超过1，这时ryzen反而差距极小。就像x265的最新版，优化Intel两年多了，ryzen开箱性能，和Haswell差距小于20%，skylake小于40%，不过这个差距以后还会扩大。

chungexcy · 发表于 2017-3-15 17:24

tx97 发表于 2017-3-15 17:17
e5-2680v4,我的那个程序14c28t能跑到1400G，是跑的FMA，不知道有没有参考价值？
另外开28c56t还是这个成 ...

我猜你那个大概是当成类似双路关超线程的结果。这个程序不支持numa，也就是Windows下最多64线程，比如4路72核只能跑着一个CPU的18核上，但双路的28c56t一起跑没问题，双路36c36t，关了ht也能一起跑。

chungexcy · 发表于 2017-3-16 12:00

tx97 发表于 2017-3-15 17:52
下半年要买个4路的服务器，64c128t，到时候在win里面看看能跑满多少线程。
...

关超线程到64c64t，大概会损失10%的性能，但是应该能跑满4个cpu

chungexcy · 发表于 2017-3-20 13:51

royalk 发表于 2017-3-20 12:40
可以跑FMA了，功耗达到和OCCT一个级别

这下功耗有多少了？顺便更新一下84楼截图的功耗数据吧

chungexcy · 发表于 2017-3-20 14:40

royalk 发表于 2017-3-20 14:21
1.41v 4G到200w左右了

唉。。。看来性能只有一半的情况下，功耗还差不多。。。

chungexcy · 发表于 2017-3-22 13:05

本帖最后由 chungexcy 于 2017-3-22 13:06 编辑

haomingci3 发表于 2017-3-22 01:56
Sandra 2016 SP1算数处理器Dhrystone整数是不是用了AVX2，我看到7700K默频这个的成绩并没有击败1700的默 ...

我用sandra2015，简单试了一下我的5200u，和软件自带的3120m对比了一下。avx2提升了10%，avx（fma3?）提升了25%，频率大概有10%的劣势吧？
可以看出，优化及其有限，但是这正好反应了，avx在实际软件中，并不是都能大幅提高。

AMD Ryzen 7 1800X评测直播帖

本帖子中包含更多资源

本帖子中包含更多资源