PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

一份RyZen的测试数据

[复制链接]
1#
chungexcy 发表于 2017-2-28 13:36 | 显示全部楼层
royalk 发表于 2017-2-27 16:31
L1缓存吞吐量翻倍,导致AVX/FMA质量效率翻倍。这次AMD也同样支持AVX256,应该可以接近四代的水平。
...

现在也有一种说法,是Ryzen是两个原生avx128单元,内部模拟来兼容avx/avx2/fma3指令集。

具体的计算性能吞吐量如何,到时候可以用aida64的缓存带宽测试反向来推测。或者用我提供的那个浮点滤镜程序的更新版来测,或者x265编码器实测编码来对比intel的表现。我个人相信那个浮点性能程序的优化,没有任何缓存的瓶颈,不过考虑到现在是基于intel的缓存性能优化的,如果成绩严重不合理也是有可能的。

不过还是那句话,高性能计算还是和日常应用没有交集,就像linpack,仅仅能参考一下。

2#
chungexcy 发表于 2017-2-28 16:02 | 显示全部楼层
royalk 发表于 2017-2-28 15:18
这样的话吞吐量也能接近真正的avx256级别吧?

现在还不知道。Haswell和skylake,是两组avx256,我以前测过,如果数据全在寄存器内,是完全能跑满两个单元的。Haswell的一级缓存带宽时对应的,每周期能读取16个单精度浮点(512位),aida64的带宽就是这么测的,4核4g,1000GB/s
如果Ryzen是两组avx128,那么实际吞吐量就是一半。

3#
chungexcy 发表于 2017-2-28 16:10 | 显示全部楼层
royalk 发表于 2017-2-28 15:18
这样的话吞吐量也能接近真正的avx256级别吧?

现在也有人说,ryzen是两个avx128 add + 两个avx128 mul。具体怎么样还没个准信。
4#
chungexcy 发表于 2017-2-28 16:31 | 显示全部楼层
本帖最后由 chungexcy 于 2017-2-28 16:33 编辑
royalk 发表于 2017-2-28 16:17
如果是两组avx128,那就是IVB级别?那样也太弱了。。。

假设是两组avx128,如果只有乘法或者加法浮点运算,那就是Haswell/Sandy bridge的一半。

限于我的知识量,我暂时想不出来有什么非fma的场景,有并行加法和乘法的需求。如果存在这种场景,Haswell/Sandy bridge和ryzen是一样的性能。

如果是fma,Haswell的fma3能一步完成,ryzen平均下来,mul+add也能到一步。但由于Haswell是256位的,这样还是一半性能,和Sandy bridge一个水平。




5#
chungexcy 发表于 2017-2-28 17:07 | 显示全部楼层
royalk 发表于 2017-2-28 16:51
这么说来AIDA64测试也不一定能看得出问题来吧,没准还要为它单独优化代码。。。
...

我不记得aida64是什么时候支持Haswell的fna3,记得以前专门找过不同版本的截图的。影像中确实是某一版以后性能就翻倍了。
aida有两个测试,一个是gpgpu的理论浮点性能,一个是缓存带宽。如果直接相信现在的aida64结果,可能还是像你说的,不一定就是事实。

不过我个人的看法,gpgpu的浮点测试没啥特殊优化可言,就是放寄存器里跑指令,看看能跑多快。带宽测试,估计就是一直读读数据,算一下时间。这俩跑啥指令,怎么跑还是有很大区别的。要从软件性能反推硬件,除非你知道软件跑的是什么,否则就aida这个黑盒子,要是没有其他的佐证,感觉还是太玄学了一点。
6#
chungexcy 发表于 2017-2-28 17:28 | 显示全部楼层
royalk 发表于 2017-2-28 17:08
那就跑一下linpack,或者你写的那个程序,估计能看出问题。

linpack难说,现在都是Intel在优化,而且支持fma3。

我那个图像放大滤镜,也是基于Intel的指令集的(sse/avx256/fma3)。不过AMD可是说兼容Intel的指令集,只是测来玩玩还是可以的,不建议作为标准参考了。

至于我自己测缓存或者计算性能,还是算了吧,就是能拿到CPU也要尝试优化和分析,还不一定能做对。还是等aida64宣布兼容ryzen比较好。
7#
chungexcy 发表于 2017-3-1 16:57 | 显示全部楼层
royalk 发表于 2017-3-1 15:06
确定了,4级流水线,两个加法器,两个乘法器,这么说只有SNB级别的性能了?
...

大概就是了吧,严格说算是skylake的一半性能。

像hwbot测试(x265视频编码),8核表现应该和skylake4核一个水平左右。你可以试试跑一下hwbox,https://hwbotdownloads.s3.amazon ... /HWBOT_X265_2.0.rar。有其他网站评测时用过,而且这个还有排行榜,界面也比我之前测x265时好看得多。
8#
chungexcy 发表于 2017-3-1 17:11 | 显示全部楼层
royalk 发表于 2017-3-1 16:58
这个可以跑一下,之前的H264 benchmark好像并不支持AVX

嗯,avx2出来的时候都13年了,那会儿那拨人刚好开始做265了,264基本都没人优化了。虽说有点小修小补支持了新指令集,不过Haswell也就快了10多个点。。。265设计之初就是考虑尽量用avx2了。(视频编码基本是整数运算需求)
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部