PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

y-cruncher -0.7.3 发布,对支持 AVX512 的一些重要说明

[复制链接]
1#
gtx9 发表于 2017-7-8 16:51 | 显示全部楼层
本帖最后由 gtx9 于 2017-7-8 17:00 编辑

intel 官方的测试,算上核心数的差异

LINPACK 的AVX512效率是80%左右






Through its integration of the Intel® Advanced Vector Extensions 512 (Intel® AVX-512), the platform generates 2X FLOPs/clock-cycle peak improvements, offering a boost to performance for demanding use.1 Intel AVX-512 combined with improvements in cores, cache and memory, delivers up to 2.27x more performance than today’s Intel Xeon processor E5 v4 (formerly codenamed Broadwell), and up to 8.2x more double precision GFLOPS/second when compared to a 4-year old Intel Xeon processor E5 family in the installed base.


Baseline config: 1-Node, 2 x Intel® Xeon® Processor E5-2699 v4 on Red Hat Enterprise Linux* 7.0 kernel 3.10.0-123 using Intel® Distribution for LINPACK Benchmark, score: 1446.4 GFLOPS/s vs. estimates based on Intel internal testing on 1-Node, 2x Intel Xeon Scalable processor (codename Skylake-SP) system. Score: 3295.57

Baseline config: 1-Node, 2 x Intel® Xeon® Processor E5-2690 based system on Red Hat Enterprise Linux* 6.0 kernel version 2.6.32-504.el6.x86_64 using Intel® Distribution for LINPACK Benchmark. Score: 366.0 GFLOPS/s vs. 1-Node, 2 x Intel® Xeon® Scalable process on Ubuntu 17.04 using MKL 2017 Update 2. Score: 3007.8
2#
gtx9 发表于 2017-7-8 17:34 | 显示全部楼层
本帖最后由 gtx9 于 2017-7-8 17:59 编辑

还有

已经支持AVX512的SiSoftware缓存测试

和AIDA64结果一样





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
3#
gtx9 发表于 2017-7-8 19:30 | 显示全部楼层
本帖最后由 gtx9 于 2017-7-8 19:33 编辑
royalk 发表于 2017-7-8 18:37
目前来说这代频率定的太高,只能是勉强运行avx512,性能还受限。如果我预计的没错7980xe运行avx512的频率 ...

intel官方测试双路56核的skylake-sp(205w)是 3295.57GFlops(LINPACK)

算下来单路205w功耗下1647GFlops


165w 的18核7980xe如果跑2.5Ghz,差不多就是1100GFlops左右,2.8Ghz感觉不太可能(前提是不解功耗)



  1. Baseline config: 1-Node, 2 x Intel® Xeon® Processor E5-2699 v4 on Red Hat Enterprise Linux* 7.0 kernel 3.10.0-123 using Intel® Distribution for LINPACK Benchmark, score: 1446.4 GFLOPS/s vs. estimates based on Intel internal testing on 1-Node, 2x Intel Xeon Scalable processor (codename Skylake-SP) system. Score: 3295.57
复制代码


4#
gtx9 发表于 2017-7-8 22:14 | 显示全部楼层
royalk 发表于 2017-7-8 22:02
是的,所以7980XE的频率其实也没什么TBA的了,基本就这数,不会再高了。
那就出现一个问题,AMD的Ryzen 16 ...

目前AVX软件还是很少。。。估计在调教非AVX频率

预计7980XE

基础频率2.8-3.0Ghz(非AVX)

全核满载3.4-3.5Ghz(非AVX)

TB3.0 应该可以4G+
5#
gtx9 发表于 2017-7-9 16:09 | 显示全部楼层
royalk 发表于 2017-7-9 15:03
刚跑了一下build 9471,4G/2.4/3200的时候是1.577s

这时候功耗有多少?
6#
gtx9 发表于 2017-7-9 16:45 | 显示全部楼层
chungexcy 发表于 2017-7-9 16:22
我的天。。。。3.3g下超内存,性能和功耗是不是会比3.6g不超内存高。。。

而且突然意识到,xeon skylake ...

xeon虽然不能超内存,不过Xeon有6通道内存
7#
gtx9 发表于 2017-7-9 16:52 | 显示全部楼层
royalk 发表于 2017-7-9 16:33
50m太快录不出准确值,跑1 billion功耗波动很大,在200-270w之间波动,而linpack轻易去到340w。
...

这软件还没有linpack压力大。。r大试试7900x默认TDP设置下linpack能有多少gflops看看
8#
gtx9 发表于 2017-7-9 18:22 | 显示全部楼层
royalk 发表于 2017-7-9 18:17
刚才对比了一下6950x平台,50million 单线程
6950x 4G/3.1ring/3200 15.072s
7900x 4G/2.4mesh/3200 10.1 ...

跑多线程看看差距有没有拉大
9#
gtx9 发表于 2017-7-9 20:44 | 显示全部楼层
royalk 发表于 2017-7-9 18:31
20线程,差距缩小
6950x 1.803s

这差距缩小得有点大啊。。会不会是50million计算规模不够大?


10#
gtx9 发表于 2017-7-10 20:46 | 显示全部楼层
royalk 发表于 2017-7-10 19:48
可能是AVX512的必要需求吧,非AVX512的测试来说确实看不到什么增益。

L2缓存对浮点影响很大,上了AVX512必须增大

所以intel宁可砍L3也要增大L2缓存

PS:其实最完美的解决方法是保留以前的L3缓存设计+直接增大L2缓存(不过这样CPU核心面积大太多了。。。)
11#
gtx9 发表于 2017-7-10 21:19 | 显示全部楼层
royalk 发表于 2017-7-10 20:49
L2越大,L3用继承式浪费的空间就越大,如果L2做到1M/core,L3至少要到5M/core以上才不至于浪费太多,原本 ...

所以现在就是成本和性能之间的妥协吧
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部