Core i7 7740X与Core i9 7900X评测预告

ydjj · 发表于 2017-7-3 18:51

jerrytsao 发表于 2017-7-3 14:33
SKL-X的AVX512是Full Throughput还是Half Throughput?

另外AVX512民用究竟有多大意义? Numberworld之前做 ...

http://pop.4-bit.jp/?p=8254

x264“开始”为AVX512优化
希望能有质的提升

royalk · 发表于 2017-7-4 10:21

jerrytsao 发表于 2017-7-3 16:36
也就是说i9=Full, i7=Half, i7来个PCIe+AVX双阉割来Justify降价, 牙膏厂刀法和老黄有的一拼

...

Half的话会有多大区别？性能介于256和512之间？

haomingci3 · 发表于 2017-7-4 12:08

royalk 发表于 2017-7-4 10:21
Half的话会有多大区别？性能介于256和512之间？

half后基本参数与7700k差不多，只是多支持了avx512f

royalk · 发表于 2017-7-4 12:36

haomingci3 发表于 2017-7-4 12:08
half后基本参数与7700k差不多，只是多支持了avx512f

那有何用。。算力相当于256级别，而AVX512F只是最基本的支持，扩展功能都不支持吧

chungexcy · 发表于 2017-7-4 12:56

ydjj 发表于 2017-7-3 18:51
http://pop.4-bit.jp/?p=8254

x264“开始”为AVX512优化

理想很丰满，现实很骨干。。。实际上只有少数部分的代码，能够simd优化。

x264在haswell上，同频同核心也就比ivy bridge高了15-20%，这俩理论性能差了一倍。
就算把那些原来avx256优化的代码，换成avx512，按照之前的比例来算，最多也就再提升5-10%

chungexcy · 发表于 2017-7-4 13:11

本帖最后由 chungexcy 于 2017-7-4 13:29 编辑

royalk 发表于 2017-7-4 12:36
那有何用。。算力相当于256级别，而AVX512F只是最基本的支持，扩展功能都不支持吧
...

avx的实际性能，不能独立于软件优化来看。

Ryzen模拟的avx2，理论性能和 ivy bridge 相同，是 haswell 的一半，而实际的x265编码性能远高于ivy bridge（30-40%）。原生avx2的haswell，也就比Ryzen高了15%；同样两倍理论性能的skylake，估计也就高不到35%。

比如7900x不开超线程，3.6g能有900gflops的双精度，理论效率达到了80%。AVX512的IPC是1.6，而实际avx256单元相当于3.2次/cycle。
这个3.2，就是所谓的指令集并行。直接用AVX512，相当于让CPU帮你做了指令集并行，而不需要你通过代码来优化。CPU自己优化的效率还更高，而且更易于编译器进行优化。

其实我觉得i7这样做反而更好。
一、即使理论极限是一样的，AVX512依然能跑得更快一些。因为可能以前的利用率才到60%，但现在能到80%了，30%的性能提升自然就上来了。而且，现实是几乎没有任何软件能接近linpack（除了直接用intel mkl的matlab，以及那个waifu2x）。
二、再就是大部分avx2优化都没跟上的情况下，提高高级指令集的兼容性更加重要。Ryzen就是这样做的，效果还很好。
三、避免了7900x这样的功耗爆炸。就算你利用率很低，计算单元也是需要耗电的。
四、i7阉割的是计算单元，没有阉割512位的寄存器数量。而一般寄存器的数量不够用，导致部分数据在一级缓存里，需要大量读写一缓有限的带宽而遇到瓶颈，这才是限制利用率的重要原因之一。另一原因是一级缓存带宽瓶颈，这点i7也没阉割。或者说，这代的cpu，根本没有为了avx512而翻倍一缓带宽（sandy bridge，haswell那两代，一缓都翻倍了）

chungexcy · 发表于 2017-7-4 13:56

本帖最后由 chungexcy 于 2017-7-4 13:58 编辑

royalk 发表于 2017-7-3 15:59
跑mkl包，problem size最大到40000，3.6G关超线程最高是911GFLOPS，开超线程程序会自动指定10个线程跑，90 ...

对了，要是方便的话，帮我测一下waifu2x在7900x上的表现吧，我想看看这个15年11月的软件优化，能不能用好4组avx256的7900x。

我专门做了一个测试用图(根据程序算出来的图片特定大小)，400gflops要跑两分钟，理论上可以跑出最高效率。开一个命令行运行run.bat。链接：http://pan.baidu.com/s/1eSJxbKu 密码：u8av

P.S. 只对avx2优化的y-cruncher，现在完全无法发挥出4个avx256单元的优势，提升还不到broadwell到skylake 15%的avx2比例。最新版也就只对ryzen有优化，avx512应该还得等。

jerrytsao · 发表于 2017-7-4 14:02

本帖最后由 jerrytsao 于 2017-7-4 14:06 编辑

chungexcy 发表于 2017-7-4 13:56
对了，要是方便的话，帮我测一下waifu2x在7900x上的表现吧，我想看看这个15年11月的软件优化，能不能用好4 ...

y-cruncher应该快了, 硬件到位就有了

Development on AVX512 began in 2014. And as of 2016, most of the work that could be done without the hardware has been completed.

Internally, there are currently 3 binaries with AVX512. But none of them are enabled publicly yet.
16-KNL (Knights Landing)
17-SKX (Skylake Purley)
18-CNL (Cannonlake)
All of these are working and tested through emulation on both Windows and Linux. What's needed now is the actual hardware for final testing and performance tuning. So there's a lot of AVX512 code that's been sitting around while we wait for the hardware.

As of June 2017, the first line of Skylake X processors are around the corner. But due to conflicting rumors and leaked benchmarks, it is unclear whether this first line of SKylake X processors will have full-throughput AVX512 or only half-throughput. If they don't have the full-throughput AVX512, it's quite possible that y-cruncher's AVX512 support will not be ready until 2018.

chungexcy · 发表于 2017-7-4 14:15

jerrytsao 发表于 2017-7-4 14:02
y-cruncher应该快了, 硬件到位就有了

看来就等performance tuning了。我对他们的优化还是有信心的。不过avx2在7900x上没有提升，感觉想不通，除非Intel限制了256位只能使用两个计算单元。

txgy · 发表于 2017-7-4 19:55

chungexcy 发表于 2017-7-4 13:56
对了，要是方便的话，帮我测一下waifu2x在7900x上的表现吧，我想看看这个15年11月的软件优化，能不能用好4 ...

win8系统，批处理运行完自动关，看不清楚输出的结果

royalk · 发表于 2017-7-4 22:36

chungexcy 发表于 2017-7-4 13:11
avx的实际性能，不能独立于软件优化来看。

Ryzen模拟的avx2，理论性能和 ivy bridge 相同，是 haswell 的 ...

实际性能竟然和理论吞吐量有这么大差别。。。这么说看来等今后软件支持AVX512比较好的时候，还是得测一下7820X和7740K的性能情况。

不过在寄存器不够用和L1缓存带宽瓶颈的情况下，i9实际上做了个大跃进。。。4个AVX单元是吃力不讨好。但是xeon phi也是这么做的，intel竟然照搬上桌面来了。

chungexcy · 发表于 2017-7-5 00:11

txgy 发表于 2017-7-4 19:55
win8系统，批处理运行完自动关，看不清楚输出的结果

开一个cmd，在里面执行run.bat，跑完了就有了

txgy · 发表于 2017-7-5 12:04

本帖最后由 txgy 于 2017-7-5 12:11 编辑

txgy · 发表于 2017-7-5 12:08

本帖最后由 txgy 于 2017-7-5 12:13 编辑

chungexcy 发表于 2017-7-5 00:11
开一个cmd，在里面执行run.bat，跑完了就有了

2696v3 鸡血关超线程
all:31.3238[sec], 1242.67[GFLOPS], filter:27.9849[sec], 1390.94[GFLOPS]
感觉压力比linpack小，没触发TJMAX

chungexcy · 发表于 2017-7-5 12:51

txgy 发表于 2017-7-5 12:08

单路的话，开超线程吧。性能大概提升10%，整体功耗小于linpack，效率倒是不输。

PS，你打鸡血以后能稳定在什么频率啊

txgy · 发表于 2017-7-5 22:13

chungexcy 发表于 2017-7-5 12:51
单路的话，开超线程吧。性能大概提升10%，整体功耗小于linpack，效率倒是不输。

PS，你打鸡血以后能稳定 ...

倍频32，可以拉105的外频LINPACK可以跑到760，坏处是UNCORE会掉23X

gtx9 · 发表于 2017-7-7 22:51

y-cruncher -0.7.3 Build 9468 发布，已经支持 AVX512

龙抬头 · 发表于 2017-7-10 17:48

不是说十号发布吗？

royalk · 发表于 2017-7-10 19:48

龙抬头发表于 2017-7-10 17:48
不是说十号发布吗？

再等两天

gtx9 · 发表于 2017-7-10 20:45

royalk 发表于 2017-7-10 19:48
再等两天

坐等详细评测

Core i7 7740X与Core i9 7900X评测预告

本帖子中包含更多资源

本帖子中包含更多资源