Core i7 7740X与Core i9 7900X评测预告

jerrytsao · 发表于 2017-7-4 14:02

本帖最后由 jerrytsao 于 2017-7-4 14:06 编辑

chungexcy 发表于 2017-7-4 13:56
对了，要是方便的话，帮我测一下waifu2x在7900x上的表现吧，我想看看这个15年11月的软件优化，能不能用好4 ...

y-cruncher应该快了, 硬件到位就有了

Development on AVX512 began in 2014. And as of 2016, most of the work that could be done without the hardware has been completed.

Internally, there are currently 3 binaries with AVX512. But none of them are enabled publicly yet.
16-KNL (Knights Landing)
17-SKX (Skylake Purley)
18-CNL (Cannonlake)
All of these are working and tested through emulation on both Windows and Linux. What's needed now is the actual hardware for final testing and performance tuning. So there's a lot of AVX512 code that's been sitting around while we wait for the hardware.

As of June 2017, the first line of Skylake X processors are around the corner. But due to conflicting rumors and leaked benchmarks, it is unclear whether this first line of SKylake X processors will have full-throughput AVX512 or only half-throughput. If they don't have the full-throughput AVX512, it's quite possible that y-cruncher's AVX512 support will not be ready until 2018.

chungexcy · 发表于 2017-7-4 13:56

本帖最后由 chungexcy 于 2017-7-4 13:58 编辑

royalk 发表于 2017-7-3 15:59
跑mkl包，problem size最大到40000，3.6G关超线程最高是911GFLOPS，开超线程程序会自动指定10个线程跑，90 ...

对了，要是方便的话，帮我测一下waifu2x在7900x上的表现吧，我想看看这个15年11月的软件优化，能不能用好4组avx256的7900x。

我专门做了一个测试用图(根据程序算出来的图片特定大小)，400gflops要跑两分钟，理论上可以跑出最高效率。开一个命令行运行run.bat。链接：http://pan.baidu.com/s/1eSJxbKu 密码：u8av

P.S. 只对avx2优化的y-cruncher，现在完全无法发挥出4个avx256单元的优势，提升还不到broadwell到skylake 15%的avx2比例。最新版也就只对ryzen有优化，avx512应该还得等。

chungexcy · 发表于 2017-7-4 13:11

本帖最后由 chungexcy 于 2017-7-4 13:29 编辑

royalk 发表于 2017-7-4 12:36
那有何用。。算力相当于256级别，而AVX512F只是最基本的支持，扩展功能都不支持吧
...

avx的实际性能，不能独立于软件优化来看。

Ryzen模拟的avx2，理论性能和 ivy bridge 相同，是 haswell 的一半，而实际的x265编码性能远高于ivy bridge（30-40%）。原生avx2的haswell，也就比Ryzen高了15%；同样两倍理论性能的skylake，估计也就高不到35%。

比如7900x不开超线程，3.6g能有900gflops的双精度，理论效率达到了80%。AVX512的IPC是1.6，而实际avx256单元相当于3.2次/cycle。
这个3.2，就是所谓的指令集并行。直接用AVX512，相当于让CPU帮你做了指令集并行，而不需要你通过代码来优化。CPU自己优化的效率还更高，而且更易于编译器进行优化。

其实我觉得i7这样做反而更好。
一、即使理论极限是一样的，AVX512依然能跑得更快一些。因为可能以前的利用率才到60%，但现在能到80%了，30%的性能提升自然就上来了。而且，现实是几乎没有任何软件能接近linpack（除了直接用intel mkl的matlab，以及那个waifu2x）。
二、再就是大部分avx2优化都没跟上的情况下，提高高级指令集的兼容性更加重要。Ryzen就是这样做的，效果还很好。
三、避免了7900x这样的功耗爆炸。就算你利用率很低，计算单元也是需要耗电的。
四、i7阉割的是计算单元，没有阉割512位的寄存器数量。而一般寄存器的数量不够用，导致部分数据在一级缓存里，需要大量读写一缓有限的带宽而遇到瓶颈，这才是限制利用率的重要原因之一。另一原因是一级缓存带宽瓶颈，这点i7也没阉割。或者说，这代的cpu，根本没有为了avx512而翻倍一缓带宽（sandy bridge，haswell那两代，一缓都翻倍了）

chungexcy · 发表于 2017-7-4 12:56

ydjj 发表于 2017-7-3 18:51
http://pop.4-bit.jp/?p=8254

x264“开始”为AVX512优化

理想很丰满，现实很骨干。。。实际上只有少数部分的代码，能够simd优化。

x264在haswell上，同频同核心也就比ivy bridge高了15-20%，这俩理论性能差了一倍。
就算把那些原来avx256优化的代码，换成avx512，按照之前的比例来算，最多也就再提升5-10%

royalk · 发表于 2017-7-4 12:36

haomingci3 发表于 2017-7-4 12:08
half后基本参数与7700k差不多，只是多支持了avx512f

那有何用。。算力相当于256级别，而AVX512F只是最基本的支持，扩展功能都不支持吧

haomingci3 · 发表于 2017-7-4 12:08

royalk 发表于 2017-7-4 10:21
Half的话会有多大区别？性能介于256和512之间？

half后基本参数与7700k差不多，只是多支持了avx512f

royalk · 发表于 2017-7-4 10:21

jerrytsao 发表于 2017-7-3 16:36
也就是说i9=Full, i7=Half, i7来个PCIe+AVX双阉割来Justify降价, 牙膏厂刀法和老黄有的一拼

...

Half的话会有多大区别？性能介于256和512之间？

ydjj · 发表于 2017-7-3 18:51

jerrytsao 发表于 2017-7-3 14:33
SKL-X的AVX512是Full Throughput还是Half Throughput?

另外AVX512民用究竟有多大意义? Numberworld之前做 ...

http://pop.4-bit.jp/?p=8254

x264“开始”为AVX512优化
希望能有质的提升

jerrytsao · 发表于 2017-7-3 16:36

本帖最后由 jerrytsao 于 2017-7-3 16:42 编辑

royalk 发表于 2017-7-3 15:25
Anandtech是这么说的

也就是说i9=Full, i7=Half, i7来个PCIe+AVX双阉割来Justify降价, 牙膏厂刀法和老黄有的一拼

royalk · 发表于 2017-7-3 15:59

txgy 发表于 2017-7-1 22:21
我觉得LINX跑出来的分还是要低一些
把链接文件解压之后，打开w_mklb_p_2017.3.019\benchmarks_2017\windo ...

跑mkl包，problem size最大到40000，3.6G关超线程最高是911GFLOPS，开超线程程序会自动指定10个线程跑，900GFLOPS。

LINX problem size是60000，3.6G关超线程是930GFLOPS，都差不多。

royalk · 发表于 2017-7-3 15:25

jerrytsao 发表于 2017-7-3 14:33
SKL-X的AVX512是Full Throughput还是Half Throughput?

另外AVX512民用究竟有多大意义? Numberworld之前做 ...

Nominally the FMAs on ports 0 and 1 are 256-bit, so in order to drive towards the AVX-512-F these two ports are fused together, similar to how AVX-512-F is implemented in Knights Landing. The six-core and eight-core Skylake-X parts support one fused FMA for AVX-512-F, although the 10-core will support dual 512-bit AVX-512-F ports, which seems to be located on port 5. This means that the 10-core i9-7900X can support 64 SP or 32 DP calculations per cycle, whereas the 8-core/6-core parts can support 32 SP or 16 DP per cycle.

Anandtech是这么说的

royalk · 发表于 2017-7-3 15:20

chungexcy 发表于 2017-7-3 12:36
我猜Intel保留fivr给xeon系列，也就是现在的x系列，是为了提高能耗比，毕竟xeon系列TDP直接限死功耗了。 ...

3.6G关超线程，930GFLOPS，功耗比开超线程低大概20w的样子

jerrytsao · 发表于 2017-7-3 14:33

本帖最后由 jerrytsao 于 2017-7-3 14:36 编辑

SKL-X的AVX512是Full Throughput还是Half Throughput?

另外AVX512民用究竟有多大意义? Numberworld之前做的Knights Landing测试显示AVX2->AVX512实际Scaling效率很低, 视频转码软件真的会大面积应用?

chungexcy · 发表于 2017-7-3 12:36

royalk 发表于 2017-7-2 09:55
对了，还有个问题，BIOS全默认，运行LINX满载是3.3G，电压0.942v，性能635GFLOPS，应该是有TDP限制，性能 ...

我猜Intel保留fivr给xeon系列，也就是现在的x系列，是为了提高能耗比，毕竟xeon系列TDP直接限死功耗了。而且这次的xeon最大TDP，现在看消息是205w，感觉和你的测试不谋而合。

AVX512功耗爆炸感觉主要还是avx256单元翻倍的原因，现在一核当以前两个用，直接计算单元翻倍而不是原生设计512位。不知道r15这种负载功耗如何，我感觉可能同频和6950x区别不会大。

linx 0.7.2带的linpack是最新的，最新的linpack，两修改日期都是2月的。[https://software.intel.com/en-us/articles/intel-mkl-benchmarks-suite]

3.3g到3.6g，功耗增加了150w，这样看肯定是之前降频了，Xeon E5-2679 v4，200w，avx睿频上限也就2.9g，linpack肯定低得多。

mesh不知道对其他多线程应用影响如何，我也觉得省下的功耗给核心应该效益更大。

aibo · 发表于 2017-7-3 11:46

outel明年急着要出层叠湖了。说是要用14++，不知道多大程度能解决功耗问题。。。

Sagitar2009 · 发表于 2017-7-3 01:00

7350K：你们这些渣渣。。。。

royalk · 发表于 2017-7-2 23:28

龙抬头发表于 2017-7-2 23:20
四通比两通更好超？我有点无语了，不急，很快就知道了！

不奇怪，KBL还是有DDR3的控制器的，SKL-X就没有了

龙抬头 · 发表于 2017-7-2 23:20

royalk 发表于 2017-7-2 09:38
用SKL-X跑

四通比两通更好超？我有点无语了，不急，很快就知道了！

ydjj · 发表于 2017-7-2 10:49

royalk 发表于 2017-7-2 09:55
对了，还有个问题，BIOS全默认，运行LINX满载是3.3G，电压0.942v，性能635GFLOPS，应该是有TDP限制，性能 ...

8月份开始的12核希望能是钎焊
上调的那点TjMAX在AVX512和内置FIVR面前顶个球用

royalk · 发表于 2017-7-2 09:55

chungexcy 发表于 2017-6-30 23:22
不知道测试时linx是不是这样跑的：开10线程（这软件超线程是真负优化），然后在任务管理器里，把主程序的 ...

对了，还有个问题，BIOS全默认，运行LINX满载是3.3G，电压0.942v，性能635GFLOPS，应该是有TDP限制，性能不会完全发挥，这时候CPU功耗大概在200w，扣掉主板VRM和FIVR的损耗，可以认为140w的package TDP限制生效。但软件监测未见throttling，可能是speedshift太快软件采样不到。

0.985v 3.6G的时候，解除TDP限制，不超mesh，性能已经提升到800GFLOPS以上，CPU加上两个VR损耗，功耗大概在330-350w，最高温度81度。如果超mesh，CPU功耗超过500w，断电。

1.082v 4G的时候，解除TDP限制，不超mesh，跑出852GFLOPS，CPU加两个VR损耗，功耗大概在450-480w，应该是撞TJMAX了，监测录得部分核心降频，所以效率又有所下降。且跑完两个loop后报错，说明不稳定，继续加压到1.087v，断电。然而值得注意的是，默认非AVX的boost到4G，VID是1.089v。。。

看来关超线程还是跑3.6G比较能说明问题。

Core i7 7740X与Core i9 7900X评测预告

本帖子中包含更多资源