PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

论指令集和超线程的作用与重要性

[复制链接]
跳转到指定楼层
#
chungexcy 发表于 2015-9-17 15:59 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
点击数:31753|回复数:95
本帖最后由 chungexcy 于 2015-9-18 17:09 编辑

18日更新 Skylake 对比测试 (感谢royalk提供的测试数据)。
------------------------------------------------------------------------

这件事的起因是我最近在用一个waifu2x的图像放大软件,希望把一个540p的视频放大4倍到1080p。waifu2x最好是用cuda,也就是显卡来算的。但由于我没有好的独显,只能用cpu来算。(刚好有好几台电脑可以一起用,所以也不算太慢)

一开始找了一个waifu2x-caffe带图形界面的,在haswell i5上同时跑四个程序,这样一张图片平均处理18s,觉得太慢。然后找到了另一个专门针对FMA指令集与多核优化过后的命令行版本,发现性能提升到了9s。虽然性能翻倍,但还是慢。
后面我和那个FMA优化的作者邮件联系了几次,交流了一些想法,我觉得这个已经是接近最好的优化了。

回到标题为什么我说指令集和超线程重要。下面帖一下数据。
  1. 型号        运行频率     指令集       2线程           4线程            8线程           超线程提升
  2. P9700       2.8G        SSE         23.2[GFLOPS]
  3. i7 2600     3.4G        AVX                         98.7[GFLOPS]   131.6[GFLOPS]   33.44%
  4. i5 4590S    3.3G        FMA                        153.8[GFLOPS]   
  5. i7 4700MQ   2.4G        AVX                         97.1[GFLOPS]   126.1[GFLOPS]   29.90%
  6. i7 4700MQ   2.4G        FMA                        111.0[GFLOPS]   157.1[GFLOPS]   41.57%
  7. i7 5600U    2.6G        AVX                         66.3[GFLOPS]
  8. i7 5600U    2.6G        FMA                         79.2[GFLOPS]
  9. i7 6700K    4.0G        FMA                        223.4[GFLOPS]   302.7[GFLOPS]   35.50%
复制代码
前三组是我测试的,后四组数据是作者提供的,最后一组royalk提供。

换算成同频率:
  1. 型号        运行频率     指令集        2线程           4线程            8线程
  2. P9700       1.0G        SSE         8.3[GFLOPS]
  3. i7 2600     1.0G        AVX                         29.0[GFLOPS]    38.7[GFLOPS]
  4. i5 4590S    1.0G        FMA                         46.6[GFLOPS]  
  5. i7 4700MQ   1.0G        AVX                         40.4[GFLOPS]    52.5[GFLOPS]
  6. i7 4700MQ   1.0G        FMA                         46.2[GFLOPS]    65.5[GFLOPS]
  7. i7 5600U    1.0G        AVX                         25.5[GFLOPS]
  8. i7 5600U    1.0G        FMA                         30.5[GFLOPS]
  9. i7 6700K    4.0G        FMA                         55.9[GFLOPS]    75.7[GFLOPS]
复制代码

为方便阅读,下面就只用4核cpu对比了。
以二代i5的性能为标准:
  1. 型号        运行频率     指令集       4线程            8线程
  2. i7 2600     1.0G        AVX         100.00%         133.34%
  3. i5 4590S    1.0G        FMA         160.56%         
  4. i7 4700MQ   1.0G        AVX         139.34%         180.98%
  5. i7 4700MQ   1.0G        FMA         159.25%         225.46%
  6. i7 6700K    1.0G        FMA         192.75%         261.03%
复制代码

以二代i7的性能为标准:
  1. 型号        运行频率     指令集       4线程            8线程
  2. i7 2600     1.0G        AVX          74.99%         100.00%
  3. i5 4590S    1.0G        FMA         120.41%
  4. i7 4700MQ   1.0G        AVX         104.47%         135.70%
  5. i7 4700MQ   1.0G        FMA         119.43%         169.08%
  6. i7 6700K    1.0G        FMA         144.44%         195.61%
复制代码

这个软件作用就是图像放大或降噪处理,同样的功能photoshop里也提供,不过效果这个好的多(不过相应的,计算代价也高了N个数量级)。所以我认为这也不能算是非常专业的应用。Intel的新技术并非是宣传,只要能用得上,就是巨大的提升(Haswell 70%,Skylake 96%)。我之前在另一篇帖子里曾经回复过,我自己测得的Haswell在AVX上提升30+%,这次也印证了一下。

最后放一下一个在线版本,http://waifu2x.udp.jp/index.html,有兴趣的可以去玩玩。不过要说的是这个只适合与画出来的图像,比如动漫、CG等。照片处理后会比较奇怪。
具体的软件由于是命令行,而且不直观,就暂不放出。如果有想用你们的高端cpu体验下的,我再放出软件和使用说明。


补充内容 (2015-10-2 07:08):
二楼补充部分AMD CPU 测试数据

评分

参与人数 2代金券 +100 绝对值 +5 收起 理由
石头 + 100 2精
overthink + 5 我很赞同

查看全部评分

95#
tx97 发表于 2017-1-7 16:22 | 只看该作者
今天改了下虚拟机设置,设置为单路28线程,这结果比双路56线程还高,不明真相吃瓜群众

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
94#
tx97 发表于 2017-1-5 10:53 | 只看该作者
waifu2x显示的是2.4G,貌似损失了0.4g
"高手"师傅又来了,改天试试PE能否启动,可以的话再试试
93#
chungexcy  楼主| 发表于 2017-1-5 10:28 | 只看该作者
本帖最后由 chungexcy 于 2017-1-5 10:30 编辑
tx97 发表于 2017-1-5 10:22
有可能。之前win2008是物理机,win10是虚拟机。貌似ESXI不支持睿频,只能跑基频 ...

双核下,虚拟机大概会损失10%的性能。不过看任务管理器,你确实连基础频率跑到吧?
其实应该可以直接单独插一个系统盘上去的


92#
tx97 发表于 2017-1-5 10:22 | 只看该作者
有可能。之前win2008是物理机,win10是虚拟机。貌似ESXI不支持睿频,只能跑基频
91#
chungexcy  楼主| 发表于 2017-1-5 01:11 | 只看该作者
本帖最后由 chungexcy 于 2017-1-5 01:13 编辑
tx97 发表于 2017-1-4 21:34
实在受不了,自己动手装了个win10跑了下测试,貌似还不如你。原因可能是因为我们的服务器内存是单通道的, ...

应该不是单通道的原因吧,这程序优化的很好的。有空我拔掉测试一下。你的win10应该是实体机吧。
不过看你的截图,感觉是你频率被TDP限制的很严重,感觉严重降频了
90#
tx97 发表于 2017-1-4 21:34 | 只看该作者
实在受不了,自己动手装了个win10跑了下测试,貌似还不如你。原因可能是因为我们的服务器内存是单通道的,还有128G还没有采购回来。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
89#
tx97 发表于 2017-1-4 16:40 | 只看该作者
可能要等一段时间才能测试了。前几天服务器送来电脑公司装了个win2008,我在那上面跑的测试。这两天按我们的要求换esxi,电脑公司派来一位高手,连esxi安装时提示f11继续esc取消的英文都不认识……折腾了3天才在厂家电话遥控下装好esxi,距离完工遥遥无期啊。
88#
chungexcy  楼主| 发表于 2017-1-3 13:04 | 只看该作者
tx97 发表于 2017-1-1 15:30
早就看到这个帖子,奈何只有一个e3v2,就没有贴测试成绩。这几天单位的服务器到了,想起还有这么个程序,就 ...

最近我也来了一个双路的e5 2683 v3,算是你的低频版,也试了一下,大概差不多600+GFLOPS。当时没有考虑超过8线程的,所以有些参数没有调整清楚,利用率上不去。

我改了一个参数,重新拿大图试了一下,包括2楼的旧版和78楼的新版。

里面的数字是filter的值,也就是纯计算部分的性能,双路能到1.5t的样子。〔all里面还包含读图写图等操作,不予考虑〕


你可以试试78楼的新版本,原作者把性能大幅优化到理论极限的78%了。我提供的附件里,包含一个更大的新测试图片,和把参数改大以后的新run.bat。如果方便的话,直接覆盖78楼里面的文件,然后运行run.bat就好。[不要做bat_for_cpu.exe > run.bat这一步]

双路2680 v4应该能超过1.5t的。我对2680v4能运行在多高的频率还是挺感兴趣的。120w的2683 v3,大概只有2.3g的样子。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
87#
PolyMorph 发表于 2017-1-2 13:54 | 只看该作者
x4 955 3.6ghz
process successfully done! (all:21.8061[sec], 58.3874[GFLOPS], filter:21.2473[sec], 59.923[GFLOPS])
process successfully done! (all:23.6589[sec], 53.815[GFLOPS], filter:23.0092[sec], 55.3344[GFLOPS])
测了20次,后台活动对成绩影响很大
86#
tx97 发表于 2017-1-1 15:30 | 只看该作者
早就看到这个帖子,奈何只有一个e3v2,就没有贴测试成绩。这几天单位的服务器到了,想起还有这么个程序,就跑了下测试。
机器配置:E5-2680V4 x 2,128G,测试结果忘了截图,大概是400多g和600多g。不能跑满线程,cpu占用维持在30%左右。
85#
royalk 发表于 2015-11-14 21:06 | 只看该作者
chungexcy 发表于 2015-11-14 11:54
太感谢啦你6700k的实际运行频率是多少?是4.0G还是超频了?

确实提升很大,我看了代码的改动,A ...

4.5G的,烧机还差点,对内存的压榨不如p95,我这边12V电流表录得功耗大概是132W,P95大概会到140W
84#
chungexcy  楼主| 发表于 2015-11-14 11:54 | 只看该作者
本帖最后由 chungexcy 于 2015-11-14 11:56 编辑
royalk 发表于 2015-11-13 17:57
不好意思主板来迟了,平台刚搭好,用一张57M的JPG跑了一下,比之前的版本提升蛮多的,得50%了。

太感谢啦你6700k的实际运行频率是多少?是4.0G还是超频了?

确实提升很大,我看了代码的改动,AVX/FMA的核心计算部分没变,这块应该已经几乎100%。这次应该是修正了计算部分以外浪费的时间。我越来越期待canonlake的消费级8核+AVX512了。

我测试了sandybridge,也是提升50%。在5200@2.5g上,分别有120/128的成绩。

而且这次修正大大提高了不带超线程的效率(比之前高了80%),sandybridge的avx非超线程反而更快(4-5%),而haswell的fma超线程提高10%,感觉已经是到理论极限,超线程也就没太大作用了。像之前优化不到位,超线程的作用还是挺大。

PS. 这个版本已经可以用来烤机测试散热了。我发现运行这个版本,功耗没增加,核心利用率提升,导致温度高了不少。核心温度/实际功耗比,比运行linx和prime95还大。虽然同频下绝对温度和功耗不是最高的,但在TDP限制睿频幅度的平台上(5200u)温度比这两位还高。。。

83#
royalk 发表于 2015-11-13 17:57 | 只看该作者
chungexcy 发表于 2015-11-10 14:32
royalk您好,之前请您用6700k跑了一个waifu2x。最近那个作者更新了一个版本,在我的5200u上有了50%的提升 ...

不好意思主板来迟了,平台刚搭好,用一张57M的JPG跑了一下,比之前的版本提升蛮多的,得50%了。


960显卡的性能如下,基本没变化,block size依然是1024:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

参与人数 1绝对值 +1 收起 理由
chungexcy + 1 赞一个!

查看全部评分

82#
蓝天翔燕 发表于 2015-11-13 16:53 | 只看该作者
royalk 发表于 2015-11-11 12:15
所以还是看需求,有些人会用得到。就好像双核跟四核,4C4T和4C8T一样道理。
...

还要看看目前的系统和软件环境,双核和四核的差距挺大,但是四核以上,一般应用感知不强烈,玩游戏作为主要应用的话,确实二代以上的高频率i5也能胜任。现在发展最快一个是SSD,一个是显卡了
81#
royalk 发表于 2015-11-11 12:15 | 只看该作者
蓝天翔燕 发表于 2015-11-10 23:29
很可惜日常应用很难用到,所以大家才有二代i5超超战几年的观念

所以还是看需求,有些人会用得到。就好像双核跟四核,4C4T和4C8T一样道理。
80#
chungexcy  楼主| 发表于 2015-11-10 23:42 发自PCEVA移动客户端 | 只看该作者
royalk 发表于 2015-11-10 19:11
明天我抽空跑一下,最近平台变动比较大,一直没空跑

麻烦了,等您方便时候跑跑吧。
x265那个就不麻烦您了,毕竟已经有别的成绩了。
79#
蓝天翔燕 发表于 2015-11-10 23:29 | 只看该作者
royalk 发表于 2015-9-17 16:38
所以不要说近几代CPU没什么提升,只是新的指令集在大部分应用里你用不到。 ...

很可惜日常应用很难用到,所以大家才有二代i5超超战几年的观念
78#
royalk 发表于 2015-11-10 19:11 | 只看该作者
chungexcy 发表于 2015-11-10 14:32
royalk您好,之前请您用6700k跑了一个waifu2x。最近那个作者更新了一个版本,在我的5200u上有了50%的提升 ...

明天我抽空跑一下,最近平台变动比较大,一直没空跑
77#
chungexcy  楼主| 发表于 2015-11-10 14:32 | 只看该作者
本帖最后由 chungexcy 于 2015-11-10 15:07 编辑
royalk 发表于 2015-9-18 16:53
可以,加吧
4线程,all是223.434,filter是245.022
8线程前边截图里有了

royalk您好,之前请您用6700k跑了一个waifu2x。最近那个作者更新了一个版本,在我的5200u上有了50%的提升,效率直逼理论的74-77%。可否请您再帮忙用skylake测一下新版本的效率提升?方便的话也请再用一张大图再试试(比如这张http://bbs.pceva.com.cn/forum.php?mod=attachment&aid=MzI5MDEwfGYyYjAxZGVkfDE0NDcxMzY5OTZ8MTA1MTI5fDEyMzc5OQ%3D%3D¬humb=yes)。

新的下载地址是http://pan.baidu.com/s/1o65ZpF0
注意:run.bat最好不要重新用bat_for_cpu.exe生成(因为改了其他参数--block_size 1024,生成新的就会覆盖),直接运行就好。如果换大图,麻烦重命名一下,谢谢啦

PS,如果方便的话,bat里去掉--disable-gpu这个地方,看看你的960是不是也提升了,还是只提升了cpu性能。我估计只是cpu而已。
76#
chungexcy  楼主| 发表于 2015-10-5 07:20 发自PCEVA移动客户端 | 只看该作者
Xudan 发表于 2015-10-5 02:08
看来intel的cpu每年确实是在进步,只不过那些游戏程序员没有用到新特性。

是的,在服务器领域,算上核心数的提升非常恐怖。
sandy bridge那带e7最多10核,而haswell的e7能到18核了。
本来skylake的avx单元也要翻倍的,结果被推迟了到e5/e7,而skylake的e7预测能到28核。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部