PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

论指令集和超线程的作用与重要性

[复制链接]
21#
royalk 发表于 2015-9-18 11:30 | 只看该作者
chungexcy 发表于 2015-9-18 11:16
这个基本和内存无关,我认为已经优化到极限了。源代码中我看到他把能用的所有avx寄存器全部用上了,内存不 ...

我找了张大点的图片来试,现在大概能到350GFLOPS左右
22#
暴疯狂笑 发表于 2015-9-18 11:35 发自PCEVA移动客户端 | 只看该作者
gtx9 发表于 2015-9-18 11:26
因为吃过亏,所以现在AMD的指令集比INTEL还多

AMD的指令集效率不敢恭维。
23#
cssniper 发表于 2015-9-18 12:25 | 只看该作者
果然换4790k是正确选择
24#
baymax 发表于 2015-9-18 13:20 | 只看该作者
太专业,参与不进来。。。楼主头像跟R大大都是纸皮人,傻傻分不清楚
25#
gtx9 发表于 2015-9-18 13:51 发自PCEVA移动客户端 | 只看该作者
暴疯狂笑 发表于 2015-9-18 11:35
AMD的指令集效率不敢恭维。

支持就可以了,又不是不能用
26#
chungexcy  楼主| 发表于 2015-9-18 14:09 | 只看该作者
本帖最后由 chungexcy 于 2015-9-18 14:18 编辑
gtx9 发表于 2015-9-18 11:26
因为吃过亏,所以现在AMD的指令集比INTEL还多

AMD只是兼容AVX指令集,并非有原生计算单元。这一点有贴吧吧友测过(有兴趣可以去看20楼的链接),和sandy bridge性能差距很大。
27#
chungexcy  楼主| 发表于 2015-9-18 14:13 | 只看该作者
royalk 发表于 2015-9-18 11:30
我找了张大点的图片来试,现在大概能到350GFLOPS左右

最后的结果有两个速度:第一个是包含读取、保存、和主要filter计算时间一起的平均速度。看第二个filter更准确,是纯粹的全负荷计算部分。
i7 4700MQ @2.4g,
filter计算速度,绝对不会超过 180[GFLOPS]。你后面那个数据是多少?
其实你如果有 haswell 的 i7,也可以自己比一下。

另外 4核@4g的理论极限是512
[GFLOPS]。当然这是达不到的。

28#
royalk 发表于 2015-9-18 14:18 | 只看该作者
chungexcy 发表于 2015-9-18 14:13
最后的结果有两个速度:第一个是包含读取、保存、和主要filter计算时间一起的平均速度。看第二个filter更 ...

filter是332,比前面的322要高那么一点
29#
chungexcy  楼主| 发表于 2015-9-18 14:20 | 只看该作者
royalk 发表于 2015-9-18 14:18
filter是332,比前面的322要高那么一点

不是说跑出来了一个 350GFLOPS 吗?对应的filter是多少?

30#
chungexcy  楼主| 发表于 2015-9-18 14:25 | 只看该作者
547737657 发表于 2015-9-18 11:20
有个疑问,谁能提供下AVX与FMA功耗、发热对比测评?
假设支持FMA的芯片过p95 27.9是否安安稳稳过waifu2x测 ...

prime95 28.5支持fma,27.9不支持。
waifu2x的cpu压力略小于linX 0.6.5。你如果linx通过了,这个就没问题。

31#
royalk 发表于 2015-9-18 14:38 | 只看该作者
chungexcy 发表于 2015-9-18 14:20
不是说跑出来了一个 350GFLOPS 吗?对应的filter是多少?

那是跑的过程当中有部分iteration显示的,很多350+,但是最后几个block好像都没有,原图解析度8476*5651

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
32#
chungexcy  楼主| 发表于 2015-9-18 14:49 | 只看该作者
本帖最后由 chungexcy 于 2015-9-18 14:52 编辑
royalk 发表于 2015-9-18 14:38
那是跑的过程当中有部分iteration显示的,很多350+,但是最后几个block好像都没有,原图解析度8476*5651
...

哦哦,中间的数据应该没什么用。我也没注意haswell的中间数据。
作者给我是
FMA version:
-j4 : process successfully done! (all:1.90539[sec], 110.96[GFLOPS], filter:1.80237[sec], 117.302[GFLOPS])
-j8 : process successfully done! (all:1.34587[sec], 157.089[GFLOPS], filter:1.2419[sec], 170.241[GFLOPS]) (with HT)
AVX version:
-j4 : process successfully done! (all:2.17852[sec], 97.0484[GFLOPS], filter:2.06761[sec], 102.254[GFLOPS])
-j8 : process successfully done! (all:1.67707[sec], 126.066[GFLOPS], filter:1.55605[sec], 135.871[GFLOPS]) (with HT)
不过是看运行时间图应该很小。

他以前贴过大图all:能到 ~161[GFLOPS],这样filter也就174[GFLOPS]的样子。
所以332/(174/2.4*4) ~332/(170/2.4*4),大概也就提升14~17%。
记得skylake发布以前,Intel的开发人员说的就是提升15%。


33#
chungexcy  楼主| 发表于 2015-9-18 14:54 | 只看该作者
本帖最后由 chungexcy 于 2015-9-18 14:59 编辑
royalk 发表于 2015-9-18 14:38
那是跑的过程当中有部分iteration显示的,很多350+,但是最后几个block好像都没有,原图解析度8476*5651
...

对了,你有N卡独显吗?有的话可以试着去掉 --disable-gpu。看看显卡的性能。
如果可以测试,要监控一下GPU使用率和显存占用大小。如果GPU使用率低于100%很多,可以试着调节 --block_size。
--block_size越大,运行效率越接近100%,但显存也更大,所以注意选择一个合适的值,不能爆显存。
waifu2x-converter_x64.exe -h 有具体说明。
34#
royalk 发表于 2015-9-18 15:11 | 只看该作者
chungexcy 发表于 2015-9-18 14:54
对了,你有N卡独显吗?有的话可以试着去掉 --disable-gpu。看看显卡的性能。
如果可以测试,要监控一下GPU ...

GTX 960,block size=1024,占用显存只有1.3G,,不知道还能不能更大

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
35#
chungexcy  楼主| 发表于 2015-9-18 15:19 | 只看该作者
royalk 发表于 2015-9-18 15:11
GTX 960,block size=1024,占用显存只有1.3G,,不知道还能不能更大

我估计GPU使用率差不多了,试试block size=512,性能是不是也差不多就这样。
有兴趣可以多试试各种组合,我也不知道这个程序是不是限制最高1024。
一般实际使用会多开,压榨所有资源,不过就测试而言没必要。
36#
chungexcy  楼主| 发表于 2015-9-18 15:25 | 只看该作者
royalk 发表于 2015-9-18 15:11
GTX 960,block size=1024,占用显存只有1.3G,,不知道还能不能更大

GPU的运行效率果然低好多,理论2.77[TFLOPS],有效结果才1.1[TFLOPS]。只能说这个程序对CPU的优化确实到位了。
37#
royalk 发表于 2015-9-18 15:26 | 只看该作者
chungexcy 发表于 2015-9-18 15:25
GPU的运行效率果然低好多,理论2.77[TFLOPS],有效结果才1.1[TFLOPS]。只能说这个程序对CPU的优化确实到 ...

占用率不是随时都到100%,优化应该还有很大空间。当年CUDA挖矿程序也是如此,就算占用率到100%了,功耗也能反映出资源是否被充分调用。
38#
甜甜的蛋汁 发表于 2015-9-18 15:33 | 只看该作者
2550K再战3年  反正用不到指令集
39#
chungexcy  楼主| 发表于 2015-9-18 15:37 | 只看该作者
royalk 发表于 2015-9-18 15:26
占用率不是随时都到100%,优化应该还有很大空间。当年CUDA挖矿程序也是如此,就算占用率到100%了,功耗也 ...

就算是用cpu,看看任务管理器就知道了,也不是每时每刻都100%,这是程序本身的性质。实际使用我是3开的,能压榨最后的8%。
GPU能最高99就表示已经基本满载了,而且看你的GPU功耗也快满了。

40#
chungexcy  楼主| 发表于 2015-9-18 16:08 | 只看该作者
royalk 发表于 2015-9-18 15:26
占用率不是随时都到100%,优化应该还有很大空间。当年CUDA挖矿程序也是如此,就算占用率到100%了,功耗也 ...

方便用CPU再跑一次吗?这次加一个 -j 4,看看 skylake 的超线程提升多少。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部