本帖最后由 chungexcy 于 2015-9-18 14:52 编辑
哦哦,中间的数据应该没什么用。我也没注意haswell的中间数据。
作者给我是
FMA version:
-j4 : process successfully done! (all:1.90539[sec], 110.96[GFLOPS], filter:1.80237[sec], 117.302[GFLOPS])
-j8 : process successfully done! (all:1.34587[sec], 157.089[GFLOPS], filter:1.2419[sec], 170.241[GFLOPS]) (with HT)
AVX version:
-j4 : process successfully done! (all:2.17852[sec], 97.0484[GFLOPS], filter:2.06761[sec], 102.254[GFLOPS])
-j8 : process successfully done! (all:1.67707[sec], 126.066[GFLOPS], filter:1.55605[sec], 135.871[GFLOPS]) (with HT)
不过是看运行时间图应该很小。
他以前贴过大图all:能到 ~161[GFLOPS],这样filter也就174[GFLOPS]的样子。
所以332/(174/2.4*4) ~332/(170/2.4*4),大概也就提升14~17%。
记得skylake发布以前,Intel的开发人员说的就是提升15%。
|