PCEVA,PC绝对领域,探寻真正的电脑知识
开启左侧

从同游戏不同场景探讨一下A/N两家架构的执行效率

[复制链接]
ft5555 发表于 2016-5-20 10:18 | 显示全部楼层 |阅读模式
点击数:7068|回复数:32
本帖最后由 ft5555 于 2016-5-20 10:30 编辑

看了这两天B站转载的国外 1080跟fury的游戏帧速对比视频


http://www.bilibili.com/video/av4690469/

首先来看奇点灰烬



上面这3张图,随着画面拉远 同屏单位的增加,fury帧速下降幅度明显大于titanx




再看这两张 也是单位一多furyx对titan的帧速领先就没有了。

然后看下面这张体会更深


画面上就几架飞机,furyx帧速直逼1080了 ~~

==============================================
再看另一个dx12游戏 杀手6


上面这两张室外场景 A卡占不到什么便宜

然后场景移到室内,A卡表现立刻飚升。

这个场景帧速都不输1080了





大量的人物建模场景 furyx性能跟titanx拉开差距。


感觉A卡更擅长跑小场景,N卡更适合大场景。

另外人头攒动的场景A卡也有一定优势,还想请高人解答一下像杀手6这种场景内大量npc的情况为何A卡更擅长?
======================================================================
furyx这种视场景不同 性能表现波动大的架构。只看平均fps是否合适?  
夸张点举例:75帧跟45帧平均是60,两个60平均也是60.但实际游戏体验肯定后者更好。





==========================================
再说点别的 A卡帧生成时间似乎还是不够好。 全境封锁,古墓12,巫师3这3个游戏



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
ft5555  楼主| 发表于 2016-5-20 10:34 | 显示全部楼层


这个场景1080帧速是titanx的1.41倍。帧速差距明显超过两者浮点性能的差距了。可以说明架构还是改进了一些的吧。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
fastone 发表于 2016-5-20 11:30 | 显示全部楼层
别忘了,X1080的SP执行效率可以把FURY X打得没有还手之力,然后再加上那么高的频率。。FURY X全靠的是DX12下他那个纯硬件构架的ACE单元来拉效率(X1080 DX12下靠的是AWS单元,半硬件半软件,所以DX12下如果游戏严格按照微软那套代码走,X1080会看到比DX11下帧数低),而且光栅效率这块 FURY X连980Ti都不如,就别说和X1080比了,X1080的ROP执行效率比980Ti那96个还快。
fastone 发表于 2016-5-20 11:34 | 显示全部楼层
小场景下本身整理渲染复杂度并不高,这样FURY X那愚笨的4096SP和X1080那个2560个SP本身看不出效率问题,其实这个测试也只能说明X1080效率更高,仅此而已,
dongyi945 发表于 2016-5-20 11:35 | 显示全部楼层
AMD就像过山车,N就像火车。
ft5555  楼主| 发表于 2016-5-20 11:36 | 显示全部楼层
fastone 发表于 2016-5-20 11:34
小场景下本身整理渲染复杂度并不高,这样FURY X那愚笨的4096SP和X1080那个2560个SP本身看不出效率问题,其 ...

图中那种大量npc建模 这个也不算复杂吗?
fastone 发表于 2016-5-20 11:39 | 显示全部楼层
本帖最后由 fastone 于 2016-5-20 11:40 编辑
ft5555 发表于 2016-5-20 11:36
图中那种大量npc建模 这个也不算复杂吗?

那么多NPC建模,也不算复杂啊,本身就是一个类似教堂的场景,空间就那么小,很多还静止的,除非把镜头拉远,类似生化6第一个测试场景后面那点,那样就复杂了。
ft5555  楼主| 发表于 2016-5-20 11:49 | 显示全部楼层
fastone 发表于 2016-5-20 11:34
小场景下本身整理渲染复杂度并不高,这样FURY X那愚笨的4096SP和X1080那个2560个SP本身看不出效率问题,其 ...

也说明游戏开发倾向对显卡表现的影响,更大于A/N两家dx12执行效率差距的带来的差异。


fastone 发表于 2016-5-20 19:14 | 显示全部楼层
本帖最后由 fastone 于 2016-5-20 19:56 编辑
ft5555 发表于 2016-5-20 11:49
也说明游戏开发倾向对显卡表现的影响,更大于A/N两家dx12执行效率差距的带来的差异。

一个是开发商,第二个就是硬件效率,PS4同样姓A,虽然设计是SONY自己,但是两个效率差距都是没法比的,AMD完全不知道在做什么,而且今年PS4第一方游戏每出一款大作,都会教PC做人(当然不是教PC硬件性能做人,是PC开发商,同样是在做游戏,PS4一个固定硬件性能的机器最后游戏出来都会在同分辨率下嘲讽你们引以为豪的画质,自己想想PC开发商在做什么)

PS:



上面是今年11月15日要发售的PS4独占赛车游戏 GT7,看看吧,索尼第一方旗下的一个工作室出品的(亲儿子之一)

宣传视频:https://twitter.com/PlayStationUK/status/733343443167023104

http://www.tudou.com/programs/vi ... sourceId=0_06_02_99

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
SCE-PhyreEngine 发表于 2016-5-20 22:20 | 显示全部楼层
游戏的好坏,优化的到不到位,都主要取决于开发商自己的态度。反正在D加密的保护下,盗版基本不可能,在找借口不好好优化可就说不过去了
SCE-PhyreEngine 发表于 2016-5-20 22:45 | 显示全部楼层
游戏里,NPC的模型数量再多,是会动态批处理的,不会产生过大压力

游戏场景技术层面的复杂度和场景大小没有直接关联,而是看场景里都做了什么事情。
ft5555  楼主| 发表于 2016-5-20 22:56 | 显示全部楼层
原来如此
yangzi123aaa20 发表于 2016-5-21 04:55 | 显示全部楼层
fastone 发表于 2016-5-20 19:14
一个是开发商,第二个就是硬件效率,PS4同样姓A,虽然设计是SONY自己,但是两个效率差距都是没法比的,AMD ...

主机游戏还是得看实机画面,宣传视频被实机的缩水画面打脸又不是一次两次了
至于神海4,还是靠美工,纯画面特效没看出有多牛逼的地方,不过设计的真心好看,截出来都能当壁纸了
沙漠之鹰L3 发表于 2016-5-21 07:08 | 显示全部楼层
个人的观点:
1,纹理数量和质量,也就是对纹理单元效率和规模的检测。
2,多边形数量与??(不知道如何描述),也就是对光栅单元的检测。
3,aa与透明材质的超级采样,考研带宽

不同游戏的话不同引擎,不同引擎侧重点有不同。

还有一个问题是纹理压缩技术的差异。这个我不知道是通过驱动还是硬件来实现,也不知道是否需要游戏支持。1080自带新的纹理压缩技术这点是确定的。

总之,不同游戏间的a,n差别和场景差别,只能体现出游戏设计时的侧重方向,以及显卡驱动对游戏的优化程度。
fastone 发表于 2016-5-21 08:54 | 显示全部楼层
yangzi123aaa20 发表于 2016-5-21 04:55
主机游戏还是得看实机画面,宣传视频被实机的缩水画面打脸又不是一次两次了
至于神海4,还是靠 ...

神海4除了美工外,渲染部分都是实时渲染,大量使用了延迟渲染技术和并行渲染方法,这个是非常吃带宽的,一个游戏开发不是一堆特效往上砸就是好画质,很多时候特效多了,反而还有问题,孤岛危机3就是(细节过度),但是战地4这方面稍微好点,取舍和表现就是开发者的问题,虽然Crytek和DICE都算是这方面做的很好的了,其次神海4宣传画质还不如正式版里面画质表现正确,第一就是水面浪花,之前E3宣传中简直车在水坑里跑没水花,第二就是山洞光线表现也没正式版正确。
ft5555  楼主| 发表于 2016-5-21 12:19 | 显示全部楼层
说白就是用心程度不同。PC大多数游戏就是堆特效,把帧数拉下来。

家用机一直都是 用最能发挥硬件性能的特效,在容易察觉的地方多上些效果。不易察觉的地方减少不必要特效提升性能,比如:阴影分辨率,远景建模细节和光源数量这一类。

以前看过有人写的一个关于:ps3杀戮地带2 3D技术分析。就是讲开发者是如何回避Geforce 7架构缺陷,通过cell cpu来实现很多pc上需要dx10显卡才能得到的特效。


反观PC,至今还有很多新游戏只能跑双线程。
fastone 发表于 2016-5-21 13:09 | 显示全部楼层
PC还有构架问题,以及PC之前都不能像游戏机那样直接程序员可以自己调取硬件单元处理一些东西,PS3上除了程序员,就是索尼设计的时候考虑到了CELL可以和GPU互相读取纹理数据,这样在处理一些纹理上更好,这些是硬件体系方面的不同。
PolyMorph 发表于 2016-5-21 13:23 | 显示全部楼层
SIMD向量询轮发射的执行方式 延长了发射单元对执行单元的控制周期,灵活度也减低,低分辨率负载下空跑现象严重
特别是nano,1080p性能不如980,动态频率却是1080p下最高,4K性能领先980,动态频率没有1080p 1440p高
GCN构架的效率问题光靠频率是无法弥补的
qqicu 发表于 2016-5-21 13:53 | 显示全部楼层
1080应该和织女星对比,而不是和旧卡对比,没有可比性。
SCE-PhyreEngine 发表于 2016-5-21 14:40 | 显示全部楼层
现在GCN问题的根源在于流处理器集群在DX11下效率很低。不过在DX12下由于硬件效率部分的契合,才表现出其大概的效能
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部