PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

技嘉RTX 4090 GAMING OC魔鹰显卡评测

[复制链接]
跳转到指定楼层
1#
橙黄鼠标 发表于 2022-10-12 21:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
点击数:10255|回复数:4
Ada Lovelace架构

RTX 40系列显卡核心架构全称“Ada Lovelace”(以下简称Ada),采用三星4nm工艺制程制造。得益于先进的工艺制程,AD102完整核心塞进了763亿个晶体管,是上代GA102的2.7倍。核心面积反而从628平方毫米降低至608平方毫米,晶体管密度同样是上代的2.7倍。



AD102在晶体管数量达到上代核心2.7倍的前提下,功耗表现依然维持了相同水准,标准功耗为450W,与RTX 3090 Ti相同。能耗比可达到GA102的2倍。



完整的AD102核心拥有12组GPC计算单元,每组GPC单元包含6组TPC计算单元,共计72组。每组TPC计算单元中又包含了2组SM流处理器单元,共计144组。每组SM流处理器单元中配备128个CUDA核心,共计18432个CUDA核心,是上代GA102的1.7倍。除了CUDA核心,AD102同时还配备了144个第三代RT Cores光追核心、576个第四代Tensor Cores张量核心,同样是上代的1.7倍。显存还是384-bit的24GB GDDR6X显存,等效带宽21Gbps,显存带宽可达1TB/s,和RTX 3090 Ti相同。



RTX 4090采用的不是完整AD102核心,而是屏蔽了1组GPC计算单元+4组SM流处理器单元(2组TPC计算单元)。RTX 4090最终的规格是128组SM流处理器单元,共计16384个CUDA核心,128个光追核心、512个张量核心,大约是上代RTX 3090 Ti的1.5倍规格。



Ada架构里每个GPC计算单元里包含1个专用光栅引擎、2个ROPs光栅分区,每个光栅分区又包含了8个ROPs光栅单元,另外还有6组TPC计算单元,每组TPC计算单元包含了1个多边形引擎和2个SM单元。



Ada架构的SM单元结构和上代基本没什么区别,每个SM单元有128KB L1一级缓存/共享缓存、4个纹理单元、1个第三代RT Core光追单元以及4个分区模块,每个模块又包含32个CUDA单元、1个第四代Tensor Core张量核心、4个存载单元、1个SFU特殊单元以及L0指令缓存、调度器+发射单元和64KB的寄存器文件。CUDA核心的设计和上代相同,每个模块里有一半(16个)是FP32浮点单元,负载单精度浮点运算;另外一半则是FP32/INT32浮点和整数动态切换运算。另外Ada架构每个SM单元包含2个FP64双精度浮点单元,但在消费级的架构示意图中并未标示,完整核心拥有总计288个双精度浮点单元。


第三代RT Cores光追核心


在Ada架构中,英伟达的光追核心已经升级到第三代。在原本的BVH包围盒碰撞(Box Intersection Engine)和三角形相交(Triangle Intersection Engine)的基础上增加了不透明微遮盖(Opacity Micromap Engine)以及微网格位移(Displaced Micro-Mesh Engine)两个全新引擎。




英伟达新增的两个引擎目的是相同的,都是为了降低BVH的使用工作量和创建时间。不透明微遮盖(OMM)引擎可以评估一个物体的光线相交穿透程度,并将其分类为不透明、透明、以及未知的不透明程度,并将其生成不透明微网格返回给着色器,以减少着色器的工作量。以图中的树叶为例,树叶的中心部分是不透明的,树叶的边缘则是有不透明程度,而外围则是完全透明。第二代的RT Core需要进行一遍完整的三角形遍历操作,而第三代只需要按照透明度进行部分BVH相交,大幅度提高了光线追踪的工作效率。




微网格位移(DMM)简单说就是以1个基础的三角形通过位移、旋转、缩小、放大等一系列操作生成更多复杂的几何图形,降低BVH的工作量和创建时间。



根据英伟达公布的数据,通过微网格位移(DMM)创建一个11:1的3D饰品盒,需要15.3万个微网格、1100万个微三角形,BVH速度可以加快8.5倍,使用的显存容量可以降低6.5倍;创建一个28:1的铜鼎,需要17.5万分微网格、5700万个微三角形,BVH速度可以加快15倍,使用的显存降低20倍;创建一个14:1的珍珠蟹,需要1.7万个微网格、160万个微三角形,BVH速度可以提高7.6倍,使用的显存降低8.1倍。


第四代Tensor Core张量核心

第四代Tensor Core张量核心最主要的更新在于加入了FP8运算精度,这是由Hopper架构H100核心下放的AI训练格式。和FP16相比,FP8运算时需要的储存空间减半,AI性能翻倍。RTX 4090将提供超过1.3 petaFLOPs的AI运算性能。


着色器执行重排序(Shader Execution Reordering)

在Ada架构中,英伟达还引入了着色器执行重排序(SER)技术。这项技术类似于CPU的乱序执行技术,但实现难度要大得多,因为GPU中的计算单元实在太多,对于调度和重排序带来极大的难度。所以英伟达的着色器执行重排序(SER)技术并非按照计算单元的负载去调度,而是按照任务负载来进行调度。



举例,当进行光追任务时。第一次的光线相交是非常规律的,所有的光线都是直线碰撞。而第二次的反射相交则比较复杂。着色器执行重排序(SER)技术会将负载进行分类,例如光线的首次相交、反射、阴影、间接照明、半透明效果、路径跟踪等等,以提高整体的光线着色效率。按照英伟达的说法,着色器执行重排序(SER)技术最高可为光追带来2倍的性能提升。



以《赛博朋克2077》为例,在光线反射较为复杂的场景,结合着色器执行重排序(SER)技术,性能提升最高可达44%。在《Portal RTX》和《Racer RTX》这两个演示Demo中,性能提升也有29%和20%。


DLSS 3的革新式升级

DLSS 2.0是走超分辨率路线提高帧数的技术,简单说就是渲染低分辨率的画面帧,然后通过AI算法填充像素构建高分辨率的画面帧。



DLSS 3主要依托硬件端的第四代Tensor Core张量核心、OFA光流加速器、英伟达超级计算机以及软件端的AI超分辨率、AI帧生成、英伟达Refelx技术,两相结合对原本的DLSS 2.0技术进行迭代升级。英伟达表示DLSS 3可带来最高4倍的性能提升以及2倍的响应速度。



DLSS 3和DLSS 2.0是完全不同的技术路线,它通过四个数据输入端来重建全新的下一帧,实现类似“插帧”的效果来提高游戏帧数表现。以DLSS 2.0生成的当前帧和上一帧作为基础运算依据,再加上由OFA光流加速器计算捕捉的光流网格数据以及游戏引擎提供的运动矢量数据共同输入到卷积神经网络进行分析,并生成一帧全新的下一帧,实现终极的游戏帧数提升。




英伟达一直以来都希望通过“帧生成”来提升游戏的帧数表现,因为不管从任何角度来看,“帧生成”对于游戏性能和帧数的表现是最为直观且巨大的。但“帧生成”的难点在于光影、反射、运动模糊等画面元素极容易渲染不准确、自然,产生比较割裂的僵硬画面感。而OFA光流加速器可以捕捉像素级的画面信息,例如粒子、反射、阴影、光照等等,并生成对应的光流网格,再通过前后帧的比对以及游戏引擎的矢量运动数据,就能精准的处理光影和运动效果产生的关联。




DLSS 3结合DLSS 2.0的超分辨率渲染技术以及全新的帧生成技术,仅需渲染1/8的画面就可以额外生成7/8的画面,大幅度降低GPU的工作负载,让消耗资源巨大的光追成为更接地气的画面效果。




截止到发稿前,目前已有超过35款游戏宣布将在未来支持DLSS 3技术,带来最高4倍的帧数提升。



如果想要体验DLSS 3带来的帧数提升,就需要RTX 40系列显卡,RTX 20/30系列显卡仅支持DLSS 2.0技术。


第八代NVENC编码器


英伟达在RTX 40系列显卡中更新了第八代NVENC视频编码器,首次支持了H.265 AV1视频格式,配有12GB或更大显存的型号还采用了双编码器的豪华配置,可支持8K60的视频轨编码,导出高分辨率视频需要的时间仅为上代RTX 3090 Ti的40%。



RTX 40的全新编码器不单是硬件端的更新,英伟达还与主流的视频编码器、视频编辑软件、视频流媒体平台及播放器进行了深度合作和升级,包括Windows、Chrome、剪映、OBS、达芬奇等平台均支持RTX 40的NVENC AV1编码器。



英伟达表示AV1编码格式相较目前的H.264格式编码格式效率提升了40%,相同体积下,编码码率更高。



同时还增强了在直播中某些效果的表现,例如虚拟背景、虚拟头像以及眼神接触效果。


规格与外观细节

英伟达RTX 40系列首发型号有三款,分别是RTX 4090、RTX 4080 16GB、RTX 4080 10GB,用以取代RTX 3090 Ti/RTX 3090、RTX 3080 Ti以及RTX 3080,建议零售价分别是12999元、9499元、7199元。更低定位的RTX 40系列显卡预计短时间内不会推出,而是形成高端RTX 40显卡打冲锋,中低端市场RTX 30系列显卡继续求稳销售的市场布局。



基本规格
默认频率/Boost频率:
2235MHz/2535MHz
显示核心:AD102
CUDA核心:16384个
显存位宽:384-bit
显存容量:24GB GDDR6X
显存带宽:1008GB/s
显卡接口:PCIe 4.0 x 16
视频输出接口:DisplayPort 1.4 x 3 / HDMI 2.1 x 1
整体功耗(TGP):450W
推荐电源功耗:1000W
外接供电:12VHPWR
厚度:3槽
显卡尺寸:340mm x 150.2mm x 75.2mm
净重:2016g
技嘉RTX 4090 GAMING OC 24G是技嘉的主流级产品,也被称做魔鹰系列,基础频率2235MHz,最大加速频率2535MHz,,主打风之力三风扇散热,支持智能停转技术和抗扰流反转技术,采用10根热管+均热板直触散热结构,风扇还支持RGB Fusion功能。



RTX 4090 GAMING OC魔鹰的外观设计和上代RTX 3090 Ti相比要更立体一些,多了很多线条元素和开槽设计,更显个性化。外观上以黑色为主调,右上角的亮灰色是RGB灯光区域。




除了右上角的铭牌RGB灯光,三个风扇也有RGB幻彩效果,可以在“技嘉控制中心”软件中调整灯光效果,也可以与其他主板或RGB设备实现灯光同步效果。



背部金属背板设计,左侧是镂空的出气散热格栅,可以增强显卡风扇的出风量。



顶部有一个小开关,用于切换显卡OC/Silent的调校模式。



视频输出接口配备3个DP 1.4和1个HDMI 2.1。



显卡外接供电和RTX 3090 Ti相同,还是12VHPWR接口。



附件里也附送了一根12VHPWR接口的转接线,注意这根转接线需要4 x 8Pin显卡供电线。另外还有一组定制显卡支架,提供更好的显卡支撑性。


测试平台与识别信息

处理器:intel Core i9 12900K
主板:ASUS ROG MAXIMUS Z690 HERO
内存:Kingston FURY Renegade DDR5 6400MT/s
显卡:Gigabyte RTX 4090 GAMING OC 24G/RTX 3090 Ti GAMING OC 24G
硬盘:KingSton KC310 960G/PLEXOR PX-2TM10PG
散热器:NZXT Z73 RGB
电源:NZXT GOLD C1000
技嘉这张RTX 4090魔鹰显卡是非公版显卡,基础核心频率比公版高5MHz,最大加速频率比公版高15MHz。


性能测试结果和分析

先来看基准性能测试,RTX 4090基本是吊打RTX 3090 Ti,成绩领先了50%-70%,且分辨率越大,RTX 4090的领先幅度就越高。



光栅化游戏测试6款大型单机游戏,分辨率都是3840 x 2160的4K分辨率,如果支持光追的游戏手动关闭,并开启最高画质设定。游戏测试的帧数提升幅度不如基准测试提升幅度大,但也相差不远。RTX 4090比RTX 3090 Ti提升了大概50%-60%的游戏性能,中间值在52%,这个提升幅度与RTX 4090的CUDA核心规格提升幅度基本保持一致。



光追游戏测试采用最高画质设定和最高光追设定,手动关闭DLSS技术。不得不说RTX 4090的第四代RT Core性能确实强悍,《古墓丽影:暗影》开启光追后的帧数提升幅度比纯跑光栅的提升幅度还大,达到了72%。《地铁:离去增强版》的帧数提升幅度也很猛,达到了75%。其他几款光追大作游戏,RTX 4090的帧数成绩提升幅度也有41%-69%。除了《赛博朋克2077》这款开了光追后,显卡压力号称地狱级的游戏,其他游戏都已经能够流畅运行。

功耗表现上,RTX 4090比RTX 3090 Ti低了 %,来到了408瓦,加上处理器200W左右的功耗压力以及其他外部设备的功耗需求,850W的电源算是一个最低标准,最好能配备1000W的电源会比较充裕。


DLSS 3

《赛博朋克2077》的Beta测试版本目前已经支持DLSS 3技术,可以看到DLSS选项中多了一个DLSS Frame Generation(当然,游戏厂商也有可能改/翻译其他名字),将其开启就是DLSS 3,如果关闭就是DLSS 2.0。所以,我们在文章架构部分提到DLSS 3并非取代DLSS 2.0,而是增强/补充的关系。

目前支持DLSS 3的游戏均为Beta测试版,其他支持DLSS 3的游戏最快本月发布。
《超级人类》(SUPER PEOPLE):抢先体验版将于10月12日13:00发布,支持DLSS 3
《生死轮回》(Loopmancer)将于10月12日发布更新版,支持DLSS 3
《逆水寒》“拂云庭“(Justice ‘Fuyun Court’): 全新图形展示将于10月13日发布,支持DLSS 3
《微软模拟飞行》(Microsoft Flight Simulator):将于10月17日为Xbox Insider计划成员推出测试版,支持DLSS 3
《瘟疫传说:安魂曲》(A Plague Tale: Requiem):将于10月18日发布,支持DLSS 3



为了便于理解。我们先从DLSS 3的画质表现来进行对比。虽然DLSS 3采用了和DLSS 2截然不同的技术路线,但本质上还是以AI深度学习作为技术基础,进行帧生成来提升游戏的帧数表现,所以DLSS 3的画质表现跟DLSS 2区别基本不大。在质量模式、平衡模式、性能模式下,用肉眼基本分不出原生画质和DLSS的画质区别。



这张是150%的放大倍率下的几种模式对比,150%倍率下只能勉强对比出DLSS模式下的暗部要比原画质稍微淡一点,纹理细节和光影效果都比较清晰。DLSS下的几种模式则对比不出区别。



帧数表现上,DLSS 3比DLSS 2提高太多,DLSS 3质量模式的帧数已经超越DLSS2的性能模式,比之原生画质更是翻倍的帧数提升。这意味着玩家可以以极低的画质损失,换来翻倍的帧数提升。如果是在DLSS 3性能模式下,帧数提升更是高达4倍以上,基本符合英伟达对DLSS 3的宣传。

目前, DLSS 3已经得到了许多全球领先游戏开发者的支持, 超过35款游戏和应用宣布即将支持该技术,包括:  
《瘟疫传说:安魂曲》(A Plague Tale: Requiem)
《原子之心》(Atomic Heart)
《黑神话: 悟空》(Black Myth: Wukong)
《光明记忆: 无限》(Bright Memory: Infinite)
《切尔诺贝利人》(Chernobylite)
《战意》(Conqueror's Blade)
《赛博朋克2077》 (Cyberpunk 2077)
《达喀尔拉力赛》(Dakar Desert Rally)
《火星孤征》(Deliver Us Mars)
《毁灭全人类2: 重新探测》(Destroy All Humans! 2 - Reprobed)
《消逝的光芒2: 人与仁之战》(Dying Light 2: Stay Human)
F1® 22
《暗影火炬城》(F.I.S.T.: Forged In Shadow Torch)
寒霜引擎 《杀手3》(HITMAN 3)
《霍格沃茨:遗产》(Hogwarts Legacy)
《翼星求生》(ICARUS)
《侏罗纪世界:进化2》(Jurassic World Evolution 2)
《逆水寒》(Justice)
《生死轮回》(Loopmancer)
《星际海盗》(Marauders)
《蜘蛛侠: 重制版》(Marvel’s Spider-Man Remastered)
《微软模拟飞行》(Microsoft Flight Simulator)
《午夜猎魂》(Midnight Ghost Hunt)
《骑马与砍杀2: 霸主》(Mount & Blade II: Bannerlord)
《永劫无间》(Naraka: Bladepoint)
NVIDIA Omniverse™ NVIDIA Racer RTX
《破灭》(PERISH)
《传送门》RTX版(Portal with RTX)
Ripout
《潜行者2:切尔诺贝利之心》(S.T.A.L.K.E.R. 2:Heart of Chernobyl)
《炼狱神罚》(Scathe)
《超级人类》(SUPER PEOPLE)
《仙剑奇侠传七》(Sword and Fairy 7)
《重生边缘》SYNCED
《指环王: 咕噜》(The Lord of the Rings: Gollum)
《巫师3:狂猎》(The Witcher 3: Wild Hunt)
《王权与自由》(THRONE AND LIBERTY)
《幻塔》(Tower of Fantasy)
Unity  虚幻引擎 4 & 5
《战锤40K: 暗潮》(Warhammer 40,000: Darktide)


生产力性能表现

V-Ray是一个光照类的3D渲染引擎,支持路径跟踪、光子映射等等,可以使用CUDA加速或者RT Core进行渲染。其官方基准测试,会渲染5个场景,并统计分数。



在V-Ray的Benchmark测试中,不管是使用CUDA核心还是RT Cores核心,RTX 4090的得分都比RTX 3090 Ti高出90%左右,接近翻倍的成绩。



Blender是最常用的3D渲染引擎之一,可以渲染动画、图像、结构图等等,测试使用Blender的Benchmark,对三种场景进行渲染。



Blender的测试结果跟V-Ray差不多,RTX 4090比RTX 3090 Ti快70%-100%左右,也是接近翻倍的性能提升。




除了Benchmark,我们还实际渲染了两张图片,一张是体积比较大的无人机追逐场景,一张是小一些的机器人场景,对比渲染所需时间。



在Blender实际的图片渲染中,RTX 4090在无人机场景,渲染时间比RTX 3090 Ti降低了42秒,节省了46%的等待时间。在机器人场景,成绩也类似,不过这张图片比较小,单看节省的时间差距并不大,但比例也是降低了40%。



Octane是Otoy发布的无偏差GPU渲染引擎,对物体的光照、烟雾、阴影等等都有非常好的渲染效果。



在Octanebench中,RTX 4090的测试成绩是1237分,成绩大概是RTX 3090 Ti的1.7倍。




RTX 40系列显卡采用了全新的第八代NVENC编码器,我们也在达芬奇中测试了转码性能。使用的素材是一段2分钟的4K30和8K30的视频,平均码率分别为800Mbps和3100Mbps,压缩到4K 30 80Mbps码率和8K 30 80Mbps码率。



达芬奇转码测试中,RTX 4090压缩4K 30视频的时间比RTX 3090 Ti低56%,压缩8K 30视频的时间比RTX 3090 Ti低38%。AV1的测试因为RTX 3090 Ti不支持AV1格式的编码,所以只有RTX 4090进行测试。测试结果和H.265的成绩基本差不多,但能获得更好的视频质量以及更小的视频大小。


满载温度、功耗与散热器解析

压力测试使用Furmark Burn-in test进行测试,分辨率1920 x 1080,技嘉RTX 4090 GAMING OC核心温度66.1度,热点温度74.5度,平均功耗446W左右,最高功耗468W。这时候显卡风扇转速2000RPM左右,听不到明显风扇噪音。作为一张主流级显卡,RTX 4090 GAMING OC在散热性能和温度表现上都相当不错。



在Furmark压力测试时,用热成像仪扫描显卡的正反面以及顶部,可以看到最高温度都不超过60度,即使是顶部裸露出来的热管和供电元件也能保持较低的温度水平。12VHPWR供电线温度在47度,其实实际温度会更低一些,主要是因为显卡吹出来的热风会提高供电线材的表面温度,达到47度左右,更上方的线材只有不到40度左右。



在进行Furmark Burn-in test测试时,使用分贝仪在距离裸机平台10厘米左右的地方进行噪音测试,读数大约在42-44分贝,基本没有什么明显噪音。



技嘉RTX 4090魔鹰显卡采用10根热管+均热板的散热结构,对于MOSFET、电容、电感、显存等元件都能有效覆盖。



热管采用回流焊工艺与散热鳍片连接。



散热鳍片大量使用了折Fin、扣Fin等设计,折Fin与元件的散热底座采用焊接工艺连接,对供电元件及显存起到辅助散热的作用。



RTX 4090的核心照,核心代号GA102-300-A1。



核心周围分布12颗美光D8BZC的GDDR6X显存,显存速率21Gbps,位宽32-bit,单颗2GB容量,12颗组成24GB 384-bit的显存规格。



供电采用20+4相设计,MOSFET型号为威世VISHAY SiC653A,每相最大可承载50A的持续电流。


总结

总的来说,采用全新Ada架构、TSMC 4N制程工艺打造的RTX 4090在规格上大约是上代RTX 3090 Ti的1.5倍,其光栅游戏的性能表现真实反映了这一点,相较上代RTX 3090 Ti提高了大约52%的性能。但RTX 4090并不止这么简单,RTX 4090的RT Core光追核心和Tensor Cores张量核心分别升级到第三代和第四代,光追游戏的帧数表现有了很大提升,达到了70%左右的帧数提升比例,真正实现了不开DLSS也能流畅运行4K游戏+极限光追的游戏体验。DLSS 3大概率不是为了RTX 4090准备的,如果开启DLSS 3,当前的光追游戏已经不足以对RTX 4090构成任何压力,但对于定位更低一些的RTX 40系列显卡,DLSS 3依然有革命性的意义。通过“帧生成”的技术路线,DLSS 3最高可以实现4倍的帧数提升,这一技术让光追游戏有了落地、接地气的可能,不再是高端显卡的专利。

生产力方向,RTX 4090显卡在3D渲染和动画渲染性能上同样有翻倍的提升,能大幅度节省创作者的渲染时间。同时,对于应用更广泛的视频剪辑,RTX 40显卡也更新了第八代NVENC编码器,并通过硬件和软件平台的联动,实现更广泛的应用落地以及性能提升,对未来的8K视频和AV1编码也有了支持。

技嘉RTX 4090 GAMING OC魔鹰显卡的散热设计和供电用料依然十分扎实,显卡烧机温度只有66度,热点温度只有74度,通过热成像仪扫描显卡的各个部分没有发现明显的高温热点出现,说明了散热器能够将热量均匀的发散出去,完成了它的使命,表现相当出色。

技嘉RTX 4090 GAMING OC 24G建议零售价13998元,京东购买链接:https://item.jd.com/100040315585.html
技嘉RTX 4090 MASTER 24G建议零售价15998元,京东购买链接:https://item.jd.com/100040286945.htm

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
七月流火 发表于 2022-10-13 11:22 | 只看该作者
这个卡太贵了,等70出来再说
3#
tx97 发表于 2022-10-13 21:11 | 只看该作者
好奇问一下,现在显卡硬件编码视频质量怎么样?记得很多年前nv的cuda转码才出来质量不堪入目,必须用比cpu转码高很多的码率才能达到近似的效果。
4#
七月流火 发表于 2022-10-13 22:51 | 只看该作者
好奇4090瞬时功耗能干到多少?
5#
武英仲 发表于 2022-10-18 11:36 | 只看该作者
在竞技类的游戏里面DLSS3可是要你命的
插帧可不能预判对手的动作
而且插帧会导致实际输入延迟增加
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部