【玩家角度】解读CUDA技术原理及其实用技术

XEON16 · 发表于 2013-6-2 00:26

本帖最后由 XEON16 于 2013-6-2 00:42 编辑

前言--CUDA人人都听到过，只是要说它真有什么用，日常生活中能用来干什么就是见仁见智的事了。今天我将从一个玩家的角度解读CUDA，希望能让疑惑的同学们明白究竟什么才是CUDA，它有什么魅力要让NVIDIA不懈余力来推广它。由于我也是个外行玩家，错误百出也请多多包涵，大家一起讨论

现代计算机正由中央处理器单独运算走向CPU协同GPU共同运算，为了实现这一模式，NVIDIA发明出了CUDA。CUDA全称是为“Compute Unified Device Architecture”中文意为“统一计算架构”，也可以说就是NVIDIA公司开发并推广的通用并行计算架构，2008年推出了CUDA SDK2.0版本之后，大幅提升了使用的范围，可以这么说吧CUDA SDK2.0就是并行计算推广的先行者。在科学研究及超级计算领域，CUDA早就受到了大量的追捧，它的出现指数级的加速了计算的速度，使得像是加快药物研发，量子科学理论研究，剖析基因组成，金融市场分析预警等等曾经因为计算能力不足而无法达到的梦想成为现实。目前最强的超级计算机泰坦，那个夸张的每秒有20千万亿次浮点计算能力，就是建立在了一万八千六百八十八块NVIDIA TESLAK20内部所有CUDA单元共同运行之上。

既然说到这里就不得不说说什么才是并行计算。并行计算或称作并列计算是区别于串行计算来说的一种叫法。

串行计算就是传统CPU的计算的方式，传统的中央处理器特点就是适应各种计算机语言指令的能力很强，但是处理能力偏弱，因此CPU中的多级流水线技术就是为了模拟并行计算而由英特尔公司推出并且首先是在486处理器中使用，因此486运算速度在当时那是相当的厉害也很先进，由于这与CUDA基本无关，在这里不多讨论。但是至少由此可见，一旦需要一定运算能力，并行计算才是当之无愧的王道也是唯一合适的选择。

并行计算是指多指令得以同时进行的计算模式，在同时进行前提下可以将计算的过程分解成小部份，之后以并行方式来加以解决其中并行计算又可分为时间上并行与空间上并行这两种。
空间上并行好理解，是指多个处理器并发的计算方式，像是多核CPU（四核、八核、16核工作都是这类的原理）以及GPU（天生就是空间并行，成百上千的流处理器及CUDA单元，因为GPU发明的目的就是来弥补CPU并行处理能力过弱）都是空间上并行的实列。
时间上并行稍微复杂些，往白了说其实就是指流水线技术,此处使用CPU流水线技术来举例GPU类似（因为CPU时间上并行比GPU更为复杂先进，这也十分正常，毕竟更为需要弥补自身先天不足）。CPU有个重要参数叫做指令周期，是指取出并执行一条指令所需的时间，一个指令周期通常包含了若干个机器周期，一个机器周期又是包含了若干个时钟周期，时钟周期是处理器操作的最基本单位。而流水线技术能将一条指令分成多步后再分别同步执行，这样就能实现一个时钟周期完成一条分了步的指令，从而大大的提高了CPU运算速度。因为以前一条指令需要一个指令周期，可能许多情况下都有所等待，长指令就更别提了（所以后来又有了超线程一说，这里扯扯就要远了，就不扯了）。现在几个时钟周期就能搞定，因此使得一个指令周期之内处理多条指令成为可能，运算速度自然大大提高。。

说了这么许多，通俗来说，串行计算就像是个一维坐标（也可想象成为电路中的串联工作），一条直线，就像个高智商精英一步一步解决问题，所以即使复杂多样的计算机语言或是指令，都能一步一步完成，缺点显而易见，效率偏低而且速度相对很慢。并行计算就像是个二维坐标（也可想象成为电路中的并联工作），理论上可以是无数条的直线一起运行，虽然个人智商一般，但是充分体现了人多力量大，所以自然会有强得多的运算能力，缺点也很明显，就是先天智商捉鸡无法处理复杂内容，需要特定优化，没有指令优化支持等于白搭。

回归正题，一旦有所优化有所支持，那么并行计算的大优点----运算能力超强就显露出来了，所以这以后就有了统一计算架构----CUDA的华丽登场了，这就是今天的主题。。
好了，说到底了CUDA就是为了充分利用GPU强大的计算能力解决曾经只能由CPU解决的复杂的计算问题，由此可见老黄对未来计算机世界的远见及野心都不一般（当然这绝对是件大好事，科学发展，甚至说的大些人类未来技术发展都要靠在这上面了）。它主要包含了CUDA指令集架构以及内部的并行计算引擎，支持C语言同时却不只是C语言（OPenCL也兼容的），所有指令转换成为PTX代码，最终交给显卡核心（CUDA单元）计算PTX代码，之后要做的就是泡杯茶等待计算结束就大功告成了。

这时恐怕就会有童鞋要扔板砖了，你丫讲了这么多抽象的我都听不懂啊，到底CUDA 能干什么事呢？？对于我们普通PC用户又有那些好处的呢？？好吧，事实就是，虽然CUDA前景一片大好，NVIDIA也全力推广了好些年了，但是普通大众用处的确是不太大（意思就是管他娘的这么多啊，显卡买来用就行了，乱七八糟的不需要知道。。收起板砖别砸我脸....给打屁股......

）。。但也不能说是完全没用可有可无----民间用途主要有二----视频转码以及物理加速

~~~~~~~~~~华丽的分割线~~~~~~~~~~

先来说说视频转码，目前所有的视频转码都是有损压缩的原理，画质或多或少必然有所损失，因此视频转码最后结果的考量就要分为两个部分综合看。一看转码所需时间，由此考量转码效率，二看转码所得结果能输出的画质，由此考量转码质量。

硬件平台就是我笔记本：
CPU：I5  3210双核四线程处理器，默频2.5GHz，睿频双核情况之下2.9GHz，I5内置HD4000核心显卡，工作之时核心频率1100MH
GPU：NVIDIA  GT640M  LE，正常工作核心频率500MHz，显存频率800MHz（实际使用之中已经被我超频到了1000MHz 等效频率2000MHz）——此款GT640M  LE的确是开普勒架构并非费米架构马甲，拥有384个CUDA单元，其实就是拥有384个CUDA单元桌面GT640||GT650的低频版
内存4G板载的单通道。等效频率1332MH。

软件平台：
操作系统选择----微软WIN7  64位家庭基础版（WIN7已经更新）
独显驱动：9.18.13  1090  即是NVIDIA  310.90  WHQL，最新版本已到320.18  WHQL，因为一些技术原因没有更新（没有大碍）
集显驱动：8.15.10  2712

这次选取CUDA转码支持挺不错的MediaEspresso作为测试软件，MediaEspresso同时支持最新英特尔的Quick SYnc Video硬件转码技术，AMD||ATI  FUsion  E-series  C-series硬件加速技术以及NVIDIA  CUDA，是一款全方位的高效率转码软件，测试中我使用的具体版本是6.5.12

视频选择诺兰2012年的大作《蝙蝠侠前传三--黑暗骑士崛起》，因为个人比较喜欢，而且电影中间动作画面，风景画面，以及大场景画面很丰富适合测试转换后的视频质量。具体选择BLURAY  720P  6.6GB大小  MKV格式封装作为原片，压缩成为2mbps  720P  2.2GB大小  MP4格式封装视频，具体参数详见下图。

为了有所比较，选择英特尔的Quick SYnc Video硬件转码以及单纯软件转码（H.264编码，目前只能选择H.264编码，更新编码还未普及）作为对手，同与CUDA转码一较高下。首先使用CUDA测试。

CUDA测试开始，CPU负载较低，GPU渲染核心满载（视频引擎轻载）

CUDA测试结束，总共用时70分钟，远比大家想象之中慢吧

接着使用英特尔的Quick SYnc Video硬件转码，选择更高质量，如下所示

测试开始，CPU负载相对CUDA高了一些，不过也只是在20%--40%附近

测试结束，总共用时18分钟，远比CUDA转码来得迅速

再来还是使用英特尔的Quick SYnc Video硬件转码，选择更快转换，如下所示

测试开始，CPU负载与选择最高质量时相差无几，20%--40%附近徘徊（更快转换之下有严重的BUG，到了不能用的地步，这个BUG下文会有解释）

测试结束，总共用时12分钟，真是非常神速

最后关闭硬件加速，单纯使用软件转码，最为对比参照

测试开始，毫无悬念，处理器直接的接近满载

测试结束，总共用掉两个多小时了，蜗牛般的速度

现在说说更快转换之下已严重到不能用的BUG，就是无论选取什么码率，2Mbps，或是8Mbps等等，转码出来的视频都明显小于应有大小。2Mbps文件该有2.2GB，可是最终只有0.8GB，8Mbps文件该有8.8GB，可是最终只有1.8GB，而且画面有大量马赛克频繁出现（无论0.8GB文件或是1.8GB文件都是如此）。目前并不确定造成这个BUG的具体原因是什么

马赛克图如下(不忍直视

)

由此可见更快转换模式已经完全没有实际使用价值

现在再来看看使用不同方式转码后的画面质量，选取一些代表性的画面，从上到下依次是为CUDA转码-->英特尔高质量-->软件转码

缓慢移动镜头之下，CUDA近处山体细节减少，远处山体草地涂抹痕迹严重且有色差；英特尔高质量好于CUDA，近处锐度尚可，远处有轻微马赛克；软转细节最为丰富，层次清晰，可看清远处草地渐变色

半静止镜头下，CUDA近处出现了马赛克，贝恩面具出现锯齿，地下细节全丢涂抹非常厉害，颜色明显过深且对比度很低。英特尔高质量与软转无明显细节丢失，色彩还原正常，画质清晰

场景以大色块为主的背景静止慢镜头之下，三者终于差不太多，细节保留都挺丰富，CUDA绿色部分偏淡，云彩部分白色分层不太清晰

静止人像镜头之下，CUDA细节缺失，额头皱纹以及皮肤明显光滑许多（贝尔年轻了要感谢CUDA），英特尔高质量与软转表现可堪称完美，无明显的缺点

高速运动镜头之下，CUDA不负众望，把之前说过的缺点都占齐了。英特尔高质量也有细节丢失，墙面细节少了，软转依旧彪悍完美。

物体丰富色彩简单缓慢移动镜头之下，CUDA锐度不够，所有窗户明显有所模糊，且阴影处发黑，但是至少偏色没那么明显了。其余二者旗鼓相当，只是细节稍有丢失，非常之不明显。

最后四组与前六组各有相似之处，而且特意选取深色背景突出结构细节，放在此处只是为了更加全面体现问题，我就不再重复叙述，自行比对便可

本想一并放出测试1080P以及2160P的转码效率与质量，但是转念一想这其实与本次测试无太大的关系（无外乎对兼容性会有所影响，结论是不会改变的，还会增加不必要的篇幅），所以测试就不放出来了

结论--CUDA视频转码发展也有好些年了，虽然期间NVIDIA一直在做推广，可是结果已非常不乐观。速度方面来说完全没有优势，只比软件转码快了一倍（我用的只是笔记本双核I5，如果使用台式I7超频，后果估计反而软件转码更快，当然如果硬要拿来顶级旗舰显卡硬拼，我只能说太不实用而且功耗不是一个次元），远比英特尔的核显硬解慢了四倍（两年之前核显还没这个速度，这些年的I家A家转码方面都是迅速上升，可见十分重视优化下了苦工）。如果说速度上可以慢慢通过等待完成，那么质量上就是真的硬伤了，CUDA转码画质极差。英特尔高质量虽略逊于软件转码，不过已经相差不多，相比前两年好了不是一点点（看来真是下了功夫，英特尔不是吹牛的，进步很大）。现在转码几乎肯定首选英特尔的核显硬解，很好的画质很快的速度，几乎无敌。CUDA在没有新一代的处理器（12年前平台）而且对画质要求不高的场合使用（比如手机）还有一定生存空间，只是这个空间真的要不大了，为什么听起来很美好的CUDA视频转码多年过去了现在却还是如此渣渣？？造成这个现状的根本原因我分析应有两点——一是NVIDIA投入还是不够，不能吸引足够多的人才为了CUDA视频转码方面做出专门优化，以至不进则退被人超越（老黄去搞移动平台，估计精力都在那边，没以前那么看重了）。二是CUDA本质上是并行计算，太过依赖指令优化，可能视频转码方面群核并行计算指令优化实在困难，速度质量都是难以兼顾不好琢磨，先天劣势以至无力回天。

好了，视频转码就说到这，接下来谈谈另一个重点，这个搞好可比视频转码有价值的多了，这个就是从科学世界走入民间的技术——物理加速==》》

~~~~~~~~~~再现的分割线~~~~~~~~~~

使用CUDA进行物理加速的涵盖范围实在是广了，但是对于民间大众玩家来说，也就在两方面有着得天独厚的大优势——一是游戏之中使用，二是分布式科学计算中使用，下面我将分别说说CUDA在两者之中发挥的具体作用（像什么阿豆比这类公司的一些软件由于较专业，且普通大众不大会操作，这里就忽略啦）

早在上个世纪末期，当网吧内CS、星际争霸、三角洲特种部队等等游戏群雄争霸的时代，人们就发现了一个问题越来越有待于解决。为什么子弹打到杯子上杯子动都不动？为什么赛车撞到墙上却还是完好无损？现实世界中的牛顿三大定律在游戏中好像就凭空消失了一般，这对于正在迈向次世代的游戏界来说都是一个挥之不去的大阴影，挑剔的玩家们已经无法忍受这种严重错误。

起初，人们通过编程或者编写脚本实现了一些简单的物理效果，例如撞击后的形变，物体遭受攻击后的损坏，模拟受伤后血液的喷溅等等。然而，当游戏需要比较复杂的物体碰撞、滚动、流淌或弹跳的时候（例如飘扬的大旗帜、高空落体的橄榄球、不同受力方向下的形变等等），通过编程的手法已经是难以实现。人们发现必须通过物理引擎，为刚体赋予一定的物理属性，从而才能模拟刚体的大规模复杂运动状态。这样不仅能够得到更真实的效果，而且对于开发人员来说，也比编程实现来得容易的多。可以这么说吧，当时谁先能开发掌握一套先进的物理引擎，谁就是掌握了次世代游戏的先机。

2004年11月16日是游戏史上很重要的一天，万众瞩目的第一人称射击类大作《半条命二》正式发行，该游戏的最大特色是使用了维尔福公司自主研发的SOURCE渲染物理引擎（更为知名的是HavoK，SOURCE于游戏第二章首次采用，HavoK贯穿了全游戏），使该游戏取得了接近于真实世界中的物理表现，给玩家带来了巨大的真实感。该游戏一脚踹开了次世代的大门，也为维尔福公司奠定了游戏界霸主的地位，物理引擎从此真正进入玩家世界。

既然有了物理引擎，自然要有支持物理引擎能够在每一台PC上面完美运行的物理处理器（或称物理加速引擎），不然完全交由CPU会使CPU负担过重无力承担。于是，就在《半条命二》发行之后的短短几个月，2005年3月9日的游戏开发者论坛中，一家原先默默无闻的小公司AGEIA发布了世界上第一颗采用了硬件加速的物理处理器--PhysX，PhysX也使得这家叫AGEIA的公司于一夜成名。当然，由于当时公司规模不大，而且PhysX物理加速卡的售价不菲，使得PhysX并未大规模的普及，只有少数发烧友手中有此卡可以玩玩

后来几年，是几大物理引擎竞争的年代，主要就有世界第一老牌物理引擎HavoK，世界第二PhysX，世界第三BUllet。直到2007年英特尔收购HAVOK（仍与AMD公司保持良好合作关系，也是“开放物理计划”核心成员之一，所以AMD其实一直都有物理加速），2008年英伟达收购AGEIA，确定了物理引擎双雄鼎立的格局。A卡，N卡，从此各有各的物理加速引擎，消费者不必掏钱再买专用物理加速卡，于此尘埃落定

直到如今，有的游戏使用的是HavoK，有的游戏使用的是PhysX，今天的主角是CUDA，因此讨论使用后者作为物理加速引擎的游戏在实际中的表现。。

硬件平台以及软件平台与前文提到的相同（测试全都在独立显卡上运行），游戏选择具有代表性的《BATMAN ARKHAM CITY》以及《光荣使命》，都是使用游戏自带测试模式。分别测试关闭PhysX，使用CUDA开启PhysX（分别测试不同物理效果等级），只使用处理器开启PhysX（如果可以的话）这三种情况下不同之处，为了突出重点，游戏内部画质光影一律调至最低。

由于是测物理加速占用资源程度，游戏画面在相同设置下不同平台之间表现差异很小，而且过程截图不便，所以就不截过程图了直接上结果，然后比较优劣

先来使用《BATMAN ARKHAM CITY》测试

具体画面设置如下

首先关闭硬件加速运行结果如下

接着使用CUDA，硬件加速普通，运行结果如下

再来使用CUDA，硬件加速最高，运行结果如下

然后尝试使用CPU加速，当只使用CPU加速之时，尝试开启物理加速会有警告。虽然可以运行，不过画质居然还会更低，虽然不是非常明显，不过细节以及贴图质量是有下降，估计是种妥协。

使用CPU，硬件加速普通，运行结果如下

使用CPU，硬件加速最高，运行结果如下

可以看出一开PyhsX立马帧数下降一半（更高级别效果还要再降20%--30%），只是开了PhysX物理特效非常丰富，火星四溅、碎片漫天、尘埃弥漫等等特效显得非常真实，游戏的代入感一下子加强了许多，总体来说情愿牺牲一些流畅度也建议打开硬件加速。单纯的用CPU虽然可以，不过帧数极低而且物理效果明显削弱，画质还有下降，所以使用CPU不太可行，还是不要打开硬件加速。CUDA此轮完胜

再来使用《光荣使命》测试

选择中配置电脑后进入游戏测试（内部画质、光影、特效全部最低或者关闭），光荣使命完全不支持用CPU进行物理加速，所以CPU此轮直接淘汰

首先禁用物理效果运行结果如下

接着使用CUDA，PhysX正常，运行结果如下

再来使用CUDA，PhysX最高，运行结果如下

可以看出开了正常PhysX帧数打了七折，再开最高PhysX帧数再打六折，只是最高时候物理效果已经非常华丽，撕裂的旗帜及横幅、连环爆炸之中飞出的土块与碎片、空气中飘扬的灰尘等等都很自然，开不开就是见仁见智了

小结--虽然不同游戏因为自身物理效果丰富程度不同，开启PhysX会有不同程度帧数下降，而且普遍幅度较大。不过由于我是在最低画质下测试，所以是突出了PhysX开启后的帧数下降程度，是种极端情况。实际游戏之中只要是在中高画质，不会有像这种超过60%的最大下降的，中高画质之下，一般下降程度小于40%，无需太过担心。开启PhysX会带来明显的真实感代入感提升，强烈建议硬件允许的情况下，一定尽量打开PhysX。而且目前只有CUDA才能完美支持PhysX物理加速，这也正常PhysX早就已被NVIDIA收购，一家独自掌握核心技术。不过使用HavoK物理引擎的游戏是一点不比使用PhysX物理引擎的游戏少，CUDA在游戏物理加速的领域想要做到一家独大还有很大难度，未来情况究竟如何我们也就只有走着瞧了。

~~~~~~~~~~小小的分割线~~~~~~~~~~

说完了游戏的方面，接下来说一说CUDA在分布式计算中的应用，一起看看CUDA最辉煌的一面

分布式计算是门计算机科学，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多不同的计算机进行处理，最后把这些计算结果综合起来得到最终的结果，总之就是发挥“三个臭皮匠--顶个诸葛亮”这一种的精神。分布式计算项目已经通过互联网，使用世界各地成千上万位志愿者的计算机闲置计算能力，分析解决许多问题。有了分布式计算后，你也可以参与分析外太空的讯号，并探索可能存在的外星智慧生命。您也可以寻找并发现对抗艾滋病病毒的更为有效的药物，为医学做贡献，等等诸如此类许多事情。这些项目共同特点就是都很庞大，需要惊人的计算量，即使是一台超级计算机，也没有可能在可以让人接受的时间内完成这个问题，因此分布式计算是最好选择

由此可见----分布式计算在处理问题的思路上是不是像极了并行计算？？因此，CUDA在分布式计算中有着重要的地位，由于思路相似，而且往往计算的结果关系到人类未来（都是些重要的问题），算法编写就会方便许多而且受人重视，只要是有好的算法，计算效率会有大大提高

目前世界各地的分布式项目多种多样，我国也有许多的项目可供大家来参与（详见中国的分布式计算论坛网站），当然知名项目几乎全都是国外的。像是Folding@home（研究蛋白质的折叠，聚合，以及相关疾病）、Rosetta@home（预测蛋白质的结构）、Einstein@home（验证相对论的预测）、Seti@home（分析可能含有外星智能讯号的射电波）、寻找梅森素数等等等等（项目好多好多不胜枚举，如有兴趣，网上可以自行寻找）。是不是心动了，这些可是货真价实的分布式计算项目，平时一辈子也可能接触不到什么蛋白质的研究，现在打开计算机就能加入了，可比做矿工要有意义的多了（特别对于CUDA用户来说更是如此）

分布式计算项目加入都十分简单（比起那个用全世界的计算机资源，挖什么矿，简单得多）。往往只需三步。一搜索并选定感兴趣的项目，二去项目官网下载运行软件，三打开软件傻瓜设置就行啦。。

下面就以Folding@home为例，介绍如何加入Folding@home，一起加入模拟蛋白质折叠和错误折叠的大军中（目前是世界上最大的分布式计算计划）

就按之前我说的三步走——
首先百度Folding@home，第一条就是斯坦福大学Folding@home项目首页，点击进入

接着向下翻个几行----然后用力戳下这个蓝框

弹出一个小框（中文翻译附上）----再次戳下蓝框----DOWNLOAD开始

最后安装软件并且运行（好吧，感觉我有一点SB，这谁不会。。。。

）

双击快捷方式（喂喂你这什么意思），默认网页运行方式弹出，如图所示

点击那个an identity，出现一个新的页面，如图所示

随便输入一个NAME（TEAM无所谓的，你想加入也行，不加也没事情），注意PASSKEY部分，PASSKEY要是32位的16进制的数（的确有点蛋疼，例如AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDD就是，唉唉o(︶︿︶)o--o(︶︿︶)o）

然后你就成功的加入了蛋白质大军啦

当然软件环境可以切换（任务栏小图标右键），你也可以自行更改运算负载，简单方便

速度测试就不用再测了，分布式计算都对于CUDA支持很好，GPU计算能力相较CPU那是压倒性的优势（晶体管的数量碾压、浮点性能碾压、总之就是指数级的碾压）。。CUDA翻身农奴把歌唱啦

小结--作为最为核心的主功能之一，CUDA在分布式科学计算领域堪称东方不败，完美的高优化水准，广大的支持面（有些项目甚至只支持了CUDA），超强悍的运算能力。。。。无需复杂对比，我宣布了，完胜完胜！！好了，当你挂机下载，当你编辑WORD，当你聊聊QQ之时，有没有想要发挥手中的NVIDIA显卡CUDA强大运算能力？？行动起来，你也将为伟大的科学事业付出一份力，这是十分荣幸的事（再次BS矿工，特别是用N卡挖矿的，话说A卡现在挖莱特币收益会大些----一般人我不告诉他--只告诉本论坛的人

）

~~~~~~~~~~最后的分割线~~~~~~~~~~

总结--其实CUDA还是很有用的，除了我提到的，还在类似处理照片以及强化视频等等许多方面有着用武之地。只是曾经最知名的视频转码看来还是名不副实落后太多，不得不感慨科技行业真是名副其实的--没有永远的大哥--只有永远的技术，一个不注意就被对手超越了。在物理加速领域内，游戏方面实际上是PhysX在和HavoK平分秋色，分布式科学计算方面就完全是展现大哥风范了。这两年的CUDA没有以前那么投入宣传及精力了，一来老黄把重心慢慢在向移动芯片领域内倾斜，二来老黄在云计算方面搞了一个GRID进行了进一步细分（详见http://www.nvidia.cn/object/nvidia-grid-cn.html）可以是说有点喜新厌旧。也是可以理解，毕竟创新以及紧跟时代潮流才是科技界的根本，CUDA在核心领域内已经做的很好，正在趋于完美，一些边边角角疏忽一些没有大碍。相信未来NVIDIA可以带来更多让人眼前一亮的新技术，也有更多创新可以层出不穷，那时哪怕不再有人知道CUDA也没关系，一件能让人说不出他有什么样的技术，却能用的很好的产品一定能够改变这世界。

hyenax1950xtx · 发表于 2013-6-2 01:04

用心之作，楼主花了不少功夫，顶你

XEON16 · 发表于 2013-6-2 01:24

hyenax1950xtx 发表于 2013-6-2 01:04
用心之作，楼主花了不少功夫，顶你

看个视频回来，我从高中到硕士了，这这这这。。。。

看来以后就抱着团长大腿了

wower.cy · 发表于 2013-6-2 01:25

好長，我承認我沒看完，頂一個。。。

cooiut · 发表于 2013-6-2 09:59

学习了。

忘世 · 发表于 2013-6-2 10:13

提示: 作者被禁止或删除内容自动屏蔽

smartcomputer · 发表于 2013-6-2 10:56

多路计算卡的内存是不是叠加的？

XEON16 · 发表于 2013-6-2 12:38

smartcomputer 发表于 2013-6-2 10:56
多路计算卡的内存是不是叠加的？

多路的计算卡内存是作为缓存使用叠加的，这跟SLI不太一样，SLI不叠加的。不过平时几乎也不会看到计算卡，都是大型机上采用，没有显示输出接口，价格天价，而且不为游戏优化，游戏性能很差（QUADRO这种就已经很差了），还没见过民用微机有用计算卡的。
使用多路的计算卡需要拆分数据，并且几乎都是用计算掩盖了GPU协同CPU之间通信和传输数据的过程，换言之就是专用计算卡计算压力都是很大，许多问题都和显卡不太一样，详情可以参考NVIDIA官方

醉酒棕熊 · 发表于 2013-6-2 14:39

CUDA在某些设计软件中的应用捏
比如AE\PS之类

f734592117 · 发表于 2013-6-2 15:09

终于看完一次了，了解了好多，值得多读，感谢分享阿

XEON16 · 发表于 2013-6-2 15:16

醉酒棕熊发表于 2013-6-2 14:39
CUDA在某些设计软件中的应用捏
比如AE\PS之类

阿豆比的软件我不测啦（专业软件方面使用QUADRO卡好很多）。。说了（其实就是懒了

）

nighttob · 发表于 2013-6-2 15:55

Adobe那些东西可以找卡霸还没当版主以前发的那个跟OpenCL有关系的帖子看。

CUDA先入为主，站稳了脚跟，然后开始朝赚钱的方向发展（卖一片K20顶一打TITAN都没问题）。
AMD有理论性能那么强的硬件，还得抱OpenCL的大腿，自家的FireStream项目直接被砍了。

分布式计算真的是给不缺电费的人干的，挖矿再怎么说也是有经济收益的，虽然现在基本不可能自持。
所以说，用集显妥妥的……

hufei · 发表于 2013-6-2 16:04

很好的文章，学习了

windingway · 发表于 2013-6-2 16:12

应该是NV没有吸引到高超的软件作者吧,CUDA根本上是一种提供运算力的构架和器件,在上面能实现什么样的功能是软件的问题,转码什么的现在估计还是软件和算法不够好的缘故.
Folding的那个仿佛不能调节GPU负载,跑得快是真的,显卡满载温度是个问题,入夏以后我就不跑了...挖矿什么的太2了,话说某同学已经订购了50片avalon,昨天去嘉立创打样PCB,真够疯狂的...

FFFF12345 · 发表于 2013-6-2 16:39

楼主好文，见识了

大D来了 · 发表于 2013-6-2 16:47

3级精华，太高端了~~~

ELT · 发表于 2013-6-2 17:34

结论就是对大部分家庭用户没什么用- -
光是算画面就把一大票显卡累趴了，用physx而且能开显卡加速的游戏也不多

einstein86 · 发表于 2013-6-2 18:04

我用A卡我光荣……不纠结CUDA，哇哈哈……

Pale_Cheung · 发表于 2013-6-2 19:11

梅森素数，那个怎么不展开一下呢？

这个项目的软件就是 prime95啊！

我们跑 p95 第一次启动不都是选 test only 么？其他选项就是加入分布式计算了。

XEON16 · 发表于 2013-6-2 19:24

Pale_Cheung 发表于 2013-6-2 19:11
梅森素数，那个怎么不展开一下呢？

这个项目的软件就是 prime95啊！

我指的是GIMPS，GIMPS个人不懂没有玩过，所以就不说了。。。。

【玩家角度】解读CUDA技术原理及其实用技术

本帖子中包含更多资源

评分

相关帖子