PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

HP DL360 Gen9 1U机架服务器可以安装nVIDIA Tesla P4 GPU运算显卡吗?

[复制链接]
跳转到指定楼层
1#
红色狂想 发表于 2023-1-14 22:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
点击数:2002|回复数:8
手里有台HP DL360 Gen9 1U机架式服务器,升级了128G内存,添了张HP FlexFabric 10Gb 2-port 534FLR-SFP+ Adapter万兆光纤网卡,又弄了个Intel DC P3608 4TB数据中心级SSD,准备用来搭建ESXi虚拟化家庭综合应用环境,具体详见这篇帖子:https://bbs.pceva.com.cn/thread-149929-1-1.html

最近在Google上查资料时,发现老外竟然给HP DL360 Gen9装了两个英伟达nVIDIA Tesla P4 8GB GPU运算显卡,可以实现虚拟化云桌面多开等应用,于是我又心里长草了,马上了解了一下,难得的一款AI深度学习刀卡呀,功耗只有75W,X宝闲鱼上价格也很便宜,就是不知道这卡插到HP DL360 Gen9服务器上会不会导致风扇狂转,论坛里有人玩儿过吗?













本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
fisherwei 发表于 2023-2-22 19:50 | 只看该作者
本帖最后由 fisherwei 于 2023-2-22 19:54 编辑

可以,但是nvidia的vgpu驱动需要license才可以用,你先看看能不能搞到(不清楚能不能绕过)。
BTW:pascal这一代n卡没有半精度(FP16)引擎,对于AI来说并不太好用,p40 24g显存那个卡现在也才900块钱,不过是2u的。
如果只是想瞎玩的话,比如玩stable diffusion画色图小姐姐,其实3060 12g比较合适,买个锻炼过的就行。
3#
红色狂想  楼主| 发表于 2023-3-3 16:58 | 只看该作者
fisherwei 发表于 2023-2-22 19:50
可以,但是nvidia的vgpu驱动需要license才可以用,你先看看能不能搞到(不清楚能不能绕过)。
BTW:pascal ...

的确是可以,我主要是不想自己亲自上机做实验,怕来回折腾,所以去年春节前在闲鱼上找了一家有销售HP DL360 Gen9与nVIDIA Tesla P4的公司,和卖家商量好,买她的Tesla P4帮我按照以下方法上机测试:
我这台HP DL360 Gen9是2.5寸8盘位,配置为双路E5-2650 v3×2,内存32G×4,P440AR阵列卡,加了LOM万兆光纤网卡和Intel DC P3608 4TB PCIe NVMe卡式固态硬盘,现在运行时7个风扇的转速保持在19%,在机器跟前的噪音量在可接受范围内,用手试探机箱后部I/O出风口处能吹透,不知这种状态下再插一个Tesla P4噪音会增加多少?

你找个和我的配置接近的机器,测试时给我拍视频,看一下运行后iLO管理页面中风扇的转速是多少,对于噪音大小的实际感受可以用鼠标击键声对比,把鼠标放在机器旁边点击按键,如果从手机拍摄的视频中能清晰的听见击键声,就证明机器运行噪音并不大,要是能再装个Windows Server 2019系统跑个甜甜圈压力测试就更美好啦 o(* ̄▽ ̄*)ブ


我这样要求是不是太难伺候了?但没想到卖家竟然答应了,说这款机器搭配Tesla P4已经卖了十几台了,没啥问题
由于当时临近春节,公司已放假,上机测试的事儿只能等年后开工了
就这样,等啊等,上个月16号终于安排负责售后的技术员给我测试了,具体详见下图:







本来是要求卖家给我找个nVIDIA原厂公版Tesla P4,结果还是货源特别多的浪潮OEM版,说只有这一种,仅仅是标签不同,浪潮版和公版都是一样的。看测试表现还不错,插上Tesla P4进入Windows系统后iLO显示的风扇转速在19~30%之间,技术员也拍了视频,可能是手机的原因吧,几乎听不见机器的运行声,但能清晰地听见鼠标击键声。事实证明,服务器只要一插上Tesla P4开机风扇就会满速起飞的说法并不能一概而论,具体情况还得以实际测试验证为准。既然HP DL360 Gen9上Tesla P4正常没问题,就不强求公版不公版了,人家按你的要求忙活了半天给你测试,最后总不能不买人家的卡了吧?索性就这样了,¥480元德邦到付买了这个浪潮版Tesla P4,详见下图:






就在显卡快要送到的前一天晚上,我仍不死心,想到之前用Google查资料都能找到答案解决问题,不妨再用Google图片搜索搜一下,看有没有销售HP版Tesla P4的电商
这段时间搜遍了淘宝和闲鱼,逢人就问,苦苦寻找HPE Tesla P4,却一个都没有。最后竟然借助Google图片搜索找到了,不得不说,谷姐确实厉害,竟然能解决所有问题,本来都已经彻底死心放弃了,没想到向下滚动了几页后,忽然看到一张图片,淘宝链接标题是Dell Tesla P4,顿时让我觉得既然有Dell版,那没准也有HP版的呢?于是马上点进去问了一下卖家,果不其然,还当真有HP版的
全新原盒 HP Tesla P4 Q0V79A 872321-001 870917-001 加速卡 保3年,标价¥2288

这价格,香不香?屠龙刀拔出,跟卖家说明我是个人自用,能不能¥700成交
他说当年拿货价就¥8000,现在库存就剩4件了,卖不卖都无所谓,留着做外资单了。。。
然后我blabla又经过一番磨蹭讨价还价,最后卖家同意¥1400 顺丰包邮拿下
就这样,那个浪潮版的还未到手,又拍了这个HP版的


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
4#
红色狂想  楼主| 发表于 2023-3-3 21:14 | 只看该作者

HP DL360 Gen9 1U机架服务器可以安装nVIDIA Tesla P4 GPU运算显卡吗?

fisherwei 发表于 2023-2-22 19:50
可以,但是nvidia的vgpu驱动需要license才可以用,你先看看能不能搞到(不清楚能不能绕过)。
BTW:pascal ...

HPE Tesla P4到手后马上就迫不及待地上机测试了






双卡合并,工业美!





开机进入系统后iLO显示的风扇转速和没装之前一样,待机状态下保持在19%,温度恒定在35℃,用FurMark查看实际温度是44℃,详见下图:




不过在iLO设备装置清单里HPE Tesla P4的产品部件号、序列号、固件版本等信息都显示的是未知状态。看来真有可能像一些卖家说的那样,所谓OEM版仅仅是标签贴纸不同,固件都一样,根本不用纠结是否有服务器制造商的PCIe VID设备微码的问题。所以如果无信仰追求的话,建议还是别花冤枉钱买HP版了,直接上NVIDIA原厂公版或浪潮版就行,至少在HP DL360 Gen9这款机器上不会触发风扇满速旋转



谈一谈Tesla GPU在Windows环境中的图形表现
英伟达显卡VGPU虚拟化是什么_GRID VPC、GRID VAPP、QUADRO VDWS区别


我现在机器底层暂时装的Windows Server 2019系统,安装上NVIDIA官网上这个GRID驱动 528.24_grid_win10_win11_server2019_server2022_dch_64bit_international 后,Tesla P4 GPU加速卡就能从TCC计算模式变为WDDM图形驱动模式了




在桌面分辨率1280×720@60Hz待机状态下,iLO显示的风扇1~5转速为19%,风扇6~7为20%,温度36℃,但FurMark显示的实际温度是43℃,TDP功耗在10.5%左右




跑了一下FurMark - GPU benchmarks - Preset: 720测试,iLO显示的风扇5~7转速增加到34%,噪音逐渐开始增大



然后FurMark关闭抗锯齿功能,跑了4分钟的GPU stress test,最高温度基本恒定在88℃,此时iLO显示的风扇5~7转速增加到57%,噪音已经很大了




接着又用PotPlayer播放了十几分钟的 [第九区].District.9.2009.BluRay.1080p.x264.DTS-HD.MA.5.1-CHD 高清影片,iLO显示的风扇5~7转速逐渐增加并恒定在34%,FurMark显示温度61℃,TDP功耗32.5%,此时机器的运行噪音听着可是有点不爽啊,随便视频解个码都这么热了,这要是虚拟机多开跑几个小游戏啥的噪音还不吵死人吗?
看来单靠机器系统风扇很难做到散热和噪音兼顾的满意效果,现在室温只有18℃,等到了夏天室温会达到31℃,那时噪音岂不是比现在更大。。。没办法,看来后期只能加装一个7515涡轮风扇主动吹透Tesla P4的散热片了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
5#
fisherwei 发表于 2023-3-21 13:46 | 只看该作者
本帖最后由 fisherwei 于 2023-3-21 22:40 编辑

没有必要挑版本,都是一样的东西,固件都一样,而且这卡现在流出来几乎都是锻炼过的。
当年,正经公司除了被nvidia忽悠+做验证环境外,不会有人去买p4的,都是p40和p100。

如果你对性能比较执着的话,可以考虑把ecc关掉,能多释放出来几百M内存。windows我不知道改如何操作,linux下用nvidia-smi关。
至于主机风扇问题,我没用过hp的机器,我这都是dell。dell有一个开关叫 Third-Party PCIe Card Default Cooling Response Logic
通过ipmi可以控制,默认是开启的,插上pcie设备,风扇就会起飞。

关闭方法:ipmitool raw 0x30 0xce 0x00 0x16 0x05 0x00 0x00 0x00 0x05 0x00 0x01 0x00 0x00
重新开启:ipmitool raw 0x30 0xce 0x00 0x16 0x05 0x00 0x00 0x00 0x05 0x00 0x00 0x00 0x00

这卡我是用来挖chia的,大约9分钟一个图。

  1. Bladebit Chia Plotter
  2. Version      : 3.0.0-alpha1-dev
  3. Git Commit   : b40fce737fe4d72b7882e9b0cd03f1bf8230a90a
  4. Compiled With: gcc 11.3.0

  5. [Global Plotting Config]
  6. Will create 1000 plots.
  7. Thread count          : 20
  8. Warm start enabled    : false
  9. NUMA disabled         : false
  10. CPU affinity disabled : false
  11. Farmer public key     : ***
  12. Pool contract address : ***
  13. Benchmark mode        : disabled

  14. [Bladebit CUDA Plotter]
  15. Selected cuda device 0 : Tesla P4
  16. CUDA Compute Capability   : 6.1
  17. SM count                  : 20
  18. Max blocks per SM         : 32
  19. Max threads per SM        : 2048
  20. Async Engine Count        : 2
  21. L2 cache size             : 2.00 MB
  22. L2 persist cache max size : 0.00 MB
  23. Stack Size                : 1.00 KB
  24. Memory:
  25.   Total                    : 7.43 GB
  26.   Free                     : 7.32 GB

  27. Allocating buffers (this may take a few seconds)...
  28. Kernel RAM required       : 90240524288  bytes ( 86060.07  MiB or 84.04  GiB )
  29. Intermediate RAM required : 2999001088   bytes ( 2860.07   MiB or 2.79   GiB )
  30. Host RAM required         : 168443248640 bytes ( 160640.00 MiB or 156.88 GiB )
  31. Total Host RAM required   : 258683772928 bytes ( 246700.07 MiB or 240.92 GiB )
  32. GPU RAM required          : 6139441152   bytes ( 5855.03   MiB or 5.72   GiB )
  33. Allocating buffers

  34. Generating plot 1 / 1000: ***
  35. Plot temporary file: /chia/temp/plots/***.plot.tmp

  36. Generating F1
  37. Finished F1 in 4.82 seconds.
  38. Table 2 completed in 21.50 seconds with 4294834886 entries.
  39. Table 3 completed in 30.51 seconds with 4294718104 entries.
  40. Table 4 completed in 34.55 seconds with 4294397391 entries.
  41. Table 5 completed in 34.42 seconds with 4293838226 entries.
  42. Table 6 completed in 33.56 seconds with 4292668090 entries.
  43. Table 7 completed in 31.87 seconds with 4290318151 entries.
  44. Finalizing Table 7
  45. Finalized Table 7 in 14.63 seconds.
  46. Completed Phase 1 in 205.88 seconds
  47. Marked Table 6 in 18.13 seconds.
  48. Marked Table 5 in 15.49 seconds.
  49. Marked Table 4 in 14.74 seconds.
  50. Marked Table 3 in 14.46 seconds.
  51. Marked Table 2 in 14.35 seconds.
  52. Completed Phase 2 in 77.17 seconds
  53. Compressing Table 1 and 2...
  54. Step 1 completed step in 4.55 seconds.
  55. Step 2 completed step in 20.20 seconds.
  56. Completed table 1 in 24.75 seconds with 3429214806 / 4294834886 entries ( 79.85% ).
  57. Compressing tables 2 and 3...
  58. Step 1 completed step in 4.56 seconds.
  59. Step 2 completed step in 15.05 seconds.
  60. Step 3 completed step in 20.19 seconds.
  61. Completed table 2 in 39.80 seconds with 3439473128 / 4294718104 entries ( 80.09% ).
  62. Compressing tables 3 and 4...
  63. Step 1 completed step in 4.62 seconds.
  64. Step 2 completed step in 15.13 seconds.
  65. Step 3 completed step in 20.39 seconds.
  66. Completed table 3 in 40.14 seconds with 3465250724 / 4294397391 entries ( 80.69% ).
  67. Compressing tables 4 and 5...
  68. Step 1 completed step in 4.54 seconds.
  69. Step 2 completed step in 15.33 seconds.
  70. Step 3 completed step in 21.14 seconds.
  71. Completed table 4 in 41.01 seconds with 3531501454 / 4293838226 entries ( 82.25% ).
  72. Compressing tables 5 and 6...
  73. Step 1 completed step in 4.51 seconds.
  74. Step 2 completed step in 15.86 seconds.
  75. Step 3 completed step in 22.85 seconds.
  76. Completed table 5 in 43.23 seconds with 3711076474 / 4292668090 entries ( 86.45% ).
  77. Compressing tables 6 and 7...
  78. Step 1 completed step in 4.48 seconds.
  79. Step 2 completed step in 17.52 seconds.
  80. Step 3 completed step in 28.18 seconds.
  81. Completed table 6 in 50.18 seconds with 4290318151 / 4290318151 entries ( 100.00% ).
  82. Serializing P7 entries
  83. Completed serializing P7 entries in 15.58 seconds.
  84. Completed Phase 3 in 254.69 seconds
  85. Completed Plot 1 in 537.74 seconds ( 8.96 minutes )

  86. /chia/temp/plots/***.plot.tmp -> /chia/temp/plots/***.plot
  87. Completed writing plot in 0.07 seconds
  88. Final plot table pointers:
  89. Table 1:       1288816404 ( 0x000000004cd1c714 )
  90. Table 2:      16127544168 ( 0x00000003c146cb68 )
  91. Table 3:      30108807243 ( 0x00000007029ff04b )
  92. Table 4:      44194848768 ( 0x0000000a4a37e000 )
  93. Table 5:      58550195718 ( 0x0000000da1dd1606 )
  94. Table 6:      73635511968 ( 0x000000112504bea0 )
  95. Table 7:      91075404618 ( 0x000000153484634a )
  96. C 1    :             4096 ( 0x0000000000001000 )
  97. C 2    :          1720228 ( 0x00000000001a3fa4 )
  98. C 3    :          1720404 ( 0x00000000001a4054 )

  99. Final plot table sizes:
  100. Table 1: 14151.31 MiB
  101. Table 2: 13333.57 MiB
  102. Table 3: 13433.50 MiB
  103. Table 4: 13690.33 MiB
  104. Table 5: 14386.48 MiB
  105. Table 6: 16631.98 MiB
  106. Table 7: 16877.71 MiB
  107. C 1    : 1.64 MiB
  108. C 2    : 0.00 MiB
  109. C 3    : 1227.47 MiB
复制代码






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
6#
红色狂想  楼主| 发表于 2023-3-24 16:28 | 只看该作者
fisherwei 发表于 2023-3-21 13:46
没有必要挑版本,都是一样的东西,固件都一样,而且这卡现在流出来几乎都是锻炼过的。
当年,正经公司除了 ...

我以为就Tesla P4这点算力能用来挖啥呀,没想到还真有用武之地,怪不得这卡X宝闲鱼上卖那么火,敢情都可以拿来锻炼炼丹啊。我之前是用E3-1275L v3+S4600 1.9TB SSD挖的Chia,平均9小时出1个图,总共P了37TiB的算力,后来没仓库盘囤了,就不再继续开垦了,加入了矿池一直挂着收割机在挖,现在有5.4个块

装Windows系统只是为了暂时测试机器用,现在已经部署了ESXi 6.7,我搞Tesla P4是为了弄几个Windows和Linux虚拟机跑云桌面多开,顺便再玩玩你说的stable diffusion画色图小姐姐,不知能否胜任,看到闲鱼上画的那些图片很香,就是不敢轻易暴露手部
7#
fisherwei 发表于 2023-3-26 00:40 | 只看该作者
本帖最后由 fisherwei 于 2023-3-26 00:41 编辑
红色狂想 发表于 2023-3-24 16:28
我以为就Tesla P4这点算力能用来挖啥呀,没想到还真有用武之地,怪不得这卡X宝闲鱼上卖那么火,敢情都可 ...

嗯,现在p图都快,

cpu 大约15-20分钟一个图(至少要512G内存)
gpu 大约5-10分钟一个图,4090据说40秒一个(至少要8G显存,256G内存)

现在chia支持压缩图了,从 101g 一个降低到 70-90g 一个,压缩图P的更快。
8#
红色狂想  楼主| 发表于 2023-4-19 16:34 | 只看该作者
fisherwei 发表于 2023-3-26 00:40
嗯,现在p图都快,

cpu 大约15-20分钟一个图(至少要512G内存)

我以前用Chia重钱包P的图都绑定加入HPOOL矿池了,如果现在对这些图进行压缩以节省存储空间,之前的绑定是否就失效了呢?
9#
fisherwei 发表于 2023-4-24 17:51 | 只看该作者
红色狂想 发表于 2023-4-19 16:34
我以前用Chia重钱包P的图都绑定加入HPOOL矿池了,如果现在对这些图进行压缩以节省存储空间,之前的绑定是 ...

压缩图要重新p,不能从已有图压缩生成
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部