問題
最近在Ubuntu上使用Nvidia GPU訓練模型的時候,沒有問題,過一會再訓練出現非常卡頓,使用nvidia-smi查看發現,顯示GPU的風扇和電源報錯:

解決方案
自動風扇控制
在nvidia論壇有人給出了解決方案,即問題的根源可能是風扇轉速不足使GPU過熱導致的。
首先開啟GPU的persistent mode,再設置風扇的功率,重啟即可生效。其中250代表的是風扇的最大功率限制,可以將其設置為最大,這樣過熱的時候風扇就會自動加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動風扇控制
此外,還可以將GPU風扇的手動風速控制打開。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開所有gpu在xserver中的設置(不使用sudo可能無權限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:

如果機器上有多塊gpu,在第一步命令執行后,會在這個xorg.conf中出現多個DeviceSection,都依次執行第三步操作
重啟機器后,命令行執行nvidia-settings,會打開設置界面,在其中的會顯示所有GPU的設置選項,每個GPU控制選項下面都有一個Thermal settings,進入后打開enable GPU Fan Setting即可對風扇進行手動風速調整了。
-
NVIDIA
+關注
關注
14文章
5594瀏覽量
109737 -
gpu
+關注
關注
28文章
5194瀏覽量
135453
發布評論請先 登錄
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
揭秘TEE深度休眠喚醒“低概率報錯”:從概念到解決方案的全解析
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
在Python中借助NVIDIA CUDA Tile簡化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
上位機報錯2033問題處理方案
NVIDIA Isaac Lab多GPU多節點訓練指南
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴展新產品
亞馬遜基于NVIDIA技術實現創新型制造解決方案
Ansys使用NVIDIA技術優化CFD仿真解決方案
風扇燈PCBA方案開發原理及介紹
Nvidia GPU的風扇和電源報錯解決方案
評論