TOP云新上线香港GPU显卡物理服务器,CPU有i3-7100、E3-1245v3、i5-7400、i7-8700、E5-2620v2、Gold 6138可选;GPU显卡有G710 2G、RTX3050 6G、RTX5060TI 16G;内存8G-128G可选,带宽有30M-100M可选,价格低至799元/月,购买链接:https://c.topyun.vip/cart?fid=9&gid=203
监控GPU状态:香港服务器常用命令行工具介绍
在AI训练、深度学习推理或高性能计算任务中,实时掌握GPU使用率、显存占用、温度与功耗等关键指标,是保障服务稳定、优化资源调度、预防硬件故障的核心手段。尤其当您部署在TOP云香港GPU显卡物理服务器(支持 RTX3050 / RTX5060TI 16G 等高性能显卡,内存最高128GB,带宽30–100M独享BGP)上运行长时间任务时,一套高效的监控体系不可或缺。
本文将为您系统介绍5款Linux命令行下最实用的GPU监控工具,从基础状态查看到高级性能分析,助您全面掌控GPU运行状态,最大化算力投资回报。
一、必备基础:nvidia-smi —— NVIDIA官方“瑞士军刀”
几乎所有NVIDIA GPU用户的第一选择,无需额外安装(随驱动自带)。
常用命令:
# 实时查看GPU状态(默认每秒刷新)
nvidia-smi
# 持续监控(每2秒刷新一次)
nvidia-smi -l 2
# 仅显示关键指标(适合脚本调用)
nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total,power.draw --format=csv
输出解读(以RTX5060TI为例):
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 12345 C python 14567MiB |
+---------------------------------------------------------------------------------------+
- GPU-Util:核心利用率(>80% 表示满载)
- Memory-Usage:显存占用(RTX5060TI 16G ≈ 16384MiB)
- Temp:温度(安全范围通常 <85°C)
- Power Draw:当前功耗(对比TDP判断是否降频)
✅ 优势:轻量、实时、支持所有NVIDIA消费级/专业卡
⚠️ 局限:无法记录历史数据,需配合其他工具实现日志化
二、进阶监控:gpustat —— 美观简洁的终端增强版
基于nvidia-smi封装,输出更友好,支持颜色高亮与进程详情。
安装(需Python环境):
pip install gpustat
使用:
# 实时监控(每1秒刷新)
gpustat -i 1
# 显示用户、CPU占用、时间等扩展信息
gpustat -cpu
输出示例:
[0] NVIDIA GeForce RTX 5060 Ti | 72°C, 145 / 16384 MB | python(12345:youruser) @ 92%
💡 适合快速定位“谁在吃GPU”——尤其在多用户共享服务器场景。
三、性能剖析:nvtop —— GPU版“htop”
类比系统监控工具 htop,提供交互式、图形化终端界面,支持排序、筛选、进程管理。
安装(Ubuntu/Debian):
sudo apt install nvtop
启动:
nvtop
功能亮点:
- 实时显存/算力柱状图
- 按显存或利用率排序进程
- 支持键盘操作(如
k终止进程) - 兼容NVIDIA、AMD、Intel GPU(通过不同后端)
✅ 推荐场景:长时间训练任务监控、异常进程排查
四、日志与告警:dcgm-exporter + Prometheus(生产级方案)
对于需要长期监控、可视化、告警的企业用户,可部署NVIDIA官方DCGM(Data Center GPU Manager)生态。
架构:
[dcgm-exporter] → [Prometheus] → [Grafana]
快速启动(Docker方式):
docker run -d --gpus all --rm -p 9400:9400 \
nvcr.io/nvidia/k8s/dcgm-exporter:3.3.7-3.5.1-ubuntu22.04
访问 http://<服务器IP>:9400/metrics 即可获取结构化指标(如 DCGM_FI_DEV_GPU_UTIL)。
配合Grafana导入NVIDIA官方Dashboard,实现:
- GPU利用率趋势图
- 显存泄漏预警
- 温度/功耗异常告警
🏢 适用场景:AI平台运维、SaaS服务商、科研集群管理
五、自定义脚本:结合cron实现自动记录
将关键指标写入日志,便于事后分析:
#!/bin/bash
# gpu_monitor.sh
LOGFILE="/var/log/gpu_usage.log"
DATE=$(date '+%Y-%m-%d %H:%M:%S')
UTIL=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits)
MEM=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits)
echo "[$DATE] GPU-Util: ${UTIL}%, Mem-Used: ${MEM}MiB" >> $LOGFILE
# 若利用率持续低于5%,可能任务已挂起,发送通知(可选)
if [ "$UTIL" -lt 5 ]; then
echo "Warning: GPU underutilized!" | mail -s "GPU Alert" admin@yourdomain.com
fi
设置每5分钟记录一次:
crontab -e
*/5 * * * * /bin/bash /root/gpu_monitor.sh
TOP云香港GPU服务器监控优势
| 特性 | 对监控的价值 |
|---|---|
| 原生IP + 100M独享带宽 | 远程SSH连接流畅,实时监控无卡顿 |
| RTX5060TI 16G大显存 | 支持多任务并行,需精细监控资源分配 |
| 物理服务器无虚拟化开销 | nvidia-smi 数据真实反映硬件状态 |
| 攻击只封IP不关机 | 监控进程持续运行,即使主IP被封仍可通过备用IP接入 |
| 支持多用户/多项目 | gpustat/nvtop 可清晰区分各用户负载 |
最佳实践建议
- 日常开发:使用
gpustat -i 2快速查看 - 长时间训练:后台运行
nvtop或日志脚本 - 团队协作:部署
dcgm-exporter + Grafana实现共享看板 - 异常响应:设置温度 >85°C 或显存突增告警
立即体验高性能GPU监控!
让您的每一分算力都“看得见、管得住”!
👉 现在就选购一台TOP云香港GPU服务器,开启专业级AI运维之旅:
🔗 https://c.topyun.vip/cart?fid=9&gid=203
- CPU可选:i3 / E3 / i5 / i7 / 双路E5 / 双路Gold 6138
- GPU可选:G710 / RTX3050 / RTX5060TI 16G
- 内存8GB–128GB|带宽30M–100M独享BGP
- ¥799起/月,新用户快速交付!
TOP云 · 让GPU不再“黑盒”
原生IP|三网BGP|攻击无忧|免费解封|技术团队全程支持




