TOP云新上线香港GPU显卡物理服务器,CPU有i3-7100、E3-1245v3、i5-7400、i7-8700、E5-2620v2、Gold 6138可选;GPU显卡有G710 2G、RTX3050 6G、RTX5060TI 16G;内存8G-128G可选,带宽有30M-100M可选,价格低至799元/月,购买链接:https://c.topyun.vip/cart?fid=9&gid=203

监控GPU状态:香港服务器常用命令行工具介绍

在AI训练、深度学习推理或高性能计算任务中,实时掌握GPU使用率、显存占用、温度与功耗等关键指标,是保障服务稳定、优化资源调度、预防硬件故障的核心手段。尤其当您部署在TOP云香港GPU显卡物理服务器(支持 RTX3050 / RTX5060TI 16G 等高性能显卡,内存最高128GB,带宽30–100M独享BGP)上运行长时间任务时,一套高效的监控体系不可或缺。

本文将为您系统介绍5款Linux命令行下最实用的GPU监控工具,从基础状态查看到高级性能分析,助您全面掌控GPU运行状态,最大化算力投资回报。


一、必备基础:nvidia-smi —— NVIDIA官方“瑞士军刀”

几乎所有NVIDIA GPU用户的第一选择,无需额外安装(随驱动自带)。

常用命令:

# 实时查看GPU状态(默认每秒刷新)
nvidia-smi

# 持续监控(每2秒刷新一次)
nvidia-smi -l 2

# 仅显示关键指标(适合脚本调用)
nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total,power.draw --format=csv

输出解读(以RTX5060TI为例):

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A     12345      C   python                                     14567MiB |
+---------------------------------------------------------------------------------------+
  • GPU-Util:核心利用率(>80% 表示满载)
  • Memory-Usage:显存占用(RTX5060TI 16G ≈ 16384MiB)
  • Temp:温度(安全范围通常 <85°C)
  • Power Draw:当前功耗(对比TDP判断是否降频)

优势:轻量、实时、支持所有NVIDIA消费级/专业卡
⚠️ 局限:无法记录历史数据,需配合其他工具实现日志化


二、进阶监控:gpustat —— 美观简洁的终端增强版

基于nvidia-smi封装,输出更友好,支持颜色高亮与进程详情。

安装(需Python环境):

pip install gpustat

使用:

# 实时监控(每1秒刷新)
gpustat -i 1

# 显示用户、CPU占用、时间等扩展信息
gpustat -cpu

输出示例:

[0] NVIDIA GeForce RTX 5060 Ti | 72°C, 145 / 16384 MB | python(12345:youruser) @ 92%

💡 适合快速定位“谁在吃GPU”——尤其在多用户共享服务器场景。


三、性能剖析:nvtop —— GPU版“htop”

类比系统监控工具 htop,提供交互式、图形化终端界面,支持排序、筛选、进程管理。

安装(Ubuntu/Debian):

sudo apt install nvtop

启动:

nvtop

功能亮点:

  • 实时显存/算力柱状图
  • 按显存或利用率排序进程
  • 支持键盘操作(如 k 终止进程)
  • 兼容NVIDIA、AMD、Intel GPU(通过不同后端)

推荐场景:长时间训练任务监控、异常进程排查


四、日志与告警:dcgm-exporter + Prometheus(生产级方案)

对于需要长期监控、可视化、告警的企业用户,可部署NVIDIA官方DCGM(Data Center GPU Manager)生态。

架构:

[dcgm-exporter] → [Prometheus] → [Grafana]

快速启动(Docker方式):

docker run -d --gpus all --rm -p 9400:9400 \
  nvcr.io/nvidia/k8s/dcgm-exporter:3.3.7-3.5.1-ubuntu22.04

访问 http://<服务器IP>:9400/metrics 即可获取结构化指标(如 DCGM_FI_DEV_GPU_UTIL)。

配合Grafana导入NVIDIA官方Dashboard,实现:

  • GPU利用率趋势图
  • 显存泄漏预警
  • 温度/功耗异常告警

🏢 适用场景:AI平台运维、SaaS服务商、科研集群管理


五、自定义脚本:结合cron实现自动记录

将关键指标写入日志,便于事后分析:

#!/bin/bash
# gpu_monitor.sh
LOGFILE="/var/log/gpu_usage.log"
DATE=$(date '+%Y-%m-%d %H:%M:%S')
UTIL=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits)
MEM=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits)

echo "[$DATE] GPU-Util: ${UTIL}%, Mem-Used: ${MEM}MiB" >> $LOGFILE

# 若利用率持续低于5%,可能任务已挂起,发送通知(可选)
if [ "$UTIL" -lt 5 ]; then
  echo "Warning: GPU underutilized!" | mail -s "GPU Alert" admin@yourdomain.com
fi

设置每5分钟记录一次:

crontab -e
*/5 * * * * /bin/bash /root/gpu_monitor.sh

TOP云香港GPU服务器监控优势

特性 对监控的价值
原生IP + 100M独享带宽 远程SSH连接流畅,实时监控无卡顿
RTX5060TI 16G大显存 支持多任务并行,需精细监控资源分配
物理服务器无虚拟化开销 nvidia-smi 数据真实反映硬件状态
攻击只封IP不关机 监控进程持续运行,即使主IP被封仍可通过备用IP接入
支持多用户/多项目 gpustat/nvtop 可清晰区分各用户负载

最佳实践建议

  1. 日常开发:使用 gpustat -i 2 快速查看
  2. 长时间训练:后台运行 nvtop 或日志脚本
  3. 团队协作:部署 dcgm-exporter + Grafana 实现共享看板
  4. 异常响应:设置温度 >85°C 或显存突增告警

立即体验高性能GPU监控!

让您的每一分算力都“看得见、管得住”!
👉 现在就选购一台TOP云香港GPU服务器,开启专业级AI运维之旅
🔗 https://c.topyun.vip/cart?fid=9&gid=203

  • CPU可选:i3 / E3 / i5 / i7 / 双路E5 / 双路Gold 6138
  • GPU可选:G710 / RTX3050 / RTX5060TI 16G
  • 内存8GB–128GB|带宽30M–100M独享BGP
  • ¥799起/月,新用户快速交付!

TOP云 · 让GPU不再“黑盒”
原生IP|三网BGP|攻击无忧|免费解封|技术团队全程支持

阿, 信