TOP云新上线香港GPU显卡物理服务器,CPU有i3-7100、E3-1245v3、i5-7400、i7-8700、E5-2620v2、Gold 6138可选;GPU显卡有G710 2G、RTX3050 6G、RTX5060TI 16G;内存8G-128G可选,带宽有30M-100M可选,价格低至799元/月,购买链接:https://c.topyun.vip/cart?fid=9&gid=203
性能监控面板:香港GPU服务器Grafana+Prometheus
在运行 TOP云新上线的香港GPU显卡物理服务器(支持 i3/E3/i5/i7/双路E5/双路Gold 6138 + G710/RTX3050/RTX5060TI 16G,内存最高128GB,带宽30–100M独享BGP,月付低至¥799)时,您是否曾面临以下困境?
- 📉 训练任务突然变慢,却不知是 CPU 瓶颈、内存不足还是 GPU 利用率低下?
- 🔥 服务器温度飙升,但无预警导致硬件降频甚至宕机?
- 💸 带宽跑满,影响跨境数据同步,却无法定位是哪个进程在“偷跑”流量?
此时,一套 实时、可视化、可告警的监控系统 就如同为您的服务器装上“驾驶舱仪表盘”。通过 Prometheus(时序数据库) + Grafana(可视化面板) + Node Exporter + DCGM Exporter 的组合,您可全面掌握:
- ✅ GPU 核心指标:利用率、显存占用、温度、功耗
- ✅ 系统资源:CPU 负载、内存使用、磁盘 I/O、网络吞吐
- ✅ 自定义告警:当 GPU 温度 >85°C 或训练任务停滞时,自动微信/邮件通知
本文将手把手教您在 TOP 云 GPU 服务器上部署这套企业级监控栈,15 分钟内搭建专属 Dashboard。
一、架构概览
[ GPU Server ]
│
├── node_exporter → 采集 CPU/内存/磁盘/网络
├── dcgm-exporter → 采集 NVIDIA GPU 指标(需驱动 ≥450)
│
└── Prometheus → 拉取指标 + 存储时序数据
│
└── Grafana → 可视化展示 + 告警
💡 为什么选 Prometheus + Grafana?
- 开源免费、社区活跃
- 插件丰富(支持 GPU/NVIDIA DCGM)
- 与 Kubernetes/AI 工具链天然集成
二、前置条件
- 已安装 NVIDIA 驱动 ≥450(推荐 535+)
nvidia-smi # 确认驱动版本 - 开放端口:
9090(Prometheus)、3000(Grafana)、9100(Node Exporter)、9400(DCGM)
三、安装 Node Exporter(系统指标)
# 下载最新版
wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gz
tar xvfz node_exporter-*.tar.gz
sudo mv node_exporter-1.7.0.linux-amd64/node_exporter /usr/local/bin/
# 创建 systemd 服务
sudo tee /etc/systemd/system/node_exporter.service <<EOF
[Unit]
Description=Node Exporter
After=network.target
[Service]
User=root
ExecStart=/usr/local/bin/node_exporter
Restart=always
[Install]
WantedBy=multi-user.target
EOF
# 启动
sudo systemctl daemon-reexec
sudo systemctl enable --now node_exporter
✅ 验证:访问 http://<your-server-ip>:9100/metrics 应返回大量指标
四、安装 DCGM Exporter(GPU 指标)
NVIDIA 官方提供的 Data Center GPU Manager (DCGM) Exporter 可暴露 50+ 项 GPU 指标。
方法1:Docker 方式(推荐)
# 拉取镜像
docker run -d --gpus all --rm -p 9400:9400 \
--name dcgm-exporter \
nvcr.io/nvidia/k8s/dcgm-exporter:3.3.7-3.2.0-ubuntu22.04
方法2:直接安装(无 Docker 环境)
# 安装 DCGM
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install datacenter-gpu-manager -y
sudo systemctl start dcpm
# 下载 dcgm-exporter
wget https://developer.download.nvidia.com/compute/dcgm/redist/dcgm-exporter/linux-amd64/dcgm-exporter_3.3.7_amd64.deb
sudo dpkg -i dcgm-exporter_3.3.7_amd64.deb
sudo systemctl enable --now dcgm-exporter
✅ 验证:访问 http://<your-server-ip>:9400/metrics 应包含 DCGM_FI_DEV_GPU_UTIL、DCGM_FI_DEV_MEM_COPY_UTIL 等
五、安装 Prometheus
# 下载
wget https://github.com/prometheus/prometheus/releases/download/v2.47.1/prometheus-2.47.1.linux-amd64.tar.gz
tar xvfz prometheus-*.tar.gz
sudo mv prometheus-2.47.1.linux-amd64 /opt/prometheus
# 创建配置文件 /opt/prometheus/prometheus.yml
global:
scrape_interval: 15s
scrape_configs:
- job_name: 'gpu-server'
static_configs:
- targets: ['localhost:9100', 'localhost:9400']
创建 systemd 服务
sudo tee /etc/systemd/system/prometheus.service <<EOF
[Unit]
Description=Prometheus
After=network.target
[Service]
User=root
WorkingDirectory=/opt/prometheus
ExecStart=/opt/prometheus/prometheus --config.file=prometheus.yml --storage.tsdb.path=data
Restart=always
[Install]
WantedBy=multi-user.target
EOF
sudo systemctl daemon-reexec
sudo systemctl enable --now prometheus
✅ 验证:访问 http://<your-server-ip>:9090/targets,两个 target 应为 UP
六、安装 Grafana
# 添加官方仓库
sudo apt install -y software-properties-common
sudo add-apt-repository "deb https://packages.grafana.com/oss/deb stable main"
wget -q -O - https://packages.grafana.com/gpg.key | sudo gpg --dearmor -o /usr/share/keyrings/grafana.gpg
# 安装
sudo apt update
sudo apt install grafana -y
sudo systemctl enable --now grafana-server
✅ 访问 http://<your-server-ip>:3000,默认账号 admin/admin
七、配置 Grafana Dashboard
- 添加数据源:
- Configuration → Data Sources → Add data source
- 选择 Prometheus
- URL:
http://localhost:9090→ Save & Test
- 导入预设 Dashboard:
- Go to Create → Import
- 输入 ID:1860(Node Exporter Full)
- 输入 ID:12239(NVIDIA DCGM Exporter)
- 选择 Prometheus 数据源 → Import
- 效果预览:
- 系统面板:CPU 使用率、内存、磁盘 IO、网络流量
- GPU 面板:
- GPU 利用率(SM Active)
- 显存使用(FB Used)
- 温度(Temperature)
- 功耗(Power Usage)
- PCIe 带宽(TX/RX Throughput)
🖼️ 示例截图(文字描述):
- 上半区:6块 RTX5060TI 实时温度曲线(均 <80°C)
- 下半区:CPU 负载 4.2/12 cores,内存使用 64/128GB,网络出口 45Mbps
八、配置告警(以 GPU 高温为例)
- 在 Grafana 中进入 Alerting → Notification policies
- 添加 Contact point(如 Webhook 到企业微信/钉钉)
- 在 Dashboard Panel 中点击 Alert → Create alert rule
- 条件:
DCGM_FI_DEV_TEMPERATURE > 85 - 持续时间:2 分钟
- 消息:
⚠️ GPU 温度过高!当前 {{value}}°C,请检查散热!
- 条件:
九、TOP云 GPU 服务器监控优势
| 特性 | 价值 |
|---|---|
| 物理服务器直通硬件 | DCGM 可获取真实 GPU 指标,无虚拟化损耗 |
| 高配机型多核支持 | Gold 6138 可轻松运行整套监控栈 |
| 100M独享带宽 | 远程访问 Grafana 面板流畅无卡顿 |
| 技术支持协助 | 提供一键部署脚本 + 预配置 Dashboard JSON |
十、安全建议
- 🔒 限制 Grafana 外网访问:通过 Nginx 反向代理 + Basic Auth
- 🔐 Prometheus 启用 TLS(生产环境)
- 🧼 定期清理旧数据:配置
--storage.tsdb.retention.time=30d
立即为您的GPU服务器装上“智能仪表盘”!
告别盲跑,掌控每一瓦算力!
👉 现在就选购TOP云香港GPU服务器,体验专业级监控能力:
🔗 https://c.topyun.vip/cart?fid=9&gid=203
- 入门款:i5-7400 + RTX3050 → ¥999/月(基础监控)
- 主力款:i7-8700 + RTX5060TI 16G → ¥1199/月(完整GPU指标)
- 旗舰款:双路Gold 6138 + RTX5060TI → ¥2999/月(多卡集群监控)
- 带宽30M–100M独享BGP,三网优化直达内地
TOP云 · 可视化运维,尽在掌握
原生IP|三网BGP|攻击只封IP不关机|免费解封
让您的AI算力,始终运行在最佳状态!




