TOP云新上线香港GPU显卡物理服务器,CPU有i3-7100、E3-1245v3、i5-7400、i7-8700、E5-2620v2、Gold 6138可选;GPU显卡有G710 2G、RTX3050 6G、RTX5060TI 16G;内存8G-128G可选,带宽有30M-100M可选,价格低至799元/月,购买链接:https://c.topyun.vip/cart?fid=9&gid=203

性能监控面板:香港GPU服务器Grafana+Prometheus

在运行 TOP云新上线的香港GPU显卡物理服务器(支持 i3/E3/i5/i7/双路E5/双路Gold 6138 + G710/RTX3050/RTX5060TI 16G,内存最高128GB,带宽30–100M独享BGP,月付低至¥799)时,您是否曾面临以下困境?

  • 📉 训练任务突然变慢,却不知是 CPU 瓶颈、内存不足还是 GPU 利用率低下?
  • 🔥 服务器温度飙升,但无预警导致硬件降频甚至宕机?
  • 💸 带宽跑满,影响跨境数据同步,却无法定位是哪个进程在“偷跑”流量?

此时,一套 实时、可视化、可告警的监控系统 就如同为您的服务器装上“驾驶舱仪表盘”。通过 Prometheus(时序数据库) + Grafana(可视化面板) + Node Exporter + DCGM Exporter 的组合,您可全面掌握:

  • GPU 核心指标:利用率、显存占用、温度、功耗
  • 系统资源:CPU 负载、内存使用、磁盘 I/O、网络吞吐
  • 自定义告警:当 GPU 温度 >85°C 或训练任务停滞时,自动微信/邮件通知

本文将手把手教您在 TOP 云 GPU 服务器上部署这套企业级监控栈,15 分钟内搭建专属 Dashboard。


一、架构概览

[ GPU Server ]
│
├── node_exporter      → 采集 CPU/内存/磁盘/网络
├── dcgm-exporter      → 采集 NVIDIA GPU 指标(需驱动 ≥450)
│
└── Prometheus         → 拉取指标 + 存储时序数据
     │
     └── Grafana       → 可视化展示 + 告警

💡 为什么选 Prometheus + Grafana

  • 开源免费、社区活跃
  • 插件丰富(支持 GPU/NVIDIA DCGM)
  • 与 Kubernetes/AI 工具链天然集成

二、前置条件

  • 已安装 NVIDIA 驱动 ≥450(推荐 535+)
    nvidia-smi  # 确认驱动版本
    
  • 开放端口:9090(Prometheus)、3000(Grafana)、9100(Node Exporter)、9400(DCGM)

三、安装 Node Exporter(系统指标)

# 下载最新版
wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gz
tar xvfz node_exporter-*.tar.gz
sudo mv node_exporter-1.7.0.linux-amd64/node_exporter /usr/local/bin/

# 创建 systemd 服务
sudo tee /etc/systemd/system/node_exporter.service <<EOF
[Unit]
Description=Node Exporter
After=network.target

[Service]
User=root
ExecStart=/usr/local/bin/node_exporter
Restart=always

[Install]
WantedBy=multi-user.target
EOF

# 启动
sudo systemctl daemon-reexec
sudo systemctl enable --now node_exporter

✅ 验证:访问 http://<your-server-ip>:9100/metrics 应返回大量指标


四、安装 DCGM Exporter(GPU 指标)

NVIDIA 官方提供的 Data Center GPU Manager (DCGM) Exporter 可暴露 50+ 项 GPU 指标。

方法1:Docker 方式(推荐)

# 拉取镜像
docker run -d --gpus all --rm -p 9400:9400 \
  --name dcgm-exporter \
  nvcr.io/nvidia/k8s/dcgm-exporter:3.3.7-3.2.0-ubuntu22.04

方法2:直接安装(无 Docker 环境)

# 安装 DCGM
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install datacenter-gpu-manager -y
sudo systemctl start dcpm

# 下载 dcgm-exporter
wget https://developer.download.nvidia.com/compute/dcgm/redist/dcgm-exporter/linux-amd64/dcgm-exporter_3.3.7_amd64.deb
sudo dpkg -i dcgm-exporter_3.3.7_amd64.deb
sudo systemctl enable --now dcgm-exporter

✅ 验证:访问 http://<your-server-ip>:9400/metrics 应包含 DCGM_FI_DEV_GPU_UTILDCGM_FI_DEV_MEM_COPY_UTIL


五、安装 Prometheus

# 下载
wget https://github.com/prometheus/prometheus/releases/download/v2.47.1/prometheus-2.47.1.linux-amd64.tar.gz
tar xvfz prometheus-*.tar.gz
sudo mv prometheus-2.47.1.linux-amd64 /opt/prometheus

# 创建配置文件 /opt/prometheus/prometheus.yml
global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'gpu-server'
    static_configs:
      - targets: ['localhost:9100', 'localhost:9400']

创建 systemd 服务

sudo tee /etc/systemd/system/prometheus.service <<EOF
[Unit]
Description=Prometheus
After=network.target

[Service]
User=root
WorkingDirectory=/opt/prometheus
ExecStart=/opt/prometheus/prometheus --config.file=prometheus.yml --storage.tsdb.path=data
Restart=always

[Install]
WantedBy=multi-user.target
EOF

sudo systemctl daemon-reexec
sudo systemctl enable --now prometheus

✅ 验证:访问 http://<your-server-ip>:9090/targets,两个 target 应为 UP


六、安装 Grafana

# 添加官方仓库
sudo apt install -y software-properties-common
sudo add-apt-repository "deb https://packages.grafana.com/oss/deb stable main"
wget -q -O - https://packages.grafana.com/gpg.key | sudo gpg --dearmor -o /usr/share/keyrings/grafana.gpg

# 安装
sudo apt update
sudo apt install grafana -y
sudo systemctl enable --now grafana-server

✅ 访问 http://<your-server-ip>:3000,默认账号 admin/admin


七、配置 Grafana Dashboard

  1. 添加数据源
    • Configuration → Data Sources → Add data source
    • 选择 Prometheus
    • URL: http://localhost:9090 → Save & Test
  2. 导入预设 Dashboard
    • Go to Create → Import
    • 输入 ID:1860(Node Exporter Full)
    • 输入 ID:12239(NVIDIA DCGM Exporter)
    • 选择 Prometheus 数据源 → Import
  3. 效果预览
    • 系统面板:CPU 使用率、内存、磁盘 IO、网络流量
    • GPU 面板
      • GPU 利用率(SM Active)
      • 显存使用(FB Used)
      • 温度(Temperature)
      • 功耗(Power Usage)
      • PCIe 带宽(TX/RX Throughput)

🖼️ 示例截图(文字描述):

  • 上半区:6块 RTX5060TI 实时温度曲线(均 <80°C)
  • 下半区:CPU 负载 4.2/12 cores,内存使用 64/128GB,网络出口 45Mbps

八、配置告警(以 GPU 高温为例)

  1. 在 Grafana 中进入 Alerting → Notification policies
  2. 添加 Contact point(如 Webhook 到企业微信/钉钉)
  3. 在 Dashboard Panel 中点击 Alert → Create alert rule
    • 条件:DCGM_FI_DEV_TEMPERATURE > 85
    • 持续时间:2 分钟
    • 消息:⚠️ GPU 温度过高!当前 {{value}}°C,请检查散热!

九、TOP云 GPU 服务器监控优势

特性 价值
物理服务器直通硬件 DCGM 可获取真实 GPU 指标,无虚拟化损耗
高配机型多核支持 Gold 6138 可轻松运行整套监控栈
100M独享带宽 远程访问 Grafana 面板流畅无卡顿
技术支持协助 提供一键部署脚本 + 预配置 Dashboard JSON

十、安全建议

  • 🔒 限制 Grafana 外网访问:通过 Nginx 反向代理 + Basic Auth
  • 🔐 Prometheus 启用 TLS(生产环境)
  • 🧼 定期清理旧数据:配置 --storage.tsdb.retention.time=30d

立即为您的GPU服务器装上“智能仪表盘”!

告别盲跑,掌控每一瓦算力!
👉 现在就选购TOP云香港GPU服务器,体验专业级监控能力
🔗 https://c.topyun.vip/cart?fid=9&gid=203

  • 入门款:i5-7400 + RTX3050 → ¥999/月(基础监控)
  • 主力款:i7-8700 + RTX5060TI 16G → ¥1199/月(完整GPU指标)
  • 旗舰款:双路Gold 6138 + RTX5060TI → ¥2999/月(多卡集群监控)
  • 带宽30M–100M独享BGP,三网优化直达内地

TOP云 · 可视化运维,尽在掌握
原生IP|三网BGP|攻击只封IP不关机|免费解封
让您的AI算力,始终运行在最佳状态!

阿, 信