TOP云新上线香港GPU显卡物理服务器,CPU有i3-7100、E3-1245v3、i5-7400、i7-8700、E5-2620v2、Gold 6138可选;GPU显卡有G710 2G、RTX3050 6G、RTX5060TI 16G;内存8G-128G可选,带宽有30M-100M可选,价格低至799元/月,购买链接:https://c.topyun.vip/cart?fid=9&gid=203
容器编排:在香港GPU服务器部署Kubernetes集群
在AI模型训练、微服务推理、多租户SaaS平台等场景中,单机部署已难以满足弹性伸缩、高可用与资源隔离的需求。借助 Kubernetes(K8s),您可将多台 TOP云香港GPU显卡物理服务器(支持 i3/E3/i5/i7/双路E5/双路Gold 6138 + G710/RTX3050/RTX5060TI 16G,内存最高128GB,带宽30–100M独享BGP,月付低至¥799)组成一个统一的容器编排集群,实现:
- ✅ GPU资源共享与调度:多个AI任务按需分配GPU
- ✅ 自动扩缩容(HPA):根据QPS或GPU利用率动态增减Pod
- ✅ 滚动更新无感发布:模型升级零停机
- ✅ 故障自愈:Pod崩溃自动重建
本文将手把手教您从零搭建一个生产级K8s GPU集群,涵盖网络、存储、GPU插件、Ingress等核心组件配置。
一、集群规划建议(基于TOP云硬件)
| 节点类型 | 推荐配置 | 数量 | 说明 |
|---|---|---|---|
| Master节点 | i7-8700 / 双路E5 + 32GB+内存 | 1–3 | 控制平面,建议高内存 |
| Worker节点 | i5/i7/双路E5/Gold + RTX5060TI 16G | ≥2 | 运行GPU工作负载 |
| 网络 | 所有节点内网互通,公网IP用于Ingress | — | TOP云支持多IP,可分配独立管理IP |
💡 最小可行集群:1台 i7-8700(Master+Worker) + 1台 双路E5(Worker) → 总成本约 ¥3200/月
二、前置条件准备
1. 操作系统
- 所有节点安装 Ubuntu 22.04 LTS(推荐)或 CentOS 7+
- 关闭防火墙(或开放必要端口):
sudo ufw disable # Ubuntu sudo systemctl stop firewalld # CentOS
2. 主机名与Hosts
# 在每台机器设置唯一主机名
sudo hostnamectl set-hostname master
sudo hostnamectl set-hostname worker1
sudo hostnamectl set-hostname worker2
# 同步 /etc/hosts
echo "10.0.0.10 master" | sudo tee -a /etc/hosts
echo "10.0.0.11 worker1" | sudo tee -a /etc/hosts
echo "10.0.0.12 worker2" | sudo tee -a /etc/hosts
3. 禁用Swap(K8s强制要求)
sudo swapoff -a
sudo sed -i '/ swap / s/^/#/' /etc/fstab
4. 安装Docker + NVIDIA Container Runtime
# 安装Docker
curl -fsSL https://get.docker.com | sh
# 安装NVIDIA驱动(如未预装)
sudo apt install nvidia-driver-535 -y
# 安装nvidia-container-toolkit
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sed 's#https://#'"https://mirrors.aliyun.com/"'#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update && sudo apt install -y nvidia-container-toolkit
# 配置Docker使用nvidia runtime
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
验证:
sudo docker run --rm --gpus all nvidia/cuda:12.1-base nvidia-smi
# 应显示GPU信息
三、部署Kubernetes集群(使用kubeadm)
在Master节点执行:
1. 安装kubeadm、kubelet、kubectl
sudo apt install -y apt-transport-https ca-certificates curl
curl -fsSLo /usr/share/keyrings/kubernetes-archive-keyring.gpg https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.29/deb/kubernetes-archive-keyring.gpg
echo "deb [signed-by=/usr/share/keyrings/kubernetes-archive-keyring.gpg] https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.29/deb/ /" | sudo tee /etc/apt/sources.list.d/kubernetes.list
sudo apt update
sudo apt install -y kubelet kubeadm kubectl
sudo apt-mark hold kubelet kubeadm kubectl
2. 初始化Master
sudo kubeadm init \
--pod-network-cidr=10.244.0.0/16 \
--apiserver-advertise-address=10.0.0.10 # Master内网IP
3. 配置kubectl
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config
4. 安装CNI网络插件(Flannel)
kubectl apply -f https://github.com/flannel-io/flannel/releases/latest/download/kube-flannel.yml
在Worker节点加入集群:
运行 kubeadm init 输出中的 kubeadm join ... 命令,例如:
sudo kubeadm join 10.0.0.10:6443 --token abcdef... --discovery-token-ca-cert-hash sha256:...
✅ 验证:在Master执行
kubectl get nodes,应看到所有节点状态为Ready
四、启用GPU支持:部署NVIDIA Device Plugin
# 安装官方Device Plugin
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.5/nvidia-device-plugin.yml
验证GPU资源:
kubectl describe nodes | grep nvidia.com/gpu
# 应显示每个Worker节点的GPU数量(如 nvidia.com/gpu: 1)
五、部署GPU工作负载示例
创建 gpu-pod.yaml:
apiVersion: v1
kind: Pod
metadata:
name: gpu-test
spec:
containers:
- name: cuda-container
image: nvidia/cuda:12.1-base
command: ["sleep", "3600"]
resources:
limits:
nvidia.com/gpu: 1 # 请求1个GPU
restartPolicy: Never
部署并验证:
kubectl apply -f gpu-pod.yaml
kubectl exec -it gpu-test -- nvidia-smi
六、进阶组件部署(生产必备)
1. Ingress Controller(对外暴露服务)
helm repo add ingress-nginx https://kubernetes.github.io/ingress-nginx
helm install ingress-nginx ingress-nginx/ingress-nginx
2. 持久化存储(Local Path Provisioner)
kubectl apply -f https://raw.githubusercontent.com/rancher/local-path-provisioner/v0.0.24/deploy/local-path-storage.yaml
kubectl patch storageclass local-path -p '{"metadata": {"annotations":{"storageclass.kubernetes.io/is-default-class":"true"}}}'
3. 监控(Prometheus + Grafana)
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm install prometheus prometheus-community/kube-prometheus-stack
七、TOP云K8s集群优势
| 特性 | 价值 |
|---|---|
| 物理服务器 | 无虚拟化开销,GPU直通性能100% |
| RTX5060TI 16G大显存 | 单Pod可加载更大模型 |
| 100M独享BGP带宽 | Ingress流量不争抢训练带宽 |
| 多IP支持 | Master/Worker/Ingress可分配独立公网IP |
| 攻击只封IP不关机 | 某服务IP被DDoS,集群其他节点仍可用 |
八、成本优化建议
- 混合节点池:高配(Gold 6138)跑训练,低配(i5)跑推理
- 自动伸缩:结合KEDA基于消息队列触发扩缩容
- Spot实例替代:TOP云物理服务器稳定性远超云厂商Spot
立即构建您的AI云原生平台!
告别单机限制,拥抱弹性GPU算力!
👉 现在就选购多台TOP云香港GPU服务器,组建K8s集群:
🔗 https://c.topyun.vip/cart?fid=9&gid=203
- 推荐组合:
- Master:i7-8700 + 32GB内存 → ¥1199/月
- Worker×2:双路E5 + RTX5060TI 16G → ¥1999×2/月
- 总成本约 ¥5200/月,获得 40核80线程 + 2×RTX5060TI + 192GB内存 的AI集群
- 技术支持提供 K8s一键部署脚本
TOP云 · 云原生就绪,AI规模化首选
原生IP|三网BGP|攻击无忧|免费解封
让您的GPU资源,像水电一样按需使用!




