TOP云新上线香港GPU显卡物理服务器,CPU有i3-7100、E3-1245v3、i5-7400、i7-8700、E5-2620v2、Gold 6138可选;GPU显卡有G710 2G、RTX3050 6G、RTX5060TI 16G;内存8G-128G可选,带宽有30M-100M可选,价格低至799元/月,购买链接:https://c.topyun.vip/cart?fid=9&gid=203

容器编排:在香港GPU服务器部署Kubernetes集群

在AI模型训练、微服务推理、多租户SaaS平台等场景中,单机部署已难以满足弹性伸缩、高可用与资源隔离的需求。借助 Kubernetes(K8s),您可将多台 TOP云香港GPU显卡物理服务器(支持 i3/E3/i5/i7/双路E5/双路Gold 6138 + G710/RTX3050/RTX5060TI 16G,内存最高128GB,带宽30–100M独享BGP,月付低至¥799)组成一个统一的容器编排集群,实现:

  • GPU资源共享与调度:多个AI任务按需分配GPU
  • 自动扩缩容(HPA):根据QPS或GPU利用率动态增减Pod
  • 滚动更新无感发布:模型升级零停机
  • 故障自愈:Pod崩溃自动重建

本文将手把手教您从零搭建一个生产级K8s GPU集群,涵盖网络、存储、GPU插件、Ingress等核心组件配置。


一、集群规划建议(基于TOP云硬件)

节点类型 推荐配置 数量 说明
Master节点 i7-8700 / 双路E5 + 32GB+内存 1–3 控制平面,建议高内存
Worker节点 i5/i7/双路E5/Gold + RTX5060TI 16G ≥2 运行GPU工作负载
网络 所有节点内网互通,公网IP用于Ingress TOP云支持多IP,可分配独立管理IP

💡 最小可行集群:1台 i7-8700(Master+Worker) + 1台 双路E5(Worker) → 总成本约 ¥3200/月


二、前置条件准备

1. 操作系统

  • 所有节点安装 Ubuntu 22.04 LTS(推荐)或 CentOS 7+
  • 关闭防火墙(或开放必要端口):
    sudo ufw disable  # Ubuntu
    sudo systemctl stop firewalld  # CentOS
    

2. 主机名与Hosts

# 在每台机器设置唯一主机名
sudo hostnamectl set-hostname master
sudo hostnamectl set-hostname worker1
sudo hostnamectl set-hostname worker2

# 同步 /etc/hosts
echo "10.0.0.10 master" | sudo tee -a /etc/hosts
echo "10.0.0.11 worker1" | sudo tee -a /etc/hosts
echo "10.0.0.12 worker2" | sudo tee -a /etc/hosts

3. 禁用Swap(K8s强制要求)

sudo swapoff -a
sudo sed -i '/ swap / s/^/#/' /etc/fstab

4. 安装Docker + NVIDIA Container Runtime

# 安装Docker
curl -fsSL https://get.docker.com | sh

# 安装NVIDIA驱动(如未预装)
sudo apt install nvidia-driver-535 -y

# 安装nvidia-container-toolkit
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sed 's#https://#'"https://mirrors.aliyun.com/"'#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update && sudo apt install -y nvidia-container-toolkit

# 配置Docker使用nvidia runtime
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

验证:

sudo docker run --rm --gpus all nvidia/cuda:12.1-base nvidia-smi
# 应显示GPU信息

三、部署Kubernetes集群(使用kubeadm)

在Master节点执行:

1. 安装kubeadm、kubelet、kubectl
sudo apt install -y apt-transport-https ca-certificates curl
curl -fsSLo /usr/share/keyrings/kubernetes-archive-keyring.gpg https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.29/deb/kubernetes-archive-keyring.gpg
echo "deb [signed-by=/usr/share/keyrings/kubernetes-archive-keyring.gpg] https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.29/deb/ /" | sudo tee /etc/apt/sources.list.d/kubernetes.list
sudo apt update
sudo apt install -y kubelet kubeadm kubectl
sudo apt-mark hold kubelet kubeadm kubectl
2. 初始化Master
sudo kubeadm init \
  --pod-network-cidr=10.244.0.0/16 \
  --apiserver-advertise-address=10.0.0.10  # Master内网IP
3. 配置kubectl
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config
4. 安装CNI网络插件(Flannel)
kubectl apply -f https://github.com/flannel-io/flannel/releases/latest/download/kube-flannel.yml

在Worker节点加入集群:

运行 kubeadm init 输出中的 kubeadm join ... 命令,例如:

sudo kubeadm join 10.0.0.10:6443 --token abcdef... --discovery-token-ca-cert-hash sha256:...

✅ 验证:在Master执行 kubectl get nodes,应看到所有节点状态为 Ready


四、启用GPU支持:部署NVIDIA Device Plugin

# 安装官方Device Plugin
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.5/nvidia-device-plugin.yml

验证GPU资源:

kubectl describe nodes | grep nvidia.com/gpu
# 应显示每个Worker节点的GPU数量(如 nvidia.com/gpu: 1)

五、部署GPU工作负载示例

创建 gpu-pod.yaml

apiVersion: v1
kind: Pod
metadata:
  name: gpu-test
spec:
  containers:
    - name: cuda-container
      image: nvidia/cuda:12.1-base
      command: ["sleep", "3600"]
      resources:
        limits:
          nvidia.com/gpu: 1  # 请求1个GPU
  restartPolicy: Never

部署并验证:

kubectl apply -f gpu-pod.yaml
kubectl exec -it gpu-test -- nvidia-smi

六、进阶组件部署(生产必备)

1. Ingress Controller(对外暴露服务)

helm repo add ingress-nginx https://kubernetes.github.io/ingress-nginx
helm install ingress-nginx ingress-nginx/ingress-nginx

2. 持久化存储(Local Path Provisioner)

kubectl apply -f https://raw.githubusercontent.com/rancher/local-path-provisioner/v0.0.24/deploy/local-path-storage.yaml
kubectl patch storageclass local-path -p '{"metadata": {"annotations":{"storageclass.kubernetes.io/is-default-class":"true"}}}'

3. 监控(Prometheus + Grafana)

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm install prometheus prometheus-community/kube-prometheus-stack

七、TOP云K8s集群优势

特性 价值
物理服务器 无虚拟化开销,GPU直通性能100%
RTX5060TI 16G大显存 单Pod可加载更大模型
100M独享BGP带宽 Ingress流量不争抢训练带宽
多IP支持 Master/Worker/Ingress可分配独立公网IP
攻击只封IP不关机 某服务IP被DDoS,集群其他节点仍可用

八、成本优化建议

  • 混合节点池:高配(Gold 6138)跑训练,低配(i5)跑推理
  • 自动伸缩:结合KEDA基于消息队列触发扩缩容
  • Spot实例替代:TOP云物理服务器稳定性远超云厂商Spot

立即构建您的AI云原生平台!

告别单机限制,拥抱弹性GPU算力!
👉 现在就选购多台TOP云香港GPU服务器,组建K8s集群
🔗 https://c.topyun.vip/cart?fid=9&gid=203

  • 推荐组合
    • Master:i7-8700 + 32GB内存 → ¥1199/月
    • Worker×2:双路E5 + RTX5060TI 16G → ¥1999×2/月
  • 总成本约 ¥5200/月,获得 40核80线程 + 2×RTX5060TI + 192GB内存 的AI集群
  • 技术支持提供 K8s一键部署脚本

TOP云 · 云原生就绪,AI规模化首选
原生IP|三网BGP|攻击无忧|免费解封
让您的GPU资源,像水电一样按需使用!

阿, 信