容器编排：在香港GPU服务器部署Kubernetes集群

1 月 26, 2026 #AI训练服务器, #G710显卡服务器, #GPU加速服务器, #GPU服务器租用, #PyTorch服务器, #RTX3050服务器, #RTX5060TI服务器, #TensorFlow服务器, #企业级香港服务器, #免备案服务器, #区块链服务器香港, #显卡服务器, #服务器配置自定义, #机器学习服务器, #深度学习服务器, #渲染服务器香港, #游戏服务器香港, #科学计算服务器, #站群服务器香港, #虚拟化服务器, #香港100M带宽服务器, #香港30M带宽服务器, #香港BGP服务器, #香港CN2服务器, #香港E5-2620v2服务器, #香港Gold 6138服务器, #香港GPU云服务器, #香港GPU服务器, #香港GPU物理服务器, #香港i7-8700服务器, #香港TOP云服务器, #香港大带宽服务器, #香港数据中心, #香港显卡服务器租用, #香港服务器fid=9, #香港服务器gid=203, #香港服务器优惠, #香港服务器低至799元, #香港服务器性价比, #香港服务器托管, #香港服务器技术支持, #香港服务器新上线, #香港服务器方案, #香港服务器月付, #香港服务器租用, #香港服务器试用, #香港服务器购买, #香港物理服务器, #香港独立服务器, #香港高防服务器, #高性能计算服务器

喜讯：国内、香港、海外云服务器租用特惠活动，2核/4G/10M仅需31元每月，点击抢购>>>

TOP云新上线香港GPU显卡物理服务器，CPU有i3-7100、E3-1245v3、i5-7400、i7-8700、E5-2620v2、Gold 6138可选；GPU显卡有G710 2G、RTX3050 6G、RTX5060TI 16G；内存8G-128G可选，带宽有30M-100M可选，价格低至799元/月，购买链接：https://c.topyun.vip/cart?fid=9&gid=203

容器编排：在香港GPU服务器部署Kubernetes集群

在AI模型训练、微服务推理、多租户SaaS平台等场景中，单机部署已难以满足弹性伸缩、高可用与资源隔离的需求。借助 Kubernetes（K8s），您可将多台 TOP云香港GPU显卡物理服务器（支持 i3/E3/i5/i7/双路E5/双路Gold 6138 + G710/RTX3050/RTX5060TI 16G，内存最高128GB，带宽30–100M独享BGP，月付低至¥799）组成一个统一的容器编排集群，实现：

✅ GPU资源共享与调度：多个AI任务按需分配GPU
✅ 自动扩缩容（HPA）：根据QPS或GPU利用率动态增减Pod
✅ 滚动更新无感发布：模型升级零停机
✅ 故障自愈：Pod崩溃自动重建

本文将手把手教您从零搭建一个生产级K8s GPU集群，涵盖网络、存储、GPU插件、Ingress等核心组件配置。

一、集群规划建议（基于TOP云硬件）

节点类型	推荐配置	数量	说明
Master节点	i7-8700 / 双路E5 + 32GB+内存	1–3	控制平面，建议高内存
Worker节点	i5/i7/双路E5/Gold + RTX5060TI 16G	≥2	运行GPU工作负载
网络	所有节点内网互通，公网IP用于Ingress	—	TOP云支持多IP，可分配独立管理IP

💡 最小可行集群：1台 i7-8700（Master+Worker） + 1台双路E5（Worker） → 总成本约 ¥3200/月

二、前置条件准备

1. 操作系统

所有节点安装 Ubuntu 22.04 LTS（推荐）或 CentOS 7+

关闭防火墙（或开放必要端口）：

sudo ufw disable  # Ubuntu
sudo systemctl stop firewalld  # CentOS

2. 主机名与Hosts

# 在每台机器设置唯一主机名
sudo hostnamectl set-hostname master
sudo hostnamectl set-hostname worker1
sudo hostnamectl set-hostname worker2

# 同步 /etc/hosts
echo "10.0.0.10 master" | sudo tee -a /etc/hosts
echo "10.0.0.11 worker1" | sudo tee -a /etc/hosts
echo "10.0.0.12 worker2" | sudo tee -a /etc/hosts

3. 禁用Swap（K8s强制要求）

sudo swapoff -a
sudo sed -i '/ swap / s/^/#/' /etc/fstab

4. 安装Docker + NVIDIA Container Runtime

# 安装Docker
curl -fsSL https://get.docker.com | sh

# 安装NVIDIA驱动（如未预装）
sudo apt install nvidia-driver-535 -y

# 安装nvidia-container-toolkit
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sed 's#https://#'"https://mirrors.aliyun.com/"'#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update && sudo apt install -y nvidia-container-toolkit

# 配置Docker使用nvidia runtime
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

验证：

sudo docker run --rm --gpus all nvidia/cuda:12.1-base nvidia-smi
# 应显示GPU信息

三、部署Kubernetes集群（使用kubeadm）

在Master节点执行：

1. 安装kubeadm、kubelet、kubectl

sudo apt install -y apt-transport-https ca-certificates curl
curl -fsSLo /usr/share/keyrings/kubernetes-archive-keyring.gpg https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.29/deb/kubernetes-archive-keyring.gpg
echo "deb [signed-by=/usr/share/keyrings/kubernetes-archive-keyring.gpg] https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.29/deb/ /" | sudo tee /etc/apt/sources.list.d/kubernetes.list
sudo apt update
sudo apt install -y kubelet kubeadm kubectl
sudo apt-mark hold kubelet kubeadm kubectl

2. 初始化Master

sudo kubeadm init \
  --pod-network-cidr=10.244.0.0/16 \
  --apiserver-advertise-address=10.0.0.10  # Master内网IP

3. 配置kubectl

mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

4. 安装CNI网络插件（Flannel）

kubectl apply -f https://github.com/flannel-io/flannel/releases/latest/download/kube-flannel.yml

在Worker节点加入集群：

运行 kubeadm init 输出中的 kubeadm join ... 命令，例如：

sudo kubeadm join 10.0.0.10:6443 --token abcdef... --discovery-token-ca-cert-hash sha256:...

✅ 验证：在Master执行 kubectl get nodes，应看到所有节点状态为 Ready

四、启用GPU支持：部署NVIDIA Device Plugin

# 安装官方Device Plugin
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.5/nvidia-device-plugin.yml

验证GPU资源：

kubectl describe nodes | grep nvidia.com/gpu
# 应显示每个Worker节点的GPU数量（如 nvidia.com/gpu: 1）

五、部署GPU工作负载示例

创建 gpu-pod.yaml：

apiVersion: v1
kind: Pod
metadata:
  name: gpu-test
spec:
  containers:
    - name: cuda-container
      image: nvidia/cuda:12.1-base
      command: ["sleep", "3600"]
      resources:
        limits:
          nvidia.com/gpu: 1  # 请求1个GPU
  restartPolicy: Never

部署并验证：

kubectl apply -f gpu-pod.yaml
kubectl exec -it gpu-test -- nvidia-smi

六、进阶组件部署（生产必备）

1. Ingress Controller（对外暴露服务）

helm repo add ingress-nginx https://kubernetes.github.io/ingress-nginx
helm install ingress-nginx ingress-nginx/ingress-nginx

2. 持久化存储（Local Path Provisioner）

kubectl apply -f https://raw.githubusercontent.com/rancher/local-path-provisioner/v0.0.24/deploy/local-path-storage.yaml
kubectl patch storageclass local-path -p '{"metadata": {"annotations":{"storageclass.kubernetes.io/is-default-class":"true"}}}'

3. 监控（Prometheus + Grafana）

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm install prometheus prometheus-community/kube-prometheus-stack

七、TOP云K8s集群优势

特性	价值
物理服务器	无虚拟化开销，GPU直通性能100%
RTX5060TI 16G大显存	单Pod可加载更大模型
100M独享BGP带宽	Ingress流量不争抢训练带宽
多IP支持	Master/Worker/Ingress可分配独立公网IP
攻击只封IP不关机	某服务IP被DDoS，集群其他节点仍可用

八、成本优化建议

混合节点池：高配（Gold 6138）跑训练，低配（i5）跑推理
自动伸缩：结合KEDA基于消息队列触发扩缩容
Spot实例替代：TOP云物理服务器稳定性远超云厂商Spot

立即构建您的AI云原生平台！

告别单机限制，拥抱弹性GPU算力！
👉 现在就选购多台TOP云香港GPU服务器，组建K8s集群：
🔗 https://c.topyun.vip/cart?fid=9&gid=203

推荐组合：
- Master：i7-8700 + 32GB内存 → ¥1199/月
- Worker×2：双路E5 + RTX5060TI 16G → ¥1999×2/月
总成本约 ¥5200/月，获得 40核80线程 + 2×RTX5060TI + 192GB内存 的AI集群
技术支持提供 K8s一键部署脚本

TOP云 · 云原生就绪，AI规模化首选
原生IP｜三网BGP｜攻击无忧｜免费解封
让您的GPU资源，像水电一样按需使用！

围观: 69

由阿, 信

人工智能

容器编排：在香港GPU服务器部署Kubernetes集群

一、集群规划建议（基于TOP云硬件）

二、前置条件准备

1. 操作系统

2. 主机名与Hosts

3. 禁用Swap（K8s强制要求）

4. 安装Docker + NVIDIA Container Runtime

三、部署Kubernetes集群（使用kubeadm）

在Master节点执行：

1. 安装kubeadm、kubelet、kubectl

2. 初始化Master

3. 配置kubectl

4. 安装CNI网络插件（Flannel）

在Worker节点加入集群：

四、启用GPU支持：部署NVIDIA Device Plugin

五、部署GPU工作负载示例

六、进阶组件部署（生产必备）

1. Ingress Controller（对外暴露服务）

2. 持久化存储（Local Path Provisioner）

3. 监控（Prometheus + Grafana）

七、TOP云K8s集群优势

八、成本优化建议

立即构建您的AI云原生平台！

由阿, 信

百度智能云GPU实例支持热迁移与自动恢复，最大限度保障业务无感知运行

NVIDIA A10 vs L20 vs T4：在百度智能云上如何根据业务场景选择GPU卡？

如何利用抢占实例实现成本节约90%？百度GPU云服务器灵活计费模式实战

You missed

游戏社区服务器租用：R9-9950X 32核支撑5000人论坛+游戏服同时运行

游戏开发测试环境：R9-9950X物理服务器模拟万人同时在线场景

CS2/瓦罗兰特私服：R9-9950X物理服务器5.7GHz高频保证零卡顿

游戏加速器后端：R9-9950X 3D物理服务器低延迟高并发解决方案

容器编排：在香港GPU服务器部署Kubernetes集群

一、集群规划建议（基于TOP云硬件）

二、前置条件准备

1. 操作系统

2. 主机名与Hosts

3. 禁用Swap（K8s强制要求）

4. 安装Docker + NVIDIA Container Runtime

三、部署Kubernetes集群（使用kubeadm）

在Master节点执行：

1. 安装kubeadm、kubelet、kubectl

2. 初始化Master

3. 配置kubectl

4. 安装CNI网络插件（Flannel）

在Worker节点加入集群：

四、启用GPU支持：部署NVIDIA Device Plugin

五、部署GPU工作负载示例

六、进阶组件部署（生产必备）

1. Ingress Controller（对外暴露服务）

2. 持久化存储（Local Path Provisioner）

3. 监控（Prometheus + Grafana）

七、TOP云K8s集群优势

八、成本优化建议

立即构建您的AI云原生平台！

由 阿, 信

相关文章

百度智能云GPU实例支持热迁移与自动恢复，最大限度保障业务无感知运行

NVIDIA A10 vs L20 vs T4：在百度智能云上如何根据业务场景选择GPU卡？

如何利用抢占实例实现成本节约90%？百度GPU云服务器灵活计费模式实战

You missed

游戏社区服务器租用：R9-9950X 32核支撑5000人论坛+游戏服同时运行

游戏开发测试环境：R9-9950X物理服务器模拟万人同时在线场景

CS2/瓦罗兰特私服：R9-9950X物理服务器5.7GHz高频保证零卡顿

游戏加速器后端：R9-9950X 3D物理服务器低延迟高并发解决方案

由阿, 信