
| 功能 | 容器服务 VKE | 自建 Kubernetes |
|---|---|---|
| 集群管理 | 支持通过控制台快速创建集群,支持 GPU 云服务器和弹性裸金属服务器。提供经过稳定测试和安全加固的 Kubernetes 版本。 | 需要手动部署集群,并自行探索和开发。 |
| 网络管理 | 提供高性能的网络插件,支持多种网络模型。 | 需要选择社区网络插件进行适配。 |
| 存储管理 | 支持火山引擎 EBS、TOS、NAS 等多种类型存储,提供标准 CSI 组件。 | 需要自行搭建存储,并开发 CSI 接入。 |
| 应用管理 | 支持灰度发布、蓝绿发布。支持应用监控、弹性伸缩。 | 需要自行探索和开发。 |
| 运维管理 | 支持 Kubernetes 版本一键升级,支持集群手动和自动弹性伸缩。支持高性能日志采集 Agent,实现容器、组件、控制面等多维度日志采集。对接托管 Prometheus 服务,实现集群、组件、应用监控。 | 需要手动部署监控、日志系统。 |
| 服务保障 | 火山引擎专业的容器支持团队,支撑了字节跳动内部海量业务的正常运行,积累了大量最佳实践和管理经验。提供服务可用性等级指标及赔偿方案 SLA。 | 需要组建专业的服务团队,无 SLA 保障。 |
| 安全管理 | 满足不同隔离级别,完全托管,默认安全加固。结合全方位网络安全隔离管控和细粒度的访问控制,实现服务和数据的安全性和高可用性。 | 自行保障环境安全。 |
| 横向产品 | 支持横向对接多种类型的云产品,打通 DevOps、机器学习等场景,包括:镜像仓库、持续交付、托管 Prometheus、日志服务、微服务引擎、大数据产品等。 | 需要自行搭建和打通横向产品。 |
VKE 集群允许支持基于 ECS 和 VCI 构建集群,也允许在集群中同时使用 ECS 和 VCI 基础资源,方便用户根据业务要求,灵活选用业务的部署方式。并在此基础之上提供标准的 Kubernetes 应用调度、编排和可观测能力。

| 容器类型 | 标准容器 | 弹性容器 |
|---|---|---|
| 基础设施 | 云服务器(ECS) | 弹性容器实例(VCI) |
| 主要特点 | • 节点类型丰富:支持 x86、异构、裸金属等类型的节点,节点种类和规格丰富。 | |
| • 一站式容器管理:支持容器级别的应用调度、日志、监控和运维管理。实现容器应用的部署、发布、监控等一站式管理。 | ||
| • mGPU 多卡共享:单个容器可使用同一节点上的多张 GPU 卡共同提供算力和显存资源,打破同一个容器使用算力/显存局限于一张 GPU 卡的束缚,提高 GPU 碎片化资源利用率。 | ||
| • 调度能力增强:支持 Gang 调度、Capacity 调度、负载感知调度、拓扑感知调度等,提供丰富的容器调度能力。 | • 开箱即用:只需提交容器镜像,即可部署应用,无需规划和创建节点。您可以专注于业务领域创新。 | |
| • 极致弹性:秒级弹性伸缩,无需提前预估集群容量和业务流量,不会因为集群容量不足而导致伸缩失败。 | ||
| • 安全隔离:基于安全沙箱容器构建,提供虚拟机级别的安全和资源隔离能力,各实例运行在独占内核中,并且不与其他实例共享基础设施资源。 | ||
| • 降低成本:按需创建,按量计费,不运行不计费,没有资源闲置费用,为您带来更低的使用成本。 | ||
| 计费方式 | 按量计费,根据基础设施资源使用情况,固定计费。 | 按量计费,按资源用量弹性付费,不使用不计费。 |
| 应用场景 | • 应用微服务化改造。 | |
| • 敏捷开发加速迭代。 | ||
| • DevOps 持续交付。 | ||
| • 海量快速弹性伸缩。 | • 高弹性业务:有显著波峰波谷的业务,如直播、电商、社交等。 | |
| • 任务型业务,例如: |
◦ 数据处理类:大数据计算、机器学习、科学计算。
◦ 事件驱动类:视频录播、转码、IoT 等。
◦ CI/CD、GitLab Runner、Jenkins。
• 在线业务托管 |

基于容器集群为 GPU、RDMA 等异构资源提供统一的运维管理能力,为面向 AI 业务的分布式存储层提供统一的运维管理能力,支撑 AI 模型开发、训练、推理等场景,为 AI 平台提供强大的算力底座。

| 云服务产品名 | 容器服务与其的依赖关系 | 关联的主体功能 |
|---|---|---|
| 云服务器(ECS) | 容器服务集群一般由众多个节点构成。通常情况下,一个节点就是一台云服务器,您可以在创建节点时指定云服务器的具体规格配置。 | 创建节点 |
| 添加已有节点 | ||
| 私有网络(VPC) | 容器服务的集群需要运行在私有网络中,您所创建的集群及集群内的节点、容器等资源均运行在指定的私有网络内,从而保障不同用户的不同集群之间的网络隔离与安全。 | 创建集群 |
| NAT 网关 | NAT 网关提供网络地址转换服务,SNAT 功能通过绑定弹性公网 IP,实现私有 IP 向公有 IP 的转换,可实现 VPC 内的 ECS 节点及容器共享公网 IP 来访问公网。 | 创建集群 |
| 安全组 | 安全组是一种虚拟防火墙,为同一个 VPC 内具有相同安全保护需求并相互信任的 ECS 节点提供访问策略。安全组具备状态检测和数据包过滤能力,用于在云端划分安全域,是重要的网络安全隔离手段。 | 容器服务安全组设置 |
| 创建节点 | ||
| 创建节点池 | ||
| 应用型负载均衡器(ALB) | 应用型负载均衡器面向应用层网站、音视频应用等大流量分发场景,可以实现精细均衡的流量调度、消除单站点故障影响,能够提升应用系统整体的服务性能,使服务稳定可靠。容器服务支持将应用绑定到 ALB,提供更为强大的 Ingress 流量管理方式。 | 配置 ALB Ingress |
| 负载均衡器(CLB) | 负载均衡提供将访问流量按策略分发给多台后端服务器的服务,可以扩展系统对外服务能力,消除单点故障,从而提高系统的整体可用性。容器服务支持将创建的应用绑定到负载均衡器,提高应用的对外访问服务能力。 | 负载均衡类型服务 |
| 配置 CLB Ingress | ||
| 镜像仓库(CR) | 镜像仓库提供安全高可用的容器镜像、Helm Chart 等符合 OCI 标准的云原生制品托管服务,方便用户对符合 OCI 标准的云原生制品进行全生命周期管理。 | 创建无状态负载 |
| 创建有状态负载 | ||
| 创建任务 | ||
| 创建定时任务 | ||
| 创建守护进程 | ||
| 云硬盘(EBS) | 容器服务支持通过原生的 SC、PVC、PV 等资源创建云硬盘资源,并将云硬盘挂载到云服务器,支持扩容云硬盘容量。 | 使用云硬盘静态存储卷 |
| 使用云硬盘动态存储卷 | ||
| 文件存储(NAS) | 容器服务支持通过原生的 SC、PVC、PV 等资源关联文件存储卷资源,并将文件存储卷挂载到云服务器,支持容器内部使用文件存储。 | 使用文件存储静态存储卷 |
| 使用文件存储动态存储卷 | ||
| 对象存储(TOS) | 容器服务支持通过原生的 SC、PVC、PV 等资源关联对象存储Buckets资源,支持容器内部使用对象存储资源。 | 使用对象存储静态存储卷 |
| 弹性容器实例(VCI) | 弹性容器实例是一种 Serverless 和容器化计算服务,支持秒级启动、高并发创建和沙箱容器安全隔离等能力,可与容器服务无缝集成,提供 Kubernetes 编排能力。 | 使用弹性容器实例 |
| 云监控 | 云监控服务收集并可视化展示各类云产品的资源状态,帮助您全面了解其健康状况。能够及时识别异常状态并发送告警通知,确保业务平稳运行、提升运维效率。 | 集群监控 |
| 节点监控 | ||
| 工作负载监控 | ||
| Terraform | Terraform 是一个开源的IT基础设施编排工具,支持使用配置文件定义基础设施或应用。容器服务中支持使用 Terraform。 | Terraform 快速入门 |
| 云原生观测 | 云原生观测方案是针对容器服务集群提供的一体化可观测性解决方案,其基于托管 Prometheus 服务,实现面向 Kubernetes 集群、资源、网络、应用和服务的指标和链路监控。 | 云原生观测 |