有性价比可言么?自己内部云做sku结算?如果有可用的直接用最好 如果真正要推广 指标还是要推到开发团队内部解决资源问题 要实现 FinOps 实践落地,首先需要建立一个合理的量化模型

传统部署方式,相比于K8s资源共享,显得更加浪费,而且不可控

早期,企业在云服务上进行了大量投入,但并非所有资金都得到了有效利用。企业不仅没有享受到云带来的成本红利,反而要面对更高的云账单。在控制云成本需求的促进下,FinOps 理念在国内快速发展,不少企业已经开始落地探索,其中就包括快手。

随着业务的快速发展,如何高效利用海量计算资源是摆在容器云编排调度引擎团队面前的重要问题。经过近期探索,该团队已经取得了初步进展:GPU 日均利用率提升 6~8 个百分点,为公司节省数千 GPU 卡资源。快手容器云编排调度引擎团队负责人张伟向 InfoQ 介绍了落地过程的具体实现。

内部实践

InfoQ:快手为什么要引入 FinOps 理念?内部成本问题体现在哪些方面?

**张伟:**快手整体的计算规模已达到数千万核,海量的计算资源要实现精细化的运营和高效的使用,已成为容器平台建设的重中之重。而 FinOps 理念从云成本管理角度,让技术团队更好的理解财务逻辑,感知技术成本,为公司级的降本增效提供了系统化的方法论,与我们的目标高度一致。快手希望能在 FinOps 的理论引导下,更有效的联合财务、平台技术研发和业务团队多方更快的实现提质增效的综合目标。

当前,我们在内部已建立了相对完善的容器资源 SKU 定价、货币化的预算与结算能力。目前内部成本问题仍体现在以下几方面:

InfoQ:快手在 FinOps 实践方面都经过了哪些阶段?每个阶段主要做了哪些事情?

**张伟:**早期平台启步阶段中,主要由业务提交资源预算,由平台完成交付和保障,资源多采用独占方式使用。

此后进入降本增效的发力时期,我们建立完善的资源抽象模型,如在线 CPU+ 内存,混部 CPU+ 混部内存等不同 SKU,通过单独的定价和定制化的计费机制,实现货币化拆分。为达到成本优化的共同目标,业务方重点关注使用量优化减少浪费,而平台及基础设施层则通过迭代硬件、降低损耗、提升任务密度等手段来优化降低 SKU 单价。

当前阶段进入深化优化方案时期,建立了明确的预算内、预算外优化目标,通过拆解到多团队,借助流程规模、以及各类平台级技术手段持续提交,实现资源利用率不断逼近理论目标。

InfoQ:实践中如何对各部门进行绩效考核?

**张伟:**我们在内部建立了资源定价、预算、结算及各指标的观测跟踪等运营机制,落地实践中,针对各业务部门主要是通过资源用量、配额以及容器资源的实际使用率如峰均及日均数据来进行考核。而对于平台则重点会通过收支数据、资源日均等指标进行考核。

InfoQ:成本可视化方面,快手具体做了哪些工作?面向 FinOps 的利用率监控和传统的运维监控有什么区别?