全站加速DCDN(简称“DCDN”)提供动静态加速、TCP/UDP四层加速,加速的同时支持边缘大流量DDoS攻击清洗与Web应用防火墙防护,为企业提供优质的企业安全加速能力;
网络服务提供点又称入网点(POP,Point of Presence)
机房级别的故障可能包括电力中断、网络故障、硬件故障等。应对这些故障的容灾措施包括异地多活、双机房负载均衡、数据同步等。通过在不同城市部署机房,可以有效隔离故障,确保业务连续性。此外,优化架构时需考虑冗余设计、数据一致性和灾备能力,以提高系统的可用性和可靠性。
过往踩得坑 1 什么场景下谁决策切 2 切的成本和影响持续缩小 3 日常的有损演练的必要性改进 4 工具无脑切,提效保鲜
1、背景
2024 年 7 月 2 日 10:04,我站机房 A 公网物理光缆中断,导致机房 A 公网无法访问。本文将从 DCDN 架构及多活治理的视角,分析本次故障中我们发现的问题和治理优化措施。
2、止损过程
故障发生后,SRE与网工接收到大量专线中断、公网探测告警,快速拉起线上会议协同进行故障定位及止损操作;
在此期间核心业务(如首页推荐、播放等)因在 DCDN 侧配置了源站机房级别自动容灾生效,未受影响;
首先定位到的是单个运营商线路存在大量丢包异常,优先将该运营商用户流量切向具有专线回源的 CDN 专线节点,此时这部分用户流量恢复,但整体业务未完全恢复;
继续定位到整个机房 A 公网完全无法访问,而从机房 B 核心业务场景因自动容灾生效存在流量上升且观测业务 SLO 正常,决策执行全站多活业务切流至机房 B 止损。此时多活业务完成止损,非多活业务仍有损;
继续对非多活业务流量执行降级,将用户流量切向 CDN 专线节点回源,此时非多活业务流量完成止损。
3、问题分析
图1:南北向流量架构图 / 0702故障逻辑图
图2:B2-CDN环网示意图
先简单介绍一下 B 站源站架构,从上图1可以看出,B 站在线业务有两个核心机房,每个机房都有两个互联网接入点(公网 POP ),且这两个互联网接入点分布在不同的省市。这样设计的核心思路:网络接入(以下统称为 POP )和算力中心(以下统称为机房)解耦,达到接入层故障可容灾的效果。