Full GC | Notion

## 一、架构师视角的FullGC治理思维
- 系统化思维：关联“代码→JVM→架构→业务”，分层排查
- 预防大于治疗：架构设计避免内存过载，而非事后调优
- 数据驱动决策：基于监控数据验证优化效果，拒绝凭经验调参
- 治理目标：建立可扩展的内存资源管理体系
## 二、底层原理：FullGC触发机制与危害
- 核心定义：老年代/元空间不足时，GC执行全量回收（STW特性）
- 触发条件（4类）
  - 老年代内存不足：大对象进入、Survivor对象年龄达标
  - 元空间溢出：动态类加载过多、依赖冲突
  - 显式调用System.gc()：代码/第三方框架隐式调用
  - GC算法特殊逻辑：CMS并发失败、G1大对象分配失败
- 三大危害
  - 服务可用性骤降：STW导致请求超时
  - 资源恶性循环：GC抢占CPU→业务线程变慢→对象堆积
  - 死亡螺旋：单节点问题扩散为集群雪崩
## 三、常见根因分析
- 内存泄漏
  - 现象：老年代使用率只增不减，直至OOM
  - 典型场景：ThreadLocal未remove、静态集合无清理
  - 排查：jstat、MAT支配树分析
  - 解决方案：修复无效引用、缓存TTL/弱引用、关闭未释放资源
- 代码BUG
  - 现象：短命大对象直接进入老年代
  - 典型场景：循环创建大对象、集合未clear
  - 排查：jstat、GC日志关注晋升年龄
  - 解决方案：避免循环建大对象、调整MaxTenuringThreshold
- 缓存类应用
  - 现象：老年代被缓存数据填满
  - 典型场景：CHM本地缓存无淘汰策略
  - 排查：jstat、MAT分析
  - 解决方案：堆外缓存、分布式缓存、限制本地缓存大小
- GC参数不当
  - 现象：堆空间配置不合理，晋升率高
  - 典型场景：新生代过小、Survivor比例失调、G1参数激进
  - 排查：分析GC日志
  - 解决方案：调整NewRatio、SurvivorRatio、MaxGCPauseMillis
- 其他根因
  - 消息膨胀：Kafka大消息>512k
  - 查询放大：DB查询返回10MB+List
  - 反射/ASM滥用：动态生成类过多
## 四、分层定位：外部观测+四步定位
- 外部观测（量化问题）
  - 监控维度：FullGC基础信息、内存分区变化、系统级影响
  - 核心工具：jstat、Prometheus+Grafana、Arthas、SkyWalking
  - 关键指标：FullGC频率>1次/分钟、STW>1秒、老年代锯齿状变化
- 四步定位闭环
  1. 数据采集
     - GC日志：配置PrintGCDetails、PrintGCDateStamps等参数
     - 堆转储：jmap、Arthas heapdump，FullGC后立即采集
  2. GC日志解析（锁定范围）
     - 触发类型：提取关键字判断（老年代不足/元空间溢出等）
     - 内存变化：判断FullGC有效性（回收前后使用率）
     - 关键指标：STW时间、大对象分配频率、晋升速率
  3. 堆转储分析（精准定位）
     - 支配树：找Retained Size占比超10%的内存大户
     - 引用链：追溯强引用持有者（排除弱引用）
     - 类加载分析：元空间问题查ClassLoader加载类数量
  4. 根因验证
     - 多份dump对比：确认对象累积趋势
     - 代码核对：验证缓存清理、资源关闭等逻辑
     - 修改后验证：清理缓存/优化代码后观察GC变化
## 五、K8s容器环境排查
- 核心挑战：资源限制感知偏差、可观测性复杂、动态弹性
- 排查框架
  1. 全局监控告警：Prometheus+Grafana+Alertmanager，定位异常Pod
  2. Pod内部诊断：kubectl exec进入容器，jstat查GC、jmap获堆dump
  3. 高级自动化：Sidecar收集GC日志、APM工具无侵入监控
## 六、e2e解决方案：应急→短期→长期
- 紧急止血（1小时内）
  - JVM参数调整：增大新生代比例、设置元空间上限
  - 临时清理：动态清空静态缓存、重启服务（万不得已）
  - 限流降级：非核心接口限流、暂停批量任务
- 短期优化（1-3天）
  1. 代码优化
     - 缓存：CHM→Caffeine+Redis，配置过期策略
     - 对象复用：StringBuilder替代String、对象池化
     - 资源关闭：try-with-resources、连接池泄漏检测
     - 动态类：复用ClassLoader、缓存MethodHandle
  2. JVM配置优化
     - G1：-XX:MaxGCPauseMillis=200、InitiatingHeapOccupancyPercent=45
     - CMS：-XX:CMSInitiatingOccupancyFraction=70、CMSClassUnloadingEnabled
     - Parallel：-XX:GCTimeRatio=19
- 长期架构升级（1-3个月）
  1. 缓存架构：分布式缓存分片、多级缓存、缓存预热降级
  2. 数据处理：批处理分片、流处理替代批处理、大文件分块读写
  3. 监控预案：全链路监控、智能告警、故障应急手册
## 七、工具选型
- GC日志分析：GCeasy（可视化报告）
- 堆转储分析：MAT（支配树/引用链）
- 在线排查：Arthas（无重启、堆dump/GC监控）
- 监控告警：Prometheus+Grafana（长期监控+告警）
## 八、总结
- 核心思维：系统化、预防优先、数据驱动
- 治理目标：构建“预防-监控-排查-优化”完整体系
- 关键认知：频繁FullGC是架构/资源不匹配的外在表现，需从根因解决

FullGC 治理思维

频繁 FullGC 不仅仅是 “JVM 问题”，而是 “架构不合理” 的外在表现。

作为技术高手，需要高维度看问题，具备以下高维度思考能力：

(1) 系统化思维：

不孤立看待 FullGC，而是关联 “代码→JVM→架构→业务”，从 “现象→瓶颈→根因” 分层排查；

(2) 预防大于治疗：

通过架构设计（如缓存分片、流处理）避免内存资源过载，而非依赖事后调优；

(3) 数据驱动决策

所有优化方案需基于监控数据（如 Heap Dump、接口延迟）验证效果，避免 “凭经验调参”。

频繁 FullGC 的治理目标： “建立一套可扩展的内存资源管理体系”，确保业务增长时，系统能通过架构升级（而非临时调优）应对内存压力，从根本上保障服务稳定性。

作为技术高手，需跳出 “仅调优 JVM 参数” 的局限，从底层原理→外部观测→ 四步定位→ e2e 解决方案 形成闭环。

根因分析包括： 底层原理→外部观测→ 四步定位

**e2e 解决方案：**从 “紧急止血” 到 “架构优化” , 核心路径包括 “紧急止血(1-3小时) →局部代码优化与 JVM 优化(1-3天) → 架构升级（1-3个月）” 三个大步骤，确保问题彻底解决。

一、底层原理：理解 FullGC 的触发机制与危害

在解决问题前，必须先明确 FullGC 的核心逻辑：

FullGC 是 JVM 老年代（Old Gen）或元空间（Metaspace）内存不足时，由垃圾收集器（如 G1、CMS、Serial Old）执行的 “全量垃圾回收”。