独立评估文档 · 不跟处于任何迁移决策· 面向 architecture review 与 PoC 选型

为什么独立成文fly.io 迁移是否可行的核心门槛之一是「能不能监控起来」。这份调研不预设迁移结论,只回答:fly 平台能给我们哪些监控手段、能擑住我们关心的 8 类风险吗、实施代价有多大。

信息源fly.io 官方 docs/monitoring + community.fly.io 自建方案贴 + Datadog/Better Stack/Grafana Cloud 接入文档 + GitHub 开源工具仓。生成日期:2026-05-14。

一句话结论

fly 不是监控裸机 — Prometheus + Grafana + 30+ sink 的 log shipper 是开箱的,比预想强很多。但官方 GraphQL API 不暴露 billing/cost breakdown 数据,这是我们最关心的「按量风险监控」上的核心死角,意味着 cost monitor 必须 cron 抓资源清单 × 自己维护单价表自己算。

原生能力(开箱即用)

Prometheus 自动暴露 🟢 超预期

官方 Grafana 实例 🟢

Fly Log Shipper 🟢 生态丰富