整理 Queue-it 这期讲生产环境自动扩缩容的播客:autoscaling 为什么在瞬时尖峰下失效,以及 pre-scaling 的取舍。
Posts for: #sre
SLO 与多窗口多 burn-rate 告警:一次 Prometheus 落地整理
以问答方式整理 SLO + error budget + multi-burn-rate 告警的工程实现:为什么传统阈值告警容易噪声大或滞后、burn rate 14.4× 和 6× 数字怎么来,以及 Prometheus recording rules 与 alert 可以怎么落地。
CDN 和 DNS 是怎么配合工作的?网站如何在 DNS 宕机里争取可用性
从递归解析器、权威 DNS、CDN 导流到边缘 PoP 的完整链路出发,解释 CDN 与 DNS 如何协作,以及网站如何在 DNS 宕机、控制面异常和缓存收敛延迟中争取更好的可用性。