记录一次 Proxmox VM 重启后 Vault sealed 导致 ExternalSecret 失败的排查:postStart 解锁 hook 的 JSON grep 误判、ESO 恢复触发,以及恢复脚本如何改成 exit code 三态判定。
Posts for: #homelab
Homelab 消息通知:Alertmanager 通过 Gotify 推送告警
在 Homelab K3s 集群中,通过部署 alertmanager_gotify_bridge 将 Prometheus Alertmanager 的告警推送到 Gotify,实现自托管消息通知。记录从 Vault 存储 Token、ESO 同步 Secret、到 Alertmanager 路由配置的完整步骤。
Codex CLI 对接远程 Ollama
记录如何通过 Tailscale 组网和 Codex CLI 自定义 Provider 配置,把本地 AI 编码助手接到远程 Homelab 上的 Ollama 服务。
Homelab 过热?给 Proxmox Debian 宿主机降温的完整实战
Homelab 的 Proxmox 宿主机(AMD Ryzen 5 5600H)CPU 温度长期 72°C,通过诊断发现 VM 内存超售、Turbo Boost 未关、KSM 高频扫描三个热源,用 Ansible 一键优化后降到 62°C。
Homelab 实践笔记:聊聊 Cloudflare 这些能力背后的原理
结合 Homelab 场景,整理 Anycast、分层缓存、请求合并等能力是怎样在背后帮助保护和减压源站的。
从 Cilium Gateway 到 CoreDNS:一次跨层级的 K8s 连锁故障排查
一次看起来像 Cilium Gateway Degraded 和 ArgoCD Sync 异常的故障,最后追到了 CoreDNS stub resolver、ZITADEL backend 缺失和 Vault 密钥问题。记录完整排查链路、修复动作和后续固化方案。
Cilium ClusterMesh 实战:连接两个 K3s 集群的跨云服务发现
记录在 homelab 和 Oracle Cloud 两个 K3s 集群上启用 Cilium ClusterMesh 的完整过程:从 homelab 集群重建、Cilium Gateway API 切换、Tailscale 组网,到 ClusterMesh 双向连接和跨集群可观测性验证。
Oracle Cloud K3s 迁移到 Cilium:一次把网络、密钥和状态数据都翻出来的升级
记录 oracle-k3s 从 Flannel 迁移到 Cilium 的完整过程:从 K3s 重装、Cloudflare Tunnel 的 QUIC 问题、Vault Secret 恢复,到 PVC 数据回灌和 Timeslot 修复,顺便总结哪些复杂度值得保留,哪些该延后。
K3s 集群 CNI 迁移实战:从 Flannel 到 Cilium 的踩坑记录
记录 homelab K3s 集群从默认 Flannel 迁移到 Cilium CNI 后遇到的三个典型问题:Cloudflared QUIC 握手超时、Pod 无法访问节点物理 IP、ZITADEL 密钥长度错误,以及各自的排查过程和解决方案。
Homelab 备份体系实践:Kopia + CronJob + GitOps 的一次落地记录
记录在双集群 K3s Homelab 中落地 Kopia 自动备份体系的过程:从数据分类、CronJob 设计、跨集群备份传输,到 GitOps 管理和灾难恢复 SOP。