用两台 GB10 跑 DeepSeek-V4-Flash:284B 模型的双机部署记录
用两台 DGX Spark(GB10)部署 DeepSeek-V4-Flash(284B/13B-active,官方 FP8)的实践记录:为什么 128GB 单机装不下 149GB 权重、如何为 GB10 的 sm_121 架构选对 vLLM 引擎、源码构建中 torch 被悄悄降级的隐蔽问题,以及 MTP 调优后的实际吞吐。
用两台 DGX Spark(GB10)部署 DeepSeek-V4-Flash(284B/13B-active,官方 FP8)的实践记录:为什么 128GB 单机装不下 149GB 权重、如何为 GB10 的 sm_121 架构选对 vLLM 引擎、源码构建中 torch 被悄悄降级的隐蔽问题,以及 MTP 调优后的实际吞吐。
我顺着一个 Pod DNS 排查短视频,把 K8s Service 网络链路重新整理了一遍:DNS 解析、ClusterIP 到 Pod IP 的 DNAT、EndpointSlice、负载均衡,以及 1.36 时代 iptables/IPVS/nftables/eBPF 的取舍。
整理如何将 mirrord 开发者授权管理从脚本式操作转换为 GitOps 模式:通过维护 RoleBinding 和 ClusterRoleBinding 的声明式 YAML,实现可审计、可回滚、默认拒绝的权限控制。
记录一次 Proxmox VM 重启后 Vault sealed 导致 ExternalSecret 失败的排查:postStart 解锁 hook 的 JSON grep 误判、ESO 恢复触发,以及恢复脚本如何改成 exit code 三态判定。
读 Nick Hodges 的《A new challenge for software product managers》后,我顺手记下几条工程师视角的补充:当 AI 把“工作量”这道闸拆掉后,我会怎么判断一个 feature 值不值得进来。