用两台 DGX Spark(GB10)部署 DeepSeek-V4-Flash(284B/13B-active,官方 FP8)的实践记录:为什么 128GB 单机装不下 149GB 权重、如何为 GB10 的 sm_121 架构选对 vLLM 引擎、源码构建中 torch 被悄悄降级的隐蔽问题,以及 MTP 调优后的实际吞吐。
用两台 DGX Spark(GB10)部署 DeepSeek-V4-Flash(284B/13B-active,官方 FP8)的实践记录:为什么 128GB 单机装不下 149GB 权重、如何为 GB10 的 sm_121 架构选对 vLLM 引擎、源码构建中 torch 被悄悄降级的隐蔽问题,以及 MTP 调优后的实际吞吐。