用两台 DGX Spark(GB10)部署 DeepSeek-V4-Flash(284B/13B-active,官方 FP8)的实践记录:为什么 128GB 单机装不下 149GB 权重、如何为 GB10 的 sm_121 架构选对 vLLM 引擎、源码构建中 torch 被悄悄降级的隐蔽问题,以及 MTP 调优后的实际吞吐。
Posts for: #tensor-parallel
vLLM TP=2 跨节点部署实践:两台 DGX Spark 跑 Qwen3.5-35B-A3B
记录首次在两台 DGX Spark 上以 vLLM TP=2 方式部署 Qwen3.5-35B-A3B 的过程与 benchmark 结果。