llm-inference on

llm-inference on /tags/llm-inference/ Recent content in llm-inference on Hugo -- gohugo.io en Sun, 31 May 2026 18:00:00 +0800 用两台 GB10 跑 DeepSeek-V4-Flash：284B 模型的双机部署记录 /posts/deepseek-v4-flash-dual-gb10/ Sun, 31 May 2026 18:00:00 +0800 /posts/deepseek-v4-flash-dual-gb10/ 我手上有两台 DGX Spark——GB10（Blackwell）芯片，每台 128GB 统一内存。2026-05-31 这一轮里，我给自己定的目标很直接：把 DeepSeek-V4-Flash（284B 总参 / 13B 激活的 MoE，官方 FP8，原生 1M 上下文 + MTP）完整地跑起来，尽量把这两台机器都用起来。这篇文章不是一份通用安装手册，更像是我把这轮的环境、约束和几个关键点记清楚的一次实践整理：为什么一台机器装不下这个模型、GB10 该选哪个推理引擎、从源码构建时踩到的一个隐蔽 torch 问题、权重为什么最好走本地路径，以及双机启动之后怎么调到我自己能接受的吞吐。实验环境项目值测试日期 2026-05-31 节点 2 x DGX Spark（GB10），每台 128GB 统一内存拓扑双机 TP=2，节点间 200Gbps CX7 / RoCE 模型 DeepSeek-V4-Flash，官方 FP8，46 shards，约 149GB vLLM 路径 jasl/vllm 分支 codex/ds4-sm120-min-enable 工具链 eugr/spark-vllm-docker 下面提到的参数、吞吐和踩坑，都只对应我这次这套环境。如果你在更晚的时间参考这篇记录，我会更建议把上游 branch 再固定到你自己验证过的 commit 或镜像 tag。为什么必须两台机器先算一笔账。按我这次拿到的 DeepSeek-V4-Flash 官方 FP8 权重目录来看，它是 46 个 shard、约 149GB。一台 GB10 的统一内存是 128GB——光是权重就装不下，更别说还要留给 KV cache 和激活值。