<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>tensor-parallel on </title>
    <link>/tags/tensor-parallel/</link>
    <description>Recent content in tensor-parallel on </description>
    <generator>Hugo -- gohugo.io</generator>
    <language>en</language>
    <lastBuildDate>Sun, 31 May 2026 18:00:00 +0800</lastBuildDate><atom:link href="/tags/tensor-parallel/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>用两台 GB10 跑 DeepSeek-V4-Flash：284B 模型的双机部署记录</title>
      <link>/posts/deepseek-v4-flash-dual-gb10/</link>
      <pubDate>Sun, 31 May 2026 18:00:00 +0800</pubDate>
      
      <guid>/posts/deepseek-v4-flash-dual-gb10/</guid>
      <description>我手上有两台 DGX Spark——GB10（Blackwell）芯片，每台 128GB 统一内存。2026-05-31 这一轮里，我给自己定的目标很直接：把 DeepSeek-V4-Flash（284B 总参 / 13B 激活的 MoE，官方 FP8，原生 1M 上下文 + MTP）完整地跑起来，尽量把这两台机器都用起来。
这篇文章不是一份通用安装手册，更像是我把这轮的环境、约束和几个关键点记清楚的一次实践整理：为什么一台机器装不下这个模型、GB10 该选哪个推理引擎、从源码构建时踩到的一个隐蔽 torch 问题、权重为什么最好走本地路径，以及双机启动之后怎么调到我自己能接受的吞吐。
实验环境 项目 值 测试日期 2026-05-31 节点 2 x DGX Spark（GB10），每台 128GB 统一内存 拓扑 双机 TP=2，节点间 200Gbps CX7 / RoCE 模型 DeepSeek-V4-Flash，官方 FP8，46 shards，约 149GB vLLM 路径 jasl/vllm 分支 codex/ds4-sm120-min-enable 工具链 eugr/spark-vllm-docker 下面提到的参数、吞吐和踩坑，都只对应我这次这套环境。如果你在更晚的时间参考这篇记录，我会更建议把上游 branch 再固定到你自己验证过的 commit 或镜像 tag。
为什么必须两台机器 先算一笔账。按我这次拿到的 DeepSeek-V4-Flash 官方 FP8 权重目录来看，它是 46 个 shard、约 149GB。一台 GB10 的统一内存是 128GB——光是权重就装不下，更别说还要留给 KV cache 和激活值。</description>
    </item>
    
    <item>
      <title>vLLM TP=2 跨节点部署实践：两台 DGX Spark 跑 Qwen3.5-35B-A3B</title>
      <link>/posts/dgx-spark-benchmark-2026/</link>
      <pubDate>Sun, 12 Apr 2026 10:00:00 +0800</pubDate>
      
      <guid>/posts/dgx-spark-benchmark-2026/</guid>
      <description>概述 本文记录在两台 DGX Spark 上首次以 vLLM TP=2（跨节点张量并行）方式部署 Qwen3.5-35B-A3B 的完整过程。这次实验先得到几条比较初步的观察：
TP=2 跨节点推理可以跑通，短请求成功完成 成功样本吞吐约 21–31 tok/s，与单机 TP=1（~29 tok/s）基本持平 稳定性不足：代码生成 case 在约 300 秒后返回 HTTP 500 按这轮实验结果看，如果是追求更稳妥的生产方案，我目前更倾向于两台节点各自独立运行 TP=1，再通过 LiteLLM / Nginx 做负载均衡 技术背景 DGX Spark 与统一内存 DGX Spark 搭载 NVIDIA GB10 Grace Blackwell Superchip，其关键特征是 128GB LPDDR5X 统一内存（CPU+GPU 共享），带宽 273 GB/s。
与独立显存的传统 GPU 不同，统一内存没有独立的 VRAM 分区。这意味着：
--gpu-memory-utilization 不能像常规设置那样给到 0.9，需要保守设为 0.7，为内存碎片留出余量 按我这轮实验里的环境约束，最好关闭 swap，否则系统在内存压力下很容易出现明显卡顿甚至失去响应 模型权重、KV cache、推理中间态都在同一块 128GB 池子里分配 vLLM 与 Tensor Parallel vLLM 是一个高性能 LLM 推理引擎，提供 OpenAI 兼容 API、PagedAttention 显存管理、持续批处理等特性。它原生支持 Tensor Parallel（张量并行）：将模型的计算图按张量维度切分到多个 GPU 上执行，各 GPU 之间通过 NCCL（NVIDIA GPU 间通信库）进行 all-reduce 通信同步中间结果。</description>
    </item>
    
  </channel>
</rss>
