一 运行大模型的算力芯片分类
目前大模型运行芯片类型多样,各有侧重。以下是系统梳理:
| 芯片类型 | 代表厂商/产品 | 核心定位 | 大模型场景 |
|---|---|---|---|
| GPU | NVIDIA H100/B200/RTX、AMD MI300X | 通用并行计算 | 训练+推理主力 |
| GPGPU | NVIDIA A100/H100、AMD Instinct | 通用计算GPU(去掉图形管线) | 数据中心AI训练 |
| TPU | Google Cloud TPU v5p | 专用AI加速器 | Google生态训练 |
| NPU | 苹果Neural Engine、高通Hexagon | 端侧AI推理 | 手机/PC本地大模型 |
| DPU | NVIDIA BlueField、AMD Pensando | 数据处理器(卸载网络/存储) | 数据中心基础设施 |
| IPU | Graphcore(已被收购) | 图处理器 | 曾用于GNN/稀疏计算 |
| LPU | Groq | 语言处理器(SRAM架构) | 低延迟推理 |
| NPU(国产) | 华为昇腾910B、寒武纪MLU370 | 国产AI训练/推理 | 国产替代方案 |
| DSA | 百度昆仑芯、阿里含光800 | 领域专用架构 | 特定场景优化 |
| FPGA | AMD/Xilinx Versal、Intel Agilex | 可编程逻辑 | 原型验证、低量产场景 |
| CPU | Intel Xeon、AMD EPYC | 通用处理器 | 小模型推理、预处理 |
| 存算一体 | 知存科技、后摩智能 | 存储内计算 | 边缘低功耗推理 |
二、核心概念辨析
| 对比项 | GPU(图形处理器) | GPGPU(通用计算GPU) |
|---|---|---|
| 设计初衷 | 图形渲染(游戏/显示) | 科学计算、AI、数据分析 |
| 功能完整性 | 含图形管线(光栅化、纹理等) | 去掉图形专用单元,专注计算 |
| 典型产品 | NVIDIA RTX 4090、AMD RX 7900 | NVIDIA A100/H100、AMD MI300X |
| 使用场景 | 游戏、内容创作、轻量AI | 数据中心大模型训练 |
DPU的特殊定位
特性 说明 核心功能 卸载CPU的网络、存储、安全任务(SmartNIC进化版) 与GPU关系 协同工作,不是替代。DPU管"数据搬运",GPU管"计算" 大模型作用 优化多卡通信(RDMA、集合通信加速)、存储虚拟化 典型架构 ARM核心 + 硬件加速引擎(加密/压缩/网络)+ PCIe交换
CPU(控制) ←→ DPU(网络/存储卸载) ←→ GPU(计算)
↓
高速互联(NVLink/InfiniBand)三、各类芯片深度对比
训练场景芯片对比
| 芯片 | 架构特点 | 优势 | 劣势 |
|---|---|---|---|
| NVIDIA H100/B200 | Transformer Engine、FP8支持、NVLink 4.0 | 生态垄断(CUDA)、性能最强 | 价格极高、供应受限 |
| AMD MI300X | 192GB HBM3、统一内存架构 | 显存大、性价比高 | 软件生态(ROCm)弱于CUDA |
| Google TPU v5p | 脉动阵列、BF16优化 | 与Google云深度整合、大规模Pod | 灵活性差、仅云可用 |
| 华为昇腾910B | 达芬奇架构、HBM2e | 国产自主、政府/金融首选 | 单卡性能落后1-2代、软件生态建设中 |
| Intel Gaudi3 | 张量处理器 + 以太网互联 | 成本较低、开放以太网 | 生态弱、市场份额小 |
推理场景芯片对比
| 芯片类型 | 优势场景 | 代表产品 | 关键指标 |
|---|---|---|---|
| 高端GPU | 高吞吐、大batch推理 | NVIDIA H100/L4 | 吞吐量(tokens/sec) |
| LPU(Groq) | 超低延迟、确定性延迟 | Groq Chip | 延迟<1ms、无HBM瓶颈 |
| NPU(端侧) | 低功耗、本地隐私 | 苹果M4 Neural Engine、高通X Elite | 能效比(TOPS/Watt) |
| DSA(定制) | 特定模型极致优化 | 百度昆仑芯、阿里含光 | 特定模型性价比 |
| 存算一体 | 超边缘、TinyML | 知存科技WTM-8 | 功耗<1mW |
四、架构演进趋势
- 从通用到专用
2012-2017:CPU → GPU(通用并行)
2017-2022:GPU → TPU/IPU(AI专用)
2022-现在:GPU → DPU+GPU协同(系统级优化)
未来:存算一体、光子计算、神经形态芯片 关键技术创新方向
技术 原理 代表 近存计算 计算靠近存储,减少数据搬运 阿里含光800、Groq Chiplet/芯粒 模块化封装,灵活组合 AMD MI300X、Intel Ponte Vecchio HBM高带宽存储 3D堆叠内存,突破带宽墙 HBM3e(1.2TB/s) CPO光电共封装 光互连替代电互连 NVIDIA、Broadcom研发中 稀疏计算加速 利用MoE等稀疏性 NVIDIA Transformer Engine 五、选型决策框架
场景 首选芯片 关键考量 大模型训练(100B+) NVIDIA H100/B200集群 CUDA生态、NVLink互联、FP8支持 训练(预算敏感) AMD MI300X、华为昇腾910B集群 性价比、国产合规 云端高吞吐推理 NVIDIA L4/L40S、自研DSA 成本($/token)、功耗 超低延迟推理 Groq LPU、高端GPU+优化 首token延迟(TTFT) 端侧(手机/PC) NPU(苹果/高通/联发科) 能效比、隐私保护 边缘/嵌入式 存算一体芯片、FPGA 功耗<1W、成本<$10 国产替代 华为昇腾、寒武纪、百度昆仑芯 供应链安全、政策支持
六、芯片算力是怎么计算的?
基本公式
精度 算力公式 说明 FP32(单精度浮点) 算力 = 频率 × CUDA核心数 × 2每个核心每周期2次FMA运算 FP16/BF16(半精度) 算力 = FP32算力 × 2张量核心支持2倍吞吐 FP8/INT8 算力 = FP32算力 × 4更低精度4倍吞吐 稀疏化(2:4) 算力 = dense算力 × 2利用稀疏性再翻倍
H100 SXM5 规格:
- GPU频率:约1.98 GHz(动态调整)
- CUDA核心数:16896个(但张量核心更重要)
- 张量核心:528个第四代Tensor Core
FP8算力计算:
= 频率 × Tensor Core数量 × 每周期操作数 × 稀疏加速
= ~1.98GHz × 528 × 2048 × 2(稀疏)
≈ 3958 TFLOPS(与官方3958 TFLOPS FP8一致)
关键:现代GPU算力主要来自Tensor Core,非CUDA Core
实际有效算力 vs 理论峰值
因素 影响 典型效率 内存带宽瓶颈 数据供给跟不上计算 10-30%(HBM瓶颈) 算法效率 无法利用全部并行度 30-60% 通信开销 多卡同步等待 20-50%(大规模集群) 实际有效算力 理论峰值 × 综合效率 通常5-20%
案例:H100理论3958 TFLOPS FP8,大模型训练实际可能只有200-400 TFLOPS(5-10%效率)。
七、芯片算力与大模型参数的关系
训练阶段:算力需求估算
指标 公式 示例(GPT-3 175B) 训练token数 通常2-10倍参数量 300B tokens 总计算量 ≈ 6 × 参数量 × token数6 × 175B × 300B = 3.15e23 FLOPs 所需GPU小时 总FLOPs / (GPU算力 × 效率) 约3648 GPU小时(1024张H100,3.5天)
Transformer前向+反向计算量 ≈ 6 × P × D
- P: 参数量
- D: token数
- 系数6: 前向2次,反向4次(梯度计算)
推理阶段:算力与内存的博弈
阶段 瓶颈 关键公式 Prefill(首token) 计算密集型 时间 ∝ (参数 × 序列长度) / 算力 Decode(生成token) 内存带宽密集型 时间 ∝ 参数 / 内存带宽
关键洞察:
推理瓶颈转移点:
- 短序列(<1K):Prefill主导,算力重要
- 长序列(>4K):Decode主导,内存带宽重要
- 超长序列(>32K):KV Cache容量成为瓶颈
- 参数-算力-内存三角关系
参数量(P)
↑
/ \
/ \
/ \
/ △ \
/ 优化 \
/____________\
算力(FLOPS) ←→ 内存带宽(GB/s)| 场景 | 瓶颈维度 | 优化方向 |
|---|---|---|
| 训练大模型 | 算力 + 互联带宽 | 更多GPU + NVLink/InfiniBand |
| 长上下文推理 | 内存带宽 + 容量 | HBM3e + KV Cache压缩(MQA/GQA) |
| 低延迟推理 | 算力密度 + 片上SRAM | Groq LPU(230MB SRAM,无HBM) |
| 端侧部署 | 内存容量 + 功耗 | 量化(INT4)+ 剪枝 + NPU专用 |
八、大模型参数设计的芯片约束
参数规模 vs 硬件匹配
参数规模 典型模型 单卡显存需求 训练配置 7B LLaMA-2-7B ~14GB(FP16) 单卡RTX 4090可推理 13B LLaMA-2-13B ~26GB 单卡A100或双卡4090 70B LLaMA-3-70B ~140GB 8×A100(80GB)或2×H100 175B GPT-3 ~350GB 数百张V100/A100 405B LLaMA-3.1-405B ~810GB 16K+ H100 GPU集群 1T+ GPT-4/文心5.0 ~2TB+ 万卡集群 + 专家并行 MoE架构:参数与算力的解耦
架构 总参数 激活参数 显存占用 计算量 Dense(密集) 100B 100B 200GB 100B × token MoE(稀疏) 1T 100B(10%) ~400GB(共享+专家) 100B × token
九、实际工程计算示例
场景:用H100训练LLaMA-3-70B
已知:
- 模型:70B参数
- 数据:1.4T tokens(约20倍参数,较充分训练)
- 硬件:H100 SXM5(80GB HBM3,FP8 3958 TFLOPS)
- 并行策略:张量并行8路 + 流水线并行4路 = 32卡
计算:
- 总计算量 = 6 × 70B × 1.4T = 5.88e20 FLOPs
- 单卡有效算力(假设10%效率)= 3958 × 0.1 = 395 TFLOPS
- 32卡集群总有效算力 = 32 × 395 = 12640 TFLOPS = 1.264e13 FLOPS
- 训练时间 = 5.88e20 / 1.264e13 = 4.65e7秒 ≈ 540小时 ≈ 22.5天
实际:配合 checkpoint、故障恢复,通常需3-4周
场景:H100推理LLaMA-3-70B,batch=1
已知:
- 模型:70B参数,FP16
- 序列:4K上下文
- 硬件:H100(3.35TB/s HBM带宽)
计算:
- 加载权重时间:140GB / 3.35TB/s ≈ 42ms(可忽略,常驻显存)
Prefill阶段(4K tokens):
- 计算量 ≈ 2 × 70B × 4K = 5.6e14 FLOPs
- 时间 ≈ 5.6e14 / 3958e12 ≈ 141ms(若算力瓶颈)
- 实际受内存带宽限制,可能更长
Decode阶段(每生成1 token):
- 需加载全部70B参数:140GB
- 时间 = 140GB / 3.35TB/s ≈ 42ms(纯带宽瓶颈)
- 实际约30-50ms/token
优化后(vLLM/PagedAttention,batch增大):
- batch=16时,吞吐可达~2000 tokens/s
十、关键结论
| 关系 | 核心洞察 |
|---|---|
| 算力≠性能 | 内存带宽、互联带宽、软件效率同样关键 |
| 参数≠能力 | MoE架构解耦参数与计算,效率优先 |
| 训练看算力 | 算力决定训练速度,集群规模决定模型上限 |
| 推理看带宽 | 生成阶段内存带宽是瓶颈,非算力 |
| 端侧看能效 | 功耗约束下,专用NPU比通用GPU优10-100倍 |
评论 (0)