一、NVIDIA GPU系列
| 型号 | 架构 | 显存 | 内存带宽 | FP8算力 | FP4算力 | TDP | 定位 |
|---|---|---|---|---|---|---|---|
| A100 | Ampere | 80GB HBM2e | 2 TB/s | - | - | 400W | 上一代通用 |
| H100 SXM | Hopper | 80GB HBM3 | 3.35 TB/s | 3,958 TFLOPS | - | 700W | 当前训练主力 |
| H200 SXM | Hopper | 141GB HBM3e | 4.8 TB/s | 3,958 TFLOPS | - | 700W | 大模型推理优化 |
| B200 | Blackwell | 192GB HBM3e | 8 TB/s | 9,000 TFLOPS | 18,000 TFLOPS | 1000W | 2025旗舰 |
关键洞察:
• H200与H100计算性能相同(3,958 TFLOPS FP8),但内存容量提升76%(141GB vs 80GB),带宽提升43%(4.8 vs 3.35 TB/s)
spheron.networkspheron.netw…
• B200采用双die封装,FP8算力是H100的2.3倍,内存带宽是H200的1.7倍
GPU Cloud
• B200的180-192GB显存可单卡容纳70B-180B参数模型,无需张量并行
二、华为昇腾系列(国产)
| 型号 | 工艺 | 显存 | 内存带宽 | FP16算力 | 设计特点 | 出货情况 |
|---|---|---|---|---|---|---|
| 昇腾910B | 中芯N+1(7nm) | 64GB HBM2e | 400GB/s → 1.2TB/s(910B3) | 320 TFLOPS | 达芬奇架构,受限工艺 | 2024年出货约40万颗 |
| 昇腾910C | 中芯N+2(7nm) | HBM2e/HBM3 | ~1.2TB/s | 800 TFLOPS | 双die合封(类似B200) | 2025年预计70-80万颗 |
关键洞察:
910C采用双die封装设计,将两颗910B整合,FP16算力达800 TFLOPS,约为H100的80%
910C芯片逻辑面积比H100多60%,架构效率仍有差距
中芯国际N+2工艺良率从2024年20%提升至2025年40-50%
910B均价约11万元/片,910C约18-20万元/片,远低于H100的2.5-3万美元
未来路线图(2025-2028):
昇腾950:引入FP8/FP4,算力达1 PFLOPS(FP8),支持SIMT编程模型
昇腾960/970:每代算力翻倍,970达8 PFLOPS(FP4),能效比提升30%
三、AMD GPGPU系列
| 型号 | 架构 | 显存 | 内存带宽 | FP8算力 | 特点 | 发布时间 |
|---|---|---|---|---|---|---|
| MI300X | CDNA 3 | 192GB HBM3 | 5.3 TB/s | 2,614 TFLOPS | 内存容量领先H100 | 已发布 |
| MI325X | CDNA 3 | 256GB HBM3E | 6 TB/s | - | 内存进一步提升 | 2024年底 |
| MI350X | CDNA 4 (3nm) | 288GB HBM3E | 8 TB/s | - | FP4/FP6支持,推理性能提升35倍 | 2025年中 |
关键洞察:
MI300X的192GB HBM3容量超过H100(80GB),带宽5.3 TB/s也高于H100的3.35 TB/s
AMD软件生态(ROCm)仍是最大短板,CUDA代码移植困难
MI350X将支持FP4/FP6,与NVIDIA B200直接竞争
四、Google TPU系列
| 型号 | 定位 | 峰值性能 | 内存 | 互联 | 特点 | 发布时间 |
|---|---|---|---|---|---|---|
| TPU v5e | 推理优化 | 393 TOPS (INT8) | - | 256芯片Pod | 2.5倍推理性价比 | 2023 |
| TPU v5p | 训练 | 100 Peta-OPS INT8 (Pod) | - | - | 训练导向 | 2023 |
| TPU v6e (Trillium) | 训练+推理 | 4.7倍v5峰值 | 2倍v5容量 | Jupiter: 100K芯片/Pod | 训练Gemini 2.0,能效提升67% | 2024 |
| TPU v7x (Ironwood) | 推理优先 | ~4,614 TFLOPS/芯片 ( rumored) | 192GB | ~9,216芯片/Pod | 专为LLM调优,30倍能效提升 | 2025预览 |
五、综合对比表
| 厂商 | 旗舰型号 | 显存容量 | 内存带宽 | FP8算力 | 制程 | 核心优势 | 主要短板 |
|---|---|---|---|---|---|---|---|
| NVIDIA | B200 | 192GB | 8 TB/s | 9 PFLOPS | 4NP | 生态垄断(CUDA)、性能最强 | 价格极高、供应受限 |
| NVIDIA | H200 | 141GB | 4.8 TB/s | 3.96 PFLOPS | 4N | 内存升级、软件兼容 | 算力与H100相同 |
| AMD | MI350X | 288GB | 8 TB/s | - | 3nm | 内存容量最大、性价比高 | 软件生态(ROCm)弱 |
| AMD | MI300X | 192GB | 5.3 TB/s | 2.6 PFLOPS | 5nm | 大显存、成本较低 | 软件支持不足 |
| 华为 | 910C | - | ~1.2 TB/s | 0.8 PFLOPS (FP16) | 7nm(N+2) | 国产自主、供应链安全 | 单卡性能落后1-2代 |
| 华为 | 910B | 64GB | 1.2 TB/s | 0.32 PFLOPS | 7nm(N+1) | 国产替代首选 | 性能落后、生态建设中 |
| TPU v6e | - | - | 4.7倍v5 | - | 与云深度整合、能效高 | 仅云可用、灵活性差 | |
| TPU v7x | 192GB | - | ~4.6 PFLOPS | - | 推理优化、超大规模Pod | 尚未正式发布 |
六、关键趋势总结
| 维度 | 趋势 |
|---|---|
| 内存容量竞赛 | 从80GB(H100) → 192GB(B200/MI300X) → 288GB(MI350X),大模型单卡部署成关键 |
| 内存带宽瓶颈 | 推理阶段带宽比算力更重要,8 TB/s成为新标杆 |
| 精度降低 | FP8→FP4普及,B200支持FP4实现18 PFLOPS |
| 国产替代加速 | 华为昇腾910C大规模出货(70-80万颗/年),性能达H100 80% |
| 软件生态分化 | CUDA仍垄断,但ROCm、CANN、XLA/JAX多极竞争 |
| Chiplet架构 | B200、910C、MI300X均采用多die封装,提升良率和扩展性 |
七、核心算力单位:TOPS vs TFLOPS
- TOPS:整数算力的代表
TOPS 的全称是Tera Operations Per Second,拆解来看:
OPS:Operations Per Second,即每秒完成的计算操作次数;
T:Tera,代表 1 万亿(10¹²)。
所以1 TOPS = 每秒完成 1 万亿次整数运算。
它主要用于衡量AI 推理场景的算力,比如图像识别、目标检测、分类等边缘 AI 任务,像 Jetson 系列边缘开发板,标注算力时就常用 TOPS。
简单记:TOPS = 整数算力,看 AI 推理快不快。
- TFLOPS:浮点算力的代表
TFLOPS 的全称是Tera Floating-point Operations Per Second,拆解来看:
FLOPS:Floating-point Operations Per Second,即每秒完成的浮点运算(带小数点的数)次数;
T:同样代表 1 万亿。
所以1 TFLOPS = 每秒完成 1 万亿次浮点运算。
它主要用于衡量深度学习训练、科学计算场景的算力,比如显卡、大型训练集群标注算力时,就常用 TFLOPS。
简单记:TFLOPS = 小数算力,看训练 / 科学计算强不强。
八、关键数据类型:FP32、FP16、INT8 详解
- INT8:8 位整数
存储规则:用 8 位二进制存储,只能表示整数,范围是 - 128~127,没有小数点,不存在 “小数点后几位” 的概念;
通俗举例:只能存 1、5、-10 这类整数,存不了 1.5、3.14 这类小数;
核心特点:占用空间最小,计算速度最快,精度最低(仅支持整数运算);
对应算力单位:TOPS;
适用场景:AI 推理(模型量化后常用,在保证精度损失极小的前提下,大幅提升推理速度、降低内存占用)。 - FP16:16 位浮点
存储规则:用 16 位二进制存储小数,其中1 位符号位、5 位指数位、10 位尾数位,小数点后能保留约 3~4 位有效数字;
通俗举例:能存 3.14、0.005、-2.7 这类小数,但如果是 3.1415926,会近似存为 3.1416,小数点后第 5 位会四舍五入;
核心特点:速度快,显存 / 内存占用小,平衡了速度与精度;
对应算力单位:TFLOPS;
适用场景:深度学习训练、推理都常用(混合精度训练的核心数据类型,既能保证训练效果,又能提升速度)。 - FP32:32 位浮点
存储规则:用 32 位二进制存储小数,其中1 位符号位、8 位指数位、23 位尾数位,小数点后能保留约 6~7 位有效数字;
通俗举例:能精准存 3.1415926、0.0001234、-5.678901 这类小数,小数点后前 7 位基本不会丢失精度;
核心特点:精度最高,但计算速度最慢,占用空间最大(是 FP16 的 2 倍、INT8 的 4 倍);
对应算力单位:TFLOPS;
适用场景:科学计算、部分对精度要求极高的训练 / 推理任务(比如医学影像分析、高精度数值模拟)。
三者核心区别与算力影响总结
对算力的核心影响:数据类型位数越少,芯片一次能并行处理的计算次数越多,算力自然越高。比如同一块芯片,INT8 算力通常是 FP16 的 2 倍、FP32 的 4 倍 —— 因为 INT8 占 8 位,芯片一次能处理 4 个 INT8 数据,而 FP32 占 32 位,一次只能处理 1 个,算力差距就此拉开。
九、数据类型与算力的关系:越小越快,算力越高
很多新人会疑惑:为什么同一块芯片,INT8 算力比 FP32 高这么多?核心原因就在于数据类型的位数。
数据类型的位数越少,芯片一次能并行处理的计算次数就越多,算力自然越高。同一块芯片的算力规律是:INT8 算力 > FP16 算力 > FP32 算力。
举个直观的例子:
算 INT8(8 位):芯片一次能处理 8 个数据,算力达到峰值;
算 FP16(16 位):芯片一次只能处理 4 个数据,算力减半;
算 FP32(32 位):芯片一次仅能处理 2 个数据,算力最低。
这也是为什么 AI 推理 常用 INT8,训练常用 FP16,高精度计算才用 FP32 的原因。
十、实战结合:从硬件算力到模型推理速度
我们先来看这张 YOLO26 系列模型的性能对比表,它直观展示了不同尺寸模型在精度、速度、计算量上的差异,是我们理解 “硬件算力” 和 “模型计算量” 关系的绝佳例子:
这张表是 YOLO26 系列(n/s/m/l/x 从最小到最大)在 COCO 数据集上的实测结果,其中最关键的一列是 FLOPs(B),它代表每个模型完成一次推理(输入一张 640×640 图片)需要的浮点运算次数(单位是十亿次)。
- 先看 Jetson AGX Orin 的硬件算力(FLOPS)
Jetson AGX Orin 作为边缘 AI 硬件,它的算力是硬件本身的 “速度指标”,表示每秒能完成多少次浮点运算,官方参数如下:
FP16(半精度浮点)算力:约 6.666 TFLOPS(每秒 6.666 万亿次浮点运算)
FP32(单精度浮点)算力:约 3.333 TFLOPS(每秒 3.333 万亿次浮点运算)
INT8(整数)算力:200~275 TOPS(对应边缘 AI 推理场景)
简单记:硬件算力(FLOPS)就像你的 “跑步速度”,比如每秒能跑 10 米。
- 再看模型计算量(FLOPs)
表中的 FLOPs(B) 是模型的 “工作量指标”,表示完成一次推理需要多少次浮点运算。比如:
YOLO26n(最小模型):5.4B → 一次推理需要 5.4 十亿次浮点运算
YOLO26s(中等模型):20.7B → 一次推理需要 20.7 十亿次浮点运算
YOLO26x(最大模型):193.9B → 一次推理需要 193.9 十亿次浮点运算
简单记:模型计算量(FLOPs)就像你要跑的 “路程”,比如跑 100 米需要 100 步。
- 两者的核心区别:速度 vs 工作量

- 两者的关系:硬件算力 × 时间 = 模型计算量
就像 “跑步速度 × 跑步时间 = 跑步距离”,硬件算力和模型计算量的关系可以用公式表示:理论推理速度(FPS,每秒处理图片数)= 硬件算力(FLOPS) ÷ 模型计算量(FLOPs)
用 Jetson AGX Orin + YOLO26 系列举例:
我们用 Orin 的 FP16 算力(6.666 TFLOPS = 6.666×10¹² 次 / 秒)来计算不同模型的理论 FPS :
- 实际意义:选模型、配硬件的核心逻辑
• 如果你的硬件算力(FLOPS)固定(比如用 Jetson AGX Orin),模型计算量(FLOPs)越小,推理速度越快,越适合边缘场景;
• 如果你的模型计算量(FLOPs)固定(比如选 YOLO26x),硬件算力(FLOPS)越高,推理速度越快,越适合高性能场景。
这也是为什么表格中 YOLO26n 速度最快、YOLO26x 速度最慢的原因 —— 计算量直接决定了硬件需要 “跑多远”。

时、总结:核心要点
最后把所有知识点浓缩成 7 句话,记牢这几句就够: - 算力 = 芯片每秒完成的计算次数;
- TOPS 是整数算力,对应 INT8,主打 AI 推理;
- TFLOPS 是浮点算力,对应 FP16/FP32,主打训练 / 科学计算;
- INT8:8 位整数,无小数点,最快、最小、精度最低;
- FP16:16 位浮点,小数点后约 3~4 位精度,速度与精度平衡,最常用;
- FP32:32 位浮点,小数点后约 6~7 位精度,精度最高、最慢、占用最大;
- 同芯片算力:INT8 > FP16 > FP32。
十一:TFLOPS 是是指计算fp32、fp16, 还是fp8?
TFLOPS 的定义
| 术语 | 全称 | 含义 |
|---|---|---|
| TFLOPS | Tera Floating Point Operations Per Second | 每秒万亿次浮点运算 |
| TOPS | Tera Operations Per Second | 每秒万亿次运算(含整数) |
不同精度的算力关系(以NVIDIA H100为例)
| 精度 | 算力 | 相对FP32倍数 | 应用场景 |
|---|---|---|---|
| FP64(双精度) | 67 TFLOPS | 0.5x | 科学计算(气象/物理模拟) |
| FP32(单精度) | 134 TFLOPS | 1x | 通用计算、传统深度学习 |
| TF32 Tensor Core | 989 TFLOPS | 7.4x | 训练默认精度(接近FP32范围+FP16精度) |
| BF16 Tensor Core | 1,979 TFLOPS | 14.8x | 训练主流(与FP32相同范围) |
| FP16 Tensor Core | 1,979 TFLOPS | 14.8x | 混合精度训练 |
| FP8 Tensor Core | 3,958 TFLOPS | 29.5x | 大模型训练/推理主流 |
| INT8 | 3,958 TOPS | - | 量化推理 |
规律:每降低一档精度,理论算力翻倍(利用Tensor Core的并行度提升)。
厂商宣传惯例
| 场景 | 通常引用的精度 | 原因 |
|---|---|---|
| 科学计算/数据中心通用 | FP64/FP32 | 传统HPC领域标准 |
| AI训练(2020年前) | FP16/TF32 | 混合精度训练时代 |
| AI训练/推理(当前) | FP8 | 大模型时代主流,数字最大最好看 |
| 极致量化推理 | FP4/INT8 | 边缘部署、极致压缩 |
为什么大模型用FP8?
| 因素 | 说明 |
|---|---|
| Transformer特性 | Attention计算对数值精度不敏感,FP8足够 |
| 内存带宽节省 | FP8比FP16省50%带宽,缓解内存墙 |
| 训练稳定性 | 配合Transformer Engine的动态缩放,FP8训练已成熟 |
| 硬件支持 | H100/B200原生FP8 Tensor Core,无额外开销 |
实际工程中的算力计算
示例:H100 SXM5
官方标称:
- FP8: 3,958 TFLOPS(宣传用,数字最大)
- FP16: 1,979 TFLOPS
- FP32: 134 TFLOPS(无Tensor Core)
- FP64: 67 TFLOPS
实际大模型训练:
- 使用FP8 + Transformer Engine
- 有效算力通常为理论值的10-30%(内存带宽、通信、算法效率限制)
- 实际约 400-1,200 TFLOPS
一句话总结
TFLOPS是单位,必须带精度才有意义。当前大模型领域默认指FP8 TFLOPS,但看实际性能时,内存带宽(GB/s)和显存容量(GB)往往比算力数字更重要。
对比芯片时,务必确认:
- 同精度对比(都用FP8或都用FP16)
- 看内存带宽(推理瓶颈)
- 看显存容量(模型能不能放下)
- 看互联带宽(多卡扩展能力)
评论 (0)