AI专题十：算力芯片对比与算力芯片指标

一、NVIDIA GPU系列

型号	架构	显存	内存带宽	FP8算力	FP4算力	TDP	定位
A100	Ampere	80GB HBM2e	2 TB/s	-	-	400W	上一代通用
H100 SXM	Hopper	80GB HBM3	3.35 TB/s	3,958 TFLOPS	-	700W	当前训练主力
H200 SXM	Hopper	141GB HBM3e	4.8 TB/s	3,958 TFLOPS	-	700W	大模型推理优化
B200	Blackwell	192GB HBM3e	8 TB/s	9,000 TFLOPS	18,000 TFLOPS	1000W	2025旗舰

关键洞察：
• H200与H100计算性能相同（3,958 TFLOPS FP8），但内存容量提升76%（141GB vs 80GB），带宽提升43%（4.8 vs 3.35 TB/s）
spheron.networkspheron.netw…
• B200采用双die封装，FP8算力是H100的2.3倍，内存带宽是H200的1.7倍
GPU Cloud
• B200的180-192GB显存可单卡容纳70B-180B参数模型，无需张量并行

二、华为昇腾系列（国产）

型号	工艺	显存	内存带宽	FP16算力	设计特点	出货情况
昇腾910B	中芯N+1（7nm）	64GB HBM2e	400GB/s → 1.2TB/s（910B3）	320 TFLOPS	达芬奇架构，受限工艺	2024年出货约40万颗
昇腾910C	中芯N+2（7nm）	HBM2e/HBM3	~1.2TB/s	800 TFLOPS	双die合封（类似B200）	2025年预计70-80万颗

关键洞察：
910C采用双die封装设计，将两颗910B整合，FP16算力达800 TFLOPS，约为H100的80%
910C芯片逻辑面积比H100多60%，架构效率仍有差距
中芯国际N+2工艺良率从2024年20%提升至2025年40-50%
910B均价约11万元/片，910C约18-20万元/片，远低于H100的2.5-3万美元
未来路线图（2025-2028）：
昇腾950：引入FP8/FP4，算力达1 PFLOPS（FP8），支持SIMT编程模型
昇腾960/970：每代算力翻倍，970达8 PFLOPS（FP4），能效比提升30%

三、AMD GPGPU系列

型号	架构	显存	内存带宽	FP8算力	特点	发布时间
MI300X	CDNA 3	192GB HBM3	5.3 TB/s	2,614 TFLOPS	内存容量领先H100	已发布
MI325X	CDNA 3	256GB HBM3E	6 TB/s	-	内存进一步提升	2024年底
MI350X	CDNA 4 (3nm)	288GB HBM3E	8 TB/s	-	FP4/FP6支持，推理性能提升35倍	2025年中

关键洞察：
MI300X的192GB HBM3容量超过H100（80GB），带宽5.3 TB/s也高于H100的3.35 TB/s
AMD软件生态（ROCm）仍是最大短板，CUDA代码移植困难
MI350X将支持FP4/FP6，与NVIDIA B200直接竞争

四、Google TPU系列

型号	定位	峰值性能	内存	互联	特点	发布时间
TPU v5e	推理优化	393 TOPS (INT8)	-	256芯片Pod	2.5倍推理性价比	2023
TPU v5p	训练	100 Peta-OPS INT8 (Pod)	-	-	训练导向	2023
TPU v6e (Trillium)	训练+推理	4.7倍v5峰值	2倍v5容量	Jupiter: 100K芯片/Pod	训练Gemini 2.0，能效提升67%	2024
TPU v7x (Ironwood)	推理优先	~4,614 TFLOPS/芯片 ( rumored)	192GB	~9,216芯片/Pod	专为LLM调优，30倍能效提升	2025预览

五、综合对比表

厂商	旗舰型号	显存容量	内存带宽	FP8算力	制程	核心优势	主要短板
NVIDIA	B200	192GB	8 TB/s	9 PFLOPS	4NP	生态垄断(CUDA)、性能最强	价格极高、供应受限
NVIDIA	H200	141GB	4.8 TB/s	3.96 PFLOPS	4N	内存升级、软件兼容	算力与H100相同
AMD	MI350X	288GB	8 TB/s	-	3nm	内存容量最大、性价比高	软件生态(ROCm)弱
AMD	MI300X	192GB	5.3 TB/s	2.6 PFLOPS	5nm	大显存、成本较低	软件支持不足
华为	910C	-	~1.2 TB/s	0.8 PFLOPS (FP16)	7nm(N+2)	国产自主、供应链安全	单卡性能落后1-2代
华为	910B	64GB	1.2 TB/s	0.32 PFLOPS	7nm(N+1)	国产替代首选	性能落后、生态建设中
Google	TPU v6e	-	-	4.7倍v5	-	与云深度整合、能效高	仅云可用、灵活性差
Google	TPU v7x	192GB	-	~4.6 PFLOPS	-	推理优化、超大规模Pod	尚未正式发布

六、关键趋势总结

维度	趋势
内存容量竞赛	从80GB(H100) → 192GB(B200/MI300X) → 288GB(MI350X)，大模型单卡部署成关键
内存带宽瓶颈	推理阶段带宽比算力更重要，8 TB/s成为新标杆
精度降低	FP8→FP4普及，B200支持FP4实现18 PFLOPS
国产替代加速	华为昇腾910C大规模出货（70-80万颗/年），性能达H100 80%
软件生态分化	CUDA仍垄断，但ROCm、CANN、XLA/JAX多极竞争
Chiplet架构	B200、910C、MI300X均采用多die封装，提升良率和扩展性

七、核心算力单位：TOPS vs TFLOPS

TOPS：整数算力的代表
TOPS 的全称是Tera Operations Per Second，拆解来看：

OPS：Operations Per Second，即每秒完成的计算操作次数；
T：Tera，代表 1 万亿（10¹²）。
所以1 TOPS = 每秒完成 1 万亿次整数运算。

它主要用于衡量AI 推理场景的算力，比如图像识别、目标检测、分类等边缘 AI 任务，像 Jetson 系列边缘开发板，标注算力时就常用 TOPS。

简单记：TOPS = 整数算力，看 AI 推理快不快。

TFLOPS：浮点算力的代表
TFLOPS 的全称是Tera Floating-point Operations Per Second，拆解来看：

FLOPS：Floating-point Operations Per Second，即每秒完成的浮点运算（带小数点的数）次数；
T：同样代表 1 万亿。
所以1 TFLOPS = 每秒完成 1 万亿次浮点运算。

它主要用于衡量深度学习训练、科学计算场景的算力，比如显卡、大型训练集群标注算力时，就常用 TFLOPS。

简单记：TFLOPS = 小数算力，看训练 / 科学计算强不强。

八、关键数据类型：FP32、FP16、INT8 详解

INT8：8 位整数
存储规则：用 8 位二进制存储，只能表示整数，范围是 - 128~127，没有小数点，不存在 “小数点后几位” 的概念；
通俗举例：只能存 1、5、-10 这类整数，存不了 1.5、3.14 这类小数；
核心特点：占用空间最小，计算速度最快，精度最低（仅支持整数运算）；
对应算力单位：TOPS；
适用场景：AI 推理（模型量化后常用，在保证精度损失极小的前提下，大幅提升推理速度、降低内存占用）。
FP16：16 位浮点
存储规则：用 16 位二进制存储小数，其中1 位符号位、5 位指数位、10 位尾数位，小数点后能保留约 3~4 位有效数字；
通俗举例：能存 3.14、0.005、-2.7 这类小数，但如果是 3.1415926，会近似存为 3.1416，小数点后第 5 位会四舍五入；
核心特点：速度快，显存 / 内存占用小，平衡了速度与精度；
对应算力单位：TFLOPS；
适用场景：深度学习训练、推理都常用（混合精度训练的核心数据类型，既能保证训练效果，又能提升速度）。
FP32：32 位浮点
存储规则：用 32 位二进制存储小数，其中1 位符号位、8 位指数位、23 位尾数位，小数点后能保留约 6~7 位有效数字；
通俗举例：能精准存 3.1415926、0.0001234、-5.678901 这类小数，小数点后前 7 位基本不会丢失精度；
核心特点：精度最高，但计算速度最慢，占用空间最大（是 FP16 的 2 倍、INT8 的 4 倍）；
对应算力单位：TFLOPS；
适用场景：科学计算、部分对精度要求极高的训练 / 推理任务（比如医学影像分析、高精度数值模拟）。
三者核心区别与算力影响总结

对算力的核心影响：数据类型位数越少，芯片一次能并行处理的计算次数越多，算力自然越高。比如同一块芯片，INT8 算力通常是 FP16 的 2 倍、FP32 的 4 倍 —— 因为 INT8 占 8 位，芯片一次能处理 4 个 INT8 数据，而 FP32 占 32 位，一次只能处理 1 个，算力差距就此拉开。

九、数据类型与算力的关系：越小越快，算力越高
很多新人会疑惑：为什么同一块芯片，INT8 算力比 FP32 高这么多？核心原因就在于数据类型的位数。

数据类型的位数越少，芯片一次能并行处理的计算次数就越多，算力自然越高。同一块芯片的算力规律是：INT8 算力 > FP16 算力 > FP32 算力。

举个直观的例子：

算 INT8（8 位）：芯片一次能处理 8 个数据，算力达到峰值；
算 FP16（16 位）：芯片一次只能处理 4 个数据，算力减半；
算 FP32（32 位）：芯片一次仅能处理 2 个数据，算力最低。
这也是为什么 AI 推理常用 INT8，训练常用 FP16，高精度计算才用 FP32 的原因。

十、实战结合：从硬件算力到模型推理速度
我们先来看这张 YOLO26 系列模型的性能对比表，它直观展示了不同尺寸模型在精度、速度、计算量上的差异，是我们理解 “硬件算力” 和 “模型计算量” 关系的绝佳例子：

这张表是 YOLO26 系列（n/s/m/l/x 从最小到最大）在 COCO 数据集上的实测结果，其中最关键的一列是 FLOPs（B），它代表每个模型完成一次推理（输入一张 640×640 图片）需要的浮点运算次数（单位是十亿次）。

先看 Jetson AGX Orin 的硬件算力（FLOPS）
Jetson AGX Orin 作为边缘 AI 硬件，它的算力是硬件本身的 “速度指标”，表示每秒能完成多少次浮点运算，官方参数如下：

FP16（半精度浮点）算力：约 6.666 TFLOPS（每秒 6.666 万亿次浮点运算）
FP32（单精度浮点）算力：约 3.333 TFLOPS（每秒 3.333 万亿次浮点运算）
INT8（整数）算力：200~275 TOPS（对应边缘 AI 推理场景）
简单记：硬件算力（FLOPS）就像你的 “跑步速度”，比如每秒能跑 10 米。

再看模型计算量（FLOPs）
表中的 FLOPs（B）是模型的 “工作量指标”，表示完成一次推理需要多少次浮点运算。比如：

YOLO26n（最小模型）：5.4B → 一次推理需要 5.4 十亿次浮点运算
YOLO26s（中等模型）：20.7B → 一次推理需要 20.7 十亿次浮点运算
YOLO26x（最大模型）：193.9B → 一次推理需要 193.9 十亿次浮点运算
简单记：模型计算量（FLOPs）就像你要跑的 “路程”，比如跑 100 米需要 100 步。

两者的核心区别：速度 vs 工作量

两者的关系：硬件算力 × 时间 = 模型计算量
就像 “跑步速度 × 跑步时间 = 跑步距离”，硬件算力和模型计算量的关系可以用公式表示：理论推理速度（FPS，每秒处理图片数）= 硬件算力（FLOPS） ÷ 模型计算量（FLOPs）

用 Jetson AGX Orin + YOLO26 系列举例：
我们用 Orin 的 FP16 算力（6.666 TFLOPS = 6.666×10¹² 次 / 秒）来计算不同模型的理论 FPS ：

实际意义：选模型、配硬件的核心逻辑
• 如果你的硬件算力（FLOPS）固定（比如用 Jetson AGX Orin），模型计算量（FLOPs）越小，推理速度越快，越适合边缘场景；
• 如果你的模型计算量（FLOPs）固定（比如选 YOLO26x），硬件算力（FLOPS）越高，推理速度越快，越适合高性能场景。
这也是为什么表格中 YOLO26n 速度最快、YOLO26x 速度最慢的原因 —— 计算量直接决定了硬件需要 “跑多远”。

时、总结：核心要点
最后把所有知识点浓缩成 7 句话，记牢这几句就够：
算力 = 芯片每秒完成的计算次数；
TOPS 是整数算力，对应 INT8，主打 AI 推理；
TFLOPS 是浮点算力，对应 FP16/FP32，主打训练 / 科学计算；
INT8：8 位整数，无小数点，最快、最小、精度最低；
FP16：16 位浮点，小数点后约 3~4 位精度，速度与精度平衡，最常用；
FP32：32 位浮点，小数点后约 6~7 位精度，精度最高、最慢、占用最大；
同芯片算力：INT8 > FP16 > FP32。

十一：TFLOPS 是是指计算fp32、fp16，还是fp8？
TFLOPS 的定义

术语	全称	含义
TFLOPS	Tera Floating Point Operations Per Second	每秒万亿次浮点运算
TOPS	Tera Operations Per Second	每秒万亿次运算（含整数）

不同精度的算力关系（以NVIDIA H100为例）

精度	算力	相对FP32倍数	应用场景
FP64（双精度）	67 TFLOPS	0.5x	科学计算（气象/物理模拟）
FP32（单精度）	134 TFLOPS	1x	通用计算、传统深度学习
TF32 Tensor Core	989 TFLOPS	7.4x	训练默认精度（接近FP32范围+FP16精度）
BF16 Tensor Core	1,979 TFLOPS	14.8x	训练主流（与FP32相同范围）
FP16 Tensor Core	1,979 TFLOPS	14.8x	混合精度训练
FP8 Tensor Core	3,958 TFLOPS	29.5x	大模型训练/推理主流
INT8	3,958 TOPS	-	量化推理

规律：每降低一档精度，理论算力翻倍（利用Tensor Core的并行度提升）。

厂商宣传惯例

场景	通常引用的精度	原因
科学计算/数据中心通用	FP64/FP32	传统HPC领域标准
AI训练（2020年前）	FP16/TF32	混合精度训练时代
AI训练/推理（当前）	FP8	大模型时代主流，数字最大最好看
极致量化推理	FP4/INT8	边缘部署、极致压缩

为什么大模型用FP8？

因素	说明
Transformer特性	Attention计算对数值精度不敏感，FP8足够
内存带宽节省	FP8比FP16省50%带宽，缓解内存墙
训练稳定性	配合Transformer Engine的动态缩放，FP8训练已成熟
硬件支持	H100/B200原生FP8 Tensor Core，无额外开销

实际工程中的算力计算
示例：H100 SXM5
官方标称：