部分内容来自：https://www.cnblogs.com/ZOMI/articles/18555010

AI 系统：AI 时代连接硬件和上层应用的中间层软硬件基础设施。
因此在部分语境中，又有人称为 AI Infra 人工智能的基础设施，但是因为基础设施更偏向于底层硬件、集群等内容，而 AI 系统是多的是强调让 AI 执行起来的系统体系结构，因此更愿意称包括软硬件的内容为 AI 系统。
传统本地部署时代，三大基础软件（数据库、操作系统、中间件）实现控制硬件交互、存储管理数据、网络通信调度等共性功能，抽象并隔绝底层硬件系统的复杂性，让上层应用开发者能够专注于业务逻辑和应用功能本身的创新实现。
云时代同理，形成了 IaaS、PaaS、SaaS 三层架构，其中 PaaS 层提供应用开发环境和基础的数据分析管理服务。类比来看，我们认为，进入 AI 时代也有承担类似功能的、连接算力和应用的基础设施中间层即 AI 系统，提供基础模型服务、赋能模型微调和应用开发。

包括了如下图几个方面：大模型（算法应用）-AI训练和推理框架-AI编译和计算架构-AI
硬件体系

这四大体系的主要技术栈：

下面分开简述这四大体系：

AI 大模型

AI 大模型框架实现解析：以 DeepSeek 系列为例
目前主流 AI 大模型（包括 DeepSeek 系列）的底层实现主要依托于 PyTorch 生态，但在此基础上构建了高度定制化的训练与推理基础设施。具体的技术栈通常不对外完全公开，但通过开源模型结构与行业惯例可以推断其核心架构。
以下是关于 AI 大模型实现框架的核心要点分析：
.
基础深度学习框架：PyTorch 主导绝大多数现代大模型（包括 DeepSeek、Llama 系列）均使用 PyTorch 作为基础开发框架。PyTorch 的动态图机制便于模型调试与研究，其丰富的生态库（如 torch.nn、torch.distributed）为构建复杂的 Transformer 架构提供了标准接口。
.
.
分布式训练基础设施：定制化加速为了支撑千亿参数规模的训练，团队通常会在 PyTorch 之上集成 DeepSpeed 或 Megatron-LM 等分布式库，甚至开发内部专有系统。针对 DeepSeek 特有的 MoE（混合专家）架构，训练框架需专门优化专家路由与负载均衡算法，以实现高效的稀疏计算。
.
.
推理引擎与部署优化：高性能运行时模型部署阶段通常不再直接使用原生 PyTorch，而是转换为高性能推理引擎。常见的方案包括 vLLM、TensorRT-LLM 或自研推理后端，通过算子融合、量化（INT8/FP8）及显存优化技术，显著降低延迟并提升吞吐率。
.
.
模型互操作性与开源生态为了兼容不同硬件与框架，大模型权重常支持导出为 ONNX 或 Safetensors 格式。DeepSeek 等开源模型允许社区在 Hugging Face 等平台直接加载，这意味着其结构定义遵循通用的 Transformers 库规范，便于跨框架迁移与二次开发。
.
综上所述，虽然具体的内部工程细节属于企业机密，但基于 PyTorch 的开源生态配合定制化分布式训练与推理引擎，是目前包括 DeepSeek 在内的大模型行业通用技术路径。这种架构既保证了研发的灵活性，又满足了生产环境对性能与稳定性的严苛要求。

AI 训练与推理框架

AI 训练和推理框架是深度学习生态系统中的基础设施，主要用于简化模型的开发、优化及部署流程。PyTorch 和 TensorFlow 确实属于这类框架，它们不仅支持模型的训练过程，也提供了推理能力，但在实际生产环境中，二者往往配合专用的推理引擎使用。

框架的核心职能：从算法到算力的桥梁
AI 框架的核心价值在于屏蔽底层硬件差异，让开发者专注于算法逻辑。它们通过自动微分机制计算梯度，利用计算图优化技术调度资源，从而实现高效的模型迭代。
训练阶段：负责数据加载、前向传播、损失计算、反向传播及参数更新，支持分布式训练以加速大规模模型收敛。
推理阶段：加载训练好的权重，对新数据进行预测计算，注重低延迟、高吞吐及内存占用优化。
PyTorch 与 TensorFlow 的定位与差异
这两款主流框架均覆盖了训练与推理的全链路，但设计哲学略有不同。PyTorch 以其动态图机制和灵活的 Python 接口著称，深受学术界和研发人员喜爱；TensorFlow 则拥有成熟的静态图优化能力和强大的服务端部署生态（如 TF Serving），在企业级生产中应用广泛。
通用性：两者均支持构建复杂的神经网络结构，并提供丰富的预训练模型库。
部署能力：虽然都支持直接推理，但为了极致性能，通常会将模型导出为中间格式（如 ONNX）或使用专用编译器（如 TorchScript、TFLite）进行加速。
训练框架与推理引擎的生态协同
在实际工程落地中，"训练框架"与"推理引擎"常有分工。训练框架侧重灵活性与易用性，而推理引擎侧重性能与资源管控。
模型导出：训练完成后，模型常被转换为特定格式（如 .pt、.pb、.onnx），以便在不同硬件上运行。
专用加速：生产环境常使用 TensorRT、OpenVINO 等推理引擎加载框架导出的模型，以充分发挥 GPU 或 NPU 的算力，实现比原生框架推理更高的效率。
核心能力总结
为了更清晰地理解这两类框架的功能边界，以下列举其关键能力：
自动微分系统：自动计算梯度，免除手动推导公式的繁琐，是训练深度学习模型的基础。
计算图优化：通过算子融合、内存复用等技术，减少计算开销并提升执行效率。
硬件抽象层：统一接口支持 CPU、GPU 及各类 AI 加速芯片，实现代码的跨平台运行。
生态工具链：提供数据预处理、模型可视化、调试及部署服务的一站式解决方案。
动态与静态模式：支持动态图便于调试研发，支持静态图便于生产部署优化。
综上所述，PyTorch 和 TensorFlow 是典型的 AI 训练与推理框架，它们构成了现代人工智能开发的主干。但在高性能部署场景下，通常会结合专用的推理引擎或编译器，以实现从算法研发到终端落地的最佳性能平衡。
类似验证中的UVM、OVM

AI编译器概述

编译器可以将整个程序转换为目标代码(object code)，这些目标代码通常存储在文件中。目标代码也被称为二进制代码，在进行链接后可以被机器直接执行。典型的编译型程序语言有 C 和 C++。

当前，AI 编译器的发展阶段似乎回到了 GCC 出现之前的时代。每家 AI 芯片公司都在推出自己的 AI 编译器、框架甚至软件栈，市场上出现了极度碎片化的现象。

这种理解抓住了 AI 编译器的核心流向，但在具体的技术实现细节上存在简化。AI 编译器的工作流程比“直接编译 Python 到二进制”更为复杂，涉及多层抽象与优化。以下是对其输入输出机制的详细解析：

输入层面：计算图与中间表示（IR）而非纯 Python 代码
AI 编译器的直接输入通常不是原始的 Python 脚本，而是由深度学习框架（如 PyTorch、TensorFlow）生成的计算图（Computational Graph）或中间表示（IR）。
技术细节：Python 在此过程中主要充当“宿主语言”，用于定义模型结构。编译器前端会通过追踪（Tracing）或图捕获（Graph Capture）技术，将 Python 代码转换为与语言无关的中间表示（如 ONNX、TorchScript、HLO 等）。
原因：直接编译动态类型的 Python 代码效率极低，转换为静态 IR 后，编译器才能进行算子融合、内存优化等高级变换。
输出层面：运行时引擎与集成库而非单一 Kernel 文件
编译后的产出物通常不是一个独立的 GPU Kernel 二进制文件，而是一个包含多个优化算子、内存管理逻辑及调度策略的运行时库或模型引擎。
技术细节：最终产物可能是动态链接库（.so/.dll）、序列化模型文件（如 TensorRT 的 .engine 或 TVM 的 .tar），其中封装了多个针对特定硬件优化的 Kernel 代码（如 CUDA PTX 或机器码）。
原因：深度学习模型由成百上千个算子组成，编译器需要生成完整的执行计划，处理数据搬运、内核启动及同步，单一二进制文件无法承载完整的推理逻辑。
Python 的角色：接口调度而非计算主体
在整个编译与部署链路中，Python 主要承担接口调用与数据调度的角色，而非实际计算负载的承担者。
技术细节：在推理阶段，Python 脚本负责加载编译好的二进制引擎，将输入数据张量传递给底层运行时，由编译后的 native 代码在 GPU 上执行密集计算。
补充信息：这种架构设计实现了“开发效率”与“运行性能”的解耦，开发者使用友好的 Python 生态，而机器执行高效的底层二进制指令。
综上所述，AI 编译器实质上是一个将高层模型描述转换为硬件专属高效指令集的翻译与优化系统，其核心价值在于屏蔽硬件差异并最大化算力利用率。

AI硬件架构

AI硬件架构主要包括CPU、GPU、TPU、NPU和LPU五大类型，并通过系统级协同和混合部署实现高效算力支撑。
核心硬件类型与特点
CPU（中央处理器）
CPU专为通用计算设计，适合处理复杂逻辑、分支和系统级任务，严格遵循冯·诺依曼结构，核心包括控制单元和算术逻辑单元（ALU）。在AI系统中，CPU负责任务调度、队列管理、资源分配以及强化学习（RL）环境的仿真和多智能体控制。

GPU（图形处理器）
GPU擅长大规模并行浮点运算，适合深度学习训练和推理。现代GPU通过CUDA、Tensor Core等技术支持通用计算，成为AI计算的核心加速器。

TPU（张量处理单元）
TPU是Google开发的专用AI加速器，针对矩阵运算和深度学习优化，提供高吞吐量和低延迟，适合大规模模型训练和推理。
NPU（神经网络处理器）
NPU面向边缘设备和移动端AI应用，优化低功耗、高效推理，支持语音识别、图像处理等任务。

LPU（逻辑处理单元）
LPU用于特定逻辑加速场景，如AI推理中的规则计算和控制逻辑，通常与NPU或GPU协同工作。
来源
系统级协同与混合部署
CPU-GPU协同：在多智能体、强化学习和复杂仿真场景中，CPU负责环境步进、控制逻辑和数据管理，GPU负责梯度计算和模型训练。提高CPU:GPU比值可优化GPU利用率，降低空转和延迟。

混合算力架构：结合本地GPU与云端租用GPU，形成“本地核心算力池+云端弹性算力池”，既保证数据安全和低延迟，又能应对突发峰值需求，实现成本和效率的平衡。

AI应用解决方案中的硬件架构
成熟的AI应用通常由三大模块构成：
智能硬件终端：支持多模态交互，如语音、人脸、触觉等。
AI技术中台：提供核心算力和模块化能力，快速响应定制化需求。
数据服务体系：收集用户行为数据，进行分析和策略输出，实现全链路闭环的智能决策。

发展趋势
AI芯片市场持续增长，专用推理芯片和系统级性能优化成为核心竞争力。
CPU与GPU的协同效率将成为数据中心设计重点，系统级优化取代单芯片性能。
混合部署和垂直整合将加速，满足大模型训练、实时推理和多任务并发需求。

通过理解这些硬件架构及其协同方式，开发者可以根据应用场景选择合适的算力方案，实现AI系统的高效运行。

AI专题十一：AI系统全景概述

AI 大模型

AI 训练与推理框架

AI编译器概述

AI硬件架构

AI专题三十八：机器学习中常用的几种距离度量方法

AI专题三十七：神经网络学习规则

AI专题三十六：激活函数分类和作用

AI专题三十五：神经网络的基本原理

评论 (0)