Ascend 910B
1. 产品概述:Ascend 910B
华为昇腾 (HUAWEI Ascend) 910B 是业界领先的旗舰级 AI 处理器,基于华为自研的 达芬奇架构 与 3D Cube 技术,实现了业界最佳的 AI 性能与能效比。其架构设计灵活伸缩,能够完美支持 “端、边、云” 全栈全场景应用,是当前国产化智算集群的首选算力底座。
1.1 核心架构:达芬奇架构
Ascend 910B 的算力核心来源于 AI Core,基于达芬奇架构设计,实现了计算、存储、控制的精细化分工。每个 AI Core 内部包含三大计算单元:
- Cube Unit (矩阵运算单元):
- 功能:达芬奇架构的核心(3D Cube),专门负责执行 FP16/INT8 的矩阵乘法运算(C = A * B)。
- 优势:在一个时钟周期内可完成 16x16x16 的矩阵乘加运算。在 Transformer 模型推理中,它负责加速核心的矩阵乘法层,提供极致的吞吐量。
- Vector Unit (向量运算单元):
- 功能:负责处理 FP32/FP16 的向量运算,如 Activation、LayerNorm、Softmax 等非矩阵类计算。
- Scalar Unit (标量运算单元):
- 功能:负责程序的流程控制、地址计算及简单的标量运算。
1.2 关键硬件特性
- HCCS 高速互联:支持高速片间互联技术,单机内 8 卡全互联,能够构建大规模、低延迟的分布式训练集群。
- 大显存优势:配备 64GB HBM2e 高带宽显存,提供超高的数据吞吐能力,显著缓解了百亿参数大模型在训练与推理过程中的“显存墙”瓶颈。
2. 算力规格与精度支持
为了保障您的模型运行效率,请务必了解 NPU 对不同计算精度的支持情况。
2.1 精度使用建议
- 推荐策略:910B 在 FP16 和 BF16 下具备极高的 TFLOPS 表现。强烈建议在训练和推理中使用 混合精度 (AMP) 模式。
2.2 支持的计算精度与规格
| 精度类型 | 理论 峰值算力 | 适用场景 | 备注 |
|---|---|---|---|
| FP16 | 280 TFLOPS | 高性能训练与推理的核心格式 | 需配合 Loss Scale 防止溢出 |
| BF16 | 280 TFLOPS | 主流大模型(如 Llama3)的原生格式 | 数值稳定性优于 FP16 |
| INT8 | 560 TOPS | 极致推理性能 | 需配合 MindIE 的 W8A8 量化特性 |
| FP32 | 算力较低 | 硬件支持 | 建议仅用于必要的累加器或控制流 |
【数据来源】
- 昇腾硬件产品中心:提供详细的产品规格、性能指标、应用场景等。
3. 核心软件生态
昇腾生态采用分层架构,从底层的驱动到上层的推理服务,提供了完整的解决方案。
3.1 计算架构 CANN
CANN 是华为针对 AI 场景推出的计算架构。它是连接上层 AI 框架与底层 NPU 硬件的必经之路。
在推理场景中的作用:
- ACL:
- 定位:提供统一的编程接口,管理设备、内存和流。
- 功能:作为 CANN 的最底层 API,直接暴露硬件能力,支持 C/C++ 开发,是所有上层框架(如 PyTorch, MindSpore)调用 NPU 的基石。
- HCCL:
- 定位:华为集合通信库,支持多机多卡互联。
- 功能:提供单机多卡、多机多卡间的高性能数据通信,是分布式训练与推理(如张量并行 TP)的核心组件。
- ATC:负责将开源框架的模型转换为昇腾专用的离线模型(OM),实现图级优化。
- 高性能算子库:内置了针对 910B 优化的 FlashAttention、MatMul 等核心算子,确保大模型推理的高效执行。
3.2 大模型推理引擎 MindIE
MindIE 是华为官方推出的高性能推理框架,专为解决大模型推理中的高并发、低时延及算力资源调度难题,对标 NVIDIA TensorRT-LLM。
MindIE 核心组件体系:
- MindIE Motor (调度引擎):
- 定位:推理业务的分布式调度核心。