Ascend 910B

1. 产品概述：Ascend 910B

华为昇腾 (HUAWEI Ascend) 910B 是业界领先的旗舰级 AI 处理器，基于华为自研的 达芬奇架构 与 3D Cube 技术，实现了业界最佳的 AI 性能与能效比。其架构设计灵活伸缩，能够完美支持 “端、边、云” 全栈全场景应用，是当前国产化智算集群的首选算力底座。

1.1 核心架构：达芬奇架构

Ascend 910B 的算力核心来源于 AI Core，基于达芬奇架构设计，实现了计算、存储、控制的精细化分工。每个 AI Core 内部包含三大计算单元：

Cube Unit (矩阵运算单元)：
- 功能：达芬奇架构的核心（3D Cube），专门负责执行 FP16/INT8 的矩阵乘法运算（C = A * B）。
- 优势：在一个时钟周期内可完成 16x16x16 的矩阵乘加运算。在 Transformer 模型推理中，它负责加速核心的矩阵乘法层，提供极致的吞吐量。
Vector Unit (向量运算单元)：
- 功能：负责处理 FP32/FP16 的向量运算，如 Activation、LayerNorm、Softmax 等非矩阵类计算。
Scalar Unit (标量运算单元)：
- 功能：负责程序的流程控制、地址计算及简单的标量运算。

1.2 关键硬件特性

HCCS 高速互联：支持高速片间互联技术，单机内 8 卡全互联，能够构建大规模、低延迟的分布式训练集群。
大显存优势：配备 64GB HBM2e 高带宽显存，提供超高的数据吞吐能力，显著缓解了百亿参数大模型在训练与推理过程中的“显存墙”瓶颈。

2. 算力规格与精度支持

为了保障您的模型运行效率，请务必了解 NPU 对不同计算精度的支持情况。

2.1 精度使用建议

推荐策略：910B 在 FP16 和 BF16 下具备极高的 TFLOPS 表现。强烈建议在训练和推理中使用 混合精度 (AMP) 模式。

2.2 支持的计算精度与规格

精度类型	理论峰值算力	适用场景	备注
FP16	280 TFLOPS	高性能训练与推理的核心格式	需配合 Loss Scale 防止溢出
BF16	280 TFLOPS	主流大模型（如 Llama3）的原生格式	数值稳定性优于 FP16
INT8	560 TOPS	极致推理性能	需配合 MindIE 的 W8A8 量化特性
FP32	算力较低	硬件支持	建议仅用于必要的累加器或控制流

【数据来源】

昇腾硬件产品中心：提供详细的产品规格、性能指标、应用场景等。

3. 核心软件生态

昇腾生态采用分层架构，从底层的驱动到上层的推理服务，提供了完整的解决方案。

3.1 计算架构 CANN

CANN 是华为针对 AI 场景推出的计算架构。它是连接上层 AI 框架与底层 NPU 硬件的必经之路。

在推理场景中的作用：

ACL：
- 定位：提供统一的编程接口，管理设备、内存和流。
- 功能：作为 CANN 的最底层 API，直接暴露硬件能力，支持 C/C++ 开发，是所有上层框架（如 PyTorch, MindSpore）调用 NPU 的基石。
HCCL：
- 定位：华为集合通信库，支持多机多卡互联。
- 功能：提供单机多卡、多机多卡间的高性能数据通信，是分布式训练与推理（如张量并行 TP）的核心组件。
ATC：负责将开源框架的模型转换为昇腾专用的离线模型（OM），实现图级优化。
高性能算子库：内置了针对 910B 优化的 FlashAttention、MatMul 等核心算子，确保大模型推理的高效执行。

3.2 大模型推理引擎 MindIE

MindIE 是华为官方推出的高性能推理框架，专为解决大模型推理中的高并发、低时延及算力资源调度难题，对标 NVIDIA TensorRT-LLM。

MindIE 核心组件体系：

MindIE Motor (调度引擎)：
- 定位：推理业务的分布式调度核心。
- 核心能力：支持多机多卡分布式并发调度，内置 Continuous Batching (连续批处理) 技术，实现任务在 Prefill（预填充）与 Decode（生成）阶段的无缝并行，最大化提升硬件吞吐率。
MindIE LLM (文本大模型推理库)：
- 定位：针对大语言模型优化的推理加速库。
- 核心能力：支持主流 LLM 架构（如 Transformer、MoE），深度集成 PagedAttention 显存管理技术，大幅降低长文本推理时的显存占用与碎片化问题。
MindIE SD (图像生成推理库)：
- 定位：针对 AIGC 文生图场景的加速组件。
- 核心能力：专为 Stable Diffusion、ControlNet 等扩散模型优化，支持 Dynamic Shape (动态分辨率) 推理，在图像生成效率上显著优于原生 PyTorch 框架。
MindIE Turbo (端到端加速插件)：
- 定位：异构算子融合与极致加速套件。
- 核心能力：通过算子级的手写汇编优化与图融合（Graph Fusion）技术，针对 FlashAttention、RMSNorm 等核心算子提供极致的硬件利用率。

【数据来源】

MindIE Service 开发指南

MindIE LLM 开发指南

MindIE SD 开发指南

MindIE Turbo 开发指南

3.3 开源推理引擎 vLLM-Ascend

vLLM-Ascend 是 vLLM 官方支持的昇腾后端版本，由华为与开源社区共同维护。它并非简单的外部工具，而是昇腾生态为了兼容开源社区习惯而深度适配的战略模块。

定位：社区兼容性与灵活性的代表。
核心价值：
- 无缝迁移：它保留了 vLLM 原生的 PagedAttention 显存管理机制和 OpenAI API 接口，使得习惯于 NVIDIA 环境的开发者可以零成本迁移代码。
- 底层打通：通过 torch_npu 和 CANN 的适配，让 vLLM 的上层逻辑能够直接调用昇腾 NPU 的算力。
适用场景：适合追求开源社区最新特性、需要快速迭代或已有 vLLM 业务流迁移的场景。

【数据来源】

vLLM-Ascend 适配列表

vLLM-Ascend 开发指南

3.4 生态对比与选择建议：MindIE 与 vLLM-Ascend

为了更直观地理解两者的区别与选择策略，以下是深度对比：

维度	MindIE	vLLM-Ascend
技术栈 (上层)	MindIE Service (官方高并发服务)	vLLM API Server (原生开源接口)
技术栈 (中间层)	MindIE Torch / ATB (自研加速库，极致性能)	PyTorch Adapter (torch_npu) (算子映射兼容)
核心优势	极致性能官方 SLA 支持，针对昇腾硬件深度优化	极致兼容版本迭代快，紧跟社区新模型 (如 DeepSeek)
适用人群	企业级生产环境、对性能有极致要求、稳定业务流	开发者、科研人员、快速验证、依赖开源工具链

选择建议：

如果您的目标是生产环境大规模部署，且追求硬件算力的极限释放，MindIE 是不二之选。
如果您是初次接触昇腾，或者需要快速验证新模型（如 GitHub 上刚发布的开源模型），建议先使用 vLLM-Ascend 跑通流程。

4. 开发框架：MindSpore

4.1 MindSpore 开发与原生支持

MindSpore (昇思) 是华为开源的全场景 AI 计算框架，提供原生支持 Ascend 910B 的极致性能。其设计理念是 "一次开发，全场景部署"，特别适合追求高性能和全栈自主可控的场景。

基础架构与设计理念

MindSpore 的核心架构旨在实现三大目标：易开发、高效执行与全场景统一部署。

模型套件层：提供开箱即用的 MindSpore Transformers、MindSpore ONE 等高阶套件。
API 接口层：提供 Python 原生编程体验，最大化保持开发者的使用习惯。
核心运行时：内置自动微分 (Autograd)、并行计算 (Parallel) 及编译优化 (Compile) 模块，支持动静统一的开发模式。

【数据来源】

MindSpore 基础介绍与架构：详细介绍 MindSpore 的基础概念、架构与设计理念，适合初学者快速上手。

快速上手示例

MindSpore 的 API 设计风格高度贴近 PyTorch，降低了学习成本：

import numpy as np
import mindspore
from mindspore import Tensor

data = [1, 0, 1, 0]
x_data = mindspore.tensor(data)
print(x_data, x_data.shape, x_data.dtype)

5. 模型部署建议

基于 MindIE 及 vLLM-Ascend 的官方支持矩阵，Ascend 910B 架构已完成对下列主流模型的深度适配。

5.1 主流模型支持列表

由于 MindIE 与 vLLM-Ascend 的技术路线不同，其支持的模型列表与特性也有所差异。请根据您的推理引擎选择参考。

A. vLLM-Ascend 支持列表

vLLM-Ascend 紧跟开源社区步伐，对新模型（如 DeepSeek-V3）的支持通常最快。

模型系列	典型模型	核心特性	备注
DeepSeek	DeepSeek-V3 / R1 / Distill	MoE, Multi-Head Latent Attention	完美支持，推荐首选
Qwen	Qwen2.5 / Qwen3 / QwQ	FlashAttention-2, RMSNorm	支持 Qwen2-VL 等多模态
Llama	Llama 3.1 / 3.2 / 4	GQA, RotaryEmbedding	支持，含 Llama4 预览版
多模态	Qwen2.5-VL / LLaVA 1.6	Vision Encoder, Video	支持图像与视频理解

【数据来源】

vLLM-Ascend 官方支持矩阵：详细列出 vLLM-Ascend 对不同模型的支持状态。

B. MindIE 支持列表

MindIE 包含 MindIE LLM (文本)、MindIE SD (生图) 及 MindIE Turbo (加速插件) 三大板块，侧重于极致性能与生产环境稳定性。

组件板块	典型模型	核心优势
MindIE Turbo	DeepSeek-V3, Qwen2.5	端到端加速：针对 Transformer 核心算子（如 MoE 路由、Attention）进行手写汇编级优化，吞吐量远超原生 PyTorch。
MindIE LLM	Llama 3, Baichuan, GLM	服务化部署：提供兼容 OpenAI 接口的高并发 Serving 服务，内置 Continuous Batching 调度。
MindIE SD	Stable Diffusion XL / 3	动态分辨率：支持 Dynamic Shape 推理，大幅提升文生图场景下的显存利用率与生成速度。

6. 监控与性能分析工具

6.1 系统监控：npu-smi

npu-smi 是管理 NPU 设备的核心命令行工具，功能对标 nvidia-smi，但指令格式略有不同。

常用指令	功能描述	关键关注点
`npu-smi info`	全局概览	关注 Health (必须为 OK) 和 Temp (温度，过高会降频)
`npu-smi info -t memory -i <id>`	显存详情	查看 HBM 使用率及 ECC 错误计数 (若非0可能存在硬件故障)
`npu-smi info -t utilization -i <id>`	算力利用率	查看 AI Core (矩阵运算) 和 Vector Core (向量运算) 的负载率
`npu-smi info -t board -i <id>`	板卡信息	查看设备序列号 (SN) 和固件版本，用于保修或版本对齐
`watch -n 1 npu-smi info`	实时刷新	动态监控训练过程中的功耗与显存波动

提示：<id> 通常为设备 ID，单卡实例通常为 0，8 卡机为 0 到 7。

7. 平台与官方资源导航

昇腾官方技术资料

如需获取最底层的驱动更新、CANN 下载及详细技术文档，请参考厂商官方文档库：

CANN 文档中心：提供环境安装、环境变量配置、ATC 模型转换及算子开发指南。
MindIE 全栈文档:
模型与代码：官方适配模型库，提供已验证的训练/推理脚本，是解决“跑不通”问题的最佳参考。
兼容性查询：查询服务器型号、OS 版本与 CANN 版本的对应关系，避免版本错配。

1. 产品概述：Ascend 910B​

1.1 核心架构：达芬奇架构​

1.2 关键硬件特性​

2. 算力规格与精度支持​

2.1 精度使用建议​

2.2 支持的计算精度与规格​

3. 核心软件生态​

3.1 计算架构 CANN​

3.2 大模型推理引擎 MindIE​

3.3 开源推理引擎 vLLM-Ascend​

3.4 生态对比与选择建议：MindIE 与 vLLM-Ascend​

4. 开发框架：MindSpore​

4.1 MindSpore 开发与原生支持​

基础架构与设计理念​

快速上手示例​

5. 模型部署建议​

5.1 主流模型支持列表​

A. vLLM-Ascend 支持列表​

B. MindIE 支持列表​

6. 监控与性能分析工具​

6.1 系统监控：npu-smi​

7. 平台与官方资源导航​

昇腾官方技术资料​