跳到主要内容

Ascend 910B

1. 产品概述:Ascend 910B

华为昇腾 (HUAWEI Ascend) 910B 是业界领先的旗舰级 AI 处理器,基于华为自研的 达芬奇架构3D Cube 技术,实现了业界最佳的 AI 性能与能效比。其架构设计灵活伸缩,能够完美支持 “端、边、云” 全栈全场景应用,是当前国产化智算集群的首选算力底座。

1.1 核心架构:达芬奇架构

Ascend 910B 的算力核心来源于 AI Core,基于达芬奇架构设计,实现了计算、存储、控制的精细化分工。每个 AI Core 内部包含三大计算单元:

  • Cube Unit (矩阵运算单元)
    • 功能:达芬奇架构的核心(3D Cube),专门负责执行 FP16/INT8 的矩阵乘法运算(C = A * B)。
    • 优势:在一个时钟周期内可完成 16x16x16 的矩阵乘加运算。在 Transformer 模型推理中,它负责加速核心的矩阵乘法层,提供极致的吞吐量。
  • Vector Unit (向量运算单元)
    • 功能:负责处理 FP32/FP16 的向量运算,如 Activation、LayerNorm、Softmax 等非矩阵类计算。
  • Scalar Unit (标量运算单元)
    • 功能:负责程序的流程控制、地址计算及简单的标量运算。

1.2 关键硬件特性

  • HCCS 高速互联:支持高速片间互联技术,单机内 8 卡全互联,能够构建大规模、低延迟的分布式训练集群。
  • 大显存优势:配备 64GB HBM2e 高带宽显存,提供超高的数据吞吐能力,显著缓解了百亿参数大模型在训练与推理过程中的“显存墙”瓶颈。

2. 算力规格与精度支持

为了保障您的模型运行效率,请务必了解 NPU 对不同计算精度的支持情况。

2.1 精度使用建议

  • 推荐策略:910B 在 FP16BF16 下具备极高的 TFLOPS 表现。强烈建议在训练和推理中使用 混合精度 (AMP) 模式。

2.2 支持的计算精度与规格

精度类型理论峰值算力适用场景备注
FP16280 TFLOPS高性能训练与推理的核心格式需配合 Loss Scale 防止溢出
BF16280 TFLOPS主流大模型(如 Llama3)的原生格式数值稳定性优于 FP16
INT8560 TOPS极致推理性能需配合 MindIE 的 W8A8 量化特性
FP32算力较低硬件支持建议仅用于必要的累加器或控制流

【数据来源】


3. 核心软件生态

昇腾生态采用分层架构,从底层的驱动到上层的推理服务,提供了完整的解决方案。

3.1 计算架构 CANN

CANN 是华为针对 AI 场景推出的计算架构。它是连接上层 AI 框架与底层 NPU 硬件的必经之路。

在推理场景中的作用

  • ACL
    • 定位:提供统一的编程接口,管理设备、内存和流。
    • 功能:作为 CANN 的最底层 API,直接暴露硬件能力,支持 C/C++ 开发,是所有上层框架(如 PyTorch, MindSpore)调用 NPU 的基石。
  • HCCL
    • 定位:华为集合通信库,支持多机多卡互联。
    • 功能:提供单机多卡、多机多卡间的高性能数据通信,是分布式训练与推理(如张量并行 TP)的核心组件。
  • ATC:负责将开源框架的模型转换为昇腾专用的离线模型(OM),实现图级优化。
  • 高性能算子库:内置了针对 910B 优化的 FlashAttention、MatMul 等核心算子,确保大模型推理的高效执行。

3.2 大模型推理引擎 MindIE

MindIE 是华为官方推出的高性能推理框架,专为解决大模型推理中的高并发、低时延及算力资源调度难题,对标 NVIDIA TensorRT-LLM。

MindIE 核心组件体系:

  • MindIE Motor (调度引擎)
    • 定位:推理业务的分布式调度核心。
    • 核心能力:支持多机多卡分布式并发调度,内置 Continuous Batching (连续批处理) 技术,实现任务在 Prefill(预填充)与 Decode(生成)阶段的无缝并行,最大化提升硬件吞吐率。
  • MindIE LLM (文本大模型推理库)
    • 定位:针对大语言模型优化的推理加速库。
    • 核心能力:支持主流 LLM 架构(如 Transformer、MoE),深度集成 PagedAttention 显存管理技术,大幅降低长文本推理时的显存占用与碎片化问题。
  • MindIE SD (图像生成推理库)
    • 定位:针对 AIGC 文生图场景的加速组件。
    • 核心能力:专为 Stable Diffusion、ControlNet 等扩散模型优化,支持 Dynamic Shape (动态分辨率) 推理,在图像生成效率上显著优于原生 PyTorch 框架。
  • MindIE Turbo (端到端加速插件)
    • 定位:异构算子融合与极致加速套件。
    • 核心能力:通过算子级的手写汇编优化与图融合(Graph Fusion)技术,针对 FlashAttention、RMSNorm 等核心算子提供极致的硬件利用率。

【数据来源】

3.3 开源推理引擎 vLLM-Ascend

vLLM-Ascend 是 vLLM 官方支持的昇腾后端版本,由华为与开源社区共同维护。它并非简单的外部工具,而是昇腾生态为了兼容开源社区习惯而深度适配的战略模块。

  • 定位:社区兼容性与灵活性的代表。
  • 核心价值
    • 无缝迁移:它保留了 vLLM 原生的 PagedAttention 显存管理机制和 OpenAI API 接口,使得习惯于 NVIDIA 环境的开发者可以零成本迁移代码。
    • 底层打通:通过 torch_npuCANN 的适配,让 vLLM 的上层逻辑能够直接调用昇腾 NPU 的算力。
  • 适用场景:适合追求开源社区最新特性、需要快速迭代或已有 vLLM 业务流迁移的场景。

【数据来源】

3.4 生态对比与选择建议:MindIE 与 vLLM-Ascend

为了更直观地理解两者的区别与选择策略,以下是深度对比:

维度MindIEvLLM-Ascend
技术栈 (上层)MindIE Service (官方高并发服务)vLLM API Server (原生开源接口)
技术栈 (中间层)MindIE Torch / ATB (自研加速库,极致性能)PyTorch Adapter (torch_npu) (算子映射兼容)
核心优势极致性能 官方 SLA 支持,针对昇腾硬件深度优化极致兼容 版本迭代快,紧跟社区新模型 (如 DeepSeek)
适用人群企业级生产环境、对性能有极致要求、稳定业务流开发者、科研人员、快速验证、依赖开源工具链

选择建议

  • 如果您的目标是生产环境大规模部署,且追求硬件算力的极限释放,MindIE 是不二之选。
  • 如果您是初次接触昇腾,或者需要快速验证新模型(如 GitHub 上刚发布的开源模型),建议先使用 vLLM-Ascend 跑通流程。

4. 开发框架:MindSpore

4.1 MindSpore 开发与原生支持

MindSpore (昇思) 是华为开源的全场景 AI 计算框架,提供原生支持 Ascend 910B 的极致性能。其设计理念是 "一次开发,全场景部署",特别适合追求高性能和全栈自主可控的场景。

基础架构与设计理念

MindSpore 的核心架构旨在实现三大目标:易开发高效执行全场景统一部署

  • 模型套件层:提供开箱即用的 MindSpore Transformers、MindSpore ONE 等高阶套件。
  • API 接口层:提供 Python 原生编程体验,最大化保持开发者的使用习惯。
  • 核心运行时:内置自动微分 (Autograd)、并行计算 (Parallel) 及编译优化 (Compile) 模块,支持动静统一的开发模式。

【数据来源】

快速上手示例

MindSpore 的 API 设计风格高度贴近 PyTorch,降低了学习成本:

import numpy as np
import mindspore
from mindspore import Tensor

data = [1, 0, 1, 0]
x_data = mindspore.tensor(data)
print(x_data, x_data.shape, x_data.dtype)

5. 模型部署建议

基于 MindIEvLLM-Ascend 的官方支持矩阵,Ascend 910B 架构已完成对下列主流模型的深度适配。

5.1 主流模型支持列表

由于 MindIE 与 vLLM-Ascend 的技术路线不同,其支持的模型列表与特性也有所差异。请根据您的推理引擎选择参考。

A. vLLM-Ascend 支持列表

vLLM-Ascend 紧跟开源社区步伐,对新模型(如 DeepSeek-V3)的支持通常最快。

模型系列典型模型核心特性备注
DeepSeekDeepSeek-V3 / R1 / DistillMoE, Multi-Head Latent Attention完美支持,推荐首选
QwenQwen2.5 / Qwen3 / QwQFlashAttention-2, RMSNorm支持 Qwen2-VL 等多模态
LlamaLlama 3.1 / 3.2 / 4GQA, RotaryEmbedding支持,含 Llama4 预览版
多模态Qwen2.5-VL / LLaVA 1.6Vision Encoder, Video支持图像与视频理解

【数据来源】

B. MindIE 支持列表

MindIE 包含 MindIE LLM (文本)、MindIE SD (生图) 及 MindIE Turbo (加速插件) 三大板块,侧重于极致性能与生产环境稳定性。

组件板块典型模型核心优势
MindIE TurboDeepSeek-V3, Qwen2.5端到端加速:针对 Transformer 核心算子(如 MoE 路由、Attention)进行手写汇编级优化,吞吐量远超原生 PyTorch。
MindIE LLMLlama 3, Baichuan, GLM服务化部署:提供兼容 OpenAI 接口的高并发 Serving 服务,内置 Continuous Batching 调度。
MindIE SDStable Diffusion XL / 3动态分辨率:支持 Dynamic Shape 推理,大幅提升文生图场景下的显存利用率与生成速度。

6. 监控与性能分析工具

6.1 系统监控:npu-smi

npu-smi 是管理 NPU 设备的核心命令行工具,功能对标 nvidia-smi,但指令格式略有不同。

常用指令功能描述关键关注点
npu-smi info全局概览关注 Health (必须为 OK) 和 Temp (温度,过高会降频)
npu-smi info -t memory -i <id>显存详情查看 HBM 使用率及 ECC 错误计数 (若非0可能存在硬件故障)
npu-smi info -t utilization -i <id>算力利用率查看 AI Core (矩阵运算) 和 Vector Core (向量运算) 的负载率
npu-smi info -t board -i <id>板卡信息查看设备序列号 (SN) 和固件版本,用于保修或版本对齐
watch -n 1 npu-smi info实时刷新动态监控训练过程中的功耗与显存波动

提示<id> 通常为设备 ID,单卡实例通常为 0,8 卡机为 07


7. 昇腾官方技术资料

如需获取最底层的驱动更新、CANN 下载及详细技术文档,请参考厂商官方文档库: