天垓 150
1. 产品概述:天垓 150(BI-V150)
天垓150 是天数智芯(Iluvatar CoreX)发布的通用计算 GPU,产品形态包含风冷 PCIe 加速卡。该产品基于天数智芯自主研发的 ivcore11 通用 GPU 架构设计,采用 7nm 先进制程工艺,旨在为人工智能训练及推理提供强大的国产算力解决方案。天垓150 峰值功耗 350W,配备 64GB HBM2e 高带宽显存,支持 PCIe 4.0 x16 接口,能够实现多卡、多机的高效算力扩展;依托天数智算软件栈,适配主流算法框架、运算库等工具,编程接口在 API 层面高度兼容 GPU 行业国际主流 CUDA 生态。
核心特性与架构
- 自研架构:采用全自主设 计的 ivcore11 通用 GPU 架构,7nm 工艺制程。
- 线程模型:Grid → Thread Block → Warp(64线程)→ Thread 四级线程层级,与 CUDA 编程模型高度兼容,但 warp size 为 64(CUDA 为 32)。
- 显存配置:64GB HBM2e 高带宽显存,满足大模型训练与推理需求。
- 互联技术:支持 PCIe 4.0 x16 标准接口,能够实现多卡、多机的高效算力扩展。
2. 算力规格与精度支持
为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于数据类型的限制。
重要限制:精度支持说明
请注意: 当前天垓150 的硬件及软件栈对部分低精度格式的支持存在限制。
- double 类型:天数智芯加速卡对 double 数据类型仅提供有限支持,建议使用 float 替代。
- FP8:需配合 ixTE(ix-TransformerEngine)库使用,支持 FP8 GEMM 相关算子。
- INT8/INT4 量化:需配合 IGIE 推理框架或 ixRT 推理引擎的量化工具链使用,支持 GPTQ、AWQ 等量化格式。
- 内存对齐:全局内存访问建议 128 字节对齐,否则可能影响性能。
支持的计算精度与性能
| 精度类型 | 训练支持 | 推理支持 | 适用场景 |
|---|---|---|---|
| FP32 | 支持 | 支持 | 通用科学计算、高精度推理 |
| FP16 | 支持 | 支持 | 混合精度训练、深度学习推理 |
| BF16 | 支持 | 支持 | 大模型训练主流格式 |
| INT8 | 支持 | 支持 | 高性能量化推理 |
| INT4 | 不支持 | 支持 | 高性能量化推理 |
硬件规格
| 规格 | 参数 |
|---|---|
| 显存容量 | 64GB HBM2e |
| 峰值功耗 | 350W |
| 工艺制程 | 7nm |
| 接口 | PCIe 4.0 x16 |
| 架构代号 | ivcore11 |
3. 核心软件生态:IXUCA
天数智算软件栈是天数智芯 GPU 的统一计算软件栈。
高度兼容 CUDA
天数智算软件栈在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。
- 低成本迁移:绝大多数基于 CUDA 开发的原生应用和算法,无需重写代码,仅需使用天数智芯 Clang 编译器重新编译即可在天垓150 上运行。
- 开箱即用:建议直接使用预装了天数智算软件栈驱动与工具链的官方镜像,无需手动处理底层驱动安装。
PyTorch 兼容性
| PyTorch 模块 | 兼容程度 | 说明 |
|---|---|---|
| torch | 完全兼容 | 基础张量操作 |
| torch.nn | 完全兼容 | 神经网络模块 |
| torch.nn.functional | 完全兼容 | 函数式接口 |
| torch.Tensor | 完全兼容 | 张量方法 |
| torch.cuda | 完全兼容 | CUDA 接口映射 |
| torch.cuda.amp | 完全兼容 | 自动混合精度 |
| torch.distributed | 完全兼容 | 分布式训练 |
迁移策略
- 编译器要求:必须使用天数智芯提供的 Clang 编译器重新编译,不支持直接运行 NVIDIA 编译的 cubin
- 设备指定:使用
.cuda()或to('cuda')将模型和数据移至天数智芯 GPU
零代码修改迁移:
import torch
# 检查设备可用性
print(torch.cuda.is_available())
print(torch.cuda.device_count())
# 创建张量并移至天数智芯GPU
x = torch.rand([4, 4]).cuda()
print(x)
# 模型迁移
model = Model()
model = model.cuda()
data = data.cuda()
避坑指南:warp size 差异是最常见的迁移问题。天垓150 的 warp size 为 64,而 CUDA 为 32。涉及
warpSize、__syncwarp()、warp 级原语(如__shfl_down_sync)的代码需要特别注意。
4. AI 开发库:版本管理与避坑指南
为了发挥天垓150 的最佳性能,PyTorch、TensorFlow 等主流 AI 框架均需要使用天数智芯官方适配版。
严禁随意更新核心库
在使用过程中,请极度小心 pip install 或 pip upgrade 操作。
- 风险:执行标准的
pip install torch会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的天数智芯适配版,直接导致无法调用 GPU,程序运行失败。
识别适配版本
天数智芯适配的 Python 库版本号中通常包含 +corex 标识。你可以通过以下命令检查当前环境状态:
pip list | grep -e torch -e corex -e +
正常输出示例:
torch 2.7.1+corex.4.4.0
torchaudio 2.7.1+corex.4.4.0
torchvision 0.22.1+corex.4.4.0
triton 3.1.0+corex.4.4.0
tensorflow 2.16.2+corex.4.4.0
vllm 0.11.2+corex.4.4.0
xformers 0.0.26.post1+corex.4.4.0
xfuser 0.4.5+corex.4.4.0
pycuda 2024.1+corex.4.4.0
最佳实践:
- 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的天数智芯官方镜像。
- 检查是否存在:在安装新库前,先检查该库是否已存在天数智芯适配版本。
- 获取正确源:如确需更新,请联系天数智芯应用工程师获取正确的 whl 安装包。
框架版本对应表
| 框架 | 版本 | 说明 |
|---|---|---|
| PyTorch | v2.4.1 | 天数智芯适配版 |
| TensorFlow | v2.16.2 | 天数智芯适配版 |
| DeepSpeed | v0.16.4 | 分布式训练优化库 |
| Megatron-LM | v0.11.0 | 大模型训练框架 |
| LLaMA-Factory | v0.9.2 | 大模型微调平台 |
| ixTE | v1.1.0 | ix-TransformerEngine 加速库 |
避坑指南:天数智芯适配版框架版本必须与软件栈版本严格对应,不支持跨版本混用。
融合算子加速
天数智算软件栈提供丰富的融合算子,按功能分类如下:
注意力算子
| 算子名 称 | 功能 | 适用场景 | 来源 |
|---|---|---|---|
| FlashAttention | 融合注意力 | Transformer 训练/推理 | ixDNN / ixAttention-Backend |
| FlashAttention-2 | 高效融合注意力 | 大模型训练加速 | LLaMA-Factory |
| FMHA | Fused Multi-Head Attention | 推理优化 | IxFormer / IGIE |
| ixAttention | 天数智芯注意力算子 | 训练/推理通用 | ixAttention-Backend |
优化器算子
| 算子名称 | 功能 | 适用场景 | 来源 |
|---|---|---|---|
| fused_adam | 融合 Adam | 优化器更新 | DeepSpeed |
| fused_lamb | 融合 Lamb | 大批量训练优化器 | DeepSpeed |
| fused_lion | 融合 Lion | 内存高效优化器 | DeepSpeed |
| fused_adamw | 融合 AdamW | 权重衰减优化器 | ixTE |
| cpu_adam | CPU Adam | 梯度卸载场景 | DeepSpeed |
| cpu_lion | CPU Lion | CPU端优化器 | DeepSpeed |
归一化算子
| 算子名称 | 功能 | 适用场景 | 来源 |
|---|---|---|---|
| fused_layernorm | 融合 LayerNorm | 归一化层 | DeepSpeed |
| RMSNorm | 均方根归一化 | LLaMA 等模型 | ixTE |
位置编码算子
| 算子名称 | 功能 | 适用场景 | 来源 |
|---|---|---|---|
| fused_rope | 旋转位置编码 | 位置编码 | DeepSpeed |
| ALiBi | 线性偏置注意力 | 长序列外推 | Megatron-LM |
激活函数算子
| 算子名称 | 功能 | 适用场景 | 来源 |
|---|---|---|---|
| swiglu | SwiGLU 激活 | FFN 层 | DeepSpeed / ixTE |
| GeGLU | GeGLU 激活 | FFN 层 | ixTE |
MoE 算子
| 算子名称 | 功能 | 适用场景 | 来源 |
|---|---|---|---|
| FusedMoEMLP | 融合 MoE MLP | 混合专家模型 | ixTE |
| GroupedMLP | 分组 MLP | MoE 推理 | ixTE |
| MoELayer | MoE 层 | 混合专家模型 | ixTE |
推理加速算子
| 算子名称 | 功能 | 适用场景 | 来源 |
|---|---|---|---|
| transformer_inference | Transformer 推理 | 模型推理 | DeepSpeed |
| spatial_inference | 空间推理 | 视觉模型 | DeepSpeed |
| quantizer | 量化算子 | INT8/INT4 量化推理 | DeepSpeed |
| FMHA/Concat | 融合算子模板 | 推理优化 | IGIE |
使用提示:融合算子可通过 DeepSpeed、ixTE、IxFormer 等框架自动调用,无需手动配置。在 Megatron-LM 中通过
--use-flash-attn参数启用 FlashAttention。
5. 模型部署建议与排查
模型支持列表
根据天数智芯官方提供的天数智算软件栈适配数据,天垓150 算力集群已完成对下列主流模型的适配与验证。
- 软件栈版本:以下模型基于天数智算软件栈 V4.3/V4.4 进行验证。请务必使用平台提供的最新版本镜像。
- 显存规划:算力市场的天垓150 单卡显存为 32GB。对于 70B 以上的大参数模型,通常需要进行量化或使用多卡/多机部署。
- 功能支持:支持 LoRA 微调、FlashAttention 加速及混合精度训练。
大语言模型(LLM)
| 模型 | 推理引擎 | IXUCA SDK |
|---|---|---|
| Baichuan2-7B | vLLM | 4.3.0 |
| ChatGLM-3-6B | vLLM | 4.3.0 |
| ChatGLM-3-6B-32K | vLLM | 4.3.0 |
| CosyVoice2-0.5B | PyTorch | 4.3.0 |
| DeepSeek-R1-Distill-Llama-8B | vLLM | 4.3.0 |
| DeepSeek-R1-Distill-Llama-70B | vLLM | 4.3.0 |
| DeepSeek-R1-Distill-Qwen-1.5B | vLLM | 4.3.0 |
| DeepSeek-R1-Distill-Qwen-7B | vLLM | 4.4.0 |
| DeepSeek-R1-Distill-Qwen-14B | vLLM | 4.3.0 |
| DeepSeek-R1-Distill-Qwen-32B | vLLM | 4.3.0 |
| DeepSeek-V3.1 | vLLM | 4.4.0 |
| ERNIE-4.5-21B-A3B | FastDeploy | 4.3.0 |
| ERNIE-4.5-300B-A47B | FastDeploy | 4.3.0 |
| GLM-4V | vLLM | 4.3.0 |
| InternLM3 | LMDeploy / vLLM | 4.3.0 / 4.4.0 |
| Llama2-7B | vLLM / TRT-LLM | 4.3.0 |
| Llama2-13B | TRT-LLM | 4.3.0 |
| Llama2-70B | TRT-LLM | 4.3.0 |
| Llama3-70B | vLLM | 4.3.0 |
| E5-V | vLLM | 4.3.0 |
| MiniCPM-o-2 | vLLM | 4.3.0 |
| MiniCPM-V-2 | vLLM | 4.3.0 |
| NVLM | vLLM | 4.3.0 |
| Phi3_v | vLLM | 4.3.0 |
| PaliGemma | vLLM | 4.3.0 |
| Qwen-7B | vLLM | 4.3.0 |
| Qwen-VL | vLLM | 4.3.0 |
| Qwen2-VL | vLLM | 4.3.0 |
| Qwen2.5-VL | vLLM | 4.4.0 |
| Qwen1.5-7B | vLLM / TGI | 4.3.0 |
| Qwen1.5-14B | vLLM | 4.3.0 |
| Qwen1.5-32B Chat | vLLM | 4.3.0 |
| Qwen1.5-72B | vLLM | 4.3.0 |
| Qwen2-7B Instruct | vLLM | 4.3.0 |
| Qwen2-72B Instruct | vLLM | 4.3.0 |
| Qwen3-8B | vLLM | 4.4.0 |
| Qwen3-32B | vLLM | 4.4.0 |
| Qwen3-30B-A3B-Thinking | vLLM | 4.4.0 |
| Qwen3-235B-A22B-Thinking | vLLM | 4.4.0 |
| Qwen3-Next-80B-A3B | vLLM | 4.4.0 |
| StableLM2-1.6B | vLLM | 4.3.0 |
| Step3 | vLLM | 4.4.0 |
| Ultravox | vLLM | 4.3.0 |
| Whisper | vLLM | 4.3.0 |
| XLMRoberta | vLLM | 4.3.0 |
计算机视觉(CV)
视觉分类
| 模型 | 精度 | IGIE | ixRT | IXUCA SDK |
|---|---|---|---|---|
| AlexNet | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| CLIP | FP16 | ✅ | ✅ | 4.3.0 |
| ConvNeXt 系列 | FP16 | ✅ | ✅ | 4.3.0 |
| DenseNet 系列 | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| EfficientNet 系列 | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| GoogLeNet | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| HRNet-W18 | FP16 / INT8 | ✅ | - | 4.3.0 |
| InceptionV3 | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| MobileNetV2/V3 | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| RegNet 系列 | FP16 | ✅ | - | 4.3.0 |
| ResNet 系列 | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| ShuffleNetV1/V2 | FP16 | ✅ | ✅ | 4.3.0 |
| SqueezeNet | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| Swin Transformer | FP16 | ✅ | ✅ | 4.3.0 |
| VGG 系列 | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| ViT | FP16 | ✅ | - | 4.3.0 |
目标检测
| 模型 | 精度 | IGIE | ixRT | IXUCA SDK |
|---|---|---|---|---|
| ATSS / CenterNet / DETR | FP16 | ✅ | ✅ | 4.3.0 |
| FCOS / FoveaBox / FSAF | FP16 | ✅ | ✅ | 4.3.0 |
| Grounding DINO | FP16 | ✅ | - | dev-only |
| RetinaNet / RTMDet | FP16 | ✅ | ✅ | 4.3.0 |
| RTDETR | FP16 / INT8 | ✅ | ✅ | dev-only |
| YOLOv3 ~ YOLOv7 | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| YOLOv8 ~ YOLOv13 | FP16 / INT8 | ✅ | ✅ | 4.3.0 / 4.4.0 |
| YOLOX | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
其他 CV 任务
| 任务类型 | 支持模型 | 精度 | IXUCA SDK |
|---|---|---|---|
| 人脸识别 | FaceNet | FP16 / INT8 | 4.3.0 |
| OCR | Kie_layoutXLM, SVTR, CRNN | FP16 | 4.3.0 / 4.4.0 |
| 姿态估计 | HRNetPose, Lightweight OpenPose, RTMPose | FP16 | 4.3.0 |
| 实例分割 | Mask R-CNN, SOLOv1 | FP16 | 4.2.0 / 4.3.0 |
| 语义分割 | UNet | FP16 | 4.3.0 |
| 多目标跟踪 | FastReID, DeepSort, RepNet-Vehicle-ReID | FP16 / INT8 | 4.3.0 |
多模态
| 模型 | 推理引擎 | IXUCA SDK |
|---|---|---|
| Aria | vLLM | 4.3.0 |
| Chameleon-7B | vLLM | 4.3.0 |
| CLIP | IxFormer | 4.3.0 |
| DeepSeek-VL2-tiny | vLLM | 4.4.0 |
| Fuyu-8B | vLLM | 4.3.0 |
| H2OVL Mississippi | vLLM | 4.3.0 |
| Idefics3 | vLLM | 4.3.0 |
| InternVL2-4B | vLLM | 4.3.0 |
| LLaVA | vLLM | 4.3.0 |
| LLaVA-Next-Video-7B | vLLM | 4.3.0 |
| Llama-3.2 | vLLM | 4.3.0 |
| Pixtral | vLLM | 4.3.0 |
| Stable Diffusion 1.5 | Diffusers | 4.3.0 |
| Stable Diffusion 2.1 | ixRT | 4.4.0 |
| FLUX.1-Dev | xDiT | 4.4.0 |
| HunyuanVideo | xDiT | 4.4.0 |
| Wan2.1-T2V-14B | xDiT | 4.4.0 |
| HunyuanDiT-v1.2 | xDiT | 4.4.0 |
| SD3-Medium | xDiT | 4.4.0 |
自然语言处理(NLP)
| 模型 | 精度 | IGIE | ixRT | IXUCA SDK |
|---|---|---|---|---|
| ALBERT | FP16 | ✅ | - | 4.3.0 |
| BERT Base NER | INT8 | ✅ | - | 4.3.0 |
| BERT Base SQuAD | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| BERT Large SQuAD | FP16 / INT8 | ✅ | ✅ | 4.3.0 |
| DeBERTa | FP16 | ✅ | - | 4.3.0 |
| RoBERTa | FP16 | ✅ | - | 4.3.0 |
| RoFormer | FP16 | ✅ | - | 4.3.0 |
| VideoBERT | FP16 | ✅ | - | 4.2.0 |
语音
| 模型 | 精度 | IGIE | ixRT | IXUCA SDK |
|---|---|---|---|---|
| Conformer | FP16 | ✅ | ✅ | 4.3.0 |
| Transformer ASR | FP16 | ✅ | - | 4.2.0 |
推荐系统
| 模型 | 精度 | IGIE | ixRT | IXUCA SDK |
|---|---|---|---|---|
| Wide & Deep | FP16 | ✅ | - | 4.3.0 |
常见问题排查
- 模型格式:是否误用了不支持的模型格式?请优先选择 FP16、BF16 或 INT8 版本的模型。
- 库版本:是否不小心执行了
pip install --upgrade覆盖了官方驱动库? - 新模型适配:对于刚刚发布的全新架构模型,可能需要等待官方天数智算软件栈的更新适配。
6. 监控工具:ixSMI 使用简明手册
ixSMI 是天数智芯 GPU 的命令行管理工具,其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi,方便用户快速上手。