跳到主要内容
feedback
feedback

天垓 150

1. 产品概述:天垓 150(BI-V150)

天垓150 是天数智芯(Iluvatar CoreX)发布的通用计算 GPU,产品形态包含风冷 PCIe 加速卡。该产品基于天数智芯自主研发的 ivcore11 通用 GPU 架构设计,采用 7nm 先进制程工艺,旨在为人工智能训练及推理提供强大的国产算力解决方案。天垓150 峰值功耗 350W,配备 64GB HBM2e 高带宽显存,支持 PCIe 4.0 x16 接口,能够实现多卡、多机的高效算力扩展;依托天数智算软件栈,适配主流算法框架、运算库等工具,编程接口在 API 层面高度兼容 GPU 行业国际主流 CUDA 生态。

核心特性与架构

  • 自研架构:采用全自主设计的 ivcore11 通用 GPU 架构,7nm 工艺制程。
  • 线程模型:Grid → Thread Block → Warp(64线程)→ Thread 四级线程层级,与 CUDA 编程模型高度兼容,但 warp size 为 64(CUDA 为 32)。
  • 显存配置:64GB HBM2e 高带宽显存,满足大模型训练与推理需求。
  • 互联技术:支持 PCIe 4.0 x16 标准接口,能够实现多卡、多机的高效算力扩展。

2. 算力规格与精度支持

为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于数据类型的限制。

重要限制:精度支持说明

请注意: 当前天垓150 的硬件及软件栈对部分低精度格式的支持存在限制。

  • double 类型:天数智芯加速卡对 double 数据类型仅提供有限支持,建议使用 float 替代。
  • FP8:需配合 ixTE(ix-TransformerEngine)库使用,支持 FP8 GEMM 相关算子。
  • INT8/INT4 量化:需配合 IGIE 推理框架或 ixRT 推理引擎的量化工具链使用,支持 GPTQ、AWQ 等量化格式。
  • 内存对齐:全局内存访问建议 128 字节对齐,否则可能影响性能。

支持的计算精度与性能

精度类型训练支持推理支持适用场景
FP32支持支持通用科学计算、高精度推理
FP16支持支持混合精度训练、深度学习推理
BF16支持支持大模型训练主流格式
INT8支持支持高性能量化推理
INT4不支持支持高性能量化推理

硬件规格

规格参数
显存容量64GB HBM2e
峰值功耗350W
工艺制程7nm
接口PCIe 4.0 x16
架构代号ivcore11

3. 核心软件生态:IXUCA

天数智算软件栈是天数智芯 GPU 的统一计算软件栈。

高度兼容 CUDA

天数智算软件栈在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。

  • 低成本迁移:绝大多数基于 CUDA 开发的原生应用和算法,无需重写代码,仅需使用天数智芯 Clang 编译器重新编译即可在天垓150 上运行。
  • 开箱即用:建议直接使用预装了天数智算软件栈驱动与工具链的官方镜像,无需手动处理底层驱动安装。

PyTorch 兼容性

PyTorch 模块兼容程度说明
torch完全兼容基础张量操作
torch.nn完全兼容神经网络模块
torch.nn.functional完全兼容函数式接口
torch.Tensor完全兼容张量方法
torch.cuda完全兼容CUDA 接口映射
torch.cuda.amp完全兼容自动混合精度
torch.distributed完全兼容分布式训练

迁移策略

  1. 编译器要求:必须使用天数智芯提供的 Clang 编译器重新编译,不支持直接运行 NVIDIA 编译的 cubin
  2. 设备指定:使用 .cuda()to('cuda') 将模型和数据移至天数智芯 GPU

零代码修改迁移

import torch

# 检查设备可用性
print(torch.cuda.is_available())
print(torch.cuda.device_count())

# 创建张量并移至天数智芯GPU
x = torch.rand([4, 4]).cuda()
print(x)

# 模型迁移
model = Model()
model = model.cuda()
data = data.cuda()

避坑指南:warp size 差异是最常见的迁移问题。天垓150 的 warp size 为 64,而 CUDA 为 32。涉及 warpSize__syncwarp()、warp 级原语(如 __shfl_down_sync)的代码需要特别注意。


4. AI 开发库:版本管理与避坑指南

为了发挥天垓150 的最佳性能,PyTorch、TensorFlow 等主流 AI 框架均需要使用天数智芯官方适配版

严禁随意更新核心库

在使用过程中,请极度小心 pip installpip upgrade 操作。

  • 风险:执行标准的 pip install torch 会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的天数智芯适配版,直接导致无法调用 GPU,程序运行失败。

识别适配版本

天数智芯适配的 Python 库版本号中通常包含 +corex 标识。你可以通过以下命令检查当前环境状态:

pip list | grep -e torch -e corex -e +

正常输出示例:

torch                                    2.7.1+corex.4.4.0
torchaudio 2.7.1+corex.4.4.0
torchvision 0.22.1+corex.4.4.0
triton 3.1.0+corex.4.4.0
tensorflow 2.16.2+corex.4.4.0
vllm 0.11.2+corex.4.4.0
xformers 0.0.26.post1+corex.4.4.0
xfuser 0.4.5+corex.4.4.0
pycuda 2024.1+corex.4.4.0

最佳实践:

  1. 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的天数智芯官方镜像。
  2. 检查是否存在:在安装新库前,先检查该库是否已存在天数智芯适配版本。
  3. 获取正确源:如确需更新,请联系天数智芯应用工程师获取正确的 whl 安装包。

框架版本对应表

框架版本说明
PyTorchv2.4.1天数智芯适配版
TensorFlowv2.16.2天数智芯适配版
DeepSpeedv0.16.4分布式训练优化库
Megatron-LMv0.11.0大模型训练框架
LLaMA-Factoryv0.9.2大模型微调平台
ixTEv1.1.0ix-TransformerEngine 加速库

避坑指南:天数智芯适配版框架版本必须与软件栈版本严格对应,不支持跨版本混用。

融合算子加速

天数智算软件栈提供丰富的融合算子,按功能分类如下:

注意力算子

算子名称功能适用场景来源
FlashAttention融合注意力Transformer 训练/推理ixDNN / ixAttention-Backend
FlashAttention-2高效融合注意力大模型训练加速LLaMA-Factory
FMHAFused Multi-Head Attention推理优化IxFormer / IGIE
ixAttention天数智芯注意力算子训练/推理通用ixAttention-Backend

优化器算子

算子名称功能适用场景来源
fused_adam融合 Adam优化器更新DeepSpeed
fused_lamb融合 Lamb大批量训练优化器DeepSpeed
fused_lion融合 Lion内存高效优化器DeepSpeed
fused_adamw融合 AdamW权重衰减优化器ixTE
cpu_adamCPU Adam梯度卸载场景DeepSpeed
cpu_lionCPU LionCPU端优化器DeepSpeed

归一化算子

算子名称功能适用场景来源
fused_layernorm融合 LayerNorm归一化层DeepSpeed
RMSNorm均方根归一化LLaMA 等模型ixTE

位置编码算子

算子名称功能适用场景来源
fused_rope旋转位置编码位置编码DeepSpeed
ALiBi线性偏置注意力长序列外推Megatron-LM

激活函数算子

算子名称功能适用场景来源
swigluSwiGLU 激活FFN 层DeepSpeed / ixTE
GeGLUGeGLU 激活FFN 层ixTE

MoE 算子

算子名称功能适用场景来源
FusedMoEMLP融合 MoE MLP混合专家模型ixTE
GroupedMLP分组 MLPMoE 推理ixTE
MoELayerMoE 层混合专家模型ixTE

推理加速算子

算子名称功能适用场景来源
transformer_inferenceTransformer 推理模型推理DeepSpeed
spatial_inference空间推理视觉模型DeepSpeed
quantizer量化算子INT8/INT4 量化推理DeepSpeed
FMHA/Concat融合算子模板推理优化IGIE

使用提示:融合算子可通过 DeepSpeed、ixTE、IxFormer 等框架自动调用,无需手动配置。在 Megatron-LM 中通过 --use-flash-attn 参数启用 FlashAttention。


5. 模型部署建议与排查

模型支持列表

根据天数智芯官方提供的天数智算软件栈适配数据,天垓150 算力集群已完成对下列主流模型的适配与验证。

部署提示
  • 软件栈版本:以下模型基于天数智算软件栈 V4.3/V4.4 进行验证。请务必使用平台提供的最新版本镜像。
  • 显存规划:算力市场的天垓150 单卡显存为 32GB。对于 70B 以上的大参数模型,通常需要进行量化或使用多卡/多机部署。
  • 功能支持:支持 LoRA 微调、FlashAttention 加速及混合精度训练。

大语言模型(LLM)

模型推理引擎IXUCA SDK
Baichuan2-7BvLLM4.3.0
ChatGLM-3-6BvLLM4.3.0
ChatGLM-3-6B-32KvLLM4.3.0
CosyVoice2-0.5BPyTorch4.3.0
DeepSeek-R1-Distill-Llama-8BvLLM4.3.0
DeepSeek-R1-Distill-Llama-70BvLLM4.3.0
DeepSeek-R1-Distill-Qwen-1.5BvLLM4.3.0
DeepSeek-R1-Distill-Qwen-7BvLLM4.4.0
DeepSeek-R1-Distill-Qwen-14BvLLM4.3.0
DeepSeek-R1-Distill-Qwen-32BvLLM4.3.0
DeepSeek-V3.1vLLM4.4.0
ERNIE-4.5-21B-A3BFastDeploy4.3.0
ERNIE-4.5-300B-A47BFastDeploy4.3.0
GLM-4VvLLM4.3.0
InternLM3LMDeploy / vLLM4.3.0 / 4.4.0
Llama2-7BvLLM / TRT-LLM4.3.0
Llama2-13BTRT-LLM4.3.0
Llama2-70BTRT-LLM4.3.0
Llama3-70BvLLM4.3.0
E5-VvLLM4.3.0
MiniCPM-o-2vLLM4.3.0
MiniCPM-V-2vLLM4.3.0
NVLMvLLM4.3.0
Phi3_vvLLM4.3.0
PaliGemmavLLM4.3.0
Qwen-7BvLLM4.3.0
Qwen-VLvLLM4.3.0
Qwen2-VLvLLM4.3.0
Qwen2.5-VLvLLM4.4.0
Qwen1.5-7BvLLM / TGI4.3.0
Qwen1.5-14BvLLM4.3.0
Qwen1.5-32B ChatvLLM4.3.0
Qwen1.5-72BvLLM4.3.0
Qwen2-7B InstructvLLM4.3.0
Qwen2-72B InstructvLLM4.3.0
Qwen3-8BvLLM4.4.0
Qwen3-32BvLLM4.4.0
Qwen3-30B-A3B-ThinkingvLLM4.4.0
Qwen3-235B-A22B-ThinkingvLLM4.4.0
Qwen3-Next-80B-A3BvLLM4.4.0
StableLM2-1.6BvLLM4.3.0
Step3vLLM4.4.0
UltravoxvLLM4.3.0
WhispervLLM4.3.0
XLMRobertavLLM4.3.0

计算机视觉(CV)

视觉分类

模型精度IGIEixRTIXUCA SDK
AlexNetFP16 / INT84.3.0
CLIPFP164.3.0
ConvNeXt 系列FP164.3.0
DenseNet 系列FP16 / INT84.3.0
EfficientNet 系列FP16 / INT84.3.0
GoogLeNetFP16 / INT84.3.0
HRNet-W18FP16 / INT8-4.3.0
InceptionV3FP16 / INT84.3.0
MobileNetV2/V3FP16 / INT84.3.0
RegNet 系列FP16-4.3.0
ResNet 系列FP16 / INT84.3.0
ShuffleNetV1/V2FP164.3.0
SqueezeNetFP16 / INT84.3.0
Swin TransformerFP164.3.0
VGG 系列FP16 / INT84.3.0
ViTFP16-4.3.0

目标检测

模型精度IGIEixRTIXUCA SDK
ATSS / CenterNet / DETRFP164.3.0
FCOS / FoveaBox / FSAFFP164.3.0
Grounding DINOFP16-dev-only
RetinaNet / RTMDetFP164.3.0
RTDETRFP16 / INT8dev-only
YOLOv3 ~ YOLOv7FP16 / INT84.3.0
YOLOv8 ~ YOLOv13FP16 / INT84.3.0 / 4.4.0
YOLOXFP16 / INT84.3.0

其他 CV 任务

任务类型支持模型精度IXUCA SDK
人脸识别FaceNetFP16 / INT84.3.0
OCRKie_layoutXLM, SVTR, CRNNFP164.3.0 / 4.4.0
姿态估计HRNetPose, Lightweight OpenPose, RTMPoseFP164.3.0
实例分割Mask R-CNN, SOLOv1FP164.2.0 / 4.3.0
语义分割UNetFP164.3.0
多目标跟踪FastReID, DeepSort, RepNet-Vehicle-ReIDFP16 / INT84.3.0

多模态

模型推理引擎IXUCA SDK
AriavLLM4.3.0
Chameleon-7BvLLM4.3.0
CLIPIxFormer4.3.0
DeepSeek-VL2-tinyvLLM4.4.0
Fuyu-8BvLLM4.3.0
H2OVL MississippivLLM4.3.0
Idefics3vLLM4.3.0
InternVL2-4BvLLM4.3.0
LLaVAvLLM4.3.0
LLaVA-Next-Video-7BvLLM4.3.0
Llama-3.2vLLM4.3.0
PixtralvLLM4.3.0
Stable Diffusion 1.5Diffusers4.3.0
Stable Diffusion 2.1ixRT4.4.0
FLUX.1-DevxDiT4.4.0
HunyuanVideoxDiT4.4.0
Wan2.1-T2V-14BxDiT4.4.0
HunyuanDiT-v1.2xDiT4.4.0
SD3-MediumxDiT4.4.0

自然语言处理(NLP)

模型精度IGIEixRTIXUCA SDK
ALBERTFP16-4.3.0
BERT Base NERINT8-4.3.0
BERT Base SQuADFP16 / INT84.3.0
BERT Large SQuADFP16 / INT84.3.0
DeBERTaFP16-4.3.0
RoBERTaFP16-4.3.0
RoFormerFP16-4.3.0
VideoBERTFP16-4.2.0

语音

模型精度IGIEixRTIXUCA SDK
ConformerFP164.3.0
Transformer ASRFP16-4.2.0

推荐系统

模型精度IGIEixRTIXUCA SDK
Wide & DeepFP16-4.3.0

常见问题排查

  1. 模型格式:是否误用了不支持的模型格式?请优先选择 FP16、BF16 或 INT8 版本的模型。
  2. 库版本:是否不小心执行了 pip install --upgrade 覆盖了官方驱动库?
  3. 新模型适配:对于刚刚发布的全新架构模型,可能需要等待官方天数智算软件栈的更新适配。

6. 监控工具:ixSMI 使用简明手册

ixSMI 是天数智芯 GPU 的命令行管理工具,其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi,方便用户快速上手。

常用命令速查

功能命令说明
查看概览ixsmi最常用。显示所有 GPU 的概览信息。
显示 GPU 列表ixsmi -L列出系统中所有 GPU 设备。
查询详细信息ixsmi -q显示 GPU 详细信息。
查询电源信息ixsmi -q -d POWER查看电源信息。
查询温度信息ixsmi -q -d TEMPERATURE查看温度信息。
查询显存信息ixsmi -q -d MEMORY查看显存信息。
设备监控ixsmi dmon显示 GPU 统计信息(滚动刷新)。
进程监控ixsmi pmon显示 GPU 进程监控信息(滚动刷新)。
拓扑信息ixsmi topo -m显示设备拓扑矩阵。

高级查询选项

查询指定 GPU 属性

ixsmi --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv

循环监控(每秒刷新)

ixsmi dmon -d 1 -c 10

指定 GPU ID

ixsmi -q -i 0

监控指标说明

指标说明正常范围
GPU-UtilGPU 利用率0-100%
Memory-Usage显存使用< 总显存(64GB)
Temperature温度< 85°C
Power功耗< TDP(350W)

异常排查

僵死进程清理

ixsmi pmon
kill -9 <PID>

7. 平台与官方资源导航

国产芯片权威 AI 技能认证

国产芯片 AI 技能证书:联合国内顶尖算力厂商,打造实战型 AI 技能认证体系。从算力到底层框架,助你成为国产 AI 生态的先行者。

  • 官方权威认证:由模力方舟联合行业国产芯片大厂联合签发的权威证书,加盖模力方舟和芯片厂商的公章,支持线上核验,一举成为国产算力与信创生态的官方认可人才
  • 学习即实战:开箱即用的实验环境,直接调用国产 GPU 云端算力,全链路课程覆盖"适配-训练-推理-部署",获得国产 GPU 实操能力。
  • 面试优先推荐:认证人才进入国产 GPU 与信创企业人才储备库,在求职、合作、项目申报中优先推荐,抢占国产 AI 与算力产业的人才红利。
  • 生态特权:加入开发者社群,享受专家一对一指导,优先获得国产 GPU 算力市场免费测试时长,在信创生态中享有优先曝光与合作机会。

天数智芯官方技术资料