天垓 150

1. 产品概述：天垓 150（BI-V150）

天垓150 是天数智芯（Iluvatar CoreX）发布的通用计算 GPU，产品形态包含风冷 PCIe 加速卡。该产品基于天数智芯自主研发的 ivcore11 通用 GPU 架构设计，采用 7nm 先进制程工艺，旨在为人工智能训练及推理提供强大的国产算力解决方案。天垓150 峰值功耗 350W，配备 64GB HBM2e 高带宽显存，支持 PCIe 4.0 x16 接口，能够实现多卡、多机的高效算力扩展；依托天数智算软件栈，适配主流算法框架、运算库等工具，编程接口在 API 层面高度兼容 GPU 行业国际主流 CUDA 生态。

核心特性与架构

自研架构：采用全自主设计的 ivcore11 通用 GPU 架构，7nm 工艺制程。
线程模型：Grid → Thread Block → Warp（64线程）→ Thread 四级线程层级，与 CUDA 编程模型高度兼容，但 warp size 为 64（CUDA 为 32）。
显存配置：64GB HBM2e 高带宽显存，满足大模型训练与推理需求。
互联技术：支持 PCIe 4.0 x16 标准接口，能够实现多卡、多机的高效算力扩展。

2. 算力规格与精度支持

为了确保开发与推理的顺利进行，了解硬件的精度支持范围至关重要。请特别注意以下关于数据类型的限制。

重要限制：精度支持说明

请注意： 当前天垓150 的硬件及软件栈对部分低精度格式的支持存在限制。

double 类型：天数智芯加速卡对 double 数据类型仅提供有限支持，建议使用 float 替代。
FP8：需配合 ixTE（ix-TransformerEngine）库使用，支持 FP8 GEMM 相关算子。
INT8/INT4 量化：需配合 IGIE 推理框架或 ixRT 推理引擎的量化工具链使用，支持 GPTQ、AWQ 等量化格式。
内存对齐：全局内存访问建议 128 字节对齐，否则可能影响性能。

支持的计算精度与性能

精度类型	训练支持	推理支持	适用场景
FP32	支持	支持	通用科学计算、高精度推理
FP16	支持	支持	混合精度训练、深度学习推理
BF16	支持	支持	大模型训练主流格式
INT8	支持	支持	高性能量化推理
INT4	不支持	支持	高性能量化推理

硬件规格

规格	参数
显存容量	64GB HBM2e
峰值功耗	350W
工艺制程	7nm
接口	PCIe 4.0 x16
架构代号	ivcore11

3. 核心软件生态：IXUCA

天数智算软件栈是天数智芯 GPU 的统一计算软件栈。

高度兼容 CUDA

天数智算软件栈在设计之初就充分考虑了开发者的迁移成本，采用了高度兼容主流 CUDA 编程模型的策略。

低成本迁移：绝大多数基于 CUDA 开发的原生应用和算法，无需重写代码，仅需使用天数智芯 Clang 编译器重新编译即可在天垓150 上运行。
开箱即用：建议直接使用预装了天数智算软件栈驱动与工具链的官方镜像，无需手动处理底层驱动安装。

PyTorch 兼容性

PyTorch 模块	兼容程度	说明
torch	完全兼容	基础张量操作
torch.nn	完全兼容	神经网络模块
torch.nn.functional	完全兼容	函数式接口
torch.Tensor	完全兼容	张量方法
torch.cuda	完全兼容	CUDA 接口映射
torch.cuda.amp	完全兼容	自动混合精度
torch.distributed	完全兼容	分布式训练

迁移策略

编译器要求：必须使用天数智芯提供的 Clang 编译器重新编译，不支持直接运行 NVIDIA 编译的 cubin
设备指定：使用 .cuda() 或 to('cuda') 将模型和数据移至天数智芯 GPU

零代码修改迁移：

import torch

# 检查设备可用性
print(torch.cuda.is_available())
print(torch.cuda.device_count())

# 创建张量并移至天数智芯GPU
x = torch.rand([4, 4]).cuda()
print(x)

# 模型迁移
model = Model()
model = model.cuda()
data = data.cuda()

避坑指南：warp size 差异是最常见的迁移问题。天垓150 的 warp size 为 64，而 CUDA 为 32。涉及 warpSize、__syncwarp()、warp 级原语（如 __shfl_down_sync）的代码需要特别注意。

4. AI 开发库：版本管理与避坑指南

为了发挥天垓150 的最佳性能，PyTorch、TensorFlow 等主流 AI 框架均需要使用天数智芯官方适配版。

严禁随意更新核心库

在使用过程中，请极度小心 pip install 或 pip upgrade 操作。

风险：执行标准的 pip install torch 会从 PyPI 拉取社区公版，这将覆盖掉环境内预装的天数智芯适配版，直接导致无法调用 GPU，程序运行失败。

识别适配版本

天数智芯适配的 Python 库版本号中通常包含 +corex 标识。你可以通过以下命令检查当前环境状态：

pip list | grep -e torch -e corex -e +

正常输出示例：

torch                                    2.7.1+corex.4.4.0
torchaudio                               2.7.1+corex.4.4.0
torchvision                              0.22.1+corex.4.4.0
triton                                   3.1.0+corex.4.4.0
tensorflow                               2.16.2+corex.4.4.0
vllm                                     0.11.2+corex.4.4.0
xformers                                 0.0.26.post1+corex.4.4.0
xfuser                                   0.4.5+corex.4.4.0
pycuda                                   2024.1+corex.4.4.0

最佳实践：

优先使用官方镜像：如果您需要特定的 AI 库，请优先查找是否提供了包含该库的天数智芯官方镜像。
检查是否存在：在安装新库前，先检查该库是否已存在天数智芯适配版本。
获取正确源：如确需更新，请联系天数智芯应用工程师获取正确的 whl 安装包。

框架版本对应表

框架	版本	说明
PyTorch	v2.4.1	天数智芯适配版
TensorFlow	v2.16.2	天数智芯适配版
DeepSpeed	v0.16.4	分布式训练优化库
Megatron-LM	v0.11.0	大模型训练框架
LLaMA-Factory	v0.9.2	大模型微调平台
ixTE	v1.1.0	ix-TransformerEngine 加速库

避坑指南：天数智芯适配版框架版本必须与软件栈版本严格对应，不支持跨版本混用。

融合算子加速

天数智算软件栈提供丰富的融合算子，按功能分类如下：

注意力算子

算子名称	功能	适用场景	来源
FlashAttention	融合注意力	Transformer 训练/推理	ixDNN / ixAttention-Backend
FlashAttention-2	高效融合注意力	大模型训练加速	LLaMA-Factory
FMHA	Fused Multi-Head Attention	推理优化	IxFormer / IGIE
ixAttention	天数智芯注意力算子	训练/推理通用	ixAttention-Backend

优化器算子

算子名称	功能	适用场景	来源
fused_adam	融合 Adam	优化器更新	DeepSpeed
fused_lamb	融合 Lamb	大批量训练优化器	DeepSpeed
fused_lion	融合 Lion	内存高效优化器	DeepSpeed
fused_adamw	融合 AdamW	权重衰减优化器	ixTE
cpu_adam	CPU Adam	梯度卸载场景	DeepSpeed
cpu_lion	CPU Lion	CPU端优化器	DeepSpeed

归一化算子

算子名称	功能	适用场景	来源
fused_layernorm	融合 LayerNorm	归一化层	DeepSpeed
RMSNorm	均方根归一化	LLaMA 等模型	ixTE

位置编码算子

算子名称	功能	适用场景	来源
fused_rope	旋转位置编码	位置编码	DeepSpeed
ALiBi	线性偏置注意力	长序列外推	Megatron-LM

激活函数算子

算子名称	功能	适用场景	来源
swiglu	SwiGLU 激活	FFN 层	DeepSpeed / ixTE
GeGLU	GeGLU 激活	FFN 层	ixTE

MoE 算子

算子名称	功能	适用场景	来源
FusedMoEMLP	融合 MoE MLP	混合专家模型	ixTE
GroupedMLP	分组 MLP	MoE 推理	ixTE
MoELayer	MoE 层	混合专家模型	ixTE

推理加速算子

算子名称	功能	适用场景	来源
transformer_inference	Transformer 推理	模型推理	DeepSpeed
spatial_inference	空间推理	视觉模型	DeepSpeed
quantizer	量化算子	INT8/INT4 量化推理	DeepSpeed
FMHA/Concat	融合算子模板	推理优化	IGIE

使用提示：融合算子可通过 DeepSpeed、ixTE、IxFormer 等框架自动调用，无需手动配置。在 Megatron-LM 中通过 --use-flash-attn 参数启用 FlashAttention。

5. 模型部署建议与排查

模型支持列表

根据天数智芯官方提供的天数智算软件栈适配数据，天垓150 算力集群已完成对下列主流模型的适配与验证。

部署提示

软件栈版本：以下模型基于天数智算软件栈 V4.3/V4.4 进行验证。请务必使用平台提供的最新版本镜像。
显存规划：算力市场的天垓150 单卡显存为 32GB。对于 70B 以上的大参数模型，通常需要进行量化或使用多卡/多机部署。
功能支持：支持 LoRA 微调、FlashAttention 加速及混合精度训练。

大语言模型（LLM）

模型	推理引擎	IXUCA SDK
Baichuan2-7B	vLLM	4.3.0
ChatGLM-3-6B	vLLM	4.3.0
ChatGLM-3-6B-32K	vLLM	4.3.0
CosyVoice2-0.5B	PyTorch	4.3.0
DeepSeek-R1-Distill-Llama-8B	vLLM	4.3.0
DeepSeek-R1-Distill-Llama-70B	vLLM	4.3.0
DeepSeek-R1-Distill-Qwen-1.5B	vLLM	4.3.0
DeepSeek-R1-Distill-Qwen-7B	vLLM	4.4.0
DeepSeek-R1-Distill-Qwen-14B	vLLM	4.3.0
DeepSeek-R1-Distill-Qwen-32B	vLLM	4.3.0
DeepSeek-V3.1	vLLM	4.4.0
ERNIE-4.5-21B-A3B	FastDeploy	4.3.0
ERNIE-4.5-300B-A47B	FastDeploy	4.3.0
GLM-4V	vLLM	4.3.0
InternLM3	LMDeploy / vLLM	4.3.0 / 4.4.0
Llama2-7B	vLLM / TRT-LLM	4.3.0
Llama2-13B	TRT-LLM	4.3.0
Llama2-70B	TRT-LLM	4.3.0
Llama3-70B	vLLM	4.3.0
E5-V	vLLM	4.3.0
MiniCPM-o-2	vLLM	4.3.0
MiniCPM-V-2	vLLM	4.3.0
NVLM	vLLM	4.3.0
Phi3_v	vLLM	4.3.0
PaliGemma	vLLM	4.3.0
Qwen-7B	vLLM	4.3.0
Qwen-VL	vLLM	4.3.0
Qwen2-VL	vLLM	4.3.0
Qwen2.5-VL	vLLM	4.4.0
Qwen1.5-7B	vLLM / TGI	4.3.0
Qwen1.5-14B	vLLM	4.3.0
Qwen1.5-32B Chat	vLLM	4.3.0
Qwen1.5-72B	vLLM	4.3.0
Qwen2-7B Instruct	vLLM	4.3.0
Qwen2-72B Instruct	vLLM	4.3.0
Qwen3-8B	vLLM	4.4.0
Qwen3-32B	vLLM	4.4.0
Qwen3-30B-A3B-Thinking	vLLM	4.4.0
Qwen3-235B-A22B-Thinking	vLLM	4.4.0
Qwen3-Next-80B-A3B	vLLM	4.4.0
StableLM2-1.6B	vLLM	4.3.0
Step3	vLLM	4.4.0
Ultravox	vLLM	4.3.0
Whisper	vLLM	4.3.0
XLMRoberta	vLLM	4.3.0

计算机视觉（CV）

视觉分类

模型	精度	IGIE	ixRT	IXUCA SDK
AlexNet	FP16 / INT8	✅	✅	4.3.0
CLIP	FP16	✅	✅	4.3.0
ConvNeXt 系列	FP16	✅	✅	4.3.0
DenseNet 系列	FP16 / INT8	✅	✅	4.3.0
EfficientNet 系列	FP16 / INT8	✅	✅	4.3.0
GoogLeNet	FP16 / INT8	✅	✅	4.3.0
HRNet-W18	FP16 / INT8	✅	-	4.3.0
InceptionV3	FP16 / INT8	✅	✅	4.3.0
MobileNetV2/V3	FP16 / INT8	✅	✅	4.3.0
RegNet 系列	FP16	✅	-	4.3.0
ResNet 系列	FP16 / INT8	✅	✅	4.3.0
ShuffleNetV1/V2	FP16	✅	✅	4.3.0
SqueezeNet	FP16 / INT8	✅	✅	4.3.0
Swin Transformer	FP16	✅	✅	4.3.0
VGG 系列	FP16 / INT8	✅	✅	4.3.0
ViT	FP16	✅	-	4.3.0

目标检测

模型	精度	IGIE	ixRT	IXUCA SDK
ATSS / CenterNet / DETR	FP16	✅	✅	4.3.0
FCOS / FoveaBox / FSAF	FP16	✅	✅	4.3.0
Grounding DINO	FP16	✅	-	dev-only
RetinaNet / RTMDet	FP16	✅	✅	4.3.0
RTDETR	FP16 / INT8	✅	✅	dev-only
YOLOv3 ~ YOLOv7	FP16 / INT8	✅	✅	4.3.0
YOLOv8 ~ YOLOv13	FP16 / INT8	✅	✅	4.3.0 / 4.4.0
YOLOX	FP16 / INT8	✅	✅	4.3.0

其他 CV 任务

任务类型	支持模型	精度	IXUCA SDK
人脸识别	FaceNet	FP16 / INT8	4.3.0
OCR	Kie_layoutXLM, SVTR, CRNN	FP16	4.3.0 / 4.4.0
姿态估计	HRNetPose, Lightweight OpenPose, RTMPose	FP16	4.3.0
实例分割	Mask R-CNN, SOLOv1	FP16	4.2.0 / 4.3.0
语义分割	UNet	FP16	4.3.0
多目标跟踪	FastReID, DeepSort, RepNet-Vehicle-ReID	FP16 / INT8	4.3.0

多模态

模型	推理引擎	IXUCA SDK
Aria	vLLM	4.3.0
Chameleon-7B	vLLM	4.3.0
CLIP	IxFormer	4.3.0
DeepSeek-VL2-tiny	vLLM	4.4.0
Fuyu-8B	vLLM	4.3.0
H2OVL Mississippi	vLLM	4.3.0
Idefics3	vLLM	4.3.0
InternVL2-4B	vLLM	4.3.0
LLaVA	vLLM	4.3.0
LLaVA-Next-Video-7B	vLLM	4.3.0
Llama-3.2	vLLM	4.3.0
Pixtral	vLLM	4.3.0
Stable Diffusion 1.5	Diffusers	4.3.0
Stable Diffusion 2.1	ixRT	4.4.0
FLUX.1-Dev	xDiT	4.4.0
HunyuanVideo	xDiT	4.4.0
Wan2.1-T2V-14B	xDiT	4.4.0
HunyuanDiT-v1.2	xDiT	4.4.0
SD3-Medium	xDiT	4.4.0

自然语言处理（NLP）

模型	精度	IGIE	ixRT	IXUCA SDK
ALBERT	FP16	✅	-	4.3.0
BERT Base NER	INT8	✅	-	4.3.0
BERT Base SQuAD	FP16 / INT8	✅	✅	4.3.0
BERT Large SQuAD	FP16 / INT8	✅	✅	4.3.0
DeBERTa	FP16	✅	-	4.3.0
RoBERTa	FP16	✅	-	4.3.0
RoFormer	FP16	✅	-	4.3.0
VideoBERT	FP16	✅	-	4.2.0

语音

模型	精度	IGIE	ixRT	IXUCA SDK
Conformer	FP16	✅	✅	4.3.0
Transformer ASR	FP16	✅	-	4.2.0

模型	精度	IGIE	ixRT	IXUCA SDK
Wide & Deep	FP16	✅	-	4.3.0

常见问题排查

模型格式：是否误用了不支持的模型格式？请优先选择 FP16、BF16 或 INT8 版本的模型。
库版本：是否不小心执行了 pip install --upgrade 覆盖了官方驱动库？
新模型适配：对于刚刚发布的全新架构模型，可能需要等待官方天数智算软件栈的更新适配。

6. 监控工具：ixSMI 使用简明手册

ixSMI 是天数智芯 GPU 的命令行管理工具，其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi，方便用户快速上手。

常用命令速查

功能	命令	说明
查看概览	`ixsmi`	最常用。显示所有 GPU 的概览信息。
显示 GPU 列表	`ixsmi -L`	列出系统中所有 GPU 设备。
查询详细信息	`ixsmi -q`	显示 GPU 详细信息。
查询电源信息	`ixsmi -q -d POWER`	查看电源信息。
查询温度信息	`ixsmi -q -d TEMPERATURE`	查看温度信息。
查询显存信息	`ixsmi -q -d MEMORY`	查看显存信息。
设备监控	`ixsmi dmon`	显示 GPU 统计信息（滚动刷新）。
进程监控	`ixsmi pmon`	显示 GPU 进程监控信息（滚动刷新）。
拓扑信息	`ixsmi topo -m`	显示设备拓扑矩阵。

高级查询选项

查询指定 GPU 属性：

ixsmi --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv

循环监控（每秒刷新）：

ixsmi dmon -d 1 -c 10

指定 GPU ID：

ixsmi -q -i 0

监控指标说明

指标	说明	正常范围
GPU-Util	GPU 利用率	0-100%
Memory-Usage	显存使用	< 总显存（64GB）
Temperature	温度	< 85°C
Power	功耗	< TDP（350W）

异常排查

僵死进程清理：

ixsmi pmon
kill -9 <PID>

7. 平台与官方资源导航

国产芯片权威 AI 技能认证

国产芯片 AI 技能证书：联合国内顶尖算力厂商，打造实战型 AI 技能认证体系。从算力到底层框架，助你成为国产 AI 生态的先行者。

官方权威认证：由模力方舟联合行业国产芯片大厂联合签发的权威证书，加盖模力方舟和芯片厂商的公章，支持线上核验，一举成为国产算力与信创生态的官方认可人才
学习即实战：开箱即用的实验环境，直接调用国产 GPU 云端算力，全链路课程覆盖"适配-训练-推理-部署"，获得国产 GPU 实操能力。
面试优先推荐：认证人才进入国产 GPU 与信创企业人才储备库，在求职、合作、项目申报中优先推荐，抢占国产 AI 与算力产业的人才红利。
生态特权：加入开发者社群，享受专家一对一指导，优先获得国产 GPU 算力市场免费测试时长，在信创生态中享有优先曝光与合作机会。

天数智芯官方技术资料

天数智芯开发者中心：提供天数智算软件栈驱动下载、安装指南、故障排查手册及全栈开发文档。

1. 产品概述：天垓 150（BI-V150）​

核心特性与架构​

2. 算力规格与精度支持​

重要限制：精度支持说明​

支持的计算精度与性能​

硬件规格​

3. 核心软件生态：IXUCA​

高度兼容 CUDA​

PyTorch 兼容性​

迁移策略​

4. AI 开发库：版本管理与避坑指南​

严禁随意更新核心库​

识别适配版本​

框架版本对应表​

融合算子加速​

注意力算子​

优化器算子​

归一化算子​

位置编码算子​

激活函数算子​

MoE 算子​

推理加速算子​

5. 模型部署建议与排查​

模型支持列表​

大语言模型（LLM）​

计算机视觉（CV）​

多模态​

自然语言处理（NLP）​

语音​

推荐系统​

常见问题排查​

6. 监控工具：ixSMI 使用简明手册​

常用命令速查​

高级查询选项​

监控指标说明​

异常排查​

7. 平台与官方资源导航​

国产芯片权威 AI 技能认证​

天数智芯官方技术资料​