天垓 150
1. 产品概述:天垓 150(BI-V150)
天垓150 是天数智芯(Iluvatar CoreX)发布的通用计算 GPU,产品形态包含风冷 PCIe 加速卡。该产品基于天数智芯自主研发的 ivcore11 通用 GPU 架构设计,采用 7nm 先进制程工艺,旨在为人工智能训练及推理提供强大的国产算力解决方案。天垓150 峰值功耗 350W,配备 64GB HBM2e 高带宽 显存,支持 PCIe 4.0 x16 接口,能够实现多卡、多机的高效算力扩展;依托天数智算软件栈,适配主流算法框架、运算库等工具,编程接口在 API 层面高度兼容 GPU 行业国际主流 CUDA 生态。
核心特性与架构
- 自研架构:采用全自主设计的 ivcore11 通用 GPU 架构,7nm 工艺制程。
- 线程模型:Grid → Thread Block → Warp(64线程)→ Thread 四级线程层级,与 CUDA 编程模型高度兼容,但 warp size 为 64(CUDA 为 32)。
- 显存配置:64GB HBM2e 高带宽显存,满足大模型训练与推理需求。
- 互联技术:支持 PCIe 4.0 x16 标准接口,能够实现多卡、多机的高效算力扩展。
2. 算力规格与精度支持
为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于数据类型的限制。
重要限制:精度支持说明
请注意: 当前天垓150 的硬件及软件栈对部分低精度格式的支持存在限制。
- double 类型:天数智芯加速卡对 double 数据类型仅提供有限支持,建议使用 float 替代。
- FP8:需配合 ixTE(ix-TransformerEngine)库使用,支持 FP8 GEMM 相关算子。
- INT8/INT4 量化:需配合 IGIE 推理框架或 ixRT 推理引擎的量化工具链使用,支持 GPTQ、AWQ 等量化格式。
- 内存对齐:全局内存访问建议 128 字节对齐,否则可能影响性能。
支持的计算精度与性能
| 精度类型 | 训练支持 | 推理支持 | 适用场景 |
|---|---|---|---|
| FP32 | 支持 | 支持 | 通用科学计算、高精度推理 |
| FP16 | 支持 | 支持 | 混合精度训练、深度学习推理 |
| BF16 | 支持 | 支持 | 大模型训练主流格式 |
| INT8 | 支持 | 支持 | 高性能量化推理 |
| INT4 | 不支持 | 支持 | 高性能量化推理 |
硬件规格
| 规格 | 参数 |
|---|---|
| 显存容量 | 64GB HBM2e |
| 峰值功耗 | 350W |
| 工艺制程 | 7nm |
| 接口 | PCIe 4.0 x16 |
| 架构代号 | ivcore11 |
3. 核心软件生态:IXUCA
天数智算软件栈是天数智芯 GPU 的统一计算软件栈。
高度兼容 CUDA
天数智算软件栈在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。
- 低成本迁移:绝大多数基于 CUDA 开发的原生应用和算法,无需重写代码,仅需使用天数智芯 Clang 编译器重新编译即可在天垓150 上运行。
- 开箱即用:建议直接使用预装了天数智算软件栈驱动与工具 链的官方镜像,无需手动处理底层驱动安装。
PyTorch 兼容性
| PyTorch 模块 | 兼容程度 | 说明 |
|---|---|---|
| torch | 完全兼容 | 基础张量操作 |
| torch.nn | 完全兼容 | 神经网络模块 |
| torch.nn.functional | 完全兼容 | 函数式接口 |
| torch.Tensor | 完全兼容 | 张量方法 |
| torch.cuda | 完全兼容 | CUDA 接口映射 |
| torch.cuda.amp | 完全兼容 | 自动混合精度 |
| torch.distributed | 完全兼容 | 分布式训练 |
迁移策略
- 编译器要求:必须使用天数智芯提供的 Clang 编译器重新编译,不支持直接运行 NVIDIA 编译的 cubin
- 设备指定:使用
.cuda()或to('cuda')将模型和数据移至天数智芯 GPU
零代码修改迁移:
import torch
# 检查设备可用性
print(torch.cuda.is_available())
print(torch.cuda.device_count())
# 创建张量并移至天数智芯GPU
x = torch.rand([4, 4]).cuda()
print(x)
# 模型迁移
model = Model()
model = model.cuda()
data = data.cuda()
避坑指南:warp size 差异是最常见的迁移问题。天垓150 的 warp size 为 64,而 CUDA 为 32。涉及
warpSize、__syncwarp()、warp 级原语(如__shfl_down_sync)的代码需要特别注意。