壁砺 106M
1. 产品概述:壁砺 106M
壁砺 106M 是壁仞科技(Biren Technology)发布的通用计算 GPU,产品形态为风冷 OAM 模组。该产品基于壁仞自主研发的 BIRENSUPA(Biren Scalable Unified Parallel Architecture) 统一并行架构设计,旨在为人工智能训练及推理提供强大的国产算力解决方案。壁砺 106M 峰值功耗 400W,基于 OCP UBB v1.0 标准开发,确保与现有基础设施的高度兼容性。支持 BLink 高速互联与 PCIe Gen4/Gen5 接口,能够实现多卡、多机的高效算力扩展;依托自研 BIRENSUPA 软件栈,适配主流算法框架、运算库等工具,编程接口在 API 层面高度兼容 GPU 行业国际主流 CUDA 生态。
核心特性与架构
- 自研架构:采用全自主设计的 BIRENSUPA 统一并行架构,具备完整且独立的指令集系统。
- 硬件层级:采用 VMC → SPC → CU → EU 四级硬件层级结构,支持灵活的并行计算调度。
- 线程模型:Grid → Thread Block → Warp(32线程)→ Thread 四级线程层级,与 CUDA 编程模型高度兼容。
- Kernel 模式:支持 G-Mode(标准模式)和 T-Mode(Mega Kernel 模式),后者支持跨 Block 同步与通信。
- 互联技术:支持 BLink 内部互联(单向 64GB/s,双向 128GB/s)与标准 PCIe Gen4/Gen5 接口,能够实现多卡、多机的高效算力扩展。
2. 算力规格与精度支持
为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于数据类型的限制。
重要限制:精度支持说明
请注意: 当前壁砺 106M 的硬件及软件栈对部分低精度格式的支持存在限制。
- FP8:仅在特定算子中支持,需查阅 suDNN 文档确认具体支持情况。
- INT8/INT4 量化:需配合 suInfer-LLM 的量化工具链使用,不支持直接加载量化模型。
- 内存对齐:全局内存 访问建议 128 字节对齐,否则可能影响性能。
- 线程束同步:Warp 内同步使用
__syncwarp(),跨 Block 同步需使用 Mega Kernel。
支持的计算精度与性能
| 精度类型 | 训练支持 | 推理支持 | 适用场景 |
|---|---|---|---|
| FP32 | 支持 | 支持 | 通用科学计算、高精度推理 |
| FP16 | 支持 | 支持 | 混合精度训练、深度学习推理 |
| BF16 | 支持 | 支持 | 大模型训练主流格式 |
| INT8 | 仅支持量化训练 | 支持 | 高性能量化推理 |
| INT4 | 不支持 | 支持 | 高性能量化推理 |
张量原语支持
| 原语类型 | 说明 | 适用场景 |
|---|---|---|
| WTI (Warp Tensor Instruction) | Warp 级张量指令 | 小批量矩阵乘 |
| TCI (Tensor Core Instruction) | Tensor Core 指令 | 标准矩阵乘 |
| TCI-P | TCI 增强版 | 支持更大数据类型 |
3. 核心软件生态:BIRENSUPA
BIRENSUPA(Biren Scalable Unified Parallel Architecture)是壁仞 GPU 的统一计算软件栈。
高度兼容 CUDA
BIRENSUPA 在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。
- 低成本迁移:绝大多数基于 CUDA 开发的原生应用和算法,仅需少量环境适配即可在壁砺 106M 上运行。
- 开箱即用:建议直接使用预装了 BIRENSUPA 驱动与工具链的官方镜像,无需手动处理底层驱动安装。
BRPyTorch 兼容性
| PyTorch 模块 | 兼容程度 | 说明 |
|---|---|---|
| torch | 完全兼容 | 基础张量操作 |
| torch.nn | 完全兼容 | 神经网络模块 |
| torch.nn.functional | 完全兼容 | 函数式接口 |
| torch.Tensor | 完全兼容 | 张量方法 |
| torch.cuda | 完全兼容 | CUDA 接口映射 |
| torch.cuda.amp | 完全兼容 | 自动混合精度 |
| torch.distributed | 完全兼容 | 分布式训练 |
迁移策略
- 导入顺序:强烈推荐在导入其他包之前加载壁仞 PyTorch 插件包
- 设备指定:使用
to('supa')将模型和数据移至壁仞 GPU
零代码修改迁移:
import torch
import torch_br
# 创建张量并移至壁仞GPU
print(torch.rand([4, 4]).supa())
print(torch.rand([3, 3], device="cpu").supa())
# 检查设备可用性
torch.supa.is_available()
torch.supa.device_count()
修改已有脚本:
import torch
import torch_br # 在导入其他包之前加载
model = Model()
data = ...
model = model.to('supa')
data = data.to('supa')
4. AI 开发库:版本管理与避坑指南
为了发挥壁砺 106M 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用壁仞官方适配版。
严禁随意更新核心库
在使用过程中,请极度小心 pip install 或 pip upgrade 操作。
- 风险:执行标准的
pip install torch会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的壁仞适配版,直接导致无法调用 GPU,程序运行失败。
识别适配版本
壁仞适配的 Python 库版本号中通常包含 +biren 或 +supa 标识。你可以通过以下命令检查当前环境状态:
pip list | grep -e torch -e biren -e supa -e +
正常输出示例:
biren-ml-py 1.10.1+br1xx
bpex 0.6.0+br1xx
torch 2.8.0+cpu
torch-br 1.9.0.20800+br1xx
torchaudio 2.8.0+cpu
torchvision 0.23.0+cpu
vllm_br 0.11.0.2601+br1xx
最佳实践:
- 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的壁仞官方镜像。
- 检查是否存在:在安装新库前,先检查该库是否已存在壁仞适配版本。
- 获取正确源:如确需更新,请访问壁仞官方软件中心获取正确的 whl 安装包或安装源。
BRPyTorch 版本对应表
| BRPyTorch 版本 | PyTorch 版本 | Python 版本 |
|---|---|---|
| 1.0.x | 1.10.x | 3.8-3.10 |
| 2.0.x | 2.0.x | 3.8-3.11 |
| 2.1.x | 2.1.x | 3.8-3.11 |
| 2.2.x | 2.2.x | 3.9-3.11 |
| 2.3.x | 2.3.x | 3.9-3.11 |
| 2.4.x | 2.4.x | 3.9-3.12 |
| 2.5.x | 2.5.x | 3.9-3.12 |
| 2.6.x | 2.6.x | 3.9-3.12 |
| 2.7.x | 2.7.x | 3.9-3.12 |
避坑指南:BRPyTorch 版本必须与 PyTorch 版本严格对应,不支持跨版本混用。
融合算子加速
| 算子名称 | 功能 | 适用场景 |
|---|---|---|
| supa_attention | 融合注意力 | Transformer 训练/推 理 |
| sudnn_attention | suDNN 注意力 | 推理优化 |
| supa_rope | 旋转位置编码 | 位置编码 |
| supa_rmsnorm | RMS 归一化 | LayerNorm 替代 |
| supa_swiglu | SwiGLU 激活 | FFN 层 |
| supa_adamw | 融合 AdamW | 优化器 |
| fused_adam | 融合 Adam | 优化器 |
| supa_moe_router | MOE 路由 | 混合专家模型 |
5. 模型部署建议与排查
模型支持列表
根据壁仞科技官方提供的 BIRENSUPA 软件栈适配数据,壁砺 106M 算力集群已完成对下列主流模型的适配与验证。
- 软件栈版本:以下模型主要基于 vllm_br、suInfer-LLM 推理框架进行验证。请务必使用平台提供的 BIRENSUPA 最新版本镜像。
- 显存规划:壁砺 106M 单卡显存为 32GB。对于 70B 以上的大参数模型,通常需要进行 INT4 量化或使用多卡/多机部署。
- 功能支持:支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。
| 场景/类别 | BR106M 支持情况 |
|---|---|
| 文本类 | Qwen3-4B、Qwen3-14B、Qwen3-30B-A3B、Qwen3-Coder-30B-A3B-Instruct、Qwen3-VL-30B-A3B-Instruct、Qwen3-32B、Qwen3-VL-32B-Instruct |
| 图像类 | FLUX.1、SD3.5-Large |
| 语音合成类 | chatTTS |
| 语音识别类 | whisper-large-v3、FunASR |
| OCR类 | - |
| Embedding类 | Qwen3-Embedding-8B、bge-reranker-v2-m3 |
常见问题排查
- 模型格式:是否误用了 FP8 模型?请优先选择 FP16、BF16 或 INT8 版本的模型。
- 库版本:是否不小心执行了
pip install --upgrade覆盖了官方驱动库? - 新模型适配:对于刚刚发布的全新架构模型,可能需要等待官方 BIRENSUPA 软件栈的更新适配。
6. 监控工具:brsmi 使用简明手册
brsmi是壁仞 GPU 的命令行管理工具,其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi,方便用户快速上手。
常用命令速查
| 功能 | 命令 | 说明 |
|---|---|---|
| 查看概览 | brsmi | 最常用。显示所有 GPU 的概览信息。 |
| 显示 GPU 列表 | brsmi gpu list | 列出系统中所有 GPU 设备。 |
| 查询 GPU 信息 | brsmi gpu query | 显示 GPU 详细信息。 |
| 进程监控 | brsmi gpu pmon | 显示 GPU 进程监控信 息(滚动刷新)。 |
| 设备统计 | brsmi gpu dmon | 显示 GPU 统计信息(滚动刷新)。 |
| FRU 信息 | brsmi gpu fru | 显示 FRU(现场可更换单元)信息。 |
| 配置信息 | brsmi gpu conf | 显示 GPU 配置信息。 |
| 光模块信息 | brsmi gpu optm | 显示 GPU 光模块信息。 |
高级查询选项
查询指定 GPU 属性:
brsmi gpu --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv
循环监控(每秒刷新):
brsmi gpu --query-gpu=index,temperature.gpu,utilization.gpu --format=csv -l 1
指定 GPU ID:
brsmi gpu --query-gpu=index,name,temperature.gpu --format=csv -i 0
查看可查询属性列表:
brsmi gpu --help-query-gpu
监控指标说明
| 指标 | 说明 | 正常范围 |
|---|---|---|
| GPU-Util | GPU 利用率 | 0-100% |
| Memory-Usage | 显存使用 | < 总显存(32GB) |
| Temperature | 温度 | < 85°C |
| Power | 功耗 | < TDP(400W) |
异常排查
僵死进程清理:
brsmi gpu pmon
kill -9 <PID>
GPU 设置:
brsmi gpu set --help
7. 平台与官方资源导航
国产芯片权威 AI 技能认证
国产芯片 AI 技能证书:联合国内顶尖算力厂商,打造实战型 AI 技能认证体系。从算力到底层框架,助你成为国产 AI 生态的先行者。
- 官方权威认证:由模力方舟联合行业国产芯片大厂联合签发的权威证书,加盖模力方舟和芯片厂商的公章,支持线上核验,一举成为国产算力与信创生态的官方认可人才
- 学习即实战:开箱即用的实验环境,直接调用国产 GPU 云端算力,全链路课程覆盖“适配-训练-推理-部署”,获得国产 GPU 实操能力。
- 面试优先推荐:认证人才进入国产 GPU 与信创企业人才储备库,在求职、合作、项目申报中优先推荐,抢占国产 AI 与算力产业的人才红利。
- 生态特权:加入开发者社群,享受专家一对一指导,优先获得国产 GPU 算力市场免费测试时长,在信创生态中享有优先曝光与合作机会。
壁仞官方技术资料
- 壁仞科技开发者中心: 提供 BIRENSUPA 驱动下载、安装指南、故障排查手册及全栈开发文档。