壁砺 106M

1. 产品概述：壁砺 106M

壁砺 106M 是壁仞科技（Biren Technology）发布的通用计算 GPU，产品形态为风冷 OAM 模组。该产品基于壁仞自主研发的 BIRENSUPA（Biren Scalable Unified Parallel Architecture） 统一并行架构设计，旨在为人工智能训练及推理提供强大的国产算力解决方案。壁砺 106M 峰值功耗 400W，基于 OCP UBB v1.0 标准开发，确保与现有基础设施的高度兼容性。支持 BLink 高速互联与 PCIe Gen4/Gen5 接口，能够实现多卡、多机的高效算力扩展；依托自研 BIRENSUPA 软件栈，适配主流算法框架、运算库等工具，编程接口在 API 层面高度兼容 GPU 行业国际主流 CUDA 生态。

核心特性与架构

自研架构：采用全自主设计的 BIRENSUPA 统一并行架构，具备完整且独立的指令集系统。
硬件层级：采用 VMC → SPC → CU → EU 四级硬件层级结构，支持灵活的并行计算调度。
线程模型：Grid → Thread Block → Warp（32线程）→ Thread 四级线程层级，与 CUDA 编程模型高度兼容。
Kernel 模式：支持 G-Mode（标准模式）和 T-Mode（Mega Kernel 模式），后者支持跨 Block 同步与通信。
互联技术：支持 BLink 内部互联（单向 64GB/s，双向 128GB/s）与标准 PCIe Gen4/Gen5 接口，能够实现多卡、多机的高效算力扩展。

2. 算力规格与精度支持

为了确保开发与推理的顺利进行，了解硬件的精度支持范围至关重要。请特别注意以下关于数据类型的限制。

重要限制：精度支持说明

请注意： 当前壁砺 106M 的硬件及软件栈对部分低精度格式的支持存在限制。

FP8：仅在特定算子中支持，需查阅 suDNN 文档确认具体支持情况。
INT8/INT4 量化：需配合 suInfer-LLM 的量化工具链使用，不支持直接加载量化模型。
内存对齐：全局内存访问建议 128 字节对齐，否则可能影响性能。
线程束同步：Warp 内同步使用 __syncwarp()，跨 Block 同步需使用 Mega Kernel。

支持的计算精度与性能

精度类型	训练支持	推理支持	适用场景
FP32	支持	支持	通用科学计算、高精度推理
FP16	支持	支持	混合精度训练、深度学习推理
BF16	支持	支持	大模型训练主流格式
INT8	仅支持量化训练	支持	高性能量化推理
INT4	不支持	支持	高性能量化推理

张量原语支持

原语类型	说明	适用场景
WTI (Warp Tensor Instruction)	Warp 级张量指令	小批量矩阵乘
TCI (Tensor Core Instruction)	Tensor Core 指令	标准矩阵乘
TCI-P	TCI 增强版	支持更大数据类型

3. 核心软件生态：BIRENSUPA

BIRENSUPA（Biren Scalable Unified Parallel Architecture）是壁仞 GPU 的统一计算软件栈。

高度兼容 CUDA

BIRENSUPA 在设计之初就充分考虑了开发者的迁移成本，采用了高度兼容主流 CUDA 编程模型的策略。

低成本迁移：绝大多数基于 CUDA 开发的原生应用和算法，仅需少量环境适配即可在壁砺 106M 上运行。
开箱即用：建议直接使用预装了 BIRENSUPA 驱动与工具链的官方镜像，无需手动处理底层驱动安装。

BRPyTorch 兼容性

PyTorch 模块	兼容程度	说明
torch	完全兼容	基础张量操作
torch.nn	完全兼容	神经网络模块
torch.nn.functional	完全兼容	函数式接口
torch.Tensor	完全兼容	张量方法
torch.cuda	完全兼容	CUDA 接口映射
torch.cuda.amp	完全兼容	自动混合精度
torch.distributed	完全兼容	分布式训练

迁移策略

导入顺序：强烈推荐在导入其他包之前加载壁仞 PyTorch 插件包
设备指定：使用 to('supa') 将模型和数据移至壁仞 GPU

零代码修改迁移：

import torch
import torch_br

# 创建张量并移至壁仞GPU
print(torch.rand([4, 4]).supa())
print(torch.rand([3, 3], device="cpu").supa())

# 检查设备可用性
torch.supa.is_available()
torch.supa.device_count()

修改已有脚本：

import torch
import torch_br  # 在导入其他包之前加载

model = Model()
data = ...
model = model.to('supa')
data = data.to('supa')

4. AI 开发库：版本管理与避坑指南

为了发挥壁砺 106M 的最佳性能，PyTorch、vLLM 等主流 AI 框架均需要使用壁仞官方适配版。

严禁随意更新核心库

在使用过程中，请极度小心 pip install 或 pip upgrade 操作。

风险：执行标准的 pip install torch 会从 PyPI 拉取社区公版，这将覆盖掉环境内预装的壁仞适配版，直接导致无法调用 GPU，程序运行失败。

识别适配版本

壁仞适配的 Python 库版本号中通常包含 +biren 或 +supa 标识。你可以通过以下命令检查当前环境状态：

pip list | grep -e torch -e biren -e supa -e +

正常输出示例：

biren-ml-py                       1.10.1+br1xx
bpex                              0.6.0+br1xx
torch                             2.8.0+cpu
torch-br                          1.9.0.20800+br1xx
torchaudio                        2.8.0+cpu
torchvision                       0.23.0+cpu
vllm_br                           0.11.0.2601+br1xx

最佳实践：

优先使用官方镜像：如果您需要特定的 AI 库，请优先查找是否提供了包含该库的壁仞官方镜像。
检查是否存在：在安装新库前，先检查该库是否已存在壁仞适配版本。
获取正确源：如确需更新，请访问壁仞官方软件中心获取正确的 whl 安装包或安装源。

BRPyTorch 版本对应表

BRPyTorch 版本	PyTorch 版本	Python 版本
1.0.x	1.10.x	3.8-3.10
2.0.x	2.0.x	3.8-3.11
2.1.x	2.1.x	3.8-3.11
2.2.x	2.2.x	3.9-3.11
2.3.x	2.3.x	3.9-3.11
2.4.x	2.4.x	3.9-3.12
2.5.x	2.5.x	3.9-3.12
2.6.x	2.6.x	3.9-3.12
2.7.x	2.7.x	3.9-3.12

避坑指南：BRPyTorch 版本必须与 PyTorch 版本严格对应，不支持跨版本混用。

融合算子加速

算子名称	功能	适用场景
supa_attention	融合注意力	Transformer 训练/推理
sudnn_attention	suDNN 注意力	推理优化
supa_rope	旋转位置编码	位置编码
supa_rmsnorm	RMS 归一化	LayerNorm 替代
supa_swiglu	SwiGLU 激活	FFN 层
supa_adamw	融合 AdamW	优化器
fused_adam	融合 Adam	优化器
supa_moe_router	MOE 路由	混合专家模型

5. 模型部署建议与排查

模型支持列表

根据壁仞科技官方提供的 BIRENSUPA 软件栈适配数据，壁砺 106M 算力集群已完成对下列主流模型的适配与验证。

部署提示

软件栈版本：以下模型主要基于 vllm_br、suInfer-LLM 推理框架进行验证。请务必使用平台提供的 BIRENSUPA 最新版本镜像。
显存规划：壁砺 106M 单卡显存为 32GB。对于 70B 以上的大参数模型，通常需要进行 INT4 量化或使用多卡/多机部署。
功能支持：支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。

场景/类别	BR106M 支持情况
文本类	Qwen3-4B、Qwen3-14B、Qwen3-30B-A3B、Qwen3-Coder-30B-A3B-Instruct、Qwen3-VL-30B-A3B-Instruct、Qwen3-32B、Qwen3-VL-32B-Instruct
图像类	FLUX.1、SD3.5-Large
语音合成类	chatTTS
语音识别类	whisper-large-v3、FunASR
OCR类	-
Embedding类	Qwen3-Embedding-8B、bge-reranker-v2-m3

常见问题排查

模型格式：是否误用了 FP8 模型？请优先选择 FP16、BF16 或 INT8 版本的模型。
库版本：是否不小心执行了 pip install --upgrade 覆盖了官方驱动库？
新模型适配：对于刚刚发布的全新架构模型，可能需要等待官方 BIRENSUPA 软件栈的更新适配。

6. 监控工具：brsmi 使用简明手册

brsmi是壁仞 GPU 的命令行管理工具，其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi，方便用户快速上手。

常用命令速查

功能	命令	说明
查看概览	`brsmi`	最常用。显示所有 GPU 的概览信息。
显示 GPU 列表	`brsmi gpu list`	列出系统中所有 GPU 设备。
查询 GPU 信息	`brsmi gpu query`	显示 GPU 详细信息。
进程监控	`brsmi gpu pmon`	显示 GPU 进程监控信息（滚动刷新）。
设备统计	`brsmi gpu dmon`	显示 GPU 统计信息（滚动刷新）。
FRU 信息	`brsmi gpu fru`	显示 FRU（现场可更换单元）信息。
配置信息	`brsmi gpu conf`	显示 GPU 配置信息。
光模块信息	`brsmi gpu optm`	显示 GPU 光模块信息。

高级查询选项

查询指定 GPU 属性：

brsmi gpu --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv

循环监控（每秒刷新）：

brsmi gpu --query-gpu=index,temperature.gpu,utilization.gpu --format=csv -l 1

指定 GPU ID：

brsmi gpu --query-gpu=index,name,temperature.gpu --format=csv -i 0

查看可查询属性列表：

brsmi gpu --help-query-gpu

监控指标说明

指标	说明	正常范围
GPU-Util	GPU 利用率	0-100%
Memory-Usage	显存使用	< 总显存（32GB）
Temperature	温度	< 85°C
Power	功耗	< TDP（400W）

异常排查

僵死进程清理：

brsmi gpu pmon
kill -9 <PID>

GPU 设置：

brsmi gpu set --help

7. 平台与官方资源导航

国产芯片权威 AI 技能认证

国产芯片 AI 技能证书：联合国内顶尖算力厂商，打造实战型 AI 技能认证体系。从算力到底层框架，助你成为国产 AI 生态的先行者。

官方权威认证：由模力方舟联合行业国产芯片大厂联合签发的权威证书，加盖模力方舟和芯片厂商的公章，支持线上核验，一举成为国产算力与信创生态的官方认可人才
学习即实战：开箱即用的实验环境，直接调用国产 GPU 云端算力，全链路课程覆盖“适配-训练-推理-部署”，获得国产 GPU 实操能力。
面试优先推荐：认证人才进入国产 GPU 与信创企业人才储备库，在求职、合作、项目申报中优先推荐，抢占国产 AI 与算力产业的人才红利。
生态特权：加入开发者社群，享受专家一对一指导，优先获得国产 GPU 算力市场免费测试时长，在信创生态中享有优先曝光与合作机会。

壁仞官方技术资料

壁仞科技开发者中心: 提供 BIRENSUPA 驱动下载、安装指南、故障排查手册及全栈开发文档。

1. 产品概述：壁砺 106M​

核心特性与架构​

2. 算力规格与精度支持​

重要限制：精度支持说明​

支持的计算精度与性能​

张量原语支持​

3. 核心软件生态：BIRENSUPA​

高度兼容 CUDA​

BRPyTorch 兼容性​

迁移策略​

4. AI 开发库：版本管理与避坑指南​

严禁随意更新核心库​

识别适配版本​

BRPyTorch 版本对应表​

融合算子加速​

5. 模型部署建议与排查​

模型支持列表​

常见问题排查​

6. 监控工具：brsmi 使用简明手册​

常用命令速查​

高级查询选项​

监控指标说明​

异常排查​

7. 平台与官方资源导航​

国产芯片权威 AI 技能认证​

壁仞官方技术资料​