跳到主要内容
feedback
feedback

壁砺 106M

1. 产品概述:壁砺 106M

壁砺 106M 是壁仞科技(Biren Technology)发布的通用计算 GPU,产品形态为风冷 OAM 模组。该产品基于壁仞自主研发的 BIRENSUPA(Biren Scalable Unified Parallel Architecture) 统一并行架构设计,旨在为人工智能训练及推理提供强大的国产算力解决方案。壁砺 106M 峰值功耗 400W,基于 OCP UBB v1.0 标准开发,确保与现有基础设施的高度兼容性。支持 BLink 高速互联与 PCIe Gen4/Gen5 接口,能够实现多卡、多机的高效算力扩展;依托自研 BIRENSUPA 软件栈,适配主流算法框架、运算库等工具,编程接口在 API 层面高度兼容 GPU 行业国际主流 CUDA 生态。

核心特性与架构

  • 自研架构:采用全自主设计的 BIRENSUPA 统一并行架构,具备完整且独立的指令集系统。
  • 硬件层级:采用 VMC → SPC → CU → EU 四级硬件层级结构,支持灵活的并行计算调度。
  • 线程模型:Grid → Thread Block → Warp(32线程)→ Thread 四级线程层级,与 CUDA 编程模型高度兼容。
  • Kernel 模式:支持 G-Mode(标准模式)和 T-Mode(Mega Kernel 模式),后者支持跨 Block 同步与通信。
  • 互联技术:支持 BLink 内部互联(单向 64GB/s,双向 128GB/s)与标准 PCIe Gen4/Gen5 接口,能够实现多卡、多机的高效算力扩展。

2. 算力规格与精度支持

为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于数据类型的限制。

重要限制:精度支持说明

请注意: 当前壁砺 106M 的硬件及软件栈对部分低精度格式的支持存在限制。

  • FP8:仅在特定算子中支持,需查阅 suDNN 文档确认具体支持情况。
  • INT8/INT4 量化:需配合 suInfer-LLM 的量化工具链使用,不支持直接加载量化模型。
  • 内存对齐:全局内存访问建议 128 字节对齐,否则可能影响性能。
  • 线程束同步:Warp 内同步使用 __syncwarp(),跨 Block 同步需使用 Mega Kernel。

支持的计算精度与性能

精度类型训练支持推理支持适用场景
FP32支持支持通用科学计算、高精度推理
FP16支持支持混合精度训练、深度学习推理
BF16支持支持大模型训练主流格式
INT8仅支持量化训练支持高性能量化推理
INT4不支持支持高性能量化推理

张量原语支持

原语类型说明适用场景
WTI (Warp Tensor Instruction)Warp 级张量指令小批量矩阵乘
TCI (Tensor Core Instruction)Tensor Core 指令标准矩阵乘
TCI-PTCI 增强版支持更大数据类型

3. 核心软件生态:BIRENSUPA

BIRENSUPA(Biren Scalable Unified Parallel Architecture)是壁仞 GPU 的统一计算软件栈。

高度兼容 CUDA

BIRENSUPA 在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。

  • 低成本迁移:绝大多数基于 CUDA 开发的原生应用和算法,仅需少量环境适配即可在壁砺 106M 上运行。
  • 开箱即用:建议直接使用预装了 BIRENSUPA 驱动与工具链的官方镜像,无需手动处理底层驱动安装。

BRPyTorch 兼容性

PyTorch 模块兼容程度说明
torch完全兼容基础张量操作
torch.nn完全兼容神经网络模块
torch.nn.functional完全兼容函数式接口
torch.Tensor完全兼容张量方法
torch.cuda完全兼容CUDA 接口映射
torch.cuda.amp完全兼容自动混合精度
torch.distributed完全兼容分布式训练

迁移策略

  1. 导入顺序:强烈推荐在导入其他包之前加载壁仞 PyTorch 插件包
  2. 设备指定:使用 to('supa') 将模型和数据移至壁仞 GPU

零代码修改迁移

import torch
import torch_br

# 创建张量并移至壁仞GPU
print(torch.rand([4, 4]).supa())
print(torch.rand([3, 3], device="cpu").supa())

# 检查设备可用性
torch.supa.is_available()
torch.supa.device_count()

修改已有脚本

import torch
import torch_br # 在导入其他包之前加载

model = Model()
data = ...
model = model.to('supa')
data = data.to('supa')

4. AI 开发库:版本管理与避坑指南

为了发挥壁砺 106M 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用壁仞官方适配版

严禁随意更新核心库

在使用过程中,请极度小心 pip installpip upgrade 操作。

  • 风险:执行标准的 pip install torch 会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的壁仞适配版,直接导致无法调用 GPU,程序运行失败。

识别适配版本

壁仞适配的 Python 库版本号中通常包含 +biren+supa 标识。你可以通过以下命令检查当前环境状态:

pip list | grep -e torch -e biren -e supa -e +

正常输出示例:

biren-ml-py                       1.10.1+br1xx
bpex 0.6.0+br1xx
torch 2.8.0+cpu
torch-br 1.9.0.20800+br1xx
torchaudio 2.8.0+cpu
torchvision 0.23.0+cpu
vllm_br 0.11.0.2601+br1xx

最佳实践:

  1. 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的壁仞官方镜像。
  2. 检查是否存在:在安装新库前,先检查该库是否已存在壁仞适配版本。
  3. 获取正确源:如确需更新,请访问壁仞官方软件中心获取正确的 whl 安装包或安装源。

BRPyTorch 版本对应表

BRPyTorch 版本PyTorch 版本Python 版本
1.0.x1.10.x3.8-3.10
2.0.x2.0.x3.8-3.11
2.1.x2.1.x3.8-3.11
2.2.x2.2.x3.9-3.11
2.3.x2.3.x3.9-3.11
2.4.x2.4.x3.9-3.12
2.5.x2.5.x3.9-3.12
2.6.x2.6.x3.9-3.12
2.7.x2.7.x3.9-3.12

避坑指南:BRPyTorch 版本必须与 PyTorch 版本严格对应,不支持跨版本混用。

融合算子加速

算子名称功能适用场景
supa_attention融合注意力Transformer 训练/推理
sudnn_attentionsuDNN 注意力推理优化
supa_rope旋转位置编码位置编码
supa_rmsnormRMS 归一化LayerNorm 替代
supa_swigluSwiGLU 激活FFN 层
supa_adamw融合 AdamW优化器
fused_adam融合 Adam优化器
supa_moe_routerMOE 路由混合专家模型

5. 模型部署建议与排查

模型支持列表

根据壁仞科技官方提供的 BIRENSUPA 软件栈适配数据,壁砺 106M 算力集群已完成对下列主流模型的适配与验证。

部署提示
  • 软件栈版本:以下模型主要基于 vllm_br、suInfer-LLM 推理框架进行验证。请务必使用平台提供的 BIRENSUPA 最新版本镜像。
  • 显存规划:壁砺 106M 单卡显存为 32GB。对于 70B 以上的大参数模型,通常需要进行 INT4 量化或使用多卡/多机部署。
  • 功能支持:支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。
场景/类别BR106M 支持情况
文本类Qwen3-4B、Qwen3-14B、Qwen3-30B-A3B、Qwen3-Coder-30B-A3B-Instruct、Qwen3-VL-30B-A3B-Instruct、Qwen3-32B、Qwen3-VL-32B-Instruct
图像类FLUX.1、SD3.5-Large
语音合成类chatTTS
语音识别类whisper-large-v3、FunASR
OCR类-
Embedding类Qwen3-Embedding-8B、bge-reranker-v2-m3

常见问题排查

  1. 模型格式:是否误用了 FP8 模型?请优先选择 FP16、BF16 或 INT8 版本的模型。
  2. 库版本:是否不小心执行了 pip install --upgrade 覆盖了官方驱动库?
  3. 新模型适配:对于刚刚发布的全新架构模型,可能需要等待官方 BIRENSUPA 软件栈的更新适配。

6. 监控工具:brsmi 使用简明手册

brsmi是壁仞 GPU 的命令行管理工具,其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi,方便用户快速上手。

常用命令速查

功能命令说明
查看概览brsmi最常用。显示所有 GPU 的概览信息。
显示 GPU 列表brsmi gpu list列出系统中所有 GPU 设备。
查询 GPU 信息brsmi gpu query显示 GPU 详细信息。
进程监控brsmi gpu pmon显示 GPU 进程监控信息(滚动刷新)。
设备统计brsmi gpu dmon显示 GPU 统计信息(滚动刷新)。
FRU 信息brsmi gpu fru显示 FRU(现场可更换单元)信息。
配置信息brsmi gpu conf显示 GPU 配置信息。
光模块信息brsmi gpu optm显示 GPU 光模块信息。

高级查询选项

查询指定 GPU 属性

brsmi gpu --query-gpu=index,name,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv

循环监控(每秒刷新)

brsmi gpu --query-gpu=index,temperature.gpu,utilization.gpu --format=csv -l 1

指定 GPU ID

brsmi gpu --query-gpu=index,name,temperature.gpu --format=csv -i 0

查看可查询属性列表

brsmi gpu --help-query-gpu

监控指标说明

指标说明正常范围
GPU-UtilGPU 利用率0-100%
Memory-Usage显存使用< 总显存(32GB)
Temperature温度< 85°C
Power功耗< TDP(400W)

异常排查

僵死进程清理

brsmi gpu pmon
kill -9 <PID>

GPU 设置

brsmi gpu set --help

7. 平台与官方资源导航

国产芯片权威 AI 技能认证

国产芯片 AI 技能证书:联合国内顶尖算力厂商,打造实战型 AI 技能认证体系。从算力到底层框架,助你成为国产 AI 生态的先行者。

  • 官方权威认证:由模力方舟联合行业国产芯片大厂联合签发的权威证书,加盖模力方舟和芯片厂商的公章,支持线上核验,一举成为国产算力与信创生态的官方认可人才
  • 学习即实战:开箱即用的实验环境,直接调用国产 GPU 云端算力,全链路课程覆盖“适配-训练-推理-部署”,获得国产 GPU 实操能力。
  • 面试优先推荐:认证人才进入国产 GPU 与信创企业人才储备库,在求职、合作、项目申报中优先推荐,抢占国产 AI 与算力产业的人才红利。
  • 生态特权:加入开发者社群,享受专家一对一指导,优先获得国产 GPU 算力市场免费测试时长,在信创生态中享有优先曝光与合作机会。

壁仞官方技术资料