燧原 S60
1. 产品概述:燧原 S60
燧原 S60 (CloudBlazer S60) 是燧原科技(Enflame)于 2021年 发布的推理型通用人工智能加速卡。该产品基于燧原自主研发的第二代 “邃思® 2.0” (SuiSi 2.0) 架构,专为云端推理和边缘计算场景设计。是面向数据中心大规模部署的新一代人工智能推理加速卡,满足大语言模型、搜广推及传统模型的需求,具有模型覆盖面广、易用性强、易迁移易部署等特点,可广泛应用于图像及文本生成等应用、搜索与推荐、文本、图像及语音识别等主流推理场景。
核心特性与架构
- GCU 架构:S60 采用通用计算单元(GCU - General Compute Unit)架构,拥有完全自主的指令集和数据流设计。
- 推理优化:专为复杂的推理业务优化,支持动态电压频率调整(DVFS),在保持高性能的同时实现了优异的能效比。
- 大显存支持:配备大容量高带宽显存,能够有效支持自然语言处理(NLP)、计算机视觉(CV)以及各类大模型的推理任务。
2. 算力规格与精度支持
为了保障您的推理体验,请务必了解 GCU 对不同计算精度的支持情况, 特别是关于 FP8 的限制。
重要限制:不支持 FP8
- 不支持精度:FP8。
- 影响:当前 S60 硬件架构及软件栈无法直接运行 FP8 量化的模型。如果强行加载 Hugging Face 上最新的 FP8 版本模型,将会报错。
支持的计算精度
燧原 S60 在以下精度下能提供最佳的性能表现:
| 精度类型 | 适用场景 |
|---|---|
| FP16 | 高性能推理首选,精度与速度的最佳平衡 |
| BF16 | 大模型推理主流格式,无需转换即可运行 |
| INT8 | 极致性能量化推理 |
| FP32 | 基础精度,用于验证或对精度要求极高的场景 |
3. 核心软件生态:TopsRider 与代码迁移
TopsRider 是燧原科技推出的全栈 AI 软件平台。与 CUDA 架构不同,GCU 拥有独立的底层逻辑。
您可以在终端输入 topsinfo 命令,查看当前实例详细的版本信息(含 Driver, Firmware, SDK 及核心组件版本)。
关键差异:不兼容原生 CUDA
燧原 GCU 不直接兼容 CUDA 代码。这意味着:
- 代码中的
.cuda()调用必须修改为针对 GCU 的调用。 - 必须依赖燧原提供的适配层进行转换。
方案:CUDA 代码一键迁移
为了降低迁移门槛,燧原提供了 torch_gcu 库,支持通过简单的代码注入实现“一键迁移”。
迁移步骤: 在您的 PyTorch 推理代码最前端(Import 部分),加入以下代码:
import torch
try:
# 引入 torch_gcu 库
import torch_gcu
# 启用 CUDA 代码一键迁移功能
from torch_gcu import transfer_to_gcu
print(" Successfully imported torch_gcu and enabled transfer.")
except ImportError as e:
print(f" GCU environment not found: {e}")
# 检查设备状态(迁移后,is_available() 将返回 True,但底层指向 GCU)
print(f"Device available status: {torch.cuda.is_available()}")
# 此后的 CUDA 代码将自动映射到 GCU 上运行
a_tensor = torch.ones(3, 3).cuda()
b_tensor = torch.ones(size=(3, 1), device="cuda")
add_out = torch.add(a_tensor, b_tensor)
print(add_out)
提示:使用 transfer_to_gcu 后,您原有的代码中写着 .cuda() 的地方无需手动修改为 .gcu(),适配层会自动处理设备映射。
如遇到复杂的自定义算子或转换失败,请查阅官方文档:《Pytorch 转换说明》
4. AI 开发库:版本管理与避坑指南
为了在 S60 上运行 PyTorch、vLLM 等框架,必须使用燧原官方适配版。
严禁随意更新核心库
请极度小心使用 pip install --upgrade 命令。
- 风险:社区公版(如官方 PyTorch)不包含 GCU 后端支持。一旦覆盖,程序将无法识别 GCU 设备。
识别适配版本
燧原适配的 Python 库版本号通常包含 +gcu、+torch...gcu 等特殊后缀。检查当前环境命令:
pip list | grep -e gcu
正常输出示例:
flash-attn 2.6.3+torch.2.6.0.gcu... # 注意力加速库
onnxruntime-gcu 1.9.1+3.1.0 # ONNX 推理后端
torch-gcu 2.6.0+3.5.0.3 # 核心框架(关键)
triton-gcu 0.9.20250624.1
vllm_gcu 0.8.0+3.4.20250704 # 大模型推理框架
xformers 0.0.29.post2+torch...gcu # Transformer 加速
xinference 1.7.0.post1+gcu...
最佳实践:
- 使用官方镜像:推荐直接使用平台提供的预装镜像,已包含上述所有适配库。
- 安装前检查:在安装新库前,先用
pip list确认是否已有+gcu版本。 - 环境隔离:建议使用 Conda 或 venv 虚拟环境隔离不同项目的依赖。