燧原 S60
1. 产品概述:燧原 S60
燧原 S60 (CloudBlazer S60) 是燧原科技(Enflame)于 2021年 发布的推理型通用人工智能加速卡。该产品基于燧原自主研发的第二代 “邃思® 2.0” (SuiSi 2.0) 架构,专为云端推理和边缘计算场景设计。是面向数据中心大规模部署的新一代人工智能推理加速卡,满足大语言模型、搜广推及传统模型的需求,具有模型覆盖面广、易用性强、易迁移易部署等特点,可广泛应用于图像及文本生成等应用、搜索与推荐、文本、图像及语音识别等主流推理场景。
核心特性与架构
- GCU 架构:S60 采用通用计算单元(GCU - General Compute Unit)架构,拥 有完全自主的指令集和数据流设计。
- 推理优化:专为复杂的推理业务优化,支持动态电压频率调整(DVFS),在保持高性能的同时实现了优异的能效比。
- 大显存支持:配备大容量高带宽显存,能够有效支持自然语言处理(NLP)、计算机视觉(CV)以及各类大模型的推理任务。
2. 算力规格与精度支持
为了保障您的推理体验,请务必了解 GCU 对不同计算精度的支持情况,特别是关于 FP8 的限制。
重要限制:不支持 FP8
- 不支持精度:FP8。
- 影响:当前 S60 硬件架构及软件栈无法直接运行 FP8 量化的模型。如果强行加载 Hugging Face 上最新的 FP8 版本模型,将会报错。
支持的计算精度
燧原 S60 在以下精度下能提供最佳的性能表现:
| 精度类型 | 适用场景 |
|---|---|
| FP16 | 高性能推理首选,精度与速度的最佳平衡 |
| BF16 | 大模型推理主流格式,无需转换即可运行 |
| INT8 | 极致性能量化推理 |
| FP32 | 基础精度,用于验证或对精度要求极高的场景 |
3. 核心软件生态:TopsRider 与代码迁移
TopsRider 是燧原科技推出的全栈 AI 软件平台。与 CUDA 架构不同,GCU 拥有独立的底层逻辑。
您可以在终端输入 topsinfo 命令,查看当前实例详细的版本信息(含 Driver, Firmware, SDK 及核心组件版本)。
关键差异:不兼容原生 CUDA
燧原 GCU 不直接兼容 CUDA 代码。这意味着:
- 代码中的
.cuda()调用必须修改为针对 GCU 的调用。 - 必须依赖燧原提供的适配层进行转换。
方案:CUDA 代码一键迁移
为了降低迁移门槛,燧原提供了 torch_gcu 库,支持通过简单的代码注入实现“一键迁移”。
迁移步骤: 在您的 PyTorch 推理代码最前端(Import 部分),加入以下代码:
import torch
try:
# 引入 torch_gcu 库
import torch_gcu
# 启用 CUDA 代码一键迁移功能
from torch_gcu import transfer_to_gcu
print("✅ Successfully imported torch_gcu and enabled transfer.")
except ImportError as e:
print(f"❌ GCU environment not found: {e}")
# 检查设备状态(迁移后,is_available() 将返回 True,但底层指向 GCU)
print(f"Device available status: {torch.cuda.is_available()}")
# 此后的 CUDA 代码将自动映射到 GCU 上运行
a_tensor = torch.ones(3, 3).cuda()
b_tensor = torch.ones(size=(3, 1), device="cuda")
add_out = torch.add(a_tensor, b_tensor)
print(add_out)
提示:使用 transfer_to_gcu 后,您原有的代码中写着 .cuda() 的地方无需手动修改为 .gcu(),适配层会自动处理设备 映射。
如遇到复杂的自定义算子或转换失败,请查阅官方文档:《Pytorch 转换说明》
4. AI 开发库:版本管理与避坑指南
为了在 S60 上运行 PyTorch、vLLM 等框架,必须使用燧原官方适配版。
严禁随意更新核心库
请极度小心使用 pip install --upgrade 命令。
- 风险:社区公版(如官方 PyTorch)不包含 GCU 后端支持。一旦覆盖,程序将无法识别 GCU 设备。
识别适配版本
燧原适配的 Python 库版本号通常包含 +gcu、+torch...gcu 等特殊后缀。检查当前环境命令:
pip list | grep -e gcu
正常输出示例:
flash-attn 2.6.3+torch.2.6.0.gcu... # 注意力加速库
onnxruntime-gcu 1.9.1+3.1.0 # ONNX 推理后端
torch-gcu 2.6.0+3.5.0.3 # 核心框架(关键)
triton-gcu 0.9.20250624.1
vllm_gcu 0.8.0+3.4.20250704 # 大模型推理框架
xformers 0.0.29.post2+torch...gcu # Transformer 加速
xinference 1.7.0.post1+gcu...
最佳实践:
- 使用官方镜像:推荐直接使用平台提供的预装镜像,已包含上述所有适配库。
- 安装前检查:在安装新库前,先用
pip list确认是否已有+gcu版本。 - 环境隔离:建议使用 Conda 或 venv 虚拟环境隔离不同项目的依赖。
5. 模型部署建议与排查
模型支持列表
根据燧原科技(Enflame)提供的官方适配数据,S60 架构已完成对下列主流模型的适配与验证。
- 通用部署:对于标准 Hugging Face 模型,在使用
transfer_to_gcu后,大部分代码可直接运行。 - 多机部署:标记为“多机”的模型参数巨大,单机 8 卡显存不足以承载,需申请多机集群进行分布式部署。
- AWQ INT4:标记为“AWQ INT4”的模型需加载 INT4 量化版本以适配显存或提升推理性能。
通用语言模型 (LLM) & 多模态理解
涵盖了 DeepSeek、Qwen、GLM 等主流大语言模型。
| 模型系列 | 模型名称 | 部署要求/备注 |
|---|---|---|
| DeepSeek | DeepSeek-V3 / V3.2-Exp | 多机部署, AWQ INT4 |
| DeepSeek-V3.1-Terminus | 多机部署, AWQ INT4 | |
| DeepSeek-R1 | AWQ INT4 | |
| DeepSeek-R1-Distill-Qwen (32B/14B/7B/1.5B) | 32B/14B/7B 已支持 | |
| deepseek-coder-33B-instruct | - | |
| DeepSeek-Prover-V2-7B | - | |
| Qwen (通义) | Qwen3 (8B/14B/32B/4B/0.6B) | 全系支持 |
| Qwen3-235B-A22B / Instruct | AWQ INT4 | |
| Qwen3-Next-80B-A3B-Thinking | - | |
| Qwen3-Next-80B-A3B-Instruct | - | |
| Qwen3-30B-A3B / Instruct | - | |
| Qwen2.5 (72B/32B/14B/7B) | Instruct 版本支持 | |
| Qwen2.5-Coder (32B/14B) | Instruct 版本支持 | |
| Qwen2-VL (72B/32B/7B) | 多模态视觉理解 | |
| Qwen2 (72B/57B/7B) | Instruct 版本支持 | |
| QwQ-32B | - | |
| GLM (智谱) | GLM-4 (9b-chat/9B/4_5/4_6) | 4_5/4_6 需 AWQ INT4, 部分多机 |
| GLM-4-Air / GLM-4-32B | - | |
| 其他模型 | Lingshu-32B (零一万物) | - |
| Yi-Lightning (零一万物) | - | |
| Kimi-k2-instruct | 多机部署, 性能未知 | |
| MiniMax-M2 | - | |
| Hunyuan-MT-Chimera-7B | 腾讯混元翻译模型 | |
| internlm3-8b-instruct | 书生·浦语 | |
| gemma-2-27b-it / medgemma-4b-it | Google Gemma | |
| codegeex4-all-9b | 代码生成 |
语义检索与向量模型 (Embedding / Reranker)
| 模型名称 | 类型 | 备注 |
|---|---|---|
| bge-m3 / bge-large-zh-v1.5 | Embedding | 智源 BGE 系列 |
| bge-reranker-v2-m3 / base_v1 | Reranker | 重排序模型 |
| Qwen3-Embedding (8B/4B/0.6B) | Embedding | - |
| Qwen3-Reranker (8B/4B/0.6B) | Reranker | - |
| jina-embeddings-v4 | Embedding | - |
| Security-semantic-filtering | Safety | 内容安全过滤 |
图 像与视觉生成 (AIGC)
支持主流的文生图模型,包括最新的 FLUX 系列及经典的 Stable Diffusion。
| 模型系列 | 模型名称 | 备注 |
|---|---|---|
| FLUX | FLUX.1-dev / schnell | 燧原重点优化 |
| FLUX.1-Kontext-dev | - | |
| FLUX.1-Krea-dev | - | |
| Qwen Image | Qwen-Image / Qwen-Image-Edit | 图生图/编辑支持 |
| Stable Diffusion | stable-diffusion-3-medium | SD3 |
| stable-diffusion-3.5-large-turbo | SD3.5 Turbo | |
| stable-diffusion-xl-base-1.0 | SDXL | |
| 其他 | Kolors (可图) | 性能未深度优化 |
光学字符识别 (OCR) & 文档解析
| 模型名称 | 功能描述 |
|---|---|
| DeepSeek-OCR | 高精度 OCR 识别 |
| PaddleOCR-VL | 飞桨多模态 OCR |
| MinerU2.5 | PDF 文档解析与提取 |
视频与动画生成
| 模型名称 | 功能描述 |
|---|---|
| Wan2.1-T2V-14B | 万象 (Wan) 2.1 文生视频模型 |
附:语音与音频模型 (Audio / TTS / ASR)
| 模型名称 | 功能描述 |
|---|---|
| CosyVoice2 | 阿里高质量语音合成 (TTS) |
| SenseVoiceSmall | 阿里语音识别 (ASR) |
| whisper-large-v3-turbo | OpenAI 开源语音识别加速版 |
| whisper-base | 基础语音识别 |
常见问题排查
- 报错
Device not found:检查是否成功 import 了torch_gcu?是否不小心更新了torch覆盖了官方版? - 性能异常低:检查是否使用了 FP32 进行推理?尝试切换到 FP16/BF16。
- OOM(显存溢出):GCU 的显存管理与 GPU 略有不同,尝试降低 Batch Size。
6. 监控工具:efsmi 使用简明手册
efsmi 是燧原 GCU 的命令行管理工具,功能对标 nvidia-smi,用于监控设备状态、功耗及拓扑。
常用命令速查
| 功能 | 命令 | 说明 |
|---|---|---|
| 查看概览 | efsmi | 最常用。显示所有 GCU 的显存、功耗、温度、利用率及进程。 |
| 实时监控 | efsmi -dmon | 类似 Linux top 命令,实时刷新设备数据。按 Ctrl+C 退出。 |
| 进程监控 | efsmi -pmon | 实时监控占用 GCU 的进程详情。 按 Ctrl+C 退出。 |
| 系统信息 | efsmi -q | 查询详细的设备与驱动版本信息。 |
| 拓扑结构 | efsmi -ptopo | 显示 PCIe 拓扑连接关系。 |
如果您需要查询上述指令的子命令,请访问官网文档《efsmi工具简介》
7. 官方资源导航
获取最新的驱动、SDK 下载及详细技术白皮书,请访问:
- 燧原技术文档中心: https://support.enflame-tech.com/
- 燧原软件栈白皮书: 点击跳转