跳到主要内容

燧原 S60

1. 产品概述:燧原 S60

燧原 S60 (CloudBlazer S60) 是燧原科技(Enflame)于 2021年 发布的推理型通用人工智能加速卡。该产品基于燧原自主研发的第二代 “邃思® 2.0” (SuiSi 2.0) 架构,专为云端推理和边缘计算场景设计。是面向数据中心大规模部署的新一代人工智能推理加速卡,满足大语言模型、搜广推及传统模型的需求,具有模型覆盖面广、易用性强、易迁移易部署等特点,可广泛应用于图像及文本生成等应用、搜索与推荐、文本、图像及语音识别等主流推理场景。

核心特性与架构

  • GCU 架构:S60 采用通用计算单元(GCU - General Compute Unit)架构,拥有完全自主的指令集和数据流设计。
  • 推理优化:专为复杂的推理业务优化,支持动态电压频率调整(DVFS),在保持高性能的同时实现了优异的能效比。
  • 大显存支持:配备大容量高带宽显存,能够有效支持自然语言处理(NLP)、计算机视觉(CV)以及各类大模型的推理任务。

2. 算力规格与精度支持

为了保障您的推理体验,请务必了解 GCU 对不同计算精度的支持情况,特别是关于 FP8 的限制。

重要限制:不支持 FP8

  • 不支持精度FP8
  • 影响:当前 S60 硬件架构及软件栈无法直接运行 FP8 量化的模型。如果强行加载 Hugging Face 上最新的 FP8 版本模型,将会报错。

支持的计算精度

燧原 S60 在以下精度下能提供最佳的性能表现:

精度类型适用场景
FP16高性能推理首选,精度与速度的最佳平衡
BF16大模型推理主流格式,无需转换即可运行
INT8极致性能量化推理
FP32基础精度,用于验证或对精度要求极高的场景

3. 核心软件生态:TopsRider 与代码迁移

TopsRider 是燧原科技推出的全栈 AI 软件平台。与 CUDA 架构不同,GCU 拥有独立的底层逻辑。

快速查询版本

您可以在终端输入 topsinfo 命令,查看当前实例详细的版本信息(含 Driver, Firmware, SDK 及核心组件版本)。

关键差异:不兼容原生 CUDA

燧原 GCU 不直接兼容 CUDA 代码。这意味着:

  1. 代码中的 .cuda() 调用必须修改为针对 GCU 的调用。
  2. 必须依赖燧原提供的适配层进行转换。

方案:CUDA 代码一键迁移

为了降低迁移门槛,燧原提供了 torch_gcu 库,支持通过简单的代码注入实现“一键迁移”。

迁移步骤: 在您的 PyTorch 推理代码最前端(Import 部分),加入以下代码:

import torch
try:
# 引入 torch_gcu 库
import torch_gcu
# 启用 CUDA 代码一键迁移功能
from torch_gcu import transfer_to_gcu
print("✅ Successfully imported torch_gcu and enabled transfer.")
except ImportError as e:
print(f"❌ GCU environment not found: {e}")

# 检查设备状态(迁移后,is_available() 将返回 True,但底层指向 GCU)
print(f"Device available status: {torch.cuda.is_available()}")

# 此后的 CUDA 代码将自动映射到 GCU 上运行
a_tensor = torch.ones(3, 3).cuda()
b_tensor = torch.ones(size=(3, 1), device="cuda")
add_out = torch.add(a_tensor, b_tensor)
print(add_out)
提示

提示:使用 transfer_to_gcu 后,您原有的代码中写着 .cuda() 的地方无需手动修改为 .gcu(),适配层会自动处理设备映射。

如遇到复杂的自定义算子或转换失败,请查阅官方文档:《Pytorch 转换说明》


4. AI 开发库:版本管理与避坑指南

为了在 S60 上运行 PyTorch、vLLM 等框架,必须使用燧原官方适配版

严禁随意更新核心库

极度小心使用 pip install --upgrade 命令。

  • 风险:社区公版(如官方 PyTorch)不包含 GCU 后端支持。一旦覆盖,程序将无法识别 GCU 设备。

识别适配版本

燧原适配的 Python 库版本号通常包含 +gcu+torch...gcu 等特殊后缀。检查当前环境命令:

pip list | grep -e gcu

正常输出示例:

flash-attn                        2.6.3+torch.2.6.0.gcu...  # 注意力加速库
onnxruntime-gcu 1.9.1+3.1.0 # ONNX 推理后端
torch-gcu 2.6.0+3.5.0.3 # 核心框架(关键)
triton-gcu 0.9.20250624.1
vllm_gcu 0.8.0+3.4.20250704 # 大模型推理框架
xformers 0.0.29.post2+torch...gcu # Transformer 加速
xinference 1.7.0.post1+gcu...

最佳实践:

  1. 使用官方镜像:推荐直接使用平台提供的预装镜像,已包含上述所有适配库。
  2. 安装前检查:在安装新库前,先用 pip list 确认是否已有 +gcu 版本。
  3. 环境隔离:建议使用 Conda 或 venv 虚拟环境隔离不同项目的依赖。

5. 模型部署建议与排查

模型支持列表

根据燧原科技(Enflame)提供的官方适配数据,S60 架构已完成对下列主流模型的适配与验证。

部署提示
  • 通用部署:对于标准 Hugging Face 模型,在使用 transfer_to_gcu 后,大部分代码可直接运行。
  • 多机部署:标记为“多机”的模型参数巨大,单机 8 卡显存不足以承载,需申请多机集群进行分布式部署。
  • AWQ INT4:标记为“AWQ INT4”的模型需加载 INT4 量化版本以适配显存或提升推理性能。

通用语言模型 (LLM) & 多模态理解

涵盖了 DeepSeek、Qwen、GLM 等主流大语言模型。

模型系列模型名称部署要求/备注
DeepSeekDeepSeek-V3 / V3.2-Exp多机部署, AWQ INT4
DeepSeek-V3.1-Terminus多机部署, AWQ INT4
DeepSeek-R1AWQ INT4
DeepSeek-R1-Distill-Qwen (32B/14B/7B/1.5B)32B/14B/7B 已支持
deepseek-coder-33B-instruct-
DeepSeek-Prover-V2-7B-
Qwen (通义)Qwen3 (8B/14B/32B/4B/0.6B)全系支持
Qwen3-235B-A22B / InstructAWQ INT4
Qwen3-Next-80B-A3B-Thinking-
Qwen3-Next-80B-A3B-Instruct-
Qwen3-30B-A3B / Instruct-
Qwen2.5 (72B/32B/14B/7B)Instruct 版本支持
Qwen2.5-Coder (32B/14B)Instruct 版本支持
Qwen2-VL (72B/32B/7B)多模态视觉理解
Qwen2 (72B/57B/7B)Instruct 版本支持
QwQ-32B-
GLM (智谱)GLM-4 (9b-chat/9B/4_5/4_6)4_5/4_6 需 AWQ INT4, 部分多机
GLM-4-Air / GLM-4-32B-
其他模型Lingshu-32B (零一万物)-
Yi-Lightning (零一万物)-
Kimi-k2-instruct多机部署, 性能未知
MiniMax-M2-
Hunyuan-MT-Chimera-7B腾讯混元翻译模型
internlm3-8b-instruct书生·浦语
gemma-2-27b-it / medgemma-4b-itGoogle Gemma
codegeex4-all-9b代码生成

语义检索与向量模型 (Embedding / Reranker)

模型名称类型备注
bge-m3 / bge-large-zh-v1.5Embedding智源 BGE 系列
bge-reranker-v2-m3 / base_v1Reranker重排序模型
Qwen3-Embedding (8B/4B/0.6B)Embedding-
Qwen3-Reranker (8B/4B/0.6B)Reranker-
jina-embeddings-v4Embedding-
Security-semantic-filteringSafety内容安全过滤

图像与视觉生成 (AIGC)

支持主流的文生图模型,包括最新的 FLUX 系列及经典的 Stable Diffusion。

模型系列模型名称备注
FLUXFLUX.1-dev / schnell燧原重点优化
FLUX.1-Kontext-dev-
FLUX.1-Krea-dev-
Qwen ImageQwen-Image / Qwen-Image-Edit图生图/编辑支持
Stable Diffusionstable-diffusion-3-mediumSD3
stable-diffusion-3.5-large-turboSD3.5 Turbo
stable-diffusion-xl-base-1.0SDXL
其他Kolors (可图)性能未深度优化

光学字符识别 (OCR) & 文档解析

模型名称功能描述
DeepSeek-OCR高精度 OCR 识别
PaddleOCR-VL飞桨多模态 OCR
MinerU2.5PDF 文档解析与提取

视频与动画生成

模型名称功能描述
Wan2.1-T2V-14B万象 (Wan) 2.1 文生视频模型

附:语音与音频模型 (Audio / TTS / ASR)

模型名称功能描述
CosyVoice2阿里高质量语音合成 (TTS)
SenseVoiceSmall阿里语音识别 (ASR)
whisper-large-v3-turboOpenAI 开源语音识别加速版
whisper-base基础语音识别

常见问题排查

  • 报错 Device not found:检查是否成功 import 了 torch_gcu?是否不小心更新了 torch 覆盖了官方版?
  • 性能异常低:检查是否使用了 FP32 进行推理?尝试切换到 FP16/BF16
  • OOM(显存溢出):GCU 的显存管理与 GPU 略有不同,尝试降低 Batch Size。

6. 监控工具:efsmi 使用简明手册

efsmi 是燧原 GCU 的命令行管理工具,功能对标 nvidia-smi,用于监控设备状态、功耗及拓扑。

常用命令速查

功能命令说明
查看概览efsmi最常用。显示所有 GCU 的显存、功耗、温度、利用率及进程。
实时监控efsmi -dmon类似 Linux top 命令,实时刷新设备数据。按 Ctrl+C 退出。
进程监控efsmi -pmon实时监控占用 GCU 的进程详情。 按 Ctrl+C 退出。
系统信息efsmi -q查询详细的设备与驱动版本信息。
拓扑结构efsmi -ptopo显示 PCIe 拓扑连接关系。

如果您需要查询上述指令的子命令,请访问官网文档《efsmi工具简介》


7. 官方资源导航

获取最新的驱动、SDK 下载及详细技术白皮书,请访问: