燧原 S60
1. 产品概述:燧原 S60
燧原 S60 (CloudBlazer S60) 是燧原科技(Enflame)于 2021年 发布的推理型通用人工智能加速卡。该产品基于燧原自主研发的第二代 “邃思® 2.0” (SuiSi 2.0) 架构,专为云端推理和边缘计算场景设计。是面向数据中心大规模部署的新一代人工智能推理加速卡,满足大语言模型、搜广推及传统模型的需求,具有模型覆盖面广、易用性强、易迁移易部署等特点,可广泛应用于图像及文本生成等应用、搜索与推荐、文本、图像及语音识别等主流推理场景。
核心特性与架构
- GCU 架构:S60 采用通用计算单元(GCU - General Compute Unit)架构,拥有完全自主的指令集和数据 流设计。
- 推理优化:专为复杂的推理业务优化,支持动态电压频率调整(DVFS),在保持高性能的同时实现了优异的能效比。
- 大显存支持:配备大容量高带宽显存,能够有效支持自然语言处理(NLP)、计算机视觉(CV)以及各类大模型的推理任务。
2. 算力规格与精度支持
为了保障您的推理体验,请务必了解 GCU 对不同计算精度的支持情况,特别是关于 FP8 的限制。
重要限制:不支持 FP8
- 不支持精度:FP8。
- 影响:当前 S60 硬件架构及软件栈无法直接运行 FP8 量化的模型。如果强行加载 Hugging Face 上最新的 FP8 版本模型,将会报错。
支持的计算精度
燧原 S60 在以下精度下能提供最佳的性能表现:
| 精度类型 | 适用场景 |
|---|---|
| FP16 | 高性能推理首选,精 度与速度的最佳平衡 |
| BF16 | 大模型推理主流格式,无需转换即可运行 |
| INT8 | 极致性能量化推理 |
| FP32 | 基础精度,用于验证或对精度要求极高的场景 |
3. 核心软件生态:TopsRider 与代码迁移
TopsRider 是燧原科技推出的全栈 AI 软件平台。与 CUDA 架构不同,GCU 拥有独立的底层逻辑。
您可以在终端输入 topsinfo 命令,查看当前实例详细的版本信息(含 Driver, Firmware, SDK 及核心组件版本)。
关键差异:不兼容原生 CUDA
燧原 GCU 不直接兼容 CUDA 代码。这意味着:
- 代码中的
.cuda()调用必须修改为针对 GCU 的调用。 - 必须依赖燧原提供的适配层进行转换。
方案:CUDA 代码一键迁移
为了降低迁移门槛,燧原提供了 torch_gcu 库,支持通过简单的代码注入实现“一键迁移”。
迁移步骤: 在您的 PyTorch 推理代码最前端(Import 部分),加入以下代码:
import torch
try:
# 引入 torch_gcu 库
import torch_gcu
# 启用 CUDA 代码一键迁移功能
from torch_gcu import transfer_to_gcu
print(" Successfully imported torch_gcu and enabled transfer.")
except ImportError as e:
print(f" GCU environment not found: {e}")
# 检查设备状态(迁移后,is_available() 将返回 True,但底层指向 GCU)
print(f"Device available status: {torch.cuda.is_available()}")
# 此后的 CUDA 代码将自动映射到 GCU 上运行
a_tensor = torch.ones(3, 3).cuda()
b_tensor = torch.ones(size=(3, 1), device="cuda")
add_out = torch.add(a_tensor, b_tensor)
print(add_out)
提示:使用 transfer_to_gcu 后,您原有的代码 中写着 .cuda() 的地方无需手动修改为 .gcu(),适配层会自动处理设备映射。
如遇到复杂的自定义算子或转换失败,请查阅官方文档:《Pytorch 转换说明》
4. AI 开发库:版本管理与避坑指南
为了在 S60 上运行 PyTorch、vLLM 等框架,必须使用燧原官方适配版。
严禁随意更新核心库
请极度小心使用 pip install --upgrade 命令。
- 风险:社区公版(如官方 PyTorch)不包含 GCU 后端支持。一旦覆盖,程序将无法识别 GCU 设备。
识别适配版本
燧原适配的 Python 库版本号通常包含 +gcu、+torch...gcu 等特殊后缀。检查当前环境命令:
pip list | grep -e gcu
正常输出示例:
flash-attn 2.6.3+torch.2.6.0.gcu... # 注意力加速库
onnxruntime-gcu 1.9.1+3.1.0 # ONNX 推理后端
torch-gcu 2.6.0+3.5.0.3 # 核心框架(关键)
triton-gcu 0.9.20250624.1
vllm_gcu 0.8.0+3.4.20250704 # 大模型推理框架
xformers 0.0.29.post2+torch...gcu # Transformer 加速
xinference 1.7.0.post1+gcu...
最佳实践:
- 使用官方镜像:推荐直接使用平台提供的预装镜像,已包含上述所有适配库。
- 安装前检查:在安装新库前,先用
pip list确认是否已有+gcu版本。 - 环境隔离:建议使用 Conda 或 venv 虚拟环境隔离不同项目的依赖。
5. 模型部署建议与排查
模型支持列表
根据燧原科技(Enflame)提供的官方适配数据,S60 架构已完成对下列主流模型的适配与验证。
- 通用部署:对于标准 Hugging Face 模型,在使用
transfer_to_gcu后,大部分代码可直接运行。 - 多机部署:标记为“多机”的模型参数巨大,单 机 8 卡显存不足以承载,需申请多机集群进行分布式部署。
- AWQ INT4:标记为“AWQ INT4”的模型需加载 INT4 量化版本以适配显存或提升推理性能。
通用语言模型 (LLM) & 多模态理解
涵盖了 DeepSeek、Qwen、GLM 等主流大语言模型。
| 模型系列 | 模型名称 | 部署要求/备注 |
|---|---|---|
| DeepSeek | DeepSeek-V3 / V3.2-Exp | 多机部署, AWQ INT4 |
| DeepSeek-V3.1-Terminus | 多机部署, AWQ INT4 | |
| DeepSeek-R1 | AWQ INT4 | |
| DeepSeek-R1-Distill-Qwen (32B/14B/7B/1.5B) | 32B/14B/7B 已支持 | |
| deepseek-coder-33B-instruct | - | |
| DeepSeek-Prover-V2-7B | - | |
| Qwen (通义) | Qwen3 (8B/14B/32B/4B/0.6B) | 全系支持 |
| Qwen3-235B-A22B / Instruct | AWQ INT4 | |
| Qwen3-Next-80B-A3B-Thinking | - | |
| Qwen3-Next-80B-A3B-Instruct | - | |
| Qwen3-30B-A3B / Instruct | - | |
| Qwen2.5 (72B/32B/14B/7B) | Instruct 版本支持 | |
| Qwen2.5-Coder (32B/14B) | Instruct 版本支持 | |
| Qwen2-VL (72B/32B/7B) | 多模态视觉理解 | |
| Qwen2 (72B/57B/7B) | Instruct 版本支持 | |
| QwQ-32B | - | |
| GLM (智谱) | GLM-4 (9b-chat/9B/4_5/4_6) | 4_5/4_6 需 AWQ INT4, 部分多机 |
| GLM-4-Air / GLM-4-32B | - | |
| 其他模型 | Lingshu-32B (零一万物) | - |
| Yi-Lightning (零一万物) | - | |
| Kimi-k2-instruct | 多机部署, 性能未知 | |
| MiniMax-M2 | - | |
| Hunyuan-MT-Chimera-7B | 腾讯混元翻译模型 | |
| internlm3-8b-instruct | 书生·浦语 | |
| gemma-2-27b-it / medgemma-4b-it | Google Gemma | |
| codegeex4-all-9b | 代码生成 |
语义检索与向量模型 (Embedding / Reranker)
| 模型名称 | 类型 | 备注 |
|---|---|---|
| bge-m3 / bge-large-zh-v1.5 | Embedding | 智源 BGE 系列 |
| bge-reranker-v2-m3 / base_v1 | Reranker | 重排序模型 |
| Qwen3-Embedding (8B/4B/0.6B) | Embedding | - |
| Qwen3-Reranker (8B/4B/0.6B) | Reranker | - |
| jina-embeddings-v4 | Embedding | - |
| Security-semantic-filtering | Safety | 内容安全过滤 |
图像与视觉生成 (AIGC)
支持主流的文生图模型,包括最新的 FLUX 系列及经典的 Stable Diffusion。
| 模型系列 | 模型名称 | 备注 |
|---|---|---|
| FLUX | FLUX.1-dev / schnell | 燧原重点优化 |
| FLUX.1-Kontext-dev | - | |
| FLUX.1-Krea-dev | - | |
| Qwen Image | Qwen-Image / Qwen-Image-Edit | 图生图/编辑支持 |
| Stable Diffusion | stable-diffusion-3-medium | SD3 |
| stable-diffusion-3.5-large-turbo | SD3.5 Turbo | |
| stable-diffusion-xl-base-1.0 | SDXL | |
| 其他 | Kolors (可图) | 性能未深度优化 |
光学字符识别 (OCR) & 文档解析
| 模型名称 | 功能描述 |
|---|---|
| DeepSeek-OCR | 高精度 OCR 识别 |
| PaddleOCR-VL | 飞桨多模态 OCR |
| MinerU2.5 | PDF 文档解析与提取 |
视频与动画生成
| 模型名称 | 功能描述 |
|---|---|
| Wan2.1-T2V-14B | 万象 (Wan) 2.1 文生视频模型 |
附:语音与音频模型 (Audio / TTS / ASR)
| 模型名称 | 功能描述 |
|---|---|
| CosyVoice2 | 阿里高质量语音合成 (TTS) |
| SenseVoiceSmall | 阿里语音识别 (ASR) |
| whisper-large-v3-turbo | OpenAI 开源语音识别加速版 |
| whisper-base | 基础语音识别 |
常见问题排查
- 报错
Device not found:检查是否成功 import 了torch_gcu?是否不小心更新了torch覆盖了官方版? - 性能异常低:检查是否使用了 FP32 进行推理?尝试切换到 FP16/BF16。
- OOM(显存溢出):GCU 的显存管理与 GPU 略有不同,尝试降低 Batch Size。
6. 监控工具:efsmi 使用简明手册
efsmi 是燧原 GCU 的命令行管理工具,功能对标 nvidia-smi,用于监控设备状态、功耗及拓扑。
常用命令速查
| 功能 | 命令 | 说明 |
|---|---|---|
| 查看概览 | efsmi | 最常用。显示所有 GCU 的显存、功耗、温度、利用率及进程。 |
| 实时监控 | efsmi -dmon | 类似 Linux top 命令,实时刷新设备数据。按 Ctrl+C 退出。 |
| 进程监控 | efsmi -pmon | 实时监控占用 GCU 的进程详情。 按 Ctrl+C 退出。 |
| 系统信息 | efsmi -q | 查询详细的设备与驱动版本信息。 |
| 拓扑结构 | efsmi -ptopo | 显示 PCIe 拓扑连接关系。 |
如果您需要查询上述指令的子命令,请访问官网文档《efsmi工具简介》
7. 平台与官方资源导航
国产芯片权威 AI 技能认证
国产芯片 AI 技能证书:联合国内顶尖算力厂商,打造实战型 AI 技能认证体系。从算力到底层框架,助你成为国产 AI 生态的先行者。
- 官方权威认证:由模力方舟联合行业国产芯片大厂联合签发的权威证书,加盖模力方舟和芯片厂商的公章,支持线上核验,一举成为国产算力与信创生态的官方认可人才
- 学习即实战:开箱即用的实验环境,直接调用国产 GPU 云端算力,全链路课程覆盖“适配-训练-推理-部署”,获得国产 GPU 实操能力。
- 面试优先推荐:认证人才进入国产 GPU 与信创企业人才储备库,在求职、合作、项目申报中优先推荐,抢占国产 AI 与算力产业的人才红利。
- 生态特权:加入开发者社群,享受专家一对一指导,优先获得国产 GPU 算力市场免费测试时长,在信创生态中享有优先曝光与合作机会。
模力方舟实战教程
基于 燧原 S60 算力环境,平台提供了深度适配的“开箱即用”部署指南:
- 模型部署实战
- 进阶工作流
- RAG 知识库系列实操
- Naive RAG 知识库实操: 快速打通“加载-检索-生成”的基础闭环,构建本地私有化 RAG 系统的入门首选。
- Advanced RAG 知识库实操: 引入多路检索、精排与层级索引策略,深度解决知识割裂与召回偏差,打造高准确率的生产级助手。
- Modular RAG 知识库实操: 融合 GraphRAG 与 智能意图路由,构建“向量+图谱”的双流混合检索体系。通过生产级持久化与摘要级逻辑抽取,突破传统检索界限,实现跨文档的复杂推理与全景知识聚合。
- Agentic RAG 知识库实操: 引入自主决策循环与纠错机制,通过置信度门控与动态语义重写攻克垂直领域语义断层。深度适配双卡部署,构建具备深度反思能力与严谨证据链溯源的高标准智能助理。
- RAG 知识库系列实操
燧原官方技术资料
如需获取最底层的驱动更新、SDK 开发手册及硬件参数细节,请参考厂商官方文档: