燧原 S60

1. 产品概述：燧原 S60

燧原 S60 (CloudBlazer S60) 是燧原科技（Enflame）于 2021年 发布的推理型通用人工智能加速卡。该产品基于燧原自主研发的第二代 “邃思® 2.0” (SuiSi 2.0) 架构，专为云端推理和边缘计算场景设计。是面向数据中心大规模部署的新一代人工智能推理加速卡，满足大语言模型、搜广推及传统模型的需求，具有模型覆盖面广、易用性强、易迁移易部署等特点，可广泛应用于图像及文本生成等应用、搜索与推荐、文本、图像及语音识别等主流推理场景。

核心特性与架构

GCU 架构：S60 采用通用计算单元（GCU - General Compute Unit）架构，拥有完全自主的指令集和数据流设计。
推理优化：专为复杂的推理业务优化，支持动态电压频率调整（DVFS），在保持高性能的同时实现了优异的能效比。
大显存支持：配备大容量高带宽显存，能够有效支持自然语言处理（NLP）、计算机视觉（CV）以及各类大模型的推理任务。

2. 算力规格与精度支持

为了保障您的推理体验，请务必了解 GCU 对不同计算精度的支持情况，特别是关于 FP8 的限制。

重要限制：不支持 FP8

不支持精度：FP8。
影响：当前 S60 硬件架构及软件栈无法直接运行 FP8 量化的模型。如果强行加载 Hugging Face 上最新的 FP8 版本模型，将会报错。

支持的计算精度

燧原 S60 在以下精度下能提供最佳的性能表现：

精度类型	适用场景
FP16	高性能推理首选，精度与速度的最佳平衡
BF16	大模型推理主流格式，无需转换即可运行
INT8	极致性能量化推理
FP32	基础精度，用于验证或对精度要求极高的场景

3. 核心软件生态：TopsRider 与代码迁移

TopsRider 是燧原科技推出的全栈 AI 软件平台。与 CUDA 架构不同，GCU 拥有独立的底层逻辑。

快速查询版本

您可以在终端输入 topsinfo 命令，查看当前实例详细的版本信息（含 Driver, Firmware, SDK 及核心组件版本）。

关键差异：不兼容原生 CUDA

燧原 GCU 不直接兼容 CUDA 代码。这意味着：

代码中的 .cuda() 调用必须修改为针对 GCU 的调用。
必须依赖燧原提供的适配层进行转换。

方案：CUDA 代码一键迁移

为了降低迁移门槛，燧原提供了 torch_gcu 库，支持通过简单的代码注入实现“一键迁移”。

迁移步骤： 在您的 PyTorch 推理代码最前端（Import 部分），加入以下代码：

import torch
try:
    # 引入 torch_gcu 库
    import torch_gcu
    # 启用 CUDA 代码一键迁移功能
    from torch_gcu import transfer_to_gcu
    print(" Successfully imported torch_gcu and enabled transfer.")
except ImportError as e:
    print(f" GCU environment not found: {e}")

# 检查设备状态（迁移后，is_available() 将返回 True，但底层指向 GCU）
print(f"Device available status: {torch.cuda.is_available()}")

# 此后的 CUDA 代码将自动映射到 GCU 上运行
a_tensor = torch.ones(3, 3).cuda()
b_tensor = torch.ones(size=(3, 1), device="cuda")
add_out = torch.add(a_tensor, b_tensor)
print(add_out)

提示

提示：使用 transfer_to_gcu 后，您原有的代码中写着 .cuda() 的地方无需手动修改为 .gcu()，适配层会自动处理设备映射。

如遇到复杂的自定义算子或转换失败，请查阅官方文档：《Pytorch 转换说明》

4. AI 开发库：版本管理与避坑指南

为了在 S60 上运行 PyTorch、vLLM 等框架，必须使用燧原官方适配版。

严禁随意更新核心库

请极度小心使用 pip install --upgrade 命令。

风险：社区公版（如官方 PyTorch）不包含 GCU 后端支持。一旦覆盖，程序将无法识别 GCU 设备。

识别适配版本

燧原适配的 Python 库版本号通常包含 +gcu、+torch...gcu 等特殊后缀。检查当前环境命令：

pip list | grep -e gcu

正常输出示例：

flash-attn                        2.6.3+torch.2.6.0.gcu...  # 注意力加速库
onnxruntime-gcu                   1.9.1+3.1.0               # ONNX 推理后端
torch-gcu                         2.6.0+3.5.0.3             # 核心框架（关键）
triton-gcu                        0.9.20250624.1
vllm_gcu                          0.8.0+3.4.20250704        # 大模型推理框架
xformers                          0.0.29.post2+torch...gcu  # Transformer 加速
xinference                        1.7.0.post1+gcu...

最佳实践：

使用官方镜像：推荐直接使用平台提供的预装镜像，已包含上述所有适配库。
安装前检查：在安装新库前，先用 pip list 确认是否已有 +gcu 版本。
环境隔离：建议使用 Conda 或 venv 虚拟环境隔离不同项目的依赖。

5. 模型部署建议与排查

模型支持列表

根据燧原科技（Enflame）提供的官方适配数据，S60 架构已完成对下列主流模型的适配与验证。

部署提示

通用部署：对于标准 Hugging Face 模型，在使用 transfer_to_gcu 后，大部分代码可直接运行。
多机部署：标记为“多机”的模型参数巨大，单机 8 卡显存不足以承载，需申请多机集群进行分布式部署。
AWQ INT4：标记为“AWQ INT4”的模型需加载 INT4 量化版本以适配显存或提升推理性能。

通用语言模型 (LLM) & 多模态理解

涵盖了 DeepSeek、Qwen、GLM 等主流大语言模型。

模型系列	模型名称	部署要求/备注
DeepSeek	DeepSeek-V3 / V3.2-Exp	多机部署, AWQ INT4
	DeepSeek-V3.1-Terminus	多机部署, AWQ INT4
	DeepSeek-R1	AWQ INT4
	DeepSeek-R1-Distill-Qwen (32B/14B/7B/1.5B)	32B/14B/7B 已支持
	deepseek-coder-33B-instruct	-
	DeepSeek-Prover-V2-7B	-
Qwen (通义)	Qwen3 (8B/14B/32B/4B/0.6B)	全系支持
	Qwen3-235B-A22B / Instruct	AWQ INT4
	Qwen3-Next-80B-A3B-Thinking	-
	Qwen3-Next-80B-A3B-Instruct	-
	Qwen3-30B-A3B / Instruct	-
	Qwen2.5 (72B/32B/14B/7B)	Instruct 版本支持
	Qwen2.5-Coder (32B/14B)	Instruct 版本支持
	Qwen2-VL (72B/32B/7B)	多模态视觉理解
	Qwen2 (72B/57B/7B)	Instruct 版本支持
	QwQ-32B	-
GLM (智谱)	GLM-4 (9b-chat/9B/4_5/4_6)	4_5/4_6 需 AWQ INT4, 部分多机
	GLM-4-Air / GLM-4-32B	-
其他模型	Lingshu-32B (零一万物)	-
	Yi-Lightning (零一万物)	-
	Kimi-k2-instruct	多机部署, 性能未知
	MiniMax-M2	-
	Hunyuan-MT-Chimera-7B	腾讯混元翻译模型
	internlm3-8b-instruct	书生·浦语
	gemma-2-27b-it / medgemma-4b-it	Google Gemma
	codegeex4-all-9b	代码生成

语义检索与向量模型 (Embedding / Reranker)

模型名称	类型	备注
bge-m3 / bge-large-zh-v1.5	Embedding	智源 BGE 系列
bge-reranker-v2-m3 / base_v1	Reranker	重排序模型
Qwen3-Embedding (8B/4B/0.6B)	Embedding	-
Qwen3-Reranker (8B/4B/0.6B)	Reranker	-
jina-embeddings-v4	Embedding	-
Security-semantic-filtering	Safety	内容安全过滤

图像与视觉生成 (AIGC)

支持主流的文生图模型，包括最新的 FLUX 系列及经典的 Stable Diffusion。

模型系列	模型名称	备注
FLUX	FLUX.1-dev / schnell	燧原重点优化
	FLUX.1-Kontext-dev	-
	FLUX.1-Krea-dev	-
Qwen Image	Qwen-Image / Qwen-Image-Edit	图生图/编辑支持
Stable Diffusion	stable-diffusion-3-medium	SD3
	stable-diffusion-3.5-large-turbo	SD3.5 Turbo
	stable-diffusion-xl-base-1.0	SDXL
其他	Kolors (可图)	性能未深度优化

光学字符识别 (OCR) & 文档解析

模型名称	功能描述
DeepSeek-OCR	高精度 OCR 识别
PaddleOCR-VL	飞桨多模态 OCR
MinerU2.5	PDF 文档解析与提取

视频与动画生成

模型名称	功能描述
Wan2.1-T2V-14B	万象 (Wan) 2.1 文生视频模型

附：语音与音频模型 (Audio / TTS / ASR)

模型名称	功能描述
CosyVoice2	阿里高质量语音合成 (TTS)
SenseVoiceSmall	阿里语音识别 (ASR)
whisper-large-v3-turbo	OpenAI 开源语音识别加速版
whisper-base	基础语音识别

常见问题排查

报错 Device not found：检查是否成功 import 了 torch_gcu？是否不小心更新了 torch 覆盖了官方版？
性能异常低：检查是否使用了 FP32 进行推理？尝试切换到 FP16/BF16。
OOM（显存溢出）：GCU 的显存管理与 GPU 略有不同，尝试降低 Batch Size。

6. 监控工具：efsmi 使用简明手册

efsmi 是燧原 GCU 的命令行管理工具，功能对标 nvidia-smi，用于监控设备状态、功耗及拓扑。

常用命令速查

功能	命令	说明
查看概览	`efsmi`	最常用。显示所有 GCU 的显存、功耗、温度、利用率及进程。
实时监控	`efsmi -dmon`	类似 Linux `top` 命令，实时刷新设备数据。按 `Ctrl+C` 退出。
进程监控	`efsmi -pmon`	实时监控占用 GCU 的进程详情。按 `Ctrl+C` 退出。
系统信息	`efsmi -q`	查询详细的设备与驱动版本信息。
拓扑结构	`efsmi -ptopo`	显示 PCIe 拓扑连接关系。

如果您需要查询上述指令的子命令，请访问官网文档《efsmi工具简介》

7. 平台与官方资源导航

国产芯片权威 AI 技能认证

国产芯片 AI 技能证书：联合国内顶尖算力厂商，打造实战型 AI 技能认证体系。从算力到底层框架，助你成为国产 AI 生态的先行者。

官方权威认证：由模力方舟联合行业国产芯片大厂联合签发的权威证书，加盖模力方舟和芯片厂商的公章，支持线上核验，一举成为国产算力与信创生态的官方认可人才
学习即实战：开箱即用的实验环境，直接调用国产 GPU 云端算力，全链路课程覆盖“适配-训练-推理-部署”，获得国产 GPU 实操能力。
面试优先推荐：认证人才进入国产 GPU 与信创企业人才储备库，在求职、合作、项目申报中优先推荐，抢占国产 AI 与算力产业的人才红利。
生态特权：加入开发者社群，享受专家一对一指导，优先获得国产 GPU 算力市场免费测试时长，在信创生态中享有优先曝光与合作机会。

模力方舟实战教程

基于 燧原 S60 算力环境，平台提供了深度适配的“开箱即用”部署指南：

模型部署实战
- 部署文本模型: 涵盖使用 Transformers、vLLM 等框架部署 Qwen 等主流大语言模型。
- 部署生图模型: 基于 Diffusers 框架部署 FLUX.1、Longcat 等前沿视觉生成模型。
进阶工作流
- RAG 知识库系列实操
  - Naive RAG 知识库实操: 快速打通“加载-检索-生成”的基础闭环，构建本地私有化 RAG 系统的入门首选。
  - Advanced RAG 知识库实操: 引入多路检索、精排与层级索引策略，深度解决知识割裂与召回偏差，打造高准确率的生产级助手。
  - Modular RAG 知识库实操: 融合 GraphRAG 与智能意图路由，构建“向量+图谱”的双流混合检索体系。通过生产级持久化与摘要级逻辑抽取，突破传统检索界限，实现跨文档的复杂推理与全景知识聚合。
  - Agentic RAG 知识库实操: 引入自主决策循环与纠错机制，通过置信度门控与动态语义重写攻克垂直领域语义断层。深度适配双卡部署，构建具备深度反思能力与严谨证据链溯源的高标准智能助理。

燧原官方技术资料

如需获取最底层的驱动更新、SDK 开发手册及硬件参数细节，请参考厂商官方文档：

文档支持: 燧原文档中心
- 提供开发者所需的驱动下载、故障排查、全栈开发及硬件指南。
技术白皮书: 燧原软件栈白皮书
- 深入了解 TopsRider 软件栈架构与编程模型。

1. 产品概述：燧原 S60​

核心特性与架构​

2. 算力规格与精度支持​

重要限制：不支持 FP8​

支持的计算精度​

3. 核心软件生态：TopsRider 与代码迁移​

关键差异：不兼容原生 CUDA​

方案：CUDA 代码一键迁移​

4. AI 开发库：版本管理与避坑指南​

严禁随意更新核心库​

识别适配版本​

5. 模型部署建议与排查​

模型支持列表​

通用语言模型 (LLM) & 多模态理解​

语义检索与向量模型 (Embedding / Reranker)​

图像与视觉生成 (AIGC)​

光学字符识别 (OCR) & 文档解析​

视频与动画生成​

附：语音与音频模型 (Audio / TTS / ASR)​

常见问题排查​

6. 监控工具：efsmi 使用简明手册​

常用命令速查​

7. 平台与官方资源导航​

国产芯片权威 AI 技能认证​

模力方舟实战教程​

燧原官方技术资料​