跳到主要内容

燧原S60

燧原S60使用指南与重要事项

本平台采用了国产的燧原Enflame S60 GCU 加速卡为您提供可广泛应用于各类型人工智能边缘推理和云端推理业务场景的服务。为了保障您的最佳的推理体验,请您在使用前仔细阅读一下指南。

模型精度支持:请注意 FP8 限制

  • 不支持的计算精度FP8
  • 支持的计算精度
    • FP16
    • BF16
    • INT8
信息

建议:在部署模型前,请确认模型的量化类型。对于需要高性能推理的场景,我们推荐您使用 FP16BF16 格式的模型,因为它们在燧原S60上具有最佳的性能表现和精度平衡。

核心软件生态:TopsRider(不兼容CUDA)

TopsRider是燧原科技推出的全栈AI软件平台,为GCU芯片提供完整的开发、训练和推理环境,覆盖从模型迁移到部署的全流程。

CUDA代码一键迁移

此功能依赖cuda版本的PyTorch,需要您亲自安装。

提示

切记燧原无法使用cuda,在使用pytorch前需要将cuda替换成gcu或者执行迁移工作

为了方便您的代码从CUDA迁移至GCU平台,torch_gcu支持一键迁移功能,仅需要在您的代码调用之前调用 from torch_gcu import transfer_to_gcu

使用示例

import torch
try:
import torch_gcu # 引入torch_gcu库
from torch_gcu import transfer_to_gcu # CUDA代码一键迁移
except Exception as e:
print(e)

print(f"torch.cuda.is_available(): {torch.cuda.is_available()}")

a_tensor = torch.ones(3, 3).cuda()
b_tensor = torch.ones(size=(3, 1), device="cuda")

add_out = torch.add(a_tensor, b_tensor)
print(add_out)

如果遇到转换问题请访问官网查询Pytorch转换说明

  • 主要组件包括
    • TopsInference:燧原自研推理框架,支持C++和Python API
    • TopsGraph:图编译器,支持AI框架算子和计算图的解析/转化和优化
    • TopsAten:张量计算库,专为燧原设备开发
    • Horovod_gcu:企业级分布式训练框架,支持TensorFlow和PyTorch

AI开发库:注意版本适配与覆盖风险

为了在燧原S60上实现最佳性能,许多主流的AI开发库(如PyTorch、vllm)都经过了官方的专门适配和优化。

  • 预装优化库镜像:目前燧原可选的唯一镜像中已为您预装了这些经过燧原官方适配的AI开发库,例如pytorch、vllm等AI开发工具包

燧原镜像

  • 检查适配库:您可以通过以下命令,查看当前环境中哪些库是专门为燧原S60优化的版本。这些库的版本号通常会包含+gcu等后缀特殊的标识。
pip list | grep  -e gcu
flash-attn                        2.6.3+torch.2.6.0.gcu.3.4.20250616
onnxruntime-gcu 1.9.1+3.1.0
torch-gcu 2.6.0+3.5.0.3
triton-gcu 0.9.20250624.1
vllm_gcu 0.8.0+3.4.20250704
xformers 0.0.29.post2+torch.2.6.0.gcu.3.2.20250605
xinference 1.7.0.post1+gcu20250807.0.g70546266.dirty /opt/inference
#...以及其他适配库
  • 操作警告:防止覆盖! 在自行安装或更新Python包时,请极度小心。执行标准的pip install <package>pip install --upgrade <package>命令,会造成社区的版本覆盖掉燧原的特定版本,从而导致程序运行失败或性能大幅下降。
  • 最佳实践
  1. 在安装新库前,先用pip list检查是否已存在燧原优化版本
  2. 如需安装或更新,优先访问燧原官方软件中心查找正确的版本和安装方式。
  3. 使用虚拟环境隔离不同项目的依赖

模型部署与问题排查

在部署模型或开发应用时,如果遇到环境问题,可以参考以下建议:

  • 通用模型部署:对于大多数主流模型,直接使用Hugging Face或ModelScope社区提供的标准示例代码即可成功拉取和部署。

  • 部署失败怎么办?

    • 检查模型兼容性:确认模型未使用FP8等暂不支持的特性,
    • 精度调整:尝试不同的精度格式(FP32/FP16/BF16/INT8)
    • 版本回退:如果怀疑是版本问题,使用pip list检查关键库版本,必要时回退到稳定版本组合
    • 使用燧原官方镜像:如果您发现缺少特定的AI开发库,或在部署复杂大模型时遇到困难,推荐使用燧原官方发布的容器镜像。这些镜像通常拥有最高的适配度和最全的优化库
    • 等待官方适配:对于最新发布的模型,可能需要等待燧原官方进行适配。请关注官方的驱动和AI开发库更新

燧原smi工具使用简介

欢迎使用燧原S60 AI计算资源。为了帮助您更好地管理和监控租用的GCU实例,我们提供了这篇efsmi工具的简明使用文档。efsmi是用于管理燧原GCU的命令行工具。

  • 快速概览GCU状态:您可以直接在终端中运行efsmi命令,以获取当前所有GCU资源的核心信息摘要。这是最常用、最重要的命令。 执行后,系统会返回一个列表,展示每张卡的功耗、显存使用情况、温度、版本信息、GCU利用率以及当前在卡上运行的进程等。

  • 常用查询命令: 您可以组合使用不同的查询选项来获取更具体的信息。

    • 查看全部支持命令:efsmi -h / --help
    • 查询设备/系统信息:efsmi -q / --query
    • 列出系统中所有支持的 GCU 与 DRS 实例:efsmi -L / --list

官方资源

获取最新的驱动、开发库、教程和文档,请访问官方//《燧原软件栈白皮书》//。