跳到主要内容

国产芯片

沐曦GPU使用指南与重要事项

本平台采用强大的国产沐曦的 曦云C500 GPU 为您提供算力支持。为了确保您获得最佳的开发与推理体验,请在使用前仔细阅读以下指南。沐曦 GPU 拥有其独立的驱动、软件生态和硬件特性,了解这些信息将帮助您规避常见问题。

模型精度支持:请注意FP8限制

沐曦 GPU 在处理不同计算精度时表现出色,但有其特定的支持范围。

  • 不支持FP8精度:当前,沐曦硬件及软件栈无法直接加载和推理使用FP8量化的模型。如果您尝试直接从 Hugging Face 等社区使用官方示例代码部署最新的FP8模型(例如 DeepSeek-V2、Qwen2-72B-Instruct-GGUF 的某些FP8版本),将会遇到失败。
  • 支持的计算精度:根据官方数据显示,沐曦 曦云®C500 OAM 加速卡支持以下主流精度,您在选择模型时应优先考虑这些格式:
    • FP32 (vector): 18 TFLOPS
    • FP32 (matrix): 36 TFLOPS
    • TF32: 140 TFLOPS
    • FP16: 280 TFLOPS
    • BF16: 280 TFLOPS
    • INT8: 560 TOPS
信息

建议:在部署模型前,请确认模型的量化类型。对于需要高性能推理的场景,我们推荐您使用 FP16BF16 格式的模型。

核心软件生态:MACA(兼容CUDA,轻松迁移)

MACA 是沐曦 GPU 的统一计算加速平台。为了最大化保护您在现有技术栈上的投资,MACA 在设计上高度兼容主流的CUDA编程模型。这意味着您基于 CUDA 开发的应用和算法,无需重写或仅需少量适配,即可平滑迁移至性能更强的沐曦 GPU 上运行,极大地降低了开发和迁移成本。

  • 平台深度集成,开箱即用:您无需担心任何驱动安装问题。平台上的所有沐曦 GPU 镜像均已预装最新、最稳定的 MACA 官方驱动,确保您随时可以开始工作。

AI开发库:注意版本适配与覆盖风险

为了在沐曦 GPU 上实现最佳性能,许多主流的AI开发库(如 PyTorch, vllm 等)都经过了官方的专门适配和优化。

  • 预装优化库:镜像中已为您预装了这些经过沐曦官方适配的AI库。

  • 检查适配库:您可以通过以下命令,查看当前环境中哪些库是专门为沐曦 GPU 优化的版本。这些库的版本号通常会包含 +metax+maca 的特殊标识。

    pip list | grep -e torch -e maca -e metax -e +
    apex                  0.1+metax...
    flash_attn 2.6.3+metax...
    ray 2.43.0+maca...
    torch 2.6.0+metax...
    torchvision 0.15.1+metax...
    triton 3.0.0+metax...
    vllm 0.8.5+maca...
    xformers 0.0.22+metax...
    # ... 以及其他适配库
  • 操作警告:防止覆盖! 在自行安装或更新 Python 包时,请极度小心。执行标准的 pip install <package>pip install --upgrade <package> 命令,会造成社区的版本覆盖掉沐曦的特定版本,从而导致程序运行失败或性能大幅下降。

  • 最佳实践

  1. 在安装新库前,先用 pip list 检查是否已存在 +metax+maca 版本。
  2. 如需安装或更新,优先访问沐曦官方软件中心查找正确的版本和安装方式。

模型部署与问题排查

在部署模型或开发应用时,如果遇到环境问题,可以参考以下建议:

  • 通用模型部署:对于大多数主流模型,直接使用 Hugging Face 或 ModelScope 社区提供的标准示例代码即可成功拉取和部署。
  • 部署失败怎么办?
    • 检查模型兼容性:确认模型未使用FP8等暂不支持的特性。
    • 使用沐曦官方镜像:如果您发现缺少特定的AI开发库,或在部署复杂大模型时遇到困难,推荐使用沐曦官方发布的容器镜像。这些镜像通常拥有最高的适配度和最全的优化库。
    • 等待官方适配:对于最新发布的模型,可能需要等待沐曦官方进行适配。请关注官方的驱动和AI开发库更新。

沐曦 mx-smi 工具使用简介

欢迎使用沐曦(MetaX)GPU 计算资源。为了帮助您更好地管理和监控租用的 GPU 实例,我们提供了这篇 mx-smi 工具的简明使用文档。mx-smi 是用于管理曦云®系列 GPU 的命令行工具,功能类似于 NVIDIA 的 nvidia-smi ,但部分指令有所不同。如需了解更多高级功能,例如性能等级设置、拓扑关系查询、固件管理等,请访问官方提供的完整版《曦云系列通用计算GPUmx-smi使用手册》

  • 快速概览GPU状态:您可以直接在终端中运行 mx-smi 命令,以获取当前所有 GPU 资源的核心信息摘要。这是最常用、最重要的命令。
    • mx-smi执行后,系统会返回一个列表,展示每张卡的功耗、显存使用情况、温度、版本信息、GPU 利用率以及当前在卡上运行的进程等。
  • 常用查询命令 您可以组合使用不同的查询选项来获取更具体的信息。
    • 查询 GPU 和 VPU 利用率:mx-smi--show-usage
    • 查询显存使用情况:mx-smi--show-memory
    • 查询温度:mx-smi--show-temperature
    • 查看当前运行的进程:mx-smi--show-process
  • 高级用法
    • 指定 GPU 卡:如果您的实例中有多张 GPU 卡,可以使用 -i 参数指定要查询的卡(ID 从 0 开始)。

      例如,查询第一张卡(ID 为 0 )的利用率: mx-smi -i 0 --show-usage

    • 持续监控:如果您需要实时监控GPU状态,可以使用 -l 参数(loop)来设置刷新间隔(单位为毫秒)。

      例如,每秒(1000毫秒)刷新一次所有卡的温度、功耗和利用率信息,按下Ctrl+C可以退出监控。

      mx-smi--show-temperature--show-board-power--show-usage-l1000

官方资源

获取最新的驱动、开发库、教程和文档,请访问沐曦官方软件中心。