国产芯片

沐曦GPU使用指南与重要事项

本平台采用强大的国产沐曦的 曦云 C500 GPU 为您提供算力支持。为了确保您获得最佳的开发与推理体验，请在使用前仔细阅读以下指南。沐曦 GPU 拥有其独立的驱动、软件生态和硬件特性，了解这些信息将帮助您规避常见问题。

模型精度支持：请注意 FP8 限制

沐曦 GPU 在处理不同计算精度时表现出色，但有其特定的支持范围。

不支持FP8精度：当前，沐曦硬件及软件栈无法直接加载和推理使用FP8量化的模型。如果您尝试直接从 Hugging Face 等社区使用官方示例代码部署最新的 FP8 模型（例如 DeepSeek-V2、Qwen2-72B-Instruct-GGUF 的某些FP8版本），将会遇到失败。
支持的计算精度：根据官方数据显示，沐曦 曦云®C500 OAM 加速卡支持以下主流精度，您在选择模型时应优先考虑这些格式：
- FP32 (vector): 18 TFLOPS
- FP32 (matrix): 36 TFLOPS
- TF32: 140 TFLOPS
- FP16: 280 TFLOPS
- BF16: 280 TFLOPS
- INT8: 560 TOPS
  信息
  建议：在部署模型前，请确认模型的量化类型。对于需要高性能推理的场景，我们推荐您使用 FP16 或 BF16 格式的模型。

核心软件生态：MACA（兼容CUDA，轻松迁移）

MACA 是沐曦 GPU 的统一计算加速平台。为了最大化保护您在现有技术栈上的投资，MACA 在设计上高度兼容主流的CUDA编程模型。这意味着您基于 CUDA 开发的应用和算法，无需重写或仅需少量适配，即可平滑迁移至性能更强的沐曦 GPU 上运行，极大地降低了开发和迁移成本。

平台深度集成，开箱即用：您无需担心任何驱动安装问题。平台上的所有沐曦 GPU 镜像均已预装最新、最稳定的 MACA 官方驱动，确保您随时可以开始工作。

AI开发库：注意版本适配与覆盖风险

为了在沐曦 GPU 上实现最佳性能，许多主流的AI开发库（如 PyTorch, vllm 等）都经过了官方的专门适配和优化。

预装优化库：镜像中已为您预装了这些经过沐曦官方适配的AI库。

检查适配库：您可以通过以下命令，查看当前环境中哪些库是专门为沐曦 GPU 优化的版本。这些库的版本号通常会包含 +metax 或 +maca 的特殊标识。

pip list | grep -e torch -e maca -e metax -e +

apex                  0.1+metax...
flash_attn            2.6.3+metax...
ray                   2.43.0+maca...
torch                 2.6.0+metax...
torchvision           0.15.1+metax...
triton                3.0.0+metax...
vllm                  0.8.5+maca...
xformers              0.0.22+metax...
# ... 以及其他适配库

操作警告：防止覆盖！ 在自行安装或更新 Python 包时，请极度小心。执行标准的 pip install <package> 或 pip install --upgrade <package> 命令，会造成社区的版本覆盖掉沐曦的特定版本，从而导致程序运行失败或性能大幅下降。
最佳实践：

在安装新库前，先用 pip list 检查是否已存在 +metax 或 +maca 版本。
如需安装或更新，优先访问沐曦官方软件中心查找正确的版本和安装方式。

模型部署与问题排查

在部署模型或开发应用时，如果遇到环境问题，可以参考以下建议：

通用模型部署：对于大多数主流模型，直接使用 Hugging Face 或 ModelScope 社区提供的标准示例代码即可成功拉取和部署。
部署失败怎么办？
- 检查模型兼容性：确认模型未使用 FP8 等暂不支持的特性。
- 使用沐曦官方镜像：如果您发现缺少特定的AI开发库，或在部署复杂大模型时遇到困难，推荐使用沐曦官方发布的容器镜像。这些镜像通常拥有最高的适配度和最全的优化库。
- 等待官方适配：对于最新发布的模型，可能需要等待沐曦官方进行适配。请关注官方的驱动和AI开发库更新。

沐曦 mx-smi 工具使用简介

欢迎使用沐曦（MetaX）GPU 计算资源。为了帮助您更好地管理和监控租用的 GPU 实例，我们提供了这篇 mx-smi 工具的简明使用文档。mx-smi 是用于管理曦云®系列 GPU 的命令行工具，功能类似于 NVIDIA 的 nvidia-smi ，但部分指令有所不同。如需了解更多高级功能，例如性能等级设置、拓扑关系查询、固件管理等，请访问官方提供的完整版《曦云系列通用计算GPUmx-smi使用手册》。

快速概览GPU状态：您可以直接在终端中运行 mx-smi 命令，以获取当前所有 GPU 资源的核心信息摘要。这是最常用、最重要的命令。
- mx-smi执行后，系统会返回一个列表，展示每张卡的功耗、显存使用情况、温度、版本信息、GPU 利用率以及当前在卡上运行的进程等。
常用查询命令 您可以组合使用不同的查询选项来获取更具体的信息。
- 查询 GPU 和 VPU 利用率：mx-smi--show-usage
- 查询显存使用情况：mx-smi--show-memory
- 查询温度：mx-smi--show-temperature
- 查看当前运行的进程：mx-smi--show-process
高级用法
- 指定 GPU 卡：如果您的实例中有多张 GPU 卡，可以使用 -i 参数指定要查询的卡（ID 从 0 开始）。
  
  例如，查询第一张卡（ID 为 0 ）的利用率： mx-smi -i 0 --show-usage
- 持续监控：如果您需要实时监控GPU状态，可以使用 -l 参数（loop）来设置刷新间隔（单位为毫秒）。
  
  例如，每秒（1000毫秒）刷新一次所有卡的温度、功耗和利用率信息，按下Ctrl+C可以退出监控。
  
  mx-smi--show-temperature--show-board-power--show-usage-l1000

官方资源

获取最新的驱动、开发库、教程和文档，请访问沐曦官方软件中心。

沐曦软件中心与官方教程: https://sw-download.metax-tech.com/index

沐曦GPU使用指南与重要事项​

模型精度支持：请注意 FP8 限制​

核心软件生态：MACA（兼容CUDA，轻松迁移）​

AI开发库：注意版本适配与覆盖风险​

模型部署与问题排查​

沐曦 mx-smi 工具使用简介​

官方资源​