国产芯片
沐曦GPU使用指南与重要事项
本平台采用强大的国产沐曦的 曦云 C500 GPU 为您提供算力支持。为了确保您获得最佳的开发与推理体验,请在使用前仔细阅读以下指南。沐曦 GPU 拥有其独立的驱动、软件生态和硬件特性,了解这些信息将帮助您规避常见问题。
模型精度支持:请注意 FP8 限制
沐曦 GPU 在处理不同计算精度时表现出色,但有其特定的支持范围。
- 不支持FP8精度:当前,沐曦硬件及软件栈无法直接加载和推理使用FP8量化的模型。如果您尝试直接从 Hugging Face 等社区使用官方示例代码部署最新的 FP8 模型(例如 DeepSeek-V2、Qwen2-72B-Instruct-GGUF 的某些FP8版本),将会遇到失败。
- 支持的计算精度:根据官方数据显示,沐曦 曦云®C500 OAM 加速卡支持以下主流精度,您在选择模型时应优先考虑这些格式:
- FP32 (vector): 18 TFLOPS
- FP32 (matrix): 36 TFLOPS
- TF32: 140 TFLOPS
- FP16: 280 TFLOPS
- BF16: 280 TFLOPS
- INT8: 560 TOPS
建议:在部署模型前,请确认模型的量化类型。对于需要高性能推理的场景,我们推荐您使用 FP16 或 BF16 格式的模型。
核心软件生态:MACA(兼容CUDA,轻松迁移)
MACA 是沐曦 GPU 的统一计算加速平台。为了最大化保护您在现有技术栈上的投资,MACA 在设计上高度兼容主流的CUDA编程模型。这意味着您基于 CUDA 开发的应用和算法,无需重写或仅需少量适配,即可平滑迁移至性能更强的沐曦 GPU 上运行,极大地降低了开发和迁移成本。
- 平台深度集成,开箱即用:您无需担心任何驱动安装问题。平台上的所有沐曦 GPU 镜像均已预装最新、最稳定的 MACA 官方驱动,确保您随时可以开始工作。
AI开发库:注意版本适配与覆盖风险
为了在沐曦 GPU 上实现最佳性能,许多主流的AI开发库(如 PyTorch, vllm 等)都经过了官方的专门适配和优化。
-
预装优化库:镜像中已为您预装了这些经过沐曦官方适配的AI库。
-
检查适配库:您可以通过以下命令,查看当前环境中哪些库是专门为沐曦 GPU 优化的版本。这些库的版本号通常会包含
+metax
或+maca
的特殊标识。pip list | grep -e torch -e maca -e metax -e +
apex 0.1+metax...
flash_attn 2.6.3+metax...
ray 2.43.0+maca...
torch 2.6.0+metax...
torchvision 0.15.1+metax...
triton 3.0.0+metax...
vllm 0.8.5+maca...
xformers 0.0.22+metax...
# ... 以及其他适配库 -
操作警告:防止覆盖! 在自行安装或更新 Python 包时,请极度小心。执行标准的
pip install <package>
或pip install --upgrade <package>
命令,会造成社区的版本覆盖掉沐曦的特定版本,从而导致程序运行失败或性能大幅下降。 -
最佳实践:
- 在安装新库前,先用
pip list
检查是否已存在+metax
或+maca
版本。 - 如需安装或更新,优先访问沐曦官方软件中心查找正确的版本和安装方式。
模型部署与问题排查
在部署模型或开发应用时,如果遇到环境问题,可以参考以下建议:
- 通用模型部署:对于大多数主流模型,直接使用 Hugging Face 或 ModelScope 社区提供的标准示例代码即可成功拉取和部署。
- 部署失败怎么办?
- 检查模型兼容性:确认模型未使用 FP8 等暂不支持的特性。
- 使用沐曦官方镜像:如果您发现缺少特定的AI开发库,或在部署复杂大模型时遇到困难,推荐使用沐曦官方发布的容器镜像。这些镜像通常拥有最高的适配度和最全的优化库。
- 等待官方适配:对于最新发布的模型,可能需要等待沐曦官方进行适配。请关注官方的驱动和AI开发库更新。
沐曦 mx-smi 工具使用简介
欢迎使用沐曦(MetaX)GPU 计算资源。为了帮助您更好地管理和监控租用的 GPU 实例,我们提供了这篇 mx-smi 工具的简明使用文档。mx-smi 是用于管理曦云®系列 GPU 的命令行工具,功能类似于 NVIDIA 的 nvidia-smi ,但部分指令有所不同。如需了解更多高级功能,例如性能等级设置、拓扑关系查询、固件管理等,请访问官方提供的完整版《曦云系列通用计算GPUmx-smi使用手册》。
- 快速概览GPU状态:您可以直接在终端中运行
mx-smi
命令,以获取当前所有 GPU 资源的核心信息摘要。这是最常用、最重要的命令。mx-smi
执行后,系统会返回一个列表,展示每张卡的功耗、显存使用情况、温度、版本信息、GPU 利用率以及当前在卡上运行的进程等。
- 常用查询命令
您可以组合使用不同的查询选项来获取更具体的信息。
- 查询 GPU 和 VPU 利用率:
mx-smi--show-usage
- 查 询显存使用情况:
mx-smi--show-memory
- 查询温度:
mx-smi--show-temperature
- 查看当前运行的进程:
mx-smi--show-process
- 查询 GPU 和 VPU 利用率:
- 高级用法
-
指定 GPU 卡:如果您的实例中有多张 GPU 卡,可以使用
-i
参数指定要查询的卡(ID 从 0 开始)。例如,查询第一张卡(ID 为 0 )的利用率:
mx-smi -i 0 --show-usage
-
持续监控:如果您需要实时监控GPU状态,可以使用
-l
参数(loop)来设置刷新间隔(单位为毫秒)。例如,每秒(1000毫秒)刷新一次所有卡的温度、功耗和利用率信息,按下Ctrl+C可以退出监控。
mx-smi--show-temperature--show-board-power--show-usage-l1000
-
官方资源
获取最新的驱动、开发库、教程和文档,请访问沐曦官方软件中心。
- 沐曦软件中心与官方教程: https://sw-download.metax-tech.com/index