跳到主要内容

曦云 C500

1. 产品概述:曦云 C500

曦云C500 (XiCloud C500) 是沐曦(MetaX)于 2022年 发布的旗舰级通用计算 GPU。该产品基于沐曦自主研发的**“曦云”架构**设计,旨在为科学计算、人工智能训练及推理提供强大的国产算力解决方案。曦云C500采用自研 XCORE 1.0 架构及指令集,配备标量、矢量和张量计算单元,支持多种混合精度计算,搭载64GB HBM2e显存与7个高速 MetaXLink 互连接口,可实现2卡至64卡多种互连拓扑,具备国内稀缺的高带宽、超多卡互连能力;依托自研MXMACA软件栈,适配主流算法框架、运算库等工具,编程接口在API层面高度兼容GPU行业国际主流CUDA 生态。

核心特性与架构

  • 自研架构:采用全自主设计的“曦云”通用计算架构,具备完整且独立的指令集系统。
  • 高性能显存:搭载大容量、高带宽的 HBM2e 显存,显著解决了大规模数据吞吐的瓶颈,尤其适合大模型训练与高并发推理场景。
  • 高精度覆盖:作为一款通用 GPU,C500 不仅针对 AI 场景优化(INT8/BF16/TF32),还保留了强大的 FP32 甚至 FP64(双精度)计算能力,使其同样适用于数值模拟、气象预测等传统 HPC 领域。
  • 互联技术:支持 MXLink 内部互联与标准 PCIe Gen5 接口,能够实现多卡、多机的高效算力扩展。

2. 算力规格与精度支持

为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于 FP8 的限制。

重要限制:暂不支持 FP8

请注意: 当前沐曦 C500 的硬件及软件栈尚未直接支持 FP8 量化格式的加载与推理

  • 如果您尝试直接运行社区中最新的 FP8 模型(例如 DeepSeek-V2-FP8Qwen2-72B-Instruct-FP8 等),将会导致加载失败或运行错误。
  • 建议:在下载模型前,请务必确认量化类型。推荐优先选择 FP16BF16INT8 版本的模型。

支持的计算精度与性能

根据官方数据,曦云® C500 OAM 加速卡在主流精度下的理论峰值性能如下:

精度类型性能指标适用场景
FP32 (Vector)18 TFLOPS通用科学计算
FP32 (Matrix)36 TFLOPS矩阵运算、基础训练
TF32140 TFLOPSAI 训练加速
FP16280 TFLOPS混合精度训练、推理
BF16280 TFLOPS大模型训练主流格式
INT8560 TOPS高性能量化推理

3. 核心软件生态:MACA

MACA(MetaX Advanced Compute Architecture)是沐曦 GPU 的统一计算软件栈。

高度兼容 CUDA

MACA 在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。

  • 低成本迁移:绝大多数基于 CUDA 开发的原生应用和算法,无需重写代码,仅需少量环境适配即可在 C500 上运行。
  • 开箱即用:建议直接使用预装了 MACA 驱动与工具链的官方镜像,无需手动处理底层驱动安装。

4. AI 开发库:版本管理与避坑指南

为了发挥 C500 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用沐曦官方适配版

严禁随意更新核心库

在使用过程中,请极度小心 pip installpip upgrade 操作。

  • 风险:执行标准的 pip install torch 会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的沐曦适配版(带 +metax 后缀),直接导致无法调用 GPU,程序运行失败。

识别适配版本

沐曦适配的 Python 库版本号中通常包含 +metax+maca 标识。你可以通过以下命令检查当前环境状态:

pip list | grep -e torch -e maca -e metax -e +

正常输出示例:

apex                  0.1+metax...       # 混合精度加速库
flash_attn 2.6.3+metax... # 注意力优化库
torch 2.6.0+metax... # 核心框架
torchvision 0.15.1+metax...
triton 3.0.0+metax...
vllm 0.8.5+maca... # 大模型推理框架

最佳实践:

  1. 优先使用官方镜像:如果您需要特定的 AI 库,请优先查找是否提供了包含该库的沐曦官方镜像。
  2. 检查是否存在:在安装新库前,先检查该库是否已存在 +metax 版本。
  3. 获取正确源:如确需更新,请访问沐曦官方软件中心获取正确的 whl 安装包或安装源。

5. 模型部署建议与排查

模型支持列表

根据沐曦(MetaX)官方提供的 MACA 软件栈适配数据,曦云 C500 算力集群已完成对下列主流模型的适配与验证。

部署提示
  • 软件栈版本:以下模型主要基于 MACA-vLLM 推理框架进行验证。请务必使用平台提供的 MACA 3.x 及以上版本的镜像。
  • 显存规划:曦云 C500 单卡显存为 64GB。对于 70B/72B 以上的大参数模型,通常需要进行 INT4 量化或使用多卡/多机部署。
  • 功能支持:支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。

1. 通用语言模型 (LLM)

涵盖了 DeepSeek、Qwen、Llama、GLM 等业界主流开源大模型。

模型系列模型名称备注/架构
DeepSeekDeepSeek-V3重点支持,MACA-vLLM
DeepSeekDeepSeek-R1 / R1-Distill (Llama/Qwen)重点支持
DeepSeekDeepSeek-V2 / V2-Chat / V2-LiteMoE 架构支持
DeepSeekDeepSeek-Coder-V2代码模型
Qwen (通义)Qwen2.5 (72B / 32B / 14B / 7B)全系支持
Qwen (通义)QwQ-32B推理思考模型
Qwen (通义)Qwen2 / Qwen1.5全系支持
Qwen (通义)Qwen2-MoE-57BMoE 架构
Llama (Meta)Llama-3 / Llama-3.1 (8B / 70B)主流支持
Llama (Meta)Llama-2 (7B / 13B / 70B)-
Llama (Meta)CodeLlama代码模型
GLM (智谱)GLM-4-9B / Chat-
GLM (智谱)ChatGLM3-6B / CodeGEEX-
Yi (零一万物)Yi-1.5 (34B / 9B / 6B)-
Yi (零一万物)Yi-Coder-
BaichuanBaichuan2 (13B / 7B)-
InternLM (书生)InternLM2.5 / InternLM2-
GoogleGemma / Gemma-2 (2B / 9B / 27B)-
Mistral AIMistral-7B / Mixtral-8x7B / 8x22BMoE 架构支持
MicrosoftPhi-3 / Phi-3.5 (Mini / Medium)-
MicrosoftPhi-4-
其他模型Grok-1-
其他模型Jamba / Jamba-1.5SSM 混合架构
其他模型Command R / R+ (Cohere)-
其他模型TeleChat (星辰)中国电信
其他模型XVERSE (元象)-
其他模型Solar-10.7B-
其他模型StarCoder2代码生成
其他模型Aquila / Aquila2悟道天鹰

2. 向量与重排序模型 (Embedding / Reranker)

适用于 RAG(检索增强生成)与知识库构建场景。

模型名称类型备注
bge-m3Embedding多语言通用 Embedding
bge-reranker-v2-m3Reranker重排序模型
gte-Qwen2-1.5B-instructEmbedding-
gte-Qwen2-7B-instructEmbedding-
jina-embeddings-v2Embedding长文本支持
GritLMEmbedding生成式 Embedding
Nomic-EmbedEmbedding-
Snowflake-Arctic-EmbedEmbedding-

3. 奖励与分类模型 (Reward / Classification)

适用于 RLHF(人类反馈强化学习)流程及文本分析任务。

模型名称用途备注
Eureka-Reward奖励模型 (Reward Modeling)-
InternLM2-Reward奖励模型-
Fudan-Disc-80文本判别/分类复旦大学
Toast质量评分/分类-

4. 视频与多模态 (关联支持)

虽然主要针对文本模型,但部分多模态模型的文本塔也已包含在支持列表中。

模型名称备注
Qwen2-VL视觉语言模型(文本部分已验证)
InternVL-

常见问题排查

  1. 模型格式:是否误用了 FP8 模型?
  2. 库版本:是否不小心执行了 pip install --upgrade 覆盖了官方驱动库?
  3. 新模型适配:对于刚刚发布的全新架构模型,可能需要等待官方 MACA 软件栈的更新适配。

6. 监控工具:mx-smi 使用简明手册

mx-smi 是沐曦 GPU 的命令行管理工具,其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi,方便用户快速上手。

常用命令速查

功能命令说明
查看概览mx-smi最常用。显示所有 GPU 的显存、功耗、温度、利用率及进程列表。
实时监控mx-smi -l 1000每 1000 毫秒(1秒)刷新一次状态。按 Ctrl+C 退出。
指定 GPUmx-smi -i 0仅查看 ID 为 0 的 GPU 信息。

组合查询参数

如果您只需要特定的监控指标,可以使用以下参数:

  • 利用率mx-smi --show-usage (显示 GPU 和 VPU 利用率)
  • 显存详情mx-smi --show-memory
  • 温度监控mx-smi --show-temperature
  • 进程查看mx-smi --show-process

如需了解性能等级设置、拓扑关系查询、固件管理等高级功能,请参阅《曦云系列通用计算 GPU mx-smi 使用手册》


7. 官方资源导航

获取最新的驱动、开发库白名单、SDK 下载及详细技术文档,请访问: