曦云 C500

1. 产品概述：曦云 C500

曦云C500 是沐曦（MetaX）于 2022年 发布的旗舰级通用计算 GPU。该产品基于沐曦自主研发的**“曦云”架构**设计，旨在为科学计算、人工智能训练及推理提供强大的国产算力解决方案。曦云C500采用自研 XCORE 1.0 架构及指令集，配备标量、矢量和张量计算单元，支持多种混合精度计算，搭载64GB HBM2e显存与7个高速 MetaXLink 互连接口，可实现2卡至64卡多种互连拓扑，具备国内稀缺的高带宽、超多卡互连能力；依托自研MXMACA软件栈，适配主流算法框架、运算库等工具，编程接口在API层面高度兼容GPU行业国际主流CUDA 生态。

核心特性与架构

自研架构：采用全自主设计的“曦云”通用计算架构，具备完整且独立的指令集系统。
高性能显存：搭载大容量、高带宽的 HBM2e 显存，显著解决了大规模数据吞吐的瓶颈，尤其适合大模型训练与高并发推理场景。
高精度覆盖：作为一款通用 GPU，C500 不仅针对 AI 场景优化（INT8/BF16/TF32），还保留了强大的 FP32 甚至 FP64（双精度）计算能力，使其同样适用于数值模拟、气象预测等传统 HPC 领域。
互联技术：支持 MXLink 内部互联与标准 PCIe Gen5 接口，能够实现多卡、多机的高效算力扩展。

2. 算力规格与精度支持

为了确保开发与推理的顺利进行，了解硬件的精度支持范围至关重要。请特别注意以下关于 FP8 的限制。

重要限制：暂不支持 FP8

请注意： 当前沐曦 C500 的硬件及软件栈尚未直接支持 FP8 量化格式的加载与推理。

如果您尝试直接运行社区中最新的 FP8 模型（例如 DeepSeek-V2-FP8、Qwen2-72B-Instruct-FP8 等），将会导致加载失败或运行错误。
建议：在下载模型前，请务必确认量化类型。推荐优先选择 FP16、BF16 或 INT8 版本的模型。

支持的计算精度与性能

根据官方数据，曦云® C500 OAM 加速卡在主流精度下的理论峰值性能如下：

精度类型	性能指标	适用场景
FP32 (Vector)	18 TFLOPS	通用科学计算
FP32 (Matrix)	36 TFLOPS	矩阵运算、基础训练
TF32	140 TFLOPS	AI 训练加速
FP16	280 TFLOPS	混合精度训练、推理
BF16	280 TFLOPS	大模型训练主流格式
INT8	560 TOPS	高性能量化推理

3. 核心软件生态：MACA

MACA（MetaX Advanced Compute Architecture）是沐曦 GPU 的统一计算软件栈。

高度兼容 CUDA

MACA 在设计之初就充分考虑了开发者的迁移成本，采用了高度兼容主流 CUDA 编程模型的策略。

低成本迁移：绝大多数基于 CUDA 开发的原生应用和算法，无需重写代码，仅需少量环境适配即可在 C500 上运行。
开箱即用：建议直接使用预装了 MACA 驱动与工具链的官方镜像，无需手动处理底层驱动安装。

4. AI 开发库：版本管理与避坑指南

为了发挥 C500 的最佳性能，PyTorch、vLLM 等主流 AI 框架均需要使用沐曦官方适配版。

严禁随意更新核心库

在使用过程中，请极度小心 pip install 或 pip upgrade 操作。

风险：执行标准的 pip install torch 会从 PyPI 拉取社区公版，这将覆盖掉环境内预装的沐曦适配版（带 +metax 后缀），直接导致无法调用 GPU，程序运行失败。

识别适配版本

沐曦适配的 Python 库版本号中通常包含 +metax 或 +maca 标识。你可以通过以下命令检查当前环境状态：

pip list | grep -e torch -e maca -e metax -e +

正常输出示例：

apex                  0.1+metax...       # 混合精度加速库
flash_attn            2.6.3+metax...     # 注意力优化库
torch                 2.6.0+metax...     # 核心框架
torchvision           0.15.1+metax...
triton                3.0.0+metax...
vllm                  0.8.5+maca...      # 大模型推理框架

最佳实践：

优先使用官方镜像：如果您需要特定的 AI 库，请优先查找是否提供了包含该库的沐曦官方镜像。
检查是否存在：在安装新库前，先检查该库是否已存在 +metax 版本。
获取正确源：如确需更新，请访问沐曦官方软件中心获取正确的 whl 安装包或安装源。

5. 模型部署建议与排查

模型支持列表

根据沐曦（MetaX）官方提供的 MACA 软件栈适配数据，曦云 C500 算力集群已完成对下列主流模型的适配与验证。

部署提示

软件栈版本：以下模型主要基于 MACA-vLLM 推理框架进行验证。请务必使用平台提供的 MACA 3.x 及以上版本的镜像。
显存规划：曦云 C500 单卡显存为 64GB。对于 70B/72B 以上的大参数模型，通常需要进行 INT4 量化或使用多卡/多机部署。
功能支持：支持 LoRA 微调、FlashAttention 加速及 PagedAttention 推理优化。

1. 通用语言模型 (LLM)

涵盖了 DeepSeek、Qwen、Llama、GLM 等业界主流开源大模型。

模型系列	模型名称	备注/架构
DeepSeek	DeepSeek-V3	重点支持，MACA-vLLM
DeepSeek	DeepSeek-R1 / R1-Distill (Llama/Qwen)	重点支持
DeepSeek	DeepSeek-V2 / V2-Chat / V2-Lite	MoE 架构支持
DeepSeek	DeepSeek-Coder-V2	代码模型
Qwen (通义)	Qwen2.5 (72B / 32B / 14B / 7B)	全系支持
Qwen (通义)	QwQ-32B	推理思考模型
Qwen (通义)	Qwen2 / Qwen1.5	全系支持
Qwen (通义)	Qwen2-MoE-57B	MoE 架构
Llama (Meta)	Llama-3 / Llama-3.1 (8B / 70B)	主流支持
Llama (Meta)	Llama-2 (7B / 13B / 70B)	-
Llama (Meta)	CodeLlama	代码模型
GLM (智谱)	GLM-4-9B / Chat	-
GLM (智谱)	ChatGLM3-6B / CodeGEEX	-
Yi (零一万物)	Yi-1.5 (34B / 9B / 6B)	-
Yi (零一万物)	Yi-Coder	-
Baichuan	Baichuan2 (13B / 7B)	-
InternLM (书生)	InternLM2.5 / InternLM2	-
Google	Gemma / Gemma-2 (2B / 9B / 27B)	-
Mistral AI	Mistral-7B / Mixtral-8x7B / 8x22B	MoE 架构支持
Microsoft	Phi-3 / Phi-3.5 (Mini / Medium)	-
Microsoft	Phi-4	-
其他模型	Grok-1	-
其他模型	Jamba / Jamba-1.5	SSM 混合架构
其他模型	Command R / R+ (Cohere)	-
其他模型	TeleChat (星辰)	中国电信
其他模型	XVERSE (元象)	-
其他模型	Solar-10.7B	-
其他模型	StarCoder2	代码生成
其他模型	Aquila / Aquila2	悟道天鹰

2. 向量与重排序模型 (Embedding / Reranker)

适用于 RAG（检索增强生成）与知识库构建场景。

模型名称	类型	备注
bge-m3	Embedding	多语言通用 Embedding
bge-reranker-v2-m3	Reranker	重排序模型
gte-Qwen2-1.5B-instruct	Embedding	-
gte-Qwen2-7B-instruct	Embedding	-
jina-embeddings-v2	Embedding	长文本支持
GritLM	Embedding	生成式 Embedding
Nomic-Embed	Embedding	-
Snowflake-Arctic-Embed	Embedding	-

3. 奖励与分类模型 (Reward / Classification)

适用于 RLHF（人类反馈强化学习）流程及文本分析任务。

模型名称	用途	备注
Eureka-Reward	奖励模型 (Reward Modeling)	-
InternLM2-Reward	奖励模型	-
Fudan-Disc-80	文本判别/分类	复旦大学
Toast	质量评分/分类	-

4. 视频与多模态 (关联支持)

虽然主要针对文本模型，但部分多模态模型的文本塔也已包含在支持列表中。

模型名称	备注
Qwen2-VL	视觉语言模型（文本部分已验证）
InternVL	-

常见问题排查

模型格式：是否误用了 FP8 模型？
库版本：是否不小心执行了 pip install --upgrade 覆盖了官方驱动库？
新模型适配：对于刚刚发布的全新架构模型，可能需要等待官方 MACA 软件栈的更新适配。

6. 监控工具：mx-smi 使用简明手册

mx-smi 是沐曦 GPU 的命令行管理工具，其功能和用法在很大程度上对标 NVIDIA 的 nvidia-smi，方便用户快速上手。

常用命令速查

功能	命令	说明
查看概览	`mx-smi`	最常用。显示所有 GPU 的显存、功耗、温度、利用率及进程列表。
实时监控	`mx-smi -l 1000`	每 1000 毫秒（1秒）刷新一次状态。按 `Ctrl+C` 退出。
指定 GPU	`mx-smi -i 0`	仅查看 ID 为 0 的 GPU 信息。

组合查询参数

如果您只需要特定的监控指标，可以使用以下参数：

利用率：mx-smi --show-usage (显示 GPU 和 VPU 利用率)
显存详情：mx-smi --show-memory
温度监控：mx-smi --show-temperature
进程查看：mx-smi --show-process

如需了解性能等级设置、拓扑关系查询、固件管理等高级功能，请参阅《曦云系列通用计算 GPU mx-smi 使用手册》。

7. 平台与官方资源导航

模力方舟实战教程

基于 曦云 C500 算力环境，平台提供了深度适配的“开箱即用”部署指南：

模型部署实战
- 部署文本模型：涵盖使用 Transformers、vLLM 等框架部署 Qwen等主流大语言模型。
- 部署生图模型：基于 Diffusers 框架部署 Qwen-Image 等前沿视觉生成模型。
进阶工作流
- ComfyUI 实操指南: 学习节点式工作流搭建，以及如何使用 Moark 自定义节点调用云端算力。
- n8n 自动化编排: 基于 n8n 编排的全链路 AIGC 工作流，实现了从“一个创意”到“一篇完整图文笔记”的端到端自动化。
- RAG 知识库系列实操
  - Naive RAG 知识库实操: 快速打通“加载-检索-生成”的基础闭环，构建本地私有化 RAG 系统的入门首选。
  - Advanced RAG 知识库实操: 引入多路检索、精排与层级索引策略，深度解决知识割裂与召回偏差，打造高准确率的生产级助手。
  - Modular RAG 知识库实操: 融合 GraphRAG 与智能意图路由，构建“向量+图谱”的双流混合检索体系。通过生产级持久化与摘要级逻辑抽取，突破传统检索界限，实现跨文档的复杂推理与全景知识聚合。
  - Agentic RAG 知识库实操: 引入自主决策循环与纠错机制，通过置信度门控与动态语义重写攻克垂直领域语义断层。深度适配单卡部署，构建具备深度反思能力与严谨证据链溯源的高标准智能助理。

沐曦官方技术资料

如需获取最新的 MACA 驱动、开发库白名单、SDK 下载及详细技术文档，请参考厂商官方文档：

开发者与文档支持: 沐曦文档中心
- 提供 MACA 驱动下载、安装指南、故障排查手册及全栈开发文档。

1. 产品概述：曦云 C500​

核心特性与架构​

2. 算力规格与精度支持​

重要限制：暂不支持 FP8​

支持的计算精度与性能​

3. 核心软件生态：MACA​

高度兼容 CUDA​

4. AI 开发库：版本管理与避坑指南​

严禁随意更新核心库​

识别适配版本​

5. 模型部署建议与排查​

模型支持列表​

1. 通用语言模型 (LLM)​

2. 向量与重排序模型 (Embedding / Reranker)​

3. 奖励与分类模型 (Reward / Classification)​

4. 视频与多模态 (关联支持)​

常见问题排查​

6. 监控工具：mx-smi 使用简明手册​

常用命令速查​

组合查询参数​

7. 平台与官方资源导航​

模力方舟实战教程​

沐曦官方技术资料​