曦云 C500
1. 产品概述:曦云 C500
曦云C500 (XiCloud C500) 是沐曦(MetaX)于 2022年 发布的旗舰级通用计算 GPU。该产品基于沐曦自主研发的**“曦云”架构**设计,旨在为科学计算、人工智能训练及推理提供强大的国产算力解决方案。曦云C500采用自研 XCORE 1.0 架构及指令集,配备标量、矢量和张量计算单元,支持多种混合精度计算,搭载64GB HBM2e显存与7个高速 MetaXLink 互连接口,可实现2卡至64卡多种互连拓扑,具备国内稀缺的高带宽、超多卡互连能力;依托自研MXMACA软件栈,适配主流算法框架、运算库等工具,编程接口在API层面高度兼容GPU行业国际主流CUDA 生态。
核心特性与架构
- 自研架构:采用全自主设计的“曦云”通用计算架构,具备完整且独立的指令集系统。
- 高性能显存:搭载大容量、高带宽的 HBM2e 显存,显著解决了大规模数据吞吐的瓶颈,尤其适合大模型训练与高并发推理场景。
- 高精度覆盖:作为一款通用 GPU,C500 不仅针对 AI 场景优化(INT8/BF16/TF32),还保留了强大的 FP32 甚至 FP64(双精度)计算能力,使其同样适用于数值模拟、气象预测等传统 HPC 领域。
- 互联技术:支持 MXLink 内部互联与标准 PCIe Gen5 接口,能够实现多卡、多机的高效算力扩展。
2. 算力规格与精度支持
为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于 FP8 的限制。
重要限制:暂不支持 FP8
请注意: 当前沐曦 C500 的硬件及软件栈尚未直接支持 FP8 量化格式的加载与推理。
- 如果您尝试直接运行社区中最新的 FP8 模型(例如
DeepSeek-V2-FP8、Qwen2-72B-Instruct-FP8等),将会导致加载失败或运行错误。 - 建议:在下载模型前,请务必确认量化类型。推荐优先选择 FP16、BF16 或 INT8 版本的模型。
支持的计算精度与性能
根据官方数据,曦云® C500 OAM 加速卡在主流精度下的理论峰值性能如下:
| 精度类型 | 性能指标 | 适用场景 |
|---|---|---|
| FP32 (Vector) | 18 TFLOPS | 通用科学计算 |
| FP32 (Matrix) | 36 TFLOPS | 矩阵运算、基础训练 |
| TF32 | 140 TFLOPS | AI 训练加速 |
| FP16 | 280 TFLOPS | 混合精度训练、推理 |
| BF16 | 280 TFLOPS | 大模型训练主流格式 |
| INT8 | 560 TOPS | 高性能量化推理 |
3. 核心软件生态:MACA
MACA(MetaX Advanced Compute Architecture)是沐曦 GPU 的统一计算软件栈。
高度兼容 CUDA
MACA 在设计之初就充分考虑了开发者的迁移成本,采用了高度兼容主流 CUDA 编程模型的策略。
- 低成本迁移:绝大多数基于 CUDA 开发的原生应用和算法,无需重写代码,仅需少量环境适配即可在 C500 上运行。
- 开箱即用:建议直接使用预装了 MACA 驱动与工具链的官方镜像,无需手动处理底层驱动安装。
4. AI 开发库:版本管理与避坑指南
为了发挥 C500 的最佳性能,PyTorch、vLLM 等主流 AI 框架均需要使用沐曦官方适配版。
严禁随意更新核心库
在使用过程中,请极度小心 pip install 或 pip upgrade 操作。
- 风险:执行标准的
pip install torch会从 PyPI 拉取社区公版,这将覆盖掉环境内预装的沐曦适配版(带+metax后缀),直接导致无法调用 GPU,程序运行失败。