曦云 C500
1. 产品概述:曦云 C500
曦云C500 是沐曦(MetaX)于 2022年 发布的旗舰级通用计算 GPU。该产品基于沐曦自主研发的**“曦云”架构**设计,旨在为科学计算、人工智能训练及推理提供强大的国产算力解决方案。曦云C500采用自研 XCORE 1.0 架构及指令集,配备标量、矢量和张量计算单元,支持多种混合精度计算,搭载64GB HBM2e显存与7个高速 MetaXLink 互连接口,可实现2卡至64卡多种互连拓扑,具备国内稀缺的高带宽、超多卡互连能力;依托自研MXMACA软件栈,适配主流算法框架、运算库等工具,编程接口在API层面高度兼容GPU行业国际主流CUDA 生态。
核心特性 与架构
- 自研架构:采用全自主设计的“曦云”通用计算架构,具备完整且独立的指令集系统。
- 高性能显存:搭载大容量、高带宽的 HBM2e 显存,显著解决了大规模数据吞吐的瓶颈,尤其适合大模型训练与高并发推理场景。
- 高精度覆盖:作为一款通用 GPU,C500 不仅针对 AI 场景优化(INT8/BF16/TF32),还保留了强大的 FP32 甚至 FP64(双精度)计算能力,使其同样适用于数值模拟、气象预测等传统 HPC 领域。
- 互联技术:支持 MXLink 内部互联与标准 PCIe Gen5 接口,能够实现多卡、多机的高效算力扩展。
2. 算力规格与精度支持
为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。请特别注意以下关于 FP8 的限制。
重要限制:暂不支持 FP8
请注意: 当前沐曦 C500 的硬件及软件栈尚未直接支持 FP8 量化格式的加载与推理。
- 如果您尝试直接运行社区中最新的 FP8 模型(例如
DeepSeek-V2-FP8、Qwen2-72B-Instruct-FP8等),将会导致加载失败或运行错误。 - 建议:在下载模型前,请务必确认量化类型。推荐优先选择 FP16、BF16 或 INT8 版本的模型。
支持的计算精度与性能
根据官方数据,曦云® C500 OAM 加速卡在主流精度下的理论峰值性能如下:
| 精度类型 | 性能指标 | 适用场景 |
|---|---|---|
| FP32 (Vector) | 18 TFLOPS | 通用科学计算 |
| FP32 (Matrix) | 36 TFLOPS | 矩阵运算、基础训练 |
| TF32 | 140 TFLOPS | AI 训练加速 |
| FP16 | 280 TFLOPS | 混合精度训练、推理 |
| BF16 | 280 TFLOPS | 大模型训练主流格式 |
| INT8 | 560 TOPS | 高性能量化推理 |