国产芯片
沐曦GPU使用指南与重要事项
本平台采用强大的国产沐曦的 曦云C500 GPU 为您提供算力支持。为了确保您获得最佳的开发与推理体验,请在使用前仔细阅读以下指南。沐曦 GPU 拥有其独立的驱动、软件生态和硬件特性,了解这些信息将帮助您规避常见问题。
模型精度支持:请注意FP8限制
沐曦 GPU 在处理不同计算精度时表现出色,但有其特定的支持范围。
- 不支持FP8精度:当前,沐曦硬件及软件栈无法直接加载和推理使用FP8量化的模型。如果您尝试直接从 Hugging Face 等社区使用官方示例代码部署最新的FP8模型(例如 DeepSeek-V2、Qwen2-72B-Instruct-GGUF 的某些FP8版本),将会遇到失败。
- 支持的计算精度:根据官方数据显示,沐曦 曦云®C500 OAM 加速卡支持以下主流精度,您在选择模型时应优先考虑这些格式:
- FP32 (vector): 18 TFLOPS
- FP32 (matrix): 36 TFLOPS
- TF32: 140 TFLOPS
- FP16: 280 TFLOPS
- BF16: 280 TFLOPS
- INT8: 560 TOPS
信息
建议:在部署模型前,请确认模型的量化类型。对于需要高性能推理的场景,我们推荐您使用 FP16 或 BF16 格式的模型。
核心软件生态:MACA(兼容CUDA,轻松迁移)
MACA 是沐曦 GPU 的统一计算加速平台。为了最大化保护您在现有技术栈上的投资,MACA 在设计上高度兼容主流的CUDA编程模型。这意味着您基于 CUDA 开发的应用和算法,无需重写或仅需少量适配,即可平滑迁移至性能更强的沐曦 GPU 上运行,极大地降低了开发和迁移成本。
- 平台深度集成,开箱即用:您无需担心任何驱动安装问题。平台上的所有沐曦 GPU 镜像均已预装最新、最稳定的 MACA 官方驱动,确保您随时可以开始工作。