智铠 100
1. 产品概述:智铠 100(MR-V100)
智铠100(MR-V100) 是天数智芯(Iluvatar CoreX)于 2022年 发布的云端推理通用计算 GPU。该产品基于天数智芯自主研发的通用 GPU 架构设计,旨在为安防、互联网、金融、医疗、教育等领域提供高性能、高性价比的国产算力解决方案。智铠100 采用 7nm 制程工艺,配备 32GB 高速 HBM2E 显存,支持 FP32、FP16、INT8 等多种混合精度计算;依托全自研软件栈,适配主流算法框架与生态,具备强大的视频处理能力,单卡支持最高 128 路 1080P 高清视频并发解码,是构建现代化智算中心与边缘计算节点的理想选择。
核心特性与架构
- 通用架构:采用全自主设计的通用 GPU 架构,拥有完整的指令集系统,兼顾通用性与高性能。
- 高性能显存:搭载 32GB HBM2E 显存,配合 PCIe Gen4 高速接口,有效解决了高并发推理场景下的大规模数据吞吐瓶颈。
- 多精度融合:支持 FP32、FP16、INT8 等多种精度计算,不仅针对 AI 推理场景进行了深度优化,同时保留了通用的浮点计算能力。
- 视频增强:具备强大的视频编解码能力,支持 HEVC、AVC、VP9、AVS2 等多种格式,满足大规模视频分析与处理需求。
2. 算力规格与精度支持
为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。
重要限制:暂不支持 FP8
请注意: 根据当前公开资料,智铠100 硬件及软件栈主要针对 FP32、FP16 和 INT8 进行优化,尚未直接支持 FP8 量化格式。
- 建议:在选择或转换模型时,请优先使用 FP16 量化版本,以获得最佳的性能与兼容性。
支持的计算精度与性能
根据官方产品规格书(MR-V100),智铠100 加速卡的理论峰值性能如下:
| 精度类型 | 性能指标 | 适用场景 |
|---|---|---|
| FP32 | 24 TFLOPS | 通用科学计算、高精度推理 |
| FP16 | 96 TFLOPS | 深度学习推理主流格式 |
| INT8 | 192 TOPS | 高性能量化推理、视频分析 |
| 显存 | 32 GB HBM2E | 大模型推理、高并发处理 |
| 视频解码 | 128路 (1080P@30fps) | 安防监控、视频会议 |
数据参考:产品规格表
3. 核心软件生态
IXUCA 是天数智芯自主研发的统一计算架构软件栈 ,兼容主流 GPU 通用计算模型,提供支持主流 GPU 通用计算模型的等效组件、特性、API 和算法,可助力用户便捷地实现系统或应用的无痛迁移。天数智算软件栈包括人工智能深度学习应用、主流框架、函数库、编译器及工具、运行时库及驱动。
核心优势与功能
- 深度框架集成:IXUCA 集成了 TensorFlow, PyTorch 和 PaddlePaddle 等国内外主流的深度学习框架,提供与官方开源框架一致的算子,并针对天数智芯加速卡持续优化性能。
- 高性能推理:IXUCA 提供 IGIE 推理框架 和 IxRT 推理引擎,支持在天数智芯加速卡上实现最优推理性能。
- 丰富的函数库:IXUCA 的函数库不仅支持通用计算还提供了深度学习应用开发所需的基础算子,开发者可以便捷地调用这些算子灵活地构造各类深度神经网络模型以及其他机器学习领域的算法。
兼容主流生态
- 无痛迁移:软件栈设计高度兼容主流通用计算(CUDA)生态。
- 工具链完备:提供包含编译器、驱动、数学库(ixDNN, ixBLAS)、通信库(ixCCL)在内的全套开发工具,降低用户迁移与开发成本。
推理加速引擎与框架
- IxFormer (vLLM):是天数智芯设计的专用于大模型推理和训练优化的加速框,支持业界目前主流大模型的推理加速,例如 vLLM、TGI、Xinference 等框架,实现大模型在天数智芯加速卡上的最佳推理性能。
- IxRT (Iluvatar CoreX RunTime):是天数智芯的专用推理加速引擎,支持对业界主流训练框架的模型进行解析及优化。通过 IxRT 的自动部署工具即可将训练好的模型快速部署到天数智芯加速卡上,实现视觉、语音、推荐、自然语言等领域模型在天数智芯加速卡上的最优推理性能。
- IGIE (Iluvatar GPU Inference Engine):是一个针对天数智芯加速卡研发的高性能、高通用、全流程的神经网络推理框架,通过对模型进行一系列图优化,算子融合、量化、集成多个加速算子库、AutoTune等优化手段。可为推理场景提供易部署、高吞吐量、低延迟的完整方案。
4. AI 开发库:适配与版本管理
为了发挥智铠100 的最佳性能,建议使用天数智芯官方适配的 AI 框架版本。
版本识别与安装
官方适配的 Python 库通常会带有特定的标识(如 ix 或版本后缀)。
- PyTorch:需安装天数智芯适配版的 PyTorch。
- 安装建议:强烈建议直接使用官方提供的 Docker 镜像进行开发,镜像中已预置了正确的驱动、CUDA 兼容库及 AI 框架。
# 示例:检查环境中的适配包(具体名称以官方镜像为准)
pip list | grep -E "torch|iluvatar|ix"
5. 模型部署建议
模型库支持列表
根据 DeepSparkInference 开源项目(截至 2025 年),智铠 100 已适配超过 200 个推理模型,覆盖 LLM、CV、NLP、语音等多个领域。以下为部分核心支持模型清单:
1. 大语言模型 (LLM) & 多模态
支持 vLLM、TGI、LMDeploy 等主流框架及 IxRT 加速引擎。
| 模型系列 | 核心模型 | 引擎支持 | 备注 |
|---|---|---|---|
| DeepSeek | DeepSeek-R1-Distill (Llama/Qwen), DeepSeek-OCR | vLLM, Transformers | 涵盖 1.5B 到 70B 全系蒸馏模型 |
| Qwen (通义) | Qwen2.5/2/1.5 (7B-72B), Qwen-VL, Qwen2-VL, Qwen2.5-VL | vLLM, TGI | 支持 VL 多模态及 MoE 架构 |
| Llama | Llama 2 (7B/13B/70B), Llama 3 (70B) | vLLM, TRT-LLM | 主流开源基座 |
| InternLM | InternLM3 | vLLM, LMDeploy | 书生浦语最新代 |
| GLM | ChatGLM-3 (6B/32K), GLM-4V | vLLM | 智谱 AI 系列 |
| Baichuan | Baichuan2-7B | vLLM | 百川智能 |
| 多模态/其他 | MiniCPM-V/o, Phi-3-Vision, PaliGemma, NVLM | vLLM | 端侧及多模态模型 |
| 其他 LLM | ERNIE-4.5, StableLM2, Step3, Gemma | FastDeploy, vLLM | 广泛的开源生态支持 |
2. 计算机视觉 (CV)
支持 IGIE (TVM based) 和 IxRT (TensorRT compatible) 推理引擎,覆盖 FP16 及 INT8 量化。
| 任务类型 | 模型系列 | 精度支持 | 备注 |
|---|---|---|---|
| 图像分类 | ResNet: 18, 34, 50, 101, 152, V1D50, ResNeSt, CSPResNet; MobileNet: V2, V3 (Large/Small); EfficientNet: B0-B7, V2 (S/M/L); DenseNet: 121, 161, 169, 201; ViT系列: DeiT, MViT, CLIP; 经典网络: VGG, InceptionV3, GoogLeNet, AlexNet, HRNet, RegNet, ConvNeXt | FP16, INT8 | 广泛支持主流 CNN 与 Transformer 视觉骨干 |
| 目标检测 | YOLO: v3, v4, v5, v8, v10; Face: RetinaFace | FP16, INT8 | 包含动态 Shape 支持 |
3. 自然语言处理 (NLP) & 语音 (Audio)
| 领域 | 模型名称 | 引擎/框架 | 说明 |
|---|---|---|---|
| NLP | BERT (Large/Base), XLMRoberta, E5-V (Embedding) | IxRT, vLLM | 支持 SQuAD 等下游任务及 RAG 向量化 |
| 语音识别/生成 | Whisper, CosyVoice2-0.5B, Ultravox | vLLM, PyTorch | 支持 ASR 与 TTS 任务 |
6. 监控工具:ixsmi 使用简明手册
ixsmi 是天数智芯 GPU 的命令行管理工具,功能对标 nvidia-smi。
常用命令速查
| 功能 | 命令 | 说明 |
|---|---|---|
| 查看概览 | ixsmi | 显示 GPU 型号、显存使用、温度、功耗及驱动版本。 |
| 实时监控 | watch -n 1 ixsmi | 结合 watch 命令实现动态刷新。 |
| 查看内存 | ixsmi -q -d MEMORY | 显⽰当前 GPU 的内存使⽤情况。 |
| 查看利用率 | ixsmi -q -d UTILIZATION | 显⽰当前 GPU 的利⽤情况。 |
| 查看进程 | ixsmi -q -d PIDS | 显⽰运⾏在当前 GPU 上的进程。 |
| 查询 Device 状态 | ixsmi dmon | 以滚动⽅式显⽰每次取样时的 device 状态,每⾏显⽰⼀次取样,显⽰信息包括功率、温度、GPU 占⽤率、内存占⽤率、VPU 编码利⽤率、VPU 解码利⽤率、GPU 时钟频率和内存时钟频率。 |
| 查询进程状态 | ixsmi pmon | 以滚动⽅式显⽰每次取样时的进程状态,每⾏显⽰⼀次取样,显⽰信息包括 pid、GPU 占⽤率、内存占⽤率、VPU 编码利⽤率、VPU 解码利⽤率和进程名称。 |
| 拓扑查询 | ixsmi topo | 查看 GPU 之间的互联拓扑结构。 |
7. 平台与官方资源导航
国产芯片权威 AI 技能认证
国产芯片 AI 技能证书:联合国内顶尖算力厂商,打造实战型 AI 技能认证体系。从算力到底层框架,助你成为国产 AI 生态的先行者。
- 官方权威认证:由模力方舟联合行业国产芯片大厂联合签发的权威证书,加盖模力方舟和芯片厂商的公章,支持线上核验,一举成为国产算力与信创生态的官方认可人才
- 学习即实战:开箱即用的实验环境,直接调用国产 GPU 云端算力,全链路课程覆盖“适配-训练-推理-部署”,获得国产 GPU 实操能力。
- 面试优先推荐:认证人才进入国产 GPU 与信创企业人才储备库,在求职、合作、项目申报中优先推荐,抢占国产 AI 与算力产业的人才红利。
- 生态特权:加入开发者社群,享受专家一对一指导,优先获得国产 GPU 算力市场免费测试时长,在信创生态中享有优先曝光与合作机会。
官方技术支持
- 开发者资源中心:获取最新的产品白皮书、硬件规格书;提供 SDK 下载、Docker 镜像获取及详细的 API 文档。
- DeepSpark 开源社区:汇集了数百个经过验证的算法模型与落地案例,提供开箱即用的代码参考。