跳到主要内容
feedback
feedback

智铠 100

1. 产品概述:智铠 100(MR-V100)

智铠100(MR-V100) 是天数智芯(Iluvatar CoreX)于 2022年 发布的云端推理通用计算 GPU。该产品基于天数智芯自主研发的通用 GPU 架构设计,旨在为安防、互联网、金融、医疗、教育等领域提供高性能、高性价比的国产算力解决方案。智铠100 采用 7nm 制程工艺,配备 32GB 高速 HBM2E 显存,支持 FP32、FP16、INT8 等多种混合精度计算;依托全自研软件栈适配主流算法框架与生态,具备强大的视频处理能力,单卡支持最高 128 路 1080P 高清视频并发解码,是构建现代化智算中心与边缘计算节点的理想选择。

核心特性与架构

  • 通用架构:采用全自主设计的通用 GPU 架构,拥有完整的指令集系统,兼顾通用性与高性能。
  • 高性能显存:搭载 32GB HBM2E 显存,配合 PCIe Gen4 高速接口,有效解决了高并发推理场景下的大规模数据吞吐瓶颈。
  • 多精度融合:支持 FP32、FP16、INT8 等多种精度计算,不仅针对 AI 推理场景进行了深度优化,同时保留了通用的浮点计算能力。
  • 视频增强:具备强大的视频编解码能力,支持 HEVC、AVC、VP9、AVS2 等多种格式,满足大规模视频分析与处理需求。

2. 算力规格与精度支持

为了确保开发与推理的顺利进行,了解硬件的精度支持范围至关重要。

重要限制:暂不支持 FP8

请注意: 根据当前公开资料,智铠100 硬件及软件栈主要针对 FP32FP16INT8 进行优化,尚未直接支持 FP8 量化格式

  • 建议:在选择或转换模型时,请优先使用 FP16 量化版本,以获得最佳的性能与兼容性。

支持的计算精度与性能

根据官方产品规格书(MR-V100),智铠100 加速卡的理论峰值性能如下:

精度类型性能指标适用场景
FP3224 TFLOPS通用科学计算、高精度推理
FP1696 TFLOPS深度学习推理主流格式
INT8192 TOPS高性能量化推理、视频分析
显存32 GB HBM2E大模型推理、高并发处理
视频解码128路 (1080P@30fps)安防监控、视频会议

数据参考产品规格表


3. 核心软件生态

IXUCA 是天数智芯自主研发的统一计算架构软件栈,兼容主流 GPU 通用计算模型,提供支持主流 GPU 通用计算模型的等效组件、特性、API 和算法,可助力用户便捷地实现系统或应用的无痛迁移。天数智算软件栈包括人工智能深度学习应用、主流框架、函数库、编译器及工具、运行时库及驱动。

核心优势与功能

  • 深度框架集成:IXUCA 集成了 TensorFlow, PyTorch 和 PaddlePaddle 等国内外主流的深度学习框架,提供与官方开源框架一致的算子,并针对天数智芯加速卡持续优化性能。
  • 高性能推理:IXUCA 提供 IGIE 推理框架IxRT 推理引擎,支持在天数智芯加速卡上实现最优推理性能。
  • 丰富的函数库:IXUCA 的函数库不仅支持通用计算还提供了深度学习应用开发所需的基础算子,开发者可以便捷地调用这些算子灵活地构造各类深度神经网络模型以及其他机器学习领域的算法。

兼容主流生态

  • 无痛迁移:软件栈设计高度兼容主流通用计算(CUDA)生态
  • 工具链完备:提供包含编译器、驱动、数学库(ixDNN, ixBLAS)、通信库(ixCCL)在内的全套开发工具,降低用户迁移与开发成本。

推理加速引擎与框架

  • IxFormer (vLLM):是天数智芯设计的专用于大模型推理和训练优化的加速框,支持业界目前主流大模型的推理加速,例如 vLLM、TGI、Xinference 等框架,实现大模型在天数智芯加速卡上的最佳推理性能。
  • IxRT (Iluvatar CoreX RunTime):是天数智芯的专用推理加速引擎,支持对业界主流训练框架的模型进行解析及优化。通过 IxRT 的自动部署工具即可将训练好的模型快速部署到天数智芯加速卡上,实现视觉、语音、推荐、自然语言等领域模型在天数智芯加速卡上的最优推理性能。
  • IGIE (Iluvatar GPU Inference Engine):是一个针对天数智芯加速卡研发的高性能、高通用、全流程的神经网络推理框架,通过对模型进行一系列图优化,算子融合、量化、集成多个加速算子库、AutoTune等优化手段。可为推理场景提供易部署、高吞吐量、低延迟的完整方案

4. AI 开发库:适配与版本管理

为了发挥智铠100 的最佳性能,建议使用天数智芯官方适配的 corex 框架版本。

版本识别与安装

官方适配的 Python 库通常会带有特定的标识(如 corex 或版本后缀)。

  • PyTorch:需安装天数智芯适配版的 PyTorch。
  • 安装建议:强烈建议直接使用官方提供的 Docker 镜像进行开发,镜像中已预置了正确的驱动、CUDA 兼容库及 AI 框架。
# 示例:检查环境中的适配包(具体名称以官方镜像为准)
pip list | grep corex

5. 模型部署建议

模型库支持列表

根据 DeepSparkInference 开源项目(截至 2025 年),智铠 100 已适配超过 200 个推理模型,覆盖 LLM、CV、NLP、语音等多个领域。以下为部分核心支持模型清单:

1. 大语言模型 (LLM) & 多模态

支持 vLLMTGILMDeploy 等主流框架及 IxRT 加速引擎。

模型系列核心模型引擎支持备注
DeepSeekDeepSeek-R1-Distill (Llama/Qwen), DeepSeek-OCRvLLM, Transformers涵盖 1.5B 到 70B 全系蒸馏模型
Qwen (通义)Qwen2.5/2/1.5 (7B-72B), Qwen-VL, Qwen2-VL, Qwen2.5-VLvLLM, TGI支持 VL 多模态及 MoE 架构
LlamaLlama 2 (7B/13B/70B), Llama 3 (70B)vLLM, TRT-LLM主流开源基座
InternLMInternLM3vLLM, LMDeploy书生浦语最新代
GLMChatGLM-3 (6B/32K), GLM-4VvLLM智谱 AI 系列
BaichuanBaichuan2-7BvLLM百川智能
多模态/其他MiniCPM-V/o, Phi-3-Vision, PaliGemma, NVLMvLLM端侧及多模态模型
其他 LLMERNIE-4.5, StableLM2, Step3, GemmaFastDeploy, vLLM广泛的开源生态支持

2. 计算机视觉 (CV)

支持 IGIE (TVM based) 和 IxRT (TensorRT compatible) 推理引擎,覆盖 FP16 及 INT8 量化。

任务类型模型系列精度支持备注
图像分类ResNet: 18, 34, 50, 101, 152, V1D50, ResNeSt, CSPResNet; MobileNet: V2, V3 (Large/Small); EfficientNet: B0-B7, V2 (S/M/L); DenseNet: 121, 161, 169, 201; ViT系列: DeiT, MViT, CLIP; 经典网络: VGG, InceptionV3, GoogLeNet, AlexNet, HRNet, RegNet, ConvNeXtFP16, INT8广泛支持主流 CNN 与 Transformer 视觉骨干
目标检测YOLO: v3, v4, v5, v8, v10; Face: RetinaFaceFP16, INT8包含动态 Shape 支持

3. 自然语言处理 (NLP) & 语音 (Audio)

领域模型名称引擎/框架说明
NLPBERT (Large/Base), XLMRoberta, E5-V (Embedding)IxRT, vLLM支持 SQuAD 等下游任务及 RAG 向量化
语音识别/生成Whisper, CosyVoice2-0.5B, UltravoxvLLM, PyTorch支持 ASR 与 TTS 任务

6. 监控工具:ixsmi 使用简明手册

ixsmi 是天数智芯 GPU 的命令行管理工具,功能对标 nvidia-smi

常用命令速查

功能命令说明
查看概览ixsmi显示 GPU 型号、显存使用、温度、功耗及驱动版本。
实时监控watch -n 1 ixsmi结合 watch 命令实现动态刷新。
查看内存ixsmi -q -d MEMORY显⽰当前 GPU 的内存使⽤情况。
查看利用率ixsmi -q -d UTILIZATION显⽰当前 GPU 的利⽤情况。
查看进程ixsmi -q -d PIDS显⽰运⾏在当前 GPU 上的进程。
查询 Device 状态ixsmi dmon以滚动⽅式显⽰每次取样时的 device 状态,每⾏显⽰⼀次取样,显⽰信息包括功率、温度、GPU 占⽤率、内存占⽤率、VPU 编码利⽤率、VPU 解码利⽤率、GPU 时钟频率和内存时钟频率。
查询进程状态ixsmi pmon以滚动⽅式显⽰每次取样时的进程状态,每⾏显⽰⼀次取样,显⽰信息包括 pid、GPU 占⽤率、内存占⽤率、VPU 编码利⽤率、VPU 解码利⽤率和进程名称。
拓扑查询ixsmi topo查看 GPU 之间的互联拓扑结构。

7. 平台与官方资源导航

官方技术支持

  • 开发者资源中心:获取最新的产品白皮书、硬件规格书;提供 SDK 下载、Docker 镜像获取及详细的 API 文档。
  • DeepSpark 开源社区:汇集了数百个经过验证的算法模型与落地案例,提供开箱即用的代码参考。