内置模型库使用指南
概述
为提升开发效率,平台针对 曦云 C500 及 燧原 S60 算力集群预置了高性能本地模型库。该模型库集成了一系列经过筛选的主流开源模型,存储于高速共享存储中。用户可直接通过本地路径加载,无需消耗流量下载,亦无需等待模型加载时间,实现即刻部署。
适用范围
内置模型库仅支持以下算力型号:
- 沐曦 (MetaX) 曦云 C500
- 燧原 (Enflame) S60
注:其他算力型号暂未挂载此存储卷,请勿尝试调用。
核心特性
- 零下载,即开即用:模型以只读方式预存由于
/mnt/moark-models/目录,免去数 GB 乃至数 TB 文件的下载耗时。 - 标准化路径调用:完全兼容 Hugging Face
transformers、diffusers等主流框架的本地加载方式,仅需修改路径参数。 - 持续更新:平台定期同步业界热门模型(如 FLUX, Qwen, DeepSeek 等),保障算法库的时效性。
内置模型清单
目录确认
由于模型库会持续更新,下表仅为参考。在代码调用前,请务必在终端执行 ls /mnt/moark-models/ 以确认当前实际存在的模型目录名称。
1. 图像与视觉生成 (AIGC)
| 模型名称 (Repo ID) | 简介 | 典型应用场景 |
|---|---|---|
| FLUX.1-dev | 120亿参数流变换器 (Flow Transformer) 架构,当前开源界画质与语义理解的顶尖水平。 | 商业级艺术创作、高细节概念设计 |
| FLUX.1-schnell | FLUX.1 的高速蒸馏版本,推理速度极快(1-4 步),兼顾质量与效率。 | 实时图像生成、快速原型验证 |
| Qwen-Image | 阿里通义千问团队出品,擅长中英文渲染及复杂排版,支持风格迁移与主体编辑。 | 海报设计、带文字图像生成、电商图 |
| Qwen3-VL-8B | 全能型视觉语言模型,支持视频/图像理解、OCR 及 GUI 智能代理。 | 视觉问答系统、文档自动化、视频分析 |
| Qwen3-VL-4B | 8B 的轻量化 版本,在保持多模态能力的同时显著降低显存占用。 | 边缘侧应用、移动端部署研究 |
2. 光学字符识别 (OCR)
| 模型名称 (Repo ID) | 简介 | 典型应用场景 |
|---|---|---|
| DeepSeek-OCR | 采用光学 2D 映射技术,极大优化了上下文压缩效率,擅长复杂布局文档。 | 票据识别、长文档数字化、PDF 解析 |
| PaddleOCR-VL | 百度飞桨推出的轻量级模型,针对中文表格、公式及图表进行了专项优化。 | 财报分析、学术论文提取、多语言识别 |
3. 通用语言模型 (LLM)
| 模型名称 (Repo ID) | 简介 | 典型应用场景 |
|---|---|---|
| MiniMax-M2 | 2300亿参数 MoE 架构(激活100亿),专精于 Agent 工具调用与复杂代码生成。 | 企业级 AI Agent、代码助手、复杂逻辑处理 |
| Qwen3-8B | 通义千问新一代中型模型,原生支持 32K 上下文,具备双模式(思考/非思考)切换能力。 | 知识库问答、逻辑推理、内容创作 |
| Qwen3-4B | 平衡性能与资源消耗的最佳实践,适合大多数消费级显卡的部署需求。 | 教学研究、轻量级对话服务 |
| Qwen3-0.6B | 极轻量级模型,专为高频、低延迟的特定任务设计。 | 文本分类、敏感词过滤、简单指令遵循 |
4. 视频与动画生成
| 模型名称 (Repo ID) | 简介 | 典型应用场景 |
|---|---|---|
| Wan2.2-Animate | 专注于图生视频 (Image-to-Video),可精确控制角色动作与表情迁移。 | 虚拟人驱动、动态表情包、动画制作 |