内置模型库使用指南

概述

为提升开发效率，平台针对 曦云 C500 及 燧原 S60 算力集群预置了高性能本地模型库。该模型库集成了一系列经过筛选的主流开源模型，存储于高速共享存储中。用户可直接通过本地路径加载，无需消耗流量下载，亦无需等待模型加载时间，实现即刻部署。

适用范围

内置模型库仅支持以下算力型号：

沐曦 (MetaX) 曦云 C500
燧原 (Enflame) S60

注：其他算力型号暂未挂载此存储卷，请勿尝试调用。

核心特性

零下载，即开即用：模型以只读方式预存于 /mnt/moark-models/ 目录，免去数 GB 乃至数 TB 文件的下载耗时。
标准化路径调用：完全兼容 Hugging Face transformers、diffusers 等主流框架的本地加载方式，仅需修改路径参数。
持续更新：平台定期同步业界热门模型（如 FLUX, Qwen, DeepSeek 等），保障算法库的时效性。

内置模型清单

目录确认

由于模型库会持续更新，下表仅为参考。在代码调用前，请务必在终端执行 ls /mnt/moark-models/ 以确认当前实际存在的模型目录名称。

1. 图像与视觉生成 (AIGC)

模型名称 (Repo ID)	简介	典型应用场景
Qwen-Image	通义千问图像生成模型，擅长中文文字渲染与复杂排版。	海报设计、带文字图像生成、电商图
Qwen-Image-2512	Qwen-Image 升级版，增强图像编辑与风格迁移能力。	电商改图、素材编辑、海报改稿
FLUX.1-Krea-dev	面向创意与高质量风格化生成的 FLUX 变体。	概念设计、视觉风格探索
FLUX.2-klein-4B	轻量化 FLUX 模型，平衡质量与推理速度。	快速原型设计、实时生成
Z-Image	高质量文生图模型，强调细节与真实感。	商业摄影风格生成、产品展示
LongCat-Image	文生图模型，强调多主体与复杂构图的稳定性。	动物主题创作、内容生产

2. 光学字符识别 (OCR)

模型名称 (Repo ID)	简介	典型应用场景
PaddleOCR-VL-1.5	百度飞桨推出的轻量级视觉语言模型，针对中文表格、公式优化。	财报分析、学术论文提取、多语言识别
DeepSeek-OCR-2	采用光学 2D 映射技术，优化上下文压缩效率，擅长复杂布局文档。	票据识别、长文档数字化、PDF 解析
Qwen3-VL-4B	视觉语言模型，支持图像文字识别与多模态问答。	票据识别、文档解析、图像内容理解

3. 通用语言模型 (LLM)

模型名称 (Repo ID)	简介	典型应用场景
Qwen3-0.6B	轻量级通用模型，适合低成本推理与轻量对话。	文本分类、轻量对话、简单指令遵循
Qwen3-8B	通义千问中型模型，原生支持 32K 上下文，具备思考模式增强推理。	知识库问答、逻辑推理、内容创作

4. 语音识别 (ASR)

模型名称 (Repo ID)	简介	典型应用场景
whisper-large-v3-turbo	OpenAI Whisper 高性能版本，平衡速度与精度。	会议转写、实时字幕、语音检索
Qwen3-ASR-1.7B	通义千问语音识别模型，针对中文语音优化。	中文会议记录、客服质检、语音助手
Whisper-small	轻量级语音识别模型，适合快速转写与原型验证。	资源受限场景、边缘设备部署

5. 语音合成 (TTS)

模型名称 (Repo ID)	简介	典型应用场景
IndexTTS-2	支持零样本语音克隆的高质量 TTS 框架，可解耦情感与音色。	配音、语音助手、情感语音生成
Qwen3-TTS-12Hz-1.7B-Base	通义千问语音合成基座模型，12kHz 采样率，支持中文自然表达。	有声读物、智能客服、虚拟主播

调用方式与代码示例

步骤一：确认模型路径

在实例终端中检查模型文件夹名称，确保代码中路径拼写正确。

# 进入挂载目录并列出所有模型
cd /mnt/moark-models/
ls -F

步骤二：加载模型

在 Python 代码中，将原本指向 Hugging Face Hub 的 model_id 替换为本地绝对路径即可。

示例：加载 Qwen-Image (Diffusers)

from diffusers import DiffusionPipeline
import torch

# 1. 定义本地模型库的绝对路径
# 注意：请根据步骤一 ls 的结果填写具体的子文件夹名称
local_model_path = "/mnt/moark-models/Qwen-Image"

# 2. 从本地路径加载模型
# 此时不会触发网络下载，加载速度受限于磁盘 I/O，通常极快
pipe = DiffusionPipeline.from_pretrained(
    local_model_path,
    torch_dtype=torch.float16,
    use_safetensors=True
)

print("模型加载成功！")

示例：加载 Qwen3-LLM (Transformers)

from transformers import AutoModelForCausalLM, AutoTokenizer

local_model_path = "/mnt/moark-models/Qwen3-0.6B"

# 加载 Tokenizer 和 Model
tokenizer = AutoTokenizer.from_pretrained(local_model_path)
model = AutoModelForCausalLM.from_pretrained(
    local_model_path,
    device_map="auto"
)

概述​

核心特性​

内置模型清单​

1. 图像与视觉生成 (AIGC)​

2. 光学字符识别 (OCR)​

3. 通用语言模型 (LLM)​

4. 语音识别 (ASR)​

5. 语音合成 (TTS)​

调用方式与代码示例​

步骤一：确认模型路径​

步骤二：加载模型​

示例：加载 Qwen-Image (Diffusers)​

示例：加载 Qwen3-LLM (Transformers)​

概述