跳到主要内容

部署文本模型(vLLM/SGLang等)

推理框架介绍

  1. vLLM: 专为生产环境设计的高吞吐量推理服务框架。
  2. SGLang: 一个为大型语言模型(LLM)设计的高性能推理引擎,擅长处理复杂的 prompt 和并发请求。

前提条件

请注意,不同的推理框架需要使用相适配的镜像。

在接下来的部署教程中,我们将以 Qwen3 系列模型 为例。您只需将文档中的模型名称替换为您需要使用的模型在 Hugging Face 或 Gitee Models 上的 repository ID 即可。

如果您计划使用其他大模型,请确保切换为对应的模型名称。若遇到最新的模型,可能需要升级镜像以保证兼容性,届时请联系我们获取支持。

使用 vLLM 部署

vLLM 是一个为生产环境设计的推理优化引擎,通过 PagedAttention 等技术,它能实现极高的吞吐量和低延迟。

步骤 1: 选择算力型号和镜像版本

以沐曦 曦云C500型号 为例,租用一张64GB,镜像选择 vLLM / vllm:0.10.0 / Python 3.10 / maca 3.1.0.7

提示

如果您使用的是燧原 Enflame S60型号, 镜像选择Ubuntu / 22.04 / Python 3.13 / ef 1.5.0.604,以下教程不适用燧原启动vllm服务,具体请参考燧原 vllm-gcu部署指南

进入容器

步骤 2: 点击JupyterLab,进入到容器

进入容器

步骤 3: 打开终端,启动推理服务器

在您的终端中运行以下命令。vLLM 会自动从 Hugging Face 下载模型并启动一个 OpenAI 兼容的 API 服务器。

vllm serve Qwen/Qwen3-0.6B --port 8188

进入容器

运行成功后,vllm服务器将会监听 http://localhost:8188

进入容器

何时使用: 当你需要为应用程序提供一个稳定、高性能的后端推理服务,并处理大量并发请求时,vLLM 是理想选择。

提示

如何在本地机器访问主机上部署的模型,请参考 vllm/sglang的模型服务调用

使用 SGLang 部署

SGLang (Structured Generation Language) 是一个兼具高性能和灵活性的推理引擎,尤其适合需要复杂控制逻辑(如 CoT、多步推理)的场景。

步骤 1: 选择算力型号和镜像版本

以沐曦 曦云C500型号 为例,租用一张64GB,镜像选择 SgLang / sglang:0.4.8 / Python 3.10 / maca 3.1.0.8

提示

燧原 Enflame S60型号 暂不支持SGLang推理服务。

进入容器

步骤 2: 点击JupyterLab,进入到容器

进入容器

步骤 3: 打开终端,启动推理服务器

与 vLLM 类似,SGLang 也可以启动一个兼容 OpenAI 的服务器。

python -m sglang.launch_server --model-path Qwen/Qwen3-0.6B --port 8188
  • --model-path: 指定模型路径。
  • --port: 指定服务端口。

进入容器

进入容器

何时使用: 当你需要一个高性能的推理服务,并且需要实现复杂的生成逻辑(如链式生成、带约束的生成、多角色对话模拟等)时,SGLang 提供了比标准 API 更强大的编程能力。

提示

如何在本地机器访问主机上部署的模型,请参考 vllm/sglang的模型服务调用

访问主机上的vllm/sglang的推理服务器

由于安全问题暂不提供对外访问的公网端口,但是可以通过隧道代理的方式连接容器实例进而在本地访问容器实例上的推理服务器

  1. 进入到容器实例的工作台,设置密码 找到您刚刚租用的算力型号,点击设置密码, 如果后续忘记密码可再次设置密码,进行重置。

工作台

  1. 打开本地机器的终端

设置完密码后,返回到电脑桌面,打开文件资源管理器我的电脑,在顶部的地址栏中输入 cmd 并按回车键,即可打开终端命令行。

打开我的电脑

  1. 输入SSH隧道代理指令

复制您所用租用算力的地址、用户名以及端口,组合成SSH隧道代理指令,然后输入到刚刚打开的终端命令行

复制容器信息

输入SSH指令

SSH隧道代理格式:ssh -CNg -L 8188:127.0.0.1:8188 用户名@地址 -p 端口

SSH隧道代理示例:ssh -CNg -L 8188:127.0.0.1:8188 root@140.207.205.81 -p 50821

  1. 在本地机器上访问模型

隧道代理成功后你可以同该地址来访问模型 http://localhost:8188/v1

打开一个新的终端窗口,运行以下 curl 命令,可以直接向 主机向vLLM 服务器发送请求。

curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-0.6B",
"messages": [
{"role": "system", "content": "你是一个乐于助人的AI助手。"},
{"role": "user", "content": "请解释一下什么是黑洞?"}
],
"temperature": 0.7,
"max_tokens": 512
}'

专属大模型,赋能您的定制化应用

完成以上的操作,你将拥有专属的大模型服务,除了使用模力方舟的Serverless api,还可基于算力容器构建的大模型服务连接诸如此类的第三方应用claude codedifycherryN8N等,更多细节请参考第三方应用集成,您将享受到独占资源带来的极致低延迟、无需排队的服务体验,并彻底摆脱对上下文Token消耗的顾虑。