部署文本模型(vLLM/SGLang等)
推理框架介绍
- vLLM: 专为生产环境设计的高吞吐量推理服务框架。
- SGLang: 一个为大型语言模型(LLM)设计的高性能推理引擎,擅长处理复杂的 prompt 和并发请求。
前提条件
请注意,不同的推理框架需要使用相适配的镜像。
在接下来的部署教程中,我们将以 Qwen3 系列模型 为例。您只需将文档中 的模型名称替换为您需要使用的模型在 Hugging Face 或 Gitee Models 上的 repository ID 即可。
如果您计划使用其他大模型,请确保切换为对应的模型名称。若遇到最新的模型,可能需要升级镜像以保证兼容性,届时请联系我们获取支持。
使用 vLLM 部署
vLLM 是一个为生产环境设计的推理优化引擎,通过 PagedAttention 等技术,它能实现极高的吞吐量和低延迟。
步骤 1: 选择算力型号和镜像版本
以沐曦 曦云C500型号 为例,租用一张64GB,镜像选择 vLLM / vllm:0.10.0 / Python 3.10 / maca 3.1.0.7
提示
如果您使用的是燧原 Enflame S60型号, 镜像选择Ubuntu / 22.04 / Python 3.13 / ef 1.5.0.604,以下教程不适用燧原启动vllm服务,具体请参考燧原 vllm-gcu部署指南

步骤 2: 点击JupyterLab,进入到容器

步骤 3: 打开终端,启动推理服务器
在您的终端中运行以下命令。vLLM 会自动从 Hugging Face 下载模型并启动一个 OpenAI 兼容的 API 服务器。
vllm serve Qwen/Qwen3-0.6B --port 8188

运行成功后,vllm服务器将会监听 http://localhost:8188。

何时使用: 当你需要为应用程序提供一个稳定、高性能的后端推理服务,并处理大量并发请求时,vLLM 是理想选择。
提示
如何在本地机器访问主机上部署的模型,请参考 vllm/sglang的模型服务调用