部署生图模型(Transformers)

推理框架介绍

Hugging Face Transformers: 适用于快速原型设计、研究和微调，是最基础和灵活的方式。

前提条件

请注意，不同的推理框架需要使用相适配的镜像。

在接下来的部署教程中，我们将以 Qwen/Qwen-Image 系列模型为例。您只需将文档中的模型名称替换为您需要使用的模型在 Hugging Face 或 Gitee Models 上的 repository ID 即可。

如果您计划使用其他大模型，请确保切换为对应的模型名称。若遇到最新的模型，可能需要升级镜像以保证兼容性，届时请联系我们获取支持。

使用 Hugging Face Transformers 部署

transformers 库提供了最直接的方式来下载和运行模型，非常适合在本地进行交互式测试和开发。

步骤 1: 选择算力型号和镜像版本

以沐曦 曦云C500型号 为例，租用一张64GB，镜像选择 PyTorch / 2.6.0 / Python 3.10 / maca 3.2.1.3

提示

如果您使用的是燧原 Enflame S60型号，镜像选择Ubuntu / 22.04 / Python 3.13 / ef 1.5.0.604

镜像选择

步骤 2: 点击JupyterLab，进入到容器

进入容器

步骤 2: 新建.ipynb文件

点击"notebook"，新建一个.ipynb文件

进入容器

输入以下脚本将加载模型和分词器，然后生成图片。

from diffusers import DiffusionPipeline
import torch

model_name = "Qwen/Qwen-Image"

# Load the pipeline
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)


# Generate image
prompt = '''一张 9:16 竖版逼真的赛博美学未来社交软件界面照片：一只手拿着一张竖直半透明的亚克力卡片，占据了大部分画面。上面显示着一个社交媒体个人资料界面，但没有任何横幅或背景图片。卡片有平滑的圆润边缘，闪烁着柔和的霓虹灯光，呈现出粉色、紫色和蓝色的渐变。背景黑暗而模糊，以突出发光的边缘。卡片表面如水晶般清澈，个人资料的细节仿佛雕刻，只显示参考图中的信息，按照顺序依次显示： - 头像（居中） - 用户名、顶部的认证徽章: -网站信息：Moark.ai - 加入日期 2025/11/7 - 关注数和被关注数 99999+ - 关注按钮 手指上的灯光反射看起来富有电影感和氛围感，营造出一种高科技的全息氛围。】'''

negative_prompt = " " # using an empty string if you do not have specific concept to remove


# Generate with different aspect ratios
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472),
    "3:2": (1584, 1056),
    "2:3": (1056, 1584),
}

width, height = aspect_ratios["9:16"]

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]

生成图片

何时使用: 当你需要对模型进行深入研究、修改模型内部逻辑、进行微调或只是简单地在本地运行模型时，transformers 是最佳选择。

访问主机上的模型

由于安全问题暂不提供对外访问的公网端口，若想要在本地访问容器实例上的模型，可快速通过Fastapi等web服务框架，将transformers部署的模型封装成对外暴露的推理API，再通过隧道代理的方式连接容器实例进而在本地访问容器实例上的模型推理API，假设您的API暴露在容器实例的8188端口，请求的地址路径为v1，那么只需要让本地与容器实例的8188端口建立隧道代理即可。

进入到容器实例的工作台,设置密码找到您刚刚租用的算力型号，点击设置密码, 如果后续忘记密码可再次设置密码，进行重置。

工作台

打开本地机器的终端

设置完密码后，返回到电脑桌面，打开文件资源管理器或我的电脑，在顶部的地址栏中输入 cmd 并按回车键，即可打开终端命令行。

打开我的电脑

输入SSH隧道代理指令

复制您所用租用算力的地址、用户名以及端口，组合成SSH隧道代理指令，然后输入到刚刚打开的终端命令行

复制容器信息

输入SSH指令

SSH隧道代理格式：ssh -CNg -L 8188:127.0.0.1:8188 用户名@地址 -p 端口

SSH隧道代理示例：ssh -CNg -L 8188:127.0.0.1:8188 root@140.207.205.81 -p 50821

在本地机器上访问模型

隧道代理成功后你可以用该地址来访问模型 http://localhost:8188/v1

打开一个新的终端窗口，通过 curl 命令，请求 http://localhost:8188/v1，访问容器实例上的模型推理服务。

推理框架介绍​

前提条件​

使用 Hugging Face Transformers 部署​

步骤 1: 选择算力型号和镜像版本​

步骤 2: 点击JupyterLab，进入到容器​

步骤 2: 新建.ipynb文件​

访问主机上的模型​