跳到主要内容

Gitee AI MCP Server

Gitee AI MCP 服务是一个用于 Gitee AI 的模型上下文协议(Model Context Protocol,MCP)服务。它提供了强大的多媒体生成能力,包括文本生成图片和文本生成语音功能,使 AI 助手能够创建丰富的视觉和音频内容。

快速开始
  1. 访问 https://ai.gitee.com/dashboard/settings/tokens 获取您的 Access Token。

  2. 在客户端(如 cursor)中配置 MCP 服务。
    Install MCP Server

功能特点

  • 文本生成图片:支持多种图像生成模型,可根据文本描述创建高质量图片
  • 文本生成语音:将文本转换为自然语音,支持多种音频格式
  • 可配置的 API 基础 URL,支持不同的 Gitee AI 实例
  • 支持多种响应格式(Base64、URL、二进制流等)
  • 灵活的参数配置,满足不同使用场景

实战场景:多媒体内容创作

  1. 根据文字描述生成配图
    image

  2. 为文档或演示创建语音旁白

  3. 批量生成营销素材
    poster

MCP Hosts 配置

开始使用

配置 Gitee AI MCP 服务需要提供有效的 Access Token 进行身份验证。

{
"mcpServers": {
"gitee-ai": {
"url": "https://ai.gitee.com/mcp/sse",
"headers": {
"Authorization": "Bearer <your_access_token>"
}
}
}
}

Claude Desktop 配置示例

  1. 打开 Claude Desktop 配置文件:

    • macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
    • Windows: %APPDATA%\Claude\claude_desktop_config.json
  2. 添加 MCP 服务器配置:

claude_desktop_config.json
{
"mcpServers": {
"gitee-ai": {
"url": "https://ai.gitee.com/mcp/sse",
"headers": {
"Authorization": "Bearer <YOUR_ACCESS_TOKEN>"
}
}
}
}
  1. 重启 Claude Desktop

可用工具

服务器提供了以下多媒体生成工具:

图片生成工具

工具名称端点描述
text_to_image/images/generations根据文本描述生成图片

功能特性:

  • 支持多种图像生成模型(如 stable-diffusion-3.5-large-turbo)
  • 可配置图片尺寸(如 1024x1024)
  • 支持参考图片输入(base64 或 URL)
  • 多种响应格式:Base64 编码或 URL 链接
  • 支持用户标识符追踪

请求参数:

  • model(必需):模型名称
  • prompt(必需):文本描述
  • size:图片尺寸
  • image:参考图片
  • response_format:响应格式(b64_json 或 url)
参数注意事项
  • 模型名称支持带有命名空间,例如 stable-diffusion-3.5-large-turbostabilityai/stable-diffusion-3.5-large-turbo
  • 目前 n 参数只支持值为 1,即每次只能生成一张图片

语音合成工具

工具名称端点描述
text_to_speech/audio/speech将文本转换为语音

功能特性:

  • 支持多种语音合成模型(如 whisper-large-v3-turbo)
  • 多种音频格式输出(wav、mp3)
  • 灵活的响应方式:二进制流或 URL 链接
  • 生成的音频 URL 有效期为 1 小时

请求参数:

  • model(必需):模型名称
  • input(必需):输入文本
  • response_format:响应格式(url 或 blob,默认为 blob)
音频文件提醒

当选择 response_format: "url" 时,返回的音频文件下载链接有效期为 1 小时,请及时下载保存。

集成说明

Gitee AI MCP 服务可以轻松集成到支持 MCP 协议的各种 AI 助手和应用中,为用户提供强大的多媒体内容生成能力。通过这些工具,AI 助手可以:

  • 为用户的创意想法快速生成视觉内容
  • 将文字内容转换为音频,提供更丰富的交互体验
  • 支持内容创作、教育培训、营销推广等多种应用场景