跳到主要内容

语音生成模型-声纹参数配置指南

基本介绍

目前 Serverless API 的语音生成模型 CosyVoice-300MChatTTSfish-speech-1.2-sft 支持识别音频的声音数据,生成和样本一致的声音。可应用于定制化语音助手,虚拟角色声音制作等场景。

alt text

简要操作步骤

只需在语音生成模型的参数设置中配置 voice_url ,以 url 的形式传递 .pt 格式的声纹文件给模型,即可生成和文件中声音特征一致的音频。主要包括以下几个关键步骤:

  1. 制作.pt 格式的声纹文件,可以通过音频文件转制而成,不同模型所要求的声纹文件不同:
  • CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作。
  • ChatTTS 模型可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。
  1. 将制作好的 .pt 格式的声纹文件,存放在公开可下载的地址,比如放在您的 Gitee 代码仓库中。

  2. 复制下载地址至下图模型中的 voice_url 参数,最后输入文本并运行,就能生成与文件音色一致的声音了。

alt text

详细操作步骤:

步骤1:制作.pt 格式的声纹文件

1.1 制作音频文件

使用录音软件录制吐字清晰的音频,时长建议保持在 5-15 秒,文件格式为 .mp3 或 .m4a ,建议文件不易过大。

1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件

将音频文件上传至 Gitee AI 提供的声音特征提取接口,下面是接口的详细说明:

功能描述

该接口用于处理音频文件,提取关键音频特征

注意事项

  • 文件大小限制:小于 5 M
  • 支持的音频格式:.mp3 或 .m4a
  • 该接口可以提取音频中的关键特征用于后续处理和分析

调用方式

HTTPS 调用

POST https://ai.gitee.com/api/serverless/FunAudioLLM-CosyVoice-300M/voice-feature-extraction

请求参数

参数位置名称类型必填说明
HeaderAuthorizationstring访问令牌,可在工作台->设置->访问令牌,进行生成获取。值格式:"Bearer access_token",示例值:"Bearer t-g1044qeGEDXTB6NDJOGV4JQCYDGHRBARFTGT1234"
form-datafilefile语音内容。注意:Content-Type 为 application/octet-stream,示例值为二进制文件。
form-dataprompt_textstring提词内容。注意:与录音内容一致的文字描述。

返回参数

HTTP状态码为 200 时,表示成功。返回文件二进制流。

cURL 示例

cURL
--location --request POST 'https://ai.gitee.com/api/serverless/FunAudioLLM-CosyVoice-300M/voice-feature-extraction'
--header 'Authorization: Bearer 输入你的 Gitee AI 访问令牌 '
--form 'file=@"上传.mp3 或.m4a格式的文件"'
--form 'prompt_text="和录音内容一致的文字描述“’

使用 APIfox 接口工具请求示例

1)新建接口井输入接口地址。

2)添加 Authorization 参数,参数值可以在 Gitee Al 工作台-访问令牌获取。

3)选择 Body -> form-data 。

4)添加 file 参数,并上传音频文件;添加 prompt_text 参数,参数值是和录音内容一致的文字描述,添加完成后点击发送。

5)请求成功后,下载接口返回的文件,并修改文件名为 xxxx.pt。

alt text

alt text

alt text

1.3 生成 ChatTTS 模型的声纹文件

1) 访问 Chattts 的声音克隆工具 http://region-9.autodl.pro:41137/

alt text

2)上传/录制音频,点击 submit 。等待生成

3) 生成成功后,请下载 ChatTTS pypi 版本的 pt 文件

alt text

步骤2:上传声纹文件并获取下载地址

语音生成模型的 voice_url 参数需要读取声纹文件,所以我们需要将声纹文件上传至网盘或其他可下载的公共空间,并获取文件下载的 url,配置到语音模型的 voice_url 参数即可。

推荐您在 Gitee 创建或选择一个公开的仓库,将.pt 文件上传至仓库中。在 Gitee 仓库中找到上传的文件,点击文件名称进入下载,鼠标右击下载并复制下载地址,如下所示:

alt text alt text alt text

步骤3:在模型参数中粘贴地址

根据您生成的 pt 文件类型,选择 CosyVoice-300MChatTTSfish-speech-1.2-sft ,粘贴声纹文件下载地址到 voice_url 参数,输入文字并运行。即可生成和声纹音色一致的声音。

alt text

您可以制作个人或特定声音的声纹文件 url,体验不同模型生成效果,将模型 API 集成到您的业务中,实现多种有趣又有用的应用。