语音生成模型-声纹参数配置指南

基本介绍

目前 Serverless API 的语音生成模型 CosyVoice-300M、ChatTTS、fish-speech-1.2-sft 支持识别音频的声音数据，生成和样本一致的声音。可应用于定制化语音助手，虚拟角色声音制作等场景。

alt text

简要操作步骤

只需在语音生成模型的参数设置中配置 voice_url ，以 url 的形式传递 .pt 格式的声纹文件给模型，即可生成和文件中声音特征一致的音频。主要包括以下几个关键步骤：

制作.pt 格式的声纹文件，可以通过音频文件转制而成，不同模型所要求的声纹文件不同：

CosyVoice-300M 和 fish-speech-1.2-sft 模型可使用 Gitee AI 提供的声纹文件接口制作。
ChatTTS 模型可使用 ChatTTS 声音克隆工具 http://region-9.autodl.pro:41137/ 制作。

将制作好的 .pt 格式的声纹文件，存放在公开可下载的地址，比如放在您的 Gitee 代码仓库中。
复制下载地址至下图模型中的 voice_url 参数，最后输入文本并运行，就能生成与文件音色一致的声音了。

alt text

详细操作步骤：

步骤1：制作.pt 格式的声纹文件

1.1 制作音频文件

使用录音软件录制吐字清晰的音频，时长建议保持在 5-15 秒，文件格式为 .mp3 或 .m4a ，建议文件不易过大。

1.2 生成 CosyVoice-300M 和 fish-speech-1.2-sft 模型的声纹文件

将音频文件上传至 Gitee AI 提供的声音特征提取接口，下面是接口的详细说明：

功能描述

该接口用于处理音频文件，提取关键音频特征

注意事项

文件大小限制：小于 5 M
支持的音频格式：.mp3 或 .m4a
该接口可以提取音频中的关键特征用于后续处理和分析

调用方式

HTTPS 调用

POST https://ai.gitee.com/api/serverless/FunAudioLLM-CosyVoice-300M/voice-feature-extraction

请求参数

参数位置	名称	类型	必填	说明
Header	Authorization	string	是	访问令牌，可在工作台->设置->访问令牌，进行生成获取。值格式："Bearer access_token"，示例值："Bearer t-g1044qeGEDXTB6NDJOGV4JQCYDGHRBARFTGT1234"
form-data	file	file	是	语音内容。注意：Content-Type 为 application/octet-stream，示例值为二进制文件。
form-data	prompt_text	string	是	提词内容。注意：与录音内容一致的文字描述。

返回参数

HTTP状态码为 200 时，表示成功。返回文件二进制流。

cURL 示例

cURL
--location --request POST 'https://ai.gitee.com/api/serverless/FunAudioLLM-CosyVoice-300M/voice-feature-extraction'
--header 'Authorization: Bearer 输入你的 Gitee AI 访问令牌 '
--form 'file=@"上传.mp3 或.m4a格式的文件"'
--form 'prompt_text="和录音内容一致的文字描述“’

使用 APIfox 接口工具请求示例

1）新建接口井输入接口地址。

2）添加 Authorization 参数，参数值可以在 Gitee Al 工作台-访问令牌获取。

3）选择 Body -> form-data 。

4）添加 file 参数，并上传音频文件；添加 prompt_text 参数，参数值是和录音内容一致的文字描述，添加完成后点击发送。

5）请求成功后，下载接口返回的文件，并修改文件名为 xxxx.pt。

alt text