跳到主要内容

语音合成

基本介绍

语音生成是指通过人工智能模型,生成语音音频的技术。它的核心任务是将文字转化为听得见的声音,通常是人类语音的形式。语音生成模型可以模拟人类的语音特征,包括音色、语调、语速等,使得生成的语音听起来更自然、更真实。

模型列表

目前模型广场已上线的的语音生成模型包括:

加载 Serverless API 服务列表...

注意每个模型的使用方式可能略有不同,具体请参考对应模型的体验页面。

在线体验

F5-TTS 模型为例,模型的输入是文本内容,输出是对应的音频文件。用户可以通过输入文本来使用该模型。

如下图所示:

语音合成

同时,您可以自定义声纹。F5-TTS 的声纹要求录制一段 WAV 格式的示例录音,以及对应该录音的文字内容作为声纹信息。

关于声纹的使用方法请参考 声纹使用指南

示例代码

以下是使用 Python 调用语音生成模型的示例代码:

python
from openai import OpenAI

client = OpenAI(
base_url="https://ai.gitee.com/v1",
api_key="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX", # 请替换为您的令牌
)

response = client.audio.speech.create(
input="你好,我是开源中国的模力方舟。",
model="F5-TTS",
extra_body={
"prompt_audio_url": "https://gitee.com/realhugh/imgs/raw/master/jay_prompt.wav",
"prompt_text": "对我来讲是一种荣幸,但是也是压力蛮大的。不过我觉得是一种呃很好的一个挑战。",
},
voice="alloy",
)