语音合成

基本介绍

语音生成是指通过人工智能模型，生成语音音频的技术。它的核心任务是将文字转化为听得见的声音，通常是人类语音的形式。语音生成模型可以模拟人类的语音特征，包括音色、语调、语速等，使得生成的语音听起来更自然、更真实。

模型列表

目前模型广场已上线的的语音生成模型包括：

加载 Serverless API 服务列表...

注意每个模型的使用方式可能略有不同，具体请参考对应模型的体验页面。

在线体验

以 F5-TTS 模型为例，模型的输入是文本内容，输出是对应的音频文件。用户可以通过输入文本来使用该模型。

如下图所示：

语音合成

同时，您可以自定义声纹。F5-TTS 的声纹要求录制一段 WAV 格式的示例录音，以及对应该录音的文字内容作为声纹信息。

关于声纹的使用方法请参考声纹使用指南。

示例代码

以下是使用 Python 调用语音生成模型的示例代码：

python
from openai import OpenAI

client = OpenAI(
	base_url="https://ai.gitee.com/v1",
	api_key="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX", # 请替换为您的令牌
)

response = client.audio.speech.create(
	input="你好，我是开源中国的模力方舟。",
	model="F5-TTS",
	extra_body={
		"prompt_audio_url": "https://gitee.com/realhugh/imgs/raw/master/jay_prompt.wav",
		"prompt_text": "对我来讲是一种荣幸，但是也是压力蛮大的。不过我觉得是一种呃很好的一个挑战。",
	},
	voice="alloy",
)

更多示例代码您可参考模力方舟示例代码仓库。

基本介绍​

模型列表​

在线体验​

示例代码​

基本介绍

模型列表

在线体验

示例代码