跳到主要内容

语音识别

基本介绍

语音识别是将语音信号转换为文本的技术。它的核心任务是将人类的语音输入转化为机器可以理解和处理的文字信息。语音识别技术广泛应用于语音助手、自动字幕生成、语音搜索等领域。

模型列表

目前模型广场已上线的语音识别模型如下表所示,这些模型基本都是支持多语种的语音识别,能否将不同语言的语音准确地转化为文本。

加载 Serverless API 服务列表...

在线体验

SenseVoiceSmall 模型为例,模型的输入是音频文件,输出是对应的文本内容。用户可以通过上传音频文件或提供音频 URL 的方式来使用该模型。 SenseVoiceSmall 支持多达 5 种语言的语音识别,包括中文、英文、粤语、日文、韩文等。

如下图所示:

语音识别

示例代码

以下是使用 Python 调用语音识别模型的示例代码:

python
import requests
from requests_toolbelt import MultipartEncoder
import os

API_URL = "https://ai.gitee.com/v1/audio/transcriptions"
API_TOKEN = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX" # 请替换为您的令牌
headers = {
"Authorization": f"Bearer {API_TOKEN}"
}

def query(payload):
fields = [
("model", payload["model"]), # 模型名称
("language", payload["language"]),
("file", (os.path.basename(payload["file"]), open(payload["file"], "rb"), "audio/wav")),
]
encoder = MultipartEncoder(fields)
headers["Content-Type"] = encoder.content_type
response = requests.post(API_URL, headers=headers, data=encoder)
return response.json()

output = query({
"model": "SenseVoiceSmall",
"language": "zh"
})
print(output)