WhisperLiveKit

Web 应用语音视频
立即访问
应用介绍

WhisperLiveKit 用于实时、本地语音转文本和说话人分类的 Python 包。FastAPI 服务器和 Web 界面。

直接将语音实时转录到您的浏览器,具有即用型后端+服务器和简单的前端。


由领先的研究提供支持:

SimulStreaming (SOTA 2025) - 使用 AlignAtt 策略的超低延迟转录

WhisperStreaming (SOTA 2023) - 使用 LocalAgreement 策略进行低延迟转录

流式分拣机 (SOTA 2025) - 先进的实时说话人分类

Diart (SOTA 2021) - 实时说话人日记

Silero VAD (2024) - 企业级语音活动检测


🎯 为什么不在每个音频批次上运行一个简单的 Whisper 模型呢?

Whisper 专为完整的话语而设计,而不是实时块。处理小片段会丢失上下文,在音节中间切断单词,并产生不良的转录。

WhisperLiveKit 使用最先进的同步语音研究进行智能缓冲和增量处理。