WhisperLiveKit

Web 应用语音视频
立即访问
应用介绍

WhisperLiveKit 是一个开源的实时语音处理工具,结合前端浏览器与后端服务,支持本地运行。它能在超低延迟下完成语音转文字,并提供 多语言翻译、说话人识别、语音活动检测 等功能。


🎯 核心功能与特性

🎙 实时语音转文字:基于 Whisper 与 Simul-Whisper,实现超低延迟的实时转录

🌍 多语言翻译:支持 NLLW/NLLB,覆盖 200 种语言的双向翻译

🗣 说话人识别:集成 Sortformer 与 Diart,实现实时说话人分离与标注

🔊 语音活动检测:采用 Silero VAD,降低无声时的计算开销

高性能架构:支持多用户并发,智能缓冲与增量处理,避免语音切割丢失上下文

💻 前后端一体化:提供 Python/FastAPI 后端与 HTML/JS 前端,开箱即用

🤖 AI 模型兼容:可选择 OpenAI API、Faster-Whisper、本地模型(如 MLX Whisper),灵活部署

🐳 Docker 部署:支持 GPU/CPU 容器化运行,方便生产环境集成