
LUMI 是一款接入30+AI工具的小说推文视频制作平台,一键生成爆款小说视频! 集改写、配音、图片生成等于一体,告别繁琐流程,轻松产出高质、吸睛的推文视频。专为小说推文从业者与副业创富者设计,让你真正用 AI 高效变现,掘金流量时代!

Kokoro-FastAPI 是一个基于 FastAPI 的高性能文本转语音服务,为 Kokoro-82M 模型提供开箱即用的 API 部署方式。它支持 CPU/GPU 推理、Docker 一键启动,并完全兼容 OpenAI 的语音生成接口,让开发者轻松构建本地或云端的高质量语音生成系统。

VideoPipe 是一个轻量级、插件化的视频结构化分析框架,支持多种 AI 模型推理后端,适用于人脸识别、交通事件检测、图像搜索等场景。它像“管道”一样将各个分析模块串联,灵活组合,快速构建视频 AI 应用。

Moodist 是一个开源的 AI 音乐推荐平台,通过调用 OpenAI API,根据用户的心情、场景或描述生成个性化的播放列表。它将自然语言输入转化为音乐推荐,帮助用户快速找到符合情绪的歌曲。

LibrePods 是一个开源的 AI 播客生成器,利用 OpenAI API 自动生成播客脚本,并结合语音合成技术生成音频。它为用户提供一个自由、可定制的平台,用于快速创建播客节目,适合媒体人、教育者和内容创作者。

🎬 剪辑侠 - AI智能剪辑,写脚本、画分镜图。创意从此不求人! ✅ 免费脚本生成 输入一句话,AI自动生成完整脚本,结构清晰,节奏专业,0基础也能写出大片感! ✅ 免费分镜图生成 根据脚本描述,AI一键生成高质量分镜图,画面感直接拉满,提案、沟通、拍摄全搞定! ✅ AI智能剪辑 上传素材,AI自动匹配节奏、转场、字幕、BGM,3分钟出片,效率提升10倍!官网直达:jianjixia.cn

Speech-AI-Forge 是一个开源的 文本转语音 (TTS) 平台,支持多种先进的语音合成模型(如 ChatTTS、CosyVoice、FishSpeech 等)。它提供 Web 界面和 API 服务,兼容 OpenAI API,用户可以通过自然语言输入快速生成高质量音频,支持音色切换、语气风格和 SSML 控制,适用于语音助手、有声书、播客等场景。

FluidVoice 是一个开源的 macOS 语音转文字应用,支持实时录音并将语音转换为文本。它可以调用 OpenAI API 以及其他 AI 服务来增强转录效果,帮助用户快速生成会议纪要、采访记录或个人笔记。

WhisperLiveKit 是一个开源的实时语音处理工具,结合前端浏览器与后端服务,支持本地运行。它能在超低延迟下完成语音转文字,并提供 多语言翻译、说话人识别、语音活动检测 等功能。

AutoClip 是一个基于AI的智能视频切片处理系统,能够自动从YouTube、B站等平台下载视频,通过AI分析提取精彩片段,并智能生成合集。系统采用现代化的前后端分离架构,提供直观的Web界面和强大的后端处理能力。

Fonoster 是一个开源的可编程语音通信平台,帮助企业通过云端构建语音应用与电话服务。它支持多租户架构、强大的 API 安全机制,并集成了语音识别与合成能力。

LangBot 是一个开源的大语言模型原生即时通信机器人开发平台,旨在提供开箱即用的 IM 机器人开发体验,具有 Agent、RAG、MCP 等多种 LLM 应用功能,适配全球主流即时通信平台,并提供丰富的 API 接口,支持自定义开发。

Short-video-factory(短视频工厂)是一款开源桌面应用,利用AI技术自动生成和剪辑高质量短视频。它集成文案生成、语音合成、视频剪辑与字幕特效等功能,让用户轻松完成视频创作。

EasyVoice 是一个开源的文本、小说智能转语音解决方案,旨在帮助用户轻松将文本内容转换为高质量的语音输出。

noScribe 是一款免费开源、完全离线的 AI 语音转写桌面软件,专为采访、学术研究和需要隐私保护的场景设计。它基于 OpenAI Whisper、faster-whisper 和 Pyannote 技术,可将多语言音频或视频精准转换为文字,并提供内置编辑器方便校对。

RealtimeVoiceChat 是一个开源项目,专注于通过语音与人工智能进行实时、自然的对话。用户使用 麦克风输入语音,系统通过浏览器捕获音频,快速转为文字,由大型语言模型(LLM)生成回复,再将文字转为语音输出,整个过程接近实时。

基于 ComfyUI 的高品质音乐音频增强:FlashSR 超分辨率 + Fat Llama 频谱增强(GPU 和 CPU)。

一站式离线 AI 视频字幕生成和翻译软件,从视频下载,音频提取,听写打轴,字幕翻译,视频合成,字幕总结各个环节为翻译者提供便利。本项目基于 Galtransl,采用 GPLv3 许可。

Open-Sora 让所有人都能使用模型、工具和所有细节。

IntraScribe 是面向企业、学校与机关等内网环境的本地优先语音转写与协作平台:支持实时转写、说话人分离、高质量批处理、AI 总结与标题生成。默认提供浏览器 WebRTC 接入与 SSE 实时返回,也支持边缘设备/硬件作为前端,架构解耦、可替换任意采集与传输方案;数据全程留在本地,重视隐私与合规。

Real-Time AI Voice Chat 允许您仅使用语音与大型语言模型 ( LLM ) 聊天,并近乎实时地接收口头响应。将其视为您自己的数字对话伙伴。

Twocast 是真人对话 AI 播客生成器,多语言,多音色。

WhisperLiveKit用于实时、本地语音转文本和说话人分类的 Python 包。FastAPI 服务器和 Web 界面。 直接将语音实时转录到您的浏览器,具有即用型后端+服务器和简单的前端。✨


.png)


