模力方舟（Gitee AI）

应用市场

对话聊天

应用推荐

模力方舟 App

模力方舟是一款聚合多类主流大模型的 AI 助手，以对话交互为核心，为用户提供文案创作、代码编写、多语言翻译、图像生成 / 编辑 / 理解等一站式 AI 服务，覆盖创意、办公、设计等多场景需求。

查看应用

应用推荐

临床医生的神器 - 智医灵枢

「智医灵枢」是一款面向医疗行业的全能型AI智能助手，专为医生与行政人员打造，深度融合人工智能与权威医学知识，全面覆盖临床诊疗与行政办公双重场景。无论是病历书写、用药建议，还是文书处理等行政事务，均实现智能化提效，助力医务人员大幅提升工作效率与决策质量。具备权威知识支持、多场景适配、高效协同等核心优势。

查看应用

应用推荐

小说推文撸米神器 - Lumi

LUMI 是一款接入30+AI 工具的小说推文视频制作平台，一键生成爆款小说视频！集改写、配音、图片生成等于一体，告别繁琐流程，轻松产出高质、吸睛的推文视频。专为小说推文从业者与副业创富者设计，让你真正用 AI 高效变现，掘金流量时代！

查看应用

应用推荐

可以说人话的智能终端 - Termix

Termix 是一款基于 AI 的智能终端助手，让你可以用自然语言描述需求，自动生成并执行 Shell 命令。告别记忆复杂的命令参数，用人话和终端对话！

查看应用

应用推荐

BiuBiu 一下，让灵感瞬间成真

BiuBiu 是一款 AI 图片创作平台，致力于将文字创意转化为高质量视觉作品。用户无需专业设计经验，只需输入文字描述，30秒内即可生成高清图片，支持动漫、写实、插画、3D等200+艺术风格，满足电商设计、社交媒体、个人创作等多场景需求。

查看应用

应用推荐

交易事件，选择市场答案 - Ratus AI

Ratus 是一款 AI 驱动的事件交易平台，实时发现和深入跟踪您感兴趣的市场关键问题并推送投资方案，将复杂市场信息转化为清晰、可执行的信号。

查看应用

LUMI

Web 应用语音视频

LUMI 是一款接入30+AI工具的小说推文视频制作平台，一键生成爆款小说视频！集改写、配音、图片生成等于一体，告别繁琐流程，轻松产出高质、吸睛的推文视频。专为小说推文从业者与副业创富者设计，让你真正用 AI 高效变现，掘金流量时代！

VisionClaw

手机 APP语音视频

VisionClaw 是一个为 Meta Ray‑Ban 智能眼镜打造的实时 AI 助手应用，结合 Gemini Live 的语音与视觉能力，让眼镜“看到你看到的、听到你说的”，并通过 OpenClaw 执行真实世界任务，例如发消息、创建提醒、搜索信息或控制智能设备。它也支持在没有眼镜时使用手机摄像头进行同样的实时视觉对话。

waoowaoo

Web 应用语音视频

waoowaoo 是一个工业级全流程 AI 影视生产平台，通过多 Agent 协作方式完成从剧本、分镜、画面、镜头到配音的完整影视制作流程。它模拟好莱坞专业制作团队的工作方式，让个人也能拥有“虚拟制片厂”，实现短剧、漫剧、真人影视的一站式 AI 生产。

VideoCaptioner

桌面应用语音视频

VideoCaptioner 是一款开源的 AI 驱动视频字幕工具，可自动为视频生成高质量字幕、智能断句、优化表达并支持多语言翻译，同时提供多种字幕格式导出和批量处理能力。

VoiceFlow

桌面应用语音视频

VoiceFlow 是一个开源的本地语音识别应用，基于 OpenAI Whisper 模型构建。它让用户无需联网即可在 Windows 上进行高精度语音转文字输入，适用于写作、会议记录、编程、笔记等场景。

pdf2video

Web 应用语音视频

pdf2video是一个基于 Remotion 的 PDF 展示视频生成工具，支持多种动画场景和自定义脚本配置。用户只需提供 PDF 文件和（可选）背景音乐，即可自动生成具有视觉吸引力的展示视频，适用于技术报告、演示文稿、文档摘要等场景。

Huobao Drama

Web 应用语音视频

Huobao Drama 是一个开源的 AI 短剧制作平台，支持从剧本解析、角色设计、分镜生成到视频合成的完整自动化流程，帮助用户快速生成短剧内容。

Kokoro-FastAPI

Web 应用语音视频

Kokoro-FastAPI 是一个基于 FastAPI 的高性能文本转语音服务，为 Kokoro-82M 模型提供开箱即用的 API 部署方式。它支持 CPU/GPU 推理、Docker 一键启动，并完全兼容 OpenAI 的语音生成接口，让开发者轻松构建本地或云端的高质量语音生成系统。

VideoPipe

桌面应用语音视频

VideoPipe 是一个轻量级、插件化的视频结构化分析框架，支持多种 AI 模型推理后端，适用于人脸识别、交通事件检测、图像搜索等场景。它像“管道”一样将各个分析模块串联，灵活组合，快速构建视频 AI 应用。

Moodist

Web 应用语音视频

Moodist 是一个开源的 AI 音乐推荐平台，通过调用 OpenAI API，根据用户的心情、场景或描述生成个性化的播放列表。它将自然语言输入转化为音乐推荐，帮助用户快速找到符合情绪的歌曲。

LibrePods

Web 应用语音视频

LibrePods 是一个开源的 AI 播客生成器，利用 OpenAI API 自动生成播客脚本，并结合语音合成技术生成音频。它为用户提供一个自由、可定制的平台，用于快速创建播客节目，适合媒体人、教育者和内容创作者。

剪辑侠

Web 应用语音视频

🎬 剪辑侠 - AI智能剪辑，写脚本、画分镜图。创意从此不求人！ ✅ 免费脚本生成输入一句话，AI自动生成完整脚本，结构清晰，节奏专业，0基础也能写出大片感！ ✅ 免费分镜图生成根据脚本描述，AI一键生成高质量分镜图，画面感直接拉满，提案、沟通、拍摄全搞定！ ✅ AI智能剪辑上传素材，AI自动匹配节奏、转场、字幕、BGM，3分钟出片，效率提升10倍！官网直达：jianjixia.cn

Speech-AI-Forge

Web 应用语音视频

Speech-AI-Forge 是一个开源的文本转语音 (TTS) 平台，支持多种先进的语音合成模型（如 ChatTTS、CosyVoice、FishSpeech 等）。它提供 Web 界面和 API 服务，兼容 OpenAI API，用户可以通过自然语言输入快速生成高质量音频，支持音色切换、语气风格和 SSML 控制，适用于语音助手、有声书、播客等场景。

FluidVoice

桌面应用语音视频

FluidVoice 是一个开源的 macOS 语音转文字应用，支持实时录音并将语音转换为文本。它可以调用 OpenAI API 以及其他 AI 服务来增强转录效果，帮助用户快速生成会议纪要、采访记录或个人笔记。

WhisperLiveKit

Web 应用语音视频

WhisperLiveKit 是一个开源的实时语音处理工具，结合前端浏览器与后端服务，支持本地运行。它能在超低延迟下完成语音转文字，并提供多语言翻译、说话人识别、语音活动检测等功能。

AutoClip

Web 应用语音视频

AutoClip 是一个基于AI的智能视频切片处理系统，能够自动从YouTube、B站等平台下载视频，通过AI分析提取精彩片段，并智能生成合集。系统采用现代化的前后端分离架构，提供直观的Web界面和强大的后端处理能力。

Fonoster

Web 应用语音视频

Fonoster 是一个开源的可编程语音通信平台，帮助企业通过云端构建语音应用与电话服务。它支持多租户架构、强大的 API 安全机制，并集成了语音识别与合成能力。

LangBot

Web 应用语音视频

LangBot 是一个开源的大语言模型原生即时通信机器人开发平台，旨在提供开箱即用的 IM 机器人开发体验，具有 Agent、RAG、MCP 等多种 LLM 应用功能，适配全球主流即时通信平台，并提供丰富的 API 接口，支持自定义开发。

Short-video-factory

桌面应用语音视频

Short-video-factory（短视频工厂）是一款开源桌面应用，利用AI技术自动生成和剪辑高质量短视频。它集成文案生成、语音合成、视频剪辑与字幕特效等功能，让用户轻松完成视频创作。

EasyVoice

Web 应用语音视频

EasyVoice 是一个开源的文本、小说智能转语音解决方案，旨在帮助用户轻松将文本内容转换为高质量的语音输出。

noScribe

桌面应用语音视频

noScribe 是一款免费开源、完全离线的 AI 语音转写桌面软件，专为采访、学术研究和需要隐私保护的场景设计。它基于 OpenAI Whisper、faster-whisper 和 Pyannote 技术，可将多语言音频或视频精准转换为文字，并提供内置编辑器方便校对。

RealtimeVoiceChat

Web 应用语音视频

RealtimeVoiceChat 是一个开源项目，专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音，系统通过浏览器捕获音频，快速转为文字，由大型语言模型（LLM）生成回复，再将文字转为语音输出，整个过程接近实时。

Egregora 音频增加器

Web 应用语音视频

基于 ComfyUI 的高品质音乐音频增强：FlashSR 超分辨率 + Fat Llama 频谱增强（GPU 和 CPU）。

VoiceTransl

桌面应用语音视频

一站式离线 AI 视频字幕生成和翻译软件，从视频下载，音频提取，听写打轴，字幕翻译，视频合成，字幕总结各个环节为翻译者提供便利。本项目基于 Galtransl，采用 GPLv3 许可。