蛐蛐 (QuQu)— 开源的桌面端语音输入与文本处理工具-人工智能-PHP中文网

蛐蛐 (QuQu)— 开源的桌面端语音输入与文本处理工具

心靈之曲

发布： 2025-10-24 15:35:17

原创

538人浏览过

蛐蛐 (QuQu)是什么

蛐蛐（ququ）是一款专为中文用户打造的桌面语音输入与文本处理工具，旨在提供一个开源且免费的 wispr flow 替代方案。该工具集成了阿里巴巴的 funasr paraformer 模型，支持本地化部署与运行，有效保障用户隐私安全。同时融合先进 ai 技术，实现高精度语音识别、智能文本优化和上下文感知输出。蛐蛐具备编程术语识别能力，兼容多种国内领先的 ai 大模型，支持一键唤醒、实时转写与自动粘贴功能，帮助用户在安静环境中高效完成语音输入，解放双手，显著提升工作流效率。

微软文字转语音

微软文本转语音，支持选择多种语音风格，可调节语速。

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
蛐蛐 (QuQu)的主要功能

一键唤醒：通过全局快捷键随时启动语音输入，操作便捷，响应迅速。
实时识别：基于本地部署的 FunASR 引擎，实现精准中文语音识别，在低噪环境下仍保持出色准确率。
智能优化：接入大语言模型，自动修正口误、语法错误并润色表达，输出更自然流畅的文本。
无缝粘贴：识别完成后，文本将自动插入当前光标位置，无需切换窗口或手动复制粘贴。
上下文感知：根据前后文语境智能调整输出内容，增强语义连贯性与准确性。
编程支持：专门优化对代码术语、技术词汇的识别，适合程序员与技术写作人员使用。
隐私保护：所有语音数据均在本地处理，不上传至云端，全面守护用户信息安全。
多平台兼容：支持 macOS、Windows 以及 Linux 系统，满足不同用户的设备需求。

蛐蛐 (QuQu)的技术原理

语音识别引擎：
- FunASR Paraformer：采用阿里开源的 Paraformer-large 模型，具备强大的中文语音识别能力，可在本地运行，确保低延迟与高隐私性。
- FSMN-VAD：用于语音活动检测，精准判断语音起止时间，避免无效录音干扰。
- CT-Transformer：应用于解码阶段，提升识别结果的语言逻辑性和准确性。
AI 模型集成：
- 双阶段处理架构：结合 ASR（语音转写）与 LLM（语言理解）两大模块，先转录后优化，实现从“听得清”到“懂你说”的跃迁。
- OpenAI API 兼容设计：可对接任何遵循 OpenAI 接口规范的服务，优先适配通义千问、Kimi 等国产优秀模型。
前端与桌面端技术栈：
- 前端框架：采用 React 19 + TypeScript 构建，搭配 Tailwind CSS 与 shadcn/ui 实现现代化 UI 设计，构建工具为 Vite，保证开发效率与性能表现。
- 桌面应用层：基于 Electron 开发，实现跨平台一致体验，兼顾功能丰富性与系统兼容性。