Buzz-开源、离线的实时语音转文字工具

2025年10月15日15:59:43 发表评论热度545 ℃

Buzz是一款基于OpenAI Whisper模型打造的开源软件，支持Windows、macOS和Linux系统。它能实时将麦克风捕获的语音转换成文字，亦支持将各类音频、视频文件转录成文字或生成字幕，功能强大且完全离线运行，保护用户隐私。

实时语音转文字与翻译

通过麦克风实时捕捉语音，快速转换为文本，也支持多语言实时翻译（需开启麦克风权限）。

多格式文件转录

支持导入音频和视频文件，格式包括MP3、WAV、M4A、OGG、MP4、WEBM、OGM等。

字幕导出

可生成逐句或逐词字幕，导出格式涵盖TXT、SRT、VTT，方便视频编辑和内容整理。

离线运行

全程离线处理，无需连接互联网，极大保证数据安全和隐私。

友好图形界面

相较于命令行版本的Whisper，Buzz配备直观的GUI，普通用户也能轻松操作。

Buzz的运行主要依赖Whisper模型，Whisper模型根据质量分为多个版本，尺寸从39MB到1.55GB不等，对应不同的识别精度和硬件需求：

首次使用时，Buzz会自动下载所需的Whisper模型，并存储在本地缓存目录。或者可在偏好设定中下载合适的模型。

Buzz提供两大任务模式：

Translate（翻译）：实时语音翻译，支持多语言音频输入。

Transcribe（转录）：音频或视频文件转文字，方便生成字幕和文稿。

打开Buzz界面后，在主窗口点击「+」按钮添加单个或多个音频文件（支持MP3、WAV、M4A等常见格式）。

进入参数设置界面，关键选项说明如下：

Model Type：选择模型大小（tiny, base, small, medium, large），精度依次提升，资源消耗递增；建议在普通会议录音中使用small平衡速度与准确率。

Language：指定原始语音语言（如Chinese、English），提升识别准确度。

Output Format：输出格式可选txt、srt、vtt等；若需后期编辑字幕，推荐选择srt。

转写过程在本地GPU/CPU上执行，实时显示进度条和预计剩余时间。完成后的文本文件自动保存至原音频文件所在目录，命名规则为[原文件名]_output.[格式]。

项目地址：https://github.com/chidiwilliams/buzz

Buzz作为Whisper的可视化升级版本，极大降低了使用门槛，让更多用户享受高质量的语音识别服务。

文件下载资源名称：Buzz-开源、离线的实时语音转文字工具应用平台：Windows 资源版本：v1.2.0 资源大小：1.51G

下载地址

登录