Buzz-开源、离线的实时语音转文字工具

2025年10月15日15:59:43 发表评论 热度14 ℃

Buzz是一款基于OpenAI Whisper模型打造的开源软件,支持Windows、macOS和Linux系统。它能实时将麦克风捕获的语音转换成文字,亦支持将各类音频、视频文件转录成文字或生成字幕,功能强大且完全离线运行,保护用户隐私。

Buzz-开源、离线的实时语音转文字工具

核心功能

实时语音转文字与翻译

通过麦克风实时捕捉语音,快速转换为文本,也支持多语言实时翻译(需开启麦克风权限)。

多格式文件转录

支持导入音频和视频文件,格式包括MP3、WAV、M4A、OGG、MP4、WEBM、OGM等。

字幕导出

可生成逐句或逐词字幕,导出格式涵盖TXT、SRT、VTT,方便视频编辑和内容整理。

离线运行

全程离线处理,无需连接互联网,极大保证数据安全和隐私。

友好图形界面

相较于命令行版本的Whisper,Buzz配备直观的GUI,普通用户也能轻松操作。

Whisper模型

Buzz的运行主要依赖Whisper模型,Whisper模型根据质量分为多个版本,尺寸从39MB到1.55GB不等,对应不同的识别精度和硬件需求:

质量 模型尺寸 必需显存 速度
tiny 39 MB ~1 GB ~32倍加速
base 74 MB ~1 GB ~16倍加速
small 244 MB ~2 GB ~6倍加速
medium 769 MB ~5 GB ~2倍加速
large 1.55 GB ~10 GB 基线速度 1x

首次使用时,Buzz会自动下载所需的Whisper模型,并存储在本地缓存目录。或者可在偏好设定中下载合适的模型。

Buzz-开源、离线的实时语音转文字工具

Buzz提供两大任务模式:

Translate(翻译):实时语音翻译,支持多语言音频输入。

Transcribe(转录):音频或视频文件转文字,方便生成字幕和文稿。

使用说明

打开Buzz界面后,在主窗口点击「+」按钮添加单个或多个音频文件(支持MP3、WAV、M4A等常见格式)。

Buzz-开源、离线的实时语音转文字工具

进入参数设置界面,关键选项说明如下:

Model Type:选择模型大小(tiny, base, small, medium, large),精度依次提升,资源消耗递增;建议在普通会议录音中使用small平衡速度与准确率。

Language:指定原始语音语言(如Chinese、English),提升识别准确度。

Output Format:输出格式可选txt、srt、vtt等;若需后期编辑字幕,推荐选择srt。

转写过程在本地GPU/CPU上执行,实时显示进度条和预计剩余时间。完成后的文本文件自动保存至原音频文件所在目录,命名规则为[原文件名]_output.[格式]。

项目地址:https://github.com/chidiwilliams/buzz

Buzz作为Whisper的可视化升级版本,极大降低了使用门槛,让更多用户享受高质量的语音识别服务。

文件下载 资源名称:Buzz-开源、离线的实时语音转文字工具 应用平台:Windows 资源版本:v1.2.0 资源大小:1.51G
下载地址

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: