Buzz是一款基于OpenAI Whisper模型打造的开源软件,支持Windows、macOS和Linux系统。它能实时将麦克风捕获的语音转换成文字,亦支持将各类音频、视频文件转录成文字或生成字幕,功能强大且完全离线运行,保护用户隐私。
核心功能
实时语音转文字与翻译
通过麦克风实时捕捉语音,快速转换为文本,也支持多语言实时翻译(需开启麦克风权限)。
多格式文件转录
支持导入音频和视频文件,格式包括MP3、WAV、M4A、OGG、MP4、WEBM、OGM等。
字幕导出
可生成逐句或逐词字幕,导出格式涵盖TXT、SRT、VTT,方便视频编辑和内容整理。
离线运行
全程离线处理,无需连接互联网,极大保证数据安全和隐私。
友好图形界面
相较于命令行版本的Whisper,Buzz配备直观的GUI,普通用户也能轻松操作。
Whisper模型
Buzz的运行主要依赖Whisper模型,Whisper模型根据质量分为多个版本,尺寸从39MB到1.55GB不等,对应不同的识别精度和硬件需求:
质量 | 模型尺寸 | 必需显存 | 速度 |
---|---|---|---|
tiny | 39 MB | ~1 GB | ~32倍加速 |
base | 74 MB | ~1 GB | ~16倍加速 |
small | 244 MB | ~2 GB | ~6倍加速 |
medium | 769 MB | ~5 GB | ~2倍加速 |
large | 1.55 GB | ~10 GB | 基线速度 1x |
首次使用时,Buzz会自动下载所需的Whisper模型,并存储在本地缓存目录。或者可在偏好设定中下载合适的模型。
Buzz提供两大任务模式:
Translate(翻译):实时语音翻译,支持多语言音频输入。
Transcribe(转录):音频或视频文件转文字,方便生成字幕和文稿。
使用说明
打开Buzz界面后,在主窗口点击「+」按钮添加单个或多个音频文件(支持MP3、WAV、M4A等常见格式)。
进入参数设置界面,关键选项说明如下:
Model Type:选择模型大小(tiny, base, small, medium, large),精度依次提升,资源消耗递增;建议在普通会议录音中使用small平衡速度与准确率。
Language:指定原始语音语言(如Chinese、English),提升识别准确度。
Output Format:输出格式可选txt、srt、vtt等;若需后期编辑字幕,推荐选择srt。
转写过程在本地GPU/CPU上执行,实时显示进度条和预计剩余时间。完成后的文本文件自动保存至原音频文件所在目录,命名规则为[原文件名]_output.[格式]。
项目地址:https://github.com/chidiwilliams/buzz
Buzz作为Whisper的可视化升级版本,极大降低了使用门槛,让更多用户享受高质量的语音识别服务。