语音识别工具,Constme-Whisper软件体验

图灵汇官网

最近我在一个小众软件网站上发现了一款有趣的应用程序——“Const-me/Whisper”。

这款名为“Whisper”的工具是由OpenAI开发的一个神经网络模型,主要用于实时将语音转换成文字,适用于翻译和制作字幕等功能。Const-me对这款工具进行了改进,使其适用于Windows系统,并增加了GPU加速功能。

在该项目的GitHub页面上,可以看到该工具具备一些显著的特点。例如,它完全由C++编写,没有额外的运行依赖,占用的内存较少,支持多种音频和视频格式,兼容大多数音频捕捉设备,并且处理速度优于OpenAI的原始版本。

不过,使用该工具有一些系统要求。例如,Windows 8.1以下版本及32位操作系统无法使用。

软件安装和使用十分简便。只需解压一个不到1MB大小的启动环境文件,然后选择合适的语言模型(推荐使用超过1GB的模型),接着运行启动器即可。启动界面非常简洁,虽然大部分按钮为英文,但操作起来并不复杂,尤其是高级设置部分,用户可以根据需要选择要调用的GPU。

该软件支持多种语言,包括中文。在测试过程中,使用不同大小的模型文件(如1.42GB和2.88GB)会输出不同的结果(繁体或简体中文)。此外,该工具能够实时处理音频,并且在处理短句时表现良好,甚至能达到较高的准确性。

然而,当面对较长或包含多种内容的视频时,该工具的局限性就会显现。尽管它可以将音频转换成文本,但在处理中文时,其对上下文的理解能力较弱,容易产生同音字错误。此外,该工具还支持实时录制音频,并且在处理音频速度方面优于Windows自带的语言输入功能。

除了基本的语音转文字功能,该工具还可以添加时间戳和进行翻译。此外,通过控制台版本,用户可以更精细地调整参数,并查看每个单词的置信度。

值得注意的是,当前版本的工具仅能将转换后的音频转换为英文,如果未来能扩展到支持更多语言,那么其应用范围将大大增加。

通过上述描述,你可以看到“Const-me/Whisper”是一款功能强大的本地语音转文字工具,具有多种实用功能和较高的处理速度,尤其适合那些需要快速、准确地处理音频和视频内容的专业人士。

本文来源: 图灵汇 文章作者: 刘帅政