语音识别工具，Constme-Whisper软件体验

刘帅政

2023-03-29 09:54:14

最近我在一个小众软件网站上发现了一款有趣的应用程序——“Const-me/Whisper”。

这款名为“Whisper”的工具是由OpenAI开发的一个神经网络模型，主要用于实时将语音转换成文字，适用于翻译和制作字幕等功能。Const-me对这款工具进行了改进，使其适用于Windows系统，并增加了GPU加速功能。

在该项目的GitHub页面上，可以看到该工具具备一些显著的特点。例如，它完全由C++编写，没有额外的运行依赖，占用的内存较少，支持多种音频和视频格式，兼容大多数音频捕捉设备，并且处理速度优于OpenAI的原始版本。

不过，使用该工具有一些系统要求。例如，Windows 8.1以下版本及32位操作系统无法使用。

软件安装和使用十分简便。只需解压一个不到1MB大小的启动环境文件，然后选择合适的语言模型（推荐使用超过1GB的模型），接着运行启动器即可。启动界面非常简洁，虽然大部分按钮为英文，但操作起来并不复杂，尤其是高级设置部分，用户可以根据需要选择要调用的GPU。

该软件支持多种语言，包括中文。在测试过程中，使用不同大小的模型文件（如1.42GB和2.88GB）会输出不同的结果（繁体或简体中文）。此外，该工具能够实时处理音频，并且在处理短句时表现良好，甚至能达到较高的准确性。

然而，当面对较长或包含多种内容的视频时，该工具的局限性就会显现。尽管它可以将音频转换成文本，但在处理中文时，其对上下文的理解能力较弱，容易产生同音字错误。此外，该工具还支持实时录制音频，并且在处理音频速度方面优于Windows自带的语言输入功能。

除了基本的语音转文字功能，该工具还可以添加时间戳和进行翻译。此外，通过控制台版本，用户可以更精细地调整参数，并查看每个单词的置信度。

值得注意的是，当前版本的工具仅能将转换后的音频转换为英文，如果未来能扩展到支持更多语言，那么其应用范围将大大增加。

通过上述描述，你可以看到“Const-me/Whisper”是一款功能强大的本地语音转文字工具，具有多种实用功能和较高的处理速度，尤其适合那些需要快速、准确地处理音频和视频内容的专业人士。

语音识别 Whisper Constme 体验工具软件

本文来源：图灵汇文章作者：刘帅政

语音识别技术的混战已成焦土，深度学习能否解决一切问题