速度与准确性的权衡:苹果新语音转录 API 对比测试

图灵汇官网

苹果近日在其语音转录技术上取得新进展,引发行业关注。一项由知名科技媒体进行的测试显示,苹果推出的全新语音识别接口在处理速度方面表现优异,虽然在精确度上仍存在一定提升空间。

测试选取了一段时长为7分31秒的播客音频作为样本,分别对比了苹果的最新模型、OpenAI 的 Whisper Large v3 Turbo 以及英伟达的 Parakeet v2。测试设备采用搭载 M2 Pro 芯片的 MacBook Pro,内存为 16GB。评估标准包括字符错误率(CER)和单词错误率(WER),数据通过 Hugging Face Spaces 平台获取。

从结果来看,Parakeet v2 在处理时间上最为高效,仅需 2 秒即可完成转录,但其 CER 和 WER 分别达到 5.8% 和 12.3%。Whisper Large v3 Turbo 则以 40 秒的处理时间展现出较高的准确性,CER 和 WER 分别为 0.2% 和 1.5%。苹果的模型在速度上接近 Parakeet,而准确率则优于后者,CER 和 WER 分别为 1.9% 和 10.3%。

此外,测试还引入了 ChatGPT、Claude 和 Gemini 等多个平台作为参考基准。不同模型在各项指标上的表现各有差异,但 Whisper 依然在准确性方面保持领先。

测试过程中,各模型的处理时间与错误率形成明显对比。部分模型虽然速度快,但在输出质量上有所牺牲;另一些则在保证高精度的同时,耗时较长。这种性能上的权衡成为用户选择时的重要考量因素。

对于需要快速处理大量语音内容的用户来说,苹果的新模型提供了一个平衡效率与质量的选项。而对于追求极致准确性的场景,Whisper 仍然是更优的选择。随着技术不断演进,未来语音转录工具的性能有望进一步优化,满足更多实际应用场景的需求。

本文来源: 图灵汇 文章作者: 南方都市煲
    下一篇

IT之家 7 月 2 日消息,科技博主 Max Weinbach 今日于 X 平台发文,称苹果为 iOS 26 和 iPadOS 26 新增了一项实用功能:在同一 Apple ID 设备间同步强制门户