苹果近日在其语音转录技术上取得新进展,引发行业关注。一项由知名科技媒体进行的测试显示,苹果推出的全新语音识别接口在处理速度方面表现优异,虽然在精确度上仍存在一定提升空间。
测试选取了一段时长为7分31秒的播客音频作为样本,分别对比了苹果的最新模型、OpenAI 的 Whisper Large v3 Turbo 以及英伟达的 Parakeet v2。测试设备采用搭载 M2 Pro 芯片的 MacBook Pro,内存为 16GB。评估标准包括字符错误率(CER)和单词错误率(WER),数据通过 Hugging Face Spaces 平台获取。
从结果来看,Parakeet v2 在处理时间上最为高效,仅需 2 秒即可完成转录,但其 CER 和 WER 分别达到 5.8% 和 12.3%。Whisper Large v3 Turbo 则以 40 秒的处理时间展现出较高的准确性,CER 和 WER 分别为 0.2% 和 1.5%。苹果的模型在速度上接近 Parakeet,而准确率则优于后者,CER 和 WER 分别为 1.9% 和 10.3%。
此外,测试还引入了 ChatGPT、Claude 和 Gemini 等多个平台作为参考基准。不同模型在各项指标上的表现各有差异,但 Whisper 依然在准确性方面保持领先。
测试过程中,各模型的处理时间与错误率形成明显对比。部分模型虽然速度快,但在输出质量上有所牺牲;另一些则在保证高精度的同时,耗时较长。这种性能上的权衡成为用户选择时的重要考量因素。
对于需要快速处理大量语音内容的用户来说,苹果的新模型提供了一个平衡效率与质量的选项。而对于追求极致准确性的场景,Whisper 仍然是更优的选择。随着技术不断演进,未来语音转录工具的性能有望进一步优化,满足更多实际应用场景的需求。