英伟达 Parakeet TDT 0.6B 成开源 ASR 模型新王:1 秒 AI 转录 60 分钟音频,字错率低至 6.05%

图灵汇官网

科技媒体 marktechpost 最近发布了一篇文章,提到英伟达推出了一个名为 Parakeet TDT 0.6B 的新型自动语音识别(ASR)模型。这个模型已经完全开源,并且可以在 Hugging Face 平台找到。

Parakeet TDT 0.6B 的最大亮点是其极高的处理速度和准确性。它能够在短短一秒内完成对一小时音频的转录工作,这比大多数现有的开源 ASR 模型快五十倍。

根据 Hugging Face 的 Open ASR Leaderboard 数据显示,该模型的字错率(WER)仅为 6.05%,这使得它成为目前开源模型中的佼佼者。这样的性能对于需要实时转录、语音数据分析、智能客服以及音频内容分类的企业来说非常有用。

这个模型采用了 Transformer 架构,并且经过了高质量数据的微调,同时针对英伟达的硬件进行了专门优化,从而提高了推理速度。

据 图灵汇报道,这款模型的一些重要特点包括:拥有六亿参数的编码-解码结构,采用量化和融合内核来增强推理效率,支持 TDT(Transducer Decoder Transformer)架构,并具备精确的时间戳、数字格式化以及标点符号恢复等功能。

除此之外,Parakeet TDT 0.6B 还具有独特的歌曲歌词转录功能。这项创新的功能扩大了音乐搜索和媒体平台的应用范围。借助英伟达的 TensorRT 和 FP8 量化技术,其实时率(RTF)达到了 3386。

除了速度快和准确度高之外,Parakeet TDT 0.6B 还具备多种专属功能。它可以将歌曲内容转换成歌词,这对音乐行业和媒体行业都非常有帮助;它能够处理数字和时间戳的格式化问题,有助于改善会议记录、法律文档和医疗记录的可读性;并且它的标点符号恢复功能也提升了后续自然语言处理任务的效果。这些功能共同提高了整体转录质量,减少了后期编辑的工作量,特别适合企业环境下的应用。

本文来源: 图灵汇 文章作者: 杨剑勇
    下一篇

IT之家 5 月 8 日消息,Mistral 当地时间 7 日推出了 Mistral3 系列模型的中等量级版本 Medium 3,宣传其同时具有前沿级别的性能和明显更低的成本,并具备多种企业功能。Mi