英伟达 Parakeet TDT 0.6B 成开源 ASR 模型新王：1 秒 AI 转录 60 分钟音频，字错率低至 6.05%

投稿
APP
微信扫一扫获取更多

英伟达 Parakeet TDT 0.6B 成开源 ASR 模型新王：1 秒 AI 转录 60 分钟音频，字错率低至 6.05%

杨剑勇

2025-05-07 13:46:23

图灵汇官网

科技媒体 marktechpost 最近发布了一篇文章，提到英伟达推出了一个名为 Parakeet TDT 0.6B 的新型自动语音识别（ASR）模型。这个模型已经完全开源，并且可以在 Hugging Face 平台找到。

Parakeet TDT 0.6B 的最大亮点是其极高的处理速度和准确性。它能够在短短一秒内完成对一小时音频的转录工作，这比大多数现有的开源 ASR 模型快五十倍。

根据 Hugging Face 的 Open ASR Leaderboard 数据显示，该模型的字错率（WER）仅为 6.05%，这使得它成为目前开源模型中的佼佼者。这样的性能对于需要实时转录、语音数据分析、智能客服以及音频内容分类的企业来说非常有用。

这个模型采用了 Transformer 架构，并且经过了高质量数据的微调，同时针对英伟达的硬件进行了专门优化，从而提高了推理速度。

据图灵汇报道，这款模型的一些重要特点包括：拥有六亿参数的编码-解码结构，采用量化和融合内核来增强推理效率，支持 TDT（Transducer Decoder Transformer）架构，并具备精确的时间戳、数字格式化以及标点符号恢复等功能。

除此之外，Parakeet TDT 0.6B 还具有独特的歌曲歌词转录功能。这项创新的功能扩大了音乐搜索和媒体平台的应用范围。借助英伟达的 TensorRT 和 FP8 量化技术，其实时率（RTF）达到了 3386。

除了速度快和准确度高之外，Parakeet TDT 0.6B 还具备多种专属功能。它可以将歌曲内容转换成歌词，这对音乐行业和媒体行业都非常有帮助；它能够处理数字和时间戳的格式化问题，有助于改善会议记录、法律文档和医疗记录的可读性；并且它的标点符号恢复功能也提升了后续自然语言处理任务的效果。这些功能共同提高了整体转录质量，减少了后期编辑的工作量，特别适合企业环境下的应用。