谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

AI科技评论

2024-10-28 14:52:52

谷歌和Meta先后推出了基于大语言模型的AI播客功能，这大大提升了人机交互的体验。

谷歌最近更新了AI笔记应用NotebookLM，新增了生成YouTube视频和音频摘要的功能，还能制作可分享的AI生成音频讨论。这些新功能让NotebookLM有了更多应用场景。

与此同时，Meta发布了NotebookLlama，这是NotebookLM的一个开源版本，它主要依靠Llama模型来完成多种任务。虽然NotebookLlama已有一定功能，但在语音自然度上还有欠缺，有时候对话会显得生硬不流畅。

Meta的研究人员提到，采用更强的模型或许能改善NotebookLlama的表现。他们希望经过持续优化，能让它达到更理想的水平。

使用NotebookLlama的基本步骤是：先从文档（像新闻文章或博客文章）里生成转录文本，接着加入一些情感表达和停顿，最后把文本送入一个开放的文本转语音模型中。

虽然现在的语音转换效果还有待提高，但很多人觉得，由于代码已经开源，用户可以根据自己的需要调整参数，比如提示方式等，这样未来可能会有更好的成果。

举个例子，你可以按下面的步骤来做基于PDF文件的播客：

要成功运行这个项目，你需要有GPU服务器或者对应的API服务。同时，确保安装好必要的软件依赖，包括Hugging Face CLI和Jupyter Notebook。

尽管现在还有一些问题，但随着技术进步和大家的努力，这款工具有望变得更好更完善。

一言难尽开源效果谷歌 Meta

本文来源：互联网文章作者： AI科技评论

与生成式 AI 的 6 种对话类型