谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

图灵汇官网

谷歌和Meta先后推出了基于大语言模型的AI播客功能,这大大提升了人机交互的体验。

谷歌最近更新了AI笔记应用NotebookLM,新增了生成YouTube视频和音频摘要的功能,还能制作可分享的AI生成音频讨论。这些新功能让NotebookLM有了更多应用场景。

与此同时,Meta发布了NotebookLlama,这是NotebookLM的一个开源版本,它主要依靠Llama模型来完成多种任务。虽然NotebookLlama已有一定功能,但在语音自然度上还有欠缺,有时候对话会显得生硬不流畅。

Meta的研究人员提到,采用更强的模型或许能改善NotebookLlama的表现。他们希望经过持续优化,能让它达到更理想的水平。

使用NotebookLlama的基本步骤是:先从文档(像新闻文章或博客文章)里生成转录文本,接着加入一些情感表达和停顿,最后把文本送入一个开放的文本转语音模型中。

虽然现在的语音转换效果还有待提高,但很多人觉得,由于代码已经开源,用户可以根据自己的需要调整参数,比如提示方式等,这样未来可能会有更好的成果。

举个例子,你可以按下面的步骤来做基于PDF文件的播客:

  1. 利用Llama-3.2-1B-Instruct对PDF文件做预处理,生成.txt文件。
  2. 使用Llama-3.1-70B-Instruct模型从文本里编写播客的转录文本。
  3. 再用Llama-3.1-8B-Instruct模型润色转录文本,增强戏剧效果。
  4. 最后用文本到语音模型(像parer-tts/parer-tts-mini-v1和bark/suno)制作出最终的播客音频。

要成功运行这个项目,你需要有GPU服务器或者对应的API服务。同时,确保安装好必要的软件依赖,包括Hugging Face CLI和Jupyter Notebook。

尽管现在还有一些问题,但随着技术进步和大家的努力,这款工具有望变得更好更完善。

本文来源: 互联网 文章作者: AI科技评论