谷歌和Meta先后推出了基于大语言模型的AI播客功能,这大大提升了人机交互的体验。
谷歌最近更新了AI笔记应用NotebookLM,新增了生成YouTube视频和音频摘要的功能,还能制作可分享的AI生成音频讨论。这些新功能让NotebookLM有了更多应用场景。
与此同时,Meta发布了NotebookLlama,这是NotebookLM的一个开源版本,它主要依靠Llama模型来完成多种任务。虽然NotebookLlama已有一定功能,但在语音自然度上还有欠缺,有时候对话会显得生硬不流畅。
Meta的研究人员提到,采用更强的模型或许能改善NotebookLlama的表现。他们希望经过持续优化,能让它达到更理想的水平。
使用NotebookLlama的基本步骤是:先从文档(像新闻文章或博客文章)里生成转录文本,接着加入一些情感表达和停顿,最后把文本送入一个开放的文本转语音模型中。
虽然现在的语音转换效果还有待提高,但很多人觉得,由于代码已经开源,用户可以根据自己的需要调整参数,比如提示方式等,这样未来可能会有更好的成果。
举个例子,你可以按下面的步骤来做基于PDF文件的播客:
要成功运行这个项目,你需要有GPU服务器或者对应的API服务。同时,确保安装好必要的软件依赖,包括Hugging Face CLI和Jupyter Notebook。
尽管现在还有一些问题,但随着技术进步和大家的努力,这款工具有望变得更好更完善。