【新智元导读】加拿大人工智能公司Maluuba近日发布了一款名为EpiReader的自然语言理解程序,该程序基于机器学习,能够在未组织的自然语言中进行理解和处理。在CNN和CBT数据集的测试中,EpiReader取得了迄今为止的最佳成绩,超过了包括IBM Watson、Facebook和谷歌DeepMind在内的行业领导者。
EpiReader由Maluuba公司开发,该模型在相关测试中表现出色,准确率超过了谷歌、Facebook和IBM Watson。这一成果引起了广泛关注,尤其是其顾问Yoshua Bengio认为,这项技术有望提升智能助手如Siri、Cortana和Alexa的问答能力。
EpiReader的研究论文已在arXiv上发布,有兴趣的读者可以通过特定渠道下载。尽管谷歌、Facebook和IBM Watson在自然语言理解领域投入巨大,但Maluuba的成果展示了机器在理解文本方面的潜力,未来或许能实现像人类一样的文本理解能力。
EpiReader的工作原理类似于英语考试中的“完形填空”,它使用两套神经网络来完成任务:第一套神经网络负责理解整段话并选择可能的答案;第二套神经网络则对这些答案进行评估,最终找出正确答案。这种方法与人类理解问题的过程相似,但在机器学习方面仍有改进空间。
Maluuba在CNN和CBT数据集上的测试中,EpiReader的表现尤为出色。在CNN新闻语料库中,准确率达到74%,而在CBT语料库中准确率为67.4%。这些成绩被认为是目前最佳的,具有里程碑意义。相比之下,人类的准确率大约在80%左右。
EpiReader的成功不仅在于其性能超越了竞争对手,还在于它能理解文本结构,并基于所读内容形成理解。这一技术突破表明,机器学习在处理非结构化数据方面已经取得显著进展,这将为人工智能的发展开辟新的方向。
纽约大学数据科学中心的助理教授Kyunghyun Cho表示,Maluuba的成果很有意义。他指出,未来的机器理解研究目标是自动化,即建立一个能够自主提问、搜索信息并提供答案的系统。虽然目前的研究还处于初级阶段,但Maluuba已经迈出了重要一步。
Yoshua Bengio认为,EpiReader是一个有意义的进步,但也提醒道,要实现真正的人类水平理解还有很长的路要走。他相信,像EpiReader这样的技术将推动智能助手采用更先进的机器学习技术,从而增强其问答能力。
目前,大多数AI助手仍依赖于有组织的数据集和人工编程。然而,EpiReader等程序无需预先编程,而是通过机器学习建立词与文本相关性的概率模型,使其能够理解并处理未经组织的自然语言。Maluuba希望通过EpiReader创建一些程序,帮助用户理解复杂的文档,如用户手册和客户服务文件,并回答相关问题。
Maluuba最近完成了900万美元的A轮融资,但尚未透露是否会推出基于EpiReader技术的产品。Yoshua Bengio认为,自然语言理解技术将在各种人机交互界面中广泛应用,其市场规模甚至可能超过机器视觉市场。他认为,理解和处理人类语言的技术有着巨大的市场前景,因为它关系到我们如何与计算机交互,应用范围广泛。
通过EpiReader的开发和应用,Maluuba展示了机器学习在自然语言处理方面的巨大潜力,为未来的人工智能发展提供了新的思路和方向。