CNN测试成绩超越谷歌,初创企业拓展自然语言理解新疆界(论文下载) ...

投稿
APP
微信扫一扫获取更多

CNN测试成绩超越谷歌,初创企业拓展自然语言理解新疆界(论文下载) ...

完颜礼祥

2018-08-19 21:07:34

【新智元导读】加拿大人工智能公司Maluuba近日发布了一款名为EpiReader的自然语言理解程序，该程序基于机器学习，能够在未组织的自然语言中进行理解和处理。在CNN和CBT数据集的测试中，EpiReader取得了迄今为止的最佳成绩，超过了包括IBM Watson、Facebook和谷歌DeepMind在内的行业领导者。

EpiReader由Maluuba公司开发，该模型在相关测试中表现出色，准确率超过了谷歌、Facebook和IBM Watson。这一成果引起了广泛关注，尤其是其顾问Yoshua Bengio认为，这项技术有望提升智能助手如Siri、Cortana和Alexa的问答能力。

EpiReader的研究论文已在arXiv上发布，有兴趣的读者可以通过特定渠道下载。尽管谷歌、Facebook和IBM Watson在自然语言理解领域投入巨大，但Maluuba的成果展示了机器在理解文本方面的潜力，未来或许能实现像人类一样的文本理解能力。

EpiReader的工作原理类似于英语考试中的“完形填空”，它使用两套神经网络来完成任务：第一套神经网络负责理解整段话并选择可能的答案；第二套神经网络则对这些答案进行评估，最终找出正确答案。这种方法与人类理解问题的过程相似，但在机器学习方面仍有改进空间。

Maluuba在CNN和CBT数据集上的测试中，EpiReader的表现尤为出色。在CNN新闻语料库中，准确率达到74%，而在CBT语料库中准确率为67.4%。这些成绩被认为是目前最佳的，具有里程碑意义。相比之下，人类的准确率大约在80%左右。

EpiReader的成功不仅在于其性能超越了竞争对手，还在于它能理解文本结构，并基于所读内容形成理解。这一技术突破表明，机器学习在处理非结构化数据方面已经取得显著进展，这将为人工智能的发展开辟新的方向。

纽约大学数据科学中心的助理教授Kyunghyun Cho表示，Maluuba的成果很有意义。他指出，未来的机器理解研究目标是自动化，即建立一个能够自主提问、搜索信息并提供答案的系统。虽然目前的研究还处于初级阶段，但Maluuba已经迈出了重要一步。

Yoshua Bengio认为，EpiReader是一个有意义的进步，但也提醒道，要实现真正的人类水平理解还有很长的路要走。他相信，像EpiReader这样的技术将推动智能助手采用更先进的机器学习技术，从而增强其问答能力。

目前，大多数AI助手仍依赖于有组织的数据集和人工编程。然而，EpiReader等程序无需预先编程，而是通过机器学习建立词与文本相关性的概率模型，使其能够理解并处理未经组织的自然语言。Maluuba希望通过EpiReader创建一些程序，帮助用户理解复杂的文档，如用户手册和客户服务文件，并回答相关问题。

Maluuba最近完成了900万美元的A轮融资，但尚未透露是否会推出基于EpiReader技术的产品。Yoshua Bengio认为，自然语言理解技术将在各种人机交互界面中广泛应用，其市场规模甚至可能超过机器视觉市场。他认为，理解和处理人类语言的技术有着巨大的市场前景，因为它关系到我们如何与计算机交互，应用范围广泛。

通过EpiReader的开发和应用，Maluuba展示了机器学习在自然语言处理方面的巨大潜力，为未来的人工智能发展提供了新的思路和方向。