思必驰俞凯:自然语言技术的畅想关键点不在交互,而是自然丨清华人工智能研习 ...

投稿
APP
微信扫一扫获取更多

思必驰俞凯:自然语言技术的畅想关键点不在交互,而是自然丨清华人工智能研习 ...

李开复老师铁杆粉丝

2018-08-19 21:00:18

图灵汇官网

大数据文摘作品

大数据文摘记者刘涵魏子敏报道

“自然语言技术的核心在于‘自然’二字。”

11月30日，思必驰联合创始人、首席科学家俞凯博士在清华x-lab主办的人工智能研习社第七课上，探讨了自然语言处理技术的未来。俞凯博士与现场听众共同展望了这一潜力巨大的技术的发展前景。

为何关注口语对话智能

俞凯博士首先阐述了为何要关注口语对话智能。早期，人们主要依赖Windows图形交互界面来与信息进行交流。然而，随着智能手机的普及，语音和手动输入逐渐成为主流交互方式。如今，语音对话已成为智能信息获取的重要手段。特别是在移动互联网时代，语音交互模式成为连接人与信息的关键方式。

俞凯博士提到，当Google和百度等搜索引擎刚出现时，交互还是单向的。然而，智能手机的出现改变了这一切。例如，苹果公司在第一代iPhone上并未加入语音交互功能，但在市场调研后发现，75%的用户希望拥有语音控制功能。因此，后续几代iPhone逐步加入了语音控制功能。尽管如此，实际使用率仍较低，仅约5%。苹果公司随后意识到，仅仅语音还不够，自然语言交互才是关键。于是，iPhone4S引入了Siri，市场调研显示，大约87%的用户每月至少使用一次Siri。然而，大部分用户使用Siri只是为了娱乐，并不用于其他用途，这也促使苹果公司在2015年收购了专注于对话交互的公司Vocallq，以提升Siri的功能。

当前信息发展的状况

目前，全球物联网设备数量已首次超过人类总数。这些设备大多数没有或仅有较小的屏幕，无法进行复杂的操作。因此，语音和对话成为了这些设备访问信息的主要方式。这也推动了智能音箱等产品的兴起。从技术角度看，语音交互不仅需要解决框架问题，还需考虑对话管理、识别、合成及理解等方面。

语音识别的挑战与机遇

俞凯博士分析了语音识别面临的挑战及其中的机遇。首先，语音识别虽然已经取得了很大进展，但仍存在一定的错误率。研究人员的任务是使语音识别系统能够像人一样在错误发生时进行有效的交互和修正。这需要感知技术和认知技术的相互配合。

其次，计算能力也是语音识别面临的一大挑战。例如，深度神经网络在语音识别中的应用非常复杂，需要大量的计算资源。此外，语音识别系统需要具备更强的抗噪能力和更小的尺寸，以适应各种设备。认知层面则更为复杂，人机对话并非简单的问答，而是包含了多种形态。例如，单轮对话较为简单，而多轮对话则需要更多的结构化信息和更复杂的决策过程。