早在1950年,阿兰·图灵提出了“计算机能否思考?”的问题。为了解决这一问题,图灵提出了一种创新的方法——通过让计算机模仿人类对话来检验其是否具备人类智能。如果计算机能够理解人类语言并做出相应的拟人化回复,那么就可以认为它具备了思考的能力。这种方法后来被称为“图灵测试”。长期以来,“图灵测试”一直被认为是人工智能的终极目标。在此过程中,自然语言的理解起到了关键作用。
哈工大社会计算与信息检索研究中心(HIT-SCIR)对如何让计算机更好地理解自然语言提出了自己的解决方案。该中心成立于2000年9月,专注于语言分析、信息抽取、情感分析、问答系统、社会媒体处理、用户画像和人机对话等领域。中心已完成了多项国家级科研项目,并取得了一系列重要成果。
哈工大社会计算与信息检索研究中心认为,要让计算机更好地理解自然语言,需要从两个方面入手:一是让计算机理解语言本身,二是让计算机理解社会背景。目前,该中心在这两个方向上都取得了显著进展。
首先,通过“语言技术平台LTP”,哈工大社会计算与信息检索研究中心开发了一个中文语言处理系统。经过十年的研发,该系统已经免费共享给超过500家研究机构,并被多家知名企业付费使用。此成果曾获得多个奖项,包括2010年钱伟长中文信息处理科学技术一等奖和2016年黑龙江省科技进步一等奖。
其次,中心还开发了一个名为“大词林”的知识图谱系统,这是一个自动构建的开放域命名实体知识库。系统从多个信息源中挖掘命名实体的类别,并利用多种方法学习实体间的层级关系。相比于传统的人工构建方式,“大词林”不需要领域专家的参与,且已应用于多家企业和高校。
此外,哈工大社会计算与信息检索研究中心还开发了“笨笨”聊天机器人,提供一对一聊天和其他生活服务。该机器人曾获得多项奖项,如2016年“合创杯”第二届全国青年人工智能创新创业大会三等奖和2017年中国人工智能学会最佳青年科技成果奖。
在情感分析方面,中心开发了“情绪地图”,通过对社会化媒体中的文本进行深度学习,实现对情绪的分类和统计,从而呈现情绪在时间和空间上的分布。
最后,中心还构建了“事理图谱”,用于刻画事件的演化规律和模式。通过事理图谱,可以揭示和发现事件的演变规律及人们的行为模式。目前,该图谱已在金融和出行等领域得到广泛应用。
自然语言理解是计算机科学和人工智能领域的重要方向,也是当前研究的热点和难点之一。哈工大社会计算与信息检索研究中心在这一领域的贡献,将对知识学习、问题求解、语言翻译、软件工程乃至软件生产的自动化产生深远影响,也将推动中国人工智能的快速发展。