近年来,随着科技的发展,各种自然语言对话系统层出不穷,如语音助手、智能客服、智能音箱和聊天机器人等。这些系统在实际应用中越来越广泛,但同时也暴露出了不少局限性。本文探讨了自然语言对话系统面临的挑战,并展望了未来的发展方向。作者李航教授基于自身的研究与开发经验,对这些问题进行了深入剖析。
马尔(David Marr)曾提出,计算分为功能层面、算法和表征层面、以及实现和物理层面。若两个系统在功能层面能够完成相同任务,则认为它们在功能上是等价的。无论是人脑还是计算机,只要在功能上能够实现相同的任务,就可以视为具有同等的智能水平。本文主要从功能主义的角度探讨对话系统。
人工智能领域存在两种智能机器的定义:一种是像人一样行动的机器,另一种是合理行动的机器。本文倾向于后者。合理行动的智能机器具备以下特征: 1. 与环境互动; 2. 有明确的任务目标; 3. 有评价标准来衡量任务完成情况; 4. 不刻意模仿人类; 5. 能够在某些方面超越人类。
合理行动的智能机器相比像人一样行动的机器更为现实可行。目前大部分人工智能系统都属于这一类型。大数据和机器学习技术推动了这条路线的发展。
自然语言理解有两种定义:基于表征和基于行为。前者关注语言内部表征,后者关注语言的实际作用。本文从功能角度概述语言理解过程,包括词汇分析、句法分析、语义分析和语用分析。
自然语言理解的核心在于将语言映射到系统内部表征。这过程中会产生多义性和多样性,即一句话可以有多重含义,一个含义可以用多种方式表达。
尽管对人脑语言处理机制了解有限,但已有研究表明,大脑的不同区域参与语言处理。布洛卡区负责句法,韦尼克区负责词汇。此外,嵌入模拟假说认为,语言理解依赖于视觉、听觉和运动等表象的模拟。
对话是一种任务驱动的交流形式。对话系统需要理解对方的语言,产生内部表征,从而判断任务完成情况。对话任务通常可以用有限状态机表示,状态表示任务的一个阶段,目标状态表示任务完成。
目前,自然语言对话系统主要基于数据驱动和机器学习技术。对话技术可分为单轮对话和多轮对话。单轮对话有基于分析、基于检索和基于生成的方法,而多轮对话系统则较为复杂,包括语言理解、语言生成、对话管理和知识库等模块。
近年来,深度学习和强化学习被成功应用于自然语言处理领域,尤其是对话系统。例如,神经符号机、神经查询器、符号查询器等模型的应用,以及基于层次化深度强化学习的对话策略学习方法。
未来自然语言对话的研究重点包括: - 语义接地,即语言到内部表征的映射; - 多义性和多样性的处理; - 符号表征和神经表征的结合; - 多轮对话系统的优化; - 层次化和模块化的系统设计; - 小样本条件下的对话模型训练。
从功能主义角度看,计算机可以实现自然语言对话,但目前仍面临诸多挑战。语言理解的关键在于内部表征的建立。基于分析的方法在任务驱动场景中尤为重要,基于检索的方法适用于单轮问答,而基于生成的方法主要用于特定场景。深度学习和强化学习的结合将是未来发展的方向。