干货|自然语言处理技术之知识图谱进阶

图灵汇官网

知识图谱技术是人工智能领域的重要组成部分,它构建了一个具备语义处理能力和开放互联网能力的知识库,能够在智能搜索、智能问答和个性化推荐等服务中发挥重要作用。前文以互联网金融为例介绍了知识图谱的一些应用场景,本文进一步探讨了知识图谱的定义、架构及其核心技术,包括知识抽取、知识表示、知识融合和知识推理。

知识图谱的定义

知识图谱是一种结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组和实体及其相关属性-值对,通过实体间的各种关系构成网状的知识结构。知识图谱能够实现从网页链接到概念链接的转变,支持用户按主题而非字符串进行检索,从而实现真正的语义检索。基于知识图谱的搜索引擎可以以图形方式向用户反馈结构化的知识,使用户无需浏览大量网页就能准确获取所需信息。

知识图谱的定义包含三层含义:

  1. 网状知识库:知识图谱本身是一个由具有属性的实体通过关系链接而成的网状知识库。
  2. 概念网络:从图的角度来看,知识图谱本质上是一种概念网络,其中的节点表示物理世界中的实体(或概念),而实体之间的各种语义关系则构成网络中的边。
  3. 符号表达:知识图谱是对物理世界的一种符号表达。

知识图谱的研究与应用价值

知识图谱的研究价值在于它能够构建在当前Web基础上的一层覆盖网络,借助知识图谱,可以在Web网页之上建立概念间的链接关系,从而以最小的代价将互联网中的信息组织起来,成为可以被利用的知识。知识图谱的应用价值在于它能够改变现有的信息检索方式,一方面通过推理实现概念检索,另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们摆脱传统的人工过滤网页寻找答案的模式。

知识图谱的架构

知识图谱的架构包括逻辑结构和技术结构两大部分。逻辑结构分为数据层和模式层。数据层存储以事实为单位的实体关系网络,模式层存储经过提炼的知识,通常采用本体库来管理。知识图谱的构建过程是一个迭代更新的过程,包括信息抽取、知识融合以及知识加工三个步骤。

知识图谱的构建技术

知识图谱的构建技术包括信息抽取、知识融合和知识加工。信息抽取是从各种数据源中提取出实体、关系以及实体属性等知识要素。知识融合是在获得新知识后对其进行整合,以消除矛盾和歧义。知识加工则是对经过融合的新知识进行质量评估,最终将合格的部分加入到知识库中。

信息抽取

信息抽取是知识图谱构建的第一步,涉及实体抽取、关系抽取和属性抽取。实体抽取是指从文本数据集中自动识别出命名实体。关系抽取是从文本语料中提取实体间的关系,以便形成网状的知识结构。属性抽取是从不同信息源中采集特定实体的属性信息。

知识融合

知识融合包括实体链接和知识合并。实体链接是指将从文本中抽取得到的实体对象链接到知识库中对应的实体对象。知识合并则是将外部知识库或关系数据库中的知识融入本地知识库。

知识加工

知识加工主要包括本体构建、知识推理和质量评估。本体构建是描述实体及其关系的规范,知识推理是从现有知识中发现新的知识,质量评估则是对知识库中的知识进行验证,确保其准确性和可靠性。

知识图谱的应用

通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,还提供了一种更好的组织、管理和利用海量信息的方式。知识图谱技术目前主要用于智能语义搜索、移动个人助理(如Siri)以及深度问答系统(如Watson)。

在智能语义搜索中,搜索引擎会借助知识图谱的帮助对用户的查询进行解析和推理,进而将其映射到知识图谱中的一个或一组概念之上,然后根据知识图谱的概念层次结构向用户返回图形化的知识结构。在深度问答应用中,系统同样会首先在知识图谱的帮助下对用户的查询进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。

知识图谱的构建流程

知识图谱的构建流程包括数据来源、抽取图谱到知识图谱、知识图谱的挖掘、知识图谱的更新和维护,以及知识图谱在搜索中的应用。

  1. 数据来源:包括百科类数据、结构化数据、半结构化数据以及搜索日志挖掘。
  2. 抽取图谱到知识图谱:包括实体对齐、知识图谱schema构建、不一致性的解决。
  3. 知识图谱的挖掘:包括推理、实体重要性排序、相关实体挖掘。
  4. 知识图谱的更新和维护:包括类型和集合的关系、结构化站点包装器的维护、知识图谱的更新频率以及众包反馈机制。
  5. 知识图谱在搜索中的应用:包括查询理解和问题回答。

通过上述步骤,知识图谱可以有效地提升搜索引擎和其他应用的功能和用户体验。

本文来源: 图灵汇 文章作者: 开放式创新研习社