欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

知识图谱综述学习笔记

程序员文章站 2022-06-12 17:05:38
...

1. 知识图谱的定义与架构

1.1 知识图谱的定义

  • 在*中:知识图谱是Google用于增强其搜索引擎功能的知识库。
  • 本质上:知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。
  • 现在的知识图谱已经被用来泛指各种大规模的知识库。

三元组是知识图谱的一种通用表示方式,即G=(E,R,S)。

1.2 知识图谱的架构

包括自身的逻辑结构及体系架构。

1)知识图谱的逻辑结构:

- 知识图谱在逻辑上可以分为模式层与数据层两个层次。
- 数据层主要由一系列的事实组成,而知识将以事实为单位进行存储。若用(实体1,关系, 实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j[9]、Twitter的FlockDB[10]、sones的GraphDB[11]等。
- 模式层构建在数据层之上,主要通过本体库来规范数据层的一系列事实表达。

2)知识图谱的体系架构

- 知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
- 自顶向下指的是先为知识图谱定义好本体与数据模式,再讲实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从*中得到的。
- 自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入知识库,再构建顶层的本体模式。**目前,大多数知识图谱都采用自底向上的方式进行构建**,其中最典型就是Google的Knowledge Vault。

2.大规模知识库

3.知识图谱的关键技术

大规模知识库的构建与应用需要多种智能信息处理技术的支持。

  • 通过知识抽取技术,可以从一些公开的半结构化、结构化数据中提取出实体、关系、属性等知识要素。
  • 通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。
  • 知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富拓展知识库。
  • 分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均有重要的意义。

3.1知识抽取

知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元。知识单元包括实体、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。

3.1.1实体抽取

早期也称为命名实体学习(named entit learning)或命名实体识别(named entity recognition,NER),是从原始语料中自动识别出命名实体。由于实体是知识图谱的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识库的质量。因此。实体抽取是知识抽取中最为基础与关键的一步。

实体抽取的三种方法:

  • 基于规则的方法:通常需要为目标实体编写模板,然后再原始语料库中进行匹配。
  • 基于统计机器学习的方法:主要是通过机器学习的方法对原始语料库进行模型训练。
  • 面向开放领域的抽取:面向海量的Web语料。针对如何从少量实体实例中自动发现具有区分力的模式,进而扩展到海量文本去给实体做分类与聚类的问题,文献[34]提出了一种通过迭代方式扩展实体语料库的解决方案,其基本思想是通过少量的实体实例建立特征模型,再通过该模型应用于新的数据集得到新的命名实体。文献[35]提出了一种基于无监督学习的开放域聚类算法,其基本思想是基于已知实体的语义特征去搜索日志中识别出命名的实体,然后进行聚类。

3.1.2 关系抽取
关系抽取的目标是解决实体间语义链接的问题。早期的关系抽取主要是通过人工构造语义规则以及模块的方法识别实体关系,随后,实体间的关系模型逐渐替代了人工预定义的语法与规则。但是仍需要提前定义实体间的关系类型。

3.1.3 属性抽取
属性抽取主要是针对实体而言的,通过属性形成对实体的完整勾画。实体的属性抽取可以转化为关系抽取问题。将实体属性的抽取问题转化为关系抽取问题。

基于规则与启发式算法的属性抽取方法能够从Wikipedia及WordNet的半结构化网页中自动抽取相应的属性名称与属性值,还可扩展为一套本体知识库。实验表明该算法的抽取准确率可达95%。大量的属性数据主要存在于半结构化、非结构化的大规模开放域数据集中。抽取这些属性的方法:

  • 一种是将上述从百科网站上抽取的结构化数据作为可用于属性抽取的训练集,然后再将该模型应用于开放域中的实体属性抽取。
  • 另一种是根据实体属性与属性值之间的关系模式,直接从开放域数据集上抽取属性。但是由于属性值附近普遍存在一些限定属性值含义的属性名等,所以该抽取方法的准确率并不高。

3.2 知识表示

虽然,基于三元组的知识表示形式收到了广泛认可,但其在计算效率、数据稀疏性等方面却面临着诸多问题。以深度学习为代表的表示学习技术可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其中间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。

3.2.1 应用场景

分布式表示旨在用一个综合的向量来表示实体对象的语义信息,是一种模仿人脑工作的表示机制,用过知识表示而得到的分布式表示形式在知识图谱的计算、补全、推理等方面将起到重要的作用。

1)语义相似度计算

由于实体通过分布式表示而形成的是一个低维的实值向量,所以,可使用熵权系数法、余弦相似度等方法计算他们之间的相似性。这种相似性刻画了实体之间的语义关联程度,为自然语言处理等提供了极大的便利。

2)链接预测

通过分布式表示模型,可以预测图谱中任意两个实体之间的关系,以及实体间已存在的关系的正确性。尤其在大规模知识图谱的上下文中,需要不断补充其中的实体关系,所以链接预测又称为知识图谱的补全。

3.2.2代表模型

知识表示学习的代表模型包括距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等。

1)距离模型

知识库实体以及关系的结构化表示方法(structured embedding,SE),其基本思想是:首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体向量同一维度的向量空间中,最后通过计算投影向量之间的距离来判断实体间已存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,故实体间的协同性较差,这也是该模型的主要缺陷。

2)单层神经网络模型

针对上述提到的距离模型中的缺陷,提出了采用单层神经网络的非线性模型,模型为知识库中每个三元组定义了评价函数。

知识图谱综述学习笔记
3)双线性模型

也叫隐变量模型(latent factor model,LFM)。模型为知识库中每个三元组

相关标签: NLP