欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

知识图谱学习笔记之知识图谱中的知识分类

程序员文章站 2022-06-12 17:05:14
...

知识图谱中的知识分类

事实知识

事实知识是关于某个特定实体的基本事实,如(山东富士苹果,产地,山东)。事实知识是知识图谱中非常常见的知识类型。大部分的事实知识都是在描述实体的特定属性或关系,如“产地”。但是有些实体的相关事实未必存在典型的属性或者关系与之对应,需要通过复杂的文本来描述。如“孟子继承和发扬了孔子的儒家思想”,这一事实中,显示孔子和孟子之间是有关系的,但这类关系很难简单陈述。一般以实体为中心组织的知识图谱均富含事实知识。

概念知识

概念知识一般分为两类:
1.实体与概念之间的类属关系(isA),如(孔子 isA 教育家)。
2.概念与概念之间的子父类关系(subclassOf),如(批判教育家,subclassOf,教育家)。
一个概念可能有子概念也可能有父概念,概念之间的层级关系是本体定义中最重要的部分,也是构建知识图谱的第一步。

词汇知识

词汇知识主要包括实体与词汇之间的关系(比如,实体的命名,称谓,英文名等)以及词汇之间的关系(包括同义,反义,缩略,上下位词)。如(妻子,同义,媳妇),(刘彻,谥号,汉武帝)。一些语言知识库专注于建立实体和概念在不同语言中的描述形式。

常识知识

常识知识是人类通过自身与外界交互而积累的经验与知识,是人们在交流时无须言明就能理解的知识。例如,蜜蜂有翅膀,蜜蜂会飞等。常识知识的获取是构建知识图谱的一大难点。

有些知识的存在是有时间限制的,如(2020-9-15,温度,22度,嘉兴)
有些知识是含有主观性因素,(比如KFC是否是健康食品,橘子是否是甜的)

知识图谱的领域特性

DKG(领域知识图谱)与GKG(通用知识图谱)

GKG与DKG的区别:

DKG GKG
知识表示 广度
知识表示 深度
知识表示 粒度
知识获取 质量要求 苛刻
知识获取 专家参与 重度 轻度
知识获取 自动化程度
知识应用 推理链条
知识应用 应用复杂性 复杂 简单

GKG与DKG的联系:

1.领域知识是通过隐喻或类比从通用知识发展而来的。如我们对某个人的社会地位高低的认识从空间上的高低隐喻而来,在芯片领域,我们通常将各种芯片与人体器官相类比。
2.GKG与DKG相互支撑。一方面,GKG可以给DKG提供高质量的种子事实,这些种子事实可以用作样本指导抽取模型的训练。另一方面,GKG可以提供领域模式。而DKG建好之后又可以反哺GKG。

典型知识图谱

知识图谱 构建团队 领域 特点 规模 构建方式 语言 类型
Cyc Cycorp公司 通用 人工将上百万条人类常识编码成机器可用的形式用于智能推断 700万条断言,63万个概念,3.8万条关系 人工 英语 常识图谱
WordNet 普林斯顿大学 通用 以同义词集合作为一个基本单元 15万个词,11万组同义词集合,以及20万条关系 人工 英语 词汇图谱
ConceptNet 麻省理工学院 通用 多语言常识知识库 800万个实体,2100万条关系 自动 多语言 常识图谱
Freebase MetaWeb公司 通用 众包编辑 4400万个概念,24亿个事实 半自动 英语 百科图谱
GeoNames Geonames.org 领域 多语言地理位置信息 2500万个实体 半自动 多语言 地理图谱
DBpedia 柏林*大学,莱比锡大学,OpenLink 通用 多语言自动构建 2800万个实体 半自动 多语言 百科图谱
YAGO 马克斯·普朗克计算机科学研究所 通用 人工校验,时空维度,多语言 1000万个实体,1.2亿条关系 自动 多语言 百科图谱
OpenIE 华盛顿大学 通用 开放性关系抽取,Never-Ending 50亿条关系 自动 英语 文本图谱
BabelNet 罗马萨皮恩扎大学 通用 271种语言,自动融合 1400万个实体 自动 多语言 词汇图谱
Google知识图谱 Google 通用 规模最大 未知 自动 多语言 综合知识图谱
WikiData 维基媒体基金会 通用 众包编辑 540万个实体 半自动 多语言 百科图谱