欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

<知识库的构建> 1–1 信息提取:动机 Information Extraction:Motivation

程序员文章站 2022-04-04 18:46:48
引自 F* Suchanek的讲义 IE (Information extraction) : 从数字化文本中导出事实的,结构化的文本的过程 关键字:Digital text documents,deriving,factual,structured 信息提取会遇到这样几个困难: - 二义性 ......

引自 F* Suchanek的讲义

 

IE (Information extraction) : 从数字化文本中导出事实的,结构化的文本的过程

       关键字:Digital text documents,deriving,factual,structured

 

信息提取会遇到这样几个困难:

-      二义性 ambiguity,即同一名字对应多个不同的entity

-      句子检测:即不知道从哪到哪是我们需要的句子成分

-      动词词组 verbal phrases:例如work as,be famous as 等等,he works as singer, he is famous as a singer, etc, 动词有很多种,变化很多,所以很难给实体加标签

-      解析句子:句子成分复杂,难

-      表格解读 table interpretation : 例如,不知道把提头当做hasXX 还是把表格内行的题目当做hasXX

-      解析文字:格式变化过多,例如:日期就有很多种写法,所以难

-      断句 segmentation:句子成分复杂,难

-      HTML没写好:annotation没做好,难以获取到信息

 

做信息提取的原因:

-      未提取的信息:有重复,无清晰结构

-      提取后的信息:重复少,有结构性,useful

 

信息提取的应用:

-      电邮:把相关日期从邮件中提取出来添加至calendar,etc

-      智能助理 intelligent assistant:提取出用户的信息,进行自动提醒

-      售后服务:提取出用户需要进行维护的部分,及预约的维修日期

-      网购:从用户下单的行为中提取出相关信息,名字,购买物品,价格

-      etc

 

知识图 Knowledge graph:是根据

-      不同结构的信息来源

-      和在web上进行信息提取所得到 (Knowledge Vault)

 

关于知识图的应用:问题回答功能 例如siri

-      回答的答案可以是很有结构的信息

-      有结构的信息是从数字化的结构的文本中上进行提取得到的

 

知识库举例:

-      YAGO:从*或者其他地方提取信息,建立了很大的知识图

-      DEANNA

-      IBM WATSON:问题回答系统

 

计算机很聪明吗,它是如何获取信息的呢

-      可以回答问题,但是从数据库中找到的答案

-      可以看懂自然语言并回答问题,但是是解析+数据库找答案

-      在回答问题方面可以打败人类,但也没好很多

-      可以开汽车,开飞机,etc,但这只是computation所带来的结果