<知识库的构建> 1–1 信息提取:动机 Information Extraction:Motivation
引自 F* Suchanek的讲义
IE (Information extraction) : 从数字化文本中导出事实的,结构化的文本的过程
关键字:Digital text documents,deriving,factual,structured
信息提取会遇到这样几个困难:
- 二义性 ambiguity,即同一名字对应多个不同的entity
- 句子检测:即不知道从哪到哪是我们需要的句子成分
- 动词词组 verbal phrases:例如work as,be famous as 等等,he works as singer, he is famous as a singer, etc, 动词有很多种,变化很多,所以很难给实体加标签
- 解析句子:句子成分复杂,难
- 表格解读 table interpretation : 例如,不知道把提头当做hasXX 还是把表格内行的题目当做hasXX
- 解析文字:格式变化过多,例如:日期就有很多种写法,所以难
- 断句 segmentation:句子成分复杂,难
- HTML没写好:annotation没做好,难以获取到信息
做信息提取的原因:
- 未提取的信息:有重复,无清晰结构
- 提取后的信息:重复少,有结构性,useful
信息提取的应用:
- 电邮:把相关日期从邮件中提取出来添加至calendar,etc
- 智能助理 intelligent assistant:提取出用户的信息,进行自动提醒
- 售后服务:提取出用户需要进行维护的部分,及预约的维修日期
- 网购:从用户下单的行为中提取出相关信息,名字,购买物品,价格
- etc
知识图 Knowledge graph:是根据
- 不同结构的信息来源
- 和在web上进行信息提取所得到 (Knowledge Vault)
关于知识图的应用:问题回答功能 例如siri
- 回答的答案可以是很有结构的信息
- 有结构的信息是从数字化的结构的文本中上进行提取得到的
知识库举例:
- YAGO:从*或者其他地方提取信息,建立了很大的知识图
- DEANNA
- IBM WATSON:问题回答系统
计算机很聪明吗,它是如何获取信息的呢
- 可以回答问题,但是从数据库中找到的答案
- 可以看懂自然语言并回答问题,但是是解析+数据库找答案
- 在回答问题方面可以打败人类,但也没好很多
- 可以开汽车,开飞机,etc,但这只是computation所带来的结果
上一篇: 不是丝绸的找你退货