【ChatBot学习笔记】5.文法分析
程序员文章站
2024-03-22 17:51:16
...
5.文法分析
文法特征
因为句子可以无限组合无限扩展,所以单纯用语法分析来完成自然语言处理这件事情是不可能的,所以出现了文法分析
文法是一个潜在的无限的句子集合的一个紧凑的特性,它是通过一组形式化模型来表示的,文法可以覆盖所有结构的句子,对一个句子做文法分析,就是把句子往文法模型上靠,如果同时符合多种文法,那就是有歧义的句子
最重要的结论:文法结构范围相当广泛,无法用规则类的方法来处理,只有利用基于特征的方法才能处理
文法特征举例:单词最后一个字母、词性标签、文法类别、正字拼写、指示物、关系、施事角色、受事角色
因为文法特征是一种kv,所以特征结构的存储形式是字典
不是什么样的句子都能提取出每一个文法特征的,需要满足一定的条件,这需要通过一系列的检查手段来达到,包括:句法协议(比如this dog就是对的,而these dog就是错的)、属性和约束、术语
特征结构处理
import nltk
fs1 = nltk.FeatStruct(TENSE=‘past’, NUM=‘sg’)
fs1
fs2 = nltk.FeatStruct(POS=‘N’, AGR=fs1)
fs2
一个查找国家/城市的sql语句示例
% start S
S[SEM=(?np + WHERE + ?vp)] -> NP[SEM=?np] VP[SEM=?vp]
VP[SEM=(?v + ?pp)] -> IV[SEM=?v] PP[SEM=?pp]
VP[SEM=(?v + ?ap)] -> IV[SEM=?v] AP[SEM=?ap]
NP[SEM=(?det + ?n)] -> Det[SEM=?det] N[SEM=?n]
PP[SEM=(?p + ?np)] -> P[SEM=?p] NP[SEM=?np]
AP[SEM=?pp] -> A[SEM=?a] PP[SEM=?pp]
NP[SEM='Country="greece"'] -> 'Greece'
NP[SEM='Country="china"'] -> 'China'
Det[SEM='SELECT'] -> 'Which' | 'What'
N[SEM='City FROM city_table'] -> 'cities'
IV[SEM=''] -> 'are'
A[SEM=''] -> 'located'
P[SEM=''] -> 'in'
`
from nltk import load_parser
cp = load_parser('grammars/book_grammars/sql0.fcfg')
query = 'What cities are located in China'
tokens = query.split()
for tree in cp.parse(tokens):
print (tree)
下一篇: 3.分类管理
推荐阅读
-
【ChatBot学习笔记】5.文法分析
-
【ECMAScript 学习笔记】5.关于 Class
-
Java分布式应用学习笔记06浅谈并发加锁机制分析 博客分类: 分布式集群 java分布式集群线程锁并发
-
MySQL学习笔记-5.约束的介绍
-
深入分析Redis Server went away产生的原因 博客分类: Linux学习笔记PHP开发
-
深入分析Redis Server went away产生的原因 博客分类: Linux学习笔记PHP开发
-
Python学习笔记之解析json的方法分析
-
利用Python进行数据分析学习笔记
-
Python学习笔记之解析json的方法分析
-
嵌入式linux学习笔记--20200222--JZ2440V3 S3C2440 时钟树分析以及修改时钟的代码