NLP学习笔记
程序员文章站
2022-03-08 19:21:22
...
开始学习NLP的第一个模块jieba:
https://www.jianshu.com/p/cca648b4c1a3
import nltk
>>> list(token)
['hello', ',', 'world', '!']
>>> setence = 'hello, world!'
>>> token = nltk.word_tokenize(setence)
>>> list(token)
['hello', ',', 'world', '!']
import jieba
# 模糊模式
>>> seg_list = list(jieba.cut('2019年03月21号,我在清华同方A2楼一层的培训教室中 面试算法岗位,不知道能不能面上,OMG!', cut_all = False))
>>> list(seg_list)
['2019', '年', '03', '月', '21', '号', ',', '我', '在', '清华同方', 'A2', '楼', '一层', '的', '培训', '教室', '中', '面试', '算法', '岗位', ',', '不', '知道', '能', '不能', '面上', ',', 'OMG', '!']
# 精确模式,默认精确
>>> seg_list = list(jieba.cut('2019年03月21号,我在清华同方A2楼一层的培训教室中 面试算法岗位,不知道能不能面上,OMG!', cut_all = True))
>>> list(seg_list)
['2019', '年', '03', '月', '21', '号', '', '', '我', '在', '清华', '清华同方', '同方', 'A2', '楼', '一层', '的', '培训', '教室', '中', '面试', '试算', '算法', '岗位', '', '', '不知', '知道', '能', '不能', '能面', '面上', '', 'OMG', '']
>>>
#搜索引擎模式
>>> seg_list = jieba.cut_for_search('2019年03月21号,我在清华同方A2楼一层的培训 教室中面试算法岗位,不知道能不能面上,OMG!')
>>> list(seg_list)
['2019', '年', '03', '月', '21', '号', ',', '我', '在', '清华', '同方', '清华同方', 'A2', '楼', '一层', '的', '培训', '教室', '中', '面试', '算法', '岗位', ',', '不', '知道', '能', '不能', '面上', ',', 'OMG', '!']
上一篇: jq怎么恢复原来的css样式
下一篇: python怎么输入数字