欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

NLP学习笔记

程序员文章站 2022-03-08 19:21:22
...

开始学习NLP的第一个模块jieba:
https://www.jianshu.com/p/cca648b4c1a3
 

import nltk  
>>> list(token)
['hello', ',', 'world', '!']
>>> setence = 'hello, world!'
>>> token = nltk.word_tokenize(setence)
>>> list(token)
['hello', ',', 'world', '!']
import jieba
# 模糊模式
>>> seg_list = list(jieba.cut('2019年03月21号,我在清华同方A2楼一层的培训教室中 面试算法岗位,不知道能不能面上,OMG!', cut_all = False)) 
>>> list(seg_list)
['2019', '年', '03', '月', '21', '号', ',', '我', '在', '清华同方', 'A2', '楼', '一层', '的', '培训', '教室', '中', '面试', '算法', '岗位', ',', '不', '知道', '能', '不能', '面上', ',', 'OMG', '!']

# 精确模式,默认精确
>>> seg_list = list(jieba.cut('2019年03月21号,我在清华同方A2楼一层的培训教室中 面试算法岗位,不知道能不能面上,OMG!', cut_all = True)) 
>>> list(seg_list)
['2019', '年', '03', '月', '21', '号', '', '', '我', '在', '清华', '清华同方', '同方', 'A2', '楼', '一层', '的', '培训', '教室', '中', '面试', '试算', '算法', '岗位', '', '', '不知', '知道', '能', '不能', '能面', '面上', '', 'OMG', '']
>>> 
#搜索引擎模式
>>> seg_list = jieba.cut_for_search('2019年03月21号,我在清华同方A2楼一层的培训 教室中面试算法岗位,不知道能不能面上,OMG!')
>>> list(seg_list)
['2019', '年', '03', '月', '21', '号', ',', '我', '在', '清华', '同方', '清华同方', 'A2', '楼', '一层', '的', '培训', '教室', '中', '面试', '算法', '岗位', ',', '不', '知道', '能', '不能', '面上', ',', 'OMG', '!']
相关标签: 自然语言处理