jieba分词自定义词典
程序员文章站
2022-03-08 19:28:51
...
从语料库down下来的词频表,结合业务实际分词进行调优,添加云计算(jieba无法准确划分该词)等词及词频,down的文件格式使用python的文件读写进行调整:
with open(file='./Minedic.txt',mode='r',encoding='utf-8') as f:
read=f.readlines()
for line in read:
str=line.replace('\t',' ').rstrip()
with open('./Minedic.txt','a+',encoding='utf-8')as f1:
# print(1)
f1.write(str+'\n')
加载自定义词典:jieba
str="我是云计算的工作人员,是*党员,还是一名非常优秀的程序猿!"
jieba.load_userdict('Minedic.txt')
#默认 cut_all=False, HMM=True ,HMM:隐马尔可夫算法,能够识别未登录语料
cut=jieba.cut(str, cut_all=False, HMM=True)
print(" ".join(cut))
serchCut = jieba.cut_for_search(str) # 搜索引擎切割方式,带上标点符号
print('/'.join(serchCut))