欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

jieba分词自定义词典

程序员文章站 2022-03-08 19:28:51
...

    从语料库down下来的词频表,结合业务实际分词进行调优,添加云计算(jieba无法准确划分该词)等词及词频,down的文件格式使用python的文件读写进行调整:

with open(file='./Minedic.txt',mode='r',encoding='utf-8') as f:
    read=f.readlines()

for line in read:
    str=line.replace('\t',' ').rstrip()
    with open('./Minedic.txt','a+',encoding='utf-8')as f1:
        # print(1)
        f1.write(str+'\n')

    加载自定义词典:jieba

str="我是云计算的工作人员,是*党员,还是一名非常优秀的程序猿!"
jieba.load_userdict('Minedic.txt')
#默认 cut_all=False, HMM=True ,HMM:隐马尔可夫算法,能够识别未登录语料
cut=jieba.cut(str, cut_all=False, HMM=True)
print(" ".join(cut))

serchCut = jieba.cut_for_search(str) # 搜索引擎切割方式,带上标点符号
print('/'.join(serchCut))

 

相关标签: 自然语言处理