大佬整理出来的干货:LDA模型实现—Python文本挖掘
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
ps:如有需要python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/a6zvjdun
1、简介
在机器学习领域,lda是两个常用模型的简称:linear discriminant analysis和latent dirichlet allocation。本文的lda是指latent dirichlet allocation,它在主题模型中占有非常重要的地位,常用来文本分类。
lda由blei, david m.、ng, andrew y.、jordan于2003年提出,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。
2、原理
lda模型它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
人类生成文档是基于概率选取主题及其对应的词汇的方式,即一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。
那么lda要做的就是通过文档反推主题。文档到主题服从多项式分布,主题到词服从多项式分布。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
用lda来进行主题建模就是要以无指导学习的方法从文本中发现隐含的语义维度-即“topic”或者“concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的topic结构,这种方法不需要任何关于文本的背景知识。
3、实现过程
这一过程可以通过python轻松实现。需要的python 包有:
•pandas,pandas 是基于numpy 的一种工具,该工具是为了解决数据分析任务而创建的。在 windows 下使用 pip 安装:pip install pandas.•gensim,包含我们要用到的 lda 模型的一个主题模型包。在 windows 下使用 pip 安装:pip install gensim.•jieba,是一款优秀的 python 第三方中文分词库。在 windows 下使用 pip 安装:pip install jieba.
3.1 导入包
3.2 分词
3.3 词典化
3.4 将文档表示成词袋向量
3.5 lda建模
打印主题
完整代码
输出结果
如果你处于想学python或者正在学习python,python的教程不少了吧,但是是最新的吗?说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的python教程。获取方式,私信小编 “ 资料 ”,即可免费获取哦!
上一篇: 流程控制语句-continue继续循环
下一篇: JavaScript异步编程的一些技巧