3.2 机器学习 - NLP和情感分析
程序员文章站
2022-04-14 20:32:23
...
案例1:利用贝叶斯方法的多项式模型分析新闻数据
数据#1
!wget http://qwone.com/~jason/20Newsgroups/20news-bydate.tar.gz
!ls
!tar -xzf 20news-bydate.tar.gz
!ls
!ls 20news-bydate-test
!ls 20news-bydate-train
!ls 20news-bydate-test/rec.autos
!cat 20news-bydate-test/rec.autos/103744
数据#2
!git clone https://github.com/qiwsir/DataSet.git
!ls DataSet
!ls DataSet/20newsbydate
!ls DataSet/movie_data
案例2:情感分析:分析影评数据
NLTK是构建Python程序以使用人类语言数据的领先平台。
它为50多种语料库和词汇资源(如WordNet)提供了易于使用的界面,以及用于分类,标记化,词干,标记,解析和语义推理的文本处理库套件。
import nltk
nltk.download('punkt')
sentence = "The Quick brown fox, Jumps over the lazy little dog. Hello World."
word_tokenize(sentence)
sentence.split()
sentence.split(’,’)
案例3:分析nltk中的影评数据
from nltk.corpus import movie_reviews
nltk.download('movie_reviews')
影评类别
movie_reviews.categories()
显示存储影评的文档
movie_reviews.fileids()[:5]
对所有文档中的词汇进行统计
all_words = movie_reviews.words() # 得到所有词汇
freq_dist = nltk.FreqDist(all_words) # 对单词计数
freq_dist.most_common(20) #
!ls /root/nltk_data/corpora/movie_reviews
!tree /root/nltk_data/corpora/movie_reviews/neg
上一篇: 4.2 深度学习 - 飞桨案例图像识别
下一篇: 特征工程 - 特征选择
推荐阅读
-
从零搭建企业大数据分析和机器学习平台-技术栈介绍(三)
-
机器学习算法python实现应用机器学习于情感分析-训练文档分类(在线算法和核心学习)
-
简单且有用的Python数据分析和机器学习代码
-
从零搭建企业大数据分析和机器学习平台-技术栈介绍(三)
-
3.2 机器学习 - NLP和情感分析
-
Apache Kafka应用程序中的机器学习和实时分析(第二部分)
-
Apache Kafka应用程序中的机器学习和实时分析(第一部分)
-
机器人怎么深度学习?逻辑判断和情感选择仍是障碍
-
机器学习算法python实现应用机器学习于情感分析-训练文档分类(在线算法和核心学习)
-
简单且有用的Python数据分析和机器学习代码