欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

3.2 机器学习 - NLP和情感分析

程序员文章站 2022-04-14 20:32:23
...

案例1:利用贝叶斯方法的多项式模型分析新闻数据

数据#1

!wget http://qwone.com/~jason/20Newsgroups/20news-bydate.tar.gz

!ls

!tar -xzf 20news-bydate.tar.gz

!ls

!ls 20news-bydate-test

!ls 20news-bydate-train

!ls 20news-bydate-test/rec.autos

!cat 20news-bydate-test/rec.autos/103744

数据#2

!git clone https://github.com/qiwsir/DataSet.git

!ls DataSet

!ls DataSet/20newsbydate

!ls DataSet/movie_data

案例2:情感分析:分析影评数据

NLTK

NLTK是构建Python程序以使用人类语言数据的领先平台。
它为50多种语料库和词汇资源(如WordNet)提供了易于使用的界面,以及用于分类,标记化,词干,标记,解析和语义推理的文本处理库套件。

import nltk
nltk.download('punkt')
sentence = "The Quick brown fox, Jumps over the lazy little dog. Hello World."

word_tokenize(sentence)

3.2 机器学习 - NLP和情感分析
sentence.split()
3.2 机器学习 - NLP和情感分析
sentence.split(’,’)
3.2 机器学习 - NLP和情感分析

案例3:分析nltk中的影评数据

from nltk.corpus import movie_reviews
nltk.download('movie_reviews')

影评类别

movie_reviews.categories() 

3.2 机器学习 - NLP和情感分析
显示存储影评的文档

movie_reviews.fileids()[:5]

3.2 机器学习 - NLP和情感分析
对所有文档中的词汇进行统计

all_words = movie_reviews.words() # 得到所有词汇
freq_dist = nltk.FreqDist(all_words) # 对单词计数
freq_dist.most_common(20) # 

3.2 机器学习 - NLP和情感分析

!ls /root/nltk_data/corpora/movie_reviews

!tree /root/nltk_data/corpora/movie_reviews/neg

3.2 机器学习 - NLP和情感分析