Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你项目实战结论及步骤笔记

程序员文章站 2024-03-16 14:26:22

...

实现思路及准备

 **实现思路**
   1.利用知乎爬取回答 存入数据库 
   2.从数据库提取数据 过滤清洗
   3.词频统计，文本分析，做词云图，得结论
  **准备：**
   Python3、Mysql8.0、mysqlworkbench
   所需库：pymysql、json、requests、jieba、re、wordcloud、

爬取知乎动态页面存入数据库

一、爬取

Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你项目实战结论及步骤笔记
1.先点查看全部回答——F12——network——刷新页面——

2.点击一个文件——preview ——找到一个文件类似这样展开data里面有回答的就是（一般是answers开头的一个文件）——点旁边headers——复制它的Url
Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你项目实战结论及步骤笔记
3.到浏览器中打开——修改offset= 这里就可以改变页数
然后就可以用requests库，对页面进行爬取了

这里记得加headers请求头否则会报错

二、存入

1.在workbench中创建表把answerer_name设置为主键，因为发现更改offset=后的页面会有许多重复回答 Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你项目实战结论及步骤笔记
29.30行的定位需要把页面代码（json格式）去百度在线格式化一下就可以找到定位的地方了
这里31行的sql语句是 replace into 且以answerer_name为主键避免重复输入
2.输出结果，这里一共爬了九百多条
Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你项目实战结论及步骤笔记