python爬取知乎上的小姐姐

程序员文章站 2024-03-16 14:30:40

...

知乎上的东西质量都很好，有些问题下会有很多很好的回答，其中就有些关于图片的。
比如：

图片有了，那么…
python爬取知乎上的小姐姐

所以我写了个爬虫，把它们都爬下来了。

python爬取知乎上的小姐姐

找到api

虽然可以通过直接爬html来获取，但是通过api可以获取html所没有的信息。

zhihu_url = 'https://www.zhihu.com/api/v4/questions/{问题id}/answers?' \
		'include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward' \
       '_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%' \
       '2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2' \
       'Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cv' \
       'oteup_count%2Creshipment_settings%2Ccomment_permission%2Ccrea' \
       'ted_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquest' \
       'ion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoti' \
       'ng%2Cis_thanked%2Cis_nothelp%2Cis_labeled%3Bdata%5B%2A%5D.mar' \
       'k_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2C' \
       'badge%5B%2A%5D.topics&limit={一页条目数}' \
       '&offset={偏移量}&platform=desktop' \
       '&sort_by={排序方式}'

问题id在url中可以找到，比如https://www.zhihu.com/question/34243513，34243513就是它的id。
一页条目数当然越大越好，不过最大只能取20。
偏移量就是这一页第一条的序号，比如第一页是0，第二页是20（假设一页条目数为20）。
排放方式我们用“updated”，按时间排序。

所以任意一页的url我们就知道了，但是我们不知道有多少页。

获取json数据
请求该url就可以获取json数据，其结构如下：

可以看到，每请求一页就可以知道是不是最后一页和获取下一页的地址。

** 代码： **
GitHub：（等我上传到github我再放链接）

** 图包： **
（等我上传到百度云我再放链接）

相关标签： python 爬虫知乎 scrapy

上一篇： python爬虫之模拟登录（一）

下一篇： python手记12 〖笨方法学python习题34〗

python爬取知乎上的小姐姐

Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你项目实战结论及步骤笔记

python爬取知乎上的小姐姐

Python爬取网易云音乐上评论火爆的歌曲

Python爬取网易云音乐上评论火爆的歌曲

利用node.js写一个爬取知乎妹纸图的小爬虫

月薪30k的资深程序员用Python爬取了知乎百万用户！并数据分析！

通俗易懂的分析如何用Python实现一只小爬虫，爬取拉勾网的职位信息

Python实现爬取知乎神回复简单爬虫代码分享

利用node.js写一个爬取知乎妹纸图的小爬虫

Python爬取知乎单个问题下的回答

python爬取知乎上的小姐姐

Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你 项目实战结论及步骤笔记

python爬取知乎上的小姐姐

Python爬取网易云音乐上评论火爆的歌曲

Python爬取网易云音乐上评论火爆的歌曲

利用node.js写一个爬取知乎妹纸图的小爬虫

月薪30k的资深程序员用Python爬取了知乎百万用户！并数据分析！

通俗易懂的分析如何用Python实现一只小爬虫，爬取拉勾网的职位信息

Python实现爬取知乎神回复简单爬虫代码分享

利用node.js写一个爬取知乎妹纸图的小爬虫

Python爬取知乎单个问题下的回答

Python3 知乎回答爬取+数据文本分析——如何判断一个人是否喜欢你项目实战结论及步骤笔记