欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

我在知乎爬了最近很火的“打工人“表情包

程序员文章站 2022-05-02 10:03:07
...

最近
“打工人” 这个梗
刷爆了各大社交平台
朋友圈、消息群都是毒鸡汤
我在知乎爬了最近很火的“打工人“表情包

今天
对知乎下手
用Python爬一波表情包…
我在知乎爬了最近很火的“打工人“表情包


1、首先在知乎搜索#打工人表情包#,然后打开开发者工具。

不难发现页面应该是异步请求接口,再去渲染
我在知乎爬了最近很火的“打工人“表情包

2、在xhr资源里找到请求数据的api,下面对返回数据进行分析。

data里头就是包含每条推文的信息,再深入找到content字段是推文的详情(包含文字图片链接),后面将内容进行分析过滤就能取到想要的信息。
我在知乎爬了最近很火的“打工人“表情包

3、下面用代码请求一下,发现用普通的请求头请求会返回请求错误,于是把浏览器参数全部复制过来就好了。我在知乎爬了最近很火的“打工人“表情包

结果:
我在知乎爬了最近很火的“打工人“表情包

4、上面已经请求成功,那么把content里面的图片链接用正则筛选出来。下面我用sublime text做测试:我在知乎爬了最近很火的“打工人“表情包

5、下面就是进行批量抓取了

代码如下(示例):

/**
* 在循环的时候,每次增加offset起始点数
* &q 搜索关键字
* &offset 起始点
* &limit 返回条数
*/
https://www.zhihu.com/api/v4/search_v3?t=general&q=打工人表情包&correction=1&offset=0&limit=20&lc_idx=0&show_all_topics=0

我在知乎爬了最近很火的“打工人“表情包

6、将过滤好图片链接下载到本地

我在知乎爬了最近很火的“打工人“表情包

相关标签: 龟谷爬虫 python