我在知乎爬了最近很火的“打工人“表情包
程序员文章站
2022-05-02 10:03:07
...
最近
“打工人” 这个梗
刷爆了各大社交平台
朋友圈、消息群都是毒鸡汤
今天
对知乎下手
用Python爬一波表情包…
1、首先在知乎搜索#打工人表情包#,然后打开开发者工具。
不难发现页面应该是异步请求接口,再去渲染
2、在xhr资源里找到请求数据的api,下面对返回数据进行分析。
data里头就是包含每条推文的信息,再深入找到content字段是推文的详情(包含文字图片链接),后面将内容进行分析过滤就能取到想要的信息。
3、下面用代码请求一下,发现用普通的请求头请求会返回请求错误,于是把浏览器参数全部复制过来就好了。
结果:
4、上面已经请求成功,那么把content里面的图片链接用正则筛选出来。下面我用sublime text做测试:
5、下面就是进行批量抓取了
代码如下(示例):
/**
* 在循环的时候,每次增加offset起始点数
* &q 搜索关键字
* &offset 起始点
* &limit 返回条数
*/
https://www.zhihu.com/api/v4/search_v3?t=general&q=打工人表情包&correction=1&offset=0&limit=20&lc_idx=0&show_all_topics=0
6、将过滤好图片链接下载到本地
推荐阅读