欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

利用Python抓取阿里云盘资源

程序员文章站 2024-02-19 19:45:28
前阵子阿里云盘大火,送了好多的容量空间。而且阿里云盘下载是不限速,这点比百度网盘好太多了。这两天看到一个第三方网站可以搜索阿里云盘上的资源,但是它的资源顺序不是按时间排序的。这种情况会造成排在前面时间...

前阵子阿里云盘大火,送了好多的容量空间。而且阿里云盘下载是不限速,这点比百度网盘好太多了。这两天看到一个第三方网站可以搜索阿里云盘上的资源,但是它的资源顺序不是按时间排序的。这种情况会造成排在前面时间久远的资源是一个已经失效的资源。小编这里用 python 抓取后重新排序。

利用Python抓取阿里云盘资源

网页分析

这个网站有两个搜索路线:搜索线路一和搜索线路二,本文章使用的是搜索线路二。

利用Python抓取阿里云盘资源

打开控制面板下的网络,一眼就看到一个 seach.html 的 get 请求。

利用Python抓取阿里云盘资源

上面带了好几个参数,四个关键参数:

  • page:页数,
  • keyword:搜索的关键字
  • category:文件分类,all(全部),video(视频),image(图片),doc(文档),audio(音频),zip(压缩文件),others(其他),脚本中默认写 all
  • search_model:搜索的线路

也是在控制面板中,看出这个网页跳转到阿里云盘获取真实的的链接是在标题上面的。用 bs4 解析页面上的 div(class=resource-item border-dashed-eee) 标签下的 a 标签就能得到跳转网盘的地址,解析 div 下的 p 标签获取资源日期。

利用Python抓取阿里云盘资源

抓取与解析

首先安装需要的 bs4 第三方库用于解析页面。

下面是抓取解析网页的脚本代码,最后按日期降序排序。

示例结果:

利用Python抓取阿里云盘资源

模板

上面抓取完内容后,还需要将内容一个个复制到 google 浏览器中访问,有点太麻烦了。要是直接点击一下能访问就好了。小编在这里就用 python 的模板方式写一个 html 文件。

模板文件小编是用 elements-ui 做的,下面是关键的代码:

在 python 中读取这个模板文件,并将 ${elements} 关键词替换为上面的解析结果。最后生成一个 report.html 文件。

示例结果:

利用Python抓取阿里云盘资源

跳转到阿里云盘界面

利用Python抓取阿里云盘资源

完整代码

aliso.html

aliso.py

总结

用 python 做一些小爬虫,不仅去掉网站上烦人的广告,也更加的便利了。

以上就是利用python抓取阿里云盘资源的详细内容,更多关于python抓取云盘资源的资料请关注其它相关文章!