欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

程序员文章站 2022-06-28 12:47:51
恢复内容开始 只有MD5的超链接可以点,点进去看看, 我写这个的爬虫的目的是下载样本,只关心样本的下载地址,并不关心其他的信息。 现在我们可以理清下思路: 提取规则 先从第一页开始爬起 scrapy支持xss选择器和css选择器,一般是用哪个比较方便就用哪个。 对应链接的xpath选择器为 //td ......

---恢复内容开始---

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

只有MD5的超链接可以点,点进去看看,

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

我写这个的爬虫的目的是下载样本,只关心样本的下载地址,并不关心其他的信息。

现在我们可以理清下思路:

获取每一页的网页源码
解析当前页的每一个md5对应的详细信息链接
在详细信息页面解析下载地址。

提取规则

先从第一页开始爬起

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

scrapy支持xss选择器和css选择器,一般是用哪个比较方便就用哪个。

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

对应链接的xpath选择器为 //td/a/@href ,

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

下一页的链接的xpath选择器为 //a[contains(text(),'Next')]/@href

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

登陆

之前写爬虫的时候,是可以直接通过post登陆的,而我开始写这篇文章的时候开始加上了google的ReCaptcha验证码。

只能换种方式使用selenium来登陆Malwr.得到登陆后的cookie后,我们就可以用这个cookie开始下载样本了。

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

FilesPipeline是从file_urls中拿到下载地址然后开始下载文件,因此我们还需要Item.py定义一个file_urls.

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

解析下载地址,将解析到的下载链接列表放入item的file_urls,返回item。pipeline会file_urls拿到链接开始调用get_media_requests下载文件

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

爬虫真的无所不能爬!病毒样本照样爬取下来!恶意软件分析!

---恢复内容结束---