scrapy框架start_urls以及sart_requests分析
程序员文章站
2022-05-07 08:41:27
...
start_urls
url列表。当 没有指定特定的url时,spider将从该列表中开始抓取。因此,第一个被获取到的页面的url僵尸该列表之一。后续的url将会从获取的数据中提取。
start_requests
该方法必须返回一个可迭代对象(iterable)。该对象包含了spider用于抓取的第一个Request。
当spider起订抓取并且未指定url时,该方法被调用。当指定了url时,make_requests_from_url()将被调用来创建request对象。该方法仅仅会被scrapy调用一次,因此您可以将其实现为生成器。
该方法的默认实现是使用start_urls的url生成request。
如果您想要修改最初抓取某个网站的request对象,您可以重写(override)该方法。例如,如果您需要在启动时以POST登录某个网站,你可以这么写:
def start_requests(self):
return [scrapy.FormRequest
("http://www.example.com/login", formdata={'user': 'john', 'pass': 'secret'},
callback=self.logged_in)]
def logged_in(self, response):
# here you would extract links to follow and return Requests for
# each of them, with another callback
pass
make_requests_from_url(url):
该方法接受一个url并返回用于抓取的request对象。该方法在初始化request时被start_requests()调用,也被用于转化url为request。
默认未被重写的情况下,该方法的request对象中,parse()作为返回函数,dont_filter参数 也被设置为开启。
推荐阅读
-
Scrapy框架CrawlSpiders的介绍以及使用详解
-
详解Android框架MVVM分析以及使用
-
python爬虫框架Scrapy采集数据,并制作词云图分析!
-
Python 工具 之 Scrapy 环境搭建(Twisted插件下载安装),以及 Scrapy 框架的简单使用说明
-
scrapy框架start_urls以及sart_requests分析
-
详解Android框架MVVM分析以及使用
-
python数据分析案例2:Python爬虫框架Scrapy入门与实践:
-
利用scrapy框架爬取某招聘网站,并对数据进行简单分析
-
关于CI框架源码的阅读以及系统常量文件constants.php配置的分析
-
关于CI框架源码的阅读以及系统常量文件constants.php配置的分析