python之调度器的用法

程序员文章站 2022-05-20 09:53:11

...

　　继续上一篇文章的内容，上一篇文章中，将爬虫调度器已经写好了，调度器是整个爬虫程序的“大脑”，也可以称之为指挥中心。而现在，我们要做的就是去将调度器中用到的其他组件写好。首先是url管理器，它既然作为管理器，那么它一定要区分待爬取的url和已经爬取的url，否则会重复爬取。这里教程用的是set集合，将两个url暂时存放到集合中，也就是内存中，毕竟比较爬取的数据比较少，当然也可以存放到别的地方，比如缓存或者关系型数据库中。　

　　　　第一次是调度器初始化函数中，创建这个urlmanager对象，

　　　　第二次是调用了add_new_url方法来将最初始的url加入到带爬取的集合中，

　　　　第三次是在爬取过程中来判断是否有待爬取的url,

　　　　第四次是将要爬取的url从集合中取出来，

　　　　第五次是将页面解析出来的新的一组url再次添加到带爬去集合中

　　那么我们接下来就要做的是用代码来实现这些功能：

 1 class UrlManager(object): 2     """docstring for UrlManager""" 3     def __init__(self): 4         self.new_urls = set() 5         self.old_urls = set() 6     #向管理器中添加一个新的url 7     def add_new_url(self,url): 8         if url is None: 9             return10         if url not in self.new_urls and url not in self.old_urls:11             self.new_urls.add(url)12     #从爬取数据中向管理器中批量添加url13     def add_new_urls(self,urls):14         if urls is None or len(urls) == 0:15             return16         for url in urls:17             self.add_new_url(url)18     #判断是否有新的url19     def has_new_url(self):20         return (len(self.new_urls) != 0)21     #从管理器中取出一个新的url22     def get_new_url(self):23         new_url = self.new_urls.pop()24         self.old_urls.add(new_url)25         return new_url

　　好，到这，url管理器就搞定了！

　　接下来就是url下载器了，很简单一个功能，将程序访问的页面保存下来。

　下载器只在调度器中出现过两次：

　　　　第一次是初始化的时候创建

　　　　第二次是紧接着取到url之后，马上调用它来下载页面

　　在url下载器中，原教程使用的是urllib库，我觉得有点繁琐。所以我换成了一个更好用的库：requests。这个库可以帮助我屏蔽许多技术难题，直接去抓取我们想要访问的页面，而且使用起来非常简单。

 1 import requests 2  3 class HtmlDownloader(object): 4     """docstring for HtmlDownloader"""     5     def download(self,url): 6         if url is None: 7             return  8         response = requests.get(url, timeout = 0.1) 9         response.encoding = 'utf-8'10         if response.status_code == requests.codes.ok:11             return response.text12         else:13             return

　　简要讲一下这段代码：

　　　　a.首先要导入requests库，这个因为是第三方库，所以需要你自己下载，在命令行输入：pip install requests

　　　　b.然后开始写下载器这个类，这个类只有一个方法，就是download。这个方法首先会接受你给定的url，然后对其进行判断是否存在。

　　　　c.然后调用requests的get方法，它里面接受两个参数，一个是url,还有一个是timeout

　　　　　　timeout是我自己额外加进去的，就是访问超时。如果不加timeout，程序会假死，也就是说会一直在那里等待页面的响应，也不抛出异常。

　　　　d.然后对返回的response进行编码设置，因为爬取的百度百科页面是utf-8，所以这里最好还是设置一下，虽然requests会智能判断，但是还是手动改一下为宜。

　　　　e.然后在判断页面是否响应，这里的codes.ok其实就是200，表示网页正常响应，你这里直接写 response.status_code == 200 也没问题。

　　　　f.最后，将页面的所有内容都返回，这里的text就是一个字符串，它包含了一个页面的所有代码（html,css,js）。

以上就是python之调度器的用法的详细内容，更多请关注其它相关文章！

相关标签： python 思考解决问题爬虫

上一篇： PHP路由设计

下一篇： JS与框架页的操作代码_javascript技巧

python之调度器的用法

Android自定义view Path 的高级用法之搜索按钮动画

Android学习之Intent中显示意图和隐式意图的用法实例分析

Python中dict和set的用法讲解

Python3.5迭代器与生成器用法实例分析

Python学习之asyncore模块用法实例教程

Python3.5 Pandas模块之DataFrame用法实例分析

Python3.5基础之NumPy模块的使用图文与实例详解

python3爬虫学习之数据存储txt的案例详解

Python中logging模块的用法实例

使用python调用浏览器并打开一个网址的例子