06 Python网络爬虫requets模块高级用法
一. 基于requests模块的cookie操作
- cookie概念: 当用户通过浏览器访问一个域名的时候,访问的web服务器会给客户端发送数据,以保持web服务器与客户端之间的状态保持,这些数据就是cookie。
- cookie作用:我们在浏览器中,经常涉及到数据交换。cookie是由http服务器设置的,保存在浏览器中,但http协议是一种无状态协议,在数据交换完毕后,服务器端和客户端的链接就会关闭,每次交换数据都需要建立新的链接。,用cookie来记住我们的信息,就很方便,不用每次都输入验证信息。
应用:
有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的。如何爬取某个人的人人网信息页呢?
思路:
1.我们需要使用爬虫程序对人人网登录时的请求进行一次抓取,获取请求中的cookie数据
2.再使用个人信息页的url进行请求时,该请求需要携带步骤1中的cookie,只有携带了cookie后,服务器才能识别这次请求的用户信息,才可响应回指定的用户信息页数据。
1 import requests 2 if __name__ == "__main__": 3 4 #登录请求的url(通过抓包工具获取) 5 post_url = 'http://www.renren.com/ajaxlogin/login?1=1&uniquetimestamp=201873958471' 6 #创建一个session对象,该对象会自动将请求中的cookie进行存储和携带 7 session = requests.session() 8 #伪装ua 9 headers={ 10 'user-agent': 'mozilla/5.0 (macintosh; intel mac os x 10_12_0) applewebkit/537.36 (khtml, like gecko) chrome/69.0.3497.100 safari/537.36', 11 } 12 formdata = { 13 'email': '17701256561', 14 'icode': '', 15 'origurl': 'http://www.renren.com/home', 16 'domain': 'renren.com', 17 'key_id': '1', 18 'captcha_type': 'web_login', 19 'password': '7b456e6c3eb6615b2e122a2942ef3845da1f91e3de075179079a3b84952508e4', 20 'rkey': '44fd96c219c593f3c9612360c80310a3', 21 'f': 'https%3a%2f%2fwww.baidu.com%2flink%3furl%3dm7m_nsup5ri_zrk5enipn_dms48uacvt-n_kmyswgyw%26wd%3d%26eqid%3dba95daf5000065ce000000035b120219', 22 } 23 #使用session发送请求,目的是为了将session保存该次请求中的cookie 24 session.post(url=post_url,data=formdata,headers=headers) 25 26 get_url = 'http://www.renren.com/960481378/profile' 27 #再次使用session进行请求的发送,该次请求中已经携带了cookie 28 response = session.get(url=get_url,headers=headers) 29 #设置响应内容的编码格式 30 response.encoding = 'utf-8' 31 #将响应内容写入文件 32 with open('./renren.html','w') as fp: 33 fp.write(response.text)
二.基于requests模块的代理操作
1. 什么是代理?
第三方代替本体处理相关事务。
2.爬虫中为什么需要使用代理?
一些网站会有相应的反爬措施,例如很多网站会检测某一段时间某个ip的访问次数,如果访问频率太快,则会被认为是不正常访问,就会屏蔽这个ip。所以需要设置一些代理ip,每隔一段时间就换一个,就算ip被禁止了,依然可以换一个继续爬取数据。
3.代理的分类
1.正向代理:代理客户端获取数据。正向代理是为了保护客户端防止被追究责任。
2.反向代理: 代理服务器提供数据。反向代理是为了保护服务器或者负责负载均衡
4.免费提供代理ip的网站(提供的ip几分钟一更新)
http://www.goubanjia.com/
西祠代理
快代理
1 import requests 2 import random 3 if __name__ == "__main__": 4 #不同浏览器的ua 5 header_list = [ 6 # 遨游 7 {"user-agent": "mozilla/4.0 (compatible; msie 7.0; windows nt 5.1; maxthon 2.0)"}, 8 # 火狐 9 {"user-agent": "mozilla/5.0 (windows nt 6.1; rv:2.0.1) gecko/20100101 firefox/4.0.1"}, 10 # 谷歌 11 { 12 "user-agent": "mozilla/5.0 (macintosh; intel mac os x 10_7_0) applewebkit/535.11 (khtml, like gecko) chrome/17.0.963.56 safari/535.11"} 13 ] 14 #不同的代理ip 15 proxy_list = [ 16 {"http": "112.115.57.20:3128"}, 17 {'http': '121.41.171.223:3128'} 18 ] 19 #随机获取ua和代理ip 20 header = random.choice(header_list) 21 proxy = random.choice(proxy_list) 22 23 url = 'http://www.baidu.com/s?ie=utf-8&wd=ip' 24 #参数3:设置代理 25 response = requests.get(url=url,headers=header,proxies=proxy) 26 response.encoding = 'utf-8' 27 28 with open('daili.html', 'wb') as fp: 29 fp.write(response.content) 30 #切换成原来的ip 31 requests.get(url, proxies={"http": ""})
三.利用multiprocessing.dummy线程池的数据爬取
需求:爬取梨视频的视频信息,并计算其爬取数据的耗时
1 %%time 2 import requests 3 import random 4 from lxml import etree 5 import re 6 from fake_useragent import useragent 7 #安装fake-useragent库:pip install fake-useragent 8 #导入线程池模块 9 from multiprocessing.dummy import pool 10 #实例化线程池对象 11 pool = pool() 12 url = 'http://www.pearvideo.com/category_1' 13 #随机产生ua 14 ua = useragent().random 15 headers = { 16 'user-agent':ua 17 } 18 #获取首页页面数据 19 page_text = requests.get(url=url,headers=headers).text 20 #对获取的首页页面数据中的相关视频详情链接进行解析 21 tree = etree.html(page_text) 22 li_list = tree.xpath('//div[@id="listvideolist"]/ul/li') 23 24 detail_urls = []#存储二级页面的url 25 for li in li_list: 26 detail_url = 'http://www.pearvideo.com/'+li.xpath('./div/a/@href')[0] 27 title = li.xpath('.//div[@class="vervideo-title"]/text()')[0] 28 detail_urls.append(detail_url) 29 30 vedio_urls = []#存储视频的url 31 for url in detail_urls: 32 page_text = requests.get(url=url,headers=headers).text 33 vedio_url = re.findall('srcurl="(.*?)"',page_text,re.s)[0] 34 vedio_urls.append(vedio_url) 35 #使用线程池进行视频数据下载 36 func_request = lambda link:requests.get(url=link,headers=headers).content 37 video_data_list = pool.map(func_request,vedio_urls) 38 #使用线程池进行视频数据保存 39 func_savedata = lambda data:save(data) 40 pool.map(func_savedata,video_data_list) 41 def save(data): 42 filename = str(random.randint(1,10000))+'.mp4' 43 with open(filename,'wb') as fp: 44 fp.write(data) 45 print(filename+'已存储') 46 47 pool.close() 48 pool.join()
下一篇: 前端常见面试题总结1