Python scrapy框架爬取瓜子二手车信息数据
程序员文章站
2022-04-19 13:15:17
项目实施依赖: python,scrapy ,fiddler scrapy安装依赖的包: 可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载 pywin32,lxml,Twisted,scrapy然后pip安装 项目实施开始: 1、创建scrapy项目 ......
项目实施依赖:
python,scrapy ,fiddler
scrapy安装依赖的包:
可以到 下载 pywin32,lxml,twisted,scrapy然后pip安装
项目实施开始:
1、创建scrapy项目:cmd中cd到需创建的文件目录下
scrapy startproject guazi
2、创建爬虫:cd到创建好的项目下
1 scrapy genspider gz guazi.com
3、分析目标网址:
第一次我直接用的谷歌浏览器的抓包分析,取得ua和cookies请求,返回的html数据完全缺失,分析可能是携带的cookies
有问题,然后就用fiddler抓包才,得到cookies与谷歌上得到cookies多了ua,时间等参数,
4、将ua,cookies添加到下载中间中去:
1 class guzi1downloadermiddleware(object): 2 def process_request(self, request, spider): 3 # 需要对得到的cookies处理成字典类型 4 request.cookies={} 5 request.headers["user-agent"]=""
5、在settings中将downloader_middlewares打开
6、在spiders目录下找到gz.py开始编写爬虫逻辑处理
1 import scrapy 2 import time 3 4 class gzspider(scrapy.spider): 5 name = 'gz' 6 allowed_domains = ['guazi.com'] 7 start_urls = ['https://www.guazi.com/cd/buy/0'] 8 9 def parse(self, response): 10 # 得到页面上所有车辆的url 11 url_list = response.xpath('//ul[@class="carlist clearfix js-top"]//li/a/@href').extract() 12 url_list = [response.urljoin(url) for url in url_list] 13 url_list = [url.replace("cq", "cd") for url in url_list] 14 for url in url_list: 15 yield scrapy.request(url=url, callback=self.parse1, dont_filter=true) 16 17 # 获取下一页的url 18 next_url = response.urljoin(response.xpath('//span[text()="下一页"]/../@href').extract_first()) 19 if next_url: 20 yield scrapy.request(url=next_url, callback=self.parse, dont_filter=true) 21 time.sleep(2) 22 23 def parse1(self, response): 24 # 判断是否有数据 25 if response.xpath('//h2/text()').extract_first(): 26 print(response.xpath('//h2/text()').extract_first().strip()) 27 item = {} 28 item["车型"] = response.xpath('//h2/text()').extract_first().strip() 29 item["选车类型"] = response.xpath('//h2/span/text()').extract_first() 30 item["价格/万"] = response.xpath('//div[@class="pricebox js-disprice"]/span[1]/text()').extract_first().strip() 31 item["新车价格"] = response.xpath('//div[@class="pricebox js-disprice"]/span[2]/text()').extract_first().strip() 32 item["上牌时间"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[1]/div/text()').extract_first().strip() 33 item["公里数"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[2]/div/text()').extract_first().strip() 34 item["排量"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[3]/div/text()').extract_first().strip() 35 item["变速箱"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[4]/div/text()').extract_first().strip() 36 item["配置信息"] = response.xpath('//span[@class="type-gray"]//text()').extract() 37 item["网址"] = response.url 38 yield item
7、启动爬虫并保存为csv文件
scrapy crawl gz -o guanzi.csv
8、最后得到了想要的二手车信息,贴上部分截图
推荐阅读
-
python scrapy框架爬取80s保存mysql
-
Python利用Scrapy框架爬取豆瓣电影示例
-
python scrapy框架爬取80s保存mysql
-
网易云歌单信息爬取及数据分析(python爬虫)
-
Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码
-
爬虫(十七):Scrapy框架(四) 对接selenium爬取京东商品数据
-
荐 Python爬虫:基于Scrapy爬取京东商品数据并保存到mysql且下载商品图片
-
python爬取商品信息并进行数据分析
-
python scrapy爬取HBS 汉堡南美航运公司柜号信息
-
Python3爬虫学习之MySQL数据库存储爬取的信息详解