Flipcart 爬取流程

程序员文章站 2022-04-15 14:44:15

第一步:爬取分类url 第二步:获取翻页第三步:获取详情页url 第四步:详情页访问 ......

第一步:爬取分类url

from requests_html import  htmlsession
session =htmlsession()
#https://www.flipkart.com/lc/getdata?datasourceid=websitenavigationmenuds_1.0
#还有个t参数,目前可以不加
res =session.get('https://www.flipkart.com/lc/getdata?datasourceid=websitenavigationmenuds_1.0', verify=false)


appliances_columns_list=res.json().get('navdata').get('appliances').get('tabs')[0].get('columns')
men_columns_list=res.json().get('navdata').get('men').get('tabs')[0].get('columns')
women_columns_list=res.json().get('navdata').get('women').get('tabs')[0].get('columns')
baby_kids_columns_list=res.json().get('navdata').get('baby-kids').get('tabs')[0].get('columns')
home_kitchen_columns_list=res.json().get('navdata').get('home-kitchen').get('tabs')[0].get('columns')
nav_columns_lists =appliances_columns_list+men_columns_list+women_columns_list+baby_kids_columns_list+home_kitchen_columns_list

for nav_columns_list in nav_columns_lists:
    for title_url_type_dict in nav_columns_list:
        print(title_url_type_dict.get('url'))

第二步:获取翻页

#page参数控制
如:https://www.flipkart.com/womens-footwear/pr?sid=osp,iko&page=3

第三步:获取详情页url

from requests_html import  htmlsession
session =htmlsession()

res =session.get('https://www.flipkart.com/womens-footwear/pr?sid=osp,iko&page=3', verify=false)

print(res.html.xpath('//*[@id="container"]/div/div[3]/div[2]/div[1]/div[2]/div/div/div/div/div/a[1]/@href')[4:])

第四步:详情页访问

上一篇： echarts折线图上下颜色渐变样式

下一篇：旧主板支持PCI-E 4.0惹怒了AMD？技嘉新BIOS删除了这一福利

Flipcart 爬取流程

第一步:爬取分类url

第二步:获取翻页

第三步:获取详情页url

第四步:详情页访问

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？

python爬虫教程：《利用Python爬取表情包》

Python爬虫实例爬取网站搞笑段子

利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

python实现爬取千万淘宝商品的方法

python爬取51job中hr的邮箱

用python爬取淘宝数据

Python实现爬取腾讯招聘网岗位信息

Python爬虫实现爬取百度百科词条功能实例

详解python selenium 爬取网易云音乐歌单名