欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

程序员文章站 2024-03-26 19:24:53
听说最近车厘子的价格突然猛跌,之前很多人梦寐以求的“车厘子*”,现在都能实现了。其实车厘子的价格下降,主要原因是进口货运成本的大大降低,为了找到车厘子最佳的购买方式,我决定用python+bi进行数...

听说最近车厘子的价格突然猛跌,之前很多人梦寐以求的“车厘子*”,现在都能实现了。其实车厘子的价格下降,主要原因是进口货运成本的大大降低,为了找到车厘子最佳的购买方式,我决定用python+bi进行数据分析。

因此我在淘宝上用python爬取了3000条数据,然后导入到了finebi中进行可视化分析,最终制作出了下面这样一份可视化报告:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

下面我展示一下操作过程:

一、数据获取

用python在淘宝上进行数据爬取是老生常谈的操作了,直接在淘宝上搜索“车厘子”,在下面的商品页中可以看到,我们这次主要爬取的标签是“商品名称”、“价格”、“付款人数”、“店铺名称”、“发货地址”等:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

按下f12,调出后台查看源代码,找到不同的商品标签代码,比如价格是“price g_price g_price-highlight”>”,付款人数是“deal-cnt”等:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

了解了网页的代码结构之后,下一步就可以在python里直接编写代码了,具体过程不详细介绍了,部分代码如下:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

爬取完数据之后导入到excel里,然后在excel里经过简单的数据清洗和处理,最终得到一份完成的数据表:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

二、数据分析

python虽然也能实现数据分析的功能,但是需要敲代码,学习成本和难度都比较大,不如直接利用专业的数据分析工具进行分析,比如常见的比如finebi、tableau、powerbi等。

下面我直接以finebi为例,finebi是国内知名度比较高的本土数据分析工具,比起tableau这些国外工具最大的优点就是简单、灵活,只需要用鼠标拖拽就能实现各种分析操作,基本不需要写代码,对新手非常友好。

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

其实finebi本质上属于企业级的业务数据分析平台,除了数据分析之外,还能实现数据管理、数据平台搭建等功能,这里就不详细介绍了,大家感兴趣的话我下一篇再介绍。

有了excel源表,首先我们将excel导入到finebi中:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

然后直接点击页面左上角的“创建仪表板”,就可以进入到可视化后台:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

下一步进入到仪表板进行可视化操作,基本步骤是“选择图表类型——选择指标和维度——拖拽到指定坐标轴——美化细节”,比如我想要创建一张可视化地图,首先要先选择图表类型为“区域地图”,然后要选择指标和维度,但是原数据表里没有地理纬度,因此需要自己创建:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

最后,我们再拖拽到指定坐标轴,然后美化细节就可以完成一张可视化地图了:

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

以此类推,其他的可视化图表也能够按照我们自己的需求进行制作,这里不详细讲了。

三、数据可视化

1、车厘子销量分布情况

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

可以看出来国内车厘子最大的销量来自上海,以及浙江、广东两省,*、青海、内蒙古等省份都没有销量,基本上来说沿海地区的销量要高于内陆。

2、各省份销量情况

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

通过条形图就更明显了,上海的销量有20多万,几乎是浙江、广东、四川的总和。

3、各城市的销量情况

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

筛选出了销量前十的城市,以及每个城市平均的车厘子价格,可以看出来上海的销量和价格都是最高的,可以看出上海的购买力有多强了;

4、车厘子的价格区间情况

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

数据表里将价格区间分为“50以下”、“50-100”、“100-150”、“150-200”、“200-500”、“500以上”等,可以看出来占比最大的价格区间是“50-100”,这应该属于平民价格了;值得注意的是“200-500”的价格占比也高于“100-150”。

5、各门店的销量与价格情况

python爬取淘宝数据的步骤(如何用python爬取淘宝数据)
python爬取淘宝数据的步骤(如何用python爬取淘宝数据)

可以看出销量最高的基本都是旗舰店,最高的平均价格基本在600-800左右;