欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

“大数据应用场景”之隔壁老王(连载三) 大数据数据采集数据应用前嗅爬虫 

程序员文章站 2022-07-14 08:43:35
...
老王上次在小编帮助下作的一场大戏没成功就被员工以 pa gong 相要挟扼杀在摇篮里了,为了小王的茁壮成长,老王要老老实实的预测明年的销量了。

老王的内心戏:现在某龙辣条都走向国际了,深受各国人民的喜爱,我的辣条厂怎么做才能成为第二个某龙呢?老王不禁陷入了沉思,跟销量有关系的有什么呢?口味?形状?主推哪种辣条?口味没戏了,那就只能从形状和主推款入手了,想到这,老王兴奋的跑过来砸开了小编公司的大门,用期待的眼神看着小编,开始了新一轮的苦苦哀求。

同之前一样,老王激动的说出他的需求,小编帮他整理出了大概流程之后,开始进行了销量预测(有我们这样的好邻居请给我来一打,都是免费的啊。。。心在滴血)

第一步:通过Forespider采集数据

首先小编先在淘宝、天猫、一号店等各大电商平台搜索辣条,使用Forespider对关于各款辣条的销量和所有评论进行采集。

第二步:通过数据挖掘系统对评论信息进行挖掘

在采集完全部数据后发现,评论又多又杂,没办法直观地看出买家的喜好,小编应用依附在爬虫系统里的数据挖掘的功能,使用关键词搜索,设置包括口味、包装、原料、味道等关键词。由此,将含有口味,包装,原料,味道的评论分开。

之后又用到了分类器的情感极性分析,也称文本倾向性分析,即判断评论中的言论属于好吃、不好吃还是一般。通过这个判断,老王得到了一批关于好吃的评论,以及对应的商品和商品销量。

第三步:使用ForeAna对销量统计及分析

数据采集完之后,老王看见各款辣条的销量之后整个人是懵的。。。小编告诉老王,别害怕,忘了我们还有ForeAna分析系统了吗(说到这小编露出了奸商的微笑),随即将分类器关联到ForeAna数据分析引擎中自动得出关于销量,形状等的可视化图表。

第四步:建立数学模型

可是老王这次要做的是预测明年销量呀,所以光有上面的信息和步骤还远远不够。所以小编开始根据采集的数据结果进行建模,将得到的销量作为因变量,以口味、包装、原料作自变量,建立数学预测模型。

第五步:得出分析模型结果

经过模型预测分析得出结果,最后小编成功地为老王预测出了明年的各款辣条的销量:条状的400万,块状的350万,片状的300万。老王终于意识到自己生产单一辣条的弊端,暗自思忖着条状的销量最好,块状的次之,片状的紧随其后。兴奋地喊出明年不仅要继续生产块状辣条,还要增加生产条状的和片状的!

出于感谢,老王回到公司亲自搬了一箱辣条过来,让小编吃个够,撒花~