大数据应用场景”之隔壁老王(连载二) 大数据数据采集数据应用前嗅爬虫
程序员文章站
2022-07-14 08:43:53
...
大家的好朋友,我们的好邻居老王时隔一周第二次闪亮登场了!!!上次给大家讲到老王通过小编公司爬虫的帮助找到了合适的合作伙伴,之后生意一直风生水起,但是老王并不满足于现状。当他听说可口可乐通过大数据分析出樱桃味的可乐,并在全世界推出之后,心里一阵窃喜。他的辣条厂想要推出新口味的辣条,请小编帮他分析一下。
第一步:打开爬虫
首先,小编先从微博搜索中搜索到关于正餐,小吃,零食,泡面等的所有信息,采集到的信息文本中,包含一些无关的垃圾信息,如广告等等。
第二步:把垃圾信息塞到分类器中去
但是老王需要的却只是关于这四类食品大众喜欢的口味,这些垃圾信息没有帮助,反而会增加系统的负担。因此需要对这类文本给出垃圾标识。那么怎么来判定是否为垃圾文本呢,小编在分类器里输入了垃圾文本的特征词,如果言论文本属于垃圾文本,则给出垃圾标识。
通过上述步骤,老王在小编的帮助下通过分类器筛选出了全部有关于正餐、小吃、零食、泡面的口味评价。
第三步:把有效信息塞到分类器中去
接着,小编要开始对这些信息进行分类了,也就是说使用前嗅的分类器根据言论的类型,自动对得到的文本打上对应的标签,分到所在的类别里。其中,言论的类别是根据提供的类型确定的,分类器是采用机器学习的方法从大规模标注数据中训练得到的。对于一个输入的言论文本,由N个训练好的分类器分别判断言论是否属于该类别,如泡面的红烧牛肉味、老坛酸菜味等。如果言论文本属于该类别,则给言论打上对应的标签。
通过上述步骤,老王在小编的帮助下通过分类器,将全部有效信息,按照正餐、小吃、零食、泡面的各个口味,进行了精确的分类。
第四步:判断想吃/不想吃
最后也是最重要的一步情感极性分析,也称文本倾向性分析,即判断微博的言论属于想吃、不想吃或者吃不吃都行。用户言论文本的情感极性判断分为两个过程,分别为情感极性模型训练过程和言论文本情感极性判别过程。首先,需要在分类器输入标注好情感极性的言论文本,需要有三类文本:想吃文本、不想吃文本或者吃不吃都行文本。训练好了情感模型可以应用此分类器对言论文本的情感极性进行判断,进行情感极性判断,最后输出的言论文本的情感极性标签:想吃、不想吃或者吃不吃都行。
第五步:关上分类器
把分类器的结果关联到ForeAna数据分析引擎中,就自动得出了可视化图表。
老王拿着结果兴高采烈的跑到了工厂,工人们对这个结果表示十动然拒,并以 ba gong 要挟,如果要出这些口味的辣条,他们就跳槽到某龙辣条厂。。。
第一步:打开爬虫
首先,小编先从微博搜索中搜索到关于正餐,小吃,零食,泡面等的所有信息,采集到的信息文本中,包含一些无关的垃圾信息,如广告等等。
第二步:把垃圾信息塞到分类器中去
但是老王需要的却只是关于这四类食品大众喜欢的口味,这些垃圾信息没有帮助,反而会增加系统的负担。因此需要对这类文本给出垃圾标识。那么怎么来判定是否为垃圾文本呢,小编在分类器里输入了垃圾文本的特征词,如果言论文本属于垃圾文本,则给出垃圾标识。
通过上述步骤,老王在小编的帮助下通过分类器筛选出了全部有关于正餐、小吃、零食、泡面的口味评价。
第三步:把有效信息塞到分类器中去
接着,小编要开始对这些信息进行分类了,也就是说使用前嗅的分类器根据言论的类型,自动对得到的文本打上对应的标签,分到所在的类别里。其中,言论的类别是根据提供的类型确定的,分类器是采用机器学习的方法从大规模标注数据中训练得到的。对于一个输入的言论文本,由N个训练好的分类器分别判断言论是否属于该类别,如泡面的红烧牛肉味、老坛酸菜味等。如果言论文本属于该类别,则给言论打上对应的标签。
通过上述步骤,老王在小编的帮助下通过分类器,将全部有效信息,按照正餐、小吃、零食、泡面的各个口味,进行了精确的分类。
第四步:判断想吃/不想吃
最后也是最重要的一步情感极性分析,也称文本倾向性分析,即判断微博的言论属于想吃、不想吃或者吃不吃都行。用户言论文本的情感极性判断分为两个过程,分别为情感极性模型训练过程和言论文本情感极性判别过程。首先,需要在分类器输入标注好情感极性的言论文本,需要有三类文本:想吃文本、不想吃文本或者吃不吃都行文本。训练好了情感模型可以应用此分类器对言论文本的情感极性进行判断,进行情感极性判断,最后输出的言论文本的情感极性标签:想吃、不想吃或者吃不吃都行。
第五步:关上分类器
把分类器的结果关联到ForeAna数据分析引擎中,就自动得出了可视化图表。
老王拿着结果兴高采烈的跑到了工厂,工人们对这个结果表示十动然拒,并以 ba gong 要挟,如果要出这些口味的辣条,他们就跳槽到某龙辣条厂。。。
上一篇: el表达式不起作用
下一篇: log4j-log的配置