这里的海外指大陆+港澳台以外的其他所有地方。
除海外用户以外就北上广的用户最多了,这些地方的互联网用户基数本来就大。
数据抓取
先讲讲数据抓取的逻辑,最终目的就是要找到pick王菊的人都是哪些人,刚开始想的是直接抓取王菊的粉丝列表,但是后来发现微博数据有限制,只能抓取少量的粉丝列表,所以这个方案行不通,只能换下一个。
可以看到,有评论text,以及每一条text对应的user_id,找到了字段位置,我们再来看看这些字段对应url是什么,有什么规律。
获取containerid
获取到了user_id以后,我们再来看看我们想要获取的字段在哪,如下图,
知道了我们想要获取的字段在哪以后,再看看这些字段对应的url是什么?
最后的结果如下表:
可以看到,年龄和星座为空,并不是摩羯座,且当年龄和星座为空时,所在地就会错位到年龄列,接下来就做一些数据预处理。
当然了,最后结果只是右半部分,左半部分是为了对比后期PS加上去的。具体实现代码如下:
这里分词没有用jieba分词,而是用了fool,据称是最准确的中文分词包,github地址:https://github.com/rockyzhengwu/FoolNLTK。
饼图绘制
饼图就很简单了,代码如下:
绘制男女比例的饼图
user_info1["性别"].value_counts(normalize = True).plot.pie(title = "菊粉男女分布",autopct='%.2f')
地图绘制
进群:125240963 即可获取数十套PDF哦!