欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

“微博大数据”可以这么玩,让你听到雅安人的真实声音

程序员文章站 2022-06-26 12:52:52
自从4月20日之后,大家打开微博以后,时间轴上全是关于雅安和地震的微博和信息,这么多天来,大家已经习惯于从微博获取地震的信息,一起为雅安祈福、加油,感觉是通过微博与跟雅安人民一起经历地震的伤痛和感动。...

自从4月20日之后,大家打开微博以后,时间轴上全是关于雅安和地震的微博和信息,这么多天来,大家已经习惯于从微博获取地震的信息,一起为雅安祈福、加油,感觉是通过微博与跟雅安人民一起经历地震的伤痛和感动。

但是,大家有没有认真想过,在关于雅安地震的微博中,哪些是雅安人民的真实心声,而哪些是谣言呢?许多人,肯定会说,好多微博大部分网友都验证过,谣言肯定会被过滤或者粉碎。而冷酷的事实却是,新浪微博作为弱关系的信息网络,度的分布是呈幂率分布的,少数中心节点的链接数大大多于普通节点。

这样的结果导致我们在微博上看到的信息都是大V主导的信息,或者是是他发布的,或者是他加工的。而这些大V有没有到过雅安呢?相信大多数是没去过的,都是在那里坐而论道。所以他们传播的信息,到底是不是真正雅安人的心声,是否真实,我们都要打一个大大的问号。

同时,一个不容忽视的问题是,作为真正的雅安灾区群众的发出的微博,因为本身号太小,拥有的链接数(粉丝数)有限,他们的声音在微博的海量数据里,却很容易被忽略了。相信大部分人,关注了这么多天雅安地震的微博信息,却不会关注一个雅安本地人吧。

有没有办法,把雅安本地人的微博汇集到一起,做一个实时更新的页面,让大家真正了解雅安当地人真正的心声呢。我从事新浪微博数据挖掘的朋友@肖培征 和@张文浩等一帮人,正是基于这个想法,做了一个“雅安之声”的站点,专门汇聚了雅安本地网友的微博,通过他们的视角还原现场最真实的情况。

为什么做雅安之声

据肖培征讲,他创业的方向是微博运营和数据挖掘,雅安地震时,本能的反映是对雅安地区网友的微博进行数据分析。马上从库里找出所在地是雅安的一万多微博用户,调用新浪微博开放接口扫描数据。

每一条微博,都是一个悲惨的画面,我犹如置身雅安,心情沉重又无奈,不知道能为灾区同胞做点什么。

各大互联网公司行动迅速,但都一窝蜂的做寻人。寻人虽然是刚需,但我再做意义不大。

随着时间的推进,雅安多数地区电力、通讯逐步恢复,两天之后,雅安网友发布的微博数量逐渐增多,我的信息也越来越丰富。但是打开电视看直播,打开微博看大V发布的信息,却与我看到的视角完全不同。

大量的救灾信息淹没了雅安本地网友的内容,没有专用数据挖掘工具,在微博通过关键字搜索等很难找到。也许有人需要这些信息,应该发挥优势做个容易使用的产品,让普通网友能迅速找到这些信息。

雅安之声解决的问题

救援人员点击“紧急”按钮查看被标注的微博,迅速找到求助信息及时救助。通过关键字如“帐篷”等搜索微博,精确找到物资缺乏的灾民,为救援物质调配起到查漏补缺的作用。

一线记者可以通过“给力”“气愤”两个按钮迅速获取新闻线索,帮助现场采访。未能到达灾区的记者,可以通过微博内容了解现场情况获取一手新闻素材。

网友可以观看原汁原味的微博直播。内容由雅安本地网友创造,未经媒体或微博大V加工,保持了原汁原味。这里有反应灾情的揪心内容,也有反应日常生活的普通内容,更加鲜活。

产品开发

这些信息的第一用途肯定是救灾,如何让救援人员迅速找到重要信息,信息重要程度用神马参数衡量呢?

已经是22日中午了,黄金救援时间都过去60个小时了,他们没有时间去思考重要程度的算法,那需要大量时间不断的试错改进,而现在最缺的就是时间,必须找到电风扇吹空肥皂盒这种笨拙但简单有效的方法。

肖培征想到了众包,在微博下面设几个按钮,让普通网友看直播时捎带着标注重要性,于是便有了这张草图。

“微博大数据”可以这么玩,让你听到雅安人的真实声音

几天的积累,他们的雅安微博用户ID已经增长到一万八千个,用开放接口完整轮询一遍需要几个小时,信息更新速度太慢。与死神赛跑每一秒都要争取,这个时间是无法容忍的。

他们求助新浪官方,新浪免费给他们开通了开放平台之外的“订阅”接口。从开始沟通到正式开通,总共只用了58分钟,效率非常高。但是订阅接口也有数量限制且官方无法更改模块,依然不能满足我一万八千个ID的需求量,而且ID数量还在不断增加。

肖用@勤娘纸 账号发了条微博,招募志愿者请求同行帮助。平时打的头破血流的竞争对手,迅速表态放下恩怨,共享资源解决难题。

开发人员连轴转,从画出草图到产品测试,只用了20个小时,晚上测试修改完毕第一版正式上线。

23日19:49微博发出链接,迅速被转发四百多次,他们收到网友评论和私信大量反溃从反馈中发现,物资调配信息需求最强烈,因为黄金救援时间已过,救援队伍的主攻方向是发放帐篷等救援物资。

产品存在的问题集中在两点,第一、设定的按钮“重要”没有引起网友的重视,被标注的次数不多,导致重要信息没有筛选出来。第二、标注“重要”的微博是按照标注次数排序,这样排在最前面的反而是几个小时之前的信息。

24日凌晨一点,他们更新了第二版,将按钮改为“紧急”“给力”“气愤”三个,排序规则改为12小时内的微博按时间排序,12小时候后的按标注次数排序。并且添加了关键字搜索功能,方便救援人员根据物资情况精确查找。

三十多个小时的时间,他们更新了两个版本,改了四次算法,加上@独到网 的接口级别较高,微博同步延迟时间压缩到5分钟左右。

此时,雅安之声已经是一个有用、能用的产品了。

当你打开网站,就会看到两万多雅安网友五分钟之前的发的全部微博,可以很方便的找到你需要的信息。

只是网站不太好看,志愿者中没设计人员。

实际效果

根据北大可视化小组@晓如微博 标注的雅安微博用户分布图,我们的数据可以全面反映雅安情况,包括曾经被忽视的天全等县,以及一些偏远的乡镇。

“微博大数据”可以这么玩,让你听到雅安人的真实声音

宣传雅安之声的微博被转发489次,理论上净覆盖人数460万,@桔子水晶吴海 @酒红冰蓝 @丁来峰 @白玉峰 等关键人物参与了转发。

“微博大数据”可以这么玩,让你听到雅安人的真实声音

24日晚十点钟左右检查PV,发现这几天@独到网 的PV没有任何增长。大家一直忙着看用户反馈改产品,竟然没检查CNZZ的统计。 22:38分修复后,显示15分钟内119人在线,浏览次数为250次。第一微博宣传的四百多次转发是在23日,第二这个时间段不是高峰期,我们大致推断24日PV在一万以上,23日PV在五万以上。

“微博大数据”可以这么玩,让你听到雅安人的真实声音

“微博大数据”可以这么玩,让你听到雅安人的真实声音

数据的意义

截止24日,2.1万雅安网友中的七千多人在地震后发出14万条微博,活跃用户高达35%,平均每个用户以每天4条的高频率发布微博。之前有微博活跃度下降,微信将取代微博,甚至微博已死等言论,但关键时刻还是微博顶上去了,微博在信息扩散的速度上的确优于微信。

国外已经可以通过社交网络的数据挖掘预测流感趋势,监测灾难时期的民众恐慌情绪等。他们会对抓取的原始数据进行分析,期望能够为救灾工作总结经验教训。水平有限,不敢说一定能成功,但做一下探索,失败了也能让后来者避开陷阱少走弯路。