大数据时代的好地图
在《大数据时代》中,维克托旨在提醒人们大数据因为被应用而变得有意义,而回到《删除》,他又告诫过犹不及、多未必好的道理。维克托曾经说过“不会过分吹捧大数据”,他的克制与谨慎由此可见一斑。而两本书的关键议题,似乎分别对应了“取”和“舍”。
书评人 潘乱
这是本真正懂大数据的人写的实实在在的关于大数据方方面面的书。
我拿到这本书的当晚,只看了引言部分,就迫不及待在豆瓣上标记了在读。因为又感受到那种真正的行家出手时才会有的,厚积薄发高屋建瓴势如破竹的快感。我当时便下断言,这本书已经秒杀所有问题。等到第二天我将这本书看完,觉得我前一晚的判断还是正确的。这本书条理分明、详略得当、引述丰富,把大数据梳理得无比清晰,解决了很多困惑我已久的问题。
大数据是2012年TMT圈最时髦概念的排头兵。去年3月腾讯推出QQ圈子,按共同好友的连锁反应摊开你的人际关系网,也许会把你的前女友推荐给老婆,手机游戏愤怒的小鸟年中透露其每天用户登录超过140万次,运营商Rovio每发布一个新的应用,都会立即改变流量,光从体积看,这都是个大数据。今年11月,奥巴马大选连任成功的胜利果实也许要归功于大数据,因为他的竞选团队进行了大规模与深入的数据挖掘;各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已,无数公司和创业者都纷纷跳进了这个狂欢队伍。几乎每天都能看到有人在谈论大数据,但是大数据却好像成了可以把任何东西都往里面装的框,能真正说清楚大数据是什么的人却不多。
在这大数据方兴未艾、众说纷纭的时刻,这本《大数据时代》的作者,野心勃勃的舍恩伯格将这个问题说清楚了。他不断下定义举例子,给大数据划定疆域与边界,从思维、商业、管理三个维度分析大数据可能给人类带来的变革和挑战,还指出大数据时代处理数据理念上的三大转变:“不要随机样本,而是全体数据”“不是精确性,而是混杂性”“不是因果关系,而是相关关系”。同是大数据行家的译者周涛认为这本书好在三个地方:观点掷地有声、观念高屋建瓴、例子丰富详实。而这三者近乎完美地结合起来,作者驾驭大问题的能力和丰富的知识令人赞叹。
抽样分析是信息收集手段不完善时代的产物,它或许能更快更好地发现问题,但却不能回答事先没考虑过的问题。书中举了大数据与乔布斯癌症治疗的故事,乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
大数据时代的另一理念是要效率而非绝对准确,要允许一点点的错误和不完美。谷歌2006年涉足机器翻译,谷歌翻译系统为了训练计算机,会吸收它所能找到的全部翻译。谷歌将语言视为能够判别可能性的数据,而非语言本身。假设你要将中文译作俄语,它可能会选择英语作为中介语言,因为在翻译的时候它能够适当增减词汇,灵活性提高了很多。
随着大数据的出现,数据的价值也在发生改变。所有网民都会被网站要求过填写证明你是人而非机器的验证码,这项技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。2009年谷歌收购了这家做验证码的公司,并将其技术用于图书扫描项目。因为众包的力量,每年为谷歌省下十多亿美元。
作者最后提到,如果数据不能为我所用,那我们将会沦为数据的奴隶。要防止这种失控局面的出现,至少需要我们在管理层面作出四种变革:1、将个人隐私保护从个人许可到由数据使用者承担责任;2、个人该为其行为而非倾向负责;3、不能让大数据成为黑匣子,它需要雇佣外部监察人来维护公众信任;4、反数据垄断大亨。
如果一个人独自到了陌生城市,第一件事就是买张地图。一张好的地图可以让我们知道整体、方向、位置、重要特点和起点、终点、中间的路径,照着地图走才不易将自己迷失。如果你对大数据理解得还不是十分清晰,那么这本《大数据时代》就是你的好地图。
推荐阅读
-
女孩子适合学什么专业?附未来女孩子最吃香的十大专业(就业前景好、就业率高)
-
2021年浙江十大好考、易捡漏的本科院校:浙江相对好考的公办二本
-
.NET Core开发的iNeuOS工业互联网平台,发布 iNeuDA 数据分析展示组件,快捷开发图形报表和数据大屏
-
.NET Core开发的iNeuOS工业互联平台,升级四大特性:配置数据接口、图元绑定数据、预警配置和自定义菜单
-
2020年最有潜力的行业 市场大前景好的十大行业
-
python requests爬取高德地图数据的实例
-
大专什么专业就业前景好?专科工资高的十大专业
-
世界十大著名的咖啡馆 味道纯正环境好,你去过吗
-
5G时代来临,中企动力呕血推荐响应式网站的三大优势
-
618大促复盘 | 如何通过观远数据挖掘“异常值”背后的故事线