大数据时代需有大智慧
毫无疑问,这是一本颇具诱惑性的书籍。试想,如果能够准确预测即将发生的事情,那么未卜先知、“逢赌必胜”的格局必将颠覆许多人的生活。
问题之所以变得并非如此简单,不是因为我们缺乏研判的信息,恰恰相反,“现在我们每天生成的数据高达250兆亿个字节”,而信息存储量仅3000兆的人脑,其“存储量不过是全球每天所产生信息量的百万分之一而已”。这也就是说,我们必须用这一个个存储量仅3000兆字节的人脑,迅速筛选每天250兆亿个字节信息,从而甄别出到底哪些是有用的信号,哪些又是无用的噪声。
本书作者纳特·西尔弗(Nate Silver)曾被誉为“神奇小子”,在这方面当然有过成功案例。2008年美国大选期间,纳特按照自己拟订的分析方式,成功预测出49个州的选举结果,2012年大选期间更是成功预测出全部50个州的选举结果。纳特的预测,当然不会形同那些混迹于街头巷尾“掐指一算”的“半仙”,而是基于统计学理论之上,综合多种知识的严谨分析之法。
本书中,纳特除了谈到他拿手的政治选举外,还谈到了棒球比赛、天气预报、地震预测、经济预测、疾病预测、股票、温室气体、*等跨行业跨学科多个内容。成功的预测当然是用正确的方法得出了正确的结论,真正值得反思的往往是,历史上那些时间跨度相对较长,期间曾屡露端倪的现象,为什么未能引起人们的重视?为什么预测结果一再与最终走向背道而驰?信手可拈来的案例如“9·11”恐怖袭击事件、2008年金融危机、卡特里娜飓风、2011年日本大地震、禽流感肆虐等。
其实,国外有则预测的经典案例许多人想必并不陌生。60多年前的朝鲜战争前夕,美国兰德公司组织大批专家对朝鲜战争进行评估,并对“中国是否出兵朝鲜”进行预测,最终得出结论:“中国将出兵朝鲜”。直到3年的战争艰难结束,在失望中幡然醒悟的美国联邦*,才回过头高价收购了兰德公司的过期研究报告。兰德公司的预测结论为什么没被重视,原因众多,但有一个不可忽视,那便是这一预测结论未能顺应*意图。
我们不妨再看看美国的次贷危机。稍有经济头脑的人不难判断其危险性,然而,尽管如此,无论是*机构还是那些享誉国际的知名评级公司,一再给出了积极评价。原本可以提前大幅减少损失的小问题,结果在各种错误的累积与助推下,泡沫一吹再吹,疯狂膨胀。可以肯定的是,导致这种扭曲的结果并非因为大家都蒙在鼓里,而是在自利初衷驱动下,侥幸也是违心地向社会抛出了并不正确的结论。
纳特对数据分析推崇备至,几乎到了无数不能的地步。从作者对两届选举结论的正确分析结论来看,其严谨的分析态度确实令人尊敬。但是,在大数据时代,我们缺的不是数据,而是正确分析数据的路径。某种意义上,这种分析也有赖于科学研究的进步。就像是,即便一项预测结果与发展结果相吻合,如果没有详细的证据链,依然无法取信于人。
作为讨论信息分析的著作,纳特并没有给出具体方法,这并非投机取巧,实乃因为各门科学的标准不一,方式不同。但纳特也给出了自己的明确思路,即“要在正确的地方寻找信息和支点,关键在于要开发一些手段、培养一些习惯,这样才能在准确的地方发现更多的想法和信息。”
有必要指出的是,纳特对信息分析的笃信不疑,是建立在坚定的客观原则之上。问题是,科学家或学者对某种现象或形势的研判,既有对历史经验的综合分析,也有对未来理想的主观愿景。很显然,无论是总结经验还是展望未来,从哲学角度看,均不可能完全摆脱主观因素困扰,但也并不能因此就断定其是凭空想象。
现代管理学之父彼得·德鲁克有句名言,预测未来的最好方式就是去创造它。这句话实际阐述了预测的主观性。倘若从这一角度发散思考,倒是觉得,越是准确的预测越离不开两方面的创造:一是不断提升科学知识水平,二是努力剥离预测中的种种利益因素。
上一篇: 预测模型要大数据还是小数据?
下一篇: 大数据应用为什么如此难于定义?