2013:大数据元年 决策权挑战
我们正面临一个大数据的时代。在过往的小数据时代,人类对事物的判断多数基于直觉、经验和臆想,偏见随处可见。当信息爆炸积累到量变引发质变的阶段,大数据将把数学算法运用到海量数据上,以此来修正人类的偏见和直觉,并预测未来。
从依靠自身作判断作决策,发展到依靠数据作决定并获得竞争优势,这个转变是大数据的最大贡献,这将引发巨大的管理变革。因为数据本身不会说谎,通过让数据做主,作科学决策,从而让社会科学真正成为一门科学。
另一方面,数据也正成为企业的核心资产,未来可能将被计入资产负债表。中国市值最大的三大互联网公司,腾讯、阿里巴巴[微博]和百度[微博],也是数据资产的最多拥有者——腾讯拥有最大的网络通讯数据,阿里巴巴拥有最大的网络交易数据,而百度则拥有最大的搜索数据资产。
国外媒体预测2013年将是世界的大数据元年。这场正在到来的数据革命,将给企业发展模式和决策带来前所未有的革新与挑战,这一点是显而易见的。
文│本刊记者 葛成恩
公元前三世纪,埃及国王托勒密一世创建亚历山大图书馆,在鼎盛时期,该图书馆藏书达70万卷,埃及人称它是“人类知识的灯塔,文明的交会”。如果以今日的眼光来看,亚历山大图书馆可以说是当时全球规模最大的知识与数据中心,这些数据的分类、整理、存储花费数百年。
1439年,德国人古登堡发明印刷机,从1453年至1503年,50年间大约有800万本书被印刷,比1200年以来整个欧洲的所有手抄本还要多,欧洲的信息存储量花了50年才增长了一倍,而如今大约每三年就能增长一倍。
到2013年,世界上存储的数据将达到1.2ZB(ZB,泽字节,十万亿亿字节),如果把这些数据全部记录在书中,这些书可以覆盖整个美国52次;如果将之存储在光盘上,这些光盘可以堆成5堆,每一堆都可以伸到月球。
全世界数据量呈现几何级加速增长速度,这要归因于摩尔定律。1965年,英特尔[微博]的创始人戈登·摩尔提出,当价格不变时,集成电路上可容纳的晶体管数目,每隔18个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18个月翻两倍以上。而摩尔定律导致的结果就是,电脑运行速度越来越快,存储空间更大也更廉价。数据显示,在过去50年,数据存储成本大约每两年就削减一半,而存储密度则增加了5000万倍,人类存储信息量的增长速度比世界经济的增长速度快4倍。
同时,数据记录的发展,其目的在于满足人类测量、记录和分析世界的渴望。记录和计量能够再现人类活动,为预测和计划奠定基矗几百年来,计量从长度、重量不断扩展到面积、体积和时间等等。公元700年前后,阿拉伯军队征服了印度旁遮普地区,他们惊奇地发现,印度的计数方法相当先进。印度数学家根据同一数字符号与其他数字符号位置关系的不同,确定了数字位置的概念,后人不断改进并发明了表达数字的1,2,3,4,5,6,7,8,9,0十个符号,成为记数的基矗十字军东征时,欧洲骑士将这一计数方法从阿拉伯地区带回欧洲。公元1000年,教皇希尔维斯特二世开始倡导使用阿拉伯数字。到16世纪晚期,这一计数方法在欧洲得以普及。
到了19世纪,随着科学家发明新工具来测量和记录电流、气压、温度、声频之类的自然科学现象的出现,科学已经离不开定量化了,我们已经处在一个一切事物都需要被测量、划分和记录的时代。随着计算机技术的发展,驱动各类系统的算法也进步神速,在很多领域,这些算法带来的进步还要胜过芯片的进步。数据显示,计算机处理数据能力的增长速度比世界经济的增长速度快9倍。算术赋予数据新的意义,因为数据此时不但可以被记录,还可以被分析和再利用。
在古罗马帝国时期,只有*才拥有采集和分析人口、经济等大规模数据的能力和意愿。而到了21世纪,随着数据存储和获得越来越简单,私人控股公司开始拥有大规模的数据,如Google每天要处理24PB(PB,拍字节,千万亿字节)的数据,相当于美国国家图书馆所有纸质出版物所含数据量的上千倍。私人控股公司,尤其是互联网公司可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理成章地成为最新处理技术的领头实践者,“大数据”概念应运而生。
大数据之“大”
大数据概念的提出,最初是指需要处理的信息量过大,已经超出了一般电脑的数据处理能力,因此工程师们必须改进处理数据的工具,这导致了新的处理技术的诞生,比如雅虎的开源Hadoop平台,这类技术使人们可以处理的数据量大大增加。同时,大数据的“大”不仅表现在数据的规模性,而且体现在存储、处理、分析数据的高速性上,而数据也不仅仅体现在数字化数据,不仅是文本、图片、视频表现为数据,同时,地理位置、传感器上显示的内容、GPS信号等等,一切可测量的信息都将数据化。在大数据的倡导者看来,未来世界的一切都将数据化。IBM[微博]将“大数据”理念定义为4个V,即:大量化(Volume)、多样化(Variety)、快速化(Velocity)以及产生的价值(Value)等四个属性。
哈佛商学院教授达文波特表示,“大数据之所以产生,是因为今天无所不在的传感器和微处理器,我们正在迈进普适计算的时代,所有的机械或电子设备都可以留下数据痕迹,这些痕迹表明了它的性能、位置或状态。这些设备和使用它的人,通过互联网互相交流,又形成了另外一个庞大的数据源。当这些数据和来自其他媒体、无线或有线电话、有线电视、卫星等来源的数据相结合的时候,更加显得庞大无比”。
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。数据价值并不仅仅限于特定的用途,它可以为了同一目的而被多次使用,亦可用于其他目的。最终,数据的价值是其所有可能用途的总和。知名IT评论人谢文表示,“大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为使用而折旧和贬值。例如,一组DNA可能会死亡或毁灭,但大数据的DNA却会永存”。
半个世纪以来,随着计算机技术全面融入人类社会生活,信息爆炸已经积累到了一个开始进入到量变引发质变的阶段。大数据把数学算法运用到海量数据上,以此来预测事情发生的可能性。在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。大数据将为我们的生活创造了前所未有的可量化的维度,成为新发明和新服务的源泉。
社会科学将真正成为科学
在小数据时代,人类对事物的判断多数基于直觉、经验和臆想,偏见随处可见。
普林斯顿大学心理学家、同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼说,人类最直接的思维模式就是不费力的快速思维,通过这种思维方式几秒钟就能得出结果。在平时生活中,由于惰性,我们很少慢条斯理地思考问题,快速思维模式占据了上风,这种思维模式使我们执着于对已有知识、经验和信仰的信靠,我们经常会臆想出一个根本不存在的因果关系,最终导致了对世界的错误理解。在小数据时代,很难证明由直觉而来的因果关系是错误的,但是,大数据时代不一样了,因为不受限于传统的思维模式和固有偏见,大数据为我们提供了更多的视野和洞见。《连线》杂志主编克里斯·安德森指出,“数据爆炸使得科学研究的方法都落伍了”。
美国经济学家里昂惕夫提出的“里昂惕夫反论”,就是典型的依靠大数据,克服直觉、经验和偏见的典型例子。根据传统的要素禀赋理论,第二次世界大战后的美国,出口的应是资本密集型产品,进口的是劳动密集型产品。但是,里昂惕夫根据1947年全美200个行业的材料,采用投入产出法对战后美国的对外贸易状况进行了分析,却惊奇地发现,美国主要进口的是资本密集型产品,而出口的是劳动密集型产品。1953年,里昂惕夫根据自己的结论提出了著名的“里昂惕夫反论”,完全推翻了当时在美国经济界占主流地位的观点。
2007年,雅虎首席科学家沃茨博士在《自然》杂志上发表了题为“21世纪的科学”的文章,他说,“得益于计算机技术和海量数据库的发展,个人在真实世界的活动得到了前所未有的记录,这种记录的粒度很高,频度在不断增加,为社会科学的定量分析提供了极为丰富的数据。由于能测得更准、计算得更精确,社会科学将脱下准科学的外衣,在21世纪全面迈进科学的殿堂。例如,新闻的跟贴、网站的下载记录、社交平台的互动记录等等都为政治行为的研究提供了大量的数据,政治学作为古老的科学,将登堂入室,成为地道的科学”。
IT评论家谢文表示,“大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。哲学史上争论不休的世界可知论和不可知论将会转变为实证科学中的具体问题”。
决策权挑战
大数据的技术挑战显而易见,但其带来的决策挑战更为艰巨。大数据至关重要的方面,就是它会直接影响组织怎样作决策、谁来作决策。在信息有限、获取成本高昂且没有被数字化的时代,组织内作重大决策的人,都是典型的位高权重的人,要不然就是高价请来的拥有专业技能和显赫履历的外部智囊。但是,在今时今日的商业世界中,高管的决策仍然更多地依赖个人经验和直觉,而不是基于数据。
大数据推动下的管理变革将力求改变这一现状,让数据做主。美国电影《点球成金》非常直观地显示了这一变动趋势。奥克兰棒球队白象队总经理比利·比恩抛弃了几百年一直依赖的选择球员的传统惯例,采用了一种依靠电脑程序和数学建模分析比赛数据来选择球员的方法。最终,他带领球队在2002年美国联盟赛中夺得冠军,还取得了20场连胜的战绩。从那以后,统计学家取代了球探成为棒球专家,而联盟的其他球队也开始争相采用白象队的方法指导球队。
人类依靠自身判断作决策到依靠数据作决定的转变,是大数据的最大贡献。行业专家和技术专家的光芒将因为统计学家和数据分析专家的出现而变得暗淡,因为后者不受旧观念的影响,能够聆听数据发出的声音。行业专家不会消失,但是他们必须与数据表达的信息进行博弈。直觉的判断*让位于精准的数据分析,这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念。
如今,我们正在见证专家在各个领域影响的减弱,在传媒界,《赫芬顿邮报》和Gawker网站上传播的新闻通常取决于数据,而不再取决于编辑的新闻敏感度,数据比有经验的记者更能揭示出哪些是符合大众口味的新闻。实际上,Digg网站完全不自主提供新闻,也没有编辑,是一个文章投票评论站点,用户可以随意提交文章,当其他用户认为文章不错,dig一下。当dig数达到一定程度时,那么该文章就会出现在网站首页,网站将决策权完全交给数据。到2006年,Digg网站的Alexa全球排名达100位,轻松打败福克斯新闻网,逼近《纽约时报》。
数据开放运动
据麦肯锡的估算,2009年美国*拥有的数据量为848PB,仅次于制造业的966PB,位于所有17个行业的第二位。在奥巴马的倡议下,2009年 5月,美国联邦*的数据开放门户网站Data.gov上线,全面开放*拥有的公共数据。
Data.gov的主要目标是开放联邦*的数据,通过鼓励新的创意,让数据走出*,得到更多的创新型应用。到2011年12月,美国*各部门在Data.gov上开放了3721项原始数据,386429项地理数据,而网站上汇集了1140个应用程序和软件工具,其中近300个是由民间的程序员、公益组织等社会力量自主开发的。举例而言,Data.gov上线以后,美国交通部开放了全美的航班起飞、到达、延误的数据,有程序员立刻利用这些数据开发了一个航班延误时间的分析系统。该系统向全社会免费开放,美国航班的延误率因此从2008年的27%下降至2010年的20.23%。
耶鲁大学法学院教授埃蒂斯表示,“要实施数据驱动的决策方法,我们不仅要使用新的技术,还要改变目前的决策过程。一旦打破这些障碍,我们将从中获益:*将更有效率、更加开放、更加负责,引导*前进的将是基于实证的事实,而不是意识形态,也不是利益集团在*决策过程中施加的影响”。
继美国之后,英国、加拿大、澳大利亚、韩国等30多个国家的*加入到开放数据的大潮之中。2011年12月,美国宣布与印度*合作,将现有Data.gov改造成开源平台,在2012年开放全部的平台代码。源代码开放之后,全世界任何国家的*都可以免费引进、使用及修改美国的数据开放平台。而印度将率先移植Data.gov,作为其**的数据开放平台。
美国管理与统计学家爱德华·戴明表示,“我们信靠上帝。除了上帝,任何人都必须用数据说话”。
上一篇: 姜奇平:以大数据为着力点建设基础设施