透视美国大数据爆发全景
大数据在美国已经发展到如火如荼的地步。*部门、IT企业、零售、医疗等传统行业以及互联网、软硬件公司将大数据能够带来的方方面面都展示在人们面前——尽管这些在美国还被认为是“初级阶段”——放眼望去,大数据时代已经撼动了美国社会的方方面面,从商业科技到医疗、*、教育、经济、人文以及社会的其他各个领域。
因为其背后的沿承和爆发的背景如此重要,目前科技界和学术界的人士甚至预测,大数据作为一项技术和理念本身,很有可能避免成为一下硅谷臭名昭著的“技术成熟度曲线”的受害者。这个曲线曾经昭示,一个新技术诞生后,经过新闻媒体和学术会议的大肆宣传,该趋势将一下子跌到谷底,许多创业公司变得岌岌可危,直到发展到一定阶段再重新爆发——这个曲线云计算曾经且正在经历,但大数据很有可能“幸免”。
一个说得通的原因是,在目前的美国,“大数据”的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的“4个V”之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法实现的。
所以变革将无法避免。而对大数据的掌握程度可以转化为经济价值的来源。
《大数据时代》一书的作者,维克托·迈尔·舍恩伯格上月底来到中国时,向一众业内和媒体人士着重介绍了其对大数据时代可能产生的价值变革的判断依据和论断结果。在回答记者的现场提问时,维克托表示,我们现在讨论的商业公司的形式是前大数据时代的模式,那么在大数据时代,从现有的模式中找模式是非常有问题的。我们要用新思维来衡量一切,包括新的企业模式,企业间关系以及社会、*、商业等的关系。
大数据的科学价值和社会价值正是体现在这里。
被改变的政治与*
一个略有被媒体夸大但基本属实的案例是,奥巴马今年成功连任美国总统,其背后那个几十人构成的数据分析与挖掘团队至关重要。
这支团队在2008年奥巴马竞选时就已存在并发挥作用。而这次,他们更动用了5倍于上届的人员规模,且进行了更大规模与深入的数据挖掘。它帮助奥巴马在获取有效选民、投放广告、募集资金方面起到一定作用。事实证明,奥巴马募集到的资金尽管与对手罗姆尼募集的资金规模不相上下,但前者从普通民众直接募集到的资金是后者的近两倍。据一项调查显示,奥巴马团队筹得的第一个1亿美金中,98% 来自于小于250美金的小额捐款,而罗姆尼团队在筹得相同数额捐款的情况下,这一比例仅为31%。
以竞选工作组发言人Ben LaBolt的话来形容:奥巴马团队拥有“核代码”——数据是能够击败罗姆尼的最根本优势。更“极端”的说法是,奥巴马胜选的原因不在于经济、外交政策或是妇女问题,而是赢在大数据!
当然,这个说法难免牵强,但仍可以看做美国政治或者说政界人士受到科技的影响越来越大——据《大数据:正在到来的数据革命》一书作者徐子沛在不久前的一次沙龙上透露,目前美国许多政界人士都十分重视社交网络,并期冀通过数据挖掘和数据分析从中获益。而数据创新给公民、*、社会带来的种种挑战和变革,已经深入人心。
但社交媒体分析,仅仅是大数据“冰山一角”的部分。
在目前已被认可的范畴中,大数据的价值链中,数据本身、技能以及思维三个层面是核心竞争领域,社交媒体分析可以看做是数据分析技能层面的细分领域,也是传统数据挖掘范畴下的新变种。
在数据领域占据领先地位的美国,已经在这三个层面都取得了长足发展,其中,*层面的变化极为明显,甚至将数据价值提升到了国家战略层面——2012年3月,奥巴马*宣布 “大数据的研究和发展计划。”白宫声明公开称:“通过提高我们从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。”
在这个计划里,美国国家科学基金、国家卫生研究院、能源部、国防部、国防部高级研究计划局、地质勘探局等6个联邦*部门,宣布将启动2亿美元的投资计划,提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平,从而了解更多正在进行的联邦*的计划,解决所大数据所带来的机遇和挑战,并计划与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。
其中,美国国家卫生研究院开展的免费开放由国际千人基因组计划,它将创建的人类遗传变异研究数据集,供研究人员*访问和使用;美国国家科学基金会和美国国家卫生研究院将对大数据进行联合招标,改进核心科学与技术手段,提高从各种大型数据集中提取重要信息并对其进行有效管理、分析和可视化的能力;美国国防部则计划每年投资2.5亿美元左右,在各个军事部门开展一系列研究计划,旨在以创新方式使用海量数据,通过感知、认知和决策支持的结合,加强大数据决策力;美国能源部则将斥资2500万美元建立可扩展数据管理与可视化研究所(SDAV),帮助科学家对数据进行有效管理,促进其生物和环境研究计划、美国核数据计划等的研究成果……
而作为奥巴马开放*承诺的产物,2009年至今Data.gov全面开放了40万联邦*原始数据集。日前Data.gov宣布采用新“开源*平台”管理数据,代码将向各国开发者开放。从这个角度看,大数据已成为美国国家创新战略、国家安全战略、国家ICT产业发展战略以及国家信息网络安全战略的交叉领域、核心领域。
当然从现在来看,说大数据改变美国政治或*的确有些夸张,但从另一层面看,美国*的开放性数据服务转型正走在世界前列。
被变革的行业与产业
大数据价值本身的被认知与被挖掘,建立在一个前提下——数据化。我们不能将数据化等同为数字化,后者不过是将模拟数据转换为二进制码方便计算机存储和分析,而前者则是把日常生活、生产、商业等方方面面的现象转化为可制表分析的量化形式的过程。
正是这个过程,形成了各行各业的变革力量——因为这是大数据时代所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。
中科院计算所所长孙凝晖对此表示,“大数据在未来很可能会成为一个新的行业,而且大数据本身也超越了互联网行业,不仅仅是在网络,生物基因本身也是大数据,各个物种的基因数据产生以后也会产生很多的学术价值、商业价值。”这种说法并非没有依据。
从美国市场上已经发生的案例来看,互联网行业、商业智能与咨询服务领域、零售行业受益最大,但医疗、卫生、交通、物流甚至生物科技、天文等领域,都开始“承认”大数据的价值。事实上在美国各个行业和应用领域,大数据的应用已经遍地开花。
互联网行业,雅虎于 2008 年初便开始启用大数据技术,每天分析超过 200PB 的数据,使得雅虎的服务变得更人性化,更贴近用户和客户。它与雅虎 IT 系统的方方面面进行协作,包括搜索、广告、用户体验和欺诈发现等;为了更深入的了解每一个用户,亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来,这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回溃
医疗卫生领域的应用也正在爆发——乔布斯通过大数据辅助癌症治疗,通过智能手机上的应用程序来监测病人的身体颤动,甚至如丹麦癌症协会通过大数据来研究手机使用是否致癌,还有微软这样的公司来分析病患的再入住率等。最著名的案例来自谷歌——在2009年,甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊——文中表示,和疾控中心一样,谷歌也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。谷歌公司发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,把5 000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。而通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。所以,2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。
不得不提的还有零售行业。实际上,诸如沃尔玛、Tesco(英国零售巨头)等巨头已从数据中获得了巨大的利益,也因此巩固了自己在业界的长盛不衰。以曾经因“少女怀孕事件”而成为大数据典型案例的Tesco公司为例,这家全球利润第二大的零售商从其会员卡的用户购买记录中,充分了解一个用户是什么“类别”的客人,如速食者、单身、有上学孩子的家庭等等,并基于这些分类进行一系列的业务活动,比如,通过邮件或信件寄给用户的促销可以变得十分个性化,店内的上架商品及促销也可以根据周围人群的喜好、消费的时段来更加有针对性,从而提高货品的流通。这样的做法为 Tesco 获得了丰厚的回报,仅在市场宣传一项,就能帮助 Tesco 每年节省 3.5 亿英镑的费用。
此外在能源行业,SaaS型软件公司Opower 使用数据来提高消费用电的能效,并取得了显著的成功——Opower 与多家电力公司合作,分析美国家庭用电费用并将之与周围的邻居用电情况进行对比,被服务的家庭每个月都会收到一份对比的报告,显示自家用电在整个区域或全美类似家庭所处水平,以鼓励节约用电。据报道,Opower 的服务已覆盖了美国几百万户居民家庭,预计为美国消费用电每年节省 5 亿美元。
最值得一提的是生物信息行业。生物信息是继互联网行业之后数据迸发最迅速的行业,并将远远超过互联网产生的数据:人类用 0 和 1 创造了虚拟世界,而造物主用 A/C/T/G 四种元素创造了万物生灵,生命的产生、发展、消亡的奥秘尽在其中。随着测序技术的发展,全基因组的测序价格由十年前的上亿美元降至今天的数千美元,这使得更多人、物种的 DNA信息的获取成为可能。个体全基因组信息的获取,使得个性化诊疗服务成为可能。大数据时代,一切的一切都存在着可能,而这一切的改变我们也正在体验之中。
被重塑的价值与思维
事实上,自20世纪末以来,信息变革一直在发生,但此前都集中在技术上,而大数据时代的到了让我们开始关注信息本身。
数据一贯被我们冠以“精确”的标签,但维克托·迈尔·舍恩伯格认为,“执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据时有框架且能适用于传统数据库的。如果不接受模糊,那么95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。”
换句话说,全样本时代的大数据的简单算法,比小数据的复杂算法更有效。Google的翻译系统备受好评,但它不需要像IBM曾重金打造的Candide系统一样精确的翻译300万句话,而是靠掌握的不同语言翻译的质量参差不齐的数百亿页文档——它把语言看做是可以判别可能性的数据,而不是语言本身。这个例子意味着,我们不再需要担心某个数据点对整套分析的不利影响,而是要接受这些纷繁的数据并从中收益,而不是以高昂的代价消除所有的不确定性。
大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。不过一个问题是,另一方面,大数据时代已经撼动了世界的方方面面,从商业科技到医疗、*、教育、经济、人文以及社会的其他各个领域——最简单的,亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,facebook知道我们的喜好,而 LinkedIn可以猜出我们认识谁。当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子上。
一个更美好的比喻是:“如果说20世纪是一个石油为王的时代,21世纪就是一个数据为王的时代,21世纪数据的价值有可能等同于20世纪的石油。”值得注意的是,目前互联网为主的技术和服务能力对大数据的处理和挖掘还远远不够,未来会有更多的有价值的数据从海量的大数据里发掘出来,产生很多新的商业形态、新的企业和新的服务。
但大数据的变革力量还不止于此——最核心的论题是,大数据只提供参考答案,不是最终答案。因为它放弃了对因果关系的渴求,而只关注相关关系——只需要知道是什么,而不需知道为什么——这彻底推翻了自古以来的惯例,所以我们理解现实和做决定的基础也将受到根本性挑战。在这种情况下,大数据将与互联网的发明一样,这绝不仅仅是信息技术领域的革命,更是在全球范围启动透明*、加速行业企业创新、引领社会变革的利器。
从这个角度出发,技术革新之外,思维模式的革新和管理变革不可避免,数据驱动型的企业和*正在变得可能。
透视美国大数据爆发全景,一场生活、工作与思维的大变革正在发生。