欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

大数据的未来之路

程序员文章站 2022-04-26 11:13:33
到了2020年,人类一年所产生的数据将是1000个谷歌或10000个百度,在数据化生存时代,企业要做哪些准备?在大数据启蒙阶段,《大数据时代》作者、牛津大学教授维克托·迈尔·...

到了2020年,人类一年所产生的数据将是1000个谷歌或10000个百度,在数据化生存时代,企业要做哪些准备?

在大数据启蒙阶段,《大数据时代》作者、牛津大学教授维克托·迈尔·舍恩伯格曾应邀去多家中国著名企业宣讲过大数据带来的变革;最近一年,各类大数据方案企业也开始越来越多地谈论大数据技术的实现。

今年夏季,在腾讯举办的大数据论坛上,腾讯高管与来自全球最顶尖的学者热烈地讨论着大数据的各种迷思——隐私、互联互通和数据交易。在最近一个大数据的活动中,大数据开源技术Hadoop之父Doug Cutting以及大数据链条上掌握着命脉的“原油型”公司——英特尔和Cloudera的牛人们再次聚首。

数据化生存

IT行业的“指数效应”威力惊人,比如,IT的基石芯片行业有个摩尔定律,每18个月芯片上集成的晶体管数会翻番,由此会带来一系列指数式连锁反应——CPU的性能翻番,芯片的成本折半,功耗也会折半。这也就是大家为什么看到电子产品快速降价的根本原因。

市场调研公司IDC认为,大数据行业也有“摩尔定律”。英特尔中国研究院院长吴甘沙非常认同这个说法,他曾是英特尔中国研究院首位“首席工程师”,主持大数据研究。“如果说摩尔定律是我们所在的指数社会的基因,那么大数据就是指数社会的蛋白质。”吴甘沙说。

有人说大数据是新的原材料、新的原油、新的资产,甚至是新的货币,而吴甘沙认为,人类现在的生存就是一场数据化生存。人类社会的各类设备在不停地感知、传输、存储数据。今天,人们认为谷歌可能是最大的数据拥有者之一,但按照指数增长规律,到2020年,一年所产生的数据将是1000个今天的谷歌或10000个百度。

“我们看到数据和计算能力在过去15年间一直呈现指数级增长,这种增长给我们带来了根本性变化——不能再看单独的数据,而是把全部数据放在一起来考虑,来描绘出对人、企业或是业务的高清晰图像。”大数据之父Doug Cutting说,“这件事是一个革命性、阶段性的变化。”Doug Cutting是开源技术世界中一个很具影响力的人物,他打造了目前在云计算和大数据领域里如日中天的开源技术Hadoop。他是Apache 基金会主席,也是大数据平台企业Cloudera的首席技术官。

大量、快速增长的数据需要实时储存、整合和分析,过去的IT架构已经无法应付,这就促成了一种名为Hadoop开源新架构的诞生,这是个可以无限扩容的分布式计算结构。

在这个无限扩容开放式架构的发展大势下,IT业界才倡导了“软件定义基础设施”的趋势,把计算、存储和网络做成开放式的标准模块,降低设施的门槛;在基础设施之上,推动开放、可信数据处理平台Hadoop;在此之上,推动整个生态圈的创新,实现各类分析应用,把高级分析功能平民化,使得它能迈入主流市场,实现规模经济。

数据咖啡馆

腾讯高级副总裁汤道生曾请教欧洲信息哲学创始人、牛津大学教授Luciano Floridi一个困扰腾讯大数据应用的问题——数据如何互联互通,这对于发挥数据的价值至关重要。

现在,数据已成为各个组织的商业资产,数据交换成为一个挑战。Luciano以人类早先对石油资源的应对方式进行类比:挪威当年建立了复杂的综合体系去处理自然资源,从而让整个人群受益。现在,*和手握数据的企业也有责任去摸索一个综合体系,把数据的价值扩大到广泛的人群。

在英特尔,吴甘沙他们也正在开展“数据安全流通以及定价”这样的研究。英特尔有一个研究平台,叫做“数据咖啡馆”,意思是希望这个平台能像咖啡馆那样起到“汇聚”作用,汇聚不同领域、不同企业的数据,一起来产生新的价值。这里面需要大量的核心技术,例如,顶层的多方安全计算、数据审计及定价等。

英特尔与美国癌症研究机构开展合作。癌症是一个典型的长尾病症。过去50年来,癌症的治愈率仅仅提升了约8%,这是因为研究机构拥有的基因组样本太少了。如果通过“数据咖啡馆”把基因组样本聚合起来,就能期待癌症技术获得突破。而聚合就需要数据交易。

在某种程度上,目前的数据是论斤按两来交易的,因为数据的价格很难衡量与预测。“在这样一种数据不易定价的情况下,我们的理念是先用起来,在使用过程中去发现它的价值。”吴甘沙说。

在英特尔宏大的愿景中,希望在2020年之前,一天之内能完成三件事:对病人进行全基因组测序,锁定癌症的相关基因,形成个性化的用药以及修复方案。现在癌症很难治愈的原因是新药更新速度赶不上癌细胞的变化速度,有了大数据技术,癌症治愈率将指日可待。

数据交易只是英特尔在大数据研究上的重要方向之一。英特尔的其他重要研究领域还涵盖两个重要领域:数据与机器的关系——什么样的可扩展架构能更好地存储和处理数据;人和数据之间的关系——什么样的分析工具能增强人的分析能力。

以往,在英特尔,1~3年的事由产品部门来做,3~5年的由英特尔研究院来做,5~8年的与大学合作研究。但在这样一个不可预测的时代下,英特尔把对“大数据”的研发周期进一步缩短,与大学合作研究的技术也希望尽快推向市场,像Spark、集成了数据分析及交换的Datahub,内存数据库H-Store、可视化、深度学习(Deep learning)等。

大数据之星

今年3月,英特尔以7.4亿美元收购了Cloudera18%的股份,成为Cloudera的战略投资者。一家IT巨头的高管评论说:“英特尔占领了大数据领域的制高点。”

Cloudera是一家在大数据领域起着关键作用的创新企业。它由来自Facebook、谷歌、雅虎和甲骨文的高管和工程师在2008年创建,其商业模式类似Linux领域的开源软件企业红帽公司(Red Hat)。

Cloudera中国专区>>>

开源技术的开发类似今天互联网世界的众筹模式——成千上万背景不同的技术爱好者聚集在一个“开源社区”中,一起创造一个他们热爱的软件技术,人们可以*使用。在此过程中,红帽创造了一种名为“订阅”的商业模式,它基于开源社区的软件,通过更多测试和验证,开发出更稳定、更易用的“企业版”。用户可以免费使用它,但如果需要技术支持和咨询服务就要付费。Cloudera仿照红帽模式,提供企业级Hadoop平台的服务。

如今,Cloudera已经带头形成全球最大的大数据生态链,有1200个合作伙伴。在美国,每天70%的智能手机数据都是在Cloudera平台上进行处理的。同时,Cloudera对新兴大数据领域进行普及,在全球培训了5万多名Hadoop专家。

9月,Cloudera落户中国。苗凯翔成为其在中国的第一个员工,担任该公司中国区副总裁。之前,他在英特尔负责大数据业务,参与了中国第一个Hadoop项目——2011年中国移动的通话详单查询项目。

苗凯翔发现,美国的大数据业务发展要比中国早两年,美国很多集群规模都已是上千个节点,中国才几十个,他预计明年中国企业会部署更大的集群。

“中国的企业,如运营商、银行在大数据的规划上越来越务实,设想也越来越大。目前他们要先想清楚大数据的商业价值。”苗凯翔说,“还要考虑清楚用大数据的目的是节省成本,还是创造价值,这是大数据的两个主题。”

苗凯翔用全球最大在线支付公司的实践来说明大数据的意义。这家企业本来用小型机做数据存储,在备份系统建设中,如果使用同样的小型机,一套就要上千万美元,太昂贵。最后,它们购买了Hadoop平台。Hadoop已经足够稳定、容量非常庞大,成本只是小型机的几十分之一甚至几百份之一,可以为企业节省可观的成本。这是企业使用大数据技术的第一步。之后,这家企业又基于Hadoop平台开展新业务,例如,给自己的客户提供各种报表,仅这项业务就为企业创造了百亿美元的销售额。

Hadoop非常复杂,苗凯翔认为,Cloudera的意义是能在中国把它构架起来、跑起来。他希望把Cloudera在金融、电信、零售、制造、*和医疗领域的实践带到中国。

伴随Cloudera 在中国落地,其全球性合作伙伴Oracle、HP、DELL、SAS等会与Cloudera有更多在中国的合作。同时,它也在找寻本土合作伙伴,像博康智能这样在一个细分市场做得出色的系统集成商。明年第一季度,Cloudera也会在中国开展培训业务。目前,苗凯翔团队在与中国客户沟通,探讨Cloudera在中国的商业模式。

未来之路

近些年,Doug Cutting一直推进Hadoop在企业级市场的实践。让他欣慰的是Hadoop在各行业中开展的实践。

让他印象最深的是一家信用卡公司。之前,这家企业检验欺诈行为需要3个月,当它采用Hadoop分析过往5年的交易历史后,发现了一个欺诈模式,这个模式在多年中会连续出现。于是,这家信用卡公司采用了Hadoop技术,不仅节省了很多成本,效果也非常好。

Doug Cutting也曾拜访过一家位于亚特兰大的儿童医院。在医院的一间急诊室中,有几十个早产儿。婴儿身上有很多监测器,医护人员可以通过屏幕来看这些数据。一开始,这些数据随时就被扔掉了。后来,人们把数据从那些老式电脑中取出来,存储起来并进行分析。他们发现,为了检测孩子的身体状况,护士每天都要在孩子脚底扎针取血,一开始孩子们会哭,过了几天他们就不哭了。可是,当人们看到这些数据时会发现,实际上,在扎针取血后30分钟内,婴儿的心跳和呼吸都特别快,他们非常紧张,这对他们的健康不利。这帮助医护人员了解了很多情况,并改进了他们对婴儿的护理。

“我们看到越来越多的行业,正在利用大数据分析来提升业绩。”Doug Cutting说,“这些企业并不仅局限于高科技产业,它们还来自其他行业,比如采矿业、交通业。”

目前,大企业是最早采用大数据分析平台的,Doug Cutting观察到,这些企业通常是从个别部门开始使用Hadoop,然后扩展到其他部门。Doug Cutting认为,未来会有越来越多的中小企业使用Hadoop。在美国,一些小型农场主甚至农民,现在也是大数据的生产者——他们有GPS定位设备,他们的拖拉机和其他机械设备也收集了大量数据,通过这些数据可以更好地分析土壤状况,提高播种效率和产量。

“我们看到这个趋势正在在很多行业不断蔓延开来。” Doug Cutting说,“一些规模更小的公司,也将在接下来的5~10年中越来越多地去使用大数据。”

Doug Cutting还提到一个业界认同的大趋势——企业会越来越多地使用数据中心,把数据中心作为自己的“默认平台”,使用上面不同的应用程序。“智能手机既是手机,也是照相机、游戏机、电子书……因为它就在那儿,你知道怎么使用它,而且它上面也集成了所有的生活工具。” Doug Cutting 说,“未来企业数据中心的作用也类似,所有的工具都集成在上面,企业可以选择使用。”