数据时代下 中国能成为领跑者吗?
不久前,路透社的独家新闻揭披露,惠普有意以100亿美元的价格出售旗下软件部门,逐步将发展中心向网络、存储及数据中心相关技术服务转移。虽然惠普的软件业务去年营收仅有36亿美金,这个消息还是震动了整个IT界。
惠普并非第一间这样做的大型高科技企业。今年六月,戴尔也卖出了旗下的软件部门。在出售软件部门之前,戴尔大手笔的收购了存储行业的龙头企业EMC,大举进军数据存储及数据中心业务。
数据,正带来无数的全新市场机遇,并随之对业界乃至社会产生深重的影响。而中国作为数据中心市场发展最快的地区之一,是否能领跑全新数据时代,也成为了业界的焦点。
海量数据带来全新市场
近年来,移动应用、物联网技术、视频VR技术不断迭代。社会运行以及个人生活中的大量活动,都会引起数据的采集、分析、梳理、传输等行为。
新的数据,正以前所未有的速度产生。
“从人类文明的起始到2003年,我们一共创造了5EB(百亿亿字节)的数据。而如今,每两天我们都在创造同样数量的数据。到2020年,这个数字可能会变成53ZB(十万亿亿字节),是现在的50倍。”Google的首席经济学家Hal Varian预测道。
数据的增长带来了数据存储、处理、交换等业务的蓬勃发展,也引发了业内诸如亚马逊、惠普、谷歌、戴尔等巨头的新一轮战争。
同样,数据的飞速增长也带来了数据存储市场的供求不平衡。业界普遍认为,未来3-5年数据存储缺口将继续扩大,带来新一轮的市场机会。
Source: http://www.clivemaxfield.com/area51/do-not-delete/lar-0011n-eet-05-lg.jpg
数据平台:非结构化数据带来的全新数据模式
在存储市场飞速增长的同时,这个市场以及其中涉及的技术也在悄然变化。
过去,绝大多数数据都以结构化数据的方式进行存储。目前,非结构数据已经占据数据存储总量的90%。这些变化促成了数据的存储、使用、分享的解决方案的一系列变化。
在未来几年内,业界将要面临的最大的挑战,就是数据使用模式的改变。过去,很多数据是同业务系统绑定,许多业务系统的应用底下都有自己的数据库。这些数据往往有独特的格式,很难迁移或者被其他业务系统使用。
这也就带来了我们所知道的数据的很多问题,比如“数据孤岛”——在一个系统或者单位的内部,数据无法互通。另外,还有数据的重复存储问题、数据的缺失、遗漏、以及不同步等等现象。这些问题不仅广泛存在,更难以解决。
在创新公司云城数据科技有限公司看来,未来以大数据为动力的技术及市场发展,很可能需要一种新的使用模式,那就是“数据平台”。
数据平台,即以数据为中心的新的设计思路,拥有四个重要特征。
第一,它可以推动数据存储的“虚拟化”。这意味对数据的访问不再受到物理存储的局限,达到访问*。过去“数据孤岛”问题,就此解决了。第二,数据采集更加完整、统一,数据平台的运行也将会更加平稳。在数据平台里,所有有权限的业务系统都能访问数据,有效利用存储空间。目前,数据往往属于某一个业务系统。比如当用户的家庭地址改变时,需要改好几个业务系统里的数据,如果漏掉了某一个系统,就会出现数据间的冲突。而完善的灾备、工作流量管理(workload management)等等工具,也能保证平台及服务的顺利运行。第三,数据平台拥有标准的接口,可以更好地支持数据分析、挖掘、学习等等工具。第四,明确数据的所有权和使用权,并有相应的管理手段,保证数据的归属权限和使用权限明确。归属权可以让数据的所有者合法获利。也就是说,想用归属者的数据需要付费。而使用权同等重要,可以让使用原始数据分析、挖掘产生的商业见解而获利。
这个“数据平台”的未来,与谷歌、惠普等业界巨头的数据存贮战略是一致的。
在2016年的USENIX会议上,谷歌的数据中心基础建设副总裁Eric Brewer呼吁业界共同设计面向未来的数据中心、云服务所需的磁盘,以解决日趋严重的数据存储问题。Brewer指出,随着数据存储结构的改变,未来的数据中心及云服务的新理念将带来同过往非常不同的新需求。对于磁盘,我们将不再要求单一磁盘的稳定性,而是要从混合管理的角度考虑存储的成本、容量以及数据稳定性的最大化问题。
惠普企业存储的高级副总裁Bill Hilf也指出,在企业越来越多地将云计算应用到公司层面时,他们同时也在增加自己所能提供的应用。通过不同的云服务(IaaS, PaaS, SaaS),他们能够为这些应用或负载量来找到最适合的配送模型。最终我们可以想象到,企业的计算机部门就像是各类云解决方案的前端,或“中介”。
而这些战略也意味着一件事:大数据的核心,其实在于数据的流动。
“只有数据被业务系统松绑,可以动起来,可以快速有效的进入其他系统,梳理、分析、共享,大数据挖掘及机器学习才有了可能性。”
云城数据科技有限公司的CEO王轶捷说道,“说到底,可流动的数据更有价值,而如何让数据有效的安全的流动,是企业的痛点,也是我们试图构建数据平台的初衷。”
在可预见的未来,海量的数据以及对其的分析能力会大大提高社会的运行效率,但是也会带来一系列的问题。而数据平台这个概念以及它的种种特点,对于数据的安全性和可控性等问题,也有着积极作用。
清华信息科学与技术国家实验室常务副主任李军评论道:“开放与安全,既是一对矛盾,也是相辅相成的。只有通过数据平台技术的不断创新,保障数据在存娶流动和应用中所有权和使用权的明确归属、严格审计,全面落实私密、完整、可用等管控要求,才会有更多的个人和机构用户拥抱数据的开放,共享数据的红利。”
数据时代的中国速度
在过去的科技发展进程中,发达国家,尤其是硅谷,往往引领着新科技的诞生、乃至广泛应用。然而在这场数据浪潮中,以中国为首的快速发展国家成为了新的亮点。
首先,从数据的增长速度来看,这些快速发展国家的的数据增长速度大大超越全球数据增长速度。业界预测,在2017年快速发展国家(中国、印度、俄罗斯、巴西、墨西哥)的数据总量将超过发达国家的数据总量。而中国无论从数据总量,数据增量,还是从上层应用的生态系统的活跃度,都引领快速发展国家甚至全球的发展。
今年八月,ResearchandMarkets的一份报告指出,中国的数据中心市场将以每年13%的复合增长率持续增长,成为增长最快的市场之一。
“类似贵州等多个城市大数据的战略定位,表明中国大数据的市场教育已经成熟,数据应用市场发展正在提速。而应用的深化必然对大数据的基础设施提出新的需求,数据的平台化势在必行,也是一个极有潜力的投资方向。” TEEC天使基金创始合伙人夏淳说道。
虽然在数据存储行业,从磁盘、闪存、到系统集成商基本被欧美国家垄断。但是如今的中国拥有着得天独厚的优势。如今的中国拥有世界最多的网民和世界最大的手机用户群体,中国的互联网行业孵化的一些新的商业模式,也走在了世界的前列。这些都给中国的大数据发展带来了极大的动力。
同以往的技术迭代相比,大数据相关技术的迭代有其独特的特性——从基础架构到上层应用及业务系统,大数据的生态系统里存在大量开源的系统及工具。这也就给中国大数据产业的迅速发展带了了良好的环境。
从长远的角度来看,以开源为基础或以开源为参考,建立自主可控的大数据产业,是中国亟需的战略投资。
“在当今时代,数据的战略直接关系社会和国家的发展和安全。我们需要自主可控的解决方案,在支持发展的同时,也保证安全。从技术上来看,开源一方面促进了大数据的发展,一方面也给我们提供了一个非常好的机遇,可以有效的进行行业合作,甚至国家之间的合作。” 工信部CSIP前副总工及开源中心负责人、中国开源软件推进联盟专家委员会委员
刘明说:“未来是数据的年代,数据将无疑成为衡量一个国家的实力的最重要的指标之一。中国必须建立自主可控的数据解决方案,我们认为行业合作以及国家间的合作也会进一步推动技术的发展。”
注:本文系硅星闻投稿
上一篇: 英特尔宋继强:数据其实就是未来的石油