大数据热背后的冷思考
继云计算、社交网络之后,如今大数据(Big Data)风起云涌,已成为2012 年信息技术领域最时髦的词汇之一。而相比大数据的兴起,以前以商业智能分析而著称的BI开发商却颇为失落。有人大胆预测,未来10年,与大数据相关的商务智能分析将引领管理信息化的发展。
大数据
真的那么必须?
通常所说的大数据是具有3种特性的数据,即大数据量(Volume)、高生成速度(Velocity)和多数据类型(Variety)。大数据量指的是数据海量,如今有许多企业已经面临单日数据量以数十、数百TB的速度增加,而总数据量也达到了PB(Petabyte)等级,这样的数据量已让传统的数据库难以处理;高生成速度是指企业数据增加的速度越来越快,诸如移动化、社交网络的广泛应用,使得数据增加的速度比传统的企业应用程序要快很多,一旦数据增生速度加快,数据处理、分析的速度也得跟上;多数据类型是指数据的多样性,时下人们上互联网不只是看看资讯,同时也在不断地产出数据:上传照片、上传视频、发微博;另一方面,IT深入工作生活中的各个角落,各种各样的传感器、监控器也时刻不断产生各种数据,数据的形式已日趋复杂、多样了。这就催生了大数据技术的强烈需求。
虽然如何解决日渐紧迫的大数据处理已成了企业管理信息化、现代化的必然需求,但国内的大数据领域到底有多活跃?大数据真的如一些厂商所描绘的那么强大、好用,成为每个企业所必需的吗?
在一片叫好声中,部分专家和业内人士显得小心谨慎,甚至不乏非议。一些专家认为,除了大量的研讨会和各类公司宣称进军大数据领域的雄心之外,其实际进展至今难见成效。许多企业CIO认为,国内能利用大数据背后的价值的行业主要集中在金融、电信、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据为时尚早,大数据在企业的应用并不是说只要开放了数据、应用一些技术就可以轻易地发现“金矿”。目前国内大数据应用似乎正在呈现这样的状态:投资人活跃,技术和服务供应商热心,媒体高调,而大量应用企业迷惑。
有人更是批评“大数据是在既有的方案上包装了一下,实质是新瓶装旧酒,只不过更时髦”,海量数据时代的数据应用并没有给多少企业带来革命性的变化,在 MapReduce(Hadoop中采用的编程模型,用于大规模数据集的并行运算)出现之前,也有企业能够轻松地对数据进行大规模并行计算了,而 NoSQL 的出现也只是为处理数据的方式带来了更多选择罢了,并没有革命性、实质性的飞跃。比如,某厂商说,利用其大数据技术,电子商务网站就能知道“什么地方的人买东西最疯狂”或是“什么型号手机最好卖”,这就是大数据分析的结果。对此有专家反驳“难道同样基于数据仓库系统的BI分析出来的结果和基于这个大数据出来的结果会有不同?”
的确,从某些大数据应用中能挖掘出新的价值,但这个价值只是附加价值,没有理由去夸大它,更没有理由去无端地想象。大数据是机会,但现阶段还只是少数人的机会,更多的是巨头们的商业谋略。”厦门一位电子公司CIO也认为,“一些企业所需要的数据挖掘,传统列式数据就能很好地处理。与其参加各种口沫横飞的会议,还不如和工程师聊聊可以运用什么更实用的工具来解决具体问题。”
大数据当立,
BI当下?
让大数据取代BI也是当下热议的话题。实际上,大数据与BI之间的确存在着天然联系,但并不是互相替代、排斥的关系。大数据与BI一个主要区别在于:与传统基于事务的数据仓库系统相比较,其能在BI的基础上进行更大容量数据和非结构化数据处理,大数据分析不仅关注结构化的历史数据,它们更倾向于去对Web、社交网络、RFID传感器等非结构化海量数据进行更好地分析。整体相比BI而言,大数据更宽泛。
以EMC公司的 Greenplum核心产品线为例,它分为Greenplum Database(数据仓库)、Greenplum HD(Hadoop分析)和Greenplum DCA(数据计算设备),后者还是基于高性价比的工业标准x86服务器的MPP(大规模并行处理)分布式可扩展架构。这三个产品归于一个产品线也可以看出传统BI和大数据之间的内在联系。
诚然,海量增长的非结构化、半结构化数据中确实有值得深入挖掘的价值,但这并不等于人们就要采用全新的方法、工具来处理它们。正如需求是渐进式的增长一样,业务的变革也要以渐进式为主。
笔者认为,大数据的创新性、先进性与前瞻性,不容否定,值得肯定,但当有人提出“大数据当立,BI当下”之论,就显得过分武断。在如今细分制胜的时代,功能并不是越多越好,功能过多反而显得累赘,增加无谓费用。Gartner研究公司BI分析师RitaSallam曾表示,“大数据让BI更有价值和更有利于业务发展。我们总是会需要看看过去的数据,当你拥有大数据时,你更应该这样做。BI并不会被大数据取代消失,它的作用通过大数据被放大了。至少在相当长的时期内,大数据还难于取代传统BI。”
时至今日,各种关于大数据与BI软件谁优谁劣的交锋仍不断泛起,对用户而言,必须认真权衡,到底利用大数据后能给企业带来了多少额外的价值?这种增加的价值是否能让企业的投入值得?而且更为重要的一点是,是否只要使用大数据就一定能够给企业带来以前不可能实现的价值?这些是当下用户们最需要重点考虑的。
下一篇: 你姐占了便宜