欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

大数据热背后的冷思考

程序员文章站 2024-01-28 17:36:22
继云计算、社交网络之后,如今大数据(Big Data)风起云涌,已成为2012 年信息技术领域最时髦的词汇之一。而相比大数据的兴起,以前以商业智能分析而著称的BI开发商却颇为失落。有人大...

继云计算、社交网络之后,如今大数据(Big Data)风起云涌,已成为2012 年信息技术领域最时髦的词汇之一。而相比大数据的兴起,以前以商业智能分析而著称的BI开发商却颇为失落。有人大胆预测,未来10年,与大数据相关的商务智能分析将引领管理信息化的发展。

大数据

真的那么必须?

通常所说的大数据是具有3种特性的数据,即大数据量(Volume)、高生成速度(Velocity)和多数据类型(Variety)。大数据量指的是数据海量,如今有许多企业已经面临单日数据量以数十、数百TB的速度增加,而总数据量也达到了PB(Petabyte)等级,这样的数据量已让传统的数据库难以处理;高生成速度是指企业数据增加的速度越来越快,诸如移动化、社交网络的广泛应用,使得数据增加的速度比传统的企业应用程序要快很多,一旦数据增生速度加快,数据处理、分析的速度也得跟上;多数据类型是指数据的多样性,时下人们上互联网不只是看看资讯,同时也在不断地产出数据:上传照片、上传视频、发微博;另一方面,IT深入工作生活中的各个角落,各种各样的传感器、监控器也时刻不断产生各种数据,数据的形式已日趋复杂、多样了。这就催生了大数据技术的强烈需求。

虽然如何解决日渐紧迫的大数据处理已成了企业管理信息化、现代化的必然需求,但国内的大数据领域到底有多活跃?大数据真的如一些厂商所描绘的那么强大、好用,成为每个企业所必需的吗?

在一片叫好声中,部分专家和业内人士显得小心谨慎,甚至不乏非议。一些专家认为,除了大量的研讨会和各类公司宣称进军大数据领域的雄心之外,其实际进展至今难见成效。许多企业CIO认为,国内能利用大数据背后的价值的行业主要集中在金融、电信、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据为时尚早,大数据在企业的应用并不是说只要开放了数据、应用一些技术就可以轻易地发现“金矿”。目前国内大数据应用似乎正在呈现这样的状态:投资人活跃,技术和服务供应商热心,媒体高调,而大量应用企业迷惑。

有人更是批评“大数据是在既有的方案上包装了一下,实质是新瓶装旧酒,只不过更时髦”,海量数据时代的数据应用并没有给多少企业带来革命性的变化,在 MapReduce(Hadoop中采用的编程模型,用于大规模数据集的并行运算)出现之前,也有企业能够轻松地对数据进行大规模并行计算了,而 NoSQL 的出现也只是为处理数据的方式带来了更多选择罢了,并没有革命性、实质性的飞跃。比如,某厂商说,利用其大数据技术,电子商务网站就能知道“什么地方的人买东西最疯狂”或是“什么型号手机最好卖”,这就是大数据分析的结果。对此有专家反驳“难道同样基于数据仓库系统的BI分析出来的结果和基于这个大数据出来的结果会有不同?”

的确,从某些大数据应用中能挖掘出新的价值,但这个价值只是附加价值,没有理由去夸大它,更没有理由去无端地想象。大数据是机会,但现阶段还只是少数人的机会,更多的是巨头们的商业谋略。”厦门一位电子公司CIO也认为,“一些企业所需要的数据挖掘,传统列式数据就能很好地处理。与其参加各种口沫横飞的会议,还不如和工程师聊聊可以运用什么更实用的工具来解决具体问题。”

大数据当立,

BI当下?

让大数据取代BI也是当下热议的话题。实际上,大数据与BI之间的确存在着天然联系,但并不是互相替代、排斥的关系。大数据与BI一个主要区别在于:与传统基于事务的数据仓库系统相比较,其能在BI的基础上进行更大容量数据和非结构化数据处理,大数据分析不仅关注结构化的历史数据,它们更倾向于去对Web、社交网络、RFID传感器等非结构化海量数据进行更好地分析。整体相比BI而言,大数据更宽泛。

以EMC公司的 Greenplum核心产品线为例,它分为Greenplum Database(数据仓库)、Greenplum HD(Hadoop分析)和Greenplum DCA(数据计算设备),后者还是基于高性价比的工业标准x86服务器的MPP(大规模并行处理)分布式可扩展架构。这三个产品归于一个产品线也可以看出传统BI和大数据之间的内在联系。

诚然,海量增长的非结构化、半结构化数据中确实有值得深入挖掘的价值,但这并不等于人们就要采用全新的方法、工具来处理它们。正如需求是渐进式的增长一样,业务的变革也要以渐进式为主。

笔者认为,大数据的创新性、先进性与前瞻性,不容否定,值得肯定,但当有人提出“大数据当立,BI当下”之论,就显得过分武断。在如今细分制胜的时代,功能并不是越多越好,功能过多反而显得累赘,增加无谓费用。Gartner研究公司BI分析师RitaSallam曾表示,“大数据让BI更有价值和更有利于业务发展。我们总是会需要看看过去的数据,当你拥有大数据时,你更应该这样做。BI并不会被大数据取代消失,它的作用通过大数据被放大了。至少在相当长的时期内,大数据还难于取代传统BI。”

时至今日,各种关于大数据与BI软件谁优谁劣的交锋仍不断泛起,对用户而言,必须认真权衡,到底利用大数据后能给企业带来了多少额外的价值?这种增加的价值是否能让企业的投入值得?而且更为重要的一点是,是否只要使用大数据就一定能够给企业带来以前不可能实现的价值?这些是当下用户们最需要重点考虑的。