欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

大数据的2013:SQL阵营将逆袭?

程序员文章站 2022-04-06 17:58:12
大数据在2012“一飞冲天”,它将会以一种戏剧性的方式改变数据管理的各个方面。大数据系统已经给机器生成数据管理、连续的ETL、操作型BI、动态数据以及基于云的数据仓库都带来了变...

大数据在2012“一飞冲天”,它将会以一种戏剧性的方式改变数据管理的各个方面。大数据系统已经给机器生成数据管理、连续的ETL、操作型BI、动态数据以及基于云的数据仓库都带来了变化。

不过,随着大数据发展进入2013年,已经没有什么技术能比NoSQL数据库和Hadoop更活跃了,它们都有着更大的提升空间。根据MarketAnalysis.com 2012年的一份报告看,单单是Hadoop MapReduce市场,预计复合年增长率将达到58%,在2018年将达到22亿美元的规模。

NoSQL和Hadoop的出现主要是为应对非结构化数据,比如文本数据或者web日志。就像Apache Hadoop一样,这些技术通常是从开源发起,然后逐渐成为新的商业产品。

Judith Hurwitz是Hurwitz and Associates公司的总裁兼CEO,她认为大数据架构和大规模并行处理大大改变了数据应用现状。她说:“在此之前,即便数据真的对公司很重要,人们也并不是真正有能力获取海量数据并实时分析。而现在,原来无法实现的目标已经触手可及。”

SQL阵营的逆袭

我们可以在TechTarget商务智能网站上看到,从2012年开始,关于主流关系型数据库将走向没落的评论就此起彼伏。观察者认为,同上文提到的技术相比,SQL 关系数据库未来几年在应对大数据时将失去以往的竞争力。

这一趋势背后的推动力是企业希望以更快的速度获取更多非结构化数据,这样才能更加依靠数据驱动做决策。习以为常的数据处理方式正在经历变革,以便更好地融入新的技术。

对于那些传统的关系型数据库厂商,过去一年中拥抱大数据以及Hadoop的例子也有很多:

IBM不断收购一些高级数据分析公司,以扩充大数据产品线。蓝色巨人的努力方向从小的改进(比如,针对DB2 10的NoSQL图形存储和InfoSphere Warehouse 10)到颠覆性的PureData一体机,都是为了帮助客户搞定大数据。甲骨文在2012年初推出了大数据机(Big Data Appliance),又在近期发布了Oracle NoSQL数据库2.0版本,该产品已经自动实现重新平衡,新的应用编程接口可以处理大对象并与Oracle数据库有更紧密的集成,还可以支持直接用SQL查询Oracle NoSQL数据库记录。微软展示了Hadoop对Windows Azure和Windows Server支持的预览;Teradata公司发布了其Aster大数据分析产品;而Informatica公司发布了PowerCenter套件的大数据版,据说消除了Hadoop手工编码的需求,它把编程任务带入了Informatica开发环境。

大数据永远不会存在谁取代谁的问题,SQL虽然在过去一年中遭受了冲击,但是它并不会走向衰落。正相反,一些NoSQL和Hadoop方面比较专业的公司也在SQL方面做了许多努力。一个典型的例子是Hadoop初创公司Cloudera,通过Impala来提升Hadoop与SQL的协作程度。Impala是一款Hadoop软件产品,支持标准SQL做交互式查询。

大数据变革

大数据变革也带动了数据库技术的前进,现在我们看到SQL与NoSQL从对立更多地走向了融合。事实上,在大数据早期的讨论中,传统关系型数据库技术是被忽视的。

流媒体数据库厂商SQLstream的副总裁Ronnie Beggs表示:“在过去的几年里,由于大数据的崛起,SQL作为主流技术遭受了一定的冲击。大数据更多地和NoSQL联系在了一起。”

他人为在2013年,我们应该会看到明显的变化。在最近几年已经有很多努力在使NoSQL数据库更好地适应SQL数据库的风格。

Beggs说:“大数据是不断变化的,我们接下来这一年会看到的是SQL归来,它将作为所有大数据平台的接口。”

Hadoop、NoSQL和SQL共存的方式,标志着大数据在成熟度方面迈进了新的一步。随着2013年开启,大数据有可能从一个热门话题逐渐转向落地实践。

Ashland BI研究机构的总裁和创始人Colin White表示:“我认为人们正努力通过大数据的炒作,来真正理解其商业价值。在2013年,我认为我们将看到人们从大数据获得商业价值的更好的例子。这不是关于大数据的问题,而是你用大数据做什么的问题。”

虽然对新技术有广泛的兴趣,但不同公司对于接受全面大数据系统的速度也会有所不同。

一位系统集成商在金融行业的活动上向TechTarget记者表示,银行作为一个领域,只有部分涉足了基本的大数据,而不是全部。银行和其它领域只看到了大数据的数量,而没有留意到它的非结构性。至少目前还是这样。

他说:“大数据的含义有两部分。第一部分是它们的量很大,第二部分是数据是非结构化的。银行明显属于第一部分。但是我们不会去收集tweets这样的社交数据,至少目前还没有。我们还在观望,看金融数据服务市场的其他用户如何处理它。”