欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

大数据时代的数据存储管理

程序员文章站 2024-02-05 12:40:52
数据无处不在,手机通话记录、商店的RFID便签、物流公司的快递产生的数据、银行的交易数据、出租车的运行轨迹、、、生活中如此众多的数据记录,见证现实世界的数据变化。IDC的研究表明,到2020年,全球以...

数据无处不在,手机通话记录、商店的RFID便签、物流公司的快递产生的数据、银行的交易数据、出租车的运行轨迹、、、生活中如此众多的数据记录,见证现实世界的数据变化。IDC的研究表明,到2020年,全球以电子形式存储的数量将达到35ZB(1ZB=100万PB),是2009年存储量的40倍。其中企业数据以55%的速度在逐年增长,大数据时代已经来临。

然而与传统的数据存储管理相比,大数据时代的数据管理具有哪些现实意义和挑战呢?大数据时代的数据应该如何管理呢?

几年前,企业的决策者往往是根据自己的直觉来确定企业未来的发展的战略,而不是依托于具体的数据。而利用数据获得有价值的线索,让决策者们看到了数据分析的重要性。然而从海量的数据中抽取数据样本,挖掘数据,形成报表的过程看似简单,实则盘根错节,涉及到企业IT系统的方方面面,如企业的数据中心,数据存储,数据管理等多个环节。传统的数据存储管理已经不能满足大数据时代的发展要求。

大数据时代的数据存储管理

大数据时代的数据存储管理

大数据存储管理面临诸多挑战

目前电信、金融、零售等行业希望通过大数据的分析手段来帮助自己做出理性的决策。特别是电信和金融行业表现尤为突出,市场数据没有办法与用户消费数据打通。而它们面临的第一个问题就是海量数据存储的问题。多数企业正在试图建设自己的数据中心,来满足大规模的数据量的产生,但是随着数据的进一步增多,很多数据的查询和分析性能急剧下降,有的数据中心甚至出现了无法响应的状况,为企业的业务带来了很大损失。

企业的CIO们有着这样的疑虑,怎样的数据管理策略能够对数据进行有效的保护,而且在需要时,让数据随时转变成价值的问题。只有数据与适合的存储系统相匹配,制定出管理数据的战略,才能高成本,高可靠,高效益的应对大量数据。对于企业来说,面临大数据首先解决的问题就是成本和时间效应问题。商机不容错过,而存储数据管理,可以通过自动化,磁盘和重复数据删除,备份和归档的软件,让企业的关键数据分存在不同的区域,然后按照特定的业务需求,对数据进行提取,操作和分析,并形成企业所需要的目标数据。大数据面临的存储难题迎刃而解。

大数据时代的数据管理的意义

大数据让数据变得神秘,又让数据变得简单。计算机从文字,图像,视频等数据中解构出共性的东西,从互联网浩瀚的数据中收获知识,洞察信息。而数据的分析建立数据的管理基础之上。有媒体曾经报道,马云成功预测到2008年的金融危机的爆发,神乎其神。这实际上马云并不具备具有高瞻远瞩的敏锐洞察力,而且通过阿里巴巴的交易平台首先看到了整体交易额的下滑趋势。

IDC的调查认为:领军企业与其他企业之间最大的显著差别在于新数据类型的引入。那些没有引入新的分析技术和新的数据类型的企业,不太可能成为其行业的领军者。

而企业的战略眼光与大数据的管理不无关系。信息是企业的财富,如果企业对大数据的管理适当,利用好大数据,并服务于企业发展战略,一定能做出明智的决策。现阶段的难点在于,企业分析的数据仅仅是企业标准化结构数据中的很小一部分,很多企业的这一数据还不到20%,企业未来的数据管理之路还很漫长。

大数据时代的数据管理技术

大数据的关注度在不断升温,而大数据管理的技术也层出不穷。在众多技术中,有6种数据管理技术普遍被关注,即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、NoSQL、移动数据库技术。其中分布式存储与计算受关注度最高。

分布式存储与计算架构可以让大量数据以一种可靠、高效、可伸缩的方式进行处理。因为以并行的方式工作,所以数据处理速度相对较快,且成本较低,Hadoop和NoSQL都属于分布式存储技术的范畴。

内存数据库技术可以作为单独的数据库使用,还能为应用程序提供即时的响应和高吞吐量,SAP的HANA是该技术的典型代表。

列式数据库的特点是可以更好的应对海量关系数据中列的查询,占用更少的存储空间,这也是构建数据仓库的理想架构之一。

云数据库可以不受任何部署环境的优势,随意的进行拓展,进而为客户提供适宜其需求的虚拟容量,并实现自助式资源调配和自助式使用计量。目前微软的SQL Server可以提供类似的服务。

NoSQL数据库适合于以下场景,即庞大的数据量、极端的查询量和模式演化。企业可以NoSQL得到高可扩展性、高可用性、低成本、可预见的弹性和架构灵活性的优势,甲骨文在2011年推出Oracle NoSQL数据库。

移动数据库技术是适应移动计算产物。随着智能移动终端的普及,人们对移动数据实时处理和管理要求的不断提高,移动数据库具有平台的移动性、频繁断接性、网络条件的多样性、网络通讯的非对称性、系统的高伸缩性和低可靠性以及电源能力的有限性等,也正是因为这些特性被业界所重视。