欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  数据库

浅析传统关系数据库面临大数据的挑战

程序员文章站 2022-06-07 09:39:41
...

什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案。20世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20世纪90年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储

什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案。20世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20世纪90年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储、单机数据分析统计工具无法处理的数据,这些数据需要存放在拥有数千万台机器的大规模并行系统上。大数据出现在日常生活和科学研究的各个领域,数据的持续增长使人们不得不重新考虑数据的存储和管理。

  随着社会计算的兴起,人们习惯于在网上分享和交流信息。比如,社交网站Facebook拥有庞大的用户群,而且在不断增长。这些用户每天发出的日志以及分享的资料更是不计其数,其数据量已经达到PB级别,传统的解决方案已经不能很好地处理这些数据。Facebook自己开发了Cassandra系统,现在又采用HBase,这些针对海量数据的管理系统能够较好地为用户提供服务,而且具有可扩展性和容错性,这是解决大数据问题所需要的性能。微博服务商Twitter也面临大数据的挑战,消息的发送量达到每天数亿条,而查询量则达到每天数十亿次,这要求存储管理系统不仅能够存储大规模数据,而且能够提供高吞吐的读/写服务。Twitter原先使用MySQL数据库,之后由于用户暴增便将数据迁移到NoSQL系统上,尽管NoSQL系统还未成熟,但却是解决海量数据的较为有效的方案。其他的互联网公司同样面临着大数据带来的问题,如Goolge搜索引擎需要处理大规模的网页信息,YouTube则需要存储和提供用户分享的视频数据,*提交用户分享的知识等,这些都涉及大规模数据信息存储与管理。

  随着电子商务的发展,越来越多的人在网上选购商品,商务网站需要存储大量的商品信息和用户的交易信息,涉及大规模的数据。同时网站需要提供迅速的请求响应,以提高用户体验来吸引客户。而且网站还要对这些海量数据进行处理和分析,以便更有针对性地向用户推荐商品,海量数据成为系统构建和业务成败的关键因素。中国商业网站淘宝使用HBase来存储数据,同时不断探索自己的解决之路,开发了支持大数据的数据库系统OceanBase来实现部分在线应用。全球最大的线上拍卖和购物网站eBay也积极寻求海量数据的解决方案,其基于Hadoop建立了自己的集群系统Athena来处理大规模数据,同时开发了自己的开源云平台项目Turmeric来更好地开发和管理各种服务。同时,各大零售公司无论是在线销售还是实体销售,都会注意收集客户的消费信息以便有针对性地提供服务或推荐商品,这些都涉及大规模数据的应用。

  各个领域的科学研究同样面临海量数据的挑战,从生物基因到天文气象,从物理实验到临床医学,得益于测量技术和设备的发展,这些领域在实验或实践中产生了大量的数据,而人们需要对这些数据进行处理分析从而挖掘出有价值的信息,但这不是容易的事情。随着下一代基因测序技术的发展,基因中所蕴含的信息逐渐被人们所发掘,人们获得更多更准确的基因数据,但是如何匹配基因数据,如何从这些数据中挖掘出所需要的信息,这是生物信息学遇到的新挑战。在环境气象研究中,科学家已经收集了数十年甚至上百年的气象环境数据,在这些数据中分析气候的变化需要海量数据处理技术的支持。在医学药物研究中搜集的大量的病人生理数据和药物测试数据,这些数据的规模很大,需要从中分析出有用的信息。在人文社会科学中,社会学家开始注意互联网社交网络上的人际交往和社会关系,其涉及的数据量也是非常巨大的,从海量数据中找出社会学家感兴趣的内容是富有挑战性的。人工智能研究方面,人们希望计算机拥有人类的学习能力和逻辑推理能力,这就需要机器存储大量的经验数据和知识数据,还需要从这些大量数据中迅速获得所需要的内容,并对其进行分析处理,从而做出正确有效的判断。

  如今传感器的广泛使用,数据采集更加方便,这些传感器会连续地产生数据,如实时监控系统、网络流量监测等。除了传感器源源不断地产生数据外,许多领域都会涉及流数据,如经济金融领域中股票价格和交易数据、零售业中的交易数据、通信领域中的数据等都是流数据,这些数据最大的特点就是海量,因为它们每时每刻连续不断地产生,但与其他的海量数据不同,流数据连续有序、变化迅速,而且对处理分析的响应度要求较高,因此对于流数据的处理和挖掘往往采用不同的方法。经济金融领域各个方面都产生海量数据,如证券价格变化和股票交易形成的流数据,企业或个人各种经济活动而产生的数据等。现代经济已经步入海量数据时代,在新时代下可以带来创新和生产率增长,并可能出现新的商业模式。利用好经济生活产生的海量数据,可以发挥重要的经济作用,不仅有利于企业的商业活动,也有利于国民经济,提高国家的竞争力。面对大规模的经济数据,人们除了需要提高获取、存储和分析数据的能力,同时需要保障数据的安全和隐私,但这仍然是巨大的挑战。

  传统的关系型数据库并不能够很好地解决海量数据带来的问题,单机的统计和可视化工具也变得力不从心。一些新的数据管理系统如并行数据库、网格数据库、分布式数据库、云平台、可扩展数据库等孕育而生,它们为解决海量数据提供了多种选择。