欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

大数据概述和背景

程序员文章站 2022-05-01 12:27:57
...

1、什么是大数据

最早提出在2002年,来源于美国的麦肯锡报告
4V特征:
Volume(数据量大):PB级
Variety(数据多样性):文本、图像、视频、音频等
Velocity(输入和处理速度快):流式数据
Value(价值密度低):需要积累很多的数据才能发掘大数据隐含的意义,只要能发挥和挖掘数据隐藏的价值,不用纠结于数据量大小
由维克托·麦尔-舍恩伯格提出,被称作大数据之父

大数据核心问题:存储、计算和分析。通过组件(计算框架)解决

2、数据仓库和大数据

1、传统方式:DW(Data Warehouse),基于传统的关系数据库(Oracle、Mysql等),一般只做查询分析。TD(Teradata 天睿)数据仓库一体机。

2、数据仓库VS大数据
数据仓库:Share Everything,存储、计算、CPU共享 
大数据:Share Nothing,单独计算、结果汇总

3、OLTP和OLAP

1、OLTP: Online Transaction Processing 联机事物处理:(insert update delete)
   ACID: 所有的数据可追溯。-传统关系型数据库(Oracle Mysql Postgresql等)
2、OLAP: Online AnalyticProcessing 联机分析处理

真正生产中是二者的结合:OLTP(后台操作,前台展示,数据设计等) + OLAP(Hive, Hbase, Spark等)

4、Google三篇论文

1、GFS: Google File System
主要是为了解决Google搜索内容和存储问题,造价低,易扩展。
倒排索引(Reverted Index)

2、MapReduce: 分布计算模型。分而治之。
PageRank

3、BigTable:大表
把所有数据存入一张表中,通过牺牲空间,换取时间。

5、Hadoop的简介

Hadoop是Apache软件基金会的*开源项目,是一套可靠的,可扩展的,支持分布式计算的开源软件,是由原雅虎公司Doug Cutting根据Google发布的学术论文(Google File System、MapReduce、BigTable)而创建的开源项目。

Hadoop1.0: MapReduce(v1) + HDFS
Hadoop2.0: MapReduce(v2) + HDFS2 + YARN + Others

6、HDFS的体系架构

HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检 测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一 致性模型,通过流式数据访问,适合带有大型数据集的应用程序。

NameNode(主节点,名称节点)
SencondayNameNode(备份节点)
DataNodes(数据节点)

大数据概述和背景

7、MR编程模型

MapReduce是一种计算模型,用以进行大数据量的计算。
其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。
Reduce则是对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。
MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

大数据概述和背景