大数据概述和背景
程序员文章站
2022-05-01 12:27:57
...
1、什么是大数据
最早提出在2002年,来源于美国的麦肯锡报告
4V特征:
Volume(数据量大):PB级
Variety(数据多样性):文本、图像、视频、音频等
Velocity(输入和处理速度快):流式数据
Value(价值密度低):需要积累很多的数据才能发掘大数据隐含的意义,只要能发挥和挖掘数据隐藏的价值,不用纠结于数据量大小
由维克托·麦尔-舍恩伯格提出,被称作大数据之父
大数据核心问题:存储、计算和分析。通过组件(计算框架)解决
2、数据仓库和大数据
1、传统方式:DW(Data Warehouse),基于传统的关系数据库(Oracle、Mysql等),一般只做查询分析。TD(Teradata 天睿)数据仓库一体机。
2、数据仓库VS大数据
数据仓库:Share Everything,存储、计算、CPU共享
大数据:Share Nothing,单独计算、结果汇总
3、OLTP和OLAP
1、OLTP: Online Transaction Processing 联机事物处理:(insert update delete)
ACID: 所有的数据可追溯。-传统关系型数据库(Oracle Mysql Postgresql等)
2、OLAP: Online AnalyticProcessing 联机分析处理
真正生产中是二者的结合:OLTP(后台操作,前台展示,数据设计等) + OLAP(Hive, Hbase, Spark等)
4、Google三篇论文
1、GFS: Google File System
主要是为了解决Google搜索内容和存储问题,造价低,易扩展。
倒排索引(Reverted Index)
2、MapReduce: 分布计算模型。分而治之。
PageRank
3、BigTable:大表
把所有数据存入一张表中,通过牺牲空间,换取时间。
5、Hadoop的简介
Hadoop是Apache软件基金会的*开源项目,是一套可靠的,可扩展的,支持分布式计算的开源软件,是由原雅虎公司Doug Cutting根据Google发布的学术论文(Google File System、MapReduce、BigTable)而创建的开源项目。
Hadoop1.0: MapReduce(v1) + HDFS
Hadoop2.0: MapReduce(v2) + HDFS2 + YARN + Others
6、HDFS的体系架构
HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检 测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一 致性模型,通过流式数据访问,适合带有大型数据集的应用程序。
NameNode(主节点,名称节点)
SencondayNameNode(备份节点)
DataNodes(数据节点)
7、MR编程模型
MapReduce是一种计算模型,用以进行大数据量的计算。
其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。
Reduce则是对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。
MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。
推荐阅读
-
.NET Core开发的iNeuOS工业互联平台,升级四大特性:配置数据接口、图元绑定数据、预警配置和自定义菜单
-
数据专家在大数据背景下的五大作用
-
华傲、北航和深大共建的“大数据计算理论联合研究所”在华傲举行
-
python中连接三大主流数据库mysql,mongodb和redis的操作教程
-
分析:M2M和大数据的三大应用领域
-
SQL Server数据库的三种恢复模式:简单恢复模式、完整恢复模式和大容量日志恢复模式
-
无人机数据本地化背后 大疆和苹果选择了同一条路
-
Android 入门第七讲01-数据存储(数据存储概述,文件存储(raw和asserts目录读写,data/data/包名目录读写,sdcard目录读写),SharedPreferences读写)
-
SQL Server数据库三种恢复模式:简单恢复模式、完整恢复模式和大容量日志恢复模式介绍
-
大数据就业的三大方向和最热门十大岗位