欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

《大数据原理与技术》学习笔记(一)大数据概述

程序员文章站 2022-06-21 18:48:09
大数据概述 物联网、云计算和大数据,是第三次信息化浪潮的产物。 技术支撑:存储设备容量的不断增加、CPU处理能力大幅提升、网络带宽不断增加。 数据产生方式:经历了运营式系统、用户原创阶段,进入了感知式系统阶段,物联网技术,可穿戴设备、各种传感器之类的使数据量更大、更密集。 大数据的4V说法 1. 数 ......

大数据概述

物联网、云计算和大数据,是第三次信息化浪潮的产物。

技术支撑:存储设备容量的不断增加、cpu处理能力大幅提升、网络带宽不断增加。

数据产生方式:经历了运营式系统、用户原创阶段,进入了感知式系统阶段,物联网技术,可穿戴设备、各种传感器之类的使数据量更大、更密集。

大数据的4v说法

  1. 数据量大(volume):web2.0时代以及物联网技术的发展,数据爆炸。2020年,全球数据量约有35zb(zb、eb、pb、tb)
  2. 数据类型繁多:90%的数据都是非结构化的,而且包括视屏、邮件、微信、微博、定位等等各种各样的数据。数据种类复杂,对数据的存储和处理提出了新的挑战。存储方面从传统的rdbms向nosql迁移,数据处理上,传统的联机分析处理(on-line analytical processing olap)和商业智能工具(bi)大都面向结构化数据,新的支持非结构化数据分析的解决方案正在迅速发展。
  3. 处理速度快:很多应用需要数据处理和分析具有秒级响应(这一点与传统的数据挖掘技术有着本质不同)。以谷歌dremel为例,这个系统能够在几秒内完成pb级数据的查询。这取决于它的分布式集群处理和独特的内部设计。
  4. 价值密度低:大量非结构化数据,价值密度显然低于传统的关系型数据中的数据。

大数据的影响

思维上

大数据使得人类研究经历了实验、理论、计算后,进入了第四种思维范式——数据密集型科学,我们先有了已知的大量数据,然后通过计算得出之前未知的理论。

三大显著特征:

  1. 全样而非抽样:传统的数据分析方案使抽样分析,样本的选取非常关键,要在上面花很多心思取样,由样本推知整体。大数据时代,存储资源和计算资源大幅度提升,可以实现对海量数据的存储和处理,分布式文件系统和分布式数据库提供了理论上无限的数据存储能力,分布式并行编程框架(如mapreduce)提供里强大的数据并行处理能力,所以有能力进行全集分析。
  2. 效率而非精确:抽样分析存在误差,为保证误差可控,更加注重算法的准确率而非效率,而大数据时代,全样使得结果不存在误差放大,而且多了秒级响应的需求,因而效率成了关注的核心。
  3. 相关而非因果:事物背后的发展机理不是大数据关注的,我们只需要知道挖掘出由a就有b这样的结论,无需知道a与b之间有怎样的因果关系。相关性比因果性更重要,这也符合第四范式的思维。让超大量的数据帮我们判断,而不是依靠逻辑关系。

社会发展上

为很多行业提供决策支持、促进信息技术与各行业的深度融合、推动与新技术和新应用的发展,是科技发展的必然趋势。

就业

这个就不扯了,当下很火就是了。大数据需要学习的东西很多,慢慢努力吧。

统计、数学、机器学习、可视化、编程、英语(看文档啊)。

关键技术

可以把整个数据分析分为四个流程

技术层面 功能
数据采集与预处理 利用elt工具将分布的、异构数据源中的数据抽取到中间层清洗、转换,最后加载至dw中,为olap、数据挖掘提供数据;也可以利用日志采集工具(flume、kafka)把实时采集的数据作为流计算系统(storm)的输入,进行实时分析。
数据存储和管理 利用分布式文件系统、数据仓库、rdbms、nosql、云数据库等,实现结构化、半结构化、非结构化海量数据的存储和管理。
数据处理和分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。对其可视化(如web系统、统计图)方便理解分析数据。
数据安全和隐私 尊重他人隐私,做合法公民。

大数据计算模式和代表模型

大数据计算模式 解决问题 代表产品 特征
批处理计算 大规模数据批量处理 mapreduce、spark 适用于大规模(1tb)的并行运算。帮你处理好包括分布式编程、网络通讯等细节,专注于核心的计算过程。spark以内存存储中间结果优化了迭代工作负载(以后再细说)
流计算 流数据实时计算 storm、spark streming(spark系统中的)、dsteam(百度的)、银河流数据处理平台(淘宝的) 针对那些数据价值随时间流逝降低的分析,给出妙计响应。
图计算 大规模图结构数据处理 graphx、powergraph、pregel 图结构的数据是稀疏结构,mapreduce不适合处理这种细粒度、多迭代的计算。因而设计这些适合图遍历、最短路径、pagerank计算的平台。
查询分析计算 大规模数据的存储管理和查询分析 dremel、hive t通过结合多级树状执行过程和列式数据结构,几秒内做到对万亿张表的聚合查询,pb级。

大数据于云计算、物联网的关系

我的理解云计算是把物理的、空间计算、存储等资源池化后再分配。核心在于分布式

1、云计算按服务模式可以分为 iaas,paas 和 saas:

  (1)iaas 基础设施即服务(infrastructure as a server):用户通过 internet 可以租用到完善的计算机基础设施层(计算、存储和网络带宽等资源)。用户不用理会云系统底层的基础架构,可以在上面运行软件、存储数据和发布程序。如 ibm 的蓝云和亚马逊的 ec2。

  (2)paas 平台即服务(platform as a server):将软件研发的平台作为一种服务(系统中资源的部署、分配、监控和安全管理以及分布式并发控制等)提供给用户。在 paas 平台上,企业用户不用担心程序运行时所需的资源,可以快速开发应用,第三方软件提供商也可以快速开发出适合企业的定制化应用。如 salesforce 公司的 force.com 平台。

  (3)saas 软件即服务(soft as a server):通过 internet 向用户提供云端软件应用服务和用户交互接口等服务。用户:由于这些软件应用只是安装在云端,从而省去了购买软件的费用;云计算供应商:只需维持一个程序,大幅度降低了成本。如 salesforce 的 crm、微软的在线办公平台和 google apps。

2、云计算按部署类型可以分为私有云、公有云和混合云:

  (1)公有云:云计算服务由第三方提供商完全承载和管理,为用户提供价格合理的计算资源访问服务,用户无需购买硬件、软件或支持基础架构,只需为其使用的资源付费。公有云用户无需支付硬件带宽费用、投入成本低,但数据安全性低于私有云。

  (2)私有云:企业自己采购基础设施,搭建云平台,在此之上开发应用的云服务。私有云可充分保障虚拟化私有网络的安全,但投入成本相对公有云更高。

  (3)混合云:一般由用户创建,而管理和运维职责由用户和云计算提供商共同分担,其在使用私有云作为基础的同时结合了公共云的服务策略,用户可根据业务私密性程度的不同自主在公有云和私有云间进行切换。

3、云计算关键技术:

​ 虚拟化(docker流行)、分布式存储、分布式计算(上面介绍了)、多租户(云资源分配)。

物联网

物联网( iot ,internet of things )即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点,人、机、物的互联互通。

关键技术包括识别和感知技术(rfid、二维码、传感器等),网络与通讯技术(蓝牙、wifi、4g等)、数据挖掘与融合技术。

应用:智能家居、智能医疗、智能农业……

三者关系

  1. 物联网为大数据提供重要数据来源,大数据为物联网数据分析提供支持
  2. 云计算为大数据提供基础设施(分布式)、
  3. 云计算为物联网提供数据存储设施
  4. 三者之间彼此渗透,相互融合、相辅相成。