大数据第一讲
第一讲:大数据基础入门
第一节:为什么要学习大数据
1、目的:很好工作
2、对比:java开发和大数据开发
第二节:什么是大数据?
举例:
1、商品推荐: 问题:(1)大量的订单如何存储? (2)大量的订单如何计算?
2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算?
什么是大数据,本质?
(1)数据的存储:分布式文件系统(分布式存储)
(2)数据的计算:分布式计算
第三节:java和大数据是什么关系?
1、hadoop:基于java语言开发
2、spark: 基于scala语言,scala基于java语言
第四节:学习大数据需要的基础和路线
1、学习大数据需要的基础:java基础(javase)---> 类、继承、i/o、反射、泛型*****
linux基础(linux的操作) ---> 创建文件、目录、vi编辑器***
2、学习路线:
(1)java基础和linux基础
(2)hadoop的学习:体系结构、原理、编程
(*)第一阶段:hdfs、mapreduce、hbase(nosql数据库)
(*)第二阶段:数据分析引擎 ---> hive、pig
数据采集引擎 ---> sqoop、flume
(*)第三阶段:hue:web管理工具
zookeeper:实现hadoop的ha
oozie: 工作流引擎
(3)spark的学习
(*)第一个阶段:scala编程语言
(*)第二个阶段:spark core-----> 基于内存,数据的计算
(*)第三个阶段:spark sql -----> 类似oracle中的sql语句
(*)第四个阶段:spark streaming ---> 进行实时计算(流式计算):比如:自来水厂
(4)apache storm:类似spark streaming ---> 进行实时计算(流式计算):比如:自来水厂
(*)nosql:redis基于内存的数据库