大数据及Hadoop的概述
程序员文章站
2023-10-17 18:37:54
一、大数据存储和计算的各种框架即工具 1.存储:HDFS:分布式文件系统 Hbase:分布式数据库系统 Kafka:分布式消息缓存系统 2.计算:Mapreduce:离线计算框架 storm:实时流式计算 spark:离线批处理/实时流处理计算框架(MR的二次封装) 3.辅助类工具:hive:数据仓 ......
一、大数据存储和计算的各种框架即工具
1.存储:hdfs:分布式文件系统
hbase:分布式数据库系统
kafka:分布式消息缓存系统
2.计算:mapreduce:离线计算框架
storm:实时流式计算
spark:离线批处理/实时流处理计算框架(mr的二次封装)
3.辅助类工具:hive:数据仓库工具
flume:数据采集工具
sqoop:数据迁移工具
二、大数据应用场景:
典型应用:公司运营情况 =>典型网站:cnzz、数据专家、友盟
电商广告推荐系统:淘宝、京东、苏宁
大量基于算法模型的运算,得出各种推荐结论
天气预报等。。。
三、hadoop的概述
hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。
hadoop中单个核心组件:
分布式文件系统:hdfs =>实现存储在多台服务器之上
分布式运行编程框架:mapreduce=>实现在很多太机器的分布式并行计算框架
分布式资源调度平台:yarn=>帮助我们调度大量mr任务,并合理分配运算资源
上一篇: Mysql服务器处理客户端请求流程
推荐阅读
-
Android 入门第十讲02-广播(广播概述,使用方法(系统广播,自定义广播,两个activity之间的交互和传值),EventBus使用方法,数据传递,线程切换,Android的系统广播大全)
-
数据库事务的四个特性及含义【详解】
-
python结合selenium获取XX省交通违章数据的实现思路及代码
-
浅谈spring ioc的注入方式及注入不同的数据类型
-
java实现的连接数据库及模糊查询功能示例
-
iOS之Https自签名证书认证及数据请求的封装原理
-
MySQL的源码安装及使用UDFs进行数据自动更新的教程
-
211大学排名前十的医科大学-附全国排名及分数线(2021年参考)
-
C#使用Gembox.SpreadSheet向Excel写入数据及图表的实例
-
Android通过ksoap2传递复杂数据类型及CXF发布的webservice详细介绍