001_扎马步_初识hadoop
练功就要从扎马步开始!就算得到九阴真经基础练不好,那也是竹篮打水一场空,所以我们从基础聊起……
大纲:
介绍什么是云计算
介绍hadoop的由来
介绍hadoop的生态体系
1.什么是云计算
比较官方的描述:
云计算(英语:Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。典型的云计算提供商往往提供通用的网络业务应用,可以通过浏览器等软件或者其他Web服务来访问,而软件和数据都存储在服务器上。云计算服务通常提供通用的通过浏览器访问的在线商业应用,软件和数据可存储在数据中心。 狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。
摘自互动百科"http://www.baike.com/wiki/云计算"
我的理解:
假设有一个1T的文件需要处理,找一台极度牛逼电脑肯定是干不了的。但是找一千台电脑,每个电脑分1G,这样不就轻松解决了嘛,这就是云计算。
云计算就是通过N太服务器集群,处理海量数据。
大家应该都知道阿里云"http://www.aliyun.com/"。这就是提供云计算服务的典型代表。在阿里云系统中,阿里公司的机房含有N多台服务器,我们在网站上可以购买他们的服务器。
在阿里云背后其实就是大规模的集群,并且可以管理,设置各种参数(CPU,内存,带宽)
2.hadoop的由来
hadoop来源于Google公司的三大论文:Bigtable、GFS(Google File System)、MapReduce。我们确实要感谢Google公司对计算机领域做出的贡献。Google公司不公布源码,但是他把思想传递给我们。
在hadoop的体系中的三大法宝:
hadoop | |
Hbase | Bigtable |
HDFS(Hadoop File System) | GFS(Google File System) |
MapReduce | MapReduce |
在附件中我提供了Google三大论文的中文版。有兴趣的盆友可以看看
3.hadoop的生态系统
说明:
HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop Distributed File System)
MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
HBase: 类似Google BigTable的分布式NoSQL列数据库。(HBase和Avro已经于2010年5月成为* Apache 项目)
Hive:数据仓库工具,由Facebook贡献。
Zookeeper:分布式锁设施,提供类似Google Chubby的功能,一个分布式的、高可用性的协调服务。提供的功能包括:配置维护、名字服务、分布式同步、组服务等,用于分布式系统的可靠协调系统,由Facebook贡献。
Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
Pig:大数据分析平台,为用户提供多种接口。
Sqoop:于在HADOOP与传统的数据库间进行数据的传递。
生态体系现在只做一个了解,知道hadoop是什么就行。后面博客会慢慢讲解。
上一篇: 六酷社区论坛HOME页清新格调免费版 下载_PHP教程
下一篇: 纯CSS3炫酷轮播图特效
推荐阅读