Hadoop单节点模式
什么是Hadoop
利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统;可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
Hadoop的优点、
Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理 。
可靠:它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理 。
高效:它以并行的方式工作,通过并行处理加快处理速度。
可伸缩:能够处理 PB 级数据。
用户可以轻松地的开发和运行处理海量数据的应用程序。
它主要有以下几个优点:
1.高可靠性:按位存储、处理数据的能力值得人们信赖 。
2.高扩展性:可以用计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 。
4.高容错性:能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++
Hadoop使用
Hadoop的安装环境
必须环境需要安装JDK(需要在1.8以上)和SSH服务
可以到官网上下载
https://hadoop.apache.org/releases.html
我们使用Hadoop2.7.3版本
1.准备
准备一台Linux机器
关闭防火墙
2.上传安装包并解压
使用的是Hadoop2.7.3版本、上传到/usr/local目录下
使用tar -zxvf进行解压
解压完之后进行重命名
3.配置环境变量
[aaa@qq.com hadoop-2.7.3]# vi /etc/profile
修改成以下内容:
#自己的jdk路径
JAVA_HOME=/usr/local/jdk1.8
#Hadoop的路径
HADOOP_HOME=/usr/local/hadoop-2.7.3
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH JAVA_HOME HADOOP_HOME
紧接着重新读取profile文件
[aaa@qq.com hadoop-2.7.3]# source /etc/profile
测试:
[aaa@qq.com hadoop-2.7.3]# hadoop version
如果输出如下结果成功;
配置相关的Hadoop文件。
通过这个可以找到路径:${HADOOP_HOME}/etc/hadoop
对hadoop-env.sh文件进行修改。
对这个地方进行修改大概在25行;修改成自己的jdk位置即可。
启动
单节点不需要启动任何东西,可以直接使用。
Hadoop中计算数据需要使用MapReduce;这个给我们提供了两个案例我们使用wordcount,另外一个是grep。
wordcount案例
创建一个文本。
文本内容
运行这个命令测试。红框后面的文件夹必须是不存在的否则报错。
会出现两个文件;进入文件查看结果。
上一篇: django中显示字符串的实例方法