欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Hadoop单节点模式

程序员文章站 2022-03-27 08:35:22
...

什么是Hadoop

利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统;可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

Hadoop的优点、

Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理 。

可靠:它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理 。

高效:它以并行的方式工作,通过并行处理加快处理速度。

可伸缩:能够处理 PB 级数据。

用户可以轻松地的开发和运行处理海量数据的应用程序。

它主要有以下几个优点:
1.高可靠性:按位存储、处理数据的能力值得人们信赖 。

2.高扩展性:可以用计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 。

4.高容错性:能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5.低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++

Hadoop使用

Hadoop的安装环境

必须环境需要安装JDK(需要在1.8以上)和SSH服务
可以到官网上下载
 https://hadoop.apache.org/releases.html
我们使用Hadoop2.7.3版本

1.准备
准备一台Linux机器
关闭防火墙

2.上传安装包并解压
使用的是Hadoop2.7.3版本、上传到/usr/local目录下
使用tar -zxvf进行解压
解压完之后进行重命名
3.配置环境变量
[aaa@qq.com hadoop-2.7.3]# vi /etc/profile
修改成以下内容:

#自己的jdk路径
JAVA_HOME=/usr/local/jdk1.8
#Hadoop的路径
HADOOP_HOME=/usr/local/hadoop-2.7.3
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH JAVA_HOME HADOOP_HOME

紧接着重新读取profile文件
[aaa@qq.com hadoop-2.7.3]# source /etc/profile
测试:
[aaa@qq.com hadoop-2.7.3]# hadoop version
如果输出如下结果成功;
Hadoop单节点模式
配置相关的Hadoop文件。
通过这个可以找到路径:${HADOOP_HOME}/etc/hadoop

Hadoop单节点模式
对hadoop-env.sh文件进行修改。
Hadoop单节点模式
Hadoop单节点模式
对这个地方进行修改大概在25行;修改成自己的jdk位置即可。

启动

单节点不需要启动任何东西,可以直接使用。
Hadoop中计算数据需要使用MapReduce;这个给我们提供了两个案例我们使用wordcount,另外一个是grep。
wordcount案例
创建一个文本。
Hadoop单节点模式
文本内容
Hadoop单节点模式
运行这个命令测试。红框后面的文件夹必须是不存在的否则报错。
Hadoop单节点模式

Hadoop单节点模式
会出现两个文件;进入文件查看结果。
Hadoop单节点模式