Hadoop单节点模式

程序员文章站 2022-03-27 08:35:22

...

什么是Hadoop

利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统；可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

Hadoop的优点、

Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

可靠：它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。

高效：它以并行的方式工作，通过并行处理加快处理速度。

可伸缩：能够处理 PB 级数据。

用户可以轻松地的开发和运行处理海量数据的应用程序。

它主要有以下几个优点：
1.高可靠性：按位存储、处理数据的能力值得人们信赖。

2.高扩展性：可以用计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

3.高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

4.高容错性：能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

5.低成本：与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++

Hadoop使用

Hadoop的安装环境

必须环境需要安装JDK（需要在1.8以上）和SSH服务
可以到官网上下载
 https://hadoop.apache.org/releases.html
我们使用Hadoop2.7.3版本

1.准备
准备一台Linux机器
关闭防火墙

2.上传安装包并解压
使用的是Hadoop2.7.3版本、上传到/usr/local目录下
使用tar -zxvf进行解压
解压完之后进行重命名
3.配置环境变量
[aaa@qq.com hadoop-2.7.3]# vi /etc/profile
修改成以下内容：

#自己的jdk路径
JAVA_HOME=/usr/local/jdk1.8
#Hadoop的路径
HADOOP_HOME=/usr/local/hadoop-2.7.3
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH JAVA_HOME HADOOP_HOME

紧接着重新读取profile文件
[aaa@qq.com hadoop-2.7.3]# source /etc/profile
测试：
[aaa@qq.com hadoop-2.7.3]# hadoop version
如果输出如下结果成功；
Hadoop单节点模式
配置相关的Hadoop文件。
通过这个可以找到路径：${HADOOP_HOME}/etc/hadoop

Hadoop单节点模式
对hadoop-env.sh文件进行修改。

对这个地方进行修改大概在25行；修改成自己的jdk位置即可。

启动

单节点不需要启动任何东西，可以直接使用。
Hadoop中计算数据需要使用MapReduce；这个给我们提供了两个案例我们使用wordcount，另外一个是grep。
wordcount案例
创建一个文本。
Hadoop单节点模式
文本内容

运行这个命令测试。红框后面的文件夹必须是不存在的否则报错。