Hadoop分布环境搭建步骤,及自带MapReduce单词计数程序实现
程序员文章站
2022-04-13 15:33:00
参考腾讯云实验室 Hadoop分布环境搭建步骤: 1.软硬件环境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安装SSH sudo yum install openssh-clients openssh-server 测试: ssh localhost 测试完 ......
参考腾讯云实验室
hadoop分布环境搭建步骤:
1.软硬件环境
centos 7.2 64 位
jdk- 1.8
hadoo p- 2.7.4
2.安装ssh
sudo yum install openssh-clients openssh-server
测试: ssh localhost 测试完事 exit命令退出
3.安装java环境
sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel
配置:目录root/下面的bashrc文件结尾添加:export java_home=/usr/lib/jvm/java-1.8.0-openjdk
使用命令 source ~/.bashrc 使文件生效
测试:java -version
$java_home/bin/java -version
若两条命令输出的结果一致,且都为我们前面安装的 openjdk-1.8.0 的版本,则表明 jdk 环境已经正确安装并配置
4.安装hadoop:(1). 下载 hadoop :wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz
(2).将 hadoop 安装到 /usr/local 目录下: tar -zxf hadoop-2.7.4.tar.gz -c /usr/local
(3).重命名: cd /usr/local
mv ./hadoop-2.7.4/ ./hadoop
(4) 检查hadoop是否已经正确安装:/usr/local/hadoop/bin/hadoop version
5. hadoop 伪分布式环境配置:
(1).设置 hadoop 的环境变量 :在 root/ 目录下的 .bashrc,在结尾追加如下内容: export hadoop_home=/usr/local/hadoop
export hadoop_install=$hadoop_home
export hadoop_mapred_home=$hadoop_home
export hadoop_common_home=$hadoop_home
export hadoop_hdfs_home=$hadoop_home
export yarn_home=$hadoop_home
export hadoop_common_lib_native_dir=$hadoop_home/lib/native
export path=$path:$hadoop_home/sbin:$hadoop_home/bin
(2).使hadoop环境变量配置生效:source ~/.bashrc
(3).修改 hadoop 的配置文件hadoop的配置文件位于安装目录的 /etc/hadoop 目录下:
<!-- 编辑 core-site.xml,修改<configuration></configuration>节点的内容: -->
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>location to store temporary files</description>
</property>
<property>
<name>fs.defaultfs</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
<!-- 编辑 hdfs-site.xml,修改<configuration></configuration>节点的内容: -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
(4).格式化 namenode:/usr/local/hadoop/bin/hdfs namenode -format
(5).启动 namenode 和 datanode 进程:/usr/local/hadoop/sbin/start-dfs.sh
检查是否成功:jps
如果namenode和datanode已经正常启动,会显示namenode、datanode和secondarynamenode的进程信息:
[hadoop@vm_80_152_centos ~]$ jps
3689 secondarynamenode
3520 datanode
3800 jps
3393 namenode
6。调试:自带单词计数程序
hadoop实现自带的mapreduce单词计数:
第一步找到examples例子:
第二步在hdfs上面建立几个数据目录:
hadoop fs -mkdir -p /data/wordcount
hadoop fs -mkdir -p /output/
第三步建立文件存放数据:vi /usr/inputword
新建完成,查看内容:cat /usr/inputword
第四步:将本地文件上传到hdfs:hadoop fs -put /usr/inputword /data/wordcount/
查看上传文件情况:hadoop fs -ls /data/wordcount
第五步运行:hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar wordcount /data/wordcount /output/wordcount
第六步显示结果:hadoop fs -text /output/wordcount/part-r-00000 我导师