Hadoop伪分布安装搭建
hadoop伪分布安装搭建
搭建hadoop的环境
======================================
一、准备工作
1、安装linux、jdk、关闭防火墙、配置主机名
解压:tar -zxvf hadoop-2.7.3.tar.gz -c ~/traning/
设置hadoop的环境变量: vi ~/.bash_profile
hadoop_home=/root/training/hadoop-2.7.3
export hadoop_home
path=$hadoop_home/bin:$hadoop_home/sbin:$path
export path
环境变量生效
source ~/.bash_profile
=============== 伪分布模式:一台(bigdata111)
特点:是在单机上,模拟一个分布式的环境
具备hadoop的主要功能
hdfs: namenode+datanode+secondarynamenode
yarn: resourcemanager + nodemanager
hdfs-site.xml
原则:一般数据块的冗余度跟数据节点(datanode)的个数一致;最大不超过3
<!--表示数据块的冗余度,默认:3-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
先不设置
<!--是否开启hdfs的权限检查,默认true-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
core-site.xml
<!--配置namenode地址,9000是rpc通信端口-->
<property>
<name>fs.defaultfs</name>
<value>hdfs://bigdata111:9000</value>
</property>
<!--hdfs数据保存在linux的哪个目录,默认值是linux的tmp目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>
mapred-site.xml 默认没有 cp mapred-site.xml.template mapred-site.xml
<!--mr运行的框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
yarn-site.xml
<!--yarn的主节点rm的位置-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata111</value>
</property>
<!--mapreduce运行方式:shuffle洗牌-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
格式化:hdfs(namenode)
hdfs namenode -format
日志:
storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.
启动停止hadoop的环境
start-all.sh
stop-all.sh
访问:通过web界面
hdfs: http://192.168.153.111:50070
yarn: http://192.168.153.111:8088
运行
例子:/root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0407
(*)一定配置免密码登录:原理、配置
上一篇: apache spark
下一篇: 大数据预处理综述