Hadoop(一)HDFS伪分布式系统环境搭建
Hadoop下载链接(hadoop-2.6.0-cdh5.14.2.tar)
百度网盘:https://pan.baidu.com/s/1mcIRDaohztlsIO62WTgJpw
提取码:zw28
大数据的4v特征:
1.Volume:大数据量,90%的数据是近两年产生的。
2.Value:价值密度低,需要进行挖取获得数据价值
3.Velocity:增长速度快,数据的增长速度快,时效性高
4.Variety:数据多样化,数据种类和来源多样化:结构化数据,非结构化数据,半结构化数据
Hadoop
三大核心:
1.HDFS : 分布式存储系统
2.YARN : 资源管理调度系统负责管理和调度集群资源
3.MapReduce:分布式框架运算
四大特征
1.扩容能力:有着可靠的存储和处理千兆字节数据
2.可靠性:Hadoop自动维护数据多份副本,失败的任务会自动重新部署计算任务。
3.成本低:通过普通机器组成服务器群来分发处理数据。
4.高效性:通过分发数据,Hadoop可以并行处理
HDFS环境搭建:
一、将安装包拖到linux目录下(我是拖到opt文件目录下),然后解压tar -zxvf hadoop-2.6.0-cdh5.14.2tar.gz
二、将文件移动到soft/hadoop260文件夹下mv hadoop-2.6.0-cdh5.14.2 /opt/soft/hadoop260
三、来到/opt/soft/hadoop260/etc/hadoop文件夹处,一共需要修改5个配置文件
1): hadoop-env.sh:vi hadoop-env.sh
将虚拟机的JAVA_HOME环境变量修改为自己的文件夹下,保存退出export JAVA_HOME=/opt/soft2/jdk180/jdk1.8.0_111
2): core-site.xml
在configuration之间加入4个property标签
`
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.56.101:9000</value>
</property>
<!-- 临时文件配置-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/soft/hadoop260/tmp</value>
</property>
<!-- 代理用户权限-->
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
3): hdfs-site.xml
<!-- 设置副本数 -->
<configuration>
<property>dfs.replication</property>
<value>1</value>
</configuration>
4): yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.localhost</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
5): mapred-site.xml
<!-- 配置让yarn调度资源 -->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
添加配置文件
vi /etc/profile
在末尾添加
export HADOOP_HOME=/opt/soft/hadoop260/ //修改这里地址
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
更新系统配置信息
source /etc/profile
将节点信息格式化硬盘,建立标准索引
# 对目录格式化 hadoop namenode -format
用jps检查进程,查看到5个节点进程已启动之后,访问虚拟机ip+50070端口查看
下一篇: Make构建工具快速入门及应用
推荐阅读
-
大数据学习笔记【一】:Hadoop-3.1.2完全分布式环境搭建(Windows 10)
-
Ubuntu16.04下伪分布式环境搭建之hadoop、jdk、Hbase、phoenix的安装与配置
-
Hadoop(一)HDFS伪分布式系统环境搭建
-
搭建hadoop伪分布式环境
-
hadoop伪分布式环境搭建
-
一图看懂hadoop分布式文件存储系统HDFS工作原理
-
Hadoop 2.x伪分布式环境搭建详细步骤
-
hadoop2.6.0版本搭建伪分布式环境
-
大数据学习笔记【一】:Hadoop-3.1.2完全分布式环境搭建(Windows 10)
-
Ubuntu16.04下伪分布式环境搭建之hadoop、jdk、Hbase、phoenix的安装与配置