欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Apache Hadoop-2.7.3伪分布式搭建详细步骤

程序员文章站 2022-05-07 18:57:09
...

1.什么是Apache Hadoop?

Apache Hadoop项目为可靠,可扩展的分布式计算开发开源软件。

2.Apache Hadoop项目包含哪些模块?

  • Hadoop Common:支持其他hadoop模块的常用工具
  • HDFS(Hadoop Distributed File System):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问
  • Hadoop YARN:作业调度和集群资源管理的框架
  • Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统

3.Apache的其他Hadoop相关项目包括哪些?

   1.Avro:数据序列化系统

   2.HBase可扩展的分布式数据库,支持大型表格的结构化数据存储

   3.Hive:提供数据汇总和即查询的数据仓库基础架构

   4.Spark:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算

   5.ZooKeeper:分布式应用程序的高性能协调服务

4.Hadoop伪分布式集群搭建过程

本机条件:虚拟机VMware/CentOS6.5/jdk-8u162-linux-x64/hadoop-2.7.3

说明:因为Hadoop是Apache旗下的开源项目,并且底层是java,所以需要安装jdk

注:搭建hadoop集群是要给普通用户使用,使用所以我们应该创建普通用户,不应为了图方便使用root用户

  1. 通过外部挂载或者使用SSH工具,上传hadoop、jdk软件至~/soft(普通用户工作路径下的soft,需要手动创建)
   $>cp  jdk-8u162-linux-x64.tar.gz  ~/soft

   $>cp hadoop-2.7.3.tar.gz  ~/soft

    2.加压相关软件

   $>tar  -zxvf  jdk-8u162-linux-x64.tar.gz

   $>tar  -zvxf  hadoop-2.7.3.tar.gz

    3.创建软链接(为了配置环境变量的时候方便)

   $>ln -s jdk1.8.0_162/ jdk
   $>ln -s hadoop-2.7.3/ hadoop

    4.修改环境变量(只修改当前用户的环境变量)

   $>cd ~
   $>vi .bash_profile 

        注:桌面版本也可以使用gedit

       在文件最后追加以下指令:     

     #jdk install
     export JAVA_HOME=/home/hyxy/soft/jdk
     export PATH=$JAVA_HOME/bin:$PATH
     #hadoop install
     export HADOOP_HOME=/home/hyxy/soft/hadoop
     export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

       刷新指令:

    $>source .bash_profile

     注:刷新完之后,只有当前会话可用,建议reboot(重启)

    5.配置SSH

        a.修改主机名(hostname),如果你的主机名称为master可以不用修改

    $>su
    $>vi /etc/sysconfig/network

         修改内容:【HOSTNAME=master】

        b.修改hosts文件    

    $>su
    $>vi /etc/hosts

        追加内容:【ip 主机名键值对】

        c.reboot(重启)

        d.生成**

    $>ssh-****** -t rsa -P '' -f ~/.ssh/id_rsa

        【说明:-t:设置生成**的算法,采用rsa算法 -P:设置密码,默认为空 -f:设置**生成的文件位置,~/.ssh

        e.生成认证库

    $>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

        f.修改认证库(authorized_keys)的权限为600

    $>chmod 600 ~/.ssh/authorized_keys

        g.ssh master

        无密登录成功了!!!第一次登录需要输入密码这是正常情况

   6.配置hadoop

        a.找到hadoop的配置路径:

    cd $HADOOP_HOME/etc/hadoop

        b.修改core-site.xml配置文件,在configuration标签中添加:

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>

         c.修改hdfs-site.xml配置文件,在configuration标签中添加:

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

         d.修改hadoop-env.sh中的JAVA_HOME变量:

    export JAVA_HOME=/home/hyxy/soft/jdk

         e.格式化HDFS

    $>hdfs namenode -format

         f.开启hadoop守护进程

    $>start-dfs.sh

         g.在linux系统上的浏览器上输入:http://master:50070,出现:

        Apache Hadoop-2.7.3伪分布式搭建详细步骤

    并且查看Live Node :为1,表示成功了!!!

5.怎么在虚拟机外部浏览器,访问:http://ip(虚拟机的实际ip):50070        

    1.关闭防火墙

   $>su

   $>chkconfig iptables off

   $>chkconfig ip6tables off

    2.关闭selinux

   $>su

   $>vi /etc/sysconfig/selinux

       修改内容:【SELINUX=disabled】