欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Docker学习小实战(十)在阿里云上配置Haddoop环境

程序员文章站 2024-03-25 13:52:22
...

作为当今大数据处理领域的经典分布式平台,ApacheHadoop主要基于
Java语言实现,由三个核心子系统组成:HDFS、YARN、MapReduce,其
中,HDFS是一套分布式文件系统;YARN是资源管理系统,MapReduce是运行
在YARN上的应用,负责分布式处理管理。如果从操作系统的角度看,HDFS
相当于Linux的ext3/ext4文件系统,而Yarn相当于Linux的进程调度和内存分配
模块。(初学的我一脸懵逼QAQ)

首先我们拉取一个官方镜像,并进入bash命令行

#docker run -it sequenceiq/hadoop-docker:2.7.0 /etc/bootstrap.sh -bash

Docker学习小实战(十)在阿里云上配置Haddoop环境
在漫长的等待时间后,出现了这个

bash-4.1#

这时就可以进行各种操作了,我们可以试一下查看日志等操作
找到对应目录,查看对应信息后用cat即可,我的操作如下图
Docker学习小实战(十)在阿里云上配置Haddoop环境
效果图如下
Docker学习小实战(十)在阿里云上配置Haddoop环境
假设我们需要验证Hadoop是否安装成功,可以通过运行Hadoop内置的实例程序来进行测试,最后使用hdfs指令检查输出结果即可:
具体操作如下:
在bash命令行下进入Hadoop目录

bash-4.1# cd /usr/local/hadoop

运行内置实例程序

bash-4.1# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar
 grep input output 'dfs[a-z.]+'

(又是漫长的等待QAQ)
效果图如下Docker学习小实战(十)在阿里云上配置Haddoop环境
使用hdfs指令检查输出结果

bash-4.1# bin/hdfs dfs -cat output/*

Docker学习小实战(十)在阿里云上配置Haddoop环境