Hadoop安装和伪分布式平台的搭建
程序员文章站
2022-06-12 19:59:36
...
1,安装Hadoop
拷贝文件
配置环境变量
运行/share/hadoop中的demo:grep,Wordcount
###grep 利用正则表达式统计文件文件中出现的符合要求的字符串的个数
具体命令:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'py[a-z.]+'
Wordcount(对英文进行计数的程序)
##2,使用HDFS 作用:把所有的单词列举出来,并统计每个单词的出现次数,按照空格分开
命令:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount input output
##3,配置分布式Hadoop(伪分布式) 不是真正的分布式,是伪分布式,只在本机进行运行
步骤:主要配置三个文件:/etc/hadoop/
hadoop-env.sh
将jdk的路径加入到最下面
`
export JAVA_HOME=/home/ubuntu/jdk
`
core-site.xml
<!-----指定HDFS中NameNode的地址------>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop1:9000</value>
</property>
<!-----hadoop运行产生文件的存储目录------>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/ubuntu/hadoop/data</value>
</property>
Hdfs-site.xml
<!-----指定HDFS副本数量------>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
至此伪分布式环境的集群已经搭建完毕,然后初始化名称结点
hdfs namenode -format
启动集群
hdfs --daemon start namenode
hdfs --daemon start datanode
jps --守护进程,查看是否启动成功
可以通过web界面访问来查看分布式状态: http://47.115.37.42:9870/dfshealth.html#tab-overview
4,在hadoop中运行程序
eg:在hdfs中创建文件夹
hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put input/test.txt /user/hadoop/input