欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

大数据hadoop入门第一天

程序员文章站 2024-01-16 10:42:58
...

一.先在vm上安装linux虚拟机,我这里用的是centos6的版本

1.vm三种网络模式介绍

a)桥接模式:

          在桥接模式下,虚拟机ip地址需要与主机在同一个网段,如果需要联网,则网关与DNS需要与主机网卡一致  
 设置虚拟机主机ip与本机ip在同一网段 (桥接模式适用于ip资源较多的情况下  如果ip资源少则应该采用nat模式)

b)nat模式:(我采用的这种,vm中设置网段192.168.10.2)

          在NAT模式中,主机网卡直接与虚拟NAT设备相连,然后虚拟NAT设备与虚拟DHCP服务器一起连接在虚拟交换机                       VMnet8上,这样就实现了虚拟机联网

c)主机模式:

      模式其实就是NAT模式去除了虚拟NAT设备,然后使用VMware Network Adapter VMnet1虚拟网卡连接VMnet1虚 拟交         换机来与虚拟机通信的,Host-Only模式将虚拟机与外网隔开,使得虚拟机成为一个独立的系统,只与主机相互通讯。  

2.linux配置

a)查看ip地址

ifconfig

注意:如果为centos7则命令输入:

ip addr

可以看到初始化的iip相关的信息

b)修改网卡配置信息

先修改

vi /etc/udev/rules.d/70-persistent-net.rules

删除eth0该行;将eth1修改为eth0,同时复制物理ip地址,即ATTR(address)

注意:有些机器只有eth0 则不需要做这些操作 直接进行下一步

vi /etc/sysconfig/network-scripts/ifcfg-eth0 

修改五项(IP地址,网关,开机重启配置文件,ip配置为静态,DNS)即可:

IPADDR=192.168.10.102

GATEWAY="192.168.10.2"

ONBOOT=yes

BOOTPROTO=static

DNS1=8.8.8.8

小白用户看这里(vi编辑器的使用:按i进入编辑模式,编辑完按esc退出编辑模式,再按shift+:组合键看到光标移到最下面再输入wq 回车即可保存,输入q!则不保存退出)

修改完输入

service network resatrt

如果报错则用reboot重启

c)修改主机名

[[email protected] /]中localhost即为主机名  查看主机命令

hostname

编辑配置文件修改主机名 

vi /etc/sysconfig/network

HOSTNAME=localhost

localhost修改为你想要的即可(不能有带"_"的主机名)  我修改为hadoop102

保存退出

再修改hosts的中

vi vim /etc/hosts

最后一行添加

192.168.10.102 hadoop102
注意空格隔开

修改hosts文件的目的是为了在能让ip地址直接映射为主机名,即直接通过主机名访问ip地址,类似于tomcat中的http://localhost:8080 这里的localhost也可以换成本机ip地址

在windows里也增加这一行  C:\Windows\System32\drivers\etc下的hosts文件

d)关闭防火墙

临时关闭

service iptables off

禁止开启启动

chkconfig iptables off

f)添加用户

因为实际工作中root超级管理员账户一般不会给我们用(不然你在服务器上来个rm -rf *),所以要使用一般账户

添加账户xiaohu

useradd xiaohu

设置xiaohu用户密码

passwd xiaohu
两次输入123456回车即可

切换用户 

su xiaohu

输入密码即可成功切换,需要返回root用户输入exit回车即可

用xiaohu用户执行某些操作时会提示权限不足

需要把xiaohu用户加入一个配置文件中

vi etc/sudoers

root    ALL=(ALL)     ALL

下面添加一行

xiaohu  ALL=(ALL)     ALL

保存退出

这时就是用 sudo 加普通命令来获得root权限执行

改变某个文件或文件夹的组和所有者

chown xiaohu:xiaohu a.txt

3.hadoop入门开始

a)jdk与hadoop安装

创建文件夹mysoft

把jdk和hadoop的压缩包用xftp工具上传到该文件夹下并解压

tar -zxvf jdk-8u11-linux-x64.tar.gz
tar -zxvf hadoop-2.7.2.tar.gz

解压后分别进入他们目录 可以看到bin,lib等文件夹

输入pwd获得当前路径


vi /etc/profile

文件末尾加上

##JAVA_HOME
export JAVA_HOME=/mysoft/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/mysoft/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
然后保存退出  输入下面命令使配置文件生效
source /etc/profile
在hadoop目录下
 vi etc/hadoop/hadoop-env.sh
把{JAVA_HOME}改成
=/mysoft/jdk1.8.0_144
再测试
java -version
能输出版本号即成功
hadoop -version
能输出版本号即成功
echo $JAVA_HOME
能输出jdk路径即成功
至此jdk与hadoop环境搭建完毕

b)hadoop官方例子

第一个是grep案例

再hadoop目录下创建input目录 然后复制etc/hadoop目录下所以xml文件到input目录下

cp etc/hadoop/*.xml input

执行

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
找出负责正则表达式'dfs[a-z.]+'的所以单词结果输出到output目录(必须原先没有这个文件夹,不然会报错,如果有删除即可)

成功的话进入output目录可以看到两个文件 

第二个是wordcount例子(非常重要,很多大项目都是在这个基础之上进行的)

创建wcinput文件夹 并在文件夹创建wc.input文件 并在该文件中输入几个单词hu xiaohu hu laing

执行

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

成功即可在wcoutput目录里看到两个文件 第一个文件即统计了每个单词出现的次数

4.写在最后

第一次写博客,有很多不足的地方还请大家见谅,欢迎大家一起学习大数据.