大数据hadoop入门第一天

程序员文章站 2024-01-16 10:42:58

...

一.先在vm上安装linux虚拟机,我这里用的是centos6的版本

1.vm三种网络模式介绍

a)桥接模式:

在桥接模式下，虚拟机ip地址需要与主机在同一个网段，如果需要联网，则网关与DNS需要与主机网卡一致
设置虚拟机主机ip与本机ip在同一网段 (桥接模式适用于ip资源较多的情况下如果ip资源少则应该采用nat模式)

b)nat模式:(我采用的这种,vm中设置网段192.168.10.2)

在NAT模式中，主机网卡直接与虚拟NAT设备相连，然后虚拟NAT设备与虚拟DHCP服务器一起连接在虚拟交换机 VMnet8上，这样就实现了虚拟机联网

c)主机模式:

模式其实就是NAT模式去除了虚拟NAT设备，然后使用VMware Network Adapter VMnet1虚拟网卡连接VMnet1虚拟交换机来与虚拟机通信的，Host-Only模式将虚拟机与外网隔开，使得虚拟机成为一个独立的系统，只与主机相互通讯。

2.linux配置

a)查看ip地址

ifconfig

注意:如果为centos7则命令输入:

ip addr

可以看到初始化的iip相关的信息

b)修改网卡配置信息

先修改

vi /etc/udev/rules.d/70-persistent-net.rules

删除eth0该行；将eth1修改为eth0，同时复制物理ip地址,即ATTR(address)

注意:有些机器只有eth0 则不需要做这些操作直接进行下一步

vi /etc/sysconfig/network-scripts/ifcfg-eth0

修改五项(IP地址,网关,开机重启配置文件,ip配置为静态,DNS)即可:

IPADDR=192.168.10.102

GATEWAY="192.168.10.2"

ONBOOT=yes

BOOTPROTO=static

DNS1=8.8.8.8

小白用户看这里(vi编辑器的使用:按i进入编辑模式,编辑完按esc退出编辑模式,再按shift+:组合键看到光标移到最下面再输入wq 回车即可保存,输入q!则不保存退出)

修改完输入

service network resatrt

如果报错则用reboot重启

c)修改主机名

[[email protected] /]中localhost即为主机名查看主机命令

hostname

编辑配置文件修改主机名

vi /etc/sysconfig/network

HOSTNAME=localhost

localhost修改为你想要的即可(不能有带"_"的主机名) 我修改为hadoop102

保存退出

再修改hosts的中

vi vim /etc/hosts

最后一行添加

192.168.10.102 hadoop102

注意空格隔开

修改hosts文件的目的是为了在能让ip地址直接映射为主机名,即直接通过主机名访问ip地址,类似于tomcat中的http://localhost:8080 这里的localhost也可以换成本机ip地址

在windows里也增加这一行 C:\Windows\System32\drivers\etc下的hosts文件

d)关闭防火墙

临时关闭

service iptables off

禁止开启启动

chkconfig iptables off

f)添加用户

因为实际工作中root超级管理员账户一般不会给我们用(不然你在服务器上来个rm -rf *),所以要使用一般账户

添加账户xiaohu

useradd xiaohu

设置xiaohu用户密码

passwd xiaohu

两次输入123456回车即可

切换用户

su xiaohu

输入密码即可成功切换,需要返回root用户输入exit回车即可

用xiaohu用户执行某些操作时会提示权限不足

需要把xiaohu用户加入一个配置文件中

vi etc/sudoers

root ALL=(ALL) ALL

下面添加一行

xiaohu ALL=(ALL) ALL

保存退出

这时就是用 sudo 加普通命令来获得root权限执行

改变某个文件或文件夹的组和所有者

chown xiaohu:xiaohu a.txt

3.hadoop入门开始

a)jdk与hadoop安装

创建文件夹mysoft

把jdk和hadoop的压缩包用xftp工具上传到该文件夹下并解压

tar -zxvf jdk-8u11-linux-x64.tar.gz

tar -zxvf hadoop-2.7.2.tar.gz

解压后分别进入他们目录可以看到bin,lib等文件夹

输入pwd获得当前路径

vi /etc/profile

文件末尾加上

##JAVA_HOME
export JAVA_HOME=/mysoft/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/mysoft/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

然后保存退出输入下面命令使配置文件生效

source /etc/profile

在hadoop目录下

 vi etc/hadoop/hadoop-env.sh

把{JAVA_HOME}改成

=/mysoft/jdk1.8.0_144

再测试

java -version
能输出版本号即成功
hadoop -version
能输出版本号即成功
echo $JAVA_HOME
能输出jdk路径即成功

至此jdk与hadoop环境搭建完毕

b)hadoop官方例子

第一个是grep案例

再hadoop目录下创建input目录然后复制etc/hadoop目录下所以xml文件到input目录下

cp etc/hadoop/*.xml input

执行

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

找出负责正则表达式'dfs[a-z.]+'的所以单词结果输出到output目录(必须原先没有这个文件夹,不然会报错,如果有删除即可)

成功的话进入output目录可以看到两个文件

第二个是wordcount例子(非常重要,很多大项目都是在这个基础之上进行的)

创建wcinput文件夹并在文件夹创建wc.input文件并在该文件中输入几个单词hu xiaohu hu laing

执行

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

成功即可在wcoutput目录里看到两个文件第一个文件即统计了每个单词出现的次数

4.写在最后

第一次写博客,有很多不足的地方还请大家见谅,欢迎大家一起学习大数据.

上一篇： Python入门-输出

下一篇： pandas与numpy数据处理知识点总结