大数据hadoop入门第一天
一.先在vm上安装linux虚拟机,我这里用的是centos6的版本
1.vm三种网络模式介绍
a)桥接模式:
在桥接模式下,虚拟机ip地址需要与主机在同一个网段,如果需要联网,则网关与DNS需要与主机网卡一致设置虚拟机主机ip与本机ip在同一网段 (桥接模式适用于ip资源较多的情况下 如果ip资源少则应该采用nat模式)
b)nat模式:(我采用的这种,vm中设置网段192.168.10.2)
在NAT模式中,主机网卡直接与虚拟NAT设备相连,然后虚拟NAT设备与虚拟DHCP服务器一起连接在虚拟交换机 VMnet8上,这样就实现了虚拟机联网c)主机模式:
模式其实就是NAT模式去除了虚拟NAT设备,然后使用VMware Network Adapter VMnet1虚拟网卡连接VMnet1虚 拟交 换机来与虚拟机通信的,Host-Only模式将虚拟机与外网隔开,使得虚拟机成为一个独立的系统,只与主机相互通讯。
2.linux配置
a)查看ip地址
ifconfig
注意:如果为centos7则命令输入:
ip addr
可以看到初始化的iip相关的信息
b)修改网卡配置信息
先修改
vi /etc/udev/rules.d/70-persistent-net.rules
删除eth0该行;将eth1修改为eth0,同时复制物理ip地址,即ATTR(address)
注意:有些机器只有eth0 则不需要做这些操作 直接进行下一步
vi /etc/sysconfig/network-scripts/ifcfg-eth0
修改五项(IP地址,网关,开机重启配置文件,ip配置为静态,DNS)即可:
IPADDR=192.168.10.102
GATEWAY="192.168.10.2"
ONBOOT=yes
BOOTPROTO=static
DNS1=8.8.8.8
小白用户看这里(vi编辑器的使用:按i进入编辑模式,编辑完按esc退出编辑模式,再按shift+:组合键看到光标移到最下面再输入wq 回车即可保存,输入q!则不保存退出)
修改完输入
service network resatrt
如果报错则用reboot重启
c)修改主机名
[[email protected] /]中localhost即为主机名 查看主机命令
hostname
编辑配置文件修改主机名
vi /etc/sysconfig/network
HOSTNAME=localhost
localhost修改为你想要的即可(不能有带"_"的主机名) 我修改为hadoop102
保存退出
再修改hosts的中
vi vim /etc/hosts
最后一行添加
192.168.10.102 hadoop102
注意空格隔开修改hosts文件的目的是为了在能让ip地址直接映射为主机名,即直接通过主机名访问ip地址,类似于tomcat中的http://localhost:8080 这里的localhost也可以换成本机ip地址
在windows里也增加这一行 C:\Windows\System32\drivers\etc下的hosts文件d)关闭防火墙
临时关闭
service iptables off
禁止开启启动
chkconfig iptables off
f)添加用户
因为实际工作中root超级管理员账户一般不会给我们用(不然你在服务器上来个rm -rf *),所以要使用一般账户
添加账户xiaohu
useradd xiaohu
设置xiaohu用户密码
passwd xiaohu
两次输入123456回车即可切换用户
su xiaohu
输入密码即可成功切换,需要返回root用户输入exit回车即可
用xiaohu用户执行某些操作时会提示权限不足
需要把xiaohu用户加入一个配置文件中
vi etc/sudoers
root ALL=(ALL) ALL
下面添加一行
xiaohu ALL=(ALL) ALL
保存退出
这时就是用 sudo 加普通命令来获得root权限执行
改变某个文件或文件夹的组和所有者
chown xiaohu:xiaohu a.txt
3.hadoop入门开始
a)jdk与hadoop安装
创建文件夹mysoft
把jdk和hadoop的压缩包用xftp工具上传到该文件夹下并解压
tar -zxvf jdk-8u11-linux-x64.tar.gz
tar -zxvf hadoop-2.7.2.tar.gz
解压后分别进入他们目录 可以看到bin,lib等文件夹
输入pwd获得当前路径
vi /etc/profile
文件末尾加上
##JAVA_HOME
export JAVA_HOME=/mysoft/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/mysoft/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
然后保存退出 输入下面命令使配置文件生效source /etc/profile
在hadoop目录下 vi etc/hadoop/hadoop-env.sh
把{JAVA_HOME}改成=/mysoft/jdk1.8.0_144
再测试java -version
能输出版本号即成功
hadoop -version
能输出版本号即成功
echo $JAVA_HOME
能输出jdk路径即成功
至此jdk与hadoop环境搭建完毕b)hadoop官方例子
第一个是grep案例
再hadoop目录下创建input目录 然后复制etc/hadoop目录下所以xml文件到input目录下
cp etc/hadoop/*.xml input
执行
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
找出负责正则表达式'dfs[a-z.]+'的所以单词结果输出到output目录(必须原先没有这个文件夹,不然会报错,如果有删除即可)成功的话进入output目录可以看到两个文件
第二个是wordcount例子(非常重要,很多大项目都是在这个基础之上进行的)
创建wcinput文件夹 并在文件夹创建wc.input文件 并在该文件中输入几个单词hu xiaohu hu laing
执行
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
成功即可在wcoutput目录里看到两个文件 第一个文件即统计了每个单词出现的次数
4.写在最后
第一次写博客,有很多不足的地方还请大家见谅,欢迎大家一起学习大数据.上一篇: Python入门-输出