shell脚本--awk工具基础
awk是一种处理文本文件的语言,是一个强大的文本分析工具
语法格式:
awk [选项] ‘[条件]{指令}’ 文件
awk [选项] ’ BEGIN{指令} {指令} END{指令}’ 文件
• BEGIN{ } 行前处理,读取文件内容前执行,指令执行1次
• { } 逐行处理,读取文件过程中执行,指令执行n次
• END{ } 行后处理,读取文件结束后执行,指令执行1次
其中,print 是最常用的编辑指令;若有多条编辑指令,可用分号分隔;
默认将空格、制表符等作为分隔符;
选项 -F 可指定分隔符
awk常用内置变量:
$1 文本的第1列
$2 文件的第2列
$3 文件的第3列,依此类推
NR 文件当前行的行号
NF 文件当前行的列数(有几列)
示例:
df | awk '{print $4}' //打印磁盘的剩余空间,默认以空格、制表符等作为分隔符
awk -F: '{print NR,NF}' /etc/passwd //使用 -F 选项,指定 : 作为分隔符
awk -F [:/] '{print $1,$10}' /etc/passwd //使用 -F 选项,指定 : 或者 / 作为分隔符
awk -F: '{print $1"的解释器:,"$7}' /etc/passwd //打印常量,常量用””
root的解释器: /bin/bash #命令删除逗号就可以删除空格
bin的解释器: /sbin/nologin
awk会逐行处理文本,支持在处理第一行之前做一些准备工作,以及在处理完最后一行之后做一些总结性质的工作。
awk 'BEGIN{num=0}/bash$/{num++} END{print num}' /etc/passwd //预处理时赋值变量num=0 #变量可以不定义直接用,默认值为0;然后逐行读入/etc/passwd文件,如发现登录Shell是/bin/bash则num加1;全部处理完毕后,输出num的值即可
awk中可以使用数值、字符串比较,比较符号均为:
==(等于) !=(不等于) >(大于) >=(大于等于) <(小于) <=(小于等于)
输出账户UID大于1000或者账户UID小于10的账户
awk -F: '$3>=1 || $3<=1000' /etc/passwd
输出root或nginx账户的用户名和UID信息:
awk -F: '/^(root|nginx)/{print $1,$3}' /etc/passwd
输出用户名为“root”的行
awk -F: '$1=="root"' /etc/passwd
awk的if分支结构
统计/etc/passwd文件中登录Shell是“/bin/bash”的用户个数
awk -F: '{if($7~/bash$/){i++}}END{print i}' /etc/passwd
分别统计/etc/passwd文件中UID小于或等于1000、UID大于1000的用户个数
awk -F: '{if($3<=500){i++}else{j++}}END{print i,j}' /etc/passwd
分别统计/etc/passwd文件中登录Shell是“/bin/bash”、 登录Shell不是“/bin/bash”的用户个数:
awk -F: '{if($7~/bash$/){i++}else{j++}} END{print i,j}' /etc/passwd
awk结合数组的使用
在分析系统的访问日志/var/log/secure以及web的访问日志时,经常要统计每个IP地址的访问次数,进而判断是否为恶意攻击。可以通过awk提取信息时,利用客户端IP地址作为数组下标,每遇到一个重复客户端地址就将此数组元素递增1,最终就获得了这个客户端访问的次数。
排序输出可以采用sort命令,相关的常见选项为-r、-n、-k。其中-n表示按数字顺序升序排列,而-r表示反序,-k可以指定按第几个字段来排序。
统计远程连接失败的客户端地址
awk ‘/Failed/{ip[$11]++} END{for(i in ip) {print i,ip[i]}}’ /var/log/secure | sort -nr -k 2
awk统计Web访问排名
awk ‘{ip[$1]++} END{for(i in ip) {print i,ip[i]}}’ /var/log/httpd/access_log | sort -nr -k 2
上一篇: JUC之线程抢占资源