欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

文本处理工具之grup && 正则表达式

程序员文章站 2022-04-18 10:49:30
Linux文本处理三剑客 grep:文本过滤(模式:pattern)工具 grep, egrep, fgrep(不支持正则表达式搜索) sed:stream editor,文本编辑工具 awk:Linux上的实现gawk,文本报告生成器 cat: 文件查看命令: -E: 显示行结束符$ -n: 对显 ......
 
Linux文本处理三剑客
grep:文本过滤(模式:pattern)工具
grep, egrep, fgrep(不支持正则表达式搜索)
sed:stream editor,文本编辑工具
awk:Linux上的实现gawk,文本报告生成器
cat: 文件查看命令:
-E: 显示行结束符$
-n: 对显示出的每一行进行编号
-A:显示所有控制符
-b:非空行编
-s:压缩连续的空行成一行
more:less:分页显示,类似于man的查看格式
tac :以列为单位倒着查看文件
rev :以行为单位倒着查看文件
 
head
默认显示开头10行,
默认10行
-nX:X表示数字
-X
tail: 默认10行
-nX
-X
-f 基于文件描述符追踪
-F 基于文件名追踪
tailf: 基于文件描述符追踪,如果文件不增长,它不会访问磁盘文件,减少了IO访问
 
centos6:
service network start或restart或stop:启动或重启或关闭网络服务
chkconfig iptables on或off :设置开机启动或关闭防火墙
1.service httpd start
2.echo hello > /var/www/html/index.html
 
df: 查看磁盘的挂载情况
lsblk:查看块设备
df |tr -s " " | cut -d" " -f5 |cut -d% -f1 取出磁盘的使用情况
df |tr -s " " % |cut -d% -f5
ifconfig | head -2|tail -1|tr -s " "|cut -d" " -f3 取IP地址
172.18.187.75
paste:合并两个文件同行号的列到一行
 
seq:只能列出数字
[root@centos6 ~]#seq 1 5 > f1
[root@centos6 ~]#seq 6 10 > f2
[root@centos6 ~]#paste f1 f2
1 6
2 7
3 8
4 9
5 10
paste -d " " f1 f2 :作为分隔符
[root@centos6 ~]#paste -d ":" f1 f2
1:6
2:7
3:8
4:9
5:10
paste -s f1 把指定文件多行变为一行
wc:计数单词总数、行总数、字节总数和字符总数,可以对文件或stdin中的数据运行
[root@centos6 ~]#wc /etc/passwd
62 83 2752 /etc/passwd
行数 字数 字节数
常用选项
-l 只计数行数
-w 只计数单词总数
-c 只计数字节总数
-m 只计数字符总数
-L 显示文件中最长行的长度
export :声明变量(全局变量)LC_COLLATE=C
sort: 默认排序方式受LC_COLLATE影响为UTF-8按首字母来排
sort -r 倒序
sort -u 去重
sort -t 指定分隔符
sort -k以第几列
sort -t:- k3 -n /etc/passwd 以,取第三列:作为分隔符,加-n时以数字排序
df |tr -s " " % |cut -d% -f5 |sort -nr |head -1 jieguo 100
sort -n 将指定列当做整体并以数字排序
cut -d: -f1,3 /etc/passwd |sort -t: -k2 -nr
cat /etc/passwd |sort -t: -k3 -n
uniq:命令:从输入中删除前后相接的重复的行
uniq [OPTION]... [FILE]...
-c: 显示每行重复出现的次数
-d: 仅显示重复过的行
-u: 仅显示不曾重复的行
连续且完全相同方为重复
常和sort 命令一起配合使用:
sort userlist.txt | uniq -c
[root@instructor_v6(nanyibo) html]# cat /var/log/httpd/access_log |cut -d" " -f1 |sort |uniq -c |sort -n -r |head
180 172.18.118.136
102 172.18.118.108
72 192.168.20.1
71 172.18.118.133
70 172.18.118.117
67 172.18.118.127
59 172.18.118.99
58 172.18.118.116
55 172.18.118.94
54 172.18.118.152
diff 和 patch:比较两个文件之间的区别
 
diff f1 f2: 比较两个文件f1 ,f2之间的区别
diff -u oldfile newfile > file.patch
 
sed
 
用法:
sed [option]... 'script' inputfile...
常用选项:
-n:不输出模式空间内容到屏幕,即不自动打印
-e: 多点编辑
-f:/PATH/SCRIPT_FILE: 从指定文件中读取编辑脚本
-r: 支持使用扩展正则表达式
-i.bak: 备份文件并原处编辑
script:'地址命令
地址定界:
(1) 不给地址:对全文进行处理
(2) 单地址:
#: 指定的行,$:最后一行
/pattern/:被此处模式所能够匹配到的每一行
(3) 地址范围:
#,#
#,+#
/pat1/,/pat2/
#,/pat1/
(4) ~:步进
1~2 奇数行
2~2 偶数行
 
编辑命令:
d: 删除模式空间匹配的行,并立即启用下一轮循环
p:打印当前模式空间内容,追加到默认输出之后
a [\]text:在指定行后面追加文本
支持使用\n实现多行追加
i [\]text:在行前面插入文本
c [\]text:替换行为单行或多行文本
w /path/somefile: 保存模式匹配的行至指定文件
r /path/somefile:读取指定文件的文本至模式空间中
匹配到的行后
=: 为模式空间中的行打印行号
!:模式空间中匹配行取反处理
替换 s///:查找替换,支持使用其它分隔符,s@@@,s###
替换标记:
g: 行内全局替换
p: 显示替换成功的行
w /PATH/TO/SOMEFILE:将替换成功的行保存至文件中
 
高级编辑命令
P:打印模式空间开端至\n内容,并追加到默认输出之前
h: 把模式空间中的内容覆盖至保持空间中
H:把模式空间中的内容追加至保持空间中
g: 从保持空间取出数据覆盖至模式空间
G:从保持空间取出内容追加至模式空间
x: 把模式空间中的内容与保持空间中的内容进行互换
n: 读取匹配到的行的下一行覆盖至模式空间
N:读取匹配到的行的下一行追加至模式空间
d: 删除模式空间中的行
D:如果模式空间包含换行符,则删除直到第一个换行符的模式空间中的文本,
并不会读取新的输入行,而使用合成的模式空间重新启动循环。如果模式空间
不包含换行符,则会像发出d命令那样启动正常的新循环
 
实例:
 
seq 1 5 |sed 2d
ifconfig |sed -n '2p'
cat pets |sed "2a\hello\n123"
cat pets |sed "2ihello\n123"
cat pets |sed "2chello\n123"
cat /app/pets |sed '1,3w /app/pet.1'
cat -n /app/pets |sed '2r /app/pet.1'
seq 1 5 |sed -n '2!p'
高级用法
 
seq 1 10 |sed -n 'n;p' 仅打印偶数行
seq 1 10|sed -n '2~2p'
2
4
6
8
10
[root@instructor_v7(nanyibo) ~]# seq 1 10|sed '1!G;h;$!d' 倒序显示
[root@instructor_v7(nanyibo) ~]# seq 1 10|sed 'N;D' 打印最后一行
[root@instructor_v7(nanyibo) ~]# seq 1 10|sed '$!N;$!D' 打印最后两行
[root@instructor_v7(nanyibo) ~]# seq 1 10|sed '$!d' 打印最后一行
[root@instructor_v7(nanyibo) ~]# seq 1 10|sed 'G' 每一行后加一个空行
[root@instructor_v7(nanyibo) ~]# seq 1 10|sed 'g' 将所有行变为空行
[root@instructor_v7(nanyibo) ~]# cat seq10 |sed '/^$/d;G' 将多空行变为一个空 行,没有空行的加一个空行
[root@instructor_v7(nanyibo) ~]# seq 1 10 |sed 'n;d' 只打印奇数行
[root@instructor_v7(nanyibo) ~]# seq 1 10 |sed -n '1!G;h;$p' 倒序打印
sed -e '/^#NameVirtual/s/#//' 文件中的开头的#去掉
sed -e '/^#NameVirtual/s/#//' -e '^#<VirtualHost/,/^#<VirtualHost/s/#//' /etc/httpd/conf/httpd.conf 去掉文件中开头的#
sed -r 's/(.*)/magedu\1/' /etc/passwd 把这个文件的头一个字母替换为。。
 
用sed取IP地址:ifconfig |sed -n '2p' | sed -r 's@.*inet(.*) net.*@\1@'
192.168.30.110
ifconfig | sed -r '2!d;s@(.*inet)(.*)( net.*)@\2@'
 
ifconfig |sed -n '2p' |sed 's/.*inet //' |sed 's/ netmask.*//'
 
sed -e '/^#NameVirtual/s/#//' 文件中的开头的#去掉
sed -e '/^#NameVirtual/s/#//' -e '^#<VirtualHost/,/^#<VirtualHost/s/#//' /etc/httpd/conf/httpd.conf 去掉文件中开头的#
 
seq 1 10 |sed -n 'n;p' 只显示偶数
seq 1 10 |sed -n '2~2p'
seq 1 10 |tac tac表示倒叙排数字
seq 1 10 |sed 'N;D' 倒叙排取得的第一个数字
[root@centos7 ~]# seq 1 10 |sed '$!N;$!D'
9
10
sed -r 's/(.*)/magedu\1/' /etc/passwd 把这个文件的头一个字母替换为。
 
实例:
sed ‘2p’ /etc/passwd
sed –n ‘2p’ /etc/passwd
sed –n ‘1,4p’ /etc/passwd
sed –n ‘/root/p’ /etc/passwd
sed –n ‘2,/root/p’ /etc/passwd 从2行开始
sed -n ‘/^$/=’ file 显示空行行号
sed –n –e ‘/^$/p’ –e ‘/^$/=’ file
sed ‘/root/a\superman’ /etc/passwd行后
sed ‘/root/i\superman’ /etc/passwd 行前
sed ‘/root/c\superman’ /etc/passwd 代替行
 
sed ‘/^$/d’ file
sed ‘1,10d’ file
nl /etc/passwd | sed ‘2,5d’
nl /etc/passwd | sed ‘2a tea’
sed 's/test/mytest/g' example
sed –n ‘s/root/&superman/p’ /etc/passwd 单词后
sed –n ‘s/root/superman&/p’ /etc/passwd 单词前
sed -e ‘s/dog/cat/’ -e ‘s/hi/lo/’ pets
sed –i.bak ‘s/dog/cat/g’ pets
 
 
grep: 文本过滤(模式:pattern)工具
grep, egrep, fgrep(不支持正则表达式搜索)
模式:由正则表达式字符及文本字符所编写的过滤条件
sed:stream editor,文本编辑工具
awk:Linux上的实现gawk,文本报告生成器
grep +参数+匹配内容+文件
--color=auto 关键字高亮显示,在centos7当中默认做为别名,对匹配到的文本着色显示
\ 转义 一次
[.]放到括号里表示.本身
-v 显示不被匹配到的行
-i 忽略关键字的大小写
-c 显示匹配行的数量
-o 仅显示匹配到的关键字
-q 静默输出,不打印过滤的结果,也可以用 &> /dev/null
-A x 当前行及后x行
-B x 当前行及前x行
-C x 当前行及前后x行
nmap -v -sP 172.18.118.0/24 |grep -B1 'Host is up' |grep for |cut -d" " -f5
-e 关键字1 -e 关键字2 或者 "关键字1\|关键字2" 表示逻辑或
-w 匹配整个单词 表示字符边界 也可以用 "\<关键字\>"
-E 或 egrep 表示使用扩展正则表达式
-F 或 fgrep 不使用正则表达式
 
 
正则表达式:
 
程序支持:grep,sed,awk,vim, less,nginx,varnish
man 7 regex
文件名通配符当中 * 表示 0或多个任意字符 ? 表示任何一个单一字符
. 表示任何字符
[] 匹配指定范围内的任意单个字符
[^] 匹配指定范围外的任意单个字符
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母 [a-z]
[:upper:] 大写字母 [A-Z]
[:blank:] 空白字符(空格和制表符)
[:space:] 水平和垂直的空白字符(比[:blank:]包含的范围广)
[:cntrl:] 不可打印的控制字符(退格、删除、警铃...)
[:digit:] 十进制数字 [0-9]
[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
[A-Z0-9] 表示大写字符或数字
 
次数匹配
 
匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
* 匹配前面的字符任意次,包括0次
贪婪模式:尽可能长的匹配
.* 任意长度的任意字符
\? 匹配其前面的字符0或1次
\+ 匹配其前面的字符至少1次
\{n\} 匹配前面的字符n次
\{m,n\} 匹配前面的字符至少m次,至多n次
\{,n\} 匹配前面的字符至多n次
\{n,\} 匹配前面的字符至少n次
 
位置锚定:定位出现的位置
^ 行首锚定,用于模式的最左侧
$ 行尾锚定,用于模式的最右侧
^PATTERN$ 用于模式匹配整行
^$ 空行
^[[:space:]]*$ 空白行
grep -v "^[[:space:]]*$" passwd 去除文件中的空白行
\< 或 \b 词首锚定,用于单词模式的左侧
\> 或 \b 词尾锚定;用于单词模式的右侧
\<PATTERN\> 匹配整个单词
grep "\<root\>" passwd
 
分组
 
分组:\(\) 将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+
分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命 名方式为: \1, \2, \3, ...
\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字
示例: \(string1\+\(string2\)*\)
\1 :string1\+\(string2\)*
\2 :string2
后向引用:引用前面的分组括号中的模式所匹配字符,而非模式本身
或者:\|
示例:a\|b: a或b C\|cat: C或cat \(C\|c\)at:Cat或cat
 
实验:通过以下文件,找出以rxxt开头且以相同rxxt结尾,并uid与gid相同的用户
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
rcct:x:1:1:bin:/bin:/sbin/rcct
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
roat:x:4:7:lp:/var/spool/lpd:/sbin/roat
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:Root:/sbin:/sbin/shutdown
roat:x:6:0:Root:/sbin:/sbin/root
halt:x:7:0:halt:/sbin:rooter:/halt
rbbt:x:8:12:mail:/var/spool/mail:/sbin/root
operator:x:11:0:operator:/root1:/sbin/root
root:x:100:100:games:/usr/games:/sbin/root
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
 
cat passwd |grep "^\(\<r..t\>\).*\([0-9]\+\):\2.*\1$"
 
 
扩展正则表达式的元字符:egrep = grep -e
字符匹配:
.任意单个字符