文本三剑客

程序员文章站 2022-07-11 10:31:27

grep 文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行 grep [OPTIONS] PATTERN [FILE…] –color=auto: 对匹配到的文本着色显示 -v: 显示不被pattern匹配到的行 -i: 忽略字符大小写 -n: 显示匹配的行号 -c: ......

^grep

文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行

grep [OPTIONS] PATTERN [FILE…]

–color=auto: 对匹配到的文本着色显示
-v: 显示不被pattern匹配到的行
-i: 忽略字符大小写
-n: 显示匹配的行号
-c: 统计匹配的行数
-o: 仅显示匹配到的字符串
-q: 静默模式，不输出任何信息
-A #: after, 显示匹配到的行和后#行
-B #: before, 显示匹配到的行和前#行
-C #:context, 显示匹配到的行和前后各#行
-e: 实现多个选项间的逻辑or关系。grep –e ‘cat ’ -e ‘dog’ file
-w: 整行匹配整个单词
-E: 使用扩展正则表达式
-F: 相当于fgrep，不支持正则表达式

sed

sed是一种流编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”( pattern space)，接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件,简化对文件的反复操作,编写转换程序等

sed [option]… script inputfile…

-n: 不输出模式空间内容到屏幕，即不自动打印
-e: 多点编辑
-f: /PATH/SCRIPT_FILE: 从指定文件中读取编辑脚本
-r: 支持使用扩展正则表达式
-i: 原处编辑
-i.bak: 原处编辑，编辑前复制源文件为源文件名称+.bak后缀

script=地址定界+编辑命令

地址定界

不给地址:对全文进行处理
单地址:
- #: 指定的行
- /pattern/:被此处模式所能够匹配到的每一行
地址范围:
- #,#:
- #,+#
- /pat1/,/pat2/
- #,/pat1/
~:步进
- 1~2: 从1开始，步进2，表示奇数行
- 2~2 从2开始，步进2，表示偶数行

编辑命令

d: 删除模式空间匹配的行
p: 显示模式空间中的内容
a []text: 在指定行后面追加文本支持使用\n实现多行追加
i []text: 在行前面插入文本
c []text: 替换行为单行或多行文本
w /path/somefile: 保存模式匹配的行至指定文件
r /path/somefile: 读取指定文件的文本至模式空间中
匹配到的行后 =: 为模式空间中的行打印行号
!: 模式空间中匹配行取反处理

查找替换

s///:查找替换,支持使用其它分隔符，s@@@，s###
替换标记:
- g: 行内全局替换
- p: 显示替换成功的行
- w /PATH/TO/SOMEFILE:将替换成功的行保存至文件中

高级编辑命令

h: 把模式空间中的内容覆盖至保持空间中
H:把模式空间中的内容追加至保持空间中
g: 从保持空间取出数据覆盖至模式空间
G:从保持空间取出内容追加至模式空间
x: 把模式空间中的内容与保持空间中的内容进行互换
n: 读取下一行到模式空间，且后期的操作命令只对该行有效
N: 读取下一行到模式空间，且后期的操作命令对模式空间的所有行有效
d: 删除模式空间中的行
D:删除当前模式空间开端至\n的内容(不再传至标准输出)，放弃之后的命令，但是对剩余模式空间重新执行sed

awk

AWK是由Aho, Weinberger, Kernighan这三个人共同开发出的一优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一。

awk [options] ‘program’ var=value file…
awk [options] -f programfile var=value file…
awk [options] ‘BEGIN{ action;… } pattern{ action;… } END{ action;… }’ file …

options
- -F 指明输入时用到的字段分隔符
- -v var=value: 自定义变量
- -f 指定awk程序文件
BEGIN{ action;… }: 读入文本之前执行{action;…}
END{ action;… }: 文本处理完之后执行{ action;… }
pattern{ action;… }: pattern的返回值为True时，才执行{action;…}，pattern可以有以下几种:
- 如果未指定pattern: 匹配每一行
- /regular expression/: 仅处理能够被模式(正则表达式匹配到的行，需要用/ /括起来
- relational expression: 关系表达式，
  */pat1/,/pat2/: 行范围startline,endline不支持直接给出数字格式
- True: 结果为非0值，非空字符串
- False: 结果为空字符串或0值

awk工作流程

第一步:执行BEGIN{action;… }语句块中的语句
第二步:从文件或标准输入(stdin)读取一行，然后执行pattern{ action;… }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕。
第三步:当读至输入流末尾时，执行END{action;…}语句块。
.
BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中
END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块
pattern语句块中的通用命令是最重要的部分，也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块

awk内置命令

print

print item1, item2, …

特性

item之间用逗号分隔符
输出的各item可以是字符串、数值、当前记录的字段、变量、awk表达式
省略item，相当于print$0

printf

printf “FORMAT”, item1, item2, …

特性

必须指定FORMAT
不会自动换行，需要显式给出换行控制符，\n
FORMAT中需要分别为后面每个item指定格式符

FORMAT=格式符+修饰符

格式符
- %c: 显示字符的ASCII码
- %d, %i: 显示十进制整数
- %e, %E:显示科学计数法数值
- %f: 显示为浮点数
- %g, %G:以科学计数法或浮点形式显示数值
- %s: 显示字符串
- %u: 无符号整数
- %%: 显示%自身
修饰符:
- #[.#]: 第一个数字控制显示的宽度，第二个#表示小数点后精度
- -: 左对齐(默认右对齐) %-15s
- +: 显示数值的正负符号 %+d

[root@7-movekj ~]$ awk 'BEGIN{print "Colum1,Colum2"}'

Colum1,Colum2

[root@7-movekj ~]$ awk 'BEGIN{printf "%-10s,%8s\n","Colum1","Colum2"}'

Colum1 , Colum2

[root@7-movekj ~]$ awk 'BEGIN{printf "%-10s,%-8s\n","Colum1","Colum2"}'

Colum1 ,Colum2

[root@7-movekj ~]$ awk 'BEGIN{printf "%.2f",2}'

2.00

[root@7-movekj ~]$ awk 'BEGIN{printf "%10.2f",2}'

2.00[root@7-movekj ~]$ awk 'BEGIN{printf "%-10.2f",2}'

2.00 [root@7-movekj ~]$ awk 'BEGIN{printf "%-10.2f",3}'

3.00 [root@7-movekj ~]$ awk 'BEGIN{printf "%-10.2d",3}'

03 [root@7-movekj ~]$ awk 'BEGIN{printf "%10.2d",3}'

03[root@7-movekj ~]$ awk 'BEGIN{printf "%10.3d",3}'

003[root@7-movekj ~]$

awk变量

内置变量

FS: 输入字段分隔符，默认为空白字符
OFS: 输出字段分隔符，默认为空白字符
RS: 输入记录分隔符，指定输入时的换行符，原换行符仍有效
ORS: 输出记录分隔符，输出时用指定符号代替换行符
NF: 当前行的字段数量
NR: 当前行的行号
FNR: 各文件分别计数,行号
FILENAME: 当前文件名
ARGC: 命令行参数的个数
ARGV: 数组，保存的是命令行所给定的各参数

自定义变量(区分字符大小写)

-v var=value
在program中直接定义

[root@7-movekj ~]$ awk -v test='hello gawk' 'BEGIN{print test}'

hello gawk

[root@7-movekj ~]$ awk 'BEGIN{test="hello,gawk";print test}'

hello,gawk

awk操作符

算术操作符: x+y, x-y, x*y, x/y, x^y, x%y
-x: 转换为负数
+x: 转换为数值
字符串操作符: 没有符号的操作符，字符串连接
赋值操作符: =, +=, -=, *=, /=, %=, ^=，++, —
比较操作符: ==, !=, >, >=, <, <=
模式匹配符: 支持正则表达式
- ~: 左边是否和右边匹配包含
- !~: 是否不匹配
逻辑操作符:与&&，或||，非!
条件表达式(三目表达式): selector?if-true-expression:if-false-expression

awk action

Expressions: 算术、比较表达式等
Control statements: if、 while等
Compound statements: 组合语句
input statements: 没用过
output statements: print、printf等

awk 控制语句

分支语句

if(condition){statement;…}[else statement]
if(condition1){statement1}else if(condition2){statement2}else{statement3}
switch(expression){case VALUE1 or /REGEXP/: statement1; case VALUE2 or /REGEXP2/: statement2; …; default: statementN}

循环语句

while(condition){statement;…}
do{statement;…}while(condition)
for(expr1;expr2;expr3) {statement;…}

控制语句

next: 提前结束对本行处理而直接进入下一行处理
break [n]
continue [n]

awk 数组

数组格式

array[index]

index
- 可使用任意字符串;字符串要使用双引号括起来
- 如果某数组元素事先不存在，在引用时，awk会自动创建此元素，并将其值初始化为“空串”

数组遍历

for(idx in array){for-body}

awk函数

内置函数

rand(): 返回0和1之间一个随机数，使用之前需要先调用srand()函数

1 2	awk 'BEGIN{srand(); for (i=1;i<=10;i++)print int(rand()*100) }'

length([s]): 返回指定字符串的长度
sub(r,s,[t]): 对t字符串进行搜索r表示的模式匹配的内容，并将第一个匹配的内容替换为s

1 2	echo "2008:08:08 08:08:08" \| awk 'sub(/:/,“-",$1)'

gsub(r,s,[t]): 对t字符串进行搜索r表示的模式匹配的内容，并全部替换为s所表示的内容

1 2	echo "2008:08:08 08:08:08" \| awk ‘gsub(/:/,“-",$0)'

split(s,array,[r]): 以r为分隔符，切割字符串s，并将切割后的结果保存至array所表示的数组中，第一个索引值为1,第二个索引值为2,…

1 2	netstat -tan \| awk '/^tcp\>/{split($5,ip,":");count[ip[1]]++} END{for (i in count) {print i,count[i]}}

自定义函数

语法

function name ( parameter, parameter, ... ) {

statements

return expression

}

示例

[root@7-movekj awk]$ cat fun.awk

#!/bin/awk -f

function max(v1,v2) {

v1>v2?var=v1:var=v2

return var

}

BEGIN{

a=3

b=2

print max(a,b)

}

[root@7-movekj awk]$ awk –f fun.awk

awk中调用shell命令

空格是awk中的字符串连接符，如果system中需要使用awk中的变量可以使用空格分隔，或者说除了awk的变量外其他一律用””引用起来。

示例:

[root@7-movekj awk]$ awk 'BEGIN{system("hostname") }'

7-movekj.com

[root@7-movekj awk]$ awk 'BEGIN{score=100; system("echo your score is " score) }'

your score is 100

awk 脚本

普通awk脚本

示例

[root@7-movekj awk]$ cat f1.awk

#!/bin/awk -f

{if($3>=1000)print $1,$3}

[root@7-movekj awk]$ ./f1.awk -F: /etc/passwd | head -3

nfsnobody 65534

starli 1000

gentoo 1001

[root@7-movekj awk]$ cat f2.awk

{if($3>=1000)print $1,$3}

[root@7-movekj awk]$ awk -F: -f f2.awk /etc/passwd | head -3

nfsnobody 65534

starli 1000

gentoo 1001

带变量的awk脚本

这种方式传递给awk脚本的变量在BEGIN过程中不可用。直到首行输入完成以后，变量才可用。可以通过-v参数，让awk在执行BEGIN之前得到变量的值。命令行中每一个指定的变量都需要一个-v参数

 1 [root@7-movekj awk]$ cat f3.awk
 2 #!/bin/awk -f
 3 {if($3 >=min && $3<=max)print $1,$3}
 4 [root@7-movekj awk]$ chmod +x f3.awk
 5 [root@7-movekj awk]$ ./f3.awk -F: min=100 max=200 /etc/passwd
 6 systemd-network 192
 7 abrt 173
 8 usbmuxd 113
 9 rtkit 172
10 qemu 107
11 pulse 171

[root@7-movekj awk]$ cat f3.awk

#!/bin/awk -f

{if($3 >=min && $3<=max)print $1,$3}

[root@7-movekj awk]$ chmod +x f3.awk

[root@7-movekj awk]$ ./f3.awk -F: min=100 max=200 /etc/passwd

systemd-network 192

abrt 173

usbmuxd 113

rtkit 172

qemu 107

pulse 171

上一篇：强子过完年回来得意洋洋地对大家说

下一篇：通过一个小算法，谈谈学习如何编写程序

文本三剑客

grep

sed

script=地址定界+编辑命令

地址定界

编辑命令

查找替换

高级编辑命令

awk

awk工作流程

awk内置命令

print

printf

awk变量

内置变量

自定义变量(区分字符大小写)

awk操作符

awk action

awk 控制语句

分支语句

循环语句

控制语句

awk 数组

数组格式

数组遍历

awk函数

内置函数

自定义函数

awk中调用shell命令

awk 脚本

普通awk脚本

带变量的awk脚本

文本链接逐个出现的js脚本

mssql 30万条数据 搜索文本字段的各种方式对比

ASP.NET中 TextBox 文本输入框控件的使用方法

HTML文本框的值改变后触发后台代码的方法

C#实现最简单的文本加密方法

java过滤html标签获取纯文本信息的实例

Python如何实现文本转语音

Java实现从Html文本中提取纯文本的方法

使用jsoup解析html的table中的文本信息实例

html5文本内容_动力节点Java学院整理

^grep

mssql 30万条数据搜索文本字段的各种方式对比