《Unix & Linux 大学教程》 - 第十九章（二）、第二十章学习笔记

程序员文章站 2022-05-25 22:32:03

...

学习笔记，内容基础，适合初学者。

阅读之前，请务必花30秒查看前言说明（在第一、二章前面部分）

《Unix & Linux 大学教程》 - 第一、二章学习笔记 Unix简介 & 什么是Linux？什么是Unix

《Unix & Linux 大学教程》 - 第三、四章学习笔记 Unix连接 & 开始使用Unix

《Unix & Linux 大学教程》 - 第五、六章学习笔记 GUI：图形用户界面 & Unix工作环境

《Unix & Linux 大学教程》 - 第七、八章学习笔记 Unix键盘使用 & 能够立即使用的程序

《Unix & Linux 大学教程》 - 第九、十章学习笔记文档资料：Unix手册与Info & 命令语法

《Unix & Linux 大学教程》 - 第十一、十二章学习笔记 shell & 使用shell：变量和选项

《Unix & Linux 大学教程》 - 第十三章学习笔记使用shell：命令和定制

《Unix & Linux 大学教程》 - 第十四、十五章学习笔记 使用shell：初始化文件

《Unix & Linux 大学教程》 - 第十六、十七章学习笔记 过滤器：简介和基本操作

《Unix & Linux 大学教程》 - 第十八章学习笔记 过滤器：统计和格式化

《Unix & Linux 大学教程》 - 第十九章（一）学习笔记 过滤器：选取、排序、组合及变换

《Unix & Linux 大学教程》 - 第十九章（二）、第二十章学习笔记 过滤器：选取、排序、组合及变换正则表达式

《Unix & Linux 大学教程》 - 第二十一章学习笔记 显示文件

《Unix & Linux 大学教程》 - 第二十二章（一）学习笔记 vi文本编辑器（一）

《Unix & Linux 大学教程》 - 第二十二章（二）学习笔记 vi文本编辑器 （二）

《Unix & Linux 大学教程》 - 第二十二章（三）学习笔记 vi文本编辑器 （三）

《Unix & Linux 大学教程》 - 第二十三章学习笔记 Unix文件系统

《Unix & Linux 大学教程》 - 第二十四章学习笔记 目录操作

《Unix & Linux 大学教程》 - 第二十五章学习笔记 文件操作

《Unix & Linux 大学教程》 - 第二十六章（一）学习笔记 进程和作业控制

《Unix & Linux 大学教程》 - 第二十六章（二）学习笔记 进程和作业控制

《Unix & Linux 大学教程》 - 附录F 时区与24小时制时间

第十九章：过滤器：选取、排序、组合及变换

第十九章第二部分

基础知识

程序/命令

tr（translate，转换）

语法

tr [-cds] [set1 [set2]]

set1和set2为字符组

注意：不允许指定输入和输出文件，可以考虑使用重定向

tr a A < file（将file中的a替换为A）

tr abc ABC < file（将file中的a替换为A，b替换为B，c替换为C）

tr abcde ABC < file 等同于 tr abcde ABCCC < file

tr A-Z a-z < file （将大写转换为小写）

tr [:upper:] [:lower:] < file 等同于 tr A-Z a-z < file

tr [:digit:] A-J < file 等同于 tr 0-9 A-J < file

tr '\015' '\012' < file （其中的参数为ASCII的八进制数值，可以利用其替换不可见字符）

tr '\r' '\n' < file 等同于 tr '\015' '\012' < file

-s（squeeze，挤压）：第一组中的多个连续字符应该替换为一个单独的字符

-d：删除指定的字符

-c（complement，补数）：匹配所有不在第一组中的字符

tr 0-9 D < file（将0-9每一个数字都替换为一个字母D）

tr -s 0-9 D < file （将多个数字替换为一个字母D）

tr -d '()' < file （删除所有圆括号）

tr -d [:digit:] < file （删除所有数字）

tr -c ' \n' X < file （将空格和换行之外的所有字符替换为X）

题目：查看多个文本中出现过的单词数量（不计重复，不考虑大小写）

比如有两个文件

txt1内容为：

This is a test!

So you can ignore me.

txt2内容为：

Another file for test!

Hello world!

cat txt1 txt2 将两个文件合并

cat txt1 txt2 | tr 'A-Z ' 'a-z\n' 然后将空格替换为换行，大写变小写

cat txt1 txt2 | tr 'A-Z ' 'a-z\n' | tr -d ',.;:!' 然后去掉标点

cat txt1 txt2 | tr 'A-Z ' 'a-z\n' | tr -d ',.;:!' | sort -u 然后去掉重复，忽略大小写

cat txt1 txt2 | tr 'A-Z ' 'a-z\n' | tr -d ',.;:!' | sort -u | wc -l 最后统计行数，结果即为不重复单词的个数

上面的过程完成任务不够好，比如单词可以有撇号（o'clock）

所以要把所有非字母和撇号的字符替换为换行

cat txt1 txt2 | tr -cs A-Za-z\' '\n' | sort -fu | wc -l （sort也可以忽略大小写，这样就不用tr来做了）

书中答案

cat txt1 txt2 | tr -cs [:alpha:]\' "\n" | sort -fu | wc -l （貌似之前没有讲过[:alpha:]）

sed（stream editor）

语法

sed [-i] command | -e command... [file]

command是sed命令

file是输入文件的名称

作用：简单替换文本

过程：

1.从输入流中读取一行

2.执行指定的命令，对该行进行必要的变换

3.将该行写入到输出流中

-i（in-place，原地）：重定向到输入的文件中

（-i选择只在GNU版本的sed中可用）

sed 's/string/String/g' file > newfile （将单词string替换为String，然后将输出重定向到newfile中）

sed的命令s

语法

[/address|pattern/]s/search/replacement/[g] （其中g代表global）

address是输入流中一个或多个行的地址

pattern是一个字符串

search是正在表达式

replacement是替换文本

sed '2s/string/String/g' file （改变第二行的string为String）

sed '3,6s/string/String/g' file （改变第三至六行的string为String）

sed '1,$s/string/String/g' file （改变第一至最后一行的string为String）

sed '/OK/s/string/Stringg' file （改变含有OK字符串的行的string为String）

（关于正则的部分可参考下面第二十章的讲解，也可参考我之前介绍关于正则的文章：深入入门正则表达式）

语法

sed -f instructions input

-f：标识命令程序文件

作用：运行存储在文件instructions中的sed程序，并使用文件input中的数据

-e（editing command，编辑命令）：指定任意多个sed命令

sed -i \

-e 's/mon/Monday/g' \

-e 's/tue/Tuesday/g' \

-e 's/wed/Wednesday/g' \

-e 's/thu/Thursday/g' \

-e 's/fri/Friday/g' \

-e 's/sat/Saturday/g' \

-e 's/sun/Sunday/g' \

calendar

将calendar中的mon替换为Monday；tue替换为Tuesday……最后重定向到calendar本身（-i不是忽略大小写，见上文说明）

第二十章：正则表达式

我在我的博客已经有专门介绍正则表达式使用的文章了

下面的文章主要介绍的是java中的正则，这里只介绍与java正则不同的地方。

深入入门正则表达式（java） - 引言

深入入门正则表达式（java） - 1 - 入门基础
 深入入门正则表达式（java） - 2 - 基本实例

深入入门正则表达式（java） - 3 - 正则在java中的使用

深入入门正则表达式（java） - 匹配原理 - 1 - 引擎分类与普适原则

深入入门正则表达式（java） - 匹配原理 - 2 - 回溯

在java的正则中，我们使用\b作为单词分隔符，但是在这里，我需要使用\<和\>作为单词分隔符

在使用GNU实用工具的系统上（例如Linux和FreeBSD）可以使用\b

下面的预定义类在java中是没有的

类	含义	类似于
[:lower:]	小写字母	a-z
[:upper:]	大写字母	A-Z
[:alpha:]	大小写字母	a-zA-Z
[:alnum:]	大小写字母、数字	a-zA-Z0-9
[:digit:]	数字	0-9
[:punct:]	标点符号	--
[:blank:]	空格或制表符（空白符）	--

Unix支持下面两种正则表达式

扩展正则表达式（extended regular expression，ERE）是现代版的正则表达式

基本正则表达式（basic regular expression，BRE）是一个以前的废弃版本正则表达式

下面是两种正则表达式的区别

扩展正则表达式	基本正则表达式	含义
{}	\{\}	定义一个限定（花括号）
()		定义一个组（圆括号）
?	\{0,1\}	匹配0次或1次
+	\{1,\}	匹配一次或多次
\|	--	交变：匹配选项中的一个
[:name:]	--	预定义字符类

下面三条命令等价

grep -w 'cat' data

grep '\<cat\>' data

grep '\bcat\b' data

关于预定义字符类的使用

下面两条正则等价，查找非字母字符的行，最外层的括号并不作为字符组本身的一部分，所以使用预定义字符类的时候需要有两层方括号

grep '[^A-Za-z]' data

grep '[^[:alpha:]]' data

注意：字符组的使用需要注意locale的设置。检查环境变量是否LC_COLLATE=C，否则[a-z]和[A-Z]等结果可能不是你所期待的。

下面是书中三个问题，都很简单，这里直接给出问题和答案

1.查找字典文件中，以qu开头y结尾的单词（我机器的字典文件在/usr/share/dict下，words文件）

grep '^qu[a-z]*y' words

2.查找字典文件中，依次含有a、e、i、o、u

grep 'a[a-z]*e[a-z]*i[a-z]*o[a-z]*u' words

3.查找bin目录下两个字母长的命令

ls /bin | grep '^[a-z]\{2\}$'

ls /bin | egrep '^[a-z]{2}$'

关于正则的更多规则与技巧可以参考上面提到的我介绍正则的文章

名词解释

预定义字符类：字符集。比如[:digit:]、[:upper:]等

转贴请保留以下链接

本人blog地址

http://su1216.iteye.com/

http://blog.csdn.net/su1216/

相关标签： sed grep tr 正则预定义字符类

上一篇： tr选中效果

下一篇： javascript中子标签如何屏蔽父标签的事件

《Unix & Linux 大学教程》 - 第十九章（二）、第二十章 学习笔记