awk处理实记

程序员文章站 2022-04-13 22:28:58

经grep日志后得到的数据格式如下：希望将一条原始数据处理后，生成若干条以下格式的数据：由于很久没有用过awk了，先复习了一遍语法做了些小实验才正式开始。经过整理后的思考路径如下：整个路径看起来是挺简单的，实际上用了我好几个小时才写出了完整可用的awk。特此记录下遇到的问题及得到教训。最后， ......

经grep日志后得到的数据格式如下：

}
 .
[debug][2019-05-20 00:00:00] senddatastyled:{
   "cmd" : 0001,
   "innings" : "6189269620_0007",
   "players" : [
      {
         "al_board" : 1,
         "al_win" : 1,
         "alter_exp" : 0,
         "alter_money" : 10,
         "uid" : 34329592
      },
      {
         "al_board" : 1,
         "al_win" : 0,
         "alter_exp" : 0,
         "alter_money" : -26,
         "uid" : 13416009
      },
      {
         "al_board" : 1,
         "al_win" : 1,
         "alter_exp" : 0,
         "alter_money" : 16,
         "uid" : 41165640
      }
   ],
   "roomid" : "6189269620",
   "vid" : 1205
}

希望将一条原始数据处理后，生成若干条以下格式的数据：

time al_win alter_money uid roomid

由于很久没有用过awk了，先复习了一遍语法做了些小实验才正式开始。经过整理后的思考路径如下：

确定分隔符。原本是想用空格，“[”， “]”，三个符号做分隔的，实验后发现由于打印格式的问题，很多字段前面都有很多个空格，这样不太好数需要的字段编号。所以最后分隔符定为中括号，双引号，冒号，逗号。
确定所需字段分隔后的编号。根据分隔符数一下，然后通过命令行验证一下就可以了。这个还是很容易且快的。
思考如何组织并输出数据。基本想法是除了要重复用到的time和roomid保存一下，其它字段是拿到后就直接打印，读取uid之后，打印uid及roomid就进行换行。有点困难的是roomid的读取，因为awk是按行顺序处理的，一个uid打印一行数据的话就等不到读后面的roomid了。幸好发现在数据innings里实际上隐含着roomid，拿到innings后用“_”截取前面一段就可以了。
实操。

整个路径看起来是挺简单的，实际上用了我好几个小时才写出了完整可用的awk。特此记录下遇到的问题及得到教训。

尽量用awk脚本写，不要在命令行直接写。也是因为只稍微复习了下语法就开始的原因，不知道可直接写在文件里调用，在命令行写极易出错，不易阅读，而且修改起来相当痛苦。
自定义变量的生命周期。不说太深，只说现今用到的。awk我们日常用到的自定义变量基本都是全局变量，直接使用就可以了。只是要注意下自己的程序应当在什么时候对变量进行初始化。如果只初始化一次，就在begin里写；如果需要在具体的行里多次初始化，在begin不用初始化也可以直接用。
变量的使用。也是由于复习不到位的问题，没有注意到使用变量时不需要使用$，比如要打印nf变量，直接print nf即可。因为这个小问题，走了不少弯路，深刻的教训。
printf 的随意性。如果没有定义具体的打印格式，printf后接空格，再接要打印的变量名或字段就可以了，用逗号或空格分隔都可以。要打印的所有变量可以用小括号包起来，也可以不包起来。不得不说，真的是强！
定义分隔符在命令行和脚本里的不同。以上文确定的分隔符为例，在命令行应该写作 -f '[][":,]' ，在脚本里则应该在begin里写成 fs="[][\":,]"; 。

最后，贴上写完的脚本：

source.awk

begin {
fs="[][\":,]";
}

{
if($4~/2019-/) a=$4":"$5":"$6;
else if($2~/innings/) split($5, b, "_");
else if($2~/al_win/) printf a $4;
else if($2~/alter_money/) printf $4;
else if($2~/uid/) printf "%s %s\n", $4, b[1];
}

直接使用 awk -f source.awk data.log > res.txt 即可。

另附参考的awk基础知识：

上一篇： Scala快速入门 - 基础语法篇

下一篇：使用 Powershell 远程连接 windows server

awk处理实记

海尔T6 3笔记本怎么拆机更换cpu处理器?

Shell正则表达式之grep、sed、awk实操笔记

sed或awk处理文件最后一行的实现方法

支持全球17家运营商5G网络：新款骁龙处理器Win10笔记本年底上市

RTX 3080/3070笔记本显卡规格实锤：大幅阉割

Linux使用awk文本处理工具实现多行合并的实例

Linux如何使用awk文本处理工具进行数组排序

文本处理工具awk

记一次网络攻击处理

Linux折腾记（八）：使用GCC和GNU Binutils编写能在x86实模式运行的16位代码