使用Python和AWK两种方式实现文本处理的长拼接案例
最近由于业务系统新需求的需要,我们平台需要将供应商g提供一类数据转换格式后提供给客户k。比较头疼是供应商g提供的数据都是在windows下使用excel存储的,而客户k先前与我们相关对接人员商定的数据类型必须使用utf-8的txt文件,并且由于客户k程序处理的需要,并附带生成一个与该数据文件匹配的校验文件数据传输的结束标志。
主要操作步骤如下:
1,首先得先把.xlsx的后缀改为.csv的后缀另存,这样就可以在linux中打开了;
2,由于windows下编码格式基本都是gbk的,所以需要进行转码为utf-8的才能显示正常。
可以使用 iconv -fgbk -tutf8 -c -o to_file from_file 进行转码,转码后文件大致显示如下:
账号,银行,姓名,身份证号,手机号,登录邮箱,嫌疑欺诈账户使用设备,请求类型,,,是否被多家*机关查询 000167342xxx,深圳农商,深圳市xx仓储服务有限公司,,,,,止付,冻结,明细查询,是 000195557xxx,深圳农商,深圳市xxx鞋材有限公司,,,,,止付,冻结,明细查询,是 000251484xxx,深圳农商,深圳市xxx电子有限公司,,,,,止付,冻结,明细查询,是
实际上只有9列数据,第8、9、10是合并单元格的。
3,客户k要求9列数据使用 “|” 进行分割。
由上面转码后文件内容可知,目前以 “,” 进行分割有11列数据,第8、9、10三列继续使用 “,” 进行分割,其他使用 “|” 进行分割。就我当前知识范围来讲,可以使用两种
方式,一种是使用python,不过脚本实现起来比较复杂。一种使用awk的流文本处理,命令简单,建议优先采用。但是也可以使用shell利用for循环进行拼接,但是这种需要消耗大量的系统资源,并且出奇的慢,不建议使用。供应商g提供文件大概有12w行数据,使用这种方式需要近20分钟才能完成。下面分别介绍两种方式:
3.1 python脚本如下:
import sys def readfile(rfilename,wfilename): wfile=open(wfilename,'a+') #wfile.write('账号|银行|姓名|身份证号|手机号|登录邮箱|嫌疑欺诈账户使用设备|请求类型|是否被多家*机关查询\n') #上一行是文件的title,如果不使用这样的方式,就是用下面lines从0,也即是从第一行开始处理 with open(rfilename, 'r') as fr: lines=fr.readlines() for line in lines[0:]: llist=[] if len(line)>1: words=line.split(',') if (words[0]!=''): llist.append(words[0]+'|') llist.append(words[1]+'|') llist.append(words[2]+'|') llist.append(words[3]+'|') llist.append(words[4]+'|') llist.append(words[5]+'|') llist.append(words[6]+'|') llist.append(words[7]+',') llist.append(words[8]+',') llist.append(words[9]+'|') llist.append(words[10]) wstr=''.join(llist) #这里需要指定新文件列之间的分隔符为空,否则每个字段间会有多个分隔符 wfile.write(wstr+'\r') #这里的行与行之间使用换行符 \r ,而不是使用回车 \n,如果使用回车则新文件中会生成大量空行 wfile.close() if __name__ == '__main__': inpath=sys.argv[1] outpath=sys.argv[2] #指定输入文件的路径和名称 rfilename=inpath+'1111.csv' #指定输出文件路径和名称 wfilename=outpath+'3333.csv' readfile(rfilename,wfilename) #执行 [root@a opt] python $python_file $inpath $outpath
速度很快,1秒钟左右12w行就执行完了。
3.2 awk
awk -f, '{print $1"|",$2"|",$3"|",$4"|",$5"|",$6"|",$7"|",$8",",$9",",$10"|",$11}' 1111.csv | sed 's/ //g' >>ttt2.csv
就这么简单的一个命令,12w行秒完成。
3.3 shell的方式,相比于awk流文本处理和python脚本,使用shell处理,至少我想出来的这个方法的确是太蠢了。
#执行前, 我先把,改成| for line in `cat 3333.txt` do echo "`echo "$line" | awk -f "|" 'begin{ofs="|"} {print $1,$2,$3,$4,$5,$6,$7}'`|`echo "$line" | awk -f"|" 'begin{ofs=","} {print $8,$9,$10}'`|`echo "$line" | awk -f "|" 'begin{ofs="|"} {print $11}'`" >> 4444.txt done #当然情况允许的话, 还可以使用并行 for line in `cat 3333.txt` do { echo "`echo "$line" | awk -f "|" 'begin{ofs="|"} {print $1,$2,$3,$4,$5,$6,$7}'`|`echo "$line" | awk -f"|" 'begin{ofs=","} {print $8,$9,$10}'`|`echo "$line" | awk -f "|" 'begin{ofs="|"} {print $11}'`" >> 4444.txt }& done
经过测试发现,并行与否好像没有多大的差别,只是稍微快了那么一丢丢,也需要近20分钟才能完成12w行的拼接。
以上三种方法处理后数据就是下面的了:
账号|银行|姓名|身份证号|手机号|登录邮箱|嫌疑欺诈账户使用设备|请求类型|是否被多家*机关查询 000167342xxx|深圳农商|深圳市xx仓储服务有限公司|||||止付,冻结,明细查询|是 000195557xxx|深圳农商|深圳市xxx鞋材有限公司|||||止付,冻结,明细查询|是 000251484xxx|深圳农商|深圳市xxx电子有限公司|||||止付,冻结,明细查询|是 001980099990xxx|农业银行|未知|||||,,明细查询|是
4,生成校验文件就很简单了,可以使用md5的,16位的加密;也可以使用hash的,hash默认是sha-1的,20位的加密,也有sha-224、sha-256、sha-384
#命令示例 [root@a opt]# md5sum 2222.csv d6b37d6921b0153079ef6bb976872f01 2222.csv [root@a opt]# sha1sum 2222.csv c9e780381f756308362d44172e06e46ee8758ecf 2222.csv [root@a opt]# sha224sum 2222.csv 1f79435e1f5eefc91b1fabf66df1a25391478e0fa137a526e6bdf66e 2222.csv [root@a opt]# sha256sum 2222.csv bf9e8b0b25807e9b31026a56d8dc4040dd4c90e7a468b1a4d91cc3b6866dbb13 2222.csv #生成校验文件 [root@a opt]# md5sum 2222.csv >2222_md5.txt [root@a opt]# sha1sum 2222.csv >2222_sha1.txt #校验文件完整性 [root@a opt]# md5sum -c 2222_md5.txt 2222.csv: ok [root@a opt]# sha1sum -c 2222_sha1.txt 2222.csv: ok
更多关于校验文件生成的解读详见:https://www.jb51.net/linuxjishu/156064.html
上一篇: Python学习 :多线程 --- 锁
下一篇: 中医永远说你肾虚