根据txt每行内容长短排序并重新写入txt保存
程序员文章站
2022-03-29 08:06:30
...
有时候在处理一些txt文件的时候,需要按照一定的要求对txt内容进行排序,比如我在做一个OCR文字识别的时候,由于标签文件是txt的文本,但是长短不一,且差别大。我用的网络需要按照标签的长短进行排序后形成新的标签txt文件,这时候送人网络训练的效果会比较好。这里不聊网络的事儿哈哈。只聊怎么对txt内容根据它的长短排序
先附一张我排序前的txt的内容:
涉及到隐私照常打码哈哈。这里每行内容是由“ ”空格符分隔的
下边示例怎么根据空格符后边的(也就是右边的内容)内容长短对原始文本进行排序:
不多说,直接上代码:
import os
import os.path
txt_path = 'D:/youxinProjections/trafic-youxin/MobileNet_v1/obtain_qq_json_new/Crop_Ocr_Imgs/'
des_txt_path = 'D:/youxinProjections/trafic-youxin/MobileNet_v1/obtain_qq_json_new/Crop_Ocr_txt/'
txt_files = os.listdir(txt_path)#这里得到的是txt_path路径下所有的txt文件,我这里需要对txt批量处理
def sort_txt_content():
for txtfile in txt_files:
if not os.path.isdir(txtfile):
out_file = open(des_txt_path + txtfile, 'a')#后边参数为'a'时,意味写入时自动换行累加,不用额外添加'\n'符
in_file = open(txt_path + txtfile, 'r')
lines = in_file.readlines()
b = [[line.split(" ")[1]] for line in lines]#这里的b取到的就是空格符右边的内容
lines.sort(key = lambda b: len(b))
for line in lines:
print(line)
out_file.write(line)#重新写入新的txt文件
if __name__ == '__main__':
sort_txt_content()
再上一张排序后的结果图:
大功告成!!!
上一篇: Pandas数据处理基础6
下一篇: 数据结构与算法--简单栈实现及其应用