欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python遍历目录获取子目录名/特定后缀文件

程序员文章站 2022-04-18 17:16:21
...

前言

最近帮忙打杂,需要批量处理文件,因此写了脚本,不过后来发现目录数量增加了,再一个个修改目录名重新运行有的麻烦,于是研究了下python操作文件系统的方法。毕竟python方便移植,不需要像C++那样需要编译,对于VC依赖用户而言,换操作系统的话还要改下VS的VC运行库的配置。参考我之前一篇C++遍历目录的博客Linux和Windows的遍历目录下所有文件的方法对比

相应python模块的方法

思路很简单,首先遍历目录下所有文件(这里指广义的文件),然后对文件进行判断(属性是否为目录,后缀是否为xxx)。而python提供的功能更为强大,利用os模块的walk方法能直接遍历当前目录和整个子目录的文件。

walk(top, topdown=True, onerror=None, followlinks=False)
    Directory tree generator.
    
    For each directory in the directory tree rooted at top (including top
    itself, but excluding '.' and '..'), yields a 3-tuple
    
        dirpath, dirnames, filenames
    
    dirpath is a string, the path to the directory.  dirnames is a list of
    the names of the subdirectories in dirpath (excluding '.' and '..').
    filenames is a list of the names of the non-directory files in dirpath.
    Note that the names in the lists are just names, with no path components.
    To get a full path (which begins with top) to a file or directory in
    dirpath, do os.path.join(dirpath, name).

后面3个自定义选项暂时可以不考虑(详细可以参考help(os.walk)),top即顶层目录,walk返回一个生成器,迭代每个生成器会返回一个三元组(dirpath, dirnames, filenames),依次代表目录名,该目录下的目录类型文件列表(不包括.和..),该目录下的非目录类型文件列表。

>>> import os
>>> for parent, dirnames, filenames in os.walk('./cpp'):
...     for dirname in dirnames:
...             print('[DIR]', dirname)
...     for filename in filenames:
...             print('[FILE]', filename)
...     break
... 
[DIR] string
[DIR] lists
[DIR] bitree
[DIR] reference
[DIR] threads
[FILE] test.cc
[FILE] binary_tree.c
[FILE] shared_ptr.cc
[FILE] get_arraysize.cc
[FILE] subset_all.cc
[FILE] bind_demo.cc
[FILE] a.out
[FILE] binary_tree.cpp

上述代码即遍历当前目录的所有文件并打印文件名,若去掉break则可以深层次遍历所有子目录。
至于后续操作则借用下列方法即可

  • os.listdir(path=None)
    获取目录下所有文件名,若未指定path则默认路径为当前目录。类似Linux下的ls命令
  • os.path.join(a, *p)
    用'/'或者其他连接符(比如windows下为'\')将路径列表连接起来
  • os.path.isdir(s)
    s为完整路径,若s为目录类型则返回True
  • os.path.splitext(p)
    p为文件路径(不一定是完整路径),返回二元组(root, ext),ext即后缀

函数式编程实现

最近刚接触了下python对函数式编程的支持,代码确实优雅不少,对性能没有严格要求的情景下这种风格的代码看起来非常舒服。

def subdir_list(dirname):
    """获取目录下所有子目录名
    @param dirname: str 目录的完整路径
    @return: list(str) 所有子目录完整路径组成的列表
    """
    return list(filter(os.path.isdir,
        map(lambda filename: os.path.join(dirname, filename),
            os.listdir(dirname))))

def file_list(dirname, ext='.csv'):
    """获取目录下所有特定后缀的文件
    @param dirname: str 目录的完整路径
    @param ext: str 后缀名, 以点号开头
    @return: list(str) 所有子文件名(不包含路径)组成的列表
    """
    return list(filter(
        lambda filename: os.path.splitext(filename)[1] == ext,
        os.listdir(dirname)))

话说这种)))))...风格的代码自从N年前学autolisp时才写过,不知道缩进风格对不对,先这样吧。

转载于:https://www.jianshu.com/p/1a787ff721ba