Python中glob模块 文件路径匹配模块glob的通配符使用技巧

python的glob模块通过通配符匹配文件路径,常用符号包括、?和[]。匹配任意数量字符但不跨目录,如.txt匹配当前目录所有.txt文件;*搭配recursive=true可递归搜索;?匹配单个字符,如log_2024-01-0?.log适用于固定格式变化日志;[]限定字符集合,如[abc].txt匹配a/b/c.txt;注意默认不报错无结果且区分大小写环境差异。

python中,glob模块常用于查找符合特定规则的文件路径名。它不像正则那样复杂,但通配符的使用技巧足够应对大多数日常需求。关键在于掌握几个常用符号,并知道它们适用的场景。


通配符 * 的灵活用法

* 是最常用的通配符之一,代表“任意数量的字符(不包括目录分隔符)”。比如:

  • *.txt:匹配当前目录下所有以 .txt 结尾的文件。
  • data_*.csv:匹配类似 data_2023.csv、data_backup.csv 这样的文件名。

一个容易忽略的地方是,* 不会跨目录匹配。例如,*/*.py 可以匹配子目录中的 .py 文件,但不会进入更深一层的子目录。

如果你想递归搜索所有子目录下的 .py 文件,可以使用 **/ 搭配 recursive=True 参数:

立即学习Python免费学习笔记(深入)”;

import glob  glob.glob('**/*.py', recursive=True)

这样就能遍历所有层级目录中的 Python 文件了。


使用 ? 匹配单个字符

? 表示匹配任意一个字符。这个功能适合处理有固定格式但部分内容变化的文件名,比如日志文件:

  • log_2024-01-0?.log 可以匹配 log_2024-01-01.log 到 log_2024-01-09.log。
  • file_v?.txt 能匹配 file_v1.txt、file_v2.txt 等。

注意,? 只能匹配一个字符,不能多也不能少。如果你不确定位数,还是用 * 更合适。


使用 [ ] 匹配指定范围的字符

方括号用于限定某一位置上允许出现的字符集合,比如:

  • [abc].txt 可以匹配 a.txt、b.txt 和 c.txt。
  • [0-9].csv 匹配以数字命名的 .csv 文件,如 1.csv、9.csv。
  • [a-zA-Z]_file.txt 匹配首字母为大小写字母的文件,如 A_file.txt 或 z_file.txt。

这在需要精确控制某些字符的情况下非常有用,尤其是批量处理时减少误匹配。


注意事项与常见问题

  • glob 返回的是字符串列表,如果路径不存在,默认也不会报错,只是返回空列表。
  • 如果要区分大小写,在 windows 上默认不区分,linux 上则区分。
  • 如果你只需要判断是否存在匹配项而不关心具体有哪些文件,可以用 glob.has_magic() 来判断是否包含通配符。
glob.has_magic("*.txt")   # True glob.has_magic("hello.txt")  # False

基本上就这些。glob 模块虽然简单,但在实际脚本中很实用。只要理解好通配符的作用范围和限制,就能避免很多路径匹配上的坑。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享