grep 负责快速筛选匹配行,awk 负责按字段处理、计算和格式化输出;二者组合可高效解决日志分析、配置提取等实际问题。

linux 中 grep 和 awk 是文本处理的两大利器,它们分工明确又常配合使用:grep 负责“找”,快速筛选匹配行;awk 负责“拆”和“算”,按字段处理、计算、格式化输出。掌握二者组合用法,能高效解决日志分析、配置提取、数据清洗 等实际问题。
grep 基础与精准过滤技巧
grep 默认逐行匹配正则,但很多场景需要更稳更准:
- -w 匹配完整单词(如
grep -w 'Error'不会误中errors或enderror) - -E 启用扩展正则(等价于 egrep),支持
|、+、?等,例如grep -E 'fail|error' /var/log/syslog - -v 反向筛选,排除干扰行(如
grep -v '^#|^$'去掉注释和空行) - -n 显示行号,便于定位;-o 仅输出匹配部分(适合提取 IP、邮箱 等片段)
awk 核心能力:分字段、取内容、做计算
awk 默认以空白(空格 / 制表符)为分隔符,用 $1、$2…… 引用字段,$0 表示整行:
- 打印第 2 列且第 3 列大于 100:
awk '$3 > 100 {print $2}' data.txt - 统计某列出现次数:
awk '{count[$1]++} END {for (i in count) print i, count[i]}' access.log - 自定义分隔符(如冒号):
awk -F':' '$3 >= 500 {print $1}' /etc/passwd - 内置变量
NF(字段数)、NR(当前行号)很实用,比如跳过首行:awk 'NR>1 {print $1,$3}' file.csv
grep + awk 协同实战:从日志中精准提取关键信息
单独用一个命令往往不够,组合才能应对复杂需求。典型流程是:grep 快速缩小范围 → awk 精细提取或加工:
- 查 nginx 错误日志中 状态码 为 500 的请求 URL:
grep '500' /var/log/nginx/error.log | awk '{print $7}' - 提取所有 IPv4 地址并去重计数:
grep -oE '([0-9]{1,3}.){3}[0-9]{1,3}' access.log | awk '{ip[$0]++} END{for (i in ip) print i, ip[i]}' - 筛选含关键词且满足数值条件的行(先 awk 再 grep 更高效):
awk '$5 > 200 {print $0}' app.log | grep 'timeout'
避坑提醒:常见误区与替代建议
组合使用时容易忽略细节,导致结果不准或效率低下:
- grep 默认区分大小写,需加 -i 才匹配
Error和error - awk 中正则匹配用
~(如$2 ~ /abc/),等于号==是 字符串 全等,别混淆 - 大量数据时,优先用 awk 过滤再处理,比 grep 后管道传给 awk 更快(减少进程开销)
- 若需更强大字段处理(如 jsON、CSV),可考虑
jq或csvkit,但 grep+awk 已覆盖 80% 终端日常需求
基本上就这些。熟练后你会发现,一条简洁的管道命令,就能替代几十行 python 脚本——不复杂,但容易忽略细节。