在下面的部分[1]中,我们将探讨如何利用用户定义的特定模式来过滤文本或字符串。
在文本过滤过程中,有时您希望根据特定条件或模式来识别输入文件中的某些行或字符串。Awk 工具在这方面非常有效,这也是其强大功能之一,您将发现它非常有用。
让我们通过一个示例来看看具体操作。假设您有一份名为 food_prices.list 的购物清单,列出了您想购买的食品及其价格。
以下是该文件的内容:
cat food_prices.list No Item_Name Quantity Price 1 Mangoes 10 $2.45 2 Apples 20 $1.50 3 Bananas 5 $0.90 4 Pineapples 10 $3.46 5 Oranges 10 $0.78 6 Tomatoes 5 $0.55 7 Onions 5 $0.45
假设您希望在价格高于 2 美元的食品后面添加一个 (*) 符号,可以通过运行以下命令来实现:
awk '/ *$[2-9].[0-9][0-9] */ { print $1, $2, $3, $4, "*" ; } / *$[0-1].[0-9][0-9] */ { print ; }' food_prices.list
从上面的输出可以看到,芒果和菠萝的行末尾添加了 (*) 符号,因为它们的价格超过了 2 美元。
在这个示例中,我们使用了两种模式:
第一个模式:/ $[2-9].[0-9][0-9] */ 用于识别价格高于 2 美元的行。第二个模式:/ $[0-1].[0-9][0-9] */ 用于查找价格低于 2 美元的行。文件中有四个字段,当检测到价格高于 2 美元的行时,它会打印所有四个字段,并在行末添加一个 (*) 符号作为标记。
第二个模式则简单地打印 food_prices.list 文件中价格低于 2 美元的其他行。
通过这种方法,您可以利用特定模式的操作来过滤出价格高于 2 美元的食品,尽管输出存在一些问题,即带有 (*) 符号的行的格式与其他行不同,导致输出不够清晰。
有两种方法可以解决这个问题:
使用 printf 命令,虽然这种方法较为繁琐和单调,如下所示:
$ awk '/ *$[2-9].[0-9][0-9] */ { printf "%-10s %-10s %-10s %-10sn", $1, $2, $3, $4 "*" ; } / *$[0-1].[0-9][0-9] */ { printf "%-10s %-10s %-10s %-10sn", $1, $2, $3, $4; }' food_prices.list
使用 $0 字段。Awk 使用变量 0 来存储整行输入。这对于解决上述问题非常方便且高效,如下所示:
$ awk '/ *$[2-9].[0-9][0-9] */ { print $0 "*" ; } / *$[0-1].[0-9][0-9] */ { print ; }' food_prices.list
总结:这些是利用特定模式来过滤文本的简单方法,可以帮助您使用 Awk 命令标记文件中的文本行或字符串。
未完待续,欢迎关注!