正则表达式中最常用的特殊字符包括^和$用于匹配边界,.、d、w、s作为通配符,()和[]用于分组与集合,*、+、?、{n,m}控制重复次数,用来转义特殊字符。^匹配起始位置,$匹配结束位置;.匹配任意字符,d匹配数字,w匹配字母数字或下划线,s匹配空白;[]匹配括号内任意一个字符,()将多个字符视为整体;*表示0次或多次,+表示至少一次,?表示0次或1次,{n,m}指定次数范围;需用对特殊字符进行转义以匹配其字面值。掌握这些符号及其组合即可应对多数正则使用场景。
正则表达式里的特殊字符确实不少,而且它们各自有不同的含义和用法。如果你不熟悉这些符号,写正则的时候很容易出错或者达不到预期效果。下面我简单说几个最常用的特殊字符,以及怎么在实际中使用它们。
匹配边界:^ 和 $
这两个符号用于指定字符串的起始和结束位置。
比如你想匹配一整行刚好是“hello”的内容,而不是包含“hello”的其他内容,可以这样写:
^hello$
- ^hello 表示以“hello”开头;
- hello$ 表示以“hello”结尾;
- 同时加上两个符号就表示“整个字符串只能是hello”。
这个技巧在验证输入格式(如邮箱、手机号)时非常有用,避免出现部分匹配的问题。
通配符:.、d、w、s
这些是用来匹配特定类型字符的简写方式:
- . 匹配任意一个字符(除了换行);
- d 匹配数字,等价于 [0-9];
- w 匹配字母、数字或下划线,相当于 [a-zA-Z0-9_];
- s 匹配空白字符,包括空格、制表符、换行等。
举个例子,如果你想匹配类似IP地址中的数字段,可以用 d{1,3}.d{1,3}.d{1,3}.d{1,3}。不过要注意点号 . 是特殊字符,如果想匹配字面意义的点,需要加反斜杠转义。
分组与重复:()、[]、*、+、?、{n,m}
这部分是构建复杂规则的关键:
- [] 表示匹配括号内的任意一个字符,例如 [abc] 只匹配 a、b 或 c;
- () 是分组,把多个字符当做一个整体来处理;
- * 表示前一个元素出现0次或多次;
- + 表示至少出现一次;
- ? 表示可有可无(0次或1次);
- {n,m} 指定次数范围,比如 d{3,5} 表示3到5个数字。
常见用途比如匹配电话号码、身份证号等固定长度的字符串,或者提取网页标签里的内容。
转义字符:
有些字符本身是正则语法的一部分,比如上面提到的 .、*、+ 等。如果你想匹配这些字符本身的字面意思,就需要在前面加一个反斜杠 来转义。
例如:
- 匹配邮箱地址中的点号 .com,应该写成 .;
- 匹配左括号 (,就要写成 (。
如果不转义,这些字符会被当作正则语法处理,容易导致匹配结果不符合预期。
基本上就这些。掌握这几个常用符号,再结合具体场景组合使用,就能写出大多数日常需要用到的正则表达式了。