Python正则如何匹配浮点数?各种格式处理

要全面匹配python中各种格式的浮点数,需考虑基础格式、科学计数法及正负号等要素。1. 基础格式包括整数和小数部分组合,如123.456、.789或0.0,正则应支持可选符号、可省略的整数或小数点部分,但需避免匹配非法值如“.”;2. 科学计数法格式如123e5或-1.2e-3,需添加非捕获组(?:ee?d+)?以匹配指数部分;3. 完整正则表达式为r’^[-+]?(d+.d*|.d+|d+)(?:ee?d+)?$’,涵盖所有合法格式并确保完整匹配;4. 实际使用时可根据需求调整,如排除纯整数、处理多数值行或提取全部匹配项,并注意分组与锚定符的使用。

Python正则如何匹配浮点数?各种格式处理

匹配浮点数是python正则表达式中一个常见但容易出错的任务。因为浮点数有多种格式,比如带小数点的、科学计数法表示的、正负号开头的等等。如果只写一种简单的模式,很容易漏掉一些合法形式。

Python正则如何匹配浮点数?各种格式处理

要全面匹配各种格式的浮点数,需要考虑以下几个方面:

Python正则如何匹配浮点数?各种格式处理


1. 基础格式:整数和小数部分组合

浮点数最基本的格式就是由整数部分、小数点和小数部分组成。例如:123.456 或 .789(以小数点开头)或 0.0 等。

立即学习Python免费学习笔记(深入)”;

对应正则可以这样写:

Python正则如何匹配浮点数?各种格式处理

r'[-+]?[0-9]*.?[0-9]+'

说明:

  • [-+]? 表示可选的正负号
  • [0-9]* 表示整数部分可有可无(支持.789这种写法)
  • .? 表示小数点可有可无(不过为了确保是浮点数,最好保留)
  • [0-9]+ 表示小数部分必须存在

不过这个正则也有问题,比如会匹配类似 . 这种非法值,所以需要更精确。


2. 支持科学计数法(e/E 后面跟整数)

像 123e5、-1.2E-3 这样的格式也属于合法浮点数。

这部分可以这样补充:

(?:[eE][-+]?[0-9]+)?

解释:

  • (?:…) 是非捕获组,不影响整体结构
  • 匹配 e 或 E 开头的指数部分
  • 指数部分也可以有正负号,如 -3 或 +4
  • 指数必须是整数(不能是小数)

把这部分加到前面的正则后面,就形成了完整的浮点数匹配逻辑。


3. 完整正则表达式及使用方式

综合上面两个部分,完整正则如下:

r'^[-+]?([0-9]+.[0-9]*|.[0-9]+|[0-9]+)(?:[eE][-+]?[0-9]+)?$'

说明一下各部分含义:

  • ^…$ 表示从头到尾完全匹配,防止匹配到中间非法字符
  • ([0-9]+.[0-9]*|.[0-9]+|[0-9]+) 表示三种合法的小数格式:
    • 数字.数字,如 123.456
    • .数字,如 .789
    • 纯整数,如 123(这种情况可能会超出“浮点”范围,但有些场景也需要包含)

这个正则可以覆盖大多数标准浮点数格式,包括:

  • 123.456
  • .789
  • 123
  • -123.45e67
  • +0.123E-45

4. 实际使用建议与注意事项

在实际使用中,有几个细节需要注意:

  • 如果你只想匹配“真正的小数”,那应该排除纯整数的情况(即去掉最后的 | [0-9]+ 部分)
  • 如果你的输入可能包含多个数值在同一行,去掉 ^ 和 $ 锚定符
  • 如果想提取字符串中的所有浮点数,可以用 re.findall() 方法

举个例子:

import re  text = "这里有几个数:123.45, .67, -89.0E-2, +1.2E3 和 789" pattern = r'[-+]?([0-9]+.[0-9]*|.[0-9]+)(?:[eE][-+]?[0-9]+)?'  matches = re.findall(pattern, text) print(matches)  # 输出结果包含符合格式的部分

注意:上面这个例子中,由于用的是 findall,而我们用了分组(括号),所以输出的是第一个捕获组的内容,不一定准确。如果你只是要整个匹配项,记得使用非捕获组或者调整括号结构。


基本上就这些了。写正则匹配浮点数不复杂,但要处理各种格式确实容易遗漏。只要根据具体需求灵活调整正则结构,就能满足大部分场景。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享