Python从HTML响应中提取特定变量值-小浪学习网

Python从HTML响应中提取特定变量值

本文介绍了如何使用python从html响应中提取特定的变量值，并将其保存为Python变量。主要讲解了两种方法：使用字符串函数 find() 和 split() 进行字符串操作，以及使用正则表达式 re 模块进行模式匹配。两种方法都提供了完整的代码示例，方便读者理解和应用。

当通过API请求获取到HTML响应后，有时我们需要从HTML内容中提取特定的数据，例如 JavaScript 变量的值。以下介绍两种常用的方法来实现这一目标。

方法一：使用字符串函数

这种方法适用于HTML结构相对简单，且目标变量周围的字符串具有唯一性的情况。

定位目标字符串： 首先，使用 find() 函数找到目标变量声明的起始位置。
计算起始位置偏移： find() 函数返回的是起始位置的索引，需要加上目标字符串的长度，才能得到变量值的真正起始位置。
定位变量值结束位置： 再次使用 find() 函数，从起始位置开始搜索，找到变量值的结束标志（例如单引号 ‘）。
提取变量值： 使用切片操作 [start:end]，从HTML字符串中提取变量值。

以下是一个示例代码：

立即学习“Python免费学习笔记（深入）”；

html_content = """ <html> <head> </head> <body>     <script>         function onClickButton(word) {         if (word == 'yes'){           var authorizationCode = '360ad5ce-ecfe-4ad4-83d1-9254e89a3ccc';           var state = 'c8271b81-4229-6a1f-bf9c-758f11c1f5b1';         } else {           alert(word);         }       }     </script> </body> </html> """  start = html_content.find("var authorizationCode = '") + len("var authorizationCode = '") end = html_content.find("';", start)  authorization_code = html_content[start:end]  print(authorization_code) # 输出: 360ad5ce-ecfe-4ad4-83d1-9254e89a3ccc

注意事项：

这种方法依赖于目标字符串的唯一性和稳定性。如果HTML结构发生变化，或者目标字符串不再唯一，代码可能失效。
在处理复杂的HTML结构时，这种方法可能会变得繁琐且容易出错。

方法二：使用正则表达式

正则表达式是一种强大的模式匹配工具，可以用于从文本中提取符合特定模式的字符串。

导入 re 模块： 首先，需要导入Python的 re 模块。
编写正则表达式： 根据目标变量的特征，编写合适的正则表达式。例如，可以使用 var authorizationCode = ‘([^’]*)’ 来匹配 authorizationCode 变量的值。其中，([^’]*) 表示匹配除单引号外的任意字符，并将其捕获到一个分组中。
使用 re.search() 函数： 使用 re.search() 函数在HTML字符串中搜索匹配的模式。
提取变量值： 如果找到匹配项，可以使用 results.group(1) 提取第一个分组中的内容，即变量的值。

以下是一个示例代码：

立即学习“Python免费学习笔记（深入）”；

import re  html_content = """ <html> <head> </head> <body>     <script>         function onClickButton(word) {         if (word == 'yes'){           var authorizationCode = '360ad5ce-ecfe-4ad4-83d1-9254e89a3ccc';           var state = 'c8271b81-4229-6a1f-bf9c-758f11c1f5b1';         } else {           alert(word);         }       }     </script> </body> </html> """  results = re.search("var authorizationCode = '([^']*)'", html_content)  if results:     authorization_code = results.group(1)     print(authorization_code) # 输出: 360ad5ce-ecfe-4ad4-83d1-9254e89a3ccc else:     print("未找到匹配项")

注意事项：