python解析 html 有五种常用方法:一、beautifulsoup(易用,容错强);二、lxml(高性能,支持 XPath);三、PyQuery(jquery语法,可读性好);四、正则表达式 (轻量,适用于简单固定结构);五、html.parser(内置,需手动处理 事件)。

如果您需要从 HTML 文档中提取结构化数据,Python 提供了多种库来解析 HTML 内容。以下是几种常用且有效的解析方法:
一、使用 BeautifulSoup 解析 HTML
BeautifulSoup 是一个专为解析 HTML 和 XML 设计的 Python 库,它能自动处理不规范的 HTML 标签,并提供简洁的 API 来定位和提取元素。
1、安装库:运行命令 pip install beautifulsoup4。
2、导入模块:在 python 脚本 中写入 from bs4 import BeautifulSoup。
立即学习“Python 免费学习笔记(深入)”;
3、加载 HTML 内容:使用 BeautifulSoup(html_content, ‘html.parser’) 创建解析 对象。
4、查找元素:调用 soup.find(‘tag_name’) 或 soup.find_all(‘div’, class_=’example’) 提取目标节点。
5、获取文本:对结果对象调用 .get_text() 方法提取纯文本内容。
二、使用 l xml 解析HTML
lxml 是基于 libxml2 和 libxslt 的高性能 XML/HTML 解析库,支持 XPath 和 css 选择器,解析速度显著优于 BeautifulSoup。
1、安装库:运行命令 pip install lxml。
2、导入模块:在 Python 脚本中写入 from lxml import html。
3、解析 HTML字符串:使用 tree = html.fromstring(html_content) 构建文档树。
4、执行 XPath 查询:调用 tree.xpath(‘//div[@class=”content”]/text()’) 获取匹配文本节点。
5、提取属性值:使用 tree.xpath(‘//a/@href’) 提取所有链接的 href 属性。
三、使用 PyQuery 模拟 jQuery 语法解析 HTML
PyQuery 提供类似 jQuery 的选择器语法,适合熟悉 前端 开发的用户快速上手,底层依赖 lxml,兼顾可读性与性能。
1、安装库:运行命令 pip install pyquery。
2、导入模块:在 Python 脚本中写入 from pyquery import PyQuery as pq。
3、加载 HTML:使用 doc = pq(html_content) 初始化 PyQuery 对象。
4、选择元素:调用 doc(‘div.title’) 选取所有 class 为 title 的 div 元素。
5、链式提取:使用 doc(‘span.price’).text().strip() 直接获取并清理文本内容。
四、使用 正则表达式 提取简单 HTML 片段
对于格式高度固定、结构极其简单的 HTML 片段,可直接使用 re 模块进行轻量级匹配,避免引入额外依赖。
1、导入模块:在 Python 脚本中写入 import re。
2、编写匹配模式:定义如 r’
3、执行搜索:调用 re.search(pattern, html_content) 获取第一个匹配结果。
4、提取分组:使用 match.group(1) 获取括号内捕获的内容。
5、处理多匹配:改用 re.findall(pattern, html_content) 获取全部匹配项列表。
五、使用 html.parser 标准库解析 HTML
Python 内置的 html.parser 模块无需安装第三方依赖,适用于基础解析任务,但需手动实现 Handler 类处理事件流。
1、导入模块:在 Python 脚本中写入 from html.parser import HTMLParser。
2、定义解析器类:继承 HTMLParser 并重写 handle_starttag()、handle_data() 等方法。
3、初始化解析器:创建实例 parser = MyHTMLParser()。
4、馈送 HTML:调用 parser.feed(html_content) 启动解析过程。
5、访问结果:在自定义 Handler 中通过实例变量收集解析后的数据。
以上就是