如何过滤网页上可见的 HTML 节点

如何过滤网页上可见的 HTML 节点

本文将介绍如何有效地过滤网页上可见的 html 节点,并提取应用于这些可见元素的字体信息。这对于开发 chrome 扩展或其他需要分析网页内容的应用场景非常有用。

首先,我们需要获取网页中的所有元素。可以使用 document.body.querySelectorAll(“*”) 方法来获取 body 元素下的所有子元素。为了方便后续的过滤操作,我们将 NodeList 转换为数组。

var childNodes = [].slice.call(document.body.querySelectorAll("*"));

接下来,我们需要过滤掉不可见的元素。一个常用的方法是检查元素的 offsetWidth 和 offsetHeight 属性。如果这两个属性的值都大于 0,则认为该元素是可见的。

var visibleNodes = childNodes.Filter(node => node.offsetWidth > 0 && node.offsetHeight > 0);

这种方法比简单地检查 cssdisplay: none 属性更可靠,因为元素可能通过其他方式隐藏,例如设置 opacity: 0 或 visibility: hidden。

立即学习前端免费学习笔记(深入)”;

获取到可见节点后,我们可以提取这些节点的字体信息。可以使用 window.getComputedStyle 方法获取元素的计算样式,并从中提取 fontFamily 属性。

var fontFamilies = visibleNodes.map(node => window.getComputedStyle(node).fontFamily).filter(ff => !!ff);

这里使用 filter(ff => !!ff) 来过滤掉空字符串NULL 值,确保字体信息的有效性。

最后,如果需要获取唯一的字体列表,可以使用 es6 的 Set 数据结构和扩展运算符 …。

var uniqueFamilies = [...new Set(fontFamilies)];

这样,uniqueFamilies 变量将包含所有可见元素使用的唯一字体列表。

总结与注意事项:

  • 使用 offsetWidth 和 offsetHeight 属性进行可见性判断是一种常用的方法,但并非绝对完美。在某些特殊情况下,可能需要结合其他方法进行更精确的判断。
  • window.getComputedStyle 方法返回的是元素的计算样式,包含了所有应用的 CSS 规则。如果需要获取特定的字体信息,例如字体大小或字体粗细,可以从计算样式中提取相应的属性。
  • 在处理大型网页时,dom 操作可能会影响性能。建议尽量减少 DOM 操作的次数,并使用高效的算法来提高性能。

通过以上步骤,我们可以有效地过滤网页上可见的 HTML 节点,并提取应用于这些可见元素的字体信息。这为开发网页分析工具和 Chrome 扩展提供了有力的支持。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享