Xpath 提取html整个元素（标签与内容）

发布时间：2023-09-06 01:36责任编辑：郭大石关键词：暂无标签

提取html某标签中文字时，文字中含有：“<sub>2</sub>O<sub>5</sub>”，导致提取的文字不符合预期。

解决方法：

#coding=utf-8from lxml import etreefrom HTMLParser import HTMLParserhtml = u‘‘‘<html> ???<span id="chTitle">退火对Nb<sub>2</sub>O<sub>5</sub>薄膜的折射率和厚度的影响</span></html>‘‘‘tree = etree.HTML(html)# 结果为：退火对Nbcontent1 = tree.xpath("//span[@id=‘chTitle‘]/text()")[0]print content1# 结果为：退火对Nb<sub>2</sub>O<sub>5</sub>薄膜的折射率和厚度的影响table = tree.xpath("//span[@id=‘chTitle‘]")[0]content2 = etree.tostring(table, method=‘html‘)print HTMLParser().unescape(content2)[19:-8]

原文地址：https://www.cnblogs.com/zhangtianyuan/p/8297117.html

知识推荐

https://www.jianshu.com/p/4da29fa310d2
【三十四】thinkphp之curd操作
PHP使用PDO进行事务处理
JS基础-面向对象的程序设计
.Net 5分钟搞定网页实时监控
JSP标准标签库：JSTL
css多行文本换行
vs code使用tab自动补全html代码
jsp基础了解
使用Metasploit工作区
<mvc:annotation-driven>注册了什么
jquery 对 table 的操作
URI和URL的区别（转）
web前端性能优化
Three.js学习笔记05
tp5 隐藏index.php 邓士鹏
NHibernate概括
tomcat 配置https