xpath解析html标签

发布时间：2023-09-06 01:48责任编辑：沈小雨关键词：暂无标签

最近忙一个需求：把一个字符串形式的html文档转化成excel。

分解需求：

① 实现语言 ———— python

② html解析 ———— 用 lxml库的etree工具，xpath方式解析文档树

③ 写excel ———— 用 xlwt库写excel

代码片段：

# -*- coding:utf-8 -*-
from __future__ import unicode_literals
import os, sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
import MySQLdb
import json
import xlwt
from lxml import etree

# 解析html字符串的方法

def change(data):
html = etree.HTML(str(data))
divs = html.xpath(‘//div[@class="content"]/div‘)
img_top = divs[0].xpath(‘./img/@src‘)
p_top_tmp_list = divs[0].xpath(‘./p/text()‘)

... ...

# 写excel的方法

def write_excel(filename, data):
book = xlwt.Workbook() #创建excel对象
sheet = book.add_sheet(‘sheet1‘) #添加一个表
c = 0 #保存当前列
for d in data: #取出data中的每一个元组存到表格的每一行
for index in range(len(d)): #将每一个元组中的每一个单元存到每一列
sheet.write(c,index,d[index])
c += 1
book.save(filename) #保存excel

xpath解析html标签

原文地址：https://www.cnblogs.com/yuzhaoblog/p/8781642.html

xpath解析html标签

知识推荐