分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 代码编程

BeautifulSoup去除html中的标签,获取文本

发布时间:2023-09-06 02:09责任编辑:沈小雨关键词:暂无标签

In [1]: from bs4 import BeautifulSoup

In [2]: s = ‘‘‘<div class="markdown_views">
??...: ????????????????<p>BeautifulSoup是Python的一个库,最主要的功能就是从网页
??...: 爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变
??...: 为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。</p>
??...:
??...: <h3 id="0x01-安装"><a name="t0"></a>0x01 安装</h3>
??...:
??...: <p>建议安装BeautifulSoup 4版本 利用pip进行安装:</p>‘‘‘

In [4]: bs = BeautifulSoup(s,"html.parser")

In [5]: print(bs.text)
---------------------------------------------------------------------------
UnicodeEncodeError ???????????????????????Traceback (most recent call last)
<ipython-input-5-0ea5f8e54d3a> in <module>()
----> 1 print(bs.text)

UnicodeEncodeError: ‘ascii‘ codec can‘t encode character u‘\u662f‘ in position 14: ordinal not in range(128)

In [15]: import sys

In [16]: reload(sys
???...: )
<module ‘sys‘ (built-in)>

In [17]: sys.setdefaultencoding(‘utf-8‘)

In [18]: bs = BeautifulSoup(s,"html.parser")

In [19]: print(bs.text)

BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。
0x01 安装
建议安装BeautifulSoup 4版本 利用pip进行安装:

In [20]:

BeautifulSoup去除html中的标签,获取文本

原文地址:https://www.cnblogs.com/hyhyhy/p/9447945.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved