分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 网页技术

爬虫requests爬去网页乱码问题

发布时间:2023-09-06 01:56责任编辑:林大明关键词:乱码乱码问题爬虫

1:res.apparent_encoding

2:res.encoding=‘utf-8‘

r.encoding从HTTP header中猜测的响应内容编码方式
r.apparent_encoding从内容中分析出的响应内容编码方式(备选编码方式)

                r.encoding:如果header中不存在charset,则认为编码为ISO-8859-1
                r.apparent_encoding:根据网页内容分析出的编码方式

res.encoding=res.apparent_encoding

                                  https://www.jianshu.com/p/d78982126318

import requests
url = ‘http://www.chinanews.com/gn/2018/05-24/8521399.shtml‘
res = requests.get(url)
res.content
res.encoding #获取res的编码格式
res.headers ??#获取Content-Type内容
res.apparent_encoding ??#获取网页正确的编码格式
#html = res.text# 返回的结果是处理过的Unicode类型的数据
print(res.encoding)#获得网页源码的格式 打印显示 ISO-8859-1
print(res.content){网上一个大神的实验}

爬虫requests爬去网页乱码问题

原文地址:https://www.cnblogs.com/leolaosao/p/9085462.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved