分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 软件开发

01-urllib库添加headers的一般方法

发布时间:2023-09-06 02:11责任编辑:赖小花关键词:url

2018-08-23 13:07:57

对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。

方法一:借助build_opener和addheaders完成

1 import urllib.request2 url="http://www.meizitu.com"3 #注意:在urllib 中headers是元组4 headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")5 6 opener=urllib.request.build_opener()7 opener.addheaders=[headers]8 data=opener.open(url)9 print(data.read())

注意:此处的headers要写为一个元组类型才可以。写为字典类型的话会报错!

方法二、创建一个Request实例对象

 1 # 案例1 2 import urllib.request 3 url="http://www.meizitu.com" 4 #注意:在urllib 中这种的headers 是需要是字典的 5 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"} 6 req=urllib.request.Request(url=url,headers=headers) 7 file=urllib.request.urlopen(req) 8 ?9 #出现有些解码错误的话,加上“ignore”就可以啦10 print(file.read().decode("utf-8",‘ignore‘))
  • 注意:此处的headers要写为一个字典类型才可以。
  • 创建一个Reques对象,把需要的headers,url,proxy 都放进去,或者在post 请求中还可以把编码过后的data 值放进去,再用urlopen 打开,就比较方便了。

另外,这种方法还可以用add_headers()来添加headers,代码如下:

 1 import urllib.request 2 try: 3 ????url="http://www.meizitu.com" 4 ?????5 ????req=urllib.request.Request(url=url) 6 ??7 ????req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE") 8 ????file=urllib.request.urlopen(req,timeout=10.1) 9 10 ????print(file.read().decode("utf-8",‘ignore‘))11 except Exception as e:12 ????print("时间超时",str(e))

总结:通过以上两种方法,可以完成请求头的相关参数设置,但是得注意headers是用字典类型来传入还是元组类型。

01-urllib库添加headers的一般方法

原文地址:https://www.cnblogs.com/jiyongjia/p/9523208.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved