分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 前端开发

爬虫2 urllib3 爬取30张百度图片

发布时间:2023-09-06 02:29责任编辑:沈小雨关键词:url爬虫
import urllib3import re# 下载百度首页页面的所有图片# 1. ???找到目标数据# page_url = ‘http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=others&pos=0‘# http = urllib3.PoolManager()# res = http.request(‘get‘,page_url)# print(res.data.decode(‘utf-8‘))# Ajax的ajax_url = ‘http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%9B%BE%E7%89%87&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&word=%E5%9B%BE%E7%89%87&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&expermode=&force=&pn=30&rn=30&gsm=1e&1546957772498=‘http = urllib3.PoolManager()res = http.request(‘get‘,ajax_url)# print(res.data.decode())img_urls = re.findall(r‘"thumbURL":"(.*?),‘,res.data.decode())# print(img_urls)# print(len(img_url))headers = { ???‘Referer‘:‘https://www.baidu.com/s?ie=utf-8&wd=%E5%9B%BE%E7%89%87‘}for i , img_url in enumerate(img_urls): ???# print(img_url) ???img = http.request(‘get‘,img_url,headers=headers)

爬虫2 urllib3 爬取30张百度图片

原文地址:https://www.cnblogs.com/cxhzy/p/10260839.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved