分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 代码编程

Scrapy抓取360网站图片

发布时间:2023-09-06 02:04责任编辑:彭小芳关键词:暂无标签

项目名称:抓取360网站图片

目标url:http://image.so.com

项目描述:利用Scrapy的ImagePipeline抓取360网站的图片

要利用Scrapy抓取图片,第一步还是先定义item

1 # -*-coding: utf-8 -*-2 import scrapy3 4 class ImageItem(scrapy.Item):5 ????image_urls = scrapy.Field()

第二步是在settings.py中打开ImagePipeline,然后定义一下文件的存储路径。

1 ITEM_PIPELINES = {2 ????‘scrapy.pipelines.images.ImagesPipeline‘: 1,3 }4 5 IMAGES_STORE = ‘alfred_images‘

第三步就是写spider了

 1 # -*- coding: utf-8 -*- 2 import scrapy 3 import json
??from ..items import ImageItem 4 ?5 class ImagesSpider(scrapy.Spider): 6 ????name = ‘images‘ 7 ????start_urls = ‘http://image.so.com/zj?ch=home&sn=90&listtype=new&temp=1‘ 8 ?9 ????def parse(self, response):10 ????????pics = json.loads(response.body) #因为返回的是json数据,所有这里多了一个解析的步骤11 ????????for i in pics[‘list‘]:12 ????????????item = ImageItem()13 ????????????item[‘image_urls‘] = [i["qhimg_url"]] #这里注意,图片的url必须放在一个列表中,否则会出现异常14 ????????????yield item

几个要注意的地方:

  1.最好在item.py中定义好image_urls = Field()

  2.记得在settings中开启ImagePipeline,并且定义好图片储存路径

  3.图片的url必须放在列表中,必须放在列表中,必须放在列表中。

Scrapy抓取360网站图片

原文地址:https://www.cnblogs.com/Alfred-ou/p/9329392.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved