scrapy 采集网页出现丢失url的问题

发布时间：2023-09-06 02:34责任编辑：董明明关键词：url

url_list = ["http://www.icoat.cc/news/list_18_3.html", "http://www.icoat.cc/news/list_18.html",
???????????????????"http://www.icoat.cc/news/list_18_2.html",
???????????????????]
???????for ls in url_list:
???????????　　yield scrapy.Request(url=ls, headers=header, callback=self.parseList, meta={"hd": header})

采集的过程中发现丢失了很多url,而且url_list中只采集了前两个，不知道为什么，google后发现加上dont_filter后可以解决丢失url的问题

yield scrapy.Request(url=ls, headers=header, callback=self.parseList, meta={"hd": header}, dont_filter=True)

scrapy 采集网页出现丢失url的问题

原文地址：https://www.cnblogs.com/fly-kaka/p/10482355.html

知识推荐

Node.js安装与NPM使用介绍
一些资源网站..
JSON Assertion（JSON断言）
JS中的输入prompt（）
关于ajax请求数据，并将数据赋值给全局变量的一些解决方法
Docker 在容器中部署静态网站
kubernetes之kubectl命令用法总结
浅谈PHP中pack、unpack的详细用法
html页面布局之table布局：
.Net core下的配置设置（二）——Option
JS去除空格和换行的正则表达式(推荐)
发布xxl-job executor dotnet core 执行器的实现
js编码方式详解
HTML5的自定义属性的使用总结
CSS3背景 background-origin
JS第二部分--DOM文档对象模型
JS 详解 Cookie、 LocalStorage 与 SessionStorage
ASP.NET Core开发总结