为了账号安全,请及时绑定邮箱和手机立即绑定

scrapy抓取网页返回的是404页面会停止

scrapy抓取网页返回的是404页面会停止

慕容森 2019-02-18 06:02:36
scrapy抓取网页返回的是404页面应该怎么做? http://www.example.com/artiles/1http://www.example.com/artiles/2.........http://www.example.com/artile...比如要抓取上面共20页的内容,些第2页面不存在,返回的是404页面,然后scrapy就停止了### 问题描述 问题出现的环境背景及自己尝试过哪些方法 相关代码 http://www.example.com/artiles/1http://www.example.com/artiles/2.........http://www.example.com/artile... 你期待的结果是什么?实际看到的错误信息又是什么? 如何解决停止问题
查看完整描述

2 回答

?
HUH函数

TA贡献1836条经验 获得超4个赞

你可以尝试使用 try 和expect 抛出异常,然后就可以跳过这个404的网址。

查看完整回答
反对 回复 2019-03-01
?
明月笑刀无情

TA贡献1828条经验 获得超4个赞

handle_httpstatus_list-官方文档

class MySpider(CrawlSpider):
    handle_httpstatus_list = [404]

这样你就能处理你的404请求,在你自己定义的Request的call_back函数中。

查看完整回答
反对 回复 2019-03-01
  • 2 回答
  • 0 关注
  • 561 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信