已解决430363个问题，去搜搜看，总会有你想问的

Python爬虫如何正确判断页面是否可以爬取？

首页猿问 ...

Python爬虫如何正确判断页面是否可以爬取？

Python 爬虫

MM们 2018-10-05 15:27:20

用Python27些爬虫，想要爬取一些网站，我需要判断网页是否可以爬取，第一反应是通过状态码来判断，但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面，可他的状态码却是200，结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题，但是现在也不能用状态码来判断了，请问还有什么方法可以正确判断一个页面是不是404该不该爬？

查看完整描述