blob.jpg
点开抓取失败的红色标志,查看具体异常详情。发现是Robots封禁
blob.jpg
什么是Robots封禁?
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。详情以及语法请看 百度百科-robots
问题排查
查看百度平台工具使用帮助文档
https://ziyuan.baidu.com/college/courseinfo?id=267&page=9#004
【robots封禁问题】
在抓取诊断工具中如果返回的抓取失败结论是robots封禁,请确认您是否对该网址设置了robots,阻止百度spider抓取网站的某些内容,如果您未使用robots文件屏蔽百度,请点击旁边的报错链接,百度会立即更新您站点的robots信息;如果是您的误操作导致了封禁,请及时修改robots文件,避免造成您的网站在百度收录量和流量的下降。
经过帮助文档的说明,我定位到了是网站程序封禁了,导致百度无法抓取。
定位程序问题
马上FinalShell远程连接Linux服务器
find / -name robots.txt
这行命令是查找robots.txt文件的位置
blob.jpg
找到文件路径之后,直接vim 来修改robots.txt文件的内容。
通过访问域名根路径来看robots.txt文件的内容。
http://cloud.yundashi168.com/robots.txt
把robots.txt文件设置成允许百度抓取之后,发现没有得到我们想要的结果,这是怎么回事?
我重启服务器和更新域名映射都没有效果,百度那边还是抓取失败,依旧是包robots抓取异常。
我更改的文件竟然没有效果,很纳闷。
冷静之后,发现了问题所在。
由于我用的wordpress程序,所有我在wordpress后台管理界面找到了解决方法
blob.jpg
把建议搜索引擎不索引本站点这个选项,设置成 不要勾选。
然后再次访问:http://cloud.yundashi168.com/robots.txt 发现问题得到了解决
百度站点管理界面再次 检测并更新。问题得到解决了。
blob.jpg
问题解决
问题得到完美解决,现在也感慨网站建站事情细节问题真不少,需要慢慢学习和实践。现在百度蜘蛛能进入你的网站了。下一步,我们要做到网站能自动推送提交链接给百
作者:Arison
链接:https://www.jianshu.com/p/ea751c841c93
共同学习,写下你的评论
评论加载中...
作者其他优质文章