为了账号安全,请及时绑定邮箱和手机立即绑定

解除WordPress Robots封禁问题以及robots.txt位置定位

标签:
Java

blob.jpg

点开抓取失败的红色标志,查看具体异常详情。发现是Robots封禁

webp

blob.jpg

什么是Robots封禁?

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。详情以及语法请看 百度百科-robots

问题排查

查看百度平台工具使用帮助文档

https://ziyuan.baidu.com/college/courseinfo?id=267&page=9#004

【robots封禁问题】
在抓取诊断工具中如果返回的抓取失败结论是robots封禁,请确认您是否对该网址设置了robots,阻止百度spider抓取网站的某些内容,如果您未使用robots文件屏蔽百度,请点击旁边的报错链接,百度会立即更新您站点的robots信息;如果是您的误操作导致了封禁,请及时修改robots文件,避免造成您的网站在百度收录量和流量的下降。

经过帮助文档的说明,我定位到了是网站程序封禁了,导致百度无法抓取。

定位程序问题

马上FinalShell远程连接Linux服务器

find / -name robots.txt

这行命令是查找robots.txt文件的位置

webp

blob.jpg

找到文件路径之后,直接vim 来修改robots.txt文件的内容。
通过访问域名根路径来看robots.txt文件的内容。
http://cloud.yundashi168.com/robots.txt

把robots.txt文件设置成允许百度抓取之后,发现没有得到我们想要的结果,这是怎么回事?

我重启服务器和更新域名映射都没有效果,百度那边还是抓取失败,依旧是包robots抓取异常。
我更改的文件竟然没有效果,很纳闷。

冷静之后,发现了问题所在。
由于我用的wordpress程序,所有我在wordpress后台管理界面找到了解决方法

webp

blob.jpg


把建议搜索引擎不索引本站点这个选项,设置成  不要勾选。

然后再次访问:http://cloud.yundashi168.com/robots.txt  发现问题得到了解决

百度站点管理界面再次  检测并更新。问题得到解决了。

webp

blob.jpg

问题解决

问题得到完美解决,现在也感慨网站建站事情细节问题真不少,需要慢慢学习和实践。现在百度蜘蛛能进入你的网站了。下一步,我们要做到网站能自动推送提交链接给百



作者:Arison
链接:https://www.jianshu.com/p/ea751c841c93


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消