爬虫会对服务器造成影响,怎么减少对服务器的影响,慢慢爬取,我爬一个网站做实验,结果没弄几下就被访问限制了怎么解决
2 回答
qq_吴富顺
TA贡献1条经验 获得超0个赞
具体是看对方用什么防御机制。Iptables 防御, 爬取行为判定, cookies, captcha
爬虫有分恶意爬虫和善意爬虫 googlebot 和baiduspider都属于善意爬虫
如果你不考虑恶意或者善意 可以用代理IP把爬虫变得隐蔽起来。
在IP不断变换下判定机制不容易判断到你的爬虫。
把User-agent和代理IP弄一弄。然后大约在查询20-30个左右就换一个IP和user-agent。
服务器管理员和判定机制不触发你就不会被访问限制了。
添加回答
举报
0/150
提交
取消