为了账号安全,请及时绑定邮箱和手机立即绑定

爬虫正传-江湖路远-0104-狡兔三窟

那是一个繁忙的午后:
:最近忙什么呢,服务器大佬?
:别提了,之前收拾了几个不懂事的小游侠,还没有消停几天,压力又上来了!
:怎么回事?不是捣乱的数据请求都已近被干掉了吗?
:按照之前的规则倒是短时间减轻了压力,但是不知道怎么回事,最近一段时间用户还是原来那些用户,但是请求数量比正常参考值多出太多了!
:( ⊙ o ⊙ )啊!(思考中)..是不是有非法用户一直访问服务器数据,二十四小时不间断的?
:(⊙v⊙)Bingo!我回去查查,只要是每个小时访问量超出正常值的用户,直接给屏蔽掉,不让访问就可以了!

:..数据怎么又请求不到了..
:断网了吧?
:没有断网啊……咦,浏览器都不能访问这个网站了
:你被人屏蔽了吧
:……

:沙滩啊大海,阳光啊蓝天,整个世界清静了..

很多年以后,少侠发现姜果然还是老的辣,吸取经验教训之后,终于成就了一袋大虾,通过抓取壮丁的方式掩藏自己的行踪,这样即使壮丁被祭天了,大虾还是在幕后干着行侠仗义的大事:这里~我们就来看看爬虫程序怎么通过代理IP地址来掩盖自己的信息!

urllib2中的urlopen方式,是通过默认的HTTPHandler(HTTP请求操作对象:开锁人)直接进行操作的,如果要使用代理IP地址的方式,就需要更改使用代理操作对象(ProxyHandler)进行代理绑定的操作,之后通过build_opener构建具体开锁人对象,完成数据的代理请求


# coding:utf-8

from urllib2 import Request, build_opener, ProxyHandler

# 构建请求对象

url = [http://www.sina.com.cn](http://www.sina.com.cn/)

headers = {

    ‘User-agent’: ‘..’

}

requset = Request(url, headers=headers)

# 构建代理对象

proxy_handler = ProxyHandler({‘https’: ‘代理IP:端口’})

my_opener = build_opener(proxy_handler)

# 使用自定义代理对象访问服务器获取数据

response = my_opener.open(request)

# 打印展示数据

print(response.read())

运行程序,程序会通过代理IP地址进行服务器数据的请求,我们通过代理服务器获取代理接受到的响应数据,此时~大虾自己的IP地址被代理隔离不会再暴露在服务器大佬的视线中了

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
全栈工程师
手记
粉丝
1.7万
获赞与收藏
547

关注作者,订阅最新文章

阅读免费教程

  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消