首页手记隧道转发相同请求一个IP

隧道转发相同请求一个IP

标签：

爬虫

随着网络爬虫的增多，越来越多的人使用代理IP，从之前的传统的API代理到如今的隧道转发爬虫代理。使用代理的方式也多变化了。传统的API代理调用方式也不比多说，相信许多爬虫也都知道如何去调试API接口。其实隧道转发的爬虫代理是大家不常见的使用方式，大家都想知道如何去调用隧道转发的爬虫代理。一般网络爬虫使用Python语言偏多。我们就以python爬虫为例去调用隧道转发的爬虫代理

这里以scrapy例举demo：

        #! -*- encoding:utf-8 -*-
        import base64            
        import sys
        import random

        PY3 = sys.version_info[0] >= 3

        def base64ify(bytes_or_str):
            if PY3 and isinstance(bytes_or_str, str):
                input_bytes = bytes_or_str.encode('utf8')
            else:
                input_bytes = bytes_or_str

            output_bytes = base64.urlsafe_b64encode(input_bytes)
            if PY3:
                return output_bytes.decode('ascii')
            else:
                return output_bytes

        class ProxyMiddleware(object):                
            def process_request(self, request, spider):
                # 代理服务器(产品官网 www.16yun.cn)
                proxyHost = "t.16yun.cn"
                proxyPort = "31111"

                # 代理验证信息
                proxyUser = "username"
                proxyPass = "password"

                request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)

                # 添加验证头
                encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
                request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass                    

                # 设置IP切换头(根据需求)
                tunnel = random.randint(1,10000)
                request.headers['Proxy-Tunnel'] = str(tunnel)

通过用户名和密码的形式进行身份认证，该认证信息最终会转换为协议头跟随请求一起发出

这里就许多爬虫用户反问，使用传统的API代理去采集数据，可以多个请求在一个IP上发出，那隧道转发的爬虫代理如何实现这种功能，其实这个问题完全不用担心，早在开发隧道转发的爬虫代理时已经解决了这个问题。

Proxy-Tunnel自主切换IP：

该模式适合一些需要登陆、Cookie缓存处理等爬虫需要精确控制IP切换时机的业务。爬虫程序可以通过设置HTTP头Proxy-Tunnel: 随机数，当随机数相同时,访问目标网站的代理IP相同。

例如：需要登录,获取数据两个请求在一个IP下,只需对这组请求设置相同Proxy-Tunnel,例如:Proxy-Tunnel: 12345，该组请求在代理有效期内使用相同的代理IP。

注意：同一时间不同请求组可以设置不同Proxy-Tunnel: 随机数,并发完成数据爬取。

使用相同IP访问HTTPS目标网站：使用Connection: keep-alive和Proxy-Connection: keep-alive方式访问目标网站,代理会确保在一个会话中的所有请求都通过一个IP到达目标网站 2 设置相同Proxy-Tunnel,有些库封装比较高层次,请务必确认向代理发送了该HTTP头。

                # 设置IP切换头(根据需求)
                tunnel = random.randint(1,10000)
                request.headers['Proxy-Tunnel'] = str(tunnel)

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

亿牛云爬虫专家

产品经理

手记
篇

粉丝

1

获赞与收藏

3

关注作者，订阅最新文章

阅读免费教程

Python 原生爬虫教程

19个小节 52556 1141

Scrapy 入门教程

27个小节 10714 256

后端通用面试教程

41个小节 31318 347

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

隧道转发相同请求一个IP

阅读免费教程