首页手记爬虫程序十分钟入门

爬虫程序十分钟入门

标签：

Python 大数据爬虫

经常有前端的程序员被公司临时要求做数据收集，针对某项目进行分析评估。如何才能快速的实现数据采集目标，同时减少程序的研发和运维工作，现在给大家推荐一个基本爬虫策略+爬虫代理IP的方案，从搭建项目到实现数据采集，10分钟时间就够啦，主要分成三个步骤：

1、选择适合的语言框架，一般建议python或java这类面向对象封装较多的语言，根据熟悉程度选择适合的类库使用，例如python下的requests、scrapy或java下的HttpClient、JSoup等。

2、爬虫程序对http的header添加User-Agent，避免被网站反爬统计。除非是访问网站或APP专用数据api接口，正常的HTTP请求都需要进行ua（User-Agent）优化，因为ua是浏览器标识，如果http请求没有ua，或ua太少，都会被网站运维统计异常的，ua越丰富分布就越真实。

3、选择适合的爬虫代理，直接参考demo配置使用即可，以市面上典型的一款爬虫代理产品为例，只需要查看对方的demo，提取代理信息，将目标网站修改成需要采集数据url即可。

以python示例如下

#! -- encoding:utf-8 --
import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn) 需要开订单提取新代理信息更新
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息 需要开订单提取新代理信息更新
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http"  : proxyMeta,
    "https" : proxyMeta,
}

#  设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

专业爬虫

Python工程师

手记
篇

粉丝

9

获赞与收藏

17

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27554 930

Python 算法入门教程

15个小节 30304 1172

Python 进阶应用教程

38个小节 73041 1146

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

爬虫程序十分钟入门

阅读免费教程