首页手记【Python3~爬虫工具】使用urllib库

【Python3~爬虫工具】使用urllib库

标签：

Python

urllib是python自带的一个库，其实也是分版本的，所以使用的时候注意版本。本文用的例子是Python3，python3内置的是Urllib2和Urllib两个库的组合。

Urllib分为四个模块，但是常用的是三个模块。

request：基本的请求模块，也就是发出请求的。
error：错误模块，比如请求超时模块，404等，#URLError和HTTPError，HTTPError是URLError的子类，专门处理Http异常消息的，比如404,500等信息。
parse：解析模块，解析请求成功偶返回的结果进行解析。
robotparser：这个模块不常用，这里不做解释。

#!/usr/local/env python#  coding:utf-8import urllib.requestimport urllib.parseimport urllib.error#下面开始介绍urllib的使用，环境语言是python3，使用下面的网址作为参考#http://www.sse.com.cn/market/bonddata/data/tb/#设置属性user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'referer = 'http://www.sse.com.cn/market/bonddata/data/ltb/'#设置headersheaders = {'User-Agent': user_agent, 'Referer': referer}#请求参数request_param = {'jsonCallBack': 'jsonpCallback6588',            'isPagination': 'true',            'sqlId': 'COMMON_BOND_XXPL_ZQXX_L',            'BONDTYPE': '地×××府债券',            'pageHelp.pageSize': '25',            'pageHelp.pageNo': '2',            'pageHelp.beginPage': '2',            'pageHelp.cacheSize': '1',            'pageHelp.endPage': '21'}request_param_encode = urllib.parse.urlencode(request_param).encode(encoding='UTF8')# 需要请求的URL地址request_url = 'http://query.sse.com.cn/commonQuery.do?'# 使用Request来设置Headersrequest = urllib.request.Request(request_url, request_param_encode, headers)#设置代理服务器proxy = urllib.request.ProxyHandler({'http':'113.214.13.1:8000'})#挂载和安装一下opener = urllib.request.build_opener(proxy)urllib.request.install_opener(opener)#具体细节开始使用try:    #这个是没有超时时间的，如果想要超时时间，可进行设置    response = urllib.request.urlopen(request)    data = response.read()    print(data.decode('utf-8'))# 异常处理模块，urllib有一个模块是error模块，是处理这块问题的#URLError和HTTPError，HTTPError是URLError的子类，专门处理Http异常消息的，比如404,500等信息except urllib.error.URLError as e:    if hasattr(e, 'code'):        print('HttpError')        print(e.code)    elif hasattr(e, 'reason'):        print("URLError")        print(e.reason)

正常这个网址，http://www.sse.com.cn/market/bonddata/data/tb/
这个网址是债券市场，正常url是直接可访问的。其实爬虫就是反复尝试，对了，就爬了。先介绍以下遇到的几种常见情况，后期会专门写一篇文章弄爬虫常见的遇到问题以及解决方式。
1、需要请求头，爬虫的时候设置请求头。
2、需要cookie，请求的时候设置cookie。
3、上一个动作来源哪里，有些接口数据可以指定来源哪个页面，如果是直接页面输入url，平台会直接返回错误，认为不是在客户正常操作。
这个网站基本就碰到了1和3这两种情况。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

远看寒山石径斜

学生

手记
篇

粉丝

25

获赞与收藏

149

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 25769 875

Python 算法入门教程

15个小节 27466 1075

Python 进阶应用教程

38个小节 65882 1036

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

【Python3~爬虫工具】使用urllib库

阅读免费教程