-
urllib2下载网页方法2:代码查看全部
-
urllib2下载网页方法2:添加data、http header查看全部
-
urllib2下载网页方法1:最简单的方法查看全部
-
网页下载器查看全部
-
URL管理器-实现方式查看全部
-
URL管理器查看全部
-
简单爬虫架构-运行流程查看全部
-
爬虫简单架构查看全部
-
搜索节点查看全部
-
4种网页解析器查看全部
-
爬虫框架查看全部
-
urllib2方法2: 向服务器提交用户需要输入的数据 将url使用urllib2的Request方法生成一个request对象 request对象可以向服务器提交data和http header 另外可以使用urlopen方法将request对象作为参数向网页提交下载请求 import urllib2 request = urllib2.Request(url) #创建Request对象 request.add_dara('a','1') #添加数据 request.add_header('User-Agent','Mozilla/5.0) #添加http的header 这里伪装成了一个Mozilla浏览器 response = urllib2.urlopen(request) #发送请求获取结果 urllib2下载方法3: 添加特殊情况的处理器 HTTPCookueProcessor #添加以处理需要用户登录才能访问的网页 ProxyHandler #添加以处理需要代理才能访问的网页 HTTPSHandler #添加以处理HTTPS加密协议的网页 HTTPREdirectHandler #添加以处理URL之间自动相互跳转的网页 讲这些handler传给urllib2的build_opener(handler)方法创建opener对象 然后给urllib2下载这个opener使用urllib2的install_opener(opener)方法 这样urllib2就具有了这些场景的处理能力 然后仍然使用urllib2的urlopen(url)方法请求一个url或request 实现网页的下载 代码如下:#举个栗子 我们增强cookie的处理 import urllib2, cookielib cj = cookielib.CookieJar( ) #创建cookie容器 opener = urllib2.build_opener(urllib2.HTTPCookieProcessir(cj)) #创建1个opener urlib2,install_opener(opener) #给urllib2安装opener response = urllib2.urlopen("http://www.baidu.com/") #使用带有cookie的urllib2访问网页查看全部
-
截图1查看全部
-
url管理器查看全部
-
体会到:函数里面有多个函数的作用。比如说geturl(一个特例)里面有getcode()、read()等,给这个特例执行geturl操作后,geturl函数里面的函数都和这个特例联系上了。查看全部
举报
0/150
提交
取消