-
HTTPCookieProcessor 需要登录
ProxyHandler 需要代理
HTTPSHandler 网站是使用https加密访问的
HTTPRedirectHandler 网站的url是相互的跳转关系
查看全部 -
urllib2下载网页方法:添加data http header
将爬虫伪装成浏览器
查看全部 -
创建beautifulsoup
查看全部 -
urllib2下载网页方法--1(最简介方法) import urllib2 response = urllib2.urlopen('http://wwww.baidu.com') #若状态码为200,则表示成功 print response.getcode() #读取下载的内容 cont = response.read() 2.共享处理 添加data(需要用户输入的参数)、http header(向服务器提交http信息) 将url、data、header传送给urllib2.Request生成request对象,后继续使用urllib2.urlopen(request) import urllib2 #导入模块 request = urllib2.request(url)#创建Request对象 request.add_data(‘a’,‘1’)#提交数据/如a这个数据项等于1 request.add_header(‘User-Agent’,‘Mozilla/5.0’)#添加http的header/将爬虫 伪装成Mozilla浏览器 response = urllib2.urlopen(request)#发送请求获取结果 3.添加特殊情景的处理器: 需要用户登录的需要cookie处理:HTTPCookieProcessor 代理访问:ProxyHandler HTTPS加密访问:HTTPSHandler URL相互自动跳转:HTTPRedirectHandler 将这些handler传递给urllib2的build_opener的方法来创建一个opener对象: opener = urllib2.build_opener(handler) 然后给urllib2 install_opener这个opener: urllib2.install_opener(opener) 后urllib2.urlopen(url) 或urllib2.urlopen(request)
查看全部 -
urllib2下载网页方法3
查看全部 -
urllib2下载网页方法2
查看全部 -
urllib2下载网页方法1
查看全部 -
urllib2下载网页方法3的具体代码
查看全部 -
urllib2下载网页方法3
查看全部 -
urllib2下载网页方法2的具体代码
提交变量a,他的值是1
伪装成Mozilla/5.0浏览器
查看全部 -
添加header可以向服务器提交http头信息
添加一个data可以提交用户需要输入的信息
查看全部 -
urllib2下载网页的具体代码
查看全部 -
urllib2下载网页最简洁方法
查看全部 -
python的set()可以自动去除掉集合中重复的部分
查看全部 -
简单爬虫架构
查看全部
举报