class HtmlDownloader(object):
def download(self,url):
if url is None:
return None
reponse=urllib2.urlopen(url)
if response.getcode() != 200:
return None
return response.read()
def download(self,url):
if url is None:
return None
reponse=urllib2.urlopen(url)
if response.getcode() != 200:
return None
return response.read()
2017-10-30
getcode() 200页面请求的状态值,
分别有:
200请求成功、
303重定向、
400请求错误、
401未授权、
403禁止访问、
404文件未找到、
500服务器错误
分别有:
200请求成功、
303重定向、
400请求错误、
401未授权、
403禁止访问、
404文件未找到、
500服务器错误
2017-10-30
import urllib2
import cookielib
print '第三种方法'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()
import cookielib
print '第三种方法'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()
2017-10-30
抓取内容:
url格式
数据格式
网页编码
一、URL格式:
词条页面URL:/view/125370.htm
这不是一个完整的URL 在代码中我们需要加上baidubke使其成为完整的URL才能爬取
二,数据格式:
标题: dd class h1
简介:div class lemma- summary
三,页面编码:utf-8
url格式
数据格式
网页编码
一、URL格式:
词条页面URL:/view/125370.htm
这不是一个完整的URL 在代码中我们需要加上baidubke使其成为完整的URL才能爬取
二,数据格式:
标题: dd class h1
简介:div class lemma- summary
三,页面编码:utf-8
2017-10-29