import urllib2
import cookielib
print '第三种方法'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()
import cookielib
print '第三种方法'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()
2017-10-30
抓取内容:
url格式
数据格式
网页编码
一、URL格式:
词条页面URL:/view/125370.htm
这不是一个完整的URL 在代码中我们需要加上baidubke使其成为完整的URL才能爬取
二,数据格式:
标题: dd class h1
简介:div class lemma- summary
三,页面编码:utf-8
url格式
数据格式
网页编码
一、URL格式:
词条页面URL:/view/125370.htm
这不是一个完整的URL 在代码中我们需要加上baidubke使其成为完整的URL才能爬取
二,数据格式:
标题: dd class h1
简介:div class lemma- summary
三,页面编码:utf-8
2017-10-29
获取p段落文字 然后指定其class 来获取它的内容
print'获取p段落文字'
p_node=soup.find('p',class='title')
print p_node.name, p_name.get_text()
print'获取p段落文字'
p_node=soup.find('p',class='title')
print p_node.name, p_name.get_text()
2017-10-29
bs支持正则表达式的匹配 模糊匹配#
print '正则匹配'
href=re.compile(r'ill')
r'..' 如果正则表达式中出现反斜线 只需要写一个反斜线
print '正则匹配'
href=re.compile(r'ill')
r'..' 如果正则表达式中出现反斜线 只需要写一个反斜线
2017-10-29
给出的这个调度时序图很像讲操作系统里面的multithreading的时候,file IO和read带自身优先级的CPU和Algorithm资源配置调度
2017-10-28