-
next查看全部
-
网页下载器-urllib2-特殊情境的处理方法查看全部
-
urllib2下载网页查看全部
-
# -*- coding: utf-8 -*- class HtmlOutputer(object): def __init__(self): self.datas=[] #列表 #收集数据 def collect_data(self,data): if data is None: return self.datas.append(data) #输出HTML内容 def output_html(self): fout=open('output.html','w') #输出到output.html中,w为写模式 fout.write("<html>") fout.write("<body>") fout.write("<table>") #ASCI for data in self.datas: fout.write("<tr>") fout.write("<td>s%</td>" % data['url']) fout.write("<td>s%</td>" % data['title'].encode("UTF-8")) fout.write("<td>s%</td>" % data['summary'].encode("UTF-8")) fout.write("</tr>") fout.write("</table>") fout.write("</body>") fout.write("</html>") fout.close()查看全部
-
class UrlManager(object): def __init__(self): self.new_urls=set() self.old_urls=set() def add_new_url(self,url): if url is None: return if url not in self.new_urls and url not in self.old_urls: self.new_urls.add(url) def add_new_urls(self,urls): if urls is None or len(urls)==0: return for url in urls: self.add_new_url(url) def has_new_url(self): return len(self.new_urls) !=0 def get_new_url(self): new_url=self.new_urls.pop() self.old_urls.add(new_url) return查看全部
-
正则表达式过滤搜索结果查看全部
-
find_all(name, attrs, string)通过BeautifulSoup搜索节点内容 name是标签类型要加''attrs为标签属性,可直接指定如 style=“color:red” 指定值可以为正则表达式使用re.compile(r'表达式') string为文本内容可直接指定为string="text" class属性需要变为class_ 避免和python的语法冲突 获取节点对象后通过 node.name 可得到标签名称 通过node['attrs']获得节点attrs属性 根据node.get_text()获得节点的链接文字查看全部
-
对于cookie情景 需要先import cookielib包 cj=cookielib.CookieJar() 创建cookie容器 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))创建一个opener urllib2.install_opener(opener) 将cookie处理装入urllib2 response = urllib2.urlopen("URL") 使用带有cookie的urllib2访问网页查看全部
-
response = urllib2.urlopen('URL') 下载获取网页回应数据<br> response.getcode() 获取状态码 200表示获取成功<br> response.read() 网页获取内容 urllib2.Request(url) request.add_data('username','username_value') 输入用户所要输入数据 username指数据类型 request.add_header('User-Agent','Mozilla/5.0') 模拟用户访问网站的客户端 opener = urllib2.build_opener(handler) urllib2.install_opener(opener) 添加情景处理器到urllib2中 handler指所选择的处理情景,处理情景大致有四种 一种是登陆情景 一种是代理 一种是HTTPS加密 一种是相互跳转情景查看全部
-
python安装插件工具:pip install ***查看全部
-
URL管理器查看全部
-
BS语法查看全部
-
文件系统查看全部
-
aaas查看全部
-
大型互联网公司使用redis作为URL管理器,使用set数据结构存取待爬取和已爬取的URL集合查看全部
举报
0/150
提交
取消