-
网页下载器查看全部
-
URL 管理器实现方式查看全部
-
URL 管理器查看全部
-
基本知识框架查看全部
-
URL管理器三种实现方式:内存;关系型数据库;缓存数据库。 大公司多缓存数据库;个人或小公司,内存即可,不够用了或想永久储存就用关系型数据库。查看全部
-
URL管理器:至少支持的5个功能查看全部
-
简单爬虫架构——运行流程查看全部
-
爬虫调度端:启动,停止,监控运行情况; URL管理器:管理待爬取和已爬取的URL; 网页下载器:接收待爬取URL,将网页内容下载为字符串,给解析器; 网页解析器:一方面解析出有价值的数据,一方面解析出其他关联URL,传回URL管理器进行循环。查看全部
-
爬虫简介查看全部
-
from baike_spider import url_manager, html_downloader, html_parser,\ html_outputer class SpiderMain(): def __init__(self): self.urls=url_manager.UrlManager() self.downloader=html_downloader.HtmlDownloader() self.parser=html_parser.HtmlParser() self.outputer=html_outputer.HtmlOutputer() def craw(self,root_url): count=1 self.urls.add_new_url(root_url) while self.urls.has_new_url():#如果有待爬去的url new_url=self.urls.get_new_url()#取出一个 print 'craw %d:%s' %(count,new_url) html_cont=self.downloader.download(new_url) new_urls,new_data=self.parser.parse(new_url,html_cont) self.urls.add_new_urls(new_urls) self.outputer.collect_data(new_data) count=count+1 if count=1000 break self.outputer.output_html() if _name_=="__main__": root_url = "http://baike.baidu.com/view/21087.htm" obj_spider=SpiderMain() obj_spider.craw(root_url)查看全部
-
视屏中的练习程序 import urllib2 import cookielib import bs4 url = "http://www.baidu.com" print '11---------------------------' response1 = urllib2.urlopen(url) print response1.getcode() print len(response1.read()) print '22----------------------------' request = urllib2.Request(url) request.add_header("user-agent", "Mozilla/5.0") response2 = urllib2.urlopen(request) print response1.getcode() print len(response1.read()) print '33------------------------------' cj = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) urllib2.install_opener(opener) response3 = urllib2.urlopen(url) print response3.getcode() print len(response3.read()) print bs4查看全部
-
------------方法一 ---------------- #导入库 import urllib2 #openurl获取url response = urllib2.openurl('http://www.xxx.com') #getcod获取返回码 print response.getcode() #读取内容 cont = response.read() --------------方法二-------------- import urllib2 #创建request对象 request = urllib2.Request(url) #添加数据 request.add_data('a','1') #添加http的header request.add_header('User-Agent','Mozilla/5.0') #发送请求获取结果 response = urllib2.urlopen(request) ------------方法三------------ import urllib2,cookielib #创建cookie容器 cj = cookielib.CookieJar() #创建1个opener opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) #给urllib2安装opener urllib2.install_opener(opener) #使用带有cookie的urllib2访问网页 response = urllib2.urlopen('http://www.xxx.com')查看全部
-
cookie查看全部
-
url管理器的实现查看全部
-
url管理器查看全部
举报
0/150
提交
取消