-
import urllib2 class HtmlDownloader(object): #下载网页内容 def download(self,url): if url is None: return None response=urllib2.urlopen(url) if response.getcode()!=200:#判断是否请求成功 return None return response.read()查看全部
-
class UrlManager(object): def __init__(self):#初始化 self.new_urls=set() self.old_urls=set() #向URL管理器中添加一个新的URL def add_new_url(self,url): if url is None: return if url not in self.new_urls and url not in self.old_urls : self.new_urls.add(url) #向URL管理器中批量添加新的URL def add_new_urls(self,urls): if urls is None or len(urls)==0: return for url in urls: self.add_new_url(url)#调用单条添加方法 #判断URL管理器中是否有新的待爬取的URL def has_new_url(self): return len(self.new_urls)!=0 #从URL管理器中获取一个新的带爬取的URL def get_new_url(self): new_url=self.new_urls.pop()#返回一个URL并从中移除这条URL self.old_urls.add(new_url)#添加到 self.old_urls中 return new_url查看全部
-
调度器是做流程控制,可用状态机实现。查看全部
-
url管理器管理url是否已经爬过; 网页下载器缓存网页全部内容; 网页分析器获取有效信息存储,并获取新的可用URL反馈给url管理器。查看全部
-
Craw查看全部
-
beautifulSoup 访问节点信息查看全部
-
beautifulSoup 搜索节点查看全部
-
创建Beautiful Soup对象查看全部
-
beautiful Soup 语法2查看全部
-
beautiful Soup 语法查看全部
-
beautiful Soup 下载地址查看全部
-
结构化解析查看全部
-
网页解析器查看全部
-
urllib2 下载网页方法1查看全部
-
URL管理器查看全部
举报
0/150
提交
取消