-
简单爬虫架构
查看全部 -
网页解析器类型:
1使用字符串的模糊匹配,不适用于复杂的
2Python自带模块
3主要使用,为第三方插件
4为第三方插件
查看全部 -
网页下载器(工具):将网上URL对应的网页下载到本地
网页下载器将网上的网页以HTML的形式下载到本地,存储为一个本地文件或内存字符串
查看全部 -
URL管理器的实现方式
大型公司使用“缓存数据库”
小型公司或个人使用“内存”
内存不够用或想要永久保存使用“关系数据库”
查看全部 -
URL管理器支持的功能范围
查看全部 -
爬虫架构运行流程
查看全部 -
确定目标=》分析目标=》编写代码=》执行爬虫
分析目标:URL格式,数据格式,网页编码
查看全部 -
3.访问节点信息
查看全部 -
2.搜索节点(find_all, find)
查看全部 -
创建beautifulSoup对象
查看全部 -
beautiful soup解析方式
查看全部 -
搜索节点的方式 标签名称,属性,文字
查看全部 -
urlib2下载网页的方法(一):
直接请求:reponse = urllib2.urlopen(url);
获取状态码:response.getcode();
读取内容:response.read();
urlib2下载网页的方法(二)添加data、http header:
将url、data、http header传给urllib2.Request
urllib2.urlopen(request);
创建request = urllib2.Request(url);
request.add_data('a','1')
request.add_data('User-Agent','Mozilla/5.0');伪装火狐浏览器
reponse = urllib2.urlopen(request );
urlib2下载网页的方法(三):添加特殊情景的处理器
HTTPCookieProcessor: 需要用户登录才能访问
ProxyHandler: 需要代理才能访问
HTTPSHandler: 访问加密网页HTTPS
HTTPRedirectHandler: 自动跳转网页
传送给opner = urllib2.build_opener(handler);
urllib2.install_opener(opener)具有以上场景的处理能力
最后urllib2.urlopen(url);或urllib2.urlopen(request);
查看全部 -
url 管理器,url 下载器,url解析器
url 管理器负责将后两者的结果进行处理以及分配任务,防止重复下载和循环下载
查看全部 -
ERL管理器的实现方式:
Python内存,可以去重
is_crawled标志URL是已爬还是未爬取
查看全部
举报