-
3.特殊情景的处理器
有的网站需要登陆 代理 url相互跳转等
查看全部 -
2.第二个用urllib2下载网页的方法,传入一些信息
python3.x需要这样写
# encoding:UTF-8
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).getcode()
print(data)查看全部 -
1.最简洁方法
直接请求,获取状态码200,读取内容
查看全部 -
URL补全为分析URL的一种
查看全部 -
URL管理器实现方式,内存 关系数据库 缓存数据库
查看全部 -
URL管理器:管理待抓取和已抓取URL集合,防止重复,循环抓取
查看全部 -
爬虫的架构
查看全部 -
URL管理器实现方式
查看全部 -
网页解析器DOM
查看全部 -
beautifulsoup 爬取数据
可以使用正则模糊匹配
如图示例
soup.find('a', href=re.compile(r"ill"))
注:
r"ill" 基础语法,R/r可以真实输出,不会将字符串进行转义
查看全部 -
访问节点信息
node.name 获取查找到的节点标签名称
node['href']获取查找到的a节点href属性
node.get_text()获取查找到的a节点的链接文字
查看全部 -
find_all(标签,属性,字符)
其中class属性为避免与python系统函数冲突,应写为class_
查看全部 -
实例化beautifulsoup,
并赋值指定html属性
查看全部 -
HTTPCookieProcessor
ProxyHandler
HTTPSHandler
HTTPRedirectHandler
使用以上方法可以模拟登陆/herder头等参数
查看全部 -
urllib2 据其它笔记描述,它是python2的官方模块
requests 待补充
----------------
from urllib import request
不知道是不是requests,待验证
查看全部
举报