-
import urllib2
查看全部 -
URL管理器
查看全部 -
简单爬虫架构
查看全部 -
可以添加data或者http header的网页下载方法
查看全部 -
最基本的下载网页:
>>> import urllib2
KeyboardInterrupt
>>> response = urllib2.urlopen('http://wwww.baidu.com')
KeyboardInterrupt
>>> print response.getcode()
KeyboardInterrupt(返回值是200,表示获取成功)
>>> print response.read()
KeyboardInterrupt
查看全部 -
.urljoin() 方法:将两个url合并为一个完整的url
查看全部 -
urllib2下载网页方法2:添加data、http header
查看全部 -
爬虫的运行流程
查看全部 -
分析目标:
1. URL格式2. 数据格式
3. 网页编码
查看全部 -
find函数的第二个参数可以传入正则表达式
href = re.compile(r'ill')
这里r表示转义字符
查看全部 -
node.name
node['href']
node.get_text()
查看全部 -
class为python专有名称,为区分开来,bs用class_
查看全部 -
find_all(name, attrs, string)
找出所有符合要求的节点
name:节点名称
attrs: 节点属性
string: 节点文字
查看全部 -
BeautifulSoup使用DOM方式解析网页
查看全部 -
python网页解析器种类:
正则表达式
html.parser
BeautifulSoup
lxml
查看全部
举报