-
动态运行流程查看全部
-
简单爬虫架构查看全部
-
运行流程查看全部
-
reptile架构查看全部
-
urllib2下载网页方法3:添加特殊情景的处理器查看全部
-
urllib2下载网页方法2:可以向服务器提交用户输入数据和http头部信息查看全部
-
urllib2下载网页方法1查看全部
-
Python网页下载器种类查看全部
-
网页下载器的作用查看全部
-
URL管理器:存储待爬取和已抓取的url集合。 一个待爬取的url爬取之后,就会进入已爬取集合。 防止重复抓取和循环抓取查看全部
-
调度器:负责管理调度整个架构 URL管理器:负责存储要爬取的URL 下载器:负责下载要爬取的URL内容 解析器:把下载下来URL内容进行解析,解析出来的结果有爬取到的数据和新的URL 应用:爬取到的数据的处理查看全部
-
搜索节点(find_all,find)查看全部
-
创建BeautifulSoup对象查看全部
-
import urllib2 url ="http://www.baidu.com" print '第一种方法' respones1 = urllib2.urlopen(url) print respones1.getcode() print len(respones1.read()) print "第二种方法" request = urllib2.Request(url) request.add_header("user-agent","Mozillla/5.0") respones2 = urllib2.urlopen(request) print respones2.getcode() print len(respones2.read()) print '第三种方法' cj =cookielib.CookieJar() opener = urllib2.bulid_opener(urllib2.HTTPCookieProcessor(cj)) urllib2.install_opener(opener) print respones3.getcode() print cj print respones3.read()查看全部
-
BS4的语法查看全部
举报
0/150
提交
取消