-
结构化解析器DOM查看全部
-
eclipse实现第一,第二种方法查看全部
-
urllib2下载网页方法3查看全部
-
urllib2下载网页方法2查看全部
-
urllib2下载网页的方法1查看全部
-
import urllib2 request = urllib2.Rerquest request.add_data('a','1') request.add_header('User-Agent','Mozilla/5.0') response = urllbib2.urlopen(request)查看全部
-
网页下载器urllib2,requests查看全部
-
网页下载器查看全部
-
URL管理器--内存:小公司,两个set(),待爬和已爬;缓存数据库:大公司,两个set;关系型数据:永久保存。查看全部
-
URL管理器查看全部
-
爬虫流程查看全部
-
五个模块: 爬虫总调度程序spider main 下载器downloader 解析器parser 输出outputer url管理器 manage查看全部
-
URL格式 数据格式 页面编码查看全部
-
from bs4 import beautifulsoup html_doc=.... #创建bs对象 soup=beautifulsoup(html_doc#文档字符串',html.parser'#指定解析器,from_encoding='utf-8'#指定编码) print'获取所有链接' links= soup.find_all('a') for link in links: print link.name,link['href'],link.get_text() print '获取lacie的链接' link_node=soup.find('a',href=...) print link_node.name,link_node['href'],link_node.get_text()查看全部
-
第三步:访问节点信息 #得到节点:<a href='1.html'>python</a> #获取查找到的节点的标签名称 node.name #获取查找到的a节点的href属性 node['href'] #获取查找到的a节点的链接文字 node.get_text()查看全部
举报
0/150
提交
取消