-
实例爬虫-分析目标查看全部
-
find方法可以链式调用,用于查找指定节点下的子节点。图中即为先查找指定class属性的dd节点,再查找dd节点下的h1节点查看全部
-
urllib2下载网页方法2 添加 data 、http hearer查看全部
-
urllib2 下载网页方法3 添加特殊情景的处理器查看全部
-
urllib2 实现简单网页抓取查看全部
-
Python网页下载器 urllib2(官方) requests(第三方)查看全部
-
URL管理器实现方式 Python内存 关系型数据MySQL 缓存数据库redis查看全部
-
URL管理器查看全部
-
简单爬虫架构 运行流程查看全部
-
简单爬虫架构查看全部
-
Python 数据的挖掘 为我所用查看全部
-
Python爬虫入门查看全部
-
BeautifulSoup访问节点信息查看全部
-
BeautifulSoup搜索节点find_all/find使用方式查看全部
-
BeautifulSoup实例(代码 全) # coding:utf-8 from bs4 import BeautifulSoup import re html_doc = "" #引用段落自http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree,其中的短文,因笔记字数要求有限,无法直接复制过来 soup = BeautifulSoup(html_doc, 'html.parser', from_encoding="utf-8") print u"获取所有的链接" links = soup.find_all('a') for link in links: print link.name, link['href'], link.get_text() print u"获取lacie的链接" link_node = soup.find('a', href="http://example.com/lacie") print link_node.name, link_node['href'], link_node.get_text() print u"正则匹配" link_node = soup.find('a', href=re.compile(r"ill")) print link_node.name, link_node['href'], link_node.get_text() print u"获取p段落文字" p_node = soup.find('p', class_="title") print p_node.name, p_node.get_text()查看全部
举报
0/150
提交
取消