-
# coding:utf-8 from bs4 import BeautifulSoup import re html_doc = "" #引用段落自http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree,其中的短文,因笔记字数要求有限,无法直接复制过来 soup = BeautifulSoup(html_doc, 'html.parser', from_encoding="utf-8") print u"获取所有的链接" links = soup.find_all('a') for link in links: print link.name, link['href'], link.get_text() print u"获取lacie的链接" link_node = soup.find('a', href="http://example.com/lacie") print link_node.name, link_node['href'], link_node.get_text() print u"正则匹配" link_node = soup.find('a', href=re.compile(r"ill")) print link_node.name, link_node['href'], link_node.get_text() print u"获取p段落文字" p_node = soup.find('p', class_="title") print p_node.name, p_node.get_text()查看全部
-
DOM树查看全部
-
爬虫过程查看全部
-
网页解析器-beautifulsoup语法查看全部
-
Python网页解析器的种类和结构查看全部
-
Python网页解析器的种类查看全部
-
网页解析器流程查看全部
-
网页下载器-urllib2添加特殊场景查看全部
-
网页下载器-urllib2的第三种实现方式查看全部
-
网页下载器-urllib2的第二种实现方式查看全部
-
网页下载器-urllib2的第一种实现方法查看全部
-
URL管理器实现方式查看全部
-
URL管理器查看全部
-
爬虫运行流程查看全部
举报
0/150
提交
取消