-
Beautiful Soup代码查看全部
-
Beautiful Soup 访问节点的标签、属性、文本查看全部
-
网页解析器 Beautiful Soup 的find/find_all方法使用查看全部
-
urllib2下载网页代码查看全部
-
网页下载方法3查看全部
-
下载网页方法2查看全部
-
下载网页方法1查看全部
-
网页下载器-urllib2:添加特殊情景处理器(以cookie方式为例)查看全部
-
网页下载器-urllib2:添加特殊情景的处理器:查看全部
-
网页下载器-urllib2:第二种方法查看全部
-
网页下载器-urllib2:第一种方法查看全部
-
url管理器的三种实现方式查看全部
-
简单爬虫架构的运行流程查看全部
-
from bs4 import BeautifulSoup import re html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; and they lived at the bottom of a well.</p> <p class="story">...</p> """ soup=BeautifulSoup(html_doc,'html.parser',from_encoding='utf-8') print("获取所有的链接") links=soup.find_all('a') print("获取lacie的链接") link_node=soup.find('a',href='http://example.com/lacie') print(link_node.name,link_node['href'],link_node.get_text()) print("正则匹配") link_node=soup.find('a',href=re.compile(r"ill")) print(link_node.name,link_node['href'],link_node.get_text()) p_node=soup.find('p',class_='title') print(p_node.name,p_node.get_text())查看全部
-
从页面可以分析得到的内容查看全部
举报
0/150
提交
取消