-
第一种和第二种查看全部
-
在特殊场景下使用,比如需要登陆等查看全部
-
在特殊场景下使用,比如需要登陆等查看全部
-
request方法查看全部
-
第一种方法查看全部
-
python两种网页下载器,urllib2,官方自带模块;requests,第三方模块,功能更强大查看全部
-
什么是网页下载器,怎么用查看全部
-
URL管理器的实现方式: URL管理器的实现方式有三种,小型使用内存,set()可去除列表中重复的元素,永久存储使用关系数据库MY SQL,大型公司出于性能考虑,使用缓存数据库redis查看全部
-
URL 管理器作用和运作查看全部
-
运行流程查看全部
-
课程介绍查看全部
-
url管理器的4个方法查看全部
-
DOM树查看全部
-
结构化解析DOM树(Document Object Model)查看全部
-
# coding:utf-8 from bs4 import BeautifulSoup import re print("Python3 的代码如下") html_doc = """ 因字数限制,省略。请到 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree 复制吧 """ soup = BeautifulSoup(html_doc, 'html.parser') print("获取所有的链接") links = soup.find_all('a') for link in links: print(link.name, link['href'], link.get_text()) print("获取lacie的链接") link_node = soup.find('a', href="http://example.com/lacie") print(link_node.name, link_node['href'], link_node.get_text()) print("正则匹配") link_node = soup.find('a', href=re.compile(r"ill")) print(link_node.name, link_node['href'], link_node.get_text()) print("获取p段落文字") p_node = soup.find('p', class_="title") print(p_node.name, p_node.get_text())查看全部
举报
0/150
提交
取消