-
URL管理器:管理待抓取URL集合和已抓取URL集合 -- 防止重复抓取、防止循环抓取查看全部
-
爬虫架构查看全部
-
分析目标查看全部
-
实例爬虫查看全部
-
爬虫动态运行流程查看全部
-
简单爬虫架构查看全部
-
爬虫架构查看全部
-
# encoding = "UTF-8" # author: huanggan time:2018/1/16 import re from bs4 import BeautifulSoup html_doc = """引用段落自http://www.crummy.com/software/BeautifulSoup/bs4/doc/""" soup = BeautifulSoup(html_doc, 'html.parser') print('获取所有的链接') links = soup.find_all('a') for link in links: print(link.name, link['href'], link.get_text()) print('获取Lacie的链接') link_node = soup.find('a', href="http://example.com/lacie") print(link_node.name, link_node['href'], link_node.get_text()) print('正则匹配') link_node = soup.find('a', href=re.compile(r"ill")) print(link_node.name, link_node['href'], link_node.get_text()) print('获取p段落文字') p_node = soup.find('p', class_="title") print(p_node.name, p_node.get_text())查看全部
-
爬一个网站需要知道什么查看全部
-
访问节点信息查看全部
-
搜索节点查看全部
-
创建BeautifulSoup对象查看全部
-
节点结构查看全部
-
bs4语法查看全部
-
网页解析器----结构化解析-DOM查看全部
举报
0/150
提交
取消