-
爬虫结构图查看全部
-
重点看查看全部
-
import urllib2 #直接请求 response = urllib2.urlopen('http://www.baidu.com') #获取状态码,200表示成功 print resopnse.getcode() #读取内容 cont = response.read()查看全部
-
实例爬虫查看全部
-
# coding:utf-8 from bs4 import BeautifulSoup import re print("Python3 的代码如下") html_doc = """ 因字数限制,省略。请到 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree 复制吧 """ soup = BeautifulSoup(html_doc, 'html.parser') print("获取所有的链接") links = soup.find_all('a') for link in links: print(link.name, link['href'], link.get_text()) print("获取lacie的链接") link_node = soup.find('a', href="http://example.com/lacie") print(link_node.name, link_node['href'], link_node.get_text()) print("正则匹配") link_node = soup.find('a', href=re.compile(r"ill")) print(link_node.name, link_node['href'], link_node.get_text()) print("获取p段落文字") p_node = soup.find('p', class_="title") print(p_node.name, p_node.get_text())查看全部
-
访问节点信息查看全部
-
搜索节点的名称属性内容查看全部
-
创建BeautifulSoup 对象查看全部
-
可以搜索的节点类型查看全部
-
Beautiful Soup 4 语法查看全部
-
URL管理器查看全部
-
网页解析器的构造和定义 树形结构的访问查看全部
-
python常用网页解析器<br> 本课程选用第三方插件Beautiful Soup来做解析器 第一种模糊匹配 其他三种结构化匹配查看全部
-
网页解析器的运行过程和作用查看全部
-
第三种 import cookielib查看全部
举报
0/150
提交
取消