-
URL管理器查看全部
-
简单爬虫架构——运行流程查看全部
-
爬虫调度端:启动,停止,监控运行情况; URL管理器:管理待爬取和已爬取的URL; 网页下载器:接收待爬取URL,将网页内容下载为字符串,给解析器; 网页解析器:一方面解析出有价值的数据,一方面解析出其他关联URL,传回URL管理器进行循环。查看全部
-
爬虫的价值:可以充分利用互联网这一开放平台,抓取满足自己需求的数据,进行分析研究,得到有意义,有价值的研究结果查看全部
-
爬虫:一段自动抓取互联网信息的程序查看全部
-
基础课程,主要是针对静态加载的网页进行爬虫抓取查看全部
-
分析目标查看全部
-
实现爬虫查看全部
-
示例练习代码: # coding:utf-8 from bs4 import BeautifulSoup import re html_doc = "" #引用段落自http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree,其中的短文,因笔记字数要求有限,无法直接复制过来 soup = BeautifulSoup(html_doc, 'html.parser', from_encoding="utf-8") print u"获取所有的链接" links = soup.find_all('a') for link in links: print link.name, link['href'], link.get_text() print u"获取lacie的链接" link_node = soup.find('a', href="http://example.com/lacie") print link_node.name, link_node['href'], link_node.get_text() print u"正则匹配" link_node = soup.find('a', href=re.compile(r"ill")) print link_node.name, link_node['href'], link_node.get_text() print u"获取p段落文字" p_node = soup.find('p', class_="title") print p_node.name, p_node.get_text()查看全部
-
访问节点信息查看全部
-
搜索节点(find_all, find)查看全部
-
Beautiful Soup语法3 创建BeautifulSoup对象查看全部
-
Beautiful Soup语法2查看全部
-
Beautiful Soup语法查看全部
-
安装Beautiful Soup查看全部
举报
0/150
提交
取消