Python开发简单爬虫_学习笔记

首页免费课 Python开发简单爬虫笔记

Python开发简单爬虫

最热最新

ciicjsb 01:53

111111111

查看全部

0 采集收起来源：Python爬虫URL管理
2020-06-03
ciicjsb 01:36

1111111111111111

查看全部

0 采集收起来源：Python简单爬虫架构的动态运行流程
2020-06-03
ciicjsb 01:26

111111111111

查看全部

0 采集收起来源：Python简单爬虫架构
2020-06-03
ciicjsb 01:02

爬虫就是自动访问互联网并且提取数据的程序

查看全部

0 采集收起来源：爬虫是什么
2020-06-03
ciicjsb 02:37

1111111111

查看全部

0 采集收起来源：Python开发简单爬虫课程介绍
2020-06-03
qq_渲染流年_0 01:46

URL管理器

查看全部

0 采集收起来源：Python爬虫URL管理
2020-05-30
qq_渲染流年_0 01:38

简单爬虫架构 - 运行流程

查看全部

0 采集收起来源：Python简单爬虫架构的动态运行流程
2020-05-30
qq_渲染流年_0 01:22

简单的爬虫架构

查看全部

0 采集收起来源：Python简单爬虫架构
2020-05-30
weixin_慕勒4122867

做个截图吧！

查看全部

0 采集收起来源：Python简单爬虫架构的动态运行流程
2020-05-29
慕勒7519324 05:27

调度器：管理器，解析器，下载器，输出器

查看全部

0 采集收起来源：调度程序
2020-05-26
慕容4382191

from baike_spider import html_downloader, html_outputer, url_manager
from lxml.html import html_parser
from astropy.units import count
class SpiderMain(object):
    """爬虫总调度程序，会使用HTML的下载器，解析器，输出器来完成功能"""
    def __init__(self):
        """在构造函数中初始化所需要的各个对象"""
        self.urls = url_manager.UrlManager()                  #URL管理器
        self.downloader = html_downloader.HtmlDownloader()    #URL下载器
        self.parser = html_parser.HtmlParser()                #URL解析器
        self.output = html_outputer.HtmlOutputer()            #URL输出器

    def craw(self,root_url):
        """爬虫的调度程序，root_url就是入口url，将其添加到URL管理器"""
        count = 1
        self.urls.add_new_url(root_url)                            #添加一个新的未爬取的URL
        while self.urls.has_new_url():
            try:
                """设置一个异常处理，用来处理网页中已经失效的URL和空的URL"""
                new_url = self.urls.get_new_url()                  #获取一个待爬取的URL
                print("crow %d: %s"%(count,new_url))
                html_cont = self.downloader.download(new_url)      #下载URL页面
                new_urls, new_data =self.parser.parse(new_url,html_cont)
                #调用解析器解析页面数据，得到新的URL列表和新的数据，传入两个参数，传入该URL，和下载的数据
                self.urls.add_new_urls(new_urls)                   #新的URL列表补充到URLS
                self.output.collect_data(new_data)                 #收集数据

                if count == 100:
                    """设置一个循环控制URL的爬取个数"""
                    break

                count += 1
            except:
                print("craw failed")
        self.outputer.output_html()
if __name__ == '__main__':
    root_url = "http://baike.baidu.com/view/21087.html"       #爬虫入口URL
    obj_spider = SpiderMain()      #调用主函数
    obj_spider.craw(root_url)      #启动爬虫

查看全部

0 采集收起来源：调度程序
2020-05-26
慕粉1120065984 00:13

what爬虫是什么? How good学习爬虫有什么好处?

查看全部

0 采集收起来源：爬虫是什么
2020-05-22
Akali赛高 03:37

网页解析器：从网页中提取有价值数据的工具
python的网页解析器：正则表达式; html.parser; Beautiful Soup; lxml

查看全部

0 采集收起来源：Python爬虫网页解析器简介
2020-05-19

首页上一页 6 7 8 9 10 11 12 下一页尾页

0/150

提交

取消

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫