为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
  • 111111111

    查看全部
  • 1111111111111111

    查看全部
  • 111111111111

    查看全部
  • 爬虫就是自动访问互联网  并且提取数据的程序

    查看全部
    0 采集 收起 来源:爬虫是什么

    2020-06-03

  • 1111111111

    查看全部
  • URL管理器

    查看全部
  • 简单爬虫架构 - 运行流程

    查看全部
  • 简单的爬虫架构

    查看全部
  • 做个截图吧!http://img1.sycdn.imooc.com//5ed07bc5000170d012830728.jpg

    查看全部
  • 调度器:管理器,解析器,下载器,输出器
    查看全部
    0 采集 收起 来源:调度程序

    2020-05-26

  • from baike_spider import html_downloader, html_outputer, url_manager
    from lxml.html import html_parser
    from astropy.units import count

    class SpiderMain(object):
        """爬虫总调度程序,会使用HTML的下载器,解析器,输出器来完成功能"""
        def __init__(self):
            """在构造函数中初始化所需要的各个对象"""
            self.urls = url_manager.UrlManager()                  #URL管理器
            self.downloader = html_downloader.HtmlDownloader()    #URL下载器
            self.parser = html_parser.HtmlParser()                #URL解析器
            self.output = html_outputer.HtmlOutputer()            #URL输出器
       
        def craw(self,root_url):
            """爬虫的调度程序,root_url就是入口url,将其添加到URL管理器"""
            count = 1
            self.urls.add_new_url(root_url)                            #添加一个新的未爬取的URL
            while self.urls.has_new_url():
                try:
                    """设置一个异常处理,用来处理网页中已经失效的URL和空的URL"""
                    new_url = self.urls.get_new_url()                  #获取一个待爬取的URL
                    print("crow %d: %s"%(count,new_url))
                    html_cont = self.downloader.download(new_url)      #下载URL页面
                    new_urls, new_data =self.parser.parse(new_url,html_cont)   
                    #调用解析器解析页面数据,得到新的URL列表和新的数据,传入两个参数,传入该URL,和下载的数据
                    self.urls.add_new_urls(new_urls)                   #新的URL列表补充到URLS
                    self.output.collect_data(new_data)                 #收集数据
                   
                    if count == 100:
                        """设置一个循环控制URL的爬取个数"""
                        break
                   
                    count  += 1
                except:
                    print("craw failed")
            self.outputer.output_html()

    if __name__ == '__main__':
        root_url = "http://baike.baidu.com/view/21087.html"       #爬虫入口URL
        obj_spider = SpiderMain()      #调用主函数
        obj_spider.craw(root_url)      #启动爬虫


    查看全部
    0 采集 收起 来源:调度程序

    2020-05-26

  • what爬虫是什么? How good学习爬虫有什么好处?
    查看全部
    0 采集 收起 来源:爬虫是什么

    2020-05-22

  • 网页解析器:从网页中提取有价值数据的工具

    python的网页解析器:正则表达式; html.parser; Beautiful Soup; lxml

    http://img1.sycdn.imooc.com//5ec2f84c0001a5cb17401032.jpg

    查看全部

举报

0/150
提交
取消
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!